样本比例的抽样分布 — AP 统计学
1. 定义与核心符号 ★★☆☆☆ ⏱ 3 min
当我们从具有分类特征(例如选民支持率、缺陷产品)的总体中收集随机样本时,我们计算样本比例$\hat{p}$来估计真实总体比例$p$。本小节占AP考试总分的5-8%,同时出现在选择题和自由作答题中,通常是推断题的前置知识。
- $p$: 固定的未知总体比例(参数)
- $\hat{p}$: 样本比例(统计量,随样本变化)
- $n$: 样本容量
- $\mu_{\hat{p}}$: 抽样分布的均值
- $\sigma_{\hat{p}}$: 标准差(标准误)的抽样分布
2. $\hat{p}$抽样分布的中心和离散程度 ★★☆☆☆ ⏱ 4 min
对于任意$\hat{p}$的抽样分布,其中心始终等于真实总体比例:
μ_{\hat{p}} = p
这个性质说明$\hat{p}$是$p$的无偏估计量:平均而言,在所有相同容量的随机样本中,样本比例恰好命中真实总体比例,不存在系统性的高估或低估。
$\hat{p}$的标准差(标准误)遵循以下公式:
σ_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}
直观理解:当$p=0.5$时变异程度最高,当$p$接近0或1时变异程度降低。更大的样本会产生变异更小的估计:要将标准误减半,你需要4倍大的样本容量。
Exam tip: 始终区分$\hat{p}$(来自你单个样本的一个值)和$\mu_{\hat{p}}$(所有可能$\hat{p}$值的均值)——混淆这两个符号是自由作答题中常见的扣分点。
3. 正态近似的条件 ★★★☆☆ ⏱ 3 min
要使用正态分布计算$\hat{p}$的概率,必须满足两个条件,每个条件对应不同的目的:
- **10%条件**: When sampling without replacement, $n \leq 0.1N$ (样本容量不超过总体容量的10%). This makes dependence from sampling without replacement negligible, so the standard deviation formula is valid.
- **Large Counts (Normal) Condition**: $np \geq 10$ and $n(1-p) \geq 10$ (期望成功数和期望失败数都至少为10). 这保证抽样分布足够接近正态,可以使用正态近似。AP课程大纲要求阈值为10,而非部分旧教材使用的5。
Exam tip: 在自由作答题中,你必须明确说出每个条件并展示检查过程才能获得满分——只说"条件满足"在条件步骤中得零分。
4. 计算$\hat{p}$的概率 ★★★☆☆ ⏱ 4 min
Once both conditions are satisfied, the sampling distribution of $\hat{p}$ is approximately Normal with mean $\mu_{\hat{p}} = p$ and standard deviation $\sigma_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}}$. To find the probability that $\hat{p}$ falls in any range, convert $\hat{p}$ to a z-score, then use the standard Normal distribution:
z = \frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}
Exam tip: When $p$ is known (always true for sampling distribution problems before inference), always use $p$ to calculate $\sigma_{\hat{p}}$ — never use $\hat{p}$ here, that is only for confidence intervals when $p$ is unknown.
Common Pitfalls
Why: Students confuse this with confidence interval inference, where we do not know $p$ so we use $\hat{p}$ to estimate standard error.
Why: Students memorize the variance $\frac{p(1-p)}{n}$ but forget standard deviation is the square root of variance.
Why: Students memorize the two conditions but do not learn what each checks.
Why: Students memorize that random sampling gives unbiased estimators, but do not state the definition correctly.
Why: Some older textbooks use 5, but the AP Statistics CED requires 10.