样本均值的抽样分布 — AP 统计学
1. 什么是样本均值的抽样分布? ★★☆☆☆ ⏱ 3 min
样本均值的抽样分布(常简写为$\bar{x}$的抽样分布)是从给定总体中抽取所有相同固定大小$n$的随机样本,计算得到的样本均值统计量的概率分布。它与总体分布(总体中所有个体值的分布)和样本分布(单个采集样本中值的分布)不同。
2. $\bar{x}$抽样分布的均值和标准误 ★★★☆☆ ⏱ 4 min
任何抽样分布的两个核心性质是中心(均值)和离散程度(标准差,在此处称为标准误)。对于从均值为 $\mu$、标准差为 $\sigma$的总体中抽取的任意大小为$n$的简单随机样本, $\bar{x}$抽样分布的均值始终等于总体均值:
\mu_{\bar{x}} = \mu
这说明样本均值 $\bar{x}$是总体均值 $\mu$的无偏估计量:在重复抽样中,所有可能样本均值的平均值等于真实总体均值。抽样分布的离散程度由下式给出:
\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}
该公式仅在满足两个条件时成立:(1) 样本中的观测值相互独立,对于不放回抽样,这要求满足10%条件:样本量$n$不超过总体总大小$N$的10%($n \leq 0.1N$)。如果是有放回抽样或总体为无穷大,10%条件自动满足。从直观上看,增大样本量$n$会减小标准误,意味着更大的样本得到的样本均值平均而言更接近真实总体均值。
Exam tip: 在AP自由作答题(FRQ)中,如果你在使用$\sigma/\sqrt{n}$公式前没有明确陈述并检查10%条件,会被扣一分。即使条件明显满足,也一定要写上这一步。
3. 中心极限定理(CLT) ★★★☆☆ ⏱ 3 min
中心极限定理(CLT)是一个核心结论,它让我们即使在基础总体不服从正态分布时,也可以对样本均值使用正态分布计算。正式来说,中心极限定理指出,对于任意总体分布(无论其形状如何:偏态、均匀、双峰等),随着样本量$n$增大,样本均值 $\bar{x}$的抽样分布会近似服从正态分布。在AP统计学中,我们遵循经验法则:当$n \geq 30$时,样本量足够大,中心极限定理的近似成立。如果原总体已经服从正态分布,那么无论样本量多小, $\bar{x}$的抽样分布都精确服从正态分布,因此这种情况下不需要使用中心极限定理。
从直观上看,中心极限定理成立是因为取平均会抵消个体观测中的极端值。即使很多个体值非常高或非常低,多个值的平均值也会倾向于聚集在均值附近,因此即使原分布不是钟形,平均值的分布也会呈现钟形。
Exam tip: 仅当总体不服从正态分布时才需要引用中心极限定理。如果总体已经是正态的,你不需要CLT来断言抽样分布的正态性;只要说明总体是正态的,对任何样本量都足够。AP评分员在这种情况下会因错误引用CLT扣分。
4. 计算样本均值的概率 ★★★★☆ ⏱ 4 min
该知识点在AP考试中最常见的应用是计算样本均值落在给定区间内的概率。计算的分步流程如下:
- 检查条件:(a) 独立性的10%条件,(b) 抽样分布的正态性(要么总体正态,要么$n \geq 30$且中心极限定理适用)。
- 计算 $\mu_{\bar{x}} = \mu$和 $\sigma_{\bar{x}} = \sigma/\sqrt{n}$。
- 计算观测样本均值 $\bar{x}$的z分数:
- 利用标准正态分布得到所求概率。
z = \frac{\bar{x} - \mu}{\sigma/\sqrt{n}}
注意这和个体观测的z分数不同,个体观测使用 $\sigma$(总体标准差)而非 $\sigma/\sqrt{n}$(标准误)。
Exam tip: 如果题目要求个体观测落在某个区间的概率,使用 $\sigma$;如果要求样本均值落在某个区间的概率,始终使用 $\sigma/\sqrt{n}$。计算前务必再次检查题目要求的是哪一个。
Common Pitfalls
Why: 混淆了总体标准差(用于个体观测)和样本均值抽样分布的标准差,这是选择题中非常常见的错误。
Why: 混淆了统计量的抽样分布和原总体分布。
Why: 学生专注于正态性条件,跳过了公式成立所需的独立性检查。
Why: 混淆了非正态总体对CLT的要求和正态总体的情况。
Why: 学生记住了'CLT = 正态性',即使不必要也会自动引用。
Why: 混淆了三个分布层次:总体、样本和抽样分布。