什么是t分布? — AP 统计学
1. t分布的定义 ★★☆☆☆ ⏱ 3 min
t分布(也称为学生t分布)是由威廉·戈塞特(以笔名“Student”发表)开发的钟形对称概率分布,适用于小样本且总体标准差未知的场景。
这是所有均值的t置信区间和t检验的基础概念,这些内容占AP统计学考试总分的12-15%,同时出现在选择题和自由作答题部分。
2. 自由度 ★★☆☆☆ ⏱ 3 min
自由度(缩写为df)是控制t分布形状的参数。对于所有总体均值的单样本推断流程,自由度的计算公式为:
df = n - 1
我们从$n$中减去1,是因为在计算样本标准差$s$时,我们使用样本均值$\bar{x}$估计未知总体均值$\mu$。相对于$\bar{x}$的偏差之和始终为0,因此只有$n-1$个偏差可以自由变化,给我们提供$n-1$个独立信息。随着自由度增加,t分布会变得更窄,更接近标准正态分布。
Exam tip: 在自由作答题中一定要明确写出你的自由度;AP阅卷官要求写出这一点才能给满分。
3. 形状比较:t分布 vs 标准正态(z)分布 ★★★☆☆ ⏱ 4 min
t分布和标准正态(z)分布都是单峰、对称且中心在0的分布。它们的离散程度不同:对于任意有限自由度,t分布的尾部都比z分布更厚。这种额外的离散程度对应了用样本标准差$s$估计$\sigma$带来的额外不确定性,$s$会因样本不同而变化。
随着自由度增加,t分布会收敛于z分布。当$df \to \infty$时,$s$几乎和$\sigma$完全相同,因此额外不确定性消失。即使$df = 30$,t分布也已经非常接近z分布,但对于有限样本量,二者永远不会完全相同。
Exam tip: 如果你忘记了t的尾部是否比z更厚,记住:样本量越小 = 不确定性越高 = 离散程度越大 = 尾部越厚。这个规律适用于任何选择题比较题。
4. 使用t分布的条件 ★★★☆☆ ⏱ 4 min
只要总体标准差$\sigma$未知(这在AP考试问题中几乎总是成立),我们就会在对总体均值(或两个总体均值差)进行推断时使用t分布。t流程有效的两个核心条件是:
- **随机性**:数据来自感兴趣总体的随机样本,或随机对照实验。
- **正态性/大样本**:$\bar{x}$的抽样分布近似正态。满足以下任意一种情况即可:样本量较大(根据中心极限定理,$n \geq 30$),或总体分布近似正态。对于小样本($n < 30$),我们检查样本是否存在强偏斜或极端异常值;如果不存在,就可以假设满足正态性。
Exam tip: 在AP自由作答题中,你必须通过两点证明使用t分布的合理性:$\sigma$未知,且随机性和正态性条件都满足。不要只停留在“因为$\sigma$未知所以我们用t”。
Common Pitfalls
Why: 学生混淆了极少数$\sigma$已知的情况和现实/AP考试中常见的$\sigma$未知情况
Why: 学生忘记了在用样本均值估计总体均值计算$s$时,会损失一个自由度
Why: 学生把t分布的性质和右偏的卡方分布弄混了
Why: 学生混淆了定量数据均值(t)的推断和分类数据比例(z)的推断
Why: 学生把中心极限定理的正态性条件和使用t分布的要求弄混了