统计学 · CED 第7单元：定量数据的推断：均值 · 阅读约 14 分钟 · 更新于 2026-05-11

总体均值的推断 — AP 统计学

AP 统计学 · CED 第7单元：定量数据的推断：均值 · 14 min read

1. 总体均值推断概述 ★★☆☆☆ ⏱ 2 min

总体均值推断利用定量样本数据，对未知的真实总体均值$\mu$得出基于证据的结论。该内容约占AP统计学考试总分的4-5%，常在选择题和自由作答题中出现。

2. t分布与推断条件 ★★☆☆☆ ⏱ 3 min

当我们不知道真实总体标准差$\sigma$时，我们用样本标准差$s$估计它，由此得到样本均值的*标准误*：$s/\sqrt{n}$。统计量$\frac{\bar{x} - \mu}{s/\sqrt{n}}$服从t分布，而非正态分布。

t分布对称、钟形、以0为中心，和z分布相似，但由于用$s$估计$\sigma$带来额外变异性，因此尾部更厚。t分布的形状仅由自由度决定，单样本推断的自由度为$df = n-1$。随着自由度（和样本量）增加，t分布逐渐趋近于z分布。

**随机性**：数据来自随机样本或随机化实验，以保证无偏性。
**独立性**：个体观测值相互独立。对于无放回抽样，10%条件要求$n < 0.1N$。
**正态性/大样本**：若$n \geq 30$（中心极限定理），或小样本情况下样本无强偏斜或异常值，则样本均值$\bar{x}$的抽样分布近似正态。

3. 总体均值的单样本t区间 ★★★☆☆ ⏱ 3 min

单样本t区间利用样本数据估计未知总体均值$\mu$，遵循置信区间的通用结构：

\text{Point Estimate} \pm \text{Critical Value} \times \text{Standard Error}

对于总体均值，点估计是$\bar{x}$，临界值是$t^*_{df}$（可从t表或计算器得到，匹配你的置信水平和$df = n-1$），标准误是$s/\sqrt{n}$。完整公式为：

\bar{x} \pm t^*_{df} \frac{s}{\sqrt{n}}

C%置信区间的正确解释是：*我们有C%的把握认为，从[下限]到[上限]的区间包含真实总体均值[结合题目背景]*。置信水平描述了该方法的长期表现：如果我们重复抽样多次，用该方法构造的区间中有C%会包含真实均值。

4. 总体均值的单样本t检验 ★★★☆☆ ⏱ 3 min

单样本t检验用于检验关于总体均值$\mu$取值的断言。原假设始终为$H_0: \mu = \mu_0$，其中$\mu_0$是断言中的假设值。根据研究问题的不同，备择假设可以是双侧的（$H_a: \mu \neq \mu_0$）、左尾的（$H_a: \mu < \mu_0$）或右尾的（$H_a: \mu > \mu_0$）。

单样本t检验的检验统计量为：

t = \frac{\bar{x} - \mu_0}{s/\sqrt{n}}

p值是在$H_0$为真的前提下，观测到的t统计量和计算出的统计量一样极端或更极端的概率。我们将p值与显著性水平$\alpha$（通常为0.05）比较：若$p < \alpha$，我们拒绝$H_0$；否则，我们不拒绝$H_0$。

📐 Worked Example

某连锁咖啡店声称其12盎司拿铁的平均咖啡因含量为100毫克。独立检测人员收集了12杯拿铁的随机样本，得到样本平均咖啡因含量为108毫克，样本标准差为10毫克。在$\alpha = 0.05$的显著性水平下，检验真实平均咖啡因含量是否与连锁店的声称不同。

结合背景陈述假设：令$\mu$ = 该连锁店所有12盎司拿铁的真实平均咖啡因含量。$H_0: \mu = 100$，$H_a: \mu \neq 100$。
验证条件：题目已说明是随机样本，拿铁总体大于120；$n=12$，因此我们假设咖啡因含量无极端异常值，条件满足。
计算检验统计量和自由度：
$df = 12 - 1 = 11, \quad t = \frac{108 - 100}{10/\sqrt{12}} \approx 2.77$
求p值：对于$df=11$、$t=2.77$的双侧检验，p值约为0.018。
结合背景陈述结论：由于$0.018 < 0.05$，我们拒绝$H_0$。在0.05的显著性水平下，有令人信服的证据表明该连锁店12盎司拿铁的真实平均咖啡因含量与声称的100毫克不同。

5. 相依样本的配对t方法 ★★★★☆ ⏱ 3 min

当我们得到两个相依测量值时就会产生配对数据（例如同一对象处理前后的测量，相似对象的匹配对）。由于两个测量值不独立，我们不能使用双样本t方法，而是对每对计算差值$d_i$，然后对真实平均差值$\mu_d$进行单样本推断。

单样本t区间和t检验的所有规则都直接适用于配对数据：$df = n - 1$（其中$n$是配对数），所有计算中都使用平均差值$\bar{d}$和差值的标准差$s_d$。

📐 Worked Example

一名物理治疗师检验新的拉伸流程是否能增加静息腘绳肌柔韧性。她对8名受试者测量了4周拉伸流程前后的柔韧性（单位：厘米），计算得到柔韧性平均增加量为$\bar{d} = 1.2$厘米（后减前），差值的标准差为$s_d = 1.1$厘米。在$\alpha = 0.05$的显著性水平下，检验治疗师“拉伸流程增加柔韧性”的假设。

陈述假设：令$\mu_d$ = 柔韧性的真实平均差值（后减前）。$H_0: \mu_d = 0$（无变化），$H_a: \mu_d > 0$（柔韧性增加）。
验证条件：假设是随机分配，8名受试者小于所有潜在患者的10%，差值无极端异常值，条件满足。
计算检验统计量和自由度：
$df = 8 - 1 = 7, \quad t = \frac{1.2 - 0}{1.1/\sqrt{8}} \approx 3.09$
求p值：对于右尾检验，p值约为0.009。
结论：由于$0.009 < 0.05$，我们拒绝$H_0$。有令人信服的证据表明该拉伸流程能增加平均腘绳肌柔韧性。

Common Pitfalls

Why: 学生混淆了均值推断（几乎总是用t）和比例推断（总是用z）。

Why: 学生记住了$n \geq 30$的规则，却忘记了对于分布大致对称的小样本，仍然可以假设正态性。

Why: 学生混淆了真实均值的位置和抽样方法的表现。

Why: 学生认为大的p值证明原假设为真。

Why: 学生看到两组数据就自动用双样本检验，没有注意到配对关系。

Why: 学生混淆了样本量和自由度，导致临界值和p值计算错误。

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →