统计学 · 分类数据的推断：卡方检验 · 阅读约 14 分钟 · 更新于 2026-05-11

卡方简介 — AP 统计学

AP 统计学 · 分类数据的推断：卡方检验 · 14 min read

1. 什么是卡方？ ★☆☆☆☆ ⏱ 3 min

卡方（写作$\ ext{\chi}^2$，发音为"kài-square"）是AP统计学中所有分类数据推断的基础，根据官方大学理事会CED，它占AP考试总分权重的6-10%。与适用于定量数据的z检验或t检验不同，卡方方法专门为处理分类变量的计数数据设计。

所有卡方推断的核心思想都是比较我们样本中收集到的观测频数，与原假设成立时我们会看到的期望频数。$\ ext{\chi}^2$分布是一族右偏的非负分布，其形状仅取决于自由度，而非直接由样本量决定。本内容会出现在AP考试的选择题和自由作答题部分，也是所有更高级卡方方法的必要前置知识。

2. 卡方检验统计量 ★★☆☆☆ ⏱ 4 min

$\ ext{\chi}^2$检验统计量是所有卡方推断的核心计算，它量化了观测数据与原假设下期望分布的偏离程度。检验统计量的公式为：

\chi^2 = \sum \frac{(O - E)^2}{E}

其中$O$是类别对应的观测频数，$E$是原假设下该类别的期望频数。公式的结构符合直观逻辑：首先我们用$O$减去$E$，得到观测值与期望值的原始偏差。我们对偏差取平方，确保所有项都是正数，这样正负偏差就不会相互抵消。我们除以$E$，根据期望频数的大小对偏差进行缩放：当$E=10$时，$O$与$E$相差10比$E=100$时相差10要重要得多。$\ ext{\chi}^2$分布始终是右偏的，随着自由度增加，由于中心极限定理，它会变得更对称（趋近于正态分布）。

📐 Worked Example

一家咖啡店声称他们四种规格的冰咖啡受欢迎程度相同：小杯25%、中杯25%、大杯25%、超大杯25%。一位咖啡师一周内随机抽样了80份订单，得到结果：小杯17份、中杯26份、大杯24份、超大杯13份。计算该数据的卡方检验统计量。

列出每个类别的观测频数：
$O_{\text{small}}=17, O_{\text{medium}}=26, O_{\text{large}}=24, O_{\text{xl}}=13. Total n=80.$
计算期望频数：每个类别的原比例是0.25，因此所有类别的$E = 80 \times 0.25 = 20$。
计算每个类别的$\frac{(O-E)^2}{E}$：小杯：$\frac{(17-20)^2}{20} = 0.45$ 中杯：$\frac{(26-20)^2}{20} = 1.8$ 大杯：$\frac{(24-20)^2}{20} = 0.8$ 超大杯：$\frac{(13-20)^2}{20} = 2.45$
将所有项相加得到检验统计量：
$\chi^2 = 0.45 + 1.8 + 0.8 + 2.45 = 5.5$

Exam tip: 在自由作答题中务必展示你的计算步骤以获得全部分数

3. 卡方推断的条件 ★★☆☆☆ ⏱ 3 min

所有推断都依赖于满足条件才能保证我们计算的p值可靠，AP考试中自由作答题几乎总会给正确陈述并检查卡方条件分配1分。卡方推断有三个必要条件：

**随机性**：数据来自目标总体的随机样本，或随机化实验。这与其他所有推断方法的随机性条件一致，确保我们可以将结果推广到总体，或（对实验而言）确定因果关系。
**独立性**：个体观测之间相互独立。对于无放回抽样，这意味着满足10%条件：样本量小于总体规模的10%。
**大计数条件**：$\ ext{\chi}^2$分布是检验统计量离散抽样分布的连续近似，因此该条件保证近似是准确的。AP统计学CED接受的规则是：所有期望频数至少为1，且不超过20%的期望频数小于5。更严格的规则（所有期望频数 ≥ 5）也可接受。

4. 卡方拟合优度检验 ★★★☆☆ ⏱ 5 min

卡方拟合优度（GOF）检验是第一个介绍的完整卡方推断方法，用于检验单个分类变量的分布是否符合声称的原分布。

拟合优度检验的自由度始终是$df = k - 1$，其中$k$是变量的类别数。我们损失1个自由度是因为期望频数的总和始终固定为总样本量，因此我们少一个自由参数需要估计。所有卡方检验都是右尾检验：更大的$\ ext{\chi}^2$值意味着对原假设的偏离更大，因此p值是$P(\text{\chi}^2(df) \geq \text{计算得到的 } \\text{\chi}^2)$。

📐 Worked Example

一位遗传学家声称，杂交产生的四种表型比例为9:3:3:1（即9/16、3/16、3/16、1/16）。随机抽样160个子代，得到观测频数为：86、31、29、14。在$\\alpha=0.05$的显著性水平下进行卡方拟合优度检验，检验遗传学家的声明。

**假设**：$H_0$：表型分布符合9:3:3:1的遗传比例。$H_a$：表型分布与声称的比例不同。
**检查条件**：题目给出样本为随机样本，子代总体远大于1600，因此10%条件成立。期望频数：$160 \times 9/16 = 90$，$160 \times 3/16 = 30$，$160 \times 3/16 = 30$，$160 \times 1/16 = 10$。所有期望频数 ≥ 5，因此大计数条件满足。
**计算检验统计量和自由度**：
$\chi^2 = \frac{(86-90)^2}{90} + \frac{(31-30)^2}{30} + \frac{(29-30)^2}{30} + \frac{(14-10)^2}{10} \approx 1.844$
$df = 4 - 1 = 3$
**结论**：$P(\chi^2(3) \geq 1.844) \approx 0.605$。由于$0.605 > 0.05$，我们不拒绝$H_0$。没有足够的证据拒绝遗传学家声称的比例。

Common Pitfalls

Why: 学生混淆了类别的原比例和期望频数，忘记乘以总样本量

Why: 学生忘记总样本量消耗了一个自由度，并且混淆了拟合优度自由度和其他卡方方法的自由度

Why: 学生习惯了z检验和t检验的双尾检验，忘记只有大的偏离才是反对$H_0$的证据

Why: 学生检查条件时混淆了观测频数和期望频数

Why: 学生延续了之前假设检验中的错误习惯，忘记我们永远无法证明原假设为真

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →