| 学习指南 EN
统计学 · 分类数据的推断:卡方检验 · 阅读约 14 分钟 · 更新于 2026-05-11

卡方简介 — AP 统计学

AP 统计学 · 分类数据的推断:卡方检验 · 14 min read

1. 什么是卡方? ★☆☆☆☆ ⏱ 3 min

卡方(写作$\ ext{\chi}^2$,发音为"kài-square")是AP统计学中所有分类数据推断的基础,根据官方大学理事会CED,它占AP考试总分权重的6-10%。与适用于定量数据的z检验或t检验不同,卡方方法专门为处理分类变量的计数数据设计。

所有卡方推断的核心思想都是比较我们样本中收集到的观测频数,与原假设成立时我们会看到的期望频数。$\ ext{\chi}^2$分布是一族右偏的非负分布,其形状仅取决于自由度,而非直接由样本量决定。本内容会出现在AP考试的选择题和自由作答题部分,也是所有更高级卡方方法的必要前置知识。

2. 卡方检验统计量 ★★☆☆☆ ⏱ 4 min

$\ ext{\chi}^2$检验统计量是所有卡方推断的核心计算,它量化了观测数据与原假设下期望分布的偏离程度。检验统计量的公式为:

\chi^2 = \sum \frac{(O - E)^2}{E}

其中$O$是类别对应的观测频数,$E$是原假设下该类别的期望频数。公式的结构符合直观逻辑:首先我们用$O$减去$E$,得到观测值与期望值的原始偏差。我们对偏差取平方,确保所有项都是正数,这样正负偏差就不会相互抵消。我们除以$E$,根据期望频数的大小对偏差进行缩放:当$E=10$时,$O$与$E$相差10比$E=100$时相差10要重要得多。$\ ext{\chi}^2$分布始终是右偏的,随着自由度增加,由于中心极限定理,它会变得更对称(趋近于正态分布)。

Exam tip: 在自由作答题中务必展示你的计算步骤以获得全部分数

3. 卡方推断的条件 ★★☆☆☆ ⏱ 3 min

所有推断都依赖于满足条件才能保证我们计算的p值可靠,AP考试中自由作答题几乎总会给正确陈述并检查卡方条件分配1分。卡方推断有三个必要条件:

  1. **随机性**:数据来自目标总体的随机样本,或随机化实验。这与其他所有推断方法的随机性条件一致,确保我们可以将结果推广到总体,或(对实验而言)确定因果关系。
  2. **独立性**:个体观测之间相互独立。对于无放回抽样,这意味着满足10%条件:样本量小于总体规模的10%。
  3. **大计数条件**:$\ ext{\chi}^2$分布是检验统计量离散抽样分布的连续近似,因此该条件保证近似是准确的。AP统计学CED接受的规则是:所有期望频数至少为1,且不超过20%的期望频数小于5。更严格的规则(所有期望频数 ≥ 5)也可接受。

4. 卡方拟合优度检验 ★★★☆☆ ⏱ 5 min

卡方拟合优度(GOF)检验是第一个介绍的完整卡方推断方法,用于检验单个分类变量的分布是否符合声称的原分布。

拟合优度检验的自由度始终是$df = k - 1$,其中$k$是变量的类别数。我们损失1个自由度是因为期望频数的总和始终固定为总样本量,因此我们少一个自由参数需要估计。所有卡方检验都是右尾检验:更大的$\ ext{\chi}^2$值意味着对原假设的偏离更大,因此p值是$P(\text{\chi}^2(df) \geq \text{计算得到的 } \\text{\chi}^2)$。

Common Pitfalls

Why: 学生混淆了类别的原比例和期望频数,忘记乘以总样本量

Why: 学生忘记总样本量消耗了一个自由度,并且混淆了拟合优度自由度和其他卡方方法的自由度

Why: 学生习惯了z检验和t检验的双尾检验,忘记只有大的偏离才是反对$H_0$的证据

Why: 学生检查条件时混淆了观测频数和期望频数

Why: 学生延续了之前假设检验中的错误习惯,忘记我们永远无法证明原假设为真

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →