统计学 · 第1单元：探索单变量数据 · 阅读约 14 分钟 · 更新于 2026-05-11

定量变量分布的比较 — AP 统计学

AP 统计学 · 第1单元：探索单变量数据 · 14 min read

1. 比较分布分析的核心概念 ★★☆☆☆ ⏱ 2 min

定量变量分布比较是一项基础的探索性技能，它用于系统识别两个或多组定量数据之间的异同，而非孤立地描述单个分布。本主题占AP统计学考试第1单元总分的15-20%，在选择题和自由问答题部分都经常出现。

标准记法使用下标标记不同分组：

ar{x}_g, M_g, s_g, IQR_g

其中 $g$ 代表特定分组。比较的核心目标是回答一个实际问题：不同分组的测量值是否存在系统性差异，如果存在，差异是什么？

2. 分布的图形比较 ★★☆☆☆ ⏱ 4 min

比较几乎总是从图形展示开始，图形能呈现汇总统计中可能隐藏的整体模式和异常特征。常用的比较展示方法有：

并排点图：最适合小数据集，展示所有单个数据点
重叠/并排直方图：最适合大数据集，展示整体形状
并排箱线图：非常适合比较不同分组的中心、离散程度和异常值

图形比较的统一框架遵循四个必要步骤，所有步骤都必须是相对性的（明确比较一组和另一组，而非仅孤立描述单个分组）：

比较形状
比较中心
比较离散程度
记录异常特征（异常值、聚类）

📐 Worked Example

一位健身研究者比较了12名全职办公室工作的成年人（O组）和12名全职体力劳动工作的成年人（A组）每周有氧运动时长。数据：O组：10, 15, 20, 20, 25, 30, 30, 35, 40, 45, 50, 60；A组：0, 5, 10, 15, 15, 20, 20, 25, 30, 35, 40, 45。用图形法比较两个分布。

**形状**：两个分布都近似单峰对称，无极端偏斜。
**中心**：办公室工作者分布的中心更高：O组的有氧时长中位数是30分钟，而A组是20分钟。
**离散程度**：两组的离散程度相似：O组的极差是 $60 - 10 = 50$ 分钟，A组的极差是 $45 - 0 = 45$ 分钟，变异性差异很小。
**异常特征**：两个分布都没有异常值或聚类。
**结论**：办公室工作者在工作外每周平均获得的有氧运动时长比体力劳动工作者更多，两组的变异性相似。

Exam tip: 始终让你的比较结合上下文且具有相对性。不要写"中位数是30分钟"，而要写"办公室工作者的中位数比体力劳动工作者高10分钟"，这样才能在自由问答题中拿到满分。

3. 用汇总统计量比较中心和离散程度 ★★★☆☆ ⏱ 4 min

图形比较给出定性的整体情况，而数值汇总统计量可以量化分组之间差异的大小。选择合适统计量的核心规则取决于分布形状和异常值：耐抗度量始终和耐抗度量配对，非耐抗度量始终和非耐抗度量配对。

对称且无异常值：使用均值（中心）和标准差（离散程度）—— 二者均为非耐抗度量
偏态或存在异常值：使用中位数（中心）和四分位距（IQR，离散程度）—— 二者均为耐抗度量

📐 Worked Example

下表给出了两个社区一居室公寓月租金（单位：美元）的汇总统计量。使用合适的汇总统计量比较月租金的中心和离散程度。

| 社区 | 均值 | 中位数 | 标准差 | 四分位距(IQR) | 形状 | | --- | --- | --- | --- | --- | --- | | 市中心 | 1850 | 1725 | 420 | 550 | 右偏 | | 郊区 | 1580 | 1490 | 310 | 420 | 右偏 |
1. 选择合适的统计量：两个分布都是右偏，因此我们使用耐抗的中位数衡量中心，耐抗的四分位距衡量离散程度。
2. 比较中心：市中心一居室公寓的月租金中位数是 \$1725，比郊区的中位数 \$1490高 \$235。这说明市中心的典型租金更高。
3. 比较离散程度：市中心租金的四分位距是 \$550，比郊区的四分位距 \$420大 \$130。这说明市中心典型租金的变异性比郊区更大。
4. 为什么不使用均值/标准差？右偏会将均值向上拉，因此均值差（\$1850 - \$1580 = \$270）会夸大两个社区之间典型租金的差异。

Exam tip: AP自由问答题几乎总是会为选择正确的汇总统计量单独给分。如果题目给出了形状信息，明确说明你选择该统计量的原因，就能确保你拿到这一分。

4. 比较形状并识别异常值 ★★★☆☆ ⏱ 4 min

分组之间形状和异常值的差异通常和中心或离散程度的差异一样重要。需要比较的关键特征是偏度、峰数，以及异常值的存在和位置。

偏度可以很容易从均值和中位数的相对位置推断出来：均值总是被拉向分布的长尾巴，所以 $\bar{x} > M$ 表示右偏，$\bar{x} < M$ 表示左偏。

📐 Worked Example

一家咖啡连锁比较了两个门店25天的日客流量（单位：百笔）。五数概括为：A店（商场）：Min = 12，Q1 = 18，Med = 24，Q3 = 29，Max = 42；B店（街角）：Min = 8，Q1 = 19，Med = 25，Q3 = 30，Max = 36。比较两个门店分布的形状并识别所有异常值。

1. 计算A店的异常值临界值：
$IQR = 29 - 18 = 11, \text{ lower cutoff} = 18 - 1.5(11) = 1.5, \text{ upper cutoff} = 29 + 1.5(11) = 45.5$
最大值42小于45.5，因此A店没有异常值。
2. 计算B店的异常值临界值：
$IQR = 30 - 19 = 11, \text{ lower cutoff} = 19 - 1.5(11) = 2.5, \text{ upper cutoff} = 30 + 1.5(11) = 46.5$
所有值都在8到36之间，因此B店也没有异常值。
3. 从五数概括推断偏度：A店从中位数到最大值的距离大于从最小值到中位数的距离，因此呈轻度右偏。B店从最小值到中位数的距离大于从中位数到最大值的距离，因此呈轻度左偏。
4. 结论：A店日客流量分布呈轻度右偏，无异常值；B店日客流量分布呈轻度左偏，无异常值。

Exam tip: 如果汇总统计量给出了均值和中位数，始终明确将偏度和二者的相对位置关联起来："由于均值大于中位数，因此分布为右偏"，这是符合AP评分标准、清晰的拿分表述。

Common Pitfalls

Why: 学生习惯于描述单个分布，忘记题目要求对分组进行比较

Why: 学生分开记忆不同度量，但忘记需要匹配耐抗性的规则

Why: 学生混淆了尾巴的方向以及它对均值的影响

Why: 学生依赖视觉猜测，而非AP评分标准要求的正式法则

Why: 学生专注于比较，忘记拿满分要求的上下文单位

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →

定量变量分布的比较 — AP 统计学

1. 比较分布分析的核心概念 ★★☆☆☆ ⏱ 2 min

2. 分布的图形比较 ★★☆☆☆ ⏱ 4 min

3. 用汇总统计量比较中心和离散程度 ★★★☆☆ ⏱ 4 min

4. 比较形状并识别异常值 ★★★☆☆ ⏱ 4 min

Common Pitfalls

Quick Reference Cheatsheet

更多学习指南