定量变量分布的比较 — AP 统计学
1. 比较分布分析的核心概念 ★★☆☆☆ ⏱ 2 min
定量变量分布比较是一项基础的探索性技能,它用于系统识别两个或多组定量数据之间的异同,而非孤立地描述单个分布。本主题占AP统计学考试第1单元总分的15-20%,在选择题和自由问答题部分都经常出现。
标准记法使用下标标记不同分组:
ar{x}_g, M_g, s_g, IQR_g
其中 $g$ 代表特定分组。比较的核心目标是回答一个实际问题:不同分组的测量值是否存在系统性差异,如果存在,差异是什么?
2. 分布的图形比较 ★★☆☆☆ ⏱ 4 min
比较几乎总是从图形展示开始,图形能呈现汇总统计中可能隐藏的整体模式和异常特征。常用的比较展示方法有:
- 并排点图:最适合小数据集,展示所有单个数据点
- 重叠/并排直方图:最适合大数据集,展示整体形状
- 并排箱线图:非常适合比较不同分组的中心、离散程度和异常值
图形比较的统一框架遵循四个必要步骤,所有步骤都必须是相对性的(明确比较一组和另一组,而非仅孤立描述单个分组):
- 比较形状
- 比较中心
- 比较离散程度
- 记录异常特征(异常值、聚类)
Exam tip: 始终让你的比较结合上下文且具有相对性。不要写"中位数是30分钟",而要写"办公室工作者的中位数比体力劳动工作者高10分钟",这样才能在自由问答题中拿到满分。
3. 用汇总统计量比较中心和离散程度 ★★★☆☆ ⏱ 4 min
图形比较给出定性的整体情况,而数值汇总统计量可以量化分组之间差异的大小。选择合适统计量的核心规则取决于分布形状和异常值:耐抗度量始终和耐抗度量配对,非耐抗度量始终和非耐抗度量配对。
- 对称且无异常值:使用均值(中心)和标准差(离散程度)—— 二者均为非耐抗度量
- 偏态或存在异常值:使用中位数(中心)和四分位距(IQR,离散程度)—— 二者均为耐抗度量
Exam tip: AP自由问答题几乎总是会为选择正确的汇总统计量单独给分。如果题目给出了形状信息,明确说明你选择该统计量的原因,就能确保你拿到这一分。
4. 比较形状并识别异常值 ★★★☆☆ ⏱ 4 min
分组之间形状和异常值的差异通常和中心或离散程度的差异一样重要。需要比较的关键特征是偏度、峰数,以及异常值的存在和位置。
偏度可以很容易从均值和中位数的相对位置推断出来:均值总是被拉向分布的长尾巴,所以 $\bar{x} > M$ 表示右偏,$\bar{x} < M$ 表示左偏。
Exam tip: 如果汇总统计量给出了均值和中位数,始终明确将偏度和二者的相对位置关联起来:"由于均值大于中位数,因此分布为右偏",这是符合AP评分标准、清晰的拿分表述。
Common Pitfalls
Why: 学生习惯于描述单个分布,忘记题目要求对分组进行比较
Why: 学生分开记忆不同度量,但忘记需要匹配耐抗性的规则
Why: 学生混淆了尾巴的方向以及它对均值的影响
Why: 学生依赖视觉猜测,而非AP评分标准要求的正式法则
Why: 学生专注于比较,忘记拿满分要求的上下文单位