描述定量变量的分布 — AP 统计学
AP 统计学 · 探索单变量数据(第一单元) · 14 min read
1. 描述分布的基础 ★☆☆☆☆ ⏱ 2 min
定量变量的分布描述了变量取哪些值,以及取值的频率。这是AP统计学最基础的探索性数据分析技能,占第一单元总考试权重的15-20%,在考试的选择题和自由作答题部分都会出现。
AP考试使用的标准标记为: $\bar{x}$ 表示样本均值,$\mu$ 表示总体均值,$s$ 表示样本标准差,$\sigma$ 表示总体标准差,$M$ 表示中位数,$IQR$ 表示四分位距。题目可能会要求你「汇总分布」或「描述分布」,两种问法都要求相同的结构化回答。
2. SOCS描述框架 ★★☆☆☆ ⏱ 4 min
- - **S = 形状**: 按峰的数量(单峰、双峰、均匀)和对称性/偏度分类。对称分布关于中心对称,满足 $\text{mean} \approx \text{median}$。右偏分布有一条延伸向高值的长尾,满足 $\text{mean} > \text{median}$。左偏分布有一条延伸向低值的长尾,满足 $\text{mean} < \text{median}$。
- - **O = 异常值**: 远偏离数据整体模式的任意单个数值。
- - **C = 中心**: 分布的典型值。
- - **S = 离散程度**: 衡量分布中数据的变异程度。
Exam tip: 一定要涵盖所有四个SOCS要素,并且每个描述都要结合你所描述变量的实际情境。AP阅卷人会对不结合研究情境的泛泛描述扣掉整分。
3. 使用1.5×IQR法则识别异常值 ★★☆☆☆ ⏱ 3 min
虽然异常值通常可以在图上观察到,但AP考试经常要求你通过1.5×IQR法则确认,这是考试唯一考查的异常值判定法则。四分位距(IQR)衡量排序后数据中间50%的离散程度:
IQR = Q_3 - Q_1
该法则规定,任何值小于 $Q_1 - 1.5(IQR)$ 或大于 $Q_3 + 1.5(IQR)$ 都会被判定为异常值。该法则使用四分位数,而四分位数对极端值具有抗扰动性。
Exam tip: 在自由作答题中,一定要明确将待判断数值与上下界进行比较。如果你只计算了IQR却没有展示比较步骤,会被扣掉部分分数。
4. 选择合适的中心和离散程度度量 ★★★☆☆ ⏱ 5 min
度量方式的选择取决于分布形状:偏态数据或含异常值的数据使用抗扰动的中位数/IQR,无异常值的对称数据使用均值/标准差。
5. 对比两个定量分布 ★★★☆☆ ⏱ 4 min
对比同一定量变量的两个分布是AP考试非常常见的题型。SOCS框架仍然适用,但你必须对每个要素做出明确的比较陈述,而不是仅分别描述每个分布。
Exam tip: 如果对比类自由作答题你只分别描述每个分布,没有做出明确的比较陈述,会被扣掉整分。
Common Pitfalls
Why: 学生混淆了偏斜的命名(偏斜方向由长尾位置决定)和均值被拉动的方向。
Why: 学生只关注最明显的特征,漏掉了其他要求的SOCS要素。
Why: 学生经常忘记五数概括的标准顺序。
Why: 学生默认使用更熟悉的均值/标准差,但它们对极端值没有抗扰动性。
Why: 学生混淆了多峰和偏度,偏度描述的是长尾的方向。
Why: 学生认为描述完两个分布就足够了,但题目要求的是对比。
Quick Reference Cheatsheet