用图表表示定量变量 — AP 统计学
1. 定量数据图表的核心概念 ★☆☆☆☆ ⏱ 3 min
定量变量记录的是算术运算(如求平均)有意义的数值测量结果。定量变量的图表展示了变量的*分布*:变量取哪些值,以及取这些值的频率。
根据AP统计学课程描述(CED),本主题属于第1单元(探索单变量数据),占AP考试总分的15-23%。它同时出现在选择题和自由作答题中,几乎总是考试第一题FRQ的组成部分。
2. 点图与茎叶图 ★★☆☆☆ ⏱ 4 min
点图和茎叶图(茎叶展示图)适用于中小规模数据集,这类场景下保留所有单个数据点很有用。
AP常考的茎叶图构建规则:始终将叶从小到大排序,绝不遗漏没有叶的茎(这会扭曲分布形状),如果单个茎的叶超过约10片则拆分茎以提高可读性。一定要添加带单位的图例来说明如何读取茎叶图。
Exam tip: 一定要给茎叶图添加带有正确单位的图例,绝对不要跳过空茎。AP阅卷老师要求两点都做到才能给满分,约10%的考生会因为遗漏其中一点或两点失分。
3. 直方图 ★★☆☆☆ ⏱ 3 min
直方图是大型定量数据集的标准图表,这类数据展示每个单独数据点不现实。直方图将变量的整个范围在x轴上划分为连续、等宽的组距(区间)。每个柱的高度对应该组距内观测值的频率、相对频率或密度。
构建直方图时,建议分5-15个组距:分组太少会掩盖多峰这类重要特征,分组太多会留下太多空白,难以解读形状。相对频率直方图在y轴用比例代替计数,便于比较不同规模的分布,但解读方式和频率直方图相同。
Exam tip: 永远不要将直方图和分类数据的条形图混淆。如果选择题问定量变量的正确图表,柱间有空隙的选项几乎一定是错的。
4. 箱线图(箱须图) ★★★☆☆ ⏱ 4 min
箱线图是基于五数概括法的紧凑定量数据展示:最小值、第一四分位数($Q_1$)、中位数、第三四分位数($Q_3$)和最大值。它们特别适合并排比较多个分布,因为能清晰展示中心、离散程度和偏度的差异,不会杂乱。
箱线图使用的$1.5 \times IQR$规则识别异常值:其中$IQR = Q_3 - Q_1$,任何低于$Q_1 - 1.5(IQR)$或高于$Q_3 + 1.5(IQR)$的观测值被归类为异常值,单独作为点绘制。须从箱延伸到最远的*非异常值*观测值,如果存在异常值,不延伸到绝对最小值/最大值。
Exam tip: 一定要记住,箱线图的须延伸到最远的非异常值,如果存在异常值,须不要延伸到绝对最小值和最大值。将须画过异常值是FRQ中常见的失分点。
5. 描述分布:AP SOCS框架 ★★☆☆☆ ⏱ 3 min
本主题最常见的FRQ任务是从图表描述定量变量的分布。AP要求你始终结合背景回答四个关键特征,使用记忆术SOCS:
AP评分标准要求所有四个特征都*结合背景*(包含变量名和单位)才能得满分,遗漏背景是最常见的失分原因之一。
Exam tip: 永远不要忘记描述SOCS的全部四个特征,并且一定要包含单位和背景。每3名考生中就有1名会因为遗漏背景在描述题中丢失至少一分,即使数值是正确的。
Common Pitfalls
Why: 学生先学习了分类数据的条形图,就认为所有柱状图都可以互换,忘记了空隙规则和变量类型的差异。
Why: 学生认为空茎/空组距不提供信息,省略后图表更整洁。
Why: 学生记住了五数概括是最小值、Q1、中位数、Q3、最大值,因此不管有没有异常值,都自动将须延伸到这些极值。
Why: Students rush through FRQs and forget to connect their answer to the problem's scenario.
Why: Students confuse the position of the peak with the direction of the skew.
Why: Students think boxplots show all shape features, but they aggregate all data in the box and whiskers.