单变量数据探索 (Exploring One-Variable Data) — AP Statistics Stats 学习指南
适合谁:AP Statistics 参加 AP Statistics 的考生。
覆盖内容:分类变量与定量变量区分、频率表与常见单变量可视化图表、集中趋势与离散程度统计量、异常值与统计量抗性、Z分数与百分位五大核心子主题。
前置知识:Algebra 2、基础概率直觉。
关于练习题:下文「练习题」一节的所有题目均为我们按 AP Statistics 风格编写的原创题目 (original problems),仅用于教学。它们不是 College Board 真题的复制,措辞、数值或语境可能不同。请把它们当作练手用;评分细则请对照 College Board 官方 mark scheme。
1. 什么是单变量数据探索?
单变量数据探索是统计分析的基础步骤,指对单个变量的观测数据集进行整理、可视化、特征描述的整套方法,是AP统计考纲第一单元的核心内容。你在后续所有推断统计、双变量分析的学习中,都会用到本单元的基础逻辑和方法,单元占考试分数的15%-23%,是必须完全掌握的入门模块。
2. 分类变量与定量变量(Categorical vs quantitative variables)
变量是指观测对象的可测量特征,按性质可分为两类:
- 分类变量(categorical variable):代表类别、属性,数值仅作标识无大小意义,比如性别、所属年级、满意度评级,可进一步分为名义变量(无顺序,如性别)和有序变量(有顺序,如满意度)。
- 定量变量(quantitative variable):数值具有明确大小意义,可进行运算,比如身高、考试分数、每月零花钱,可进一步分为离散变量(取值可枚举,如人数)和连续变量(取值无限,如身高)。
小范例:调查高中生的通勤情况时,“通勤方式(步行/公交/私家车)”是分类变量,“通勤时长(分钟)”是定量变量。考官常考变量类型判断,一旦判断错误,后续可视化方法、统计量选择都会全错。
3. 频率表与常见单变量可视化图表(Frequency tables, dotplots, stemplots, histograms)
不同类型的变量需要对应不同的可视化方法,核心常用图表如下:
- 频率表(frequency table):按类别/分组列示每个组的观测次数(频数),相对频率=频数/总观测数,适用于初步整理两类变量。
- 点图(dotplot):将每个观测值用点标记在数轴上,适合小样本定量数据集,可直观看到分布形态和异常值。
- 茎叶图(stemplot):将数值拆分为“茎(高位数)”和“叶(低位数)”,保留所有原始数据,适合50个以内的定量数据集。
- 直方图(histogram):横轴为定量变量的分组区间,纵轴为频数/相对频率,柱子之间无间隔,适合大样本定量数据的分布形态判断。注意区分条形图:条形图用于分类变量,柱子之间有间隔。
小范例:8名学生的身高(单位:cm)为162,165,165,170,172,175,178,180,茎叶图的茎为十位+百位(16,17,18),16的叶为2,5,5,17的叶为0,2,5,8,18的叶为0。
4. 集中趋势与离散程度度量(Center and spread — mean, median, SD, IQR)
描述数据集核心特征需要两类统计量:
集中趋势度量
- 均值(mean):所有观测的平均值,样本均值记号为,公式为:
- 中位数(median):将数据从小到大排序后,中间位置的数值,n为奇数时是第个观测,n为偶数时是中间两个观测的平均值。
离散程度度量
- 样本标准差(standard deviation, SD):衡量数据离均值的平均距离,记号为,公式为: 分母用n-1是为了得到总体标准差的无偏估计,AP统计默认所有数据为样本,因此必须用n-1。
- 四分位距(interquartile range, IQR):中间50%数据的范围,,其中是下四分位数(第25百分位),是上四分位数(第75百分位)。
小范例:上述8名学生身高的均值为170.875cm,中位数为(170+172)/2=171cm,,,IQR=11.5cm,样本标准差约为5.9cm。
5. 异常值与统计量抗性(Outliers and resistance)
- 异常值(outlier):与其他观测值明显偏离的数值,AP统计通用判定规则为1.5×IQR法则:小于或大于的观测值即为异常值。
- 抗性(resistance):统计量不受极端异常值影响的程度。中位数、IQR属于抗性统计量,异常值对其影响很小;均值、标准差属于非抗性统计量,极端值会显著拉偏均值、放大标准差。
小范例:在上述身高数据中加入一个210cm的异常值,均值变为175.2cm,上升了4.3cm,而中位数变为172cm,仅上升了1cm,明显更稳定。
6. Z分数与百分位(Z-scores and percentiles)
- 百分位(percentile):第百分位表示至少的观测值小于等于该值,且至少的观测值大于等于该值,用于描述观测值在数据集中的相对位置。
- Z分数(z-score):衡量观测值离均值有多少个标准差,无单位,可用于不同分布数据集的相对位置比较,公式为: Z分数为正表示观测值高于均值,为负表示低于均值,经验法则下,对称分布中对应第84百分位,对应第97.5百分位。
小范例:某次数学考试均值为75,标准差为6,你考了87分,Z分数为,说明你的分数比均值高2个标准差,处于第97.5百分位。
7. 常见陷阱(Common Pitfalls)
- 错误做法:给分类变量绘制直方图,或给定量变量绘制带间隔的条形图。错误原因:混淆变量类型与图表适用场景。正确做法:分类变量用条形图/饼图,定量变量用直方图/点图/茎叶图,直方图柱子无间隔。
- 错误做法:计算样本标准差时分母用而不是。错误原因:混淆样本标准差和总体标准差的定义。正确做法:除非题目明确说明是总体数据,否则标准差分母一律用。
- 错误做法:不管分布形态一律用均值和标准差描述数据。错误原因:忽略非抗性统计量的缺陷。正确做法:对称无异常值的分布用均值+标准差,偏态分布或有异常值的数据集用中位数+IQR。
- 错误做法:将Z分数直接等同于百分位,不考虑分布形态。错误原因:误用仅适用于对称分布的经验法则。正确做法:经验法则仅适用于对称/正态分布,偏态分布的百分位需要从累积频率表中读取。
8. 练习题(AP Statistics 风格)
第1题
题干:某咖啡店统计了12天的每日外送订单量,数据如下:12,15,15,17,18,18,20,22,23,25,27,42。(a) 判断“每日外送订单量”属于什么类型的变量;(b) 计算该数据集的均值、中位数、IQR、样本标准差;(c) 判断是否存在异常值,说明理由。 解答: (a) 定量离散变量。 (b) 均值,中位数为第6、7个数据的平均值:,(第3、4个数据的平均),(第9、10个数据的平均),,样本标准差。 (c) 按1.5×IQR法则,上限为,下限为,42>36,因此42为异常值。
第2题
题干:某次AP统计模考分数服从对称分布,均值为70,标准差为7。小李的得分Z分数为1.2,小王的得分处于第16百分位,求两人的分数差。 解答: 小李的分数为,对称分布下第16百分位对应(68%的数据在±1σ范围内,低于-1σ的比例为16%),小王的分数为,分数差为分。
第3题
题干:下列统计量中,属于抗性统计量的是?A. 均值 B. 极差 C. 中位数 D. 标准差 解答:选C,中位数和IQR不受极端值影响,属于抗性统计量,其余三个均会被异常值显著影响。
9. 速查表(Quick Reference Cheatsheet)
| 分类 | 内容 | 规则/公式 |
|---|---|---|
| 变量分类 | 分类变量/定量变量 | 分类变量代表类别,定量变量数值有大小意义 |
| 可视化 | 适用场景 | 分类变量:条形图、饼图;定量变量:点图、茎叶图、直方图 |
| 统计量 | 均值 | |
| 统计量 | 样本标准差 | |
| 统计量 | 四分位距 | |
| 异常值 | 判定规则 | 或 |
| 相对位置 | Z分数 | |
| 统计量选择 | 适用场景 | 对称无异常值:均值+SD;偏态/有异常值:中位数+IQR |
10. 接下来怎么学
本单元是AP统计所有后续内容的基础,你后续学习双变量数据探索、概率分布、抽样分布、假设检验等模块时,都需要用到本单元的变量分类、统计量计算、分布形态判断等知识,尤其是Z分数和百分位的概念会贯穿整个推断统计部分,建议你在学习后续内容前确保本单元知识点完全掌握。 如果练习中遇到任何疑问,或者想刷更多对应考点的真题风格习题,可以随时到小欧主页提问获取针对性解答哦。