AP 统计学 · AP Statistics · Exploring One-Variable Data / 单变量数据探索 · 阅读约 15 分钟 · 更新于 2026-05-07

单变量数据探索 (Exploring One-Variable Data) — AP Statistics Stats 学习指南

适合谁：AP Statistics 参加 AP Statistics 的考生。

覆盖内容：分类变量与定量变量区分、频率表与常见单变量可视化图表、集中趋势与离散程度统计量、异常值与统计量抗性、Z分数与百分位五大核心子主题。

前置知识：Algebra 2、基础概率直觉。

关于练习题：下文「练习题」一节的所有题目均为我们按 AP Statistics 风格编写的原创题目 (original problems)，仅用于教学。它们不是 College Board 真题的复制，措辞、数值或语境可能不同。请把它们当作练手用；评分细则请对照 College Board 官方 mark scheme。

1. 什么是单变量数据探索？

单变量数据探索是统计分析的基础步骤，指对单个变量的观测数据集进行整理、可视化、特征描述的整套方法，是AP统计考纲第一单元的核心内容。你在后续所有推断统计、双变量分析的学习中，都会用到本单元的基础逻辑和方法，单元占考试分数的15%-23%，是必须完全掌握的入门模块。

2. 分类变量与定量变量（Categorical vs quantitative variables）

变量是指观测对象的可测量特征，按性质可分为两类：

分类变量（categorical variable）：代表类别、属性，数值仅作标识无大小意义，比如性别、所属年级、满意度评级，可进一步分为名义变量（无顺序，如性别）和有序变量（有顺序，如满意度）。
定量变量（quantitative variable）：数值具有明确大小意义，可进行运算，比如身高、考试分数、每月零花钱，可进一步分为离散变量（取值可枚举，如人数）和连续变量（取值无限，如身高）。

小范例：调查高中生的通勤情况时，“通勤方式（步行/公交/私家车）”是分类变量，“通勤时长（分钟）”是定量变量。考官常考变量类型判断，一旦判断错误，后续可视化方法、统计量选择都会全错。

3. 频率表与常见单变量可视化图表（Frequency tables, dotplots, stemplots, histograms）

不同类型的变量需要对应不同的可视化方法，核心常用图表如下：

频率表（frequency table）：按类别/分组列示每个组的观测次数（频数），相对频率=频数/总观测数，适用于初步整理两类变量。
点图（dotplot）：将每个观测值用点标记在数轴上，适合小样本定量数据集，可直观看到分布形态和异常值。
茎叶图（stemplot）：将数值拆分为“茎（高位数）”和“叶（低位数）”，保留所有原始数据，适合50个以内的定量数据集。
直方图（histogram）：横轴为定量变量的分组区间，纵轴为频数/相对频率，柱子之间无间隔，适合大样本定量数据的分布形态判断。注意区分条形图：条形图用于分类变量，柱子之间有间隔。

小范例：8名学生的身高（单位：cm）为162,165,165,170,172,175,178,180，茎叶图的茎为十位+百位（16,17,18），16的叶为2,5,5，17的叶为0,2,5,8，18的叶为0。

4. 集中趋势与离散程度度量（Center and spread — mean, median, SD, IQR）

描述数据集核心特征需要两类统计量：

集中趋势度量

均值（mean）：所有观测的平均值，样本均值记号为 $\overset{x}{ˉ}$ ，公式为： $\overset{x}{ˉ} = \frac{\sum _{i = 1}^{n} x _{i}}{n}$
中位数（median）：将数据从小到大排序后，中间位置的数值，n为奇数时是第 $\frac{n + 1}{2}$ 个观测，n为偶数时是中间两个观测的平均值。

离散程度度量

样本标准差（standard deviation, SD）：衡量数据离均值的平均距离，记号为 $s$ ，公式为： $s = \frac{\sum _{i = 1}^{n} ( x _{i} - x ˉ ) ^{2}}{n - 1}$ 分母用n-1是为了得到总体标准差的无偏估计，AP统计默认所有数据为样本，因此必须用n-1。
四分位距（interquartile range, IQR）：中间50%数据的范围， $I QR = Q_{3} - Q_{1}$ ，其中 $Q_{1}$ 是下四分位数（第25百分位）， $Q_{3}$ 是上四分位数（第75百分位）。

小范例：上述8名学生身高的均值为170.875cm，中位数为(170+172)/2=171cm， $Q_{1} = 165 c m$ ， $Q_{3} = 176.5 c m$ ，IQR=11.5cm，样本标准差约为5.9cm。

5. 异常值与统计量抗性（Outliers and resistance）

异常值（outlier）：与其他观测值明显偏离的数值，AP统计通用判定规则为1.5×IQR法则：小于 $Q_{1} - 1.5 \times I QR$ 或大于 $Q_{3} + 1.5 \times I QR$ 的观测值即为异常值。
抗性（resistance）：统计量不受极端异常值影响的程度。中位数、IQR属于抗性统计量，异常值对其影响很小；均值、标准差属于非抗性统计量，极端值会显著拉偏均值、放大标准差。

小范例：在上述身高数据中加入一个210cm的异常值，均值变为175.2cm，上升了4.3cm，而中位数变为172cm，仅上升了1cm，明显更稳定。

6. Z分数与百分位（Z-scores and percentiles）

百分位（percentile）：第 $k$ 百分位表示至少 $k %$ 的观测值小于等于该值，且至少 $(100 - k) %$ 的观测值大于等于该值，用于描述观测值在数据集中的相对位置。
Z分数（z-score）：衡量观测值离均值有多少个标准差，无单位，可用于不同分布数据集的相对位置比较，公式为： $z = \frac{x - x ˉ}{s}$ Z分数为正表示观测值高于均值，为负表示低于均值，经验法则下，对称分布中 $z = 1$ 对应第84百分位， $z = 2$ 对应第97.5百分位。

小范例：某次数学考试均值为75，标准差为6，你考了87分，Z分数为 $\frac{87 - 75}{6} = 2$ ，说明你的分数比均值高2个标准差，处于第97.5百分位。

7. 常见陷阱（Common Pitfalls）

错误做法：给分类变量绘制直方图，或给定量变量绘制带间隔的条形图。错误原因：混淆变量类型与图表适用场景。正确做法：分类变量用条形图/饼图，定量变量用直方图/点图/茎叶图，直方图柱子无间隔。
错误做法：计算样本标准差时分母用 $n$ 而不是 $n - 1$ 。错误原因：混淆样本标准差和总体标准差的定义。正确做法：除非题目明确说明是总体数据，否则标准差分母一律用 $n - 1$ 。
错误做法：不管分布形态一律用均值和标准差描述数据。错误原因：忽略非抗性统计量的缺陷。正确做法：对称无异常值的分布用均值+标准差，偏态分布或有异常值的数据集用中位数+IQR。
错误做法：将Z分数直接等同于百分位，不考虑分布形态。错误原因：误用仅适用于对称分布的经验法则。正确做法：经验法则仅适用于对称/正态分布，偏态分布的百分位需要从累积频率表中读取。

8. 练习题（AP Statistics 风格）

第1题

题干：某咖啡店统计了12天的每日外送订单量，数据如下：12,15,15,17,18,18,20,22,23,25,27,42。(a) 判断“每日外送订单量”属于什么类型的变量；(b) 计算该数据集的均值、中位数、IQR、样本标准差；(c) 判断是否存在异常值，说明理由。解答： (a) 定量离散变量。 (b) 均值 $\overset{x}{ˉ} = \frac{12 + 15 + 15 + 17 + 18 + 18 + 20 + 22 + 23 + 25 + 27 + 42}{12} = 21$ ，中位数为第6、7个数据的平均值： $\frac{18 + 20}{2} = 19$ ， $Q_{1} = 16$ （第3、4个数据的平均）， $Q_{3} = 24$ （第9、10个数据的平均）， $I QR = 24 - 16 = 8$ ，样本标准差 $s = \frac{\sum ( x _{i} - 21 ) ^{2}}{11} \approx 7.67$ 。 (c) 按1.5×IQR法则，上限为 $24 + 1.5 \times 8 = 36$ ，下限为 $16 - 1.5 \times 8 = 4$ ，42>36，因此42为异常值。

第2题

题干：某次AP统计模考分数服从对称分布，均值为70，标准差为7。小李的得分Z分数为1.2，小王的得分处于第16百分位，求两人的分数差。解答：小李的分数为 $70 + 1.2 \times 7 = 78.4$ ，对称分布下第16百分位对应 $z = - 1$ （68%的数据在±1σ范围内，低于-1σ的比例为16%），小王的分数为 $70 - 1 \times 7 = 63$ ，分数差为 $78.4 - 63 = 15.4$ 分。

第3题

题干：下列统计量中，属于抗性统计量的是？A. 均值 B. 极差 C. 中位数 D. 标准差解答：选C，中位数和IQR不受极端值影响，属于抗性统计量，其余三个均会被异常值显著影响。

9. 速查表（Quick Reference Cheatsheet）

分类	内容	规则/公式
变量分类	分类变量/定量变量	分类变量代表类别，定量变量数值有大小意义
可视化	适用场景	分类变量：条形图、饼图；定量变量：点图、茎叶图、直方图
统计量	均值	$\overset{x}{ˉ} = \frac{\sum x _{i}}{n}$
统计量	样本标准差	$s = \frac{\sum ( x _{i} - x ˉ ) ^{2}}{n - 1}$
统计量	四分位距	$I QR = Q_{3} - Q_{1}$
异常值	判定规则	$x < Q_{1} - 1.5 I QR$ 或 $x > Q_{3} + 1.5 I QR$
相对位置	Z分数	$z = \frac{x - x ˉ}{s}$
统计量选择	适用场景	对称无异常值：均值+SD；偏态/有异常值：中位数+IQR

10. 接下来怎么学

本单元是AP统计所有后续内容的基础，你后续学习双变量数据探索、概率分布、抽样分布、假设检验等模块时，都需要用到本单元的变量分类、统计量计算、分布形态判断等知识，尤其是Z分数和百分位的概念会贯穿整个推断统计部分，建议你在学习后续内容前确保本单元知识点完全掌握。如果练习中遇到任何疑问，或者想刷更多对应考点的真题风格习题，可以随时到小欧主页提问获取针对性解答哦。

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →