A-Level 数学 · Paper 5 (Probability & Statistics 1) · Representation of Data / 数据表示 · 阅读约 15 分钟 · 更新于 2026-05-06

数据表示 (Representation of Data) — A-Level Mathematics Stats 学习指南

适合谁：A-Level Mathematics 参加 Paper 5 (Probability & Statistics 1) 的考生。

覆盖内容：覆盖频数表、直方图与累计频率计算，茎叶图、箱线图的解读与绘制，集中趋势与离散程度统计量计算，编码简化运算方法，分布的中心、离散度、形态对比全部核心子主题。

前置知识：基本概率、求和、积分（Pure 1 微积分）。

关于练习题：下文「练习题」一节的所有题目均为我们按 A-Level 风格编写的原创题目 (original problems)，仅用于教学。它们不是 Cambridge International 真题的复制，措辞、数值或语境可能不同。请把它们当作练手用；评分细则请对照 Cambridge 官方 mark scheme。

1. 什么是数据表示？

数据表示（Representation of Data）是统计分析的基础环节，核心是把零散的原始观测数据转化为直观可读的图表、或可量化的统计指标，方便挖掘数据规律、对比不同数据集特征。作为A-Level Mathematics Paper5的核心基础考点，它占卷面分数约10%-15%，后续的概率分布、相关性分析、假设检验等章节都需要用到本节的统计量计算逻辑和分布解读方法。

2. 频数表、直方图与累计频率

频数表（frequency table） 是把原始数据按区间分组后，统计每个区间内观测值出现次数（频数frequency）的表格。对于连续型数据，每组的区间宽度叫组距（class width），区间两端的准确边界叫上下组限（class boundary），组中点值（class midpoint）是上下组限的平均值，用于估算分组数据的均值。

直方图（histogram） 是用矩形面积表示每组频数的图表，注意和柱状图的核心区别：直方图的横轴是连续的数值区间，矩形面积=频数，因此纵轴必须是频数密度（frequency density），计算公式为： $频数密度 = \frac{频数}{组距}$ 考官常考组距不等的直方图绘制，此时绝对不能用频数作为纵轴高度，否则会完全扭曲数据分布形态。

累计频率（cumulative frequency） 是从最小的组开始，把每组频数依次累加得到的值，代表小于等于对应组上限的总观测数。累计频率曲线（ogive）是以每组的上组限为x坐标、对应累计频率为y坐标绘制的平滑曲线，可用于估算中位数、四分位数、任意分位的数值。

范例：某班30名学生的物理分数分组为：0-20分2人，20-40分5人，40-60分12人，60-80分8人，80-100分3人。则40-60组的组距为20，频数密度为 $\frac{12}{20} = 0.6$ ，分数小于60分的累计频率为 $2 + 5 + 12 = 19$ 。

3. 茎叶图与箱线图

茎叶图（stem-and-leaf plot） 是把每个数据拆分为茎（高位数字）和叶（低位数字）的图表，优点是完整保留所有原始数据，同时能直观看到分布形态，绘制时要求对叶的数值排序，方便快速找到中位数、四分位数。

箱线图（box plot，又称箱须图box-and-whisker plot） 是用5个关键值表示数据分布的精简图表，5个值分别为：最小值（minimum）、下四分位数 $Q_{1}$ （lower quartile，排序后第25%位置的数值）、中位数 $Q_{2}$ （median，第50%位置的数值）、上四分位数 $Q_{3}$ （upper quartile，第75%位置的数值）、最大值（maximum）。箱子的长度为四分位距（interquartile range, IQR），计算公式为 $I QR = Q_{3} - Q_{1}$ ，代表中间50%数据的分布范围；须的长度通常不超过 $1.5 \times I QR$ ，超出范围的点标注为异常值（outlier）。

范例：排序后的7个数据为12,15,17,21,22,24,28， $n = 7$ ，中位数为第4个值21， $Q_{1}$ 为第2个值15， $Q_{3}$ 为第6个值24， $I QR = 24 - 15 = 9$ ，箱线图的箱子两端为15和24，中间线为21，须分别延伸到最小值12和最大值28。

4. 集中趋势、离散程度统计量计算

统计量分为两类：描述数据整体水平的集中趋势统计量，和描述数据波动程度的离散程度统计量：

集中趋势统计量：

均值（mean）：所有数据的平均值，公式为 $\overset{x}{ˉ} = \frac{\sum x}{n}$ ，易受极端值影响，适用于对称分布数据；
中位数（median）：排序后中间位置的数值， $n$ 为奇数时是第 $\frac{n + 1}{2}$ 个值，偶数时是中间两个值的平均，不受极端值影响，适用于偏态分布数据；
众数（mode）：出现次数最多的数值，适用于分类数据或离散型数据。

离散程度统计量：

极差（range）=最大值-最小值，易受极端值影响；
四分位距 $I QR = Q_{3} - Q_{1}$ ，代表中间50%数据的离散程度，不受极端值影响；
标准差（standard deviation）：衡量所有数据相对于均值的平均离散程度，是最常用的离散统计量，公式为： $s = \frac{\sum x ^{2}}{n} - (\overset{x}{ˉ})^{2}$

范例：数据2,4,6,8,10，均值 $\overset{x}{ˉ} = 6$ ，中位数6，无众数，极差8， $I QR = 8 - 4 = 4$ ，标准差 $s = \frac{4 + 16 + 36 + 64 + 100}{5} - 36 = 40 - 36 = 2$ 。

5. 编码简化运算

当原始数据数值过大时，可通过线性编码（coding） 把数据转化为更小的数值，大幅降低计算量，通用编码公式为 $y = \frac{x - a}{b}$ ，其中 $a 、 b$ 为自定义常数。编码后的统计量转换规则非常固定：

位置类统计量（均值、中位数、四分位数）： $统计量_{x} = b \times 统计量_{y} + a$ ，常数 $a$ 代表整体平移，因此需要加上；
差值类统计量（标准差、IQR、极差）： $统计量_{x} = b \times 统计量_{y}$ ，常数 $a$ 在差值计算中会抵消，因此不需要加。

范例：原始数据为102,105,108,111，取编码 $y = x - 100$ （即 $a = 100, b = 1$ ），得到 $y$ 值为2,5,8,11。计算得 $\overset{y}{ˉ} = 6.5$ ， $s_{y} = 11.25$ ，因此原始数据的 $\overset{x}{ˉ} = 6.5 + 100 = 106.5$ ， $s_{x} = 11.25$ ，和直接计算原始数据的结果完全一致。

6. 分布对比：中心、离散度、形态

对比两个数据集的分布时，考官要求必须从三个维度作答，缺项会扣分：

中心：用均值或中位数比较，数值更高的数据集整体水平更高；
离散度：用标准差或IQR比较，数值更小的数据集数据更集中、稳定性更高；
形态：判断是对称分布（均值≈中位数）、正偏态（positive skew，长尾在右侧，均值>中位数，多为少数大的极端值拉高效应）、负偏态（negative skew，长尾在左侧，均值<中位数，多为少数小的极端值拉低效应）。

范例：A班数学平均分75，标准差8，中位数74；B班平均分72，标准差12，中位数76。对比可知：A班整体成绩更高、波动更小，分布接近对称；B班成绩波动更大，呈负偏态，说明有少数低分拉低了整体平均分。

7. 常见陷阱 (Common Pitfalls)

错误做法：直方图用频数作为纵轴高度，尤其是组距不等的情况。原因：混淆了直方图和柱状图的逻辑，误以为高度代表数量。正确做法：直方图纵轴必须是频数密度，面积才对应频数，组距不等时用频数做高度会直接被判错。
错误做法：绘制累计频率曲线时用组中值作为x坐标。原因：混淆了组中值和组上限的定义。正确做法：累计频率是小于等于组上限的总观测数，因此x坐标必须用每组的上组限。
错误做法：编码计算标准差时加了常数 $a$ 。原因：记不清编码对不同类型统计量的影响。正确做法：标准差、IQR、极差是差值类统计量，不受平移常数 $a$ 的影响，只有位置类统计量需要加 $a$ 。
错误做法：分布对比题只比较均值大小，不提离散度和形态。原因：不知道考官的得分点要求。正确做法：所有分布对比题必须按中心、离散度、形态三个点作答，每个点都要配对应的统计量作为支撑。

8. 练习题 (A-Level Mathematics Paper5 风格)

第1题

题干：某工厂生产的零件长度（单位：mm）的分组频数表如下：10-12组频数6，12-14组频数14，14-16组频数18，16-20组频数12。求：(a) 14-16组的频数密度；(b) 直方图中16-20组的矩形高度；(c) 估算长度小于15mm的零件数量。解答： (a) 14-16组组距=16-14=2，频数密度 $= \frac{18}{2} = 9$ (b) 16-20组组距=4，频数密度 $= \frac{12}{4} = 3$ ，因此矩形高度为3 (c) 14-16组中长度小于15mm的占组的一半，因此总数量为 $6 + 14 + 18 \times \frac{1}{2} = 29$

第2题

题干：已知一组数据经过编码 $y = \frac{x - 50}{10}$ 处理后， $y$ 的均值为3.2，标准差为1.5，求原始数据 $x$ 的均值和标准差。解答：根据编码转换规则： $\overset{x}{ˉ} = 10 \overset{y}{ˉ} + 50 = 10 \times 3.2 + 50 = 82$ ， $s_{x} = 10 s_{y} = 10 \times 1.5 = 15$

第3题

题干：两个班级的英语考试成绩箱线图显示：A班中位数78，IQR=8，均值77；B班中位数72，IQR=12，均值68。描述两个分布的差异。解答：

中心：A班中位数和均值都高于B班，说明A班整体英语成绩更好；
离散度：A班IQR更小，说明A班中间50%的学生成绩更集中，差异更小；
形态：A班均值≈中位数，接近对称分布；B班均值<中位数，呈负偏态，说明有少数低分拉低了B班的整体平均分。

9. 速查表 (Quick Reference Cheatsheet)

类别	核心公式/规则
图表类	直方图面积=频数，频数密度=频数/组距；累计频率曲线x坐标为组上限；箱线图五数：最小值、 $Q_{1}$ 、 $Q_{2}$ 、 $Q_{3}$ 、最大值， $I QR = Q_{3} - Q_{1}$
统计量类	均值 $\overset{x}{ˉ} = \frac{\sum x}{n}$ ；标准差 $s = \frac{\sum x ^{2}}{n} - \overset{x}{ˉ}^{2}$ ；中位数为排序后第 $\frac{n + 1}{2}$ 位数值
编码类	编码 $y = \frac{x - a}{b}$ ，位置统计量（均值、中位数）： $值_{x} = b \times 值_{y} + a$ ；差值统计量（标准差、IQR）： $值_{x} = b \times 值_{y}$
分布对比	必须覆盖3个维度：中心（均值/中位数）、离散度（标准差/IQR）、形态（对称/正偏/负偏）

10. 接下来怎么学

本节的统计量计算、分布解读是Paper5后续章节的核心基础，你接下来要学的概率分布、相关性分析、假设检验都会用到均值、标准差的计算逻辑，以及分布形态的判断方法，掌握本节内容能帮你大幅降低后续知识点的学习门槛。

如果你在刷真题时遇到数据表示相关的错题，或者对某个考点还有疑问，可以随时到小欧提问，我们会给你针对性的讲解和练习。

本指南内容对齐 CIE 剑桥国际 AS & A Level 数学 9709 考纲。OwlsAi 与 Cambridge Assessment International Education 无附属关系。

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →