数据表示 (Representation of Data) — A-Level Mathematics Stats 学习指南
适合谁:A-Level Mathematics 参加 Paper 5 (Probability & Statistics 1) 的考生。
覆盖内容:覆盖频数表、直方图与累计频率计算,茎叶图、箱线图的解读与绘制,集中趋势与离散程度统计量计算,编码简化运算方法,分布的中心、离散度、形态对比全部核心子主题。
前置知识:基本概率、求和、积分(Pure 1 微积分)。
关于练习题:下文「练习题」一节的所有题目均为我们按 A-Level 风格编写的原创题目 (original problems),仅用于教学。它们不是 Cambridge International 真题的复制,措辞、数值或语境可能不同。请把它们当作练手用;评分细则请对照 Cambridge 官方 mark scheme。
1. 什么是数据表示?
数据表示(Representation of Data)是统计分析的基础环节,核心是把零散的原始观测数据转化为直观可读的图表、或可量化的统计指标,方便挖掘数据规律、对比不同数据集特征。作为A-Level Mathematics Paper5的核心基础考点,它占卷面分数约10%-15%,后续的概率分布、相关性分析、假设检验等章节都需要用到本节的统计量计算逻辑和分布解读方法。
2. 频数表、直方图与累计频率
频数表(frequency table) 是把原始数据按区间分组后,统计每个区间内观测值出现次数(频数frequency)的表格。对于连续型数据,每组的区间宽度叫组距(class width),区间两端的准确边界叫上下组限(class boundary),组中点值(class midpoint)是上下组限的平均值,用于估算分组数据的均值。
直方图(histogram) 是用矩形面积表示每组频数的图表,注意和柱状图的核心区别:直方图的横轴是连续的数值区间,矩形面积=频数,因此纵轴必须是频数密度(frequency density),计算公式为: 考官常考组距不等的直方图绘制,此时绝对不能用频数作为纵轴高度,否则会完全扭曲数据分布形态。
累计频率(cumulative frequency) 是从最小的组开始,把每组频数依次累加得到的值,代表小于等于对应组上限的总观测数。累计频率曲线(ogive)是以每组的上组限为x坐标、对应累计频率为y坐标绘制的平滑曲线,可用于估算中位数、四分位数、任意分位的数值。
范例:某班30名学生的物理分数分组为:0-20分2人,20-40分5人,40-60分12人,60-80分8人,80-100分3人。则40-60组的组距为20,频数密度为,分数小于60分的累计频率为。
3. 茎叶图与箱线图
茎叶图(stem-and-leaf plot) 是把每个数据拆分为茎(高位数字)和叶(低位数字)的图表,优点是完整保留所有原始数据,同时能直观看到分布形态,绘制时要求对叶的数值排序,方便快速找到中位数、四分位数。
箱线图(box plot,又称箱须图box-and-whisker plot) 是用5个关键值表示数据分布的精简图表,5个值分别为:最小值(minimum)、下四分位数(lower quartile,排序后第25%位置的数值)、中位数(median,第50%位置的数值)、上四分位数(upper quartile,第75%位置的数值)、最大值(maximum)。箱子的长度为四分位距(interquartile range, IQR),计算公式为,代表中间50%数据的分布范围;须的长度通常不超过,超出范围的点标注为异常值(outlier)。
范例:排序后的7个数据为12,15,17,21,22,24,28,,中位数为第4个值21,为第2个值15,为第6个值24,,箱线图的箱子两端为15和24,中间线为21,须分别延伸到最小值12和最大值28。
4. 集中趋势、离散程度统计量计算
统计量分为两类:描述数据整体水平的集中趋势统计量,和描述数据波动程度的离散程度统计量:
- 集中趋势统计量:
- 均值(mean):所有数据的平均值,公式为,易受极端值影响,适用于对称分布数据;
- 中位数(median):排序后中间位置的数值,为奇数时是第个值,偶数时是中间两个值的平均,不受极端值影响,适用于偏态分布数据;
- 众数(mode):出现次数最多的数值,适用于分类数据或离散型数据。
- 离散程度统计量:
- 极差(range)=最大值-最小值,易受极端值影响;
- 四分位距,代表中间50%数据的离散程度,不受极端值影响;
- 标准差(standard deviation):衡量所有数据相对于均值的平均离散程度,是最常用的离散统计量,公式为:
范例:数据2,4,6,8,10,均值,中位数6,无众数,极差8,,标准差。
5. 编码简化运算
当原始数据数值过大时,可通过线性编码(coding) 把数据转化为更小的数值,大幅降低计算量,通用编码公式为,其中为自定义常数。 编码后的统计量转换规则非常固定:
- 位置类统计量(均值、中位数、四分位数):,常数代表整体平移,因此需要加上;
- 差值类统计量(标准差、IQR、极差):,常数在差值计算中会抵消,因此不需要加。
范例:原始数据为102,105,108,111,取编码(即),得到值为2,5,8,11。计算得,,因此原始数据的,,和直接计算原始数据的结果完全一致。
6. 分布对比:中心、离散度、形态
对比两个数据集的分布时,考官要求必须从三个维度作答,缺项会扣分:
- 中心:用均值或中位数比较,数值更高的数据集整体水平更高;
- 离散度:用标准差或IQR比较,数值更小的数据集数据更集中、稳定性更高;
- 形态:判断是对称分布(均值≈中位数)、正偏态(positive skew,长尾在右侧,均值>中位数,多为少数大的极端值拉高效应)、负偏态(negative skew,长尾在左侧,均值<中位数,多为少数小的极端值拉低效应)。
范例:A班数学平均分75,标准差8,中位数74;B班平均分72,标准差12,中位数76。对比可知:A班整体成绩更高、波动更小,分布接近对称;B班成绩波动更大,呈负偏态,说明有少数低分拉低了整体平均分。
7. 常见陷阱 (Common Pitfalls)
- 错误做法:直方图用频数作为纵轴高度,尤其是组距不等的情况。原因:混淆了直方图和柱状图的逻辑,误以为高度代表数量。正确做法:直方图纵轴必须是频数密度,面积才对应频数,组距不等时用频数做高度会直接被判错。
- 错误做法:绘制累计频率曲线时用组中值作为x坐标。原因:混淆了组中值和组上限的定义。正确做法:累计频率是小于等于组上限的总观测数,因此x坐标必须用每组的上组限。
- 错误做法:编码计算标准差时加了常数。原因:记不清编码对不同类型统计量的影响。正确做法:标准差、IQR、极差是差值类统计量,不受平移常数的影响,只有位置类统计量需要加。
- 错误做法:分布对比题只比较均值大小,不提离散度和形态。原因:不知道考官的得分点要求。正确做法:所有分布对比题必须按中心、离散度、形态三个点作答,每个点都要配对应的统计量作为支撑。
8. 练习题 (A-Level Mathematics Paper5 风格)
第1题
题干:某工厂生产的零件长度(单位:mm)的分组频数表如下:10-12组频数6,12-14组频数14,14-16组频数18,16-20组频数12。求:(a) 14-16组的频数密度;(b) 直方图中16-20组的矩形高度;(c) 估算长度小于15mm的零件数量。 解答: (a) 14-16组组距=16-14=2,频数密度 (b) 16-20组组距=4,频数密度,因此矩形高度为3 (c) 14-16组中长度小于15mm的占组的一半,因此总数量为
第2题
题干:已知一组数据经过编码处理后,的均值为3.2,标准差为1.5,求原始数据的均值和标准差。 解答: 根据编码转换规则:,
第3题
题干:两个班级的英语考试成绩箱线图显示:A班中位数78,IQR=8,均值77;B班中位数72,IQR=12,均值68。描述两个分布的差异。 解答:
- 中心:A班中位数和均值都高于B班,说明A班整体英语成绩更好;
- 离散度:A班IQR更小,说明A班中间50%的学生成绩更集中,差异更小;
- 形态:A班均值≈中位数,接近对称分布;B班均值<中位数,呈负偏态,说明有少数低分拉低了B班的整体平均分。
9. 速查表 (Quick Reference Cheatsheet)
| 类别 | 核心公式/规则 |
|---|---|
| 图表类 | 直方图面积=频数,频数密度=频数/组距;累计频率曲线x坐标为组上限;箱线图五数:最小值、、、、最大值, |
| 统计量类 | 均值;标准差;中位数为排序后第位数值 |
| 编码类 | 编码,位置统计量(均值、中位数):;差值统计量(标准差、IQR): |
| 分布对比 | 必须覆盖3个维度:中心(均值/中位数)、离散度(标准差/IQR)、形态(对称/正偏/负偏) |
10. 接下来怎么学
本节的统计量计算、分布解读是Paper5后续章节的核心基础,你接下来要学的概率分布、相关性分析、假设检验都会用到均值、标准差的计算逻辑,以及分布形态的判断方法,掌握本节内容能帮你大幅降低后续知识点的学习门槛。
如果你在刷真题时遇到数据表示相关的错题,或者对某个考点还有疑问,可以随时到小欧提问,我们会给你针对性的讲解和练习。
本指南内容对齐 CIE 剑桥国际 AS & A Level 数学 9709 考纲。OwlsAi 与 Cambridge Assessment International Education 无附属关系。