统计与概率 (AI HL) (Statistics and Probability (AI HL)) — IB Math AI HL AI HL 学习指南
适合谁:IB Math AI HL 参加 IB Math: Applications & Interpretation HL 的考生。
覆盖内容:覆盖抽样技术与偏差、离散与连续分布、HL专属假设检验(t检验、卡方检验)、线性与非线性回归、HL专属置信区间五大核心子主题。
前置知识:IGCSE / pre-DP 数学;熟悉应用题与计算工具。
关于练习题:下文「练习题」一节的所有题目均为我们按 IB Math AI HL 风格编写的原创题目 (original problems),仅用于教学。它们不是 IBO 真题的复制,措辞、数值或语境可能不同。请把它们当作练手用;评分细则请对照 IBO 官方 mark scheme。
1. 什么是统计与概率 (AI HL)?
统计与概率是IB Math AI HL占比最高的核心模块,占Paper 1、2、3总分的30%-35%,侧重考察统计工具在商业、自然科学、社会科学等真实场景的应用,允许使用图形计算器(GDC)完成大部分计算。本模块所有考点均会结合应用题考察,HL专属内容(假设检验、置信区间)是Paper 3综合题的高频出题点,需要你同时掌握概念逻辑和计算步骤。
2. 抽样技术与偏差 (Sampling techniques and bias)
统计研究的核心是用样本特征推断总体特征,第一步就是选择合理的抽样技术 (sampling technique),避免偏差 (bias)。
核心抽样方法
- 简单随机抽样:总体每个个体被抽中概率相等,适用于总体同质化高的场景
- 分层抽样:将总体按特征分为不同层,每层按比例抽样,适用于总体分层差异明显的场景
- 整群抽样:将总体分为多个群,随机抽取若干个群作为样本,适用于群内差异和总体一致的场景
- 方便抽样:抽取容易接触的个体,属于非随机抽样,偏差极高
常见偏差类型
选择偏差、应答偏差、测量偏差,所有偏差都会导致样本无法代表总体,统计结论无效。
范例:调查某学校学生平均每日睡眠时间,仅在早自习门口抽样属于测量偏差,因为早自习到校的学生普遍睡眠时间较短,样本不具备代表性。
3. 离散与连续分布 (Discrete and continuous distributions)
随机变量 (random variable) 按取值类型分为离散和连续两类,对应不同的分布模型:
核心离散分布
- 二项分布:,n次独立重复试验的成功次数,期望,方差
- 泊松分布:,固定时间/空间内随机事件发生的次数,期望和方差均为
核心连续分布
- 正态分布:,最常用的连续分布,HL要求掌握二项分布、泊松分布的正态近似
- 均匀分布:,区间内取值概率相等
范例:已知某咖啡店每小时到店人数服从的泊松分布,求2小时内到店人数超过15的概率? 解答:设2小时到店人数为,则,用GDC计算得。
4. 假设检验:t检验与卡方检验 (Hypothesis testing — t-test, chi-squared (HL))
假设检验 (hypothesis testing) 是HL专属考点,用于验证关于总体参数的猜想是否成立,核心逻辑是“小概率事件在一次试验中几乎不会发生”。
t检验 (t-test)
适用于总体服从正态分布、总体方差未知、小样本的场景,用于检验总体均值是否等于某个值:
- 设定原假设(默认成立的结论)和备择假设(要验证的结论)
- 计算检验统计量,自由度
- 比较p值和显著性水平:若则拒绝,否则不拒绝
卡方检验 (chi-squared test)
分为两类:拟合优度检验(验证数据是否符合某分布)、独立性检验(验证两个分类变量是否相关),检验统计量为,其中是观测频数,是理论频数,要求所有,否则需要合并相邻组。
5. 线性与非线性回归 (Linear and non-linear regression)
回归分析 (regression analysis) 用于建立两个或多个变量之间的关系模型:
- 线性回归:计算皮尔逊相关系数衡量线性相关程度(越接近1相关性越强),得到回归方程,用衡量拟合优度
- 非线性回归:对于指数模型、幂函数模型等非线性关系,通过对数变换转化为线性关系后再拟合,同样用判断拟合效果
范例:某实验的x,y数据拟合幂函数模型,两边取对数得,变换后计算得,说明模型拟合效果极佳。
6. 置信区间 (HL) (Confidence intervals (HL))
置信区间 (confidence interval) 是HL专属考点,用于用样本统计量估计总体参数的范围:
- 总体方差未知时,总体均值的置信区间为,其中是对应置信水平、自由度的t临界值
- 95%置信水平的含义是:重复抽样100次,计算得到的100个区间中,有95个会包含真实的总体参数
范例:随机抽取12名学生的物理考试成绩,平均分为68,样本标准差为7,求总体均值的95%置信区间? 解答:自由度,t临界值,标准误为,区间为。
7. 常见陷阱 (Common Pitfalls)
- 错误做法:卡方检验时理论频数小于5的单元格不合并,直接计算检验统计量。原因:忘记考纲要求所有理论频数必须≥5,否则卡方检验结果无效。正确做法:合并相邻的低频数组后再计算。
- 错误做法:t检验时误用正态分布的z临界值。原因:混淆了总体方差已知和未知的场景。正确做法:总体方差未知、小样本时必须用t临界值。
- 错误做法:将置信区间解释为“真实参数有95%的概率落在区间内”。原因:混淆了随机变量和固定值的概念。正确做法:解释为“我们有95%的信心真实参数落在该区间内,真实参数是固定值,区间是随机的”。
- 错误做法:分层抽样和整群抽样混淆,按类别划分群体就认为是分层抽样。原因:没有理解两种抽样的逻辑差异。正确做法:分层抽样是每层抽取部分个体,整群抽样是抽取整个群体的所有个体。
8. 练习题 (IB Math AI HL 风格)
题目1
某城市要调查居民对公共交通的满意度,全市共20000户居民,分为主城区(12000户)、郊区(6000户)、远郊(2000户)三类区域。(a) 若采用分层抽样抽取200户,每个区域应抽多少户?(b) 若调查员仅在地铁站入口抽样,会存在什么偏差?
解答
(a) 抽样比例为,因此主城区抽户,郊区抽60户,远郊抽20户。 (b) 存在选择偏差,样本无法覆盖不乘坐地铁的居民(比如老年群体、自驾群体),结论不具备代表性。
题目2
某健身房宣称其会员平均每月减重4kg,现随机抽取10名会员,测得平均每月减重3.2kg,样本标准差为1.1kg,假设减重服从正态分布,在5%显著性水平下是否能认为该宣称不实?
解答
设定原假设,备择假设,采用双侧t检验,自由度。 检验统计量,计算得p值约为0.047<0.05,因此拒绝原假设,有足够证据认为该宣称不实。
题目3
随机抽取36名高三学生的模考数学成绩,平均分为76,样本标准差为9,求总体平均分的90%置信区间。
解答
自由度,t临界值,标准误为,因此置信区间为。
9. 速查表 (Quick Reference Cheatsheet)
| 考点 | 核心规则/公式 | 适用场景 |
|---|---|---|
| 分层抽样 | 每层抽样数=该层总体占比×总样本量 | 总体分层差异明显,降低抽样误差 |
| 二项分布 | n次独立重复试验 | |
| t检验 | 总体正态、方差未知,检验总体均值 | |
| 卡方检验 | ,所有 | 拟合优度检验、分类变量独立性检验 |
| t置信区间 | 总体方差未知,估计总体均值 | |
| 回归拟合 | 越接近1,拟合效果越好 | 评估回归模型拟合质量 |
10. 接下来怎么学
本模块是IB Math AI HL Paper 3综合应用题的核心出题载体,后续会和数学建模、优化、决策分析等内容结合考察,你需要熟练掌握GDC的统计功能,能快速计算分布概率、检验统计量和置信区间,同时要重点练习应用题的题干解读,能快速从长文本中提取统计相关的已知条件。 如果你在刷题过程中遇到任何考点疑问、真题不会做,都可以随时找小欧提问,我们会提供针对性的讲解和配套练习。