| 学习指南 EN
IB 数学:应用与解释 HL · IB Math: Applications & Interpretation HL · Statistics and Probability (AI HL) / 统计与概率 (AI HL) · 阅读约 15 分钟 · 更新于 2026-05-06

统计与概率 (AI HL) (Statistics and Probability (AI HL)) — IB Math AI HL AI HL 学习指南

适合谁:IB Math AI HL 参加 IB Math: Applications & Interpretation HL 的考生。

覆盖内容:覆盖抽样技术与偏差、离散与连续分布、HL专属假设检验(t检验、卡方检验)、线性与非线性回归、HL专属置信区间五大核心子主题。

前置知识:IGCSE / pre-DP 数学;熟悉应用题与计算工具。

关于练习题:下文「练习题」一节的所有题目均为我们按 IB Math AI HL 风格编写的原创题目 (original problems),仅用于教学。它们不是 IBO 真题的复制,措辞、数值或语境可能不同。请把它们当作练手用;评分细则请对照 IBO 官方 mark scheme。


1. 什么是统计与概率 (AI HL)?

统计与概率是IB Math AI HL占比最高的核心模块,占Paper 1、2、3总分的30%-35%,侧重考察统计工具在商业、自然科学、社会科学等真实场景的应用,允许使用图形计算器(GDC)完成大部分计算。本模块所有考点均会结合应用题考察,HL专属内容(假设检验、置信区间)是Paper 3综合题的高频出题点,需要你同时掌握概念逻辑和计算步骤。

2. 抽样技术与偏差 (Sampling techniques and bias)

统计研究的核心是用样本特征推断总体特征,第一步就是选择合理的抽样技术 (sampling technique),避免偏差 (bias)

核心抽样方法

  1. 简单随机抽样:总体每个个体被抽中概率相等,适用于总体同质化高的场景
  2. 分层抽样:将总体按特征分为不同层,每层按比例抽样,适用于总体分层差异明显的场景
  3. 整群抽样:将总体分为多个群,随机抽取若干个群作为样本,适用于群内差异和总体一致的场景
  4. 方便抽样:抽取容易接触的个体,属于非随机抽样,偏差极高

常见偏差类型

选择偏差、应答偏差、测量偏差,所有偏差都会导致样本无法代表总体,统计结论无效。

范例:调查某学校学生平均每日睡眠时间,仅在早自习门口抽样属于测量偏差,因为早自习到校的学生普遍睡眠时间较短,样本不具备代表性。

3. 离散与连续分布 (Discrete and continuous distributions)

随机变量 (random variable) 按取值类型分为离散和连续两类,对应不同的分布模型:

核心离散分布

  1. 二项分布:,n次独立重复试验的成功次数,期望,方差
  2. 泊松分布:,固定时间/空间内随机事件发生的次数,期望和方差均为

核心连续分布

  1. 正态分布:,最常用的连续分布,HL要求掌握二项分布、泊松分布的正态近似
  2. 均匀分布:,区间内取值概率相等

范例:已知某咖啡店每小时到店人数服从的泊松分布,求2小时内到店人数超过15的概率? 解答:设2小时到店人数为,则,用GDC计算得

4. 假设检验:t检验与卡方检验 (Hypothesis testing — t-test, chi-squared (HL))

假设检验 (hypothesis testing) 是HL专属考点,用于验证关于总体参数的猜想是否成立,核心逻辑是“小概率事件在一次试验中几乎不会发生”。

t检验 (t-test)

适用于总体服从正态分布、总体方差未知、小样本的场景,用于检验总体均值是否等于某个值:

  1. 设定原假设(默认成立的结论)和备择假设(要验证的结论)
  2. 计算检验统计量,自由度
  3. 比较p值和显著性水平:若则拒绝,否则不拒绝

卡方检验 (chi-squared test)

分为两类:拟合优度检验(验证数据是否符合某分布)、独立性检验(验证两个分类变量是否相关),检验统计量为,其中是观测频数,是理论频数,要求所有,否则需要合并相邻组。

5. 线性与非线性回归 (Linear and non-linear regression)

回归分析 (regression analysis) 用于建立两个或多个变量之间的关系模型:

  1. 线性回归:计算皮尔逊相关系数衡量线性相关程度(越接近1相关性越强),得到回归方程,用衡量拟合优度
  2. 非线性回归:对于指数模型、幂函数模型等非线性关系,通过对数变换转化为线性关系后再拟合,同样用判断拟合效果

范例:某实验的x,y数据拟合幂函数模型,两边取对数得,变换后计算得,说明模型拟合效果极佳。

6. 置信区间 (HL) (Confidence intervals (HL))

置信区间 (confidence interval) 是HL专属考点,用于用样本统计量估计总体参数的范围:

  1. 总体方差未知时,总体均值的置信区间为,其中是对应置信水平、自由度的t临界值
  2. 95%置信水平的含义是:重复抽样100次,计算得到的100个区间中,有95个会包含真实的总体参数

范例:随机抽取12名学生的物理考试成绩,平均分为68,样本标准差为7,求总体均值的95%置信区间? 解答:自由度,t临界值,标准误为,区间为

7. 常见陷阱 (Common Pitfalls)

  1. 错误做法:卡方检验时理论频数小于5的单元格不合并,直接计算检验统计量。原因:忘记考纲要求所有理论频数必须≥5,否则卡方检验结果无效。正确做法:合并相邻的低频数组后再计算。
  2. 错误做法:t检验时误用正态分布的z临界值。原因:混淆了总体方差已知和未知的场景。正确做法:总体方差未知、小样本时必须用t临界值。
  3. 错误做法:将置信区间解释为“真实参数有95%的概率落在区间内”。原因:混淆了随机变量和固定值的概念。正确做法:解释为“我们有95%的信心真实参数落在该区间内,真实参数是固定值,区间是随机的”。
  4. 错误做法:分层抽样和整群抽样混淆,按类别划分群体就认为是分层抽样。原因:没有理解两种抽样的逻辑差异。正确做法:分层抽样是每层抽取部分个体,整群抽样是抽取整个群体的所有个体。

8. 练习题 (IB Math AI HL 风格)

题目1

某城市要调查居民对公共交通的满意度,全市共20000户居民,分为主城区(12000户)、郊区(6000户)、远郊(2000户)三类区域。(a) 若采用分层抽样抽取200户,每个区域应抽多少户?(b) 若调查员仅在地铁站入口抽样,会存在什么偏差?

解答

(a) 抽样比例为,因此主城区抽户,郊区抽60户,远郊抽20户。 (b) 存在选择偏差,样本无法覆盖不乘坐地铁的居民(比如老年群体、自驾群体),结论不具备代表性。

题目2

某健身房宣称其会员平均每月减重4kg,现随机抽取10名会员,测得平均每月减重3.2kg,样本标准差为1.1kg,假设减重服从正态分布,在5%显著性水平下是否能认为该宣称不实?

解答

设定原假设,备择假设,采用双侧t检验,自由度。 检验统计量,计算得p值约为0.047<0.05,因此拒绝原假设,有足够证据认为该宣称不实。

题目3

随机抽取36名高三学生的模考数学成绩,平均分为76,样本标准差为9,求总体平均分的90%置信区间。

解答

自由度,t临界值,标准误为,因此置信区间为

9. 速查表 (Quick Reference Cheatsheet)

考点 核心规则/公式 适用场景
分层抽样 每层抽样数=该层总体占比×总样本量 总体分层差异明显,降低抽样误差
二项分布 n次独立重复试验
t检验 总体正态、方差未知,检验总体均值
卡方检验 ,所有 拟合优度检验、分类变量独立性检验
t置信区间 总体方差未知,估计总体均值
回归拟合 越接近1,拟合效果越好 评估回归模型拟合质量

10. 接下来怎么学

本模块是IB Math AI HL Paper 3综合应用题的核心出题载体,后续会和数学建模、优化、决策分析等内容结合考察,你需要熟练掌握GDC的统计功能,能快速计算分布概率、检验统计量和置信区间,同时要重点练习应用题的题干解读,能快速从长文本中提取统计相关的已知条件。 如果你在刷题过程中遇到任何考点疑问、真题不会做,都可以随时找小欧提问,我们会提供针对性的讲解和配套练习。

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →