IB 数学：应用与解释 HL · IB Math: Applications & Interpretation HL · Statistics and Probability (AI HL) / 统计与概率 (AI HL) · 阅读约 15 分钟 · 更新于 2026-05-06

统计与概率 (AI HL) (Statistics and Probability (AI HL)) — IB Math AI HL AI HL 学习指南

适合谁：IB Math AI HL 参加 IB Math: Applications & Interpretation HL 的考生。

覆盖内容：覆盖抽样技术与偏差、离散与连续分布、HL专属假设检验（t检验、卡方检验）、线性与非线性回归、HL专属置信区间五大核心子主题。

前置知识：IGCSE / pre-DP 数学；熟悉应用题与计算工具。

关于练习题：下文「练习题」一节的所有题目均为我们按 IB Math AI HL 风格编写的原创题目 (original problems)，仅用于教学。它们不是 IBO 真题的复制，措辞、数值或语境可能不同。请把它们当作练手用；评分细则请对照 IBO 官方 mark scheme。

1. 什么是统计与概率 (AI HL)？

统计与概率是IB Math AI HL占比最高的核心模块，占Paper 1、2、3总分的30%-35%，侧重考察统计工具在商业、自然科学、社会科学等真实场景的应用，允许使用图形计算器（GDC）完成大部分计算。本模块所有考点均会结合应用题考察，HL专属内容（假设检验、置信区间）是Paper 3综合题的高频出题点，需要你同时掌握概念逻辑和计算步骤。

2. 抽样技术与偏差 (Sampling techniques and bias)

统计研究的核心是用样本特征推断总体特征，第一步就是选择合理的抽样技术 (sampling technique)，避免偏差 (bias)。

核心抽样方法

简单随机抽样：总体每个个体被抽中概率相等，适用于总体同质化高的场景
分层抽样：将总体按特征分为不同层，每层按比例抽样，适用于总体分层差异明显的场景
整群抽样：将总体分为多个群，随机抽取若干个群作为样本，适用于群内差异和总体一致的场景
方便抽样：抽取容易接触的个体，属于非随机抽样，偏差极高

常见偏差类型

选择偏差、应答偏差、测量偏差，所有偏差都会导致样本无法代表总体，统计结论无效。

范例：调查某学校学生平均每日睡眠时间，仅在早自习门口抽样属于测量偏差，因为早自习到校的学生普遍睡眠时间较短，样本不具备代表性。

3. 离散与连续分布 (Discrete and continuous distributions)

随机变量 (random variable) 按取值类型分为离散和连续两类，对应不同的分布模型：

核心离散分布

二项分布： $X \sim B (n, p)$ ，n次独立重复试验的成功次数，期望 $E (X) = n p$ ，方差 $V a r (X) = n p (1 - p)$
泊松分布： $X \sim P o (λ)$ ，固定时间/空间内随机事件发生的次数，期望和方差均为 $λ$

核心连续分布

正态分布： $X \sim N (μ, σ^{2})$ ，最常用的连续分布，HL要求掌握二项分布、泊松分布的正态近似
均匀分布： $X \sim U (a, b)$ ，区间内取值概率相等

范例：已知某咖啡店每小时到店人数服从 $λ = 8$ 的泊松分布，求2小时内到店人数超过15的概率？解答：设2小时到店人数为 $Y$ ，则 $Y \sim P o (16)$ ，用GDC计算得 $P (Y > 15) = 1 - P (Y \leq 15) \approx 0.524$ 。

4. 假设检验：t检验与卡方检验 (Hypothesis testing — t-test, chi-squared (HL))

假设检验 (hypothesis testing) 是HL专属考点，用于验证关于总体参数的猜想是否成立，核心逻辑是“小概率事件在一次试验中几乎不会发生”。

t检验 (t-test)

适用于总体服从正态分布、总体方差未知、小样本的场景，用于检验总体均值是否等于某个值：

设定原假设 $H_{0}$ （默认成立的结论）和备择假设 $H_{1}$ （要验证的结论）
计算检验统计量 $t = \frac{x ˉ - μ _{0}}{s / n}$ ，自由度 $df = n - 1$
比较p值和显著性水平 $α$ ：若 $p < α$ 则拒绝 $H_{0}$ ，否则不拒绝

卡方检验 (chi-squared test)

分为两类：拟合优度检验（验证数据是否符合某分布）、独立性检验（验证两个分类变量是否相关），检验统计量为 $χ^{2} = \sum \frac{( O - E ) ^{2}}{E}$ ，其中 $O$ 是观测频数， $E$ 是理论频数，要求所有 $E \geq 5$ ，否则需要合并相邻组。

5. 线性与非线性回归 (Linear and non-linear regression)

回归分析 (regression analysis) 用于建立两个或多个变量之间的关系模型：

线性回归：计算皮尔逊相关系数 $r$ 衡量线性相关程度（ $∣ r ∣$ 越接近1相关性越强），得到回归方程 $y = a x + b$ ，用 $r^{2}$ 衡量拟合优度
非线性回归：对于指数模型 $y = k e^{m x}$ 、幂函数模型 $y = k x^{m}$ 等非线性关系，通过对数变换转化为线性关系后再拟合，同样用 $r^{2}$ 判断拟合效果

范例：某实验的x,y数据拟合幂函数模型 $y = k x^{n}$ ，两边取对数得 $ln y = n ln x + ln k$ ，变换后计算得 $r^{2} = 0.972$ ，说明模型拟合效果极佳。

6. 置信区间 (HL) (Confidence intervals (HL))

置信区间 (confidence interval) 是HL专属考点，用于用样本统计量估计总体参数的范围：

总体方差未知时，总体均值的置信区间为 $\overset{x}{ˉ} \pm t^{*} \frac{s}{n}$ ，其中 $t^{*}$ 是对应置信水平、自由度 $n - 1$ 的t临界值
95%置信水平的含义是：重复抽样100次，计算得到的100个区间中，有95个会包含真实的总体参数

范例：随机抽取12名学生的物理考试成绩，平均分为68，样本标准差为7，求总体均值的95%置信区间？解答：自由度 $df = 11$ ，t临界值 $t^{*} = 2.201$ ，标准误为 $\frac{7}{12} \approx 2.02$ ，区间为 $68 \pm 2.201 \times 2.02 \approx (63.56, 72.44)$ 。

7. 常见陷阱 (Common Pitfalls)

错误做法：卡方检验时理论频数小于5的单元格不合并，直接计算检验统计量。原因：忘记考纲要求所有理论频数必须≥5，否则卡方检验结果无效。正确做法：合并相邻的低频数组后再计算。
错误做法：t检验时误用正态分布的z临界值。原因：混淆了总体方差已知和未知的场景。正确做法：总体方差未知、小样本时必须用t临界值。
错误做法：将置信区间解释为“真实参数有95%的概率落在区间内”。原因：混淆了随机变量和固定值的概念。正确做法：解释为“我们有95%的信心真实参数落在该区间内，真实参数是固定值，区间是随机的”。
错误做法：分层抽样和整群抽样混淆，按类别划分群体就认为是分层抽样。原因：没有理解两种抽样的逻辑差异。正确做法：分层抽样是每层抽取部分个体，整群抽样是抽取整个群体的所有个体。

8. 练习题 (IB Math AI HL 风格)

题目1

某城市要调查居民对公共交通的满意度，全市共20000户居民，分为主城区（12000户）、郊区（6000户）、远郊（2000户）三类区域。(a) 若采用分层抽样抽取200户，每个区域应抽多少户？(b) 若调查员仅在地铁站入口抽样，会存在什么偏差？

解答

(a) 抽样比例为 $\frac{200}{20000} = \frac{1}{100}$ ，因此主城区抽 $12000 \times \frac{1}{100} = 120$ 户，郊区抽60户，远郊抽20户。 (b) 存在选择偏差，样本无法覆盖不乘坐地铁的居民（比如老年群体、自驾群体），结论不具备代表性。

题目2

某健身房宣称其会员平均每月减重4kg，现随机抽取10名会员，测得平均每月减重3.2kg，样本标准差为1.1kg，假设减重服从正态分布，在5%显著性水平下是否能认为该宣称不实？

解答

设定原假设 $H_{0} : μ = 4$ ，备择假设 $H_{1} : μ \neq = 4$ ，采用双侧t检验，自由度 $df = 9$ 。检验统计量 $t = \frac{3.2 - 4}{1.1/ 10} \approx - 2.30$ ，计算得p值约为0.047<0.05，因此拒绝原假设，有足够证据认为该宣称不实。

题目3

随机抽取36名高三学生的模考数学成绩，平均分为76，样本标准差为9，求总体平均分的90%置信区间。

解答

自由度 $df = 35$ ，t临界值 $t^{*} = 1.690$ ，标准误为 $\frac{9}{36} = 1.5$ ，因此置信区间为 $76 \pm 1.690 \times 1.5 = (73.47, 78.53)$ 。

9. 速查表 (Quick Reference Cheatsheet)

考点	核心规则/公式	适用场景
分层抽样	每层抽样数=该层总体占比×总样本量	总体分层差异明显，降低抽样误差
二项分布	$E (X) = n p, V a r (X) = n p (1 - p)$	n次独立重复试验
t检验	$t = \frac{x ˉ - μ _{0}}{s / n}, df = n - 1$	总体正态、方差未知，检验总体均值
卡方检验	$χ^{2} = \sum \frac{( O - E ) ^{2}}{E}$ ，所有 $E \geq 5$	拟合优度检验、分类变量独立性检验
t置信区间	$\overset{x}{ˉ} \pm t^{*} \frac{s}{n}$	总体方差未知，估计总体均值
回归拟合	$r^{2}$ 越接近1，拟合效果越好	评估回归模型拟合质量

10. 接下来怎么学

本模块是IB Math AI HL Paper 3综合应用题的核心出题载体，后续会和数学建模、优化、决策分析等内容结合考察，你需要熟练掌握GDC的统计功能，能快速计算分布概率、检验统计量和置信区间，同时要重点练习应用题的题干解读，能快速从长文本中提取统计相关的已知条件。如果你在刷题过程中遇到任何考点疑问、真题不会做，都可以随时找小欧提问，我们会提供针对性的讲解和配套练习。

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →