统计学 · 探索双变量数据 · 阅读约 14 分钟 · 更新于 2026-05-11

AP 统计学线性回归模型 — AP 统计学

AP 统计学 · 探索双变量数据 · 14 min read

1. 线性回归模型简介 ★★☆☆☆ ⏱ 3 min

线性回归模型是描述解释（自变量）变量 $x$ 和响应（因变量）变量 $y$ 之间线性关系的统计模型。我们区分两种模型：总体模型描述带有未知参数 $\beta_0, \beta_1$ 和随机误差项 $\varepsilon$ 的真实潜在关系，而估计样本模型使用从样本数据计算得到的统计量 $b_0, b_1$。

对样本数据拟合线性模型最常用的方法是最小二乘回归，该方法得到的直线能最小化观测数据点与直线之间的垂直距离平方和。该知识点约占AP统计学考试总分的5-7%，同时出现在选择题和自由问答题部分。

2. 最小二乘回归线（LSRL） ★★☆☆☆ ⏱ 4 min

残差是任意 $x$ 对应的观测响应值与预测响应值之间的垂直差：$e_i = y_i - \hat{y}_i$，其中 $\hat{y}_i$ 是第 $i$ 个观测的预测 $y$ 值。最小二乘的目标是最小化 $\sum e_i^2 = \sum (y_i - \hat{y}_i)^2$。

b_1 = r \cdot \frac{s_y}{s_x}

b_0 = \bar{y} - b_1\bar{x}

其中 $r$ 是 $x$ 和 $y$ 之间的相关系数，$s_y$ 是 $y$ 的样本标准差，$s_x$ 是 $x$ 的样本标准差，$\bar{y}$ 是 $y$ 的样本均值，$\bar{x}$ 是 $x$ 的样本均值。LSRL的一个核心性质是它始终经过点 $(\bar{x}, \bar{y})$，该性质可用于检验计算是否正确。LSRL是为从 $x$ 预测 $y$ 定义的，因此交换 $x$ 和 $y$ 会得到完全不同的直线。

📐 Worked Example

一名学生研究者收集了20名大学生的每周玩电子游戏时长（$x$）和GPA（$y$，满分4.0）的数据。汇总统计量为：$\bar{x} = 8.2$ 小时，$s_x = 4.1$ 小时，$\bar{y} = 3.1$，$s_y = 0.6$，$r = -0.58$。计算用于从每周玩电子游戏时长预测GPA的LSRL方程。

使用公式计算斜率 $b_1$：
$b_1 = r \cdot \frac{s_y}{s_x} = -0.58 \cdot \frac{0.6}{4.1} \approx -0.58 \cdot 0.146 \approx -0.085$
利用LSRL经过 $(\bar{x}, \bar{y})$ 的性质计算截距 $b_0$：
$b_0 = \bar{y} - b_1\bar{x} = 3.1 - (-0.085)(8.2) \approx 3.1 + 0.697 = 3.797$
写出最终方程并定义变量：
$\hat{y} = 3.80 - 0.085x, \text{ 其中 } \hat{y} \text{ 是预测GPA，} x \text{ 是每周玩电子游戏时长（单位：小时）}$
检验 $(\bar{x}, \bar{y})$ 满足方程：$3.80 - 0.085(8.2) \approx 3.1 = \bar{y}$，因此计算正确。

Exam tip: 始终将斜率和截距保留2-3位有效数字，与输入数据匹配；过早过度四舍五入会导致计算误差，保留过多位数则会在考试中浪费时间。

3. 在情境中解释斜率和截距 ★★★☆☆ ⏱ 3 min

AP统计学考试最常考的技能之一就是在实际情境中正确解释线性回归模型的斜率和截距。和纯数学问题不同，AP要求解释必须直接结合题目场景，而非泛泛描述。

斜率 $b_1$ 是解释变量 $x$ 每增加1单位时，响应变量 $y$ 的预测平均变化量。它的单位始终是（y的单位）每（x的单位）。截距 $b_0$ 是当 $x = 0$ 时 $y$ 的预测平均值。只有当 $x = 0$ 在问题情境中是合理可能值时，截距才有实际意义。如果 $x = 0$ 不可能出现，或远超出观测数据范围，那么截距只是直线的数学锚点，没有实际意义。

Exam tip: 如果要求你比较两个模型的斜率，斜率越陡（绝对值越大），就代表 $x$ 每变化1单位时 $y$ 的预测变化量越大，和符号无关。

4. 残差分析与决定系数 ★★★☆☆ ⏱ 4 min

拟合线性回归模型后，我们需要检验线性模型是否真的适合该数据，并衡量模型解释了多少 $y$ 的变异。这通过残差图和决定系数（$R^2$）完成。

残差图将残差绘在y轴，解释变量 $x$ 绘在x轴。要使线性模型适用，残差应在y=0的水平线附近随机分布，没有明显规律。如果存在曲线模式，说明 $x$ 和 $y$ 之间的真实关系是非线性的，因此线性模型拟合效果差。如果存在扇形模式（残差随 $x$ 增大变得更宽或更窄），说明误差方差不恒定，违反了回归假设。

决定系数 $R^2$（一元线性回归中等于 $r^2$）衡量响应变量 $y$ 的变异中，可被与 $x$ 的线性关系解释的比例。它的取值范围是0（没有线性解释能力）到1（所有变异都被解释），如果用百分比表示则是0%到100%。$R^2$ 越高，说明线性关系越强。

📐 Worked Example

植物学家对1到50年树龄的树木，拟合了树龄（$x$，年）和树高（$y$，米）的线性回归模型。她的残差图显示，幼树残差为负，中年树残差为正，老树残差又回到负，形成明显的驼峰形状。树龄和树高之间的 $r = 0.82$。残差图说明模型拟合效果如何？计算并解释 $R^2$。

残差图中明显的曲线驼峰模式说明线性模型不适合该关系。这符合我们对树木生长的认知：树木幼年期生长快，成熟后生长趋于平缓，因此关系是曲线而非线性。
计算 $R^2$：
$R^2 = r^2 = (0.82)^2 = 0.6724 = 67.24\%$
解释 $R^2$：约67%的树高变异可被与树龄的线性关系解释。尽管线性关系已经较强，但曲线模式说明非线性模型的拟合效果会更好。

Exam tip: 残差图仅检验线性模型是否适用，不衡量关系的强弱。弱线性关系也可以有随机残差模式，说明线性模型适用但预测能力不强。

Common Pitfalls

Why: 相关系数是对称的，但回归不是，学生经常混淆两个变量的位置

Why: 学生忘记回归预测的是平均响应，而非每个人的精确结果

Why: 学生混淆了回归衡量的关联和因果关系，因果关系需要随机实验才能确立

Why: 学生默认认为每个截距都需要解释

Why: 学生假设线性关系在所有区域都成立，这几乎从来都不是真的

Why: 学生混淆了模型适用性（线性）和关系强度

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →