统计学 · 探索双变量数据 · 阅读约 14 分钟 · 更新于 2026-05-11

AP 统计学残差 — AP 统计学

AP 统计学 · 探索双变量数据 · 14 min read

1. 残差的定义与核心性质 ★★☆☆☆ ⏱ 3 min

残差是响应变量的观测值与回归模型预测值之间的差值。它专门用于评估线性模型对双变量数据的拟合程度，该内容占 AP 统计学第二单元的 10-15%，会同时出现在选择题和自由作答题部分。

AP 考试统一使用 $e$ 表示残差，$y$ 表示观测响应，和 $\hat{y}$ 表示预测响应。一个常考的核心性质是：最小二乘回归直线的所有残差之和始终为零，因为 LSRL 平衡了正误差和负误差。这可以用来检查你的计算是否正确。

2. 单个残差的计算与解释 ★★☆☆☆ ⏱ 4 min

要计算单个数据点的残差，我们可以使用一个从定义直接得到的简单公式：

e = y - \hat{y}

Where $y$ 是原始数据中的观测响应值，$\hat{y}$ 是将解释变量的观测值 $x$ 代入 LSRL 方程 $\hat{y} = a + bx$ 计算得到的预测响应值。正残差意味着模型低估了响应值（观测值>预测值），负残差意味着模型高估了响应值（观测值<预测值）。在 AP 考试中，你必须同时完成计算和情境解释才能获得满分。

3. 解释残差图以评估线性模型拟合度 ★★★☆☆ ⏱ 3 min

残差图是以残差 $e$ 为纵轴，解释变量 $x$ 或预测值 $\hat{y}$ 为横轴的散点图。我们用残差图来检验线性模型是否合适，因为原始 $y$ 对 $x$ 散点图中难以发现的细微规律，在残差图中会非常清晰。

评估的核心规则很简单：如果残差图中没有清晰的系统性规律，则线性模型是合适的。如果存在清晰的系统性规律，则线性模型不合适。常见的问题规律有：(1) 曲线规律（U型或倒U型），说明真实关系是非线性的；(2) 扇形/漏斗型规律，即随着 $x$ 增大，残差的离散程度发生变化，说明方差不恒定（异方差性）。

📐 Worked Example

三个不同线性模型的残差图有以下规律。对每个情况，说明线性模型是否合适：(a) 残差在整个 $x$ 范围内随机分布在-3到3之间，没有可见趋势。(b) 小 $x$ 时残差为负，中等 $x$ 时残差增加为正，大 $x$ 时残差又回落为负，形成清晰的倒U型。(c) 小 $x$ 时残差紧密聚集在-1到1之间，大 $x$ 时残差扩散到-6到6之间。

(a) 没有清晰的系统性规律，说明线性模型是合适的。随机分布证实线性模型正确捕捉了变量之间的关系，不存在系统性预测误差。
(b) 清晰的倒U型曲线规律说明真实关系是非线性的，线性模型不合适。
(c) 清晰的扇形扩散规律（随着 $x$ 增大残差离散程度增加）说明方差不恒定，因此线性模型不合适。

4. 残差的标准差 ★★★☆☆ ⏱ 4 min

残差的标准差（记为 $s$ 或 $s_e$）是衡量残差平均大小的数值指标，它表示观测值平均离回归直线有多远。它是残差图图形评估的补充，给出模型拟合度的定量度量：更小的 $s$ 意味着预测值通常更接近观测值，因此模型拟合效果更好。

s = \sqrt{\frac{\sum e^2}{n-2}} = \sqrt{\frac{\sum (y - \hat{y})^2}{n-2}}

Where $n$ 是观测值数量，我们除以 $n-2$（回归的自由度）得到无偏估计。我们对残差平方来消除负号（因为原始残差之和始终为零，原始残差的平均值没有意义），再开根号回到响应变量的原始单位。

Common Pitfalls

Why: 学生在写'预测误差'时混淆了减法顺序。

Why: 细微的非线性规律在原始散点图中通常不可见，但在残差中很清晰。

Why: 学生忘记对于最小二乘回归，原始残差之和始终为零，因此原始残差的平均值没有意义。

Why: 学生将随机抽样变异和系统性规律混淆。

Why: 学生将总体标准差和回归残差标准差混淆。

Why: 学生认为好模型的残差应该都为零。

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →