| 学习指南 EN
统计学 · 探索双变量数据 · 阅读约 14 分钟 · 更新于 2026-05-11

AP 统计学 残差 — AP 统计学

AP 统计学 · 探索双变量数据 · 14 min read

1. 残差的定义与核心性质 ★★☆☆☆ ⏱ 3 min

残差是响应变量的观测值与回归模型预测值之间的差值。它专门用于评估线性模型对双变量数据的拟合程度,该内容占 AP 统计学第二单元的 10-15%,会同时出现在选择题和自由作答题部分。

AP 考试统一使用 $e$ 表示残差,$y$ 表示观测响应,和 $\hat{y}$ 表示预测响应。一个常考的核心性质是:最小二乘回归直线的所有残差之和始终为零,因为 LSRL 平衡了正误差和负误差。这可以用来检查你的计算是否正确。

2. 单个残差的计算与解释 ★★☆☆☆ ⏱ 4 min

要计算单个数据点的残差,我们可以使用一个从定义直接得到的简单公式:

e = y - \hat{y}

Where $y$ 是原始数据中的观测响应值,$\hat{y}$ 是将解释变量的观测值 $x$ 代入 LSRL 方程 $\hat{y} = a + bx$ 计算得到的预测响应值。正残差意味着模型低估了响应值(观测值>预测值),负残差意味着模型高估了响应值(观测值<预测值)。在 AP 考试中,你必须同时完成计算和情境解释才能获得满分。

3. 解释残差图以评估线性模型拟合度 ★★★☆☆ ⏱ 3 min

残差图是以残差 $e$ 为纵轴,解释变量 $x$ 或预测值 $\hat{y}$ 为横轴的散点图。我们用残差图来检验线性模型是否合适,因为原始 $y$ 对 $x$ 散点图中难以发现的细微规律,在残差图中会非常清晰。

评估的核心规则很简单:如果残差图中没有清晰的系统性规律,则线性模型是合适的。如果存在清晰的系统性规律,则线性模型不合适。常见的问题规律有:(1) 曲线规律(U型或倒U型),说明真实关系是非线性的;(2) 扇形/漏斗型规律,即随着 $x$ 增大,残差的离散程度发生变化,说明方差不恒定(异方差性)。

4. 残差的标准差 ★★★☆☆ ⏱ 4 min

残差的标准差(记为 $s$ 或 $s_e$)是衡量残差平均大小的数值指标,它表示观测值平均离回归直线有多远。它是残差图图形评估的补充,给出模型拟合度的定量度量:更小的 $s$ 意味着预测值通常更接近观测值,因此模型拟合效果更好。

s = \sqrt{\frac{\sum e^2}{n-2}} = \sqrt{\frac{\sum (y - \hat{y})^2}{n-2}}

Where $n$ 是观测值数量,我们除以 $n-2$(回归的自由度)得到无偏估计。我们对残差平方来消除负号(因为原始残差之和始终为零,原始残差的平均值没有意义),再开根号回到响应变量的原始单位。

Common Pitfalls

Why: 学生在写'预测误差'时混淆了减法顺序。

Why: 细微的非线性规律在原始散点图中通常不可见,但在残差中很清晰。

Why: 学生忘记对于最小二乘回归,原始残差之和始终为零,因此原始残差的平均值没有意义。

Why: 学生将随机抽样变异和系统性规律混淆。

Why: 学生将总体标准差和回归残差标准差混淆。

Why: 学生认为好模型的残差应该都为零。

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →