最小二乘回归 — AP 统计学
AP 统计学 · 探索双变量数据 · 14 min read
1. 什么是最小二乘回归? ★★☆☆☆ ⏱ 3 min
最小二乘回归(缩写为LSR,得到的模型称为最小二乘回归线,即LSRL)是为双变量定量数据拟合直线的标准客观方法。它的核心目标是找到一条"最佳拟合"线,用于根据解释变量 $x$ 预测响应变量 $y$ 的值。
与目测拟合的直线不同,最小二乘法使用正式、可重复的准则来定义"最佳":它最小化观测 $y$ 值与直线预测 $y$ 值之间的垂直距离(称为残差)的平方和。该方法是AP统计学中所有进一步回归分析的基础,占考试总分的2-3%,同时出现在选择题和自由作答题部分。
2. 最小二乘准则与LSRL系数 ★★★☆☆ ⏱ 4 min
对于任何根据 $x$ 预测 $y$ 的线性模型,我们将LSRL写为:
\hat{y} = a + bx
其中 $\hat{y}$ 是响应变量的预测值,$b$ 是斜率,$a$ 是y截距。第 $i$ 个数据点的残差 $e_i$ 定义为 $e_i = y_i - \hat{y}_i$,其中 $y_i$ 是观测响应值。残差平方和(SSE)是:
SSE = \sum_{i=1}^n (y_i - a - bx_i)^2
最小化SSE得到LSRL系数的闭式公式。斜率 $b$ 的计算公式为:
b = r \frac{s_y}{s_x}
其中 $r$ 是 $x$ 和 $y$ 之间的相关系数,$s_y$ 是 $y$ 的标准差,$s_x$ 是 $x$ 的标准差。LSRL的一个关键性质是它始终经过均值点 $(\bar{x}, \bar{y})$,我们用这个性质来计算截距 $a$:
a = \bar{y} - b\bar{x}
Exam tip: 始终确认你的斜率符号与相关系数的符号一致。负相关一定对应负斜率,正相关对应正斜率;这是快速检查计算错误的方法。
3. 残差计算与解释 ★★★☆☆ ⏱ 3 min
残差衡量LSRL的预测误差:它告诉我们直线的预测与每个观测数据点的偏差有多大。正残差意味着直线低估了 $y$(观测 $y$ 高于预测值),负残差意味着直线高估了 $y$(观测 $y$ 低于预测值)。
对于任何LSRL,所有残差的和始终为0,因为直线以均值点为中心。更低的SSE(残差平方和)意味着线性模型拟合度更好。计算和解释残差是AP考试非常常见的考题。
Exam tip: 如果你被要求绘制残差,x坐标是原观测点的x值,y坐标是残差,不是原 $y$ 值。
4. 解释LSRL的斜率和截距 ★★★☆☆ ⏱ 3 min
AP考试题目几乎总是要求对斜率和截距做出符合情境的正确解释,这是扣分的常见区域。要获得满分必须使用严格的表述。
Exam tip: 在解释时,一定要包含 $x$ 和 $y$ 的测量单位,并且始终使用"预测平均"这一表述,避免对个体变化或因果关系做出错误断言。
5. AP风格练习题解析 ★★★★☆ ⏱ 4 min
Common Pitfalls
Why: 学生记错项的顺序,因为他们在回归方程中将预测y写在前面。
Why: 学生颠倒了标准差的顺序,因为他们忘了哪个变量对应哪个。
Why: 学生忘记LSRL建模的是平均趋势,而非个体结果。
Why: 学生认为所有系数都需要实际解释。
Why: 学生混淆了观测响应值和预测响应值。
Why: 学生混淆了回归衡量的关联和因果关系,因果关系只能从随机实验中推断。
Quick Reference Cheatsheet