| 学习指南 EN
统计学 · CED 第2单元:探索二元数据 · 阅读约 14 分钟 · 更新于 2026-05-11

回归异常值与高影响点 — AP 统计学

AP 统计学 · CED 第2单元:探索二元数据 · 14 min read

1. 回归异常值 ★★☆☆☆ ⏱ 4 min

任意观测值的残差衡量了观测$y$值与最小二乘回归线(LSRL)预测$y$值之间的距离。

e_i = y_i - \hat{y}_i

对于近似正态分布的残差,识别回归异常值的经验法则是:残差的绝对值大于残差标准差的两倍:$|e_i| > 2s$。大多数处于$x$取值范围内的回归异常值对LSRL几乎没有影响,因此它们很少是高影响点。

Exam tip: 永远不要仅根据点到原点的距离判断它是否是异常值。无论点在散点图上的位置如何,都必须检查残差大小才能确认它是回归异常值。

2. 高杠杆点 ★★★☆☆ ⏱ 4 min

杠杆值量化了一个观测值的$x$值与所有$x$值均值的偏离程度。对于一元线性回归,观测值$i$的杠杆值计算公式为:

h_i = \frac{1}{n} + \frac{(x_i - \bar{x})^2}{\sum_{j=1}^n (x_j - \bar{x})^2}

一元线性回归中,高杠杆点的经验法则是$h_i > \frac{4}{n}$,该公式来自含$p$个预测变量的一般法则$h_i > \frac{2(p+1)}{n}$。高杠杆点不一定是异常值或高影响点:如果它符合其余数据的模式,对LSRL的改变很小。

Exam tip: 识别高杠杆点时一定要检查$x$值的范围。一个点可以残差非常小(不是异常值),但仍然是高杠杆点。

3. 高影响点与库克距离 ★★★★☆ ⏱ 6 min

同时为回归异常值和高杠杆点的点几乎一定是高影响点。我们可以用库克距离正式衡量影响程度,它将残差大小和杠杆值结合为一个指标,衡量移除该点后所有预测$y$值的变化程度。对于一元线性回归($p=2$个参数:截距+斜率),库克距离公式为:

D_i = \frac{e_i^2}{p \cdot s^2} \cdot \frac{h_i}{(1-h_i)^2}

标准经验法则是:若$D_i > 1$,则该点为高影响点;对于小数据集,通常使用更保守的临界值$D_i > 0.5$。

Exam tip: AP阅卷老师要求你将高影响性与回归参数的变化联系起来。要证明一个点是高影响点,一定要说明移除该点后斜率/截距发生了多大变化。

Common Pitfalls

Why: 学生混淆了到原点的距离和影响性,混淆了x和y方向的极端值

Why: 学生认为任何极端x值自动就是高影响点,但符合其余数据模式的高杠杆点不会改变斜率

Why: 学生混淆了垂直异常值和高影响点;处于x范围中部的y方向异常值很少会对LSRL产生明显的拉动作用

Why: 学生认为异常点都是错误,必须移除,但高影响点可能是有效数据,能揭示重要模式

Why: 视觉上看起来像异常值的点,残差可能在2s范围内,在大数据集中尤其如此

Why: 学生认为r的任何变化都对应斜率的匹配变化,这不一定正确

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →