| 学习指南 EN
统计学 · 探索双变量数据 · 阅读约 14 分钟 · 更新于 2026-05-11

通过变换实现线性化 — AP 统计学

AP 统计学 · 探索双变量数据 · 14 min read

1. 什么是通过变换实现线性化? ★★☆☆☆ ⏱ 3 min

许多实际的双变量关系(例如细菌生长、放射性衰变、汽车刹车距离)都呈现非线性模式,因此普通的最小二乘回归线会产生有偏预测,并在残差中出现系统误差。

通过变换实现线性化是指对一个或两个变量进行数学重新表达(通常是对数变换或幂变换),将弯曲的关系转换为线性关系,从而让我们可以使用现有的一元线性回归工具拟合和分析模型的过程。

2. 指数模型的对数变换 ★★★☆☆ ⏱ 4 min

这种关系在原始$x$-$y$尺度下始终是曲线,因此我们对两边取对数实现线性化:

y = \ln y = \ln\left(ab^x\right) = \ln a + x \ln b

如果令$y' = \ln y$,$A = \ln a$,$B = \ln b$,我们就得到标准线性形式:

y' = A + Bx

我们对变换后的$(x, \ln y)$数据拟合最小二乘回归线,得到$A$和$B$的估计值,然后通过逆变换得到原指数模型的$a = e^A$和$b = e^B$。变换后数据的残差图可以验证线性化是否成功:残差在零附近随机分布说明模型合适。

Exam tip: 如果题目使用以10为底的常用对数而非自然对数,逆变换时要使用底数10,而不是$e$。如果$\log_{10} y = A + Bx$,那么$\widehat{y} = 10^A (10^B)^x$ ——取幂时一定要和对数的底数匹配。

3. 幂函数模型的幂变换 ★★★☆☆ ⏱ 4 min

和指数模型一样,幂模型在原始尺度下也是曲线,但线性化需要同时变换两个变量。对两边取对数得到:

\ln y = \ln\left(ax^p\right) = \ln a + p \ln x

令$y' = \ln y$,$x' = \ln x$,原式就变为线性方程:

y' = \ln a + p x'

我们对变换后的$(\ln x, \ln y)$数据拟合最小二乘回归,得到截距$A = \ln a$,斜率等于幂次$p$,然后逆变换得到$a = e^A$,即可得到原幂模型$\widehat{y} = a x^p$。

Exam tip: 选择题中最常见的错误是混淆变换方式:指数模型只需要变换$y$,幂模型需要同时变换$x$和$y$。不要只记规则,要记住推导过程,就能避免这个错误。

4. 残差分析与模型选择 ★★★☆☆ ⏱ 3 min

当你得到一个$y$对$x$的弯曲散点图时,你通常需要测试多种变换,找到能产生线性关系的那一种。选择合适变换的主要工具是残差分析:对变换后的数据拟合线性回归后,将变换后回归得到的残差对解释变量$x$作图。

如果残差图没有系统性的曲线模式(残差在零附近随机分布),说明变换成功实现了关系线性化,模型是合适的。如果仍然存在可见曲线,你需要测试另一种变换。

Exam tip: 在你的论证中一定要明确提及残差的模式:说“没有曲线模式因此模型合适”可以得到满分,而只说“模型拟合更好”不得满分。

5. 概念检验:AP风格练习 ★★★★☆ ⏱ 3 min

Common Pitfalls

Why: 学生只记住了“对数可以实现线性化”,却忘记根据模型形式确定需要变换哪个变量。

Why: 学生假设所有对数变换都用自然对数,不检查题目给出的变换方式。

Why: 学生计算完变换后回归的预测值就停止了,没有回到题目要求。

Why: 学生习惯用$R^2$进行模型比较,但$R^2$在不同变换尺度之间不具有可比性。

Why: 学生忘记响应变量已经过变换,斜率是变换尺度下的。

Why: 学生混淆了残差图应该使用哪个变量。

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →