| 学习指南 EN
统计学 · 探索双变量数据 · 阅读约 14 分钟 · 更新于 2026-05-11

AP 统计学 线性回归模型 — AP 统计学

AP 统计学 · 探索双变量数据 · 14 min read

1. 线性回归模型简介 ★★☆☆☆ ⏱ 3 min

线性回归模型是描述解释(自变量)变量 $x$ 和响应(因变量)变量 $y$ 之间线性关系的统计模型。我们区分两种模型:总体模型描述带有未知参数 $\beta_0, \beta_1$ 和随机误差项 $\varepsilon$ 的真实潜在关系,而估计样本模型使用从样本数据计算得到的统计量 $b_0, b_1$。

对样本数据拟合线性模型最常用的方法是最小二乘回归,该方法得到的直线能最小化观测数据点与直线之间的垂直距离平方和。该知识点约占AP统计学考试总分的5-7%,同时出现在选择题和自由问答题部分。

2. 最小二乘回归线(LSRL) ★★☆☆☆ ⏱ 4 min

残差是任意 $x$ 对应的观测响应值与预测响应值之间的垂直差:$e_i = y_i - \hat{y}_i$,其中 $\hat{y}_i$ 是第 $i$ 个观测的预测 $y$ 值。最小二乘的目标是最小化 $\sum e_i^2 = \sum (y_i - \hat{y}_i)^2$。

b_1 = r \cdot \frac{s_y}{s_x}

b_0 = \bar{y} - b_1\bar{x}

其中 $r$ 是 $x$ 和 $y$ 之间的相关系数,$s_y$ 是 $y$ 的样本标准差,$s_x$ 是 $x$ 的样本标准差,$\bar{y}$ 是 $y$ 的样本均值,$\bar{x}$ 是 $x$ 的样本均值。LSRL的一个核心性质是它始终经过点 $(\bar{x}, \bar{y})$,该性质可用于检验计算是否正确。LSRL是为从 $x$ 预测 $y$ 定义的,因此交换 $x$ 和 $y$ 会得到完全不同的直线。

Exam tip: 始终将斜率和截距保留2-3位有效数字,与输入数据匹配;过早过度四舍五入会导致计算误差,保留过多位数则会在考试中浪费时间。

3. 在情境中解释斜率和截距 ★★★☆☆ ⏱ 3 min

AP统计学考试最常考的技能之一就是在实际情境中正确解释线性回归模型的斜率和截距。和纯数学问题不同,AP要求解释必须直接结合题目场景,而非泛泛描述。

斜率 $b_1$ 是解释变量 $x$ 每增加1单位时,响应变量 $y$ 的预测平均变化量。它的单位始终是(y的单位)每(x的单位)。截距 $b_0$ 是当 $x = 0$ 时 $y$ 的预测平均值。只有当 $x = 0$ 在问题情境中是合理可能值时,截距才有实际意义。如果 $x = 0$ 不可能出现,或远超出观测数据范围,那么截距只是直线的数学锚点,没有实际意义。

Exam tip: 如果要求你比较两个模型的斜率,斜率越陡(绝对值越大),就代表 $x$ 每变化1单位时 $y$ 的预测变化量越大,和符号无关。

4. 残差分析与决定系数 ★★★☆☆ ⏱ 4 min

拟合线性回归模型后,我们需要检验线性模型是否真的适合该数据,并衡量模型解释了多少 $y$ 的变异。这通过残差图和决定系数($R^2$)完成。

残差图将残差绘在y轴,解释变量 $x$ 绘在x轴。要使线性模型适用,残差应在y=0的水平线附近随机分布,没有明显规律。如果存在曲线模式,说明 $x$ 和 $y$ 之间的真实关系是非线性的,因此线性模型拟合效果差。如果存在扇形模式(残差随 $x$ 增大变得更宽或更窄),说明误差方差不恒定,违反了回归假设。

决定系数 $R^2$(一元线性回归中等于 $r^2$)衡量响应变量 $y$ 的变异中,可被与 $x$ 的线性关系解释的比例。它的取值范围是0(没有线性解释能力)到1(所有变异都被解释),如果用百分比表示则是0%到100%。$R^2$ 越高,说明线性关系越强。

Exam tip: 残差图仅检验线性模型是否适用,不衡量关系的强弱。弱线性关系也可以有随机残差模式,说明线性模型适用但预测能力不强。

Common Pitfalls

Why: 相关系数是对称的,但回归不是,学生经常混淆两个变量的位置

Why: 学生忘记回归预测的是平均响应,而非每个人的精确结果

Why: 学生混淆了回归衡量的关联和因果关系,因果关系需要随机实验才能确立

Why: 学生默认认为每个截距都需要解释

Why: 学生假设线性关系在所有区域都成立,这几乎从来都不是真的

Why: 学生混淆了模型适用性(线性)和关系强度

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →