统计学 · 收集数据（占AP考试的12-15%） · 阅读约 14 分钟 · 更新于 2026-05-11

随机抽样与数据收集 — AP 统计学

AP 统计学 · 收集数据（占AP考试的12-15%） · 14 min read

1. 随机抽样核心概念 ★★☆☆☆ ⏱ 3 min

随机抽样是从我们关注的较大定义总体中选取一部分观测单元来收集数据的过程，其核心目标是得到一个具有代表性的样本子集，从而能够对整个总体进行有效的统计推断。

相比之下，普查会收集总体中所有单元的数据，但对于大总体而言，由于成本、时间限制或破坏性测试（例如测试电池寿命会损坏产品），普查几乎不可行。本主题约占收集数据单元内容的一半，而收集数据单元占AP考试总分的12-15%。

N = \text{Total population size}, \quad n = \text{Sample size}

2. 常见概率抽样方法 ★★★☆☆ ⏱ 4 min

AP统计学考试中最常考查的四种常见概率抽样方法是：

**简单随机抽样（SRS）**: 所有容量为$n$的可能样本被选中的概率相等，通常使用随机数生成器或随机数表实现。
**分层随机抽样**: 将总体划分为互不重叠的*层*（每个层内的单元在与响应相关的变量上性质相似）；从每个层中抽取一个简单随机样本，以此降低抽样误差，保证子群体代表性。
**整群抽样**: 将总体划分为互不重叠的*群*（每个群都能代表整个总体）；随机选取一部分群，对选中群内的所有单元进行抽样，以提升后勤效率。
**系统随机抽样**: 先在1到$k$之间随机确定一个起点，之后每隔$k$个单元从总体列表中选取一个单元；当存在有序总体列表时，该方法比简单随机抽样更简单。

📐 Worked Example

某高中校长想要从全校1200名学生中抽取100名学生，评估学生对食堂的满意度。校长需要保证样本中按比例包含高一、高二、高三、高四学生。已知该校有300名高一、320名高二、290名高三、290名高四，校长应该使用哪种抽样方法，又该如何实施？

将方法与目标匹配：校长需要保证每个年级都有代表性，而年级是很可能影响食堂满意度的变量，因此应当使用分层随机抽样。
定义层：四个年级就是四个互不重叠的层，每个学生恰好属于一个年级。
计算每个层的按比例样本量，抽样分数为：
$\frac{n}{N} = \frac{100}{1200} = \frac{1}{12}$
各层计算结果：高一 = $300*(1/12) = 25$，高二 = $320*(1/12) ≈ 27$，高三 = $290*(1/12) ≈ 24$，高四 = $290*(1/12) ≈ 24$，总和为100。
实施抽样：给每个年级的学生分配一个唯一编号，然后使用随机数生成器从每个年级中选出计算得出对应数量的学生参与调查。

Exam tip: 如果AP题目询问哪种方法最合适，永远要将方法与给定目标匹配：如果目标是保证子群体代表性，就是分层抽样；如果目标是在拥有代表性群体的前提下节省成本/提升后勤效率，就是整群抽样。不要混淆两者。

3. 非概率抽样与常见偏差 ★★★☆☆ ⏱ 3 min

非概率抽样方法不会给总体中所有单元分配已知的非零入选概率，因此几乎总会得出有偏差的结果。最常见的非概率抽样方法是方便抽样，即选取容易接触到的单元。

**选择偏差（覆盖不足偏差）**: 某些总体群体被系统性排除在抽样框（可供选择的单元列表）之外，因此他们没有机会被选中。
**无应答偏差**: 被选中的单元拒绝参与或无法联系到，且无应答者与应答者在我们关注的变量上存在系统性差异。
**应答偏差**: 参与者给出不准确的回答，通常由社会期望偏差、引导性问题措辞或回忆误差导致。

📐 Worked Example

某校园电台想要调查学生是否支持将学生活动费提高10%来为电台升级提供资金。电台在其网站上发布了投票链接，邀请听众点击投票。指出该调查最可能存在哪种类型的偏差，并解释其影响。

首先，该调查存在选择偏差：只有收听该电台的学生才会知道这个投票，因此从不收听该电台的学生被排除在外。不收听电台的学生支持涨费的可能性低得多，因此他们在样本中代表性不足。
同时还存在自愿应答偏差（属于选择/无应答偏差的一种）：对该问题有强烈看法的学生（通常是支持电台升级的支持者）比中立或反对的学生更愿意花时间投票。
最终结果是，与全校学生的真实支持率相比，该投票会系统性地高估涨费支持率。

Exam tip: AP自由作答题（FRQ）要求你结合情境解释偏差，而不仅仅是说出偏差名称。一定要补充一句话说明样本估计值相对于总体真实值是偏高还是偏低，才能拿到满分。

4. 抽样方法的核心比较 ★★★★☆ ⏱ 3 min

AP统计学经常要求学生区分相似的抽样方法，最常见的就是分层抽样与整群抽样，两者都会将总体划分为互不重叠的组，因此经常被混淆。

METHODS COMPARED

两种方法的核心区别总结如下：

分层随机抽样

分组（层）的规则是：同一层内的单元在关注变量上*性质相似*。你需要从每个层中抽样。

整群抽样

分组（群）的规则是：每个群都能代表整个总体（群内部异质性高）。你只需要从随机选中的群中抽样。

另一个常见比较是简单随机抽样vs系统抽样：系统抽样实施更简单，但如果总体列表中存在与抽样间隔$k$重合的周期性重复模式，就会产生偏差。

📐 Worked Example

一位研究者想要估算一个100英亩果园产出苹果的平均重量。果园被划分为100个1英亩的地块，每个地块都包含农场种植的所有苹果品种。研究者没有时间走访所有地块，因此随机选取了10个地块，并称量了这10个地块上所有苹果的重量。这是分层抽样还是整群抽样？证明你的结论。

先检查分组方式：每个1英亩地块都包含所有苹果品种，因此每个地块都能代表整个果园（地块内部品种多样，地块之间性质相似）。
再检查抽样方式：研究者只从100个地块中选了10个，没有从另外90个地块中抽样，大多数组都没有进行抽样。
匹配定义：这符合整群抽样的定义，即从选中的代表性群中抽取所有单元。如果这是分层抽样，层就会是苹果品种，你需要从每个品种中抽样来保证代表性。
选择该方法是为了后勤便利，这符合整群抽样的核心目的。

5. AP风格概念检测 ★★★☆☆ ⏱ 3 min

Common Pitfalls

Why: 两者都会将总体划分为组，因此学生会混淆名称和用途

Why: 学生认为「大样本就是好样本」，所以任何误差都会消失

Why: 学生记住了偏差的名称，但忘记AP要求结合情境才能拿满分

Why: 学生认为任何随机选取参与者的方式都是简单随机抽样，但自愿应答中是参与者自己选择是否参与，因此不是每个样本都有相等的被选中概率

Why: 学生认为抽样中任何误差都是偏差

Why: 学生记住了关于周期性模式的注意事项，就认为系统抽样永远不成立

Quick Reference Cheatsheet

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →

随机抽样与数据收集 — AP 统计学

1. 随机抽样核心概念 ★★☆☆☆ ⏱ 3 min

2. 常见概率抽样方法 ★★★☆☆ ⏱ 4 min

3. 非概率抽样与常见偏差 ★★★☆☆ ⏱ 3 min

4. 抽样方法的核心比较 ★★★★☆ ⏱ 3 min

分层随机抽样

整群抽样

5. AP风格概念检测 ★★★☆☆ ⏱ 3 min

Common Pitfalls

Quick Reference Cheatsheet

更多学习指南