AP 统计学 · AP Statistics · Collecting Data / 数据收集 · 阅读约 15 分钟 · 更新于 2026-05-07

数据收集 (Collecting Data) — AP Statistics Stats 学习指南

适合谁：AP Statistics 参加 AP Statistics 的考生。

覆盖内容：覆盖抽样方法、抽样偏差与覆盖不足、实验设计三原则、混淆与潜在变量、推断适用范围全部子考点。

前置知识：Algebra 2、基础概率直觉。

关于练习题：下文「练习题」一节的所有题目均为我们按 AP Statistics 风格编写的原创题目 (original problems)，仅用于教学。它们不是 College Board 真题的复制，措辞、数值或语境可能不同。请把它们当作练手用；评分细则请对照 College Board 官方 mark scheme。

1. 什么是数据收集？

数据收集是统计研究的第一步，核心目标是获取能够代表研究总体的可靠数据，数据质量直接决定后续所有统计推断的有效性。本模块对应AP统计CED的Unit 3，占考试总分的15%-20%，是FRQ（自由作答题）的高频出题点，常和后续的假设检验、置信区间考点结合出题。统计研究中总体 (population) 指研究对象的全部集合，样本 (sample) 是从总体中抽取的用于研究的子集，抽样比例公式为 $f = \frac{n}{N}$ ，其中 $n$ 为样本量， $N$ 为总体规模。

2. 抽样方法 (Sampling methods)

抽样方法分为概率抽样和非概率抽样，AP考纲要求掌握4种核心概率抽样方法：

简单随机抽样 (Simple Random Sampling, SRS)：总体中每个个体被抽中的概率完全相等，常见操作包括抽签、随机数表法。例如将全校1000名学生的学号输入随机数生成器，抽取100个学号对应的学生，就是SRS，是最具代表性的抽样方法，但大总体下操作成本高。
分层抽样 (Stratified Sampling)：先按某个关键特征将总体划分为若干互不重叠的层 (stratum)，每层内部差异小、层与层之间差异大，再在每层中单独做SRS。例如调查全校学生平均消费水平，先按年级分为高一、高二、高三三层，每层抽30名学生，能有效降低抽样误差，是考官常考的最优抽样方法场景。
整群抽样 (Cluster Sampling)：先将总体划分为若干群 (cluster)，群内部差异大、群与群之间差异小，随机抽取若干个群，群内所有个体全部入样。例如调查某区小学平均身高，将每个小学作为一个群，随机抽5个小学，所有在校生都参与调查，操作成本低，但抽样误差通常高于SRS。
系统抽样 (Systematic Sampling)：将总体按顺序编号，按固定间隔 $k = \frac{N}{n}$ 抽取样本。例如每隔10个抽第3个个体，适合有有序编号的总体，但如果总体存在周期性规律，会出现系统性偏差。

3. 抽样偏差与覆盖不足 (Sampling bias and undercoverage)

抽样偏差 (sampling bias) 指样本不能代表总体的系统性误差，区别于不可避免的随机误差，偏差会导致统计结论完全失真。AP考纲重点考察覆盖不足 (undercoverage)：指抽样框（用于抽取样本的名单）排除了总体中的部分群体，导致这部分群体没有被抽中的机会。例如你要调查全市中学生平均每周补课时长，只抽取公立学校的学生作为样本，就遗漏了私立学校的学生，属于典型的覆盖不足，私立学生补课时长通常更长，会导致最终结果被低估。其他常考偏差还包括：方便抽样偏差（只抽取容易接触到的个体）、无应答偏差（部分被抽中的个体不参与调查）、应答偏差（被调查者故意隐瞒真实情况）。

4. 实验设计三原则 (Experiments — control, randomisation, replication)

统计研究分为观察性研究 (observational study) 和实验 (experiment)：观察性研究中研究者只观察不干预，实验中研究者会主动给受试者施加处理 (treatment)，AP考纲要求掌握实验设计的三个核心原则：

控制 (control)：控制除处理变量外的其他无关变量，通常设置控制组 (control group) 和处理组 (treatment group)，控制组接受安慰剂或标准处理，消除安慰剂效应、时间效应等无关因素的影响。例如测试新药效果，控制组服用外观相同的淀粉片，两组受试者年龄、性别、基础病分布保持一致。
随机化 (randomisation)：将受试者随机分配到控制组和处理组，目的是平衡两组中未知的混淆变量，确保两组的差异只有处理变量不同。
复制 (replication)：每个处理组要有足够的样本量，或重复多次实验，降低随机误差对结果的影响，避免偶然因素导致的假阳性结论。

5. 混淆变量与潜在变量 (Confounding and lurking variables)

潜在变量 (lurking variable)：研究中没有被纳入分析，但会同时影响解释变量和响应变量的变量，是导致错误因果结论的核心原因。例如你观察到“每年游泳圈销量越高，中暑人数越多”，潜在变量是气温，气温越高，游泳圈销量越高，同时中暑人数也越高。
混淆变量 (confounding variable)：已经被观察到，但和解释变量的影响混在一起，无法单独区分的变量。例如研究“补课时长对成绩的影响”，如果处理组的学生普遍学习效率更高，学习效率就是混淆变量，你无法区分成绩提升是来自补课还是更高的学习效率。这个考点是FRQ的高频出题点，几乎每年都会要求考生指出研究中的潜在变量，答题时只要找到同时影响两个变量的第三方因素即可得分。

6. 推断适用范围 (Scope of inference)

本考点是AP统计的核心得分点，所有研究结论的有效性都要从两个维度判断：

能不能推广到总体：只有当样本是从目标总体中随机抽取的，结论才能推广到该总体；如果是方便抽样、自愿回应样本，结论只能适用于样本本身，不能推广。
能不能得出因果关系：只有随机对照实验 (randomized controlled trial, RCT) 才能得出因果结论；观察性研究只能说明两个变量存在相关性，不能得出“X导致Y”的结论。例如你在你班随机抽20名学生做调查，发现每天喝奶茶的学生体重更高，这个结论不能推广到全校，因为样本不是从全校随机抽取的；同时也不能得出“喝奶茶导致体重升高”的结论，因为是观察性研究，可能喝奶茶的学生同时更爱吃高热量零食。

7. 常见陷阱 (Common Pitfalls)

错误：混淆分层抽样和整群抽样，认为只要先分组就是同一种方法。原因：没有理解两种方法的分组逻辑差异。正确做法：分层抽样是层内同质、层间异质，每层抽部分样本，目的是减小误差；整群抽样是群内异质、群间同质，抽整群全部样本，目的是降低操作成本。
错误：观察性研究得出因果结论。原因：把相关性等同于因果性，忽略潜在变量的影响。正确做法：只有随机对照实验才能得出因果推断，观察性研究只能描述相关性，答题时一定要明确说明“这是观察性研究，存在潜在变量，无法得出因果结论”。
错误：把随机误差当成抽样偏差。原因：混淆了随机误差和系统性偏差的定义。正确做法：随机误差是抽样中不可避免的波动，大样本可以减小但无法消除；偏差是系统性的错误，会导致结论完全失真，和样本量无关。
错误：回答推断范围时只给结论不给理由。原因：没有掌握FRQ的得分规则。正确做法：判断能不能推广要说明“样本是不是从目标总体随机抽取的”，判断能不能得因果要说明“是不是随机对照实验”，两个点都答到才能拿全分。

8. 练习题 (AP Statistics 风格)

习题1

某高中要调查全校1200名学生对新校服的满意度，后勤部门按学号顺序每隔15人抽1人，共抽取80名学生进行调查。 (a) 该抽样方法是什么？ (b) 有人说这种方法一定能得到和SRS一样有代表性的样本，请判断正误并说明理由。

解答

(a) 系统抽样 (systematic sampling)。 (b) 错误。如果学号是按班级排序，同一个班级的学生学号连续，而不同班级对校服的偏好存在系统性差异（例如艺术班学生更看重设计感，普通班更看重舒适度），每隔15人抽取可能刚好抽到每个班的同一类学生，导致样本偏差。只有当总体没有周期性或规律性排序时，系统抽样的代表性才和SRS接近。

习题2

某研究者观察到过去10年冰淇淋销量越高的月份，溺水死亡人数越多，因此得出结论“吃冰淇淋会导致溺水”。 (a) 请指出该研究的潜在变量。 (b) 说明该研究为什么不能得出因果结论。

解答

(a) 潜在变量是气温：气温越高，冰淇淋的销量越高，同时愿意去游泳的人数越多，溺水死亡的人数也会随之升高。 (b) 该研究属于观察性研究，研究者没有控制其他变量，也没有对受试者进行随机分组，无法排除气温等潜在变量的影响，因此只能说明冰淇淋销量和溺水人数存在正相关关系，不能得出因果结论。

习题3

某农业公司要测试新的杀虫剂效果，选了100块种植玉米的农田，随机选择50块喷洒新杀虫剂，另外50块喷洒普通杀虫剂，实验结束后统计两组的玉米产量。 (a) 该实验的控制组和处理组分别是什么？ (b) 说明随机分配的作用。

解答

(a) 处理组是喷洒新杀虫剂的50块农田，控制组是喷洒普通杀虫剂的50块农田。 (b) 随机分配可以平衡两组中未知的混淆变量，例如土壤肥力、灌溉条件、虫害初始程度等，确保两组的差异只有杀虫剂类型不同，因此最终产量的差异可以归因于杀虫剂的效果。

9. 速查表 (Quick Reference Cheatsheet)

分类	知识点	核心要点
抽样方法	SRS	每个个体被抽中概率相等，代表性最强，大样本下操作成本高
抽样方法	分层抽样	按特征分层，每层抽SRS，适合层内差异小的场景，减小抽样误差
抽样方法	整群抽样	按群划分，抽整群全部入样，适合群间差异小的场景，操作简便
抽样方法	系统抽样	固定间隔抽样，适合有序编号总体，存在周期性规律时会出现偏差
偏差	覆盖不足	抽样框排除部分总体，属于系统性偏差，会导致结论完全失真
实验原则	控制/随机化/复制	控制无关变量，随机分配处理，足够样本量，确保实验有效性
变量	混淆/潜在变量	同时影响解释和响应变量，会导致错误的因果推断
推断范围	推广性/因果性	随机抽样可推广到对应总体，随机对照实验可得出因果结论

10. 接下来怎么学

本模块是AP统计后续所有单元的基础，后续的概率分布、参数估计、假设检验的结论有效性都依赖于可靠的数据收集方法，在FRQ中经常会和假设检验结合出题，要求你判断研究结论的合理性，复习时一定要重点练历年FRQ中本模块的题目，熟悉答题的得分话术。如果你在刷题过程中遇到任何实验设计、抽样方法、推断范围的疑问，都可以随时咨询小欧，我们会为你提供针对性的解题指导。

← 返回章节主页

某道题卡住了？
拍照或粘贴题目 — 小欧（我们的 AI 学习助手）会一步步讲解并配示意图。
免费试用小欧 →