数据收集 (Collecting Data) — AP Statistics Stats 学习指南
适合谁:AP Statistics 参加 AP Statistics 的考生。
覆盖内容:覆盖抽样方法、抽样偏差与覆盖不足、实验设计三原则、混淆与潜在变量、推断适用范围全部子考点。
前置知识:Algebra 2、基础概率直觉。
关于练习题:下文「练习题」一节的所有题目均为我们按 AP Statistics 风格编写的原创题目 (original problems),仅用于教学。它们不是 College Board 真题的复制,措辞、数值或语境可能不同。请把它们当作练手用;评分细则请对照 College Board 官方 mark scheme。
1. 什么是数据收集?
数据收集是统计研究的第一步,核心目标是获取能够代表研究总体的可靠数据,数据质量直接决定后续所有统计推断的有效性。本模块对应AP统计CED的Unit 3,占考试总分的15%-20%,是FRQ(自由作答题)的高频出题点,常和后续的假设检验、置信区间考点结合出题。 统计研究中总体 (population) 指研究对象的全部集合,样本 (sample) 是从总体中抽取的用于研究的子集,抽样比例公式为 ,其中 为样本量, 为总体规模。
2. 抽样方法 (Sampling methods)
抽样方法分为概率抽样和非概率抽样,AP考纲要求掌握4种核心概率抽样方法:
- 简单随机抽样 (Simple Random Sampling, SRS):总体中每个个体被抽中的概率完全相等,常见操作包括抽签、随机数表法。例如将全校1000名学生的学号输入随机数生成器,抽取100个学号对应的学生,就是SRS,是最具代表性的抽样方法,但大总体下操作成本高。
- 分层抽样 (Stratified Sampling):先按某个关键特征将总体划分为若干互不重叠的层 (stratum),每层内部差异小、层与层之间差异大,再在每层中单独做SRS。例如调查全校学生平均消费水平,先按年级分为高一、高二、高三三层,每层抽30名学生,能有效降低抽样误差,是考官常考的最优抽样方法场景。
- 整群抽样 (Cluster Sampling):先将总体划分为若干群 (cluster),群内部差异大、群与群之间差异小,随机抽取若干个群,群内所有个体全部入样。例如调查某区小学平均身高,将每个小学作为一个群,随机抽5个小学,所有在校生都参与调查,操作成本低,但抽样误差通常高于SRS。
- 系统抽样 (Systematic Sampling):将总体按顺序编号,按固定间隔 抽取样本。例如每隔10个抽第3个个体,适合有有序编号的总体,但如果总体存在周期性规律,会出现系统性偏差。
3. 抽样偏差与覆盖不足 (Sampling bias and undercoverage)
抽样偏差 (sampling bias) 指样本不能代表总体的系统性误差,区别于不可避免的随机误差,偏差会导致统计结论完全失真。AP考纲重点考察覆盖不足 (undercoverage):指抽样框(用于抽取样本的名单)排除了总体中的部分群体,导致这部分群体没有被抽中的机会。 例如你要调查全市中学生平均每周补课时长,只抽取公立学校的学生作为样本,就遗漏了私立学校的学生,属于典型的覆盖不足,私立学生补课时长通常更长,会导致最终结果被低估。 其他常考偏差还包括:方便抽样偏差(只抽取容易接触到的个体)、无应答偏差(部分被抽中的个体不参与调查)、应答偏差(被调查者故意隐瞒真实情况)。
4. 实验设计三原则 (Experiments — control, randomisation, replication)
统计研究分为观察性研究 (observational study) 和实验 (experiment):观察性研究中研究者只观察不干预,实验中研究者会主动给受试者施加处理 (treatment),AP考纲要求掌握实验设计的三个核心原则:
- 控制 (control):控制除处理变量外的其他无关变量,通常设置控制组 (control group) 和处理组 (treatment group),控制组接受安慰剂或标准处理,消除安慰剂效应、时间效应等无关因素的影响。例如测试新药效果,控制组服用外观相同的淀粉片,两组受试者年龄、性别、基础病分布保持一致。
- 随机化 (randomisation):将受试者随机分配到控制组和处理组,目的是平衡两组中未知的混淆变量,确保两组的差异只有处理变量不同。
- 复制 (replication):每个处理组要有足够的样本量,或重复多次实验,降低随机误差对结果的影响,避免偶然因素导致的假阳性结论。
5. 混淆变量与潜在变量 (Confounding and lurking variables)
- 潜在变量 (lurking variable):研究中没有被纳入分析,但会同时影响解释变量和响应变量的变量,是导致错误因果结论的核心原因。例如你观察到“每年游泳圈销量越高,中暑人数越多”,潜在变量是气温,气温越高,游泳圈销量越高,同时中暑人数也越高。
- 混淆变量 (confounding variable):已经被观察到,但和解释变量的影响混在一起,无法单独区分的变量。例如研究“补课时长对成绩的影响”,如果处理组的学生普遍学习效率更高,学习效率就是混淆变量,你无法区分成绩提升是来自补课还是更高的学习效率。 这个考点是FRQ的高频出题点,几乎每年都会要求考生指出研究中的潜在变量,答题时只要找到同时影响两个变量的第三方因素即可得分。
6. 推断适用范围 (Scope of inference)
本考点是AP统计的核心得分点,所有研究结论的有效性都要从两个维度判断:
- 能不能推广到总体:只有当样本是从目标总体中随机抽取的,结论才能推广到该总体;如果是方便抽样、自愿回应样本,结论只能适用于样本本身,不能推广。
- 能不能得出因果关系:只有随机对照实验 (randomized controlled trial, RCT) 才能得出因果结论;观察性研究只能说明两个变量存在相关性,不能得出“X导致Y”的结论。 例如你在你班随机抽20名学生做调查,发现每天喝奶茶的学生体重更高,这个结论不能推广到全校,因为样本不是从全校随机抽取的;同时也不能得出“喝奶茶导致体重升高”的结论,因为是观察性研究,可能喝奶茶的学生同时更爱吃高热量零食。
7. 常见陷阱 (Common Pitfalls)
- 错误:混淆分层抽样和整群抽样,认为只要先分组就是同一种方法。原因:没有理解两种方法的分组逻辑差异。正确做法:分层抽样是层内同质、层间异质,每层抽部分样本,目的是减小误差;整群抽样是群内异质、群间同质,抽整群全部样本,目的是降低操作成本。
- 错误:观察性研究得出因果结论。原因:把相关性等同于因果性,忽略潜在变量的影响。正确做法:只有随机对照实验才能得出因果推断,观察性研究只能描述相关性,答题时一定要明确说明“这是观察性研究,存在潜在变量,无法得出因果结论”。
- 错误:把随机误差当成抽样偏差。原因:混淆了随机误差和系统性偏差的定义。正确做法:随机误差是抽样中不可避免的波动,大样本可以减小但无法消除;偏差是系统性的错误,会导致结论完全失真,和样本量无关。
- 错误:回答推断范围时只给结论不给理由。原因:没有掌握FRQ的得分规则。正确做法:判断能不能推广要说明“样本是不是从目标总体随机抽取的”,判断能不能得因果要说明“是不是随机对照实验”,两个点都答到才能拿全分。
8. 练习题 (AP Statistics 风格)
习题1
某高中要调查全校1200名学生对新校服的满意度,后勤部门按学号顺序每隔15人抽1人,共抽取80名学生进行调查。 (a) 该抽样方法是什么? (b) 有人说这种方法一定能得到和SRS一样有代表性的样本,请判断正误并说明理由。
解答
(a) 系统抽样 (systematic sampling)。 (b) 错误。如果学号是按班级排序,同一个班级的学生学号连续,而不同班级对校服的偏好存在系统性差异(例如艺术班学生更看重设计感,普通班更看重舒适度),每隔15人抽取可能刚好抽到每个班的同一类学生,导致样本偏差。只有当总体没有周期性或规律性排序时,系统抽样的代表性才和SRS接近。
习题2
某研究者观察到过去10年冰淇淋销量越高的月份,溺水死亡人数越多,因此得出结论“吃冰淇淋会导致溺水”。 (a) 请指出该研究的潜在变量。 (b) 说明该研究为什么不能得出因果结论。
解答
(a) 潜在变量是气温:气温越高,冰淇淋的销量越高,同时愿意去游泳的人数越多,溺水死亡的人数也会随之升高。 (b) 该研究属于观察性研究,研究者没有控制其他变量,也没有对受试者进行随机分组,无法排除气温等潜在变量的影响,因此只能说明冰淇淋销量和溺水人数存在正相关关系,不能得出因果结论。
习题3
某农业公司要测试新的杀虫剂效果,选了100块种植玉米的农田,随机选择50块喷洒新杀虫剂,另外50块喷洒普通杀虫剂,实验结束后统计两组的玉米产量。 (a) 该实验的控制组和处理组分别是什么? (b) 说明随机分配的作用。
解答
(a) 处理组是喷洒新杀虫剂的50块农田,控制组是喷洒普通杀虫剂的50块农田。 (b) 随机分配可以平衡两组中未知的混淆变量,例如土壤肥力、灌溉条件、虫害初始程度等,确保两组的差异只有杀虫剂类型不同,因此最终产量的差异可以归因于杀虫剂的效果。
9. 速查表 (Quick Reference Cheatsheet)
| 分类 | 知识点 | 核心要点 |
|---|---|---|
| 抽样方法 | SRS | 每个个体被抽中概率相等,代表性最强,大样本下操作成本高 |
| 抽样方法 | 分层抽样 | 按特征分层,每层抽SRS,适合层内差异小的场景,减小抽样误差 |
| 抽样方法 | 整群抽样 | 按群划分,抽整群全部入样,适合群间差异小的场景,操作简便 |
| 抽样方法 | 系统抽样 | 固定间隔抽样,适合有序编号总体,存在周期性规律时会出现偏差 |
| 偏差 | 覆盖不足 | 抽样框排除部分总体,属于系统性偏差,会导致结论完全失真 |
| 实验原则 | 控制/随机化/复制 | 控制无关变量,随机分配处理,足够样本量,确保实验有效性 |
| 变量 | 混淆/潜在变量 | 同时影响解释和响应变量,会导致错误的因果推断 |
| 推断范围 | 推广性/因果性 | 随机抽样可推广到对应总体,随机对照实验可得出因果结论 |
10. 接下来怎么学
本模块是AP统计后续所有单元的基础,后续的概率分布、参数估计、假设检验的结论有效性都依赖于可靠的数据收集方法,在FRQ中经常会和假设检验结合出题,要求你判断研究结论的合理性,复习时一定要重点练历年FRQ中本模块的题目,熟悉答题的得分话术。 如果你在刷题过程中遇到任何实验设计、抽样方法、推断范围的疑问,都可以随时咨询小欧,我们会为你提供针对性的解题指导。