随机抽样与数据收集 — AP 统计学
1. 随机抽样核心概念 ★★☆☆☆ ⏱ 3 min
随机抽样是从我们关注的较大定义总体中选取一部分观测单元来收集数据的过程,其核心目标是得到一个具有代表性的样本子集,从而能够对整个总体进行有效的统计推断。
相比之下,普查会收集总体中所有单元的数据,但对于大总体而言,由于成本、时间限制或破坏性测试(例如测试电池寿命会损坏产品),普查几乎不可行。本主题约占收集数据单元内容的一半,而收集数据单元占AP考试总分的12-15%。
N = \text{Total population size}, \quad n = \text{Sample size}
2. 常见概率抽样方法 ★★★☆☆ ⏱ 4 min
AP统计学考试中最常考查的四种常见概率抽样方法是:
- **简单随机抽样(SRS)**: 所有容量为$n$的可能样本被选中的概率相等,通常使用随机数生成器或随机数表实现。
- **分层随机抽样**: 将总体划分为互不重叠的*层*(每个层内的单元在与响应相关的变量上性质相似);从每个层中抽取一个简单随机样本,以此降低抽样误差,保证子群体代表性。
- **整群抽样**: 将总体划分为互不重叠的*群*(每个群都能代表整个总体);随机选取一部分群,对选中群内的所有单元进行抽样,以提升后勤效率。
- **系统随机抽样**: 先在1到$k$之间随机确定一个起点,之后每隔$k$个单元从总体列表中选取一个单元;当存在有序总体列表时,该方法比简单随机抽样更简单。
Exam tip: 如果AP题目询问哪种方法最合适,永远要将方法与给定目标匹配:如果目标是保证子群体代表性,就是分层抽样;如果目标是在拥有代表性群体的前提下节省成本/提升后勤效率,就是整群抽样。不要混淆两者。
3. 非概率抽样与常见偏差 ★★★☆☆ ⏱ 3 min
非概率抽样方法不会给总体中所有单元分配已知的非零入选概率,因此几乎总会得出有偏差的结果。最常见的非概率抽样方法是方便抽样,即选取容易接触到的单元。
- **选择偏差(覆盖不足偏差)**: 某些总体群体被系统性排除在抽样框(可供选择的单元列表)之外,因此他们没有机会被选中。
- **无应答偏差**: 被选中的单元拒绝参与或无法联系到,且无应答者与应答者在我们关注的变量上存在系统性差异。
- **应答偏差**: 参与者给出不准确的回答,通常由社会期望偏差、引导性问题措辞或回忆误差导致。
Exam tip: AP自由作答题(FRQ)要求你结合情境解释偏差,而不仅仅是说出偏差名称。一定要补充一句话说明样本估计值相对于总体真实值是偏高还是偏低,才能拿到满分。
4. 抽样方法的核心比较 ★★★★☆ ⏱ 3 min
AP统计学经常要求学生区分相似的抽样方法,最常见的就是分层抽样与整群抽样,两者都会将总体划分为互不重叠的组,因此经常被混淆。
两种方法的核心区别总结如下:
分层随机抽样
分组(层)的规则是:同一层内的单元在关注变量上*性质相似*。你需要从每个层中抽样。
整群抽样
分组(群)的规则是:每个群都能代表整个总体(群内部异质性高)。你只需要从随机选中的群中抽样。
另一个常见比较是简单随机抽样vs系统抽样:系统抽样实施更简单,但如果总体列表中存在与抽样间隔$k$重合的周期性重复模式,就会产生偏差。
5. AP风格概念检测 ★★★☆☆ ⏱ 3 min
Common Pitfalls
Why: 两者都会将总体划分为组,因此学生会混淆名称和用途
Why: 学生认为「大样本就是好样本」,所以任何误差都会消失
Why: 学生记住了偏差的名称,但忘记AP要求结合情境才能拿满分
Why: 学生认为任何随机选取参与者的方式都是简单随机抽样,但自愿应答中是参与者自己选择是否参与,因此不是每个样本都有相等的被选中概率
Why: 学生认为抽样中任何误差都是偏差
Why: 学生记住了关于周期性模式的注意事项,就认为系统抽样永远不成立