双总体比例差的置信区间 — AP 统计学
1. 核心概念与推断条件 ★★☆☆☆ ⏱ 4 min
用于估计$p_1 - p_2$的置信区间给出了两个独立总体中成功真实比例差的所有合理取值范围。该方法用于比较两个不同组的比例,例如两个备考课程的通过率,或两条生产线的次品率。如果区间不包含0,则我们有证据表明在对应显著性水平下存在真实差异。
- **随机性**:两个样本都必须是从各自总体独立抽取的随机样本,或是来自随机实验。
- **独立组**:两个样本必须相互独立,观测值没有配对或匹配。
- **10%条件**:无放回抽样时,每个样本量必须小于其总体的10%,以保证样本内独立性。
- **大计数条件**:每个样本必须至少有10个观测成功和10个观测失败,以保证抽样分布近似正态:$n_1\hat{p}_1 \geq 10$, $n_1(1-\hat{p}_1) \geq 10$, $n_2\hat{p}_2 \geq 10$, $n_2(1-\hat{p}_2) \geq 10$。
Exam tip: 在AP自由问答题中,你必须明确指出并验证每一个条件,不能只说‘条件满足’。如果不对大计数条件展示计数验证,你会丢失整一分。
2. 构造置信区间 ★★★☆☆ ⏱ 4 min
验证条件后,根据AP课程大纲(AP CED)要求,双比例差置信区间始终使用未合并标准误。合并仅用于双比例假设检验,此时我们假设原假设$p_1 = p_2$成立;置信区间不做该假设,因此我们使用各自的样本比例。
符号说明:$p_1$ = 总体1的真实成功比例,$p_2$ = 总体2的真实成功比例,$\hat{p}_1 = x_1/n_1$,$\hat{p}_2 = x_2/n_2$,其中$x_1, x_2$是观测到的成功数,$n_1, n_2$是样本量。
(phat{p}_1 - phat{p}_2) \pm z^* \sqrt{\frac{\u0070hat{p}_1(1-\u0070hat{p}_1)}{n_1} + \frac{\u0070hat{p}_2(1-\u0070hat{p}_2)}{n_2}}
其中$\hat{p}_1 - \hat{p}_2$是真实差异的点估计,$z^*$是对应置信水平的临界z值(常用值:90%置信度 = 1.645,95% = 1.96,99% = 2.576),平方根下的项是差异的方差:对于独立变量,差的方差等于方差之和,因此我们将两个方差项相加。
Exam tip: 开始时一定要明确标记哪个总体是1,哪个是2。这可以避免符号错误,符号错误会导致错误的推断结论。
3. 解释与推断结论 ★★★☆☆ ⏱ 3 min
解释是该知识点在AP考试中最常考的技能之一。正确的解释需要结合情境和正确表述:真实差异是固定值,因此它要么在区间内要么不在;置信指的是方法的长期表现,而不是真实值落在区间内的概率。
推断时遵循这个简单规则:如果置信区间不包含0,那么我们在$(100-C)$%的显著性水平下有充分证据表明两个总体比例存在差异。如果区间包含0,则我们没有充分证据证明存在差异。我们永远不能得出比例相等的结论,因为区间包含许多非零的合理取值。
Exam tip: AP阅卷老师要求解释题必须结合完整情境才能给分。不指明总体和参数的泛泛解释不能得满分。
4. AP风格概念检测 ★★★☆☆ ⏱ 3 min
Common Pitfalls
Why: 混淆了置信区间规则和假设检验规则,假设检验有时会使用合并。
Why: 将标准误错误中得到的合并值带到条件验证中。
Why: 混淆了方法生效的概率和固定参数落在区间内的概率。
Why: 将点估计中的减法错误对应到方差计算中。
Why: 混淆了‘没有差异存在的证据’和‘证明不存在差异’。
Why: 只要比较两个比例就自动使用双样本方法,即使是相依样本。