用表格表示分类变量 — AP 统计学
1. 核心概念:分类数据的表格 ★☆☆☆☆ ⏱ 3 min
分类变量将每个个体观测归入不同的组别或类别(而非数值测量)。变量的分布描述了它取哪些值,以及这些值出现的频率。表格是汇总单变量分类数据集分布最常用的起点。
本主题是后续所有分类数据相关学习的基础,包括可视化表示、列联表和比例推断,因此掌握表格的构建和解读对考试成功至关重要。它占AP考试总分的15-23%,同时出现在选择题和自由问答题中。
本主题使用的标准标记法:$n$ = 总观测数,$f_i$ = 第$i$个类别的原始观测频数。
2. 频数表 ★☆☆☆☆ ⏱ 4 min
所有有效频数表的核心规则是:所有频数之和等于总样本量$n$,正式写法为:
\sum_{i=1}^k f_i = n
其中$k$是不同类别的数量。这个规则可以让你在进一步分析前检查计数错误。频数表给出精确的原始计数,适用于需要实际观测数量的情境题目。
3. 相对频数表 ★★☆☆☆ ⏱ 4 min
第$i$个类别的相对频数公式为:
p_i = \frac{f_i}{n}
若要得到百分比,乘以100即可:$\text{Percent} = p_i \times 100\%$。所有相对频数之和应为1(百分比则为100%),单个数值四舍五入导致的微小偏差是允许的。
4. 累积频数与众数识别 ★★☆☆☆ ⏱ 3 min
对于有序分类(定序)变量(例如成绩、满意度水平、收入分组),我们可以构建累积频数表来简化回答关于特定类别及以下(或及以上)观测数量的问题。第$i$个类别的累积频数是所有到该类别(包含该类别)的频数之和。
Common Pitfalls
Why: 考生赶时间时常会混淆分子和分母,百分比题目尤其容易出错。
Why: 考生总是默认累积频数一定是从最低到最高排序,不考虑情境。
Why: 考生会混淆'频数接近'和'并列最高频数'。
Why: 考生没有考虑保留两位小数时的舍入误差。
Why: 考生习惯了定量数据,会自动尝试计算数值中心。