| 学习指南 EN
College Board · cb-cs-principles · AP Computer Science Principles · Data / 数据 · 阅读约 15 分钟 · 更新于 2026-05-07

数据 (Data) — AP CS Principles CSP 学习指南

适合谁:AP CS Principles 参加 AP Computer Science Principles 的考生。

覆盖内容:二进制数与抽象、有损与无损数据压缩、数据分析与可视化、信息隐私与安全四大核心子主题

前置知识:无需前置 CS 知识。

关于练习题:下文「练习题」一节的所有题目均为我们按 AP CS Principles 风格编写的原创题目 (original problems),仅用于教学。它们不是 College Board 真题的复制,措辞、数值或语境可能不同。请把它们当作练手用;评分细则请对照 College Board 官方 mark scheme。


1. 什么是数据?

数据(Data)是所有可以被计算机存储、处理、传输的信息的载体,是计算机科学最基础的核心概念之一。在AP CSP考纲中,数据模块占选择题总分的15%-20%,同时是后续算法、编程、互联网等模块的前置基础。我们日常接触的文本、图片、音频、视频、测量数值、用户信息等所有内容,在计算机中最终都会被转化为数据形式存储。

2. 二进制数与抽象(Binary numbers and abstraction)

二进制数(binary number)是计算机存储数据的底层形式,仅由0和1两个符号组成:最小的存储单位是比特(bit),代表单个0或1;8个比特组成1个字节(byte),是常用的存储容量单位。 抽象(abstraction)是计算机科学的核心思维之一,指隐藏复杂的底层实现逻辑,只向用户暴露简化的操作接口:比如你在电脑上输入十进制数19,计算机自动将其转换为二进制数10011处理,你完全不需要了解底层的转换规则,这就是抽象的应用。

核心计算规则

n个比特最多可以表示个不同的数值,例如3个比特可以表示个值,对应十进制的0到7。十进制转二进制的方法是"除2取余,逆序排列",例如十进制19的转换过程: 逆序排列余数得到二进制数10011,验证:

考官常考二进制与十进制的转换、n比特可表示的数值范围,这部分属于送分题,一定要掌握。

3. 数据压缩:有损vs无损(Data compression — lossy vs lossless)

数据压缩(data compression)指通过算法减少文件占用的存储空间、提升传输效率的技术,分为两类:

  1. 无损压缩(lossless compression):压缩后可以100%还原原始数据,没有任何信息丢失,适合存储文本、程序代码、医疗影像、原始实验数据等不能出现信息偏差的内容,常见格式包括ZIP压缩包、PNG图片、FLAC音频。
  2. 有损压缩(lossy compression):压缩时会丢弃人眼、人耳感知不到的冗余信息,无法完全还原原始数据,但压缩比远高于无损压缩,适合存储普通图片、音视频等可以接受轻微质量损失的内容,常见格式包括JPEG图片、MP3音频、MP4视频。

举个例子:一张12MB的BMP原始图片,用PNG无损压缩后大小约为5MB,解压后和原图完全一致;用JPEG有损压缩(质量80%)后大小约为1.2MB,几乎看不出画质差异,但无法还原为原始BMP的全部细节。考点通常是给定场景选择合适的压缩类型,记住"不能丢信息选无损,要高压缩比选有损"即可。

4. 数据分析与可视化(Data analysis and visualisation)

数据分析(data analysis)指从原始数据(raw data)中提取规律、总结有用信息的过程;数据可视化(data visualisation)指将分析结果转化为图表形式,降低理解门槛的技术。AP CSP要求你掌握四类常见可视化图表的适用场景:

图表类型 适用场景
柱状图 比较不同类别的数值差异
折线图 展示变量随时间的变化趋势
饼图 展示各部分占总体的比例
散点图 展示两个连续变量之间的相关性

这里有个高频考点:相关性不等于因果性。比如你用散点图发现"冰淇淋销量越高,溺水死亡人数越多",二者是正相关关系,但不存在因果关系——真正的影响变量是气温,气温高的时候冰淇淋销量和游泳人数都会上升,进而导致溺水人数上升。考试中遇到从图表推导结论的题目,一定不能选出现"导致""使得"等因果表述的选项,除非题干明确说明做了控制变量的对照实验。

5. 信息隐私与安全(Information privacy and security)

信息隐私(information privacy)指个人有权控制自己的个人数据如何被收集、使用、分享;信息安全(information security)指保护数据不被未授权访问、篡改、泄露的技术和流程。 常见的隐私风险包括:平台未经授权收集用户的位置、浏览记录等个人数据用于定向广告,数据泄露(data breach)导致用户的身份信息、支付信息被盗用。常见的保护措施包括:

  • 加密(encryption):将数据转化为只有持有密钥的用户可以解读的形式,同时可以验证数据完整性,如果数据被篡改,解密会直接失败
  • 双因素认证(two-factor authentication, 2FA):除密码外额外要求手机验证码、指纹等第二层验证,大幅提升账户安全性
  • 匿名化(anonymization):删除数据中的姓名、手机号等个人标识,避免数据关联到具体个人

考点通常是判断给定行为是否侵犯隐私,或者选择合适的安全措施,属于常识类考点,难度较低。

6. 常见陷阱 (Common Pitfalls)

  1. 错误做法:二进制转十进制时从右往左幂次从1开始计算,比如将10011算成错误原因:搞反了比特位的权重顺序。正确做法:最右侧的比特对应权重,往左依次加1,10011最右位是1对应,最左位是1对应,总和为19。
  2. 错误做法:认为有损压缩一定比无损压缩好,或者反过来。错误原因:只关注压缩比或还原度,忽略应用场景。正确做法:需要完全还原原始数据的场景选无损压缩,可接受轻微质量损失、需要高压缩比的场景选有损压缩。
  3. 错误做法:从散点图的相关性直接推导因果关系。错误原因:忽略了其他潜在影响变量的作用。正确做法:没有对照实验控制变量的前提下,只能说明两个变量存在相关关系,不能认定有因果关系。
  4. 错误做法:认为加密只能防止数据被泄露,不能防止被篡改。错误原因:不了解现代加密算法的附加功能。正确做法:加密同时可以验证数据完整性,如果数据被第三方篡改,解密时会直接报错,从而识别出数据被改动。

7. 练习题 (AP CSP 风格)

第1题

题干:某学生需要存储物理实验的原始测量数据,后续需要对数据进行精确的统计分析,不能有任何信息损失,以下哪种压缩方式最合适? A. 用JPEG格式压缩数据 B. 用MP3格式压缩数据 C. 用ZIP格式压缩数据 D. 用MP4格式压缩数据

解答:答案为C。A、B、D都是有损压缩格式,会丢失原始信息,只有ZIP是无损压缩格式,可以完全还原原始数据,符合需求。

第2题

题干:某系统需要给每个用户分配唯一的二进制ID,预计总用户量为2000人,请问最少需要多少个比特来存储ID?

解答:n个比特可以表示个不同值,计算: ,因此最少需要11个比特。

第3题

题干:某机构想要展示2018-2025年全国互联网用户数量的变化趋势,最合适的可视化图表是? A. 饼图 B. 折线图 C. 散点图 D. 柱状图

解答:答案为B。折线图专门用于展示变量随时间的变化趋势,符合需求。

8. 速查表 (Quick Reference Cheatsheet)

知识点 核心结论
二进制与抽象 1比特=单个0/1,n比特可表示个不同值;抽象隐藏底层实现,降低使用门槛
数据压缩 无损:可完全还原,适用文本/原始数据,格式:ZIP、PNG;有损:不可还原、压缩比高,适用音视频/普通图片,格式:JPEG、MP3、MP4
数据分析可视化 柱状图比类别、折线图看趋势、饼图看占比、散点图看相关性;相关性≠因果性
隐私安全 加密保护数据机密性与完整性,2FA提升账户安全,未经授权收集个人数据属于侵犯隐私

9. 接下来怎么学

本模块是AP CSP的基础核心,后续的算法、编程、互联网、网络安全等模块都会用到本模块的知识:比如算法处理的输入输出都是二进制存储的数据,互联网传输数据时会用到压缩和加密技术,掌握好本模块的内容是学习后续知识点的必要前提。

如果你在备考过程中遇到任何知识点疑问或者练习题不会做,都可以随时到小欧平台提问,我们的资深辅导老师会为你提供一对一的解答。

← 返回章节主页

某道题卡住了?
拍照或粘贴题目 — 小欧(我们的 AI 学习助手)会一步步讲解并配示意图。
免费试用小欧 →