- NS4830A 单声道 AB/D 类 Charge Pump 升
- PT8P2107 触控 IO 型 8-Bit MCU
- PT8P2309 触控 A/D 型 8-Bit MCU
- PT8P2308 触控 A/D 型 8-Bit MCU
- ET7428 1Ω Dual SPDT Negative Signal Handing Analog Switch
- ET7222 High-Speed USB 2.0(480Mbps) Switch
- ET5228H 0.6Ω Dual SPDT Negative Signal Handing Analog Switch
- ET5223 0.5Ω Dual SPDT Analog Switch
- HTR6916 共阴极16x9阵列LED 驱动器
- HTR7198(S), HTR7144(S) 带自动呼吸功能的18x
- PL62010 集成升降压控制器及双向PD3.0等多种快
- RY6050-ADJ Series 500mA Adjustable High-Speed Low Power LDO
- RY6050 Series 500mA High PSRR, Low Noise, Low Power LDO
- RY6313 40V 150mA Low Power LDO
为什么数字音频几乎都绕不开 PCM?看懂它,你就看懂了声音数字化的底层逻辑
1. PCM 的本质,就是把连续变化的模拟声音波形变成一串可存储、可传输、可计算的离散数字样本。
2. 采样率解决“多久测一次”的问题,量化位深解决“每次测得多精细”的问题。
3. 奈奎斯特原理解释了为什么采样频率必须至少高于信号最高频率的两倍,否则会发生混叠。
4. PCM 之所以长期存在,是因为它简单、直接、标准化程度高,是几乎所有数字音频系统的共同基础。
“PCM 的真正意义,不是某个文件后缀,而是把连续声音翻译成数字系统可处理的共同语言。”
开头:为什么数字音频世界几乎绕不开 PCM?
如果你接触过音频系统,无论是播放器、手机录音、声卡、蓝牙链路、语音算法,还是音频编解码器,几乎都绕不开一个名字:PCM。
很多人第一次听到 PCM,会把它理解成一种“音频格式”。这个理解不能说错,但还不够深入。PCM 更重要的意义在于,它定义了声音怎样从连续的物理世界,变成数字系统能够处理的一串数据。
理解 PCM,本质上是在理解数字音频的入口。因为后面无论是 WAV、CD 音频、I2S、音频 ADC、DSP 处理,还是 MP3、AAC、Opus 这类有损压缩格式,很多时候都是在 PCM 这个基础之上继续演化。
一、声音到底是怎么来的
声音首先不是电,也不是数字,而是机械振动。人说话时,声带在振动;吉他发声时,琴弦在振动;扬声器工作时,振膜在振动。
这些振动推动周围空气,让空气压力随时间发生连续变化,于是形成了声波。耳朵之所以能听到声音,就是因为鼓膜被这种空气压力变化不断推动。
所以从物理本质上说,声音是一条连续随时间变化的波形,而不是一串离散的点。数字音频系统要做的第一件事,就是想办法把这条连续波形“翻译”成数字世界能理解的形式。
二、声音是怎么被采集进系统里的

图 1:声音从物理世界进入数字系统的基本链路
采集链路通常从麦克风开始。麦克风把空气中的连续声压变化,转换成连续变化的模拟电信号。也就是说,这时信号虽然已经不是空气压力了,但它仍然是模拟的、连续的。
接下来,模数转换器,也就是 ADC,会对这个连续电信号进行采样和量化,最后把它编码成一串离散数字。这个数字序列,就是 PCM。
从工程角度看,PCM 并不是“创造声音”,而是把真实世界里的连续声音波形,以规则、标准化的方式记录下来。
三、PCM 的本质到底是什么
PCM 的英文是 Pulse Code Modulation,中文通常叫脉冲编码调制。这个名字听起来有点历史味道,但本质非常直接:在离散的时间点上,对模拟信号的振幅进行测量,再把测量结果编码成数字。
所以如果只保留一句话,PCM 的本质就是:用一串“某时刻的振幅值”,去描述一条连续波形。
这件事听起来很朴素,却非常关键。因为一旦波形被表示成一串数字,数字系统就能对它进行存储、传输、复制、滤波、增强、混音和压缩。PCM 解决的核心问题,就是让声音第一次真正进入数字计算系统。
四、采样率和振幅到底分别在描述什么

图 2:PCM 的本质是按时间取点并记录振幅
采样率描述的是“多久测一次”。比如 44.1 kHz,意思就是每秒对模拟波形测量 44100 次。采样率越高,时间轴上的信息保留得越密。
振幅描述的是“这一时刻波形有多高”。如果把声音波形想成上下起伏的曲线,那么振幅就是曲线在某个时刻对应的高度。音频 ADC 每做一次采样,本质上就是在时间轴上取一个点,并记录这个点的振幅值。
而位深,比如 16-bit、24-bit,决定的是振幅被离散成多少个等级。位深越高,振幅刻画越细,动态范围通常也越大。
五、奈奎斯特原理为什么是数字音频的基础

图 3:奈奎斯特原理与混叠示意图
奈奎斯特采样定理告诉我们:如果一个信号的最高频率是 f,那么采样频率至少要大于 2f,才能避免歧义地恢复这个信号。
直观理解就是,如果你测得太慢,就会把原本变化很快的波形“看错”。这个现象在音频里就叫混叠。原本的高频成分会伪装成错误的低频成分,进入你的数字信号中。
人耳听觉上限大约在 20 kHz 左右,所以 CD 音频采用 44.1 kHz 采样率,本质上就是围绕奈奎斯特原理做出的工程选择:既覆盖可听频段,又给模拟滤波器留出一定过渡空间。
六、PCM 到底解决了什么问题
PCM 解决的第一个问题,是可计算。模拟声音可以存在,但模拟声音很难被数字系统直接处理;一旦变成 PCM,DSP、CPU、音频算法和软件系统就都能参与进来。
PCM 解决的第二个问题,是可复制和可传输。模拟系统每经过一次链路都可能叠加失真,而 PCM 一旦进入数字域,就能以非常稳定的方式复制和传送。
PCM 解决的第三个问题,是标准化。不同设备、不同接口、不同音频链路,只要约定采样率、位深、通道数和数据排列方式,就能互相交换和理解音频数据。
也正因为这样,PCM 成为了数字音频系统中最基础、最通用的一层表示。
七、既然有 MP3、AAC、Opus,为什么还要用 PCM?
因为 PCM 和 MP3 / AAC / Opus 解决的问题根本不一样。PCM 的目标是忠实、直接、低门槛地表达原始数字音频;而 MP3、AAC、Opus 的目标是进一步压缩码率,降低存储和传输成本。
很多压缩格式在编码前,本来就需要从 PCM 出发;很多硬件接口、录音链路、DSP 算法输入输出,也依然直接使用 PCM。
所以 PCM 不是“落后格式”,而是数字音频系统里的基线表示。它就像图像世界里的 RAW 或像素缓冲区一样,不一定最省空间,但足够直接、通用、可靠。
八、今天再看 PCM,它为什么仍然重要
今天的音频世界已经非常复杂,有空间音频、有神经网络降噪、有蓝牙编解码器、有流媒体音频分发。但无论系统多复杂,最底层仍然常常要回到 PCM。
只要你还需要采集声音、处理声音、播放声音,就几乎不可能绕开采样、振幅、量化和 PCM 表示。
从这个意义上说,PCM 之于数字音频,就像坐标系之于几何学。它未必总在台前,但它几乎始终是基础。
结尾
如果说声音属于连续的物理世界,那么 PCM 就是这条连续波形进入数字世界的第一座桥。
它用采样率描述时间,用位深描述振幅精度,用一串离散样本把声音交给计算系统。理解 PCM,不只是理解一种音频表示方式,而是在理解数字音频为什么能成立。
也正因为如此,哪怕今天有再多更高级的音频技术,PCM 依然是那块最朴素、最底层、却最难被替代的基石。
上一篇:数模转换(DAC)里最标准、最常用的参数
下一篇:最后一页