音频压缩的成功者——感知编码
三、感知编码器
1 、感知编码器的特点
感知编码器首先分析输入信号的频率和振幅,然后将其与人的听觉感知模型进行比较。编码器用这个模型去除音频信号的不相干部分及统计冗余部分。尽管这个方法是有损的,但人耳却感觉不到编码信号质量的下降。感知编码器可以将一个声道的比特速率从 768kb/s 降至 128kb/s ,将字长从 16 比特 / 取样减少至平均 2.67 比特 / 取样,数据量减少了约 83% 。
感知编码器的有效性部分源自采用了自适应的量化方法。在 PCM 中,所有的信号都分为相同的字长,感知编码器则是根据可听度来分配所使用的字长。重要的声音就分配多一些位数来确保可听的完整性,而对于轻言细语的编码位数就会少一些,不可听的声音就根本不进行编码,从而降低了比特速率。编码器的压缩率是输入的比特数与输出的比特数之比。一般常见的压缩率是 4 : 1 , 6 : 1 或 12 : 1 。
一般感知编码采用两种比特分配方案。一种是前向自适应分配方案,所有的分配都在编码器中进行,这个编码信息也包含在比特流中。前向自适应编码的一个突出优点是在编码器中采用了心理声学模型,它只是利用编码数据完全地重建信号。当改进了编码器中心理声学模型时,可利用现有的编码器来重建信号。这种方法的一个缺点是需要占用一些比特位来传递分配信息。在后向自适应分配方案中,比特分配信息可以直接从编码的音频信号中推导出来,不需要编码器中详细的分配信息,分配信息也不占用比特位。然而在解码器中的比特分配信息是根据有限的信息推导出来的,精度必然会降低。另外解码器相应也比较复杂,而且不能轻易地改变心理声学模型。
感知编码有一定的抗噪性。在 PCM 中误差引入了宽带噪声,而对于许多感知编码器,根据预编码信号的典型带宽,噪声被限定在窄带内,因而限制了其强度。误差仅仅引入了一个低电平的噪声。感知编码系统还对目标噪声进行校正,例如对于极弱的声音、比较强的声音给予更多的保护。象任何编码系统一样,感知编码系统也是综合存储量、传输速率等因素来考虑的合适的误差校正方案。
由于感知编码器根据人耳的灵敏度来编码,它也可以输出放音系统所要求的响度。实况播送的音乐不通过放大器和扬声器而直接进入耳朵但是录制的音乐必须通过放音系统。由于感知编码器去除了不可听的信号成分,从逻辑上讲,加强了放音系统传送可听音乐的能力。简言之,感知编码器很适合对需要经过音频系统的音频信号编码。
2 、压缩的实现——子带压缩技术
子带压缩技术是以子带编码理论为基础的一种编码方法。
子带编码理论的基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。
子带编码是将一个短周期内的连续时间取样信号送入滤波器中,滤波器组将信号分为多个(最多 32 个)限带信号,以近似人耳的临界频段响应。对于这些子带,利用 FFT 将信号变换到频域分析其能量,利用心理声学模型来分析这些数值,给出这组数据的合成掩蔽曲线。编码器通过分析每个子带的能量来判断该子带是否包含可听信息。计算每个子带的平均功率,用来计算当前子带及邻接子带的掩蔽级,最后根据最小闻域推导出各个子带最后的掩蔽级。每个子带的峰值功率与掩蔽级的比率由所作的运算来决定,并根据信号振幅高于可听曲线的程度来分配量化所需的比特数。
由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。 当重建信号时,每个子带的量化噪声被限制在该子带内,由于每个子带的信号会对噪声进行掩蔽,所以子带内的量化噪声是可以容忍的。 因为根据人耳的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量( EBU 音质标准)。
3、子带编码的典型应用—— MPEG-1 音频压缩
在音频压缩标准化方面取得巨大成功的是 MPE
《音频压缩的成功者——感知编码(第3页)》