音频压缩的成功者——感知编码
在 MPEG-1 压缩中,按复杂程度规定了三种模式即 MPEG Audio Layer-1 、 Layer-2 和 Layer-3 。目前广泛使用的 VCD 的音频压缩方案为 MPEG Audio Layer-1 ,它的典型的码流为每通道 192Kbit/S 。 Layer-2 即称掩蔽模式通用子带集成编码与多路复用,典型的码流为每通道 128 Kbit/S ,广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。我们最熟悉的是 Layer-3 ,也就是常说的 MP3 ,是综合于层Ⅱ的优点提出的混合压缩技术, MP3 的压缩比率更大,可以达到 1 ∶ 10 ~ 1 ∶ 12 的比例,而 MP1 和 MP2 分别只有 1 ∶ 4 和 1 ∶ 6 ~ 1 ∶ 8 的压缩比例。这也就决定了 MP3 格式的文件尺寸更加适合存储空间小的随身听使用。但 MP3 的复杂度相对较高,编码不利于实时,典型码流为 64 Kbit/S ,在低码率下有高品质的音质,所以成为网上音源的宠儿。
MPEG-1 的压缩技术方案是子带压缩,子带分割的实现是通过时频映射,采用多相正交分解滤波器组将数字化的宽带音频信号分成 32 个子带;同时,信号通过 FFT 运算,对信号进行频谱分析;子带信号与频谱同步计算,得出对各子带的掩蔽特性,由于掩蔽特性的存在,减少了对量化比特率的要求,不同子带分配不同的量化比特数,但对于各子带而言,是线性量化。另上 CRC 校验码,得到标准的 MPEG 码流。在解码端,只要解帧,子带样值解码,最后进行频——时映射还原,最后输出标准 PCM 码流。其原理方框图如图 1 所示:
整个编码工作过程大致是:
1. 进行时域到频域的映射。利用 FFT 将时域数据转换到频域,这样可以计算精确的掩蔽域值。
2. 确定最大声压级。在每个子带内根据比例因子和频谱数据进行计算。
3. 确定安静域值。安静域值也称绝对域值,它形成了最低掩蔽边界。
4. 识别音调和非音调成分。由于信号中的音调和非音调成分的掩蔽域值不同,首先要识别音调和非音调成分,然后分别来进行处理。
5. 计算掩蔽域值。每个子带噪声的掩蔽域值由信号的掩蔽曲线决定。当子带相对于临界频段比较宽时,选择最小域值;当其比较窄时,将覆盖子带的域值进行平均。
6. 计算全局掩蔽域值。全局掩蔽域值通过对相应的各子带掩蔽域值和安静域值求和得到。
7. 确定最小掩蔽域值。基于全局掩蔽域值来确定每个子带的最小掩蔽域值。
8. 计算信号掩蔽率( SMR )。最大信号电平和最小掩蔽域值之间的差异决定了每个子带的 SMR 值,这个值将用于比特分配。
四、结论
传统的音频编码是表述和度量的问题,感知编码是生理和感知的问题。传统的音频技术存在于客观世界,而感知编码技术则存在于不可知的心理声学世界。到目前为止,随着数字信号处理的出现,音频工程师们可以利用软、硬件与人耳一样来“听”声音。但是在任何情况下,所有与这个主题相关的问题都必须从人耳的构造出发 。
《音频压缩的成功者——感知编码(第4页)》