音频压缩的成功者——感知编码

G-1 数字音频压缩方案。

在 MPEG-1 压缩中，按复杂程度规定了三种模式即 MPEG Audio Layer-1 、 Layer-2 和 Layer-3 。目前广泛使用的 VCD 的音频压缩方案为 MPEG Audio Layer-1 ，它的典型的码流为每通道 192Kbit/S 。 Layer-2 即称掩蔽模式通用子带集成编码与多路复用，典型的码流为每通道 128 Kbit/S ，广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。我们最熟悉的是 Layer-3 ，也就是常说的 MP3 ，是综合于层Ⅱ的优点提出的混合压缩技术， MP3 的压缩比率更大，可以达到 1 ∶ 10 ～ 1 ∶ 12 的比例，而 MP1 和 MP2 分别只有 1 ∶ 4 和 1 ∶ 6 ～ 1 ∶ 8 的压缩比例。这也就决定了 MP3 格式的文件尺寸更加适合存储空间小的随身听使用。但 MP3 的复杂度相对较高，编码不利于实时，典型码流为 64 Kbit/S ，在低码率下有高品质的音质，所以成为网上音源的宠儿。

MPEG-1 的压缩技术方案是子带压缩，子带分割的实现是通过时频映射，采用多相正交分解滤波器组将数字化的宽带音频信号分成 32 个子带；同时，信号通过 FFT 运算，对信号进行频谱分析；子带信号与频谱同步计算，得出对各子带的掩蔽特性，由于掩蔽特性的存在，减少了对量化比特率的要求，不同子带分配不同的量化比特数，但对于各子带而言，是线性量化。另上 CRC 校验码，得到标准的 MPEG 码流。在解码端，只要解帧，子带样值解码，最后进行频——时映射还原，最后输出标准 PCM 码流。其原理方框图如图 1 所示：

整个编码工作过程大致是：

1. 进行时域到频域的映射。利用 FFT 将时域数据转换到频域，这样可以计算精确的掩蔽域值。

2. 确定最大声压级。在每个子带内根据比例因子和频谱数据进行计算。

3. 确定安静域值。安静域值也称绝对域值，它形成了最低掩蔽边界。

4. 识别音调和非音调成分。由于信号中的音调和非音调成分的掩蔽域值不同，首先要识别音调和非音调成分，然后分别来进行处理。

5. 计算掩蔽域值。每个子带噪声的掩蔽域值由信号的掩蔽曲线决定。当子带相对于临界频段比较宽时，选择最小域值；当其比较窄时，将覆盖子带的域值进行平均。

6. 计算全局掩蔽域值。全局掩蔽域值通过对相应的各子带掩蔽域值和安静域值求和得到。

7. 确定最小掩蔽域值。基于全局掩蔽域值来确定每个子带的最小掩蔽域值。

8. 计算信号掩蔽率（ SMR ）。最大信号电平和最小掩蔽域值之间的差异决定了每个子带的 SMR 值，这个值将用于比特分配。

四、结论

传统的音频编码是表述和度量的问题，感知编码是生理和感知的问题。传统的音频技术存在于客观世界，而感知编码技术则存在于不可知的心理声学世界。到目前为止，随着数字信号处理的出现，音频工程师们可以利用软、硬件与人耳一样来“听”声音。但是在任何情况下，所有与这个主题相关的问题都必须从人耳的构造出发。

《音频压缩的成功者——感知编码(第4页)》

« 1 2 3 4 »

本文链接地址：http://www.oyaya.net/fanwen/view/167900.html

上一篇范文：键控技术的发展及其在电视领域的新应用

下一篇范文：论主持人与记者整体形象定位