音频压缩细节大全
音频压缩技术的出现和早期应用,音频信号的冗余信息,频谱掩蔽效应。时域掩蔽效应。、压缩编码方法、压缩方法的其他划分、音频压缩算法的主要分类和典型代表、时域压缩(或波形编码)技术、子带压缩技术、音频压缩技术的标准化和MPEG-1、音频压缩技术的出现和早期应用是指对原始数字音频信号流(脉码调制)应用适当的数字信号处理技术,不丢失有用信息或引入可忽略的损失。它必须有相应的逆变换,称为解压缩或解码。音频信号在通过编解码器系统后可能会引入大量噪声和一些失真。数字信号的优点是显而易见的,但它也有自己相应的缺点,即存储容量要求的增加和传输时信道容量要求的增加。以一张CD为例,采样率为44.1KHz,量化精度为16位,那么1分钟的立体声音频信号需要占用100字节左右的存储容量,也就是说一张CD转盘的容量只有1小时左右。当然,这个问题在带宽高得多的数字视频领域更为突出。这些位都有必要吗?发现用PCM码流直接存储和传输有很大的冗余。实际上声音至少可以4: 1无损压缩,也就是只用25%的数字量保留全部信息,在视频领域压缩比甚至可以达到几百倍。因此,为了利用有限的资源,压缩技术自出现以来就受到了广泛的关注。音频压缩技术的研究和应用由来已久。例如A律和U律编码都是简单的准瞬时压扩器,已经应用在ISDN语音传输中。对语音信号的研究发展较早,也比较成熟,并得到了广泛的应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,音频压缩技术用于诸如NICAM(近瞬时压扩音频多路复用)的系统中。音频信号的冗余信息数字音频压缩编码在保证信号在听觉上不失真的前提下,尽可能地压缩音频数据信号。数字音频压缩编码是通过从声音信号中去除冗余分量来实现的。所谓冗余成分,是指音频中人耳无法感知的信号,它们对确定声音的音色、音调等信息没有帮助。冗余信号包括人耳听觉范围之外的音频信号和掩蔽音频信号。比如,人耳能感知的声音信号的频率范围是20 Hz ~ 20 kHz,其他人耳不能感知的频率可以视为冗余信号。另外,根据人类听觉的生理和心理声学现象,当一个强信号和一个弱信号同时存在时,弱信号会被强信号所掩盖而听不到,所以弱信号可以视为冗余信号而不传输。这就是人类听觉的掩蔽效应,主要表现在频谱掩蔽效应和时域掩蔽效应。现在分别介绍如下:频谱掩蔽效应。一个频率的声能小于一定阈值后,人耳就听不到了。这个阈值被称为最小听觉阈值。当出现另一种能量更高的声音时,声音频率附近的阈值会增加很多,这就是所谓的掩蔽效应。合并图谱的时域掩蔽效应。当强信号和弱信号同时出现时,也存在时域掩蔽效应。也就是说,当两者发生的时间非常接近时,也会出现掩蔽效应。时域掩蔽分为三部分:预掩蔽、同时掩蔽和后掩蔽。预掩蔽是指在人耳听到强信号之前,已有的弱信号会被掩蔽,短时间内听不到。同时掩蔽是指当强信号和弱信号同时存在时,弱信号会被强信号掩蔽,听不到。后掩蔽是指当强信号消失后,需要很长时间才能再次听到弱信号,称为后掩蔽。这些被屏蔽的弱信号可以被视为冗余信号。压缩编码方法根据压缩原理的不同,音频信号编码分为波形编码、参数编码和综合多种技术的编码形式(1)。波形编码直接以一定的速率对音频信号的时域或频域波形进行采样,然后对幅度样本进行分级量化,转换成数字码。从波形数据中生成重构的信号编码系统,该信号编码系统与原始声音波形尽可能一致,并且保留了信号的细节变化和各种过渡特征。(2)参数编码首先根据不同的信号源建立特征模型,比如语言信号和自然声音。通过提取特征参数和编码,重构的声音信号尽量保持原声的语义,但重构信号的波形可能与原声信号的波形有较大差异。常用的* * *峰、线性预测系数、带分滤波器等参数编码技术可以实现低速率音频信号编码,比特率可以压缩到2Kbit/s-4.8Kbit/s,但音质只能达到中等,特别是自然度较低,只适合语言传输和表达。(3)混合编码,将波形编码和参数编码相结合,克服了原有波形编码和参数编码的弱点,尽量保持波形编码的高质量和参数编码的低码率,以4-16 kbit/s的码率获得高质量的合成声音信号..混合编码的基础是线性预测编码(LPC),常用的编码方法有脉冲激励线性预测编码(MPLPC)、计划脉冲激励线性预测编码(KPELPC)和码本激励线性预测编码(CELPC)。
其他压缩方法被分类在音频压缩领域。压缩方式有两种,有损压缩和无损压缩!我们经常看到的MP3,WMA,OGG,都叫有损压缩。顾名思义,有损压缩就是降低音频采样频率和比特率,输出的音频文件会比原始文件小。另一种音频压缩叫做无损压缩,这就是我们要讲的。无损压缩可以在100%保留原文件所有数据的前提下,减小音频文件的体积,压缩后的音频文件恢复后可以达到与源文件相同的大小和相同的比特率。无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、LA、OptimFROG、Shorten,而常见的、主流的无损压缩格式只有APE和FLaC。音频压缩算法的主要分类和典型代表一般来说,音频压缩技术可以分为无损压缩和有损压缩两大类,而根据压缩方案的不同,又可以分为时域压缩、变换压缩、子带压缩,以及多种技术的混合压缩。不同的压缩技术在算法复杂度(包括时间复杂度和空间复杂度)、音频质量、算法效率(压缩比)、编解码延迟等方面都有很大的差异。各种压缩技术的应用场合也不同。时域压缩(或波形编码)技术直接对音频PCM码流的样本进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。这类压缩技术的共同特点是算法复杂度低,音质一般,压缩比低(CD音质>;400kbps),编解码延时最短(与其他技术相比)。这种压缩技术一般用于语音压缩和低比特率应用(小源信号带宽)。时域压缩技术主要有G.711,ADPCM,LPC,CELP,以及在这些技术上发展起来的块压扩器如NICAM和子带ADPCM(SB-ADPCM)。子带压缩技术的子带编码理论最早是由Crochiere = 1976提出的。其基本思想是将信号分解成若干子带内的分量之和,然后根据其不同的分布特性对每个子带分量采取不同的压缩策略来降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是基于声音信号的人类感知模型(心理声学模型),通过分析信号频谱来确定子带样本或频域样本的量化阶数等参数,因此也可以称为感知压缩编码。与时域压缩技术相比,这两种压缩方式要复杂得多,编码效率和音质也大大提高,编码延迟也相应增加。一般来说,子带编码的复杂度略低于变换编码,编码延迟也相对较短。音频压缩技术与MPEG-1的标准化由于数字音频压缩技术具有广泛的应用范围和良好的市场前景,一些研究机构和公司不遗余力地开发自己的专利技术和产品。标准化这些音频压缩技术非常重要。MPEG-1音频(ISO/IEC 11172-3)在音频压缩标准化方面取得了巨大的成功。在MPEG-1中,音频压缩有三种模式,即第一层、第二层(即MUSICAM,也称为MP2)和第三层(也称为MP3)。由于对多种压缩技术的细致考察,以及对实际应用条件和算法可实现性(复杂度)的充分考虑,三种模式得到了广泛的应用。VCD使用的音频压缩方案是MPEG-1 layer I;MUSICAM因其适当的复杂度和出色的音质,广泛应用于数字演播室、DAB、DVB等数字元组的制作、交换、存储和传输。MP3是一种基于MUSICAM和ASPEC优点的混合压缩技术。当时MP3的复杂度比较高,不利于实时编码。但由于其低比特率下的高水准音质,MP3成为了软解压和网络播放的宠儿。可以说MPEG-1音频标准的制定决定了它的成功,这一思想甚至影响到了后面将要讨论的MPEG-2和MPEG-4音频标准的制定。