有损压缩的常见格式
我们先来了解一下音频压缩的原理:利用人类听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性等。)和人耳对信号幅度、频率、时间的有限分辨能力,所有人耳感觉不到的频率都不进行编码或传输,即所有对人耳分辨声音信号的强度、音调、方位没有贡献的部分(称为无关部分或不相关部分)都不进行编码和传输。对感觉不到的部分进行编码时,允许有较大的量化失真,并使其低于听觉阈值(即人耳能听到的最低音量),人耳仍然感觉不到。音频压缩就是利用这些特性来工作的。1,等响度曲线
人类听觉的灵敏度随着频率而变化。也就是通常两个功率相同但频率不同的音调听起来不一样。通过等响度曲线可以看出,人耳对4KHz的频率最为敏感,即在4KHz可以检测到的声压级(响度)在其他频率下是检测不到的。这为一些不太敏感的频率的失真提供了条件。
2.防护的
我们高中物理的时候学过屏蔽。是强音信号掩盖了弱音信号,让我们无法察觉。而且,当两种声音在时间和频率上接近时,屏蔽作用会很强。所以我们在编码的时候可以不编码,也不传输屏蔽的部分。这样音质还是没有大的损失,人耳也不容易察觉。
3.临界频带
对于人的听觉来说,声音的感知特性不是线性频率改变的(人的听觉没有那么好),而是可以用一系列有限的频段来表示,这些频段称为临界频段。简单来说,就是把整个频段分成若干段,在每个频段内,人耳的听觉感知是一样的,也就是心理声学特性是一样的。
反正编码的本质就是算法。1、MP3(MP3 pro \ MP3环绕)
MP3应该被认为是最广泛使用的有损压缩数字音频格式。它的全称是MPEG(运动图像专家组)音频层-3。1987德国弗劳恩霍夫研究所开发的一种有损压缩数字音频格式,在1989获得专利。一开始并不完美,更像是一个编码标准框架,留给人们去完善。1992年,这项技术被纳入MPEG规范,并被正式命名为——MP3。
MP3文件由帧组成,帧是MP3文件的最小组成单位。什么是框架?还记得最初的动画是怎么制作的吗?不同的连续画面进行切换,达到动态效果,每一个画面都是一个“帧”,但不同的是MP3中的帧记录的是音频数据,而不是图形数据。MP3的帧率大概是每秒30帧。
每帧由帧头和帧数据组成,帧头记录了帧的基本信息,包括比特率指标和采样率指标(这对理解ABR和VBR编码方法非常重要)。帧数据,顾名思义,就是记录主要的音频数据。
以上都是MP3编码的基础,但实际上早期的编码器非常不完善,压缩算法近乎粗糙,音质也不理想。MP3的音质有了两个飞跃:感知模型的引入和VBR技术的应用。
PS: VBR是variableBitrate的缩写,意思是可变比率,即MP3文件压缩时,比率高时会自动降低压缩码率,码率要求低时会自动提高码率。这样做的目的是提高文件在线播放的速度,减少本地播放时占用的系统资源...这是邢开发的算法,他对一首歌的复杂部分进行高比特率编码。想法虽好,但遗憾的是邢编码器的算法很差,音质与CBR相差甚远。幸运的是,Lame完美地优化了VBR算法,使其成为MP3的最佳编码模式。这是一种在保证质量的前提下兼顾文件大小的方式,推荐编码方式。
MP3能存活至今,但它的发展并没有停止。2006 54 38+0 6月14日,法国汤姆逊和美国RCA联合推出了一种新的压缩格式:MP3PRO。MP3PRO是在MP3技术的基础上改进而来,采用了CodingTechnologies公司开发的编解码增强技术,这种技术被称为SBR(SpectralBandReplication)。制作MP3PRO文件时,编码器将音频分为两部分。一部分是分离出音频数据的低频部分,通过传统的MP3技术编码得到正常的MP3音频流。这使得MP3编码器专注于低频信号的压缩,以获得更好的质量,并使原来的MP3播放器能够播放MP3PRO文件。另一部分是对分离出的高频信号进行编码,嵌入到MP3流中。传统的MP3播放器会忽略它,但新的MP3PRO播放器会还原它并结合它,以获得高质量的全带宽声音。通过这项技术,MP3 Pro在64 kbps的编码速率下,可以提供和MP3在128Kbps下一样的音质,音质几乎一样,但体积只有MP3的一半。
PSP支持MP3PRO,也有很多格式转换软件支持MP3PRO。你可以在网上找他们。有兴趣的话可以试试。肯定比mp3好。
汤姆逊公司于2004年2月初正式宣布全球最流行的音乐压缩格式MP3进入多声道时代。MP3SURROUND由FraunhoferIIS和Agere联合开发,采用双耳CueCoding(BCC)技术进行心理声学编码,可以实现多声道环绕,同时保证文件大小。同时加入的AgereSystems主要负责推广多声道MP3格式——MP3环绕。MP3SURROUND技术实现了5.1声道环绕的高品质音频,应用范围广泛,可在网络音乐分发、广播系统、PC视听应用、游戏音频、消费电子、汽车音响等方面发挥作用。虽然集成了多个声道,但Thomson表示,MP3SURROUND文件与普通MP3(采样率相当)相比并没有太大的增加,只有其他环绕多声道音频格式的一半。更重要的是,MP3SURROUND提供了良好的兼容性,可以在现有的MP3软件和MP3播放器上正常使用。
2、AAC(*.3gp/*.mp4/*.m4a)
AAC是AdvancedAudioCoding的缩写,由Fraunhofer Institute、Dolby和AT & amp;T***由同一家公司开发。AAC是MPEG-2规范的一部分,适用于8Kbps速率的单声道电话音质到160Kbps的多声道超高质量音频范围内的编码。与MP3相比,AAC增加了一些MP3音频格式所没有的特性,如立体声的完美再现、比特流效果声音的扫描、多媒体控制、降噪优化等。,使CD的音质在音频压缩后也能完美再现。它还支持多达48个音轨,15个低频音轨,更多的采样率和比特率,多语言兼容和更高的解码效率。总之,AAC在比MP3文件小30%的前提下,可以提供更好的音质。
现在将解释这些模块中的一些:
增益控制
增益控制模块用于可变采样率配置,由多相正交滤波器PQF(polyphasequaturefilter)、增益检测器和增益调节器组成。该模块将输入信号分成四个带宽相等的频带。解码器中还有一个增益控制模块,通过忽略PQF的高频子带信号来获得低采样率输出信号。
滤波器组(滤波器组)
滤波器组是将输入信号从时域转换到频域的转换模块,是MPEG-2AAC系统的基本模块。该模块采用改进的离散余弦变换MDCT,这是一种线性正交重叠变换,并使用一种称为时域混叠消除(TDAC)的技术。MDCT使用KBD(Kaiser-Besselderived)窗口或正弦窗口,正向MDCT变换可以用下面的公式表示:
MDCT逆变换可以由下面的公式表示:
其中,
N=样本数量,
N=变换块长度,
I=块号,
以上两个离散余弦变换公式在《离散函数与数学方程》中有详细介绍,仅供有兴趣的玩家理解,无需深究。
瞬时噪声整形TNS
在感知声音编码中,TNS模块是一种控制量化噪声瞬时形状的方法,解决了掩蔽阈值与量化噪声不匹配的问题。该技术的基本思想是时域的基音信号在频域有一个瞬时峰值。TNS利用这种双重性来扩展已知的预测编码技术,将量化噪声置于实际信号之下,以避免错误匹配。
联合立体声编码
Jointstereocoding是一种空间编码技术,其目的是去除冗余的空间信息。MPEG-2AAC系统包括两种空间编码技术:中间/侧面编码和强度/耦合。M/S编码使用矩阵运算,所以M/S编码称为matrixedstereocoding。M/S编码不传输左右声道信号,而是使用归一化的“和”信号和“差”信号。前者用于中央M(中)声道,后者用于侧S(侧)声道,因此M/S编码也称为“和差编码”。声音强度/耦合编码有很多名称,其中一些称为intensitystereocoding或channelcouplingcoding。他们探讨的基本问题是渠道之间的不相关。
预测(预测)
这是语音编码系统中广泛使用的技术,主要用于减少平稳信号的冗余。
量化器(量化器)
使用了非均匀量化器。
无噪声编码(无噪声编码)
无噪编码其实就是霍夫曼编码,对量化后的频谱系数、比例因子和方向信息进行编码。
PS:我个人比较喜欢AAC,所以写的比较详细。你不妨试一试。肯定比MP3好。可以用iTunes6转换AAC(*.m4a)。iTunes6AAC的操作非常简单。可以直接把AAC(*.3gp\*.mp4\*.m4a)复制到[音乐]中播放。
可以说aac是目前最好的有损压缩方法。
最高品质的pu(肉眼)无损伤不可分辨。
3、ATRAC3/ATRAC3+(*.aa3)
早年玩过MD的朋友都知道,索尼为MD量身定制的ATRAC音频格式算法已经广泛应用于索尼的NetworkWalkman等便携式音频设备中。“ATRAC3plus”代表“自适应语音编码3+”,是一套基于心理声学原理的音频压缩技术,由ATRAC3格式发展而来,这项技术在2002年日趋完善。这项技术是将MD Walkman的体积缩小到极小的理论基础。
分析ATRAC3/ATRAC3+,首先要说说它的老大哥——ATRAC算法。压缩数字音频数据时,通常会在信号中引入一定量的量化噪声。为了防止这些信号被人耳察觉,通常的做法是音频编码将信号分解成一组单元,每个单元对应一个特定的时频范围。编码器会根据上面提到的心理声学原理进行分析,对重要单元进行高精度编码。对于不敏感单元,在不影响人耳感知质量的情况下,可以保留一些量化噪声。解码时会根据比特分配重新建立量化频谱,然后合成音频信号。
ATRAC也不例外,但是也有一些改进。ATRAC还应用了子带解码和转换解码技术,输入信号以强调重要低音区域的不均匀分频进行分配。另外,ATRAC采用可变块长来改变输入信号,在稳定通过时可以保证高效解码,在瞬间通过时不会影响时间分辨率。具体来说,将输入信号分为5.5125KHz和11.025KHz三个频段,子带的分解由QMF(QuadratureMirrorFilters Integral Mapping Filter)完成。这三个频带由MDCT(改进的软盘余弦变换)离散余弦变换索引-类似于通常的快速傅立叶变换,其在高等数学II和数学方程中介绍。)转换成频谱值,MDCT允许块之间有50%的重叠,从而可以在保持临界采样的同时提高频率分辨率。可以根据信号的种类改变块的长度,这是ATRAC的自适应部分(这主要是用掩蔽来掩蔽初始的量化噪声)。
当ATRAC算法已经发展了10年,已经不能满足市场需求,索尼在2002年8月推出了新算法——
ATRAC3/ATRAC3+.与ATRAC相比,其核心算法没有本质变化,但采用了改进的带分离滤波和MDCT,并使用增益调整、音调分量分离、联合立体声等技术,进一步降低了音频压缩数据量。
4、AAL(ATRACAdvancedLossless)
AAL是ATRACAdvancedLossless coding(自适应声学转换)的缩写,是索尼新开发的一种音频压缩格式。它的特点是无损压缩,不丢失任何音频信息,一张CD可以压缩到原来的30%-80%。
5、奥格
Ogg的全称应该是OGG·沃比斯(ogg Vorbis),这是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费的,开放的,没有专利限制。OGG Vobis有一个突出的特点,就是支持多通道。随着它的普及,以后用walkman听DTS编码的多声道作品将不是梦。
Vorbis是这个音频压缩机制的名字,而Ogg是一个项目的名字,打算设计一个完全开放的多媒体系统。
Ogg Vorbis文件的扩展名是。OGG。这个文件的设计格式很高级。创建的OGG文件可以在任何播放器上播放,因此文件格式可以在大小和声音质量方面不断改进,而不会影响旧的编码器或播放器。
与aac相比,低频略占优势,高频稍差。
最高品质的pu(肉眼)无损伤不可分辨。
最高质量,即Q10,几乎是aac使用faac编码的最高质量Q500的两倍。
编码是开源的。