有损压缩的常见格式

——MP3(MP3PRO\MP3SURROUND)、AAC(*.3gp/*.mp4/*.m4a)、ATRAC3/ATRAC3+(*.aa3)。

我们先来了解一下音频压缩的原理:利用人类听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性等。)和人耳对信号幅度、频率、时间的有限分辨能力，所有人耳感觉不到的频率都不进行编码或传输，即所有对人耳分辨声音信号的强度、音调、方位没有贡献的部分(称为无关部分或不相关部分)都不进行编码和传输。对感觉不到的部分进行编码时，允许有较大的量化失真，并使其低于听觉阈值(即人耳能听到的最低音量)，人耳仍然感觉不到。音频压缩就是利用这些特性来工作的。1，等响度曲线

人类听觉的灵敏度随着频率而变化。也就是通常两个功率相同但频率不同的音调听起来不一样。通过等响度曲线可以看出，人耳对4KHz的频率最为敏感，即在4KHz可以检测到的声压级(响度)在其他频率下是检测不到的。这为一些不太敏感的频率的失真提供了条件。

2.防护的

我们高中物理的时候学过屏蔽。是强音信号掩盖了弱音信号，让我们无法察觉。而且，当两种声音在时间和频率上接近时，屏蔽作用会很强。所以我们在编码的时候可以不编码，也不传输屏蔽的部分。这样音质还是没有大的损失，人耳也不容易察觉。

3.临界频带

对于人的听觉来说，声音的感知特性不是线性频率改变的(人的听觉没有那么好)，而是可以用一系列有限的频段来表示，这些频段称为临界频段。简单来说，就是把整个频段分成若干段，在每个频段内，人耳的听觉感知是一样的，也就是心理声学特性是一样的。

反正编码的本质就是算法。1、MP3(MP3 pro \ MP3环绕)

MP3应该被认为是最广泛使用的有损压缩数字音频格式。它的全称是MPEG(运动图像专家组)音频层-3。1987德国弗劳恩霍夫研究所开发的一种有损压缩数字音频格式，在1989获得专利。一开始并不完美，更像是一个编码标准框架，留给人们去完善。1992年，这项技术被纳入MPEG规范，并被正式命名为——MP3。

MP3文件由帧组成，帧是MP3文件的最小组成单位。什么是框架？还记得最初的动画是怎么制作的吗？不同的连续画面进行切换，达到动态效果，每一个画面都是一个“帧”，但不同的是MP3中的帧记录的是音频数据，而不是图形数据。MP3的帧率大概是每秒30帧。

每帧由帧头和帧数据组成，帧头记录了帧的基本信息，包括比特率指标和采样率指标(这对理解ABR和VBR编码方法非常重要)。帧数据，顾名思义，就是记录主要的音频数据。

以上都是MP3编码的基础，但实际上早期的编码器非常不完善，压缩算法近乎粗糙，音质也不理想。MP3的音质有了两个飞跃:感知模型的引入和VBR技术的应用。

PS: VBR是variableBitrate的缩写，意思是可变比率，即MP3文件压缩时，比率高时会自动降低压缩码率，码率要求低时会自动提高码率。这样做的目的是提高文件在线播放的速度，减少本地播放时占用的系统资源...这是邢开发的算法，他对一首歌的复杂部分进行高比特率编码。想法虽好，但遗憾的是邢编码器的算法很差，音质与CBR相差甚远。幸运的是，Lame完美地优化了VBR算法，使其成为MP3的最佳编码模式。这是一种在保证质量的前提下兼顾文件大小的方式，推荐编码方式。

MP3能存活至今，但它的发展并没有停止。2006 54 38+0 6月14日，法国汤姆逊和美国RCA联合推出了一种新的压缩格式:MP3PRO。MP3PRO是在MP3技术的基础上改进而来，采用了CodingTechnologies公司开发的编解码增强技术，这种技术被称为SBR(SpectralBandReplication)。制作MP3PRO文件时，编码器将音频分为两部分。一部分是分离出音频数据的低频部分，通过传统的MP3技术编码得到正常的MP3音频流。这使得MP3编码器专注于低频信号的压缩，以获得更好的质量，并使原来的MP3播放器能够播放MP3PRO文件。另一部分是对分离出的高频信号进行编码，嵌入到MP3流中。传统的MP3播放器会忽略它，但新的MP3PRO播放器会还原它并结合它，以获得高质量的全带宽声音。通过这项技术，MP3 Pro在64 kbps的编码速率下，可以提供和MP3在128Kbps下一样的音质，音质几乎一样，但体积只有MP3的一半。

PSP支持MP3PRO，也有很多格式转换软件支持MP3PRO。你可以在网上找他们。有兴趣的话可以试试。肯定比mp3好。

汤姆逊公司于2004年2月初正式宣布全球最流行的音乐压缩格式MP3进入多声道时代。MP3SURROUND由FraunhoferIIS和Agere联合开发，采用双耳CueCoding(BCC)技术进行心理声学编码，可以实现多声道环绕，同时保证文件大小。同时加入的AgereSystems主要负责推广多声道MP3格式——MP3环绕。MP3SURROUND技术实现了5.1声道环绕的高品质音频，应用范围广泛，可在网络音乐分发、广播系统、PC视听应用、游戏音频、消费电子、汽车音响等方面发挥作用。虽然集成了多个声道，但Thomson表示，MP3SURROUND文件与普通MP3(采样率相当)相比并没有太大的增加，只有其他环绕多声道音频格式的一半。更重要的是，MP3SURROUND提供了良好的兼容性，可以在现有的MP3软件和MP3播放器上正常使用。

2、AAC(*.3gp/*.mp4/*.m4a)

AAC是AdvancedAudioCoding的缩写，由Fraunhofer Institute、Dolby和AT & amp；T***由同一家公司开发。AAC是MPEG-2规范的一部分，适用于8Kbps速率的单声道电话音质到160Kbps的多声道超高质量音频范围内的编码。与MP3相比，AAC增加了一些MP3音频格式所没有的特性，如立体声的完美再现、比特流效果声音的扫描、多媒体控制、降噪优化等。，使CD的音质在音频压缩后也能完美再现。它还支持多达48个音轨，15个低频音轨，更多的采样率和比特率，多语言兼容和更高的解码效率。总之，AAC在比MP3文件小30%的前提下，可以提供更好的音质。

现在将解释这些模块中的一些:

增益控制

增益控制模块用于可变采样率配置，由多相正交滤波器PQF(polyphasequaturefilter)、增益检测器和增益调节器组成。该模块将输入信号分成四个带宽相等的频带。解码器中还有一个增益控制模块，通过忽略PQF的高频子带信号来获得低采样率输出信号。

滤波器组(滤波器组)

滤波器组是将输入信号从时域转换到频域的转换模块，是MPEG-2AAC系统的基本模块。该模块采用改进的离散余弦变换MDCT，这是一种线性正交重叠变换，并使用一种称为时域混叠消除(TDAC)的技术。MDCT使用KBD(Kaiser-Besselderived)窗口或正弦窗口，正向MDCT变换可以用下面的公式表示:

MDCT逆变换可以由下面的公式表示:

其中，

N=样本数量，

N=变换块长度，

I=块号，

以上两个离散余弦变换公式在《离散函数与数学方程》中有详细介绍，仅供有兴趣的玩家理解，无需深究。

瞬时噪声整形TNS

在感知声音编码中，TNS模块是一种控制量化噪声瞬时形状的方法，解决了掩蔽阈值与量化噪声不匹配的问题。该技术的基本思想是时域的基音信号在频域有一个瞬时峰值。TNS利用这种双重性来扩展已知的预测编码技术，将量化噪声置于实际信号之下，以避免错误匹配。

联合立体声编码

Jointstereocoding是一种空间编码技术，其目的是去除冗余的空间信息。MPEG-2AAC系统包括两种空间编码技术:中间/侧面编码和强度/耦合。M/S编码使用矩阵运算，所以M/S编码称为matrixedstereocoding。M/S编码不传输左右声道信号，而是使用归一化的“和”信号和“差”信号。前者用于中央M(中)声道，后者用于侧S(侧)声道，因此M/S编码也称为“和差编码”。声音强度/耦合编码有很多名称，其中一些称为intensitystereocoding或channelcouplingcoding。他们探讨的基本问题是渠道之间的不相关。

预测(预测)

这是语音编码系统中广泛使用的技术，主要用于减少平稳信号的冗余。

量化器(量化器)

使用了非均匀量化器。

无噪声编码(无噪声编码)

无噪编码其实就是霍夫曼编码，对量化后的频谱系数、比例因子和方向信息进行编码。

PS:我个人比较喜欢AAC，所以写的比较详细。你不妨试一试。肯定比MP3好。可以用iTunes6转换AAC(*.m4a)。iTunes6AAC的操作非常简单。可以直接把AAC(*.3gp\*.mp4\*.m4a)复制到[音乐]中播放。

可以说aac是目前最好的有损压缩方法。

最高品质的pu(肉眼)无损伤不可分辨。

3、ATRAC3/ATRAC3+(*.aa3)

早年玩过MD的朋友都知道，索尼为MD量身定制的ATRAC音频格式算法已经广泛应用于索尼的NetworkWalkman等便携式音频设备中。“ATRAC3plus”代表“自适应语音编码3+”，是一套基于心理声学原理的音频压缩技术，由ATRAC3格式发展而来，这项技术在2002年日趋完善。这项技术是将MD Walkman的体积缩小到极小的理论基础。

分析ATRAC3/ATRAC3+，首先要说说它的老大哥——ATRAC算法。压缩数字音频数据时，通常会在信号中引入一定量的量化噪声。为了防止这些信号被人耳察觉，通常的做法是音频编码将信号分解成一组单元，每个单元对应一个特定的时频范围。编码器会根据上面提到的心理声学原理进行分析，对重要单元进行高精度编码。对于不敏感单元，在不影响人耳感知质量的情况下，可以保留一些量化噪声。解码时会根据比特分配重新建立量化频谱，然后合成音频信号。

ATRAC也不例外，但是也有一些改进。ATRAC还应用了子带解码和转换解码技术，输入信号以强调重要低音区域的不均匀分频进行分配。另外，ATRAC采用可变块长来改变输入信号，在稳定通过时可以保证高效解码，在瞬间通过时不会影响时间分辨率。具体来说，将输入信号分为5.5125KHz和11.025KHz三个频段，子带的分解由QMF(QuadratureMirrorFilters Integral Mapping Filter)完成。这三个频带由MDCT(改进的软盘余弦变换)离散余弦变换索引-类似于通常的快速傅立叶变换，其在高等数学II和数学方程中介绍。)转换成频谱值，MDCT允许块之间有50%的重叠，从而可以在保持临界采样的同时提高频率分辨率。可以根据信号的种类改变块的长度，这是ATRAC的自适应部分(这主要是用掩蔽来掩蔽初始的量化噪声)。

当ATRAC算法已经发展了10年，已经不能满足市场需求，索尼在2002年8月推出了新算法——

ATRAC3/ATRAC3+.与ATRAC相比，其核心算法没有本质变化，但采用了改进的带分离滤波和MDCT，并使用增益调整、音调分量分离、联合立体声等技术，进一步降低了音频压缩数据量。

4、AAL(ATRACAdvancedLossless)

AAL是ATRACAdvancedLossless coding(自适应声学转换)的缩写，是索尼新开发的一种音频压缩格式。它的特点是无损压缩，不丢失任何音频信息，一张CD可以压缩到原来的30%-80%。

5、奥格

Ogg的全称应该是OGG·沃比斯(ogg Vorbis)，这是一种新的音频压缩格式，类似于MP3等现有的音乐格式。但有一点不同的是，它是完全免费的，开放的，没有专利限制。OGG Vobis有一个突出的特点，就是支持多通道。随着它的普及，以后用walkman听DTS编码的多声道作品将不是梦。

Vorbis是这个音频压缩机制的名字，而Ogg是一个项目的名字，打算设计一个完全开放的多媒体系统。

Ogg Vorbis文件的扩展名是。OGG。这个文件的设计格式很高级。创建的OGG文件可以在任何播放器上播放，因此文件格式可以在大小和声音质量方面不断改进，而不会影响旧的编码器或播放器。

与aac相比，低频略占优势，高频稍差。

最高品质的pu(肉眼)无损伤不可分辨。

最高质量，即Q10，几乎是aac使用faac编码的最高质量Q500的两倍。

编码是开源的。