一个音频文件的“频率”、“码率”、“比特”是什么意思?
龙天使
说起mp3,恐怕没人会说没听过。即使你不是mp3用户,你也会对互联网上无处不在的广告、宣传活动、朋友间的讨论和丰富的资源印象深刻。对于时尚的年轻人,尤其是喜欢音乐和数码设备的朋友来说,mp3大概是每天都要背的一个词,但是mp3是什么,mp3的音质如何确定,好坏如何,如何听高质量的mp3?我觉得下面这篇文章可以帮你解决很多问题。
看看现在的mp3用户,公认的通用制作标准是eac ripping +lame compression,我也是用这个搭配。在这个制作过程中,有经验的朋友会摸索出一些窍门,针对不同的音乐使用不同的参数设置和压缩比,从标准的128kbps到最大320kbps不等。但是,这些码率之间的效果差距和差别有多大,最合适的压缩比是多少,cbr和vbr应该选择哪一个等等。这些问题都是大家经常讨论的。为了搞清楚这些细节,我特意针对性地做了一个实验。我跟大家分享一下我的一些感受吧。
我很喜欢听古典音乐,所以本次测试选择了巴赫的《格伦登伯格协奏曲》第一首曲目,由慕尼黑巴赫乐团演奏,软件eac,压缩软件cd'ex,回放软件fooba2000 v0.8,测听耳机为舒尔的er6和E3。因为古典音乐细节多,乐队大,对音质各方面要求更高,所以能很明显的体现出不同处理方式在细节上的差异。
(后面会提供频谱对比图)
我先用rac抓取了曲目,然后在cd'ex软件中用lame MP3编码器(Vision 1.92 Engine 3.92)引擎处理了wav文件。我用蹩脚的参数一个接一个地试验,选择一个好的效果:
第一个参数,线程优先级,分别被选为最高和最低。在其他参数相同的情况下,压缩对比表明线程优先级的高低对声音没有影响,生成的文件大小都一样,对比起来声音也一样,所以这个参数对音质没有影响。
第二个参数是版本,有mpegI,mpegII,mpegII。可以选择的v。类似地,确定所有其他参数,并且它们分别被压缩三次。通过对比,虽然三种方式的文件大小相同,但mpegI的实际听感更好,中低频压缩比略小,但高频失真略多,更适合听人声和流行音乐。听古典mpegI型的也不错,音底更好。但如果是小提琴等高频率的独奏音乐,可以推荐使用mpegII.v型,效果会更好。
第三个参数最重要,就是码率。选择它直接影响你的mp3文件大小和听感。高压缩比失真大,低压缩比失真小。但是怎样才能找到一个双方都能接受的平衡点呢?这需要在实验中仔细探索。考虑到低码率的文件音质不适合播放音乐,最低为128kbps,使用128、192、256、320***,四个固定码率的文件进行对比测试。
128kbps的压缩比还是比较粗糙的,高频部分压缩后失真非常明显,听起来空洞、干瘪、刺耳,经常有闪烁的声音。乐器的质感很差,有些乐器变味了,甚至可能是听错了。一段3: 39的音乐压缩后的音量是3414kb,不算大,但是声音不尽如人意,有很大的缺陷。
相比192kbps,128的压缩效果要好很多。首先声音扎实,至少没有空洞感,高频失真小很多。声音紧凑,噪音小而干净,达到了比较理想的听音效果。但是由于压缩的比较厉害,细节的表现还是不太好,乐器尤其是管乐器的质感还是很硬,不真实,缺少音乐感。压缩后的大小是5123kb。我觉得这个压缩比对于128 ~ 256m容量的mp3播放器比较好,能满足基本的听感,大小合适。128m可以存储95分钟左右的音乐,256 m可以翻倍到190分钟的音乐。
相比192,256kbps的压缩率在音质上自然更高。比如音乐的前10秒,大提琴部分低频中明显的颗粒感小了很多,声音更加流畅自然,质感和纹理更加清晰,细节多了很多,气氛更加突出,后面音乐中的声音旋转也更有表现力。大信号和小信号的清晰度也有所提升,声音更加细腻好听,但同时文件大小也突然增大到了6831kb,对于一个256m的mp3播放器来说还是可以承受的。通过计算不难知道,音乐按照256的码率可以存储135分钟左右,一般是够用的,128m。
320kbps是lame能提供的最大比特率。最终生成的文件是8592kb,相对于wav文件的37M大约8.4M,压缩比基本是4.5: 1,但是生成的mp3文件听起来很失真。相比其他码率,320的天然优势明显,音色、细节等都非常细腻,基本达到原版拷贝cd的音质。尤其是在一个带mp3播放功能的cd播放器上,听起来基本一样,但是我用的是高分辨率的高档耳塞。加上我在音乐和设备方面的经验和能力,还是听出了很多和wav文件相比的差异。首先;压缩的mp3听起来有点干瘪,整体是干瘪的。没有wav文件,听起来活泼动感,尾音细节、泛音、空间感没有wav文件质量高,但音色相当接近,但表现力差,数字味强。所以,如果你用的是ipod之类的微型硬盘播放器,我还是推荐你用320kbps的压缩比,这样才能获得最佳的听感。当然直接听wav最好~ ~不压缩,不损失。可惜没有支持ape无损压缩的随身听,不然可以从多种选项中选择。
上面我们提到的是固定比特率的压缩比。在lame中,这被称为CBR(即不变比特率)。其实lame最大的特点就是为用户提供了可变比特率VBR的压缩方式。这种方法会在一些停顿和简单信号处自动降低比特率,减小文件大小,是一种非常好的编码方法。但是如何选择VBR的最低和最高比特率范围来获得最合适的文件和声音质量呢?这又是一个需要实验解决的问题。同样,考虑128kbps作为基本值,我们选择96kbps到160kbps作为压缩的范围。压缩后的文件大小为3801kb,只比128kbps的CBR多了387kb,但是声音绝对提升了一个大的级别。首先高频失真至少小一半。虽然细节上有很多噪点,但是第一听觉比128kbps强很多,压缩后的平均码率是147kbps,也很节省空间。随后,从96kbps到192kbps、96kbps到224kbps、96kbps到256kbps和96kbps到320kbps进行了实验,发现它们与最大cbr压缩音质非常相似,即从96kbps到192kbps的vbr声音与CBR的声音相似。但前者是4481kb,后者是5123kb大小,所以vbr作为追求高音质和节省空间的折中方法真的很有用。当然,另一方面,因为码率变化,稳定性自然比cbr差一点。
第四,在模式参数中有立体声、J-立体声、强制立体声和单声道。通过对比测试,得出标准音响效果最好的结论。虽然压缩文件大小最大,但是考虑到文件大小差异小,音质差异和听感,立体声还是比较理想的。
第五,压缩方法,软件里有vbr-old,vbr-new等两个,但是只有前两个好用。对比新旧vbr编码方式,发现旧的在音质上更细腻,但是旧的压缩速度很慢,几乎是新的5、6倍,制作一首歌大概需要3、4分钟,非常难用,文件大小也很大。
Mp3吧不是凭空造出来的词,而是一个技术术语的缩写,也就是MPEG-1 AudioLayer-3的缩写拼写。这是什么意思?我给你解释一下:MPEG-1 AudioLayer-3是MPEG-1国际标准技术协议中音频部分的第三层协议,描述了一种音频格式。看起来复杂吗?一点一点的说也没关系。首先,MPEG-这个词是Moving Picture Exp-erts Group的缩写,意思是运动图像压缩处理组。这个团体相当强大,专门从事动态和静态视频(包括音频)几乎所有国际技术标准的研发。我们用他们的研究成果从电视到电影,从vcd到dvd。mp3是他们mpeg1协议的一部分,音频部分在第三层,所以叫mp3。据我所知,mp3的诞生是mpeg集团的工作人员在不知不觉中发现的。它是作为一种捕捉cd曲目的方式而产生的,在当时的实验中最多是一个附属产品,但是这个小小的附属产品却演变成了我们今天最流行的音乐格式,这是为什么呢?我们去看看吧。
首先是尺寸小:根据不同的压缩比可以得到不同大小的文件大小,但是相对于原来的wav格式,尺寸要小很多,文件大小小,存储空间小,播放用的硬件设备尺寸和成本都会明显下降,所以有很好的市场。另外,mp3文件到处下载,比起cd机用户要不停的买软件,自然省了一笔。第三,如你所愿,小型播放器可以方便携带,我可以随心所欲地使用它。而且由于播放器的电路部分功耗比较低,单块电池工作时间长,省去了很多更换电池的麻烦。此外,用户可以随意一起听自己喜欢的歌曲,而不会受制于音像发行商的成型软件,这让我想起了周杰伦在动感地带打出的一句广告语“我的地盘,我”。真的很酷~~~!!
说了这么一堆相关的话,想必大家都很焦虑吧。下面就深入主体,为大家透彻分析mp3的方方面面。
一、基础知识:
数字压缩音频和mp3技术;
要说mp3,我得先说数字压缩音频。嗯,数字压缩音频顾名思义就是压缩数字音频,但是什么是数字音频呢?什么是压缩?下面是一些专业的解释,感兴趣的朋友要仔细阅读~!
在计算机的数字世界里,声音都是以数字编码的方式存储的,不同于传统生活中的模拟音频。因为计算机只能记录0和1的数字,所以模拟音频必须进行定量采样。根据奈奎斯特采样定理,以正弦波的两倍频率采样,可以完整真实地还原波形,所以数字录波的采样频率与其最高还原频率指数直接相关。例如,如果采样频率为44.1KHZ,则可以恢复最高频率22.05KHZ该值略高于人耳的听觉极限,因此通常使用44.1KHZ以上的采样频率进行a/d转换,但声学数据的文件大小取决于采样频率(一般以HZ为单位)和采样比(一般以bit为单位),采样频率越高,所需的存储空间越大,采样比越高,所需的存储空间越大,这
数字压缩是指对经过采样的原始数字音频文件进行“瘦身”,利用一些有效的算法和方法,将文件中的冗余信息取出,可以减小大小,方便使用。具体操作太复杂太专业了(连我这个计算数学的学生都看硬了),就不一一给你解释了。下面简单介绍一下压缩中涉及到的MP3压缩编码技术:MP3压缩编码使用了五项重要的技术:最小听觉阈值、掩蔽效应、字节库、JointStereo和huffman编码。依靠这些技术计算机的计算,我们可以大大降低数字音频的文件大小,压缩后产生的新的音频格式就是大家熟悉的mp3。
二、压缩原理:
无论什么技术,都一定有它的道理,尤其是音频技术,因为它直接关系到我们的听觉。为什么压缩后的mp3听起来很接近cd的声音?这和人的生理结构有很大的关系。实验表明,人类能听到的频率范围(音频)为20 Hz ~ 2~5kHz,但人耳对整个音频频段的响应并不平直,2~5kHz是人耳最敏感的频段。根据其特性将整个音频频段分为若干个临界频段,因为人类的听觉系统是根据频率来区分声音能量的,任何频率的小声音都会因为掩蔽效应而被临界频段内音量较高的声音所覆盖。MP3不对其进行量化,以去除那些人类听觉系统无法察觉的声音,达到压缩的目的。可以看出,MP3是一种有损音频压缩编码。所以mp3无论多高的码率,都是有损压缩,音质比cd低,但是降多少可以接受,因人而异。
三、压缩后的音质:
这是大家最关心的话题。压缩后的声音能达到什么样的标准?这里有一个图表向你展示mpeg标准中的参考值。
可以看到由于压缩比的不同,得到的声音文件质量在逐渐提升,cd的音质基本达到128kbps,是这样吗?我的回答是:当然不是,只是官方参考数据表。实际使用中,128的码率根本无法表现cd的音质。虽然mp3压缩过程中使用的软件算法会有所不同,但压缩比是限制其性能的最根本因素。
Lame不是市面上唯一的压缩软件,mp3也不是唯一的音频压缩格式。其他公司也开发了很多有用的压缩格式,但是由于各种原因没有像mp3一样普及。但是,作为压缩音频家族的一员,我想在这里把它们介绍给你,让你了解更多。
1、猿:
猿格式:猴子“”音频(www。monkeysaudio.com)。简单来说,ape是音频的无损压缩格式,只有wav文件的一半大小,但音质丝毫没有降低。可以最大程度的还原CD的音质,当然这取决于音轨的好坏。如果抓轨质量好,ape的音质会和CD差不多,这是mp3等有损压缩无法做到的。当然无损的代价是体积的增加,1CD从200mb到400不等。因此,如果有足够的带宽,ape将为网民交换CD带来更多便利,满足众多古典音乐爱好者传输高质量CD的需求。一张80分钟的音乐CD大概有700M大小,这么大的尺寸传输显然非常不方便。这时候有了Monkey " " Audio——你就可以把WAV文件压缩成一半大小(甚至更小)的APE文档,在理想状态下,当你把APE解压成WAV,音质一点也不损失。
优点:压缩比高;音质完好无损;加载插件后,直接用Winamp播放,音质比Mp3或Mp3 Pro任何参数都要好。
缺点:压缩解压时间过长。
2、MP3 Pro
为了减少失真,出现了一种新的MP3格式,MP3 Pro。它将整个音频频带分成两个通道,中低频通道和高频通道。传统的MP3编码器负责中低频通道,而另一种使用SBR技术(频谱带复制/频带复制)的解码器负责高频通道。最后在MP3 Pro播放软件中同时播放两个声道,使MP3的音质明显高于相同码率的音质。不仅高频细节丰富,而且颤抖现象不易察觉,非常接近WAV原图文件。
MP3 Pro采用的SBR技术并不是直接对音乐中的高频进行分离编码那么简单,而是基于对原编码器传输的低频信号进行分析,从而重构出高频信号。
3、真实音频
Real Audio,extension RA:这种格式真的是网络的灵魂,强大的压缩和极小的失真让它在众多格式中脱颖而出。和MP3一样,也是为了解决网络传输带宽资源,所以主要目标是压缩比和容错,其次才是音质。所以我们一般都是用这种中文格式在网上遇到新的音乐试听。
3、WMA
WMA是由微软开发的Windows Media Audio编码的文件格式。WMA针对的不是单机市场,而是网络!竞争对手是在线媒体市场上著名的Real Networks。微软声称,WMA可以在仅64kbps的比特率下实现接近CD的音质。与之前的编码不同,WMA支持防拷贝功能。它支持通过Windows Media Rights Manager添加保护,可以限制播放时间和次数,甚至是播放机器等等。WMA支持流媒体技术,即一边阅读一边播放,因此WMA可以轻松实现在线播放。因为它是微软的杰作,所以微软在Windows中增加了对WMA的支持。WMA具有优秀的技术特性,在微软的大力推动下,这种格式已经被越来越多的人所接受。相对于ra,版权大概是用户最讨厌的。
4、ACC:
AAC(高级音频编码)是杜比实验室为音乐社区提供的一项技术。AAC声称“它可以容纳多达48声道的音轨,采样率为96 KHz,可以提供5.1声道的音乐节目,质量相当于ITU-R广播,数据速率为320Kbps”。与MP3相比,音质更好,可以节省30%左右的存储空间和带宽。它是根据MPEG-2的规范开发的技术。松下的mp3产品都采用这种编码方式,当然兼容mp3格式。我自己用的时候发现aac是一种非常好用的音频格式。128kbps的aac足以和224kbps的mp3抗衡,但空间几乎小了一半。但是aac和mp3编码的风格在空间和结构上不太一样。我喜不喜欢是见仁见智的问题。
5、ATRAC 3/ATRAC 3 plus:
日本索尼公司开发的ATRAC 3(Adaptive Transform acoustic Coding 3)是MD采用的ATRAC的升级版,压缩比(约为ATRAC的两倍)和音质与MP3相当。压缩原理包括同时掩蔽、老化掩蔽和等响度曲线,和MP3差不多。ATRAC3的版权保护功能使用了OpenMG。目前对应ATRAC3的便携播放器主要是索尼自己的产品。然而,2000年2月,该公司与富士通、日立、NEC、罗门、三洋和TI等半导体制造商签署了专利许可协议,为ATRAC3制造和销售LSI。相比于mdlp压缩中的mp3,ATRAC3还是有一些声音优势的,但是版权问题使得使用起来不太方便。ATRAC 3 plus因为算法先进,音质得到了进一步的提升,但只在索尼产品中广泛使用,让人郁闷。
6、VQF:
所谓的VQF指的是Twinvq(变换域加权插值矢量量化),这是日本NTT(Nippon Telegraph and Telephone)集团旗下的NTT人机界面实验室开发的一种音频压缩技术。这项技术得到了著名的雅马哈公司的支持。VQF是其档案的延伸。它和MP3的相似之处在于使用失真算法对声音进行压缩,但与MP3压缩技术有本质区别:VQF的目的是压缩音乐而不是声音,所以VQF采用了一种叫做“矢量量化”的压缩技术。该技术首先对音频数据进行矢量化,然后对音频波形中相似的波形部分进行统一平滑,对人耳的敏感部分进行增强。最后,对处理后的矢量数据进行量化和压缩。感觉vqf在低码率下好用很多,比同等音质的mp3小30%左右,但是高码率就没那么好用了,所以用的人很少。