GINDOKI SUGITA: 各种音频格式的介绍及最基本常识 (转贴)

CD:
　　一般来说大家能听到最好的音频格式就是CD了，CD是无损的格式，所以能最大限度的还原声音，而且CD的解码比起其他格式，如MP3等要容易，但同时CD的体积也很大，标准CD格式也就是44.1K的采样频率，速率 1411KB/S，16位量化位数，其实CD是以音轨的形式存在的，在电脑上识别为＊.cda的样子，这个cda文件只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“＊.cda文件”都是44字节长。所以直接复制这个文件到硬盘上是没有用的，如果想复制的话我们只有用软件把它转换成其他的格式。
　　CD的优点就是能提供无损的音质，CD唱片随处都能很方便的买到，缺点就是不能直接复制，就算直接复制体积也惊人。
WAV：（WAVE）
　　微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange FileFormat文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。其应用范围很广，“*.WAV”格式支持MSADPCM、CCITTALAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，声音文件质量和CD 相差无几，所以把CD转换成WAV是损失最小的选择，但是这种设置下的WAV文件体积也是大得惊人，和CD一样大，但是我们在转换的时候也可以选择不同比特率和采样率这样转出来的文件体积和音质都不同，根据需要选择，这样更实用，WAV格式是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都 “认识”WAV格式。
MP3：
　　MP3的全称是MPEG(MPEG：Moving Picture Experts Group) Audio Layer-3，1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。MP3是一种有损的压缩方式，早期的MP3编码采用的的是固定编码率的方式（CBR ），我们常看到的128KB/S，就代表每秒的数据流量有128KBIT，而且是固定的，这个称之为比特率，比特率本身是可以改变的，最高可以到 320KBPS，当然比特率越高音质越好，但是文件的体积会相应增大。
　　因为MP3的编码方式是开放的，你可以在这个标准框架的基础上自己选择不同的声学原理进行压缩处理，所以，很快由Xing公司推出可变编码率的压缩方式（VBR）。它的原理就是利用将一首歌的复杂部分用高 bitrate 编码，简单部分用低 bitrate 编码，通过这种方式，进一步取得质量和体积的统一。当然，早期的Xing 编码器的 VBR 算法很差，音质与 CBR （固定码率）相去甚远。但是，这种算法指明了一种方向，其他开发者纷纷推出自己的VBR算法，使得效果一直在改进。目前公认比较好的首推 LAME，它完美地实现了 VBR 算法，而且它是是完全免费的软件，并且由爱好者组成的开发团队一直在不断的发展完善。
　　而在VBR 的基础上，LAME更加发展出ABR算法。ABR（Average Bitrate）平均比特率，是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。
WMA：
　　WMA是Windows Media Audio的缩写，是微软力推的数字音乐格式。微软官方宣布的资料中称WMA格式的可保护性极强，甚至可以限定播放机器、播放时间及播放次数，具有相当的版权保护能力。
　　应该说，WMA的推出，就是针对MP3没有版权限制的缺点而来——普通用户可能很欢迎这种格式，但作为版权拥有者的唱片公司来说，它们更喜欢难以复制拷贝的音乐压缩技术，而微软的WMA则照顾到了这些唱片公司的需求，可以预见，唱片业可能将全力支持WMA标准。
　　除了版权保护外，WMA还在压缩比上进行了深化，它的目标是在相同音质条件下文件体积可以变的更小（当然，只在MP3低于192KBPS码率的情况下有效，实际上当采用LAME算法压缩MP3格式时，高于192KBPS时普遍的反映是MP3的音质要好于WMA）。
MP3 VS WMA
　　应该说这两种音频格式是我们现在用得最多的格式了，现在的MP3播放器基本都兼容了WMA的播放，下面比较一下两者的优缺点：
MP3的优点就是到处都可以下到，是使用得最多的格式了，还有高比特率下的MP3音质比WMA更好，MP3VBR也是种音质和体积比很高的格式，值得推荐。。。
　　WMA 的优点就是在低比特率下的表现比MP3好很多，象MP3在44100HZ的采样率（一般都是这么高），立体声的情况下，我个人的能容忍的最低限度就是 128KB/S了，再低的话就会出现声音模糊的情况了，很糟糕。。。而WMA在64KB/S的情况下仍然有同等MP3 128KB/S的表现，在这种情况下就比MP3节省了一半的空间，是对音质要求不高，存储空间不大的的朋友的首选。
AAC：
　　AAC （Advanced Audio Coding）实际上是高级音频编码的缩写。AAC是由Fraunhofer IIS-A、杜比和AT&T共同开发的一种音频格式，它是MPEG-2规范的一部分。AAC所采用的运算法则与MP3的运算法则有所不同，AAC 通过结合其他的功能来提高编码效率。AAC的音频算法在压缩能力上远远超过了以前的一些压缩算法（比如MP3等）。它还同时支持多达48个音轨、15个低频音轨、更多种采样率和比特率、多种语言的兼容能力、更高的解码效率。
　　AAC的优点和WMA差不多，在低比特率下音质很好，在96-160KB/S的比特率下，AAC基本上是首选，现在某些随身听也支持AAC的播放，比如NGAGE（不是QD）和苹果IPOD，本人用的就是NGAGE，播放AAC的效果非常不错，所以我对AAC也特别喜欢。。。
ATRAC/ATRAC3/atrac3plus:
　　ATRAC 是一种数字音频压缩算法，其全称是Adaptive Transform Acoustic Coding——自适应声学编码，它主要是基于声学心理学原理，积极的利用人耳听觉的特性，将信号中人耳感觉不到的不进行编码和传送，从而实现减少数据传输率的目的。ATRAC把每512个原始信号采样数据压缩成212字节的声组，压缩后的位速率＝44.1* （samples/s）/512（samples/soundgroup）*2channels*212（bytes/soundgroup）*8 （bits/byte）＝292.1625kbps。
　　2000年，Sony发布的MDLP技术以及用来支持该技术的ATRAC3算法，与前一代压缩算法相比，ATRAC3可以在品质基本不变的情况下提供ATRAC两倍压缩率，并保持良好的向上兼容性。ATRAC3不仅兼容以前的SP 立体声和MONO单声道模式，更增添了LP2、LP4两种立体声长时间放音模式。在一张普通的80分钟的MD碟片上，应用ATRAC3-LP2和 ATRAC3-LP4格式，可使录音/放音时间达到160和320分钟。播放时的文件传输位速率也由ATRAC的292kbps降至而132kbps （ATRAC3-LP2）和66kbps（ATRAC3-LP4）。LP2和LP4的位速率并不是简单的在ATRAC的292Kbps基础上的146 （292/2）Kbps和73（292/4）Kbps。因为不支持MDLP的MD机不能播放LP2和LP4音轨，为防止产生不必要的噪音，每录制212字节的LP数据，就会随后生成20字节ATRAC下的静音数据。无MDLP机能的机器播放LP音轨，会认为是用MONO录音的，并播放一段时间静音信号。
　　MD播放ATRAC格式音质如此优秀的原因除了格式本身以外还和MD出色的解码能力有关，即使现在SONY出了很多支持很多支持ATRAC的MP3其音质也不一定就有MD好。。。
APE:
　　APE 是目前流行的数字音乐文件格式之一。与MP3这类有损压缩方式不同，APE是一种无损压缩技术，也就是说当你将从音频CD上读取的音频数据文件压缩成 APE格式后，你还可以再将APE格式的文件还原，而还原后的音频文件与压缩前的一模一样，没有任何损失。APE的文件大小大概为CD的一半，但是随着宽带的普及，APE格式受到了许多音乐爱好者的喜爱，特别是对于希望通过网络传输音频CD的朋友来说，APE可以帮助他们节约大量的资源。
　　一般的发烧友几乎只收藏APE，虽说APE的体积比CD要小很多，但是比起MP3等格式的体积还是要大很多的，而且没有好的音响设备和好的音乐是体会不到APE的魅力的，一般对音质要求不高的朋友可能就用不到了。
FLAC：
　　FLAC 代表 Free Lossless Audio Codec - 免费的无损音频压缩，简而言之，FLAC与MP3相仿，但是是无损压缩的，也就是说音频以FLAC方式压缩不会丢失任何信息。这种压缩与Zip的方式类似，但是FLAC将给你更大的压缩比率，因为FLAC是专门针对音频的特点设计的压缩方式，并且你可以使用播放器播放FLAC压缩的文件，就象通常播放你的MP3文件一样。
FLAC VS APE：
　　FLAC和APE很相似，它们都是无损的，也就是说它们在音质上的表现是一样的，但是却又有着各自不同的特点，其中最大的区别就是FLAC是完全开放式的免费格式，而APE却是未开放的格式，这使得FLAC发展速度远远大于APE，而且FLAC支持硬件播放，使得推出便携式的FLAC播放器成为可能，而 APE只能在WINDOWS下用软件播放，从这点看，FLAC有着绝对的优势，现在APE有的有事也仅仅是在压缩比比FLAC略高（2%左右）这点上，但是随着FLAC编码的不断完善，APE的这个优势也会消失吧，现在在国内还是APE独大的趋势，但是在国外，FLAC正越来越多的被使用，相信国内不久后也会这样吧。。。
VQF：
　　VQF又叫TwinVQ全称 Transform-domain Weighted Interleave Vector Quantization，是雅马哈公司的一种格式，它的核心是减少数据流量但保持音质的方法来达到更高的压缩比，可以说技术上也是很先进的，但是由于宣传不力，这种格式难有用武之地。＊.vqf可以用雅马哈的播放器播放。同时雅马哈也提供从＊.wav文件转换到＊.vqf文件的软件。
　　我几乎没有用过VQF，用了也不记得了，所以说这个格式还是比较失败的，当时这个格式出现的时候，计算机还没有我们现在用的这么发达，所以解码时就要考虑到CPU使用率的问题，VQF虽然可以提供比MP3更高的压缩比，但是同时也需要更多的资源来解码，这个也是制约它发展的一个重要因素吧。。。
OGG:
　　Ogg源于一个计划，它代表的是开发一种有损的音频压缩技术的计划，而Ogg Vorbis才是这种音频压缩机制的真正代称，它只是Ogg计划的一部分，该计划意图设计一个完全开放源码的多媒体系统。著名的Xiph基金和 Icecast集团是Ogg计划的主要赞助者。Ogg Vorbis格式的开发者是Xiph基金会，这是一个资助开放源代码开发活动的非盈利性组织，所以Ogg是一种免费的开发性的格式。
　　Ogg Vorbis中的主要算法还是利用MDCT（修饰离散余弦变换Modified Discrete Cosine Transform ）而不是用现在比较时兴的小波（wavelet）技术。Ogg的多通道编码技术，统称为立体声通道耦合Stereo Channel Coupling。而该技术实际又是由两种不同的技术组成的：channel interleaving 和 square polar mapping，而这也是Ogg能成为免费制式的一个必要条件，以往的“联合立体声Joint Stereo”的编码模式是有***限制的。据官方声称，与其他会造成立体空间感减弱的编码模型相比，这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间影像，而且实现的复杂程度比联合立体声方式要低。
优点：
　　1.它的最大特点是使用了向前适应算法结构（forward adaptive algorithm format）。在文件格式已经固定下来后还能对音质进行明显的调节和新算法。现在创建的OGG文件可以在未来的任何播放器上播放，因此，这种文件格式可以不断地进行大小和音质的改良，而不影响旧有的编码器或播放器。――能够不断升级，有点类似于现在的固件升级的概念，相信在技术的不断晚上以后，也能带来音质上的提升，这也是我对Ogg的一个最大的期待。
　　2.它的编码十分优秀，相对其他格式音质上有提升，特别在低比特率下有很好的表现力。这将是吸引很多人选择它的原因，因为相对无疑提高了播放器的容量。
　　3. Ogg Vorbis格式是完全免费、开放源码且没有***限制的。看看我们使用得最多的mp3吧，正式的mp3的播放器生产商每年都要向德国 Fraunhofer Institution及Thomson Multimeda 一笔可观的使用权利金。羊毛都是出在羊身上的，使用了免费的格式无疑节省了消费者的支出。
　　目前OGG还处于起步阶段，使用的范围远远不能和MP3相提并论，但是其本身的优秀性是毋庸置疑的，随着多声道音乐的不短发展，OGG的优越性必将被人们肯定，相信OGG广泛被使用只是时间问题。。。

CD：索尼和飞利浦公司联手研制的一种数字音乐光盘，有12cm直径和8cm直径两种规格，以前者最为常见，它能提供74分钟的高质量音乐。

MD：索尼公司研制的迷你可录音乐光盘，外型象电脑用3.5英寸软盘，但采用光学信号拾取系统，类似CD。MD使用高效的压缩技术来达到与CD相同的记录时间，音质则接近CD。

ATRAC：MD的一种压缩技术，它是根据心里声学原理，把人耳所不能分辨的声音信号的强度、方位、音调、音色舍去，从而在一张容量不大的MD空白碟片上存储高品质的音乐。从概念上说，这种压缩方式比MP3更科学。

DVD-Audio：是由DVD Forum Audio Working Group（WG-4）与International Steering Committee（ISC；为一日、美、欧之Recording Association）共同制订的规格，也是DVD家族中重要的一环。相较于DVD-Video压缩过的16位元、48kHz取样频率的音乐，DVD- Audio的六声道更清脆，可达到24位元、96kHz的取样音乐的潜力，甚至听力不大好的人也可区分出二者的差别，但是这两种格式都远远超越了CD平板式、16位元、44.1kHz的声音。由于DVD-Audio所支援的格式显然比DVD-Video和CD的PCM（Pulse Coded Modulation，脉冲码调变）音乐有更高的品质，因此它可以表现更丰富的3D环场音效，其动态频率的范围比CD还要大四倍。

SACD：Super Audio CD的缩写，是索尼和飞利浦在它们联合开发的MMCD（单面双层结构的高密度光碟）基础上研制推出的新数字音频格式。SACD采用了名为DSD （Direct Stream Digital,直接数字流编码）的新编码方式，信息储存量为普通CD的6倍。SACD以高达2.8224MHz的采样频率（为CD44.1Khz的6 倍）把原始的模拟音频信号量化为1bit的数字音频信号，当还原为模拟音频信号重播时，所还原的波型与原先音乐的模拟波型几乎毫无二致，比CD （44.1KHz/16bit）或DVD Audio（96KHz/24bit）的波型更为完整。因此其声音的清晰度和信噪比都很高，在20-20KHz频率范围内的动态范围达120dB。 SACD容量与DVD-Audio相同，均为4.7GB。

比特流：飞利浦公司的一种将CD数码信号转换成模拟音乐信号的技术。

比特率：是另一种数字音乐压缩效率的参考性指标，表示记录音频数据每秒钟所需要的平均比特值（比特是电脑中最小的数据单位，指一个0或者1的数），通常我们使用 Kbps(通俗地讲就是每秒钟1000比特)作为单位。CD中的数字音乐比特率为1411.2Kbps（也就是记录1秒钟的CD音乐，需要1411.2× 1024比特的数据），近乎于CD音质的MP3数字音乐需要的比特率大约是112Kbps～128Kbps。

编码：通过压缩文件将其转换成另一格式文件。

解码：通过解压缩文件将其转换成另一格式文件。

采样率：把模拟音频转成数字音频的过程,就称作采样，简单地说就是通过波形采样的方法记录1秒钟长度的声音，需要多少个数据。44KHz采样率的声音就是要花费44000个数据来描述1秒钟的声音波形。原则上采样率越高，声音的质量越好。

杜比环绕声(Dolby Surround)：一种将后方效果声道编码至立体声信道中的声音。重放时需要一台解码器将环绕声信号从编码的声音中分离出来。

量化级：简单地说就是描述声音波形的数据是多少位的二进制数据，通常用bit做单位，如16bit、24bit。16bit量化级记录声音的数据是用16位的二进制数，因此，量化级也是数字声音质量的重要指标。我们形容数字声音的质量，通常就描述为24bit（量化级）、48KHz采样，比如标准CD音乐的质量就是16bit、44.1KHz采样。

压缩率：通常指音乐文件压缩前和压缩后大小的比值，用来简单描述数字声音的压缩效率。