夏陽(yáng)
(浙江師范大學(xué),浙江金華 321004)
音頻壓縮質(zhì)量對(duì)聽(tīng)覺(jué)感知影響的研究
夏陽(yáng)
(浙江師范大學(xué),浙江金華 321004)
為了能更好地解決數(shù)字音頻信號(hào)相關(guān)存儲(chǔ)與傳輸問(wèn)題,數(shù)據(jù)壓縮逐漸成為當(dāng)代數(shù)字音頻處理中一個(gè)重要的研究方向。人耳的聽(tīng)覺(jué)對(duì)不同壓縮比的音頻質(zhì)量有著顯著的感知差異,通過(guò)不同的實(shí)驗(yàn)法組合發(fā)現(xiàn),被試不能分辨出112及以上比特率編碼的音頻,但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s編碼的音頻,且對(duì)80及以下比特率編碼的音頻表現(xiàn)出厭煩。由此可見(jiàn),對(duì)音頻進(jìn)行編碼的最佳方案是112 kBit/s。
音頻;MP3;聽(tīng)覺(jué)感知
音頻作為視聽(tīng)媒體中不可或缺的一部分,具有重要地位。當(dāng)音頻信號(hào)傳遞到人耳時(shí),人耳有一套復(fù)雜的聽(tīng)覺(jué)感知系統(tǒng),能夠?qū)⒙曇粜盘?hào)轉(zhuǎn)變?yōu)榇竽X的腦電信號(hào),并將接受的復(fù)雜信息簡(jiǎn)化為人們本身所需要的信息。人們對(duì)人耳聽(tīng)覺(jué)系統(tǒng)信息處理機(jī)制的研究涉及多個(gè)學(xué)科的領(lǐng)域,涵蓋了生理學(xué)、認(rèn)知心理學(xué)、信息科學(xué)、計(jì)算機(jī)科學(xué)、物理聲學(xué)等。
到目前為止,人們對(duì)聽(tīng)覺(jué)信息處理機(jī)制的研究已經(jīng)取得了一定的成果,但仍存在一些未解決的問(wèn)題,例如,在數(shù)字音頻信號(hào)傳輸時(shí),人們常對(duì)于音頻的大小和質(zhì)量產(chǎn)生困惑。眾所周知,聲音信號(hào)的數(shù)據(jù)量是非常大的,要使實(shí)時(shí)處理和傳輸這些龐大的數(shù)據(jù)成為可能,必須對(duì)音頻數(shù)據(jù)信息進(jìn)行處理。近幾年來(lái),在網(wǎng)絡(luò)流媒體、數(shù)字廣播、移動(dòng)設(shè)備等領(lǐng)域,數(shù)字音頻信號(hào)處理得到了廣泛的應(yīng)用。為了能更好地解決數(shù)字音頻信號(hào)相關(guān)存儲(chǔ)與傳輸問(wèn)題,數(shù)據(jù)壓縮逐漸成為當(dāng)代數(shù)字音頻處理中一個(gè)重要的研究方向。
在諸多的壓縮標(biāo)準(zhǔn)中,MP3壓縮格式以其優(yōu)越的性能以及品質(zhì)與算法復(fù)雜度的極佳折中,成為當(dāng)前PC、網(wǎng)絡(luò)、PDA上最為流行的音頻格式。移動(dòng)設(shè)備終端的計(jì)算能力和存儲(chǔ)容量都是有限的,但是過(guò)多地壓縮音頻質(zhì)量將會(huì)影響到人們對(duì)事物整體信息的感知與判斷。[1]因此,如何在不影響聽(tīng)覺(jué)感知的基礎(chǔ)上盡可能大地壓縮音頻成為研究的一個(gè)重要領(lǐng)域。
人耳作為音頻信號(hào)的接收者,它具有一定的主觀性,盡管物理聲學(xué)信號(hào)是客觀存在的,但在人的聽(tīng)覺(jué)系統(tǒng)反應(yīng)上會(huì)有一定的偏差。因此深入地研究人的聽(tīng)覺(jué)系統(tǒng),研究音高、音強(qiáng)和音色對(duì)主觀感知的影響是十分必要的。這就是交叉學(xué)科——心理聲學(xué)的研究范疇。
本次實(shí)驗(yàn)主要為探尋MP3的不同壓縮方式是否對(duì)聽(tīng)覺(jué)質(zhì)量產(chǎn)生影響,特選取MP3中常見(jiàn)的一些壓縮的比特率,探究編碼和未編碼的音頻片段是否在聽(tīng)覺(jué)感知上有差異,探究不同壓縮程度的音頻是否對(duì)人的主觀感知有影響,以期選擇出最優(yōu)的MP3壓縮方案。
聲音的單位能量由響度來(lái)表示,響度由單位面積上的聲壓比對(duì)數(shù)來(lái)計(jì)算。
由于人耳的結(jié)構(gòu)復(fù)雜,不同頻率的聲音傳遞到耳朵會(huì)有不同的共振。圖1為人耳在相同響度下對(duì)不同頻率的聲音的共振程度。最下方的虛線表示在安靜時(shí)人的聽(tīng)覺(jué)閾值曲線,上方四條實(shí)線分別表示在20、40、60、80分貝下的聽(tīng)覺(jué)曲線。從圖1可以看出,頻率為2kHz~6kHz的聲音共振較為明顯,可以繼而推出人耳對(duì)這個(gè)頻率段的聲音較其他頻率段為敏感。[2]
圖1 聽(tīng)覺(jué)曲線以及相同響度下的曲線
當(dāng)人們將一根手指按在一只耳朵上,會(huì)感覺(jué)到明顯的響度變小了。這說(shuō)明兩只耳朵都和響度相關(guān)。1947年,Shaw、Newman和Hirsh發(fā)現(xiàn),事實(shí)上雙耳的聽(tīng)覺(jué)閾限要比單耳的聽(tīng)覺(jué)閾限低了大約3dB。[3]這個(gè)結(jié)果的產(chǎn)生不是在實(shí)際的室內(nèi)聲源中,而通常是在開(kāi)放聲場(chǎng)的消聲室中。同時(shí),有國(guó)外的研究還發(fā)現(xiàn),聲音射入的方向是影響響度的一個(gè)重要因素。圖2顯示了在標(biāo)準(zhǔn)水平面的不同入射角產(chǎn)生的不同結(jié)果。顯然,響度本身是受入射方向影響的,對(duì)不同的受試者來(lái)說(shuō),最大變化可達(dá)10dB;除此之外還顯示了明顯的頻率相關(guān)性,在高頻(5kHz)時(shí)有更大的效應(yīng)。
圖2 響度入射方向的相關(guān)性
響度受到入射方向影響可以理解為兩個(gè)不同的進(jìn)程:(1)從聲源到耳朵的聲學(xué)信號(hào)轉(zhuǎn)換;(2)事實(shí)上的雙耳的相加。第一個(gè)進(jìn)程是物理層面的,它包括面對(duì)著聲源耳朵的壓力結(jié)構(gòu)、背對(duì)著聲源耳朵的頭部陰影效應(yīng)(聲影區(qū))等。第二個(gè)進(jìn)程是心理物理層面的,它描述了耳朵受入射影響變化的響度等級(jí)如何與雙耳的壓力響度等級(jí)相結(jié)合。2006年,Sivonen和Ellermeier利用相加的法則發(fā)現(xiàn),雙耳最大的增益達(dá)到3dB。[4]
最近二十年來(lái),有不少音頻壓縮編碼技術(shù)被制定出來(lái),如MPEG-1 Layer3、MPEG-2 AAC、Dolby實(shí)驗(yàn)室的AC-3、微軟的WMA等,其中,MPEG音頻標(biāo)準(zhǔn)系列占據(jù)了音頻壓縮技術(shù)的主流地位。MP3是MPEG-1的副產(chǎn)品,20世紀(jì)90年代由德國(guó)柏林工業(yè)大學(xué)的Fraunhofer Gesellschaft研究所研制,是到目前為止最為普及的音頻壓縮格式。它采用了子帶分解、分析濾波器組、轉(zhuǎn)換域編碼、熵編碼、動(dòng)態(tài)比特分配、非同一量化編碼和心理聲學(xué)分析等技術(shù),支持32kHz、44.1kHz和48kHz采樣頻率下對(duì)16比特PCM信號(hào)進(jìn)行編碼,同時(shí),提供單聲道、立體聲道、兩個(gè)獨(dú)立雙聲道和聯(lián)合立體聲等四種音頻聲道模式。[5]
圖3 MP3編碼流程圖
圖3所示為MP3編碼流程。如圖所示,音頻信號(hào)由兩種方式進(jìn)行編碼,第一種方式數(shù)據(jù)先進(jìn)入多相濾波器,然后經(jīng)過(guò)MDCT變換得出頻譜系數(shù);第二種方式數(shù)據(jù)先進(jìn)行快速傅立葉變換,然后通過(guò)psychoacoustics分析,將psychoacoustics分析后的聲學(xué)參數(shù)和第一種方式輸出的頻譜系數(shù)進(jìn)行量化和霍夫曼編碼;第二種方式進(jìn)行聲學(xué)分析后可以得出信號(hào)掩蔽比,最終由兩者形成相應(yīng)的比特信息流。
柏林工業(yè)大學(xué)聲學(xué)專業(yè)大學(xué)生30人,其中男生15名,女生15名,年齡在24~31歲,聽(tīng)力正常。被試單獨(dú)進(jìn)入測(cè)試房間,在計(jì)算機(jī)支持下的ABX測(cè)試中進(jìn)行獨(dú)立的選擇和評(píng)價(jià)。
實(shí)驗(yàn)采用60個(gè)音頻文件,分為30組,每組2個(gè)音頻文件,均采用WAV格式(PCM,16 Bit,44.1 kHz)。每組的兩個(gè)音頻各自包含相同的爵士樂(lè)片段(大約30秒),其中第一個(gè)音頻未編碼,第二個(gè)文件用112 kBit/s的MPEG Layer-3方法進(jìn)行編碼。
傳統(tǒng)的信號(hào)檢測(cè)法無(wú)法改變?cè)家纛l,因而在本研究中無(wú)法采用。為了達(dá)到目的,本研究借助計(jì)算機(jī)的編程實(shí)現(xiàn),采用迫選法(Forced Choice Method)。而迫選法要求被試必須至少聽(tīng)兩段音頻片段,因此在本研究中采用ABX測(cè)試法。
ABX測(cè)試方法如下:從兩段音樂(lè)庫(kù)中隨機(jī)抽取一對(duì)音頻信號(hào)A[n]、B[n](n為不大于原始音樂(lè)庫(kù)中音樂(lè)數(shù)目的任意正整數(shù)),再隨機(jī)地把A[n]、B[n]分配給A和B,然后在A、B中隨機(jī)選出一個(gè)作為X。測(cè)試者可以任意地反復(fù)回放A、B或X,最后給出判斷:X是A還是B。
本實(shí)驗(yàn)在小型的混響房間的筆記本電腦上運(yùn)行,電腦裝載了ABX軟件。被試逐個(gè)單獨(dú)進(jìn)入房間然后對(duì)音頻用ABX方法進(jìn)行判斷。實(shí)驗(yàn)采用STAX Lambda SR-202-Stereo專業(yè)測(cè)試耳機(jī)。在實(shí)驗(yàn)過(guò)程中允許被試自由調(diào)節(jié)音頻的響度。每個(gè)被試測(cè)試18次。
一次有n次過(guò)程的ABX測(cè)試等于一個(gè)n階p=0.5的伯努利實(shí)驗(yàn)(Bernoulli Experiment)。概率k和n的關(guān)系如下所示:
圖4中顯示了n=18時(shí)的離散概率。當(dāng)時(shí),適用以下公式:
以此類推所求的概率為:
圖4 n=18時(shí)的離散概率
當(dāng)n=18以及p=0.5時(shí)得到以下數(shù)值:5%的波動(dòng)范圍應(yīng)該被看作是一個(gè)明顯差異的界限。在表1中,有超過(guò)13次的嘗試都在5%以內(nèi),只有5次的偶然命中率超過(guò)了這個(gè)數(shù)值(見(jiàn)圖4)。
表1 不同次數(shù)下的離散概率
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行描述性統(tǒng)計(jì)分析發(fā)現(xiàn):有6名被試達(dá)到13次及以上的正確次數(shù),而其余24名被試均未達(dá)到標(biāo)準(zhǔn)(見(jiàn)表2)。因此可見(jiàn),即僅有20%的被試能正確分辨兩者的區(qū)別,而其余80%的被試未能正確分辨兩者的區(qū)別。
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行單樣本T檢驗(yàn)發(fā)現(xiàn):T=-5.572,P<0.001,即30名被試的平均正確次數(shù)11.20與正確次數(shù)13之間存在顯著性差異。由此可見(jiàn),被試并不能分辨出112 kBit/s編碼的音頻。
表2 ABX測(cè)試的正確率
柏林工業(yè)大學(xué)聲學(xué)專業(yè)大學(xué)生40人,其中男生20名,女生20名,年齡在25~32歲,聽(tīng)力正常。被試單獨(dú)進(jìn)入測(cè)試房間,在計(jì)算機(jī)支持下的ABC/HR測(cè)試中進(jìn)行獨(dú)立的選擇和評(píng)價(jià)。?
實(shí)驗(yàn)采用在第一個(gè)實(shí)驗(yàn)中使用過(guò)的爵士樂(lè)片段(s0),將其進(jìn)行編碼,形成8個(gè)比特率的MPEG Layer-3編碼片段:320kBit/s(s1),224kBit/s(s2),160kBit/s(s3),112kBit/s(s4),96kBit/s(s5),80kBit/s(s6),64kBit/ s(s7)和56kBit/s(s8),共18組,每組9個(gè)音頻文件。
本實(shí)驗(yàn)采用ABC/HR方法。ABC/HR測(cè)試方法如下:在程序上呈現(xiàn)三個(gè)測(cè)試刺激源(a,b,c),其中參數(shù)刺激已被標(biāo)明,同時(shí)提供兩個(gè)未標(biāo)識(shí)的刺激材料,這兩個(gè)未標(biāo)識(shí)的刺激材料中一個(gè)是重復(fù)的參數(shù),一個(gè)是已經(jīng)改變的版本。在測(cè)試中,被試需要確定,這兩個(gè)未標(biāo)識(shí)的刺激材料中的哪一個(gè)是已經(jīng)改變的版本。除此之外,被試還需要測(cè)主觀的干擾度,這主要通過(guò)一個(gè)控制器來(lái)定量確定(5-感覺(jué)不到;4-感覺(jué)到,但不令人厭煩;3-稍微有點(diǎn)令人厭煩;2-令人厭煩;1-很令人厭煩討厭)。如果被試選擇已經(jīng)改變的版本,其主觀評(píng)判的值為正值;如果被試選擇未被改變的版本,其主觀評(píng)判值為負(fù)值。
本實(shí)驗(yàn)在小型的混響房間的筆記本電腦上運(yùn)行,電腦裝載了ABC/HR軟件。被試逐個(gè)單獨(dú)進(jìn)入房間然后對(duì)音頻用ABC/HR方法進(jìn)行判斷。實(shí)驗(yàn)采用STAX Lambda SR-202-Stereo專業(yè)測(cè)試耳機(jī)。每個(gè)被試測(cè)試162次。
對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行描述性統(tǒng)計(jì)分析發(fā)現(xiàn):100%的被試能夠在兩個(gè)未編碼的刺激中識(shí)別出56 kBit/s的音樂(lè)、64 kBit/s的音樂(lè)、80kBit/s的音樂(lè);85%的被試能夠在兩個(gè)未編碼的刺激中識(shí)別出96kBit/s的音樂(lè);而112kBit/s的音樂(lè)、160Bit/s的音樂(lè)、224kBit/s的音樂(lè)、320kBit/s的音樂(lè)識(shí)別正確率分別為18%、13%、10%、5%。
將112kBit/s、160kBit/s、224kBit/s、320kBit/s音樂(lè)的實(shí)驗(yàn)結(jié)果進(jìn)行單樣本T檢驗(yàn)發(fā)現(xiàn):T(112kBit/s)=-4.130;T(160kBit/s)=-6.430,p<0.005;T(224kBit/s)=-9.579,p<0.005;T(320kBit/s)=-11.695,p<0.005;即40名被試的平均正確次數(shù)M(112kBit/s)=11.25,M(160kBit/s)=10.88,M(224kBit/s)=9.92,M(320kBit/s)=9.42與正確次數(shù)13之間均存在顯著性差異。由此可見(jiàn),被試并不能分辨出112 kBit/s、160kBit/s、224kBit/s、320kBit/s編碼的音頻。
將96kBit/s的音樂(lè)的實(shí)驗(yàn)結(jié)果進(jìn)行單樣本T檢驗(yàn)發(fā)現(xiàn):T(96kBit/s)=1.010,p>0.01;即40名被試的平均正確次數(shù)M(96kBit/s)=14.50與正確次數(shù)14之間并不存在顯著差異。由此可見(jiàn),被試能分辨出96 kBit/s編碼的音頻。
進(jìn)一步對(duì)平均值進(jìn)行分析發(fā)現(xiàn):在80 kBit/s達(dá)到了標(biāo)度值“稍微有點(diǎn)令人厭煩”,由此可以確定質(zhì)量的損害;在96kBit/s差異度的平均值為3.56,在標(biāo)度值“感覺(jué)到,但不令人厭煩”附近,由此可以看出,在這個(gè)標(biāo)度值上僅僅有一個(gè)變化,但是沒(méi)有質(zhì)量的損害生成(見(jiàn)表3)。
表3 不同比特率的音樂(lè)
音頻壓縮技術(shù),其實(shí)質(zhì)就是對(duì)經(jīng)過(guò)采樣量化的PCM信號(hào)進(jìn)行處理,力求壓縮后的音頻數(shù)據(jù)量最小化,并同時(shí)達(dá)到所謂的“透明音質(zhì)”,即解碼后的輸出信號(hào)與原先的輸入信號(hào)不可分辨。本實(shí)驗(yàn)發(fā)現(xiàn),被試不能分辨出112、224、320比特率編碼壓縮的音頻,但是能分辨出96kBit/s、80 kBit/s、64kBit/s、56kBit/s編碼壓縮的音頻,且對(duì)80及以下比特率編碼的音頻表現(xiàn)出厭煩。由此可見(jiàn),經(jīng)過(guò)112、224、320比特率編碼壓縮的音頻,都達(dá)到了“透明音質(zhì)”的標(biāo)準(zhǔn),均為音頻壓縮編碼可以采用的比特率。但是,音頻編碼的中心思想為用最小的比特存儲(chǔ)聲音信號(hào),使之達(dá)到透明聲音信號(hào)標(biāo)準(zhǔn)。[6]因此,在音頻編碼壓縮上應(yīng)該有個(gè)最佳壓縮方案,即達(dá)到透明聲音信號(hào)標(biāo)準(zhǔn)的最小比特值,本實(shí)驗(yàn)發(fā)現(xiàn),這個(gè)值為112 kBit/s。
[1]蔣學(xué)鑫.MP3實(shí)時(shí)編解碼系統(tǒng)的研究與開(kāi)發(fā)[D].電子科技大學(xué),2007,(4).
[2]Weinzierl S,Ellermeier W,Hellbrück J.Handbuch der Au?diotechnik[M].Springer Verlag,2007,(42).
[3]Shaw W A,Newman E B,Hirsh I J.The difference between monaural and binaural thresholds[J].Journal of Experimental Psy?chology,1947,(37):229-242.
[4]Sivonen VP,Ellermeier W.Directional loudness in an an?echoic sound field,head related transfer functions,and binaural summation[J].J Acoust Soc Ame.2006,(119):2965-2980.
[5]李琳.音頻感知編碼模型及關(guān)鍵技術(shù)的研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2008,(5).
[6]李琳琳.數(shù)字音頻感知編碼的心理聲學(xué)模型[J].經(jīng)驗(yàn)與交流,2008,(6).
夏 陽(yáng)(1984—),男,浙江金華人,浙江師范大學(xué)助教,研究方向?yàn)橐纛l技術(shù)、影視聲音。
責(zé)任編輯 李杰杰