祝培生,莫方朔,王季卿
(1.大連理工大學 建筑與藝術學院,遼寧 大連 116024;2.同濟大學 聲學研究所,上海 200092)
語言可懂度是音質評價的重要指標,可以用來評價廳堂或擴聲系統(tǒng)的聲音傳輸質量.對語言可懂度的評價,又可分為主觀評價和客觀評價.20世紀四五十年代提出了第一個語言可懂度客觀評價參量清晰度指數AI[1](articulation index,近年來發(fā)展成語言可懂度指數 SII[2],speech intelligibility index),到20世紀70年代末,又提出了語言傳輸指數STI[3](speech transmission index)和輔音損失比%ALcons[4](articulation loss of consonants)等參量.這些參量的提出,為語言可懂度的客觀評價提供了可能,雖然也都有各自的局限性.
STI和SII為當前語言可懂度的兩個主要客觀評價體系,對應于國際上兩本現行標準:IEC 60268-16[5]和ANSI S3.5[2].前者為國際電工委員會標準,世界上大部分國家都采用該標準;后者為美國標準,除美國之外只在極少數國家使用.
STI方法因為能夠較好反映混響時間、信噪比對語言可懂度的影響,具有一定的抗系統(tǒng)失真能力,為國際社會普遍接受,并在建筑聲學領域得到了廣泛應用.SII則因為有更為精細的臨界頻帶劃分方法,并且提供了6種不同語言材料的權重系數,為那些研究不同語言材料效果的人所偏愛,也經常被經驗豐富的聽覺矯治專家所使用.但對于傳統(tǒng)建筑聲學領域來說,這兩個語言可懂度客觀評價方法到底有什么樣的差別?這方面國內、外相關的研究文獻很難見到.Larm 等[6]對英語頻譜的STI與SII進行了實驗對比研究,但在測量儀器的選用、實驗方法,以及研究內容上尚有改進空間.
漢語是一種特殊的單音節(jié)語言,聲、韻、調為音節(jié)信息的主要組成成分,與英語有著較大的區(qū)別.中國關于漢語語言可懂度的現行規(guī)范有兩本:GB/T 14476—1993[7]和GB/T 15485—1995[8],分別對應于IEC 60268-16 標準和美國ANSI S3.5標準.考慮到這兩本規(guī)范都有近20 年沒有修訂的現狀,按照最新標準對漢語語言可懂度客觀評價的STI與SII方法進行詳細對比研究也有較好的現實意義.為驗證SII和STI應用于建筑聲學測量的具體表現,選取了一間辦公室和一間實驗教室,主要研究以下內容:(1)倍頻帶條件下的SII與STI測量結果差異;(2)與倍頻帶SII相比,載波頻帶劃分更為精細的1/3倍頻帶方法是否具有更高的精度;(3)SII和STI方法對漢語語言可懂度主、客觀評價關系曲線的影響(主觀評價數據來自于另外研究).
IEC 60268-16推薦了兩種STI的測量方法:一種是使用調制信號的直接測量方法,另一種是使用房間脈沖響應的間接測量方法.關于STI的計算模型及測量方法在相關文獻[9]中都有詳細描述.
清晰度指數AI是第一個將聲學測量同語言可懂度聯(lián)系起來的客觀參量,美國國家標準局在1969年發(fā)布了ANSI S3.5-1969,1997年對AI進行了大量修正,發(fā)布了ANSI S3.5-1997,通過這次修訂,AI發(fā)展為語言可懂度指數SII,標準的通用性得到擴展,并將建筑聲學的混響聲場情況考慮在內.
SII通過對等效語言譜級、等效噪聲譜級、等效聽閾級這些輸入變量的計算得到語言可懂度參量.所謂等效就是采用在基準環(huán)境中測得的聲級大小表示實際聲場中的真實情況(二者在耳膜處引起的聲級相同).基準環(huán)境主要是指自由場環(huán)境,沒有混響的影響.等效語言譜級、等效噪聲譜級的獲得有3種方法:(1)測量耳膜處聲強的調制轉移函數MTFI以及語言和噪聲的合成譜級,該方法需要使用人工頭,是SII推薦的最通用測試方法;(2)測量聲場中聽眾雙耳中間位置處的調制轉移函數MTFI以及語言和噪聲的合成譜級,這是一個通用性差些的方法,不能用來測量一些通信條件(如電話等);(3)分別測量語言譜級和噪聲譜級,這種方法不能評價混響帶來的語言可懂度降低,也不能反映噪聲和語言相互影響的情況(是ANSI S3.5-1997之前版本所采用的方法,基本假設就是語言和噪聲二者獨立,可分別測量得到),因此應用前景越來越小.在本研究中,由于IEC 60286-16推薦的STI測量方法采用的是無指向性傳聲器,為增加可比性,SII測量采用了第(2)種方法.
SII值的計算對應于4種不同的臨界頻帶(載波頻帶)劃分方法:臨界頻帶法(共21 個頻帶)、1/3倍頻帶法(共18個頻帶)、等貢獻臨界頻帶法(共17 個頻帶)、倍頻帶法(共6 個頻帶).為同STI的7個載波頻帶對比,本文采用了倍頻帶方法,同時為了驗證精細的臨界頻帶劃分對SII測量結果的影響,也進行了1/3倍頻帶法的測量對比.倍頻帶法從250 Hz到8 000 Hz共6個載波頻帶,1/3倍頻帶法從160 Hz到8 000 Hz共18個載波頻帶,通過對這些載波頻帶中心頻率fi的計算就可得到
式中:i為相應的載波頻帶;E′i為等效語言譜級;Di為等效干擾譜級,對應于倍頻帶(1/3倍頻帶)中心頻率fi.E′i-Di被限制在±15dB.Ii為各頻帶的權重系數,實驗選用了一般語言材料的數據,ANSI S3.5同時也給出了其他5種不同測試語言材料的頻帶權重系數.Li是聲級失真因子,用來考慮當語言聲級非常高時,除了受信噪比的影響,語言可懂度還會有額外的降低,計算公式為
其中Ui為頻帶fi的標準語言譜級(由ANSI S3.5中給出).Li被限制在0~1.
等效干擾譜級Di通過選擇內部等效噪聲譜級X′i(為參考噪聲譜級Xi與等效聽閾級T′i之和,Xi由ANSI S3.5給出)和等效噪聲譜級N′i二者的較大值得到.內部等效噪聲譜級的應用是基于這樣一個考慮:在安靜環(huán)境中,人耳內存在假設的內部噪聲,它會對外來的聲音產生掩蔽.
SII的初始計算模型假定等效語言譜級和等效噪聲譜級在自由場內測得,這表明整個語言聲級不包含混響聲.但在混響空間內,并不能測得沒有混響聲的語言聲級,為考慮混響的影響,SII引入了調制轉移函數MTFI方法.該方法對倍頻帶法(或1/3倍頻帶法)的每個載波頻帶,都用9個調制頻率(0.5、1.0、1.5、2.0、3.0、4.0、6.0、8.0、16.0Hz)調制.對應于9個調制頻率的9個有效信噪比被限制在±15dB,然后取平均值得到Ri.語言和噪聲的合成譜級Pi則是通過重放沒有調制過的測試信號測量得到.等效語言譜級和等效噪聲譜級最后按式(3)、(4)計算:
作為語言可懂度的兩種最常用客觀評價體系,SII和STI的計算框架模型比較相似,都是基于將各頻帶的貢獻相加來確定語言可懂度.但STI可以直接測量各頻帶的貢獻并相加得到,SII則需要先將MTFI轉換成語言信號的等效語言譜級、等效噪聲譜級等參量,然后計算得到.
兩種標準設立之初,SII和STI雖然計算框架模型相似,但具體計算方法與適用范圍有較大區(qū)別.在經歷了較長時間的自我完善與發(fā)展后,兩個標準的最新修訂版都借鑒了對方一些內容,有許多相似之處,例如為對混響條件下的等效語言譜級和等效噪聲譜級進行測量,SII標準引入了STI的調制轉移函數概念;而STI的最新修訂則借鑒了SII的內部等效噪聲譜級和聲級失真因子參量,修正了極低背景噪聲條件下的語言接收閾值以及極高聲壓級下的聽覺掩蔽效應.
SII和STI在混響條件下有效信噪比的確定都采用調制轉移函數方法,但載波頻帶并不相同,調制頻率也有區(qū)別.例如SII有4 組不同的臨界頻帶(載波頻帶)劃分可供選擇,每個臨界頻帶都用9 個調制頻率調制,而STI只有一組載波頻帶,每個載波頻帶用14個調制頻率調制.除此之外,STI雖然給出了男聲和女聲的標準語言頻譜,但在測試時只采用男聲標準語言頻譜,SII則給出了4種不同發(fā)聲條件下由男聲和女聲平均的標準語言頻譜供選擇;STI只有對應于男聲和女聲的兩組權重系數,SII則針對6種不同的測試語言材料,給出了6種不同的權重系數,考慮到還有4種不同的臨界頻帶劃分方式,相應的權重系數共有24組.在本研究中,為在相同條件下進行對比,SII和STI都采用了GB 7347—1987[10]規(guī)定的男聲漢語標準語言頻譜.
本文選取了兩個不同的房間作為測試場所,包括一間辦公室、一間實驗教室.辦公室、實驗教室平面均為矩形,表1給出了這兩個房間的基本情況.
表1 兩個測試房間的基本情況Tab.1 Characteristics of the two test rooms
在辦公室內共布置了2個測點,測點和聲源的布置位置見圖1;在實驗教室內共布置了3 個測點,測點和聲源的布置位置見圖2.在這兩個房間中,接收點的高度都為1.2m,聲源的高度都為1.5m,圖中S1為信號聲源,S2為干擾噪聲聲源,R1~R5為接收點.
為獲得從非常差到非常好的聽音條件,對于兩個房間中的每個測點,都設計了4種發(fā)聲條件,對應于4種不同的信噪比.測量時,在發(fā)聲位置處布置了兩個聲源同時發(fā)聲(兩聲源相距0.5 m),用人工嘴播放測試信號,球面聲源播放經過漢語語言頻譜調整的粉紅噪聲.測量STI時,語言信號播音條件按照IEC 60268-16規(guī)定,在消聲室內設定距離人工嘴正前方1 m 處聲壓級為60dB;測量SII時,語言信號播音條件按照ANSI S3.5規(guī)定,在消聲室內設定距離人工嘴正前方1m處聲壓級為62.35dB.同時調整噪聲源聲壓級,使得在距這兩個聲源1 m 處測量STI時分別對應不同的信噪比:-5、0、10、20dB(這些信噪比并不代表現場測點處的實際信噪比);測量SII時分別對 應 不 同 的 信 噪 比:-2.65、2.35、12.35、22.35dB.之所以STI和SII的信噪比設定不同,是考慮ANSI S3.5規(guī)定的語言信號聲壓級高,與IEC 60268-16規(guī)定的60dB 相比,實際測量時會占有2.35dB 的信噪比優(yōu)勢.然后將消聲室內設定好的信號聲源和干擾噪聲聲源擺放到測試房間的相應位置,依次對兩個房間的5個測點共20個測試條件下的STI、SII進行了測量.
圖1 辦公室聲源與測點布置Fig.1 Source and receiver positions in the office
圖2 實驗教室聲源與測點布置Fig.2 Source and receiver positions in the laboratory
由于SII的使用者較少,因此很難見到SII的商用測量軟件.STI的商用測量軟件相對多些,可以見到的有Dirac、WinMLS、Aurora、NTI等,但采用的都是間接測量方法.STI直接測量方法由于測量時間較長,數據處理對硬件要求較高,尤其是完整STI(Full STI,在IEC 標準中建議一般僅在科研時使用)更加難以測量,因此完整STI的直接法商業(yè)測量軟件也很難見到.為能真實體現IEC 60268-16和ANSI S3.5規(guī)定的測量方法,并且采用漢語的標準語言頻譜,作者嚴格按照IEC和ANSI標準編寫了STI的直接法測量與計算程序和SII的倍頻帶、1/3倍頻帶測量與計算程序.
IEC 60268-16對測試信號的生成和調制都有嚴格規(guī)定,125Hz到8 000Hz的7個1/2倍頻帶載波分別用14 個調制頻率調制,因此共得到98個調制轉移值.ANSI S3.5對測試信號的生成和調制限制較少,對于倍頻帶法,載波頻帶從250 Hz到8 000Hz共6個;1/3倍頻帶法,載波頻帶從160Hz到8 000Hz共18個.對于每個載波頻帶都分別用9個調制頻率調制,因此倍頻帶法共得到54個調制轉移值,1/3倍頻帶法共得到162個調制轉移值.為使測量結果具有可比性,對于ANSI S3.5 沒有明確規(guī)定的信息,本文都按照IEC 60268-16的規(guī)定執(zhí)行,如粉紅噪聲生成時波峰因子等的限制,使用相同的濾波器,濾波后的調制深度相同,以及最后對每個載波有效信噪比的計算方法等都是相同的.
在測量過程中,測量系統(tǒng)的選用與匹配、聲源聲壓級的標定、測試信號的生成及后期處理都可能帶來較大誤差,這些誤差會降低測量結果的可信度.降低這些誤差的關鍵是采用規(guī)范化、標準化的測量系統(tǒng)、測試程序,測量過程也要嚴格按照規(guī)定執(zhí)行.
本文實驗所采用的測量系統(tǒng)包括信號聲源GRAS 44AA、干擾噪聲聲源PYRITE、功率放大器AMPHION(對應于PYRITE)、聲卡B&K ZE-0948、傳聲器B&K 4189(供電系統(tǒng)為B&K 1704),以及錄音軟件Audition(v3.0).測試前對整個系統(tǒng)進行了回路校驗,以保證其為線性時不變系統(tǒng),沒有諧波產生.針對人工嘴、干擾聲源頻率響應較差問題,預先對整個系統(tǒng)采用消聲室逆濾波方法對測試信號及干擾噪聲信號進行了頻率響應均衡.
聲源聲壓級的標定是一個非常容易產生誤差的環(huán)節(jié),并且會直接影響到信噪比的大小進而影響測量結果,因此實驗中的兩個聲源都在半消聲室內進行了標定,當然所用測試信號也在信號生成之初就通過濾波方式對聲壓級進行了精確控制.這些措施的采用可基本保證由測試系統(tǒng)帶來的誤差被盡可能地降低.
所采用測量程序的有效性也是保證測量結果可信的關鍵.假定已經根據標準生成了調制深度為0.8的測試信號,然后將該信號直接當作接收信號進行后期處理(回路校驗),理論上應該得到98個(倍頻帶SII為54;1/3倍頻帶SII為162)調制深度為0.8的調制轉移值,但實際情況并非如此.造成這種情況的原因是多方面的,比如所用粉紅噪聲是偽隨機信號;信號生成時需要濾波、調制;接收后還要濾波、包絡提取等,這些都會帶來一些信號損失,從而導致出現誤差.
為判斷測量程序的這些誤差對測量結果的影響,采用統(tǒng)計學中單一樣本t檢驗的方法,來檢驗經過回路后的98 個數值(倍頻帶SII為54;1/3倍頻帶SII為162)的總體均值和指定值0.8之間是否存在顯著性差異.計算結果顯示,STI測量程序的相伴概率為0.819;倍頻帶SII測量程序的相伴概率為0.219;1/3倍頻帶SII測量程序的相伴概率為0.388,都大于顯著性水平(=0.05),可認為該98個數值(倍頻帶SII為54;1/3 倍頻帶SII為162)的均值和0.8相比沒有顯著性變化.
本文還將98個(倍頻帶SII為54;1/3 倍頻帶SII為162)調制深度為0.8 的調制轉移值和98個(倍頻帶SII為54;1/3倍頻帶SII為162)經過回路后的調制轉移值同時輸入實驗教室的一個測試條件來計算STI、SII,兩種情況下STI的差值為0.001;倍頻帶SII的差值為0.002;1/3倍頻帶SII的差值為0.000 1,這些差值都遠小于一個JND(just noticeable difference,最小可察覺差,約為0.03[11]).由此可見,由測量程序帶來的誤差還是非常小的.
圖3給出了STI與倍頻帶SII的測量結果.可以看到二者有一定的誤差,最大差值達到了0.111,出現在辦公室R2測點20dB 信噪比條件下,比Larm 等的研究結果最大偏差-0.04要大.考慮到本文實驗在測試聲源的選擇、聲源頻率響應修正與聲壓級的校準、調制頻率、干擾噪聲頻譜等方面都不相同,存在這些差別也是正常的.另外也可以看到,在信噪比較低時,STI比倍頻帶SII測量結果低;在信噪比較高時,STI比倍頻帶SII測量結果高.這也說明STI對信噪比的變化具有更高的靈敏度.
圖3 STI與倍頻帶SII測量結果Fig.3 Measurement results of STI and octave band SII
圖4 不同信噪比情況下5個測點的STI與倍頻帶SII差值Fig.4 The difference between STI and octave band SII in 5receiver positions with different SNRs
為進一步研究STI和倍頻帶SII的測量結果與信噪比變化的關系,圖4給出了5個測點的STI與倍頻帶SII隨信噪比變化的差值.可以看到隨著信噪比的增加,STI與倍頻帶SII之間的差值有變大趨勢.存在這種情況也是正常的.因為二者采用的干擾噪聲信號相同,都是具有漢語語言頻譜的125~8 000Hz共7個沒有經過調制頻率調制的倍頻帶載波合成信號,但測試信號并不相同,SII的測試信號不包含125 Hz載波.由于測試信號的總聲級相同,SII各頻帶聲功率級都要比STI對應頻帶的聲功率級大.在測試信號各頻帶聲級固定的情況下,隨著噪聲聲級的增加(信噪比降低),SII各頻帶信噪比與STI各頻帶信噪比之間的比例關系有變大的趨勢,SII相對于STI有增加的趨勢,因此STI與倍頻帶SII之間的差值有減小的趨勢.
圖5給出了倍頻帶SII與1/3倍頻帶SII測量結果差值.可以看到,二者的差別并不大,最大差值約為-0.035,出現在實驗教室R4測點的0 dB信噪比情況.另外還可以看到,與倍頻帶SII相比,隨著混響時間的增加,1/3倍頻帶SII的測量結果有增大趨勢.這可能是因為對接收的信號又進行了一次濾波的緣故,濾波器會使測量的MTF變小.濾波器頻帶越窄、被測聲場混響時間越短,影響就越大,即測量的MTF 越偏小,所以相對于倍頻帶的MTF,1/3倍頻帶的MTF 會隨混響時間的變長而增加.
為分析這兩種方法的測量結果對漢語語言可懂度主、客觀評價關系曲線的影響,本文將STI、倍頻帶SII、1/3倍頻帶SII作為橫坐標軸數據,20個測量條件的語言可懂度主觀評價得分作為縱坐標軸數據(數據來自于另外研究),建立了漢語語言可懂度主、客觀評價關系曲線,并與張家騄[12]的研究結果進行了對比,見圖6.從圖可以看到,當STI、SII數值較小時(0.1~0.4),倍頻帶SII、1/3倍頻帶SII的主觀評價得分小于STI的結果;當超過約0.4 時,倍頻帶SII、1/3 倍頻帶SII的主觀評價得分大于STI的結果;STI與倍頻帶SII主觀評價得分的最大差值約為7%,與1/3倍頻帶SII主觀評價得分的最大差值約為12%;張家騄的研究結果與倍頻帶SII的主觀評價得分最大差值約為11%.考慮到STI與SII是完全不同的評價體系,SII與AI采用的方法也有較大區(qū)別,這些差別也在情理之中,總的來說差別也不算大.
圖5 倍頻帶SII與1/3倍頻帶SII差值Fig.5 The difference between octave band SII and one-third octave band SII
圖6 STI、SII漢語語言可懂度主、客觀評價關系曲線Fig.6 The relationship between subjective and objective Chinese speech intelligibility scores by STI and SII
通過分析STI和SII的計算模型和測量結果可以看到,二者并沒有本質上的區(qū)別.雖然二者的最大差值達到了0.111,超過了一個JND,但對于兩個不同的評價體系來說并不是很大.這些差別也主要是由于采用的具體方法不同造成的;與STI方法相比,SII需根據測量值再進行計算得到,測量過程更為煩瑣.除此之外,IEC 60268-16對STI的測量條件限制較為詳細,而ANSI S3.5對SII的測量條件限制較為寬松.由于聲源特性(頻率響應與指向性)、測試信號的聲壓級大小及其標定方式、語言頻譜的選用、所用載波頻帶與調制方法等都非常容易對測量結果造成影響,STI的測量條件限制嚴格,可供選擇余地較小反而有助于獲得穩(wěn)定的測量結果,數據之間也具有更好的可比性.
雖然SII具有更為精細的臨界頻帶劃分,并且提供了6種不同語言材料的權重系數,對某些領域的研究也許更為適用,但對于傳統(tǒng)建筑聲學等領域來說,與STI相比,倍頻帶SII的測量結果精度(或靈敏度)偏低,而測量過程卻更為復雜;1/3倍頻帶SII也沒有表現出更好的精度(或靈敏度),并且對于實際的應用測量來說沒有可操作性.
STI和SII的漢語語言可懂度主、客觀評價關系曲線區(qū)別并不是很大,也都可以用來對漢語的語言可懂度進行客觀評價.但考慮到SII的測量過程更為復雜,在傳統(tǒng)建筑聲學等領域的應用也不具有優(yōu)勢,以及ANSI S3.5對測量條件限制的相對寬松可能會帶來數據之間的可比性降低等因素,STI更適于作為漢語語言可懂度的客觀評價參量進行推廣.
[1] French N R,Steinberg J C.Factors governing the intelligibility of speech sounds[J].Journal of the Acoustical Society of America,1947,19(1):90-119.
[2] Acoustical Society of America Standards Secretariat.ANSI S3.5,1997 Methods for Calculation of the Speech Intelligibility Index[S].New York:Standards Secretariat Acoustical Society of America,1998.
[3] Houtgast T,Steeneken H J M.The modulation transfer function in room acoustics as a predictor of speech intelligibility[J].Acustica,1973,28(1):66-73.
[4] Peutz V M A.Articulation loss of consonants as a criterion for speech transmission in a room [J].Journal of Audio Engineering Society,1971,19(11):915-919.
[5] International Electrotechnical Commission.IEC 60268-16 Sound System Equipment-Part 16:Objective Rating of Speech Intelligibility by Speech Transmission Index[S].4th ed.Paris:IEC,2011.
[6] Larm P,Hongisto V.Experimental comparison between speech transmission index,rapid speech transmission index,and speech intelligibility index[J].Journal of the Acoustical Society of America,2006,119(2):1106-1117.
[7] 中華人民共和國機械電子工業(yè)部.GB/T 14476—1993 客觀評價廳堂語言可懂度的RASTI法[S].北京:中國標準出版社,1994.The Mechanical and Electric Engineering Ministry of the People′s Republic of China.GB/T 14476—1993 RASTI Method for the Objective Estimating of Speech Intelligibility in Auditoria[S].Beijing:Standards Press of China,1994.(in Chinese)
[8] 全國聲學標準化技術委員會.GB/T 15485—1995聲學 語言清晰度指數的計算方法[S].北京:中國標準出版社,1995.National Technical Committee on Acoustics of Standardization Administration of China.GB/T 15485—1995 Acoustics — Methods for the Calculation of the Articulation Index of Speech[S].Beijing:Standards Press of China,1995.(in Chinese)
[9] 祝培生,莫方朔,路曉東,等.語言清晰度客觀評價方法——對IEC 60268-16(4.0 版,2011.6)規(guī)范的解讀[J].電聲技術,2012,36(5):40-45.ZHU Pei-sheng,MO Fang-shuo,LU Xiao-dong,et al.Objective rating methods of speech intelligibility—the interpretation on the IEC 60268-16 (4.0 version,2011.6)standard[J].Audio Engineering,2012,36(5):40-45.(in Chinese)
[10] 全國信息技術標準化技術委員會.GB/T 7347—1987 漢語標準頻譜[S].北京:中國標準出版社,1987.National Technical Committee on Information Technology of Standardization Administration of China.GB/T 7347—1987 The Standard Spectrum of Chinese Speech[S].Beijing:Standards Press of China,1987.(in Chinese)
[11] Bradley J S,Reich R D,Norcross S G.A just noticeable difference in C50for speech[J].Applied Acoustics,1999,58(2):99-108.
[12] 張家騄.漢語人機語音通信基礎[M].上海:上??茖W技術出版社,2002:500-501.ZHANG Jia-lu.Chinese Man-Machine Communication Foundation [M ].Shanghai:Shanghai Scientific and Technical Publishers,2002:500-501.(in Chinese)