祝培生,莫方朔
(1.大連理工大學(xué)建筑與藝術(shù)學(xué)院,遼寧大連 116024;2.同濟大學(xué)物理科學(xué)與工程學(xué)院,上海 200092)
語音傳輸指數(shù)(Speech Transmission Index,STI)是被廣泛接受和使用的言語可懂度客觀評價參量,使用來自室內(nèi)聲學(xué)理論的調(diào)制傳遞函數(shù)(Modulation transfer function,MTF)進行測量與計算[1-3]。STI與一些較為公認的傳統(tǒng)音質(zhì)客觀評價參量如混響時間(Reverberation Time,RT)、背景噪聲、明晰度C50等相比,除能綜合考慮混響時間、信噪比的影響外,混響衰變的細節(jié)、房間反射聲序列的分布等也可考慮[4],并與言語可懂度的主觀感受直接對應(yīng)[5],有著傳統(tǒng)音質(zhì)評價參量所不具備的優(yōu)勢。定義STI的國際電工委員會(International Electrotechnical Commission,IEC)標準(v4.0)是2011年發(fā)布的[1],修改采用IEC標準[1]的中國國家標準GB/T 12060.16—2017[3]于2017年11月1日發(fā)布,2018年5月1日正式實施。在2020年9月,IEC發(fā)布了最新修訂的STI技術(shù)標準(v5.0)[2]。但由于STI方法定義復(fù)雜,測量時影響因素較多,推廣與應(yīng)用一直不太理想。當(dāng)前除了在擴聲系統(tǒng)、公共廣播系統(tǒng)等領(lǐng)域的應(yīng)用比較普遍之外,在廳堂聲學(xué)領(lǐng)域,現(xiàn)行國際、國內(nèi)標準采用STI作為控制指標的并不多。但這種情況也正在快速改變,在ISO 3382-3[6]和國家標準GB/T 36075.3—2018[7]中,STI已作為重要的控制性聲學(xué)參量用于開放式辦公室音質(zhì)的客觀評價;英國教室聲學(xué)設(shè)計標準BB93[8]也對開放空間內(nèi)的STI限值給出了明確規(guī)定;在正在制定的國際標準ISO 18484《Acoustics-Indoor acoustic environment》中,STI也是評價聲舒適的重要指標之一。
2011年發(fā)布的IEC標準[1]與以前的版本相比,在技術(shù)領(lǐng)域提升較大,同時標準還致力于提供一個廣泛的、完整的、明確的STI技術(shù)標準,以促進STI方法的應(yīng)用與推廣[1]。但經(jīng)過近年的使用發(fā)現(xiàn),尤其是在建筑聲學(xué)領(lǐng)域的應(yīng)用,有一些可能帶來較大誤差的影響因素并沒有考慮。出現(xiàn)這種情況的原因可能是標準的制定者對擴聲系統(tǒng)、公共廣播系統(tǒng)等領(lǐng)域的影響因素考慮較多,但對建筑聲學(xué)領(lǐng)域的影響因素考慮相對較少。即使在最新修訂的STI技術(shù)標準(v5.0)[2]中,這種情況也沒有明顯改變。盡管修改采用IEC標準[1]的國家標準GB/T 12060.16—2017[3]已經(jīng)做了一些改進,但仍有一些問題需要解決。因此有必要對按現(xiàn)行標準進行自然聲廳堂STI測量時容易遇到的問題以及影響因素進行分析,以提高測量結(jié)果的準確性,促進STI方法的應(yīng)用與推廣。
從20世紀二三十年代人們就開始嘗試對言語可懂度進行客觀評價,第一個客觀評價參量清晰度指數(shù)(Articulation Index,AI)[9]在四五十年代提出,AI在1997年發(fā)展成為言語可懂度指數(shù)(Speech Intelligibility Index,SII)[10]。到70年代,又提出了語音傳輸指數(shù)STI[5]和輔音損失比[11](Articulation Loss of Consonants,ALcons%)等[12]。自STI被提出以來,其一直處于完善與發(fā)展的過程中,一些改進成果,包括對其他成熟方法的借鑒[13]被不斷整合進來。與其他方法相比,STI的適用范圍較寬,具有較高的精度并易于使用[1-3]。雖然STI方法也有一定的局限性,但在許多條件下被證明是非常有效的,因此為國際社會普遍接受。典型的STI應(yīng)用場景包括[1-3]:擴聲系統(tǒng)、房間和廳堂(自然聲或使用擴聲系統(tǒng))、通信電路;直接的言語交流環(huán)境(例如在交通工具內(nèi))、聽力輔助系統(tǒng)等。
IEC標準(v4.0)[1]一共推薦了三個語音傳輸指數(shù)參量:完整STI(FullSTI),公共廣播系統(tǒng)語音傳輸指數(shù)(Speech Transmission Index for Public Address systems,STIPA)和通信系統(tǒng)語音傳輸指數(shù)(Speech Transmission Index for Telecommunication systems,STITEL)。這些參量密切相關(guān),STIPA和STITEL是STI的簡化版本。在IEC標準(v5.0)[2]中,取消了STITEL。對于語音傳輸指數(shù)參量的測量,IEC標準[1-2]推薦了兩種方法:使用調(diào)制信號的直接法和基于系統(tǒng)脈沖響應(yīng)的間接法。直接法測量STI耗時較長,主要在科研中使用[1,3],在常規(guī)測量時使用較少。與直接法STI測量相比,直接法STIPA的測量時間大大縮短,因此IEC標準[1-2]將直接法STIPA推薦用于多種場合,包括擴聲系統(tǒng)、自然聲房間和廳堂的言語可懂度客觀評價。與直接法STI相比,間接法STI的測量耗時較少,但在使用時受到一些條件的限制[1-3]。
結(jié)合近年來的研究成果,在自然聲房間和廳堂中STI測量時可能帶來較大誤差但標準[1-3]并沒有給出明確規(guī)定影響因素主要有聲源特性、測試信號的聲壓級校準、測量方法與流程、不同語言體系等,下面逐一做出分析。
按照IEC標準[1]和國內(nèi)標準[3]規(guī)定,STI測量應(yīng)使用與人嘴指向性特征基本相同的揚聲器(例如仿真嘴)作為測試聲源,也可使用紙盆直徑不超過100 mm的揚聲器作為替代聲源。在最新發(fā)布的IEC標準(v5.0)[2]中,測試聲源紙盆直徑調(diào)整為不超過65 mm。但也有標準[6-7]使用十二面體聲源作為STI的測試聲源,例如在開放式辦公室中的STI測量中。對于測試聲源來說,最可能影響STI測量結(jié)果的聲源特性是聲源的指向性和頻率響應(yīng)[14-15]。測試聲源(系統(tǒng))的均衡對測量結(jié)果有較大影響,頻率響應(yīng)不均衡帶來的STI最大偏差可達到0.172[14],具體大小還取決于聲源本身的頻率響應(yīng)情況。鑒于標準[1-3]已對頻率響應(yīng)均衡作出了明確規(guī)定,本文不做深入討論,下面重點分析聲源指向性的影響。
在接收點位置處,傳聲器接收到的聲信號包含直達聲和反射聲兩部分。對于在自由場校準過的聲源,聲源主輻射方向前方1 m處的直達聲聲壓級是完全相同的,都為60 dBA[3],因而在接收點位置處的直達聲聲壓級也是相同的。然而由于指向性的影響,不同聲源在接收點位置處的反射聲聲壓級是不同的。這時,具有較大指向性指數(shù)(Directivity Index,DI)的聲源(例如紙盆直徑為100 mm的聲源),在接收點位置處的反射聲聲能較低,具有較小DI的聲源(例如十二面體聲源),在接收點位置處的反射聲聲能較高。依據(jù)IEC標準[1-2],調(diào)制傳遞函數(shù)MTF按照公式(1)計算:
上述現(xiàn)象已在研究中得到驗證。在Zhu等的一個研究中[14],對比了3個聲源(仿真嘴GRAS 44AA;監(jiān)聽音箱GENELEC 8020B;十二面體聲源B&K 4292L)的STI測量結(jié)果。由于聲源指向性的影響,具有最小DI的4292L測得的結(jié)果,當(dāng)背景噪聲較高時(信噪比約為?5 dB)STI是最高的,當(dāng)背景噪聲較低時(信噪比約為20 dB)STI基本上是最低的;具有最大DI的8020B(紙盆直徑約100 mm)測得的結(jié)果,當(dāng)背景噪聲較高時(信噪比約為?5 dB)STI是最低的,當(dāng)背景噪聲較低時(信噪比約為20 dB)STI基本上是最高的;8020B測得的結(jié)果與仿真嘴44AA相比,最大偏差達到了?0.065(出現(xiàn)在信噪比約為5 dB時);4292L測得的結(jié)果與仿真嘴44AA相比,最大偏差達到了0.068(出現(xiàn)在信噪比約為5 dB時)。在Zhu等的另一個研究中[15],將當(dāng)前常用的兩個商用STI測量系統(tǒng)(DIRAC Room Acoustics Software(v6.0)[16];NTi XL2 Audio and Acoustic Analyzer[17])的聲源與標準聲源仿真嘴GRAS 44AA做了對比,這三個聲源(GRAS 44AA;DIRAC的Echo Speech Source 4720,紙盆直徑約55 mm;NTi的Audio TalkBox,紙盆直徑約100 mm)都滿足IEC標準(v4.0)[1]的要求,GRAS 44AA和4720也滿足IEC標準(v5.0)[2]的要求。最大的STI偏差出現(xiàn)在具有最大指向性差異的TalkBox和44AA之間,達到了0.072(出現(xiàn)在信噪比約為?5 dB時);即使紙盆直徑較小的4720與44AA之間的STI差異也達到了0.045(出現(xiàn)在信噪比約為20 dB時)。考慮到STI的1個最小可覺差(Just Noticeable Difference,JND)大約為0.03[19],由此可以看到即使?jié)M足標準要求,由聲源指向性帶來的偏差還是比較大的。
這些研究結(jié)果表明,滿足標準[1-3]的聲源仍然可能帶來較大的STI偏差。當(dāng)選擇一個在自然聲房間測量的系統(tǒng)時,聲源特性的影響應(yīng)該加以考慮,否則不同房間的測量結(jié)果之間會沒有可比性。一個紙盆直徑較小的聲源,更容易獲得與仿真嘴相近的指向性特征,但是聲源的聲功率較低,低頻的衰減也較大,在較大房間和廳堂的自然聲條件下無法測得準確的脈沖響應(yīng)。一個紙盆直徑較大的聲源,更容易獲得較大的聲功率和更好的低頻表現(xiàn),但是聲源的指向性較強,會對測量結(jié)果帶來明顯影響。在測試聲源的性能取得較大技術(shù)進步之前,這個問題并沒有理想的解決方法。但換個角度來看,STI只是一個客觀度量工具,穩(wěn)定的測量結(jié)果才是更應(yīng)關(guān)心的問題。我們需要的是一個明確的規(guī)定,例如采用確定尺寸的測試聲源,這樣不同測量數(shù)據(jù)之間才有較好的可比性。從這點來說,當(dāng)前聲源的選擇,可以選用直徑較大的紙盆,這樣可以兼顧較大房間和廳堂的自然聲STI測量。辦公空間的STI測量就明確規(guī)定使用十二面體聲源[6-7],數(shù)據(jù)之間有較好的可比性,也并不影響對辦公空間的評價。
對于擴聲系統(tǒng)的測量,按照標準[1-3]規(guī)定,將聲源設(shè)置在擴聲系統(tǒng)話筒的主軸上,擺放在通常說話人的位置(距離),設(shè)置話筒位置處測試信號的聲壓級為系統(tǒng)正常使用時的工作語音聲級,測點處的聲壓級調(diào)整為聽眾正常聽音時的聲壓級,信號校準的方式與自然聲房間和廳堂并不相同[3]。由于聲源指向性帶來的測點處聲壓級差異可通過擴聲系統(tǒng)的增益來補償,并且擴聲情況下信噪比普遍較高,因此聲源指向性對擴聲條件下的STI測量影響較小。當(dāng)然擴聲系統(tǒng)的測試信號在自由場中校準也是應(yīng)該鼓勵的。
對于擴聲系統(tǒng)的測量,盡管測試信號的聲壓級采用了現(xiàn)場校準的方式[1-2],但對STI的測量影響較小。對于自然聲房間和廳堂的測試信號聲壓級校準,IEC標準[1-2]默認同擴聲系統(tǒng)一樣,在現(xiàn)場校準。國內(nèi)標準[3]對此做了修改,明確規(guī)定測量使用自然聲的房間和廳堂的言語可懂度時,測試信號的聲壓級應(yīng)在自由場中校準,設(shè)定仿真嘴或測試揚聲器(主輻射軸方向)前1 m處的等效連續(xù)聲壓級為60 dBA。如果在現(xiàn)場校準,由于反射聲的影響,工作語音聲級可能被明顯低估,這種低估還與房間的聲學(xué)條件有關(guān),使得不同房間和廳堂的測量數(shù)據(jù)之間沒有可比性。在Zhu等的一個研究中[15],進行了自由場校準和現(xiàn)場校準對STI測量結(jié)果影響的對比。在4個房間中,以標準聲源仿真嘴44AA為例,現(xiàn)場校準和自由場校準的聲壓級差分別為實驗室中3.2 dB(中頻混響時間為1.87 s);辦公室中3.1 dB(中頻混響時間為0.73 s);教室中1.3 dB(中頻混響時間為1.25 s);會議室1.1 dB(中頻混響時間為1.15 s)。1 dB的信噪比(Signal to Noise Ratio,SNR)變化最大可帶來約0.033的STI偏差[2,18]。SNR變化對STI的影響同時還取決于混響時間的長短、信噪比的大小,圖1給出了SNR的不確定度為1 dB時,不同SNR情況下的STI不確定度絕對值與混響時間(Reverberation Time,RT)的關(guān)系[2,18],數(shù)據(jù)是在房間理想指數(shù)衰變聲學(xué)條件下計算得到的。根據(jù)圖 1可知,在混響時間較短、信噪比較低的情況下,SNR的變化對STI的影響較大。以基本滿足正常使用時的SNR為9 dB情況為例,實驗室中3.2 dB的信號聲壓級差可帶來約0.024的STI偏差;辦公室中3.1 dB的信號聲壓級差可帶來約0.045的STI偏差,超過了1個JND;教室中1.3 dB的信號聲壓級差可帶來約0.013的STI偏差;會議室中1.1 dB的信號聲壓級差可帶來約0.011的STI偏差。由此可見,測試信號的自由場聲壓級校準對于自然聲房間和廳堂的STI測量也非常重要。
對于STI的測量,主要有直接法STI、直接法STIPA和間接法STI可供選擇[1-2]。對于擴聲系統(tǒng)來說,直接法STIPA是比較合適的方法。這是因為由于效果器的作用,很多時候擴聲系統(tǒng)并不是一個線性時不變系統(tǒng),間接法STI并不適用于存在非線性失真的聲傳輸通路,而直接法STI的測量時間較長,無法進行商業(yè)測量。研究表明[15,19],STIPA和STI之間的差異較小,基本不隨 SNR的變化而變化,最大偏差為0.018,小于1個JND。這種差異主要受測量系統(tǒng)或者房間的頻率響應(yīng)影響。
對于自然聲房間和廳堂的STI測量,IEC標準[1-2]同時推薦了直接法STI、直接法STIPA和間接法STIPA、間接法STI。依據(jù)相關(guān)研究[15,19],直接法STI和間接法STI測量結(jié)果沒有區(qū)別,兩者同樣穩(wěn)定、準確,間接法STI也完全可以滿足科研需求。這也是可以解釋的,當(dāng)直接法的測試信號具有無限多個調(diào)制周期時,直接法測量結(jié)果就會無限接近于使用脈沖響應(yīng)計算MTF得到的間接法測量結(jié)果。由于間接法STIPA與間接法STI測量時間、流程基本相同,因此間接法STI成為自然聲房間和廳堂測量的一個最佳選擇。
當(dāng)前間接法STI測量產(chǎn)生的較大誤差主要是由不規(guī)范的信噪比修正導(dǎo)致的[15]。間接法STI測量一般分兩部分進行,一部分是脈沖響應(yīng)測量,另一部分是計算STI時用于信噪比修正的工作語音聲級和背景噪聲測量。當(dāng)前存在的主要問題是,包括一些商業(yè)測量系統(tǒng),工作語音聲級的測量沒有使用與直接法測試信號頻譜完全相同的標準信號。在現(xiàn)場使用一段語音測量工作語音聲級會存在兩個問題:首先如果語音信號沒有經(jīng)過自由場校準,測得的工作語音聲級會有偏差,見2.2節(jié);其次,一段語音信號由于存在起伏和靜音部分,與一段穩(wěn)定信號測得的聲壓級并不相同,同時這段語音信號的頻譜與語言長時平均頻譜之間還會有差異。這會使間接法STI測量結(jié)果出現(xiàn)較大偏差。在Zhu等的研究中[14-15,19-21],采用了一個經(jīng)過標準語言譜調(diào)整的7個1/2倍頻帶載波合成的信號(沒有經(jīng)過調(diào)制頻率調(diào)制)測量工作語音聲級,這個信號的聲壓級也在自由場中進行了校準,這樣測點處的工作語音聲級、頻譜與直接法STI測量時完全相同,測量結(jié)果也是完全相同的。
盡管間接法測量結(jié)果同樣準確,所需時間較短,但是由于測量包含兩個過程,系統(tǒng)也需是線性時不變系統(tǒng),這對測試人員提出了一定的技術(shù)要求。而直接法STIPA測量只包含一個過程,這也是STIPA獲得廣泛使用的原因之一。經(jīng)過簡單操作就可獲得測量結(jié)果,這也是間接法STI測量系統(tǒng)的發(fā)展方向。當(dāng)前很多測量系統(tǒng)都提供了基于脈沖響應(yīng)的間接法STI測量,但這些系統(tǒng)很少提供一個標準的工作語音聲級測試信號和一個標準聲源,使得很難獲得準確的測量結(jié)果。DIRAC測量平臺(包括Echo Speech Source)[16]則是這些測量系統(tǒng)中的一個很好例外,它提供了一種易于操作的間接法解決方案,使用一個經(jīng)過工廠校準的聲源發(fā)出測試信號,整個測試只需一個操作過程。但即使DIRAC這樣的測量平臺,可能也有需要改進的地方,在Zhu等的研究中[15],DIRAC的測量結(jié)果在背景噪聲較高時出現(xiàn)了較大偏差,進一步的研究發(fā)現(xiàn)信噪比修正存在問題。DIRAC使用測得的脈沖響應(yīng)計算信噪比,這與使用標準工作語音聲級和背景噪聲計算得到的信噪比明顯不同。對于DIRAC來說,只需在多段連續(xù)的測試信號中插入一段標準化的工作語音信號用于計算信噪比,就可很好解決這個問題[15]。
當(dāng)前間接法STI推廣的當(dāng)務(wù)之急是為這些測量系統(tǒng)匹配一個標準聲源,并在聲源中整合一個標準的工作語音信號。對于直接法STIPA的測量,盡管理論上與直接法STI差異不大,但現(xiàn)有的STIPA測量系統(tǒng)過于追求縮短測試時間,例如一個測試只需要10~15 s,使用7個載波頻帶同時混合的信號,在接收信號的包絡(luò)提取上可能就需要更好的處理技術(shù),否則在背景噪聲較高時,測量結(jié)果容易出現(xiàn)偏差[15]。
由不同語言體系帶來的影響在STI方法中主要體現(xiàn)在四組修正系數(shù)上[1-3]:語言頻譜、聽覺掩蔽效應(yīng)、絕對言語接收閾、倍頻帶權(quán)重因子和冗余因子。研究表明,這些修正系數(shù)中不同語言頻譜的影響較大,其他系數(shù)的影響相對較小[20]。在IEC標準(v4.0)[1]中,使用漢語語言頻譜替代西方語言頻譜,可帶來最大約0.054的STI差異[20]。IEC最新標準(v5.0)[2]對西方語言頻譜進行了調(diào)整,調(diào)整后的西方語言頻譜在低頻有了較大衰減,這與漢語語言頻譜相似,在高頻與漢語語言頻譜的差異也有一定減小,因此由語言頻譜帶來的影響還會降低。表1給出了漢語語言頻譜[20]和 IEC標準[1-2]推薦的西方語言頻譜對比。表1中各倍頻帶聲壓級(單位dB)被歸一化為總聲級0 dB(A)。一般來說,IEC標準定義的STI只是一個國際上普遍采用的基礎(chǔ)度量工具,不是一個具體的評價標準,如果在用于不同語言體系時確有明顯差異,可在規(guī)定不同房間和廳堂的STI限值的具體評價標準中做出調(diào)整,例如在教室中西方語言體系下的STI建議值為0.62[1-3],依據(jù)漢語的主、客觀評價對應(yīng)關(guān)系曲線,國內(nèi)標準可以規(guī)定為其他的值。也有研究表明,盡管漢語語言體系與西方語言體系完全不同,使用漢語與英語這兩種不同語言的主體在感受和理解上也存在文化差異,漢語語言體系和西方語言體系的言語可懂度主、客觀評價對應(yīng)關(guān)系并沒有明顯差異[20,22]。影響言語可懂度主、客觀評價結(jié)果的因素較多,二者的對應(yīng)關(guān)系比較復(fù)雜,這仍需要進一步的研究。
表1 漢語語言頻譜和IEC標準推薦的西方語言頻譜Table 1 Chinese language spectrum and western language spectrums recommended by IEC standards
標準[1-3]推薦采用全指向性和擴散聲場型傳聲器,并明確說明使用指向性傳聲器會導(dǎo)致不同和不相關(guān)的測量結(jié)果。但實際上即使是全指向性傳聲器,也有一定的指向性特征[15]。因此可以認為系統(tǒng)的指向性是兩個換能器(聲源和傳聲器)的共同作用。另外,在測量過程中傳聲器附近是否有人存在也是一個影響因素,因為可能使用手持式測量儀器[15]。這方面標準并沒有給出明確的說明[1-2,5]。在Zhu等的研究[15]中進行了4種傳聲器設(shè)置的對比:傳聲器垂直指向上方(附近有人或沒有人)和傳聲器指向信號聲源(附近有人或沒有人)。結(jié)果表明,4種傳聲器設(shè)置條件下相互之間的STI差值都非常小,最大的STI差值僅為0.011,小于1個JND;傳聲器指向信號聲源時,附近有人和沒有人的STI差值的平均值為0.004;傳聲器垂直指向上方時,附近有人和沒有人的STI差值的平均值為0.008;附近沒有人時,傳聲器指向信號聲源與垂直指向的STI差值的平均值為0.007。這些STI差值的平均值均大于0,說明傳聲器的指向性以及附近是否有人確實會影響STI的測量結(jié)果,但與聲源指向性、頻率響應(yīng)均衡、測試信號的聲級校準以及測量方法等對STI的影響相比,這些偏差相對較小,不在一個數(shù)量級上[15]。
盡管IEC標準致力于提供一個廣泛的、完整的、明確的STI技術(shù)規(guī)范,但經(jīng)過近年的使用發(fā)現(xiàn),有一些可能帶來較大誤差的影響因素并沒有給出明確規(guī)定,使得按當(dāng)前標準測量獲得的數(shù)據(jù)之間缺少可比性,尤其是在建筑聲學(xué)領(lǐng)域的應(yīng)用。結(jié)合近年的研究成果,本文對這些可能的影響因素做出了分析并給出了解決方案。這些問題完全可以通過對測試聲源、信號等的選用給出更加清晰明確的限定,并采用規(guī)范化的測試流程來解決。隨著這些問題的解決,STI今后必將作為一個通用的聲學(xué)參量而獲得廣泛使用,對于劇院、多功能廳、體育館、教室等的傳統(tǒng)建筑聲學(xué)測量也會向該領(lǐng)域迅速拓展。