王 青 云
(鄭州大學體育學院 河南 鄭州 450044)
英語聽力作為學習英語語言必須掌握的技能,在提高英語學習者對于口語的發(fā)音與應用能力方面具有十分重要的作用,被越來越多的英語語言學習者所重視[1]。傳統(tǒng)的英語教學模式是教師通過錄音設(shè)備來播放錄好的英語磁帶,這種方式隨著教學體制的改革,逐漸被多媒體教學模式取代。多媒體語言教學支持課堂講解和自主學習兩種學習模式,這種教學方式更利于學生與教師之間的教學互動,深得學生的好評,且教學效果得到了顯著提高[2]。目前,多媒體英語信號源發(fā)出的標準語音信號參數(shù)單一,音頻信號分析儀測量結(jié)果缺乏多樣性,采用常規(guī)評價方法難以全面評價英語聽力信號的準確性,無法有效滿足多媒體英語聽力校準的實際需求,在此背景下,研究更有效的評價方法具有非常重要的現(xiàn)實意義。
音頻質(zhì)量評價可以分為兩種,其中一種是文獻[3]給出的音頻質(zhì)量評價方法,其屬于主觀評價方法,通過對測聽者的平均意見分直接顯現(xiàn)人對聽力的感覺,但該方法可重復性較差;另一種是文獻[4]給出的音頻質(zhì)量評價方法,其屬于客觀評價方法,通過測量音頻信號特征參數(shù)來評價聽力質(zhì)量,使客觀評價結(jié)果可以準確預測出音頻質(zhì)量的主觀評價結(jié)果,但該方法無法實現(xiàn)實時評測語音質(zhì)量。針對上述方法存在的問題,設(shè)計多媒體英語聽力自動評價系統(tǒng),可應用于多媒體英語聽力音頻質(zhì)量實際評價中。
MFCC參數(shù)能夠反映人類聽覺系統(tǒng)對聽力的幅頻感知特性,在噪聲環(huán)境下具有魯棒性。多媒體英語聽力自動評價系統(tǒng)開發(fā)框架結(jié)構(gòu)如圖1所示。
在多媒體英語聽力自動評價系統(tǒng)中,選取三角形濾波器對輸入多媒體英語聽力信號實施濾波處理后,對濾波處理后信號分析音頻信號能量譜提取音頻信號MFCC特征參數(shù),以MFCC特征參數(shù)為理論依據(jù),根據(jù)MBSD測度值、噪聲幀與弱音幀占總音頻信號幀的比率及擬合獲得的估計結(jié)果,得到與MOS高度一致的音頻質(zhì)量評價值,通過平衡控制支持向量機模型的復雜度與逼近誤差[5],以MOS值為評價測度分析與管理音頻質(zhì)量,選取少量準確的聽力音頻數(shù)據(jù)采用支持向量機與擴展因子訓練,支持向量機模型輸出結(jié)果即可實現(xiàn)多媒體英語聽力質(zhì)量的判斷,實現(xiàn)多媒體英語聽力自動評價。
設(shè)定經(jīng)過預處理后的英語聽力音頻片段x(n)經(jīng)過加窗分幀和FFT變換得到音頻信號頻譜Xk(f),采用Mel頻譜尺度更符合人類聽覺特性,以下給出Mel頻率與實際英語聽力音頻信號頻率的具體關(guān)系:
M(f)=2 595 lg(1+f/700)
(1)
式中:頻率f的單位是Hz。
采用三角形濾波器對音頻信號進行濾波處理時,近鄰頻帶之間存在頻譜能量彼此泄露[6],難以反映出共振特性。聽覺分析濾波器剛好可以彌補三角形濾波器這一不足,式(2)為聽覺分析濾波器在時域?qū)σ纛l信號進行濾波處理的表達式:
gl(t)=tn-1e-2.038cos(2πflt+φl)u(t)
(2)
式中:n用于描述濾波器階數(shù);bl表示第l個濾波器的等效矩陣帶寬;fl表示第l個濾波器的中心頻率;φl表示第l個濾波器的初始相位;u(t)表示濾波器階躍函數(shù);L表示濾波器數(shù)量。
采用聽覺分析濾波器組在頻域?qū)τ⒄Z音頻信號能量譜進行濾波處理,可獲得各個聽覺分析濾波器的輸出能量:
(3)
MFCC參數(shù)將對數(shù)運算考慮為語音信號幅值轉(zhuǎn)換過程,但對數(shù)運算從本質(zhì)上來看是屬于同態(tài)解卷積,其變換特性難以模擬英語聽力的強度-響度感知特性。非線性壓縮運算剛好能彌補此不足,采用非線性壓縮運算替換對數(shù)運算[7],使MFCC參數(shù)更符合人類聽覺生理模型。通過立方根函數(shù)來描述英語聽力的強度-響度感知變換,即:
Sk(l)=[Pk(l)]1/3
(4)
對各個濾波器的輸出能量求取對數(shù),來模擬聽力強度-響度變換,對數(shù)能量通過DCT變換到音頻信號的倒譜域,獲得MFCC參數(shù)。
對于英語聽力音頻信號中的頻率常量采用RASTA濾波器進行濾波處理,即:
(5)
通過RASTA濾波和DCT變換后獲得優(yōu)化后的MFCC參數(shù):
(6)
式中:i=0,1,…,p,p表示MFCC參數(shù)的階數(shù)。
失真測度能夠較好地模擬人耳對英語聽力原始語音和失真語音的對比過程。利用MBSD作為失真語音大小的度量,以計算獲得的各幀音頻信號的不同臨界帶的響度和噪聲掩蓋門限,結(jié)合MBSD測度的設(shè)定獲得MBSD值。計算出信號失真幀與弱音幀之間的比率。為了計算出該值,需要計算各幀輸入信號與編碼信號的能量,再根據(jù)設(shè)置的能量門限值先判定該幀信號是失真幀還是弱音幀,再判斷該幀信號為失真幀和弱音幀時占總音頻信號幀總數(shù)的比例[8],由通過擬合獲得的音頻質(zhì)量評價式獲得與MOS值高度相關(guān)的英語聽力質(zhì)量評價值。
評價多媒體英語聽力音頻質(zhì)量與人體感受聲音響度有著十分密切的關(guān)系,設(shè)定MBSD時,應當以每幀原始音頻信號和編碼信號響度間差值的平均來考慮。在進行響度計算時需要將音頻信號轉(zhuǎn)換到響度中,來模擬人類的聽覺感受特性[9]。
對于音頻信號臨界帶,原始音頻信號與編碼信號之間的能量差值與噪聲掩蔽門限值相比較小時,則在此臨界帶內(nèi)信號失真將不會被感知;相反假設(shè)原始音頻信號和編碼語音之間的能量差值與噪聲掩蔽門限值相比較大時,則此臨界帶內(nèi)信號失真將被感知。噪聲掩蔽門限經(jīng)過臨界帶濾波、擴展函數(shù)作用與絕對門限聯(lián)合得到。通過臨界帶濾波處理后可獲得信號不同臨界帶的能量[10];擴展函數(shù)可用于描述不通過音頻信號臨界帶之間噪聲信號的相互作用。當通過擴展函數(shù)作用后獲得噪聲掩蔽門限值比其相應的臨界帶絕對門限值小時,MBSD測度值利用式(7)計算:
(7)
如果某幀音頻信號在初始階段能量較小,后期能量值明顯增大,則該幀音頻信號為噪聲信號;如果某幀音頻信號在編碼階段能量損失較為明顯,則該幀信號為弱音幀。信號噪聲幀以及弱音幀占整個聽力音頻幀的多少反映了該段音頻信號的失真程度[11]。各幀音頻信號的能量如下:
(8)
(9)
式中:X(i,j)和Y(i,j)分別用于表示與輸入的英語聽力音頻信號第j幀相應的短時功譜序列中第i個樣值點。
考慮到測試階段英語聽力的響度級在75 dB以上的占50%以上,門限值應當設(shè)定小于聽力音頻信號能量最大值的35 dB和45 dB,即:
(10)
(11)
當?shù)趈幀音頻信號的能量小于xt2,而第j幀編碼信號能量大于yt1時,說明該幀音頻信號經(jīng)過編碼處理后能量被放大,則該幀為噪聲信號幀;當?shù)趈幀音頻信號的能量大于10 dB,而第j幀編碼后的音頻信號小于yt2時,說明該幀音頻信號經(jīng)過編碼處理后能量損失較多,則該幀為弱音幀。信號噪聲幀與弱音幀占總聽力音頻信號幀總數(shù)的比率為Vnm。
在IBSD中,音頻信號質(zhì)量評估值應當與主觀質(zhì)量評價值存在正相關(guān)關(guān)系,英語聽力質(zhì)量越好[12],相應的評估值越高。為了方便起見,將主觀質(zhì)量評估值區(qū)間設(shè)定為[0,1],為1時說明音頻信號沒有失真現(xiàn)象,為0時說明音頻信號質(zhì)量較差。
支持向量機(SVM)是基于結(jié)構(gòu)風險最小原理及VC維理論所建立的,可有效解決高維數(shù)、小樣本以及容易陷入局部最小點等問題,是機器學習算法中解決非線性問題的重要方法[13],支持向量機模型具有較好的學習性能已廣泛應用于各種評價問題中。
用xk∈Rn表示輸入數(shù)據(jù),用yk∈R表示輸出數(shù)據(jù),可得待評價樣本集為B={(xk,yk)|k=1,2,…,N}。通過非線性特征映射將Rn映射至特征空間內(nèi)用G表示,利用函數(shù)f(x)=ωTφx+b逼近未知函數(shù)g(x),函數(shù)f(x)屬于訓練集B內(nèi)函數(shù),ω與b分別表示特征空間G內(nèi)權(quán)向量以及偏置,且b∈R。
支持向量機利用極小化結(jié)構(gòu)風險獲取目標函數(shù)如下:
(12)
(13)
選取拉格朗日乘子建立拉格朗日泛函,獲取二次規(guī)劃問題的對偶公式如下:
(14)
(15)
(16)
在IBSD中,音頻質(zhì)量評估結(jié)果受到MBSD和Vnm的影響,MBSD值越大,說明原始音頻信號和重建后的音頻信號之間譜失真情況較為嚴重[14],此時音頻質(zhì)量將隨之下降。而隨著Vnm數(shù)值的不斷增大,音頻信號中含有的噪聲幀和弱音幀也不斷增加,此時英語聽力質(zhì)量隨之下降。通過上述分析可知,IBSD和Vnm之間為反比關(guān)系,即受到有界的約束,可利用式(17)計算音頻信號的IBSD值:
(17)
由于聽力信號受信號節(jié)點的中繼位置的擴展因子影響,因此需結(jié)合該因子的分析對語音信號進行訓練,以實現(xiàn)多媒體英語聽力自動評價,其中聽力語音信號的中繼位置與擴展因子關(guān)聯(lián)性關(guān)系如圖2所示。
由圖2可知,發(fā)送端的坐標點為(0,0),轉(zhuǎn)發(fā)節(jié)點的坐標為(d,0)。將支持向量機中一組錯誤擴展因子作為螢火蟲算法個體,采用螢火蟲算法優(yōu)化支持向量機模型參數(shù)擴展因子,采用少數(shù)準確的多媒體英語聽力音頻片段對SVM模型進行訓練,以實現(xiàn)多媒體英語聽力的自動評價。具體過程如下所述:
擴展因子可以控制SVM模型復雜度與逼近誤差之間的平衡,將SVM中一組錯誤擴展因子作為螢火蟲算法個體,對擴展因子C進行優(yōu)化,具體步驟如下:
(1) 初始化種群中熒光素揮發(fā)函數(shù)ρ,增強因子γ,種群個體的感知范圍rs,鄰域變化率β,螢火蟲移動步長s。
(2) 確定SVM模型中擴展因子的取值區(qū)間。
(3) 在擴展因子C的取值區(qū)間內(nèi),隨機選取一個值,將其作為種群個體當前所在位置。采用英語聽力音頻數(shù)據(jù),將音頻信號實際MBSD測度值的誤差作為種群適應度函數(shù),誤差較小,SVM模型性能越好,種群適應度越大。
(4) 計算種群中每一個個體的熒光素濃度,其近鄰個體的熒光素濃度值確定個體的搜索方向[15]。
(5) 判斷是否達到終止條件,如果此時已達到中止條件,則將此時搜索得到的最優(yōu)解視為模型的參數(shù),否則轉(zhuǎn)至步驟(4)。
假設(shè)yi、yj分別表示ti、tj時刻兩段英語聽力音頻片段數(shù)據(jù),則這兩個階段聽力音頻數(shù)據(jù)間的分段函數(shù)為:
(18)
設(shè)定兩次測試間分段函數(shù)可以偏離的能量損失為h,則ti、tj時刻英語聽力音頻數(shù)據(jù)的上限函數(shù)為:
(19)
在線測量數(shù)據(jù)的下限函數(shù)為:
(20)
假設(shè)兩次離線測試間的多媒體英語聽力音頻數(shù)據(jù)若超過了上限或是下限,則認為在線測量的音頻數(shù)據(jù)質(zhì)量差。采用少數(shù)準確的英語聽力音頻數(shù)據(jù)對模型進行訓練,通過訓練好的SVM模型對英語聽力音頻信號質(zhì)量進行自動評價。
為了驗證所提出的多媒體英語聽力自動評價系統(tǒng)設(shè)計的合理性,選取Intel Celeron Tulatin 1 GHz CPU和384 MB SD內(nèi)存的硬件環(huán)境和MATLAB 6.1的軟件環(huán)境進行測試。表1列出了評價系統(tǒng)運行環(huán)境及實驗信息的基礎(chǔ)參數(shù)。
表1 實驗參數(shù)表
本文所設(shè)計多媒體英語聽力自動評價系統(tǒng)界面圖如圖3所示。
可以看出,所設(shè)計多媒體英語聽力自動評價系統(tǒng)可有效評價英語聽力的韻律、情感及重音情況,有效驗證了系統(tǒng)評價的有效性。
多媒體英語聽力樣本為語音數(shù)據(jù)庫中已知MOS值的聽力文件,對聽力文件進行數(shù)據(jù)轉(zhuǎn)化,得到語音信號幅值情況,結(jié)果如圖4所示。
可以看出,系統(tǒng)可有效將聽力文件數(shù)據(jù)轉(zhuǎn)化至語音信號幅值情況,所獲取語音信號幅值有助于提升多媒體英語聽力精準性。
選取專家評價法評價采用本文系統(tǒng)評價8段多媒體英語音頻片段韻律、情感及重音情況的評分準確性,滿分為10分,專家評分結(jié)果如表2所示。
表2 專家評分結(jié)果
可以看出,本文系統(tǒng)對于多媒體英語聽力8個音頻片段評價韻律、情感以及重音情況準確性的評分結(jié)果分別為9.2分、9.3分、9.2分,專家評分結(jié)果說明采用本文系統(tǒng)可準確評價多媒體英語音頻片段,具有較高的實用性。
本文系統(tǒng)對隨機音頻片段運行100 s內(nèi)的幅值信號統(tǒng)計結(jié)果如圖5所示。
可以看出,所設(shè)計系統(tǒng)可直觀體現(xiàn)不同音頻片段的信號情況,依據(jù)所展示幅值可準確評估不同多媒體英語音頻片段的信號質(zhì)量,有效驗證所設(shè)計系統(tǒng)評價多媒體英語聽力音頻信號質(zhì)量有效性。
統(tǒng)計采用所設(shè)計系統(tǒng)評價8段多媒體英語音頻片段的評價時間,并選取基于層次分析法的評價系統(tǒng)及基于神經(jīng)網(wǎng)絡(luò)的評價系統(tǒng)作為對比系統(tǒng),對比結(jié)果如表3所示。
表3 不同系統(tǒng)評價時間對比
單位:ms
可以看出,采用本文系統(tǒng)評價8個多媒體英語聽力音頻片段平均評價時間僅為111 ms,對比結(jié)果說明所設(shè)計系統(tǒng)評價多媒體英語聽力具有較高的實時性。
本文提出一種多媒體英語聽力自動評價系統(tǒng)設(shè)計。該系統(tǒng)結(jié)合了人耳的聽覺生理模型、MBSD測度,并考慮了噪聲幀和弱音幀比率對多媒體英語聽力音頻質(zhì)量的影響,將其應用于多媒體英語聽力的校準。實驗證明所設(shè)計系統(tǒng)可準確評價多媒體英語聽力音頻文件,相比其他系統(tǒng)具有較高的實時性。