汪斐, 王婧錦
(1.商洛學院 人文學院, 陜西 商洛 726000; 2.陜西中醫(yī)藥大學 外語學院, 陜西 咸陽 712046)
英語教學的重點是培養(yǎng)大學生的聽說讀寫能力,其中口語翻譯在培養(yǎng)大學生的聽說讀寫能力,在大學生更好地開展國際交流中發(fā)揮著至關重要的作用。對漢英口語翻譯自動評分可以將評分的結果及時反饋給學習者,使學習者了解自身存在的不足,從而達到“以測促學”的目的。目前,漢英口語翻譯的評分主要依賴于人工,這使得評分結果具有較大的主觀性,評分結果的客觀性無法保證,“以測促學”的目的不能夠達到。同時,對漢英口語翻譯的人工評分也需要投入大量的人力、物力和財力資源,導致漢英口語考試的成本比較大。語音信號處理技術和文本識別技術的快速發(fā)展為大規(guī)模漢英口語翻譯自動評分提供了解決方案,通過設計自動評分系統(tǒng),學習者可以及時了解自身在漢英口語翻譯中存在的不足,提升自身的漢英口語翻譯能力,同時也可以節(jié)省大量的人力、物力和財力資源。尹立言等[1]采用雙路奇異值分解算法對語音信號進行降噪處理,從雙路奇異向量的相關性出發(fā)來確定低階噪聲奇異向量的位置,將剩余的奇異值和奇異向量重構得到優(yōu)化估計的降噪信號。張勝斌[2]對基于答題關鍵信息的漢英口語翻譯題自動評分方法進行了研究,采用CNN對語音信號進行處理。田艷[3]對深度學習技術在英譯漢即時自動評分中的應用進行了研究,通過學生輸入譯文和標準譯文的相似度計算,達到自動評分的目的。前人對漢英口語翻譯自動評分往往單純是從語音信號處理或者文本識別的角度出發(fā),這使得自動評分系統(tǒng)具有一定的局限性?;诖耍疚穆?lián)合語音信號處理技術和文本識別技術來設計漢英口語翻譯自動評分系統(tǒng),達到即時自動評分的目的。
對漢英口語翻譯的自動評分可以從兩個角度開展,即通過對口語翻譯的語音信號處理進行自動評分和將語音信號轉化為文本,通過文本識別技術來自動評分。不論是單純地采用哪一種方法,都受到信號處理技術或文本識別技術的限制,自動評分的準確性不高?;诖?,本文將兩者進行聯(lián)合,構建漢英口語翻譯自動評分的回歸模型,從而達到發(fā)揮兩者優(yōu)勢的目的。漢英口語翻譯自動評分模型如圖1所示。
圖1 漢英口語翻譯自動評分模型
由圖1可知,對漢英口語翻譯自動評分是分別采用文本識別技術提取相似度特征和語音信號處理技術提取語音特征,通過對得到的相似度特征和語音特征用線性回歸模型進行權重訓練,最終得到漢英口語翻譯自動評分方法。令Y為口語翻譯人工評分的平均值;ai(i=0,1,…,n)為特征向量權重;Xi(i=1,…,n)為特征向量,那么線性回歸模型為式(1)。
Y=a0+a1X1+…+anXn
(1)
對線性回歸分析模型基于均方誤差最小進行訓練,獲得特征向量的權重ai。
在英語考試中,口語翻譯和寫作均屬于主觀題,但是兩者也存在很大的不同。寫作的范圍比較廣,無標準答案,而口語翻譯是對特定的漢語句子翻譯成英語,有標準答案,這使得對漢英口語翻譯自動評分成為可能。對漢英口語翻譯自動評分的關鍵在于判斷考生譯文和標準譯文之間的相似度[4]。相似度越高,那么考生翻譯的準確性越高,即得分越高。本文選擇詞頻余弦相似度、Dice系數(shù)、Jaccard相似度、關鍵詞覆蓋率來反映考生譯文樣本和標準答案樣本之間的相似度。
詞頻余弦相似度也稱為詞頻余弦相似性,通過計算兩個樣本向量的余弦值來判斷兩個樣本之間的相似度。由數(shù)學知識可知,詞頻相似度最大值為1,最小值為-1。兩個樣本向量的詞頻相似度越接近1,其向量的方向越接近,那么考生的譯文和標準答案越接近。設A和B為給定的兩個樣本集合,其詞頻余弦相似度計算式[5]為式(2)。
(2)
Dice系數(shù)是衡量兩個字符串相似度的特征量,如果兩個字符串的Dice系數(shù)越大,那么這兩個字符串的相似度越高;反之,兩個字符串的相似度越低。將漢英口語翻譯考生的答案看做字符串A,將標準答案看做字符串B,那么字符串A和字符串B的Dice系數(shù)計算式[6]為式(3)。
(3)
其中,comm(A,B)表示字符串A與B中所包含的相同字符個數(shù);leng(·)表示字符串長度。
Jaccard相似度是衡量集合相似度的特征量,如果兩個集合的Jaccard值越大,那么這兩個集合的相似度越大;反之,這兩個集合的相似度越小。將漢英口語翻譯考生的答案和標準答案分別看做兩個集合,計算考生答案集合和標準答案集合的Jaccard相似度。設A和B分別為考生答案集合和標準答案集合,Jaccard相似度計算式[7]為式(4)。
(4)
關鍵詞覆蓋率反映的是考生翻譯答案中所包含關鍵詞的個數(shù)占標準答案中關鍵詞個數(shù)的比例。關鍵詞覆蓋率越高,那么考生翻譯答案和標準答案之間越接近,其評分也就越高。假定考生漢英口語翻譯答案中包含n個關鍵詞,標準答案中包含m個關鍵詞,關鍵詞覆蓋率F計算式[8]為式(5)。
(5)
漢英口語翻譯的語音信號往往包含有大量的噪聲,這些噪聲的存在將在很大程度上影響到后續(xù)處理的性能,因此需要先對考生口語翻譯的語音信號進行降噪處理。矩陣的奇異值具有良好的穩(wěn)定性,通過矩陣奇異值分解(SVD)可以達到信號降噪處理的目的,本文采用SVD對語音信號降噪處理。采用SVD對語音信號降噪處理的一般步驟[9]如下。
(1) 構造H矩陣:語音信號的長度N為奇數(shù)時,H矩陣的行數(shù)m為(N+1)/2;語音信號的長度N為偶數(shù)時,H矩陣的行數(shù)m為N/2,H矩陣的列數(shù)n=N-m+1;
(2) SVD分解:對H矩陣進行SVD分解,可以得到兩個標準化的正交矩陣Um×m、Vn×n和對角矩陣Dm×n,滿足H=UDV;
HΔ=UD′V
(6)
(5) 獲得降噪后信號:選擇HΔ第一行的所有元素和第二行第n列到第m行第n列的m-1個元素,這樣就可以獲得降噪后的語音信號。
采用SVD對考生漢英口語翻譯語言信號進行降噪處理,得到降噪后波形信號。原始語音信號和降噪后語音信號如圖2所示。
(a) 降噪前波形
(b) 降噪后波形
提取漢英口語翻譯語音信號的關鍵信息完整性特征和發(fā)音流利度特征來衡量翻譯質量。關鍵信息完整性特征反映了考生翻譯語音所包含的翻譯關鍵點。采用基于SLN-DTW的關鍵詞檢出方法對關鍵詞匹配得出的最小局部平均累積距離,將其作為關鍵信息完整性特征[10]。發(fā)音流利度反映了漢英口語翻譯的流利程度??忌谡Z翻譯越流利,其口語翻譯評分也越高。流利度一般用單位時間內口語翻譯結果的單詞個數(shù)來衡量。
采集陜西省某示范院校外國語學院英語專業(yè)期末漢英口語翻譯的300名學生語音信號,對采集到的信號進行語音識別得到對應的文本數(shù)據(jù),計算文本數(shù)據(jù)的相似度特征,同時對采集到的信號采用SVD進行降噪處理,對降噪處理后的信號提取語音特征。漢英口語翻譯自動評分的性能采用自動評分與專家評分的相關系數(shù)來衡量,相關系數(shù)越大,自動評分系統(tǒng)的性能越好。通過選擇15名漢英口語翻譯評分專家對考生口語翻譯評分結果進行統(tǒng)計分析,其平均相關系數(shù)為0.872。
提取300名考生語音信號的相似度特征和語音特征,分別計算詞頻余弦相似度、Dice系數(shù)、Jaccard相似度、關鍵詞覆蓋率、關鍵信息完整性、發(fā)音流利度共6個特征和專家評分之間的相關性,結果如表1所示。
表1 提取特征與專家評分相關性
由表1可知,相似性特征與語音特征均與專家評分之間具有比較好的相關性。利用相關系數(shù)的大小由大到小將6個特征依次加入到漢英口語翻譯自動評分系統(tǒng)中,加入特征對自動評分系統(tǒng)性能的影響如圖3所示。
(a) 相關系數(shù)
(b) 平均分差
由圖3可知,漢英口語翻譯自動評分與專家評分之間的相關系數(shù)整體趨勢為上升,平均分差整體趨勢為下降。第2、5特征加入對漢英口語翻譯自動評分系統(tǒng)的影響比較小,可以直接刪除。為了進一步說明漢英口語翻譯自動評分的性能,將自動評分系統(tǒng)與專家評分進行對比,結果如表2所示。
表2 自動評分與專家評分對比
由表2可知,在去除第2、5特征這兩個冗余特征之后,漢英口語翻譯自動評分系統(tǒng)的性能得到了明顯改善,即選擇4個特征得到漢英口語翻譯自動評分系統(tǒng)。
漢英口語翻譯自動評分系統(tǒng)在確保評分客觀性、提高評分效率、降低測試投入方面發(fā)揮著至關重要作用。將考生口語翻譯語音信號轉化為文本,提取4個相似度特征,同時采用SVD對語音信號降噪,提取降噪后語音信號的2個語音特征,最終利用線性回歸分析得到口語翻譯自動評分系統(tǒng)。通過對陜西省某師范院校外國語學院漢英口語翻譯自動評分實例的分析,結果表明去除第2、5特征的自動評分系統(tǒng)性能得到明顯提升。本文對漢英口語翻譯自動評分的研究具有一定的參考價值。