馮曉靜,白靜,薛珮蕓,戎如意
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600)
語(yǔ)音作為信息交互最直接、最便捷的載體,在人機(jī)交互中發(fā)揮著重大作用。語(yǔ)音識(shí)別作為一種人機(jī)交互的關(guān)鍵技術(shù),發(fā)展到如今已經(jīng)取得飛躍性的進(jìn)步。但是在某些特定詞匯的識(shí)別中,其性能就變得差強(qiáng)人意。如模糊語(yǔ)音,即那些具有相近發(fā)音機(jī)理,在聽(tīng)覺(jué)上易混淆,容易被系統(tǒng)誤識(shí)的語(yǔ)音。這些語(yǔ)音的存在是影響語(yǔ)音識(shí)別的主要因素,是漢語(yǔ)普通話語(yǔ)音識(shí)別錯(cuò)誤的主要來(lái)源。
對(duì)于模糊語(yǔ)音的研究,單靠音頻信息一種模態(tài)是遠(yuǎn)遠(yuǎn)不夠的,而語(yǔ)音是一種多模態(tài)的通訊方式,包括視覺(jué)、聽(tīng)覺(jué)、發(fā)音器官運(yùn)動(dòng)等多種自然模態(tài)和大腦活動(dòng)等非自然模態(tài)[1],可以選擇多種器官協(xié)同工作的“多模態(tài)”機(jī)理[2]來(lái)進(jìn)行研究。近年來(lái),多模態(tài)融合的研究方式逐漸增多,例如黃立鶴[3]的《語(yǔ)料庫(kù)4.0:多模態(tài)語(yǔ)料庫(kù)建設(shè)及其應(yīng)用》、基于決策融合的雙模態(tài)語(yǔ)音情感識(shí)別[4]以及特征融合的雙模態(tài)[5]識(shí)別研究。
基于此,文中從數(shù)據(jù)庫(kù)出發(fā),選擇了5 位男生和5位女生共計(jì)10 位被試者,利用電磁發(fā)音儀(Electromagnetic Articulograph,EMA)和筆記本電腦同步采集被試者說(shuō)話時(shí)發(fā)音器官的運(yùn)動(dòng)數(shù)據(jù)與音頻數(shù)據(jù),經(jīng)過(guò)濾波、篩選、加噪,建立雙模態(tài)模糊語(yǔ)音數(shù)據(jù)庫(kù)。然后從特征域出發(fā),選擇聲學(xué)特征與發(fā)音器官運(yùn)動(dòng)特征。為了研究不同信噪比下模糊語(yǔ)音的魯棒性與抗噪性,設(shè)計(jì)了以支持向量機(jī)(SVM)為模型的語(yǔ)音識(shí)別實(shí)驗(yàn)進(jìn)行分類,并且對(duì)單模態(tài)特征與雙模態(tài)融合特征進(jìn)行了對(duì)比研究。
為了進(jìn)一步提高惡劣環(huán)境中語(yǔ)音識(shí)別的正確識(shí)別率,分別提取不同信噪比下模糊語(yǔ)音的聲學(xué)特征與運(yùn)動(dòng)學(xué)特征[6],對(duì)不同的特征進(jìn)行特征層融合驗(yàn)證,得到不同的雙模態(tài)融合特征組合。
語(yǔ)音的產(chǎn)生過(guò)程是一個(gè)十分復(fù)雜的過(guò)程。由大腦、呼吸系統(tǒng)、聲帶以及舌部、唇部、齒等發(fā)音器官的相互配合最終形成人們所需要的語(yǔ)音。通過(guò)研究發(fā)音器官的生理特性,以鼻梁和雙耳為參考點(diǎn)減小頭部轉(zhuǎn)動(dòng)帶來(lái)的誤差,采集舌、唇、頜部的運(yùn)動(dòng)數(shù)據(jù),根據(jù)發(fā)音器官的軌跡數(shù)據(jù)計(jì)算唇、舌尖、舌中的位移、速度、發(fā)音運(yùn)動(dòng)起始時(shí)間等作為發(fā)音動(dòng)作特征[7](Articulatory Movement Features,AMF)。
發(fā)音運(yùn)動(dòng)特征的數(shù)據(jù)由EMA 采集,每個(gè)傳感器都是一個(gè)獨(dú)立的信息通道,并且所有傳感器都在同一個(gè)三維坐標(biāo)空間中,前后方向?yàn)閄軸,左右方向?yàn)閅軸,垂直方向?yàn)閆軸。通過(guò)軟件Visartico 來(lái)觀察發(fā)音器官的運(yùn)動(dòng)軌跡并提取運(yùn)動(dòng)學(xué)特征。實(shí)驗(yàn)結(jié)果表明,舌部和下頜的運(yùn)動(dòng)軌跡幅度要大于唇部的運(yùn)動(dòng)幅度,X軸和Y軸的運(yùn)動(dòng)幅度也比Z軸的運(yùn)動(dòng)幅度大,可以更加清晰地表征語(yǔ)音的信息,所以最后選擇舌部和下頜的Z軸和Y軸來(lái)提取發(fā)音運(yùn)動(dòng)特征。音素/an/和/ang/的發(fā)音軌跡對(duì)比如圖1 所示,所選數(shù)據(jù)是舌尖和下頜在Y軸和Z軸方向的運(yùn)動(dòng)軌跡,由圖中可以看出這兩個(gè)音素的發(fā)音軌跡有明顯的區(qū)別,相較于下頜,舌尖的運(yùn)動(dòng)軌跡區(qū)別尤為明顯。
圖1 /an/和/ang/的發(fā)音軌跡對(duì)比
從運(yùn)動(dòng)軌跡提取速度與位移特征,位移指相對(duì)于初始位置傳感器的移動(dòng)距離;速度指發(fā)音器官在每一時(shí)刻的位移變化量,是位移對(duì)時(shí)間的一階導(dǎo)數(shù),計(jì)算公式如式(1)所示:
式中,Sx表示X軸最大位移,x(t)表示t時(shí)刻傳感器的X軸坐標(biāo)值,x(0)表示初始時(shí)刻傳感器的X軸坐標(biāo)值,Z軸同理。
如圖2所示,是/an/的發(fā)音器官舌尖和舌根的運(yùn)動(dòng)軌跡與其對(duì)應(yīng)的語(yǔ)音波形圖??梢钥闯霭l(fā)音器官?gòu)拈_(kāi)始發(fā)音到發(fā)音結(jié)束是一個(gè)完整的信號(hào)[8],并且運(yùn)動(dòng)軌跡波形先于發(fā)音波形,因此選擇發(fā)音運(yùn)動(dòng)的起始時(shí)間(Articulator Onset Time,AOT)作為另一種運(yùn)動(dòng)特征。
圖2 /an/的發(fā)音器官運(yùn)動(dòng)軌跡及語(yǔ)音波形圖
最終選擇舌尖、舌根以及下頜3 個(gè)傳感器上X軸與Z軸的AOT、速度和位移數(shù)理統(tǒng)計(jì)值的最大值、最小值、標(biāo)準(zhǔn)差作為最終的運(yùn)動(dòng)學(xué)特征,共計(jì)42 維。
除了對(duì)運(yùn)動(dòng)數(shù)據(jù)提取發(fā)音運(yùn)動(dòng)學(xué)特征之外,還需要對(duì)音頻數(shù)據(jù)提取聲學(xué)特征,而文中所選的聲學(xué)特征包括韻律特征、伽瑪通濾波倒譜系數(shù)[9-10](GFCC)、梅爾濾波倒譜系數(shù)(MFCC)以及耳蝸濾波倒譜系數(shù)[11](CFCC)特征。
韻律特征指的是語(yǔ)音中除音質(zhì)特征之外的高音、音長(zhǎng)和音強(qiáng)方面的變化,是語(yǔ)音研究中的重要特征。文中選擇語(yǔ)速(一維)、平均過(guò)零率(一維)、振幅及振幅變化率的統(tǒng)計(jì)值(6 維)、基頻及基頻變換率的統(tǒng)計(jì)值(6 維)、短時(shí)能量及其變換率的統(tǒng)計(jì)值(6 維)中前3 個(gè)共振峰的統(tǒng)計(jì)值及一階差分(24 維),共計(jì)44 維的韻律特征。
MFCC[12]是現(xiàn)如今語(yǔ)音識(shí)別領(lǐng)域使用最經(jīng)典的聲學(xué)特征之一,基于人耳聽(tīng)覺(jué)特性,采用梅爾濾波器。在梅爾刻度下,人耳對(duì)聲音頻率的感知呈線性關(guān)系,具體如式(2)所示,其中f為語(yǔ)音頻率。
文中選擇離散余弦變換后的前12 維特征進(jìn)行數(shù)理統(tǒng)計(jì),選其最大值、最小值、平均值、中位數(shù)和標(biāo)準(zhǔn)差共計(jì)60 維。
GFCC 與MFCC 的不同之處在于用伽瑪通濾波器代替了梅爾三角濾波器,在一定程度上減小了噪聲對(duì)特征提取的影響。每個(gè)濾波器的帶寬與人耳的臨界頻帶有關(guān),如式(3)所示:
CFCC[13]是2011 年開(kāi)始提出的一種使用聽(tīng)覺(jué)變換提取的特征參數(shù)。將耳蝸濾波函數(shù)作為一種新的小波基函數(shù),運(yùn)用小波變換實(shí)現(xiàn)濾波過(guò)程,代替快速傅里葉變換模擬人耳聽(tīng)覺(jué)機(jī)理。
首先定義了一個(gè)耳蝸濾波函數(shù)ψ(t),并且滿足以下條件:
假設(shè)f(t)為經(jīng)預(yù)處理后的語(yǔ)音信號(hào),經(jīng)過(guò)聽(tīng)覺(jué)變換后在某一頻帶范圍內(nèi)的輸出為:
具體的耳蝸濾波函數(shù)如式(6)所示,u(t)為單位階躍函數(shù),b為可變實(shí)數(shù),為尺度變量,α和β是大于0 的實(shí)數(shù),取經(jīng)驗(yàn)值3 和0.2。
經(jīng)過(guò)聽(tīng)覺(jué)變換的信號(hào)還要通過(guò)耳蝸內(nèi)的毛細(xì)胞去極化才能轉(zhuǎn)變?yōu)槿四X可分析的電信號(hào)。其中毛細(xì)胞函數(shù)用式(7)來(lái)模擬:
然后對(duì)毛細(xì)胞函數(shù)的輸出結(jié)果進(jìn)行非線性變換,將能量值轉(zhuǎn)換為感知響度。傳統(tǒng)的CFCC 進(jìn)行立方根變換如式(8)所示:
最后進(jìn)行離散余弦變換,減去貢獻(xiàn)量很小的特征向量,降低特征向量間的相關(guān)性,減小特征向量的冗余度,得到耳蝸濾波倒普系數(shù)CFCC1。
根據(jù)MFCC 的提取過(guò)程,改進(jìn)非線性變換函數(shù),可以對(duì)毛細(xì)胞輸出結(jié)果進(jìn)行對(duì)數(shù)變換,如式(9)所示:
語(yǔ)音信號(hào)的每一幀對(duì)于識(shí)別結(jié)果的貢獻(xiàn)是不同的,并且特征參數(shù)的階數(shù)越高越不易受噪聲影響,可以有很好的抗噪性與魯棒性。因此選擇半升正弦函數(shù)進(jìn)行倒譜提升,對(duì)特征參數(shù)進(jìn)行改進(jìn),降低易受噪聲干擾的低階向量。所選用的倒譜提升窗函數(shù)為式(10)所示,第一個(gè)1/2 的作用是保證倒譜分量的完整性,第二個(gè)1/2 是對(duì)低階分量進(jìn)行加權(quán)計(jì)算。
最終經(jīng)過(guò)提升對(duì)數(shù)變換和半升正弦函數(shù)倒譜,改進(jìn)后得到新的特征CFCC2。計(jì)算公式如式(11)所示:
目前多種信息融合的方法主要有兩種,分別是特征層早融合和決策層晚融合[14]。特征層融合的優(yōu)勢(shì)是可以同時(shí)得到更多的模態(tài)信息,更好地捕捉各模態(tài)間的關(guān)聯(lián)。
首先進(jìn)行運(yùn)動(dòng)特征間各傳感器的特征融合,將各傳感器的特征向量首尾相連組成一個(gè)新的特征向量。
然后進(jìn)行運(yùn)動(dòng)學(xué)和聲學(xué)雙模態(tài)間的特征融合。假設(shè)x,y是兩個(gè)模態(tài)的特征向量,則復(fù)合向量z=x+iy(i 是虛數(shù)單位)為x,y的融合特征向量。如果維度不一致,則對(duì)低維補(bǔ)0。
最后通過(guò)核主成分分析(KPCA)對(duì)融合特征降維。KPCA 是對(duì)主成分分析(PCA)的非線性擴(kuò)展,能夠挖掘到數(shù)據(jù)集中蘊(yùn)含的非線性信息,在保持原數(shù)據(jù)信息量的基礎(chǔ)上達(dá)到降維的目的。文中選擇高斯徑向基核函數(shù)(RBF)來(lái)完成降維工作,如式(12)所示:
通過(guò)非線性函數(shù)映射到高維后對(duì)其進(jìn)行主成分分析,在高維空間進(jìn)行降維,通過(guò)KPCA 降維后的數(shù)據(jù)如式(13)所示:
其中,Q是在高維降維后的降維矩陣。
支持向量機(jī)(Support Vector Machine,SVM)根據(jù)統(tǒng)計(jì)學(xué)知識(shí)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化來(lái)構(gòu)建分類器和回歸器,結(jié)合了感知機(jī)和logistic 分類回歸思想。對(duì)于線性不可分的樣本,通過(guò)核函數(shù)把原來(lái)的樣本空間映射到高維空間上來(lái)尋求最優(yōu)分類的超平面,即最大間隔分離超平面,從而將非線性分類問(wèn)題轉(zhuǎn)換為線性分類問(wèn)題。SVM 超平面分類示意圖如圖3 所示。
圖3 SVM超平面分類示意圖
文中選用的是RBF 核函數(shù),采用六折交叉驗(yàn)證進(jìn)行分類實(shí)驗(yàn)。利用平均分類精度(MCA)得出6 個(gè)識(shí)別結(jié)果,再取6 個(gè)結(jié)果的平均值為最終的評(píng)價(jià)指標(biāo)。假設(shè)有N個(gè)數(shù)據(jù),隨機(jī)分成6 份,每一份都循環(huán)作為測(cè)試集,其他5 份作為訓(xùn)練集。MCA的定義如式(14)所示:
其中,Ni表示預(yù)測(cè)類別標(biāo)簽與真實(shí)類別標(biāo)簽相同的個(gè)數(shù)。
該文主要研究了雙模態(tài)模糊語(yǔ)音在不同信噪比下的抗噪性與魯棒性,所選實(shí)驗(yàn)數(shù)據(jù)應(yīng)該包含多種模態(tài)信息。伴隨著發(fā)音器官數(shù)據(jù)采集技術(shù)的改進(jìn),從X-ray 到實(shí)時(shí)磁共振技術(shù)(rMRI)再到EMA 和電聲門圖儀(EGG),采集難度降低的同時(shí)對(duì)人體傷害也減小。目前,國(guó)外包含發(fā)音器官運(yùn)動(dòng)的多模態(tài)語(yǔ)音數(shù)據(jù)庫(kù)有USC-TIMIT 語(yǔ)料庫(kù)[15],是MRI 唯一公開(kāi)的大型MRI 數(shù)據(jù)集;EMA-IEEE 數(shù)據(jù)集[16]包括4 名男性與4 名女性以正常速度和快速讀720 條語(yǔ)音平衡的IEEE 句子。但是很難找到漢語(yǔ)普通話含發(fā)音器官運(yùn)動(dòng)數(shù)據(jù)的多模態(tài)語(yǔ)音庫(kù),所以文中選擇自建雙模態(tài)模糊語(yǔ)音數(shù)據(jù)庫(kù)。
選擇10 位(5 男5 女)被試者,要求每個(gè)被試者的水平都在普通話二級(jí)乙等以上,并且都不曾進(jìn)行過(guò)口腔手術(shù)。對(duì)篩選后的文本信息進(jìn)行錄制,每個(gè)文本錄制3 次。具體篩選后的文本信息如表1 所示,選擇8 對(duì)容易混淆的韻母音素,與不同的聲母組成孤立詞。
表1 韻母文本信息表
通過(guò)筆記本電腦和EMA 儀器同步錄制音頻數(shù)據(jù)和發(fā)音器官的運(yùn)動(dòng)數(shù)據(jù)。其中音頻數(shù)據(jù)的采樣率為16 kHz,EMA 的采樣率為400 Hz。一共設(shè)置11 個(gè)傳感器,其中8 個(gè)用于收集有效數(shù)據(jù),具體位置[17]是舌部設(shè)置3 個(gè)傳感器,最佳位置距舌尖19.93 mm,38.2 mm 和80.51 mm;唇部設(shè)置4 個(gè)傳感器;下齒槽設(shè)置一個(gè)傳感器,最佳位置距下唇的距離為26.37 mm 處。另外3 個(gè)是參考傳感器,目的是消除頭部運(yùn)動(dòng)產(chǎn)生的誤差,分別位于鼻梁、左耳后和右耳后。
用Praat 篩選聲學(xué)數(shù)據(jù),Visartico 軟件篩選運(yùn)動(dòng)學(xué)數(shù)據(jù),經(jīng)過(guò)雙重篩選之后,對(duì)音頻數(shù)據(jù)加入不同信噪比的白噪聲和混合噪聲。篩選后數(shù)據(jù)庫(kù)中語(yǔ)音類型數(shù)量如表2所示,共計(jì)1 268條運(yùn)動(dòng)數(shù)據(jù),6 300條含噪語(yǔ)音數(shù)據(jù)。
表2 篩選后數(shù)據(jù)庫(kù)中語(yǔ)音類型數(shù)量
為了驗(yàn)證模糊語(yǔ)音的不同特征在兩種噪聲條件下的識(shí)別性能,選擇文中自建的雙模態(tài)模糊語(yǔ)音數(shù)據(jù)庫(kù),分別提取單模態(tài)的特征以及雙模態(tài)的融合特征,經(jīng)過(guò)語(yǔ)音識(shí)別模型后得出確切的識(shí)別率。
對(duì)提取的5 種聲學(xué)特征進(jìn)行特征識(shí)別性能驗(yàn)證,白噪聲條件下的識(shí)別率如表3 所示,混合噪聲條件下的識(shí)別率如表4 所示。
表3 單模態(tài)白噪聲識(shí)別率
表4 單模態(tài)混合噪聲識(shí)別率
從表3 和表4 中可以發(fā)現(xiàn),韻律特征的識(shí)別率在5 種聲學(xué)特征中最低,CFCC 特征相較于GFCC 和MFCC 有較好的識(shí)別率,說(shuō)明基于聽(tīng)覺(jué)變換濾波的特征相比于梅爾變換濾波和伽瑪通濾波的特征能更好地表征語(yǔ)音的信息。而對(duì)數(shù)變換的CFCC2 的識(shí)別率又優(yōu)于傳統(tǒng)立方根變換的CFCC1 的識(shí)別率,說(shuō)明對(duì)數(shù)變換相較于立方根變換能更好地模擬耳蝸聽(tīng)覺(jué)變換。
對(duì)比表3 和表4,在低信噪比時(shí),白噪聲下的韻律特征和GFCC 特征的識(shí)別率要高于混合噪聲下同類噪聲的識(shí)別率,但是總體而言,混合噪聲下的識(shí)別率要高于白噪聲下的識(shí)別率。
選擇單模態(tài)中識(shí)別率較高的3 種特征:MFCC、CFCC1 和CFCC2,與提取的運(yùn)動(dòng)學(xué)特征進(jìn)行雙模態(tài)融合,然后分別得到融合1、融合2 和融合3 三種雙模態(tài)融合特征,將它們作為輸入樣本進(jìn)行分類識(shí)別,在白噪聲和混合噪聲兩種噪聲背景條件下,具體的分類識(shí)別結(jié)果如表5 和表6 所示。
表5 雙模態(tài)白噪聲識(shí)別率
表6 雙模態(tài)混合噪聲識(shí)別率
對(duì)比表3和表5,表4和表6,可以發(fā)現(xiàn)3種融合特征都比原單模態(tài)的識(shí)別率有所提升,說(shuō)明了雙模態(tài)融合特征相較于單模態(tài)特征能更完整的表征語(yǔ)音中蘊(yùn)含的信息,可以對(duì)單一信息進(jìn)行補(bǔ)充,混合噪聲下的識(shí)別率依舊高于白噪聲下的識(shí)別率。計(jì)算不同信噪比下識(shí)別率的提升幅度,得出如圖4、圖5 的結(jié)果。
觀察圖4 和圖5,在同一信噪比下,不同特征的提升幅度不同,同一種特征在不同信噪比下的提升幅度也不同。但總體而言,低信噪比下的提升幅度要高于較高信噪比下的提升幅度。隨著信噪比的增加提升幅度越來(lái)越小,在白噪聲背景下,提升幅度最高為6.53%,混合噪聲下提升幅度最高為6.39%。
圖4 白噪聲下識(shí)別率提升幅度
圖5 混合噪聲下識(shí)別率提升幅度
文中建立了含有發(fā)音器官運(yùn)動(dòng)數(shù)據(jù)和語(yǔ)音音頻數(shù)據(jù)的雙模態(tài)模糊語(yǔ)音數(shù)據(jù)庫(kù),其中包括音素和孤立詞兩種類型的文本,總計(jì)有1 268 條運(yùn)動(dòng)數(shù)據(jù)和6 300 條語(yǔ)音數(shù)據(jù)。然后從特征域入手,對(duì)具有相似發(fā)音機(jī)理、在聽(tīng)覺(jué)上容易混淆且易被智能機(jī)器誤識(shí)的模糊語(yǔ)音提取聲學(xué)特征以及運(yùn)動(dòng)學(xué)特征,從特征層進(jìn)行雙模態(tài)融合,選擇核主成分分析算法通過(guò)降維減小冗余,然后根據(jù)支持向量機(jī)模型設(shè)計(jì)語(yǔ)音識(shí)別實(shí)驗(yàn),在白噪聲和混合噪聲的背景條件下對(duì)所提出的特征進(jìn)行測(cè)試,研究其抗噪性與抗魯棒性。實(shí)驗(yàn)結(jié)果表明,在兩種噪聲條件下對(duì)數(shù)變換的耳蝸倒譜系數(shù)特征CFCC2 始終優(yōu)于GFCC、MFCC 和立方根變化的CFCC1,可達(dá)86.95%。雙模態(tài)融合特征可以從多個(gè)角度更加完整的表征語(yǔ)音信息,相比于單模態(tài)特征識(shí)別率有較大提升,在低信噪比情況下的提升幅度要明顯的大于較高信噪比下識(shí)別率的提升幅度,最高可提升6.53%。在今后的研究中,可以進(jìn)一步地?cái)U(kuò)充雙模態(tài)模糊語(yǔ)音數(shù)據(jù)庫(kù),為模糊語(yǔ)音識(shí)別研究提供可靠的語(yǔ)音數(shù)據(jù)平臺(tái)。