張 伊,楊靜萍,王萬雷
(大連民族大學(xué) 機電工程學(xué)院,遼寧 大連 116605)
2017年,秦楚雄和張連海針對低資源訓(xùn)練數(shù)據(jù)下DNN特征建模識別性能不佳的問題,提出了一種提取新的基于DNN特征的方法,使其相對于HMM模型識別率提升了0.8%~3.4%[8]。但是僅使用DNN模型可能存在記憶斷層及噪聲環(huán)境下性能不穩(wěn)定的問題,2018年Mohit Dua等提出一種利用差分進化(DE)算法優(yōu)化MFCC、GFCC和BFCC技術(shù)中濾波器數(shù)目和間距的新方法,該方法在噪聲環(huán)境下識別效率得到有效提高[9]。2019年,李婉玲和張秋菊為提高語音識別的魯棒性,提出一種基于HMM/SVM的抗噪語音特征提取及優(yōu)化組合方法,實驗表明該方法的系統(tǒng)識別率達到95.25%,提高了系統(tǒng)的識別效率和分類決策力[10]。鄧引引為解決浮點語音數(shù)據(jù)運算效率低的問題,對CNN模型進行優(yōu)化,提出一種改進的卷積運算方法,優(yōu)化后中文CNN聲學(xué)模型的語音識別系統(tǒng)平均識別效率相對提升77.58%[11]。2020年Toktam Zoughi等又進一步降低了識別錯誤率,提出利用自適應(yīng)窗口卷積神經(jīng)網(wǎng)絡(luò)(AWCNN)分析聯(lián)合時間-光譜特征的變化和一種新的殘差學(xué)習(xí)方法,在某些語音識別任務(wù)中比現(xiàn)有方法的絕對錯誤率降低了7%[12]。
在上述方法中,語言模型和聲學(xué)模型優(yōu)化方法能夠有效提升語音識別效率。然而,由于需要建立相關(guān)模型及訓(xùn)練數(shù)據(jù)集,該方法的工程量大且耗時長。在工業(yè)領(lǐng)域中,對語音識別的準(zhǔn)確率和安全性要求較高[13]。在確定語音識別率的情況下,質(zhì)檢數(shù)據(jù)語音識別效率還有改善的空間。語音識別在實際應(yīng)用中主觀性占比較大,存在用戶發(fā)音有要求及使用流程和過程中出現(xiàn)輸入錯誤怎樣改正等問題。本研究提出一種基于正交層次分析法的質(zhì)檢數(shù)據(jù)語音識別效率改善方法,該方法不需要提高語音識別準(zhǔn)確率及降低噪音影響,而是采用試驗統(tǒng)計方法快速計算和完成評價,有效提升了語音識別的效率,縮減了質(zhì)檢人員錄入電子文本的時間,提高了質(zhì)檢人員的工作效率。
正交試驗設(shè)計依據(jù)數(shù)理統(tǒng)計原理,科學(xué)地挑選試驗條件,合理減少試驗次數(shù)并獲取有效的實驗數(shù)據(jù),提高了試驗的效率[14]。層次分析法(Analytic Hierarchy Process,AHP)是一種定性與定量分析相結(jié)合的多準(zhǔn)則決策方法,基本思想是在對復(fù)雜決策問題的本質(zhì)、影響因素及內(nèi)在關(guān)系進行深入分析后,構(gòu)建一個層次結(jié)構(gòu)模型,利用較少的定量信息,將人的思維過程層次化、數(shù)學(xué)化,為求解多目標(biāo)、多準(zhǔn)則或無結(jié)構(gòu)特性的復(fù)雜決策問題提供一種簡便的決策方法[15]。
根據(jù)郭穗勛、黃榕波提出的正交試驗數(shù)據(jù)分析的新方法——正交試驗層次分析法[16],為分析輸入指令方式、錄入人員普通話等級和改正輸入錯誤方式對質(zhì)檢數(shù)據(jù)語音識別效率的影響,并找到質(zhì)檢數(shù)據(jù)語音識別更高效的方法,設(shè)計了正交實驗(測試環(huán)境:噪音45~60分貝,沒有多余外界因素干擾),因子水平設(shè)計見表1。
表1 因子水平設(shè)計
正交實驗和層次分析法相結(jié)合,其模型的邏輯結(jié)構(gòu)框圖如圖1。第1層為試驗考核指標(biāo)層,第2層為因素層,第3層為水平層。
圖1 模型邏輯結(jié)構(gòu)框圖
計算相應(yīng)矩陣,進而得出影響權(quán)重,評估各因素對強度的影響程度,驗證正交試驗直觀分析的結(jié)論[17]。試驗指標(biāo)是時間,越小越好,則令Mij=1/Kij(i=1,2,…,n;j=1,2,…,m),其中Kij為因子Bi的第j水平下實驗數(shù)據(jù)之和,水平層對實驗影響效應(yīng)矩陣:
(1)
對矩陣A的每一列進行歸一化,右乘矩陣S,矩陣S如式(2)。
(2)
毛澤東同志曾指出:“科學(xué)研究的區(qū)分,就是根據(jù)科學(xué)對象所具有的特殊的矛盾性。因此,對于某一現(xiàn)象的領(lǐng)域所特有的某一種矛盾的研究,就構(gòu)成某一門科學(xué)的對象?!?我認為同其他應(yīng)用經(jīng)濟學(xué)科一樣,中國特色貿(mào)易經(jīng)濟學(xué)是有自己特定研究學(xué)科對象和研究內(nèi)容的,并可以與相關(guān)的經(jīng)濟學(xué)嚴格區(qū)分開來。
(3)
由式(1)、(2)和(3)可以得到各因子對語音識別效率的影響權(quán)重大小:ω=ASCT。
效率最直觀的檢測方式就是時間與工作量的比值,在同一時內(nèi),完成的工作量越多效率越高;在同樣的工作任務(wù)下,完成全部工作用時越短則效率越高。
本試驗共涉及三因子二水平,選用L8(2^3)正交表,正交實驗直觀分析見表2,其中T為單次輸入所用時長。
表2 正交試驗直觀分析表
根據(jù)式(1),M11=0.0033,M21=0.0062,M12=0.0040,M22=0.0047,M13=0.0044,M23=0.0043,則
(4)
因為式(2)即1/t1=118.09,1/t2=117.27,1/t3=115.27,
(5)
又因為式(3),式中R1為139.212,R2為38.095,R3為7.715,則
(6)
由式(4)、(5)和(6)可以得到各因子對語音輸入效率的影響權(quán)重如式(7):
(7)
因子B1中對指標(biāo)權(quán)重影響最大的是B12,因子B2中對指標(biāo)權(quán)重影響最大的是B22,因子B3中對指標(biāo)權(quán)重影響最大的是B31,故試驗最優(yōu)條件為B12B22B31,各因子影響排序B1>B2>B3,與直觀分析法結(jié)果一致。質(zhì)檢數(shù)據(jù)語音識別高效的模型:錄入人員普通話等級在二級乙等及以上,通過光標(biāo)指示并在輸入過程中及時改正錯誤。
語音識別實驗由語音輸入檢測原型系統(tǒng)和相關(guān)硬件設(shè)備組成。語音輸入原型系統(tǒng)基于語音輸入軟件開發(fā)工具,結(jié)合語音輸入流程設(shè)計Android錄入系統(tǒng)。硬件系統(tǒng)包括計算機(用于數(shù)據(jù)存儲、系統(tǒng)設(shè)定)、平板電腦或手機(用于語音輸入原型系統(tǒng)客戶端的運行)和藍牙耳麥(語音數(shù)據(jù)采集)。語音識別實驗流程如圖2。
圖2 語音識別實驗流程圖
分別進行效率改善前的語音識別實驗和正交層次分析法得出的模型語音識別實驗,每個實驗分成5組,每組50次,5組數(shù)據(jù)對比,選擇每組最優(yōu)的數(shù)據(jù)進行記錄。
上述語音識別輸入實驗和語音模型識別輸入實驗最優(yōu)數(shù)據(jù)結(jié)果見表3。
表3 實驗最優(yōu)數(shù)據(jù)結(jié)果 /s
將以上實驗數(shù)據(jù)通過圖像的形式直觀展現(xiàn),語音識別輸入最優(yōu)數(shù)據(jù)組匯總報告如圖3。
圖3 語音識別輸入最優(yōu)數(shù)據(jù)組匯總報告
模型識別輸入最優(yōu)數(shù)據(jù)組匯總報告如圖4。
圖4 模型識別輸入最優(yōu)數(shù)據(jù)組匯總報告
通過實驗數(shù)據(jù)結(jié)果顯示,語音識別輸入時間均值為328.04 s,標(biāo)準(zhǔn)差2.79,最大值為333.77 s,最小值為321.08 s;模型識別輸入時間均值為141.78 s,標(biāo)準(zhǔn)差為2.18,最大值為145.68 s,最小值為137.75 s。模型輸入質(zhì)檢數(shù)據(jù)的方式用時較語音輸入質(zhì)檢數(shù)據(jù)的方式少,且時間波動幅度也較小,使用語音模型可提升45.29%語音識別的效率。
本文提出一種基于正交層次分析法確定語音識別效率的評價與改善方法,首先確定輸入指令方式是影響質(zhì)檢數(shù)據(jù)語音識別效率的主要因素,錄入人員普通話等級是次要因素,而改正輸入錯誤方式對效率也有一定影響。通過正交層次分析法對比實驗最終確定錄入人員普通話等級在二級乙等及以上,通過光標(biāo)指示并在輸入過程中及時改正錯誤的方式為質(zhì)檢數(shù)據(jù)語音識別效率最優(yōu)方式。該方法在保證現(xiàn)有語音識別準(zhǔn)確率的前提下對語音識別的效率提高具有一定作用,實驗結(jié)果表明模型有效。