趙丹+鐘楠
摘 要: 英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的發(fā)展方向是在線、連續(xù)性的人機(jī)交互,為此,設(shè)計(jì)在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng),并基于梅爾頻率倒譜系數(shù)設(shè)計(jì)語(yǔ)音識(shí)別函數(shù)。系統(tǒng)的參考數(shù)據(jù)庫(kù)選取NOSE算法計(jì)算語(yǔ)音評(píng)價(jià)分?jǐn)?shù)并查錯(cuò),利用專家知識(shí)庫(kù)糾正用戶英語(yǔ)語(yǔ)音。系統(tǒng)由語(yǔ)音訓(xùn)練模塊和在線連續(xù)交互式識(shí)別模塊組成,前者為系統(tǒng)數(shù)據(jù)庫(kù)提供英語(yǔ)語(yǔ)音的語(yǔ)料、音標(biāo)資源,后者實(shí)施系統(tǒng)數(shù)據(jù)庫(kù)的評(píng)價(jià)、糾正工作。實(shí)驗(yàn)結(jié)果證明設(shè)計(jì)的系統(tǒng)語(yǔ)音識(shí)別率高且識(shí)別時(shí)間短,有效性強(qiáng)。
關(guān)鍵詞: 在線; 連續(xù)交互式; 語(yǔ)音; 智能識(shí)別系統(tǒng)
中圖分類號(hào): TN912.34?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)15?0137?04
Abstract: The development direction of English phonetics intelligent recognition system towards the on?line and continuous human?computer interaction, therefore an on?line continuous interactive English phonetics intelligent recognition system was designed. The voice recognition function based on Mel frequency cepstrum coefficient was designed. The NOSE algorithm is selected in system reference database to calculate the voice evaluation score and check the error. The expert knowledge base is used to correct the English phonetics of users. The system is composed of the speech training module and on?line continuous interactive module. The former provides the corpus and phonetic resources of English phonetics for the system database. The latter performs the evaluation and correction for the system database. The experimental results show that the system has high speech recognition rate, short recognition time, and high effectiveness.
Keywords: online system; continuous interaction; voice; intelligent recognition system
0 引 言
英語(yǔ)是國(guó)際語(yǔ)言,隨著各國(guó)間經(jīng)濟(jì)、人文、科技等信息交流的不斷加深,英語(yǔ)語(yǔ)音智能識(shí)別漸漸成為信息技術(shù)領(lǐng)域的重點(diǎn)研究對(duì)象,其目標(biāo)是使用機(jī)器達(dá)成設(shè)備與人類之間的語(yǔ)音交互,令設(shè)備更加智能化,增加娛樂(lè)能力,為不方便進(jìn)行鍵盤、鼠標(biāo)錄入的人群提供便利。
英語(yǔ)語(yǔ)音智能識(shí)別的目標(biāo)符合現(xiàn)代化發(fā)展腳步,英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)層出不窮,第一款識(shí)別系統(tǒng)名為Audry系統(tǒng),各項(xiàng)性能比較完善,現(xiàn)已得到極大發(fā)展。最近新出的Audry系統(tǒng)利用數(shù)據(jù)庫(kù)計(jì)算手段從英語(yǔ)基礎(chǔ)語(yǔ)法開始對(duì)語(yǔ)音的元音和獨(dú)立詞進(jìn)行識(shí)別,識(shí)別率高,但識(shí)別時(shí)間長(zhǎng),只適合進(jìn)行短小語(yǔ)句識(shí)別。1963年,由前蘇聯(lián)設(shè)計(jì)的端點(diǎn)檢測(cè)系統(tǒng)使用動(dòng)態(tài)編程實(shí)現(xiàn)英語(yǔ)語(yǔ)音識(shí)別,系統(tǒng)的實(shí)時(shí)性不好,對(duì)在線、連續(xù)性的英語(yǔ)語(yǔ)音識(shí)別力不強(qiáng)。此后,著名的貝爾實(shí)驗(yàn)室[1]改變了語(yǔ)音識(shí)別研究方向,設(shè)計(jì)出一個(gè)語(yǔ)音打印機(jī),將英語(yǔ)語(yǔ)音翻譯在設(shè)備顯示屏上,再進(jìn)行人機(jī)交互,在智能手機(jī)中被普遍應(yīng)用,其功能少但識(shí)別精準(zhǔn)。從1980年開始,HMM(Hidden Markov Model,隱馬爾可夫模型)[2]系統(tǒng)進(jìn)入到人們的生活中,其結(jié)合了Audry系統(tǒng)的計(jì)算手段以及語(yǔ)音打印機(jī)的人機(jī)交互能力并進(jìn)行改善,從細(xì)節(jié)語(yǔ)音識(shí)別轉(zhuǎn)換成整體語(yǔ)音識(shí)別,增進(jìn)了在線、連續(xù)性英語(yǔ)語(yǔ)音信號(hào)的平穩(wěn)性,是語(yǔ)音智能識(shí)別歷史中的重要里程碑。
顯然,英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的發(fā)展方向是在線、連續(xù)性的人機(jī)交互,對(duì)識(shí)別效率要求高,如果能夠在最短的時(shí)間糾正語(yǔ)音錯(cuò)誤,也可以極大提高系統(tǒng)識(shí)別率,這是在英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)中的研究熱點(diǎn)。
1 在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)設(shè)計(jì)
在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)主要由語(yǔ)音訓(xùn)練模塊和在線連續(xù)交互式識(shí)別模塊組成,重點(diǎn)設(shè)計(jì)系統(tǒng)工作流程和模塊資源。
1.1 工作流程設(shè)計(jì)
在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)工作流程如圖1所示。
系統(tǒng)擁有兩個(gè)數(shù)據(jù)庫(kù),分別是參考數(shù)據(jù)庫(kù)和專家數(shù)據(jù)庫(kù)。參考數(shù)據(jù)庫(kù)的作用是對(duì)用戶英語(yǔ)語(yǔ)音進(jìn)行評(píng)價(jià),由英語(yǔ)標(biāo)準(zhǔn)發(fā)音特征進(jìn)行訓(xùn)練。參考數(shù)據(jù)庫(kù)使用的語(yǔ)音評(píng)價(jià)算法是NOSE算法[3],是一種非母語(yǔ)語(yǔ)音的口語(yǔ)評(píng)價(jià)技術(shù)。專家數(shù)據(jù)庫(kù)的作用是糾正用戶英語(yǔ)語(yǔ)音,它在常見(jiàn)的英語(yǔ)口語(yǔ)發(fā)音錯(cuò)誤的基礎(chǔ)上構(gòu)建。
系統(tǒng)從用戶英語(yǔ)語(yǔ)音中提取特征,用訓(xùn)練成功的參考數(shù)據(jù)庫(kù)解碼英語(yǔ)語(yǔ)音,使用NOSE算法計(jì)算語(yǔ)音評(píng)價(jià)分?jǐn)?shù),將分?jǐn)?shù)變更成能夠展現(xiàn)出用戶英語(yǔ)語(yǔ)音口語(yǔ)質(zhì)量的評(píng)價(jià)項(xiàng)目,之后對(duì)語(yǔ)音進(jìn)行查錯(cuò),最后利用專家知識(shí)庫(kù)糾正用戶英語(yǔ)語(yǔ)音。
由于在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)一般用于手機(jī)和平板電腦,硬件配備不多[4],因此系統(tǒng)的工作流程必須完美實(shí)現(xiàn),并在NOSE算法的計(jì)算過(guò)程中選取盡可能多的備選語(yǔ)音,制定英語(yǔ)音標(biāo)順序,進(jìn)而減少運(yùn)算量,節(jié)約語(yǔ)音識(shí)別時(shí)間。
1.2 系統(tǒng)模塊資源設(shè)計(jì)
1.2.1 語(yǔ)音訓(xùn)練模塊
語(yǔ)音訓(xùn)練模塊為參考數(shù)據(jù)庫(kù)和專家數(shù)據(jù)庫(kù)提供資源,資源包括英語(yǔ)語(yǔ)音的語(yǔ)料和音標(biāo),在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的功能在很大程度上受限于數(shù)據(jù)庫(kù)資源,尤其是語(yǔ)料資源[5]。好的語(yǔ)料資源可增進(jìn)識(shí)別結(jié)果的有效性,系統(tǒng)要求語(yǔ)音訓(xùn)練模塊的語(yǔ)料資源具有廣泛性、代表性和一致性三種特點(diǎn)[6]。廣泛性要求語(yǔ)料結(jié)構(gòu)類型兼容性強(qiáng),涵蓋大多數(shù)的英語(yǔ)口語(yǔ)發(fā)音規(guī)則。代表性要求語(yǔ)料資源中含有性別、年紀(jì)、語(yǔ)速和方言等資源。一致性要求語(yǔ)料標(biāo)記點(diǎn)具體且詳細(xì),能夠與用戶英語(yǔ)語(yǔ)音對(duì)應(yīng)一致。
組織我國(guó)多所不同地域的外國(guó)語(yǔ)大學(xué)教授錄制語(yǔ)料資源,男女人數(shù)各50人,每人錄制40分鐘英語(yǔ)語(yǔ)音,共計(jì)2 300句,包含1 600個(gè)英語(yǔ)單詞。錄制結(jié)束后對(duì)語(yǔ)音中的單詞等級(jí)進(jìn)行標(biāo)記,組成語(yǔ)料資源,表1為錄制過(guò)程中的英語(yǔ)語(yǔ)音采集標(biāo)準(zhǔn)。
語(yǔ)音訓(xùn)練模塊音標(biāo)資源是英語(yǔ)的48個(gè)音標(biāo),包括20個(gè)元音、28個(gè)輔音,元音包括12個(gè)單元音和8個(gè)雙元音。解析音標(biāo)資源,參考數(shù)據(jù)庫(kù)或?qū)<覕?shù)據(jù)庫(kù)中一同出現(xiàn)3個(gè)單詞的幾率為:
式中:表示單個(gè)單詞出現(xiàn)的幾率;表示2個(gè)單詞一同出現(xiàn)的幾率。式(1)決定著數(shù)據(jù)庫(kù)的工作強(qiáng)度。
1.2.2 在線連續(xù)交互式識(shí)別模塊
在線連續(xù)交互式識(shí)別模塊實(shí)施系統(tǒng)數(shù)據(jù)庫(kù)的評(píng)價(jià)、糾正工作,模塊將進(jìn)行大量運(yùn)算,需要處理芯片支持運(yùn)算。DSP芯片[7](Digital Signal Processing,信號(hào)處理芯片)適合處理數(shù)字信號(hào),其體積小、價(jià)格便宜,適合安裝在手機(jī)和平板電腦上使用。DSP芯片還具有強(qiáng)大的在線交互能力,處理速度快。在線連續(xù)交互式識(shí)別模塊選擇的DSP芯片是OMAP 5912ZZG[8],該芯片內(nèi)部配置了開發(fā)工具,多媒體數(shù)據(jù)庫(kù)、DSP操作系統(tǒng)、鏈橋技術(shù)均能夠免費(fèi)使用,圖2是OMAP 5912ZZG芯片結(jié)構(gòu)。
圖2中,OMAP 5912ZZG芯片存儲(chǔ)處理器規(guī)格是250 KB的隨存隨取存儲(chǔ)器,作用是對(duì)英語(yǔ)語(yǔ)音數(shù)據(jù)和液晶顯示屏的顯示數(shù)據(jù)進(jìn)行緩沖。內(nèi)存卡用于進(jìn)行系統(tǒng)內(nèi)存擴(kuò)展,交互式矢量圖對(duì)音頻進(jìn)行幀緩沖。英語(yǔ)語(yǔ)音在線連續(xù)交互的實(shí)現(xiàn)由存儲(chǔ)處理器完成,它支持多種處理模式。OMAP 5912ZZG芯片能夠?qū)τ⒄Z(yǔ)語(yǔ)音識(shí)別任務(wù)進(jìn)行內(nèi)存分配,并經(jīng)由以太網(wǎng)接口移植出語(yǔ)音識(shí)別函數(shù)。在線連續(xù)交互式識(shí)別模塊進(jìn)行語(yǔ)音識(shí)別時(shí),OMAP 5912ZZG芯片的地位是協(xié)同處理器,主處理器是用戶手機(jī)或平板電腦上的微處理器。
2 語(yǔ)音識(shí)別函數(shù)設(shè)計(jì)
語(yǔ)音識(shí)別函數(shù)是在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的基礎(chǔ)識(shí)別函數(shù),識(shí)別流程如圖3所示。
語(yǔ)音識(shí)別函數(shù)的本質(zhì)是一種梅爾頻率倒譜系數(shù),在語(yǔ)音識(shí)別中具有能量特征,與音頻之間的關(guān)系是非線性的,符合人類聽覺(jué)神經(jīng)的信號(hào)收發(fā)特點(diǎn),識(shí)別率高[9]。語(yǔ)音特征處理分為濾波、樣本采集、格式變更、信號(hào)增大和語(yǔ)音分幀。單元匹配指加窗操作,加窗的作用是平滑語(yǔ)音相鄰幀之間的信號(hào)。設(shè)是窗函數(shù),是幀信號(hào),為幀序列,則可表示加窗后的語(yǔ)音幀信號(hào)。窗函數(shù)有三種形態(tài),分別是矩形(Rectangular)、漢明(Hanming)和漢寧(Hanning),表示如下:
式中為幀數(shù)量。
在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)按照用戶英語(yǔ)語(yǔ)音特點(diǎn)自動(dòng)選擇窗函數(shù)形態(tài)。
詞性解碼與語(yǔ)法解析即為經(jīng)歷傅里葉變換的過(guò)程,可獲取到語(yǔ)音信號(hào)的頻率譜線,設(shè)是變換后的幀序列,有:
設(shè)語(yǔ)音特征處理后的語(yǔ)音能量為經(jīng)余弦變換后得到語(yǔ)義解析結(jié)果:
式(4)和式(5)給出的解析結(jié)果中存在一部分無(wú)用數(shù)據(jù),有用數(shù)據(jù)主要存在于的區(qū)間內(nèi),式(6)是刪除無(wú)用數(shù)據(jù)后的歸一化識(shí)別結(jié)果:
式中是式(4)和式(5)的歸一化結(jié)果。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)介紹
為了對(duì)在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的有效性進(jìn)行分析,本次實(shí)驗(yàn)從標(biāo)準(zhǔn)的模式識(shí)別數(shù)據(jù)庫(kù)中提取語(yǔ)音訓(xùn)練集。訓(xùn)練集為“Continuous online interactive English speech intelligent recognition system is very good”,共11個(gè)英文單詞。
實(shí)驗(yàn)的語(yǔ)音采樣頻率為20 kHz;語(yǔ)音信號(hào)窗選擇24維漢明窗,長(zhǎng)度是18 ms,分幀243點(diǎn),幀移75點(diǎn);語(yǔ)音特征參數(shù)的矢量量化為48碼,量化后生成一個(gè)42×70階的矩陣;11個(gè)單詞經(jīng)訓(xùn)練后都能輸出一個(gè)語(yǔ)音模型。
圖4為實(shí)驗(yàn)環(huán)境圖,為了防止安裝于手機(jī)或平板電腦上的英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)受到手機(jī)硬件性能的限制無(wú)法發(fā)揮全部功能,統(tǒng)一在計(jì)算機(jī)上模擬高端手機(jī)硬件性能進(jìn)行實(shí)驗(yàn)。
3.2 實(shí)驗(yàn)結(jié)果及分析
對(duì)訓(xùn)練集的11個(gè)單詞用本文系統(tǒng)、Audry系統(tǒng)、端點(diǎn)檢測(cè)系統(tǒng)和HMM系統(tǒng)分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)采用Matlab 6.5軟件進(jìn)行整體管控、輸出實(shí)驗(yàn)結(jié)果。對(duì)以上四個(gè)識(shí)別系統(tǒng)進(jìn)行的一系列語(yǔ)音處理與識(shí)別過(guò)程進(jìn)行參數(shù)提取,取得語(yǔ)音模型。進(jìn)行5次訓(xùn)練,求得5次訓(xùn)練中語(yǔ)音模型的識(shí)別率平均值,實(shí)驗(yàn)結(jié)果如表2所示。表3是四個(gè)系統(tǒng)語(yǔ)音識(shí)別時(shí)間平均值對(duì)比表。
從表2中的數(shù)據(jù)可以看出,本文系統(tǒng)的語(yǔ)音識(shí)別率明顯高于端點(diǎn)檢測(cè)系統(tǒng)和HMM系統(tǒng),與Audry系統(tǒng)的語(yǔ)音識(shí)別率相差不大。由于表2中的實(shí)驗(yàn)數(shù)據(jù)過(guò)多,不方便分析,對(duì)原始實(shí)驗(yàn)結(jié)果的本文系統(tǒng)數(shù)據(jù)和Audry系統(tǒng)數(shù)據(jù)進(jìn)行處理,合并單次訓(xùn)練中的語(yǔ)音識(shí)別率,求取平均值,將語(yǔ)音識(shí)別率的平均值描繪成折線圖,以便于分析,如圖5所示。為了增加對(duì)比結(jié)果的說(shuō)服力,本文在繪制折線圖時(shí)縮小了縱坐標(biāo)的數(shù)值差距。
從表3中可以看出,端點(diǎn)檢測(cè)系統(tǒng)的語(yǔ)音識(shí)別時(shí)間最長(zhǎng),Audry系統(tǒng)無(wú)明顯優(yōu)勢(shì),本文系統(tǒng)和HMM系統(tǒng)的語(yǔ)音識(shí)別時(shí)間都很短,本文系統(tǒng)更勝一籌。
從圖5中可以看出,本文系統(tǒng)的折線圖位置要比HMM系統(tǒng)的折線圖位置偏高一些,語(yǔ)音識(shí)別率更好一些。
綜合分析語(yǔ)音識(shí)別率和語(yǔ)音識(shí)別時(shí)間的實(shí)驗(yàn)結(jié)果可知,本文設(shè)計(jì)的在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng)的語(yǔ)音識(shí)別率高且識(shí)別時(shí)間短,有效性強(qiáng)。
4 結(jié) 論
本文設(shè)計(jì)了在線連續(xù)交互式英語(yǔ)語(yǔ)音智能識(shí)別系統(tǒng),依次介紹了系統(tǒng)的工作流程、模塊資源和識(shí)別函數(shù)。實(shí)驗(yàn)采用Matlab 6.5軟件驗(yàn)證系統(tǒng)的有效性,對(duì)比了Audry系統(tǒng)、端點(diǎn)檢測(cè)系統(tǒng)和HMM系統(tǒng),對(duì)比結(jié)果表明,本文系統(tǒng)具備較強(qiáng)的有效性。
參考文獻(xiàn)
[1] 商雄偉,張志祥,邱舒婷.一種通用的限定領(lǐng)域智能語(yǔ)音導(dǎo)學(xué)系統(tǒng)設(shè)計(jì)方法[J].計(jì)算機(jī)工程,2016,42(6):299?304.
[2] 胡丹,曾慶寧,龍超.調(diào)制域譜減法用于魯棒性語(yǔ)音識(shí)別[J].科學(xué)技術(shù)與工程,2016,16(4):216?220.
[3] 馬英,陳超,張凌飛,等.感覺(jué)加權(quán)濾波在安多藏語(yǔ)特征提取中的應(yīng)用[J].科技通報(bào),2016,32(8):207?209.
[4] 劉榮輝,彭世國(guó),劉國(guó)英.基于智能家居控制的嵌入式語(yǔ)音識(shí)別系統(tǒng)[J].廣東工業(yè)大學(xué)學(xué)報(bào),2014,31(2):49?53.
[5] 馬英,陳超,賈國(guó)慶.基于LPC的藏語(yǔ)語(yǔ)音基音周期的檢測(cè)分析[J].現(xiàn)代電子技術(shù),2015,38(16):13?15.
[6] 劉增鎖,師勝利,王靜紅.基于交互的軟件模型研究[J].現(xiàn)代電子技術(shù),2016,39(15):119?122.
[7] 周璐璐,鄧江洪.一種機(jī)器人智能語(yǔ)音識(shí)別算法研究[J].計(jì)算機(jī)測(cè)量與控制,2014,22(10):3267?3269.
[8] 呂淘沙,湯汶,萬(wàn)韜阮,等.增強(qiáng)現(xiàn)實(shí)交互技術(shù)在歷史博物館中的應(yīng)用[J].西安工程大學(xué)學(xué)報(bào),2015,29(6):728?732.
[9] 馬莎莎,戴曙光,穆平安.基于短時(shí)能量的循環(huán)AMDF基音檢測(cè)算法[J].計(jì)算機(jī)仿真,2014,31(7):278?282.