張力文,努爾麥麥提·尤魯瓦斯,吾守爾·斯拉木
(新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046)
語(yǔ)音檢索[1]運(yùn)用大詞匯量連續(xù)語(yǔ)音識(shí)別(Large Vocabulary Continuous Speech Recognition)的技術(shù)將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本[2],并根據(jù)識(shí)別結(jié)果建立索引,檢索系統(tǒng)根據(jù)用戶輸入的包含關(guān)鍵詞的查詢請(qǐng)求(Query),在文本中搜索與之對(duì)應(yīng)的文件,最后返回相關(guān)的語(yǔ)音段。
目前大多數(shù)語(yǔ)音檢索系統(tǒng)都是基于語(yǔ)音識(shí)別技術(shù),其中有劍橋大學(xué)的Video Mail Retrieval Using Voice[3],隨著語(yǔ)音識(shí)別解碼技術(shù)的不斷發(fā)展,基于音素或音節(jié)網(wǎng)格的語(yǔ)音檢索技術(shù)也成為語(yǔ)音研究領(lǐng)域中的熱點(diǎn)之一,具有代表性的系統(tǒng)有Google推出的Google Voice Local Search[4]。90年代初我國(guó)也開始對(duì)語(yǔ)音檢索領(lǐng)域進(jìn)行深入研究,其中中科院完成了查詢?cè)~為語(yǔ)音的漢語(yǔ)語(yǔ)音文件檢索任務(wù)[5],哈爾濱工業(yè)大學(xué)基于關(guān)鍵詞檢出技術(shù)提出了一種基于音節(jié)網(wǎng)格的語(yǔ)音檢索技術(shù)[6]。
維吾爾語(yǔ)語(yǔ)音識(shí)別研究工作開始于20 世紀(jì)90 年代初。1994 年,吾守爾·斯拉木采用獨(dú)特的音節(jié)訓(xùn)練詞識(shí)別方法和詞匯擴(kuò)充方法等技術(shù),研制出聯(lián)想式特定人維吾爾語(yǔ)音識(shí)別系統(tǒng),其識(shí)別率達(dá)到95%[7]。2012年中國(guó)科學(xué)院新疆理化所對(duì)維吾爾語(yǔ)廣播新聞連續(xù)語(yǔ)音信號(hào)進(jìn)行敏感詞檢索[8],該文獻(xiàn)的工作是對(duì)語(yǔ)音文件中的敏感詞匯進(jìn)行檢索。與該文獻(xiàn)有所不同的是,本文所研究的維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng)目標(biāo)是針對(duì)用戶的輸入信息快速對(duì)語(yǔ)音文件進(jìn)行檢索與定位。
本文所做的工作主要包括: (1)采用大詞匯量連續(xù)語(yǔ)音識(shí)別技術(shù)將維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文本數(shù)據(jù);(2)將多候選的識(shí)別結(jié)果詞圖(lattice)轉(zhuǎn)換為對(duì)應(yīng)的混淆網(wǎng)絡(luò)(CN);(3)根據(jù)混淆網(wǎng)絡(luò)建立索引,完成對(duì)維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng)的搭建;最后在實(shí)驗(yàn)部分對(duì)該系統(tǒng)進(jìn)行評(píng)測(cè)并對(duì)評(píng)測(cè)結(jié)果進(jìn)行分析。
本文所介紹的維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng)以大詞匯量維吾爾語(yǔ)語(yǔ)音識(shí)別作為前端處理,以詞作為識(shí)別單元,其識(shí)別結(jié)果是詞或音節(jié)的詞圖(Lattice)多候選結(jié)構(gòu),識(shí)別結(jié)果詞圖再通過(guò)聚類算法轉(zhuǎn)換為混淆網(wǎng)絡(luò)(CN)[9-10]。為了提高檢索的速率,根據(jù)混淆網(wǎng)絡(luò)建立倒排索引并將索引存儲(chǔ)在文本文件中。檢索時(shí)系統(tǒng)對(duì)用戶輸入的維吾爾語(yǔ)查詢短語(yǔ)用空格進(jìn)行分詞和預(yù)處理,將其轉(zhuǎn)換成可以被檢索系統(tǒng)接受的形式,之后利用索引實(shí)現(xiàn)檢索。最后采用置信度[11-12]評(píng)測(cè)的方法對(duì)結(jié)果進(jìn)行確認(rèn)和驗(yàn)證,輸出包含所要查詢的詞語(yǔ)的語(yǔ)音文件,整個(gè)語(yǔ)音檢索的設(shè)計(jì)框架如圖1所示:
圖1 維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng)設(shè)計(jì)框架
維吾爾語(yǔ)LVCSR系統(tǒng)[13]與其他語(yǔ)言LVCSR系統(tǒng)一樣,實(shí)質(zhì)上都屬于同一種模式識(shí)別,一般情況下系統(tǒng)的主要任務(wù)是根據(jù)給定的一段語(yǔ)音序列在HMM狀態(tài)空間中找到最優(yōu)的狀態(tài)序列,從而找出使這段語(yǔ)音所代表的最有可能的詞序列即首選(1-Best)識(shí)別結(jié)果。而在語(yǔ)音檢索任務(wù)中,檢索系統(tǒng)一般需要識(shí)別結(jié)果對(duì)正確文本有較高的覆蓋率以減小檢索結(jié)果的漏報(bào)率,因此在解碼過(guò)程中,本文利用HTK[14]工具集中的HDecode模塊生成多候選(N-Best)的詞圖(Lattice)識(shí)別結(jié)果。
3.1.1 聲學(xué)模型
維語(yǔ)與漢語(yǔ)相似,發(fā)音都是以音節(jié)為單位,但是維語(yǔ)的音節(jié)數(shù)量非常大,其中常用的就有3 000多個(gè),同時(shí)每個(gè)音節(jié)之間相互獨(dú)立沒有共享的內(nèi)容,因此使用音節(jié)作為聲學(xué)建模單元是不理想的。而維吾爾語(yǔ)中音素僅有34個(gè)(包括sil和sp),非常適合作為聲學(xué)模型的建模單元,同時(shí)考慮到上下文的因素,因此采用上下文相關(guān)的三音素作為建模單元。這樣在理論上就會(huì)有38 355個(gè)三音素模型,然而實(shí)際在訓(xùn)練集中只出現(xiàn)了12 395個(gè)模型,而且不同的三音素模型平均有391個(gè)訓(xùn)練樣本,因而會(huì)導(dǎo)致有些模型不能得到充分訓(xùn)練或某些模型根本沒有被訓(xùn)練。為了解決這個(gè)問題,本文采用基于最大似然決策樹的狀態(tài)共享策略,并且根據(jù)維吾爾語(yǔ)語(yǔ)音特征(如元音、輔音、塞音、擦音、塞擦音等)設(shè)計(jì)了156個(gè)問題集給決策樹在決策分類過(guò)程中提供依據(jù)[13,15]。
在建立聲學(xué)模型之前,本文對(duì)訓(xùn)練語(yǔ)音數(shù)據(jù)提取39維MFCC特征(幀長(zhǎng)25ms,幀移10ms),其中包括每一幀數(shù)據(jù)的12維倒譜系數(shù)和能量及其一階和二階差分倒譜,并使用倒譜均值方差歸一化方法進(jìn)行降噪處理。得到MFCC特征之后便可采用上面所描述的基于上下文的三音素HMM模型進(jìn)行聲學(xué)建模,模型訓(xùn)練過(guò)程中先利用HTK[14]工具對(duì)其進(jìn)行MLE訓(xùn)練,最后再利用MLLR和MAP自適應(yīng)方法對(duì)模型進(jìn)行自適應(yīng)優(yōu)化。
3.1.2 語(yǔ)言模型
本文采用基于統(tǒng)計(jì)方法的語(yǔ)言模型,在語(yǔ)言模型生成之前先做訓(xùn)練數(shù)據(jù)的準(zhǔn)備,每個(gè)文本文件中的每一句是以結(jié)尾,每個(gè)詞用空格分開。由于一般訓(xùn)練語(yǔ)料中很難包含所有可能的詞序列組合,因此本文采用正向生成的二元模型和逆向生成的三元模型來(lái)解決模型的稀疏問題,其中正向模型依賴于它左側(cè)的上下文,而逆向模型依賴于它右側(cè)的上下文。語(yǔ)言模型利用SRILM[16]工具訓(xùn)練。
由于在面向大型的語(yǔ)音音頻文件時(shí),詞圖是一種非線性的圖形結(jié)構(gòu),因此在語(yǔ)音檢索的過(guò)程中,用詞圖作為索引就使得索引所占的存儲(chǔ)空間較大;同時(shí)由于詞圖包含的每一個(gè)候選結(jié)果都是基于其后驗(yàn)概率盡可能大這一原則而得來(lái)的,這就不能保證識(shí)別結(jié)果中每個(gè)詞的錯(cuò)誤率最小。然而由Mangu[9]提出的混淆網(wǎng)絡(luò)存儲(chǔ)格式從詞錯(cuò)誤率最小的角度出發(fā)對(duì)詞圖進(jìn)行了優(yōu)化,使得識(shí)別結(jié)果詞圖從原來(lái)的對(duì)整個(gè)待選句子的決策變成了對(duì)多個(gè)候選詞的決策,從而使得識(shí)別結(jié)果的存儲(chǔ)空間也相對(duì)減小了許多。因此本文將識(shí)別結(jié)果的存儲(chǔ)格式由詞圖轉(zhuǎn)換為混淆網(wǎng)絡(luò),混淆網(wǎng)絡(luò)形式的識(shí)別結(jié)果如圖2所示。
圖2 混淆網(wǎng)絡(luò)形式的識(shí)別結(jié)果
本文使用Mangu、Brill等人提出的聚類算法(Clustering Algorithm)將詞圖轉(zhuǎn)化為混淆網(wǎng)絡(luò),算法大致有如下幾個(gè)步驟[9-10]:
(1) lattice中的弧上都包含了一些得分,采用前-后向算法計(jì)算每條弧的后驗(yàn)概率;
(2) 對(duì)后驗(yàn)概率小于事先設(shè)定閾值的弧進(jìn)行裁減;
(3) 對(duì)相同詞的弧進(jìn)行合并,合并前將每條弧上的后驗(yàn)概率進(jìn)行求和,得到合并弧的后驗(yàn)概率;
(4) 對(duì)在同一時(shí)間間隔內(nèi)相互競(jìng)爭(zhēng)且擁有相同語(yǔ)音性質(zhì)的互不相同的詞進(jìn)行聚類,最終形成混淆網(wǎng)絡(luò)。
對(duì)后驗(yàn)概率較低的弧進(jìn)行裁減是為了更好地將相互競(jìng)爭(zhēng)的詞對(duì)齊,同時(shí)可以提高系統(tǒng)的檢索速率。然而如果裁減閾值設(shè)定得過(guò)高,就很有可能會(huì)裁減掉正確的詞,從而降低召回率,這一點(diǎn)將會(huì)在后面的實(shí)驗(yàn)中得到驗(yàn)證。
要達(dá)到快速檢索語(yǔ)音文件的目的,需要對(duì)多候選識(shí)別結(jié)果建立索引。文本檢索的相關(guān)研究表明,使用倒排索引結(jié)構(gòu)可以有效地提升檢索速度,在文本檢索中倒排索引的索引項(xiàng)是詞(漢語(yǔ)中還有可能是字,本文針對(duì)維吾爾語(yǔ)自身特點(diǎn)采用詞作為索引項(xiàng)),每個(gè)詞對(duì)應(yīng)一系列的包含文檔ID以及該詞在文檔中的位置信息的索引記錄。但是由于語(yǔ)音識(shí)別結(jié)果與文本不同,識(shí)別結(jié)果中的每個(gè)詞還包含時(shí)間信息和相應(yīng)的得分,因此語(yǔ)音索引記錄中除了包括索引項(xiàng)所在的所有文檔編號(hào)以外,還包含了起始時(shí)間、終止時(shí)間以及一些相應(yīng)的得分信息。基于以上描述,本文所采用的倒排索引結(jié)構(gòu)如圖3所示。
圖3 維吾爾語(yǔ)語(yǔ)音檢索倒排索引結(jié)構(gòu)圖
圖3表示了三個(gè)維吾爾語(yǔ)詞“語(yǔ)音”、“檢索”、“系統(tǒng)”(圖中從上到下的順序)的倒排索引結(jié)構(gòu),其中DocID,TS,TE,SCORE分別表示索引項(xiàng)所在文檔編號(hào)、起始時(shí)間、終止時(shí)間和相應(yīng)得分,在維吾爾語(yǔ)語(yǔ)音關(guān)鍵詞檢索中,當(dāng)用戶輸入所要查詢短語(yǔ)之后,系統(tǒng)會(huì)根據(jù)空格進(jìn)行分詞并刪除停用詞之后再查找查詢?cè)~所在的文本文件和其對(duì)應(yīng)的語(yǔ)音段。
在目前的研究中,基本是以弧的后驗(yàn)概率作為置信度[11-12]的衡量標(biāo)準(zhǔn)。假設(shè)我們的查詢?cè)~Query的音節(jié)串為l1l2...lk,后驗(yàn)概率記為P(Q|O),計(jì)算公式如式(1)所示。
P(Q|O)=P((l1l2...lk)|O)=P(A(l1l2...lk)|O)
(1)
其中A(l1l2...lk)代表包含音節(jié)串l1l2...lk所有的路徑的集合,式(1)具體推導(dǎo)過(guò)程見文獻(xiàn)[11-12]。
在計(jì)算相關(guān)度之前先將語(yǔ)音文檔D分成若干個(gè)語(yǔ)音片段(Segment)S1,S2,S3...SI,當(dāng)用戶輸入查詢短語(yǔ)Query(簡(jiǎn)寫為Q)時(shí),查詢短語(yǔ)通過(guò)分詞并刪除停用詞等處理以后,被分成若干個(gè)Word,分別記作W1,W2...WJ,經(jīng)過(guò)3.4節(jié)中對(duì)置信度的計(jì)算,能夠計(jì)算出查詢?cè)~在各個(gè)語(yǔ)音段發(fā)生的后驗(yàn)概率P(Wj|Si)(1≤j≤J,1≤i≤I),最后便可得到查詢短語(yǔ)Q和語(yǔ)音文檔D的相關(guān)度計(jì)算公式,見式(2)。
(2)
式(2)計(jì)算出查詢?cè)~所發(fā)生的頻率,在索引過(guò)程中依據(jù)SIM(D,Q)值來(lái)排序文檔,因此可以看出查詢?cè)~出現(xiàn)的頻率越高,查詢?cè)~與語(yǔ)音文檔間的相關(guān)度就越大。
早期的語(yǔ)音檢索研究主要針對(duì)英語(yǔ)而進(jìn)行。隨著語(yǔ)音檢索技術(shù)的發(fā)展,針對(duì)一些其他語(yǔ)言(如漢語(yǔ)、阿拉伯語(yǔ)等)的語(yǔ)音檢索技術(shù)也被越來(lái)越多的人所重視。與英語(yǔ)和漢語(yǔ)相比,維吾爾語(yǔ)有其自身特點(diǎn),而這些特點(diǎn)也影響到了維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。
維吾爾語(yǔ)屬于阿爾泰語(yǔ)系突厥語(yǔ)族,是黏著性語(yǔ)言,同一詞干利用豐富的詞綴可產(chǎn)生超大詞匯量。因此要建立覆蓋維吾爾語(yǔ)中所有單詞的發(fā)音詞典有一定的難度,而且當(dāng)單詞作為語(yǔ)音識(shí)別單元時(shí),識(shí)別系統(tǒng)中會(huì)產(chǎn)生較多的未登錄詞(Out Of Vocabulary,OOV),因而影響識(shí)別性能。那么在檢索系統(tǒng)遇到無(wú)法識(shí)別的詞時(shí),檢索結(jié)果就會(huì)出現(xiàn)較多的錯(cuò)誤。目前OOV問題的主要解決方法就是對(duì)查詢短語(yǔ)中的未登錄詞進(jìn)行詞干和詞綴的切分[17]。然而維語(yǔ)詞綴包含較多信息,該方法會(huì)造成信息缺失,因此對(duì)于維吾爾語(yǔ)OOV問題還需更進(jìn)一步的探索和研究。
4.1.1 訓(xùn)練數(shù)據(jù)描述
實(shí)驗(yàn)中聲學(xué)模型訓(xùn)練集采用的是16khz采樣頻率,16bit 量化精度,單聲道,用PC在辦公室環(huán)境下錄制。訓(xùn)練語(yǔ)料包含356 個(gè)人(189女,167男)發(fā)聲的128 小時(shí)的49 548條語(yǔ)句。頻譜特征觀察矢量為每幀39 維向量,包擴(kuò)12 階MFCC,歸一化對(duì)數(shù)能量,及其一階、二階差分。
實(shí)驗(yàn)中語(yǔ)言模型訓(xùn)練集共采用1 335 000個(gè)句子和590 000個(gè)不重復(fù)單詞的維吾爾語(yǔ)文本語(yǔ)料庫(kù),內(nèi)容包含新聞、雜志、政府公文、各種理工科書籍等,同時(shí)對(duì)語(yǔ)料庫(kù)中的句子以單詞為單位進(jìn)行反向處理,選取60 000個(gè)高頻單詞作為識(shí)別發(fā)音詞典和語(yǔ)言模型建模的基礎(chǔ)單詞列表,采用SRILM[16]語(yǔ)言模型訓(xùn)練工具分別建立了基于單詞的正向2-gram和反向3-gram語(yǔ)言模型。
4.1.2 測(cè)試數(shù)據(jù)描述
識(shí)別階段的測(cè)試語(yǔ)音庫(kù)包含10個(gè)說(shuō)話人(5男,5女)發(fā)聲的2小時(shí)約1 000個(gè)語(yǔ)句的wav文件,測(cè)試集對(duì)語(yǔ)言模型的平均OOV率為14.8%。在檢索階段,本文分別對(duì)20個(gè)維吾爾語(yǔ)關(guān)鍵詞進(jìn)行檢索,其中20個(gè)關(guān)鍵詞中有兩個(gè)為集外詞。
4.2.1 系統(tǒng)性能評(píng)價(jià)
語(yǔ)音檢索系統(tǒng)的性能評(píng)價(jià)分為語(yǔ)音識(shí)別模塊性能的評(píng)價(jià)和語(yǔ)音檢索模塊性能的評(píng)價(jià): 語(yǔ)音識(shí)別模塊的性能采用單詞正確率進(jìn)行評(píng)價(jià),在4.1.2節(jié)所介紹的測(cè)試集上,該模塊的單詞正確率為82.1%;語(yǔ)音檢索的性能評(píng)價(jià)準(zhǔn)則采用接收機(jī)工作特性(Receiver Operating Characteristics: ROC)曲線。ROC曲線以虛警率為橫軸,召回率為縱軸,繪制在改變閾值θ時(shí)檢索系統(tǒng)的工作特性。在3.2節(jié)詞圖轉(zhuǎn)換為混淆網(wǎng)絡(luò)過(guò)程中,閾值θ用于控制詞圖弧的裁減,當(dāng)詞圖弧的置信度低于閾值θ時(shí),就對(duì)該弧進(jìn)行裁減,則該弧將不參與混淆網(wǎng)絡(luò)的轉(zhuǎn)換,即不參與建立索引。
4.2.2 實(shí)驗(yàn)結(jié)果及分析
如表1所示為20個(gè)關(guān)鍵詞在不同裁減閾值θ下的召回率和虛警率,并根據(jù)表中結(jié)果給出召回率和虛警率的ROC曲線,如圖4所示:
表1 不同閾值下系統(tǒng)的虛警率和召回率
從表1結(jié)果和圖4的ROC關(guān)系曲線可以看出當(dāng)閾值θ增大時(shí),相應(yīng)的召回率和虛警率就會(huì)隨之降低,這是由于當(dāng)閾值增大時(shí)識(shí)別結(jié)果詞圖的弧相應(yīng)裁減量就會(huì)增多,因而識(shí)別結(jié)果對(duì)正確文本的覆蓋率就會(huì)降低,自然檢索結(jié)果的數(shù)量就會(huì)減少,最終就有可能會(huì)導(dǎo)致召回率和虛警率降低。而在現(xiàn)實(shí)應(yīng)用當(dāng)中,檢索系統(tǒng)的召回率越高越好,而相應(yīng)的虛警率越低越好,因此如何根據(jù)不同的需求來(lái)選擇閾值的大小,使二者達(dá)到一個(gè)比較好的平衡是一個(gè)值得考慮的問題。
圖4 虛警率與召回率關(guān)系曲線(ROC)
本文研究并搭建了基于大詞匯量維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別技術(shù)的語(yǔ)音檢索系統(tǒng),該系統(tǒng)以維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)作為識(shí)別模塊,將識(shí)別結(jié)果以詞圖格式輸出并轉(zhuǎn)化為混淆網(wǎng)絡(luò),最后根據(jù)混淆網(wǎng)絡(luò)生成索引,用戶在使用時(shí)輸入查詢串,系統(tǒng)先對(duì)查詢串進(jìn)行分詞,然后根據(jù)分詞結(jié)果定位所要搜索的語(yǔ)音文件。經(jīng)過(guò)評(píng)測(cè),發(fā)現(xiàn)該系統(tǒng)在識(shí)別正確率為82.1%的情況下,當(dāng)虛警率為13.5%和8.5%時(shí),召回率分別為97.0%和79.1%,但是由于測(cè)試數(shù)據(jù)和查詢關(guān)鍵詞數(shù)量較少,該評(píng)測(cè)數(shù)據(jù)僅僅只能提供一個(gè)參考,在具體應(yīng)用過(guò)程中還需要另外討論。除此之外,目前建立的維吾爾語(yǔ)語(yǔ)音和文本語(yǔ)料庫(kù)規(guī)模還是比較小,而且沒有統(tǒng)一、共享的評(píng)測(cè)數(shù)據(jù),無(wú)法對(duì)研究結(jié)果進(jìn)行客觀的評(píng)價(jià),也無(wú)法與其他系統(tǒng)進(jìn)行對(duì)比實(shí)驗(yàn),因此需要加快評(píng)測(cè)數(shù)據(jù)的建立和共享。
該維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng)是新疆多語(yǔ)種信息處理重點(diǎn)實(shí)驗(yàn)室研發(fā)的第一個(gè)語(yǔ)音檢索系統(tǒng),為實(shí)驗(yàn)室后期的研發(fā)奠定了基礎(chǔ),但仍有許多可以改進(jìn)的地方,如:
(1) 訓(xùn)練語(yǔ)料庫(kù)的擴(kuò)展,可以收集各種各樣的語(yǔ)料,覆蓋更廣的語(yǔ)音現(xiàn)象和更廣的領(lǐng)域;
(2) 對(duì)維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別模塊的聲學(xué)模型和語(yǔ)言模型進(jìn)一步優(yōu)化以提高識(shí)別正確率(例如利用深度神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行優(yōu)化);
(3) 將維吾爾語(yǔ)音的韻律特征與詞圖進(jìn)行融合,充分運(yùn)用維吾爾語(yǔ)語(yǔ)言的特點(diǎn),提高維吾爾語(yǔ)語(yǔ)音檢索的性能;
(4) 對(duì)集外詞的問題要進(jìn)一步深入研究;
(5) 優(yōu)化維吾爾語(yǔ)語(yǔ)音檢索系統(tǒng),界面更加友好,在視覺效果上盡可能適應(yīng)用戶需求,盡可能滿足用戶的需求。
[1] A Hauptmann,H Wactlar.Indexing and Search of Multimodal Information[A].Proceedings of IEEE International Conference of Acoustics Speech and Signal Processing,Munich,Germany,1997[C]: 195-198.
[2] 鄭鐵然,韓記慶,李海洋.基于詞片的語(yǔ)言模型及在漢語(yǔ)語(yǔ)音檢索中的應(yīng)用[J].通信學(xué)報(bào),2009,30(3): 84-88.
[3] G J.E Jones,J.T.Foote,K Sparck Jones et al.Video mail retrieval:the Effect of Word Spotting Accuracy on Precision[A].International Conference on Acoustics,Speech,and Signal Processing 1995[C].ICASSP’95,1995,1(1):309-312P.
[4] GOOG-411[DB/OL],http://en.wikipedia.org/wiki/GOOG-411, 2008,12.
[5] Hsin-min Wang.Mandarin Spoken Document Retrieval Based on Syllable Lattice Matching[J].Pattem Recognition Letters.2000: 615-624P.
[6] 鄭鐵然,韓紀(jì)慶.基于音節(jié)Lattice的漢語(yǔ)語(yǔ)音檢索技術(shù)及其索引去冗余方法[J].聲學(xué)學(xué)報(bào),2008,33(6): 526-533.
[7] 那斯?fàn)柦ね聽栠d,吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用,2009,29(7): 2009-2011.
[8] 木合塔爾·沙地克,李 曉,布合力齊姑麗·瓦斯力.維吾爾語(yǔ)廣播新聞連續(xù)語(yǔ)音敏感詞檢索系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2012,21(3): 29-35.
[9] L. Mangu, E. Brill, A. Stolcke. Finding Consensus in Speech Recognition: Word Error Minimization and Other Applications of Confusion Networks[J]. Computer Speech And Language,2000,14:373-400.
[10] Ville T.Turunen,Mikko Kurimo.Indexing Confusion Network for Morph-based Spoken document Retrieval[A],Proceedings of the SIGIR[C]//2007: 631-638.
[11] F K Soong,W K Lo, S Nakamura.Generalized Word Posterior Probablity(GWPP) for Measuring Reliability of Recognized Words[A].Proceeding of the SWIM2004,2004:127-128.
[12] F Wessel,R Schluter,K Macherey et al.Confidence Maesures for Large Vocabulary Continuous Speech Recognition[A].IEEE Transactions on Speech and Audio Processing,2001,9(3):288-298.
[13] 努爾麥麥提·尤魯瓦斯,吾守爾·斯拉木.面向大詞匯量的維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(9): 115-119.
[14] Young S.The HTK book[EB/OL].[2012-03-031].http://htk.eng.cam.ac.uk/.
[15] 陶梅,吾守爾·斯拉木,那斯?fàn)柦ね聽栠d.基于HTK的維吾爾語(yǔ)連續(xù)語(yǔ)音聲學(xué)建模[J].中文信息學(xué)報(bào),2008,22(5): 56-59.
[16] Andreas Stolcke.SRILM—AN EXTENSIBLE LANGUAGE MODELING TOOLKIT.Speech Technology and Research Laboratory,SRI International, Menlo Park, CA, U.S.A.[EB/OL].[2004-07].http://www.speech.sri.com.
[17] 米成剛,王磊,楊雅婷,等.維漢機(jī)器翻譯未登錄詞識(shí)別研究[J].計(jì)算機(jī)應(yīng)用研究,2013,4,30(4): 1112-1115.