齊 梅,劉則芬,樊 浩,李 升
(安徽開(kāi)放大學(xué)信息與建筑工程學(xué)院,安徽合肥 230022)
隨著互聯(lián)網(wǎng)和通信技術(shù)的飛速發(fā)展,產(chǎn)生了海量的多媒體數(shù)據(jù),如何快速便捷地檢索獲取有效信息是信息檢索領(lǐng)域的一個(gè)重要研究方向[1-2].而語(yǔ)音是人類最自然的交流方式,不僅是人與人之間溝通交流的橋梁,也是音頻、視頻信息傳輸?shù)闹匾d體之一.作為實(shí)現(xiàn)和改善智能友好人機(jī)交互的重要技術(shù),語(yǔ)音檢索技術(shù)在過(guò)去的幾十年里一直都是研究熱點(diǎn)[3].
語(yǔ)音關(guān)鍵詞檢索是實(shí)現(xiàn)基于內(nèi)容的語(yǔ)音信息檢索的一個(gè)重要手段,具有廣泛的應(yīng)用場(chǎng)景[4-5]:
(1)人機(jī)交互應(yīng)用,基于語(yǔ)音的信息檢索,可以直接利用便捷的移動(dòng)設(shè)備輸入檢索詞從而解放雙手,無(wú)需使用鍵盤、觸屏、按鈕等.例如車載導(dǎo)航通過(guò)語(yǔ)音指令實(shí)現(xiàn)目的地查詢,家居家電智能語(yǔ)音控制都會(huì)給人們的生活帶來(lái)極大便利.
(2)多媒體信息檢索,無(wú)論是傳統(tǒng)的廣播電視,還是從事教育、直播、短視頻制作,通過(guò)語(yǔ)音關(guān)鍵詞檢索出用戶感興趣的內(nèi)容是重要需求.例如在遠(yuǎn)程教育的課程資源中,可以快速檢索出感興趣的課題知識(shí)點(diǎn).
在海量的多媒體數(shù)據(jù)中,語(yǔ)音和文本是信息檢索中最重要的兩個(gè)載體.大多數(shù)信息檢索系統(tǒng)都以基于文本的信息檢索為基礎(chǔ),文本信息檢索技術(shù)已經(jīng)應(yīng)用發(fā)展得相對(duì)成熟,隨著大量無(wú)鍵盤應(yīng)用的出現(xiàn),基于語(yǔ)音的信息檢索也受到越來(lái)越多的關(guān)注.
目前,構(gòu)建公共子空間已經(jīng)成為跨模態(tài)語(yǔ)音-文本檢索的主流方法,其核心思想是對(duì)不同模態(tài)的數(shù)據(jù)進(jìn)行建模,建立一個(gè)有效的映射機(jī)制將不同模態(tài)的數(shù)據(jù)映射到一個(gè)公共空間.映射機(jī)制不僅需要縮小多模態(tài)相關(guān)數(shù)據(jù)之間的語(yǔ)義距離,還要擴(kuò)大語(yǔ)義不相關(guān)數(shù)據(jù)之間的距離,使得在該空間可以直接使用一組語(yǔ)義向量對(duì)不同模態(tài)的樣本特征進(jìn)行比較.相關(guān)的檢索方法主要集中在多媒體數(shù)據(jù)特征學(xué)習(xí)、跨模態(tài)模型檢索設(shè)計(jì)等方面:
(1)數(shù)據(jù)特征學(xué)習(xí)方面,代表性的有跨模態(tài)因子分析(cross-modal factor analysis,CFA)[6]通過(guò)最小化不同模態(tài)成對(duì)樣本之間的弗羅貝尼烏斯范數(shù)學(xué)習(xí)線性映射,將不同模態(tài)數(shù)據(jù)映射到公共空間;典型相關(guān)分析(canonical correlation analysis,CCA)[7]通過(guò)最大化不同模態(tài)樣本之間的相關(guān)性來(lái)學(xué)習(xí)映射矩陣;多視角判別分析(muti-view discriminant analysis,Mv-DA)[8],聯(lián)合表示學(xué)習(xí)算法(jointrepresentation learning,JRL)[9]等.
(2)模型檢索方面,典型方法有文本圖像協(xié)同注意力機(jī)制網(wǎng)絡(luò)模型(Collaborative attention network,CoAN)[10],通過(guò)選擇性關(guān)注內(nèi)容相似的關(guān)鍵信息部分,使用遞歸神經(jīng)網(wǎng)絡(luò)和關(guān)注機(jī)制聯(lián)合哈希方法提高了檢索速度;如跨模態(tài)混合遷移網(wǎng)絡(luò)(cross-modal hybrid transfer network,CHTN)[11]將從單模態(tài)數(shù)據(jù)中學(xué)習(xí)到的知識(shí)在跨模態(tài)數(shù)據(jù)之間共享,以提升跨模態(tài)檢索的精度;全模態(tài)自編碼器和生成對(duì)抗機(jī)制的跨模態(tài)檢索方法[12],引入2個(gè)并行自編碼器并設(shè)計(jì)3個(gè)判別器提升了跨模態(tài)識(shí)別平均精度.
隨著深度學(xué)習(xí)方法在機(jī)器學(xué)習(xí)領(lǐng)域的廣泛應(yīng)用,研究人員提出來(lái)一系列的基于深度神經(jīng)網(wǎng)絡(luò)的信息檢索方法.例如Roy[13]提出了一個(gè)基于動(dòng)態(tài)形狀編碼網(wǎng)絡(luò)的單詞發(fā)現(xiàn)框架,該方法適用于檢索自然場(chǎng)景中圖像和視頻幀中文本,并不能直接應(yīng)用到基于語(yǔ)音關(guān)鍵詞的檢索中;Zhang[14]提出了一種采用交互式學(xué)習(xí)卷積的跨模態(tài)語(yǔ)音-文本檢索方法,但不能較好滿足實(shí)時(shí)性需求;Pal[15]利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)散列函數(shù),獲得端到端深度語(yǔ)義保持序數(shù)散列框架,但該方法并未獲取跨模態(tài)語(yǔ)義的在公共空間上的映射表達(dá);孿生卷積神網(wǎng)絡(luò)模型[16]與三分支孿生網(wǎng)絡(luò)[17]等通過(guò)構(gòu)建模型將關(guān)鍵信息進(jìn)向量表示并分類得到結(jié)果.
基于深度神經(jīng)網(wǎng)絡(luò)的相關(guān)技術(shù)已經(jīng)取得很大進(jìn)展,但現(xiàn)有的方法有些是針對(duì)單模態(tài)檢索任務(wù)的,有些適用于特定的圖文檢索等場(chǎng)景,有些并不能滿足語(yǔ)音檢索任務(wù)的實(shí)時(shí)性需求.
針對(duì)現(xiàn)有方法的缺點(diǎn),以及滿足現(xiàn)實(shí)語(yǔ)音檢索任務(wù)中的精度和實(shí)時(shí)性需求,同時(shí)受模式識(shí)別任務(wù)啟發(fā),本文將語(yǔ)音關(guān)鍵詞檢索任務(wù)視為模式識(shí)別中的分類問(wèn)題.在訓(xùn)練階段,本文構(gòu)建了語(yǔ)義一致性編碼網(wǎng)絡(luò),提取語(yǔ)音特征和文本特征在公共空間上生成統(tǒng)一的語(yǔ)義特征表達(dá),在測(cè)試階段,通過(guò)語(yǔ)義一致性編碼網(wǎng)絡(luò)訓(xùn)編碼模型獲得檢索項(xiàng)統(tǒng)一語(yǔ)義向量,通過(guò)余弦距離直接度量向量相似度.經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法與多個(gè)基線方法對(duì)比,在檢索精確上更優(yōu),且時(shí)效性也能夠得到保證.
利用深度神經(jīng)網(wǎng)絡(luò)提取語(yǔ)音和文本的特征,將兩者映射到一個(gè)公共的表示空間,以此來(lái)建立語(yǔ)音和文本之間統(tǒng)一的語(yǔ)義表達(dá),從而完成語(yǔ)音關(guān)鍵詞檢索任務(wù).
語(yǔ)音關(guān)鍵詞檢索模型整體框架如圖1所示.受模式識(shí)別領(lǐng)域中的分類任務(wù)啟發(fā),將跨模態(tài)的語(yǔ)音關(guān)鍵詞檢索任務(wù),分為線下訓(xùn)練和線上預(yù)測(cè)(檢索)兩個(gè)階段.訓(xùn)練階段,檢索模型設(shè)計(jì)了一個(gè)雙重?fù)p失函數(shù)(一致性損失和分類損失)來(lái)訓(xùn)練網(wǎng)絡(luò)參數(shù),進(jìn)而優(yōu)化調(diào)整語(yǔ)義一致性網(wǎng)絡(luò)模型.利用分類損失訓(xùn)練好的語(yǔ)義一致性編碼網(wǎng)絡(luò)會(huì)將檢索庫(kù)中的數(shù)據(jù)集q1,q2,…qn,轉(zhuǎn)化為語(yǔ)義特征向量{s1,s2,…sn},預(yù)測(cè)階段有新的檢索項(xiàng)q0同樣通過(guò)編碼得到s0,通過(guò)語(yǔ)義特征向量之間的距離度量獲得最佳檢索結(jié)果.
圖1 采用語(yǔ)義一致性編碼網(wǎng)絡(luò)的語(yǔ)音關(guān)鍵詞檢索模型Fig.1 Speech keyword retrieval model using semantic consistency coding network
在編碼網(wǎng)絡(luò)設(shè)計(jì)上采用深度全卷積神經(jīng)網(wǎng)絡(luò)聯(lián)合雙重?fù)p失函數(shù)方法,通過(guò)堆疊多個(gè)卷積層對(duì)表示語(yǔ)音和文本信號(hào)進(jìn)行建模,更好地提取語(yǔ)義一致性特征,編碼網(wǎng)絡(luò)模型如圖2所示.借鑒圖像識(shí)別任務(wù)中效果較好的網(wǎng)絡(luò)配置,每個(gè)卷積層使用3×3的卷積核,在多個(gè)卷積層之后加上池化層,大大增強(qiáng)網(wǎng)絡(luò)模型的表達(dá)能力,首先需要提取輸入樣本的不同模態(tài)語(yǔ)音和文本信息特征.
圖2 編碼網(wǎng)絡(luò)模型圖Fig.2 Coding network model diagram
(1)語(yǔ)音特征提取
語(yǔ)音屬于連續(xù)的一維信號(hào),為了對(duì)連續(xù)語(yǔ)音進(jìn)行量化,需要對(duì)語(yǔ)音信號(hào)進(jìn)行前段處理,包括預(yù)加重、分幀和加窗操作.
預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,保持在低頻到高頻的整個(gè)頻帶中,能用同樣的信噪比求頻譜.同時(shí),也是為了消除發(fā)生過(guò)程中聲帶和嘴唇的效應(yīng),來(lái)補(bǔ)償語(yǔ)音信號(hào)受到發(fā)音系統(tǒng)所抑制的高頻部分,也為了突出高頻的共振峰.預(yù)加重處理就是將語(yǔ)音信號(hào)通過(guò)一個(gè)高通濾波器:
式(1)中預(yù)加重系數(shù)u的取值范圍在0.9~1.0之間,根據(jù)實(shí)際需要,本文取0.945.
語(yǔ)音信號(hào)在產(chǎn)生的過(guò)程中受到發(fā)聲器官狀態(tài)變化的影響,而狀態(tài)變化速度較聲音振動(dòng)的速度要慢得多,因此可以認(rèn)為是短時(shí)平穩(wěn)的,進(jìn)行分幀后對(duì)每一幀信號(hào)進(jìn)行處理就相當(dāng)于對(duì)特征固定的持續(xù)信號(hào)進(jìn)行處理,可以減少非穩(wěn)態(tài)時(shí)變的影響.為捕獲連續(xù)完整語(yǔ)音信號(hào),相鄰幀之間會(huì)有重疊,相鄰幀之間的重疊部分被稱為幀移,一般幀移長(zhǎng)度為幀長(zhǎng)度的一半左右,每幀長(zhǎng)度在15 ms~20 ms之間.
分幀后每一幀的起始段和末尾段會(huì)出現(xiàn)不連續(xù)的地方,從而導(dǎo)致與原始信號(hào)的誤差越來(lái)越大.而加窗則可以使分幀后的信號(hào)變得相對(duì)連續(xù),本文選擇使用漢明窗.
其中N表示幀的大小,n=0,1,…N-1,按照一般設(shè)置a取0.46.
本文使用梅爾頻率倒譜系數(shù)提取語(yǔ)音特征,梅爾頻率與線性頻率之間的函數(shù)關(guān)系是非線性的,其函數(shù)關(guān)系如下:
提取梅爾倒頻譜系數(shù)的主要步驟如下:輸入的語(yǔ)音信號(hào)通過(guò)傅里葉變換轉(zhuǎn)化為傅里葉變換的頻域信號(hào);進(jìn)行濾波操作,根據(jù)梅爾音階從低到高設(shè)置帶通濾波器;根據(jù)不同的頻率,從低到高設(shè)置梅爾刻度;對(duì)帶通濾波器處理過(guò)的信號(hào)作進(jìn)一步處理,如對(duì)數(shù)運(yùn)算;進(jìn)行離散余弦變換,這些經(jīng)過(guò)處理的信號(hào)特征可以被視為語(yǔ)音信號(hào)的最終特征參數(shù).基于MFCC提取的語(yǔ)音特征[18],在應(yīng)用于語(yǔ)音檢索系統(tǒng)時(shí),將獲得良好的識(shí)別檢索效果.
(2)文本特征提取
針對(duì)文本信息,本文采用維基百科中文數(shù)據(jù)集上預(yù)先訓(xùn)練的(bidirectional encoder representation from transformers,BERT)[19],將模型輸出中[CLS]標(biāo)志位對(duì)應(yīng)的一個(gè)768維向量作為文本的特征表示.
(3)網(wǎng)絡(luò)架構(gòu)
所提網(wǎng)絡(luò)模型具體結(jié)構(gòu)如圖2所示.在網(wǎng)絡(luò)參數(shù)設(shè)置上,采用了10層卷積核5層池化,卷積核參照?qǐng)D像識(shí)別領(lǐng)域常用的3×3的小卷積.
不同層的卷積核個(gè)數(shù)分別設(shè)置為為32、64、128、128、128,在兩次卷積之后采用最大池化操作,前三層池化的池化核為2,后兩層池化的池化核為1.
假設(shè)數(shù)據(jù)集包含N對(duì)語(yǔ)音-文本對(duì),用D={(XVm,XTm,ym)}Nm=1表示,其中XVm表示第m類語(yǔ)音關(guān)鍵詞,XTm第m類本文信息,ym是第m個(gè)樣本的類別標(biāo)簽.語(yǔ)義編碼的目標(biāo)是學(xué)習(xí)兩個(gè)映射函數(shù)FV和FT提取高層次語(yǔ)音語(yǔ)義特征{sVi}Ni=1和文本語(yǔ)義特征{sTi}Ni=1.此后,在公共空間學(xué)習(xí)兩個(gè)映射函數(shù)RV和RT以獲得語(yǔ)義一致的語(yǔ)音表示{φVi}Ni=1和文本表示{φTi}Ni=1,獲得的一致性向量表達(dá),最后參數(shù)矩陣為P的現(xiàn)行分類器分別連接至兩個(gè)子網(wǎng)絡(luò)末端,可以直接用于跨模態(tài)的語(yǔ)音關(guān)鍵詞檢索.
如網(wǎng)絡(luò)模型圖2所示,在語(yǔ)音和文本兩個(gè)子網(wǎng)絡(luò)后分別得到語(yǔ)音語(yǔ)義編碼:
其中,i=1,2,…N,sVi∈Rd1代表提取的第i個(gè)高層級(jí)語(yǔ)音語(yǔ)義特征,d1表示語(yǔ)音向量維數(shù),θV表示可訓(xùn)練的參數(shù).
文本語(yǔ)義編碼:
其中,i=1,2,…N,sTi∈Rd2代表提取的第i個(gè)高層級(jí)本文語(yǔ)義特征,d2表示文本向量維數(shù),θT表示可訓(xùn)練的參數(shù).
為獲得語(yǔ)義一致性表達(dá),需要將sVi和sTi映射到公共子空間,形成公共空間的特征向量.第i個(gè)語(yǔ)音特征向量表示為:
其中,φVi∈Rd,表示第i個(gè)語(yǔ)音樣本在公共空間特征向量,RV表示語(yǔ)音語(yǔ)義特征在公共空間的映射函數(shù).第i個(gè)文本語(yǔ)義特征在公共空間表示為:
其中,φTi∈Rd,RT表示文本語(yǔ)義特征在公共空間的映射函數(shù),d表示公共空間特征向量的維數(shù),ΘV和ΘT分別表示可訓(xùn)練的參數(shù).
本文提出的跨模語(yǔ)音關(guān)鍵詞檢索為來(lái)自不同模態(tài)的特征在公共空間映射得到統(tǒng)一的向量表達(dá),使得語(yǔ)義類別相同的樣本特征向量相似,語(yǔ)義類別不同特征向量不相似.為此,本文設(shè)計(jì)了一種聯(lián)合雙重?fù)p失函數(shù)Lcc:由語(yǔ)義一致性損失Lconsis和分類損失Lclass組成.
在公共空間獲得語(yǔ)義一致性向量表達(dá),可以直接度量向量之間的相似性,余弦距離常用于跨模態(tài)檢索,余弦距離為:
其中,x,y分別表示具有相同維度的向量,在此基礎(chǔ)上定義成對(duì)的語(yǔ)音文本樣本一致性損失為:
單模態(tài)一致性用來(lái)度量同一模態(tài)內(nèi)的兩個(gè)不同向量之間的關(guān)系,因此定義單模態(tài)一致性損失為:
其中,h(x)=max(0,x),ξ是預(yù)定義的閾值,將檢索任務(wù)視為分類任務(wù),lij為分類標(biāo)簽預(yù)測(cè),假如φVi,φVj或φTi,φTj表示相同的語(yǔ)義,lij=+1;否則lij=-1,且i≠j.模態(tài)內(nèi)一致性定義,將會(huì)使同模態(tài)內(nèi)的相同語(yǔ)義聚集,不同語(yǔ)義向量遠(yuǎn)離.
對(duì)于跨模態(tài)語(yǔ)音檢索任務(wù),定義跨模態(tài)語(yǔ)義向量之間一致性損失計(jì)算方法為:
式中ζ是預(yù)定義的閾值,假如φVi,φTj或φTi,φVj表示相同的語(yǔ)義,lij=+1;否則lij=-1,且i≠j.
以上定義的成對(duì)一致性損失、單模態(tài)一致性損失和跨模態(tài)一致性損失,聯(lián)合這三類一致性損失構(gòu)成本文的語(yǔ)義一致性損失函數(shù):
其中η1是控制單模態(tài)和跨模態(tài)損失的權(quán)重系數(shù).
本文方法將檢索任務(wù)視為分類任務(wù),在訓(xùn)練過(guò)程中分別在語(yǔ)音和文本子網(wǎng)絡(luò)后增加一個(gè)分類過(guò)程,分別設(shè)置了softmax層:
其中,pVi是屬于第i個(gè)語(yǔ)音樣本的概率,pTi是屬于第i個(gè)文本樣本的概率,WI、WT和bI、bT是softmax層訓(xùn)練參數(shù).將分類損失Lclass表示為:
其中,yit表示第i個(gè)樣本,t表示第t個(gè)類別,pVit表示第i個(gè)語(yǔ)音的預(yù)測(cè)概率,pTit表示第i個(gè)文本的預(yù)測(cè)概率,ε表正則化常數(shù),防止出現(xiàn)NaN值.通過(guò)最小化分類損失函數(shù),在公共空間中統(tǒng)一表示的特征向量的語(yǔ)義辨別能力可以得到極大地提高.
綜合以上公式,得到本文設(shè)計(jì)的雙重?fù)p失函數(shù)Lcc:
其中η2是分類損失權(quán)重系數(shù).
語(yǔ)義一致性編碼網(wǎng)絡(luò)訓(xùn)練流程如算法1所示:
語(yǔ)音關(guān)鍵詞檢測(cè)本文采用Kaldi工具包,Kaldi是當(dāng)前最流行的開(kāi)源的語(yǔ)音識(shí)別工具包,它的開(kāi)發(fā)團(tuán)隊(duì)在github上進(jìn)行維護(hù).與其他開(kāi)源語(yǔ)音識(shí)別工具相比,Kaldi支持任何長(zhǎng)度的聲學(xué)建模語(yǔ)言.
本文實(shí)驗(yàn)數(shù)據(jù)集采用清華大學(xué)的THCHS-30和北京希爾貝殼科技有限公司開(kāi)源的AISHELL語(yǔ)音數(shù)據(jù)集,建立語(yǔ)音-文本對(duì),每個(gè)樣本對(duì)共用一個(gè)類別標(biāo)簽,相對(duì)文本檢索的成熟應(yīng)用背景,本文主要關(guān)注語(yǔ)音->文本場(chǎng)景的跨模態(tài)檢索.THCHS-30是一個(gè)開(kāi)源中文語(yǔ)音數(shù)據(jù)庫(kù),總時(shí)長(zhǎng)超過(guò)30個(gè)小時(shí),訓(xùn)練、測(cè)試及驗(yàn)證集比例為7∶2∶1;AISHELL語(yǔ)音數(shù)據(jù)集由來(lái)自不同口音不同地區(qū)的400人參加錄音,共178小時(shí),訓(xùn)練、測(cè)試及驗(yàn)證集比例為32∶2∶1.
本文通過(guò)計(jì)算語(yǔ)音特征和文本特征的余弦向量來(lái)度量?jī)烧咧g的相似性,采用語(yǔ)音關(guān)鍵詞檢索系統(tǒng)廣泛使用的評(píng)估標(biāo)準(zhǔn):召回率(Recall@N)和平均精度均值(mean Average Precision,mAP)對(duì)檢索算法進(jìn)行評(píng)價(jià).Recall@N表示輸入語(yǔ)音關(guān)鍵詞得到的跨模態(tài)檢索結(jié)果中,前N個(gè)文本中出現(xiàn)與語(yǔ)音信息類別相同的概率,mAP綜合考慮所有的檢索結(jié)果,對(duì)每個(gè)測(cè)試樣本的平均精度進(jìn)行了再平均,反映了檢索模型的整體性能.上述兩種評(píng)估標(biāo)準(zhǔn)的值越大,說(shuō)明模型的檢索性能越強(qiáng).
實(shí)驗(yàn)在Windows 7(8 GB內(nèi)存,64位,Intel CPU 3.60 GHz)系統(tǒng)上運(yùn)行,主要采用Python編程語(yǔ)言,版本為Python 3.8.6.在語(yǔ)音特征提取階段,采用幀長(zhǎng)16 ms、幀移5 ms及加窗(漢明窗),SCCN模型輸入特征為600×39維的二階差分MFCC特征參數(shù);在提取階段采用BERT模型中的[CLS]標(biāo)志位對(duì)應(yīng)的d2=768位向量作為文本特征;在構(gòu)建語(yǔ)義一致性編碼網(wǎng)絡(luò)時(shí)使用Tensorflow框架,選取適應(yīng)性動(dòng)量估計(jì)算法(Adaptive moment estimation,Adam)作為訓(xùn)練優(yōu)化器,該算法不僅能夠?qū)Σ煌瑓?shù)計(jì)算適應(yīng)性學(xué)習(xí)率,而且能夠加速網(wǎng)絡(luò)收斂速度,學(xué)習(xí)率為1×10-4,epoch=300,batch_size=100.
損失函數(shù)超參η1和η2分別設(shè)置為1和0.1.
(1)損失函數(shù)超參分析
超參數(shù)η1控制了單模態(tài)和跨模態(tài)之間一致性的貢獻(xiàn),η2控制了對(duì)語(yǔ)義分類建模的貢獻(xiàn),為了研究它們對(duì)編碼網(wǎng)絡(luò)性能的影響,在THCHS-30數(shù)據(jù)集上對(duì)這兩個(gè)參數(shù)進(jìn)行了參數(shù)實(shí)驗(yàn).實(shí)驗(yàn)參數(shù)調(diào)節(jié)參考了網(wǎng)格搜索方法[20],η1的范圍設(shè)置為{0,0.2,0.4,0.8,1.0,1.2,1.4,1.6,1.8,2.0},η2的 范 圍 設(shè) 置 為{0,0.0001,0.001,0.01,0.1,1,10}.
η1調(diào)參方法為:根據(jù)經(jīng)驗(yàn)將η2的值固定為1,η1從0到2,每步遞增0.2.關(guān)于參數(shù)η1的對(duì)應(yīng)的mAP結(jié)果如圖3所示,可以看出η1=0時(shí),所提出的方法的檢索性能會(huì)明顯降低,因?yàn)楹雎粤藛文B(tài)和跨模態(tài)之間的一致性損失,導(dǎo)致兩個(gè)模態(tài)間的同一語(yǔ)義不能被正確匹配,η1=1時(shí),mAP結(jié)果最佳.
圖3 η1參數(shù)調(diào)整結(jié)果Fig.3η1 parameter adjustment results
η2調(diào)參方法為:將η1的值固定為1,η2從0到10,每步遞增10倍.關(guān)于參數(shù)η2的對(duì)應(yīng)的mAP結(jié)果如圖4所示,可以看出η2=0時(shí),檢索性能不佳,這表明分類損失有助于提高語(yǔ)義鑒別能力,當(dāng)η2=0.1時(shí),獲得了最佳的性能.
圖4 η2參數(shù)調(diào)整結(jié)果Fig.4η2 parameter adjustment results
(2)與基線方法進(jìn)行精度對(duì)比實(shí)驗(yàn)
本文選取經(jīng)典的的檢索算法BM25、向量空間模型(Vector Space Model,VSM)以及CNN-LSTM模型進(jìn)行對(duì)比.比較的CNN-LSTM模型輸600×39維MFCC特征參數(shù),模型結(jié)構(gòu)由三層卷積、三層池化、一層全連接層組成,卷積核為3×3,池化層選擇1×3,只對(duì)頻率維度進(jìn)行池化.第一層隱藏層節(jié)點(diǎn)256個(gè),第二層512個(gè),全連接層節(jié)點(diǎn)2 667個(gè),batch_size=100,學(xué)習(xí)率設(shè)置為1×10-4.
在AISHELL數(shù)據(jù)集上不同方法的實(shí)驗(yàn)結(jié)果如表1所示,表中第5-9行展示了本文語(yǔ)義編碼網(wǎng)絡(luò)基于不同類型損失函數(shù)的實(shí)驗(yàn)結(jié)果,SCCN-Lcc即為本文所提聯(lián)合語(yǔ)義一致性損失和分類損失的雙重?fù)p失函數(shù)方法.
表1 AISHELL數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 1 Experimental results of AISHELL dataset
從實(shí)驗(yàn)結(jié)果看出相對(duì)經(jīng)典的基線方法,文本方法(SCNN-Lcc)在mAP和P@i指標(biāo)上系性能都優(yōu)于比較方法,相對(duì)于次優(yōu)方法在P@1、P@5、P@10、mAP上性能分別提升4.4%、6.7%、7.5%和7.4%,證明本文方法在檢索性能上優(yōu)于其他方法.同時(shí)對(duì)比傳統(tǒng)的檢索方法,可以看出基于深度學(xué)習(xí)的方法要優(yōu)于傳統(tǒng)基于特征統(tǒng)計(jì)的方法.本文所提的SCNNLcc方法基于深度全卷積網(wǎng)絡(luò),能夠提取語(yǔ)音和文本高層次語(yǔ)義特征,同時(shí)利用深度學(xué)習(xí)方法學(xué)習(xí)到的公共子空間語(yǔ)義特征表達(dá)具有更好的鑒別能力,可以為跨模態(tài)數(shù)據(jù)建立更強(qiáng)的語(yǔ)義關(guān)聯(lián),實(shí)現(xiàn)更好的檢索性能.驗(yàn)證階段分別聯(lián)合五種不同損失函數(shù)的SCCN方法實(shí)驗(yàn):SCCN-Lpair僅計(jì)算成對(duì)樣本語(yǔ)音-文本損失,SCCN-Lintra僅計(jì)算單模態(tài)內(nèi)損失,SCCN-Linter計(jì)算跨模態(tài)數(shù)據(jù)間的損失,SCNN-Lclass僅計(jì)算跨模態(tài)檢索損失,SCNN-Lcc(本文提出的基于雙重?fù)p失函數(shù))聯(lián)合了語(yǔ)義一致性損失和檢索損失.表1的第5-9行分別展示了不同類別損失函數(shù)的性能表現(xiàn),使用SCCN-Lclass方法的mAP要高于其他的僅依賴單一損失的方法,這說(shuō)明分類損失較好均衡了語(yǔ)音與文本之間跨模態(tài)檢索的語(yǔ)義差異,提高了模型檢索性能.但是通過(guò)比較單一損失函數(shù)與本文的SCNN-Lcc方法可以看出,單獨(dú)一種損失函數(shù)在數(shù)據(jù)集上的表現(xiàn)都低于共同訓(xùn)練結(jié)果,證明只有同時(shí)考慮聯(lián)合多種損失函數(shù)的方法才能具有更好的跨模態(tài)檢索性能.
在THCHS-30數(shù)據(jù)集上不同方法的實(shí)驗(yàn)結(jié)果如表2所示.從對(duì)比實(shí)驗(yàn)看出本文方法同樣取得最優(yōu)結(jié)果,證明了本文方法的有效性,對(duì)比表1和表2看出本文方法在THCHS-30數(shù)據(jù)集上的效果要優(yōu)于AISHELL數(shù)據(jù)集,這是因?yàn)門HCHS-30都是由標(biāo)準(zhǔn)普通話發(fā)音組成,而AISHELL數(shù)據(jù)集包含了不同口音的說(shuō)話者.
表2 THCHS-30數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experimental results of THCHS-30 dataset
(3)與不同模型進(jìn)行復(fù)雜度比較
本節(jié)對(duì)比SCCN方法的復(fù)雜度,檢索結(jié)果基于余弦距離是線性計(jì)算,主要計(jì)算在預(yù)測(cè)階段的語(yǔ)義特征學(xué)習(xí),因此時(shí)效性分析基于模型復(fù)雜度分析.如表3所示,對(duì)于注意力機(jī)制、RNN、還有信息檢索領(lǐng)域前沿的BiMPM[21]模型進(jìn)行對(duì)比.
表3 模型復(fù)雜度分析Table 3 Model complexity analysis
從模型復(fù)雜度對(duì)比可以看出,本文方法在測(cè)試使用前,可以使用訓(xùn)練好的語(yǔ)義編碼網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將大量數(shù)據(jù)轉(zhuǎn)換成公共空間的語(yǔ)義向量存儲(chǔ).在測(cè)試時(shí),SCCN方法只要利用語(yǔ)義編碼模型對(duì)檢索語(yǔ)音關(guān)鍵詞進(jìn)行語(yǔ)義向量轉(zhuǎn)化,再將其與事先存儲(chǔ)的語(yǔ)義向量進(jìn)行常數(shù)項(xiàng)時(shí)間復(fù)雜度的向量距離計(jì)算與排序就能得到結(jié)果.整個(gè)過(guò)程時(shí)效性大大優(yōu)于基于二元檢索項(xiàng)匹配的深度神經(jīng)網(wǎng)絡(luò)方法,既利用了深度學(xué)習(xí)方法學(xué)習(xí)了一致性語(yǔ)義編碼特征,在檢索階段只要進(jìn)行線性匹配即可得到結(jié)果,又能滿足時(shí)效性需求.
本文提出采用語(yǔ)義一致性編碼網(wǎng)絡(luò)(SCCN)的語(yǔ)音關(guān)鍵詞檢索方法,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)跨模態(tài)的語(yǔ)音和文本信息表示為公共空間的向量表達(dá),將檢索問(wèn)題轉(zhuǎn)換為分類任務(wù),通過(guò)聯(lián)合雙重?fù)p失函數(shù)訓(xùn)練語(yǔ)義一致性網(wǎng)絡(luò)模型,在檢索(測(cè)試)階段只使用訓(xùn)練好的語(yǔ)義編碼網(wǎng)絡(luò)對(duì)語(yǔ)音關(guān)鍵詞進(jìn)行語(yǔ)義空間上的距離衡量即可得到檢索結(jié)果.實(shí)驗(yàn)證明,本文方法既利用了深層語(yǔ)義信息,又兼顧了實(shí)際檢索應(yīng)用中的時(shí)效問(wèn)題,具有更好的精確和更高的時(shí)效性.
未來(lái)將結(jié)合相關(guān)前沿深度學(xué)習(xí)網(wǎng)絡(luò)模型,針對(duì)語(yǔ)義編碼網(wǎng)絡(luò)模型進(jìn)一步研究分析,并且探究更優(yōu)的損失函數(shù),進(jìn)而提升方法性能.