劉 譚,郭 武
(中國(guó)科學(xué)技術(shù)大學(xué)語(yǔ)音及語(yǔ)言信息處理國(guó)家工程實(shí)驗(yàn)室,合肥230027)
語(yǔ)音文檔分類旨在自動(dòng)將大量的語(yǔ)音文檔按照內(nèi)容的主題進(jìn)行分類。隨著互聯(lián)網(wǎng)和信息技術(shù)不斷發(fā)展,語(yǔ)音文檔分類技術(shù)在信息檢索中扮演著愈發(fā)重要的角色。
傳統(tǒng)的語(yǔ)音文檔分類系統(tǒng)通常由語(yǔ)音識(shí)別(Automatic speech recognition,ASR)模塊和文本文檔分類(Textual document classification,TDC)模塊組成。ASR模塊首先將語(yǔ)音識(shí)別為文本,TDC模塊再根據(jù)識(shí)別文本的內(nèi)容進(jìn)行主題分類。近幾年來(lái),ASR和TDC技術(shù)都已取得了很大的進(jìn)展。對(duì)于ASR,目前主流的系統(tǒng)有兩種,一種是基于隱馬爾可夫模型(Hidden Markov model,HMM)的語(yǔ)音識(shí)別系統(tǒng),另一種則是端到端ASR系統(tǒng)[1-2]?;贖MM的ASR系統(tǒng)一般由聲學(xué)模型、語(yǔ)言模型、發(fā)音詞典等多部分組成,訓(xùn)練過(guò)程復(fù)雜。端到端ASR系統(tǒng)直接將輸入的語(yǔ)音特征序列轉(zhuǎn)化成文本,相比于基于HMM的ASR系統(tǒng),其結(jié)構(gòu)更加簡(jiǎn)單,且準(zhǔn)確率可以達(dá)到甚至超越基于HMM的ASR系統(tǒng)?;阪溄訒r(shí)序分類(Connectionist temporal classification,CTC)[3-4]的ASR系統(tǒng)就是一種典型的端到端結(jié)構(gòu)。對(duì)于TDC而言,關(guān)鍵技術(shù)就是如何準(zhǔn)確地構(gòu)建文本文檔的表示向量。目前常用的構(gòu)建文檔表示向量的方法有概率隱語(yǔ)義分析(Probabilistic latent semantic analysis,PLSA)[5]和隱含狄利克雷分布(Latent Dirichlet allocation,LDA)[6]。在獲得文檔表示向量后,便可以使用分類器(例如支持向量機(jī)(Support vector machine,SVM)[7]等)對(duì)這些表示向量進(jìn)行分類。此外,鑒于神經(jīng)網(wǎng)絡(luò)(Neural network,NN)在許多任務(wù)上都取得了令人滿意的效果,一些基于NN的文本分類方法也已經(jīng)被提出。Kim[8]提出將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)用于文本分類。CNN能夠捕獲相鄰詞的語(yǔ)義特征,通過(guò)多個(gè)不同尺度的濾波器來(lái)提取不同層面的語(yǔ)義信息。此外,Yang等[9]根據(jù)文檔的結(jié)構(gòu)信息,采用層級(jí)注意力網(wǎng)絡(luò)(Hierarchical attention network,HAN)依次構(gòu)建句子的表示向量和文檔的表示向量,進(jìn)一步提高了文檔分類的準(zhǔn)確率。
顯而易見(jiàn),在這種串聯(lián)型結(jié)構(gòu)的語(yǔ)音文檔分類系統(tǒng)中,ASR錯(cuò)誤會(huì)降低系統(tǒng)的準(zhǔn)確率,尤其是在嘈雜環(huán)境中,由于噪聲和混響的干擾,ASR錯(cuò)誤率會(huì)明顯增加。為降低識(shí)別錯(cuò)誤帶來(lái)的影響,Gogate等[10]提出將語(yǔ)音和識(shí)別的文本進(jìn)行融合,利用語(yǔ)音信息改善識(shí)別錯(cuò)誤帶來(lái)的影響。Yang等[9]使用CNN分別提取語(yǔ)音信息和文本信息用于構(gòu)建語(yǔ)音表示向量和文本表示向量,然后將這兩種表示向量拼接用于情感分類。和文獻(xiàn)[10]相似,文獻(xiàn)[11]采用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)[12]網(wǎng)絡(luò)分別構(gòu)建語(yǔ)音表示向量和文本表示向量,然后通過(guò)注意力機(jī)制將這兩種表示向量融合,用于口語(yǔ)語(yǔ)言分類。盡管將語(yǔ)音和識(shí)別文本融合后,系統(tǒng)的性能有所提高,但是由于語(yǔ)音信息和文本信息只在表示向量層面進(jìn)行融合,語(yǔ)音和文本的互補(bǔ)性沒(méi)有被充分利用。鑒于此,本文提出一種融合聲學(xué)特征和深度特征的系統(tǒng)用于語(yǔ)音文檔的分類。首先采用一個(gè)訓(xùn)練好的LSTM-CTC聲學(xué)模型[13]為每個(gè)語(yǔ)音文檔提取深度特征(Deep feature),LSTM輸出的隱狀態(tài)即為本文所描述的深度特征。然后將語(yǔ)音文檔的聲學(xué)特征(Acoustic feature)和深度特征分別輸入到聲學(xué)特征編碼器和深度特征編碼器,并將聲學(xué)特征編碼器和深度特征編碼器的輸出通過(guò)門(mén)控機(jī)制逐幀融合得到融合特征,最后將融合特征用于語(yǔ)音文檔的分類。
CTC是目前端到端ASR的主流算法之一,本文采用LSTM來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)聲學(xué)模型。訓(xùn)練好LSTM-CTC之后,可以和語(yǔ)言模型結(jié)合用于語(yǔ)音的識(shí)別解碼得到更準(zhǔn)確的結(jié)果,也可以將這個(gè)LSTMCTC用于獲得深度特征。
對(duì)于ASR任務(wù),輸入序列為人工提取的聲學(xué)特征序列x={x1,x2,…,xT},對(duì)應(yīng)的輸出標(biāo)簽序列為y={y1,y2,…,yM},通常M?T。CTC引入了一個(gè)空白標(biāo)簽blank,用來(lái)表示無(wú)標(biāo)簽時(shí)的空白映射。CTC的核心是建立中間標(biāo)簽序列π={π1,π2,…,πT},該中間序列允許標(biāo)簽的重復(fù)出現(xiàn),從而建立中間序列和輸出序列的多對(duì)一映射。所有可能映射到輸出標(biāo)簽序列的中間序列集合為Φ(y'),CTC的訓(xùn)練目標(biāo)是最大化輸出序列的概率P(y|x)
式中:y'為經(jīng)過(guò)插入blank及重復(fù)標(biāo)簽單元等操作而得到的映射序列,最終的輸出是對(duì)中間序列合并連續(xù)重復(fù)單元及去除blank得到。
在CTC準(zhǔn)則中,輸出單元之間是假設(shè)獨(dú)立的,則P(π|x)可由式(2)得到。
ASR系統(tǒng)在訓(xùn)練完成后,便可以將所有語(yǔ)音文檔識(shí)別為文本,但是識(shí)別錯(cuò)誤導(dǎo)致語(yǔ)音文檔分類系統(tǒng)性能不佳,而將語(yǔ)音和識(shí)別文本進(jìn)行融合可以提高語(yǔ)音文檔分類的準(zhǔn)確率。基于語(yǔ)音和識(shí)別文本融合的語(yǔ)音文檔分類系統(tǒng)結(jié)構(gòu)如圖1所示。該系統(tǒng)結(jié)構(gòu)主要由3部分組成:文本編碼器、聲學(xué)特征編碼器和表示向量融合層。語(yǔ)音信息和文本信息分別以聲學(xué)特征和字向量的形式輸入到系統(tǒng)中。本文采用fbank特征作為聲學(xué)特征,并且采用預(yù)訓(xùn)練的word2vec[14]模型將每個(gè)字處理成固定維度的字向量。
圖1 基于語(yǔ)音和識(shí)別文本融合的語(yǔ)音文檔分類系統(tǒng)結(jié)構(gòu)圖Fig.1 Architecture of spoken document classification system based on fusion of speech and recognized text
聲學(xué)特征編碼器和文本編碼器分別用來(lái)構(gòu)建語(yǔ)音表示向量和文本表示向量。由于語(yǔ)音和文本都屬于序列結(jié)構(gòu)的信息,因此本文采用LSTM作為聲學(xué)特征編碼器和文本編碼器,并且通過(guò)在時(shí)間維度進(jìn)行最大池化得到語(yǔ)音表示向量和文本表示向量。
表示向量融合層用于將提取的語(yǔ)音表示向量和文本表示向量進(jìn)行融合,本文通過(guò)基于注意力機(jī)制[15-16]將這兩種表示向量進(jìn)行融合。注意力機(jī)制動(dòng)態(tài)地為這兩種表示向量分配注意力權(quán)重,再將其加權(quán)求和,得到融合后的表示向量,計(jì)算式為
式中:v1、v2分別表示語(yǔ)音表示向量和文本表示向量;W、b和u均為可學(xué)習(xí)的參數(shù),若表示向量的維度為d,則W∈Rd×d,b∈Rd×1,u∈Rd×1;αi表示的注意力權(quán)重;vatten表示加權(quán)融合得到的表示向量。
本文提出的融合聲學(xué)特征和深度特征的語(yǔ)音文檔分類系統(tǒng)結(jié)構(gòu)如圖2所示。該系統(tǒng)主要由4個(gè)模塊組成:聲學(xué)特征編碼器,深度特征編碼器,門(mén)控單元(Gate)以及融合特征編碼器。
圖2 融合聲學(xué)特征和深度特征的語(yǔ)音文檔分類系統(tǒng)結(jié)構(gòu)Fig.2 Architecture of spoken document classification system based on fusion of acoustic features and deep features
在ASR的聲學(xué)模型中,深度特征經(jīng)過(guò)全連接層和輸出層(Softmax)后可以得到對(duì)應(yīng)字分布概率,本文中將全連接層的前一層隱狀態(tài)序列作為深度特征。采用訓(xùn)練完成的LSTM-CTC聲學(xué)模型(如1.1節(jié)所述)作為深度特征提取器。將語(yǔ)音文檔的聲學(xué)特征序列輸入到LSTM,最后一個(gè)LSTM層的輸出就是對(duì)應(yīng)的隱狀態(tài)序列h,h即為本文所描述的深度特征序列。因此,深度特征可以看作字在另一維度空間的表示。相對(duì)于原始的聲學(xué)特征,深度特征不僅包含更高級(jí)的聲學(xué)信息,還包語(yǔ)義信息,因此可以用來(lái)進(jìn)行語(yǔ)音文檔的分類。相比于識(shí)別文本,深度特征具有更強(qiáng)的泛化能力,即每個(gè)深度特征不表示為具體的某個(gè)字,而表示聲學(xué)特征相似的字的集合,這在一定程度上緩解了識(shí)別錯(cuò)誤帶來(lái)的影響。
在得到每個(gè)語(yǔ)音文檔的深度特征序列后,將聲學(xué)特征和深度特征分別輸入聲學(xué)特征編碼器和深度特征編碼器中。由于深度特征序列和聲學(xué)特征序列具有相同的幀數(shù),因此可以將其逐幀進(jìn)行融合。相對(duì)于語(yǔ)音和文本在表示向量水平的融合,逐幀融合進(jìn)一步利用了信息之間的互補(bǔ)性。這是深度特征相對(duì)于識(shí)別文本的另一優(yōu)點(diǎn)。本文通過(guò)門(mén)控機(jī)制將這兩種特征序列逐幀進(jìn)行融合,假設(shè)聲學(xué)特征編碼器的輸出為a={a1,a2,…,aT},深度特征編碼器的輸出為d={d1,d2,…,dT},融合過(guò)程由式(6~8)得到。
式中:maxpooling()表示將在時(shí)間維度最大池化操作,gi用來(lái)控制引入多少深度特征信息,[?]表示將向量進(jìn)行拼接,fi即為第i幀融合特征。在得到融合特征后,將其輸入融合特征編碼器中,并通過(guò)在時(shí)間維度最大池化來(lái)構(gòu)建最終的語(yǔ)音文檔表示向量。
本文采用Aishell-1數(shù)據(jù)集來(lái)訓(xùn)練ASR系統(tǒng),并采用一個(gè)普通話新聞播報(bào)語(yǔ)料集來(lái)訓(xùn)練和測(cè)試所有的語(yǔ)音文檔分類系統(tǒng)。Aishell-1數(shù)據(jù)集和新聞播報(bào)語(yǔ)料集均以16 kHz采樣率,16 bit量化的格式存儲(chǔ)。該新聞播報(bào)語(yǔ)料集共包含12 447條語(yǔ)音文檔,涉及6個(gè)主題,分別為“娛樂(lè)”“財(cái)經(jīng)”“軍事”“體育”“科技”“天氣”,每條語(yǔ)音文檔都涉及其中一個(gè)主題。在實(shí)驗(yàn)中,選擇9 957條語(yǔ)音作為訓(xùn)練集,1 244條語(yǔ)音作為驗(yàn)證集,1 246條語(yǔ)音作為測(cè)試集。本實(shí)驗(yàn)采用的聲學(xué)特征是108維的fbank特征,由36維的fbank特征結(jié)合其一階差分和二階差分所組成。此外,對(duì)于ASR系統(tǒng),以字為建模單元,共有4 294個(gè)單元。本文以pytorch、kaldi[17]作為實(shí)驗(yàn)平臺(tái),比較不同模型的實(shí)驗(yàn)結(jié)果,驗(yàn)證所提出方法的性能。
本實(shí)驗(yàn)總共測(cè)試了6個(gè)語(yǔ)音文檔分類模型:Speech only(SO),Text only(TO),Deepfeature only(DO),F(xiàn)usion of speech and text(ST),Attention based late fusion of speech and deepfeature(ALF),F(xiàn)usion of speech and deepfeature(SD)。SO模型僅使用聲學(xué)特征進(jìn)行語(yǔ)音文檔的分類。SO模型首先將語(yǔ)音文檔的fbank特征輸入到一個(gè)基于LSTM的聲學(xué)特征編碼器中,然后通過(guò)最大池化操作將編碼器的輸出壓縮成固定維度的表示向量,該表示向量中包含了語(yǔ)音文檔主題的相關(guān)信息,最后將該表示向量輸入到全連接層和Softmax層來(lái)預(yù)測(cè)語(yǔ)音文檔的主題,SO模型常用于端到端的口語(yǔ)理解[18]。TO模型和DO模型分別只使用識(shí)別的文本和深度特征進(jìn)行語(yǔ)音文檔分類,其結(jié)構(gòu)組成和SO相同。TO模型采用搜狗新聞?wù)Z料預(yù)訓(xùn)練的word2vec模型,每個(gè)字都首先被映射為300維的字向量,即每個(gè)語(yǔ)音文檔的識(shí)別文本可以用一個(gè)N×300的矩陣表示(N表示總的字?jǐn)?shù)),然后再被輸入到一個(gè)基于LSTM的文本編碼器中[19]。ST模型即為1.2節(jié)介紹的基于語(yǔ)音和識(shí)別文本融合的語(yǔ)音文檔分類系統(tǒng),如圖1所示。同時(shí),為了驗(yàn)證環(huán)境噪聲對(duì)于實(shí)驗(yàn)結(jié)果的影響,本文為每條語(yǔ)音文檔添加了信噪比為20 dB的高斯白噪聲,并用ST(clean)和ST(noisy)分別表示使用干凈語(yǔ)音和加噪語(yǔ)音的ST模型。ALF模型采用目前常用的特征融合框架[20],其結(jié)構(gòu)和ST模型相似。ALF模型包含兩個(gè)編碼器,分別使用聲學(xué)特征和深度特征進(jìn)行構(gòu)造語(yǔ)音文檔的表示向量,然后通過(guò)注意力機(jī)制將這兩種表示向量進(jìn)行融合得到最終的表示向量用于分類,所采用的注意力計(jì)算方式和式(3~5)相同。SD模型即為本文所提出的融合聲學(xué)特征和深度特征的系統(tǒng),如圖2所示。
LSTM-CTC聲學(xué)模型結(jié)構(gòu)與文獻(xiàn)[10]中的聲學(xué)模型結(jié)構(gòu)相同,雙向LSTM隱藏節(jié)點(diǎn)數(shù)為512,因此提取的深度特征維度為1 024。對(duì)于語(yǔ)音文檔分類系統(tǒng),每個(gè)模型的參數(shù)都是調(diào)節(jié)到最好的。SO模型、TO模型和DO模型中的編碼器均是由2層雙向LSTM實(shí)現(xiàn),隱藏節(jié)點(diǎn)數(shù)均為512。ST模型中的聲學(xué)特征編碼器由一個(gè)2層雙向LSTM實(shí)現(xiàn),文本編碼器采用2層雙向LSTM,隱層節(jié)點(diǎn)數(shù)均為512。ALF模型中的編碼器均由2層隱層節(jié)點(diǎn)數(shù)為512的LSTM實(shí)現(xiàn)。SD模型中的聲學(xué)特征編碼器采用2層雙向LSTM,深度特征編碼器采用1層雙向LSTM。
本文采用語(yǔ)音文檔的分類準(zhǔn)確率(Accuracy rate,ACC)作為模型評(píng)價(jià)指標(biāo)。不同模型的實(shí)驗(yàn)結(jié)果如表1所示。
從表1可以看出,本文提出的SD模型實(shí)現(xiàn)最高的準(zhǔn)確率97.27%,相比于ST(clean)模型,準(zhǔn)確率提高了1.84%,驗(yàn)證了1.2節(jié)所述的深度特征相對(duì)于識(shí)別文本的優(yōu)點(diǎn),并且相比于目前主流的特征融合模型ALF,SD模型的準(zhǔn)確率提高了1.39%,驗(yàn)證了該模型的有效性。同時(shí),相比于ST(noisy),ST(clean)的準(zhǔn)確率提高了2.17%,驗(yàn)證了環(huán)境噪聲對(duì)于實(shí)驗(yàn)結(jié)果的影響。此外,ST模型的準(zhǔn)確率要高于SO和TO模型,說(shuō)明語(yǔ)音和文本信息融合有助于語(yǔ)音文檔的分類。最后,DO模型的準(zhǔn)確率高于SO模型和TO模型,這是因?yàn)樯疃忍卣骷劝晫W(xué)信息,又包含語(yǔ)義信息。
表1 不同模型的實(shí)驗(yàn)結(jié)果Table 1 Results of different models
為了驗(yàn)證本文提出的聲學(xué)特征和深度特征的融合方式的有效性,還另外構(gòu)建了兩個(gè)對(duì)比系統(tǒng)。首先考慮門(mén)控機(jī)制對(duì)于模型性能的影響,本文設(shè)計(jì)了語(yǔ)音和深度特征的無(wú)門(mén)控融合(Ungated fusion of speech and deepfeature,USD)系統(tǒng)。USD模型沒(méi)有采用門(mén)控機(jī)制,直接將聲學(xué)特征和深度特征逐幀進(jìn)行拼接,其他參數(shù)設(shè)置和SD相同。第二個(gè)對(duì)比系統(tǒng)是語(yǔ)音和深度特征相加(Addition of speech and deepfeature,ASD)系統(tǒng),該系統(tǒng)將SD模型的聲學(xué)特征和深度特征的融合方式變成了逐元素相加(Element-wise add)方法,即將式(8)的拼接換成逐元素相加。實(shí)驗(yàn)結(jié)果如表2所示,可以看出SD模型的性能優(yōu)于USD和ASD系統(tǒng),這也證明了本文提出的模型結(jié)構(gòu)的有效性。
表2 消融實(shí)驗(yàn)結(jié)果Table 2 Results of ablation experiments
本文提出了一個(gè)融合聲學(xué)特征和深度特征的語(yǔ)音文檔分類系統(tǒng),首先采用一個(gè)訓(xùn)練好的LSTMCTC聲學(xué)模型每個(gè)語(yǔ)音文檔提取深度特征,然后將聲學(xué)特征和深度特征通過(guò)門(mén)控機(jī)制逐幀融合,最后使用融合特征構(gòu)建語(yǔ)音文檔的表示向量用于分類。本文在一個(gè)新聞播報(bào)語(yǔ)料集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相比于基于語(yǔ)音和文本融合的語(yǔ)音文檔分類系統(tǒng),該系統(tǒng)的準(zhǔn)確率提升了1.84%,驗(yàn)證了該系統(tǒng)的有效性。