曹衛(wèi)東,高 德
(中國民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
文本相似度計(jì)算是眾多文本處理任務(wù)中的基礎(chǔ),按照理解層次不同,可將其分為基于字面匹配和基于語義計(jì)算兩種方法。相比之下,基于語義的文本相似度算法更加符合人類大腦的認(rèn)知規(guī)律,更能反映文本的真實(shí)含義。近年來,民航旅客的不文明行為呈多元化趨勢,包括辱罵機(jī)組人員、不配合安檢、強(qiáng)闖隔離欄、偷拿航班上的救險(xiǎn)物資等。
研究民航旅客不文明行為信息與規(guī)則的自動匹配對提升民航運(yùn)輸?shù)陌踩托示哂兄匾饬x。研究民航旅客不文明行為信息與規(guī)則自動匹配的核心任務(wù)是研究文本相似度計(jì)算。
民航旅客不文明行為信息與規(guī)則自動匹配是一種特定領(lǐng)域的文本相似度計(jì)算。主要任務(wù)是從非結(jié)構(gòu)化的民航不文明行為信息文本數(shù)據(jù)中計(jì)算出其語義信息,目的是將其語義信息與已有的規(guī)則進(jìn)行匹配,便于完成不文明旅客信息的分類以及對不文明旅客的處罰。目前,民航旅客不文明行為信息與規(guī)則自動匹配主要有兩個(gè)難點(diǎn):一是由于涉及到特殊領(lǐng)域,基于傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文本相似度計(jì)算往往依賴領(lǐng)域語言學(xué)知識和大量的人工定義特征。二是該領(lǐng)域文本長短不一,有的上百字,有的只有十幾個(gè)字,難以使用傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)捕獲此類文本中的完整語義。
基于語義的文本相似度算法使用深度學(xué)習(xí)技術(shù)避免大量使用人工進(jìn)行特征選取。目前,深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用于情感分析、閱讀理解[1]、自動問答[2]、機(jī)器翻譯[3]等任務(wù)。主流神經(jīng)網(wǎng)絡(luò)模型主要包括CNN和RNN及二者的多種變體,其中卷積神經(jīng)網(wǎng)絡(luò)在池化層提取文本特征時(shí)會過濾掉一些信息。Sabour等[4]提出用一種矢量膠囊來替代傳統(tǒng)標(biāo)量神經(jīng)元,即膠囊網(wǎng)絡(luò)(capsule network)解決CNN池化層存在的問題。
早期的文本相似度計(jì)算都是基于文本字符串,然后通過距離公式直接計(jì)算的。例如使用編輯距離、jaccard距離[5]和信息熵[6]。但這些方法都有很大的局限性,同一個(gè)詞在不同的語境下可能代表不同的含義。例如“小米”既可以表示一種谷物,也可以表示一家科技公司。同理,相同的含義也可由不同的詞表達(dá),例如“工資”和“薪水”就可以表示同一含義。
除了基于文本字符串這種簡單直接的計(jì)算方式,還有學(xué)者提出了一些基于語料庫的文本相似度計(jì)算方法。詞袋模型(bag of words model,BOW)認(rèn)為文本所處的上下文語境相似,那么其于語義也相同。詞袋模型簡單的以文本出現(xiàn)的頻率為指標(biāo)來衡量文本的相似程度,這使得句子中一些無用但出現(xiàn)頻率高的詞成為了計(jì)算相似度的絆腳石。因此,有學(xué)者提出了詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF),該模型使得詞語的重要性隨著它在特定文本中出現(xiàn)的次數(shù)正比增加,但也會隨著它在整個(gè)語料庫中出現(xiàn)的頻率反比下降,這是對詞袋模型的改進(jìn)。除了基于語料庫的計(jì)算方法,還有基于知識庫的方法研究,其中最主要的就是WordNet、《知網(wǎng)》(HowNet)和《同義詞詞林》以及維基百科、百度百科等。可利用知識庫中的組織形式,如概念間的同義反義關(guān)系進(jìn)行相似度計(jì)算。
近年來,神經(jīng)網(wǎng)絡(luò)已被廣泛用于文本相似度計(jì)算中,它能自動的從原始數(shù)據(jù)中提取文本特征,在很大程度提高了文本相似度計(jì)算的性能。如深度語義匹配模型(deep structured semantic models,DSSM)、樹形長短時(shí)記憶網(wǎng)絡(luò)(tree-structured long short-term memory networks,Tree-LSTM)、孿生長短時(shí)記憶網(wǎng)絡(luò)(Siamese LSTM)和ConvNet[7-10]都是在對詞語或者句子進(jìn)行建模的基礎(chǔ)上得到詞向量或者句子向量,再使用距離公式進(jìn)行相似度計(jì)算。
因此,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行文本相似度計(jì)算一般有兩種思路。一是直接得到句子向量,如Ryan Kiros等[11]通過word2vec的跳字模型(skip-gram),通過一句話直接預(yù)測其前一句和后一句話。二是從詞的角度出發(fā),先得到每個(gè)詞的向量表示,然后再用詞向量組合出整個(gè)句子的向量表示。如Kusner等[12]先得到詞的向量表示,然后最小化兩個(gè)句子中詞向量的全局距離,再使用經(jīng)驗(yàn)?zāi)B(tài)分解算法來計(jì)算句子的相似度;Arora等[13]也是先得到詞的向量表示,再通過加權(quán)平均的方法得到句子向量,同時(shí)采用奇異值分解和主成分分析方法進(jìn)行修正,取得了較好的效果。
本文采用膠囊網(wǎng)絡(luò)、門控循環(huán)單元(gated recurrent unit,GRU)進(jìn)行文本相似度研究,膠囊網(wǎng)絡(luò)可以更充分提取文本局部特征信息,減少傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在最大池化過程中的信息損失,門控循環(huán)單元解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)因無法捕獲長距離信息而導(dǎo)致的梯度消失問題,可以更好地捕獲文本的全局特征。將二者融合成gru-capsule組合模型進(jìn)行實(shí)驗(yàn),可以獲取更充分的文本特征信息,再結(jié)合距離公式,從而提高相似度計(jì)算效果。
基于膠囊網(wǎng)絡(luò)組合模型的文本相似度計(jì)算框架如圖1所示,其中句子一和句子二分別經(jīng)過相同的網(wǎng)絡(luò)結(jié)構(gòu)來提取文本特征,從而進(jìn)行相似度的計(jì)算。本文提出的模型包括以下4個(gè)部分:向量表示、特征提取、相似度計(jì)算以及文本分類。
圖1 集成模型框架
(1)向量表示:將文本信息向量化是自然語言處理中的一項(xiàng)基本任務(wù),詞向量(word embedding)一詞最早由Hinton于十九世紀(jì)八十年代提出。其中經(jīng)典的方法有one-hot編碼,但其采用的數(shù)據(jù)稀疏存儲方式在構(gòu)建語言模型時(shí)會造成維數(shù)災(zāi)難,向量的表示也很難體現(xiàn)出兩個(gè)詞之間的關(guān)系。word2vec使用3層神經(jīng)網(wǎng)絡(luò)通過Embedding層將one-hot編碼轉(zhuǎn)化為低維度的稠密向量,使得含義相近的詞語映射到詞向量空間中相近的位置,解決了one-hot編碼的維數(shù)災(zāi)難和詞語鴻溝問題。本文使用預(yù)訓(xùn)練的word2vec,將原始文本序列映射為300維的詞向量矩陣。
(2)特征提?。簩⑸鲜鲈~向量矩陣作為門控循環(huán)單元的輸入,再將其輸出矩陣經(jīng)過形狀變換(reshape)后作為膠囊層的輸入,其中膠囊層有16維,每一維有10個(gè)膠囊,動態(tài)路由的次數(shù)是3次。經(jīng)過這一系列操作,就可以提取到較充分的文本特征信息。
(3)相似度計(jì)算:一般的距離公式有歐氏距離、jaccard距離、編輯距離和余弦相似度(cosine similarity)等,前三者比較適合于標(biāo)量的計(jì)算,而余弦相似度更適合做向量的計(jì)算,神經(jīng)網(wǎng)絡(luò)中的數(shù)字傳遞使用向量形式。本文通過一層全連接層提取到句子一和句子二的文本特征向量,再使用余弦相似度進(jìn)行計(jì)算。
(4)文本分類:文本分類一般分為二分類、多分類和多標(biāo)簽分類。二分類輸出層激活函數(shù)一般采用sigmoid,多分類采用softmax,多標(biāo)簽分類也采用sigmoid,其實(shí)多標(biāo)簽分類的本質(zhì)就是作用在每個(gè)標(biāo)簽上的二分類問題。由于文中數(shù)據(jù)集都是單標(biāo)簽數(shù)據(jù)集,并且是二分類問題,所以輸出層使用sigmoid分類器。
門控循環(huán)單元屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的一種,其采用兩個(gè)門控取代長短時(shí)記憶(long short term memory,LSTM)網(wǎng)絡(luò)的3個(gè)門控,減少了模型訓(xùn)練參數(shù),提升了訓(xùn)練效率,同時(shí)GRU解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)因無法捕獲長距離依賴信息而導(dǎo)致的梯度消失問題,并且在數(shù)據(jù)較少的情況下的性能表現(xiàn)良好。門控循環(huán)單元結(jié)構(gòu)如圖2所示。
圖2 門控循環(huán)單元結(jié)構(gòu)
為了保持較遠(yuǎn)距離的信息傳遞,為了保持較遠(yuǎn)距離的信息傳遞,GRU采用兩個(gè)門控。分別是重置門rt和更新門zt。如圖2所示,重置門是第一個(gè)門控,其作用是將xt和ht-1中的部分信息組合起來影響ht。ht-1和xt先經(jīng)過一次線性變換,再相加輸入σ激活函數(shù),再輸出激活值。重置門的計(jì)算公式為
rt=σ(Wrxt+Urht-1+br)
(1)
式中:Wr代表重置門輸入變量的權(quán)值矩陣,Ur代表重置門隱藏狀態(tài)的權(quán)值矩陣,br是重置門的偏置矩陣,σ代表sigmoid激活函數(shù)。ht的計(jì)算公式為
ht=tanh(Whxt+rt·(Uhht-1)+bh)
(2)
式中:Wh、Uh和bh的含義同上式,tanh是激活函數(shù)。
GRU第二個(gè)門控是更新門,決定“遺忘”ht-1中多少信息,以及“記憶”ht中多少信息,計(jì)算公式為
zt=σ(Wzxt+Uzht-1+bz)
(3)
式中:xt是第t個(gè)時(shí)間步的輸入向量,xt與ht-1分別經(jīng)過一次線性變換,相加后輸入σ激活函數(shù),再輸出激活值,Wz代表更新門的輸入變量權(quán)值矩陣,Uz代表更新門的隱藏狀態(tài)權(quán)值矩陣。由以上公式可知:重置門和更新門都由xt和ht-1決定。最后,GRU單元當(dāng)前時(shí)刻隱藏狀態(tài)的值ht可以表示為
ht=(1-zt)·ht-1+zt·ht
(4)
通過這種門控機(jī)制,GRU解決了序列信息的長期依賴問題。
傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)通過卷積操作來處理文本,通過控制詞窗滑動和詞窗的大小來獲取局部的文本特征信息,再經(jīng)過最大池化層進(jìn)行降維,雖然最大池化層可以有效減少模型參數(shù),在一定程度上提高訓(xùn)練效率,但同時(shí)也會造成一定的信息損失,因?yàn)樽畲蟪鼗瘜又魂P(guān)注了最重要的信息,忽略了有可能也起關(guān)鍵作用的其它信息。膠囊網(wǎng)絡(luò)使用capsule的向量輸出(vector)取代了傳統(tǒng)神經(jīng)元的標(biāo)量輸出(value),由輸出向量的多個(gè)維度替代一個(gè)輸出維度。神經(jīng)元是偵測某一個(gè)具體模式,但是capsule是偵測某一類模式,它輸出的向量的每一個(gè)維度代表該模式的特性,向量的模長代表某一類的模式是否存在。
由于文本中存在著諸多例如停留詞、標(biāo)點(diǎn)符號、特殊字符等眾多與相似度計(jì)算無關(guān)的詞語,下層膠囊中不可避免的會產(chǎn)生很多噪音膠囊,這無疑會對相似度計(jì)算產(chǎn)生一定的影響,而膠囊網(wǎng)絡(luò)采用動態(tài)路由機(jī)制(dynamic routing),下層膠囊通過該機(jī)制將計(jì)算結(jié)果傳給上層膠囊。與CNN的最大池化層相比,膠囊不再是簡單的舍棄除某些值,而是在計(jì)算過程中為下層膠囊動態(tài)分配歸一化的權(quán)重,從而有效減少信息的損失。雖然這樣會增加計(jì)算量,但可以通過權(quán)值共享策略簡化該過程。動態(tài)路由算法如圖3所示。
圖3 動態(tài)路由過程
其中涉及的公式描述如下
ui=Wivi
(5)
(6)
(7)
其中,vi代表下層膠囊的輸出,也即是當(dāng)前膠囊層的輸入,Wi為上下兩層之間的權(quán)值矩陣,通過矩陣運(yùn)算得到ui,cij是動態(tài)得到的,它決定了底層膠囊的信息有多少能傳遞下去,經(jīng)過運(yùn)算得到中間量,sj是中間量,它通過擠壓函數(shù)可以得到aj,aj將參與到bij計(jì)算,bij計(jì)算再用來更新cij,直到計(jì)算出本層的矢量輸出v,其中b初始值設(shè)置為0,擠壓函數(shù)squashing及更新bij的計(jì)算公式如下
(8)
bij=bij-1+uj|iaj
(9)
其中,aj代表上層膠囊的輸出,膠囊輸出向量的模長代表類別的概率值大小,bij-1代表上一輪動態(tài)路由時(shí)的b值,擠壓函數(shù)只會改變sj的長度,不會改變向量的方向,從式(8)可以看出,當(dāng)sj很大的時(shí)候,得到的aj就會趨向于1,當(dāng)sj很小的時(shí)候,aj就會趨向于0,從而把向量的模長限定在(0,1)區(qū)間,輸出向量的模長越大,代表文本所屬該類的概率就越大。
門控循環(huán)單元可以捕獲較長距離的文本特征信息,膠囊網(wǎng)絡(luò)在提取文本局部特征時(shí)可以減少卷積神經(jīng)網(wǎng)絡(luò)最大池化操作中的信息損失。本文采用的組合模型結(jié)合門控循環(huán)單元和膠囊網(wǎng)絡(luò)各自的優(yōu)勢,可以多層次,全方位的提取文本的特征信息,從而提高相似度計(jì)算的效果。
文中的實(shí)驗(yàn)數(shù)據(jù)是民航旅客不文明行為信息數(shù)據(jù)集、支付寶花唄借唄問答數(shù)據(jù)集和LCQMC問答數(shù)據(jù)集,第一個(gè)數(shù)據(jù)集來源于中國航空運(yùn)輸協(xié)會,第二個(gè)數(shù)據(jù)集來源于螞蟻金服,最后一個(gè)是哈爾濱工業(yè)大學(xué)整理的網(wǎng)上的問答數(shù)據(jù),三者都是單標(biāo)簽數(shù)據(jù)集。其中,每條數(shù)據(jù)都包括3部分,分別是兩個(gè)句子和一個(gè)標(biāo)簽,標(biāo)簽有兩個(gè)類別,即標(biāo)注兩個(gè)句子相似還是不相似,相似用1表示,不相似用0表示。為了驗(yàn)證方法的有效性,本文采用準(zhǔn)確率(precision):所有數(shù)據(jù)中正確匹配的數(shù)據(jù)所占的比重,衡量模型的優(yōu)劣。
3.1.1 民航數(shù)據(jù)集標(biāo)注
兩個(gè)公共數(shù)據(jù)集已經(jīng)是實(shí)驗(yàn)需要的形式,民航旅客不文明行為信息數(shù)據(jù)集需要人工標(biāo)注句子是否相似。中國航空運(yùn)輸協(xié)會目前公布了392條記錄,按照每條都能與其它一條形成相似和不相似的情況,在經(jīng)過去重復(fù),共可得到76 636條數(shù)據(jù),但由于人工成本較大,在保證得到的是一個(gè)平衡數(shù)據(jù)集的情況下,只隨機(jī)得到3000條數(shù)據(jù)。數(shù)據(jù)標(biāo)注規(guī)則如下:①行為相似的為相似,標(biāo)1;②行為不相同的為不相似,標(biāo)0。
標(biāo)注好的數(shù)據(jù)見表1。
表1 民航數(shù)據(jù)集標(biāo)注
第一組數(shù)據(jù)兩個(gè)行為都是在航班上違規(guī)使用電子設(shè)備,因此相似。第二組數(shù)組雖然都沒有聽工作人員勸阻,但是第一個(gè)行為毆打他人,安全隱患較大,性質(zhì)更加惡劣,因此二者不相似。第三組數(shù)組兩個(gè)行為都是屬于造謠,雖然發(fā)生地點(diǎn)不同,但都屬于傳播虛假信息,造成惡劣的影響,因此二者相似。第四組數(shù)據(jù)兩個(gè)行為雖然都發(fā)生在安檢時(shí),但是明顯第一個(gè)口角和肢體沖突對機(jī)場正常秩序影響更大,后者只是不配合,因此二者不相似。
3.1.2 各數(shù)據(jù)集統(tǒng)計(jì)
花唄借唄問答數(shù)據(jù)集一共有102 477條數(shù)據(jù),兩句子相似的數(shù)據(jù)只有18 685條,是一個(gè)不平衡的數(shù)據(jù)集,為了得到好的實(shí)驗(yàn)效果,對原數(shù)據(jù)集進(jìn)行了篩選,對LCQMC問答數(shù)據(jù)集進(jìn)行同樣的操作。最終實(shí)驗(yàn)數(shù)據(jù)信息統(tǒng)計(jì)見表2。
表2 數(shù)據(jù)集統(tǒng)計(jì)
本文實(shí)驗(yàn)基于keras深度學(xué)習(xí)框架實(shí)現(xiàn),在本實(shí)驗(yàn)中,為了得到相對穩(wěn)定的實(shí)驗(yàn)結(jié)果,實(shí)驗(yàn)重復(fù)進(jìn)行了50次。具體參數(shù)設(shè)置見表3。
表3 實(shí)驗(yàn)參數(shù)設(shè)置
3.3.1 gru-capsule與其它模型的實(shí)驗(yàn)結(jié)果對比
為了驗(yàn)證文中提出的gru-capsule組合網(wǎng)絡(luò)模型的有效性,本文在兩個(gè)公共數(shù)據(jù)集和民航旅客不文明行為信息數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),且均在同一實(shí)驗(yàn)條件下進(jìn)行,本文對比實(shí)驗(yàn)選取比較主流的幾個(gè)基線模型:cnn、lstm、gru。另外,還將上述基線模型分別與膠囊網(wǎng)絡(luò)集成cnn-capsule、lstm-capsule等組合模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表4。
表4 準(zhǔn)確率結(jié)果對比
其中準(zhǔn)確率一是在花唄借唄問答數(shù)據(jù)集上的準(zhǔn)確率,準(zhǔn)確率二是在LCQMC問答數(shù)據(jù)集上的準(zhǔn)確率,準(zhǔn)確率三是在民航旅客不文明行為信息數(shù)據(jù)集上的準(zhǔn)確率。
從表中實(shí)驗(yàn)結(jié)果可以看出,相比于其它基線模型,本文提出的gru-capsule組合模型在兩個(gè)三個(gè)數(shù)據(jù)集上均取得了最高的準(zhǔn)確率。其中在花唄借唄問答數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了70.33%,在LCQMC問答數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了73.94%,在民航旅客不文明行為信息數(shù)據(jù)集上也達(dá)到了72.06%。同時(shí)可以看到,由于capsule采用了動態(tài)路由機(jī)制,解決了cnn在最大池化操作中存在的信息損失問題,因此,在兩個(gè)公共數(shù)據(jù)集上的準(zhǔn)確率都有所提高,同時(shí),在民航旅客不文明行為數(shù)據(jù)集上準(zhǔn)確率由cnn的63.33%提高到了capsule的69.53%;
在兩個(gè)公共數(shù)據(jù)集和民航數(shù)據(jù)集上,cnn-capsule的準(zhǔn)確率相比于cnn也均有所提高,原因是數(shù)據(jù)只經(jīng)過卷積層就輸入膠囊網(wǎng)絡(luò)層,并未經(jīng)過最大池化操作,因此不存在池化過程中的信息損失;在花唄借唄問答數(shù)據(jù)集上lstm-capsule的準(zhǔn)確率從lstm的64.37%提高到了65.66%,在LCQMC問答數(shù)據(jù)集上lstm-capsule的準(zhǔn)確率從lstm的68.31%提高到了68.99%,在民航旅客不文明行為信息數(shù)據(jù)集上lstm-capsule的準(zhǔn)確率從lstm的67.06%提高到了68.33%;相比于cnn-capsule,lstm-capsule在3個(gè)數(shù)據(jù)集上的準(zhǔn)確率也有所提高,原因是lstm雖然訓(xùn)練比較耗時(shí),但能獲取序列化的文本信息,這在文本處理上非常重要;甚至在花唄借唄問答數(shù)據(jù)集上cnn-lstm-capsule模型的準(zhǔn)確率都從cnn-lstm的62.69%提高到了67.81%,LCQMC問答數(shù)據(jù)集從69.44%提高到了69.67%,在民航旅客不文明行為信息數(shù)據(jù)集上cnn-lstm-capsule模型的準(zhǔn)確率都從cnn-lstm的68.67%提高到了69.60%;在本文3個(gè)數(shù)據(jù)集上所有集成了膠囊網(wǎng)絡(luò)的模型中,只有cnn-gru到cnn-gru-capsule準(zhǔn)確率降低了,原因是隨著模型深度的增加,信息經(jīng)過卷積層和門控循環(huán)單元之后有所衰減,膠囊網(wǎng)絡(luò)層不能充分利用原始文本中的有效信息。另外,從表中數(shù)據(jù)可以看出,本文實(shí)驗(yàn)中LCQMC問答數(shù)據(jù)集上的準(zhǔn)確率要普遍略高于花唄借唄問答數(shù)據(jù)集和民航旅客不文明行為信息數(shù)據(jù)集,原因是后者包含很多專用詞匯,給詞向量的構(gòu)建帶來一些噪音。通過在這3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以驗(yàn)證膠囊網(wǎng)絡(luò)在文本相似度計(jì)算領(lǐng)域具有很大的潛力,并且適用于民航旅客不文明行為信息這一特殊領(lǐng)域的數(shù)據(jù)集,同時(shí)驗(yàn)證了gru-capsule組合模型的有效性。
3.3.2 網(wǎng)絡(luò)參數(shù)對模型的影響
網(wǎng)絡(luò)參數(shù)的設(shè)置對模型的實(shí)驗(yàn)效果有明顯的影響。針對本文民航旅客不文明行為信息數(shù)據(jù)集,本組實(shí)驗(yàn)采用3種優(yōu)化器進(jìn)行評估。分別是自適應(yīng)梯度下降(adagrad)、自適應(yīng)矩估計(jì)(adam)和隨機(jī)梯度下降(sgd)。每個(gè)優(yōu)化器分別進(jìn)行了50次重復(fù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 不同優(yōu)化器準(zhǔn)確率比較
由圖4可知,在該數(shù)據(jù)集上自適應(yīng)矩估計(jì)優(yōu)化器表現(xiàn)最好,自適應(yīng)梯度下降優(yōu)化器的表現(xiàn)也明顯優(yōu)于隨機(jī)梯度下降優(yōu)化器。相比于批量梯度下降法,雖然隨機(jī)梯度下降優(yōu)化器訓(xùn)練速度變快,但由于是隨機(jī)抽取,因此不可避免產(chǎn)生誤差,由于其隨機(jī)性,可能會被困在局部極值,并且隨機(jī)梯度下降優(yōu)化器不能自適應(yīng)學(xué)習(xí)率,因此其準(zhǔn)確率最低。
而自適應(yīng)梯度下降優(yōu)化器能夠?qū)崿F(xiàn)學(xué)習(xí)率的自動更改。如果某次梯度大,那么學(xué)習(xí)速率就衰減的快一些,如果某次梯度小,那么學(xué)習(xí)速率就衰減的慢一些,因此它表現(xiàn)的比隨機(jī)梯度下降優(yōu)化器效果好。自適應(yīng)矩估計(jì)優(yōu)化器也是一種自適應(yīng)學(xué)習(xí)率的優(yōu)化器,與自適應(yīng)梯度下降優(yōu)化器相比,它更適合于較為稀疏的數(shù)據(jù),民航旅客不文明信息數(shù)據(jù)集是一個(gè)比較稀疏的數(shù)據(jù)集,因此它的表現(xiàn)優(yōu)于自適應(yīng)梯度下降優(yōu)化器。
雖然自適應(yīng)梯度下降優(yōu)化器和自適應(yīng)矩估計(jì)優(yōu)化器能夠自適應(yīng)學(xué)習(xí)率,但針對特定數(shù)據(jù)集,模型中初始學(xué)習(xí)率的設(shè)定對實(shí)驗(yàn)仍具有一定的影響,本組實(shí)驗(yàn)固定使用自適應(yīng)矩估計(jì)優(yōu)化器,仍在民航旅客不文明數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),學(xué)習(xí)率分別設(shè)置為0.0005、0.001和0.002進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)分別進(jìn)行50次,每次都迭代100輪,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同學(xué)習(xí)率準(zhǔn)確率比較
從實(shí)驗(yàn)結(jié)果可以看出,在該數(shù)據(jù)集上,當(dāng)學(xué)習(xí)率設(shè)置較小的時(shí)候,模型收斂速度變慢,但是準(zhǔn)確率有所提高,當(dāng)學(xué)習(xí)率設(shè)為0.002時(shí),準(zhǔn)確率明顯低于學(xué)習(xí)率為0.0005時(shí),學(xué)習(xí)率設(shè)為0.001時(shí)的準(zhǔn)確率介于二者之間。該組實(shí)驗(yàn)驗(yàn)證了在針對本文數(shù)據(jù)集使用自適應(yīng)學(xué)習(xí)率優(yōu)化器時(shí),初始學(xué)習(xí)率的設(shè)置會對實(shí)驗(yàn)結(jié)果產(chǎn)生影響。
本文針對民航旅客不文明行為信息匹配這一特定領(lǐng)域的文本相似度計(jì)算任務(wù),提出了gru-capsule組合網(wǎng)絡(luò)模型,將其用于民航旅客不文明信息相似度的計(jì)算。該模型中的膠囊網(wǎng)絡(luò)在提取文本特征信息的時(shí)候可以有效地減少傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)在池化過程中的信息損失,其中的動態(tài)路由過程可以使得重要的信息得到加強(qiáng),不重要的信息給以削弱。同時(shí)使用門控循環(huán)單元解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)因無法捕獲長距離依賴信息而導(dǎo)致的梯度消失問題。有效地提升了相似度的計(jì)算性能,提高了分類的準(zhǔn)確率,相比于傳統(tǒng)的網(wǎng)絡(luò)模型,文本的語義信息也得到充分利用,在民航旅客不文明行為信息數(shù)據(jù)集上取得了較好的實(shí)驗(yàn)效果。另外,本文模型在計(jì)算相似度時(shí),統(tǒng)一的使用了余弦距離度量,還沒有將網(wǎng)絡(luò)模型與其它距離公式結(jié)合實(shí)驗(yàn)。因此,作者將在本文的基礎(chǔ)上,繼續(xù)探索不同的距離算法對實(shí)驗(yàn)效果的影響。同時(shí),相較于LCQMC問答數(shù)據(jù)集,在民航旅客不文明行為信息數(shù)據(jù)集上模型準(zhǔn)確率普遍偏低的情況,將對數(shù)據(jù)集設(shè)置專用詞典,進(jìn)一步實(shí)驗(yàn),建立一個(gè)針對民航旅客不文明行為信息數(shù)據(jù)集準(zhǔn)確率更高的網(wǎng)絡(luò)模型。