李 凡,白尚旺,黨偉超,潘理虎
(太原科技大學計算機科學與技術(shù)學院,山西 太原 030024)
政務服務是國家信息化水平的重要指標,是推動其他領(lǐng)域信息化的重要因素。近年來,地方政府積極推動政務服務的發(fā)展,完善政府管理、公共服務和應急響應能力[1]。
然而,在政務服務網(wǎng)站中,用戶上傳辦件所需材料后,仍需要人工進行核對,這嚴重降低了辦事效率,影響了我國政務方面信息化的快速推進。
因此,本文提出一種基于Do-Bi-LSTM的文本相似度計算方法,Do-Bi-LSTM致力于提升政務審批速度與準確率,減少辦事群眾等待的時間,讓辦事群眾能夠感受到政務信息化帶來的便利。它為用戶辦件審批提供了保證。通過該模型,系統(tǒng)可以對政務網(wǎng)站中用戶上傳的文件是否與數(shù)據(jù)庫中的文件模板相匹配,給出一個相似度,實現(xiàn)了對審批的智能輔助[2]。該系統(tǒng)真正減輕了工作人員審批的工作量,有利于審批工作快速、正確地完成,提高了審批效率。
在自然語言處理(Natural Language Processing, NLP)領(lǐng)域中,文本相似度的應用十分廣泛,例如:自動摘要、機器翻譯、詞性標注、主題識別、文本分類等。傳統(tǒng)的文本相似度的處理方法是基于統(tǒng)計的機器學習方法,諸如One-hot編碼、Bag of Words、N-gram等方法轉(zhuǎn)換成向量[3-5],然后再利用詞頻,即文本中單詞出現(xiàn)的頻率或次數(shù)表示文本特征來度量文本間的相似性。這類方法需要對現(xiàn)有的數(shù)據(jù)進行大量的特征提取工作,存在數(shù)據(jù)量大、特征多、難以捕捉文本的含義等問題,而且算法本身比較復雜,計算時間較長,需要很長的時間去優(yōu)化,相對來說這類模型欠缺穩(wěn)定。
近年來,基于深度學習的方法已被廣泛應用于自然語言處理領(lǐng)域中。張波[6]提出了基于維基百科的快速詞語相似度計算方法,改進了維基百科消歧處理算法;劉文等人[7]融合共現(xiàn)距離和區(qū)分度來進行短文本的相似度計算,解決了當前特征稀疏的問題;徐鑫鑫等人[8]利用訓練好的詞向量和句向量構(gòu)建特征權(quán)重系數(shù),對詞游走距離計算公式進行改進后,選取一定比例關(guān)鍵詞的詞向量與句向量計算詞句轉(zhuǎn)移成本,從而得到文檔的文本相似度。
本文通過對現(xiàn)有研究成果的整理歸納,在原有方法上進行了改良,建立了Do-Bi-LSTM模型。該模型主要結(jié)合了詞嵌入技術(shù)Doc2vec和Bi-LSTM算法,既增加了語義語序的分析,也有效地解決了LSTM算法中訓練成本大的問題。然后將模型用于處理文本相似度的任務,用在電子政務系統(tǒng)中。最后通過和傳統(tǒng)的深度神經(jīng)網(wǎng)絡模型(CNN)、考慮句子間關(guān)系的長短期記憶網(wǎng)絡(LSTM)以及分層的長短期記憶網(wǎng)絡模型(HP-LSTM)進行對比實驗,驗證了該方法的有效性。
圖1 文本相似度評價模型
在Do-Bi-LSTM模型中,首先需要對數(shù)據(jù)進行預處理,其中包括去重、分詞、歸一化、缺失值處理,然后通過Doc2vec詞嵌入技術(shù)訓練該數(shù)據(jù)集的向量模型。最后將訓練好的向量作為雙向長短程記憶網(wǎng)絡的輸入,并進行參數(shù)調(diào)優(yōu),最終返回2個文本的相似度。本文模型的技術(shù)路線主要包括數(shù)據(jù)的獲取及處理、Doc2vec詞嵌入、雙向長短程記憶網(wǎng)絡模型的訓練及調(diào)優(yōu)3個部分。具體結(jié)構(gòu)如圖1所示。
電子政務中產(chǎn)生的文本有其自身的特點,文本由標題和正文2個部分組成,其中標題總結(jié)了文本的中心思想,正文部分含大量信息,是對主題的詳細分析和描述。從文本特征的方面來說,新聞文本和政務文本具有相似的特征[9]。
因此,本研究采用搜狗新聞中的政務類新聞作為數(shù)據(jù)集。首先需要過濾無效字符并篩選出無重復的有效數(shù)據(jù),對其進行人工標注以及后續(xù)的分詞處理。
本文采用Doc2vec技術(shù)將詞語轉(zhuǎn)換成向量,Doc2vec模型結(jié)構(gòu)和Word2vec相比,在輸入層上多增加了一個段落向量,該向量在多次訓練中逐漸穩(wěn)定,最終形成了文本向量的表示。這種結(jié)構(gòu)克服了詞袋模型忽略詞語間順序的缺點,而且簡化了文本向量化之后的矩陣表示[10-13]。
Word2vec算法得到的詞向量不僅考慮了詞之間的語義信息,還壓縮了維度。該模型可以分為Skip-gram和CBOW,其基于語言模型中單詞在前后文中使用的頻率進行推測,這2種模型都是通過3層神經(jīng)網(wǎng)絡來實現(xiàn)的,其中Skip-gram是根據(jù)現(xiàn)在所使用的詞語來對前后文內(nèi)容進行預測,而CBOW是結(jié)合語句前后文信息對當前詞語展開推測[14]。
圖2 CBOW模型
Doc2vec也可分成DM和DBOW模型,其中前者是在結(jié)合前后文以及文本向量的基礎(chǔ)上對詞語出現(xiàn)的頻率進行推測,后者由英文Distributed Bag-of-Words縮寫而來,是按照當前的文本向量對文本中任意詞語的頻率進行推測。DM進行練習的過程中,第一步是把語料庫里的全部單詞和各文檔ID設為默認狀態(tài),即K維向量,接著在模型中輸入前后文詞語和文檔向量,通過投影層實現(xiàn)向量求和,最終計算出中間向量,將其當作輸出端的輸入。輸出端也能夠通過分層Soft-max或負采樣降低訓練復雜度[16-18]。DM模型如圖3所示。
圖3 DM模型
LSTM屬于時間遞歸神經(jīng)網(wǎng)絡,能夠解決長期依賴問題。其在門的作用下能夠記憶相對較長的關(guān)鍵性事件的同時還具有良好的長語義處理功能,并有效避免了遞歸神經(jīng)網(wǎng)絡的梯度消失和爆炸問題,所以在基于文本類別區(qū)分以及序列建模中有著非常高的實用性和普及率。通過圖4可以看出本文所運用的LSTM單元,重點涉及4個神經(jīng)網(wǎng)絡層和輸入、輸出、遺忘3個門[19]。
圖4 LSTM神經(jīng)單元
1)遺忘門ft運用sigmoid將r∈[0,1]進行輸出,進而對前一個LSTM單元的輸出結(jié)果ht-1作出判斷,比如“高興”一詞的具體保留現(xiàn)狀,1代表的含義是全部保留,0代表的含義是全部舍棄。通過式(1)和式(2)分別可知sigmoid函數(shù)以及ft計算公式。
(1)
ft=sigmoid(Wf·[ht-1,xt])+bf
(2)
2)通過式(3)~式(5)所顯示的“輸入門”Ct,在對神經(jīng)單元進行調(diào)整時根據(jù)遺忘門所預留的部分、it和對it進行替補的Ct來實現(xiàn)。如果一個句子中前后語義發(fā)生轉(zhuǎn)折時,更新內(nèi)容的效果更顯著。
it=sigmoid(Wi·[ht-1,xt])+bi
(3)
C′t=tanh(Wc·[ht-1,xt])+bc
(4)
Ct=ft·Ct-1+it·C′t
(5)
3)通過式(6)和式(7)可以計算出Ct的輸出結(jié)果即ht,輸出部分是根據(jù)sigmoid函數(shù)作出選擇,并基于tanh函數(shù)達到輸出的目的,tanh函數(shù)如公式(8)所示。
Ot=sigmoid(Wo·[ht-1,xt])+bo
(6)
ht=Ot·tanh(Ct)
(7)
(8)
式中,Wf、Wi、Wc、Wo代表的是權(quán)重參數(shù),bf、bi、bc、bo代表的是偏置項,·表示的是點乘。
圖4是LSTM的神經(jīng)單元,從圖中可以看到,LSTM對于長文依賴問題是利用記憶元件進行處理的,可是其屬于正向傳播算法,相對于長距離的問題提取來說,不但只有序列前傳會對總體文體相似結(jié)果形成影響,而且后值同樣具有相應的影響,還應當全面根據(jù)BP算法來學習[20]。所以運用Bi-LSTM模型來提取語義信息屬性,可全面結(jié)合正向和反向2種傳播算法得出前后文的語義信息,具體參照式(9)。其在文體相似度計算過程中一般在前后文語義屬性的學習中被使用,在此基礎(chǔ)上按照屬性對文本作相似度匹配[21]。
(9)
為了對本文模型在文本相似度任務中的有效性進行驗證,實驗中加入了傳統(tǒng)的深度神經(jīng)網(wǎng)絡模型(CNN)、考慮句子間關(guān)系的長短期記憶網(wǎng)絡(LSTM)以及分層的長短期記憶網(wǎng)絡模型(HP-LSTM)進行對比分析。
本文實驗選取搜狗新聞中的2000條政務類數(shù)據(jù)作為數(shù)據(jù)集進行實驗。該數(shù)據(jù)集中包含網(wǎng)頁xml格式信息,存在大量的格式標簽文件,因此,需要對數(shù)據(jù)進行預處理工作。
首先需要提取xml格式中引號標簽內(nèi)的有效數(shù)據(jù),然后對xml格式信息的標簽缺失部分進行補齊。針對處理好的xml文件,提取其中的文本并進行保存。其次在數(shù)據(jù)預處理的基礎(chǔ)上進一步對數(shù)據(jù)進行清洗,包括刪除特殊字符、去除中文停用詞和中文分詞等工作。
在本文的實驗中,對數(shù)據(jù)集中的文本采用Doc2vec進行向量初始化,然后作為Bi-LSTM網(wǎng)絡模型的輸入來訓練模型。本文使用jieba分詞工具對實驗數(shù)據(jù)集進行分詞處理。主要采用網(wǎng)格搜索法進行參數(shù)調(diào)節(jié),其中窗口大小分別為2、3、4、5,每種窗口的個數(shù)均為100,LSTM隱藏層的單元數(shù)取128,學習速率為0.01,每個區(qū)域的固定長度設置為30。此外,采用ReLU激活函數(shù)以有效地防止梯度消失的情況。Do-Bi-LSTM模型在實驗中使用的詳細參數(shù)如表1所示。
表1 參數(shù)設置
將本文提出的網(wǎng)絡模型和CNN、LSTM、HP-LSTM在文本相似度的任務上進行了3組對照實驗。把樣本數(shù)據(jù)分成10份,通過K折交叉檢驗法展開練習檢測,基于各數(shù)據(jù)將預測指標值計算出來,然后取10次的平均值,從而確立最后的預測結(jié)果,基于本文所建立的文本相似度分析模型進行評估。準確率(Precision, P)、召回率(Recall, R)以及F1值(F1-score)是模型評估常用的衡量指標。其中準確率是所有樣本中預測正確的比率,召回率指數(shù)據(jù)集中判斷相似度被預測正確的比率,F(xiàn)1值是一個綜合性指標,最大值為1,最小值為0,是準確率和召回率的調(diào)和平均值。F1值越高,表明文本相似度模型的效果越好。4種模型的平均評估結(jié)果見表2。
表2 最終實驗結(jié)果
表2得出的實驗結(jié)果表明,于K折交叉驗證里4組實驗在趨勢和準確度方面大致相同,通過最后的結(jié)論可以看出結(jié)合了Doc2vec詞嵌入技術(shù)的Bi-LSTM模型的效果要高于其他的網(wǎng)絡模型。其中,把所輸出的總文本向量當作輸入,同時在進行預處理時沒有將停用詞清除,輸入是一種大型的高維數(shù)據(jù),與CNN、LSTM和HP-LSTM相比,在很大程度上減少了訓練時間。本文提出的結(jié)合Doc2vec詞嵌入技術(shù)的Bi-LSTM模型充分利用了文本數(shù)據(jù)的特點,最終文本相似度的F1值為88.36%、準確率為90.28%,明顯比其余比照組要高。所以本文所設立的模型具有較強的可行性。
在比照實驗過程中對每個深度學習法進行了設置,以便對每個模型的功能展開最深層次的研究,該研究在保持其余解決流程不變的基礎(chǔ)上,將數(shù)量當作變量對每個模型因訓練集發(fā)生不同變化而受到的影響程度展開了綜合分析。如果將數(shù)據(jù)量大小設定成M,那么任意選取M∕2個數(shù)據(jù),每100為一組,提取M∈[100,2000],4種模型的準確率和F1值變化見圖5和圖6。
圖5 數(shù)據(jù)量對模型F1值的影響
圖6 數(shù)據(jù)量對模型準確率的影響
從圖5、圖6可以看出,CNN對數(shù)據(jù)集的大小比較敏感,隨著數(shù)據(jù)量的變化,F(xiàn)1值和準確率分別攀升7.1%和11.6%,相比于其他3種模型在文本相似度任務中體現(xiàn)得最不理想。但是其他3種算法LSTM、HP-LSTM以及本文提出的Do-Bi-LSTM均未受到太大的影響,F(xiàn)1值以及準確率在3%的范圍內(nèi)浮動,相比較來看最穩(wěn)定的是LSTM,F(xiàn)1均值和準確率均值分別是88%、89%。總體來看,在數(shù)據(jù)量變化的情況下,4種深度學習算法中表現(xiàn)最好的是Do-Bi-LSTM模型,F(xiàn)1值、準確率均得到了提升。
實驗結(jié)果表明,Do-Bi-LSTM模型在基于電子政務的文本相似度中取得了良好的效果,文本相似性匹配的最佳F1值為90.36%,顯示出了比以往研究中更佳的性能。此外,本文提出的方法中Doc2vec模型相比Word2Vec減少了網(wǎng)絡模型的學習時間,具有比現(xiàn)有提出的模型更好的時間性能。
本文提出了一個結(jié)合Doc2vec算法和雙向長短程記憶網(wǎng)絡的模型用于電子政務系統(tǒng)中文本相似度的任務中。所提出的模型可以通過雙向長短程記憶網(wǎng)絡有效地過濾文本中無用的信息,明顯地提高了文本相似性的準確性。最后,通過和現(xiàn)有的相似性網(wǎng)絡模型比較,驗證了該方法的有效性。
此外,從實驗結(jié)果也可以看出,本文提出的模型是針對電子政務系統(tǒng)的,對于其他方面的數(shù)據(jù),文本相似度的效果有一定的影響。同時,在面對海量的數(shù)據(jù)時,文本相似度匹配的準確率有一定的下降。所以本文接下來的工作將針對政務文本以外的數(shù)據(jù)進行實驗,并對現(xiàn)有的模型進行改進,以達到更好的文本相似度匹配效果。