陳毅波,張祖平,黃鑫,向行,何智強(qiáng)
(1. 國(guó)網(wǎng)湖南省電力有限公司,湖南 長(zhǎng)沙,410004;2. 中南大學(xué) 計(jì)算機(jī)學(xué)院,湖南 長(zhǎng)沙,410083)
識(shí)別文檔對(duì)的關(guān)系是一項(xiàng)自然語言理解任務(wù),也是文檔查重和文檔搜索工作必不可少的步驟。人工區(qū)分文檔需要花費(fèi)大量的人力資源成本,而早期文檔識(shí)別方法主要基于術(shù)語相似度和規(guī)則。傳統(tǒng)的基于術(shù)語如TF-IDF 向量、BM25、LDA 的匹配方法通過無監(jiān)督指標(biāo)評(píng)估文檔對(duì)之間的語義信息[1-4],在查詢文檔、檢索和搜索信息方面該方法取得了較大的成功,而基于規(guī)則的模型的穩(wěn)定性取決于構(gòu)建的知識(shí)結(jié)構(gòu)。此外,基于機(jī)器學(xué)習(xí)的文檔識(shí)別方法主要思想是將文檔分成多個(gè)類別,然后進(jìn)行分類以進(jìn)行檢索,在新聞報(bào)道、文獻(xiàn)查重等領(lǐng)域也取得了很好的識(shí)別效果[5]。
目前,文檔表示方法主要包括詞袋(BOW)[6]、詞頻逆文檔頻率(TF-IDF)[1]、隱含狄利克雷分布(LDA)[3]等向量,但是這些表示方法無法捕獲語義信息,通常無法獲得良好的性能。為了更好地捕捉語義關(guān)系,研究人員提出了圖形文檔表示[4],現(xiàn)有的大多數(shù)圖形文檔表示主要有詞、文本、概念和混合圖4 類[4]。在單詞圖中,文本中的單詞作為頂點(diǎn),通過句法分析、共現(xiàn)[4]等方法構(gòu)建邊;在文本圖中,句子、段落或文檔都被視為頂點(diǎn),詞共現(xiàn)、位置[7]、文本相似性被用來構(gòu)建邊。
近年來,研究人員提出多種用于文本匹配的深度神經(jīng)網(wǎng)絡(luò)模型[8-9],可以通過遞歸或卷積神經(jīng)網(wǎng)絡(luò)來捕捉自然語言中的語義依賴(尤其是順序依賴)關(guān)系,其中,WAN 等[8]提出了一種多語言通用的BiLSTM-CRF 模型,利用詞嵌入作為特征來識(shí)別命名實(shí)體;羅凌等[9]使用了CNN 與CRF 相結(jié)合在中文電子病歷上做命名實(shí)體識(shí)別研究;趙宏等[10]所提出的BiLSTM-CNNs模型在中文評(píng)論數(shù)據(jù)集上實(shí)現(xiàn)了92.64%的F1 值;SHEN 等[11]提出了一種基于命名實(shí)體識(shí)別的方法運(yùn)用在深度主動(dòng)學(xué)習(xí)上,幫助深度主動(dòng)學(xué)習(xí)在醫(yī)學(xué)和影像領(lǐng)域也取得了很大的成果[12],與深度學(xué)習(xí)方法相比,它只需要少量的訓(xùn)練數(shù)據(jù)即可獲得相同的效果。然而,這些神經(jīng)網(wǎng)絡(luò)模型沒有充分利用長(zhǎng)文本文檔固有的結(jié)構(gòu)特征。BERT預(yù)訓(xùn)練模型[13]可以用于長(zhǎng)文本匹配,但是模型復(fù)雜度高,難以滿足實(shí)際應(yīng)用中的速度要求。
然而,現(xiàn)有的涉及句子對(duì)匹配的深度模型主要用于釋義識(shí)別、文檔中的答案選擇、實(shí)體或較長(zhǎng)文檔中句子之間復(fù)雜的交互[8]等文檔匹配,但它并沒有被充分研究。其中,長(zhǎng)文檔間的語義匹配在很大程度上是一個(gè)未開發(fā)的領(lǐng)域,盡管有很多用于句子匹配的數(shù)據(jù)集[9],但沒有用于匹配長(zhǎng)文檔的公共標(biāo)簽數(shù)據(jù)集。
為了對(duì)長(zhǎng)文檔的語義匹配進(jìn)行評(píng)估,本文首先構(gòu)建了2個(gè)帶標(biāo)簽的數(shù)據(jù)集,一個(gè)是已標(biāo)注項(xiàng)目可研文檔對(duì)(來自不同項(xiàng)目)是否屬于同一個(gè)項(xiàng)目,另一個(gè)是已標(biāo)注文檔對(duì)是否屬于同一個(gè)主題,將DBPEDIA 等知識(shí)庫(kù)[14]中的專業(yè)術(shù)語鏈接到實(shí)際中的文檔匹配,通過捕獲文檔中的專業(yè)術(shù)語以構(gòu)建概念圖。在此基礎(chǔ)上,提出了一種后端匹配算法,以概念圖的形式表示和匹配長(zhǎng)文檔,基于構(gòu)建的概念圖(concept graph,CG)和圖神經(jīng)網(wǎng)絡(luò)(graph convolution network,GCN)來匹配一對(duì)文檔,其思想是對(duì)于兩個(gè)文檔中出現(xiàn)的每個(gè)概念頂點(diǎn),首先獲得一個(gè)局部匹配,然后采用GCN 將局部匹配向量聚合為最終匹配結(jié)果,該結(jié)果基于圖的整體視圖通過一系列文本編碼方案(包括神經(jīng)編碼和基于術(shù)語的編碼)生成。最后,對(duì)于關(guān)鍵字識(shí)別,提出了一種基于概念的多特征語義融合模型(multifeature semantic fusion model,MFSFM),引入上下文多特征嵌入(contextual multi-feature embedding,CMFE)結(jié)構(gòu)來優(yōu)化文本表示。
本文采用概念圖將文檔表示為無向擴(kuò)展圖。將文本轉(zhuǎn)化為概念圖的示意圖如圖1所示。
圖1 將文本轉(zhuǎn)化為概念圖的示意圖Fig. 1 Schematic diagram of converting texts into a concept graph
首先,將文檔分解為句子的子集,每個(gè)句子與其產(chǎn)生的概念進(jìn)行對(duì)齊。比如在文檔D中,概念圖GD是一個(gè)關(guān)鍵字或一組高度相關(guān)的關(guān)鍵字[4]。在概念圖中,先將關(guān)鍵字分組為概念,然后將每個(gè)句子附加到其最相關(guān)的概念頂點(diǎn)[4]。例如,在圖1 中,句子1 和句子2 主要討論“變壓器”和“電氣設(shè)備”的關(guān)系,因此被附加在概念(變壓器、電氣設(shè)備)之后??偟膩碚f,本文基于知識(shí)圖譜使用一個(gè)包含關(guān)鍵字信息的概念圖來正確地表示原始文檔。每個(gè)概念圖都有一個(gè)句子的子集和它們之間的拓?fù)潢P(guān)系。從文檔對(duì)構(gòu)建概念圖并通過GCN對(duì)其進(jìn)行分類的方法概覽如圖2所示,它詮釋了概念的發(fā)現(xiàn)、概念與句子的對(duì)齊方式和文檔概念圖的構(gòu)造過程。拆分文檔以及合并概念圖的步驟如下。
圖2 從文檔對(duì)構(gòu)建概念圖并通過GCN對(duì)其進(jìn)行分類的方法概覽Fig. 2 Overview of the method of constructing CG from document pairs and classifying them through GCN
步驟1) 構(gòu)建關(guān)鍵字共現(xiàn)圖。給定一個(gè)文檔,應(yīng)用命名實(shí)體識(shí)別方法提取命名實(shí)體和關(guān)鍵字,并且基于找到的關(guān)鍵字集構(gòu)建一個(gè)關(guān)鍵字共現(xiàn)圖(keyword co-occurrence graph,KCG),其中每個(gè)關(guān)鍵字代表一個(gè)頂點(diǎn)。如果2個(gè)關(guān)鍵字同時(shí)出現(xiàn)在同一個(gè)句子中,則構(gòu)建一條邊將它們連接起來。為了進(jìn)一步改進(jìn)模型,還可以通過共同實(shí)體分析和同義詞分析來組合具有相同含義的鍵。
步驟2) 概念檢測(cè)。KCG 的架構(gòu)揭示了關(guān)鍵字之間的交互關(guān)系。當(dāng)2 個(gè)關(guān)鍵字的集含高度相關(guān)時(shí),就可以在KCG中構(gòu)建一個(gè)密集連接的子圖[4]。此外,使用社區(qū)檢測(cè)算法可以將KCG 劃分為一組社區(qū),其中每個(gè)社區(qū)包含某個(gè)概念的關(guān)鍵字集合。由于每個(gè)關(guān)鍵字可能出現(xiàn)在多個(gè)概念中,且不同文檔中的概念數(shù)量差異很大,本文使用一種基于介數(shù)中心性得分的算法[15]檢測(cè)KCG 中的關(guān)鍵字社區(qū),而且每個(gè)關(guān)鍵字都可直接作為一個(gè)概念來使用,因此,概念檢測(cè)的優(yōu)點(diǎn)是減少了頂點(diǎn)的數(shù)量,增加了匹配速度。
步驟3) 句子附著。通過捕獲文檔關(guān)鍵字來發(fā)現(xiàn)概念后,按概念對(duì)句子進(jìn)行分組,然后計(jì)算句子和概念之間的余弦相似度,并且使用TF-IDF 向量表示[1]。不包含概念匹配的句子將被附加到虛擬頂點(diǎn)。虛擬頂點(diǎn)不包含任何關(guān)鍵字。
步驟4) 構(gòu)建邊。通過在概念之間放置邊來體現(xiàn)概念之間的關(guān)系,對(duì)于每個(gè)頂點(diǎn),將其句子集表示為與其相連的一系列句子,并使用TF-IDF 相似度計(jì)算兩者之間的邊權(quán)重。雖然可以使用其他方式來確定邊的權(quán)重,但是通過TF-IDF 構(gòu)造邊更好,這樣生成的概念圖的連接更緊密。
對(duì)于給定的2個(gè)文檔DA和DB,首先匹配DA和DB中與每個(gè)概念相關(guān)的句子集;然后,分別采用Siamese 編碼器和Term-based 特征抽取器匹配該文檔對(duì)[4]得到局部匹配結(jié)果并通過多個(gè)圖卷積層將局部匹配結(jié)果聚合成最終結(jié)果。為了克服以往算法的缺點(diǎn)以及在較長(zhǎng)的文本中捕獲更多的語義交互,本文從圖形角度來表示文檔。
圖2 所示為基于MFSFM 的文檔對(duì)匹配模型的整體架構(gòu),包括4個(gè)步驟:1) 通過單個(gè)合并的概念圖表達(dá)文檔對(duì);2) 研究每個(gè)概念頂點(diǎn)的多視圖匹配特征;3) 進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換,通過GCN 獲得局部匹配特征;4) 對(duì)局部匹配特征進(jìn)行分組得到最終結(jié)果。以上4個(gè)步驟以端到端的方式進(jìn)行訓(xùn)練。
對(duì)于給定分組后的概念圖GAB,所提出的模型首先為每個(gè)概念v(v∈GAB)學(xué)習(xí)一個(gè)固定長(zhǎng)度的匹配向量,以表示文檔DA和DB的句子集CA(v)和CB(v)之間的TF-IDF 語義相似度。這意味著將兩個(gè)文檔匹配轉(zhuǎn)換為每個(gè)頂點(diǎn)的句子集對(duì)匹配。進(jìn)一步地,基于術(shù)語的技術(shù)和神經(jīng)網(wǎng)絡(luò)生成局部匹配來聚合匹配向量。Siamese 網(wǎng)絡(luò)編碼器[15]被應(yīng)用于每個(gè)頂點(diǎn)v,將{CA(v),CB(v)}的詞嵌入轉(zhuǎn)換為固定大小的隱藏特征向量mAB(v)。
首先,采用Siamese 編碼器將CA(v)和CB(v)分別編碼成上下文向量tA(v)和tB(v)。采用包含1個(gè)或多個(gè)BiLSTM 或CNN 層的神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)CA(v)和CB(v)中的上下文信息。然后,通過后續(xù)聚合層[4]來計(jì)算頂點(diǎn)v的mAB(v)。分別計(jì)算上下文向量tA(v)和tB(v)的逐元素乘法以及逐元素絕對(duì)差,并拼接成mAB(v),即
其中:“?”表示Hadamard積[2]。
在采用Term-based 特征抽取器匹配文檔時(shí),綜合4種計(jì)算指標(biāo)(TF-IDF余弦相似度、TF余弦相似度、BM25 余弦相似度和1-gram 的Jaccard 相似度)來計(jì)算CA(v)和CB(v)之間基于術(shù)語的相似度,作為v的另一個(gè)匹配向量m′AB(v)。
一般而言,圖G=(V,E)被認(rèn)為是GCN 的輸入,其中,V和E分別為頂點(diǎn)和邊的集合,第i個(gè)頂點(diǎn)vi∈V,第i和j個(gè)頂點(diǎn)連成的邊eij=(vi,vj) ∈E。另外,GCN 輸入中包含頂點(diǎn)特征矩陣其中,fi是頂點(diǎn)vi的特征向量。那么,文檔對(duì)DA和DB的概念圖GAB包含了GCN 中每個(gè)頂點(diǎn)的連通匹配向量,因此,fi可以表示為
本文所設(shè)計(jì)的GCN 層如圖2(c)所示。概念圖GAB的加權(quán)鄰接矩陣為A?RN×N,矩陣A中的元素Aij為頂點(diǎn)i和j的TF-IDF相似度。以為元素構(gòu)建對(duì)角矩陣,其中,為概念圖GAB的度矩陣,為A的鄰接矩陣。GCN 的輸入層為H(0)=X,原始頂點(diǎn)特征被包含在H(0)中。記H(l)?RN×Ml為第l層的隱藏表示矩陣,每個(gè)GCN 層將運(yùn)用以下圖卷積濾波器來學(xué)習(xí)隱藏表示:
在概念圖GAB上,一階局部譜濾波器的近似利用了圖卷積規(guī)則[16]。在遞歸過程中,首先提取頂點(diǎn)之間的交互模式[4],然后根據(jù)獲得的最后一層所有頂點(diǎn)的隱藏向量的平均值,在GCN 層合并該平均值為一個(gè)固定長(zhǎng)度的向量,最后,使用諸如MLP的分類器來計(jì)算基于mAB(v)的最終匹配分?jǐn)?shù)。
本文提出了MFSFM模型來改進(jìn)文檔的關(guān)鍵字表示,MFSFM 的架構(gòu)如圖3 所示。首先,設(shè)計(jì)了一個(gè)基于上下文的多特征語義融合(contextual multi-feature embedding,CMFE)結(jié)構(gòu)來編碼上下文獲取的表達(dá)語義信息的詞向量;其次,考慮到關(guān)鍵字實(shí)體邊界的不確定性,構(gòu)造了一個(gè)多卷積核混合殘差CNN 模塊來獲得局部注意力和實(shí)體邊界信息;第三,采用一個(gè)由BiLSTM和單向LSTM組成的LSTM模塊來增強(qiáng)時(shí)序信息學(xué)習(xí);最后,采用CRF模塊來識(shí)別關(guān)鍵字實(shí)體。
圖3 多特征語義融合(MFSFM)架構(gòu)示意圖Fig. 3 Schematic diagram of multi-feature semantic fusion (MFSFM) architecture
利用Word2Vec 技術(shù)編碼文檔作為MFSFM 的輸入。Word2Vec 可以將每個(gè)單詞表示為一個(gè)低維向量,以便壓縮數(shù)據(jù)規(guī)模,加快編碼速度,使模型更容易學(xué)習(xí)。此外,所構(gòu)建的文檔數(shù)據(jù)集不僅具有字符(詞)特征,還具有詞性特征和相對(duì)位置特征,本文提出CMFE 方法來學(xué)習(xí)這兩種特征。CMFE 方法主要包括多特征語義增強(qiáng)(multi-feature semantic enhancement)和多級(jí)特征增強(qiáng)(multi-level feature enhancement)兩個(gè)過程,其示意圖如圖3所示。
多特征語義增強(qiáng)過程示意圖如圖4所示,其步驟如下。
圖4 多特征語義增強(qiáng)(以n=3為例)示意圖Fig. 4 Schematic diagram of multi-feature semantic enhancement (taking n=3 as an example)
1) 使用Word2Vec 技術(shù)得到數(shù)據(jù)集中每個(gè)特征的詞向量矩陣Wfi,i=1,2,…,m(m代表特征個(gè)數(shù))。
2) 將每個(gè)劃分中的特征輸入到矩陣Wfi,i=1,2,…,m,并得到對(duì)應(yīng)的特征向量。由于每個(gè)劃分中的特征可以被訓(xùn)練以反映不同特征的語義信息,因此,使用全連接(full connected,F(xiàn)C)層進(jìn)行加權(quán)求和得到加權(quán)詞向量(沒有偏置向量)。
令當(dāng)前時(shí)隙t的每個(gè)特征向量為Vt,i(i=1,2,…,m),F(xiàn)C 層每個(gè)特征向量權(quán)重為wt,i,i=1,2,…,m,與當(dāng)前時(shí)隙t有關(guān)的加權(quán)詞向量Vtw可以由下式計(jì)算:
式中:“⊙”為逐元素乘法運(yùn)算符號(hào)。
3) 采用窗口數(shù)n表征上下文的語義信息的相關(guān)度,使用FC層(無偏差向量)將n個(gè)分區(qū)加權(quán)詞向量拼接起來。記最大分割數(shù)為T,當(dāng)前時(shí)隙為t,則窗口數(shù)為n時(shí),F(xiàn)C 層的權(quán)重為wt+k,0 因此,當(dāng)使用FC 層獲取詞向量時(shí),多特征語義增強(qiáng)向量Vtf為 當(dāng)使用拼接操作獲取詞向量時(shí),多特征語義增強(qiáng)向量Vtf為 式中:“Σ⊕”為累積串聯(lián)運(yùn)算。 考慮到多特征語義增強(qiáng)只提取淺層特征,本文并沒有捕捉數(shù)據(jù)劃分之間的深層特征。為了用詞向量矩陣來表達(dá)數(shù)據(jù)的語義信息,本文利用CNN 網(wǎng)絡(luò)中的卷積操作通過擴(kuò)大感受野來獲得數(shù)據(jù)劃分的相關(guān)信息。因此,多級(jí)特征增強(qiáng)使用了兩層CNN 網(wǎng)絡(luò)(使用一維卷積)將兩層特征向量與多特征語義增強(qiáng)向量進(jìn)行拼接得到CMFE 向量,如圖5所示。 圖5 多級(jí)特征增強(qiáng)(以n=3為例)示意圖Fig. 5 Schematic diagram of multi-level feature enhancement (taking n=3 as an example) CMFE方法的輸出向量VtCMFE定義為: 其中:“⊕”為拼接操作,h(t1)和h(t2)分別為一維卷積輸出的1級(jí)和2級(jí)特征向量。 CMFE方法可以得到每個(gè)劃分?jǐn)?shù)據(jù)的詞向量表示,利用多特征強(qiáng)化語義信息和簡(jiǎn)單的CNN 網(wǎng)絡(luò)強(qiáng)化層次信息,使得后續(xù)的學(xué)習(xí)過程更容易。 為了評(píng)估所提出的MFSFM方法的有效性,將MFSFM方法應(yīng)用于項(xiàng)目申報(bào)中的項(xiàng)目查重,并與現(xiàn)有的模型進(jìn)行對(duì)比,其中,基于DNN 模型包括ARC-I[17]、 ARC-II[17]、 DSSM[18]、 DUET[19]和Matchpyramid[20]模型;基于術(shù)語的相似性模型包括BM25[2]、LDA[3]和SimNet,以及基于大規(guī)模預(yù)訓(xùn)練語言模型BERT[13]。 為了更好地匹配長(zhǎng)文本,在所提出的方法中,任何短文本信息(如短標(biāo)題、圖表標(biāo)注、停用詞等)都被遺棄,但保留關(guān)鍵文檔信息的短文本(例如文章標(biāo)題)。 對(duì)于匹配長(zhǎng)文檔任務(wù),沒有公共數(shù)據(jù)集可供使用。為此,本文構(gòu)建了中文可行性研究同項(xiàng)目數(shù)據(jù)集(Chinese feasibility study same project data set,CNSR)和中文可行性研究同主題數(shù)據(jù)集(Chinese feasibility study same subject data set,CNSI)2 個(gè)數(shù)據(jù)集,包含從中國(guó)湖南國(guó)網(wǎng)電力有限公司收集的約500份長(zhǎng)篇可行性報(bào)告文件,涵蓋公司各個(gè)領(lǐng)域的多個(gè)主題。這些數(shù)據(jù)集均由相關(guān)領(lǐng)域?qū)<疫M(jìn)行輔助標(biāo)記。其中,CNSR 數(shù)據(jù)集包含4 678 對(duì)帶標(biāo)記的可行性研究報(bào)告,標(biāo)記了每對(duì)文檔是否為同一領(lǐng)域的項(xiàng)目;CNSI數(shù)據(jù)集包含2 464對(duì)帶標(biāo)記的可行性研究報(bào)告,標(biāo)記了每對(duì)文檔是否屬為同一主題。數(shù)據(jù)集中所有文檔的平均單詞數(shù)為9 034 個(gè),最大值為32 461 個(gè)。在CNSR 和CNSI 數(shù)據(jù)集中,使用樣本的70%作為訓(xùn)練集,15%作為驗(yàn)證集,剩下的15%作為測(cè)試集。表1所示為CNSR 和CNSI 數(shù)據(jù)集的詳細(xì)分類。在這些數(shù)據(jù)集中,只標(biāo)注了可行性研究報(bào)告的主要研究項(xiàng)目,同時(shí)需要保證不同的分割不涵蓋重復(fù)數(shù)據(jù),避免數(shù)據(jù)泄露。本文選擇包含相似項(xiàng)目(關(guān)鍵字)的項(xiàng)目文檔對(duì),并排除TF-IDF 相似度低于某個(gè)閾值的樣本,不會(huì)隨機(jī)生成兩個(gè)數(shù)據(jù)集中的負(fù)樣本。 表1 CNSR和CNSI數(shù)據(jù)集的詳細(xì)分類Table 1 CNSR ans CNSI evaluation dataset detailed classification 采用二分類的準(zhǔn)確率以及F1-measure 值評(píng)估模型的文檔對(duì)匹配性能。對(duì)于每種評(píng)估方法,進(jìn)行20個(gè)epoch的訓(xùn)練,然后選擇測(cè)試集的最優(yōu)值作為最終結(jié)果。 采用文獻(xiàn)[10]中提出的BiLSTM-CRF模型作為關(guān)鍵字實(shí)體識(shí)別模型,并將本文所提出的CMFE與CBOW和Skip-gram進(jìn)行比較。其中,CBOW和Skip-gram 算法的參數(shù)設(shè)置如下:上下文窗口數(shù)n不同之處為5,負(fù)樣本數(shù)為10,詞向量大小為128。CMFE 的參數(shù)設(shè)置與CBOW 和Skip-gram 算法的設(shè)置相同,其中,一組64 維詞向量用于多特征語義增強(qiáng),窗口數(shù)n=3;另一組64 維詞向量用于多級(jí)特征增強(qiáng),卷積核大小為3。使用Stanford CoreNLP進(jìn)行分詞(中文文本)和命名實(shí)體識(shí)別,對(duì)于帶有社區(qū)檢測(cè)的概念交互圖構(gòu)建,將最小社區(qū)大小(概念頂點(diǎn)中包含的關(guān)鍵字?jǐn)?shù)量)設(shè)置為2,最大社區(qū)大小設(shè)置為6。 本文的神經(jīng)網(wǎng)絡(luò)模型包括詞嵌入層、Siamese編碼器、圖卷積層和分類層。在Siamese 編碼器中,依次使用1維卷積和64維全連接層、ReLU和Max Pooling 操作對(duì)概念圖進(jìn)行編碼表示。在圖卷積層中,使用3 層GCN[16]對(duì)CNSS 數(shù)據(jù)集和CNSE數(shù)據(jù)集進(jìn)行文檔匹配,當(dāng)頂點(diǎn)編碼器有4 維特征時(shí),GCN 層的輸出大小設(shè)置為32;當(dāng)頂點(diǎn)編碼器是Siamese 編碼器時(shí),將GCN 層的輸出大小設(shè)置為128。在最后的分類層中,有一個(gè)輸出大小為32的線性層和一個(gè)ReLU層。使用tensorflow 2.0來實(shí)現(xiàn)基于MFSFM 的匹配算法。在神經(jīng)網(wǎng)絡(luò)模型中,采用正則化項(xiàng)L2對(duì)所有可訓(xùn)練變量使用權(quán)重衰減,正則化參數(shù)λ設(shè)置為2×10-6。網(wǎng)絡(luò)損失率設(shè)置為0.005。使用最大梯度范數(shù)為5.0 的梯度裁剪,ADAM 作為優(yōu)化器,其中,第一動(dòng)量梯度下降因子β1=0.85,第二動(dòng)量梯度下降因子β2=0.99,除零誤差ε=1×10-8。在前1 500 步中,網(wǎng)絡(luò)學(xué)習(xí)率呈指數(shù)衰減,衰減幅度設(shè)為0~0.001,然后在其余步驟中保持恒定的學(xué)習(xí)率,最大訓(xùn)練epoch 數(shù)設(shè)置為20。 不同識(shí)別方法在2個(gè)數(shù)據(jù)集上的識(shí)別性能如表2所示。從表2可以看出,在關(guān)鍵字實(shí)體識(shí)別方面,CMFE 模型的準(zhǔn)確率和召回率明顯比其他方法的高。 表2 不同識(shí)別方法的識(shí)別性能對(duì)比Table 2 Comparison of performance for different textual representations CMFE通過數(shù)據(jù)集中的多個(gè)特征進(jìn)行多特征語義增強(qiáng),再通過CNN網(wǎng)絡(luò)進(jìn)行多層次的特征增強(qiáng)。所提出的MFSFM在兩個(gè)數(shù)據(jù)集上都實(shí)現(xiàn)了最佳識(shí)別性能,并且明顯優(yōu)于其他方法的識(shí)別性能。這是因?yàn)閮蓚€(gè)文檔在知識(shí)圖譜化后是沿著對(duì)應(yīng)的語義單元對(duì)齊的,從而便于概念比較,而且所提出的MFSFM 對(duì)實(shí)體上下文周圍的語義信息進(jìn)行編碼,并通過圖卷積來聚合它們。因此,基于MFSFM的匹配算法通過圖形化文檔的方式解決文檔匹配問題,適用于處理長(zhǎng)文本。 不同方法在CNSR 和CNSI 數(shù)據(jù)集上的準(zhǔn)確率和F1值比較如表3所示。從表3可見:本文所提出的模型在CNSR 和CNSI 數(shù)據(jù)集上的分類精度分別提高了13.67%和15.83%。 表3 不同方法在CNSR和CNSI數(shù)據(jù)集上的準(zhǔn)確率和F1值比較Table 3 Comparison of accuracy and F1 value of different methods on CNSR and CNSI datasets CG-Siam 模型和MatchPyramid 模型具有相同的詞向量,均使用神經(jīng)網(wǎng)絡(luò)(NN)對(duì)文本進(jìn)行編碼,但CG-Siam模型以逐頂點(diǎn)分解的方式比較了CG上的文檔對(duì),對(duì)比可知:CG-Siam模型的匹配性能優(yōu)于MatchPyramid 模型的匹配性能。同樣,將本文CG-Sim模型與SimNet模型進(jìn)行比較,兩者都應(yīng)用基于術(shù)語的相似性,可見,本文的方法的匹配性能大大優(yōu)于SimNet 算法。這是因?yàn)閳D形分解可以顯著提高長(zhǎng)文本的匹配性能,而SimNet 模型的主要是為了匹配序列而發(fā)明的,無法在項(xiàng)目文檔對(duì)中獲得有意義的語義信息。當(dāng)上下文太長(zhǎng)時(shí),匹配文檔對(duì)很難獲得較好的上下文表示。對(duì)于專注于交互的NN模型,單詞之間的大多數(shù)交互對(duì)于兩個(gè)長(zhǎng)文檔來說是沒有意義的。 分別對(duì)比CG-Siam-GCN 和CG-Siam 模型、CG-Sim-GCN和CG-Sim模型可知:通過合并GCN層,2個(gè)數(shù)據(jù)集的匹配性能均顯著提高。GCN通過整合每個(gè)頂點(diǎn)及其相鄰頂點(diǎn)來更新隱藏向量,將局部匹配特征聚合成最終結(jié)果。 分別對(duì)比CGc-Siam-GCN 和CG-Siam-GCN 模型、CGc-Sim-GCN 和CG-Sim-GCN 模型可知:社區(qū)檢測(cè)技術(shù)會(huì)帶來短暫的性能降低,這是因?yàn)橹苯邮褂藐P(guān)鍵字的概念頂點(diǎn)可以提供更多錨點(diǎn)來比較文檔對(duì)。一致的關(guān)鍵字可以通過社區(qū)檢測(cè)高度分組在一起,CG的平均大小可以從35個(gè)頂點(diǎn)減少到16 個(gè),基于MFSFM 的匹配算法的總訓(xùn)練時(shí)間可以減少53.6%。因此,可以選擇使用社區(qū)檢測(cè)來降低準(zhǔn)確性以提高算法速度。 CG-Sim&Siam-GCN模型的匹配性能明顯優(yōu)于CG-Sim 模型的匹配性能,這證明了連接多視圖匹配向量可以捕獲更多的文檔關(guān)鍵信息,提高匹配度。從表3可見:全局特征越多的算法總是表現(xiàn)不佳。這是因?yàn)檫@些文檔對(duì)的相似性和/或BERT 編碼的全局特征相對(duì)于本文所提出的概念圖,缺乏對(duì)文檔核心語義的理解。提高匹配性能的主要因素是圖的分解和卷積,模型在全局語義關(guān)系中綜合了局部比較信息,而多余的全局特征會(huì)干擾模型的訓(xùn)練。 在實(shí)驗(yàn)中,沒有BERT 的最大模型是CGSim&Siam-GCN-Simg,它只包含大約54 000 個(gè)參數(shù),而BERT 中有130~340×106個(gè)參數(shù)。此外,本文在模型中對(duì)不同參數(shù)的敏感性進(jìn)行了測(cè)試,可以發(fā)現(xiàn)含2~3 個(gè)GCN 層的模型的匹配性能最好,增加更多的GCN 層不能提高模型的匹配性能,但如果不含GCN 或只有1 層GCN,模型匹配性能最差。另外,GCN層中隱藏層向量大小在32~256之間具有最佳性能,并且更大的尺寸不會(huì)提高性能。當(dāng)構(gòu)建CG 時(shí),需要為可選的社區(qū)檢測(cè)步驟選擇社區(qū)的大小,如果最大尺寸為8~10,最小尺寸為2~3,性能會(huì)更差。這表明所提出的基于MFSFM的匹配算法是穩(wěn)定的,即對(duì)參數(shù)并不是很敏感??偠灾疚乃岢龅幕诟拍顖D的模型優(yōu)于其他算法。 根據(jù)實(shí)際復(fù)雜度的定義,社區(qū)檢測(cè)的時(shí)間復(fù)雜度為O(q3),構(gòu)建關(guān)鍵字圖的時(shí)間復(fù)雜度為O(rp+q2),句子附著和計(jì)算權(quán)重的操作時(shí)間復(fù)雜度為O(rp+p2),其中,r表示2 個(gè)文檔數(shù)據(jù)集中句子的數(shù)量,p表示句子中單詞的數(shù)量,q表示句子中關(guān)鍵字的數(shù)量。由于本文構(gòu)建的文檔中關(guān)鍵字?jǐn)?shù)量q很小,因此,整體時(shí)間復(fù)雜度很小,模型的收斂速度快。 1) 針對(duì)文檔的關(guān)鍵字提取,提出了多特征語義融合模型MFSFM 來捕獲關(guān)鍵字。與基于RNN的序列建模相比,MFSFM通過多特征語義增強(qiáng)組件更關(guān)注實(shí)體的上下文語義信息。 2) 提出一種后端匹配算法,通過構(gòu)建關(guān)鍵字共現(xiàn)圖,并應(yīng)用社區(qū)檢測(cè)算法檢測(cè)概念以概念圖的形式來表示文檔,并利用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文檔對(duì)匹配。 3) 本文所提出的模型在CNSR 和CHSI 數(shù)據(jù)集上的分類精度分別提高了13.67%和15.83%,同時(shí)可以實(shí)現(xiàn)快速收斂,而且本文所提出的后端匹配算法可以很容易地實(shí)現(xiàn),并應(yīng)用于其他文檔數(shù)據(jù)集。2 模型驗(yàn)證與分析
2.1 數(shù)據(jù)集
2.2 實(shí)驗(yàn)參數(shù)設(shè)置
2.3 結(jié)果與分析
4 結(jié)論