薛振宇,余正濤,高盛祥
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500;2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,昆明 650500)
漢越跨語(yǔ)言新聞事件檢索任務(wù)是指用戶將包含事件信息的漢語(yǔ)查詢句輸入檢索系統(tǒng)后,檢索系統(tǒng)為用戶返回一系列與查詢句中事件信息相關(guān)的越南語(yǔ)新聞文檔。目前主流的跨語(yǔ)言信息檢索系統(tǒng)采用查詢翻譯方法[1]、文檔翻譯方法[2]或中間語(yǔ)言翻譯方法[3]。其中,查詢翻譯方法首先將查詢句翻譯成候選文檔所使用語(yǔ)言下的查詢句,然后使用翻譯后的查詢句對(duì)候選文檔進(jìn)行檢索排序。因?yàn)樵摲椒ㄖ环g查詢句,翻譯難度較低且正確率高,所以在跨語(yǔ)言信息檢索任務(wù)中最常使用。
目前主流的檢索模型有基于特征的檢索模型[4]和基于神經(jīng)網(wǎng)絡(luò)的檢索模型[5]。
基于特征的檢索模型由于依賴于人工尋找特征且找到的特征數(shù)量有限,導(dǎo)致模型參數(shù)量較少,使得模型泛化能力降低,因此,其相較于基于神經(jīng)網(wǎng)絡(luò)的檢索模型在完成檢索任務(wù)時(shí)表現(xiàn)較差。但是,有一些基于特征的檢索模型在融合實(shí)體語(yǔ)義信息后性能會(huì)得到較大提升,包括利用實(shí)體標(biāo)注進(jìn)行文本表示的檢索模型[6]、多排序特征的檢索模型[7]、基于查詢句與文檔間實(shí)體連接的檢索模型[8]以及基于知識(shí)圖譜實(shí)現(xiàn)查詢句和文檔軟匹配的檢索模型[9],這些模型均是通過融合實(shí)體語(yǔ)義信息來(lái)提高檢索性能。
基于神經(jīng)網(wǎng)絡(luò)的檢索模型又可分為基于表示的檢索模型和基于交互的檢索模型?;诒硎镜臋z索模型[10]在初始階段對(duì)查詢句和文檔單獨(dú)進(jìn)行處理,然后使用神經(jīng)網(wǎng)絡(luò)分別編碼,得到各自的文本表征并進(jìn)行相似度計(jì)算,最后將文本表征的相似度作為查詢和文檔的相似度得分,根據(jù)相似度得分對(duì)文檔進(jìn)行排序。這種基于表示的檢索模型在最后階段才會(huì)利用文本表征計(jì)算查詢與文檔間的相似度,模型的效果過于依賴文本表征的質(zhì)量,并且會(huì)丟失對(duì)模型效果有正向作用的句法和詞法等基礎(chǔ)的文本特征。基于交互的檢索模型[11]在開始階段就計(jì)算查詢句與文檔之間的詞級(jí)別的語(yǔ)義相似度作為基礎(chǔ)的交互特征,并在交互特征的基礎(chǔ)上進(jìn)一步抽取層次交互特征,得到查詢句與文檔交互固定維度的表示,最后通過計(jì)算相似度對(duì)文檔進(jìn)行打分排序。由于基于交互的檢索模型盡可能早地將查詢句和文檔進(jìn)行了交互,捕獲到了查詢句與文檔之間相對(duì)更基礎(chǔ)的特征,因此檢索效果相較于基于表示的檢索模型提升顯著。
基于交互的檢索模型利用神經(jīng)網(wǎng)絡(luò)和詞級(jí)交互信息學(xué)習(xí)相對(duì)復(fù)雜的排序模型,其在開放域的檢索任務(wù)上性能優(yōu)于基于特征的檢索模型和基于表示的檢索模型。然而,在漢越跨語(yǔ)言新聞事件檢索任務(wù)中包含事件描述的候選文檔中含有大量新聞事件領(lǐng)域內(nèi)特有的事件實(shí)體[12],如人名、地名、組織機(jī)構(gòu)名、特定政治概念名等事件實(shí)體。目前,事件實(shí)體的語(yǔ)義信息能否融入基于交互的檢索模型中來(lái)提高漢越跨語(yǔ)言新聞事件檢索模型排序的性能尚不明確,并且在事件檢索任務(wù)中,一篇候選文檔中可能包含多個(gè)事件,這會(huì)干擾事件查詢句和包含該事件信息的候選文檔匹配的性能。以越南語(yǔ)候選文檔中的事件描 述“為例,該描述中包含3 種不同的事件,分別為:,中文解釋為“Tedros 發(fā)表新 年演講”;“”,中文解釋為“政府必須增加公共衛(wèi)生預(yù)算”;“COVID-19”,中文解釋為“資助所有人獲得COVID-19疫苗”。假定用戶對(duì)“Tedros 發(fā)表新年演講”這一事件感興趣,用戶輸入的查詢句可能是“”,在查詢句與候選文檔進(jìn)行排序匹配時(shí),其余2 種事件會(huì)增加噪聲,擴(kuò)大匹配的事件范圍,降低查詢句與候選文檔匹配的準(zhǔn)確度,影響檢索模型的性能。
一篇候選文檔中可能包含多個(gè)事件,為了能在候選文檔中準(zhǔn)確地找到與查詢句中提及的事件相關(guān)的事件范圍,每個(gè)事件均有相應(yīng)的事件觸發(fā)詞,在事件查詢句中也有事件觸發(fā)詞的情況下,可以將事件觸發(fā)詞作為分類不同事件的依據(jù)。例如“Tedros 發(fā)表新年演講”事件中的觸發(fā)詞為“”。本文提出一個(gè)融入事件實(shí)體知識(shí)的基于交互的漢越跨語(yǔ)言新聞事件檢索模型。對(duì)漢語(yǔ)查詢句進(jìn)行翻譯后,利用無(wú)監(jiān)督標(biāo)注方法PredPatt[13]識(shí)別查詢句與候選文檔中的事件觸發(fā)詞劃分候選文檔事件范圍,利用事件實(shí)體、事件觸發(fā)詞和多語(yǔ)言知識(shí)圖譜獲得查詢句與事件范圍中事件實(shí)體的語(yǔ)義知識(shí)表示。在此基礎(chǔ)上,使用基于交互的檢索排序模型并融入事件實(shí)體的語(yǔ)義知識(shí)表示,對(duì)查詢句和文檔進(jìn)行匹配排序,從而提升模型檢索性能。
本文構(gòu)建一個(gè)融入事件實(shí)體知識(shí)的漢越跨語(yǔ)言新聞事件檢索模型,模型結(jié)構(gòu)如圖1 所示。其中,查詢句為漢語(yǔ)事件查詢句,候選文檔為越南語(yǔ)新聞文檔。首先將漢語(yǔ)查詢句翻譯為越南語(yǔ)查詢句;然后識(shí)別出翻譯后的查詢句與越南語(yǔ)文檔中的事件觸發(fā)詞,并基于文檔中的事件觸發(fā)詞對(duì)文檔劃分事件范圍;之后使用越南語(yǔ)事件實(shí)體識(shí)別方法[12]識(shí)別出查詢句與文檔事件范圍中的事件實(shí)體,進(jìn)而基于多語(yǔ)言知識(shí)圖譜和事件觸發(fā)詞對(duì)事件實(shí)體的語(yǔ)義進(jìn)行擴(kuò)充;最后使用基于交互的檢索模型框架分別提取查詢句中的詞和文檔事件范圍中的詞、查詢句中的詞和文檔事件范圍中擴(kuò)充后的事件實(shí)體、查詢句中擴(kuò)充后的事件實(shí)體和文檔事件范圍中的詞以及查詢句中擴(kuò)充后的事件實(shí)體和文檔事件范圍中擴(kuò)充后的事件實(shí)體交互所產(chǎn)生的排序特征,根據(jù)排序特征計(jì)算查詢句與文檔最終的排序得分。
圖1 融入事件實(shí)體知識(shí)的漢越跨語(yǔ)言新聞事件檢索模型結(jié)構(gòu)Fig.1 Structure of Chinese-Vietnamese cross-language news event retrieval model incorporating event entity knowledge
漢越跨語(yǔ)言新聞事件檢索首先面臨的問題是漢越之間存在的語(yǔ)言隔閡對(duì)檢索造成的阻礙。目前,跨語(yǔ)言新聞事件檢索研究中最常用的方法是查詢翻譯方法,即先使用現(xiàn)有的翻譯工具將事件查詢句的語(yǔ)言翻譯為候選新聞文檔所用語(yǔ)言,再利用翻譯后的事件查詢句進(jìn)行事件檢索。因此,本文通過現(xiàn)有的翻譯工具將漢語(yǔ)事件查詢句Q 翻譯為越南語(yǔ)事件查詢句q。
單個(gè)候選新聞文檔中包含多個(gè)事件,若對(duì)整個(gè)文檔與事件查詢句進(jìn)行匹配,會(huì)產(chǎn)生較大的匹配誤差。因此,對(duì)于每個(gè)文檔d,本文使用PredPatt 方法識(shí)別d 中所有的事件觸發(fā)詞假定其中一個(gè)觸發(fā)詞的位置為l,窗口大小為p,則取l-p至l+p范圍內(nèi)的詞作為該觸發(fā)詞在文檔中的事件范圍Di。計(jì)算出所有觸發(fā)詞對(duì)應(yīng)的事件范圍之后,可以將文檔d 看作f個(gè)事件范圍的集合,即d={D1,D2,…,Df}。
本文利用越南語(yǔ)事件實(shí)體識(shí)別方法識(shí)別出查詢句q 與文檔事件范圍D 中的事件實(shí)體,并在多語(yǔ)言知識(shí)圖譜ConceptNet[14]中找到其對(duì)應(yīng)的實(shí)體類型和實(shí)體描述,融入本文模型。事件觸發(fā)詞位于2 個(gè)實(shí)體之間并連接2 個(gè)事件實(shí)體,可以表征事件實(shí)體之間的關(guān)系。本文使用PredPatt 識(shí)別出查詢句與文檔事件范圍中的事件觸發(fā)詞,并融入事件觸發(fā)詞本身的語(yǔ)義信息。最終,事件實(shí)體的語(yǔ)義表示包含以下4 種大小為L(zhǎng)維的詞嵌入:
1)實(shí)體詞嵌入
將實(shí)體詞e 通過詞嵌入層Embe得到大小為L(zhǎng)維的實(shí)體詞詞向量計(jì)算公式如式(1)所示:
2)實(shí)體描述詞嵌入
通過ConceptNet 找到實(shí)體詞e 對(duì)應(yīng)的包含m個(gè)詞的實(shí)體描述。首先將描述中的每一個(gè)詞w 通過詞嵌入層Embw得到大小為L(zhǎng)維的詞向量vw,將m個(gè)詞向量視作一個(gè)整體向量矩陣Vw。然后將Vw通過卷積操作得到代表長(zhǎng)度為h的n-gram 向量計(jì)算公式如式(2)所示:
其中:WCNN與bCNN是 卷積核的2 個(gè)參數(shù)。
3)實(shí)體類型詞嵌入
通過ConceptNet 發(fā)現(xiàn)實(shí)體詞e 隸屬于n種實(shí)體類型,表示為Fe={f1,f2,…,fj,…,fn}。首先將實(shí)體詞e通過實(shí)體類型嵌入層Embu得到fj的向量表示
然后使用注意力機(jī)制將n種實(shí)體類型融合為一個(gè)實(shí)體類型詞向量
其中:aj為注意力分?jǐn)?shù);Pj是查詢或文檔事件范圍向量表示與fj實(shí)體類型向量表示的點(diǎn)積;利用詞袋模型[15]對(duì)查詢句或文檔事件范圍進(jìn)行編碼,Wbow是一個(gè)參數(shù)矩陣。
4)觸發(fā)詞嵌入
通過PredPatt 方法識(shí)別出查詢句或文檔事件范圍中的事件觸發(fā)詞ttrg,并通過詞嵌入層Embtrg得到大小為L(zhǎng)維的觸發(fā)詞詞向量計(jì)算公式如式(7)所示:
通過線性層對(duì)上述4 種詞嵌入進(jìn)行融合,得到事件實(shí)體最終的語(yǔ)義表示,計(jì)算公式如式(8)所示:
其中:We是維度大小為L(zhǎng)×3L的矩陣;be是維度大小為L(zhǎng)的向量。
本文使用基于交互的檢索模型作為融合越南語(yǔ)事件實(shí)體知識(shí)的模型框架,對(duì)于單個(gè)查詢句q 和單個(gè)文檔事件范圍D,基于交互的檢索模型通過建立兩者之間的詞級(jí)交互矩陣[16],使用q 與D 之間的詞向量相似度來(lái)衡量q 與D 之間的相似度。
基于交互的排序模型首先將q 與D 中的每個(gè)詞t通過詞嵌入層Embw得到大小為L(zhǎng)維的詞向量vt:
然后基于得到的查詢?cè)~向量和文檔詞向量生成交互矩陣M,其中每一個(gè)元素Mij表示q 中第i個(gè)詞向量與D 中第j個(gè)詞向量之間余弦相似度的值,計(jì)算公式如下:
本文借鑒XIONG 等[17]提出的基于詞與實(shí)體交互的匹配模型。該模型首先利用詞袋模型處理查詢句與文檔中的詞與標(biāo)注好的實(shí)體,然后使用已有的不同排序模型(如BM25[18]、TF-IDF[19]等)分別計(jì)算查詢?cè)~與文檔詞的排序得分、查詢?cè)~與文檔實(shí)體的排序得分、查詢實(shí)體與文檔詞的排序得分和查詢實(shí)體與文檔實(shí)體的排序得分,最后將這4 種排序得分作為特征融入模型,計(jì)算最終的查詢句與文檔的排序得分。然而,該模型的特征提取效果過度依賴于已有的檢索排序模型且提取過程繁瑣??紤]到這一點(diǎn),本文在漢越跨語(yǔ)言新聞事件檢索這一特定任務(wù)中,使用交互矩陣M={Mww,Mwe,Mew,Mee}來(lái)衡量查詢?cè)~或查詢實(shí)體與文檔詞或文檔實(shí)體之間的相似程度,其中:Mww、Mwe、Mew、Mee分別表征查詢句中詞與事件范圍中詞的交互(qw-Dw)、查詢句中詞與事件范圍中事件實(shí)體的交互(qw-De)、查詢句中事件實(shí)體與事件范圍中詞的交互(qe-Dw)和查詢句中事件實(shí)體與事件范圍中事件實(shí)體的交互(qe-De)。
其中:WCNN與bCNN是卷積 核的2 個(gè)參數(shù)。
同理,得到代表長(zhǎng)度為hD的n-gram 事件范圍向量
因此,Mww、Mwe、Mew、Mee中各元素的計(jì)算方式如下:
交互矩陣M={Mww,Mwe,Mew,Mee}可以插入到任何基于交互的檢索模型中,本文使用Conv-KNRM[21]這一基于交互的檢索模型作為結(jié)合M的模型框架。以Mww為例,Conv-KNRM 使用K個(gè)高斯分布從Mww中提取排序特征?(Mww),將每一個(gè)高斯分布Kk特征計(jì)算的結(jié)果為一個(gè)soft-TF 值[22],因此,K個(gè)高斯分布對(duì)Mww處理之后生成了一個(gè)K維特征向量?(Mww)={K1(Mww),K2(Mww),…,KK(Mww)},計(jì)算公式如式(13)所示:
其中:μk和δk分別表示第k個(gè)高斯分布的均值和方差。同理,得到?(Mwe)、?(Mew)和?(Mee)。
將?(Mww)、?(Mwe)、?(Mew)和?(Mee)拼接成最終的排序特征Φ(M):
本文在得到最終排序特征Φ(M)的基礎(chǔ)上,利用排序?qū)W習(xí)[23]得到查詢句與事件范圍最終的排序得分,計(jì)算公式如式(16)所示:
其中:ωr和br是排序?qū)W習(xí)的參數(shù);tanh 為激活函數(shù)。
由于一個(gè)文檔d 中含有f個(gè)事件范圍,即d={D1,D2,…,Df},因此對(duì)于查詢句q 和文檔d,取q 與D1,D2,…,Df中最大的排序得分作為q 與d 最終的排序得分:
其中,Φ(M)x表示查詢句q 與事件范圍Dx計(jì)算所得的排序特征。
最后,通過優(yōu)化如下所示的合頁(yè)損失函數(shù)[24]對(duì)模型進(jìn)行訓(xùn)練:
本文通過反向傳播優(yōu)化模型參數(shù),在此過程中,對(duì)實(shí)體詞詞嵌入、實(shí)體描述詞嵌入、實(shí)體類型詞嵌入、觸發(fā)詞詞嵌入、詞級(jí)交互和特征提取進(jìn)行聯(lián)合學(xué)習(xí)。
本文實(shí)驗(yàn)使用的漢越雙語(yǔ)新聞數(shù)據(jù)集包含漢語(yǔ)數(shù)據(jù)集和越南語(yǔ)數(shù)據(jù)集,其中,漢語(yǔ)數(shù)據(jù)集用于構(gòu)建漢語(yǔ)事件查詢句,越南語(yǔ)數(shù)據(jù)集用于構(gòu)建越南語(yǔ)候選文檔。為了對(duì)比本文模型在越南語(yǔ)單語(yǔ)新聞事件檢索任務(wù)和漢越跨語(yǔ)言新聞事件檢索任務(wù)中的性能差異,利用越南語(yǔ)數(shù)據(jù)集人工構(gòu)建與漢語(yǔ)事件查詢句數(shù)量相同的越南語(yǔ)事件查詢句。查詢句與文檔的相關(guān)性標(biāo)簽由人工標(biāo)注,1 表示相關(guān),0 表示不相關(guān)。實(shí)驗(yàn)中用到的漢語(yǔ)和越南語(yǔ)數(shù)據(jù)集中查詢句子數(shù)與候選文檔數(shù)的詳細(xì)統(tǒng)計(jì)信息如表1 所示。
表1 數(shù)據(jù)集中查詢句與候選文檔數(shù)量Table 1 Number of query sentences and candidate documents in the data set
在本文實(shí)驗(yàn)中:窗口大小p的值設(shè)定為5;實(shí)體詞嵌入、實(shí)體描述詞嵌入、實(shí)體類型詞嵌入和觸發(fā)詞嵌入的維度L設(shè)定為300;CNN 中濾波器個(gè)數(shù)為128;使用Adam 優(yōu)化器優(yōu)化模型參數(shù),初始學(xué)習(xí)率設(shè)置為0.001,訓(xùn)練輪次為100 輪。針對(duì)越南語(yǔ)事件查詢句和越南語(yǔ)候選新聞文檔所使用的事件實(shí)體識(shí)別模型為融合詞典與對(duì)抗遷移的越南語(yǔ)事件實(shí)體識(shí)別模型[12],該模型經(jīng)過訓(xùn)練之后,在越南語(yǔ)新聞數(shù)據(jù)集上識(shí)別效果較好,越南語(yǔ)事件實(shí)體識(shí)別的F1 值達(dá)到90.05%。實(shí)驗(yàn)中使用的翻譯工具為目前漢越翻譯性能較好的Google 在線翻譯軟件。漢語(yǔ)事件查詢句、越南語(yǔ)事件查詢句和使用翻譯工具翻譯后的越南語(yǔ)事件查詢句均是只包含一種新聞事件的單一事件查詢句。本文使用的所有檢索模型均在Nvidia Tesla P100 GPU 上進(jìn)行訓(xùn)練和測(cè)試,在漢越雙語(yǔ)新聞數(shù)據(jù)集上,本文提出的融入事件實(shí)體知識(shí)的漢越跨語(yǔ)言新聞事件檢索模型每一輪數(shù)據(jù)訓(xùn)練時(shí)間約為0.8 h。
在實(shí)驗(yàn)中使用NDCG[25](Normalized Discounted Cumulative Gain)和MAP[26](Mean Average Precision)作為評(píng)價(jià)指標(biāo)。
其中:k表示k個(gè)文檔的集合;ri表示排序列表中第i個(gè)文檔與查詢句的相關(guān)度。將DCG@k按照相關(guān)度從大到小對(duì)文檔進(jìn)行排序后即得到idealDCG@k;R表示與查詢句相關(guān)的文檔總個(gè)數(shù);position(I)表示在檢索結(jié)果列表中從前往后第I個(gè)相關(guān)文檔在列表中的位置;MAP 是對(duì)多個(gè)查詢語(yǔ)句的AP 求均值。
將本文模型與基線模型進(jìn)行比較,驗(yàn)證本文方法的有效性。基線模型分為基于特征和基于神經(jīng)網(wǎng)絡(luò)2 類。基于特征的檢索模型包括RankSVM[27]和Coor-Ascent[28]2 種排序?qū)W習(xí)模型以及基于詞的無(wú)監(jiān)督檢索模型BM25;基于神經(jīng)網(wǎng)絡(luò)的檢索模型包括ARC-I[29]、ARC-II[29]、CDSSM[10]、MatchPyramid[30]、DRMM[31]、K-NRM[32]、Conv-KNRM、BERT-ATT-DBSCAN[33]、ATER[34]和BERT-MaxS[34],其中,ARC-I、CDSSM、BERT-ATTDBSCAN和ATER 是基于表示的檢索模型,ARC-II、MatchPyramid、DRMM、K-NRM、Conv-KNRM和BERTMaxS 模型是基于交互的檢索模型。
1)RankSVM 模型將文檔檢索排序問題轉(zhuǎn)化為文檔對(duì)的分類問題,然后針對(duì)此分類問題利用SVM模型[35]進(jìn)行求解。
2)Coor-Ascent 是一種用于無(wú)約束優(yōu)化問題的常見優(yōu)化方法。該模型在檢索過程中通過一系列的一維搜索來(lái)求解最終的多元目標(biāo)函數(shù)。
3)BM25 模型是在融合TF-IDF 特征的基礎(chǔ)上計(jì)算查詢句與文檔相關(guān)性的模型,其先計(jì)算每個(gè)查詢?cè)~與文檔的相關(guān)度,再將得到的所有的詞與文檔的相關(guān)度進(jìn)行加權(quán)求和,最后計(jì)算出最終的查詢句與文檔之間的相關(guān)度值。
4)ARC-I 模型使用CNN 來(lái)進(jìn)行文本匹配,其先將查詢句和文檔表示成2 個(gè)定長(zhǎng)的向量,再將2 個(gè)向量拼接成一個(gè)向量整體,最后把向量整體輸入多層感知器中,多層感知器的輸出結(jié)果即為查詢句與文檔的匹配得分。
5)ARC-II 模型是ARC-I 模型的擴(kuò)展,其先將查詢句與文檔表示成向量,利用滑動(dòng)窗口來(lái)選取詞向量組,將詞向量組作為一個(gè)固定單元進(jìn)行卷積,將卷積后的結(jié)果作為查詢句與文檔相互作用的初步向量表示,再對(duì)其進(jìn)行多次卷積和池化操作,最后將結(jié)果送入多層感知器中得到查詢句與文檔之間的匹配得分。
6)CDSSM 模型先將查詢句與文檔中的每一個(gè)詞表征為詞向量的形式,對(duì)設(shè)定的滑動(dòng)窗口內(nèi)的詞向量進(jìn)行卷積進(jìn)而生成一個(gè)短語(yǔ)向量表示,再對(duì)短語(yǔ)向量表示進(jìn)行池化操作。因?yàn)榛瑒?dòng)窗口可以動(dòng)態(tài)選取不同詞向量,獲取到句子中單詞順序信息,所以該模型能夠?qū)Σ樵兙渑c文檔間的匹配關(guān)系進(jìn)行更完整的描述。
7)MatchPyramid 模型構(gòu)建查詢句與文檔間的匹配矩陣,使用卷積操作提取匹配矩陣中的特征,進(jìn)而利用這些特征計(jì)算查詢句與文檔間的相似度。
8)DRMM 模型選取查詢句中的一個(gè)詞,將該詞與文檔中所有的詞分別構(gòu)成詞組對(duì),對(duì)于每一個(gè)詞組對(duì),使用余弦距離計(jì)算其相似度。該模型利用計(jì)算出的不同相似度構(gòu)建直方圖,因而可以有效區(qū)分查詢句與文檔之間相似的程度。
9)K-NRM 模型先將查詢句和文檔轉(zhuǎn)化為向量形式,利用查詢句向量和文檔向量構(gòu)建交互矩陣M,再引入K個(gè)核函數(shù),通過核函數(shù)池化的方式計(jì)算查詢句與文檔的相似程度。
10)Conv-KNRM 模型相較于K-NRM 模型,在進(jìn)行核函數(shù)池化之前,分別利用滑動(dòng)窗口對(duì)查詢句向量和文檔向量進(jìn)行卷積操作,得到新的特征向量。在此基礎(chǔ)上,對(duì)于查詢句和文檔的新特征向量,兩兩進(jìn)行余弦相似度計(jì)算形成交互矩陣M。最后,使用K個(gè)核函數(shù)池化的方式計(jì)算出查詢句與文檔的相似程度。
11)BERT-ATT-DBSCAN 模型先將查詢句和文檔分別利用加入注意力機(jī)制的BERT[36]模型轉(zhuǎn)換為向量形式,再利用DBSCAN 聚類算法對(duì)查詢句向量與文檔向量進(jìn)行聚類得到向量簇,通過計(jì)算查詢句向量簇與文檔向量簇的余弦相似度找到與查詢句相關(guān)聯(lián)的文檔集合。
12)ATER 模型使用BM25 算法計(jì)算出查詢句與文檔的相關(guān)度值,并使用BERT 模型將查詢句和文檔分別轉(zhuǎn)換為向量形式,利用編碼器-解碼器架構(gòu)計(jì)算出查詢句與文檔之間的相關(guān)度值。在此基礎(chǔ)上,將2 種相關(guān)度值進(jìn)行加權(quán)求和,得到查詢句與文檔最終的相關(guān)度得分。
13)BERT-MaxS 模型使用BM25 模型計(jì)算查詢句與文檔的相關(guān)度值,并將文檔切分為句子集合并分別與查詢句進(jìn)行拼接,使用基于BERT 的排序模型計(jì)算查詢句與每個(gè)文檔句的相關(guān)度值。在此基礎(chǔ)上,取最高相關(guān)度值與BM25 算法計(jì)算得出的相關(guān)度值進(jìn)行加權(quán)求和,得到查詢句與文檔最終的相關(guān)度得分。
在查詢句為越南語(yǔ)事件查詢句的情況下,對(duì)越南語(yǔ)候選文檔進(jìn)行檢索排序。比較本文模型與基線模型在越南語(yǔ)數(shù)據(jù)集上檢索性能的差異,實(shí)驗(yàn)結(jié)果如表2所示。
表2 在越南語(yǔ)數(shù)據(jù)集上的越南語(yǔ)單語(yǔ)新聞事件檢索性能Table 2 Retrieval performance of Vietnamese monolingual news events on Vietnamese data set
從表2 的對(duì)比結(jié)果可以看出,本文模型檢索性能優(yōu)于其他檢索模型。其中,基于神經(jīng)網(wǎng)絡(luò)的檢索模型性能均優(yōu)于基于特征的檢索模型,相較于傳統(tǒng)的BM25 檢索模型獲得大幅度提升,在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評(píng)價(jià)指標(biāo)上分別提升0.540 6、0.565 6、0.489 6、0.588 3 和0.531 2。與Conv-KNRM 模型相比,本文模型在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評(píng)價(jià)指標(biāo)上分別提升98.82%、76.46%、57.61%、50.93%、98.77%,原因是本文在將Conv-KNRM 作為檢索模型框架的基礎(chǔ)上,把事件實(shí)體的分布式表示作為外部知識(shí)融入排序過程中,不僅進(jìn)行查詢句與文檔間詞與詞之間的匹配,而且增加了查詢句與文檔之間的詞與事件實(shí)體的匹配、事件實(shí)體與事件實(shí)體的匹配,同時(shí)利用事件觸發(fā)詞劃定文檔中的事件范圍,縮小了查詢句與文檔匹配的空間,提升了匹配效率。與基線模型中性能最佳的BERT-MaxS 相比,雖然BERT-MaxS 在NDCG@1 和NDCG@5 指標(biāo)上 均略高于本文模型,但該檢索模型是基于BERT 模型構(gòu)建的,模型訓(xùn)練所需數(shù)據(jù)量較大,模型參數(shù)較多,完成一次檢索過程的時(shí)間復(fù)雜度較高。
為探究事件實(shí)體知識(shí)的不同部分對(duì)模型檢索性能的影響,進(jìn)行越南語(yǔ)單語(yǔ)新聞事件檢索的消融實(shí)驗(yàn),在以下4 種情況下對(duì)比檢索性能:1)檢索模型Conv-KNRM;2)在Conv-KNRM 基礎(chǔ)上分別加入4 種詞嵌入(實(shí)體詞嵌入、實(shí)體描述詞嵌入、實(shí)體類型詞嵌入和觸發(fā)詞嵌入);3)在Conv-KNRM基礎(chǔ)上劃分文檔事件范圍;4)在Conv-KNRM 基礎(chǔ)上兩兩加入4 種詞嵌入。消融實(shí)驗(yàn)結(jié)果如表3所示。
表3 在越南語(yǔ)數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experiment result on Vietnamese data set
從表3 中可以看出:
1)在4 種詞嵌入類型中,實(shí)體描述詞嵌入對(duì)于模型檢索性能的提升最大,在融入實(shí)體描述詞嵌入后,模型相較于Conv-KNRM 在MAP 評(píng)價(jià)指標(biāo)上提升了0.157 2。
2)在只融入實(shí)體類型詞嵌入的情況下,模型相較于Conv-KNRM 在MAP評(píng)價(jià)指標(biāo)上只提升0.015 6;但是在同時(shí)融入實(shí)體詞嵌入和實(shí)體類型詞嵌入的情況下,模型相較于Conv-KNRM 在MAP 評(píng)價(jià)指標(biāo)上提升了0.107 5。由此可見,相較于只融入實(shí)體類型詞嵌入的情況,只有把實(shí)體類型詞嵌入和其他詞嵌入一同融入時(shí),模型性能才得到較大提升。
3)融入4種詞嵌入(實(shí)體詞嵌入、實(shí)體類型詞嵌入、實(shí)體描述詞嵌入和觸發(fā)詞嵌入)后模型的MAP 評(píng)價(jià)指標(biāo)相較于Conv-KNRM 提升0.207 7,充分證明了通過知識(shí)圖譜和事件觸發(fā)詞找到并融合成的事件實(shí)體語(yǔ)義表示可以有效提升查詢句與文檔的匹配性能。
4)在只對(duì)文檔劃分事件范圍后,模型的MAP 評(píng)價(jià)指標(biāo)相較于Conv-KNRM 提升0.125 8。
5)相較于同時(shí)融入4 種詞嵌入后的模型,本文模型在NDCG@1、NDCG@3、NDCG@5、NDCG@10和MAP 評(píng)價(jià)指標(biāo)上均提升較高。由此可見,對(duì)文檔劃分事件范圍后,可以縮小模型匹配的空間,大幅提升模型性能。
在查詢句為漢語(yǔ)事件查詢句的情況下,對(duì)越南語(yǔ)候選文檔進(jìn)行檢索排序。比較本文模型與基線模型在漢越雙語(yǔ)新聞數(shù)據(jù)集上的檢索性能,實(shí)驗(yàn)結(jié)果如表4 所示。
表4 在漢越雙語(yǔ)新聞數(shù)據(jù)集上的漢越跨語(yǔ)言新聞事件檢索性能Table 4 Retrieval performance of Chinese-Vietnamese cross-language news events on Chinese-Vietnamese bilingual news data set
從表4 中可以看出:各模型檢索性能相較于越南語(yǔ)單語(yǔ)新聞事件檢索性能均有所降低。這是因?yàn)槟P托阅苁芩褂玫姆g工具影響,翻譯工具的翻譯質(zhì)量不高,會(huì)導(dǎo)致翻譯生成的越南語(yǔ)事件查詢句并不完全符合越南語(yǔ)正常的語(yǔ)法和句式表達(dá)。對(duì)于所有對(duì)比基線模型,翻譯生成的越南語(yǔ)事件查詢句質(zhì)量低的情況嚴(yán)重影響了模型的檢索性能。相較于只在越南語(yǔ)數(shù)據(jù)集上的NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評(píng)價(jià)指標(biāo):RankSVM分別降低0.067 0、0.059 9、0.135 1、0.152 3 和0.074 5;Conv-KNRM 分別降 低0.135 6、0.174 8、0.202 1、0.228 9和0.130 2;而本文模型性能降低相對(duì)較少,分別僅降低0.009 9、0.006 8、0.015 1、0.003 3 和0.000 8。這是因?yàn)楸疚哪P鸵蕾囉谑褂枚嗾Z(yǔ)言知識(shí)圖譜和事件觸發(fā)詞生成事件實(shí)體的語(yǔ)義知識(shí)表示,進(jìn)而進(jìn)行查詢句與文檔的詞與詞之間、詞與事件實(shí)體之間和事件實(shí)體與事件實(shí)體之間的匹配排序。而事件實(shí)體往往可以被翻譯工具翻譯正確,從而降低了詞與事件實(shí)體之間和事件實(shí)體與事件實(shí)體之間的匹配排序誤差,因此,本文模型受翻譯工具翻譯質(zhì)量的影響較小,能夠較好地進(jìn)行漢越跨語(yǔ)言新聞事件檢索排序。
為探索查詢句的翻譯操作是否會(huì)影響事件實(shí)體知識(shí)的不同部分對(duì)模型檢索性能所產(chǎn)生的促進(jìn)作用,在漢越跨語(yǔ)言新聞事件檢索時(shí),對(duì)本文模型進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)設(shè)置與越南語(yǔ)單語(yǔ)新聞事件檢索的消融實(shí)驗(yàn)設(shè)置相同,實(shí)驗(yàn)結(jié)果如表5所示。
表5 在漢越雙語(yǔ)新聞數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 5 Ablation experiment result on Chinese-Vietnamese bilingual news data set
從表5 中可以看出:經(jīng)過查詢句翻譯之后,事件實(shí)體知識(shí)的各部分依然可以對(duì)模型的檢索性能產(chǎn)生促進(jìn)作用;在4 種詞嵌入類型中,實(shí)體描述詞嵌入對(duì)于模型檢索性能的提升最大,在融入實(shí)體描述詞嵌入后,本文模型相較于Conv-KNRM 在NDCG@1、NDCG@3、NDCG@5、NDCG@10 和MAP 評(píng)價(jià)指標(biāo)上分別提升0.293 3、0.268 6、0.250 9、0.277 0 和0.286 7。
本文通過融入事件實(shí)體知識(shí),提出一種新的漢越跨語(yǔ)言新聞事件檢索模型。將漢語(yǔ)查詢句翻譯為越南語(yǔ)查詢句并識(shí)別出候選文檔中的事件觸發(fā)詞,基于觸發(fā)詞對(duì)文檔劃分事件范圍,同時(shí)識(shí)別查詢句中的事件觸發(fā)詞并使用事件實(shí)體識(shí)別方法識(shí)別出事件范圍和查詢句中的事件實(shí)體,基于知識(shí)圖譜和觸發(fā)詞得到事件實(shí)體的知識(shí)表示,將事件實(shí)體知識(shí)融入基于交互的排序?qū)W習(xí)算法中對(duì)候選文檔進(jìn)行排序。實(shí)驗(yàn)結(jié)果表明,本文模型在漢越雙語(yǔ)新聞數(shù)據(jù)集上相較于對(duì)比的基線模型取得了最佳的跨語(yǔ)言新聞事件檢索效果。但是本文模型在漢越雙語(yǔ)新聞數(shù)據(jù)集上的檢索性能相較于其在越南語(yǔ)數(shù)據(jù)集上的檢索性能有所降低,原因在于模型檢索的性能受到所使用翻譯工具的翻譯性能的限制。同時(shí),其在查詢句與文檔匹配排序的過程中未考慮查詢句中的事件觸發(fā)詞與文檔中的事件觸發(fā)詞的歧義對(duì)查詢句和文檔匹配過程所造成的影響。后續(xù)將通過融入雙語(yǔ)詞典或引入雙語(yǔ)詞向量空間來(lái)輔助提升翻譯工具的翻譯效果,并且探索如何在查詢句和文檔匹配階段進(jìn)行事件觸發(fā)詞消歧,從而進(jìn)一步提升模型匹配的性能。