何偉東,楊志豪,王治政,林鴻飛
(大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
精準(zhǔn)醫(yī)學(xué)(Precision Medicine,PM)是整合應(yīng)用現(xiàn)代科技手段與傳統(tǒng)醫(yī)學(xué)方法,系統(tǒng)優(yōu)化人類疾病防治和健康促進(jìn)的原理和實(shí)踐,以高效、安全、經(jīng)濟(jì)的健康醫(yī)療服務(wù)獲取個(gè)體和社會(huì)最大化健康效益的新型健康醫(yī)療服務(wù)范式[1-2]。該范式側(cè)重于確定最適合個(gè)體患者獨(dú)特屬性的治療方法。
隨著精準(zhǔn)醫(yī)學(xué)的不斷深化,越來越多的科學(xué)研究旨在面向重大疾?。ㄈ绨┌Y)開展精準(zhǔn)知識(shí)挖掘與推送。例如,TREC(Text REtrieval Conference)于2017 年提出的TREC-PM 任務(wù)可以為患者病例提供最相關(guān)的生物醫(yī)學(xué)文章[3]。該任務(wù)通常被定義為ad-hoc 式的文檔檢索模式,即在相對(duì)穩(wěn)定的數(shù)據(jù)庫(kù)中為自由查詢檢索最相關(guān)的文檔。在精準(zhǔn)醫(yī)學(xué)領(lǐng)域,自由查詢通常由多個(gè)方面內(nèi)容構(gòu)成,其中蘊(yùn)含了對(duì)被檢索文檔的醫(yī)學(xué)信息需求。
如表1 所示,每個(gè)查詢病例由疾病名稱,基因名稱和遺傳變異類型以及人口統(tǒng)計(jì)信息(性別和年齡)組成。
表1 示例查詢Table 1 Sample query
基于給定的輸入病例,我們需要從候選文檔集合中檢索出與該查詢最為相關(guān)的生物醫(yī)學(xué)文檔,這涉及文檔檢索的召回與重排序過程。候選生物醫(yī)學(xué)文檔的具體信息如表2 所示,它包含了文檔的多方面信息,例如:發(fā)布時(shí)間、藥物表、歸一化的MESH 詞、標(biāo)題、文檔唯一編號(hào)PMID、文檔摘要等。
為了有效地檢索目標(biāo)文檔,現(xiàn)有的工作大多采用兩階段的方式[4],即先使用召回模型從整個(gè)語料庫(kù)中檢索出一部分文檔作為候選文檔,然后使用更為復(fù)雜的排序模型對(duì)這些文檔作進(jìn)一步的重排。
第一階段,即候選生成階段,現(xiàn)有方法通常使用基于稀疏詞袋表示的BM25 等傳統(tǒng)檢索模式來生成用于重排序的候選集合[5],模型具體可以使用Lucene、Solr、Elasticsearch 等工具實(shí)現(xiàn)。但是在生物醫(yī)學(xué)中,醫(yī)學(xué)概念和事件的表達(dá)方式千差萬別,詞匯不匹配是制約醫(yī)學(xué)信息檢索的主要問題之一。例如,查詢“Tymlos 的潛在副作用是什么?”Tymlos 這種藥物是以其品牌名稱命名的,相關(guān)科學(xué)文獻(xiàn)可能會(huì)更頻繁地使用其別名Abaloparatide。
近年來,許多研究者開展了大量的工作來克服這種詞匯差異,包括基于相關(guān)性反饋的查詢擴(kuò)展、查詢?cè)~重新加權(quán)[6],但是它們都無法解決稀疏性表示對(duì)語義特征表征不充分的問題。因此,面向語義信息的密集表示受到了研究者們的關(guān)注,它們能夠通過捕捉查詢的深層語義特征來克服詞匯不匹配的問題?;贐ERT[7]和RoBERTa 等[8]預(yù)訓(xùn)練語言模型高性能密集表示,研究者提出了稠密段落檢索器[9],旨在通過微調(diào)語言模型對(duì)文檔進(jìn)行編碼,利用其強(qiáng)大的語義表示能力緩解詞匯不匹配問題。
第二階段,即精排序階段,現(xiàn)有方法大多使用pointwise(單文檔學(xué)習(xí))排序方式來學(xué)習(xí)全局信息,如Subset Ranking[10]、McRank[11]、Prank[12]等。但是這些方法只建模了給定查詢與單個(gè)文檔之間的相關(guān)度,只學(xué)習(xí)到了候選文檔和查詢的絕對(duì)相關(guān)性,忽略了候選文檔之間的相對(duì)關(guān)系,即“偏序”關(guān)系。因此,研究者引入pairwise(文檔對(duì)學(xué)習(xí))方法以彌補(bǔ)單文檔學(xué)習(xí)方法的不足,如 Ranking SVM[13]、RankBoost[14]、RankNet[15]、GBRank[16]、IR SVM[17]等方法。通常,這些方法將排序問題轉(zhuǎn)為二分類問題,即使用二分類器對(duì)文檔對(duì)進(jìn)行分類,以此判斷兩個(gè)文檔的前后排序,賦予模型學(xué)習(xí)文檔之間偏序關(guān)系的能力。但是,以上的方法在精準(zhǔn)醫(yī)學(xué)背景下的文檔檢索任務(wù)中面臨以下問題:
(1)患者病例的查詢文本長(zhǎng)度與相關(guān)醫(yī)學(xué)文檔的長(zhǎng)度差異通常很大。一般情況下,給定的患者病例查詢與其相關(guān)的候選文檔在文本長(zhǎng)度上存在很大差異,因此在使用預(yù)訓(xùn)練語言模型表征“查詢”和“文檔”時(shí),會(huì)出現(xiàn)查詢特征的過度平滑的現(xiàn)象,從而導(dǎo)致查詢失效。
(2)基于pointwise 或者基于pairwise 的方法僅僅探索了查詢與文檔之間的單一關(guān)系,即全局相關(guān)或者偏序相關(guān)。而在醫(yī)學(xué)文檔檢索中,病例查詢通常涉及多方面的專業(yè)醫(yī)學(xué)信息,因此需要對(duì)文檔相關(guān)性的概念作出更全面的約束,也需要挖掘相關(guān)文檔內(nèi)部的順序關(guān)系。
為了解決上述問題,本文提出了一種基于生物醫(yī)學(xué)預(yù)訓(xùn)練語言模型(BioBERT)的偏序文檔檢索方法,如圖1 所示。
圖1 偏序文檔檢索方法框架圖圖中分為四個(gè)部分,分別是基于BM25的召回模塊、基于pointwise的重排模塊、基于pairwise的精排模塊(pair-SBERT)以及基于RRF(倒數(shù)排序融合)的排序融合模塊Fig.1 Partial order document retrieval method framework diagramThe figure is divided into four parts, namely the recall module based on BM25, the rearrangement module based on pointwise method,the fine sorting module based on pairwise method (pair-SBERT) and the sorting fusion module based on RRF (reciprocal sorting fusion)
首先,該模型基于BM25 召回部分相關(guān)文檔,然后使用 BioBERT 對(duì)病例查詢和相關(guān)文檔進(jìn)行編碼,采用pointwise 方法學(xué)習(xí)查詢與相關(guān)文檔的全局關(guān)系。其中,模型引入查詢和文檔的串聯(lián)拼接來避免查詢特征的丟失。隨后,該模型引入pairwise 在查詢與文檔的全局關(guān)系中增加相關(guān)文檔之間的偏序關(guān)系。其中,除了使用“查詢-文檔”對(duì)特征的幾何拼接外,模型再次引入查詢特征來指導(dǎo)文檔對(duì)內(nèi)部的偏序特征學(xué)習(xí)。最后,該模型將第一階段的BM25 得分,第二階段的pointwise 得分和pair-SBERT 得分進(jìn)行融合,得到最終的文檔相關(guān)度排名。
綜上所述,本文的主要貢獻(xiàn)如下:
(1)本文探索了領(lǐng)域知識(shí)需求更為嚴(yán)格的醫(yī)學(xué)領(lǐng)域查詢及相關(guān)文檔檢索研究;
(2)提出了一種融合語義信息與偏序關(guān)系的檢索方法,除捕捉文檔與查詢的全局關(guān)系以外,該方法還能挖掘相關(guān)文檔之間的偏序關(guān)系;
(3)本文進(jìn)行了大量經(jīng)驗(yàn)性實(shí)驗(yàn),驗(yàn)證了本模型在精準(zhǔn)醫(yī)學(xué)領(lǐng)域中相關(guān)文檔檢索的有效性。
現(xiàn)有工作基本上都是基于神經(jīng)模型進(jìn)行檢索。為了獲得高效率,Tang 等[18]設(shè)計(jì)了一種方法,通過迭代聚類過程模擬每個(gè)文檔上的查詢,并用多個(gè)偽查詢(即聚類質(zhì)心)來表示文檔。Manotumruksa 等[19]發(fā)現(xiàn)查詢與文檔的拼接順序會(huì)影響排序結(jié)果,因此提出了CrossBERT的三元組網(wǎng)絡(luò)結(jié)構(gòu),用以挖掘不同方式拼接帶來的深層信息。
針對(duì)于本文中使用的TREC 精準(zhǔn)醫(yī)療數(shù)據(jù)集,許多研究者也做了大量的研究。Akabe等[20]提出的方法基于釋義語料庫(kù)遞歸地查找釋義,擴(kuò)展源文檔,生成釋義格(Recursive Paraphrase Lattice),將文檔進(jìn)行擴(kuò)充來提高檢索性能。Qu 等[21]針對(duì)于Trec 語料中不同信息類別構(gòu)建了不同的分類器,再將多個(gè)分類器分類結(jié)果提供給決策樹計(jì)算文檔相關(guān)性。Rybinski等[22]開發(fā)了Science 2Cure(S2C)系統(tǒng),該系統(tǒng)是一個(gè)結(jié)合了傳統(tǒng)倒排索引和神經(jīng)檢索組件的檢索系統(tǒng)。
根據(jù)樣本空間和損失函數(shù)的定義方法不同排序?qū)W習(xí)方法可分為 pointwise、pairwise 和listwise 三類方法,其中pointwise 方法和pairwise 方法最為常用。pointwise 方法將排序任務(wù)轉(zhuǎn)化為分類任務(wù)或回歸任務(wù)。徐博等[23]使用手工構(gòu)建的特征作為排序?qū)W習(xí)的輸入,隨著深度學(xué)習(xí)的發(fā)展,龐博等[24]結(jié)合深度學(xué)習(xí)的排序?qū)W習(xí)方法極大地提高了排序的性能,近年來預(yù)訓(xùn)練模型在自然語言處理領(lǐng)域展現(xiàn)出強(qiáng)大的能力,Karpukhin 等[25]結(jié)合預(yù)訓(xùn)練模型BERT 提出了基于預(yù)訓(xùn)練模型的檢索模型,通過深層語義信息對(duì)文檔進(jìn)行打分。
Pairwise 方法不對(duì)文檔相關(guān)性得分進(jìn)行學(xué)習(xí),而是學(xué)習(xí)不同文檔之間的前后偏序關(guān)系。對(duì)于每一個(gè)文檔,pairwise 需要計(jì)算它與其他文檔的偏序關(guān)系,通過拓?fù)渑判驅(qū)⑺衅蜿P(guān)系對(duì)排列,將得到最終的排序結(jié)果。Pradeep 等[26]基于預(yù)訓(xùn)練模型T5[27]構(gòu)建了一個(gè)pairwise 排序模型,實(shí)現(xiàn)了一個(gè)序列到序列的檢索方法。
本文在相關(guān)文檔召回階段使用基于詞匯級(jí)別的BM25 方法,其相關(guān)度計(jì)算公式如下:
其中Q代表一個(gè)查詢,qi表示查詢中的一個(gè)單詞,d代表相關(guān)文檔,Wi表示單詞權(quán)重。這里使用IDF(inverse document frequency)作為權(quán)重,如公式(2)所示。
其中N表示索引中的文檔數(shù),dfi表示包含qi的文檔個(gè)數(shù)。
公式(1)中的R(qi,d)表示qi與文檔d的相關(guān)性,其計(jì)算公式如(3)所示。
其中,tfid表示單詞qi在文檔d中的詞頻,Ld是文檔d的長(zhǎng)度,Lave是所有文檔的平均長(zhǎng)度,k1與b是可調(diào)節(jié)參數(shù)。這里k1=2,b=0.75[19]。
考慮到表2 中所示的文檔內(nèi)容包含了多個(gè)不同的字段信息,但這些字段并不都能促進(jìn)相關(guān)文檔的檢索,因此在該階段的文檔召回時(shí),我們只使用題目、摘要以及MESH 詞字段來表示文檔。
綜合公式(1)-(3),我們可以從海量的備選文檔中召回一個(gè)數(shù)據(jù)規(guī)模較小的候選文檔用于后續(xù)的重排步驟。
對(duì)于召回的候選相關(guān)文檔,我們使用pointwise 方式對(duì)其進(jìn)行重排序??紤]到詞匯級(jí)匹配難以解決詞匯鴻溝的問題,因此在本模塊中,我們使用生物醫(yī)學(xué)預(yù)訓(xùn)練語言模型(BioBERT) 對(duì)查詢和候選文檔集進(jìn)行編碼,從而獲得它們深層的語義特征,以克服查詢與候選文檔中術(shù)語不匹配的問題。
首先,本模塊將“查詢-文檔”對(duì)的串聯(lián)作為編碼器的輸入,如公式(4)所示
其中qi表示查詢中的單詞,sj表示文檔中的句子。
查詢與文檔通過公式(4)的方式拼接后送入BioBERT 模型中進(jìn)行編碼,然后使用“CLS”標(biāo)識(shí)符的最后一層表示作為“查詢-文檔”對(duì)的表示,接著經(jīng)過dropout 層(dp)與分類層(σ)預(yù)測(cè)查詢與文檔的相關(guān)性,如公式(5)所示:
當(dāng)對(duì)候選文檔集進(jìn)行重排序時(shí),則使用每個(gè)“查詢-文檔”對(duì)的相關(guān)性得分作為文檔重排的依據(jù)。因此,使用該模型對(duì)召回的候選文檔集進(jìn)行重排,可以得到一個(gè)基于深層語義相關(guān)性的排序結(jié)果。
pointwise 重排后的文檔集忽略了相關(guān)文檔之間的相對(duì)位置關(guān)系,即偏序關(guān)系。因此我們提出了一個(gè)基于pairwise 的排序模型,即pair-SBERT。受到SentenceBERT 的啟發(fā),該模型通過使用查詢與文檔的幾何拼接來捕捉文檔間的偏序關(guān)系和學(xué)習(xí)相似文檔間的差異信息,從而實(shí)現(xiàn)對(duì)重排后的文檔集進(jìn)行精排序。該模型的框架如圖2 所示。
圖2 Pair-SBERT 框架圖Fig.2 Pair-SBERT framework diagram
對(duì)于重排后文檔集中的任意文檔Di和Dj,模型的輸入內(nèi)容如下所示:
查詢:Q,文檔i:Di,文檔j:Dj。使用BioBERT 分別對(duì)Q、Di、Dj編碼,輸出上述三部分的Last_hidden_state 向量,記為Qlhs、、,如公式(7)-(9)所示:
接下來對(duì)三個(gè)Last_hidden_state 向量分別進(jìn)行平均池化(mean_pooling)操作,得到向量i,i和j,以保證后續(xù)的向量拼接能夠在同一維度上進(jìn)行。公式如下:
得到查詢和文檔的向量表示后,該模型使用公式(13)和公式(14)將其進(jìn)行幾何交互,即
經(jīng)過上述拼接操作后,向量維度會(huì)擴(kuò)大數(shù)倍,這給模型計(jì)算帶來了較大的資源開銷,因此我們通過一個(gè)線性層對(duì)R1和R2進(jìn)行降維,得到與。
隨后,為了保證相關(guān)文檔間的偏序關(guān)系在查詢內(nèi)容的范圍之內(nèi),模型再次引入查詢向量作為全局約束,并對(duì)R1和R2進(jìn)行幾何相減,以此引入兩個(gè)文檔之間的相對(duì)位置關(guān)系,如
分類層的輸出包含兩個(gè)神經(jīng)元,其中,s0表示文檔i排在文檔j前邊的分?jǐn)?shù),s1表示文檔i排在文檔j后邊的分?jǐn)?shù)。
訓(xùn)練時(shí),根據(jù)s1與s0的差值得出最終的標(biāo)簽0 或者1,再與標(biāo)準(zhǔn)標(biāo)簽計(jì)算損失。
在預(yù)測(cè)時(shí),文檔i的分?jǐn)?shù)應(yīng)該是該文檔與其他文檔j拼接后得到的兩個(gè)分?jǐn)?shù)之和,即正序輸入文檔i排在文檔j之前的分?jǐn)?shù)與反向輸入文檔j排在文檔i之后的分?jǐn)?shù),如公式(18)所示:
其中,D表示全部的候選文檔集。
基于pair-SBERT,模型充分挖掘了相關(guān)文檔的位置信息,得到了基于偏序關(guān)系的精排序結(jié)果。
為了充分利用查詢與相關(guān)文檔的全部序列信息,本文將各個(gè)模型的結(jié)果進(jìn)行融合,作為基于查詢的最終結(jié)果排序。
候選集經(jīng)過三個(gè)模塊的打分之后,會(huì)得到三個(gè)排序序列:BM25 召回的排序S1、pointwise重排的全局排序S2,和使用pair-SBERT 模型精調(diào)的排序S3。但是不同模型計(jì)算的相關(guān)性得分難以直接相加,因?yàn)樵谂判蚣蟂={S1,S2,S3}中,每個(gè)序列都是基于不同視角特征對(duì)候選集D 中的文檔計(jì)算相關(guān)性得分。因此本文使用reciprocal rank fusion[28]方法融合不同的文檔序列,得到最終的相關(guān)性文檔順序,如公式(19)所示:
其中s(d) 是排序si中文檔d的排名,k為超參數(shù)。
本文中在TREC-PM 賽道2017-2019 年數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。
3.1.1 初始數(shù)據(jù)集
2017-2019 數(shù)據(jù)信息如表3 所示,共包含120 個(gè)查詢與63 387 個(gè)帶有標(biāo)簽的文檔。
表3 數(shù)據(jù)集統(tǒng)計(jì)信息Table 3 Dataset statistics
本文將2017 年與2018 年數(shù)據(jù)作為訓(xùn)練集,將2019 年作為測(cè)試集。
3.1.2 pointwise數(shù)據(jù)構(gòu)建
pointwise 模型的輸入是一個(gè)查詢與一個(gè)文檔,輸出是文檔的相關(guān)性分?jǐn)?shù)。在原始數(shù)據(jù)集中標(biāo)簽包含0,1,2 三類,為了適應(yīng)于本方法,將1 與2 歸類于relevant,將0 歸為irrelevant。除了初始數(shù)據(jù)集訓(xùn)練數(shù)據(jù)外,本文還使用了隨機(jī)采樣與難負(fù)例采樣技術(shù)對(duì)訓(xùn)練集進(jìn)行了擴(kuò)充。對(duì)于一個(gè)查詢,隨機(jī)采樣指從整個(gè)數(shù)據(jù)庫(kù)中隨機(jī)獲取若干個(gè)文檔,去掉在初始數(shù)據(jù)集中出現(xiàn)過的文檔,然后將這些文檔作為負(fù)例加入訓(xùn)練集中。而難負(fù)例采樣是指通過BM25 算法得到與查詢相似度更高的一些文檔,去掉在訓(xùn)練集中是正例的文檔,剩余的添加到數(shù)據(jù)集中做負(fù)例。正負(fù)比例約為1∶10。
3.1.3 pair-SBERT數(shù)據(jù)構(gòu)建
pair-SBERT 模型的輸入是查詢與兩個(gè)文檔,這兩個(gè)文檔具有不同等級(jí)的相關(guān)度標(biāo)簽。本文根據(jù)不同相關(guān)度標(biāo)簽的文檔分布,隨機(jī)組合查詢與相關(guān)文檔,并賦予其新的標(biāo)簽。例如,在同一個(gè)查詢中,標(biāo)簽為0 的文檔與標(biāo)簽為1 的文檔組合為一條pairwise 輸入,并標(biāo)注1。標(biāo)簽為2 的文檔與標(biāo)簽為1 的文檔組合為一條pairwise 輸入,并標(biāo)注為0。
(1)在文檔召回階段,設(shè)置召回文檔數(shù)量為1000。
(2)在文檔的重排序和精排序階段,本文使用hunggingface 發(fā)布的預(yù)訓(xùn)練模型①https://huggingface.co/microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext編碼源文本。實(shí)驗(yàn)中,epochs 設(shè)置為5,max_length 設(shè)置為512,learning_rate 設(shè)置為1×10-5,loss_function 設(shè)置為BCEWithLogitsLoss,optimizer 設(shè)置為Adam。pointwise 方法設(shè)置batchsize 為8。pair-SBERT 方法的batchsize 設(shè)置為2。結(jié)果融合部分k設(shè)置為60。
本小節(jié)選取了一些具有代表性的工作進(jìn)行對(duì)比。
本文中設(shè)置了兩類對(duì)比實(shí)驗(yàn),一類是基于查詢與相關(guān)文檔語義的方法,包括BM25,BITEM PM[29],Tree-soft[21],和Science2Cure[22]。
另一類是基于外部知識(shí)的方法。Julie[30]使用了BANNER gene tagger 對(duì)文檔進(jìn)行擴(kuò)充,并使用Lexigram 對(duì)查詢進(jìn)行擴(kuò)展。Akabe 等[20]提出的一個(gè)使用Recursive Paraphrase Lattice(釋義格)的方法,該方法利用了釋義語料庫(kù)擴(kuò)充了文檔。
本文采用NDCG@10、Rprec 和p@10 三個(gè)指標(biāo)進(jìn)行評(píng)估。
表4 中“-”表示原論文中并未提及該數(shù)據(jù)。從表4 中我們可以得出如下結(jié)論:首先,與基于查詢與相關(guān)文檔的語義特征的方法相比,本文提出的模型在三個(gè)評(píng)價(jià)指標(biāo)上取得了最好的結(jié)果。因此,在不引入外部知識(shí)的情況下,該模型在挖掘深度語義和利用相關(guān)文檔的偏序關(guān)系精調(diào)文檔方面具有優(yōu)勢(shì)。其次,與引入外部知識(shí)的方法相比,本文提出的方法優(yōu)于Julie,但在NDCG 與Rprec 指標(biāo)上略低于RPL。這主要是因?yàn)樘岢瞿P蜎]有使用外部資源進(jìn)行擴(kuò)展查詢,以保證模型的訓(xùn)練效率和較低的資源開銷。雖然丟失了全局召回和排序位置的精度,但是模型因不受外部資源的約束,具有更好的可擴(kuò)展性。最后,本文提出的模型在p@10 指標(biāo)上比RPL 高了將近0.24,這再次說明了我們的模型取得了更好的相關(guān)文檔檢索精度,在挖掘深度語義和捕捉文檔偏序關(guān)系方面表現(xiàn)良好。
表4 實(shí)驗(yàn)結(jié)果Table 4 Experimental results
為了證明本文提出的模型的有效性,針對(duì)提出的各個(gè)模塊進(jìn)行了消融實(shí)驗(yàn),如表5所示。
表5 消融實(shí)驗(yàn)結(jié)果Table 5 Results of ablation experiment
表5 中,Q→表示在pair-SBERT 模型中的拼接查詢向量Q→的操作。首先,去掉拼接Q→的操作后(Ours-Q→),我們發(fā)現(xiàn)模型結(jié)果下降了約0.8%,說明拼接Q→操作是有效的,因?yàn)椴樵兡芨玫闹笇?dǎo)相關(guān)文檔的偏序預(yù)測(cè)。其次,通過去掉pointwise 模型與pairwise 模型(Ours-pairwise 和Ours-pointwise)的實(shí)驗(yàn)結(jié)果可以看到,模型性能下降明顯,說明這兩個(gè)模塊都有不可替代的功能。最后,通過觀察只使用pointwise 或pairwise(Ours-pairwise-BM25 或Ours-pointwise-BM25)模型的結(jié)果可以看到,模型性能甚至低于基準(zhǔn)方法BM25。
以上結(jié)果表明本文提出的排序模型的每一部分都是至關(guān)重要的,任何一部分的缺失都會(huì)引起整體性能的下降。
除了上述實(shí)驗(yàn)之外,我們還通過復(fù)現(xiàn)其他類似任務(wù)上的方法并與本文提出的方法進(jìn)行對(duì)比,結(jié)果如圖3 所示。
圖3 中BM25+ATT[18]表示通過查詢對(duì)文檔做Attention,然后加權(quán)求和縮減文檔的方法,BM25+CBERT[19]表示按照不同順序拼接查詢-文檔對(duì)的方法,Ptw+SBERT[31]表示使用SentenceBERT 相似度表示的pointwise 方法。
通過圖3 可以看出,我們的方法在TRECPM 2019 數(shù)據(jù)集上取得了最好的結(jié)果。這說明在精準(zhǔn)醫(yī)學(xué)背景的生物醫(yī)學(xué)文檔檢索任務(wù)中,本文方法更能解決實(shí)際問題,是不能簡(jiǎn)單地通過遷移其他方法來替代的。此外,通過Ptw+SBERT 和BM25+Ptw+SBERT 這兩個(gè)實(shí)驗(yàn)設(shè)置可以看出,本文使用的幾何拼接方式對(duì)于學(xué)習(xí)文檔偏序關(guān)系是更有效的。
本文提出了一種基于BioBERT 的偏序文檔檢索方法,解決了當(dāng)前常用的檢索方法因長(zhǎng)度差異導(dǎo)致查詢特征失效的問題,而且融合pointwise 方法與pairwise 方法能夠挖掘出更多有用的文檔排序特征,彌補(bǔ)了pointwise 與pairwise 方法在單獨(dú)使用時(shí)不能完全挖掘特征的不足,BioBERT 的引入也在一定程度上改善了模型在醫(yī)學(xué)領(lǐng)域編碼的應(yīng)用。相比于傳統(tǒng)的pointwise方法與pairwise 方法,本文提出的方法獲得了更好的檢索性能。在TREC-PM 的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性,它能夠?qū)W習(xí)到鄰近文檔對(duì)的偏序關(guān)系,指導(dǎo)模型對(duì)相關(guān)文檔的精排。未來的工作將嘗試在文本編碼過程中研發(fā)更有效的編碼方式,加速檢索效率,進(jìn)一步優(yōu)化檢索過程。