徐寅鑫 楊宗保 林宇晨 胡金龍,2 董守斌,2,?
北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 第60卷 第1期 2024年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)
10.13209/j.0479-8023.2023.073
中山市引進(jìn)高端科研機(jī)構(gòu)創(chuàng)新專項(xiàng)資金(2019AG031)資助
2023–05–10;
2023–07–31
基于知識(shí)圖譜和預(yù)訓(xùn)練語(yǔ)言模型深度融合的可解釋生物醫(yī)學(xué)推理
徐寅鑫1楊宗保1林宇晨1胡金龍1,2董守斌1,2,?
1.華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 廣州 510641; 2.中山市華南理工大學(xué)現(xiàn)代產(chǎn)業(yè)技術(shù)研究院, 中山 528437; ?通信作者, E-mail: sbdong@scut.edu.cn
基于預(yù)訓(xùn)練語(yǔ)言模型(LM)和知識(shí)圖譜(KG)的聯(lián)合推理在應(yīng)用于生物醫(yī)學(xué)領(lǐng)域時(shí), 因其專業(yè)術(shù)語(yǔ)表示方式多樣、語(yǔ)義歧義以及知識(shí)圖譜存在大量噪聲等問(wèn)題, 聯(lián)合推理模型并未取得較好的效果。基于此, 提出一種面向生物醫(yī)學(xué)領(lǐng)域的可解釋推理方法 DF-GNN。該方法統(tǒng)一了文本和知識(shí)圖譜的實(shí)體表示方式, 利用大型生物醫(yī)學(xué)知識(shí)庫(kù)構(gòu)造子圖并進(jìn)行去噪, 改進(jìn)文本和子圖實(shí)體的信息交互方式, 增加對(duì)應(yīng)文本和子圖節(jié)點(diǎn)的直接交互, 使得兩個(gè)模態(tài)的信息能夠深度融合。同時(shí), 利用知識(shí)圖譜的路徑信息對(duì)模型推理過(guò)程提供了可解釋性。在公開(kāi)數(shù)據(jù)集 MedQA-USMLE 和 MedMCQA 上的測(cè)試結(jié)果表明, 與現(xiàn)有的生物醫(yī)學(xué)領(lǐng)域聯(lián)合推理模型相比, DF-GNN 可以更可靠地利用結(jié)構(gòu)化知識(shí)進(jìn)行推理并提供解釋性。
生物醫(yī)學(xué); 預(yù)訓(xùn)練語(yǔ)言模型; 知識(shí)圖譜; 聯(lián)合推理
問(wèn)答系統(tǒng)是自然語(yǔ)言處理領(lǐng)域的一項(xiàng)熱門(mén)研究課題。解決問(wèn)答問(wèn)題通常需要清楚地理解問(wèn)題描述的場(chǎng)景, 然后利用相關(guān)知識(shí)進(jìn)行推理[1], 最近, 大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型(language model, LM)[2–3]成為多個(gè)問(wèn)答數(shù)據(jù)集[4]中的流行解決方案, 并取得優(yōu)異的性能?;陬A(yù)訓(xùn)練語(yǔ)言模型和知識(shí)圖譜(knowle-dge graph, KG)的聯(lián)合推理模型[5–7]解決了 LM 無(wú)法利用外部知識(shí)進(jìn)行結(jié)構(gòu)化推理的問(wèn)題。進(jìn)一步地, 在文本上, 預(yù)訓(xùn)練語(yǔ)言模型已被證明有助于各種下游NLP 任務(wù)[8]。作為文本數(shù)據(jù)的補(bǔ)充, KG 提供結(jié)構(gòu)化的背景知識(shí), 通過(guò)預(yù)訓(xùn)練大規(guī)模學(xué)習(xí)兩種模態(tài)的信息融合[9], 可進(jìn)一步提高聯(lián)合推理模型的性能。
盡管基于預(yù)訓(xùn)練語(yǔ)言模型和知識(shí)圖譜的聯(lián)合推理模型在開(kāi)放域問(wèn)答研究中得到廣泛應(yīng)用, 并取得優(yōu)異性能, 但在生物醫(yī)學(xué)問(wèn)答(biomedical question and answering, BQA)領(lǐng)域, 聯(lián)合推理問(wèn)答(question and answering, QA)模型并未取得較好的效果。原因在于以下 3 個(gè)方面。1)生物醫(yī)學(xué)領(lǐng)域?qū)I(yè)術(shù)語(yǔ)表示方式多樣, 語(yǔ)義存在歧義。例如, UMLS[10]和 Sem-Med[11]將 CUI 作為實(shí)體標(biāo)識(shí)符, DragBank[12]將BankId 作為實(shí)體標(biāo)識(shí)符, MIMIC-III[13]將 ICD-Code作為實(shí)體標(biāo)識(shí)符。這些標(biāo)識(shí)符之間的轉(zhuǎn)化復(fù)雜, 并且不一一對(duì)應(yīng), 大大增加了問(wèn)答數(shù)據(jù)集和知識(shí)庫(kù)的實(shí)體對(duì)應(yīng)難度。2)知識(shí)圖譜存在大量的事實(shí), 使得訪問(wèn)每一個(gè)給定問(wèn)題的知識(shí)圖譜十分困難, 雖然用構(gòu)造知識(shí)子圖[14]的方法縮減知識(shí)圖譜有一定的效果, 但知識(shí)子圖中仍然存在大量不相關(guān)實(shí)體, 會(huì)對(duì)聯(lián)合推理造成干擾。3)聯(lián)合推理過(guò)程中將全部文本作為知識(shí)圖譜的頭結(jié)點(diǎn)進(jìn)行模態(tài)交互, 對(duì)應(yīng)的文本實(shí)體與圖譜實(shí)體之間并未進(jìn)行交互[6–7], 兩種模態(tài)的信息交互被平均化, 限制了兩種模態(tài)之間交換有用信息的能力。
為了解決上述問(wèn)題, 本文提出一種基于深度融合的語(yǔ)言模型與知識(shí)圖譜聯(lián)合推理問(wèn)答模型 DF-GNN。首先, 使用概念唯一標(biāo)識(shí)符(concept unique identifier, CUI)統(tǒng)一文本和知識(shí)圖譜的實(shí)體表示, 使用 Scispacy[15]進(jìn)行實(shí)體鏈接, 將文本實(shí)體與知識(shí)圖譜實(shí)體一一對(duì)應(yīng), 消除語(yǔ)義歧義; 接著, 在構(gòu)造知識(shí)子圖時(shí), 對(duì)鏈接到的實(shí)體進(jìn)行過(guò)濾, 根據(jù)置信度得分選擇鏈接實(shí)體; 然后, DF-GNN 改進(jìn)了文本和知識(shí)圖譜的交互方式, 將文本實(shí)體與對(duì)應(yīng)的子圖實(shí)體直接進(jìn)行信息交互, 使得兩個(gè)模態(tài)的信息深度融合, 提升每個(gè)實(shí)體對(duì)模型推理的影響程度; 最后, 對(duì)模型的推理過(guò)程進(jìn)行可視化, 利用知識(shí)圖譜的路徑信息提供可解釋性。
本研究在生物醫(yī)學(xué)領(lǐng)域公開(kāi)數(shù)據(jù)集 MedQA-USMLE[16]和 MedMCQA[17]上評(píng)估 DF-GNN, 使用SemMed 知識(shí)庫(kù)構(gòu)造知識(shí)圖譜。為了與預(yù)訓(xùn)練聯(lián)合推理模型[9]進(jìn)行對(duì)比, 我們使用相同的預(yù)訓(xùn)練目標(biāo)對(duì) DF-GNN 模型進(jìn)行預(yù)訓(xùn)練, 驗(yàn)證 DF-GNN 的性能表現(xiàn)。
我們的目標(biāo)是利用 LM 處理非結(jié)構(gòu)化問(wèn)題文本, 并聯(lián)合結(jié)構(gòu)化的 KG 的知識(shí)來(lái)回答生物醫(yī)學(xué)多項(xiàng)選擇問(wèn)題。在多選題回答(MCQA)的任務(wù)中, 一個(gè)通用的 MCQA 類(lèi)型的數(shù)據(jù)集由上下文段落、問(wèn)題和候選答案集合組成,為集合中的候選選項(xiàng), 并且可以訪問(wèn)外部知識(shí)源 KG 進(jìn)行聯(lián)合推理, KG 提供與多選題內(nèi)容相關(guān)的背景知識(shí)。
給定一個(gè) MCQA 的例子(,,)以及知識(shí)圖譜, 參照文獻(xiàn)[18], 將,和中的實(shí)體與鏈接起來(lái), 然后從中提取問(wèn)題–選擇對(duì)的知識(shí)子圖sub,并進(jìn)行去噪, 將(,,)以及sub作為模型的輸入, 得到作為答案的概率, 概率最高的即為問(wèn)題的最終答案。
本文通過(guò)引入外部知識(shí) KG, 利用圖神經(jīng)網(wǎng)絡(luò)(GNN)來(lái)增強(qiáng) LM[3,19–20], 提出 DF-GNN 方法。如圖1 所示, DF-GNN 由 5 個(gè)部分組成: 1)問(wèn)答上下文編碼模塊, 即學(xué)習(xí)非結(jié)構(gòu)化問(wèn)答文本輸入表示的 LM層; 2)知識(shí)子圖提取模塊, 包括知識(shí)子圖的構(gòu)造和去噪; 3)圖編碼模塊, 即學(xué)習(xí)結(jié)構(gòu)化知識(shí)圖譜輸入表示的 GAT 層; 4)深度融合模塊, 即學(xué)習(xí)文本和對(duì)應(yīng)知識(shí)子圖聯(lián)合表示的深度模態(tài)交互 DF 層, 其將底層 LM 層輸出的文本表示與sub的圖表示相互融合, 每一對(duì)文本實(shí)體與子圖實(shí)體直接交互, 提升每個(gè)實(shí)體對(duì)模型推理的影響程度; 5)答案預(yù)測(cè)模塊。
DF 層中不同顏色的 token-node 對(duì)表示從文本鏈接到知識(shí)子圖的對(duì)應(yīng)實(shí)體對(duì), token 和 node 表示前一層文本和節(jié)點(diǎn)嵌入, token_p 和 node_p 表示預(yù)融合文本和節(jié)點(diǎn)嵌入, token_f 和node_f 表示融合文本和節(jié)點(diǎn)嵌入。我們將 LM 層數(shù)表示為, DF 層數(shù)表示為, 模型中的總層數(shù)為+。
知識(shí)子圖中的藍(lán)色實(shí)體節(jié)點(diǎn)表示問(wèn)題中提到的實(shí)體, 黃色實(shí)體節(jié)點(diǎn)表示答案中提到的實(shí)體, 紅色節(jié)點(diǎn)表示問(wèn)答文本節(jié)點(diǎn)
圖1 DF-GNN模型的架構(gòu)
Fig. 1 Model architecture of DF-GNN
2.2.1KG檢索
對(duì)于每個(gè) QA 上下文, 首先使用 SciSpacy[15]將(,,)中識(shí)別出的實(shí)體鏈接到, 得到一組初始節(jié)點(diǎn)集合; 然后將初始節(jié)點(diǎn)集合中的每一個(gè)節(jié)點(diǎn)的兩跳鄰居添加進(jìn)初始節(jié)點(diǎn)集, 得到檢索節(jié)點(diǎn)集。
2.2.2KG去噪
根據(jù)實(shí)體鏈接置信度, 對(duì)檢索節(jié)點(diǎn)集進(jìn)行去噪處理, 方法如下: 1)對(duì)于從和識(shí)別出的實(shí)體, 抽取置信度高于 0.88(對(duì)實(shí)體鏈接統(tǒng)計(jì)分析可以得出, 當(dāng)置信度高于 0.88 時(shí), 鏈接實(shí)體的數(shù)量平均為 2 個(gè))的實(shí)體作為最終鏈接實(shí)體; 2)對(duì)于從識(shí)別出的實(shí)體, 首先將作為一個(gè)實(shí)體, 并在中檢索, 若存在該實(shí)體, 則該實(shí)體即為最終鏈接實(shí)體, 否則進(jìn)行去噪處理方式同第 1 步。兩步操作后, 得到知識(shí)子圖節(jié)點(diǎn)集{1, …,e} (為節(jié)點(diǎn)數(shù)量), 然后檢索連接知識(shí)子圖節(jié)點(diǎn)集中任意兩個(gè)節(jié)點(diǎn)的所有邊, 形成sub。對(duì)于sub中的每個(gè)節(jié)點(diǎn), 根據(jù)其對(duì)應(yīng)的實(shí)體是從上下文或問(wèn)題、答案還是橋接路徑連接而被分配對(duì)應(yīng)類(lèi)型。
其中,N表示任意節(jié)點(diǎn)e的鄰域,表示傳播消息的注意力權(quán)重,m表示鄰域中某一鄰居e傳遞給e的消息, fn是兩層 MLP。
節(jié)點(diǎn)之間的關(guān)系嵌入r以及消息m通過(guò)下式計(jì)算:
r=fr(t,u,u) , (4)
其中,u,u∈{0, 1, 2}表示節(jié)點(diǎn)和的類(lèi)型,t是連接節(jié)點(diǎn)e和e關(guān)系的關(guān)系嵌入表示, fr 是兩層 MLP, fm 是線性變換。注意力權(quán)重α通過(guò)其重要性衡量每個(gè)鄰居消息的貢獻(xiàn), 通過(guò)以下公式計(jì)算:
其中, fq 和 fk 是線性變換。
其中,h與e是一個(gè) token-node 對(duì), 即表示同一實(shí)體的文本嵌入和節(jié)點(diǎn)嵌入, Fusion 是兩層 MLP。只有 token-node 對(duì)參與運(yùn)算, 其余 token和節(jié)點(diǎn)保持不變, 但是它們會(huì)在各自模態(tài)傳播的下一層(式(1)和(2))從交互 token-node 對(duì)中的 token 或節(jié)點(diǎn)中接收信息。因此, 兩種模態(tài)的信息在多個(gè) DF 層中直接交互, 語(yǔ)言表示與 KG 知識(shí)深度融合, 提升了每個(gè)實(shí)體對(duì)模型推理的影響程度。
其中, fp表示兩層 MLP。最后, 選擇得分最高的候選答案為預(yù)測(cè)輸出, 使用交叉熵?fù)p失函數(shù)來(lái)優(yōu)化端到端模型。
本研究在生物醫(yī)學(xué)領(lǐng)域公開(kāi)數(shù)據(jù)集 MedQA-USMLE[16]和 MedMCQA[17]上評(píng)估 DF-GNN。Med-QA-USMLE 是一個(gè) 4 項(xiàng)多項(xiàng)選擇題回答數(shù)據(jù)集, 這些問(wèn)題來(lái)自美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE)的練習(xí)測(cè)試。該數(shù)據(jù)集包含 12723 個(gè)問(wèn)題, 我們使用原始數(shù)據(jù)拆分方法[16]。MedMCQA 是一個(gè)選擇題數(shù)據(jù)集, 數(shù)據(jù)來(lái)源于印度兩所醫(yī)學(xué)院入學(xué)考試(AIIMS 和NEET-PG)的模擬考試和過(guò)往考試, 訓(xùn)練集包含182822 個(gè)問(wèn)題, 測(cè)試集包含 4183 個(gè)問(wèn)題, 每個(gè)問(wèn)題有 4 個(gè)選項(xiàng)。
我們遵循基線模型[5–7], 使用準(zhǔn)確率得分(Acc)作為評(píng)估指標(biāo)。
使用 BioLinkBERT[19]作為 DF-GNN 的預(yù)訓(xùn)練語(yǔ)言模型, 模型的超參數(shù)如表 1 所示。
使用生物醫(yī)學(xué)領(lǐng)域的公開(kāi)知識(shí)庫(kù) SemMed[11]作為外部知識(shí)源。該知識(shí)庫(kù)是從整個(gè) PubMed 引用集中提取的語(yǔ)義預(yù)測(cè)(三元組)的存儲(chǔ)庫(kù), 語(yǔ)義預(yù)測(cè)的元素來(lái)自統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)的知識(shí)源, SemMed 中的實(shí)體概念與 UMLS 對(duì)齊, 30 種常見(jiàn)預(yù)定義關(guān)系從 UMLS 的預(yù)定義關(guān)系中引出。
表1 模型和實(shí)驗(yàn)超參數(shù)設(shè)置
3.3.1微調(diào)預(yù)訓(xùn)練語(yǔ)言模型
為了研究使用 KG 作為外部知識(shí)源的效果, 我們將 DF-GNN 與原生預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行對(duì)比, 后者是知識(shí)不可知的, 我們選擇 BioBERT[19], Sap-BERT[21]和 BioLinkBERT[20]進(jìn)行對(duì)比。
3.3.2LM + KG模型
通過(guò)與現(xiàn)有的 LM+KG 方法進(jìn)行比較, 來(lái)評(píng)估DF-GNN 利用知識(shí)圖譜推理的能力。選擇 QA-GNN[5], GreaseLM[6]以及 Dragon[9]進(jìn)行比較。Gre-aseLM 是現(xiàn)有的性能最好的模型, Dragon 在 Grease-LM 的基礎(chǔ)上對(duì)模型進(jìn)行預(yù)訓(xùn)練, 取得了更好的效果。為了公平比較, 使用與本文模型相同的 LM 來(lái)初始化這些基線模型。
表 2 和 3 分別展示 MedQA-USMLE 和 Med- MCQA 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。我們不僅在 SemMed知識(shí)圖譜以及去噪圖譜上進(jìn)行實(shí)驗(yàn), 同時(shí)也利用去噪圖譜改進(jìn)對(duì)比模型的性能。我們觀察到 DF-GNN的性能優(yōu)于所有 LM 模型和 LM+KG 模型, 并且優(yōu)于預(yù)訓(xùn)練模型 Dragon。除了 DF-GNN, MedQA-US-MLE 和 MedMCQA 上的 BioLinkBERT-large 和 Gre-aseLM 是最好的 LM 微調(diào)模型和 KG 增強(qiáng)模型, Dra-gon 是最好的預(yù)訓(xùn)練模型。在 MedQA-USMLE 數(shù)據(jù)集上, DF-GNN 相對(duì)于 BioLinkBERT-large 微調(diào)模型有 2.5%的改進(jìn), 相對(duì)于最佳模型 GreaseLM 有2%的改進(jìn), 相對(duì)于預(yù)訓(xùn)練模型 Dragon 有 1.6%的改進(jìn)。在MedMCQA 數(shù)據(jù)集上, DF-GNN 相對(duì)于最佳模型 Gr-easeLM 有 1.7%的改進(jìn), 相對(duì)于預(yù)訓(xùn)練模型 Dragon有 0.9%的改進(jìn)。在 MedQA-USMLE 和 MedMCQA數(shù)據(jù)集上, DF-GNN 的性能表現(xiàn)證明了統(tǒng)一實(shí)體表示方式、圖譜去噪處理以及模態(tài)信息直接交互的有效性。
表2 MedQA-USMLE數(shù)據(jù)集上的模型效果對(duì)比
說(shuō)明: 粗體數(shù)字表示性能最優(yōu), 下同。
表3 MedMCQA數(shù)據(jù)集上的模型效果對(duì)比
4.2.1實(shí)體表示方法
不同于基線模型使用 UMLS+DrugBank(BankId +CUI)作為外部知識(shí)源, 我們使用 SemMed(CUI)作為外部知識(shí)源, 統(tǒng)一了文本和知識(shí)圖譜的實(shí)體表示方式, 并在 MedQA-USMLE 和 MedMCQA 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。如表 4 所示, 使用 CUI 統(tǒng)一實(shí)體表示后, 基線模型以及 DF-GNN 的性能均有所提高, 證明了統(tǒng)一實(shí)體表示的有效性。
4.2.2知識(shí)圖譜去噪
表 4 中, 所有基線模型以及 DF-GNN 性能的提升并不明顯, 我們認(rèn)為是因?yàn)?SemMed 知識(shí)圖譜中存在噪聲, 導(dǎo)致大量無(wú)關(guān)實(shí)體影響模型的推理性能。我們對(duì)知識(shí)圖譜去噪, 得到sub, 如表 5 和 6 所示。去噪后,sub問(wèn)題實(shí)體和答案實(shí)體的數(shù)量明顯下降, 所有基線模型以及 DF-GNN 的性能均有較大的提升。
4.2.3DF-GNN預(yù)訓(xùn)練方法選擇
如表 7 所示, 我們遵從 Dragon[9]的方法, 在MedQA-USMLE 數(shù)據(jù)集上對(duì) DF-GNN 進(jìn)行同樣的預(yù)訓(xùn)練, 在預(yù)訓(xùn)練目標(biāo)上對(duì)比 MLM(掩碼語(yǔ)言建模)、LinkPred(鏈接預(yù)測(cè))和 MLM+LinkPred 的效果, 在 LinkPred 的頭部選擇上對(duì)比 DistMult, TransE和 RotatE 三種方法。與 Dragon[9]的結(jié)論一致, 在文本和 KG 上進(jìn)行雙向自監(jiān)督任務(wù), 有助于模型融合兩種推理模式, 在預(yù)測(cè)頭部的選擇中, DistMult 的效果最優(yōu)。
表4 MedQA-USMLE和MedMCQA上不同實(shí)體表示的效果對(duì)比
表5 MedQA-USMLE和MedMCQA上知識(shí)圖譜中實(shí)體數(shù)量比較
表6 MedQA-USMLE和MedMCQA上去噪知識(shí)圖譜性能比較
表7 DF-GNN預(yù)訓(xùn)練方法選擇
4.3.1推理結(jié)果可視化
本研究的目的是通過(guò)提取 GAT 引起的節(jié)點(diǎn)到節(jié)點(diǎn)的注意力權(quán)重來(lái)展示 DF-GNN 的推理過(guò)程, 我們通過(guò)sub的注意力鄰接矩陣, 挑選注意力權(quán)重高于給定閾值的邊和對(duì)應(yīng)頭尾結(jié)點(diǎn), 進(jìn)行可視化展示。圖 2 為 DF-GNN 在單跳推理和多跳推理問(wèn)題的兩個(gè)示例??梢钥吹? 通過(guò)文本和知識(shí)圖譜之間的聯(lián)合推理, DF-GNN 在單跳和多跳問(wèn)題中都可以找到關(guān)鍵實(shí)體, 從而推理出正確答案。
4.3.2定性分析
如圖 3 所示, 我們通過(guò) MedQA-USMLE 數(shù)據(jù)集的一個(gè)示例, 對(duì)比 DF-GNN 與 Dragon模型對(duì)問(wèn)答文本各實(shí)體的注意力權(quán)重。在示例中, DF-GNN 正確地預(yù)測(cè)了答案是 C “輪狀病毒”, 而 Dragon 做出錯(cuò)誤預(yù)測(cè), 即 D “脊髓灰質(zhì)炎病毒”。對(duì)于這兩個(gè)模型, 我們觀察通過(guò)sub提取的節(jié)點(diǎn)的注意力權(quán)重可以發(fā)現(xiàn), DF-GNN 模型重點(diǎn)關(guān)注在“基因”, 并對(duì)與該實(shí)體相連的“基因重組”“雙鏈RNA”和“病毒重組”更關(guān)注; Dragon 模型重點(diǎn)關(guān)注“病毒”以及相連的“病毒顆?!?。我們認(rèn)為, Dragon 在頭節(jié)點(diǎn)的交互信息被平均到每個(gè)實(shí)體, 降低了“基因”對(duì)于模型推理的重要程度, DF-GNN 的直接交互方式提升了“基因”對(duì)模型推理的影響, 因此能夠預(yù)測(cè)正確答案。
本文針對(duì)生物醫(yī)學(xué)領(lǐng)域問(wèn)答存在的問(wèn)題, 提出一種新的模型 DF-GNN, 通過(guò)統(tǒng)一文本和知識(shí)圖譜的實(shí)體表示、對(duì)知識(shí)子圖去噪處理以及改進(jìn)文本與知識(shí)圖譜的交互方式, 將文本實(shí)體與對(duì)應(yīng)的子圖實(shí)體直接交互, 使兩個(gè)模態(tài)的信息深度融合, 提升每個(gè)實(shí)體對(duì)模型推理的影響程度。在生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明, DF-GNN 模型優(yōu)于微調(diào) LM基線[19–21]以及現(xiàn)有的最佳 LM+KG 模型[5–6]和預(yù)訓(xùn)練模型。同時(shí), 通過(guò)提取 GAT 引起的節(jié)點(diǎn)到節(jié)點(diǎn)的注意力權(quán)重來(lái)展示 DF-GNN 的推理過(guò)程, 利用知識(shí)圖譜的路徑信息對(duì)模型推理提供可解釋性。
圖2 DF-GNN推理結(jié)果展示
圖3 DF-GNN與Dragon的推理結(jié)果比較
[1] Jin Qiao, Yuan Zheng, Xiong Guangzhi, et al. Bio-medical question answering: a survey of approaches and challenges. ACM Computing Surveys, 2022, 55 (2): 1–36
[2] Gu Yu, Tinn R, Cheng Hao, et al. Domain-specific language model pretraining for biomedical natural lan-guage processing. ACM Transactions on Computing for Healthcare, 2022, 3(1): 1–23
[3] Liu Fangyu, Shareghi E, Meng Zaiqiao, et al. Self-alignment pretraining for biomedical entity represen-tations [EB/OL]. (2020–10–22)[2023–05–20]. https:// arxiv.org/abs/2010.11784
[4] Mutabazi E, Ni J, Tang Guangyi, et al. A review on medical textual question answering systems based on deep learning approaches. Applied Sciences, 2021, 11 (12): 54–56
[5] Yasunaga M, Ren Hongyu, Bosselut A, et al. QA-GNN: reasoning with language models and knowledge graphs for question answering [EB/OL]. (2021–04–13)[2023–05–20]. https://arxiv.org/abs/2104.06378
[6] Zhang Xikun, Bosselut A, Yasunaga M, et al. Grea-selm: graph reasoning enhanced language models for question answering [EB/OL]. (2022–02–21)[2023–05–20]. https://arxiv.org/abs/2201.08860
[7] Chen Zheng, Kordjamshidi P. Dynamic relevance graph network for knowledge-aware question answe-ring [EB/OL]. (2022–09–20)[2023–05–20]. https://ar xiv.org/abs/2209.09947
[8] Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models [EB/OL]. (2021–08–16)[2023–05–20]. https://arxiv.org/abs/2108. 07258
[9] Yasunaga M, Bosselut A, Ren Hongyu, et al. Deep bidirectional language-knowledge graph pretraining. Advances in Neural Information Processing Systems, 2022, 35: 37309–37323
[10] Bodenreider O. The unified medical language system (UMLS): integrating biomedical terminology. Nucleic acids research, 2004, 32(suppl 1): D267–D270
[11] Kilicoglu H, Shin D, Fiszman M, et al. SemMedDB: a PubMed-scale repository of biomedical semantic pre-dications. Bioinformatics, 2012, 28(23): 3158–3160
[12] Wishart D S, Knox C, Guo A C, et al. DrugBank: a knowledgebase for drugs, drug actions and drug tar-gets. Nucleic Acids Research, 2008, 36(suppl 1): D901 –D906
[13] Johnson A E W, Pollard T J, Shen L, et al. MIMIC-III, a freely accessible critical care database. Scientific Data, 2016, 3(1): 1–9
[14] Haveliwala T H. Topic-sensitive pagerank // Procee-dings of the 11th International Conference on World Wide Web. Honolulu, 2002: 517–526
[15] Neumann M, King D, Beltagy I, et al. ScispaCy: fast and robust models for biomedical natural language pro-cessing [EB/OL]. (2019–02–20)[2023–05–20]. https:// arxiv.org/abs/1902.07669
[16] Jin D, Pan E, Oufattole N, et al. What disease does this patient have? a large-scale open domain question an-swering dataset from medical exams. Applied Scien-ces, 2021, 11(14): 6421–6422
[17] Pal A, Umapathi L K, Sankarasubbu M. Medmcqa: A large-scale multi-subject multi-choice dataset for medical domain question answering // Conference on Health, Inference, and Learning. New Orleans, 2022: 248–260
[18] Lin B Y, Chen X, Chen J, et al. KagNet: knowledge-aware graph networks for commonsense reasoning [EB/OL]. (2019–09–04)[2023–05–20]. https://arxiv. org/abs/1909.02151
[19] Lee J, Yoon W, Kim S, et al. BioBERT: a pre-trained biomedical language representation model for biome-dical text mining. Bioinformatics, 2020, 36(4): 1234–1240
[20] Yasunaga M, Leskovec J, Liang P. LinkBERT: pretrai-ning language models with document links [EB/OL]. (2022–05–29)[2023–05–20]. https://arxiv.org/abs/2203. 15827
[21] Beltagy I, Lo K, Cohan A. SciBERT: a pretrained language model for scientific text [EB/OL]. (2019–05–26)[2023–05–20]. https://arxiv.org/abs/1903.10676
Interpretable Biomedical Reasoning via Deep Fusion of Knowledge Graph and Pre-trained Language Models
XU Yinxin1, YANG Zongbao1, LIN Yuchen1, HU Jinlong1,2, DONG Shoubin1,2,?
1. School of Computer Science and Engineering, South China University of Technology, Guangzhou 510641; 2. Zhongshan Institute of Modern Industrial Technology of SCUT, Zhongshan 528437; ? Corresponding author, E-mail: sbdong@scut.edu.cn
Joint inference based on pre-trained language model (LM) and knowledge graph (KG) has not achieved better results in the biomedical domain due to its diverse terminology representation, semantic ambiguity and the presence of large amount of noise in the knowledge graph. This paper proposes an interpretable inference method DF-GNN for biomedical field, which unifies the entity representation of text and knowledge graph, denoises the subgraph constructed by a large biomedical knowledge base, and further improves the information interaction mode of text and subgraph entities by increasing the direct interaction between corresponding text and subgraph nodes, so that the information of the two modes can be deeply integrated. At the same time, the path information of the knowledge graph is used to provide interpretability for the model reasoning process. The test results on the public dataset MedQA-USMLE and MedMCQA show that DF-GNN can more reliably leverage structured knowledge for reasoning and provide explanatory properties than existing biomedical domain joint inference models.
biomedical domain; pre-trained language model; knowledge graph; joint reasoning