摘 要:在知識圖譜多跳問答任務(wù)中,問題的復(fù)雜語義往往難以被完全理解,這常導(dǎo)致回答的準確性低于預(yù)期。為此,提出了一種名為HL-GPT(hierarchical parsing and logical reasoning GPT)的新型框架。該框架利用大語言模型的理解和生成能力,通過分層解析復(fù)雜語義及構(gòu)建邏輯推理路徑,以提升問答任務(wù)的準確性。研究方法包括三個階段:首先,通過大語言模型從問題的不同層次中解析出關(guān)鍵實體和多層關(guān)系,并將這些信息轉(zhuǎn)換為邏輯形式;其次,將這些邏輯形式與知識圖譜中的數(shù)據(jù)進行映射,并逐步檢索相關(guān)實體以構(gòu)建邏輯推理路徑;最后,利用大語言模型固有的推理能力,整合問題和邏輯路徑以生成準確的答案。本框架在MetaQA、COKG-DATA 、AeroQA和NLPCC-MH四個數(shù)據(jù)集上進行實驗,實驗結(jié)果表明,HL-GPT相比基線模型有明顯的性能提升。
關(guān)鍵詞:大語言模型; 知識圖譜; 多跳問答; 語義解析
中圖分類號:TP391.1"" 文獻標志碼:A
文章編號:1001-3695(2025)03-009-0714-06
doi:10.19734/j.issn.1001-3695.2024.10.0633
Hierarchical semantic parsing approach for multi-hopquestion answering on knowledge graphs
Zhou Yan, Fan Yongsheng, Sun Song, Zhou Yue
(College of Computer amp; Information Science, Chongqing Normal University, Chongqing 401331, China)
Abstract:In multi-hop question answering tasks over knowledge graphs, the complex semantics of questions often remain inadequately understood, leading to suboptimal accuracy in answers. To address this challenge, this paper introduced a novel framework named HL-GPT. This framework exploited the comprehension and generation capabilities of large language models to enhance answer accuracy through hierarchical semantic parsing and logical reasoning path construction. The method encompassed three stages: initially, a large language model parsed key entities and multi-layer relationships from various levels of the question and converted this information into logical forms. Subsequently, it mapped these logical forms to data within the knowledge graph and incrementally retrieves relevant entities to construct a logical reasoning path. Finally, it utilized the inherent reasoning capabilities of the large language model to integrate the question and logical path, generating accurate answers. Experimental results on the MetaQA, COKG-DATA, AeroQA and NLPCC-MH datasets demonstrate significant performance improvements of HL-GPT over baseline models.
Key words:large language models(LLM); knowledge graph; multi-hop question answering; semantic parsing
0 引言
知識圖譜(knowledge graph,KG)[1]是一種結(jié)構(gòu)化的語義知識庫,用于存儲實體及其相互關(guān)系的信息。由于其直觀和豐富的知識特性,知識圖譜被廣泛應(yīng)用于多種自然語言處理任務(wù),包括知識問答、對話系統(tǒng)、推薦系統(tǒng)和信息檢索等[2]。其中知識圖譜問答(knowledge graph question answering,KGQA)[3]應(yīng)用最為廣泛,它利用豐富的結(jié)構(gòu)化語義信息來深入理解用戶的問題,并提供準確的答案。因此,知識圖譜問答受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
當(dāng)前,知識圖譜問答的研究聚焦于對問題的理解,問題按照復(fù)雜程度可以分為簡單問題和復(fù)雜問題。簡單問題只需要在主語實體的單跳子圖上進行推理就可以得到答案,而對于復(fù)雜問題,答案可能涉及多個實體及實體間關(guān)系[4]。例如在多跳問題中,如果一個問題從主語實體出發(fā),經(jīng)過n條三元組達到答案所在的實體,則該問題稱為n跳問題,對該問題進行回答的過程稱為n跳問答[5]。目前,基于語義解析的方法[6,7]可以很好地解決簡單問題,將問題解析為一種結(jié)構(gòu)化查詢語句, 并在知識庫上執(zhí)行得到最終答案。然而,在多跳問答中,問題通常涉及多個相關(guān)實體和關(guān)系,要求模型能夠理解復(fù)雜的推理和多步邏輯跳躍。這一任務(wù)的難點在于,模型需要準確地識別和關(guān)聯(lián)問題中提到的多個實體,并理解它們之間的關(guān)系,以構(gòu)建正確的推理路徑。傳統(tǒng)語義解析方法在處理此類復(fù)雜問題時,尤其是涉及深層關(guān)系和多步邏輯推理的情況下,往往表現(xiàn)不佳[8]。
針對多跳問題中模型理解能力不足的問題,大語言模型(large language models,LLM)[9]的引入開辟了新的研究前景。這些模型經(jīng)過廣泛的預(yù)訓(xùn)練[10],展現(xiàn)了強大的語言理解和泛化能力,有望提升語義解析的準確性。最近的研究表明,通過融合大語言模型的零樣本學(xué)習(xí)策略,在提示學(xué)習(xí)(prompt)[11]中加入少量示例,可以提升模型處理復(fù)雜問題的能力。例如,KG-GPT[12]通過精心設(shè)計的提示引導(dǎo)大語言模型分割復(fù)雜句子來提取關(guān)鍵信息,檢索相關(guān)的知識圖譜信息,以此來推理出答案。雖然KG-GPT在復(fù)雜推理任務(wù)上取得了進展,但在答案路徑推理的過程中,缺乏對推理過程的詳細解釋和可視化,導(dǎo)致整個推理過程的可解釋性不足。相比之下,StructGPT[13]通過迭代調(diào)用接口提取結(jié)構(gòu)化數(shù)據(jù)并將其線性化為文本,然后構(gòu)造提示引導(dǎo)大語言模型進行推理,逐步接近并生成最終答案。盡管這些方法在復(fù)雜問答任務(wù)中表現(xiàn)優(yōu)異,但在解析多跳問題的深層語義時,它們的準確性仍有待提高。
為此,本文提出了一種分層語義解析的知識圖譜問答框架HL-GPT。針對多跳問答任務(wù)中深層語義解析不準確的問題,分層語義解析通過大語言模型分層解析問題中的復(fù)雜語義,系統(tǒng)地識別和提取與問題密切相關(guān)的實體和多層關(guān)系,從而提高解析的準確性和深度。針對多跳問答任務(wù)中回答的可解釋性不足的問題,HL-GPT框架有效整合了大語言模型的語義理解能力與知識圖譜豐富的結(jié)構(gòu)化信息,從而構(gòu)建了清晰的邏輯推理路徑,增強了答案的可解釋性。
1 相關(guān)研究
1.1 語義解析
語義解析[8]技術(shù)的核心任務(wù)是將非結(jié)構(gòu)化文本轉(zhuǎn)換為可執(zhí)行的查詢,并在知識庫上執(zhí)行得到最終答案。首先,通過問題理解模塊對問題進行全面的語義和句法分析,然后將分析后的問題編碼轉(zhuǎn)換為未實例化的邏輯形式。接下來,這個邏輯形式會進一步實例化并通過與知識庫的語義對齊進行驗證。最后,這個邏輯形式在知識庫中執(zhí)行,通過執(zhí)行模塊生成答案。
1.2 提示學(xué)習(xí)
提示學(xué)習(xí)[14]是一種基于語言模型的新型自然語言處理學(xué)習(xí)范式,它不同于傳統(tǒng)的監(jiān)督學(xué)習(xí)。在傳統(tǒng)的監(jiān)督學(xué)習(xí)中,模型被訓(xùn)練為接受輸入x并預(yù)測輸出y。而提示學(xué)習(xí)采用語言模型直接對文本進行概率建模,通過使用包含空白槽的文本模板修改原始輸入x,然后依賴語言模型來概率性地填充這些空白槽,從而生成最終的輸出y。此外,提示學(xué)習(xí)允許語言模型在大量原始文本上進行預(yù)訓(xùn)練,并定義新的提示函數(shù),使模型能夠執(zhí)行少數(shù)樣本甚至零樣本學(xué)習(xí),以適應(yīng)少數(shù)或沒有標記數(shù)據(jù)的新場景[15]。因此,為確保大語言模型能夠理解和執(zhí)行特定任務(wù),本文采用了基于提示學(xué)習(xí)的函數(shù)模板:
Prompt={Inst,E,Q}
(1)
其中:Inst(指令文本)明確傳達任務(wù)需求并詳細指導(dǎo)執(zhí)行方式;E(示例)提供相關(guān)實例,幫助模型理解復(fù)雜指令;Q(問題)則是具體的查詢,直接指導(dǎo)模型生成內(nèi)容。
1.3 大語言模型融合知識圖譜問答
大語言模型與知識圖譜的融合成為提升知識圖譜問答系統(tǒng)性能的關(guān)鍵 [16]。大語言模型主要在兩個方向發(fā)揮作用:首先是作為實體/關(guān)系提取器。大語言模型能從自然語言問題中準確地識別和提取實體及其關(guān)系,并檢索知識圖譜中的相關(guān)事實。例如,Lukovnikov等人[17]使用大語言模型作為關(guān)系預(yù)測的分類器,有效提高了關(guān)系預(yù)測的準確率;而QA-GNN[18]開發(fā)的基于大語言模型的框架,有效地用于從問題中檢測實體和關(guān)系。其次是作為答案推理器。大語言模型利用檢索到的事實進行邏輯推理以生成答案。例如,DRLK[19]結(jié)合問題、相關(guān)事實和候選答案,并通過大語言模型預(yù)測答案得分,展示了大語言模型在處理結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中的強大推理能力。
2 方法
2.1 問題定義
基于知識圖譜的問答任務(wù)定義如下:給定一個自然語言問題Q,目標是利用知識圖譜G提取與問題相關(guān)的實體和關(guān)系,從而檢索出正確的答案實體。知識圖譜G由大量的事實三元組組成,形式為
G={(e,r,e′)|e,e′∈E,r∈R}
(2)
其中:E和R分別代表實體集和關(guān)系集。任務(wù)的關(guān)鍵是將問題Q轉(zhuǎn)換為結(jié)構(gòu)化查詢〈ei,ri〉(i=1,…,n),其中ei和ri分別是問題中的實體和關(guān)系,然后使用這些信息來指導(dǎo)知識圖譜中答案實體e′的檢索。
2.2 框架設(shè)計與實現(xiàn)
HL-GPT框架如圖1所示,該框架被細分為分層語義解析、圖檢索和邏輯推理三個階段。
2.2.1 分層語義解析
在知識圖譜多跳問答任務(wù)中,HL-GPT框架采用分層語義解析方法逐步處理問題。該方法在第一層聚焦于識別問題中的關(guān)鍵實體及其直接關(guān)系,為后續(xù)深入分析奠定基礎(chǔ);在第二層,通過深度分解問題并逐步提取子句,進一步挖掘出涉及的深層關(guān)系。這種分層處理使得框架能夠有效地整合問題中的實體和多層關(guān)系,從而在知識圖譜中逐步構(gòu)建出從問題實體到答案實體的連貫邏輯路徑。
a)第一層解析:重點關(guān)注問題中直接給出的實體及其直接關(guān)系。這一層的信息通常明確且易于識別,從而允許快速構(gòu)建實體之間的直接聯(lián)系圖。如圖1分層語義解析的第一層解析所示,針對問題“When did the movies acted by Faizon Love release?”,該階段精確地識別出實體“Faizon Love”及其動作“acted by”。在這個階段,通過大語言模型提取問題中的實體及其直接關(guān)系,如式(3)所示。
〈e,re〉=LLM(Prompt1)
(3)
其中:Prompt1指導(dǎo)模型提取句子中的實體及其直接關(guān)系;〈e,re〉表示提取的結(jié)果,e代表實體,re表示實體e的直接關(guān)系。這一層解析為整個推理過程提供了必要的前提條件。
b)第二層解析:進一步探索問題中實體間的深層關(guān)系。在此階段,根據(jù)關(guān)系的邏輯層次,模型將復(fù)雜問題逐步分解,以便準確提取與各關(guān)系相對應(yīng)的子句。如圖1分層語義解析的第二層解析所示,針對問題“When did the movies acted by Faizon Love release?”,該階段將其分解為“When did the movies release, acted by Faizon Love”,并提取深層關(guān)系“When did the movies release”。這一過程主要通過大語言模型實現(xiàn),即
〈q1,q2,…,qn〉=LLM(Prompt2)
(4)
其中:Prompt2用于引導(dǎo)模型有效執(zhí)行復(fù)雜問題的分解并識別其內(nèi)部的關(guān)系。這些子句序列〈q1,q2,q3,…,qn〉從問題中提取出來,簡化了文本中多層關(guān)系的識別復(fù)雜性。這一層解析通過分解復(fù)雜多跳問題,有效降低了錯誤率并提升了推理準確性。
2.2.2 圖檢索
在分層語義解析的基礎(chǔ)上,圖檢索階段確保將解析得到的關(guān)系準確映射到知識圖譜中,并檢索相關(guān)實體。如圖1所示,分層語義解析后輸出的邏輯形式為(“Faizon Love”, “acted by”,“When did the movies release”),實線箭頭表示與問題相關(guān)的關(guān)系,虛線箭頭表示與問題無關(guān)的關(guān)系。未實例化的關(guān)系“acted by”和“When did the movies release”,對應(yīng)知識圖譜中的“starred_actors”和“release_year”。 為確保將解析出的關(guān)系準確映射到知識圖譜中,本文收集了領(lǐng)域內(nèi)的關(guān)系數(shù)據(jù)并進行標注,構(gòu)建了一個面向文本相似度任務(wù)的小規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集包括三個關(guān)系類型:q為查詢的初始關(guān)系,p為知識庫中與q相似的關(guān)系(正樣本),n為不相似或相反的關(guān)系(負樣本)。這種格式設(shè)計有助于模型區(qū)分相似關(guān)系和不相似關(guān)系。數(shù)據(jù)集表示為DTrain={q,p,n},預(yù)訓(xùn)練嵌入模型S在DTrain上進行微調(diào),目標是讓正樣本對的相似度盡可能大、負樣本對的相似度盡可能小。模型S的映射通過以下公式進行描述:
r=argmaxri∈KGS(q′)·S(ri)‖S(q′)‖×‖S(ri)‖
(5)
其中:r是未實例化關(guān)系q′與知識圖譜中所有關(guān)系ri之間最相似的關(guān)系。該相似度是通過計算S(q′)(未實例化關(guān)系向量)和S(ri)(圖譜中關(guān)系向量)之間的余弦相似度得到的。這里使用的點乘操作用于計算兩個向量的內(nèi)積,以反映它們在方向上的相似性;模的乘積則用于歸一化這一度量,確保結(jié)果不會受到向量長度的影響。
在邏輯形式實例化后,將其轉(zhuǎn)換為相應(yīng)的Cypher查詢,以執(zhí)行知識圖譜檢索。此操作確保了能夠從邏輯推理路徑中準確地獲取所有相關(guān)的實體。檢索過程如圖1中圖檢索階段所示,從“Faizon Love”到他所參演的電影“Who’s Your Caddy?”和“Couples Retreat”,以及這些電影的發(fā)行年份(分別為2007年和2009年)。
2.2.3 邏輯推理
在分層語義解析和圖檢索的基礎(chǔ)上,此階段的目標是利用大語言模型對檢索到的邏輯路徑進行推理,從而生成準確且具有可解釋性的答案,如圖1中邏輯推理所示。
首先,構(gòu)建一個問題相關(guān)的三元組知識庫。這個知識庫不僅存儲了問題實體的直接關(guān)系,如(Faizon Love,starred_actors,Who’s Your Caddy?)和(Faizon Love,starred_actors,Couples Retreat),還包括問題的深層關(guān)系,如,(Who’s Your Caddy?,rel- ease_year,2007)和(Couples Retreat,release_year,2009)。知識庫構(gòu)建完成后,這些三元組信息被轉(zhuǎn)換為連貫的文本描述,形成了一個包含所有相關(guān)知識的完整上下文,為解答提供堅實的信息支撐。接著,利用大語言模型綜合這些文本化的背景知識與具體問題,通過其強大的上下文分析能力進行答案推理。最終,大語言模型生成的答案是“The movie Who’s Your Caddy? starring Faizon Lovewas released in 2007,and the movie ‘Couples Retreat’ was released in 2009.”,這個答案相比以前檢索到的答案(僅僅為2007和2009年)不僅精確地提供了所需信息,還揭示了從問題到答案的完整邏輯路徑,展現(xiàn)了答案背后的邏輯推理過程,具有良好的可解釋性。
綜上所述,HL-GPT框架的處理流程始于對問題的深入解析,接著確定核心查詢需求并識別出相關(guān)的關(guān)鍵實體,隨后基于這些實體及其關(guān)聯(lián)關(guān)系,進一步構(gòu)建邏輯推理路徑,提供詳盡且可解釋的回答。以圖1中的問題“When did the movies acted by Faizon Love release?”為例,HL-GPT首先識別出“Faizon Love”作為主要實體。隨后,通過一跳關(guān)系“starred_actors”,檢索到他主演的兩部電影“Who’s Your Caddy?”和“Couples Retreat”。進一步通過二跳關(guān)系“release_year”,為這兩部電影分別檢索到了發(fā)布年份為2007年和2009年。這一過程構(gòu)建了兩條清晰的邏輯推理路徑:第一條從“Faizon Love”到“Who’s Your Caddy?”,再到其發(fā)布年份2007年;第二條從“Faizon Love”到“Couples Retreat”,再到其發(fā)布年份2009年。這兩條邏輯路徑不僅確保了答案的準確性,而且都明確展現(xiàn)在最終的回答上,增強了答案的可解釋性。
3 實驗
3.1 數(shù)據(jù)集
a)MetaQA[20]數(shù)據(jù)集。它是一個專注于電影領(lǐng)域的知識圖譜多跳問答數(shù)據(jù)集,基于WiKi-Movie[21]構(gòu)建。該數(shù)據(jù)集用于評估問答模型處理從簡單到復(fù)雜推理任務(wù)的能力。具體數(shù)據(jù)如表1(MetaQA)所示。
b)COKG-DATA[22]數(shù)據(jù)集。它是一個中文多跳問答數(shù)據(jù)集,旨在支持COVID-19相關(guān)的復(fù)雜知識圖譜問答任務(wù)。該數(shù)據(jù)集覆蓋疫情防控、醫(yī)療資源和流行病學(xué)等關(guān)鍵領(lǐng)域,通過模擬現(xiàn)實世界中的多層次、邏輯復(fù)雜的查詢場景來測試問答模型的處理能力。具體數(shù)據(jù)如表1(COKG-DATA)所示。
c)AeroQA[23]數(shù)據(jù)集。它是一個專門為航空領(lǐng)域設(shè)計的多跳問答數(shù)據(jù)集,與預(yù)處理的AviationKG[23]知識圖譜相結(jié)合。該數(shù)據(jù)集涉及飛機事故調(diào)查、航空安全法規(guī)等場景,通過模擬復(fù)雜的查詢場景來測試問答系統(tǒng)的實際應(yīng)用效果。具體數(shù)據(jù)如表1(AeroQA)所示。
d)NLPCC-MH[24]數(shù)據(jù)集。它是一個開放領(lǐng)域的中文多跳問答數(shù)據(jù)集,旨在為多跳問題的研究提供支持。該數(shù)據(jù)集通過擴展NLPCC 2016的KBQA數(shù)據(jù)集中的單跳問題,構(gòu)建了涵蓋二三跳問題的中文KBQA數(shù)據(jù)集,其中80%為二跳問題,20%為三跳問題,便于在開放領(lǐng)域內(nèi)驗證多跳問題模型的有效性。
3.2 實驗設(shè)置
在實驗設(shè)置中,大語言模型被整合為HL-GPT框架的核心,包括ChatGPT[10]和ChatGLM3-6B[25]。在HL-GPT的分層語義解析任務(wù)中,確保獲得更一致的響應(yīng),模型參數(shù)temperature和top_p均設(shè)置為0.1進行推理,并將12個訓(xùn)練樣本制作成上下文示例并添加到提示中。其中,樣本的選擇要覆蓋所有關(guān)鍵問題領(lǐng)域、反映真實世界數(shù)據(jù)的多樣性以及根據(jù)模型初步學(xué)習(xí)結(jié)果的迭代反饋進行調(diào)整。
3.3 評估指標
準確率是問答系統(tǒng)的常用評估指標,計算可表示為
accuracy(Q)=pn
(6)
其中:p表示模型輸出的正確答案;n表示模型的所有輸出。
在MetaQA數(shù)據(jù)集上,為確保評估的公平性和可比性,本研究引入了兩類模型進行對比分析。
首先,實驗采用了目前表現(xiàn)較好的基線模型,這些模型均在完全監(jiān)督的環(huán)境中構(gòu)建,如KV-Mem[26]、GraftNet[27]、EmbedKGQA[28]、NSM[29]以及UniKGQA[30]。這些模型提供了堅實的基準,用于評估其他模型在相同任務(wù)上的性能。其次,為探索大語言模型在知識圖譜推理任務(wù)中的潛力,也對少樣本條件下的模型進行了評估,包括ChatGPT[12]、StructGPT[13]、KG-Agent[31]和 KG-GPT[12]模型。
同時,HL-GPT框架在醫(yī)療和航空兩個具體場景進行了實驗,以全面評估框架的泛化能力。在醫(yī)療數(shù)據(jù)集上,與EmbedKGQA、Transfer-Net[32]和 COKG-QA[21]模型進行了對比;在航空數(shù)據(jù)集上,則與T5-large+KG[23]和KITLM[23]模型進行了性能比較。
此外,HL-GPT框架在開放領(lǐng)域NLPCC-MH數(shù)據(jù)集上進行了測試,并與DPQA[24]模型及一個融合模型進行了比較。該融合模型結(jié)合了基于BiLSTM-CRF的實體識別模型[33]和使用seq2seq的關(guān)系預(yù)測模型[34](后文中標記為seq2seq[24])。
3.4 結(jié)果分析
HL-GPT框架在MetaQA、COKG-DATA和AeroQA三個知識圖譜問答數(shù)據(jù)集上進行了測試,這些測試覆蓋了不同的應(yīng)用場景。在MetaQA數(shù)據(jù)集上,HL-GPT采用了12個樣本的提示學(xué)習(xí)策略,在三個任務(wù)(1-hop、2-hop、3-hop)中準確率分別達到了99.94%、98.33%和97.75%,如表2所示。HL-GPT與完全監(jiān)督模型KV-Mem相比,在三個任務(wù)中的準確性分別提升了3.74、15.63和48.85百分點。相較于流行的模型如NSM和UniKGQA,HL-GPT有一定的提升。具體來看,KV-Mem模型通過改進的鍵值記憶神經(jīng)網(wǎng)絡(luò)增加了停止策略和查詢更新機制,提高了單跳問題處理的靈活性和效率。然而,在執(zhí)行多跳推理時,其模型結(jié)構(gòu)可能因信息覆蓋不足而限制了深層次關(guān)系的推理能力。相比之下,HL-GPT通過分層語義解析的設(shè)計,更有效地管理和利用多層關(guān)系信息,避免了信息丟失問題。GraftNet和EmbedKGQA模型在處理特定的知識圖譜結(jié)構(gòu)時表現(xiàn)優(yōu)異。GraftNet通過構(gòu)建與問題密切相關(guān)的子圖并利用圖卷積網(wǎng)絡(luò)提取答案,而EmbedKGQA則利用知識圖譜嵌入技術(shù)從預(yù)設(shè)鄰域中篩選答案。這兩種方法都高度依賴于實體鏈接和文本檢索的準確性,或者是知識圖譜嵌入的質(zhì)量。HL-GPT通過整合大語言模型的預(yù)訓(xùn)練知識和結(jié)構(gòu)化信息處理能力,克服了單純依賴知識圖譜結(jié)構(gòu)或文本的局限。盡管NSM和UniKGQA模型在某些情況下實現(xiàn)了語義匹配的優(yōu)化,但它們在處理大規(guī)模知識圖譜或復(fù)雜多跳推理任務(wù)時仍然面臨挑戰(zhàn)。NSM模型依賴于雙向推理和教師網(wǎng)絡(luò)的中間監(jiān)督信號,而UniKGQA通過預(yù)訓(xùn)練語言模型實現(xiàn)語義匹配,這在數(shù)據(jù)噪聲較大或知識圖譜規(guī)模龐大時可能導(dǎo)致性能下降。HL-GPT則通過提示學(xué)習(xí)策略和分層推理,有效地提升了模型在復(fù)雜推理任務(wù)中的魯棒性和準確度。
同時,HL-GPT在所有任務(wù)中均超過了表2中的大語言模型方法。與使用相同樣本數(shù)量的KG-GPT相比,HL-GPT在三個任務(wù)中準確率分別提高了3.64、3.93和3.75百分點。具體來看,StructGPT 使用迭代閱讀推理(IRR)方法增強了對結(jié)構(gòu)化數(shù)據(jù)的處理能力,但其性能強依賴于數(shù)據(jù)操作接口,且在處理大規(guī)模數(shù)據(jù)集或復(fù)雜查詢時計算成本較高。KG-Agent 通過整合多功能工具箱和基于知識圖譜的執(zhí)行器增強推理決策能力,但效果受限于工具精確性和數(shù)據(jù)整合質(zhì)量。KG-GPT 利用大型語言模型進行知識圖譜推理,包括句子分割、圖譜檢索和推理,但在處理復(fù)雜任務(wù)或數(shù)據(jù)不足時可能因依賴上下文和數(shù)據(jù)質(zhì)量面臨挑戰(zhàn)。
通過對實驗結(jié)果的進一步分析,將HL-GPT的優(yōu)勢歸納為以下兩點:a)分層語義解析方法通過逐層解析多跳問題中的關(guān)系,有效管理和利用實體間的復(fù)雜層級關(guān)系,從而更精確地理解和回答問題;b)HL-GPT有效地利用了大語言模型的廣泛預(yù)訓(xùn)練知識,結(jié)合少量樣本的提示學(xué)習(xí)策略,使得模型能夠有效地分解并逐步深入地理解多跳問題。
在COKG-DATA數(shù)據(jù)集上,HL-GPT在三個任務(wù)(1-hop、2-hop、3-hop)中的準確率分別達到了99.99%、99.53%和99.08%,如表3所示。
與基線模型COKG-QA相比,HL-GPT在三個任務(wù)中的準確率分別提升了4.24、6.63和1.78百分點。具體來看,COKG-QA模型使用嵌入投影和結(jié)構(gòu)信息技術(shù),將實體、架構(gòu)和問題統(tǒng)一到同一語義空間中,提高答案的準確性。然而,在處理復(fù)雜或變化的語義結(jié)構(gòu)時,模型性能可能受到實體識別錯誤或嵌入不準確的影響。此外,與TransferNet模型相比,HL-GPT在處理邏輯復(fù)雜度逐漸增加的任務(wù)中表現(xiàn)出更高的穩(wěn)定性。例如,在3-hop任務(wù)中,TransferNet的準確率僅為11.50%,其表現(xiàn)不佳主要是由于在COKG-DATA數(shù)據(jù)集中,3-hop訓(xùn)練數(shù)據(jù)量較少,這導(dǎo)致模型在學(xué)習(xí)到足夠的多層次關(guān)系時存在困難。這一對比突顯了HL-GPT在處理各種復(fù)雜程度問題時的顯著穩(wěn)定性。在AeroQA數(shù)據(jù)集上,HL-GPT在1-hop和2-hop任務(wù)中的準確率分別達到了96.05%和75.85%,如表4所示。
與基線模型KITLM相比,HL-GPT在這兩個任務(wù)中的表現(xiàn)分別提升了9.99和32.33百分點。這表明HL-GPT在航空領(lǐng)域問答任務(wù)中具備出色的適應(yīng)性和準確度。特別是在更復(fù)雜的2-hop任務(wù)中,其分層語義解析和優(yōu)化的推理機制使得模型能夠有效整合和處理航空領(lǐng)域的復(fù)雜信息,從而在多步驟邏輯推理任務(wù)中實現(xiàn)更高的準確率。
在NLPCC-MH數(shù)據(jù)集上,HL-GPT在兩個任務(wù)中的準確率分別達到了75.91%和69.56%,如表5所示。
與基線模型DPQA相比,HL-GPT在2-3hop任務(wù)中的表現(xiàn)提升了9.8百分點。具體來看,DPQA模型利用動態(tài)規(guī)劃全局優(yōu)化答案選擇,有效解決了多跳問答問題,但其高度依賴數(shù)據(jù)的組織和質(zhì)量,特別是在復(fù)雜查詢中需精確的實體鏈接和數(shù)據(jù)完整性。相反,HL-GPT能夠在有限樣本中進行泛化,顯著提升模型在開放領(lǐng)域問題推理的靈活性和準確性。
3.5 不同模型回答效果展示
本研究已經(jīng)通過定量方法展示了不同模型在標準數(shù)據(jù)集上的準確率。然而,為了更全面地評估這些模型在實際應(yīng)用場景中的效果,表6通過展示具體的使用實例,將進一步說明模型的實際應(yīng)用效果和答案的可解釋性。
對于問題1,傳統(tǒng)模型僅列出了與Craig Stevens主演的電影相關(guān)的編劇名單。相比之下,HL-GPT不僅提供了編劇的名字,還明確指出了他們各自所撰寫的電影。例如,“Buchanan Rides Alone”由Jonas Ward編寫,而“Martin Berkeley和William Alland”合作撰寫了“The Deadly Mantis”。這種回答方法不僅提供了詳細的上下文信息,而且顯著提高了答案的可解釋性和實用性。對于問題2,傳統(tǒng)模型只給出了藥品的一般分類,如基本藥物、醫(yī)保工傷用藥和處方藥。而HL-GPT則詳細列出了具體藥物——阿奇霉素片和頭孢克洛顆粒,并詳細描述了它們的分類,這是傳統(tǒng)模型所未涉及的。HL-GPT的回答不僅更為詳盡,還通過精確闡述藥物在醫(yī)療保險體系中的分類,幫助用戶更全面地理解藥物的適用范圍和保險覆蓋情況。這對于用戶在考慮藥物成本和可獲得性時作出明智決策極為重要。
3.6 消融實驗
3.6.1 HL-GPT框架對準確率的影響
為評估HL-GPT框架的有效性,在MetaQA數(shù)據(jù)集的不同復(fù)雜程度的任務(wù)上進行了消融實驗,以探討框架對問答準確率的影響,如圖2所示。
與ChatGPT相比,引入HL-GPT框架后,模型在不同任務(wù)(1-hop、2-hop、3-hop)中準確率分別提升了39.94、75.33和59.05百分點。隨著問題的跳數(shù)增加,ChatGPT的準確率明顯降低,而HL-GPT(ChatGPT)則保持了較高的準確率。這些結(jié)果突出了框架在增強模型的問題解析能力和推理準確性中的關(guān)鍵作用。
3.6.2 樣本數(shù)量對準確率的影響
為評估模型大小和學(xué)習(xí)樣本量對HL-GPT準確率的影響,在MetaQA(3_hop)數(shù)據(jù)集上進行了消融實驗,隨機選取了2 000個測試數(shù)據(jù),如圖3所示。
在樣本較少時,大型模型ChatGPT的準確率優(yōu)于小型模型ChatGLM3-6B。隨著樣本數(shù)量的增加,兩者的準確率均得到提升,尤其是在樣本數(shù)量達到12時,性能幾乎達到峰值。這種現(xiàn)象是由于在這一特定樣本量下,模型達到了學(xué)習(xí)效率和泛化能力的最佳平衡。當(dāng)樣本數(shù)量少于這一閾值時,模型沒有足夠的信息來捕獲任務(wù)的全部復(fù)雜性,導(dǎo)致無法形成有效的推廣;而樣本數(shù)量過多時,則可能引入噪聲或?qū)е履P瓦^擬合,影響其在未見數(shù)據(jù)上的表現(xiàn)。為了進一步優(yōu)化模型并減少對樣本數(shù)量的依賴,未來的研究可以探索使用嵌入技術(shù)動態(tài)選擇與新問題最相關(guān)的樣本進行學(xué)習(xí)的策略。
4 結(jié)束語
本文提出了一種分層語義解析的知識圖譜問答框架HL-GPT,解決了多跳問答中深層語義結(jié)構(gòu)和多步推理限制的問題,進一步提升了回答的準確性和可解釋性。HL-GPT框架首先通過大語言模型進行分層語義解析,逐步提取問題中的實體和多層關(guān)系。接著,通過微調(diào)嵌入模型,將問題中的邏輯關(guān)系準確映射到知識圖譜中,建立清晰的邏輯路徑。最后,利用大語言模型結(jié)合背景知識和問題進行推理,生成準確且可解釋的答案。在MetaQA、COKG-DATA、AeroQA和NLPCC-MH四個數(shù)據(jù)集上的實驗結(jié)果證明了本框架的有效性。未來研究可以在此基礎(chǔ)上探索更多細化語義解析的方法,進一步提高模型的準確率和可解釋性。
參考文獻:
[1]王昊奮, 丁軍, 胡芳槐, 等. 大規(guī)模企業(yè)級知識圖譜實踐綜述[J]. 計算機工程, 2020, 46(7): 1-13. (Wang Haofen, Ding Jun, Hu Fanghuai, et al. Survey on large scale enterprise-level knowledge graph practices[J]. Computer Engineering, 2020, 46(7): 1-13.)
[2]薩日娜, 李艷玲, 林民. 知識圖譜推理問答研究綜述[J]. 計算機科學(xué)與探索, 2022, 16(8): 1727-1741. (Sa Rina, Li Yanling, Lin Min. Survey of question answering based on knowledge graph reasoning[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(8): 1727-1741.)
[3]陳成, 陳躍國, 劉宸, 等. 意圖知識圖譜的構(gòu)建與應(yīng)用[J]. 大數(shù)據(jù), 2020, 6(2): 57-68. (Chen Cheng, Chen Yueguo, Liu Chen, et al. Constructing and analyzing intention knowledge graphs[J]. Big Data Research, 2020, 6(2): 57-68.)
[4]晉艷峰, 黃海來, 林沿錚, 等. 基于知識表示學(xué)習(xí)的KBQA答案推理重排序算法[J]. 計算機應(yīng)用研究, 2024, 41(7): 1983-1991. (Jin Yanfeng, Huang Hailai, Lin Yanzheng, et al. KBQA answer inference re-ranking algorithm based on knowledge representation learning[J]. Application Research of Computers, 2024, 41(7): 1983-1991.)
[5]吳天波, 周欣, 程軍軍, 等. 基于位置和注意力聯(lián)合表示的知識圖譜問答[J]. 計算機工程, 2022, 48(8): 98-104,112. (Wu Tianbo, Zhou Xin, Cheng Junjun, et al. Knowledge graph question-answering based on joint location and attention representation[J]. Computer Engineering, 2022, 48(8): 98-104,112.)
[6]Luo Kangqi, Lin Fengli, Luo Xusheng, et al. Knowledge base question answering via encoding of complex query graphs[C]//Proc of the 59th Conference on Empirical Methods in Natural Language Proces-sing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2185-2194.
[7]Lan Yunshi, Jiang Jing. Query graph generation for answering multi-hop complex questions from knowledge bases[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020.
[8]Lan Yunshi, He Gaole, Jiang Jinhao , et al. A survey on complex knowledge base question answering: methods, challenges and solutions[C]//Proc of the 30th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaumann, 2021:4483-4491.
[9]Brown T, Mann B, Ryder N, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.
[10]Ouyan Long , Wu J, Jiang Xu , et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[11]Sahoo P, Singh A K, Saha S, et al. A systematic survey of prompt engineering in large language models: techniques and applications[EB/OL]. (2024-02-05). https://arxiv.org/abs/2402.07927.
[12]Kim J, Kwon Y, Jo Y, et al. KG-GPT: a general framework for reasoning on knowledge graphs using large language models[C]//Findings of the Association for Computational Linguistics: EMNLP 2023. Stroudsburg, PA: Association for Computational Linguistics, 2023: 9410-9421.
[13]Jiang Jinhao, Zhou Kun, Dong Zican, et al. StructGPT: a general framework for large language model to reason over structured data[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2023: 9237-9251.
[14]Liu Pengfei, Yuan Weizhe, Fu Jinlan, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing[J]. ACM Computing Surveys, 2023, 55(9): 195.
[15]Schick T, Schütze H. It’s not just size that matters: small language models are also few-shot learners[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 2339-2352.
[16]Pan Shirui, Luo Linhao, Wang Yufei, et al. Unifying large language models and knowledge graphs: a roadmap[J]. IEEE Trans on Knowledge and Data Engineering, 2024, 36(7): 3580-3599.
[17]Lukovnikov D, Fischer A, Lehmann J. Pretrained Transformers for simple question answering over knowledge graphs[C]//Proc of Semantic Web-ISWC. Cham: Springer, 2019: 470-486.
[18]Yasunaga M, Ren Hongyu, Bosselut A, et al. QA-GNN: reasoning with language models and knowledge graphs for question answering[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 535-546.
[19]Zhang Miao, Dai Rufeng, Dong Ming, et al. DRLK: dynamic hierarchical reasoning with language model and knowledge graph for question answering[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2022: 5123-5133.
[20]Zhang Yuyu, Dai Hanjun, Kozareva Z, et al. Variational reasoning for question answering with knowledge graph[C]//Proc of the AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2018.
[21]Miller A, Fisch A, Dodge J, et al. Key-value memory networks for directly reading documents[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1400-1409.
[22]Du Huifang, Le Zhongwen, Wang Haofen, et al. COKG-QA: multi-hop question answering over COVID-19 KnowledgeGraphs[J]. Data Intelligence, 2022, 4(3): 471-492.
[23]Agarwal A, Gawade S, Azad A P, et al. KITLM: domain-specific knowledge Integration into language models for question answering[EB/OL]. (2023-08-07). https://arxiv.org/abs/2308.03638.
[24]王玥, 張日崇. 基于動態(tài)規(guī)劃的知識庫問答方法[J]. 鄭州大學(xué)學(xué)報:理學(xué)版, 2019, 51(4): 37-42. (Wang Yue, Zhang Richong. Question answering over knowledge base with dynamic programming[J]. Journal of Zhengzhou University:Natural Science Edition, 2019, 51(4): 37-42.)
[25]Zeng Aohan , Liu Xiao , Du Zhengxiao , et al. GLM-130B: an open bilingual pre-trained model[C]//Proc of the 11th International Conference on Learning Representations. Washington DC: ICLR, 2022.
[26]Xu Kun, Lai Yuxuan, Feng Yansong, et al. Enhancing key-value memory neural networks for knowledge based question answering[C]//Proc of Conference of the NAACL-HLT. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2937-2947.
[27]Sun Haitian, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 4231-4242.
[28]Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 4498-4507.
[29]He Gaole, Lan Yunshi, Jiang Jing, et al. Improving multi-hop knowledge base question answering by learning intermediate supervision signals[C]//Proc of the 14th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2021: 553-561.
[30]Jiang Jinhao, Zhou Kun, Zhao W X, et al. UniKGQA: unified retrieval and reasoning for solving multi-hop question answering over knowledge graph[EB/OL]. (2022-12-02). https://arxiv.org/abs/2212.00959.
[31]Jiang Jinhao, Zhou Kun, Zhao W X, et al. KG-Agent: an efficient autonomous agent framework for complex reasoning over knowledge graph[EB/OL]. (2024-02-17). https://arxiv.org/abs/2402.11163.
[32]Shi Jiaxin, Cao Shulin, Hou Lei, et al. TransferNet: an effective and transparent framework for multi-hop question answering over relation graph[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 4149-4158.
[33]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[EB/OL]. (2016-04-07). https://arxiv.org/abs/1603.01360.
[34]Ilya S, Oriol V, Le Q V. Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2014:3104-3112.