中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0146-07
Abstract:China isoneofthecountries withthe mostserious naturaldisasters inthe world.Typhoons,arthquakesfoods and ther disasters ocur frequently,posing a huge threat tothesafetyof people'slives and property.Facing thecomplexityand urgency ofdisasteremergencymanagement,Knowledge Graphtechnology has graduallybecomearesearch hotspot inthis field byvirtueofitsadvantagesiniformationintegration,elationsipingandknowledgereasonig.However,theeterogeity andqualityofisasterdataarenotufor,hichliitstheabilityoftraditioalNaturalLanguageProcessngmethodstotract Knowledge Graph information.Therefore,this paper proposes aLarge Language Model knowledge extraction method based on distributedpromptstrategy.Troughrequirementhints,domainknowledgehintsandfew-shothints,theLargeLanguageModel can automatically extract entitiesand relationships from unstructured data, which improves the automation and accuracy of KnowledgeGraphconstruction.InordertoverifytheefectofKnowledgeGraphbasedonLargeLanguageModelinpractical application,thispapertakes thetyphoondisasteremergencyplanasanexampletocostruct thecoresponding Knowledge Graph and its intelligent question and answer system.
Keywords:Knowledge Graph;Large Language Model; knowledge extraction; inteligent questionandanswer
0 引言
災(zāi)減災(zāi)要求。
隨著氣候變化的影響日益顯著,極端天氣事件如暴雨、洪水、臺(tái)風(fēng)等變得更加頻繁且劇烈。這不僅增加了災(zāi)害發(fā)生的可能性,對(duì)人民生命財(cái)產(chǎn)造成了極大威脅,而且自然災(zāi)害種類多且在中國(guó)不少地區(qū)發(fā)生頻率很高,加大了災(zāi)害管理的復(fù)雜性和挑戰(zhàn)性。因此,迫切需要提升我國(guó)自然災(zāi)害應(yīng)急管理和綜合減災(zāi)的能力,從而最大程度減少自然災(zāi)害給中國(guó)經(jīng)濟(jì)和社會(huì)造成的損失,實(shí)現(xiàn)“兩個(gè)堅(jiān)持、三個(gè)轉(zhuǎn)變”的新時(shí)期防
為了有效應(yīng)對(duì)災(zāi)害管理帶來(lái)的挑戰(zhàn),中國(guó)各地區(qū)都制定了詳盡的自然災(zāi)害應(yīng)急預(yù)案。這些預(yù)案通常包括災(zāi)害預(yù)警系統(tǒng)的建立與完善、應(yīng)急響應(yīng)機(jī)制的構(gòu)建、救援隊(duì)伍的培訓(xùn)與裝備配備、疏散路線的規(guī)劃以及災(zāi)后重建計(jì)劃等多個(gè)方面。此外,隨著科技進(jìn)步和社會(huì)發(fā)展,災(zāi)害應(yīng)急預(yù)案也需要不斷地更新和調(diào)整,以適應(yīng)新的形勢(shì)和技術(shù)要求。然而,隨著互聯(lián)網(wǎng)領(lǐng)域的發(fā)展,各種數(shù)據(jù)來(lái)源不斷涌現(xiàn),數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),自然災(zāi)害相關(guān)數(shù)據(jù)在種類和數(shù)量上也隨之增多,這對(duì)數(shù)據(jù)整合、處理和分析的能力提出了更高要求。因此,從海量數(shù)據(jù)中獲取有效數(shù)據(jù),并利用這些數(shù)據(jù)為人們提供智能化服務(wù),成為當(dāng)今時(shí)代研究的一項(xiàng)重要課題。
知識(shí)圖譜是一種結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),能夠?qū)?fù)雜的知識(shí)以可視化和結(jié)構(gòu)化的方式組織起來(lái),建立起實(shí)體、關(guān)系和屬性之間的關(guān)聯(lián)網(wǎng)絡(luò),更加直觀、方便地存儲(chǔ)和檢索信息。依托知識(shí)圖譜在領(lǐng)域知識(shí)學(xué)習(xí)、組織和推理追溯方面的優(yōu)勢(shì),通過(guò)知識(shí)圖譜技術(shù)從文本數(shù)據(jù)中獲取自然災(zāi)害應(yīng)急領(lǐng)域關(guān)鍵知識(shí),完成“數(shù)據(jù)一信息一知識(shí)”的轉(zhuǎn)變,從而提高自然災(zāi)害應(yīng)對(duì)效率,促進(jìn)應(yīng)急預(yù)案電子化、結(jié)構(gòu)化、數(shù)字化、智能化發(fā)展,提升整體災(zāi)害應(yīng)對(duì)能力。在自然災(zāi)害應(yīng)急領(lǐng)域,知識(shí)圖譜的構(gòu)建需要提取實(shí)體、屬性、實(shí)體信息等關(guān)鍵信息,通過(guò)相互關(guān)聯(lián)的信息形成網(wǎng)狀結(jié)構(gòu)。然而,在實(shí)際的災(zāi)害應(yīng)急應(yīng)用中,數(shù)據(jù)來(lái)源多、數(shù)據(jù)領(lǐng)域受限、數(shù)據(jù)質(zhì)量不統(tǒng)一,限制了傳統(tǒng)自然語(yǔ)言處理方法對(duì)實(shí)體、屬性及關(guān)系的提取,從而制約了知識(shí)圖譜的應(yīng)用。
大語(yǔ)言模型是一種基于深度學(xué)習(xí)的人工智能模型,專門(mén)設(shè)計(jì)用于處理和生成自然語(yǔ)言。這類模型通常是基于Transformer架構(gòu),經(jīng)過(guò)在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,能夠理解、生成、翻譯和總結(jié)文本,還可以進(jìn)行對(duì)話、回答問(wèn)題以及執(zhí)行各種自然語(yǔ)言處理任務(wù)。因此,大語(yǔ)言模型在信息抽取方面展現(xiàn)出強(qiáng)大的理解、學(xué)習(xí)和表達(dá)能力,優(yōu)秀的學(xué)習(xí)能力使得大語(yǔ)言模型可以通過(guò)少量的示例學(xué)習(xí)新任務(wù),快速適應(yīng)不同的信息抽取任務(wù),而不需要大量的特定任務(wù)的數(shù)據(jù)集。
本文提出基于大語(yǔ)言模型的自然災(zāi)害應(yīng)急知識(shí)圖譜的構(gòu)建方法和應(yīng)用研究。利用大語(yǔ)言模型等技術(shù)可提取海量數(shù)據(jù)中的關(guān)鍵信息,為知識(shí)抽取階段提供了極大的便利,從而能更好更快地構(gòu)建自然災(zāi)害應(yīng)急知識(shí)圖譜。
1研究背景
知識(shí)圖譜的構(gòu)建通常包括知識(shí)獲取、知識(shí)表示、知識(shí)融合和知識(shí)推理等過(guò)程。在知識(shí)獲取方面,研究者們采用自然語(yǔ)言處理、信息抽取等技術(shù),從文本、數(shù)據(jù)庫(kù)、傳感器數(shù)據(jù)等多種數(shù)據(jù)源中獲取災(zāi)害相關(guān)信息,并將其轉(zhuǎn)化為結(jié)構(gòu)化的知識(shí)表示。賀海霞等人通過(guò)提取關(guān)鍵詞,分析建立關(guān)鍵詞之間的聯(lián)系以發(fā)現(xiàn)災(zāi)害應(yīng)急相關(guān)知識(shí)[。在知識(shí)表示方面,圖譜中的知識(shí)通常以節(jié)點(diǎn)(實(shí)體)和邊(關(guān)系)的形式表示。為了提升災(zāi)害領(lǐng)域知識(shí)圖譜的表示能力,研究者李澤荃等人從致災(zāi)因子、承災(zāi)體、孕災(zāi)環(huán)境等角度分解識(shí)別復(fù)雜的災(zāi)害場(chǎng)景,從而提升對(duì)災(zāi)害事件的場(chǎng)景感知能力[2];Yan等人提出了動(dòng)態(tài)知識(shí)圖譜的概念,即能夠隨著時(shí)間和事件的發(fā)展動(dòng)態(tài)更新圖譜中的知識(shí)[3]。
隨著自然語(yǔ)言處理技術(shù)的迅猛發(fā)展,大語(yǔ)言模型在知識(shí)圖譜構(gòu)建中的應(yīng)用逐漸成為研究熱點(diǎn)。大語(yǔ)言模型通過(guò)海量文本數(shù)據(jù)的預(yù)訓(xùn)練,具備了強(qiáng)大的語(yǔ)義理解和生成能力,能夠有效地從非結(jié)構(gòu)化數(shù)據(jù)中提取實(shí)體和關(guān)系[4。與傳統(tǒng)的信息抽取方法相比,大語(yǔ)言模型可以更準(zhǔn)確地處理復(fù)雜語(yǔ)境下的語(yǔ)言表達(dá),減少了人工標(biāo)注的需求,提升了知識(shí)圖譜構(gòu)建的自動(dòng)化程度[5]。近年來(lái),研究者們開(kāi)始探索利用大語(yǔ)言模型進(jìn)行知識(shí)圖譜的自動(dòng)構(gòu)建。Brown等人提出了利用GPT-3模型生成領(lǐng)域特定知識(shí)圖譜的框架,能夠從文本中自動(dòng)提取和鏈接實(shí)體,顯著提升了知識(shí)圖譜構(gòu)建的效率[。此外,Zhang 等人也對(duì)基于BERT模型的實(shí)體對(duì)齊方法展開(kāi)了研究,通過(guò)上下文理解,解決了異構(gòu)數(shù)據(jù)源之間的實(shí)體識(shí)別和對(duì)齊問(wèn)題,為知識(shí)圖譜的跨領(lǐng)域融合提供了新的思路[]。
在災(zāi)害應(yīng)急領(lǐng)域,大語(yǔ)言模型通過(guò)分析多源文本數(shù)據(jù),快速提取實(shí)體和關(guān)系,生成包含災(zāi)害信息的知識(shí)圖譜,實(shí)現(xiàn)對(duì)災(zāi)害的實(shí)時(shí)監(jiān)測(cè)和預(yù)警[8。Liu等人利用BERT模型自動(dòng)提取地震相關(guān)事件,并構(gòu)建了動(dòng)態(tài)更新的地震知識(shí)圖譜,用于實(shí)時(shí)監(jiān)測(cè)和分析[。在應(yīng)急響應(yīng)和決策支持方面,知識(shí)圖譜結(jié)合大語(yǔ)言模型的推理能力,能夠提供更加智能化的決策支持。通過(guò)對(duì)歷史災(zāi)害數(shù)據(jù)和當(dāng)前態(tài)勢(shì)的綜合分析,系統(tǒng)能夠預(yù)測(cè)災(zāi)害的發(fā)展趨勢(shì),并生成相應(yīng)的應(yīng)急措施。例如,王喆等人開(kāi)發(fā)了一套基于GPT-3的應(yīng)急響應(yīng)系統(tǒng),該系統(tǒng)能夠通過(guò)自然語(yǔ)言與決策者進(jìn)行交互,自動(dòng)生成針對(duì)不同災(zāi)害場(chǎng)景的應(yīng)急預(yù)案[0]。
2自然災(zāi)害應(yīng)急知識(shí)圖譜構(gòu)建
2.1知識(shí)圖譜構(gòu)建流程
知識(shí)圖譜構(gòu)建采用自頂向下與自底向上相結(jié)合的構(gòu)建方法。從本體構(gòu)建出發(fā),進(jìn)而確定各本體之間的關(guān)系,最后確定各本體與屬性的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)自頂向下構(gòu)建知識(shí)圖譜模式層。由于自然災(zāi)害應(yīng)急領(lǐng)域文本數(shù)據(jù)源多為非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)自然語(yǔ)言處理方法進(jìn)行知識(shí)抽取處理難度較大,本文采用基于GPT-4的方法對(duì)關(guān)鍵實(shí)體屬性信息進(jìn)行知識(shí)抽取,隨后進(jìn)行知識(shí)融合,將相似度較高的實(shí)體屬性信息歸一化處理,并設(shè)計(jì)知識(shí)圖譜底層存儲(chǔ)方式,實(shí)現(xiàn)自底向上構(gòu)建知識(shí)圖譜數(shù)據(jù)層。最后進(jìn)行模式層到數(shù)據(jù)層的映射,完成知識(shí)圖譜的構(gòu)建。
2.2 模式層構(gòu)建
知識(shí)圖譜本體是對(duì)領(lǐng)域內(nèi)概念及其關(guān)系的一種形式化、規(guī)范化的描述,可以為數(shù)據(jù)層中的要素、屬性分解提供理論框架基礎(chǔ)。知識(shí)圖譜模式層主要由實(shí)體、關(guān)系、屬性等知識(shí)類的層次結(jié)構(gòu)和層級(jí)關(guān)系組成,用來(lái)對(duì)數(shù)據(jù)層的具體知識(shí)形式進(jìn)行約束。本文從自然災(zāi)害應(yīng)急領(lǐng)域出發(fā),構(gòu)建自然災(zāi)害事件、災(zāi)害應(yīng)急任務(wù)、災(zāi)害數(shù)據(jù)、模型方法4類核心要素的自然災(zāi)害應(yīng)急領(lǐng)域本體,并確立各實(shí)體間、實(shí)體與屬性間的關(guān)系,表1為本體及本體屬性,圖1為自然災(zāi)害應(yīng)急領(lǐng)域本體間關(guān)聯(lián)關(guān)系。
2.3基于大語(yǔ)言模型的數(shù)據(jù)層構(gòu)建
知識(shí)圖譜的數(shù)據(jù)層以事實(shí)三元組為基本單位,是知識(shí)圖譜體系結(jié)構(gòu)中的核心部分,負(fù)責(zé)存儲(chǔ)和管理實(shí)際數(shù)據(jù)實(shí)體及其關(guān)系,構(gòu)成了知識(shí)圖譜的基礎(chǔ),支撐著整個(gè)知識(shí)圖譜的構(gòu)建與應(yīng)用。
自然災(zāi)害領(lǐng)域文本數(shù)據(jù)源多為非結(jié)構(gòu)化數(shù)據(jù),這限制了傳統(tǒng)自然語(yǔ)言處理方法對(duì)知識(shí)的有效抽取?;诖?,本文提出了基于大語(yǔ)言模型的知識(shí)抽取模型,該模型通過(guò)大語(yǔ)言模型的提示工程和少樣本學(xué)習(xí)能力,將知識(shí)抽取的序列標(biāo)記任務(wù)轉(zhuǎn)化為大語(yǔ)言模型的文本生成任務(wù)。與傳統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)知識(shí)抽取方法相比,此方案無(wú)須大量數(shù)據(jù)標(biāo)注和模型訓(xùn)練。利用大語(yǔ)言模型自身的語(yǔ)義理解能力,結(jié)合少量的數(shù)據(jù)樣例和提示工程,模型可學(xué)習(xí)到文本的語(yǔ)義表示,并可以通過(guò)不斷微調(diào)來(lái)提高在特定任務(wù)上的表現(xiàn)。
本文以GPT-4作為基礎(chǔ)模型[],進(jìn)行關(guān)鍵實(shí)體屬性信息的知識(shí)抽取。首先,將源文本按照段落進(jìn)行截?cái)?,并設(shè)計(jì)了多種提示(prompt)以提高信息提取的準(zhǔn)確性。在提示設(shè)計(jì)中,采用了分布提示的策略,包括需求提示、領(lǐng)域知識(shí)提示和少樣本提示。
需求提示:明確模型的任務(wù)角色,清晰傳達(dá)用戶的目標(biāo)和期望。通過(guò)羅列具體細(xì)節(jié),使模型理解并聚焦于用戶所需的信息,從而確保信息抽取的精確度。
領(lǐng)域知識(shí)提示:通過(guò)提供與任務(wù)相關(guān)的背景信息和標(biāo)注語(yǔ)料,幫助模型理解領(lǐng)域特征和數(shù)據(jù)特點(diǎn)。此提示增強(qiáng)了模型對(duì)特定領(lǐng)域的感知能力,提高了抽取結(jié)果的專業(yè)性和可靠性。
少樣本提示:通過(guò)提供具體示例,指導(dǎo)模型逐步掌握每個(gè)操作步驟。這不僅有助于模型更好地理解任務(wù),還顯著提升了模型在分析與執(zhí)行中的表現(xiàn),降低了生成錯(cuò)誤的發(fā)生率。
這些提示的綜合應(yīng)用,顯著提升了模型在知識(shí)抽取任務(wù)中的表現(xiàn),并提高了任務(wù)完成的質(zhì)量和效率。以下是基于GPT-4進(jìn)行自然災(zāi)害信息抽取的部分示例。
2.3.1實(shí)體信息抽取提示示例
{需求提示}你是一名自然災(zāi)害領(lǐng)域的信息抽取專家,任務(wù)是從以下文本中提取關(guān)鍵實(shí)體及其相關(guān)屬性。具體需要提取的實(shí)體包括:災(zāi)害類型、發(fā)生時(shí)間、發(fā)生地點(diǎn)、災(zāi)害影響、救援措施、負(fù)責(zé)機(jī)構(gòu)等。請(qǐng)為每個(gè)實(shí)體提取其相關(guān)的屬性信息,并輸出格式為:“實(shí)體:屬性”。
{領(lǐng)域知識(shí)提示}以下文本涉及自然災(zāi)害事件的報(bào)道或研究,重點(diǎn)在于描述災(zāi)害的基本信息及其影響。需要提取的實(shí)體和屬性包括但不限于:災(zāi)害類型(如地震、颶風(fēng))、災(zāi)害名稱、發(fā)生時(shí)間(具體日期或時(shí)間段)、發(fā)生地點(diǎn)(城市、國(guó)家或區(qū)域)、災(zāi)害影響(引發(fā)次生災(zāi)害、直接受影響或被疏散的人數(shù)、死亡人數(shù)、經(jīng)濟(jì)損失等),以及救援措施(如政府或組織采取的行動(dòng))和負(fù)責(zé)機(jī)構(gòu)。請(qǐng)注意,某些術(shù)語(yǔ)在災(zāi)害領(lǐng)域有特定含義,如“風(fēng)速”常與臺(tái)風(fēng)、颶風(fēng)相關(guān)聯(lián),“風(fēng)眼”指臺(tái)風(fēng)的中心區(qū)域等。
{少樣本提示}文本:“2023年7月,京津冀首都圈海河流域發(fā)生特大暴雨,引發(fā)嚴(yán)重的洪澇和地質(zhì)災(zāi)害,造成550萬(wàn)余人受災(zāi),上百人遇難失蹤,直接經(jīng)濟(jì)損失超過(guò)1600億元?!?/p>
輸出示例:
-災(zāi)害類型:暴雨-發(fā)生時(shí)間:2023年7月-發(fā)生地點(diǎn):京津冀首都圈海河流域
-災(zāi)害影響:洪澇、地質(zhì)災(zāi)害,550萬(wàn)余人受災(zāi),上百人遇難或失蹤,經(jīng)濟(jì)損失超過(guò)1600億元
{輸入文本}請(qǐng)按照上述示例,從以下文本中提取關(guān)鍵實(shí)體及其屬性信息,并按示例格式輸出。{INPUT_TEXT}
2.3.2 關(guān)系信息抽取的提示示例
{需求提示}你是一名自然災(zāi)害信息抽取專家,現(xiàn)提供文本及其對(duì)應(yīng)實(shí)體,你的任務(wù)是依據(jù)文本提取出實(shí)體關(guān)系。給定的實(shí)體包括:災(zāi)害類型、發(fā)生時(shí)間、發(fā)生地點(diǎn)、災(zāi)害影響、救援措施、負(fù)責(zé)機(jī)構(gòu)等。請(qǐng)輸出實(shí)體之間的關(guān)系,如“災(zāi)害類型-發(fā)生時(shí)間”“災(zāi)害類型-發(fā)生地點(diǎn)”“災(zāi)害類型-災(zāi)害影響”“災(zāi)害類型-救援措施”“負(fù)責(zé)機(jī)構(gòu)-救援措施”等。輸出格式為:“關(guān)系類型:實(shí)體1-實(shí)體2”。
{領(lǐng)域知識(shí)提示}以下文本涉及自然災(zāi)害事件的報(bào)道或研究,重點(diǎn)在于描述災(zāi)害的基本信息及其影響。需要提取的實(shí)體和屬性包括但不限于:災(zāi)害類型(如地震、颶風(fēng))、災(zāi)害名稱、發(fā)生時(shí)間(具體日期或時(shí)間段)、發(fā)生地點(diǎn)(城市、國(guó)家或區(qū)域)、災(zāi)害影響(引發(fā)次生災(zāi)害、直接受影響或被疏散的人數(shù)、死亡人數(shù)、經(jīng)濟(jì)損失等),以及救援措施(如政府或組織采取的行動(dòng))和負(fù)責(zé)機(jī)構(gòu)。請(qǐng)注意,某些術(shù)語(yǔ)在災(zāi)害領(lǐng)域有特定含義,如“風(fēng)速”常與臺(tái)風(fēng)、颶風(fēng)相關(guān)聯(lián),“風(fēng)眼”指臺(tái)風(fēng)的中心區(qū)域等。
{少樣本提示}文本:“2023年7月,京津冀首都圈海河流域發(fā)生特大暴雨,引發(fā)嚴(yán)重的洪澇和地質(zhì)災(zāi)害,造成550萬(wàn)余人受災(zāi),上百人遇難失蹤,直接經(jīng)濟(jì)損失超過(guò)1600億元。\"
輸出示例:
-災(zāi)害類型:暴雨-發(fā)生時(shí)間:2023年7月-發(fā)生地點(diǎn):京津冀首都圈海河流域-災(zāi)害影響:洪澇、地質(zhì)災(zāi)害,550萬(wàn)余人受災(zāi),上百人遇難失蹤,經(jīng)濟(jì)損失超過(guò)1600億元{輸入文本}請(qǐng)按照上述示例,從以下文本中提取關(guān)鍵實(shí)體及其屬性信息,并按示例格式輸出。{INPUT_TEXT}
2.4知識(shí)融合與知識(shí)加工
知識(shí)融合與知識(shí)加工是指在知識(shí)圖譜構(gòu)建過(guò)程中,對(duì)新獲取的知識(shí)進(jìn)行整合,以消除矛盾和歧義的過(guò)程。本文通過(guò)對(duì)所提取的相同類別實(shí)體和對(duì)應(yīng)的實(shí)體屬性數(shù)據(jù)進(jìn)行相似度計(jì)算,再通過(guò)調(diào)整語(yǔ)義相似度閾值,實(shí)現(xiàn)對(duì)實(shí)體間語(yǔ)義相似度低于閾值的實(shí)體,及其屬性數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)語(yǔ)義替換,完成知識(shí)融合。最后,利用文本匹配進(jìn)行知識(shí)加工,從而形成大規(guī)模的知識(shí)體系。
依靠模式層框架,經(jīng)過(guò)知識(shí)融合和加工后的實(shí)體及其實(shí)體屬性數(shù)據(jù)與概念層中的實(shí)體和實(shí)體屬性一一對(duì)應(yīng),完成實(shí)體與屬性的匹配,最終形成完整的知識(shí)圖譜。
3 臺(tái)風(fēng)災(zāi)害應(yīng)急預(yù)警實(shí)例分析
3.1 臺(tái)風(fēng)災(zāi)害應(yīng)急圖譜構(gòu)建
在臺(tái)風(fēng)災(zāi)害管理過(guò)程中,知識(shí)圖譜的典型應(yīng)用包括面向臺(tái)風(fēng)路徑預(yù)測(cè)、災(zāi)害影響范圍與強(qiáng)度分析、應(yīng)急資源調(diào)配等應(yīng)急任務(wù)。通過(guò)整合歷史臺(tái)風(fēng)數(shù)據(jù)、氣象觀測(cè)數(shù)據(jù)和地理信息,臺(tái)風(fēng)災(zāi)害應(yīng)急知識(shí)圖譜能夠有效支持臺(tái)風(fēng)路徑的預(yù)測(cè)和模擬,幫助識(shí)別可能受災(zāi)的地區(qū),并評(píng)估臺(tái)風(fēng)可能造成的破壞程度。此外,臺(tái)風(fēng)災(zāi)害應(yīng)急知識(shí)圖譜還能夠輔助應(yīng)急管理部門(mén)快速調(diào)配救援物資和人員,優(yōu)化應(yīng)急響應(yīng)決策,提高應(yīng)對(duì)臺(tái)風(fēng)災(zāi)害的效率和準(zhǔn)確性。
按本文所述的知識(shí)圖譜構(gòu)建方法,首先需構(gòu)建臺(tái)風(fēng)災(zāi)害應(yīng)急知識(shí)圖譜的模式層,確立臺(tái)風(fēng)災(zāi)害事件、災(zāi)害應(yīng)急任務(wù)、災(zāi)害數(shù)據(jù)、模型方法這四類本體,并對(duì)本體概念層次關(guān)系、本體屬性關(guān)系以及概念間的語(yǔ)義關(guān)系進(jìn)行定義。模式層的構(gòu)建情況如圖2所示。
隨后進(jìn)行臺(tái)風(fēng)災(zāi)害知識(shí)圖譜數(shù)據(jù)層構(gòu)建,在模式層的指導(dǎo)下,從臺(tái)風(fēng)災(zāi)害相關(guān)文本數(shù)據(jù)中,利用經(jīng)過(guò)臺(tái)風(fēng)災(zāi)害知識(shí)樣本學(xué)習(xí)后的大語(yǔ)言模型GPT-4,以輸入提示句的方式將臺(tái)風(fēng)災(zāi)害相關(guān)實(shí)體及關(guān)系進(jìn)行抽取。知識(shí)抽取完成后,從這些臺(tái)風(fēng)災(zāi)害文本數(shù)據(jù)中獲取到6個(gè)臺(tái)風(fēng)災(zāi)害評(píng)估模型、災(zāi)害數(shù)據(jù)實(shí)體50個(gè)、模型方法實(shí)體共3568個(gè),經(jīng)知識(shí)融合后所得實(shí)體共2520個(gè),臺(tái)風(fēng)災(zāi)害知識(shí)圖譜節(jié)點(diǎn)及關(guān)系的數(shù)量統(tǒng)計(jì)如表2所示,構(gòu)建好的部分臺(tái)風(fēng)災(zāi)害應(yīng)急知識(shí)圖譜數(shù)據(jù)層如圖3所示。
3.2 知識(shí)圖譜可視化應(yīng)用
3.2.1 可視化分析
本文結(jié)合相關(guān)應(yīng)急預(yù)案及各種數(shù)據(jù),采用基于正則匹配、基于分布提示的大語(yǔ)言模型等多種方式進(jìn)行知識(shí)抽取,再通過(guò)知識(shí)融合與加工構(gòu)建出關(guān)于自然災(zāi)害應(yīng)急的知識(shí)圖譜。并將此知識(shí)圖譜存入Neo4j圖數(shù)據(jù)庫(kù)中,從而能夠更加直觀地看到各種數(shù)據(jù)之間的關(guān)系。
3.2.2 數(shù)據(jù)查詢
Python中存在Py2neo庫(kù),可實(shí)現(xiàn)利用Python對(duì)Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行操控。由于Python語(yǔ)言簡(jiǎn)單易學(xué),使得不熟悉Cypher查詢語(yǔ)言的人也能熟練操縱圖數(shù)據(jù)庫(kù)。因此,本文在圖數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)查詢時(shí),利用Py2neo庫(kù)事先將數(shù)據(jù)查詢通用模板語(yǔ)句寫(xiě)好,隨后通過(guò)輸入所需關(guān)鍵字,實(shí)現(xiàn)在Neo4j中進(jìn)行數(shù)據(jù)查詢。
3.2.3 應(yīng)急預(yù)案智能問(wèn)答
在自然災(zāi)害應(yīng)急預(yù)案問(wèn)答系統(tǒng)中,基于構(gòu)建好的知識(shí)圖譜模型,設(shè)計(jì)問(wèn)答系統(tǒng)的模型,包括自然語(yǔ)言理解模塊、問(wèn)題匹配模塊、知識(shí)檢索模塊、答案生成模塊以及問(wèn)答歷史查詢模塊等。其中,自然語(yǔ)言理解模塊用于將用戶提出的自然語(yǔ)言問(wèn)題轉(zhuǎn)換成可理解的結(jié)構(gòu)化查詢語(yǔ)言;問(wèn)題匹配模塊用于將用戶問(wèn)題與知識(shí)圖譜中的問(wèn)題進(jìn)行匹配,找到相關(guān)知識(shí);知識(shí)檢索模塊用于從知識(shí)圖譜中檢索出與問(wèn)題相關(guān)的知識(shí);答案生成模塊用于根據(jù)檢索到的知識(shí)生成回答;問(wèn)答歷史查詢模塊方便用戶翻看歷史查詢記錄,并根據(jù)用戶查詢關(guān)鍵字生成問(wèn)答標(biāo)簽庫(kù)。
本文采用自然語(yǔ)義處理包(NLTK)、深度學(xué)習(xí)框架(PyTorch)實(shí)現(xiàn)智能問(wèn)答模塊設(shè)計(jì)??紤]到Python具有豐富的第三方庫(kù),能更容易實(shí)現(xiàn)智能問(wèn)答,并且Python的Web框架Django提供了豐富的內(nèi)置功能,能高效實(shí)現(xiàn)數(shù)據(jù)管理、用戶請(qǐng)求處理等功能,故采用Python的Web框架Django作為后端服務(wù),處理業(yè)務(wù)邏輯,負(fù)責(zé)自然語(yǔ)言理解、知識(shí)檢索、答案生成等功能。其中,自然語(yǔ)言理解是基于語(yǔ)言模型處理用戶的自然語(yǔ)言輸入,將用戶的問(wèn)題解析為知識(shí)圖譜中的實(shí)體和關(guān)系,系統(tǒng)在知識(shí)圖譜中找到與用戶問(wèn)題相關(guān)的節(jié)點(diǎn)和關(guān)系,使用相似度計(jì)算等技術(shù)匹配用戶問(wèn)題與知識(shí)圖譜中的預(yù)案信息,使系統(tǒng)能夠自動(dòng)識(shí)別用戶的問(wèn)答意圖;知識(shí)檢索是Django后端調(diào)用圖數(shù)據(jù)庫(kù)獲取與用戶問(wèn)題相關(guān)的知識(shí)節(jié)點(diǎn)實(shí)現(xiàn)的;答案生成是在檢索到相關(guān)知識(shí)后,系統(tǒng)將數(shù)據(jù)轉(zhuǎn)化為自然語(yǔ)言回答。對(duì)于簡(jiǎn)單的問(wèn)答,系統(tǒng)直接從知識(shí)圖譜提取相關(guān)信息;對(duì)于復(fù)雜的問(wèn)答需求,可以使用語(yǔ)言模型進(jìn)一步優(yōu)化答案生成,使回答更加連貫自然。
在問(wèn)答頁(yè)面設(shè)計(jì)方面,為滿足一次開(kāi)發(fā)、多端部署,支持微信小程序、H5、安卓和iOS等多平臺(tái),并能與后端的API無(wú)縫對(duì)接,快速獲取和展示Django后端的數(shù)據(jù)的需求,采用uni-APP框架實(shí)現(xiàn)問(wèn)答界面設(shè)計(jì),負(fù)責(zé)與用戶交互,實(shí)現(xiàn)問(wèn)題輸入、答案展示和問(wèn)答歷史管理。其中,在問(wèn)題輸入與答案展示方面,uni-APP提供的用戶輸入界面支持多種輸入方式,如語(yǔ)音、文字等,讓用戶能夠方便地提出問(wèn)題;回答展示界面則根據(jù)問(wèn)題類別動(dòng)態(tài)調(diào)整展示形式,如文字展示、圖片展示等。問(wèn)答歷史查詢與管理通過(guò)每次用戶的問(wèn)答請(qǐng)求與響應(yīng)結(jié)果都存儲(chǔ)在后端數(shù)據(jù)庫(kù)中,用戶可通過(guò)前端查著并檢索歷史記錄來(lái)實(shí)現(xiàn)。智能問(wèn)答系統(tǒng)流程圖如圖4所示。
4結(jié)論
為解決自然災(zāi)害應(yīng)急領(lǐng)域中數(shù)據(jù)龐雜、關(guān)鍵知識(shí)匱乏的現(xiàn)狀,同時(shí)為解決傳統(tǒng)人工標(biāo)注和深度學(xué)習(xí)方式進(jìn)行知識(shí)抽取需要具備廣泛的領(lǐng)域知識(shí)和信息處理能力,且數(shù)據(jù)標(biāo)注工作煩瑣這一構(gòu)建過(guò)程中的難題,本文構(gòu)建了基于大語(yǔ)言模型的自然災(zāi)害應(yīng)急預(yù)案知識(shí)圖譜,并利用上述知識(shí)圖譜、Django框架和uni-APP框架構(gòu)建出一套基于知識(shí)圖譜的應(yīng)急預(yù)案問(wèn)答系統(tǒng),實(shí)現(xiàn)了自然語(yǔ)言理解、問(wèn)題匹配、知識(shí)檢索、答案生成、問(wèn)答歷史查詢等功能。
本文在知識(shí)圖譜概念層設(shè)計(jì)上較為簡(jiǎn)易,后續(xù)將對(duì)概念層進(jìn)行進(jìn)一步細(xì)分,進(jìn)而使數(shù)據(jù)展示顯得更加直觀。在數(shù)據(jù)方面,由于目前尚處于初步探索階段,所收集的數(shù)據(jù)量終究有限,后續(xù)也將進(jìn)一步尋找更多數(shù)據(jù),對(duì)知識(shí)圖譜做進(jìn)一步完善。隨著大語(yǔ)言模型的興起,將大語(yǔ)言模型與知識(shí)圖譜相結(jié)合也將成為未來(lái)研究的一個(gè)嶄新方向。
參考文獻(xiàn):
[1]賀海霞,劉濤,杜萍.地震災(zāi)害應(yīng)急管理知識(shí)圖譜構(gòu)建研究[J].蘭州交通大學(xué)學(xué)報(bào),2023,42(3):113-123.
[2]李澤荃,徐淑華,李碧霄,等.基于知識(shí)圖譜的災(zāi)害場(chǎng)景信息融合技術(shù)[J].華北科技學(xué)院學(xué)報(bào),2019,16(2):1-5.
[3]YANYC,LIULH,BANYK,etal.DynamicKnowledge Graph Alignment [EB/OL].[2024-09-2].file:///C:/Users/wy/Downloads/16585-Article%20Text-20079-1-2-20210518.pdf.
[4]ZHUYQ,WANGXH,CHENJ,etal.LlmsforKnowledge Graph Constructionand Reasoning:RecentCapabilities and Future Opportunities[J].World Wide Web,2024,27(5):58-58.
[5]ZHANGBW,SOHH.Extract,Define,Canonicalize:AnLLm-Based Framework forKnowledge Graph Construction[JOL].arXiv:2404.03868v1 [cs.CL].[2024-09-28].https://arxiv.org/html/2404.03868v1.
[6]BROWNTB,MANNB,RYDERN,et al.LanguageModelsare Few-ShotLearners[J/OL].arXiv:2005.14165[cs.CL].[2024-09-28].https://arxiv.org/abs/2005.14165?context=cs.
[7]ZHANGJY,ZHANGZX,ZHANGHH,etal.FromElectronic HealthRecordsto TerminologyBase:ANovelKnowledge Base EnrichmentApproach[J].Journal of BiomedicalInformatics,2021,113:103628.
[8] ZIAULLAH AW,OFLIF,IMRAN M.MonitoringCritical Infrastructure Facilities During DisastersUsing Large LanguageModels[J/OL].arXiv:2404.14432[cs.SI].[2024-09-28]. https://arxiv.org/abs/2404.14432?context=cs.CL.
[9]LIUYC,KUO CL.Constructing Spatio-temporal DisasterKnowledge Graph from Social Media[J].AGILE: GIScienceSeries,2024,5:37.
[10]王喆,陸俊燃,楊棟梁,等.融合GPT和知識(shí)圖譜的洪澇應(yīng)急決策智能問(wèn)答系統(tǒng)研究[J].中國(guó)安全生產(chǎn)科學(xué)技術(shù),2024,20(4):5-11.
[11]OPENAI,ACHIAMJ,ADLERS,etal.Gpt-4 TechnicalReport [J/OL].arXiv:2303.08774[cs.CL].[2024-09-28]. https://arxiv.org/abs/2303.08774?utm_source=chatgpt.com.
作者簡(jiǎn)介:徐歡(2004—),男,漢族,浙江杭州人,本科在讀,研究方向:大語(yǔ)言模型的知識(shí)圖譜構(gòu)建與增強(qiáng)技術(shù);吳夢(mèng)飛(1995一),女,漢族,浙江湖州人,講師,工學(xué)碩士,研究方向:自然語(yǔ)言處理;孫文學(xué)(1989一),男,漢族,山東濟(jì)寧人,講師,工學(xué)碩士,研究方向:智能計(jì)算、深度學(xué)習(xí)。