摘 "要:大語(yǔ)言模型在智能問(wèn)答、文本生成、語(yǔ)言翻譯、輔助編程等創(chuàng)造性的場(chǎng)景應(yīng)用十分廣泛,但是在需求精確性的場(chǎng)景下應(yīng)用卻受到諸多限制。該文主要研究采用大語(yǔ)言模型,在知識(shí)圖譜和向量知識(shí)庫(kù)的加持下,結(jié)合Prompt提示工程、微調(diào)、LangChain等技術(shù),融合結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)在限定知識(shí)范圍內(nèi)的精確查詢,探索大語(yǔ)言模型應(yīng)用的新方式。
關(guān)鍵詞:大語(yǔ)言模型;異構(gòu)數(shù)據(jù);知識(shí)圖譜;向量知識(shí)庫(kù);融合查詢
中圖分類(lèi)號(hào):TP312 " " "文獻(xiàn)標(biāo)志碼:A " " " " "文章編號(hào):2095-2945(2025)10-0001-05
Abstract: Large Language Models (LLMs), also known as big models, have extensive applications in creative scenarios such as intelligent question answering, text generation, language translation, and programming assistance. However, their application in precision-demanding contexts is often subject to various limitations. This paper primarily investigates the utilization of large language models, coupled with the support of Knowledge Graphs and Vector Knowledge Bases. By incorporating techniques such as Prompt Engineering, fine-tuning, and LangChain, we aim to fuse structured and unstructured data and achieve precise queries within a defined knowledge scope. This research explores new approaches for the application of large language models.
Keywords: Large Language Model (LLM); heterogeneous data; knowledge graph; vector knowledge base; fusion query
隨著ChatGPT的橫空出世,開(kāi)啟了生成式大語(yǔ)言模型(Large Language Models,簡(jiǎn)稱(chēng)大模型或LLMs)蓬勃發(fā)展的新時(shí)代,依托Transformer[1]等技術(shù)架構(gòu)和海量的訓(xùn)練數(shù)據(jù),大模型在自然領(lǐng)域和多模態(tài)領(lǐng)域的發(fā)展十分迅速,尤其是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理。然而在大模型的實(shí)際應(yīng)用過(guò)程中卻存在大量的限制,例如:①缺乏解釋性,難以解釋其決策的過(guò)程,限制了其在某些領(lǐng)域的可靠性和可信度[2];②大模型雖然具有廣泛的語(yǔ)言能力和知識(shí)體系,但對(duì)特定領(lǐng)域的專(zhuān)業(yè)知識(shí)了解有限,可能無(wú)法提供準(zhǔn)確或深入的理解和分析;③新技術(shù)、新理念和新知識(shí)層出不窮,異構(gòu)數(shù)據(jù)無(wú)處不在,信息時(shí)代每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),其中既包含信息化系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),也包括語(yǔ)音、圖片、視頻和文檔等大量的非結(jié)構(gòu)化數(shù)據(jù),根據(jù)IDC的預(yù)測(cè),全球產(chǎn)生的數(shù)據(jù)在2025年將達(dá)到179.6 ZB,其中絕大部分?jǐn)?shù)據(jù)(約80%~90%)為非結(jié)構(gòu)化的數(shù)據(jù)[3]。
在企業(yè)的核心資產(chǎn)中,數(shù)據(jù)占據(jù)著至關(guān)重要的地位。其中,結(jié)構(gòu)化數(shù)據(jù)雖然僅占20%,但因其可被標(biāo)準(zhǔn)化處理和存儲(chǔ),一直受到企業(yè)的重視。然而,非結(jié)構(gòu)化數(shù)據(jù),如文本、圖像、音頻和視頻等,雖然占據(jù)了數(shù)據(jù)總量的80%,卻因其多樣性和復(fù)雜性而常常被企業(yè)所忽視[4]。
當(dāng)前解決該問(wèn)題的主流方法為NLP技術(shù)和SQL檢索。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的查詢,NLP技術(shù)發(fā)揮了重要作用。NLP通過(guò)詞法分析、句法分析、語(yǔ)義理解等技術(shù)手段,將非結(jié)構(gòu)化文本轉(zhuǎn)化為計(jì)算機(jī)可理解的結(jié)構(gòu)化信息,從而實(shí)現(xiàn)對(duì)這些數(shù)據(jù)的查詢和檢索。然而,NLP技術(shù)在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí)面臨著語(yǔ)義理解的局限性,難以完全準(zhǔn)確地捕捉文本的深層含義。對(duì)于結(jié)構(gòu)化數(shù)據(jù)的查詢,SQL語(yǔ)言是最常用的工具。SQL語(yǔ)言提供了豐富的查詢語(yǔ)句和操作符,可以高效地對(duì)關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行查詢、過(guò)濾、聚合等操作。企業(yè)可以通過(guò)編寫(xiě)SQL查詢語(yǔ)句,實(shí)現(xiàn)對(duì)結(jié)構(gòu)化數(shù)據(jù)的精確查詢和分析。然而,SQL語(yǔ)言對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理能力有限,無(wú)法直接應(yīng)用于非結(jié)構(gòu)化文本的檢索和查詢。
為了綜合處理結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),企業(yè)通常需要結(jié)合使用NLP技術(shù)和SQL語(yǔ)言。這意味著,企業(yè)需要開(kāi)發(fā)復(fù)雜的查詢系統(tǒng)或集成多個(gè)獨(dú)立的工具,以實(shí)現(xiàn)對(duì)異構(gòu)數(shù)據(jù)的統(tǒng)一查詢。然而,這種解決方案往往存在效率不高、維護(hù)困難等問(wèn)題。大模型的出現(xiàn)給這個(gè)場(chǎng)景提供了新的解決思路,與傳統(tǒng)的NLP技術(shù)和SQL查詢相比,大模型具有更高的靈活性和可擴(kuò)展性。它們不需要復(fù)雜的系統(tǒng)集成和維護(hù),只需通過(guò)簡(jiǎn)單的微調(diào)即可適應(yīng)不同的查詢需求。此外,大模型還可以結(jié)合其他先進(jìn)技術(shù)(如知識(shí)圖譜、圖像識(shí)別等),實(shí)現(xiàn)更加全面和多樣的數(shù)據(jù)處理和分析功能。
然而,僅僅依靠增量預(yù)訓(xùn)練和模型微調(diào)均不能從根本上解決大模型在精確場(chǎng)景應(yīng)用中出現(xiàn)的問(wèn)題,即“一本正經(jīng)的胡說(shuō)八道”。筆者嘗試從異構(gòu)數(shù)據(jù)融合查詢的角度出發(fā),從數(shù)據(jù)層面上解決大模型的泛化問(wèn)題,獲取準(zhǔn)確性高和可靠性強(qiáng)的答案。
1 技術(shù)方案研究
為了解決大模型在精確場(chǎng)景不可靠的問(wèn)題,一個(gè)行之有效的方案是,給大模型提供針對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的外掛知識(shí)系統(tǒng),當(dāng)用戶提問(wèn)的內(nèi)容與外掛知識(shí)系統(tǒng)產(chǎn)生交互且具備一定的關(guān)聯(lián)度時(shí),將相關(guān)的知識(shí)作為Prompt提示工程傳遞給大模型,大模型基于匹配到的限定范圍的知識(shí)進(jìn)行理解和重新組合,即可形成具有較高的準(zhǔn)確性和較為穩(wěn)定的知識(shí)問(wèn)答。
1.1 總體架構(gòu)
大模型作為核心能力貫穿了整個(gè)處理環(huán)節(jié),用到了知識(shí)圖譜、向量知識(shí)庫(kù)、Prompt提示工程[5-6]、微調(diào)[7]、LangChain[8-9]等技術(shù),在外掛知識(shí)體系的加持下,通過(guò)對(duì)特定知識(shí)的組合,從而最大限度地提高了大模型在處理相關(guān)問(wèn)題的可靠性。具體架構(gòu)如圖1所示。
1.2 知識(shí)圖譜
通過(guò)構(gòu)建知識(shí)圖譜,能夠給大模型提供結(jié)構(gòu)化的數(shù)據(jù)支持,改善語(yǔ)義理解和推理能力并拓展領(lǐng)域知識(shí)的范圍,從而達(dá)到改善問(wèn)題回答和信息檢索能力的效果。知識(shí)圖譜以圖的形式組織和表示知識(shí),可以將實(shí)體、關(guān)系和屬性以結(jié)構(gòu)化的方式存儲(chǔ)。
在這個(gè)過(guò)程中,知識(shí)圖譜可以起到以下2個(gè)方面的作用。
1)對(duì)于結(jié)構(gòu)化數(shù)據(jù),可以將數(shù)據(jù)(節(jié)點(diǎn)、關(guān)系)的標(biāo)簽、字段等schema用圖譜的形式來(lái)表示,從而幫助大模型能夠理解整個(gè)數(shù)據(jù)架構(gòu)。
2)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),可以將段落、上下文引用、圖表和文檔間調(diào)用等用節(jié)點(diǎn)和關(guān)系連接起來(lái),從而使得大模型能夠整體掌握非結(jié)構(gòu)化文本的大綱、行文結(jié)構(gòu)和多模態(tài)信息。
1.3 "向量知識(shí)庫(kù)
構(gòu)建向量知識(shí)庫(kù),可以將文本數(shù)據(jù),包括互聯(lián)網(wǎng)上的網(wǎng)頁(yè)、書(shū)籍、新聞文章等,按照段落/文字長(zhǎng)度等方式進(jìn)行切片,將文本片段映射到向量空間中的向量,為大模型提供了語(yǔ)義上的表示,這些向量表示捕捉了詞語(yǔ)之間的語(yǔ)義關(guān)系和上下文信息,從而可以進(jìn)行語(yǔ)義匹配、相似性分析等任務(wù)[10-12]。此外,向量知識(shí)庫(kù)可以用于知識(shí)補(bǔ)全和推薦任務(wù),通過(guò)匹配查詢向量與知識(shí)庫(kù)中的向量表示,推薦相關(guān)實(shí)體或相關(guān)知識(shí),大模型可以利用向量知識(shí)庫(kù)中的向量表示,與用戶提問(wèn)的向量化片段進(jìn)行距離計(jì)算,返回與用戶問(wèn)題最接近的N個(gè)知識(shí)文本片段,最終作為提示工程交給大模型組合輸出。
1.4 "提示工程
大模型的Prompt提示工程是指在使用大語(yǔ)言模型時(shí),通過(guò)設(shè)計(jì)和構(gòu)造合適的Prompt(提示語(yǔ))來(lái)引導(dǎo)模型的輸出以實(shí)現(xiàn)特定的功能或獲取特定的知識(shí)。Prompt提示工程的作用包括以下幾點(diǎn)。
1)引導(dǎo)模型生成特定類(lèi)型的輸出。例如假如想要讓大模型具備翻譯的能力,那么會(huì)在提示工程中,引導(dǎo)大模型在輸出答案時(shí)僅僅輸出翻譯后的內(nèi)容,而不要引申或者拓展回答的內(nèi)容,獲得相對(duì)準(zhǔn)確的回答效果。
2)指導(dǎo)模型獲取特定領(lǐng)域的知識(shí)。例如對(duì)于比較專(zhuān)業(yè)的知識(shí)領(lǐng)域,大模型回答時(shí)會(huì)產(chǎn)生認(rèn)知偏差,通過(guò)提示工程,可以補(bǔ)充特定支持,引導(dǎo)大模型得到正確的結(jié)果。
3)解決大模型輸出的穩(wěn)定性問(wèn)題。大模型的輸出存在不確定性和隨機(jī)性,提示工程可以在一定程度上解決該問(wèn)題。
1.5 "微調(diào)
大模型使用微調(diào)技術(shù)的目的是為了進(jìn)一步優(yōu)化和適應(yīng)特定任務(wù)或領(lǐng)域的數(shù)據(jù)。微調(diào)是指在預(yù)訓(xùn)練的大模型基礎(chǔ)上,使用任務(wù)特定的數(shù)據(jù)進(jìn)行有監(jiān)督的訓(xùn)練,以調(diào)整模型的參數(shù)和權(quán)重,使其更好地適應(yīng)具體任務(wù)的要求。微調(diào)可以應(yīng)用在各個(gè)層面,例如:訓(xùn)練大模型在某些知識(shí)領(lǐng)域的能力,理解某些知識(shí)、指令或者定義,對(duì)大模型回答格式進(jìn)行調(diào)整等。
2 "案例分析
基于以上的技術(shù)架構(gòu),本文在人力資源管理領(lǐng)域?qū)Υ竽P团c異構(gòu)數(shù)據(jù)融合查詢流程進(jìn)行了案例實(shí)踐和驗(yàn)證。
2.1 "知識(shí)圖譜和向量知識(shí)庫(kù)的構(gòu)造
對(duì)于人力資源管理系統(tǒng),主要的數(shù)據(jù)分為2類(lèi):①結(jié)構(gòu)化的數(shù)據(jù),主要包含人員、部門(mén)、履歷等信息;②非結(jié)構(gòu)化數(shù)據(jù),主要包括關(guān)于人力資源管理的各項(xiàng)規(guī)章制度,例如考勤管理辦法、考核管理辦法、績(jī)效管理辦法等。
2.1.1 "結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)處理最核心的方法是梳理圖結(jié)構(gòu)(schema),如圖2所示,可以將與人員相關(guān)的節(jié)點(diǎn)和關(guān)系的標(biāo)簽(label)、字段名稱(chēng)、字段屬性等相互關(guān)聯(lián)起來(lái),之后按照這個(gè)架構(gòu)將數(shù)據(jù)寫(xiě)入圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),同時(shí),圖結(jié)構(gòu)(schema)將轉(zhuǎn)換為Prompt提示工程語(yǔ)句,用于大模型對(duì)知識(shí)圖譜進(jìn)行理解。
2.1.2 "非結(jié)構(gòu)化數(shù)據(jù)
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)處理,主要分為以下3步:①處理文本,略去圖片等信息,將表格按行與表頭一起處理成文本等;②文本向量化,結(jié)構(gòu)化的向量與非結(jié)構(gòu)化的文本形成一一對(duì)應(yīng)關(guān)系;③對(duì)于結(jié)構(gòu)較為復(fù)雜的文本,需要構(gòu)建知識(shí)圖譜,用以標(biāo)準(zhǔn)段落之間相互引用,文本之間相互引用等關(guān)系。如圖3所示,可以得到人力資源管理文檔的知識(shí)圖譜和向量知識(shí)庫(kù)。
2.2 "文本轉(zhuǎn)結(jié)構(gòu)化查詢語(yǔ)句
要獲取結(jié)構(gòu)化數(shù)據(jù)的信息,需要借助于數(shù)據(jù)庫(kù)查詢語(yǔ)言來(lái)執(zhí)行,而為了處理現(xiàn)實(shí)條件下用戶的日常提問(wèn),我們需要借助于一個(gè)工具來(lái)進(jìn)行一個(gè)文本轉(zhuǎn)換。實(shí)現(xiàn)這個(gè)功能的工具也有很多,包括但不限于:NLP語(yǔ)義理解(例如BERT模型)、正則化匹配填充、大模型Prompt提示工程和大模型微調(diào)等,各自有不同的試用場(chǎng)景。結(jié)合人力資源管理查詢系統(tǒng)的特點(diǎn),本文采用的是Prompt提示工程的方式,針對(duì)用戶的提問(wèn),分析其所需的數(shù)據(jù)庫(kù)及其schema,之后采用大模型抽取用戶提問(wèn)中的關(guān)鍵信息,配合Prompt提示中的相關(guān)信息(schema),從而生成滿足需求的查詢語(yǔ)句。
2.3 "文本轉(zhuǎn)非結(jié)構(gòu)化文本檢索
將人力資源管理文件全部按照2.1.2的方法進(jìn)行文本處理和文本結(jié)構(gòu)圖譜化處理,從而獲取了經(jīng)過(guò)向量化的知識(shí)庫(kù)和文本結(jié)構(gòu)知識(shí)圖譜。針對(duì)用戶的提問(wèn),將其轉(zhuǎn)換為向量化的文本,通過(guò)向量匹配,從向量庫(kù)中獲取與提問(wèn)最接近的N個(gè)文本段,并在知識(shí)圖譜中將其相關(guān)的文本段落也查詢出來(lái),一起推給大模型進(jìn)行組合輸出,效果如圖4所示。
圖4 人力資源融合查詢系統(tǒng)示意圖
2.4 意圖識(shí)別與融合查詢
由于處理結(jié)構(gòu)化數(shù)據(jù)的檢索方式和處理非結(jié)構(gòu)化數(shù)據(jù)的檢索方式不同,我們需要使用相關(guān)工具對(duì)用戶的提問(wèn)做一個(gè)意圖識(shí)別。意圖識(shí)別可以采用的工具非常多,包括但不限于:NLP語(yǔ)義理解(例如BERT模型[13])、正則化匹配、模糊匹配、大模型Prompt提示工程等。通過(guò)這種方式可以確定數(shù)據(jù)查詢的邏輯和方式,本文人力資源查詢系統(tǒng)采用的是提示工程的方法,具體架構(gòu)如圖1所示。
2.5 查詢系統(tǒng)效果
基于以上的技術(shù)方案,配合前后端功能,最終實(shí)現(xiàn)了一個(gè)基于大模型的異構(gòu)數(shù)據(jù)融合查詢系統(tǒng),針對(duì)經(jīng)過(guò)知識(shí)掛載的數(shù)據(jù)庫(kù)和人力資源管理文本等相關(guān)內(nèi)容進(jìn)行提問(wèn),大模型都能夠較為準(zhǔn)確地進(jìn)行回答。
2.5.1 "結(jié)構(gòu)化數(shù)據(jù)查詢的效果
為了驗(yàn)證查詢效果,準(zhǔn)備了一個(gè)由103項(xiàng)問(wèn)答對(duì)組成的驗(yàn)證集,在沒(méi)有采用本文的技術(shù)方案,僅用大模型的查詢準(zhǔn)確項(xiàng)僅有53項(xiàng),準(zhǔn)確率為51.5%,具體錯(cuò)誤原因見(jiàn)表1。
表1 "人力資源結(jié)構(gòu)化數(shù)據(jù)查詢效果
采用本文的融合查詢技術(shù)之后,在驗(yàn)證集中結(jié)構(gòu)化數(shù)據(jù)查詢的錯(cuò)誤數(shù)量從50項(xiàng)降低為19項(xiàng),準(zhǔn)確率提升到81.6%,較之前準(zhǔn)確率大幅提升。
2.5.2 "非結(jié)構(gòu)化數(shù)據(jù)查詢的效果
為了驗(yàn)證查詢效果,準(zhǔn)備了一個(gè)由35項(xiàng)問(wèn)答對(duì)組成的驗(yàn)證集,在沒(méi)有采用本文的融合查詢技術(shù)方案,僅用大模型的查詢回答準(zhǔn)確的僅有20項(xiàng),準(zhǔn)確率為57.1%,具體錯(cuò)誤原因見(jiàn)表2。
表2 "人力資源非結(jié)構(gòu)化數(shù)據(jù)查詢效果
采用本文的融合查詢技術(shù)之后,在驗(yàn)證集中非結(jié)構(gòu)化數(shù)據(jù)查詢的錯(cuò)誤數(shù)量從15項(xiàng)降低為6項(xiàng),準(zhǔn)確率提升到82.9%,較之前準(zhǔn)確率也有較大提升。
3 "結(jié)束語(yǔ)
本文針對(duì)大模型在精確場(chǎng)景難以滿足需求的問(wèn)題,結(jié)合Prompt提示工程、知識(shí)圖譜和向量知識(shí)庫(kù)等相關(guān)技術(shù),以統(tǒng)一的技術(shù)架構(gòu)實(shí)現(xiàn)了針對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)的統(tǒng)一查詢的系統(tǒng),并且在人力資源管理項(xiàng)目上進(jìn)行了驗(yàn)證。從結(jié)果上來(lái)看,該技術(shù)架構(gòu)能夠滿足相關(guān)的需求,并且由于涉及的知識(shí)類(lèi)型較為廣泛,該系統(tǒng)具備了較強(qiáng)的遷移能力,在限定知識(shí)范圍的精確查詢場(chǎng)景,均能取得較好的查詢和問(wèn)答效果。
大模型技術(shù)的應(yīng)用仍處于一個(gè)高速發(fā)展和日趨成熟的階段,盡管大模型在結(jié)構(gòu)化和非結(jié)構(gòu)化異構(gòu)數(shù)據(jù)查詢方面已經(jīng)展現(xiàn)出了強(qiáng)大的潛力,并在某些場(chǎng)景下取得了顯著的成果,但仍存在一些待解決的問(wèn)題和挑戰(zhàn),主要包括以下3個(gè)方面:模型的魯棒性和泛化性;知識(shí)的更新與維護(hù);隱私保護(hù)與數(shù)據(jù)安全等,在這些方面還需要不斷地進(jìn)行技術(shù)發(fā)展和理論創(chuàng)新。
參考文獻(xiàn):
[1] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[2] 張乾君.AI大模型發(fā)展綜述[J].通信技術(shù),2023,56(3):255-262.
[3] RYDNING J. Worldwide global datasphere and global storagesphere structured and unstructured data forecast, 2021-2025[J]. 2021.
[4] TIMOTHY K. 80 Percent of Your Data Will Be Unstructured in Five Years[EB/OL].[2024-02-06]. https://solutionsreview.com/data-management/80-percent-of-your-data-will-be-unstructured-in-five-years/ChatGPT.
[5] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners[J]. Advances in neural information processing systems, 2020,33:1877-1901.
[6] LESTER B, AL-RFOU R, Constant N. The power of scale for parameter-efficient prompt tuning[J].2021.
[7] SCHICK T, SCH?譈TZE H. Exploiting cloze questions for few shot text classification and natural language inference[J].2020.
[8] ZHANG Z, ZHANG A, LI M, et al. Automatic chain of thought prompting in large language models[J].2022.
[9] WEI J, WANG X, SCHUURMANS D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.
[10] Vearch: A Distributed System for Embedding-based Retrieval[EB/OL].[2024-02-06]. https://github.com/vearch/vearch.
[11] LI J, LIU H, GUI C, et al. The design and implementation of a real time visual search system on JD E-commerce platform[C]//Proceedings of the 19th International Middleware Conference Industry,2018: 9-16.
[12] CHEN Q, WANG H, LI M, et al. SPTAG: A library for fast approximate nearest neighbor search[J]. 2018.
[13] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J].2018.