分類號 G255.1DOI10.16810/j.cnki.1672-514X.2025.03.008
Research on Design and Optimization of Question Answering System of Ancient Literature Books Based on Multi-knowledge Association
WangKeping,F(xiàn)an Yanshuo,Xu Mingzhu, Zhou Jingyi
AbstractUnder the background of the digital ageof ancient books,this paper explores how to construct knowledge graph basedonmultiplerelation expressons,aiming atthe problem of entityname of ancient literature books.On the basis of sorting out relevant studies on ancient books knowledge service and knowledge question answering system, based on natural language technology and module matching,this paper proposes the architecture of ancient literature books question answering system integrating multiple knowledge associations.Optimize the existing extraction model and the framework for building a question-answering system based on knowledge graphs,the humanistic knowledge was mined in multipledimensions,thedata was stored in the multi-relational expresson mode,Liaozhai Zhiyi was selected for empirical study.The experimentalresults show thatthe optimized questionanswering system of ancient literaturebooksperformswellinknowledgereasoningandintellgentinteraction,theabilityof intentionrecognitioand knowledgereasoning isfctivelyimproved,basicallymeet thedemandforinteraction,andbroaden theapplication service dimensionof knowledgegraph of ancientliterature books.Itlaysafoundation forthe digital inheritance and intelligent construction of ancient literature books in the future.
KeywordsAncientliterature books.Knowledge organization.Natural language processing. Question-answering system.
0 引言
以史為鑒,可以知興替,古籍是我國社會發(fā)展中形成的寶貴精神財富,是文化自信的重要源泉[1。文學(xué)類古籍作為我國古籍資源的重要組成部分,包含詩歌、小說、散文等藝術(shù)形式2,是社會文明展演的重要記錄方式,也是特定時期人文精神內(nèi)容呈現(xiàn)的主要載體,具有豐厚的學(xué)術(shù)價值、歷更價值與社會價值?,F(xiàn)階段,古籍?dāng)?shù)字化推進(jìn)日益受到重視,已成為國家古籍工作部署的重點。習(xí)近平總書記在考察中國人民大學(xué)時強(qiáng)調(diào),“要逐步推進(jìn)古籍?dāng)?shù)字化,運用現(xiàn)代科技手段加強(qiáng)古籍典藏的保護(hù)修復(fù)和綜合利用,深入挖掘古籍蘊(yùn)含的哲學(xué)思想、人文精神、價值理念與道德規(guī)范,推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展[3?!弊?014年王曉光教授引人“數(shù)字人文\"概念后,文學(xué)、歷史、考古等領(lǐng)域均有嘗試,將現(xiàn)代技術(shù)引人人文研究以提高研究效率與深度4,古籍信息處理、古籍智能處理技術(shù)等現(xiàn)代信息技術(shù)的不斷發(fā)展也為古籍提供了新的活化路徑。
盡管我國文學(xué)類古籍?dāng)?shù)字化研究取得一定成果,但文學(xué)古籍文本的挖掘、組織與開發(fā)應(yīng)用程度仍有待提高,主要原因為文學(xué)類古籍資源表現(xiàn)出數(shù)量多、內(nèi)容龐雜等特點,文本知識維度存在多樣性且定位查找具有單一性,比如小說以文章題目為主線展開論述,通過文章題目可快速定位所需信息,然而從其他維度定位所需信息卻存在一定難度,因此從語義關(guān)聯(lián)角度對文學(xué)類古籍文本信息資源進(jìn)行深層次的知識組織與開發(fā)應(yīng)用尚有較大挖掘潛力。同時,文學(xué)類古籍中存在重名實體,如在短篇小說中某一實體既是人物姓名也是文章題目,二者雖實體名稱相同卻對應(yīng)不同類別,使用現(xiàn)有問答框架搭建問答系統(tǒng)時易邏輯混亂,降低答案輸出的準(zhǔn)確率。因此本文在分析現(xiàn)有基于知識圖譜的智能問答服務(wù)實現(xiàn)方法基礎(chǔ)之上,提出融合多元知識關(guān)聯(lián)的文學(xué)類古籍問答系統(tǒng)架構(gòu),設(shè)計代碼優(yōu)化現(xiàn)有抽取方法,進(jìn)一步擴(kuò)大文學(xué)類古籍知識抽取范圍,多維度抽取文學(xué)古籍文本中的人文性知識,以滿足問答系統(tǒng)細(xì)粒度檢索需求。同時,針對文學(xué)類古籍?dāng)?shù)據(jù)特征改進(jìn)三元組表示方法,在頭、尾實體后增添實體類別,形成五元組,以提高問答系統(tǒng)實體信息定位準(zhǔn)確度,進(jìn)而提升問答系統(tǒng)答案輸出的準(zhǔn)確率,系統(tǒng)展示文學(xué)類古籍人文性知識的同時實現(xiàn)其知識管理與知識服務(wù)的目標(biāo),創(chuàng)新性推進(jìn)文學(xué)類古籍檢索方式。
1文獻(xiàn)綜述
1.1古籍知識組織與知識服務(wù)現(xiàn)狀
目前已有不少古籍研究者在知識組織與知識服務(wù)領(lǐng)域做出探索,主要包含四個方面:一是古籍知識組織與知識圖譜構(gòu)建研究,如梳理《神農(nóng)本草經(jīng)》文獻(xiàn)中的知識實體類型及實體關(guān)系,構(gòu)建《神農(nóng)本草經(jīng)》知識圖譜對其所載知識及隱性關(guān)系進(jìn)行可視化展示;或借助知識組織、古籍智能處理等理論、方法和技術(shù),構(gòu)建包含多維知識建模、多維知識庫自動構(gòu)建、多維知識可視化的史書多維知識重組與可視化系統(tǒng);或從知識組織的角度對古籍文獻(xiàn)序化整理的歷史脈絡(luò)、現(xiàn)實特征和未來轉(zhuǎn)向進(jìn)行理論解析[0]。二是古籍?dāng)?shù)據(jù)庫與知識庫構(gòu)建研究,其中代表性的有中國歷代人物傳記數(shù)據(jù)庫1、中國歷代中醫(yī)醫(yī)家傳記知識庫[12等數(shù)據(jù)庫;或結(jié)合多種語義技術(shù)構(gòu)建古籍知識庫互聯(lián)互通框架,實現(xiàn)實時、在線的互聯(lián)互通[13]。三是古籍的知識挖掘與抽取研究,如利用機(jī)器學(xué)習(xí)對《楚辭》[4、《孟子》[15進(jìn)行自動分詞,或借助條件隨機(jī)場模型對先秦典籍的歷史事件[、《左傳》沖的戰(zhàn)爭事件[進(jìn)行識別與抽取;或設(shè)計融合多特征的人物關(guān)系分類模型MF-CRC對實例《平凡的世界》進(jìn)行抽取[18]。四是以古籍知識可視化展示、知識問答為代表的知識服務(wù),如將人文計算等智能算法應(yīng)用于藏醫(yī)古籍知識的處理中,探索知識檢索、知識推理、知識推送在藏醫(yī)古籍知識服務(wù)中的應(yīng)用;或面向版刻古籍紡織圖像開展在知識圖譜結(jié)構(gòu)上的智能檢索與問答系統(tǒng)研究,設(shè)計多重知識檢索功能2;或以人物關(guān)系挖掘為切入點,從不同角度對《譚延閻日記》人物同現(xiàn)關(guān)系網(wǎng)絡(luò)進(jìn)行分析與可視化呈現(xiàn)[21]??梢姡偶闹R組織與知識服務(wù)研究取得的研究成果頗豐,但聚焦到文學(xué)類古籍領(lǐng)域成果有限,因此本文嘗試借助知識圖譜技術(shù)挖掘文學(xué)類古籍人文性知識,基于文學(xué)類古籍知識實體特征設(shè)計問答系統(tǒng)架構(gòu),對其知識服務(wù)模式進(jìn)行探索。
1.2知識圖譜技術(shù)研究現(xiàn)狀
知識圖譜的技術(shù)研究集中于文本語義關(guān)聯(lián)解析,主要涉及實體識別與關(guān)系抽取兩大自然語言處理技術(shù),近年來,Bi-LSTM、CRF、BERT等深度學(xué)習(xí)算法提供了資源語料的新識別抽取方法,如通過對比Random-CRFs、Random一BiLSTM、Random-BiLSTM-CRFs、BERT-BiLSTM-CRFs等4個模型對術(shù)語抽取的效果,實現(xiàn)以非物質(zhì)文化遺產(chǎn)陶瓷工藝術(shù)語為對象的術(shù)語抽取、新詞發(fā)現(xiàn)任務(wù)[22;或基于條件隨機(jī)場與多種深度學(xué)習(xí)模型進(jìn)行對比實驗后構(gòu)建有效的古漢語植物命名實體識別模型[23;也有學(xué)者采用Bi-LSTM、CRF和BERT等深度學(xué)習(xí)算法對歷史報紙知識元進(jìn)行實體抽取,借助NER技術(shù)抽取事件元素,利用LDA主題建模方式抽取主題知識元,構(gòu)建歷史報紙資源知識元語義關(guān)系圖譜[24]。總之,BERT-BiLSTM-CRFs、BiLSTM-CRF兩個模型在知識圖譜文本語義關(guān)聯(lián)解析中應(yīng)用廣泛,實體標(biāo)注多借助IEDY、BRAT、YEDDA、DeepDive等工具,以BIO、BMES、BIOES等文本表示方式,不少學(xué)者借助條件隨機(jī)場模型完成了文本的識別與抽取,為本文奠定了技術(shù)基礎(chǔ),因此根據(jù)文學(xué)類古籍知識圖譜所需數(shù)據(jù)特征,本文在現(xiàn)有抽取方法上優(yōu)化抽取代碼,以便更為準(zhǔn)確、全面地獲取所需數(shù)據(jù)。
1.3基于知識圖譜的問答服務(wù)方法研究現(xiàn)狀
知識圖譜作為語義網(wǎng)的支撐,是組織、表達(dá)海量、異構(gòu)數(shù)據(jù)的有效方式,在自動問答系統(tǒng)領(lǐng)域有著重要作用,目前生物醫(yī)藥、圖書情報與檔案管理等領(lǐng)域均基于知識圖譜開展自動問答系統(tǒng)相關(guān)研究[25,主要可分為以下四類實現(xiàn)方法:一是基于模板匹配,該方法雖需耗費大量人工構(gòu)建問題模板與匹配答案,但兩者高度匹配時效果較好,如從數(shù)據(jù)獲取與處理模塊、知識圖譜構(gòu)建模塊、問題分析與答案獲取模塊構(gòu)建“一帶一路\"投資問答系統(tǒng)[14,以及應(yīng)用于汽車領(lǐng)域的智能問答系統(tǒng)2;二是基于深度學(xué)習(xí),該方法需標(biāo)注訓(xùn)練大量數(shù)據(jù),主要用于規(guī)模較大的數(shù)據(jù)集,如引入命名實體識別與實體信息抽取技術(shù),提高醫(yī)療智能問答系統(tǒng)使用效果[27],或借助BERT與BiLSTM-CRF模型構(gòu)建古詩知識圖譜智能問答系統(tǒng)[28;三是基于語義解析,該方法主要借助自然語言處理技術(shù),針對特定領(lǐng)域效果最佳,且主要用于小規(guī)模數(shù)據(jù)集,如基于關(guān)聯(lián)數(shù)據(jù)技術(shù),利用SPARQL及HTML實現(xiàn)對館藏文物資源[29]、中國歷史人物知識[30的訪問與智能問答;四是基于多方法融合,如應(yīng)用知識圖譜、深度學(xué)習(xí)與圖數(shù)據(jù)庫等技術(shù)與架構(gòu),構(gòu)建孔子世家譜的知識問答系統(tǒng)[31]。知識圖譜憑借自身優(yōu)勢在自動問答系統(tǒng)領(lǐng)域已取得一定研究成果,在構(gòu)建方法上有一定的借鑒意義,但將現(xiàn)有方法應(yīng)用于本文問答系統(tǒng)構(gòu)建時,文學(xué)類古籍重名實體等問題無法得到有效解決。因此需以多元關(guān)系表達(dá)模式構(gòu)建文學(xué)類古籍知識圖譜,在此基礎(chǔ)上搭建問答系統(tǒng),提升問答系統(tǒng)的應(yīng)用效果。
綜合來看,一方面,古籍知識組織與知識服務(wù)研究已取得較為豐富的研究成果,知識圖譜技術(shù)也較為成熟,但文學(xué)類古籍領(lǐng)域取得成果偏少,且古籍的文本語義關(guān)聯(lián)解析訴諸時間、人物、地點等常規(guī)化知識,對文學(xué)類古籍蘊(yùn)含的情感、表達(dá)的題材等細(xì)粒度人文性知識的挖掘不夠全面,抽取維度有待進(jìn)一步擴(kuò)大,抽取方法有待進(jìn)一步完善。另一方面,古籍的智能問答研究多集中于醫(yī)藥學(xué)門類,現(xiàn)有基于知識圖譜的知識問答服務(wù)架構(gòu)聚焦到文學(xué)類古籍領(lǐng)域有待優(yōu)化,特別是意圖識別與推理方面。因此,本文根據(jù)文學(xué)類古籍基本數(shù)據(jù)特征,結(jié)合現(xiàn)有模塊匹配問答服務(wù)實現(xiàn)方法,提出融合多元知識關(guān)聯(lián)的文學(xué)類古籍問答系統(tǒng)架構(gòu),與傳統(tǒng)問答服務(wù)實現(xiàn)方法相比,優(yōu)化了抽取代碼改善現(xiàn)有抽取方法,擴(kuò)大知識抽取維度進(jìn)而實現(xiàn)問答系統(tǒng)的細(xì)粒度語義檢索。同時,提出以多元關(guān)系表達(dá)模式存儲數(shù)據(jù),以五元組表示方法形成文學(xué)類古籍知識圖譜,使文學(xué)類古籍問答系統(tǒng)可快速定位輸人問題類別,達(dá)到提高其意圖識別與知識推理能力的目標(biāo)。選取中國古典小說杰作《聊齋志異》對本文提出的文學(xué)類古籍問答系統(tǒng)架構(gòu)進(jìn)行論證分析,驗證其可行性,拓寬了文學(xué)類古籍知識圖譜應(yīng)用維度,推進(jìn)文學(xué)類古籍人文性知識的共享與語義知識服務(wù)。
2文學(xué)類古籍文本問答系統(tǒng)架構(gòu)的優(yōu)化設(shè)計
在梳理文學(xué)類古籍知識的基礎(chǔ)上,參考現(xiàn)有基于知識圖譜的問答服務(wù)實現(xiàn)方法,本文基于模塊匹配設(shè)計了文學(xué)類古籍問答系統(tǒng)架構(gòu)(如圖1所示),主要包括數(shù)據(jù)采集、知識圖譜構(gòu)建、問答處理與應(yīng)用表現(xiàn)四個模塊,實現(xiàn)文本知識的鏈接、共享與交互性應(yīng)用。其中,在知識圖譜構(gòu)建模塊,基于文學(xué)類古籍知識特征,選取了目前廣泛使用的BIO標(biāo)注序列標(biāo)注方式與BiLSTM-CRF模型,設(shè)計代碼優(yōu)化現(xiàn)有抽取方法,從人物、情感、題材等方面多維度抽取數(shù)據(jù)。此外,為解決文學(xué)類古籍存在重名實體的問題,選取多方法融合的問答系統(tǒng)實現(xiàn)方法,優(yōu)化現(xiàn)有三元組表達(dá)式,以多元關(guān)系表達(dá)模式存儲數(shù)據(jù),形成多元知識關(guān)聯(lián)的知識庫,并在此基礎(chǔ)上構(gòu)建文學(xué)類古籍問答系統(tǒng),提高問答系統(tǒng)的意圖識別與知識推理能力,滿足用戶的檢索需求。
(1)數(shù)據(jù)采集模塊。目前,文學(xué)類古籍領(lǐng)域本體構(gòu)建不夠完善,更細(xì)粒度的語義信息挖掘維度不夠全面,從而導(dǎo)致該門類古籍知識解釋性較差、系統(tǒng)性偏低、語義關(guān)聯(lián)度不夠等問題,在一定程度上影響了問答系統(tǒng)知識元的語義檢索。因此該數(shù)據(jù)采集模塊納人了情感、題材等人文性知識元素,擴(kuò)大現(xiàn)有數(shù)據(jù)源,使問答系統(tǒng)的數(shù)據(jù)更貼合文學(xué)類古籍人文性特征。本文所需的文學(xué)類古籍?dāng)?shù)據(jù)主要為以電子書籍為主的非結(jié)構(gòu)化文本數(shù)據(jù)和以百科網(wǎng)站為主的半結(jié)構(gòu)化數(shù)據(jù),前者主要來源為在線書店、數(shù)字圖書館,后者則需通過網(wǎng)絡(luò)爬蟲技術(shù)對古籍簡介、評論等數(shù)據(jù)進(jìn)行采集。因采集到的原始數(shù)據(jù)可能存在噪聲、缺失信息、格式不一致等問題,需要進(jìn)行清洗和預(yù)處理以確保數(shù)據(jù)的準(zhǔn)確性和一致性。同時對文學(xué)類古籍文本元數(shù)據(jù)特征進(jìn)行解析,面向文學(xué)類古籍文本知識分析數(shù)據(jù)特征,將不同數(shù)據(jù)源獲取的數(shù)據(jù)融合后,存儲為領(lǐng)域數(shù)據(jù)集作為文學(xué)類古籍問答系統(tǒng)構(gòu)建的數(shù)據(jù)基礎(chǔ)。
(2)知識圖譜構(gòu)建模塊。本文構(gòu)建的文學(xué)類古籍問答系統(tǒng)在知識圖譜架構(gòu)下運行,因此該模塊是文學(xué)類古籍問答系統(tǒng)構(gòu)建的核心模塊,可以分為本體構(gòu)建、知識抽取與融合兩個主要部分,本文著重根據(jù)文學(xué)類古籍資源特征優(yōu)化現(xiàn)有知識抽取方法。本體建模部分根據(jù)數(shù)據(jù)采集模塊中對文學(xué)類古籍文本元數(shù)據(jù)特征的解析結(jié)果,結(jié)合文學(xué)類古籍的數(shù)據(jù)內(nèi)容與結(jié)構(gòu),采用復(fù)用與自建相結(jié)合的方式進(jìn)行本體構(gòu)建,咨詢相關(guān)領(lǐng)域?qū)<乙庖姾罄肙WL語言建立文學(xué)類古籍本體模型。知識抽取與融合根據(jù)元數(shù)據(jù)特征基于BiLSTM-CRF模型設(shè)計文學(xué)類古籍識別抽取模型,首先需借助YEDDA軟件進(jìn)行BIO標(biāo)注形成訓(xùn)練集,利用BiLSTM-CRF模型對文學(xué)類古籍?dāng)?shù)據(jù)中的實體和屬性進(jìn)行標(biāo)注和提取,從而獲得實體和屬性信息。其次優(yōu)化現(xiàn)有抽取思路,導(dǎo)出包含實體標(biāo)注信息的語料句,借助LTP工具獲取語料句中的實體關(guān)系與實體屬性,揭示古籍中復(fù)雜的知識結(jié)構(gòu)和關(guān)聯(lián)。最后,將抽取到的實體與實體關(guān)系進(jìn)行消歧、對齊等清洗工作,人工校驗、糾正可能存在的錯誤或不明確信息,保證其關(guān)聯(lián)數(shù)據(jù)的完整性與準(zhǔn)確性,進(jìn)一步提升數(shù)據(jù)質(zhì)量。優(yōu)化問答系統(tǒng)數(shù)據(jù)存儲方式,以lt;實體,實體類別,關(guān)系,實體,實體類別gt;的多元關(guān)系表達(dá)模式存儲抽取得到的實體和關(guān)系信息,通過Neo4j圖數(shù)據(jù)庫實現(xiàn)文學(xué)類古籍的多元知識存儲,為問答處理模塊提供可訪問、查詢的知識庫。
(3)問答處理模塊。該模塊主要以問答模板的形式指導(dǎo)問答系統(tǒng)的問句解析、答案生成與查詢,基于專家意見采集語料編制模板庫與名詞詞典,設(shè)置包含15個問句類型的問題庫,在前人研究基礎(chǔ)上從用戶交互界面、問句語義解析、信息檢索匹配與查詢邏輯化四個部分實現(xiàn)對用戶問題的解析和答案的生成與查詢。用戶交互界面是問答系統(tǒng)與用戶進(jìn)行交互的界面,用戶可在此輸入問題并接收相應(yīng)的答案。問句語義解析部分將接收到的用戶問句轉(zhuǎn)化為可處理模式,識別用戶問句中包含的特征詞,基于名詞詞典將問題的意圖和關(guān)鍵信息提取出來,在問題庫中查詢問句分類。信息檢索匹配部分分析知識圖譜中各實體之間的邏輯關(guān)系,在知識庫中進(jìn)行檢索和匹配,同時確定用戶問句的類別并進(jìn)行問題匹配。查詢邏輯化部分將用戶提問的意圖轉(zhuǎn)化為查詢語句或邏輯表達(dá)式,以便從知識庫中提取相應(yīng)的答案。根據(jù)用戶問句匹配結(jié)果,在以多元關(guān)系表達(dá)模式為數(shù)據(jù)基礎(chǔ)的知識庫中檢索與用戶問題相符的實體與實體類別,快速定位問題分類并進(jìn)行查找,最終按照設(shè)計的答案框架在用戶交互界面向用戶輸出答案,從而為用戶提供方便、準(zhǔn)確的問答服務(wù),提高系統(tǒng)的使用體驗和效果。
(4)應(yīng)用表現(xiàn)模塊。該模塊主要任務(wù)為完成文學(xué)類古籍問答系統(tǒng)的技術(shù)實現(xiàn),構(gòu)建以多元關(guān)系表達(dá)模式存儲數(shù)據(jù)的知識圖譜前后端分離的問答系統(tǒng),其工作原理是基于前端技術(shù)生成的網(wǎng)頁服務(wù)項目,主要功能是用戶交互[32]。前端平臺使用了輕量級的Flask框架,搭建供用戶輸入問題并獲取答案的用戶交互界面,設(shè)計實體節(jié)點展示圖等頁面功能。后端則選擇了Neo4j作為數(shù)據(jù)倉儲,用Python語言編寫代碼,通過Neo4j的Python驅(qū)動程序連接和操作圖數(shù)據(jù)庫,實現(xiàn)系統(tǒng)在文學(xué)類古籍知識圖譜中的查詢與檢索。通過前后端分離的架構(gòu)實現(xiàn)高效、可擴(kuò)展的文學(xué)類古籍知識問答系統(tǒng),前端提供友好的用戶界面和交互方式,后端利用圖數(shù)據(jù)庫進(jìn)行知識存儲和查詢。用戶可以通過輸入問題與系統(tǒng)進(jìn)行交互,得到準(zhǔn)確的答案和相關(guān)知識,為用戶提供便捷、準(zhǔn)確的文學(xué)類古籍知識服務(wù),促進(jìn)文學(xué)類古籍的傳承和研究。
3融合多元知識關(guān)聯(lián)的文學(xué)類古籍文本問答系統(tǒng)的實現(xiàn)
3.1本體考察與構(gòu)建
文學(xué)類古籍資源中的人物要素特征明顯,大多圍繞人物展開且與之產(chǎn)生關(guān)聯(lián)關(guān)系,為更好地對文學(xué)類古籍資源進(jìn)行描述,貼合其領(lǐng)域特征以提供充分的問答服務(wù),文本以問卷調(diào)查的方式確定用戶文學(xué)類古籍知識的聚焦點,提煉出人物、地點、題材、卷、情感等核心元數(shù)據(jù),采用專家調(diào)查法確定核心類提取出12個核心類作為本體的概念模型,如表1所示。
為提高本體模型的質(zhì)量與問答系統(tǒng)的準(zhǔn)確性與全面性[33]??疾飕F(xiàn)有本體詞表后,本文以斯坦福大學(xué)提出的“七步法\"為基礎(chǔ),采取復(fù)用與自建相結(jié)合的方式構(gòu)建本體模型,復(fù)用了DC、FOAF、GeoNames等國內(nèi)外通用本體,同時用自建詞表(alb)實現(xiàn)對文學(xué)類古籍人文性知識的描述。根據(jù)前文定義的核心類,可確定頂層概念類為書籍、曲、卷、題名、詩詞、典故、題材、情感、人物、地點、相關(guān)資源、時間,并將其設(shè)置為同級關(guān)系。同時增設(shè)子類以細(xì)化上述頂層概念[34],如人物設(shè)置神話人物(mythologicalperson)人物角色(role)歷史人物(historyperson)三個子類;地點設(shè)置神話地點(mythologicalplace)地域(region)、建筑(buliding)自然景觀(naturallandscape)四個子類,且可以進(jìn)一步細(xì)分。最后將各頂層概念類下的子類設(shè)為同級關(guān)系,對本體類進(jìn)行添加,經(jīng)專家審核后形成所需本體概念模型。
概念類創(chuàng)建完成后,參考各類間的邏輯關(guān)系對屬性進(jìn)行設(shè)定,本文大多數(shù)屬性間的關(guān)系為異類間關(guān)系,如has_person,其定義域為Title,值域為Person,表示該篇文章中包含的人物是某人;visited定義域為Person值域為Place,表示某一人物到訪過某一地點,對象屬性具體設(shè)置如表2所示。完成實體、關(guān)系、屬性的詞表設(shè)計后,借助本體構(gòu)建工具 實現(xiàn)知識建模,可得到如圖2所示的文學(xué)類古籍資源本體模型圖。通過本體建模為文學(xué)類古籍領(lǐng)域內(nèi)的規(guī)范化知識關(guān)聯(lián)提供了解決方案,也為后續(xù)文學(xué)類古籍文本的知識抽取與圖譜構(gòu)建提供模型標(biāo)準(zhǔn)。
3.2知識獲取、存儲與知識圖譜生成
本文選取《聊齋志異》進(jìn)行實證研究,《聊齋志異》總計四百多篇故事,雖為短篇小說但涉及科舉、愛情、友情等眾多題材,包含豐富的人文性知識,傳遞出作者的多種情感,是中國傳統(tǒng)文化的杰出代表。此外,因其人文性知識的豐富性,可涵蓋大部分文學(xué)類古籍中的人文實體及屬性,以《聊齋志異》為例構(gòu)建的文學(xué)類古籍問答系統(tǒng)具有一定的代表性與通用性,同時對其數(shù)字化研究的探索在一定程度上可以滿足聊齋文化傳播的需要,為其他文學(xué)類古籍的數(shù)字實踐路徑提供參考,因此選取《聊齋志異》作為實證研究對象,從而驗證本文設(shè)計的文學(xué)類古籍問答系統(tǒng)架構(gòu)的可行性。
目前電子版古籍來源眾多,本文選取超星數(shù)字圖書館提供的電子古籍文本作為主要語料渠道,以百科網(wǎng)站、中國知網(wǎng)等平臺數(shù)據(jù)作為補(bǔ)充,結(jié)合蒲松齡研究院專家的建議,選取上海古籍出版社2012年版《聊齋志異全譯》(丁如明等翻譯)作為主要采集對象,進(jìn)行知識獲取與融合。
(1)知識獲取。根據(jù)文學(xué)類古籍?dāng)?shù)據(jù)特征與數(shù)據(jù)規(guī)模,本文對現(xiàn)有知識獲取思路進(jìn)行優(yōu)化,借助實體標(biāo)注軟件YEDDA進(jìn)行實體標(biāo)注,以BIO文本表示方式輸出為txt文件,獲取學(xué)習(xí)語料。選取目前廣泛使用的雙向長短時記憶網(wǎng)絡(luò)與線性條件隨機(jī)場模型相結(jié)合的方法解決序列標(biāo)注問題,設(shè)計文學(xué)類古籍資源實體識別模型,不僅考慮到句子中標(biāo)簽之間的轉(zhuǎn)移關(guān)系,同時對文本序列中上下的信息進(jìn)行保存,從而達(dá)到提升循環(huán)類深度學(xué)習(xí)模型識別性能的目標(biāo)[35]。使用“?!薄埃 薄??\"等標(biāo)點作為文本數(shù)據(jù)的斷句標(biāo)準(zhǔn),控制本文序列長度以保證學(xué)習(xí)效果。
實體屬性獲取部分主要對人物及文章出現(xiàn)的人物屬性、文章屬性進(jìn)行獲取,人物屬性主要來源為文本數(shù)據(jù),文章屬性主要來源為百科網(wǎng)站中的半結(jié)構(gòu)化文本。本文針對包含實體屬性的數(shù)據(jù)集,利用通過文學(xué)類古籍資源實體識別模型抽取、歸類的實體,基于python語言中的spacy等工具模塊,通過編寫代碼的方式來實現(xiàn)對實體屬性的獲取,代碼設(shè)計思路如圖3所示。
實體關(guān)系抽取部分依靠LTP完成,該系統(tǒng)可提供句法分析、語義分析等多種自然語言處理模塊。設(shè)計了如圖4所示的文學(xué)類古籍資源實體關(guān)系獲取流程。首先,將包含實體的待抽取語料輸入到LTP模型中,加載LTP模塊中的分詞模塊對輸人語料句進(jìn)行分詞,劃分出每個詞在語句中的具體位置。其次,加載詞性標(biāo)注模塊對分詞后的語料進(jìn)行詞性標(biāo)注,根據(jù)每個詞匯單元不同的詞性標(biāo)注其在語料句中的作用。最后,將處理好的語料句輸入依存句法分析工具中,獲取文學(xué)類古籍資源的實體關(guān)系數(shù)據(jù)。
(2)實例知識圖譜生成。以3:1的比例將學(xué)習(xí)語料劃分成訓(xùn)練集與測試集,投人文學(xué)類古籍資源實體識別模型中進(jìn)行訓(xùn)練,設(shè)定500epoch。
經(jīng)訓(xùn)練,測試集在該模型中得到了最佳表現(xiàn),最終抽取到4749個實體。選用機(jī)器學(xué)習(xí)常用的評價指標(biāo)即準(zhǔn)確率(P)召回率(R)與F1值進(jìn)行評價,題目、人物等實體抽取效果較好,準(zhǔn)確率(P)分別 82% 、 74% ,召回率(R)分別為 77% 、69% ,F(xiàn)1值分別為 79% 、 71% ,身份( 51% )典故( 21% 等實體抽取準(zhǔn)確率偏低。其中,典故帶有朝代特征或者人物姓名特征,識別較為準(zhǔn)確,民間典故、神學(xué)典故等典故類型識別難度較高,且包含該實體類型的語料較少,身份、情感類同樣存在此問題,造成抽取效果不佳。通過人工識別、校對完成實體的對齊、清洗與整合,使所有數(shù)據(jù)以多元關(guān)系表達(dá)模式lt;實體,實體類別,關(guān)系,實體,實體類別 |gt; 形式存儲到csv文件中,共計6420條數(shù)據(jù)。加載python中的py2neo模塊讀取csv文件,在Neo4j圖數(shù)據(jù)庫中構(gòu)建完成融合多元知識關(guān)聯(lián)的文學(xué)類古籍知識圖譜,滿足搭建問答系統(tǒng)的數(shù)據(jù)需求。
3.3文學(xué)類古籍問答系統(tǒng)構(gòu)建
本文以提高文學(xué)類古籍問答系統(tǒng)的識別與推理能力,滿足用戶更精準(zhǔn)的人文性知識需求為目標(biāo),其實現(xiàn)依賴于python完成問題處理模塊與應(yīng)用表現(xiàn)模塊的構(gòu)建,前者搭建了問答系統(tǒng)的問題處理框架,后者完成問答系統(tǒng)的展示頁面。問題處理模塊由用戶交互界面、問句語義解析、信息檢索匹配與查詢邏輯化四個部分組成,用戶通過交互界面提問問題,問句語義解析將問題轉(zhuǎn)化為可處理模式。信息檢索匹配部分提取了知識圖譜中的實體與實體關(guān)系,根據(jù)數(shù)據(jù)屬性、類別分別設(shè)置詞典與問題庫,基于此完成識別問句實體、檢索分類的任務(wù)。查詢邏輯化則將問題轉(zhuǎn)化為查詢操作,將用戶提出問題中的實體與問題類別封裝為分類字典,轉(zhuǎn)換為Cypher語句在以多元關(guān)系表達(dá)模式存儲數(shù)據(jù)的知識庫中根據(jù)實體類別快速定位實體,匹配問句最終生成準(zhǔn)確的答案。
應(yīng)用表現(xiàn)模塊負(fù)責(zé)將問題處理模塊的結(jié)果呈現(xiàn)給用戶,完成前后端搭建。用戶在交互界面輸入問題,借助Flask框架將問題發(fā)送到后端,后端的Python腳本接收到問題后,使用Neo4j的Python驅(qū)動程序進(jìn)行查詢操作,通過answer_search、question_classifier、question_parser三個python腳本實現(xiàn)問題處理模塊各部分間的互聯(lián)互通,并將問題處理模塊的結(jié)果返回給前端,完成對用戶問題的解析和答案的生成與查詢。如當(dāng)用戶在咨詢欄輸入“考城隍包含地點?”問句,首先識別問句的特征詞與問句類型,抽取到實體為title類且疑問詞屬于地點類問句類別,封裝為title_place問題類目,在多元關(guān)系表達(dá)模式中快速定位實體類別與問句中的實體,該類目下的Cypher查詢語句可表示為“MATCH(m:Title)-[r:包含地點]- ?gt; (n:Place) where m.name Σ=Σ 'O'returnm.name,r.name,n.name”,在圖數(shù)據(jù)庫查詢后定位該問題類目下的答案框架,以設(shè)定好的答案框架“文章{0}包含的地點有:{1}\"對用戶進(jìn)行輸出,最終可得到問答系統(tǒng)的回答為“文章考城隍包含的地方有:河南、長山縣、京城?!?/p>
3.4實驗結(jié)果展示及結(jié)果分析
基于文學(xué)類古籍知識圖譜的問答系統(tǒng)前后端搭建完成后,增設(shè)實體節(jié)點展示等內(nèi)容,使用效果如圖5所示。
該系統(tǒng)可以提供以下服務(wù):一是提供便捷的問答交互,設(shè)置問答輸入框與輸出框,使用戶能夠快速獲取所需答案,提高了系統(tǒng)的效率和便捷性。二是提供詳細(xì)的使用說明,該設(shè)置有助于用戶了解系統(tǒng)的功能、使用方法和注意事項,減少使用過程中的困惑和錯誤操作,以便更好地利用系統(tǒng)的功能,提升了用戶體驗和滿意度。三是提供文學(xué)類古籍基本簡介,用戶可了解文學(xué)類古籍人物、地點等背景知識,以便更好地理解和探索古籍,增加了系統(tǒng)的知識價值和吸引力。四是提供實體節(jié)點展示圖,通過實體節(jié)點展示圖,用戶可以圖形化的方式直觀了解文學(xué)類古籍的相關(guān)實體、關(guān)系,有助于用戶更深入地理解古籍的知識結(jié)構(gòu)和內(nèi)涵,使系統(tǒng)的知識展示更直觀,提升了用戶的學(xué)習(xí)和探索體驗。同時,為驗證本文構(gòu)建的文學(xué)類古籍問答系統(tǒng)準(zhǔn)確性,選取ACC作為整體系統(tǒng)性能的評價指標(biāo)[25],根據(jù)文學(xué)類古籍資源易重名實體類別,將較易出錯的400條問題作為測試集。經(jīng)系統(tǒng)測試,問答系統(tǒng)準(zhǔn)確率的均值為 92% ,典故類問題準(zhǔn)確度較低。經(jīng)分析,當(dāng)輸入問題時典故名稱不準(zhǔn)確或以人物簡要概括時,易造成問答系統(tǒng)在知識圖譜中定位不到準(zhǔn)確信息等問題,從而降低了輸出答案的準(zhǔn)確度。與三元組數(shù)據(jù)存儲問答系統(tǒng)對比結(jié)果如表3所示,基本符合預(yù)期結(jié)果,四類問題中person_place類表現(xiàn)差距較大,主要原因為人名與文章重名可能造成三元組數(shù)據(jù)存儲問答系統(tǒng)誤將person_place類問題識別為title_place類問題??梢?,經(jīng)過優(yōu)化升級,該文學(xué)類問答系統(tǒng)在一定程度上提高了答案輸出準(zhǔn)確率,可為用戶提供更好的知識服務(wù),驗證了本文設(shè)計的融合多元知識關(guān)聯(lián)的文學(xué)類古籍問答系統(tǒng)架構(gòu)的可行性,為文學(xué)類古籍的數(shù)字化研究提供新視角。
4結(jié)語
本文重點研究了面向文學(xué)類古籍如何基于知識圖譜技術(shù)實現(xiàn)問答系統(tǒng)的構(gòu)建,優(yōu)化現(xiàn)有問答系統(tǒng)構(gòu)建框架,設(shè)計融合多元知識關(guān)聯(lián)的文學(xué)類古籍問答系統(tǒng)架構(gòu)。實驗結(jié)果表明,與三元組數(shù)據(jù)存儲的問答系統(tǒng)相比,以多元關(guān)系表達(dá)模式構(gòu)建的知識圖譜在一定程度上提高了問答系統(tǒng)的識別與推理能力,平均準(zhǔn)確值為 92% ,在重名實體類別問題上表現(xiàn)良好,可幫助用戶直觀獲取所需信息,實現(xiàn)文學(xué)類古籍知識的關(guān)聯(lián)挖掘和細(xì)粒度知識元的語義檢索,拓寬了知識圖譜的應(yīng)用維度。與前人基于知識圖譜的問答框架相比,本文在知識抽取中結(jié)合數(shù)據(jù)特征與屬性設(shè)計代碼優(yōu)化現(xiàn)有抽取方法,多維度挖掘與關(guān)聯(lián)文學(xué)類古籍人文性知識,提高了文學(xué)類古籍知識的可解釋性、系統(tǒng)性與關(guān)聯(lián)性,使文學(xué)類古籍問答系統(tǒng)實現(xiàn)細(xì)粒度的語義知識檢索;優(yōu)化三元組表示方法,解決了文學(xué)類古籍中的重名實體問題,以多元關(guān)系表達(dá)模式存儲數(shù)據(jù)并構(gòu)建知識圖譜,可支持更復(fù)雜、更抽象的問題推理,提供更高質(zhì)量的回答;圍繞文學(xué)類古籍的開發(fā)利用,在設(shè)計和優(yōu)化文學(xué)類古籍問答系統(tǒng)的基礎(chǔ)上,通過具體實例樣本驗證實現(xiàn)了文學(xué)類古籍題材、人物、情感等內(nèi)容的細(xì)粒度知識關(guān)聯(lián),為相關(guān)學(xué)科的交叉研究提供了借鑒和參考。
盡管本文以《聊齋志異》為例探討了我國文學(xué)類古籍問答系統(tǒng)構(gòu)建與實現(xiàn)路徑,挖掘文學(xué)古籍知識圖譜中的人文價值,拓展了文學(xué)類古籍的數(shù)字化服務(wù)模式,但問答系統(tǒng)的處理模塊主要基于模塊匹配完成,意圖識別能力有待進(jìn)一步提高,且功能設(shè)置較為單一,可視化實體節(jié)點范圍偏小,其他應(yīng)用功能有待進(jìn)一步探索。后續(xù)將通過深度學(xué)習(xí)等方式提高系統(tǒng)對問題的解析能力,擴(kuò)大知識圖譜覆蓋范圍,探索其他應(yīng)用功能,逐步改進(jìn)和完善問答系統(tǒng)。
參考文獻(xiàn):
[1]陳濤,楊鑫,夏焱,等.古籍知識庫互聯(lián)互通框架研究與設(shè)計[J].大學(xué)圖書館學(xué)報,2023,41(4):58-64.
[2]朱青青.關(guān)于文學(xué)作品的分類標(biāo)引探討[J].國家圖書館學(xué)刊,2018,27(6):60-64.
[3]堅持黨的領(lǐng)導(dǎo)傳承紅色基因扎根中國大地走出一條建設(shè)中國特色世界一流大學(xué)新路[N].人民日報,2022-04-26(001).
[4]張向先,李世鈺,沈旺,等.數(shù)字人文視角下敦煌吐魯番醫(yī)藥文獻(xiàn)知識組織研究[J].圖書情報工作,2022.66(22):28-43.
[5]劉忠寶,趙文娟.古籍信息處理回顧與展望[J].大學(xué)圖書館學(xué)報,2021,39(6):38-47.
[6]鄧三鴻,胡昊天,王昊,等.古文自動處理研究現(xiàn)狀與新時代發(fā)展趨勢展望[J].科技情報研究,2021,3(1):1-20.
[7]馮國軍.我國文學(xué)古籍資源數(shù)字化開發(fā)現(xiàn)狀及啟示[J].出版廣角,2021(5):39-41.
[8]佟琳,張華敏,佟旭,等.基于命名實體識別的《神農(nóng)本草經(jīng)》知識圖譜構(gòu)建及可視化分析[J].中國中醫(yī)藥信息雜志,2024,31(8):37-43.
[9]張琪,王東波,黃水清,等.史書多維知識重組與可視化研究:以《史記》為對象[J].情報學(xué)報,2022,41(2):130-141.
[10]文玉鋒,徐姣姣,周文杰.古籍文獻(xiàn)知識組織由靜態(tài)檢索向動態(tài)表征趨向的理論解析[J].圖書與情報,2022(5):10-16.
[11]Harvard University.China Biographical DatabaseProject(CBDB)中國歷代人物傳數(shù)據(jù)庫[EB/OL][2024-02-27].https://projects.iq.harvard.edu/cbdb/home.
[12]董燕,侯酉娟,張偉娜,等.基于數(shù)字人文技術(shù)的中國歷代醫(yī)家傳記專題知識庫構(gòu)建[J]中華醫(yī)學(xué)圖書情報雜志,2021,30(1):31-38.
[13]陳濤,楊鑫,夏焱,等.古籍知識庫互聯(lián)互通框架研究與設(shè)計[J].大學(xué)圖書館學(xué)報,2023,41(4):JU-UT
[14] LIU C L,HUANG C K,WANG H S,et al.Mininglocal gazetteersof literary Chinesewith CRF andpattern based methods for biographical informationin Chinese history[C]//Proceedings of the IEEEinternational conference on big data.SantaClara:IEEE,2015:1629-1638.
[15]梁社會,陳小荷.先秦文獻(xiàn)《孟子》自動分詞方法研究[J].南京師范大學(xué)文學(xué)院學(xué)報,2013(3):175-182.
[16]王東波,高瑞卿,沈思,等.面向先秦典籍的歷史事件基本實體構(gòu)件自動識別研究[J].國家圖書館學(xué)刊,2018,27(1):65-77.
[17]李章超,李忠凱,何琳.《左傳》戰(zhàn)爭事件抽取技術(shù)研究[J].圖書情報工作,2020,64(7):20-29.
[18]陶蕊.面向中文文學(xué)作品的人物關(guān)系抽取與分類[D].南京:東南大學(xué),2022.
[19]劉佳,張心祺,張承坤.基于人文計算的藏醫(yī)古籍服務(wù)平臺知識服務(wù)功能設(shè)計研究[J].現(xiàn)代情報,2023,43(11):47-57.
[20]鞠斐,王強(qiáng).以版刻古籍紡織圖像為核心的知識圖譜設(shè)計與應(yīng)用[J].圖書館論壇,2023,43(10):126-138.
[21] 宋雪雁,鐘文敏.數(shù)字人文視角下《譚延罔日記》人物關(guān)系挖掘及可視化研究[J].情報科學(xué),2022,40(6):25-35.
[22]汪琳,王昊,李曉敏,等.融合學(xué)習(xí)擴(kuò)展的非遺陶瓷工藝領(lǐng)域術(shù)語庫構(gòu)建及應(yīng)用[J].圖書館論壇,2024,44(2):66-78.
[23]吳夢成,林立濤,齊月,等.數(shù)字人文視域下先秦典籍植物知識挖掘與組織研究[J].圖書情報工作,2023,67(12):103-113.
[24]孫紹丹.數(shù)字人文視域下歷史報紙資源語義化知識組織研究[D].吉林:吉林大學(xué),2022.
[25]陳璟浩,曾楨,李綱.基于知識圖譜的“一帶一路”投資問答系統(tǒng)構(gòu)建[J].圖書情報工作,2020,64(12):95-105.
[26]丁斌.汽車領(lǐng)域智能問答系統(tǒng)中模板庫自動生成方法的研究[D].上海:上海交通大學(xué),2019.
[27]陳明,劉蓉,熊回香.基于醫(yī)療知識圖譜的智能問答系統(tǒng)研究[J].情報科學(xué),2023,41(12):118-126.
[28]謝項.基于古詩知識圖譜的智能問答研究[D].武漢:華中師范大學(xué),2021.
[29]高勁松,方曉印,劉思洋,等.基于關(guān)聯(lián)數(shù)據(jù)的館藏文物資源知識關(guān)聯(lián)與智能問答研究[J].情報科學(xué),2021,39(5):12-20.
[30]單良,劉欣.基于中國歷史人物知識的智能問答系統(tǒng)構(gòu)建[J].情報探索,2019(6):101-105.
[31]張政平.面向孔子世家譜的知識問答模型研究與應(yīng)用[D].曲阜:曲阜師范大學(xué),2022.
[32]趙浩宇,陳登建,曾楨,等.基于知識圖譜的中國近代史知識問答系統(tǒng)構(gòu)建研究[J].數(shù)字圖書館論壇,2022(6):31-38.
[33]張衛(wèi),王昊,李躍艷,等,面向非遺文本的知識組織模式及人文圖譜構(gòu)建研究[J].情報資料工作,2021,42(6):91-101.
[34]郭嘉欣.紅色文化資源知識圖譜構(gòu)建研究[D].武漢:華中師范大學(xué),2022.
[35]李娜.基于深度學(xué)習(xí)的《方志物產(chǎn)》用途實體自動識別模型構(gòu)建與應(yīng)用[J].數(shù)字圖書館論壇,2022(12):19-28.
[36]CHE W X,LI Z H, LIU T. LTP:a Chinese languagetechnology platform[C]//COLING 2010,23rdInternational Conference on ComputationalLinguistics,Demonstrations Volume.201o:23-27.
[37]李賀,祝琳琳,劉嘉宇,等.基于本體的簡帛醫(yī)藥知識組織研究[J].圖書情報工作,2022,66(22):16-27.王克平山東理工大學(xué)信息管理學(xué)院教授。山東淄博,255049。
范顏鑠山東省科學(xué)技術(shù)情報研究院研究實習(xí)員。山東濟(jì)南,250101。
許明珠山東理工大學(xué)信息管理學(xué)院碩士研究生。山東淄博,255049。
周婧怡山東理工大學(xué)信息管理學(xué)院碩士研究生。山東淄博,255049。
(收稿日期:2024-03-13編校:謝艷秋,董瑩)