收稿日期:2023-09-20;接受日期:2024-01-26
基金項(xiàng)目:湖北省自然科學(xué)基金創(chuàng)新群體項(xiàng)目(2020CFA031)
作者簡(jiǎn)介:曾德晶,男,工程師,碩士,研究方向?yàn)樗Y源優(yōu)化配置、水利信息化。E-mail:dejingzeng@niccwrc.cn
Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.
文章編號(hào):1001-4179(2024) 06-0234-06
引用本文:曾德晶,張軍,曹衛(wèi)華,等.長(zhǎng)江流域取水許可知識(shí)圖譜問(wèn)答系統(tǒng)
[J].人民長(zhǎng)江,2024,55(6):234-239.
摘要:隨著水資源取水許可領(lǐng)域管理要求的不斷提高,傳統(tǒng)水資源取水許可信息管理系統(tǒng)難以滿足復(fù)雜的信息檢索需求,制約了水資源精細(xì)化管理水平的提升。為了打破系統(tǒng)間信息孤島,提升取水許可信息檢索效率,建立了長(zhǎng)江流域取水許可知識(shí)圖譜,基于大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型提出了包含實(shí)體提及識(shí)別、實(shí)體鏈接、關(guān)系匹配等功能的知識(shí)圖譜問(wèn)答流水線方法,結(jié)合取水許可領(lǐng)域數(shù)據(jù)特點(diǎn)采用BM25算法進(jìn)行候選實(shí)體排序,構(gòu)建了長(zhǎng)江流域取水許可知識(shí)圖譜問(wèn)答系統(tǒng),并基于BS架構(gòu)開(kāi)發(fā)了Web客戶端。實(shí)驗(yàn)表明:該系統(tǒng)在測(cè)試集上達(dá)到了90.37%的準(zhǔn)確率,可支撐長(zhǎng)江流域取水許可領(lǐng)域檢索需求。
關(guān)" 鍵" 詞:取水許可; 知識(shí)圖譜; 預(yù)訓(xùn)練語(yǔ)言模型; 問(wèn)答系統(tǒng); 水資源; 長(zhǎng)江流域
中圖法分類號(hào): TV213.4;TP391.1
文獻(xiàn)標(biāo)志碼: A
DOI:10.16232/j.cnki.1001-4179.2024.06.032
0" 引 言
隨著社會(huì)經(jīng)濟(jì)發(fā)展,各行業(yè)對(duì)水資源需求不斷增長(zhǎng),為加強(qiáng)水資源管理和保護(hù),國(guó)家出臺(tái)了《取水許可和水資源費(fèi)征收管理?xiàng)l例》規(guī)范取水行為。為提升水資源調(diào)配與管理信息化水平,各級(jí)水行政主管部門(mén)圍繞取水許可證管理、取水量監(jiān)測(cè)預(yù)警、最小下泄流量和生態(tài)流量監(jiān)管等業(yè)務(wù)建立了不同的信息管理系統(tǒng)。在水資源日常管理中,信息檢索是一個(gè)高頻需求,但由于業(yè)務(wù)系統(tǒng)眾多,管理人員在檢索信息時(shí)需要在不同業(yè)務(wù)系統(tǒng)間來(lái)回切換,且查詢內(nèi)容受業(yè)務(wù)系統(tǒng)的信息展示形式限制,信息檢索效率較低。
知識(shí)圖譜通過(guò)“實(shí)體-關(guān)系-實(shí)體”的三元組形式存儲(chǔ)知識(shí),實(shí)現(xiàn)了實(shí)體間關(guān)系網(wǎng)的構(gòu)建,采用圖檢索算法,破解了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)查詢時(shí)大量自連接操作導(dǎo)致的性能瓶頸。知識(shí)圖譜在水利行業(yè)已經(jīng)取得了諸多應(yīng)用,黃艷等[1]利用知識(shí)圖譜將文字性的調(diào)度規(guī)程數(shù)字化、邏輯化,便于防洪調(diào)度模型調(diào)用;王晨雨等[2]將知識(shí)圖譜應(yīng)用到全國(guó)取用水平臺(tái),提出了一套統(tǒng)一的取用水管理數(shù)據(jù)庫(kù)表結(jié)構(gòu)標(biāo)準(zhǔn),構(gòu)建了取用水管控一張圖;劉雪梅等[3]構(gòu)建了水利工程應(yīng)急方案知識(shí)圖譜,為應(yīng)急搶險(xiǎn)方案智能生成提供支撐;馮鈞等[4]提出一種基于知識(shí)圖譜的數(shù)字孿生流域知識(shí)體系架構(gòu),通過(guò)構(gòu)建水利管理對(duì)象關(guān)系圖譜形成流域全景式耦合網(wǎng)絡(luò)。目前,利用知識(shí)圖譜將水利行業(yè)大量難以結(jié)構(gòu)化的知識(shí)結(jié)構(gòu)化[5]以驅(qū)動(dòng)業(yè)務(wù)模型的應(yīng)用已經(jīng)取得了長(zhǎng)足的發(fā)展。但由于構(gòu)建專業(yè)領(lǐng)域知識(shí)圖譜需要大量業(yè)務(wù)數(shù)據(jù),知識(shí)圖譜應(yīng)用需要與自然語(yǔ)言處理技術(shù)深度融合,涉及大量交叉學(xué)科知識(shí),目前水利行業(yè)尚無(wú)系統(tǒng)深入研究。如何進(jìn)一步提升知識(shí)圖譜構(gòu)建及應(yīng)用效率,充分發(fā)揮其在數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)檢索方面的優(yōu)勢(shì),解決水資源取水許可領(lǐng)域數(shù)據(jù)匯集、統(tǒng)一搜索問(wèn)題,仍有待進(jìn)一步探索。
為此,本文通過(guò)構(gòu)建長(zhǎng)江流域取水許可知識(shí)圖譜,將分散在各個(gè)業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)統(tǒng)一匯集到圖數(shù)據(jù)庫(kù)中,采用少量水資源領(lǐng)域語(yǔ)料對(duì)百度預(yù)訓(xùn)練語(yǔ)言模型ERNIE進(jìn)行微調(diào),將微調(diào)后的模型用于實(shí)體提及識(shí)別及候選答案排序,結(jié)合BM25算法進(jìn)行實(shí)體鏈接,建立一套水資源取水許可領(lǐng)域知識(shí)圖譜問(wèn)答流水線方法,通過(guò)問(wèn)答系統(tǒng)實(shí)現(xiàn)取水許可信息“統(tǒng)一搜索,統(tǒng)一展示”,提升取水許可管理效率。在水利行業(yè)“數(shù)字孿生流域”建設(shè)大背景下,流域取水許可知識(shí)圖譜作為數(shù)字孿生平臺(tái)數(shù)據(jù)底板的重要組成部分,可為數(shù)據(jù)匯集、數(shù)據(jù)治理、數(shù)據(jù)挖掘等業(yè)務(wù)提供支撐。
1" 知識(shí)圖譜問(wèn)答理論
2012年,谷歌在語(yǔ)義網(wǎng)和本體論的基礎(chǔ)上,提出了知識(shí)圖譜(Knowledge Graph,KG)的概念,其通過(guò)節(jié)點(diǎn)與有向邊的形式對(duì)互聯(lián)網(wǎng)中復(fù)雜的數(shù)據(jù)進(jìn)行統(tǒng)一表征,在數(shù)據(jù)挖掘、分析、問(wèn)答系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用。知識(shí)圖譜根據(jù)其覆蓋范圍可分為開(kāi)放領(lǐng)域知識(shí)圖譜與垂直領(lǐng)域知識(shí)圖譜。在開(kāi)放領(lǐng)域,著名的英文知識(shí)圖譜項(xiàng)目有麻省理工學(xué)院發(fā)起的ConceptNet[6] 、基于維基百科發(fā)展而來(lái)的DBpedia[7]、谷歌的Freebase[8]、德國(guó)馬普研究所研制的YAGO[9]等;知名中文知識(shí)圖譜項(xiàng)目有復(fù)旦大學(xué)的CN-DBpedia[10]、中國(guó)中文信息學(xué)會(huì)語(yǔ)言與知識(shí)計(jì)算專業(yè)委員會(huì)發(fā)起的OpenKG[11]、搜狗“知立方”等。在垂直領(lǐng)域,知名知識(shí)圖譜項(xiàng)目有如NCBI建立的疾病基因知識(shí)圖譜CinVar[12]、IMDB構(gòu)建的電影領(lǐng)域知識(shí)圖譜[13]、中國(guó)中醫(yī)科學(xué)院構(gòu)建的中醫(yī)藥領(lǐng)域知識(shí)圖譜[14]等。
知識(shí)圖譜問(wèn)答(Knowledge Based Question Answering,KBQA)是以知識(shí)圖譜為數(shù)據(jù)源,通過(guò)識(shí)別問(wèn)題中的實(shí)體與關(guān)系,查詢知識(shí)圖譜返回精確答案的一類問(wèn)答系統(tǒng)。知識(shí)圖譜問(wèn)答系統(tǒng)需要識(shí)別提問(wèn)中的實(shí)體與關(guān)系,將其鏈接到知識(shí)圖譜上檢索答案,曹明宇等[15]構(gòu)建了原發(fā)性肝癌知識(shí)圖譜,采用TFIDF與Word2Vec詞向量匹配問(wèn)題模板,根據(jù)模板語(yǔ)義與實(shí)體檢索圖譜;杜澤宇等[16]采用CRF識(shí)別實(shí)體,結(jié)合模板匹配生成SPARQL查詢語(yǔ)句檢索的方式構(gòu)建電商領(lǐng)域知識(shí)圖譜問(wèn)答系統(tǒng),但基于模板匹配的方法其檢索準(zhǔn)確率受模板數(shù)量與種類限制,難以囊括繁雜的提問(wèn)方式。2017年,谷歌機(jī)器翻譯團(tuán)隊(duì)借鑒圖像處理領(lǐng)域的注意力機(jī)制構(gòu)建了transformer模型[17],在機(jī)器翻譯任務(wù)中取得了很好的效果。隨后谷歌基于transformer結(jié)構(gòu)提出了著名的預(yù)訓(xùn)練語(yǔ)言模型BERT(Bidirectional Encoder Representation from Transformers)[18],在多項(xiàng)NLP下游任務(wù)中取得了state-of-the-art結(jié)果,標(biāo)志著NLP進(jìn)入大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型時(shí)代。隨后,基于Bert的改進(jìn)模型XLnet[19]、RoBERTa[20]、ERNIE[21]等相繼出現(xiàn),不斷刷新NLP任務(wù)榜單。大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型通過(guò)大量語(yǔ)料的訓(xùn)練已經(jīng)具備下游任務(wù)的許多知識(shí),結(jié)合特定任務(wù)采用少量語(yǔ)料進(jìn)行微調(diào)(fine-tuning)即可取得不錯(cuò)的效果。隨著預(yù)訓(xùn)練語(yǔ)言模型的快速發(fā)展,學(xué)者們嘗試將其引入知識(shí)圖譜問(wèn)答領(lǐng)域,Zhang等[22]通過(guò)注意力機(jī)制來(lái)根據(jù)候選答案動(dòng)態(tài)生成問(wèn)題的向量表示;王鑫雷等[23]采用ERNIE進(jìn)行中文知識(shí)圖譜問(wèn)答系統(tǒng)實(shí)體提及識(shí)別及關(guān)系匹配。預(yù)訓(xùn)練模型提高了知識(shí)圖譜問(wèn)答系統(tǒng)結(jié)果匹配效率和準(zhǔn)確率,但對(duì)于水資源取水許可領(lǐng)域提問(wèn)及圖譜中存在大量同名、簡(jiǎn)稱、縮寫(xiě)的場(chǎng)景,由于語(yǔ)料匱乏,實(shí)體鏈接的精度仍無(wú)法滿足業(yè)務(wù)應(yīng)用需求。如何根據(jù)取水許可領(lǐng)域數(shù)據(jù)特點(diǎn),設(shè)計(jì)合適的知識(shí)圖譜schema,打造準(zhǔn)確率高、可解釋性強(qiáng)的專業(yè)知識(shí)圖譜問(wèn)答系統(tǒng),是通過(guò)知識(shí)圖譜解決取水許可領(lǐng)域信息檢索問(wèn)題的關(guān)鍵。
2" 長(zhǎng)江流域取水許可知識(shí)圖譜問(wèn)答系統(tǒng)
2.1" 長(zhǎng)江流域取水許可知識(shí)圖譜構(gòu)建
長(zhǎng)江流域覆蓋19個(gè)省、市、自治區(qū),現(xiàn)保有取水許可證約10萬(wàn)個(gè),水資源取水許可領(lǐng)域知識(shí)圖譜涉及實(shí)體眾多,關(guān)系復(fù)雜,數(shù)據(jù)量龐大,且對(duì)數(shù)據(jù)準(zhǔn)確率要求較高。本文采用自上而下的方式進(jìn)行長(zhǎng)江流域取水許可領(lǐng)域知識(shí)圖譜構(gòu)建,囊括取水許可證、取水許可項(xiàng)目、取水權(quán)人、取水口、監(jiān)測(cè)點(diǎn)等實(shí)體,通過(guò)ETL工具,將各個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行清洗、實(shí)體對(duì)齊后導(dǎo)入Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),知識(shí)圖譜schema如圖1所示。
2.2" 知識(shí)圖譜問(wèn)答系統(tǒng)模型與方法
長(zhǎng)江流域取水許可領(lǐng)域知識(shí)圖譜問(wèn)答系統(tǒng)主要由實(shí)體提及識(shí)別、實(shí)體鏈接、候選答案排序3個(gè)模塊構(gòu)成。系統(tǒng)結(jié)構(gòu)如圖2所示。
實(shí)體提及識(shí)別與候選答案排序采用百度自主研發(fā)的ERNIE 1.0預(yù)訓(xùn)練語(yǔ)言模型,ERNIE 是百度基于BERT改進(jìn)的預(yù)訓(xùn)練模型,ERNIE與BERT網(wǎng)絡(luò)結(jié)構(gòu)和預(yù)訓(xùn)練任務(wù)基本一致,均是基于多層transformer結(jié)構(gòu)采用完形填空和上下句判斷任務(wù)進(jìn)行預(yù)訓(xùn)練。區(qū)別在于,BERT在預(yù)訓(xùn)練階段是基于字粒度進(jìn)行mask,ERNIE將mask粒度擴(kuò)展到詞/實(shí)體粒度,如針對(duì)“三
峽大壩位于湖北宜昌。”這句話,BERT的mask方式為“[m]峽大壩位于湖北宜昌?!保珽RNIE的mask方式為“[m][m]大壩位于湖北宜昌?!保虼薊RNIE可以更多地學(xué)習(xí)到句子中mask信息里蘊(yùn)含的知識(shí),增強(qiáng)了模型的語(yǔ)義表示能力。
2.2.1" 實(shí)體提及識(shí)別
實(shí)體提及識(shí)別屬于NLP中的命名體識(shí)別任務(wù),在問(wèn)答系統(tǒng)中即基于預(yù)訓(xùn)練模型提取提問(wèn)中的實(shí)體,如針對(duì)提問(wèn)“城南水廠年取水量?”,需要模型提取出“城南水廠”這個(gè)實(shí)體。在構(gòu)建微調(diào)語(yǔ)料時(shí),首先對(duì)提問(wèn)采用BIO(B表示實(shí)體開(kāi)頭、I表示實(shí)體中間詞、O表示無(wú)關(guān)字)標(biāo)注法進(jìn)行序列標(biāo)注,“城南水廠年取水量”對(duì)應(yīng)的標(biāo)注下標(biāo)為“BIIIOOOO”。訓(xùn)練時(shí),將下標(biāo)轉(zhuǎn)化為對(duì)應(yīng)的字典id,與提問(wèn)拼接后通過(guò)ernie tokenizer轉(zhuǎn)化為輸入句子的向量表示(Token Embeddings)、區(qū)分不同句子的向量(Segment Embeddings)和標(biāo)識(shí)詞位置信息的向量(Position Ebeddings),構(gòu)建ERNIE的輸入張量。輸入首先通過(guò)多層雙向交互式transformer結(jié)構(gòu)組成的ERNIE網(wǎng)絡(luò),學(xué)習(xí)句子中的標(biāo)注信息,然后依次通過(guò)relu激活函數(shù)、dropout層和線性分類層前向傳播,最后通過(guò)字典轉(zhuǎn)化后即可得到預(yù)測(cè)標(biāo)注結(jié)果。實(shí)體提及識(shí)別模型結(jié)構(gòu)如圖3所示。
2.2.2" 候選實(shí)體鏈接
實(shí)體鏈接的作用是將識(shí)別出的實(shí)體指向知識(shí)圖譜中實(shí)體,通常需要無(wú)歧義的指向知識(shí)庫(kù)中的唯一實(shí)體,但水資源取水許可領(lǐng)域存在大量同名、簡(jiǎn)稱、縮寫(xiě)以及加上區(qū)劃前綴的實(shí)體,如“白沙洲、琴斷口水廠”既是取水許可證的名稱又是取水許可項(xiàng)目的名稱;“赤壁市三國(guó)酒業(yè)有限公司取水項(xiàng)目”“三國(guó)酒業(yè)有限公司取水項(xiàng)目”和“三國(guó)酒業(yè)取水項(xiàng)目”為同一取水許可證實(shí)體,直接通過(guò)名稱難以準(zhǔn)確鏈接到水資源取水許可領(lǐng)域知識(shí)圖譜。
為了克服實(shí)體別名問(wèn)題,通常采用構(gòu)建同義詞表或通過(guò)網(wǎng)絡(luò)檢索引入外部信息進(jìn)行實(shí)體消歧義[24-25],將各種不規(guī)則實(shí)體映射到規(guī)則實(shí)體上。構(gòu)建同義詞表需要大量完整的實(shí)體別名數(shù)據(jù),長(zhǎng)江流域水資源取水許可領(lǐng)域涉及省市眾多,語(yǔ)言習(xí)慣差異較大,難以構(gòu)建準(zhǔn)確的同義詞表,且由于數(shù)據(jù)安全等原因,無(wú)法通過(guò)互聯(lián)網(wǎng)檢索獲取別名實(shí)體。本文根據(jù)實(shí)體語(yǔ)義,結(jié)合圖譜信息,通過(guò)BM25文本匹配算法結(jié)合圖譜查詢篩選候選實(shí)體。BM25算法通過(guò)將文本query分詞為q1,q2,…,qn,將qi與待匹配文本Q的相似度累加之后計(jì)算query與Q的相似度:S(Q,query)=niwir(qi,Q)(1)
式中:S表示query與Q的相似度;r(qi,Q)表示qi與Q的相似度;wi表示qi在Q中的權(quán)重。
本文采用TF-IDF算法計(jì)算wi:wi=lnN+0.5ni+0.5(2)
式中:N表示候選實(shí)體總的詞數(shù);ni表示qi出現(xiàn)的頻次。
r(qi,Q)=fi(k1+1)fi+K·fqi(k2+1)fqi+k2(3)
式中:fi表示qi在Q中出現(xiàn)的頻率;fqi表示qi在query中出現(xiàn)的頻率;k1,k2為調(diào)節(jié)因子,K為候選實(shí)體長(zhǎng)度考慮因子。
K=k1·1-b+b·ldl—d(4)
式中:b為調(diào)節(jié)因子;ld表示候選實(shí)體長(zhǎng)度;l—d為候選實(shí)體平均長(zhǎng)度。
在進(jìn)行實(shí)體鏈接時(shí),首先將識(shí)別出的實(shí)體通過(guò)分詞工具進(jìn)行分詞,如“赤壁市三國(guó)酒業(yè)有限公司取水項(xiàng)目”分為“赤壁市”“三國(guó)”“酒業(yè)”“有限公司”“取水”“項(xiàng)目”,忽略“有限公司”“取水”“項(xiàng)目”等取水許可領(lǐng)域常見(jiàn)高頻詞,以“赤壁市”“三國(guó)”“酒業(yè)”為關(guān)鍵詞,通過(guò)Neo4j圖數(shù)據(jù)庫(kù)查詢語(yǔ)言Cypher查詢圖譜獲取候選實(shí)體。通過(guò)BM25算法計(jì)算識(shí)別出的實(shí)體與候選實(shí)體的相似度并進(jìn)行排序,保留相似度較大的實(shí)體作為實(shí)體鏈接的候選實(shí)體。
2.2.3" 關(guān)系匹配
關(guān)系匹配是將候選實(shí)體、關(guān)系headi,relationi與提問(wèn)中實(shí)體、關(guān)系headq,relationq進(jìn)行匹配,篩選答案三元組heada,relationa,taila的過(guò)程。本文將關(guān)系匹配問(wèn)題轉(zhuǎn)化為文本相似度計(jì)算問(wèn)題,基于ERNIE構(gòu)建候選實(shí)體、關(guān)系與提問(wèn)的相似度匹配模型,將相似度最高的候選實(shí)體、關(guān)系對(duì)應(yīng)的尾實(shí)體作為答案返回。
在提問(wèn)中往往會(huì)含有如“我想知道”“是什么”“呢”“?”等為了保持語(yǔ)句通順的停用詞,其包含語(yǔ)義信息較少,但會(huì)影響模型的訓(xùn)練速度與準(zhǔn)確率,本文將提問(wèn)中的停用詞過(guò)濾掉,構(gòu)建待匹配問(wèn)句queryA,將候選實(shí)體與關(guān)系拼接組成待匹配關(guān)系queryk,則答案answer為
answer=tailk where Score(queryA,queryk)=maxScore(queryA,queryi)i=1,2,…,n(5)
式中:tailk為相似度最高的候選實(shí)體、關(guān)系對(duì)應(yīng)的尾實(shí)體;Score表示模型[CLS]輸出的相似度。
在圖譜中同一頭實(shí)體的同一關(guān)系對(duì)應(yīng)的尾實(shí)體可能會(huì)有多個(gè),此時(shí)上式中的k不是單個(gè)值,而是一個(gè)數(shù)組,即k=k1,k2,…,kt,t∈n,此時(shí)需要把k對(duì)應(yīng)的尾實(shí)體組合起來(lái)作為問(wèn)題的答案。
如針對(duì)問(wèn)題“我想知道三國(guó)酒業(yè)有限公司取水項(xiàng)目的年取水量?”,識(shí)別并鏈接到知識(shí)圖譜中的取水許可證實(shí)體“赤壁市三國(guó)酒業(yè)有限公司取水項(xiàng)目”,該實(shí)體具有“位于”“發(fā)證日期”“發(fā)證機(jī)關(guān)”“發(fā)證時(shí)間”“年取水量”等關(guān)系,分別計(jì)算去掉停用詞的問(wèn)句“三國(guó)酒業(yè)有限公司取水項(xiàng)目的年取水量”,和鏈接實(shí)體與關(guān)系組成的待匹配問(wèn)句“赤壁市三國(guó)酒業(yè)有限公司取水項(xiàng)目位于”“赤壁市三國(guó)酒業(yè)有限公司取水項(xiàng)目發(fā)證日期”等的文本相似度,取相似度最高的匹配關(guān)系“年取水量”對(duì)應(yīng)尾實(shí)體為問(wèn)題的答案。
文本相似度匹配模型如圖4所示。
2.3" 實(shí)驗(yàn)與結(jié)果分析
為驗(yàn)證本文所提方法的有效性,將數(shù)據(jù)集分為實(shí)體提及識(shí)別微調(diào)數(shù)據(jù)集、文本相似度計(jì)算微調(diào)數(shù)據(jù)集、問(wèn)答系統(tǒng)測(cè)試數(shù)據(jù)集。其中實(shí)體提及識(shí)別和文本相似度ERNIE模型采用NLPCC2018比賽公開(kāi)數(shù)據(jù)集加入少量取水許可領(lǐng)域自建數(shù)據(jù)集進(jìn)行微調(diào),并采用BERT模型與ERNIE模型進(jìn)行對(duì)比,結(jié)果如表1和圖5~6所示。
由圖表可知,對(duì)比實(shí)體提及識(shí)別和文本相似度模塊分別采用Bert和Ernie模型微調(diào)時(shí)的F1值變化趨勢(shì),在模型微調(diào)初始階段,Ernie F1值稍高于Bert,微調(diào)訓(xùn)練后Ernie 和Bert模型針對(duì)兩類任務(wù)均具有較好的表現(xiàn),F(xiàn)1值差距在0.5%之內(nèi),針對(duì)微調(diào)訓(xùn)練語(yǔ)料較少場(chǎng)景,使用Bert模型會(huì)有更好的表現(xiàn)。
為驗(yàn)證問(wèn)答系統(tǒng)在實(shí)際應(yīng)用場(chǎng)景下的回答準(zhǔn)確率,本文從各個(gè)業(yè)務(wù)系統(tǒng)的查詢模塊日志中獲取用戶查詢的取水權(quán)人、取水許可項(xiàng)目、取水許可證等實(shí)體對(duì)象,去重后人工構(gòu)造口語(yǔ)化查詢語(yǔ)句810條,實(shí)驗(yàn)準(zhǔn)確率為90.37%。
基于本文提出的流水線方法,開(kāi)發(fā)了基于BS架構(gòu)的Web問(wèn)答系統(tǒng)客戶端,在搜索欄輸入查詢問(wèn)題,可直接返回準(zhǔn)確答案。搜索界面如圖7所示。
3" 結(jié) 論
本文建立了長(zhǎng)江流域取水許可知識(shí)圖譜,提出了一套適用于取水許可領(lǐng)域的知識(shí)圖譜問(wèn)答流水線方法,并基于ERNIE預(yù)訓(xùn)練模型構(gòu)建了基于長(zhǎng)江流域取水許可領(lǐng)域問(wèn)答模型,通過(guò)對(duì)ERNIE和BERT兩種主流預(yù)訓(xùn)練模型的對(duì)比,得出以下結(jié)論:(1) 基于預(yù)訓(xùn)練模型的實(shí)體提及識(shí)別、實(shí)體鏈接、文本相似度流水線方法知識(shí)圖譜問(wèn)答模型具有較高的準(zhǔn)確率,可滿足水資源取水許可管理業(yè)務(wù)日常檢索需求。
(2) 針對(duì)水資源取水領(lǐng)域的實(shí)體提及識(shí)別和文本相似度任務(wù),ERNIE與BERT精度差距較小,在微調(diào)語(yǔ)料較少的中文任務(wù)中可優(yōu)先采用ERNIE模型。
本文提出的流水線方法仍較為復(fù)雜,隨著以Chat-gpt為代表的生成式大語(yǔ)言模型的發(fā)展,以知識(shí)圖譜作為數(shù)據(jù)支撐,采用大語(yǔ)言模型進(jìn)行端到端的問(wèn)答模型將簡(jiǎn)化問(wèn)答系統(tǒng)構(gòu)建流程,并進(jìn)一步提高復(fù)雜問(wèn)題的回答準(zhǔn)確率,應(yīng)用方向從知識(shí)檢索擴(kuò)展到方案推薦、智慧決策等,可為知識(shí)圖譜問(wèn)答模型帶來(lái)新的變革。
參考文獻(xiàn):[1]" 黃艷,張振東,李琪,等.智慧長(zhǎng)江建設(shè)關(guān)鍵技術(shù)難點(diǎn)與解決方案的思考與探索[J].水利學(xué)報(bào),2023,54(10):1141-1150.
[2]" 王晨雨,劉慶濤,沈紅霞.知識(shí)圖譜技術(shù)在全國(guó)取用水平臺(tái)的應(yīng)用[J].水利信息化,2023(4):7-13,27.
[3]" 劉雪梅,盧漢康,李海瑞,等.知識(shí)驅(qū)動(dòng)的水利工程應(yīng)急方案智能生成方法:以南水北調(diào)中線工程為例[J].水利學(xué)報(bào),2023,54(6):666-676.
[4]" 馮鈞,朱躍龍,王云峰,等.面向數(shù)字孿生流域的知識(shí)平臺(tái)構(gòu)建關(guān)鍵技術(shù)[J].人民長(zhǎng)江,2023,54(3):229-235.
[5]" 覃煬揚(yáng),郭俊,劉懿,等.數(shù)字孿生流域知識(shí)圖譜構(gòu)建及其應(yīng)用[J].水利水電快報(bào),2023,44(11):115-120.
[6]" SPEER R,HAVASI C.Representing general relational knowledge in conceptNet 5[C]∥International Conference on Language Resources and Evaluation,2012:3679-3686.
[7]" AUER S,BIZER C,KOBILAROV G,et al.Dbpedia:a nucleus for a web of open data[C]∥International Semantic Web Conference.Berlin,Heidelberg:Springer Berlin Heidelberg,2007:722-735.
[8]" BOLLACKER K,EVANS C,PARITOSH P,et al.Freebase:a collaboratively created graph database for structuring human knowledge[C]∥Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data,2008:1247-1250.
[9]" SUCHANEK F M,KASNECI G,WEIKUM G.Yago:a large ontology from wikipedia and wordnet[J].Journal of Web Semantics,2008,6(3):203-217.
[10]XU B,LIANG J,XIE C,et al.CN-DBpedia2:an extraction and verification framework for enriching Chinese encyclopedia knowledge base[J].Data Intelligence,2019,1(3):271-288.
[11]CHEN H,HU N,QI G,et al.Openkg chain:a blockchain infrastructure for open knowledge graphs[J].Data Intelligence,2021,3(2):205-227.
[12]MOY F J,HARAKI K,MOBILIO D,et al.MS/NMR:a structure-based approach for discovering protein ligands and for drug design by coupling size exclusion chromatography,mass spectrometry,and nuclear magnetic resonance spectroscopy[J].Analytical Chemistry,2001,73(3):571-581.
[13]陸曉華,張宇,錢(qián)進(jìn).基于圖數(shù)據(jù)庫(kù)的電影知識(shí)圖譜應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016(7):76-83.
[14]賈李蓉,劉靜,于彤,等.中醫(yī)藥知識(shí)圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(8):51-53,59.
[15]曹明宇,李青青,楊志豪,等.基于知識(shí)圖譜的原發(fā)性肝癌知識(shí)問(wèn)答系統(tǒng)[J].中文信息學(xué)報(bào),2019,33(6):88-93.
[16]杜澤宇,楊燕,賀樑.基于中文知識(shí)圖譜的電商領(lǐng)域問(wèn)答系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2017,34(5):153-159.
[17]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need[C]∥Advances in Neural Information Processing Systems,2017:5998-6008.
[18]DEVLIN J,CHANG M W,LEE K,et al.Bert:pre-training of deep bidirectional transformers for language understanding[J].arXiv Preprint arXiv,2018:1810.04805.
[19]YANG Z,DAI Z,YANG Y,et al.Xlnet:generalized autoregressive pretraining for language understanding[C]∥Advances in Neural Information Processing Systems,2019:5753-5763.
[20]LIU Y,OTT M,GOYAL N,et al.Roberta:a robustly optimized bert pretraining approach[J].arXiv Preprint arXiv,2019:1907.11692.
[21]ZHANG Z,HAN X,LIU Z,et al.ERNIE:enhanced language representation with informative entities[J].arXiv Preprint arXiv,2019:1905.07129.
[22]ZHANG Y,LIU K,HE S,et al.Question answering over knowledge base with neural attention combining global knowledge information[J].arXiv Preprint arXiv,2016:1606.00979.
[23]王鑫雷,李帥馳,楊志豪,等.基于預(yù)訓(xùn)練語(yǔ)言模型的中文知識(shí)圖譜問(wèn)答系統(tǒng)[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,43(4):955-962.
[24]懷寶興,寶騰飛,祝恒書(shū),等.一種基于概率主題模型的命名實(shí)體鏈接方法[J].軟件學(xué)報(bào),2014,25(9):2076-2087.
[25]譚詠梅,楊雪.結(jié)合實(shí)體鏈接與實(shí)體聚類的命名實(shí)體消歧[J].北京郵電大學(xué)學(xué)報(bào),2014,37(5):36-40.
(編輯:謝玲嫻)
Knowledge graph Q amp; A system of water intake permission based on pre-trained language model in Changjiang River Basin
ZENG Dejing1,2,3,ZHANG Jun1,2,3,CAO Weihua4,5,6,GUAN Danggen1,2,3,XU Jin1,2,3,LI Yupeng4,5,6
(1.Network and Information Center,Changjiang Water Resources Commission,Wuhan 430010,China;
2.Smart Yangtze River Innovation Team of Changjiang Water Resources Commission,Wuhan 430010,China;
3.Technology Innovation Center of Digital Enablement for River Basin Management,Changjiang Water Resources Commission,Wuhan 430010,China;
4.School of Automation,China University of Geosciences,Wuhan 430074,China;
5.Hubei Key Laboratory of Advanced Control and Intelligent Automation for Complex Systems,Wuhan 430074,China;
6.Engineering Research Center of Intelligent Technology for Geo-Exploration of Ministry of Education,Wuhan 430074,China)
Abstract:
With the continuous increase of management requirements in the field of water intake permission,the traditional information management system of water intake permission is difficult to meet the complex information retrieval needs,which restricts the improvement of meticulous management in water resources.A knowledge graph of water intake permission in the Changjiang River Basin is established to break the information silo between systems and improve the efficiency of information retrieval in water intake permission,and a knowledge graph Q amp; A including entity mention recognition,entity link,relational matching and other functions is proposed based on a large-scale pre-trained language model.According to the characteristics of data in water intake permission domain,BM25 algorithm is used to sort candidate entities to construct a knowledge base question answering system in the Changjiang River Basin,and a Web client is developed based on BS framework.The experiment shows that the system achieves an accuracy rate of 90.37% on the test set,which can support the retrieval needs in the field of water intake permission in the Changjiang River Basin.
Key words:
water intake permission; knowledge graph; pre-trained language model; question answering system; water resources; Changjiang River Basin