張軍琿 黃希揚 桂明宇 昝紅英 張坤麗
摘 要:構(gòu)建水利領(lǐng)域的知識圖譜可為數(shù)字孿生水利工程建設(shè)提供結(jié)構(gòu)化的知識支持?;邳S河小浪底、萬家寨水利樞紐預報調(diào)度、工程安全、業(yè)務(wù)規(guī)則數(shù)據(jù),使用實體識別和關(guān)系抽取模型構(gòu)建面向數(shù)字孿生工程的水利知識圖譜(KG4DT),并對圖譜進行可視化展示。以水利樞紐為核心確定實體分類體系及關(guān)系分類體系,構(gòu)建KG4DT 的模式層。使用二次開發(fā)的標注平臺對非結(jié)構(gòu)化文本進行半自動標注和人工校對,構(gòu)建KG4DT 的數(shù)據(jù)層。以黃河小浪底和萬家寨水利樞紐防洪、減淤、供水、發(fā)電業(yè)務(wù)為主線,結(jié)合AC 自動機等技術(shù)設(shè)計知識檢索、預案自動生成應(yīng)用,可為工程運行提供智能決策支撐。
關(guān)鍵詞:水利知識圖譜;數(shù)字孿生;知識描述體系;應(yīng)用
中圖分類號:TV61;TP391 文獻標志碼:A doi:10.3969/ j.issn.1000-1379.2024.04.020
引用格式:張軍琿,黃希揚,桂明宇,等.面向數(shù)字孿生工程的水利知識圖譜構(gòu)建及應(yīng)用[J].人民黃河,2024,46(4):121-124,130.
水利部把智慧水利建設(shè)作為推動新階段水利高質(zhì)量發(fā)展的六條實施路徑之一。2021 年10—11 月,水利部印發(fā)《關(guān)于大力推進智慧水利建設(shè)的指導意見》和《“十四五”期間推進智慧水利建設(shè)實施方案》等文件。隨著水利信息化的不斷發(fā)展,水利樞紐工程積累了海量的異構(gòu)數(shù)據(jù),這些數(shù)據(jù)存在內(nèi)容分散、利用效率低等問題。
知識圖譜的概念于2012 年5 月由Google 提出,知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)(semantic network),網(wǎng)絡(luò)中的節(jié)點代表實體(entity)或者概念(concept),邊代表實體或概念之間的各種語義關(guān)系[1] 。采用知識圖譜可以從海量異構(gòu)數(shù)據(jù)中提取結(jié)構(gòu)化知識,同時知識圖譜可與各個行業(yè)的下游應(yīng)用相結(jié)合。例如,醫(yī)學知識圖譜可以為醫(yī)療問答系統(tǒng)提供醫(yī)學知識支持,期貨知識圖譜可用于文本分析、輿情監(jiān)控和推理決策[2] 。在智慧水利建設(shè)中知識圖譜有著廣泛應(yīng)用。例如,依據(jù)水利行業(yè)業(yè)務(wù)需求和流域管理特征,采用知識圖譜可進行空間查詢服務(wù)、智能問答等[3-6] 。然而,現(xiàn)有的水利知識圖譜存在知識涵蓋范圍較小、與實際業(yè)務(wù)聯(lián)系不緊密等問題。為此,本文構(gòu)建一種面向數(shù)字孿生工程的水利知識圖譜(KG4DT),使用實體識別和關(guān)系抽取技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)中提取實體、屬性等并建立鏈接,圍繞預報調(diào)度、工程安全、庫區(qū)管理等核心業(yè)務(wù),結(jié)合小浪底和萬家寨水利樞紐(萬家寨水利樞紐是黃河中游治理開發(fā)的關(guān)鍵工程,地位極其重要,被水利部列為數(shù)字孿生水利工程建設(shè)先行先試重點工程。小浪底水利樞紐是黃河干流的關(guān)鍵控制性工程。)防洪、減淤、供水、發(fā)電業(yè)務(wù)主線,為數(shù)字孿生水利工程提供知識檢索、預案自動生成等應(yīng)用。
1 KG4DT 整體框架
KG4DT 構(gòu)建和應(yīng)用整體框架見圖1,數(shù)據(jù)資源層和知識抽取層為KG4DT 構(gòu)建部分,應(yīng)用服務(wù)層為KG4DT 應(yīng)用部分。整體框架分為3 層,下層為上層提供服務(wù),其中數(shù)據(jù)資源層包含3 類原始數(shù)據(jù),原始數(shù)據(jù)經(jīng)過知識抽取層處理后,為上層應(yīng)用服務(wù)層提供結(jié)構(gòu)化的知識支持,應(yīng)用服務(wù)層為用戶提供知識檢索、預案自動生成等應(yīng)用。
KG4DT 中原始數(shù)據(jù)為黃河小浪底、萬家寨水利樞紐相關(guān)數(shù)據(jù)。根據(jù)業(yè)務(wù)應(yīng)用的不同,將收集的數(shù)據(jù)分為3 類,分別為:1)預報調(diào)度數(shù)據(jù)。其包括防洪預報調(diào)度方案、調(diào)水調(diào)沙方案、汛末蓄水方案、超標洪水應(yīng)急預報調(diào)度方案等相關(guān)數(shù)據(jù)。通過對水文氣象監(jiān)測數(shù)據(jù)進行分析,結(jié)合水利工程的水文、水資源等特征,可對潛在的水災害風險進行預測并制定科學合理的水資源調(diào)度方案,從而保障水資源的合理利用以及減少水災害的發(fā)生。2)工程安全數(shù)據(jù)。其包括工程風險隱患、隱患事故案例、事件處置案例、工程安全會商等相關(guān)數(shù)據(jù)。根據(jù)結(jié)構(gòu)化工程安全知識可以在出現(xiàn)工程安全隱患時快速檢索應(yīng)急預案,提高應(yīng)急處置能力。3)業(yè)務(wù)規(guī)則數(shù)據(jù)。其包括工程調(diào)度運用規(guī)程、機電設(shè)備運行規(guī)程、工程安全監(jiān)測資料整編規(guī)程等相關(guān)數(shù)據(jù)。規(guī)程主要是水利工程建設(shè)、管理等業(yè)務(wù)活動中的制度性規(guī)定,確保水利工程安全、高效、可持續(xù)運營。
2 KG4DT 具體構(gòu)建過程與方法
KG4DT 具體構(gòu)建過程分為模式層構(gòu)建和數(shù)據(jù)層構(gòu)建,見圖2。模式層制定知識描述體系,數(shù)據(jù)層通過實體關(guān)系三元組對模式層各類知識的定義進行表達。
2.1 模式層構(gòu)建
模式層的構(gòu)建首先需要對收集的預報調(diào)度方案、業(yè)務(wù)規(guī)則等進行整理分析。將模式層分為3 個部分:預報調(diào)度知識描述體系、工程安全知識描述體系、業(yè)務(wù)規(guī)則知識描述體系。3 類知識描述體系中部分實體關(guān)系定義見表1,各體系的實體關(guān)系側(cè)重點不同,例如,雖然預報調(diào)度和工程安全的核心實體均是“水庫”,但是預報調(diào)度的重點是對潛在的水災害風險進行預測并制定科學合理的水資源調(diào)度方案,因此在預報調(diào)度知識描述體系中“水庫”應(yīng)與“水位”建立關(guān)系,根據(jù)水庫水位的變化生成防汛預案。工程安全包含水利樞紐各結(jié)構(gòu)和各系統(tǒng)的安全事件處置經(jīng)驗,因此工程安全知識描述體系側(cè)重于對水庫—位置等實體關(guān)系進行描述。根據(jù)各體系知識種類以及應(yīng)用的不同,分別建立不同實體之間的關(guān)系,形成包含實體分類體系和關(guān)系分類體系的知識描述體系,即完成模式層的構(gòu)建。
2.2 數(shù)據(jù)層構(gòu)建
數(shù)據(jù)層的構(gòu)建需要對采集的數(shù)據(jù)進行半自動標注和人工校對。在數(shù)據(jù)標注過程中,為了確保標注效率和標注的一致性,借鑒醫(yī)學實體關(guān)系標注平臺[7] ,結(jié)合水利領(lǐng)域知識進行二次開發(fā),形成面向水利領(lǐng)域的實體關(guān)系標注平臺。采用多輪交叉標注方式在該平臺對知識庫中的實體及實體關(guān)系進行標注,采用基于規(guī)則的方法對非結(jié)構(gòu)化數(shù)據(jù)進行實體識別,采用深度學習方法對非結(jié)構(gòu)化數(shù)據(jù)進行實體關(guān)系的自動抽取。本文采用Bi-LSTM-CRF 模型進行實體識別、采用PCNN模型進行關(guān)系抽取。Bi-LSTM-CRF 模型由雙向長短期記憶網(wǎng)絡(luò)(LSTM)和條件隨機場(CRF)組成,該模型能夠捕獲句子的雙向信息,降低對詞向量的依賴。PCNN 模型能夠?qū)嶓w的特征分布進行編碼,有效提高關(guān)系抽取的準確率。實體識別及關(guān)系抽取過程見圖3。
在采集的數(shù)據(jù)中,除文本數(shù)據(jù)外還存在一定數(shù)量的圖表數(shù)據(jù),這些數(shù)據(jù)包含結(jié)構(gòu)化的水利知識,可為知識檢索應(yīng)用提供支撐,須對圖表數(shù)據(jù)進行單獨處理。將單獨的表格或圖片定義為一個實體,圖表的題目即為實體名稱。將圖表的實體名稱存入Neo4j 數(shù)據(jù)庫,再將原始圖表的基礎(chǔ)信息存入MySQL 數(shù)據(jù)庫,兩者之間通過唯一的實體名稱相關(guān)聯(lián),在知識檢索應(yīng)用中通過對圖表題目進行模糊匹配即可展示出對應(yīng)的圖表。
2.3 KG4DT 可視化展示
KG4DT 中共有70 類水利實體概念、108 類實體關(guān)系、12 908 個實體關(guān)系三元組,其中預報調(diào)度實體概念28 類、實體關(guān)系28 類,工程安全實體概念21 類、實體關(guān)系50 類,業(yè)務(wù)規(guī)則實體概念21 類、實體關(guān)系30 類。為了直觀反映KG4DT 中各概念之間的關(guān)系,設(shè)計KG4DT 可視化展示平臺,見圖4。通過系統(tǒng)頁面的搜索框可以檢索到各類水利實體,并以查詢的實體為中心,鏈接與其相關(guān)的各類實體。
3 KG4DT 具體應(yīng)用
數(shù)字孿生水利工程通過與物理工程的同步仿真運行以及對各種軟硬件設(shè)備的實時監(jiān)控,可提高水利樞紐綜合監(jiān)管能力。通過對小浪底和萬家寨水利樞紐防洪、減淤、供水、發(fā)電業(yè)務(wù)主線的分析,結(jié)合工程管理實際業(yè)務(wù)需求,設(shè)計知識檢索、預案自動生成等應(yīng)用。
3.1 知識檢索
水利樞紐工作人員通過知識檢索功能可以快速查詢預報調(diào)度方案、工程安全和業(yè)務(wù)規(guī)則等水利知識,以提高工作效率、促進知識分享、快速決策和規(guī)劃。知識檢索界面見圖5。
知識檢索功能的實現(xiàn)基于AC 自動機( Aho -Corasick automaton)和Neo4j 數(shù)據(jù)庫。AC 自動機是一種高效的字符串多模式匹配算法,其核心思想是將KMP 算法的失配指針應(yīng)用于Trie 樹中,實現(xiàn)對所有模式串的單次文本串掃描,并輸出匹配結(jié)果。例如:給定一個有限模式集{水庫回水長度,小浪底水庫排沙,小浪底水利樞紐,庫容峰值}和待檢索問題“小浪底水利樞紐的水庫回水長度是多少?”,首先為模式集創(chuàng)建AC 自動機(見圖6),然后對AC 自動機上所有的節(jié)點構(gòu)造失配指針,失配指針表見表2。在匹配階段,AC自動機會從待檢索問題的第一個字符開始匹配,如果當前字符可以轉(zhuǎn)移到下一個節(jié)點,則繼續(xù)匹配下一個字符。如果匹配失敗,AC 自動機就會查找失配指針表,跳轉(zhuǎn)到下一個可能匹配的位置。如果到達某個節(jié)點時,這個節(jié)點表示一個模式串的結(jié)尾,則說明匹配成功,可以記錄下這個模式串的位置和長度。最終AC自動機檢索出頭實體“小浪底水利樞紐”和關(guān)系“水庫回水長度”,根據(jù)檢索出的頭實體在Neo4j 數(shù)據(jù)庫中進行條件查詢并返回查詢結(jié)果。
3.2 預案自動生成
預案自動生成功能具有重要的實際意義,針對實時監(jiān)測和預測的水庫水雨情和工情數(shù)據(jù),采用基于規(guī)則的方法將數(shù)據(jù)與KG4DT 中的匹配內(nèi)容進行對比,做出邏輯判斷后生成防汛預案。以小浪底水利樞紐為例,預報預警匹配規(guī)則見表3,把小浪底水利樞紐、西霞院工程防汛預警劃分為Ⅰ、Ⅱ、Ⅲ、Ⅳ共4 個等級。
預案生成過程分為兩步:第一步為判別響應(yīng)等級,第二步為自動生成預案。判別響應(yīng)等級時應(yīng)依據(jù)調(diào)度方案期內(nèi)各水文站的最高水位和流量,若同時有多個水位、流量達到不同等級,則取最高等級。預案自動生成案例見圖7,采集的實測和預測入庫流量、出庫流量、水位數(shù)據(jù)以圖表形式可視化展示,將這些數(shù)據(jù)與預報預警匹配規(guī)則匹配后,自動判別對應(yīng)的響應(yīng)等級。生成的預案包括4 個部分,分別為水情形勢、工程安全研判、樞紐運用方案和安全舉措。例如,根據(jù)“2021 年秋汛洪水100508-按調(diào)令出庫”調(diào)度方案,在調(diào)度時間范圍內(nèi)小浪底水庫預測最高水位為273.82 m、預測最大出庫流量為4 012 m3 / s,潼關(guān)水文站預測最大流量為8 200 m3 / s,系統(tǒng)自動預判啟動Ⅲ級應(yīng)急響應(yīng)。預案中水情形勢展示內(nèi)容為小浪底、西霞院、三門峽水庫水位和潼關(guān)、花園口、利津水文站流量;工程安全研判內(nèi)容為水庫預警、水文站預警和工程監(jiān)測指標預警信息;樞紐運用方案內(nèi)容為機組、孔洞的運用條件和運行狀態(tài);安全舉措中應(yīng)急響應(yīng)內(nèi)容為“小浪底管理中心防汛領(lǐng)導小組全體人員在6 h 內(nèi)抵達樞紐管理區(qū),統(tǒng)籌部署防汛工作。開發(fā)公司防汛指揮部全體人員及防汛工作人員在6 h 內(nèi)抵達樞紐管理區(qū),按照防汛預案開展巡查監(jiān)測及通信后勤保障工作,做好搶險準備。投資公司防汛指揮部分管旅游公司的副總指揮、防辦、旅游公司負責人及防汛相關(guān)工作人員在6 h內(nèi)抵達樞紐管理區(qū),按照預案開展防汛工作”,還包括公司職責、搶險隊伍、物資保障等。用戶可分別對以上預案內(nèi)容進行篩選查閱,以獲得細粒度預案信息。
4 結(jié)束語
本文描述了面向數(shù)字孿生工程的水利知識圖譜構(gòu)建以及應(yīng)用過程。首先在模式層構(gòu)建中整合3 類水利文本,然后在分析水利文本結(jié)構(gòu)的基礎(chǔ)上,經(jīng)水利領(lǐng)域?qū)<抑笇гO(shè)計圖譜描述體系,在數(shù)據(jù)層中通過多輪迭代的方式標注文本,同時使用深度學習方法進行實體關(guān)系自動抽取,對人工和自動標注的三元組進行校對。最后結(jié)合小浪底、萬家寨水利樞紐實際業(yè)務(wù)場景設(shè)計了知識檢索、預案生成等應(yīng)用。本文構(gòu)建的KG4DT 可以讓決策者更加快捷方便地辨識調(diào)度相關(guān)信息,通過任何一個實體搜索獲得其完整的知識體系,為工程安全、防洪調(diào)度提供數(shù)據(jù)查詢分析。
參考文獻:
[1] 王萌,王昊奮,李博涵,等.新一代知識圖譜關(guān)鍵技術(shù)綜述[J].計算機研究與發(fā)展,2022,59(9):1947-1965.
[2] 李雯昕.期貨領(lǐng)域知識圖譜的構(gòu)建研究[D].鄭州:鄭州大學,2022:20-28.
[3] 曾曉玲,張弓.基于黃河資源整合共享的知識圖譜研究和應(yīng)用[J].人民黃河,2021,43(增刊2):282-284.
[4] 劉建華,岳銘睿.黃河流域生態(tài)保護和高質(zhì)量發(fā)展研究知識圖譜分析[J].人民黃河,2021,43(7):7-12,23.
[5] 高鳳寧,高祥濤,曹帥,等.面向智能搜索應(yīng)用的水利知識圖譜構(gòu)建[J].江蘇水利,2021(10):59-64.
[6] 馮鈞,徐新,陸佳民.水利信息知識圖譜的構(gòu)建與應(yīng)用[J].計算機與現(xiàn)代化,2019(9):35-40.
[7] 張坤麗,趙旭,關(guān)同峰,等.面向醫(yī)療文本的實體及關(guān)系標注平臺的構(gòu)建及應(yīng)用[J].中文信息學報,2020,34(6):36-44.
【責任編輯 栗 銘】
基金項目:河南省科技攻關(guān)項目(232102211033,232102211039)