王 晴, 黃 進, 劉 鑫, 翟樹紅, 方 錚, 李劍波
1(西南交通大學 電氣工程學院, 成都 611756)
2(四川省自然資源資料館, 成都 611756)
3(四川省國土科學技術研究院, 成都 611756)
4(西南交通大學 計算機與人工智能學院, 成都 611756)
新時代中國特色社會主義, 提出需要堅持“創(chuàng)新、協(xié)調(diào)、綠色、開放、共享”的新發(fā)展理念, 因此地質(zhì)調(diào)查工作需要及時進行轉型升級, 同時堅持公益性、基礎性、戰(zhàn)略性的精準定位也十分重要[1]. 地質(zhì)資料主要包括成果資料、原始資料和實物資料3種類型, 同時,地質(zhì)資料也是地質(zhì)工作記錄和成果的表現(xiàn)方式. 本文主要以館藏成果地質(zhì)資料為研究對象, 利用爬蟲技術、命名實體識別、關系抽取、屬性抽取等相關技術和Neo4j圖數(shù)據(jù)庫來構建成果地質(zhì)領域知識圖譜. 知識圖譜是一種結構化的語義網(wǎng)絡知識庫[2], 其主要的目的是提高搜索引擎的能力, 增強用戶的搜索質(zhì)量以及搜索體驗[3]. 國內(nèi), 百度、搜狗等將知識圖譜的研究從概念轉向產(chǎn)品應用[4]. 陸汝鈐院士提出了知見的概念[5]、Chen等人提出了AgriKG, 將知識圖譜應用于農(nóng)業(yè)領域, 構建了農(nóng)業(yè)知識圖譜[6]. 國外也已有較多重要的知識圖譜研究成果, 如Google Knowledge Graph、DBpedia、YAGO和Freebase等[7].
館藏成果地質(zhì)資料指的是地質(zhì)資料匯交人將成果地質(zhì)資料按照規(guī)定要求提交后, 由館藏機構對其進行保存和提供利用的成果地質(zhì)資料. 館藏成果地質(zhì)資料不僅是國家重要的基礎性信息資源, 同時也是社會化的公共產(chǎn)品. 本文主要以館藏成果地質(zhì)資料為對象來構建地質(zhì)資料領域知識圖譜. 首先獲取成果地質(zhì)資料領域復雜多樣的知識, 然后探索成果地質(zhì)資料領域知識圖譜的構建方法, 設計成果地質(zhì)資料知識圖譜的地質(zhì)實體和關系, 通過知識圖譜可以清晰地了解到地質(zhì)礦產(chǎn)與地理區(qū)域、組織機構的關系. 本文的貢獻主要如下:
(1)利用序列標注工具構建了成果地質(zhì)資料領域的語料庫, 其中包含了礦產(chǎn)名稱、組織機構、地理區(qū)域等相關語料實體.
(2)利用命名實體識別、關系抽取等相關技術將成果地質(zhì)資料領域的文本中的非結構化數(shù)據(jù)轉化為結構化數(shù)據(jù).
(3)利用Neo4j圖形化數(shù)據(jù)庫構建了成果地質(zhì)礦產(chǎn)領域的知識圖譜. 這是首次將知識圖譜技術應用于成果地質(zhì)資料領域.
知識圖譜主要可以分為通用知識圖譜和行業(yè)知識圖譜[8]. 本文主要根據(jù)四川省自然資源資料館提供的館藏成果地質(zhì)資料為基礎, 研究成果地質(zhì)領域知識圖譜構建與可視化. 將館藏成果地質(zhì)資料檔案和網(wǎng)絡百科的相關地質(zhì)資料知識相結合, 利用爬蟲技術, 爬取成果地質(zhì)資料中的地質(zhì)礦產(chǎn)、地理區(qū)域、組織機構等實體信息, 通過對得到的地質(zhì)數(shù)據(jù)進行清洗、抽取和融合處理, 經(jīng)過實體識別、關系抽取和屬性抽取等步驟, 構建成果地質(zhì)資料領域知識圖譜, 屬于行業(yè)領域的知識圖譜, 圖1為成果地質(zhì)資料知識圖譜構建流程圖.
圖1 成果地質(zhì)資料知識圖譜構建流程圖
(1)數(shù)據(jù)獲取與處理. 地質(zhì)數(shù)據(jù)是地質(zhì)知識模型的載體[9], 因此, 對于地質(zhì)數(shù)據(jù)的研究就是對于地質(zhì)知識模型的研究. 本文主要通過獲取館藏成果地質(zhì)資料和網(wǎng)絡百科來獲取地質(zhì)數(shù)據(jù), 其中包含了結構化、半結構化和非結構化的數(shù)據(jù). 對結構化的數(shù)據(jù), 可直接利用規(guī)則的方法把地質(zhì)相關實體映射到知識圖譜中[10]. 比如文本數(shù)據(jù)中的“四川彭縣鐵礦地質(zhì)簡報”屬于結構化的數(shù)據(jù). 對于成果地質(zhì)資料中的非結構化數(shù)據(jù), 主要是從文本中抽取出地質(zhì)實體及關系等信息. 首先對成果地質(zhì)資料進行預處理, 包括分詞、詞性標注、句法分析等, 然后利用命名實體和關系抽取技術得到需要的地質(zhì)實體和關系.
(2)命名實體識別. 命名實體識別是自然語言處理的一項基礎任務, 主要是因為命名實體任務性能的提高將有利于非結構化文本朝結構化文本的轉化[11]. 成果地質(zhì)資料具有豐富的領域性特征且文本具有高度非結構化的特征, 梳理地質(zhì)實體的不同類型、固有的關系和屬性, 完成地質(zhì)實體的識別與標注工作, 建立“成果地質(zhì)內(nèi)容標簽”語料庫. 在BERT框架下研究中文地質(zhì)命名實體識別方法, 采用預訓練語料庫模式從規(guī)?;牡刭|(zhì)非結構化文本數(shù)據(jù)中自動抽取出實體信息.BERT預訓練模型如圖2所示, 主要包含預訓練和微調(diào)兩個階段. BERT只需一個額外的輸出層就可以對預先訓練的模型進行微調(diào)[12]. 比如成果地質(zhì)資料數(shù)據(jù)中的“受西南地質(zhì)調(diào)查所安排進行調(diào)查. 鐵礦產(chǎn)于侏羅紀中下部地層中, 礦石為赤鐵礦, 具鮞狀或礫狀結構”等非結構化數(shù)據(jù), 我們需要提取出組織名稱“西南地質(zhì)調(diào)查所”和地質(zhì)礦產(chǎn)名稱為“赤鐵礦”等實體內(nèi)容.
圖2 BERT預訓練模型
(3)知識更新. 成果地質(zhì)資料知識圖譜的構建與應用,將提取到的地質(zhì)實體、關系和屬性等結合成果地質(zhì)資料領域知識的特點, 構建了成果地質(zhì)資料知識圖譜. 利用Neo4j圖數(shù)據(jù)庫來負責成果地質(zhì)資料知識圖譜節(jié)點的存儲, 將提取到的地質(zhì)實體、關系和屬性導入到Cypher查詢模板中, 實現(xiàn)成果地質(zhì)資料知識的精確查詢[13], 從而便于地質(zhì)資料領域知識更新和到館用戶的查詢.
多源異構數(shù)據(jù)指的是不同來源、不同結構的數(shù)據(jù)[14]. 將多源異構數(shù)據(jù)轉化為符合知識圖譜構造的三元組形式是非常重要和關鍵的技術. 成果地質(zhì)資料數(shù)據(jù)主要來源于四川省自然資源資料館、在線百科等.館藏成果地質(zhì)資料數(shù)據(jù)具有結構復雜、類型多樣的特征, 研究多源異構數(shù)據(jù)的采集、清洗、脫密、脫敏和集成關鍵技術, 研究對于半結構化和非結構化數(shù)據(jù)的實體抽取、關系抽取和屬性抽取等知識抽取技術. 對于結構化的數(shù)據(jù)可以采用規(guī)則映射的方法, 對于半結構化和非結構化的數(shù)據(jù)需要進行命名實體識別、關系抽取從而將它轉化為結構化的數(shù)據(jù), 本文采用深度學習的方法進行處理, 從而獲得地質(zhì)實體和關系.
語料庫是指大量文本數(shù)據(jù)的集合, 所以文本數(shù)據(jù)都需要經(jīng)過一定的預處理后才能成為后續(xù)的研究的基礎數(shù)據(jù)[15]. 本文采用BIO格式的序列標注方法[16], 將成果地質(zhì)資料中的一部分數(shù)據(jù)拿來制作語料庫, 把一部分數(shù)據(jù)的每個字標注為“B-X”“I-X”或者“O”格式. “BX”表示該字為實體的首字屬于X類型且在實體的開頭, “I-X”表示該字屬于X類型且在實體類型的中間位置, 其中, “X”就在本文中就包括了地質(zhì)礦產(chǎn)名稱、地理區(qū)域名稱、組織機構、地質(zhì)簡報名稱、人物名稱以及時間等信息. “O”表示不屬于任何類型的實體.BIO格式構建的語料庫如表1所示. 比如“西南地質(zhì)調(diào)查所”的首個字標注為“B-ORG”表示“西”是這個實體的首字且屬于“ORG“類型的實體, 其他部分標注為“IORG”, 表示該字是實體的非首字.
表1 BIO格式構建語料庫
命名實體識別指識別人名、組織名、地名等. 對標注后的語料進行訓練可以得到實體抽取的結果, 如表2所示. 從表中可以看到抽取到的實體包括地理位置、組織機構、地質(zhì)礦產(chǎn)、人物、時間等信息. 其中“LOC”代表識別到的是地理區(qū)域實體, “ORG”代表識別到的是組織機構實體, “ROCK”代表識別到的是地質(zhì)礦產(chǎn)實體, “PER”代表識別的是人物名稱實體, “TIME”表示識別到的是時間實體.
表2 實體抽取示例
命名實體識別任務常采用的評價指標有精確率:
其中,TP指將正預測為真,FN將正預測為假,FP指將反預測為真,TN指將反預測為假.
在整個成果地質(zhì)資料檔案知識圖譜構建過程中,關系抽取[17]至關重要, 基于地質(zhì)檔案的關系抽取包括了空間關系抽取、語義關系抽取[18]、時間關系抽取幾個部分, 其技術流程如圖3所示. 首先, 館藏檔案資料通過規(guī)則建立來進行空間關系抽取, 然后通過關系融合進行實體鏈接. 通過對檔案資料數(shù)據(jù)結構分析, 其中包含了結構化數(shù)據(jù)、半結構化數(shù)據(jù)和非結構化數(shù)據(jù),然后進行知識抽取, 包括空間、語義、時間的關系抽取, 最后進行實體鏈接.
圖3 地質(zhì)檔案知識圖譜關系抽取流程圖
知識圖譜是一種對事實的結構化表征. 當獲取的數(shù)據(jù)比較大并且結構復雜時, 用知識圖譜來表示會更加的清晰準確[19]. 研究知識圖譜動態(tài)演化的事件圖譜可視化技術, 滿足不同業(yè)務場景的智能服務需求, 進一步提升館藏服務水平. 經(jīng)過命名實體識別、知識抽取后, 整理成果地質(zhì)資料包含的地質(zhì)礦產(chǎn)類型、行政區(qū)名稱、礦產(chǎn)名稱等實體. 實體類型設計如表3所示. 比如礦產(chǎn)類型包含了閃鋅礦、磁鐵礦. 行政區(qū)類型包含了攀枝花市、會理縣等. 根據(jù)地質(zhì)資料的實體類型和關系模型, 從而構建“地質(zhì)實體-關系-地質(zhì)實體”三元組[20], 地質(zhì)資料領域三元組設計如表4所示, 其中包含了含礦種類的關系, 比如攀西地區(qū)含礦類型為釩鈦磁鐵礦. 包含了礦區(qū)隸屬地的關系, 比如礦區(qū)隸屬于攀枝花市東區(qū)銀江鎮(zhèn)馬坎村等.
表3 知識圖譜實體類型設計
表4 知識圖譜關系設計
知識圖譜的核心思想是將數(shù)據(jù)表示為圖形, 節(jié)點表示具體的對象、信息或概念, 邊表示語義關系[21]. 根據(jù)館藏成果地質(zhì)資料來獲取關于地質(zhì)礦產(chǎn)、組織機構、地理位置、地質(zhì)簡報名稱等數(shù)據(jù). 將數(shù)據(jù)導入到Neo4j圖數(shù)據(jù)庫之后, 我們可以得到館藏成果地質(zhì)資料領域的知識圖譜. 如圖4所示為館藏成果地質(zhì)資料領域的知識圖譜, 同一種顏色的“圓”屬于同一種地質(zhì)實體類型, 不同顏色的“圓”代表不同的地質(zhì)實體類型, 不同顏色的“圓”之間的連線代表地質(zhì)實體與實體之間的關系.“圓-線-圓”對應“地質(zhì)資料實體-關系-地質(zhì)資料實體“三元組. 三元組是知識圖譜的通用表示形式. 其中, 紅色代表地質(zhì)礦產(chǎn), 綠色代表地理位置, 黃色代表地質(zhì)簡報的名稱, 藍色代表組織機構名稱, 不同實體之間的關系通過線來連接, 從而構建了館藏成果地質(zhì)領域的知識圖譜.
圖4 Neo4j構建的地質(zhì)資料知識圖譜
知識圖譜的可視化可以讓人直觀地了解到圖譜中的關系信息. Neo4j數(shù)據(jù)庫里面的Cypher語言可以對數(shù)據(jù)庫進行CRUD (create, read, updata, delete)的一系列相關操作, 從而方便實現(xiàn)地質(zhì)資料領域數(shù)據(jù)的查詢和更新功能. Neo4j圖形化數(shù)據(jù)庫的高查詢性能以及查詢語言可定制化, 不僅可以查詢地質(zhì)實體與實體之間的關系, 還可以實現(xiàn)地質(zhì)礦產(chǎn)的查詢, 以返回快速、精準、結構化的知識. 如圖5所示, 展示了西南地質(zhì)調(diào)查所節(jié)點的相關信息, 從圖中可以看到西南地質(zhì)調(diào)查所與它所形成的簡報名稱相連, 從而可以實現(xiàn)成果地質(zhì)圖譜的可視化.
圖5 地質(zhì)資料知識圖譜的可視化
目前, 知識圖譜技術是人工智能的熱門研究方向,并且還會在未來很長一段時間有長足的發(fā)展. 隨著地質(zhì)領域信息化的發(fā)展, 成果地質(zhì)數(shù)據(jù)有了一定的積累.構建成果地質(zhì)領域的知識圖譜, 可以從海量數(shù)據(jù)中提煉出地質(zhì)資料相關知識, 并合理高效的對其進行管理、共享及應用, 對現(xiàn)今的地質(zhì)行業(yè)有著重要意義, 也是許多研究機構的研究熱點. 本文構建了成果地質(zhì)資料的語料庫, 其中包含了礦產(chǎn)名稱、組織機構、地理區(qū)域等相關語料實體. 利用命名實體識別、關系抽取等相關技術將成果地質(zhì)礦產(chǎn)領域的文本中的非結構化數(shù)據(jù)轉化為結構數(shù)據(jù). 利用Neo4j圖形化數(shù)據(jù)庫構建了成果地質(zhì)礦產(chǎn)領域的知識圖譜. 在未來的研究工作中, 我們將結合知識圖譜的問答系統(tǒng)來實現(xiàn)地質(zhì)資料知識的智能問答, 這也是接下來我們工作的研究重點.雖然目前對于成果地質(zhì)資料知識圖譜的研究有了許多很有意義的嘗試, 但總的來說還不夠完善和深入, 需要更進一步的研究.