朱月琴,譚永杰,吳永亮,張林兵,李 楊,趙亞楠
(1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京 100037;2.國土資源部地質(zhì)信息技術(shù)重點實驗室,北京 100037;3.中國地質(zhì)大學(北京)地球科學與資源學院,北京 100083;4.北京久遠太和科技有限公司,北京 100078;5.湖南科技大學地理空間信息技術(shù)國家地方聯(lián)合工程實驗室,湖南 湘潭 411201)
礦業(yè)縱橫
面向地質(zhì)大數(shù)據(jù)的語義檢索模型研究
朱月琴1,2,譚永杰1,2,吳永亮3,張林兵4,李 楊5,趙亞楠5
(1.中國地質(zhì)調(diào)查局發(fā)展研究中心,北京100037;2.國土資源部地質(zhì)信息技術(shù)重點實驗室,北京100037;3.中國地質(zhì)大學(北京)地球科學與資源學院,北京100083;4.北京久遠太和科技有限公司,北京100078;5.湖南科技大學地理空間信息技術(shù)國家地方聯(lián)合工程實驗室,湖南 湘潭411201)
隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新一代信息技術(shù)的發(fā)展和在地學領(lǐng)域的應用,如何更全、更準的從海量地質(zhì)數(shù)據(jù)中檢索到用戶所需要的信息,并以一種智能的方式推薦給用戶,成了亟待解決的問題。本文從地質(zhì)大數(shù)據(jù)語義模型定義和基于知識圖譜技術(shù)的地質(zhì)大數(shù)據(jù)語義模型構(gòu)建入手,提出了一套面向地質(zhì)大數(shù)據(jù)的語義檢索和聚類分析方法,并完成了面向地質(zhì)大數(shù)據(jù)語義檢索系統(tǒng)平臺的開發(fā)、實施及實驗驗證。驗證結(jié)果表明此方法在查準率和查全率方面較其他方法更具優(yōu)越性。
地質(zhì)大數(shù)據(jù);語義模型;知識圖譜;聚類分析;語義檢索
地質(zhì)數(shù)據(jù)是地質(zhì)工作的真實記錄和成果的最終載體,是人類研究了解生存環(huán)境、開發(fā)利用自然資源所必需的依據(jù),具有海量、結(jié)構(gòu)繁多和應用價值廣泛等特點,是名副其實的“大數(shù)據(jù)”[1-2]。為了有效管理和利用地質(zhì)大數(shù)據(jù),需要研究多源異構(gòu)地質(zhì)數(shù)據(jù)的組織方式和快速整合方法[3],以及深層語義下的地質(zhì)大數(shù)據(jù)智能檢索技術(shù)。傳統(tǒng)的搜索引擎技術(shù)致力于從海量數(shù)據(jù)中過濾對用戶有用的信息,然后直接將過濾結(jié)果返回用戶,但無法獲取和解析這些結(jié)果間存在的內(nèi)在關(guān)聯(lián)關(guān)系,缺乏從語義角度去挖掘隱藏在大數(shù)據(jù)深層次規(guī)律和知識的能力,用戶只能從結(jié)果中自己去理解和篩選知識[4]。
語義檢索模型可以不拘泥于用戶所輸入請求語句的字面本身,而是通過現(xiàn)象看本質(zhì),準確地捕捉到用戶輸入語句背后的真正意圖,并以此來搜索信息,可更準確的返回符合需求的搜索結(jié)果,讓用戶發(fā)現(xiàn)他們意想不到的知識,有效克服了上述不足[5]。目前國內(nèi)外在這方面的研究主要在三個方面取得較好的成果并得到了一定應用:第一方面是語言模型的構(gòu)建方面的構(gòu)建及應用[6];第二方面是信息檢索的擴展方面的研究[7-8];第三方面是圍繞信息檢索的結(jié)果聚類分析,特別是針對大數(shù)據(jù)的研究及應用,代表性成果有聚類算法的研究與改善[9-11],基于圖數(shù)據(jù)庫的檢索機制及基于知識圖譜的語義檢索機制的研究[12],以及圍繞語義模型的領(lǐng)域應用與知識服務(wù)[13-15]等。由于地質(zhì)數(shù)據(jù)的復雜性和特殊性[16-18],對地質(zhì)大數(shù)據(jù)語義檢索的研究僅側(cè)重于地質(zhì)數(shù)據(jù)的知識建模[19-21]、知識圖譜構(gòu)建[22]、地質(zhì)大數(shù)據(jù)的存儲及一體化檢索方面[23]及基于地質(zhì)語義計算在云服務(wù)方面的應用等[24-25]。這些研究目前還無法很好的實現(xiàn)對地質(zhì)大數(shù)據(jù)進行深層次的挖掘和語義級檢索。
本研究從地質(zhì)大數(shù)據(jù)的信息檢索實際需求入手,結(jié)合地質(zhì)領(lǐng)域知識語義表達與組織特點,以礦產(chǎn)資源數(shù)據(jù)為例,提出了礦產(chǎn)資源語義模型智能構(gòu)建方法,研究了面向地質(zhì)大數(shù)據(jù)的語義檢索機制,開發(fā)了面向地質(zhì)大數(shù)據(jù)智能檢索服務(wù)應用平臺。該平臺以地質(zhì)語義模型作為數(shù)據(jù)支撐,在對用戶查詢的關(guān)鍵字進行解析和推理之后,將其映射到知識模型樹中的一個或一組實體之上,再根據(jù)模型中的概念層次關(guān)系,向用戶返回圖形化的知識。本文技術(shù)方法可有效避免傳統(tǒng)基于字符串匹配的淺層檢索局限性,對實現(xiàn)地質(zhì)大數(shù)據(jù)的智能分析與挖掘等具有重要的實際價值。
語義通常被認為是數(shù)據(jù)(符號)所代表的概念的含義,以及這些含義之間的關(guān)系。對于計算機領(lǐng)域來說,語義一般指用戶對于那些用來描述現(xiàn)實世界的計算機表示的解釋,也就是用戶用來聯(lián)系計算機表示和現(xiàn)實世界的途徑[26]。語義模型則是被定義為通過模型作為媒介來實現(xiàn)數(shù)據(jù)語義關(guān)系的形式化描述的一種方式[27-28]。即把待研究的對象通過適當?shù)倪^濾,用適當?shù)谋憩F(xiàn)規(guī)則描繪出的抽象的概念集合。通過模型,人們可以了解到所研究對象的本質(zhì),并在形式上對其進行分析和處理。本文依據(jù)通用語義模型的含義來定義地質(zhì)數(shù)據(jù)語義模型。
地質(zhì)數(shù)據(jù)語義模型是一個四元組,記作GDO=
實體的概念劃分方法有很多種,大多是按照特定領(lǐng)域知識庫資源,如詞典、本體等資源的分類體系來進行[29-30]??紤]到地質(zhì)本體的研究現(xiàn)狀,以地質(zhì)工作的類型、地質(zhì)數(shù)據(jù)的應用為劃分依據(jù),并參考“地質(zhì)資料服務(wù)產(chǎn)品體系劃分”以及“地質(zhì)學漢語敘詞表”,采用自上向下法對地質(zhì)相關(guān)概念進行劃分,形成地質(zhì)領(lǐng)域?qū)嶓w概念體系框架(圖1)。在首先將地質(zhì)實體分為基礎(chǔ)地質(zhì)、海洋地質(zhì)、礦產(chǎn)地質(zhì)、物化遙感勘查等,在此分類體系下,對每個分類體系有若干個小的分類體系,如礦產(chǎn)地質(zhì),又可分為礦產(chǎn)地、資源儲量、典型礦床、成礦區(qū)帶等[31]。
此框架體系中的關(guān)系是用來描述概念之間的關(guān)聯(lián)情況,是實現(xiàn)數(shù)據(jù)組織、分析、推理、關(guān)聯(lián)檢索、智能推送的基本依據(jù)??紤]到只需實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)檢索、智能推送等功能,所以在地質(zhì)數(shù)據(jù)領(lǐng)域?qū)嶓w應用中,不需要構(gòu)建復雜的關(guān)系。對主要的12種語義關(guān)系(包括上下位關(guān)系、等同關(guān)系、與關(guān)系和交叉關(guān)系、或關(guān)系、矛盾關(guān)系、時間關(guān)系、空間關(guān)系等)進行取舍,確定地質(zhì)數(shù)據(jù)語義模型中的主要應用6種語義關(guān)系,包括:上下位關(guān)系、等同關(guān)系、交叉關(guān)系、概念實例關(guān)系和空間關(guān)系。
1) 上下位關(guān)系:用來描述地理概念之間的層級關(guān)系,包括從屬關(guān)系(即部分與整體之間的關(guān)系)、繼承關(guān)系(也稱父子關(guān)系,即類與子類之間的關(guān)系),如“自然地理”與“陸地水系”。
2) 等同關(guān)系:用來描述同級地質(zhì)概念或?qū)嵗g的等價關(guān)系。等價關(guān)系主要情況如下:同一概念的不同命名;俗稱與學名;同一概念的不同譯名;簡稱與全稱;全譯名與外文縮寫詞等,如“鄂”與“湖北省”。
3) 交叉關(guān)系:有且只有部分內(nèi)涵相同的兩個概念間的關(guān)系稱為交叉關(guān)系,如“破碎帶蝕變巖型金銀礦”與“蝕變破碎巖型鉛鋅銀礦”。
4) 概念實例關(guān)系:用來描述地理概念與相應實例之間的關(guān)系,如“湖泊”與實例“青海湖”。
5) 空間關(guān)系:空間關(guān)系是指事物之間的位置關(guān)系。空間關(guān)系主要包括:相交、相接、相離、包含、被包含、覆蓋、被覆蓋、重合等拓撲關(guān)系。
地質(zhì)數(shù)據(jù)除數(shù)據(jù)類型復雜外,還具有明顯的專業(yè)背景、空間范圍、用戶應用行為等多樣性特征[32-33]。根據(jù)TD/T1016—2003《國土資源信息核心元數(shù)據(jù)標準》,同時考慮數(shù)據(jù)產(chǎn)生的背景和礦產(chǎn)資源預測的需求等因素,確定屬性信息主要包括:標識、數(shù)據(jù)質(zhì)量、空間參照系統(tǒng)以及分發(fā)信息等。
圖1 地質(zhì)領(lǐng)域?qū)嶓w概念體系框架
語義信息構(gòu)建主要包括顯式語義信息的構(gòu)建和地質(zhì)隱式語義信息的構(gòu)建[34-36]。顯式語義信息構(gòu)建主要是把地質(zhì)領(lǐng)域本體庫或領(lǐng)域分類體系作為概念模板來構(gòu)建語義信息。隱式語義信息的構(gòu)建主要是基于機器學習或人工智能的技術(shù)[37-39],通過信息提取及數(shù)據(jù)挖掘的方法,綜合整理語義信息??紤]到目前地質(zhì)本體的構(gòu)建不夠完善,機器學習等算法在地質(zhì)領(lǐng)域應用不成熟等情況,本論文采取了綜合方法來構(gòu)建地質(zhì)語義知識圖譜,即通過如地質(zhì)敘詞表、地質(zhì)大辭典等已有地質(zhì)領(lǐng)域知識庫,并結(jié)合近年來圍繞地質(zhì)本體領(lǐng)域構(gòu)建提出的概念模板,采用自動信息提取的技術(shù)來實現(xiàn)地質(zhì)大數(shù)據(jù)語義知識圖譜的構(gòu)建(圖2)。
圖2 地質(zhì)數(shù)據(jù)語義知識圖譜構(gòu)建流程(以地質(zhì)文本數(shù)據(jù)為例)
自動構(gòu)建地質(zhì)數(shù)據(jù)語義知識圖譜,將文檔內(nèi)容分為文本和表格兩種內(nèi)容進行分別處理[40-41]。在文本部分,首先對文本標題進行識別和分類,分清其上下級嵌套關(guān)系,然后對各個標題下的內(nèi)容進行提取并進行語義識別,從而獲取到關(guān)鍵語句;在表格部分,首先識別表頭,如遇到復雜表頭將其化簡,然后對單元格內(nèi)容進行提取并進行語義識別,獲取關(guān)鍵語句。對所得到的關(guān)鍵語句采用基于敘詞表擴展的半自動化地質(zhì)領(lǐng)域本體構(gòu)建方法來構(gòu)建地質(zhì)數(shù)據(jù)語義知識圖譜,其具體實現(xiàn)算法可描述如下。
1) 用戶輸入地質(zhì)大數(shù)據(jù)(以文檔為例);
2) 根據(jù)內(nèi)容識別將文檔中的文本和表格分別進行處理;
3) 對于文本內(nèi)容,提取基于標題和內(nèi)容的主題模型,通過標題與標題格式庫對比獲得標題上下級嵌套關(guān)系,然后對各標題下的內(nèi)容進行提??;對于表格內(nèi)容,識別表頭,對復雜表頭化簡取最底層字段名稱,然后對單元格內(nèi)容提取,同一行內(nèi)容用逗號隔開,不同行內(nèi)容用分號隔開;
4) 對提取到的內(nèi)容進行語義識別,結(jié)合地質(zhì)數(shù)據(jù)語義模型和地質(zhì)領(lǐng)域?qū)<抑R及地質(zhì)領(lǐng)域知識庫模板獲取內(nèi)容中的關(guān)鍵語句;
5) 將關(guān)鍵語句采用基于敘詞表擴展的半自動化地質(zhì)領(lǐng)域本體構(gòu)建方法來構(gòu)建地質(zhì)數(shù)據(jù)知識圖譜。
一般地,由于用戶查詢時輸入較簡單有限,難以準確表示查詢的信息需求。知識圖譜是結(jié)構(gòu)化的語義知識庫,通過地質(zhì)語義知識圖譜中的知識,有助于理解用戶的信息需求[42-43]。把用戶的查詢需求看作一個實體,可以利用地質(zhì)語義知識圖譜來理解信息輸入,得到候選的擴展詞。地質(zhì)語義知識圖譜通過知識抽取,融合等手段,將數(shù)據(jù)轉(zhuǎn)變?yōu)槟艽韺嶓w的知識,利用知識之間的語義關(guān)系構(gòu)成的[44-47]。同時,還可通過大規(guī)模信息搜索分析來提高搜索結(jié)果的深度和廣度。
地質(zhì)語義知識圖譜在搜索引擎中的應用,使得搜索引擎可以更好的理解用戶的需求,并且能夠提供給用戶更加智能、精確、人性化的結(jié)果。
為了實現(xiàn)語義檢索,首先需要采集地質(zhì)相關(guān)數(shù)據(jù)。數(shù)據(jù)源一方面來自于收集的地質(zhì)領(lǐng)域?qū)I(yè)文檔;另一方面則通過網(wǎng)絡(luò)爬蟲等技術(shù),從互聯(lián)網(wǎng)中獲取地質(zhì)相關(guān)數(shù)據(jù)信息。結(jié)合多種數(shù)據(jù)源的成礦信息,應用Neo4j作為圖數(shù)據(jù)庫的引領(lǐng)工具,完善地質(zhì)知識圖譜。
Neo4j具有非常直觀和形式化的模型,能夠完美地映射到任何領(lǐng)域的模型。同時,對于具有較高連接關(guān)系的數(shù)據(jù),具有比關(guān)系型數(shù)據(jù)快千倍的速度。因此,這里知識圖譜中涉及的實體信息以及語義關(guān)系,均通過Neo4j提供的圖譜數(shù)據(jù)存儲框架進行存儲。
在大規(guī)模知識圖譜的多模式查詢中,除了傳統(tǒng)的圖數(shù)據(jù)查詢模式以外,可達性查詢也是語義檢索應用中的一個重要環(huán)節(jié)。在具體實現(xiàn)過程(圖3),還引入了模糊查詢和精確查詢方法。
圖3 面向地質(zhì)大數(shù)據(jù)的語義檢索模型
與傳統(tǒng)的搜索引擎提供的“一對多”式的信息服務(wù)不同[48],基于地質(zhì)語義知識圖譜的檢索結(jié)果更符合用戶的個性化需求,實現(xiàn)“一對一”式的信息服務(wù),而用戶的參與程度也更低,降低了用戶搜尋信息的成本。與傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎工作原理不同,地質(zhì)語義知識圖譜利用概念、實體的匹配度返回給用戶與搜索相關(guān)的更全面的知識體系。
面向地質(zhì)大數(shù)據(jù)語義檢索是基于地質(zhì)數(shù)據(jù)語義模型的推薦預測式檢索,面向全體數(shù)據(jù),追尋數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系[49],具有知識庫數(shù)據(jù)與探索式搜索的特點。在每次交互檢索過程中,通過知識圖譜能夠分析出與檢索結(jié)果相關(guān)數(shù)據(jù)的特征。
用戶在使用圖譜知識庫時,可能會發(fā)現(xiàn)知識庫信息不完善。為了彌補這一缺陷,本文提出了基于地質(zhì)知識圖譜的探索式和知識糾錯的混合搜索模型(圖4)。該模型具有知識庫信息補全的功能,用戶可以結(jié)合自己的背景知識和系統(tǒng)的推薦信息完善知識庫。
語義檢索的知識圖譜可根據(jù)檢索結(jié)果進行機器學習或通過用戶人工修改而不斷完善。通過這種語義檢索方法,可預測用戶可能感興趣的數(shù)據(jù)內(nèi)容,簡明合理地向用戶展示查詢結(jié)果和用戶潛在感興趣的數(shù)據(jù)內(nèi)容,以引導用戶改進和調(diào)整查詢目標,獲取到新的關(guān)聯(lián)信息。
圖4 面向地質(zhì)大數(shù)據(jù)的語義檢索機制
本文應用基于語義模型樹的知識圖譜為核心檢索算法,設(shè)計了面向地質(zhì)大數(shù)據(jù)的語義檢索系統(tǒng)平臺框架。平臺主要包含五個部分的功能層(圖5):數(shù)據(jù)存儲層、數(shù)據(jù)訪問層、業(yè)務(wù)處理層、數(shù)據(jù)入口層和可視化展示層。
圖5 地質(zhì)大數(shù)據(jù)語義檢索系統(tǒng)框架體系
1) 數(shù)據(jù)存儲層:將科技文獻、科學數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)存到關(guān)系數(shù)據(jù)庫中,文件數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)存儲到非關(guān)系數(shù)據(jù)庫,實現(xiàn)地質(zhì)數(shù)據(jù)的規(guī)范存儲。
2) 數(shù)據(jù)訪問層:通過訪問關(guān)系數(shù)據(jù)庫,獲取深層次的數(shù)據(jù)關(guān)系信息,進行語義管理,同時訪問NoSOL數(shù)據(jù)庫,形成Neo4j圖形數(shù)據(jù)庫。
3) 業(yè)務(wù)處理層:利用地質(zhì)語義知識圖譜對用戶的檢索詞進行檢索并擴展,同時對資料全文中的術(shù)語自動聚類,實現(xiàn)二級精細查詢。
4) 數(shù)據(jù)入口層:提供輸入、輸出接口,獲取用戶檢索關(guān)鍵詞。
5) 可視化展示層:進行語義檢索及知識圖譜等可視化應用展示。
本系統(tǒng)平臺基于Java開發(fā),結(jié)合Tomcat、Solr軟件部署應用,系統(tǒng)支持IE系列、360、Google、火狐等主流瀏覽器。該平臺主要實現(xiàn)了地質(zhì)資料、地質(zhì)科技文獻等各類結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的一體化查詢。擺脫了基于關(guān)鍵詞檢索的局限性,可分析檢索詞之間的語義關(guān)系,使得檢索詞不再孤立,推理用戶的檢索意圖,從而為用戶提供更全面、準確的查詢結(jié)果。
本系統(tǒng)主要實現(xiàn)了五個方面的功能。
1) 粗粒度地質(zhì)信息知識服務(wù)地質(zhì)文本聚類。用戶在檢索關(guān)鍵詞時,系統(tǒng)在返回搜索結(jié)果的同時對相關(guān)性強的術(shù)語進行聚類統(tǒng)計,展示了相關(guān)術(shù)語的聚類結(jié)果,方便用戶進行二次檢索。
2) 地質(zhì)資料與地質(zhì)文獻信息的綜合語義檢索。系統(tǒng)的語義模型樹是基于文本、表格兩方面綜合構(gòu)建,實現(xiàn)了兩個數(shù)據(jù)庫中的數(shù)據(jù)信息查詢。
3) 基于全文的內(nèi)容信息查看和檢索。系統(tǒng)支持文本數(shù)據(jù)在瀏覽器中以XML的形式供用戶查詢?yōu)g覽全文內(nèi)容和檢索相關(guān)信息的定位和顯示。
4) 空間數(shù)據(jù)和非空間數(shù)據(jù)的一體化查詢。系統(tǒng)實現(xiàn)了空間數(shù)據(jù)的查詢與可視化。
5) 關(guān)聯(lián)分析。系統(tǒng)可以實現(xiàn)地質(zhì)數(shù)據(jù)之間的各種關(guān)聯(lián)關(guān)系分析,主要有地質(zhì)科技文獻的作者、機構(gòu)單位、合作單位、承擔項目之間的關(guān)聯(lián)分析,以及礦產(chǎn)資源數(shù)據(jù)之間的各種關(guān)聯(lián)分析等。
目前,國內(nèi)大部分地質(zhì)數(shù)據(jù)庫僅僅采用關(guān)鍵詞作為檢索的唯一標識,不能描述詞間關(guān)系,導致查全、查準率低,影響檢索的有效性。為了驗證基于本文提出的語義模型及語義檢索方法比傳統(tǒng)依據(jù)自然語言和敘詞進行檢索更具優(yōu)勢,下述實驗選取了“火山巖”為關(guān)鍵詞,通過關(guān)鍵詞檢索、語義檢索(序詞表)和語義檢索(知識圖譜)等進行智能檢索,結(jié)果圖如表1所示,其中所采用的實驗條件如表2所示。
表1 實驗結(jié)果對比
表2 實驗條件
從表1中可以看出,在不降低查準率前提下,本文檢索方法查全率遠高于前兩種方法,特別是引入深層語義分析的知識圖譜后,檢索的查全率非常高。這是因為關(guān)鍵詞檢索僅是將浮于文字表面,無法從語義角度去挖掘深層次規(guī)律與知識,從而降低了查全率。本文在基于敘詞表擴展的本體構(gòu)建方法基礎(chǔ)之上,補充并擴展了知識圖譜,使得系統(tǒng)在檢索關(guān)鍵詞的同時獲取了更多“火山巖”的內(nèi)在關(guān)聯(lián)信息,通過聚類相應的術(shù)語進行二次檢索,從而提升了查準率。
與傳統(tǒng)的基于關(guān)鍵字匹配的搜索引擎工作原理不同,本文提出的基于地質(zhì)語義模型的語義檢索方法,由于利用概念、實體的語義網(wǎng)絡(luò)結(jié)構(gòu)返回給用戶與搜索相關(guān)的更全面的知識體系與信息,檢索結(jié)果在更準、更全的基礎(chǔ)上,更符合用戶的個性化需求,既實現(xiàn)了“一對一”式的信息服務(wù),又減少了用戶的參與程度,從而降低了用戶搜尋信息的成本。但同時也可以看出,由于知識圖譜構(gòu)建技術(shù)的應用推廣、地質(zhì)知識庫的積累、地質(zhì)本體庫自動構(gòu)建技術(shù)的研究與開發(fā)還存在眾多局限,可以預見,在未來基于語義的地質(zhì)大數(shù)據(jù)智能檢索及自動問答系統(tǒng)將涌現(xiàn)大量的研究成果。本文針對地質(zhì)大數(shù)據(jù)的特征,提出的語義檢索模型希望能夠為下一步地質(zhì)大數(shù)據(jù)的綜合開發(fā)和利用提供新的思路和技術(shù)途徑。
[1] 譚永杰.地質(zhì)大數(shù)據(jù)與信息服務(wù)工程技術(shù)框架[J].地理信息世界,2016,23(1):1-9.
[2] 朱月琴,譚永杰,張建通,等.基于Hadoop的地質(zhì)大數(shù)據(jù)融合與挖掘技術(shù)框架[J].測繪學報,2015,44(S1):152-159.
[3] 周永章,黎培興,王樹功,等.礦床大數(shù)據(jù)及智能礦床模型研究背景與進展[J].礦物巖石地球化學通報,2017,36(2):327-331.
[4] 樊中奎.地質(zhì)資料全文聚類分析及信息提取的研究[D].北京:中國地質(zhì)大學(北京),2014.
[5] 黃敏,賴茂生.語義檢索研究綜述[J].圖書情報工作,2008,52(6):63-66.
[6] 涂新輝.基于概念的信息檢索模型研究[D].武漢:華中師范大學,2012.
[7] 李大高.信息檢索中的查詢擴展算法研究[D].鎮(zhèn)江:江蘇大學,2008.
[8] 張金.個性化信息檢索系統(tǒng)中文本聚類的研究[D].長春:東北師范大學,2010.
[9] 明均仁.基于本體圖的文本聚類模型研究[J].情報科學,2013,31(2):29-33.
[10] 王駿,王士同,鄧趙紅.聚類分析研究中的若干問題[J].控制與決策,2012,27(3):321-328.
[11] 高茂庭.文本聚類分析若干問題研究[D].天津:天津大學,2007.
[12] 王鑫印.無結(jié)構(gòu)和半結(jié)構(gòu)信息檢索相關(guān)技術(shù)研究[D].上海:復旦大學,2007.
[13] 程曉偉,楊百龍,葛春,等.基于領(lǐng)域本體的網(wǎng)絡(luò)攻防訓練資源庫建設(shè)研究[J].網(wǎng)絡(luò)安全技術(shù)與應用,2009(10):53-55.
[14] 顏端武.面向知識服務(wù)的智能推薦系統(tǒng)研究[D].南京:南京理工大學,2007.
[15] 張紅巖.我國圖書情報領(lǐng)域本體研究可視化分析[J].圖書館學研究,2012(6):7-12.
[16] Zhu YQ,Zhou WW,Xu Y,et al.Intelligent Learning for Knowledge Graph towards Geological Data[J].Scientific Programming,2017(12):1-13.
[17] Zhu YQ,Tan YJ,Zhang JT,et al.A Framework of Hadoop based Geology Big Data Fusion and Mining Technologies[J].Acta Geodaetica et Cartographica Sinica.2015,44(S1):152-159
[18] Wei D,Zhu Y.Management of Unstructured Geological Data Based on Hadoop[C]//IEEE,Intl Conf on Ubiquitous Intelligence and Computing and 2015.IEEE,2015:432-435.
[19] 姚健鵬,郭艷軍,潘懋,等.銅礦床領(lǐng)域本體的構(gòu)建方法研究[J].中國礦業(yè),2017,26(8):140-145.
[20] Luo X,Deng J,Wang W,et al.A quantized kernel learning algorithm using a minimum kernel risk-sensitive loss criterion and bilateral gradient technique[J].Entropy,2017,19(7):365.
[21] Luo X,Liu J,Zhang D,et al.An Entropy-Based Kernel Learning Scheme toward Efficient Data Prediction in Cloud-Assisted Network Environments[J].Entropy,2016,18(8):274.
[22] Zhu YQ,Tan YJ,Li RX,et al.Cyber-physical-social-thinking modeling and computing for geological information service system[J].International Journal of Distributed Sensor Networks,2016,12(11):193-196.
[23] 李婧,陳建平,王翔.地質(zhì)大數(shù)據(jù)存儲技術(shù)[J].地質(zhì)通報,2015,34(8):1589-1594.
[24] Zhou Z,Cheng Z,Zhu Y,et al.Similarity assessment for scientific workflow clustering and recommendation,中國科學:信息科學(英文版),2016,59(11):1-4.
[25] Luo X,Zhang D,Yang LT,et al.A kernel machine-based secure data sensing and fusion scheme in wireless sensor networks for the cyber-physical systems[J].Future Generation Computer Systems,2016(61):85-96.
[26] 董慧,唐敏.語義檢索在Web2.0環(huán)境下的應用探討[J].中國圖書館學報,2011,37(2):115-119.
[27] 楊俊柯,楊貫中,楊建學.基于領(lǐng)域本體的學習資源管理系統(tǒng)框架研究[J].科學技術(shù)與工程,2005,5(11):708-711.
[28] 楊俊柯,楊貫中,楊建學.基于語義模型的信息檢索機制研究[J].計算機工程,2006,32(12):212-214.
[29] 趙丹群.信息檢索中敘詞表與Ontology的比較研究[J].情報理論與實踐,2006,29(6):738-741.
[30] 楊建林.基于本體的文本信息檢索研究[J].情報理論與實踐,2006,29(5):598-601.
[31] Zhao WB,Yang W,Zhang H,et al.High-throughput state-machine replication using software transactional memory.Journal of Supercomputing,2016,72(11):1-20.
[32] 嚴光生,薛群威,肖克炎,等.地質(zhì)調(diào)查大數(shù)據(jù)研究的主要問題分析[J].地質(zhì)通報,2015,34(7):1273-1279.
[33] 徐也,徐蔚然.基于語義特征擴展的知識庫增量引文推薦算法[J].山東大學學報:理學版,2016,51(11):26-32.
[34] 趙寒,張樹生,周競濤,等.面向異構(gòu)數(shù)據(jù)庫集成的語義模型構(gòu)建技術(shù)研究[J].計算機集成制造系統(tǒng),2006,12(3):371-376.
[35] 張玉峰,李敏,晏創(chuàng)業(yè).論知識檢索與信息檢索[J].中國圖書館學報,2003,29(5):23-26.
[36] 黃鳳愛,蔣永平,文艷華.基于本體的專業(yè)資源庫語義模型研究[J].現(xiàn)代情報,2009,29(5):52-55.
[37] Lake B M,Salakhutdinov R,Tenenbaum J B.Human-level concept learning through probabilistic program induction[J].Science,2015,350(6266):1332-1338.
[38] Zhao W,Luo X,Zhu Y,et al.Intention preservation in deterministic multithreading:a partial solution.Iet Software,2016,10(6):155-163.
[39] 王樹梅.信息檢索相關(guān)技術(shù)研究[D].南京:南京理工大學,2007.
[40] 常琳,許必熙.基于戰(zhàn)場信息融合的輔助決策模型若干問題研究[J].軍事運籌與系統(tǒng)工程,2017,31(2):31-34.
[41] 丁志均,楊青,張會兵,等.基于非結(jié)構(gòu)化文本檢索模型綜述[J].計算機應用研究,2017,34(6):1601-1608.
[42] 鳳麗洲.文本分類關(guān)鍵技術(shù)及應用研究[D].長春:吉林大學,2015.
[43] 胡德華,王蕊.信息檢索研究的知識圖譜探析[J].圖書館雜志,2015,34(1):20-28.
[44] 李偉.基于知識元細粒度信息檢索研究[J].農(nóng)業(yè)圖書情報學刊,2017,29(2):12-15.
[45] 馬飛翔,廖祥文,於志勇,等.基于知識圖譜的文本觀點檢索方法[J].山東大學學報:理學版,2016,51(11):33-40.
[46] 邵領(lǐng).基于知識圖譜的搜索引擎技術(shù)研究與應用[D].成都:電子科技大學,2016.
[47] 邵曉宇.基于本體的大型數(shù)據(jù)資源智能檢索研究[D].合肥:合肥工業(yè)大學,2008.
[48] 張戈一,朱月琴,呂鵬飛,等.耦合協(xié)同過濾推薦與關(guān)聯(lián)分析的圖書推薦方法研究[J].中國礦業(yè),2017,26(S1):425-430.
[49] 張旗,周永章.大數(shù)據(jù)正在引發(fā)地球科學領(lǐng)域一場深刻的革命——《地質(zhì)科學》2017年大數(shù)據(jù)專題代序[J].地質(zhì)科學,2017,52(3):1-12.
Researchonsemanticretrievalmodeltowardsgeologicalbigdata
ZHU Yueqin1,2,TAN Yongjie1,2,WU Yongliang3,ZHANG Linbing4,LI Yang5,ZHAO Yanan5
(1.Development and Research Center,China Geological Survey,Beijing100037,China;2.Key Laboratory of Geological Information Technology,Ministry of Land and Resources,Beijing100037,China;3.School of Earth Sciences and Resources,China University of Geosciences(Beijing),Beijing100083,China;4.Beijing Jiuyuan Taihe Technology Co.,Ltd.,Beijing100078;5.National-Local Joint Engineering Laboratory of Geospatial Information Technology,Hunan University of Science and Technology,Xiangtan411201,China)
With the new generation of information technology’s development and its application in geology,such as the Internet of things,the Internet,big data and cloud computing.How to retrieve more complete and more accurate information from the massive geological data,and provide it to user in a appreciate way is a question need to be resolved.In this paper we first define a semantic model towards geological big data and provide the construction method of this model based on the knowledge graph technology.Then,we propose a semantic retrieval and clustering analysis method.Finally,some related experiments were carried out by the geological big data retrieval system implemented.Experimental results show that the method has high recall and precision efficiency than others.
geological big data;semantic model;knowledge graph;clustering analysis;semantic retrieval
P628+.4;TP311.131
A
1004-4051(2017)12-0143-07
2017-10-24責任編輯趙奎濤
國土資源部公益性行業(yè)科研專項資助(編號:201511079)
朱月琴(1975-),女,博士,高級工程師,主要從事地質(zhì)大數(shù)據(jù)、地圖綜合與可視化研究工作,E-mail:yueqinzhu@163.com。
吳永亮(1987-),男,博士研究生,從事地球探測與信息技術(shù)、航天標準化技術(shù)研究,E-mail:andyloveti@163.com。