摘 要:煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)將分散在多處的研究成果資料匯集在一起,進(jìn)行統(tǒng)一管理,解決硬件與軟件系統(tǒng)重復(fù)建設(shè)、數(shù)據(jù)分散不統(tǒng)一、管理與應(yīng)用水平低、后期維護(hù)難等問題,在一定程度上節(jié)約政府機(jī)構(gòu)對(duì)煤田地質(zhì)數(shù)據(jù)的管理成本,提高工作效率和管理水平。煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)以多源異構(gòu)煤田地質(zhì)數(shù)據(jù)為核心,建立煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)與數(shù)據(jù)中心,煤田地質(zhì)資源專題數(shù)據(jù)庫和煤田地質(zhì)環(huán)境專題數(shù)據(jù)庫,提供煤炭資源專題應(yīng)用和煤炭地質(zhì)環(huán)境專題應(yīng)用。
關(guān)鍵詞:煤田地質(zhì);大數(shù)據(jù);云計(jì)算;地質(zhì)數(shù)據(jù);多源異構(gòu)
中圖分類號(hào):P628 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2024)24-0168-05
Abstract: The Coalfield Geology Big Data Information Service Platform brings together the information of research results scattered in many places and carries out unified management to solve the problems such as repeated construction of hardware and software systems, disunity of data dispersion, low level of management and application, difficult maintenance in the later stage, and so on. To a certain extent, it can save the cost of coalfield geological data management by government agencies, and improve the work efficiency and management level. Coalfield geological big data information service platform takes multi-source and heterogeneous coalfield geological data as the core, establishes coalfield geological big data information service platform and data center, coalfield geological resources thematic database and coalfield geological environment thematic database, and provides special application of coal resources and coal geological environment.
Keywords: coalfield geology; big data; cloud computing; geological data; multi-source heterogeneity
地質(zhì)大數(shù)據(jù)是信息時(shí)代背景下大數(shù)據(jù)的理念、技術(shù)和方法在地質(zhì)領(lǐng)域的應(yīng)用與實(shí)踐。地質(zhì)大數(shù)據(jù)的研究是以大地學(xué)研究總體需求的頂層設(shè)計(jì)為主線,分領(lǐng)域、分層次地開展定量地學(xué)研究。就地質(zhì)行業(yè)而言,將大數(shù)據(jù)作為地質(zhì)行業(yè)新興增長(zhǎng)點(diǎn)進(jìn)行培育和挖掘,建立地勘大數(shù)據(jù)現(xiàn)場(chǎng)質(zhì)控體系,強(qiáng)化基于計(jì)算技術(shù)的高效計(jì)算能力建設(shè)和地質(zhì)數(shù)據(jù)規(guī)范化建設(shè),通過大數(shù)據(jù)來實(shí)現(xiàn)地質(zhì)工作和信息技術(shù)的深度融合。地質(zhì)大數(shù)據(jù)服務(wù)與應(yīng)用的發(fā)展,給地質(zhì)行業(yè)帶來的最大變革是使地質(zhì)行業(yè)以數(shù)據(jù)分析為基礎(chǔ)進(jìn)行地質(zhì)過程演化推理、應(yīng)用等,通過對(duì)大數(shù)據(jù)技術(shù)的不斷積累完善,不再孤立地形成信息孤島,使地質(zhì)大數(shù)據(jù)各領(lǐng)域數(shù)字化水平不斷提高,能夠進(jìn)一步進(jìn)行定量分析,將數(shù)字地球科學(xué)的研究向前推進(jìn)[1]。
山西是煤炭大省,也是煤層氣大省。省內(nèi)煤與煤層氣的資源賦存與開發(fā)利用狀況是山西省大數(shù)據(jù)建設(shè)中不可缺失的重要部分。在“互聯(lián)網(wǎng)+”的時(shí)代背景下,作為全國(guó)最為主要的礦業(yè)大省,山西省應(yīng)當(dāng)在大數(shù)據(jù)環(huán)境的推動(dòng)下,開展好地質(zhì)信息發(fā)展規(guī)劃工作。以大數(shù)據(jù)作為一項(xiàng)基礎(chǔ)性戰(zhàn)略資源,將大數(shù)據(jù)作為山西地質(zhì)行業(yè)新興增長(zhǎng)點(diǎn)進(jìn)行培育和挖掘。依托大數(shù)據(jù)云計(jì)算技術(shù),強(qiáng)化基于云平臺(tái)的地質(zhì)大數(shù)據(jù)高效計(jì)算能力建設(shè)和地質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),通過大數(shù)據(jù)實(shí)現(xiàn)山西地質(zhì)工作和信息技術(shù)的深度融合,建立山西地質(zhì)大數(shù)據(jù)共享服務(wù)平臺(tái),為山西地質(zhì)工作帶來新一輪變革和全新提升。
1 地質(zhì)大數(shù)據(jù)云平臺(tái)的現(xiàn)狀及需求
1.1 研究意義
煤田地質(zhì)大數(shù)據(jù)作為一項(xiàng)基礎(chǔ)性戰(zhàn)略資源,將大數(shù)據(jù)作為地質(zhì)行業(yè)新興增長(zhǎng)點(diǎn)進(jìn)行培育和挖掘[2]。依托大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù),基于云平臺(tái)的地質(zhì)大數(shù)據(jù)高效計(jì)算能力建設(shè)和地質(zhì)數(shù)據(jù)標(biāo)準(zhǔn)化建設(shè),實(shí)現(xiàn)地質(zhì)工作和信息技術(shù)的深度融合,建立煤田地質(zhì)大數(shù)據(jù)共享服務(wù)平臺(tái),為煤田地質(zhì)工作帶來新一輪技術(shù)變革。
1.1.1 改變管理模式,由分散管理轉(zhuǎn)變?yōu)榧泄芾?/p>
煤田地質(zhì)勘查研究單位多,在煤田地質(zhì)方面已經(jīng)積累了海量的各類專業(yè)數(shù)據(jù),而且大量新的數(shù)據(jù)還會(huì)源源不斷地產(chǎn)生,部分單位有自己的信息管理系統(tǒng),導(dǎo)致數(shù)據(jù)資源分散、數(shù)據(jù)不統(tǒng)一、數(shù)據(jù)管理困難等問題。煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)將分散在多處的研究成果資料匯集在一起,進(jìn)行統(tǒng)一管理,解決硬件與軟件系統(tǒng)重復(fù)建設(shè)、數(shù)據(jù)分散不統(tǒng)一、管理與應(yīng)用水平低及后期維護(hù)難等問題。在一定程度上節(jié)約政府機(jī)構(gòu)對(duì)煤田地質(zhì)數(shù)據(jù)的管理成本,提高工作效率和管理水平。
1.1.2 改變服務(wù)模式,由被動(dòng)提供轉(zhuǎn)變?yōu)橹鲃?dòng)提供
隨著信息化發(fā)展,數(shù)據(jù)服務(wù)模式由最初人與人之間面對(duì)面溝通、領(lǐng)導(dǎo)審批的方式,轉(zhuǎn)變?yōu)樾畔⒒J?,利用?jì)算機(jī)人機(jī)結(jié)合,系統(tǒng)定位數(shù)據(jù)。然而這種方式仍停留在“要什么,給什么”的階段,不能及時(shí)獲取與之關(guān)聯(lián)的數(shù)據(jù),無法深度挖掘數(shù)據(jù)中的隱藏信息和知識(shí)。本項(xiàng)目利用大數(shù)據(jù)挖掘技術(shù),能夠?qū)⒋笠?guī)模數(shù)據(jù)中的隱藏信息和知識(shí)挖掘出來,了解日常地質(zhì)數(shù)據(jù)使用人員的行為,精準(zhǔn)化推薦地質(zhì)資料數(shù)據(jù),提升地質(zhì)數(shù)據(jù)服務(wù)的質(zhì)量和效率。
1.1.3 改變應(yīng)用模式,由經(jīng)驗(yàn)決策轉(zhuǎn)變?yōu)閿?shù)據(jù)驅(qū)動(dòng)
在互聯(lián)網(wǎng)技術(shù)沒有普及時(shí),領(lǐng)導(dǎo)在進(jìn)行決策時(shí),多是以經(jīng)驗(yàn)帶動(dòng)決策,各種信息之間應(yīng)該如何聯(lián)系在一起,并且能夠快速確定需要進(jìn)行決策事件的基本要求,豐富的決策經(jīng)驗(yàn)會(huì)起到很大的作用,而這種模式是以經(jīng)驗(yàn)累積的,必然存在一定缺陷,如領(lǐng)導(dǎo)無法從全局掌握工作或事項(xiàng)的來龍去脈,不易感知、理解相關(guān)聯(lián)的信息,難以從“經(jīng)驗(yàn)”的決策模式走向基于“實(shí)證”的決策模式。本項(xiàng)目改變了煤田地質(zhì)數(shù)據(jù)的應(yīng)用模式,系統(tǒng)使用者可利用煤田地質(zhì)數(shù)據(jù),搭建自定義應(yīng)用,驗(yàn)證假設(shè)、分析結(jié)果以指導(dǎo)分析決策;讓越來越多的決策依賴于數(shù)據(jù)分析而非經(jīng)驗(yàn)甚至直覺。從根本上改變了煤田地質(zhì)傳統(tǒng)的信息化建設(shè)模式,提升了煤田地質(zhì)數(shù)據(jù)管理水平,同時(shí)也擴(kuò)展了地質(zhì)業(yè)務(wù),提高了煤田地質(zhì)精準(zhǔn)化、多元化服務(wù)的能力。
1.2 煤田地質(zhì)大數(shù)據(jù)云平臺(tái)建設(shè)需求
通過地質(zhì)行業(yè)的領(lǐng)軍單位的信息化發(fā)展過程可以看出,我國(guó)在數(shù)字地質(zhì)信息化建設(shè)和數(shù)字地質(zhì)調(diào)查方面已經(jīng)取得的重大成果。在地質(zhì)行業(yè)中云計(jì)算技術(shù)的運(yùn)用已日趨成熟,而大數(shù)據(jù)技術(shù)的應(yīng)用尚未建立標(biāo)準(zhǔn)化、規(guī)范化的體系,幾乎沒有被應(yīng)用于地質(zhì)行業(yè)中。而針對(duì)當(dāng)前地質(zhì)信息化建設(shè)工作的需求,利用大數(shù)據(jù)技術(shù)進(jìn)行地質(zhì)勘查開發(fā)尚需進(jìn)一步深度應(yīng)用。
做好煤田地質(zhì)大數(shù)據(jù)建設(shè),將為煤田地質(zhì)面向政府、面向行業(yè)、面向社會(huì)提供專業(yè)服務(wù),推動(dòng)煤田地質(zhì)行業(yè)的服務(wù)轉(zhuǎn)型升級(jí)提供強(qiáng)而有力的技術(shù)支撐。進(jìn)行煤田地質(zhì)大數(shù)據(jù)信息化建設(shè),是當(dāng)前的必然趨勢(shì)。運(yùn)用云計(jì)算技術(shù)、大數(shù)據(jù)技術(shù),收集、分析、管理煤田地質(zhì)相關(guān)資料,實(shí)現(xiàn)從數(shù)據(jù)到信息、從信息到知識(shí)、從知識(shí)到應(yīng)用的煤田地質(zhì)大數(shù)據(jù)鏈,實(shí)現(xiàn)煤田地質(zhì)信息的開放與共享,使領(lǐng)導(dǎo)決策部門做出更加科學(xué)和精準(zhǔn)的決策,為新一輪技術(shù)變革提供理論依據(jù)。
2 主要建設(shè)內(nèi)容
煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)要求以多源異構(gòu)煤田地質(zhì)數(shù)據(jù)為核心,建立煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)與數(shù)據(jù)中心,建立煤田地質(zhì)資源專題數(shù)據(jù)庫和煤田地質(zhì)環(huán)境專題數(shù)據(jù)庫,提供煤炭資源專題應(yīng)用和煤炭地質(zhì)環(huán)境專題應(yīng)用。
項(xiàng)目通過建立煤田地質(zhì)大數(shù)據(jù)規(guī)范化體系、煤田地質(zhì)大數(shù)據(jù)中心、煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)及實(shí)現(xiàn)2個(gè)煤田地質(zhì)大數(shù)據(jù)專題應(yīng)用(煤炭資源專題應(yīng)用和煤田地質(zhì)環(huán)境專題應(yīng)用),打造“互聯(lián)網(wǎng)+煤田地質(zhì)”新模式,實(shí)現(xiàn)煤田地質(zhì)數(shù)據(jù)上云。
2.1 建立一套煤田地質(zhì)大數(shù)據(jù)規(guī)范化體系
在總結(jié)和學(xué)習(xí)國(guó)內(nèi)外相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)制訂過程的技術(shù)和經(jīng)驗(yàn)基礎(chǔ)上,采用綜合標(biāo)準(zhǔn)化方法,建立一套基于數(shù)據(jù)體系結(jié)構(gòu)和數(shù)據(jù)生命周期管理過程的標(biāo)準(zhǔn),保證不同專業(yè)間數(shù)據(jù)需求的一致性。為有效實(shí)現(xiàn)數(shù)據(jù)層、服務(wù)層與應(yīng)用層之間標(biāo)準(zhǔn)的集成,形成一個(gè)統(tǒng)一描述、統(tǒng)一管理的信息服務(wù)平臺(tái)提供保障。煤田地質(zhì)大數(shù)據(jù)規(guī)范化體系的主要建設(shè)內(nèi)容包括數(shù)據(jù)分類規(guī)范、數(shù)據(jù)處理規(guī)范、數(shù)據(jù)建庫規(guī)范、數(shù)據(jù)服務(wù)規(guī)范和數(shù)據(jù)交換規(guī)范。
2.2 建立一個(gè)煤田地質(zhì)大數(shù)據(jù)中心
煤田地質(zhì)大數(shù)據(jù)中心包括煤田地質(zhì)資源專題數(shù)據(jù)庫和煤田地質(zhì)環(huán)境專題數(shù)據(jù)庫。專題數(shù)據(jù)按照煤田地質(zhì)大數(shù)據(jù)規(guī)范要求進(jìn)行分類、處理、提取、入庫,最終建立煤田地質(zhì)大數(shù)據(jù)中心。
煤田地質(zhì)資源專題數(shù)據(jù)庫建設(shè):收集、整理煤田地質(zhì)資源相關(guān)資料,根據(jù)煤田地質(zhì)數(shù)據(jù)的特點(diǎn),對(duì)煤田數(shù)據(jù)、基礎(chǔ)空間數(shù)據(jù)、區(qū)劃數(shù)據(jù)、勘探工程數(shù)據(jù)、開發(fā)利用數(shù)據(jù)、成果資料數(shù)據(jù)和三維模型數(shù)據(jù)進(jìn)行分類,完成規(guī)范化建庫工作,建立資源專題數(shù)據(jù)庫。
煤田地質(zhì)環(huán)境專題數(shù)據(jù)庫建設(shè):收集、整理煤田地質(zhì)環(huán)境相關(guān)資料,根據(jù)煤田地質(zhì)數(shù)據(jù)的特點(diǎn),對(duì)基礎(chǔ)空間數(shù)據(jù)、成果資料數(shù)據(jù)、地質(zhì)災(zāi)害數(shù)據(jù)、土地利用現(xiàn)狀數(shù)據(jù)和采煤沉陷區(qū)數(shù)據(jù)進(jìn)行規(guī)范化分類,完成規(guī)范化建庫工作,建立環(huán)境專題數(shù)據(jù)庫。
2.3 建立一個(gè)煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)
基于政務(wù)云在大數(shù)據(jù)高性能計(jì)算框架下建立煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái),作為統(tǒng)一對(duì)外窗口提供相應(yīng)業(yè)務(wù)需求服務(wù),對(duì)各類服務(wù)數(shù)據(jù)與信息進(jìn)行統(tǒng)一操作與管理。平臺(tái)由綜合服務(wù)、服務(wù)資源、服務(wù)管理、用戶指南和系統(tǒng)設(shè)置5部分組成,支持全文語義索引、數(shù)據(jù)智能檢索、資料智能推薦及多源多維數(shù)據(jù)可視化融合等功能。
2.4 研發(fā)煤田地質(zhì)大數(shù)據(jù)中心數(shù)據(jù)管理與維護(hù)工具
根據(jù)收集的煤田地質(zhì)數(shù)據(jù),并對(duì)煤田地質(zhì)數(shù)據(jù)進(jìn)行了深入分析,結(jié)合煤田地質(zhì)大數(shù)據(jù)規(guī)范化體系文檔和煤田地質(zhì)大數(shù)據(jù)建庫流程,完成了煤田地質(zhì)大數(shù)據(jù)中心數(shù)據(jù)管理維護(hù)工具研發(fā)。
煤田地質(zhì)大數(shù)據(jù)中心數(shù)據(jù)管理與維護(hù)工具包括數(shù)據(jù)目錄管理、數(shù)據(jù)上傳、數(shù)據(jù)下載、數(shù)據(jù)刪除、數(shù)據(jù)文件查詢以及上傳數(shù)據(jù)進(jìn)度控制功能。
2.5 實(shí)現(xiàn)2個(gè)煤田地質(zhì)大數(shù)據(jù)專題應(yīng)用
1)實(shí)現(xiàn)煤田地質(zhì)大數(shù)據(jù)煤炭資源專題應(yīng)用。開展煤田地質(zhì)資源專題分析研究,實(shí)現(xiàn)煤炭資源專題應(yīng)用,提供資源選區(qū)和區(qū)塊評(píng)價(jià)等功能,為政府部門在立項(xiàng)選區(qū)、資源評(píng)價(jià)等方面提供科學(xué)決策和數(shù)據(jù)支撐。
2)實(shí)現(xiàn)煤田地質(zhì)環(huán)境專題應(yīng)用。開展煤田地質(zhì)環(huán)境專題分析研究,實(shí)現(xiàn)煤田地質(zhì)環(huán)境專題應(yīng)用,提供土地利用現(xiàn)狀分析與評(píng)價(jià)和采煤沉陷區(qū)預(yù)測(cè)等功能,輔助政府掌握在礦產(chǎn)資源利用中產(chǎn)生的各類地質(zhì)環(huán)境問題、影響范圍及其形成原因等信息,科學(xué)規(guī)劃礦產(chǎn)資源開發(fā)利用。
3 煤田地質(zhì)大數(shù)據(jù)云平臺(tái)設(shè)計(jì)方案
3.1 云平臺(tái)總體架構(gòu)
基于B/S架構(gòu)設(shè)計(jì)了煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)。系統(tǒng)平臺(tái)總體架構(gòu)自下而上分為基礎(chǔ)環(huán)境、數(shù)據(jù)層、微服務(wù)層、平臺(tái)層和應(yīng)用層。
1)基礎(chǔ)環(huán)境:項(xiàng)目基于Hadoop大數(shù)據(jù)存儲(chǔ)分析軟件框架和Spark大數(shù)據(jù)分析處理平臺(tái),構(gòu)建煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)。
2)數(shù)據(jù)層:提供分布式的存儲(chǔ)與計(jì)算。其中,數(shù)據(jù)分為基礎(chǔ)空間數(shù)據(jù)、區(qū)劃數(shù)據(jù)、勘探工程數(shù)據(jù)、開發(fā)利用數(shù)據(jù)、成果資料數(shù)據(jù)、三維模型數(shù)據(jù)、地質(zhì)災(zāi)害數(shù)據(jù)、土地利用現(xiàn)狀數(shù)據(jù)、采煤沉陷區(qū)數(shù)據(jù)和元數(shù)據(jù)。
3)微服務(wù)層:是大數(shù)據(jù)服務(wù)平臺(tái)的最小單元服務(wù),主要提供目錄管理服務(wù)、服務(wù)管理服務(wù)、數(shù)據(jù)服務(wù)和功能服務(wù)。
4)平臺(tái)層:是建立山西省煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái),對(duì)外提供包括煤田地質(zhì)數(shù)據(jù)、煤田地質(zhì)產(chǎn)品、地質(zhì)圖文檢索、服務(wù)資源、服務(wù)管理、用戶指南和系統(tǒng)設(shè)置等功能。
5)應(yīng)用層:利用大數(shù)據(jù)服務(wù)平臺(tái)中的數(shù)據(jù)服務(wù),提供煤炭資源專題應(yīng)用和煤田地質(zhì)環(huán)境專題應(yīng)用。
3.2 關(guān)鍵技術(shù)
3.2.1 煤田地質(zhì)時(shí)空大數(shù)據(jù)流計(jì)算框架
針對(duì)煤田地質(zhì)大數(shù)據(jù)具有體量大,服務(wù)實(shí)時(shí)性要求較高的特點(diǎn),項(xiàng)目以流的方式對(duì)煤田地質(zhì)大數(shù)據(jù)進(jìn)行處理,將大數(shù)據(jù)切分成小塊數(shù)據(jù),然后采用流行的Spark并行計(jì)算技術(shù)對(duì)若干個(gè)小塊數(shù)據(jù)進(jìn)行并行處理,提升煤田地質(zhì)大數(shù)據(jù)的存儲(chǔ)分析效率,實(shí)現(xiàn)煤田地質(zhì)大數(shù)據(jù)相關(guān)服務(wù)的快速響應(yīng)。具體技術(shù)流程如圖1所示。
其中,數(shù)據(jù)流化主要實(shí)現(xiàn)將大數(shù)據(jù)劃分、切分形成多種不同類型的小塊數(shù)據(jù),并以流的形式派發(fā)數(shù)據(jù);并行計(jì)算過程采用Spark框架對(duì)小塊數(shù)據(jù)進(jìn)行計(jì)算,形成多個(gè)key/value鍵值對(duì);然后數(shù)據(jù)收集器對(duì)key/value鍵值對(duì)進(jìn)行聚合,將相同類型的數(shù)據(jù)進(jìn)行分類形成相應(yīng)的數(shù)據(jù)對(duì)象,然后存儲(chǔ)到對(duì)應(yīng)的存儲(chǔ)器中,如此形成整體的流計(jì)算分析框架。
3.2.2 煤田地質(zhì)大數(shù)據(jù)高性能存儲(chǔ)管理
針對(duì)煤田地質(zhì)大數(shù)據(jù)的特點(diǎn),項(xiàng)目使用云存儲(chǔ)進(jìn)行數(shù)據(jù)的存儲(chǔ)與管理,保證系統(tǒng)具有高可用、可伸縮、高效特點(diǎn),以實(shí)現(xiàn)煤田地質(zhì)大數(shù)據(jù)的高性能存儲(chǔ)與管理。具體存儲(chǔ)方法:采用Hadoop生態(tài)圈中的HDFS存儲(chǔ)文檔類數(shù)據(jù),并采用HBase存儲(chǔ)地理空間數(shù)據(jù)以及其他屬性數(shù)據(jù),整體上實(shí)現(xiàn)煤田地質(zhì)大數(shù)據(jù)的分布式存儲(chǔ)。此外,為支持煤田地質(zhì)大數(shù)據(jù)的時(shí)空檢索,項(xiàng)目結(jié)合倒排索引、時(shí)態(tài)網(wǎng)格索引以及空間填充曲線等索引技術(shù),設(shè)計(jì)面向煤田地質(zhì)數(shù)據(jù)的易維護(hù)、易拓展的分布式索引結(jié)構(gòu),支撐地質(zhì)專業(yè)相關(guān)的文檔檢索及時(shí)空檢索,提供高性能查詢服務(wù)。具體存儲(chǔ)管理方法如圖2所示。
3.2.3 基于知識(shí)圖譜的煤田地質(zhì)數(shù)據(jù)智能檢索與知識(shí)推理
針對(duì)傳統(tǒng)檢索方式無法理解用戶自然語言查詢、查詢結(jié)果單一的弊端,項(xiàng)目擬建立智能檢索推理服務(wù)平臺(tái),主要包括基于語義的煤田地質(zhì)數(shù)據(jù)智能檢索方式以及基于用戶習(xí)慣的智能知識(shí)推薦服務(wù)。通過對(duì)煤田地質(zhì)數(shù)據(jù)預(yù)處理,利用深度學(xué)習(xí)以及自然語言處理技術(shù),構(gòu)建煤田地質(zhì)知識(shí)提取模型,構(gòu)建基于煤田地質(zhì)知識(shí)的智能語義索引,實(shí)現(xiàn)用戶的智能語義檢索。關(guān)聯(lián)煤田地質(zhì)知識(shí),構(gòu)建煤田地質(zhì)領(lǐng)域知識(shí)圖譜,提供煤田地質(zhì)智能化推薦服務(wù)。具體技術(shù)思路如圖3所示。
通過對(duì)煤田地質(zhì)數(shù)據(jù)進(jìn)行命名實(shí)體識(shí)別、關(guān)系提取,獲取知識(shí)并進(jìn)行消歧融合,構(gòu)建煤田地質(zhì)知識(shí)圖譜。同時(shí),對(duì)數(shù)據(jù)分詞、構(gòu)建索引,建立語義索引庫。用戶使用時(shí),輸入自然語言,服務(wù)可以自動(dòng)提取自然語言中的知識(shí),在建立的語義索引中進(jìn)行檢索,同時(shí)利用知識(shí)圖譜所包含知識(shí)之間豐富的語義聯(lián)系,為用戶提供潛在的輔助信息來源,從而為用戶提供精確的、多樣的、符合用戶習(xí)慣的檢索結(jié)果,提高用戶對(duì)檢索系統(tǒng)的信任。
3.2.4 多源多維數(shù)據(jù)可視化融合
勘查人員在進(jìn)行煤田地質(zhì)勘探開發(fā)的過程中,采用不同的勘查技術(shù),形成了各種數(shù)據(jù),如地質(zhì)數(shù)據(jù)、專題圖件數(shù)據(jù)、鉆孔數(shù)據(jù)、遙感影像數(shù)據(jù)、土地利用現(xiàn)狀數(shù)據(jù)、沉陷區(qū)調(diào)查成果數(shù)據(jù)和文檔資料等多源多維數(shù)據(jù)。開展多源多維數(shù)據(jù)的關(guān)聯(lián)性與耦合性分析,梳理數(shù)據(jù)間的邏輯關(guān)系,實(shí)現(xiàn)分布式異構(gòu)空間數(shù)據(jù)與屬性數(shù)據(jù)資源的集成與共享。系統(tǒng)擬采用二三維一體化技術(shù)以及多源多維數(shù)據(jù)可視化融合技術(shù),將不同來源不同維度不同類型的數(shù)據(jù)在系統(tǒng)中進(jìn)行可視化展示,這種方式能夠真實(shí)、直觀和形象地展示給使用人員,為煤田地質(zhì)數(shù)據(jù)的應(yīng)用提供支撐。
4 平臺(tái)實(shí)現(xiàn)及應(yīng)用效果分析
煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)項(xiàng)目通過對(duì)過往煤田地質(zhì)工作和相關(guān)積累資料的收集、分析、管理,運(yùn)用云計(jì)算技術(shù)、大數(shù)據(jù)技術(shù),建立了煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái),實(shí)現(xiàn)了煤田地質(zhì)信息的開放與共享;以多源異構(gòu)煤田地質(zhì)數(shù)據(jù)為核心,構(gòu)建煤田地質(zhì)大數(shù)據(jù)規(guī)范,建立了煤田地質(zhì)大數(shù)據(jù)中心;以Hadoop+Spark建設(shè)大數(shù)據(jù)分析計(jì)算平臺(tái),實(shí)現(xiàn)了煤炭地質(zhì)大數(shù)據(jù)存儲(chǔ)管理、分析計(jì)算、智能服務(wù)等關(guān)鍵技術(shù);立足行業(yè)需求,通過設(shè)立示范區(qū)實(shí)現(xiàn)了煤炭資源專題和煤田地質(zhì)環(huán)境2個(gè)專題應(yīng)用,為政府部門在立項(xiàng)選區(qū)、資源與地質(zhì)環(huán)境評(píng)價(jià)等方面提供科學(xué)決策和數(shù)據(jù)支撐。
5 結(jié)束語
煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)是以傳統(tǒng)地質(zhì)行業(yè)與大數(shù)據(jù)、云計(jì)算等新技術(shù)深度融合,實(shí)現(xiàn)了煤田地質(zhì)資源與地質(zhì)環(huán)境一體化,地上與地下一體化的信息互聯(lián)互通的專業(yè)大數(shù)據(jù)平臺(tái)。
煤田地質(zhì)大數(shù)據(jù)信息服務(wù)平臺(tái)既可以實(shí)現(xiàn)煤炭資源信息獲取,也可以對(duì)地質(zhì)環(huán)境進(jìn)行分析評(píng)價(jià),在自然資源領(lǐng)域能切實(shí)做到為政府、企業(yè)等部門提供專業(yè)、科學(xué)、可靠的服務(wù)。展望未來,隨著能源、經(jīng)濟(jì)與環(huán)境系統(tǒng)協(xié)同發(fā)展的深入,以及大數(shù)據(jù)、云計(jì)算、人工智能等信息技術(shù)的發(fā)展,必將對(duì)煤田地質(zhì)大數(shù)據(jù)工作提出更高的要求。
煤田地質(zhì)大數(shù)據(jù)信息系統(tǒng)技術(shù)發(fā)展日新月異,各種新技術(shù)、新方法、新概念層出不窮。在今后相當(dāng)長(zhǎng)的一段時(shí)期內(nèi),煤田地質(zhì)大數(shù)據(jù)還會(huì)保持快速發(fā)展的勢(shì)頭,必定產(chǎn)生更多的變革和發(fā)展。下一步,將總結(jié)項(xiàng)目經(jīng)驗(yàn)和不足,為后續(xù)建設(shè)奠定堅(jiān)實(shí)基礎(chǔ)。
參考文獻(xiàn):
[1] 陳建平,李靖,謝帥,等.中國(guó)地質(zhì)大數(shù)據(jù)研究現(xiàn)狀[J].地質(zhì)學(xué)刊,2017(41):353-366.
[2] 于廣婷,劉同文,曹發(fā)偉,等.地質(zhì)大數(shù)據(jù)輕量化集成展示與專題應(yīng)用[J].測(cè)繪通報(bào),2021(11):140-144.