王晶晶+施冬+王文惠
[摘 要] 對油氣資源數(shù)據(jù)集成管理是油氣資源科技信息化管理的前提基礎(chǔ),同時(shí)也是“數(shù)字國土”的重要組成部分。油氣資源戰(zhàn)略調(diào)查評價(jià)、規(guī)劃、管理、保護(hù)和合理利用等各個(gè)環(huán)節(jié)中都涉及海量數(shù)據(jù)資料的采集、處理、管理與決策,需要利用現(xiàn)代信息技術(shù)輔助各環(huán)節(jié)工作的實(shí)施。而開發(fā)油氣資源大數(shù)據(jù)管理系統(tǒng)實(shí)現(xiàn)了對油氣資源信息采集、傳輸、存儲(chǔ)處理和服務(wù)的數(shù)字化、網(wǎng)絡(luò)化、可視化和智能化。
[關(guān)鍵詞] 油氣資源;數(shù)據(jù)管理中心;系統(tǒng)
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 03. 064
[中圖分類號] TP302.1;TE155 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2017)03- 0120- 03
0 引 言
目前油氣資源數(shù)據(jù)生產(chǎn)分散、來源多樣、類型復(fù)雜,數(shù)據(jù)標(biāo)準(zhǔn)、模型、格式、精度等差異甚大。從空間特性看,包含空間數(shù)據(jù)和非空間數(shù)據(jù),而空間數(shù)據(jù)又包含ArcInfo、MapGIS、MapEngine等;從存儲(chǔ)方式看,包含數(shù)據(jù)庫數(shù)據(jù)和文件數(shù)據(jù);從數(shù)據(jù)關(guān)系看,包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)[1];從數(shù)據(jù)管理平臺(tái)看,包含SQL Server、數(shù)據(jù)庫管理系統(tǒng)、Access等。隨著用戶需求的不斷提升,實(shí)現(xiàn)用戶對海量油氣信息產(chǎn)品資料的篩選以及共享服務(wù)的數(shù)字化、網(wǎng)絡(luò)化、可視化、智能化將成為油氣信息產(chǎn)品共享服務(wù)的一個(gè)全新挑戰(zhàn)。
油氣資源大數(shù)據(jù)支撐及應(yīng)用平臺(tái)系統(tǒng)開發(fā)是通過對數(shù)據(jù)清理、校驗(yàn)以及轉(zhuǎn)換,建立規(guī)范的油氣資源大數(shù)據(jù)支撐環(huán)境,從而實(shí)現(xiàn)對結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的一體化處理和統(tǒng)一管理。通過開發(fā)數(shù)據(jù)的獲取、數(shù)據(jù)清洗抽取、數(shù)據(jù)整合聚類、數(shù)據(jù)分析建模等模塊,可以初步搭建油氣資源大數(shù)據(jù)綜合應(yīng)用分析原型系統(tǒng)。用現(xiàn)代化的計(jì)算機(jī)技術(shù)和分析方法來改進(jìn)人工判別和分析的手段,高效快速地獲取各種直觀可用的分析結(jié)果和數(shù)據(jù)。
1 油氣資源大數(shù)據(jù)支撐及應(yīng)用平臺(tái)建設(shè)研究
大數(shù)據(jù)支撐及應(yīng)用平臺(tái)建設(shè)研究包括了對油氣資源戰(zhàn)略研究中心的業(yè)務(wù)需求研究、油氣資源的價(jià)值研究和面向不同專業(yè)領(lǐng)域的業(yè)務(wù)內(nèi)容研究。通過分析油氣中心的工作方法、工作過程和工作需求,來確定油氣資源大數(shù)據(jù)支撐及應(yīng)用平臺(tái)建設(shè)的內(nèi)容。
1.1 平臺(tái)建設(shè)的服務(wù)內(nèi)容
根據(jù)前期的調(diào)研和交流,本平臺(tái)的建設(shè)主要服務(wù)于三個(gè)層面:數(shù)據(jù)統(tǒng)計(jì)處理層面、數(shù)據(jù)分析加工層面、推理決策層面。
1.1.1 數(shù)據(jù)統(tǒng)計(jì)處理
國內(nèi)外石油領(lǐng)域的大數(shù)據(jù)系統(tǒng)應(yīng)用大致可分為兩種服務(wù),即對石油公司的石油勘探和生產(chǎn)過程進(jìn)行監(jiān)督和指導(dǎo)[2]。但是都是實(shí)時(shí)的業(yè)務(wù)數(shù)據(jù)處理,還需要采用流式方法對實(shí)際的生產(chǎn)數(shù)據(jù)快速加工分析,并將非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成為可分析的數(shù)據(jù),結(jié)合地質(zhì)數(shù)據(jù)、歷史數(shù)據(jù)和地理數(shù)據(jù),得出有價(jià)值的結(jié)論和結(jié)果。
1.1.2 數(shù)據(jù)分析加工
本系統(tǒng)的建設(shè)中,數(shù)據(jù)分析加工的實(shí)現(xiàn)是建立在業(yè)務(wù)需求的基礎(chǔ)上的,在業(yè)務(wù)分析的基礎(chǔ)上,將不同的數(shù)據(jù)通過業(yè)務(wù)模型進(jìn)行不同的抽取、加工、歸類并集成,并分批次進(jìn)行算法迭代,來支撐業(yè)務(wù)模型的推演和分析需要,其數(shù)據(jù)本身是源于數(shù)據(jù)倉庫,但擴(kuò)展和處理后,數(shù)據(jù)的類型和精細(xì)程度都進(jìn)行了不同層級的劃分,拓展了數(shù)據(jù)的應(yīng)用,這個(gè)層面的分析加工不僅加速了數(shù)據(jù)的處理,更有針對性地進(jìn)行了業(yè)務(wù)模型的分析需要。
1.1.3 推理決策支撐
推理分析是大數(shù)據(jù)平臺(tái)的一個(gè)重要應(yīng)用,也是最初數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的重要應(yīng)用領(lǐng)域,在油氣中心的業(yè)務(wù)內(nèi)容中,有很多不同程度推理決策的需求存在,如根據(jù)實(shí)際油氣田勘探情況來判斷開發(fā)區(qū)塊的選擇、油氣田鉆井位置的預(yù)測、油氣儲(chǔ)備量計(jì)算與預(yù)測等等[3]。
1.2 平臺(tái)建設(shè)的標(biāo)準(zhǔn)化
整個(gè)平臺(tái)建設(shè)的標(biāo)準(zhǔn)化工作非常重要,由于數(shù)據(jù)的存儲(chǔ)、格式、計(jì)算方法等內(nèi)容都是以分布式方式實(shí)現(xiàn),因此標(biāo)準(zhǔn)化的接口和服務(wù)方法更加關(guān)鍵。
1.2.1 數(shù)據(jù)服務(wù)的標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化的REST服務(wù)接口作為本系統(tǒng)建設(shè)的重要標(biāo)準(zhǔn),所有的數(shù)據(jù)提供最終都以REST服務(wù)的方式來提供,并明確給出其返回的數(shù)據(jù)的參考實(shí)例,所有異常數(shù)據(jù)的處理和判別都是在數(shù)據(jù)獲取的過程內(nèi)部完成,并將異常情況以編碼方式返回[4]。
1.2.2 業(yè)務(wù)分析過程的標(biāo)準(zhǔn)化
數(shù)據(jù)的分析過程和上述數(shù)據(jù)服務(wù)一樣,也是REST服務(wù)方式來提供,并提供對應(yīng)的參數(shù)輸入,用戶只需調(diào)用相對應(yīng)的接口,指定對應(yīng)的數(shù)據(jù)輸入,定義好返回的數(shù)據(jù)類型等內(nèi)容,就可以得到規(guī)范的業(yè)務(wù)分析結(jié)果,對于有異常和錯(cuò)誤的業(yè)務(wù),錯(cuò)誤碼也會(huì)返回。
1.2.3 成果展示的標(biāo)準(zhǔn)化
系統(tǒng)將提供標(biāo)準(zhǔn)的可視化展示樣式,包括顏色,圖例等內(nèi)容,用戶在調(diào)用接口時(shí),可以制定以哪種樣式進(jìn)行輸出,可以使文本統(tǒng)計(jì),也可以是圖表內(nèi)容,這些標(biāo)準(zhǔn)化的結(jié)果對于分析和操作過程提供極大便利。
2 油氣資源大數(shù)據(jù)綜合應(yīng)用分析原型系統(tǒng)開發(fā)
2.1 原型架構(gòu)設(shè)計(jì)
如圖1所示,本原型系統(tǒng)的建設(shè)將基于目前數(shù)據(jù)倉庫的建設(shè)成果,將業(yè)務(wù)專題模型所需的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)從數(shù)據(jù)倉庫中進(jìn)行抽取、轉(zhuǎn)換和加工,在數(shù)據(jù)的處理過程中,通過中間的存儲(chǔ)層來實(shí)現(xiàn)對業(yè)務(wù)模型內(nèi)數(shù)據(jù)進(jìn)行存儲(chǔ)和處理,并建立不同的數(shù)據(jù)索引和對應(yīng)關(guān)系[5]。在計(jì)算時(shí)也需要用到內(nèi)存數(shù)據(jù)庫的支撐,來減少數(shù)據(jù)的吞吐,加速數(shù)據(jù)的分析和處理過程。在業(yè)務(wù)分析和模型推演時(shí),本平臺(tái)將采用Spark來作為本原型系統(tǒng)的計(jì)算框架,通過快速計(jì)算能力、內(nèi)存存儲(chǔ)能力和流式計(jì)算能力等優(yōu)勢實(shí)現(xiàn)大數(shù)據(jù)管理和應(yīng)用原型系統(tǒng)的建設(shè)。