李連偉 許明明 劉 展 林 峰 孫記紅 安聰榮
1(中國石油大學(華東)地球科學與技術(shù)學院 山東 青島 266580)2(北京中科九章軟件有限公司 北京 100190)3(青島海洋地質(zhì)研究所 山東 青島 266071)
?
天然氣水合物數(shù)據(jù)挖掘服務組件的設計與實現(xiàn)
李連偉1許明明2劉展1林峰3孫記紅3安聰榮1
1(中國石油大學(華東)地球科學與技術(shù)學院山東 青島 266580)2(北京中科九章軟件有限公司北京 100190)3(青島海洋地質(zhì)研究所山東 青島 266071)
天然氣水合物是21世紀一種具有巨大潛在價值的未來能源,在能源危機的今天已經(jīng)引起各國政府和科研部門的重視。海域天然氣水合物勘探調(diào)查手段豐富多樣,不同的勘查方式涉及的相關(guān)地質(zhì)參數(shù)的不確定性比較大,采用的天然氣水合物資源分析方法和預測評價方法也都相對較復雜。而數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)分析、預測評價等方面優(yōu)勢明顯,且在石油勘探及礦山等很多地學領(lǐng)域進行了運用,結(jié)果可信度比較高,大大減少了勘測成本。通過對天然氣水合物勘查業(yè)務和數(shù)據(jù)進行分析,研究適用于水合物數(shù)據(jù)挖掘方法,設計并實現(xiàn)了基于IBMSPSSModeler的天然氣水合物數(shù)據(jù)挖掘服務組件,為天然氣水合物勘查領(lǐng)域數(shù)據(jù)挖掘智能決策產(chǎn)品的研究奠定了良好的基礎(chǔ)。同時也能夠為海洋地質(zhì)數(shù)據(jù)庫建設和數(shù)據(jù)應用打下技術(shù)積累,從而為天然氣水合物的勘探開發(fā)和綜合評價提供幫助。
天然氣水合物數(shù)據(jù)挖掘服務組件
21世紀我國經(jīng)濟將快速發(fā)展,隨經(jīng)濟的快速發(fā)展,必然會帶來能源特別是化石能源的大量消耗。我國正面臨嚴重的能源短缺的問題,據(jù)統(tǒng)計,我國原油對外依存度由2005年的41%提高到2013年的59.16%,2014年預期將首度超過60%[1]。天然氣水合物作為一種新型高效潔凈型能源,被公認為是21世紀理想的替代能源,因此有必要加快尋找天然氣水合物能源的進程。
我國針對水合物勘查開展的118專項和127工程等大型的調(diào)查項目,在天然氣水合物實驗室模擬、物化性質(zhì)、資源評價等方面開展了多種研究項目。隨著天然氣水合物勘探開發(fā)的不斷深入,物探、化探、多波束、鉆探、取樣及實驗室分析等數(shù)據(jù)量增長迅速,但相關(guān)數(shù)據(jù)未能得到的充分利用,存在數(shù)據(jù)量豐富、信息獲取貧乏的現(xiàn)象。如何充分有效地利用天然氣水合物勘探開發(fā)海量數(shù)據(jù),對其賦存情況進行識別與預測,對天然氣水合物特性規(guī)律進行分析,發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律信息,需要一個強有力的數(shù)據(jù)分析工具,從海量數(shù)據(jù)中識別有價值的知識,為進一步的勘探開發(fā)和綜合評價提供決策支持。
數(shù)據(jù)挖掘技術(shù)在社會各領(lǐng)域已開展了大量應用研究,并取得良好的社會效益和經(jīng)濟效益,由通用數(shù)據(jù)挖掘應用向特定領(lǐng)域的數(shù)據(jù)挖掘應用是數(shù)據(jù)挖掘技術(shù)發(fā)展的趨勢。在天然氣水合物勘探開發(fā)領(lǐng)域,很多學者重點針對天然氣水合物某一類數(shù)據(jù)或某一類問題,利用數(shù)據(jù)挖掘技術(shù)進行了研究。但是目前為止還沒有針對水合物勘探研究領(lǐng)域的數(shù)據(jù)挖掘應用整體研究,也沒有形成天然氣水合物數(shù)據(jù)挖掘應用產(chǎn)品。
本文基于面向服務體系架構(gòu)SOA思想,基于IBMSPSSModeler進行天然氣水合物數(shù)據(jù)挖掘服務組件開發(fā),提供高效、可靠、跨平臺的天然氣水合物數(shù)據(jù)挖掘服務,加快水合物數(shù)據(jù)的研究與應用。
研制天然氣水合物數(shù)據(jù)挖掘組件,首先應研究天然氣水合物勘查業(yè)務,分析勘探開發(fā)過程中產(chǎn)生的數(shù)據(jù);在此基礎(chǔ)上研究適合天然氣水合物數(shù)據(jù)挖掘方法。
1.1水合物勘查業(yè)務與數(shù)據(jù)分析
(1) 水合物勘查業(yè)務分析
通過研究分析《海洋天然氣水合物資源勘查規(guī)范》和《海洋天然氣水合物數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)》,在進行水合物勘查過程中,主要進行地形地貌勘查、地球物理勘查、地質(zhì)取樣、地球化學勘查、實驗室模擬實驗分析和其他相關(guān)勘查[2],如圖1所示。
圖1 水合物勘查業(yè)務分析
(2) 天然氣水合物數(shù)據(jù)分析
根據(jù)《海洋天然氣水合物數(shù)據(jù)庫數(shù)據(jù)結(jié)構(gòu)》規(guī)范,天然氣水合物數(shù)據(jù)主要包括空間位置數(shù)據(jù)、調(diào)查數(shù)據(jù)、取樣數(shù)據(jù)、鉆探數(shù)據(jù)、走行觀測數(shù)據(jù)、定點觀測數(shù)據(jù)、樣品分析數(shù)據(jù)、資料解釋數(shù)據(jù)、實驗數(shù)據(jù)、成果報告及圖件等,又分為關(guān)系數(shù)據(jù)、空間數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)[3],如圖2所示。
圖2 水合物勘探數(shù)據(jù)分析
關(guān)系數(shù)據(jù)利用ORACLE數(shù)據(jù)庫采用了傳統(tǒng)的關(guān)系數(shù)據(jù)模型進行統(tǒng)一存儲和管理,非結(jié)構(gòu)化數(shù)據(jù)以文件的方式進行存儲和管理,空間數(shù)據(jù)主要是指在水合物勘查過程中具有坐標的數(shù)據(jù)和分析后形成的具有坐標的異常圖,其中取樣位置數(shù)據(jù)包括海底表層取樣位置、孔隙水取樣位置、頂空氣取樣位置等;海洋環(huán)境圖主要是指海底溫度、壓力分布圖;地質(zhì)構(gòu)造圖又包括海底斷層分布圖、海底構(gòu)造帶分布圖及海底構(gòu)造單元分布圖等;海底地質(zhì)圖主要包括地質(zhì)剖面圖、地層柱狀圖等。
1.2數(shù)據(jù)挖掘方法研究
(1) 數(shù)據(jù)預處理
數(shù)據(jù)挖掘所需數(shù)據(jù)必須是干凈、準確、簡潔的數(shù)據(jù)。原始數(shù)據(jù)是從各實際應用空間數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫等多個數(shù)據(jù)庫中獲取的,不同的數(shù)據(jù)庫往往缺乏統(tǒng)一的數(shù)據(jù)標準和定義,數(shù)據(jù)結(jié)構(gòu)也有較大的差異,量綱與單位不同,使得數(shù)據(jù)存在不一致性;對同一數(shù)據(jù)可能在不同的數(shù)據(jù)庫中都有記錄;數(shù)據(jù)在采集、存儲、傳輸?shù)冗^程中也可能會出現(xiàn)某些數(shù)據(jù)的丟失或數(shù)據(jù)質(zhì)量下降的情況。因此,首先需要對原始數(shù)據(jù)進行預處理[4-8]。
針對數(shù)據(jù)的不一致性和可能存在的重復,采用標準化、選擇、抽樣、合并四種方法來消除各數(shù)據(jù)單位與量綱的差異,篩選數(shù)據(jù),統(tǒng)一標準;利用包括線性插值方法、克里金插值、反距離插值等插值方法來處理數(shù)據(jù)缺失現(xiàn)象;采用九點圓滑方法進行數(shù)據(jù)圓滑來解決數(shù)據(jù)在獲取或傳輸過程中可能存在的數(shù)據(jù)質(zhì)量下降的現(xiàn)象。
(2) 數(shù)據(jù)分析
數(shù)據(jù)挖掘中常用的數(shù)據(jù)分析方法有統(tǒng)計分析方法、趨勢面分析方法、判別式分析方法、回歸分析方法、因子分析方法、聚類分析方法共6種[9-12]。利用統(tǒng)計分析方法可以對預處理后的數(shù)據(jù)進行探索分析,包括均值、方差、中數(shù)、標準差、總數(shù)等,可以初步了解數(shù)據(jù)的分布特征及規(guī)律;趨勢面分析方法可以確定區(qū)域背景異常,進而確定局部異常,根據(jù)趨勢分析結(jié)果,繪制背景異常等值線圖和局部異常圖;回歸分析方法是研究某一變量與多變量之間的線性關(guān)系,根據(jù)自變量對因變量的方差貢獻的顯著程度,“引入”或“剔除”指標,建立回歸方程,并對回歸方程式進行檢驗,確定變量間的關(guān)系,分線性回歸和非線性回歸兩種方法;因子分析方法指研究變量之間的相關(guān)關(guān)系,從研究相關(guān)系數(shù)矩陣的內(nèi)部結(jié)構(gòu)出發(fā),找出數(shù)目較少的,相互獨立的基本變量,稱為主因子,并計算主因子的解,給出相應因子得分。由此可以排列各水合物判別指標在決定異常中所起的作用和須序;判別分析方法指從眾多指標中選擇對分類最優(yōu)的指標形成綜合指標,對樣本進行判別分類;聚類分析的基本思想是根據(jù)各個評價指標之間某種相似性或者差異性通過采用某種數(shù)學方法進行定量研究[13,14]。
(3) 綜合評價
由于地學參數(shù)之間往往存在相關(guān)關(guān)系,評測目標比較多,目標參數(shù)間關(guān)系比較復雜,許多智能算法如模糊評價法、AHP層次分析法、灰色理論評價法等由于自身特點,無法解決地質(zhì)數(shù)據(jù)非線性匹配的問題,而神經(jīng)網(wǎng)絡和模式識別的發(fā)展讓人們有了更多的選擇,在一些專家意見難統(tǒng)一的領(lǐng)域,運用神經(jīng)網(wǎng)絡和模式識別建立綜合評價系統(tǒng)往往能取得與令人信服的結(jié)果[15-17]。因此綜合評價方法選用模式識別和神經(jīng)網(wǎng)絡兩種方法。
神經(jīng)網(wǎng)絡通過構(gòu)建數(shù)學模型完成對自然界存在的生物神經(jīng)網(wǎng)絡的抽象、簡化和模擬實現(xiàn)計算機世界中信息資源的處理,它通過對樣本的學習訓練來改變自身的拓撲結(jié)構(gòu)和連接權(quán)值,以此保證其不斷接近期望的輸出結(jié)果,通過學習調(diào)整,提高自身的性能[18]。模式識別通過計算機的輔助能夠自動模擬和識別客觀世界中的事物、事件、過程或現(xiàn)象[19],它首先對數(shù)學領(lǐng)域的點集劃分采用核參數(shù)進行表示,然后對核參數(shù)進行評價,不斷輸入樣本來計算評價誤差的協(xié)方差在某一規(guī)則下實現(xiàn)分類。
2.1總體設計
本文采用B/S架構(gòu),基于SPSSModeler二次開發(fā),以微軟通信框架WCF(WindowsCommunicationFoundation)服務的方式,按照服務組件設計->服務組件研制開發(fā)->服務組件測試->天然氣水合物數(shù)據(jù)挖掘服務平臺研制的全過程進行研究。
2.2功能設計
根據(jù)前文對水合物數(shù)據(jù)挖掘方法的研究及水合物數(shù)據(jù)特點分析的基礎(chǔ)上,對水合物數(shù)據(jù)挖掘服務組件進行功能設計。采用SPSSModeler二次開發(fā)和自主開發(fā)相結(jié)合的方式,主要包括數(shù)據(jù)服務、數(shù)據(jù)挖掘、結(jié)果展示3大部分。數(shù)據(jù)服務包括文件上傳、數(shù)據(jù)發(fā)布、數(shù)據(jù)瀏覽功能;數(shù)據(jù)挖掘包括數(shù)據(jù)預處理、數(shù)據(jù)分析、綜合評價功能;結(jié)果展示包括Text數(shù)據(jù)展示、圖形文件展示和Excel數(shù)據(jù)展示功能。其中數(shù)據(jù)挖掘是核心,所包含的數(shù)據(jù)預處理功能又包括抽樣、選擇、合并、圓滑、插值等模塊;數(shù)據(jù)分析功能又包括統(tǒng)計分析、趨勢面分析、判別分析、因子分析、回歸分析和聚類分析模塊;綜合評價功能又包括模式識別和神經(jīng)網(wǎng)絡模塊。
2.3服務接口設計
服務接口是指一個組件各種業(yè)務可以通過接口定義來實現(xiàn)業(yè)務的功能。一個服務接口可以實現(xiàn)一個或者多個業(yè)務功能。而且每一個接口都有0個或者多個請求參數(shù),也會有0個或者多個相應參數(shù),根據(jù)用戶需求不一樣,這時參數(shù)可以是簡單的數(shù)據(jù)類型也可以是復雜的數(shù)據(jù)類型。根據(jù)組件功能設計,對每個組件的服務接口進行了詳細的設計,對每個接口建立了詳細的接口參數(shù)表。以K均值聚類組件為例,其參數(shù)如表1所示。
表1 K均值聚類組件接口詳細參數(shù)表
2.4關(guān)鍵技術(shù)
1) 基于SPSS Modeler二次開發(fā)
IBM公司的SPSSModeler是比較有影響的通用數(shù)據(jù)挖掘系統(tǒng),該工具提供可視化、流程化的集成開發(fā)環(huán)境,用戶可以在其基礎(chǔ)上開發(fā)適于自己領(lǐng)域的特定應用。利用SPSSModeler進行數(shù)據(jù)挖掘又可以分為兩種方式,即流文件方式和腳本文件方式。SPSSModeler軟件提供了批處理模式(IBMSPSSModelerBatch)實現(xiàn)調(diào)用SPSSModeler的挖掘模塊,在此基礎(chǔ)上可以實現(xiàn)基于SPSSModeler的數(shù)據(jù)挖掘服務平臺快速構(gòu)建和實現(xiàn)。
(1) 流文件方式
通過在SPSSModeler軟件的主工作區(qū)以拖拽的方式將與業(yè)務相關(guān)的數(shù)據(jù)操作圖表來創(chuàng)建業(yè)務相關(guān)數(shù)據(jù)流,每個操作都用一個圖標或者節(jié)點表示,這些節(jié)點連接在一起構(gòu)建成一個業(yè)務流并輸出到本地,流保存格式為.str。在平臺調(diào)用時,首先要根據(jù)實際需求對流中的參數(shù)進行修改,然后以批處理的方式執(zhí)行。具體流程表現(xiàn)為首先在SPSSModeler中創(chuàng)建流—選擇節(jié)點—連接節(jié)點—保存流,然后在服務平臺上實現(xiàn)創(chuàng)建流腳本—修改流參數(shù)—執(zhí)行。
(2) 腳本編程方式
首先在服務平臺中創(chuàng)建相應腳本,根據(jù)挖掘業(yè)務編寫相應的腳本內(nèi)容,內(nèi)容中包括流和節(jié)點的創(chuàng)建、節(jié)點連接及相應的參數(shù)等信息,然后以批處理的方式調(diào)用執(zhí)行。
本文以因子分析為例詳述采用腳本編程方式開發(fā)的過程如下所述。
第一步,編寫腳本文件。首先在腳本文件內(nèi)實現(xiàn)流和節(jié)點的創(chuàng)建,將相應節(jié)點進行連接并設置相應參數(shù),參考代碼如下:
createstream′NeuralNetworkStream′
//創(chuàng)建神經(jīng)網(wǎng)絡流
varexcelimport
setexcelimport=createexcelimportnode
set^excelimport.full_filename= ″C:/MarineDataMiningForTest/Files/xls/r.xls″
set:^excelimport.excel_file_type=Excel2003
varimporttype
setimporttype=createtypenode
connect^excelimportto^importtype
set^importtype.type.′result′=Set
11月13日8版《聚焦核心素養(yǎng)》,其“2007年11月徐匯區(qū)開了先河。這是具有悠久歷史文化底蘊和優(yōu)秀教育傳統(tǒng)的徐匯區(qū),在教育史上書寫的大手筆:堪稱徐匯區(qū)教育界的大事,刷新上海區(qū)級層面舉辦此節(jié)的紀錄”,用“……開了先河……徐匯區(qū),在教育史上的大手筆……大事,開創(chuàng)了上海區(qū)級層面舉辦此節(jié)的紀錄”為妥。書寫手筆,此話不通;是先河,何來“刷新”“堅定了徐匯教育走內(nèi)涵發(fā)展、科學發(fā)展、持續(xù)發(fā)展的新思維”,用“強化了徐匯……的新思維”為好。
set^importtype.direction.′序號′=Input
set^importtype.direction.′經(jīng)度′=Input
set^importtype.direction.′緯度′=Input
set^importtype.direction.′甲烷上′=Input
set^importtype.direction.′甲烷下′=Input
……
set^importtype.direction.′result′=Input
set^importtype.direction.′result′=Target
varneu
connect^importtypeto^neu
set^neu.method=MultilayerPerceptron
set^neu.model_name=″result″
execute^neu
savemodelresultasC:MarineDataMiningForTestFilesmodelsNeuraNet.gm
exportmodelresultasC:MarineDataMiningForTestFiles empNeuraNetwork.txt
第二步,腳本調(diào)用。該步驟是為了在平臺內(nèi)執(zhí)行腳本完成數(shù)據(jù)挖掘過程所必須的步驟,腳本執(zhí)行代碼如下:
Processprocess=newProcess();
process.StartInfo.CreateNoWindow=true;
process.StartInfo.UseShellExecute=false;
process.StartInfo.FileName=spssModelerPathNoGUI;
process.StartInfo.Arguments=cmd;
process.Start();
execute^excelexport
//執(zhí)行節(jié)點
以流文件方式進行SPSSModeler開發(fā)時,由于是事先在軟件中輸出流,開發(fā)難度較低,節(jié)點屬性修改方便,但由于節(jié)點與節(jié)點都已經(jīng)固定,對流變動較大時(如增加刪除節(jié)點)就顯得靈活性不足。而以腳本文件方式進行開發(fā)則可以克服這一缺點,可以在腳本中對流進行修改,因此本文采用腳本編程方式來實現(xiàn)。
2) WCF服務發(fā)布
WCF是微軟提供的基于SOA的統(tǒng)一編程框架,用于構(gòu)建面向服務的應用程序。他為數(shù)據(jù)通信提供了最基本最有彈性的支持,使得SOA架構(gòu)的軟件開發(fā)效率大大提高[14],WCF服務發(fā)布的步驟為定義服務契約接口—定義服務類實現(xiàn)契約接口—配置和托管服務—配置和建立客戶端—調(diào)用服務。
(1) 定義服務契約接口
契約接口中定義需要公開的操作契約(即方法),接口聲明使用ServiceContract關(guān)鍵字,方法聲明使用OperationContract關(guān)鍵字,將服務暴露給客戶端。通過使用ServiceContract標記將接口公開為服務契約。
數(shù)據(jù)服務接口代碼如下所示:
[ServiceContract]
publicinterfaceIdataProvider
{
[OperationContract]
stringGetEntityList(stringpEntityName,stringstrHql);
[OperationContract]
byte[]GetEntityByteValue(stringstrHql);
//
……
//
}
(2) 定義服務類實現(xiàn)服務契約接口
服務契約接口中的所有操作都是沒有定義實現(xiàn)的,業(yè)務邏輯操作必須在服務類中完成。服務契約接口并不是必要的,但一般推薦有服務契約接口,這樣才能發(fā)揮其靈活性和擴展性優(yōu)點。
(3) 配置和建立宿主
WCF服務的寄宿方式包括自托管、Windows激活服務WAS(WindowsActivationService)托管、IIS托管等方式,用戶可根據(jù)應用程序運行的具體網(wǎng)絡類型來選擇相應的寄宿方式。自托管是指將WCF服務寄宿于一個由開發(fā)者提供并管理的應用程序中。使用自托管時,配置和使用都相對簡單。本文采用自托管的方式,將WCF托管在宿主網(wǎng)站上。
(4) 配置和建立客戶端
本文采用VS開發(fā)環(huán)境,使用WCF服務時,直接在客戶端應用程序內(nèi)添加相應的服務引用即可。
(5) 調(diào)用服務
首先以具體的服務名+Client來創(chuàng)建客戶端的服務實例,然后通過服務實例訪問公開的服務操作,來完成服務的調(diào)用。
本次研究以位于珠江口盆地南部凹陷帶的白云凹陷為驗證區(qū)域,結(jié)合水合物賦存條件、勘查業(yè)務與數(shù)據(jù)分析,選取進行水合物綜合評價的評價指標,主要包括地質(zhì)條件、地球物理特征和地球化學特征3個方面的評價指標。溫壓條件是判斷水合物賦存的一個非常重要的指標,但所選驗證區(qū)域內(nèi)絕大部分區(qū)域的溫壓條件都滿足水合物賦存需求,所以溫壓條件不作為本次研究中的評價指標。
結(jié)合收集的資料,首先進行數(shù)據(jù)的預處理,消除評價指標數(shù)據(jù)可能存在的單位與量綱差異、數(shù)據(jù)缺失、數(shù)據(jù)傳輸過程中質(zhì)量下降的現(xiàn)象。主要預處理模塊如圖3所示。
圖3 數(shù)據(jù)標準化模塊和數(shù)據(jù)圓滑模塊
在水合物綜合評價過程中,雖然對水合物綜合評價所需的評價指標數(shù)據(jù)進行了數(shù)據(jù)預處理,但是評價指標過多會導致評價速度慢的缺陷,需要進行數(shù)據(jù)分析處理,以少量主要的有代表性的評價指標代替大量的評價指標。主要的數(shù)據(jù)分析模塊如圖4所示。
圖4 因子分析模塊和聚類分析模塊
經(jīng)對各評價指標采用數(shù)據(jù)分析模塊分析后,最終選取地質(zhì)條件(包括構(gòu)造條件、沉積條件和氣源條件)、地球物理特征(包括似海底反射層BSR(BottomSimulatingReflector)、重力和磁力)和地球化學特征(頂空氣甲烷異常)3大方面的7個評價指標,以剩余重力異常為基礎(chǔ)圈定研究區(qū)域內(nèi)的評價單元,如圖5所示。
圖5 白云凹陷重力異常評價單元
由于水合物鉆探樣品數(shù)據(jù)過少,無法滿足BP神經(jīng)網(wǎng)絡學習訓練對樣本數(shù)量的要求,在水合物遠景預測時,可先通過“自學”模式識別方式,結(jié)合已有資料經(jīng)相關(guān)專家分析選擇出典型的有代表性的樣本作為BP算法及相關(guān)改進算法的學習樣本,在此基礎(chǔ)上進行整個研究區(qū)域內(nèi)水合物賦存區(qū)的識別,其模塊如圖6和圖7所示。
圖6 “自學”模式識別模塊
圖7 BP神經(jīng)網(wǎng)絡模塊
采用“自學”模式識別算法運算需要輸入各評價指標數(shù)據(jù)定量化數(shù)據(jù)和權(quán)值,在進行權(quán)值計算時采用已有研究資料所確定的各評價指標的有利程度和層次分析法AHP(AnalyticHierarchyProcess)聯(lián)合進行。根據(jù)設計的BP神經(jīng)網(wǎng)絡模型結(jié)構(gòu),通過對選定的樣本進行學習訓練,對研究區(qū)域所有樣本進行識別和預測,其結(jié)果如圖8所示。
圖8 白云凹陷BP算法識別與預測結(jié)果圖
從圖8可以看出,所選研究區(qū)域水合物有利賦存單元分布于區(qū)域中部和東部,較有利單元分布于其東北部和西南部。在選定的28個評價單元中,有利于水合物賦存單元為BY-5、BY-6、BY-10、BY-23、BY-25和BY-28單元,其中在BY-10區(qū)域已經(jīng)成功鉆取出水合物樣品,在一定程度上驗證了本研究評價結(jié)果的可行性。
天然氣水合物綜合評價需要地質(zhì)、地球物理和地球化學大量的評價指標數(shù)據(jù),本研究僅基于收集整理的部分資料進行水合物綜合評價方法驗證,其結(jié)果需大量資料做進一步完善。
本文在對天然氣水合物勘探業(yè)務分析和數(shù)據(jù)分析的基礎(chǔ)上,研究數(shù)據(jù)挖掘方法,采用服務組件的開發(fā)思想,設計并實現(xiàn)了基于IBMSPSSModeler的天然氣水合物數(shù)據(jù)挖掘服務組件,并以白云凹陷區(qū)域為實例,進行了服務組件的驗證。構(gòu)建的服務組件能夠?qū)A克衔飻?shù)據(jù)的處理及綜合分析提供一定的幫助,為專題數(shù)據(jù)挖掘應用提供技術(shù)方案,為天然氣水合物勘查領(lǐng)域數(shù)據(jù)挖掘智能決策產(chǎn)品的研究奠定了良好的基礎(chǔ),同時也能夠為海洋地質(zhì)數(shù)據(jù)庫建設和數(shù)據(jù)應用打下技術(shù)積累。但是,隨著新的數(shù)據(jù)挖掘方法的出現(xiàn),組件在功能上還需要進一步擴展,提供更加完善的數(shù)據(jù)挖掘功能。
[1] 王宇寧,石寶明,白雪松.2014年中國原油供求分析及展望[J].化學工業(yè),2014,32(8):1-5.
[2] 劉展,楊辰,魏合龍,等.基于EPICENTRE的海洋鉆探數(shù)據(jù)庫構(gòu)建方法研究[J].計算機技術(shù)與發(fā)展,2012,22(6):49-52.
[3] 李曼.面向?qū)ο筇烊粴馑衔飻?shù)據(jù)挖掘支持研究[D].青島:中國石油大學,2013.
[4] 劉明吉,王秀峰,黃亞樓.數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[J].計算機科學,2000,27(4):54-57.
[5] 菅志剛,金旭.數(shù)據(jù)挖掘中數(shù)據(jù)預處理的研究與實現(xiàn)[J].計算機應用研究,2004,21(7):117-118,1587.
[6] 方洪鷹.數(shù)據(jù)挖掘中數(shù)據(jù)預處理方法研究[D].重慶:西南大學,2009.
[7] 關(guān)大偉.數(shù)據(jù)挖掘中的數(shù)據(jù)預處理[D].長春:吉林大學,2006.
[8] 劉莉,徐玉生,馬志新.數(shù)據(jù)挖掘中數(shù)據(jù)預處理技術(shù)綜述[J].甘肅科學學報,2003,15(1):117-119.
[9] 周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進展[J].計算機工程與應用,2012,48(12):100-111.
[10] 孫劍.海洋環(huán)境數(shù)據(jù)倉庫與數(shù)據(jù)挖掘應用研究[D].青島:中國海洋大學,2011.
[11] 馬廷淮,穆強,田偉,等.氣象數(shù)據(jù)挖掘研究[J].武漢理工大學學報,2010,32(16):110-114.
[12] 李德仁.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論與方法[J].武漢大學學報:信息科學版,2002,27(3):221-223.
[13]KaufmanL,RousseewPJ.FindingGroupsInData:anIntroductiontoClusterAnalysis[D].NewYork:JohnWiley&Sons,1990.
[14]MullerB,RrinhardtJ.NeuralNetworks:anIntroduction[D].Berlin:Springer-Verlag,1997.
[15] 高學輝,劉艷忠,王巧芝,等.基于在線支持向量回歸算法的短時交通流預測[J].山東科技大學學報:自然科學版,2011,30(1):78-82.
[16]RumelhartDE,HintonGE,WilliamsRJ.LearingRepresentationsbyBack-PropagatingErrors[J].Nature, 1986,323(9):533-536.
[17] 劉展,許炳如.塔里木盆地航磁局部異常的自學模式識別分類及評價[J].石油地球物理勘探,1999,34(1):71-78.
[18] 吳昌友.神經(jīng)網(wǎng)絡的研究與應用[D].哈爾濱:東北農(nóng)業(yè)大學,2007.
[19] 趙喜林,趙喜玲,江祥奎.模式識別方法及其比較分析[J].信陽農(nóng)業(yè)高等專科學校學報,2004,14(3):37-40.
[20] 張海靜.基于B/S模式的組態(tài)監(jiān)控軟件Web發(fā)布系統(tǒng)[D].北京:北京交通大學,2013.
DESIGNANDIMPLEMENTATIONOFDATAMININGSERVICECOMPONENTOFGASHYDRATE
LiLianwei1XuMingming2LiuZhan1LinFeng3SunJihong3AnCongrong1
1(CollegeofGeoscienceandTechnology,ChinaUniversityofPetroleum,Qingdao266580,Shandong,China)2(BeijingJozzonSoftwareCo.,Ltd.,Beijing100190,China)3(QingdaoInstituteofMarineGeology,Qingdao266071,Shandong,China)
Gashydrate,afutureenergywithhugepotentialinthe21stcentury,ithasgotattentionfromgovernmentsandscientificresearchdepartmentsastheenergycrisisbecomesaseriousissue.Currently,therearevariousmethodstosurveyandexploregashydrateinmarinearea,notonlytheindeterminacyofgeologicparametersdiffergreatlywithdifferentexploringmethods,themethodsforanalyzing,predicatingandevaluatinggashydratearealsorelativelycomplicated.However,thedataminingtechniqueshavedistinctadvantagesinthefieldsofdataanalysis,predicationandevaluation,andithasbeenappliedtothepetroleumandmineexplorationandothergeosciencesfieldforalongtimewithhighreliability,reducingtheexplorationcostsgreatly.Therefore,inthispaper,thedataminingmethodforgashydrateisresearchedbyanalyzingthebusinessesanddatumofgashydrateexplorationwhilethedataminingservicecomponentsforgashydratearedesignedandimplementedbasedonIBMSPSSModeler,whichprovidegoodbasementforstudyingintelligent-decisionproductsfordata-mininginthegashydratefields.Besides,thestudyalsoaccumulatetechnologiesforconstructingmarinegeologicdatabaseandapplyingdatum,thusbeingusefulforgashydrateexploration,developmentandcomprehensiveevaluation.
GashydrateDataminingServicecomponent
2015-07-03。中央高?;究蒲袠I(yè)務費專項資金項目(13CX06012A,15CX02005A);國家海洋專項資金項目(GZH201100313)。李連偉,講師,主研領(lǐng)域:地理信息系統(tǒng)應用和系統(tǒng)設計開發(fā)。許明明,碩士。劉展,教授。林峰,研究員。孫記紅,工程師。安聰榮,講師。
TP
ADOI:10.3969/j.issn.1000-386x.2016.10.008