陳柯宇,呂昕蓓,孫 韻,秦 超
(中國石油西南油氣田分公司通信與信息技術(shù)中心,四川 成都 610051)
西南油氣田分公司經(jīng)過多年的信息化建設,積累了大量的系統(tǒng)與數(shù)據(jù),目前面臨著“信息系統(tǒng)多、數(shù)據(jù)庫多、孤立應用多”的三多局面,亟需開展數(shù)據(jù)湖的建設,實現(xiàn)A1、A2、A4、A5等統(tǒng)建系統(tǒng)和勘探開發(fā)成果數(shù)據(jù)采集系統(tǒng)、作業(yè)區(qū)數(shù)字化管理平臺、頁巖氣共享平臺等分公司核心自建系統(tǒng)的共享數(shù)據(jù)和油田特色數(shù)據(jù)入湖,打破數(shù)據(jù)壁壘,實現(xiàn)數(shù)據(jù)共享,并與集團總部主湖構(gòu)成連環(huán)湖架構(gòu),最終實現(xiàn)和主湖數(shù)據(jù)邏輯統(tǒng)一、分布存儲、互聯(lián)互通、就近訪問的目標。
結(jié)構(gòu)化數(shù)據(jù)共享存儲采用MPP(大規(guī)模并行處理器Massively Parallel Processor)數(shù)據(jù)庫技術(shù),能夠?qū)⑷蝿站夥纸獾蕉鄠€節(jié)點同時進行運算,有效的解決了大規(guī)模的數(shù)據(jù)作業(yè)計算,緩存和IO帶來的性能問題[1]。
結(jié)構(gòu)化數(shù)據(jù)入湖前需要先開展數(shù)據(jù)模型的建設和主數(shù)據(jù)入湖。各數(shù)據(jù)源系統(tǒng)的數(shù)據(jù)通過ETL工具,匯聚到數(shù)據(jù)湖的貼源層,在貼源層進行歸一化處理后,數(shù)據(jù)推送至數(shù)據(jù)治理區(qū),進行業(yè)務質(zhì)控審核,審核通過的數(shù)據(jù)進入到共享存儲層,再推送至分析層,實現(xiàn)數(shù)據(jù)入湖。
圖1 結(jié)構(gòu)化數(shù)據(jù)入湖
數(shù)據(jù)湖中非結(jié)構(gòu)化數(shù)據(jù)存儲,采用基于S3(簡單存儲服務Simple Storage Service)標準協(xié)議的軟件定義分布式文件存儲架構(gòu),主湖主控保證邏輯統(tǒng)一,用戶基于統(tǒng)一的RESTful服務訪問文件內(nèi)容,支持軟件定義數(shù)據(jù)多鏡像與就近訪問,滿足地震等大塊數(shù)據(jù)存儲與高效應用[2]。
非結(jié)構(gòu)化數(shù)據(jù)包括物探數(shù)據(jù)體、測井曲線和文檔文件三類,按照存儲方式可分為文件索引部分(文件名稱、文件大小、作者等)和文件體部分(數(shù)據(jù)文件本身)。
(1)文件索引入湖:源數(shù)據(jù)索引通過DSB同步到FSS管理庫,源數(shù)據(jù)管理庫變更觸發(fā)DBZ產(chǎn)生變化數(shù)據(jù),處理程序1將DBZ產(chǎn)生得變化數(shù)據(jù),變換格式后推送到RabbitMQ,處理程序2將RabbitMQ數(shù)據(jù)推送到ElasticSearch。
(2)文件體入湖:處理程序把數(shù)據(jù)體從源數(shù)據(jù)存儲同步到數(shù)據(jù)湖的對象存儲,同步配置對象存儲集群同步策略,文件自動從數(shù)據(jù)湖對象存儲同步到總部對象存儲。
圖2 非結(jié)構(gòu)化數(shù)據(jù)入湖
數(shù)據(jù)湖時序數(shù)據(jù)存儲,采用主流時序數(shù)據(jù)庫技術(shù),通過使用Kakfa開展時序數(shù)據(jù)流接收,清洗,標記,分析等功能。來源數(shù)據(jù)進入Kafka中,通過各種訂閱進行處理;通過Hadoop 對歷史數(shù)據(jù)進行保存;處理程序?qū)r序數(shù)據(jù)整理標記,按照模型進行數(shù)據(jù)映射;掛接流處理引擎,對數(shù)據(jù)進行處理分析;標記后的時序數(shù)據(jù)進行寫入數(shù)據(jù)湖中時序庫保存,并進行查詢應用。
圖3 時序數(shù)據(jù)入湖
建立數(shù)據(jù)入湖形象進度展示模式,以地質(zhì)導航為驅(qū)動,按照西南油氣田分公司、區(qū)塊、小區(qū)塊層層遞進的方式對各層人員關(guān)注的已入湖數(shù)據(jù)情況進行數(shù)據(jù)資產(chǎn)可視化展示,包括油田數(shù)據(jù)總體概覽、基本實體的數(shù)量以及非結(jié)構(gòu)化文檔的展示等。
圖4
針對不同類型的數(shù)據(jù),采用成熟的技術(shù),設計具有可操作性的數(shù)據(jù)入湖方案,保證數(shù)據(jù)能夠全自動、無縫入湖。數(shù)據(jù)入湖經(jīng)過實踐,取得了良好的應用效果,對實現(xiàn)數(shù)據(jù)標準的統(tǒng)一,提升數(shù)據(jù)質(zhì)量,支持數(shù)據(jù)共享,改變油田有數(shù)據(jù)無資產(chǎn)的被動局面具有重要的意義。