作者/劉春艷,承德石油高等??茖W(xué)校
基于大數(shù)據(jù)的石油云平臺(tái)設(shè)計(jì)分析
作者/劉春艷,承德石油高等??茖W(xué)校
在互聯(lián)網(wǎng)技術(shù)與存儲(chǔ)技術(shù)快速發(fā)展的背景下,社會(huì)開始從信息時(shí)代向數(shù)據(jù)時(shí)代轉(zhuǎn)變,數(shù)據(jù)成為各行業(yè)革命的核心。石油行業(yè)作為傳統(tǒng)行業(yè),基于數(shù)據(jù)驅(qū)動(dòng)為其創(chuàng)造新的發(fā)展路徑。本文討論了基于大數(shù)據(jù)的石油基礎(chǔ)設(shè)施云平臺(tái)設(shè)計(jì),實(shí)現(xiàn)EPDM模型的云數(shù)據(jù)庫(kù),具體分析了云平臺(tái)中石油大數(shù)據(jù)的運(yùn)用。
石油大數(shù)據(jù);云計(jì)算;數(shù)據(jù)
隨著數(shù)據(jù)時(shí)代的到來,不同行業(yè)開始嘗試?yán)么髷?shù)據(jù)技術(shù)進(jìn)行新業(yè)務(wù)開展。石油行業(yè)擁有海量數(shù)據(jù),然而長(zhǎng)期以來這海量的數(shù)據(jù)并未結(jié)構(gòu)化,遠(yuǎn)遠(yuǎn)無法達(dá)到統(tǒng)一標(biāo)準(zhǔn)格式。新時(shí)期石油行業(yè)的發(fā)展對(duì)油田企業(yè)信息化建設(shè)提出越來越高的要求,單純從硬件設(shè)備升級(jí)來滿足數(shù)據(jù)存儲(chǔ)與分析需求已經(jīng)遠(yuǎn)遠(yuǎn)不夠,只有建立起石油大數(shù)據(jù)的集成平臺(tái),方可真正實(shí)現(xiàn)石油行業(yè)信息化,滿足石油行業(yè)對(duì)高計(jì)算能力的需求,也便于進(jìn)行資源管理。
云計(jì)算是在連接互聯(lián)網(wǎng)計(jì)算機(jī)上所獲取的計(jì)算服務(wù),可以實(shí)現(xiàn)按需供給計(jì)算資源,可以實(shí)現(xiàn)更強(qiáng)的計(jì)算能力、彈性的計(jì)算資源以及更低的使用成本。云計(jì)算從本質(zhì)上來看并非技術(shù)創(chuàng)新,實(shí)際上是思想層面的創(chuàng)新。
云計(jì)算可以把互聯(lián)網(wǎng)資源提供給用戶使用,云計(jì)算的實(shí)現(xiàn)依賴于一定的基礎(chǔ)軟硬件設(shè)施,通過高性能軟件框架處理數(shù)據(jù),為前端與終端提供接口,云計(jì)算常用的服務(wù)模式包括IaaS層、PaaS層與SaaS層。IaaS層具有代表性的為硬件服務(wù)器租用,只把虛擬機(jī)與存儲(chǔ)資源給用戶,IaaS層更加底層,通過用戶付費(fèi)的方式為用戶提供計(jì)算能力與存儲(chǔ)能力;PaaS層下僅需為用戶提供軟件開發(fā)包,不需要用戶考慮資源資源管理;SaaS是軟件即服務(wù),為用戶提供應(yīng)用軟件,對(duì)軟件使用收取一定費(fèi)用。
在石油行業(yè)建立大數(shù)據(jù)云計(jì)算平臺(tái)的難點(diǎn)在于兩方面,一方面是數(shù)據(jù)存儲(chǔ)困難,另一方面數(shù)據(jù)分析困難。Hadoop作為開源分布式數(shù)據(jù)處理架構(gòu),由分布式文件系統(tǒng)與并行計(jì)算框架兩部分構(gòu)成。分布式文件系統(tǒng)架構(gòu)模式為主/從結(jié)構(gòu),包括主節(jié)點(diǎn)以及一些數(shù)據(jù)節(jié)點(diǎn);并行計(jì)算框架的計(jì)算過程包括Map與Reduce,即映射與化簡(jiǎn)。
構(gòu)建石油大數(shù)據(jù)云平臺(tái)的目的是把海量數(shù)據(jù)存儲(chǔ)于分布式軟硬件資源里,從而更加科學(xué)的進(jìn)行資源配置,更加科學(xué)地調(diào)度數(shù)據(jù)資源。這樣以來,石油大數(shù)據(jù)云計(jì)算平臺(tái)的體系結(jié)構(gòu)由以下五部分構(gòu)成:基礎(chǔ)設(shè)施層、數(shù)據(jù)源層、云數(shù)據(jù)層、數(shù)據(jù)應(yīng)用層以及終端接入層。系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 石油大數(shù)據(jù)云計(jì)算平臺(tái)系統(tǒng)結(jié)構(gòu)
(1)基礎(chǔ)設(shè)施層
基礎(chǔ)設(shè)施差包括物力資源池與虛擬資源池,前者為分布式服務(wù)器集群、數(shù)據(jù)節(jié)點(diǎn),是進(jìn)行海量數(shù)據(jù)運(yùn)算的基本設(shè)備;后者是基于虛擬化技術(shù)獎(jiǎng)分散數(shù)據(jù)資源進(jìn)行整合,并最終存放于虛擬化資源池中,根據(jù)用戶需求提供給客戶。由于物力資源池與虛擬資源池之間并不耦合,因此可以更好地維護(hù),并控制油田勘探成本。
(2)數(shù)據(jù)源層
數(shù)據(jù)源層包含了石油行業(yè)大量原始數(shù)據(jù),包括地震數(shù)據(jù)、錄井?dāng)?shù)據(jù)、油氣水水井?dāng)?shù)據(jù),該層實(shí)現(xiàn)異構(gòu)數(shù)據(jù)存儲(chǔ)功能。數(shù)據(jù)源層的構(gòu)建是困難的,因?yàn)閭鹘y(tǒng)石油企業(yè)數(shù)據(jù)庫(kù)缺少技術(shù)標(biāo)準(zhǔn),數(shù)據(jù)資源冗余度很高,可能影響云數(shù)據(jù)庫(kù)的構(gòu)建。然而應(yīng)當(dāng)注意,數(shù)據(jù)源層的數(shù)據(jù)資源存儲(chǔ)成果是顯著的,因此本文采用數(shù)據(jù)源層傳統(tǒng)數(shù)據(jù)庫(kù)。
(3)云數(shù)據(jù)層
云數(shù)據(jù)層的設(shè)計(jì)是為了進(jìn)行復(fù)雜石油數(shù)據(jù)的管理,構(gòu)建起便于石油大數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu),也滿足業(yè)務(wù)需求。
(4)數(shù)據(jù)應(yīng)用層
數(shù)據(jù)應(yīng)用層是面向用戶的,可以為用戶提供勘探、開發(fā)、集輸?shù)染唧w應(yīng)用,用戶則根據(jù)所需從中選取相應(yīng)數(shù)據(jù)。數(shù)據(jù)的提取過程十分簡(jiǎn)單,僅需通過終端設(shè)備在取得系統(tǒng)使用權(quán)限后即可獲取資源。該層提供通用的數(shù)據(jù)訪問接口,可以針對(duì)上層用戶不同請(qǐng)求實(shí)現(xiàn)不同需求。
(5)終端接入層
終端接入層即包括移動(dòng)設(shè)備、虛擬化桌面等,方便針對(duì)不同業(yè)務(wù)需求達(dá)到數(shù)據(jù)訪問的目的。
為了實(shí)現(xiàn)上述的由下而上的系統(tǒng)結(jié)構(gòu),需要在數(shù)據(jù)源層利用之前數(shù)據(jù)庫(kù),然而,由于把數(shù)據(jù)源層數(shù)據(jù)加載至云數(shù)據(jù)時(shí),數(shù)據(jù)結(jié)構(gòu)尚未初始化。本文擬采用數(shù)據(jù)集成總線把異構(gòu)的石油數(shù)據(jù)標(biāo)準(zhǔn)化,然后為軟件體系提供接口設(shè)計(jì)。
油田行業(yè)信息化建設(shè)對(duì)基礎(chǔ)硬軟件要求高,因此高性能計(jì)算是當(dāng)前油田企業(yè)信息化建設(shè)必須解決的難題,對(duì)該難題歸納,主要困難包括軟硬件資源浪費(fèi)、維護(hù)系統(tǒng)成本高、管控自動(dòng)化程度低三方面。為了解決上述難題,將HPC緊耦合方式接觸,創(chuàng)建出分布式的服務(wù)器集中形式。本文基于Hadhoop進(jìn)行高性能計(jì)算機(jī)的討論。如何合理智能的利用數(shù)據(jù)資源至關(guān)重要。
(1)統(tǒng)一的資源管理
由于缺少資源劃分標(biāo)準(zhǔn),所以節(jié)點(diǎn)分配管理過程中應(yīng)當(dāng)遵循的原則是不浪費(fèi)、不重復(fù),可以按照實(shí)際業(yè)務(wù)需求來分配節(jié)點(diǎn),最終可以進(jìn)行以下節(jié)點(diǎn)群的分配:Seismark(2臺(tái))、管理節(jié)點(diǎn)(3臺(tái))、Hadoop(14臺(tái))、Petrel(圖形工作站7臺(tái))、負(fù)載監(jiān)控(5臺(tái))、Eclipes(3臺(tái))、OpenWorks 5000.3(12臺(tái))、SKUA(7臺(tái))。上述節(jié)點(diǎn)群分配的腳本配置如下:
專業(yè)的權(quán)限控制軟件價(jià)格昂貴,甚至高于硬件資源成本,因此如果希望通過需求使用峰值購(gòu)買權(quán)限會(huì)提高成本。筆者認(rèn)為可以在權(quán)限管理模塊里對(duì)權(quán)限資源進(jìn)行合理的調(diào)度,例如基于優(yōu)先級(jí)任務(wù)發(fā)放權(quán)限,也可以立即終止長(zhǎng)時(shí)間占用。在依據(jù)石油企業(yè)實(shí)際資源情況的情況下生成分配策略,有利于提高資源使用效率。
中石化等油田企業(yè)是基于項(xiàng)目驅(qū)動(dòng)進(jìn)行資源調(diào)度的,通過建立起高性能計(jì)算集群,并在其上部署若干項(xiàng)目,實(shí)現(xiàn)項(xiàng)目的權(quán)限調(diào)度,實(shí)際腳本配置文件如下:
在上述腳本配置中可以看出,通過建立project_cy和Project_kt兩個(gè)不同項(xiàng)目,并使二者同時(shí)擁有Hadoop權(quán)限,且權(quán)限調(diào)度比例等于2:1。
(2)集群遠(yuǎn)程可視化
當(dāng)前石油基礎(chǔ)設(shè)施云平臺(tái)的圖站服務(wù)器無法滿足實(shí)際使用中的高并發(fā)問題,即當(dāng)用戶集中登錄并訪問將可能導(dǎo)致圖站服務(wù)器直接死機(jī)。因此需要對(duì)圖站資源進(jìn)行科學(xué)的管理,可采用的可視化方案應(yīng)滿足自助式、集群式以及遠(yuǎn)程化的目標(biāo)。
(3)基于策略的資源調(diào)度
為了組大程度減少數(shù)據(jù)資源浪費(fèi)的情況,可以采用以下三種計(jì)算資源調(diào)度方式:公平調(diào)度、基于時(shí)間變化的調(diào)度、搶占性調(diào)度。在Eclipes軟件中的資源調(diào)度配置情況如下所示:
云數(shù)據(jù)的設(shè)計(jì)流程復(fù)雜,只有遵循模型設(shè)計(jì)標(biāo)準(zhǔn)方可減少設(shè)計(jì)工作量。目前應(yīng)用較多的是EPDM模型,因此本文在EPDM基礎(chǔ)上,結(jié)合搜索模型擴(kuò)展業(yè)務(wù)需求,實(shí)現(xiàn)EPDM模型的拓展,并使EPDM模型與云數(shù)據(jù)模型完成自動(dòng)遷移過程,最終構(gòu)建起云數(shù)據(jù)庫(kù)閉環(huán)更新流程。
云數(shù)據(jù)的設(shè)計(jì)中命名規(guī)則至關(guān)重要,直接影響系統(tǒng)的調(diào)試工作,而石油云數(shù)據(jù)的設(shè)計(jì)應(yīng)當(dāng)考慮石油行業(yè)情況,把標(biāo)準(zhǔn)命名規(guī)則和石油行業(yè)情況進(jìn)行融合。
(1)包名
包名的確定通常根據(jù)業(yè)務(wù)實(shí)體劃分,包名縮寫規(guī)范中是從整個(gè)包名里提取2個(gè)字母,而數(shù)據(jù)庫(kù)里擁有同一級(jí)別的包名不可重復(fù)。除此之外,本文構(gòu)建的石油云平臺(tái)對(duì)包名有以下要求:當(dāng)業(yè)務(wù)需求改變時(shí),僅需在Comment里添加信息即可;滿足從專業(yè)到基礎(chǔ),再到數(shù)據(jù)頻度的多級(jí)包分類要求;新增包應(yīng)解釋新包和老包的關(guān)系。
(2)表名
表名的命名規(guī)則如下:項(xiàng)目包名_縮寫1_縮寫2_縮寫3。以井作業(yè)為例,其對(duì)應(yīng)的表名為BE_WELL_OP_PHASE。
(3)字段名
字段名中的英文字母均為大寫,命名效果應(yīng)達(dá)到“見名知意”。業(yè)務(wù)人員整理統(tǒng)一規(guī)范的中文名稱,將中文名詞翻譯為英文,并用慣用英文縮寫代碼表來制定英文縮寫名稱。字段數(shù)據(jù)類型包括char(n)、varchar2(n)、numeric(n,p)、data、clob、blob等六種。
數(shù)據(jù)存儲(chǔ)能力并無法直接提升油田企業(yè)的競(jìng)爭(zhēng)力,而數(shù)據(jù)的應(yīng)用才是構(gòu)建石油云平臺(tái)最終的目的,如何把數(shù)據(jù)資源作為服務(wù)來提高資源使用效率是當(dāng)前應(yīng)當(dāng)解決的問題,而石油云平臺(tái)的應(yīng)用依賴于應(yīng)用系統(tǒng)接口設(shè)計(jì),本章將討論數(shù)據(jù)應(yīng)用的分層式架構(gòu)設(shè)計(jì):
應(yīng)用層包括遺留應(yīng)用系統(tǒng)、新應(yīng)用系統(tǒng)以及商業(yè)軟件系統(tǒng)。遺留應(yīng)用系統(tǒng)是將傳統(tǒng)信息化建設(shè)中冗余的資源集成起來的系統(tǒng),新應(yīng)用系統(tǒng)是基于云數(shù)據(jù)庫(kù)訪問視圖與表的系統(tǒng),商業(yè)軟件軟件系統(tǒng)是根據(jù)特殊業(yè)務(wù)需求建立的項(xiàng)目主庫(kù)。
對(duì)于遺留應(yīng)用系統(tǒng),可以基于視圖直接訪問傳統(tǒng)數(shù)據(jù)庫(kù)模型的應(yīng)用視圖,而新應(yīng)用系統(tǒng)的接口可以設(shè)計(jì)為如下四類:測(cè)井類、地震類、鉆錄井類、井查詢類。
商業(yè)應(yīng)用軟件和云數(shù)據(jù)庫(kù)的集成相當(dāng)困難,因此可以基于綜合應(yīng)用軟件建立項(xiàng)目主庫(kù),例如可以基于Petrel平臺(tái)訪問云數(shù)據(jù)庫(kù),然后將從中獲取的數(shù)據(jù)放在工區(qū)內(nèi),實(shí)現(xiàn)數(shù)據(jù)分析,將系統(tǒng)可實(shí)現(xiàn)的價(jià)值放大。
石油大數(shù)據(jù)發(fā)展是當(dāng)前石油行業(yè)必經(jīng)的過程,本文所提出的基礎(chǔ)設(shè)施云平臺(tái)方案一方面可以滿足油田企業(yè)生產(chǎn)實(shí)際,另一方面也盡可能滿足云計(jì)算標(biāo)準(zhǔn)。只有把軟件、硬件以及數(shù)據(jù)根據(jù)用戶需求發(fā)放給用戶,并對(duì)數(shù)據(jù)資源進(jìn)行統(tǒng)一管理,方可提高數(shù)據(jù)資源的利用效率。在未來,石油數(shù)據(jù)的價(jià)值挖掘、數(shù)據(jù)安全性等問題將是研究熱點(diǎn)。
* [1]周力臻. 大數(shù)據(jù)云平臺(tái)數(shù)據(jù)流量?jī)?yōu)化管理仿真[J]. 計(jì)算機(jī)仿真,2016,33(12):462-465.
* [2]張新朝. 基于云平臺(tái)虛擬集群的設(shè)計(jì)與實(shí)現(xiàn)[D].閩南師范大學(xué),2015.
* [3]李智鵬,許京國(guó),焦?jié)?吳海燕,安秀娟,姜思誠(chéng). 如何運(yùn)用大數(shù)據(jù)技術(shù)優(yōu)化石油上游產(chǎn)業(yè)[J]. 石油工業(yè)計(jì)算機(jī)應(yīng)用,2015,(01):8-12+3.
* [4]李金諾. 淺談石油行業(yè)大數(shù)據(jù)的發(fā)展趨勢(shì)[J]. 價(jià)值工程,2013,32(29):172-174.