• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Web架構(gòu)驅(qū)動的石油工業(yè)知識挖掘系統(tǒng)①

    2019-11-15 07:07:00耿祖琨張衛(wèi)山王志超
    計算機系統(tǒng)應(yīng)用 2019年11期
    關(guān)鍵詞:石油工業(yè)數(shù)據(jù)源抽油機

    耿祖琨,張衛(wèi)山,王志超,李 博

    1(中國石油大學(xué)(華東)計算機與通信工程學(xué)院,青島 266580)

    2(東營市人力資源和社會保障局,東營 257091)

    3(東營市勘察測繪院,東營 257000)

    隨著國家智能制造的大規(guī)模發(fā)展,石油行業(yè)不斷創(chuàng)新發(fā)展,其工業(yè)設(shè)備也越來越復(fù)雜,傳感器、攝像頭等的廣泛部署使得石油工業(yè)設(shè)備的運行狀態(tài)得到有效監(jiān)控,由此也產(chǎn)生了大規(guī)模的工業(yè)數(shù)據(jù).石油工業(yè)大數(shù)據(jù)[1,2]的采集、處理、存儲、分析和利用的價值不斷提升,為指導(dǎo)石油探測、開采和企業(yè)改革發(fā)展的推進提供了重要依據(jù).目前已經(jīng)包含抽油機井基本狀態(tài)信息、地質(zhì)數(shù)據(jù)、勘探數(shù)據(jù)以及生產(chǎn)數(shù)據(jù)等等,現(xiàn)有的采油相關(guān)數(shù)據(jù)類別已達600 多種,而且相關(guān)數(shù)據(jù)每時每刻不在產(chǎn)生、交互、傳回,石油大數(shù)據(jù)呈現(xiàn)爆發(fā)增長、海量集聚的特點.

    隨著數(shù)字油田以及智慧油田建設(shè)的不斷深入,不同應(yīng)用系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)多樣化發(fā)展,從原先單一數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)變?yōu)槎嗑S化、多元化結(jié)構(gòu),數(shù)據(jù)之間的顯性與潛在的分布關(guān)系也越來越模糊.如何將海量的抽油機井狀態(tài)數(shù)據(jù)、地質(zhì)數(shù)據(jù)以及工作生產(chǎn)數(shù)據(jù)進行數(shù)據(jù)預(yù)處理、特征選擇并進行關(guān)聯(lián)性分析,以找尋對油氣開采有利的生成信息,是指導(dǎo)項目實際生產(chǎn)、提升油氣產(chǎn)量、降低產(chǎn)量遞減速率、提升剩余油開采幾率的重要數(shù)據(jù)依據(jù).

    與此同時,如何對石油大數(shù)據(jù)進行快速、及時的數(shù)據(jù)挖掘與知識發(fā)現(xiàn),傳統(tǒng)的單機服務(wù)器,需要利用現(xiàn)有的分布式集群以及快速通用的計算引擎,同時,需要現(xiàn)有石油工程以及采油工程等相關(guān)學(xué)科專業(yè)知識與通用算法,而且需要建立石油工業(yè)大數(shù)據(jù)倉庫進行輔助存儲,提高平臺讀寫速度以及提升平臺執(zhí)行計算能力.

    由此,石油大數(shù)據(jù)分析與數(shù)據(jù)挖掘技術(shù)二者結(jié)合成為趨勢[3],通過石油工業(yè)大數(shù)據(jù)分析得到的結(jié)果可以輔助企業(yè)制定出符合工業(yè)發(fā)展的策略,并能依據(jù)石油工業(yè)大數(shù)據(jù)進行生產(chǎn)狀況的及時調(diào)整,以促進國內(nèi)整體石油工業(yè)水平的提升.

    1 系統(tǒng)概述

    目前大數(shù)據(jù)挖掘算法已經(jīng)被應(yīng)用到油氣開采相關(guān)領(lǐng)域,但是相對油田行業(yè)眾多技術(shù)人員而言,不僅對數(shù)據(jù)挖掘算法難以掌握,而且如何編碼實現(xiàn)數(shù)據(jù)采集、存儲、調(diào)用以及執(zhí)行和可視化,和搭建大數(shù)據(jù)集群也是其中的難點.與此同時,各類大數(shù)據(jù)平臺層出不窮,基于Python 的Orange 有較好的可視化編程工具和強大的Python 腳本,基于Java 的KNIME 集成了基礎(chǔ)機器學(xué)習(xí)組件與數(shù)據(jù)挖掘算法等等.

    如何將石油工業(yè)大數(shù)據(jù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合[4-7],并且與具備可控算法流程的大數(shù)據(jù)分析平臺相融合[8-11]是當前石油工業(yè)數(shù)據(jù)分析領(lǐng)域需要探索的問題.

    盡管各種工具都有其優(yōu)勢,但是針對石油領(lǐng)域的知識挖掘系統(tǒng)而言,如下主要問題需要解決:

    (1)針對數(shù)據(jù)采集過程中如何支持多種數(shù)據(jù)結(jié)構(gòu)的并支持一鍵選擇本地數(shù)據(jù)源導(dǎo)入到大數(shù)據(jù)倉庫的數(shù)據(jù)采集操作模塊問題;

    (2)針對大數(shù)據(jù)處理過程中,如何選擇大數(shù)據(jù)倉庫中的數(shù)據(jù)源構(gòu)建不同的數(shù)據(jù)集問題;

    (3)在大數(shù)據(jù)分析工作流程的創(chuàng)建過程中,選擇單數(shù)據(jù)集條件下的,如何通過簡單的拖拉拽等操作創(chuàng)建單一算法模型或多個算法模型的數(shù)據(jù)分析處理流程問題;

    (4)無法通過系統(tǒng)將數(shù)據(jù)源、數(shù)據(jù)集或者大數(shù)據(jù)分析結(jié)果進行二維圖形或者三維圖形的可視化展示.

    針對當前石油領(lǐng)域的知識挖掘系統(tǒng)存在未能實現(xiàn)具有可控大數(shù)據(jù)完整分析工作流程界面的以及大數(shù)據(jù)信息可視化等問題,在本文中,提出了一個Web 架構(gòu)驅(qū)動的石油工業(yè)知識挖掘系統(tǒng),來解決此類問題,包括如下兩個部分:

    (1)可控工作流程的知識挖掘系統(tǒng):該系統(tǒng)在選擇需要進行分析的數(shù)據(jù)集后,支持用戶采用拖拽操作快速完成數(shù)據(jù)建模,支持單數(shù)據(jù)源單模型算法構(gòu)建、支持單數(shù)據(jù)源多模型算法構(gòu)建,用戶提交數(shù)據(jù)分析流程后,系統(tǒng)在大數(shù)據(jù)分析后臺執(zhí)行模型組建、數(shù)據(jù)處理、數(shù)據(jù)分析以及分析結(jié)果存儲.

    (2)自助式數(shù)據(jù)挖掘:該系統(tǒng)提供可視化操作的流程創(chuàng)建和豐富的圖表展示分析結(jié)果,比如:表格、柱狀圖、雷達圖、折線圖、散點圖等等,實現(xiàn)靈活、多樣的數(shù)據(jù)分析,從而可快速發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律.

    在本節(jié)中,將介紹石油工業(yè)知識挖掘系統(tǒng)架構(gòu),主要包含以下4 大部分:數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)服務(wù)層、自助式可視化層.以圖1所示將分別介紹各個模塊.

    (1)數(shù)據(jù)采集層

    石油大數(shù)據(jù)采集層包含3 部分:數(shù)據(jù)采集服務(wù)器、數(shù)據(jù)存儲服務(wù)器和FTP 服務(wù)器集群.

    圖1 石油工業(yè)知識挖掘系統(tǒng)架構(gòu)

    原始數(shù)據(jù)(如采油領(lǐng)域相關(guān)文本數(shù)據(jù)、A1/A2 等數(shù)據(jù)庫中存儲的數(shù)據(jù)以及HDFS 存儲的數(shù)據(jù))視為存儲在各個FTP 服務(wù)器中,通過數(shù)據(jù)采集服務(wù)器,將來自不同數(shù)據(jù)源的數(shù)據(jù)進行結(jié)構(gòu)化和非結(jié)構(gòu)化構(gòu)建[12],數(shù)據(jù)集成后統(tǒng)一存儲到數(shù)據(jù)存儲服務(wù)器中.采用Hive 搭建數(shù)據(jù)倉庫.同時,HBase[13]作為面向列存儲的數(shù)據(jù)庫,不僅可以存儲結(jié)構(gòu)化數(shù)據(jù),而且彌補了Hive[14]在分析查詢和實時查詢的不足.并且,將非結(jié)構(gòu)化數(shù)據(jù)存儲在HDFS 中[15],由此,數(shù)據(jù)采集層完成了數(shù)據(jù)分析的重要底層部分-數(shù)據(jù)源和數(shù)據(jù)集存儲.

    系統(tǒng)的用戶數(shù)據(jù)信息以及提供模型搭建流程等系統(tǒng)信息存儲在結(jié)構(gòu)數(shù)據(jù)庫MariaDB 數(shù)據(jù)庫中,它有著更好的子查詢優(yōu)化與線程池等優(yōu)勢.

    (2)數(shù)據(jù)處理層

    石油工業(yè)知識挖掘系統(tǒng)以Hadoop 生態(tài)系統(tǒng)[16]作為底層基礎(chǔ),系統(tǒng)將數(shù)據(jù)采集層中的歷史數(shù)據(jù)存儲于HBase 與HDFS 中,數(shù)據(jù)集數(shù)據(jù)存儲于Hive 數(shù)據(jù)倉庫中,通過數(shù)據(jù)流處理與批處理提供更快的速度給MapReduce,進而快速得到數(shù)據(jù)計算視圖.在此,Spark[17]平臺提供內(nèi)存計算服務(wù),Yarn 提供分布式計算框架,Storm 提供流計算服務(wù)與批處理服務(wù).數(shù)據(jù)挖掘模塊由Spark 平臺和Hadoop 平臺搭建,通過連接應(yīng)用服務(wù)器的建模方案和動態(tài)算法庫的算法信息,進行數(shù)據(jù)集引用、模型搭建和數(shù)據(jù)分析,可以提供數(shù)據(jù)解析、數(shù)據(jù)過濾、數(shù)據(jù)特征變化、數(shù)據(jù)統(tǒng)計分析以及校驗轉(zhuǎn)換等等數(shù)據(jù)預(yù)處理操作.

    (3)數(shù)據(jù)服務(wù)層

    由于數(shù)據(jù)處理層的處理結(jié)果需提供給應(yīng)用服務(wù)器供用戶查詢,系統(tǒng)提供基于內(nèi)存計算的Redis 數(shù)據(jù)庫作為數(shù)據(jù)緩存區(qū),提供查詢數(shù)據(jù)分析結(jié)果與數(shù)據(jù)執(zhí)行結(jié)果.它基于內(nèi)存執(zhí)行緩存存儲,不僅可以提升數(shù)據(jù)查詢效率,而且,支持數(shù)據(jù)持久化操作,支持異步操作將內(nèi)存中的數(shù)據(jù)寫到硬盤中,且不中斷服務(wù).所以,Redis[18]數(shù)據(jù)庫提升了系統(tǒng)公共緩存能力,降低了系統(tǒng)存儲數(shù)據(jù)庫的負載.

    數(shù)據(jù)倉庫提供給用戶允許有較低延時查詢數(shù)據(jù)的服務(wù),包含大數(shù)據(jù)量的數(shù)據(jù)集查詢與歷史數(shù)據(jù)分析結(jié)果查詢等等.

    以上保證系統(tǒng)不僅可提供實時查詢當前任務(wù)處理結(jié)果,而且可提供有延遲的歷史任務(wù)處理過程與結(jié)果.

    (4)自助式可視化服務(wù)層

    石油工業(yè)知識挖掘系統(tǒng)提供了自助式可視化層作為用戶訪問的窗口,有以下幾個功能:

    1)提交數(shù)據(jù)集至數(shù)據(jù)采集層

    該數(shù)據(jù)集管理模塊為用戶提供多種數(shù)據(jù)源提交模式,用戶可根據(jù)數(shù)據(jù)源格式選擇提交模式,系統(tǒng)將數(shù)據(jù)源導(dǎo)入到數(shù)據(jù)采集服務(wù)器中,進行結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換并進行數(shù)據(jù)集成,將分別存儲到Hive、HBase 與HDFS 中.

    2)拖拽操作完成快速數(shù)據(jù)建模

    數(shù)據(jù)建模模塊在用戶選擇數(shù)據(jù)集后通過應(yīng)用服務(wù)器向動態(tài)算法庫模塊發(fā)送請求,服務(wù)器提供給用戶數(shù)據(jù)建模模塊,展示數(shù)據(jù)預(yù)處理、數(shù)據(jù)集成、數(shù)據(jù)挖掘算法等等各種算法,用戶采用拖拽方式將算法拖到編輯區(qū),用戶按照要求輸入算法不定項的參數(shù),并選擇連接新的算法,以此循環(huán)至模型搭建完成.

    3)應(yīng)用服務(wù)器將模型轉(zhuǎn)至數(shù)據(jù)處理層

    應(yīng)用服務(wù)器將數(shù)據(jù)集ID 以及模型信息轉(zhuǎn)至數(shù)據(jù)處理層,數(shù)據(jù)處理層在各個組成部分配合下,根據(jù)數(shù)據(jù)集ID 導(dǎo)入數(shù)據(jù)源并執(zhí)行數(shù)據(jù)模型流程.

    4)數(shù)據(jù)處理層完成數(shù)據(jù)建模與數(shù)據(jù)分析

    數(shù)據(jù)處理層根據(jù)數(shù)據(jù)集與模型信息,調(diào)用動態(tài)算法庫中算法jar 文件,并進行基于Spark 平臺的分布式數(shù)據(jù)分析.

    5)數(shù)據(jù)服務(wù)層將數(shù)據(jù)轉(zhuǎn)至應(yīng)用服務(wù)層

    數(shù)據(jù)服務(wù)層將處理結(jié)果與之前數(shù)據(jù)集信息和模型信息回執(zhí)到數(shù)據(jù)服務(wù)層,數(shù)據(jù)服務(wù)層進行快速緩存存儲[18],準備提供結(jié)果給應(yīng)用服務(wù)器.

    6)跳轉(zhuǎn)至分析服務(wù)界面

    應(yīng)用服務(wù)器從數(shù)據(jù)服務(wù)層獲取實時分析結(jié)果與延時數(shù)據(jù)信息,通過可視化展示分析數(shù)據(jù)結(jié)果,并依據(jù)結(jié)果進行知識發(fā)現(xiàn).

    7) HTML5 圖標展示

    系統(tǒng)提供了多種圖形化技術(shù),幫助來理解數(shù)據(jù)間的關(guān)鍵性聯(lián)系,指導(dǎo)以最便捷有效的途徑找到問題的最可能的解決辦法.它融合了圖形、表格等多種可視化技術(shù)來處理多維數(shù)據(jù),使得數(shù)據(jù)所表現(xiàn)出的特性、類別、模式和關(guān)聯(lián)性等信息一目了然,在結(jié)果輸出時可方便快捷的進行多種統(tǒng)計結(jié)果演示,支持散點圖、分布圖、折線圖、餅圖等.

    2 實驗分析

    為了驗證系統(tǒng)的有效性,通過研究抽油機井采油系統(tǒng)效率影響因素[19-21]的關(guān)聯(lián)性的實驗進行分析[22].包含數(shù)據(jù)集選定、模型構(gòu)建、模型執(zhí)行以及結(jié)果可視化展示四個過程.

    實驗采用FPGrowth 算法[23]進行影響抽油機井采油系統(tǒng)效率影響因素的關(guān)聯(lián)性分析.抽油機井系統(tǒng)效率不僅反映當前抽油機的采油質(zhì)量與效益,而且綜合反映了油田的技術(shù)水平和裝備水平,因此研究抽油機井系統(tǒng)效率提升是提高油田工作質(zhì)量的重要方向.

    操作步驟如下:通過選擇華北油田2016-2017年抽油機井某區(qū)塊某單口采油井生產(chǎn)數(shù)據(jù)的本地數(shù)據(jù)源進行數(shù)據(jù)源導(dǎo)入,實現(xiàn)將本地數(shù)據(jù)源轉(zhuǎn)入到HDFS 和HBase 的大數(shù)據(jù)倉庫中.選定該生產(chǎn)數(shù)據(jù)集后,針對該數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理,首先進行篩選5 個有用列,包含日產(chǎn)液(t)、泵深(m)、動液面(m)、沖程(m)、沖次(n/min);其次針對數(shù)據(jù)集中的缺失值通過取該條數(shù)據(jù)集前5 個和后5 個數(shù)據(jù)的平均值進行數(shù)據(jù)填充;針對嚴重離群的數(shù)據(jù)進行該列均值填充法進行修正;最后,為了消除各特征的量綱影響,進行各個因素的標準化處理,對各列數(shù)據(jù)進行零中心歸一化操作,將數(shù)據(jù)歸一到同一數(shù)量級.數(shù)據(jù)清洗完成后,執(zhí)行FPGrowth 算法對每個項進行挖掘,在界面設(shè)置算法支持度為0.62,可得到各個因素因素對抽油桿機采油系統(tǒng)效率的影響程度,即可得到整個頻繁項集.流程創(chuàng)建提交完成后,大數(shù)據(jù)分析后臺進行基于Spark 平臺的分布式數(shù)據(jù)分析,分析完成后,數(shù)據(jù)結(jié)果存儲于Hive 數(shù)據(jù)倉庫倉庫中,用戶通過查看該數(shù)據(jù)流程分析調(diào)取最終數(shù)據(jù)分析結(jié)果并進行可視化展示.流程如圖2所示,以此得到各個影響因素對抽油機井采油系統(tǒng)效率的關(guān)聯(lián)程度,如圖3所示.餅圖效果圖如圖4所示.

    通過石油工業(yè)知識挖掘系統(tǒng)分析的抽油機井采油系統(tǒng)效率與影響因素的關(guān)聯(lián)性分析,華北油田的專家與工程師根據(jù)經(jīng)驗對結(jié)果滿意,為接下來的抽油機井采油系統(tǒng)效率預(yù)測奠定了良好的基礎(chǔ).

    圖3 FPGrowth 算法關(guān)聯(lián)性分析結(jié)果圖

    圖4 FPGrowth 算法關(guān)聯(lián)性分析結(jié)果餅圖

    3 總結(jié)

    本文提出了一種Web 架構(gòu)驅(qū)動的石油工業(yè)知識挖掘系統(tǒng),用于以石油工業(yè)數(shù)據(jù)為基礎(chǔ),結(jié)合采油工程數(shù)據(jù)挖掘領(lǐng)域相關(guān)算法和大數(shù)據(jù)平臺進行知識挖掘.包含了可控工作流程的知識挖掘系統(tǒng),實現(xiàn)了通過簡單的拖拽操作完成模型構(gòu)建并進行數(shù)據(jù)分析;包含了自助式數(shù)據(jù)挖掘模塊,通過可視化操作流程與豐富圖表展示結(jié)果,幫助用戶發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律.用戶可以直接忽略大數(shù)據(jù)底層搭建與編輯大數(shù)據(jù)算法等工作,直接通過本系統(tǒng)進行數(shù)據(jù)收集、數(shù)據(jù)提取、模型建模、模型執(zhí)行以及結(jié)果可視化展示,目前已經(jīng)在華北油田部署并運行超過1年,為該單位的石油大數(shù)據(jù)知識挖掘發(fā)揮了重要作用,通過發(fā)現(xiàn)石油大數(shù)據(jù)之間顯性與隱性關(guān)系,指導(dǎo)實際項目生產(chǎn),已經(jīng)成為該單位提升油氣產(chǎn)量、降低產(chǎn)量遞減速率、提升剩余油開采幾率和盡可能解決儲采失衡問題的重要數(shù)據(jù)支撐與理論依據(jù).

    猜你喜歡
    石油工業(yè)數(shù)據(jù)源抽油機
    抽油機井泵效影響因素的確定方法*
    《石油工業(yè)技術(shù)監(jiān)督》稿約
    《石油工業(yè)技術(shù)監(jiān)督》稿約
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
    石油工業(yè)出版社
    全國新書目(2014年7期)2014-09-19 20:45:40
    沁水盆地南部煤層氣井抽油機偏磨防治分析
    中國煤層氣(2014年6期)2014-08-07 03:07:05
    基于MATLAB的抽油機減速器優(yōu)化設(shè)計
    河南科技(2014年16期)2014-02-27 14:13:19
    C-640系列抽油機游梁的組對及焊接變形控制
    河南科技(2014年5期)2014-02-27 14:08:38
    北辰区| 泸西县| 靖边县| 双桥区| 广河县| 九龙坡区| 龙陵县| 河北省| 杨浦区| 天长市| 喀什市| 福海县| 巴楚县| 仁布县| 徐州市| 邻水| 蒙山县| 青铜峡市| 大田县| 定襄县| 黄骅市| 鄢陵县| 姚安县| 兴安县| 方城县| 南漳县| 叶城县| 日喀则市| 太保市| 盐津县| 自贡市| 宁武县| 固始县| 剑阁县| 郯城县| 石林| 桂林市| 邹平县| 大新县| 鄂尔多斯市| 白山市|