段澤英,蔡賢明,滕衛(wèi)衛(wèi),游 莉,馬鈺河
(新疆油田公司采油二廠,新疆 克拉瑪依 834008)
新疆油田公司經(jīng)過(guò)10多年的數(shù)字油田建設(shè),于2008年建成數(shù)字油田,油田中心數(shù)據(jù)庫(kù)包括勘探、開(kāi)發(fā)、儲(chǔ)運(yùn)、生產(chǎn)輔助、經(jīng)營(yíng)管理等業(yè)務(wù)領(lǐng)域的各類數(shù)據(jù),涉及油田開(kāi)發(fā)的數(shù)據(jù)包括單井、區(qū)塊的日月報(bào)數(shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、試井與生產(chǎn)測(cè)井?dāng)?shù)據(jù)、井下作業(yè)數(shù)據(jù)、井史數(shù)據(jù)以及地理信息數(shù)據(jù)等,種類豐富齊全,質(zhì)量達(dá)到標(biāo)準(zhǔn)要求,為生產(chǎn)數(shù)據(jù)分析應(yīng)用提供了數(shù)據(jù)資源基礎(chǔ)。2010年,新疆油田啟動(dòng)智能化油田建設(shè)工作,包括油氣生產(chǎn)物聯(lián)網(wǎng)(A11)項(xiàng)目及單井問(wèn)題診斷和優(yōu)化系統(tǒng)研發(fā)工作,加大了油田自動(dòng)化數(shù)據(jù)采集的力度及智能化分析應(yīng)用。通過(guò)近幾年的研究與實(shí)踐發(fā)現(xiàn),智能油田的全面感知、分析預(yù)測(cè)、優(yōu)化決策等均與大數(shù)據(jù)分析有關(guān),根據(jù)油田大數(shù)據(jù)分析發(fā)現(xiàn)油水井生產(chǎn)規(guī)律,可以更好地指導(dǎo)油田生產(chǎn)及優(yōu)化決策。
大數(shù)據(jù)首先具有四個(gè)主要特點(diǎn):數(shù)據(jù)量大(Volume)、產(chǎn)生速度快(Velocity)、數(shù)據(jù)類型多(Variety),數(shù)據(jù)的真實(shí)性(Veracity),合稱4V或4Vs。大數(shù)據(jù)由巨型數(shù)據(jù)集組成,其數(shù)據(jù)量超出人們采用常規(guī)方法在可接受時(shí)間內(nèi)收集、使用、管理和處理數(shù)據(jù)的能力,但最終體現(xiàn)為價(jià)值,實(shí)現(xiàn)數(shù)據(jù)→信息→知識(shí)→智慧的轉(zhuǎn)變。在油田生產(chǎn)中大數(shù)據(jù)分析的概念可理解為:在油田生產(chǎn)、管理中產(chǎn)生的具有連續(xù)變化、能夠反映油田客觀規(guī)律的各類數(shù)據(jù),以及對(duì)這些數(shù)據(jù)的分析處理。
大數(shù)據(jù)的處理主要包括7個(gè)步驟,分別是:數(shù)據(jù)采集和提取集成、數(shù)據(jù)清洗、數(shù)據(jù)分析從而發(fā)現(xiàn)有價(jià)值的規(guī)律、建立分析預(yù)測(cè)模型、結(jié)果展示可視化和知識(shí)表達(dá)、結(jié)果驗(yàn)證,以及對(duì)模型的效果評(píng)估優(yōu)化,如圖1所示。
圖1 油田生產(chǎn)大數(shù)據(jù)處理流程
結(jié)合目前新疆油田生產(chǎn)數(shù)據(jù)建設(shè)情況,以及油田生產(chǎn)應(yīng)用需求,構(gòu)建新疆油田大數(shù)據(jù)分析平臺(tái)及體系架構(gòu),如圖2所示,主要包
括數(shù)據(jù)抽取、分布式存儲(chǔ)、大數(shù)據(jù)分析及展示應(yīng)用4層架構(gòu)。
數(shù)據(jù)抽取層主要是實(shí)現(xiàn)分布在各數(shù)據(jù)庫(kù)或系統(tǒng)中的數(shù)據(jù)整合,并轉(zhuǎn)換成適合數(shù)據(jù)挖掘或建模的形式,構(gòu)建樣本數(shù)據(jù)集;存儲(chǔ)層主要是實(shí)現(xiàn)匯總數(shù)據(jù)、模型數(shù)據(jù)、分析數(shù)據(jù)以及元數(shù)據(jù)等各類數(shù)據(jù)的存儲(chǔ),相當(dāng)于數(shù)據(jù)倉(cāng)庫(kù);分析層是基于大數(shù)據(jù)建模算法和工具,挖掘數(shù)據(jù)中隱藏的模式或關(guān)系,采用數(shù)據(jù)建模軟件(如SPSS Modeler、Hadoop等)建立分類或預(yù)測(cè)模型(規(guī)則、公式或方程式),從而生成預(yù)測(cè)結(jié)果,確定評(píng)估方法并利用測(cè)試樣本,結(jié)合專家經(jīng)驗(yàn)不斷提升模型精度,輔助油田生產(chǎn)決策;數(shù)據(jù)應(yīng)用層將建立的數(shù)據(jù)模型封裝成可運(yùn)行軟件,包括建模算法的實(shí)現(xiàn)、數(shù)據(jù)的可視化和界面設(shè)計(jì)等,最終展示給用戶使用,實(shí)現(xiàn)人機(jī)交互。
圖2 大數(shù)據(jù)分析平臺(tái)體系架構(gòu)
通過(guò)上述研究分析總結(jié)出大數(shù)據(jù)分析需要的兩大技術(shù):一是大數(shù)據(jù)抽取及預(yù)處理技術(shù),二是大數(shù)據(jù)分析技術(shù)。
數(shù)據(jù)抽取就是將多種結(jié)構(gòu)和類型的數(shù)據(jù)抽取轉(zhuǎn)化為單一的或便于處理的結(jié)構(gòu)類型。不同時(shí)間、不同地點(diǎn)、不同名稱的相同數(shù)據(jù)所表達(dá)的內(nèi)涵和算法要求一致,是標(biāo)準(zhǔn)化、規(guī)范化的自然語(yǔ)言集合,便于計(jì)算機(jī)理解,是數(shù)據(jù)提取的關(guān)鍵。
數(shù)據(jù)清洗主要用于確定有用記錄和字段,檢查數(shù)據(jù)是否存在缺失、數(shù)值異常等情況,解決辦法可用剔除法或使用估計(jì)值、平均值填補(bǔ),錯(cuò)誤數(shù)據(jù)可利用邏輯關(guān)系手動(dòng)替換。
數(shù)據(jù)構(gòu)建是為了滿足大數(shù)據(jù)建模需求而創(chuàng)建的新字段,以作為特征參數(shù),如平均值。
數(shù)據(jù)變換是把原始數(shù)據(jù)轉(zhuǎn)換成為適合數(shù)據(jù)挖掘的形式,如歸一化處理(概念、時(shí)間、度量、語(yǔ)義)等。
大數(shù)據(jù)分析主要包括聚類分析、因子分析、相關(guān)分析、回歸分析、A/B測(cè)試以及數(shù)據(jù)發(fā)掘等,上述方法在油田常用的有聚類分析、因子分析、回歸分析和數(shù)據(jù)發(fā)掘。
聚類分析是把具有某種相似特征的物體或者事物歸為一類,目的在于辨別在某些特性上相似(但是預(yù)先未知)的事物,并按這些特性將樣本劃分成若干類,使在同一類內(nèi)的事物具有高度同質(zhì)性,而不同類的事物則有高度異質(zhì)性。
因子分析是用少數(shù)幾個(gè)因子去描述多個(gè)指標(biāo)或因素間的聯(lián)系,即將相互比較密切的幾個(gè)變量歸在同一類中,每一類變量就成為一個(gè)因子,以較少的幾個(gè)因子反映原數(shù)據(jù)的大部分信息。
回歸分析是在一組數(shù)據(jù)的基礎(chǔ)上,研究一個(gè)變量與其他變量之間的相關(guān)關(guān)系,尋找被隨機(jī)性掩蓋的變量之間的依存關(guān)系。通過(guò)回歸分析,可以把變量間復(fù)雜的、不確定的關(guān)系變得簡(jiǎn)單化、有規(guī)律化。
數(shù)據(jù)挖掘是大數(shù)據(jù)時(shí)代的關(guān)鍵技術(shù),是指從非完整的、海量的、有噪音的、模糊且隨機(jī)的數(shù)據(jù)中挖掘隱含在內(nèi)且人們未提前得知的有用信息的過(guò)程。一般來(lái)說(shuō),數(shù)據(jù)挖掘的功能有兩類:描述和預(yù)測(cè)。描述性挖掘用于展現(xiàn)集體數(shù)據(jù)的一般特性,而預(yù)測(cè)性挖掘用于推算處理數(shù)據(jù),完成預(yù)測(cè)目的。數(shù)據(jù)挖掘功能同目標(biāo)數(shù)據(jù)的類型有關(guān),有些功能適用于不同類型的數(shù)據(jù),有些功能則只適用于某種特定數(shù)據(jù)。數(shù)據(jù)挖掘功能能夠讓人得知未知信息,提升數(shù)據(jù)價(jià)值,從而應(yīng)用到不同領(lǐng)域。
異常井作為影響產(chǎn)量的主要因素之一,目前被越來(lái)越多的油田生產(chǎn)管理人員重視,原來(lái)的異常井發(fā)現(xiàn)主要依靠人工發(fā)現(xiàn),需要人工查閱大量的油田生產(chǎn)資料才能最終確定,這種方式存在異常井檢索工作量大、發(fā)現(xiàn)周期長(zhǎng)的弱點(diǎn),影響異常井的及時(shí)診斷和措施制訂。采用聚類分析和數(shù)據(jù)發(fā)掘方法對(duì)異常井進(jìn)行自動(dòng)識(shí)別,根據(jù)異常井的定義:油井當(dāng)天產(chǎn)量較上月產(chǎn)量波動(dòng)大于正常范圍的井為異常井,排除作業(yè)井、調(diào)開(kāi)井、常關(guān)井及停電井等因素影響,并采用ASP.NET技術(shù)實(shí)現(xiàn)算法的編譯,系統(tǒng)架構(gòu)B/S模式進(jìn)行發(fā)布,目前已廣泛應(yīng)用于油田日常生產(chǎn),實(shí)現(xiàn)了異常井的及時(shí)發(fā)現(xiàn),提高了進(jìn)一步診斷的及時(shí)性,提高了員工工作效率,如圖3所示。
圖3 異常井識(shí)別及統(tǒng)計(jì)界面
異常井診斷作為油田生產(chǎn)必須的一項(xiàng)日常工作一直困擾著油田生產(chǎn)業(yè)務(wù)人員,目前,大部分油田異常井診斷主要依靠人工完成,人工診斷工作量大且受人為經(jīng)驗(yàn)的影響,診斷符合率低,可能會(huì)導(dǎo)致后續(xù)措施制訂失誤,影響單井生產(chǎn)。因此,采用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井特征功圖庫(kù),通過(guò)油井當(dāng)前功圖與特征功圖的相似度對(duì)比,實(shí)現(xiàn)油井工況的自動(dòng)診斷,由于一種工況可能有多種表現(xiàn)形式,導(dǎo)致功圖解釋存在多種情況,因此,可采用因子分析法,分析每種工況下所關(guān)聯(lián)的因子變化情況,建立參數(shù)診斷規(guī)則庫(kù),通過(guò)相關(guān)因子的指標(biāo)項(xiàng)對(duì)比分析,確診異常原因,如圖4所示,為制訂合理的進(jìn)一步措施提供充分可靠的依據(jù),從而提高單井的生產(chǎn)時(shí)率。
隨著油田開(kāi)發(fā)進(jìn)入后期階段,地層能量逐年匱乏,目前越來(lái)越多供液不足的井涌現(xiàn)出來(lái),我們將其定義為間抽井(間歇出油的井),目前,新疆油田主要由人工制訂下個(gè)月的間抽井開(kāi)關(guān)井計(jì)劃,但計(jì)劃是否合理還需進(jìn)一步驗(yàn)證,因此,如何更好地控制間抽井開(kāi)關(guān)時(shí)間,對(duì)于開(kāi)源節(jié)流、節(jié)能減排起著至關(guān)重要的作用??刹捎靡蜃臃治龊突貧w分析方法,挖掘影響間抽井開(kāi)關(guān)時(shí)間的因素,如動(dòng)液面、沉沒(méi)度、液面上升速度等,建立分析預(yù)測(cè)模型,對(duì)模型曲線進(jìn)行歸一化處理,從而供業(yè)務(wù)人員合理制定間抽井開(kāi)關(guān)制度,達(dá)到節(jié)能減排、提質(zhì)增效的目的。
圖4 異常井智能診斷界面
目前油田上對(duì)油井清蠟措施的實(shí)施都按照人工制訂的計(jì)劃執(zhí)行,平均每口井1個(gè)月清蠟1次,這導(dǎo)致有些井還未結(jié)蠟就提前清、有些井已結(jié)蠟還未清等不合理情況時(shí)有發(fā)生,不但浪費(fèi)人力物力,而且影響油井生產(chǎn)。采用因子分析方法通過(guò)油井歷次結(jié)蠟周期、油井工況、清蠟方式以及用量等參數(shù)建立油井結(jié)蠟預(yù)測(cè)模型,采用回歸分析方法構(gòu)建預(yù)測(cè)模型分析曲線,分析曲線上每個(gè)清蠟節(jié)點(diǎn)時(shí)間,推算出該井的合理清蠟周期,從而指導(dǎo)油井合理有序地清蠟,提高油田精細(xì)化管理水平。
通過(guò)大數(shù)據(jù)分析能發(fā)現(xiàn)油田生產(chǎn)作業(yè)規(guī)律,可以很好地解決油田生產(chǎn)業(yè)務(wù)問(wèn)題;通過(guò)對(duì)油田管理數(shù)據(jù)的分析,能夠發(fā)現(xiàn)并解決管理中存在的問(wèn)題和瓶頸;也可以通過(guò)各種相關(guān)數(shù)據(jù)的可視化對(duì)比分析,發(fā)現(xiàn)過(guò)去無(wú)法關(guān)注的問(wèn)題,這些是大數(shù)據(jù)分析的核心價(jià)值所在,大數(shù)據(jù)應(yīng)用的最終目標(biāo)是預(yù)測(cè)未來(lái),在認(rèn)識(shí)客觀規(guī)律的基礎(chǔ)上進(jìn)行分析預(yù)測(cè),從而指導(dǎo)油田生產(chǎn)。
[1]葛春燕.數(shù)據(jù)挖掘技術(shù)在保險(xiǎn)公司客戶評(píng)估中的應(yīng)用研究[J].軟件,2013(1):116-118.
[2]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
[3]鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應(yīng)對(duì)[J].現(xiàn)代傳播:中國(guó)傳媒大學(xué)學(xué)報(bào),2013(7).
[4]April Reeve.大數(shù)據(jù)管理——數(shù)據(jù)集成的技術(shù)、方法與最佳實(shí)踐[M].余水清,潘黎萍,譯.北京:機(jī)械工業(yè)出版社,2014.
[5]鄔賀銓.大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)[J].求是,2013(4).
[6]陳如明.大數(shù)據(jù)時(shí)代的挑戰(zhàn)、價(jià)值與應(yīng)對(duì)策略[J].移動(dòng)通信,2012(17).
[7]卓安.基于P2P可伸縮架構(gòu)的大數(shù)據(jù)分析平臺(tái)研究與實(shí)現(xiàn)[D].北京:清華大學(xué),2012.