馮黎明,楊毛佼,姚渝琪
(中國石油天然氣股份有限公司西南油氣田分公司通信與信息技術(shù)中心,成都 610051)
本項(xiàng)目涉及的學(xué)科為信息技術(shù)和油氣田開發(fā),利用現(xiàn)有的海量實(shí)時(shí)數(shù)據(jù)資源,基于大數(shù)據(jù)特征提取和分析算法,通過對歷史生產(chǎn)數(shù)據(jù)的挖掘和分析,就現(xiàn)實(shí)氣井開關(guān)井狀態(tài)智能判斷、計(jì)量氣井產(chǎn)水量、井口油套溫等關(guān)鍵參數(shù)的趨勢預(yù)測等功能展開研究,旨在以信息技術(shù)為載體,以油氣開發(fā)為場景,在生產(chǎn)作業(yè)現(xiàn)場改造最小的基礎(chǔ)上,最大限度發(fā)揮生產(chǎn)實(shí)時(shí)數(shù)據(jù)的作用,從而為油氣開發(fā)技術(shù)人員提供可靠的預(yù)測工具。
中國石油的油氣生產(chǎn)物聯(lián)網(wǎng)建設(shè)正開展得如火如荼,未來將會(huì)統(tǒng)一對所轄的油氣田進(jìn)行物聯(lián)網(wǎng)建設(shè),統(tǒng)一標(biāo)準(zhǔn)規(guī)范、接口等相關(guān)技術(shù)細(xì)節(jié)。當(dāng)油氣生產(chǎn)物聯(lián)網(wǎng)建設(shè)完成之后,油田就等于具備了人的感官和神經(jīng),那么,大數(shù)據(jù)分析在中國油田中的大規(guī)模應(yīng)用就近在眼前。
在實(shí)際生產(chǎn)時(shí),獲取油氣井生產(chǎn)相關(guān)設(shè)備的實(shí)時(shí)狀態(tài)非常重要。但目前只有直接讀取生產(chǎn)數(shù)據(jù)或人工錄入兩種方式,大部分設(shè)備不能自動(dòng)獲取狀態(tài)值,智能變送器內(nèi)部也沒有代表其載體設(shè)備的狀態(tài)值。需要根據(jù)設(shè)備正確的狀態(tài)值將對應(yīng)的實(shí)時(shí)數(shù)據(jù)進(jìn)行歸類計(jì)算與應(yīng)用,這時(shí)可以通過數(shù)學(xué)模型輸入實(shí)時(shí)油套壓(參考套壓、井口溫度、產(chǎn)氣量等)計(jì)算出開關(guān)狀態(tài)。
當(dāng)前,某石油和天然氣公司正在試驗(yàn)使用生產(chǎn)數(shù)據(jù)進(jìn)行時(shí)間序列分析,這種分析現(xiàn)在已經(jīng)可以預(yù)測產(chǎn)量為數(shù)十萬立方米的井。老井如果預(yù)測結(jié)果不符合預(yù)定值則對其進(jìn)行標(biāo)記并立即整治。智能油氣田是通過先進(jìn)的信息技術(shù)手段與油氣勘探開發(fā)工程的有機(jī)結(jié)合,以油氣生產(chǎn)物聯(lián)網(wǎng)為依托,通過實(shí)時(shí)生產(chǎn)數(shù)據(jù)的分析、融合,以軟件集成、大數(shù)據(jù)、人工智能技術(shù)為支撐,簡化各業(yè)務(wù)環(huán)節(jié),提升工作的智能化、自動(dòng)化水平,實(shí)現(xiàn)油氣田生產(chǎn)狀態(tài)的動(dòng)態(tài)全面感知。
油田各生產(chǎn)設(shè)備具備多種狀態(tài),每種狀態(tài)都對應(yīng)一個(gè)標(biāo)簽,每個(gè)標(biāo)簽少則1~2 秒多則1~2 小時(shí)產(chǎn)生新的狀態(tài)數(shù)據(jù)。在數(shù)據(jù)分析和應(yīng)用前預(yù)先多次分批將所需數(shù)據(jù)導(dǎo)出后做持久化處理。并且,每隔一段時(shí)間進(jìn)行增量更新,對時(shí)間較敏感的數(shù)據(jù)要實(shí)時(shí)查詢導(dǎo)出。
大數(shù)據(jù)技術(shù)應(yīng)用需要進(jìn)行各類數(shù)據(jù)的采集及讀取,應(yīng)完善大數(shù)據(jù)庫系統(tǒng),包括油田生產(chǎn)中的Oracle 數(shù)據(jù)庫。由于油田生產(chǎn)數(shù)據(jù)繁多,這也對Oracle 數(shù)據(jù)庫存儲(chǔ)性能提出了更高的要求。油田大數(shù)據(jù)應(yīng)用應(yīng)實(shí)現(xiàn)數(shù)據(jù)采集環(huán)節(jié)與讀取環(huán)節(jié)的結(jié)合,以動(dòng)態(tài)性感知油田狀態(tài),通過全方位采集數(shù)據(jù)、地下指標(biāo)等判定油田開發(fā)狀況,將不同類型數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,聚集形成多個(gè)數(shù)據(jù)集,實(shí)現(xiàn)不同類型數(shù)據(jù)的集成及關(guān)聯(lián)性管理。
基礎(chǔ)數(shù)據(jù)采集后需要排除其中重復(fù)的數(shù)據(jù),而對于標(biāo)簽狀態(tài)數(shù)據(jù)則可能出現(xiàn)3 種常見異常狀態(tài)值,包括丟失(包括超時(shí)和null)、狀態(tài)值異常高或低、狀態(tài)值為0 或非常接近0。
第一種做好標(biāo)記即可。第二種異常值被定義為一組結(jié)果值中與平均值的偏差超過三倍標(biāo)準(zhǔn)差的值。可以通過公式P(|x-μ|>3σ)≤0.003 進(jìn)行計(jì)算,由此得出異常值。第三種異常值分兩種情況,一種是異常值確實(shí)為0,另一種是接近0。接近0 的異常值如果是孤立的數(shù)個(gè)點(diǎn),常在進(jìn)行第二類異常檢測時(shí)會(huì)被檢查出來;如果是平穩(wěn)的一組接近0 的數(shù)據(jù),則表示該組數(shù)據(jù)無法使用,屬于廢數(shù)據(jù)。
對以上3 種異常情況可以對應(yīng)采取3 種方法進(jìn)行處理:第一種是直接刪除,包括0 值和接近0 值的異常值;第二種是采用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)結(jié)合的填充方法(如均值填充、中值填充、常用值填充)進(jìn)行處理;第三種是采用純基于機(jī)器學(xué)習(xí)的填充方法,常見的方法有基于KNN(K-Nearest Neighbor)、RNN(Recurrent Neural Networks)、EM(Expectation-Maximization)和矩陣分解(Matrix Factorization)的缺失值填充算法。其中,KNN距離計(jì)算公式為:
在經(jīng)過以上3 種方法處理后,仍然有部分?jǐn)?shù)據(jù)存在劇烈抖動(dòng),如圖1 所示,這種充滿劇烈抖動(dòng)的“噪聲”數(shù)據(jù),無論是對判斷開關(guān)井狀態(tài)還是趨勢預(yù)測都會(huì)造成不利影響。這是因?yàn)閷﹂_關(guān)井判斷的實(shí)質(zhì)是尋找時(shí)間序列數(shù)據(jù)的波峰和波谷,噪聲會(huì)導(dǎo)致數(shù)據(jù)比實(shí)際數(shù)據(jù)偏大或偏小,而預(yù)測趨勢需要對已有數(shù)據(jù)進(jìn)行分析和訓(xùn)練,噪聲會(huì)造成得到的模型參數(shù)產(chǎn)生偏離。
對于噪聲,可以使用多種方法進(jìn)行平滑處理:一是低通濾波,這種方法將高頻的噪聲數(shù)據(jù)過濾,保留頻率較低的有效信號;二是中值濾波,中值濾波是基于排序統(tǒng)計(jì)理論的一種有效抑制噪聲的非線性信號處理技術(shù),其基本原理是把數(shù)字圖像或數(shù)字序列中一點(diǎn)的值用該點(diǎn)的一個(gè)鄰域中各點(diǎn)值的中值代替,單次中值濾波幾乎對抑制噪聲效果有限,需進(jìn)行多輪,在濾波處理后“噪聲”的確受到抑制;三是線性回歸,即用一個(gè)函數(shù)擬合來光滑數(shù)據(jù),將時(shí)間序列數(shù)據(jù)分段,每一組數(shù)據(jù)擬合為一條貼近其變化程度的直線,來模擬其在這段時(shí)間內(nèi)的數(shù)據(jù)點(diǎn)分布情況,經(jīng)過處理后的時(shí)間序列數(shù)據(jù)如圖2 所示。
對時(shí)間序列數(shù)據(jù)趨勢進(jìn)行預(yù)測我們分為以下幾個(gè)步驟。
2.3.1 序列分解
時(shí)間序列分為多個(gè)部分,可以采用時(shí)間序列分解模型Yt=Yt+St+Ct+Tt計(jì)算出結(jié)果,以了解該時(shí)間序列數(shù)據(jù)的各個(gè)部分,每個(gè)部分都代表一種模式類別。序列分解后可以看到數(shù)據(jù)的主要趨勢成分、季節(jié)成分和殘差成分。
2.3.2 時(shí)間序列平穩(wěn)性檢驗(yàn)
如果一個(gè)時(shí)間序列的均值和方差隨著時(shí)間變化保持穩(wěn)定,則可以說這個(gè)時(shí)間序列是穩(wěn)定的。大多數(shù)時(shí)間序列模型都是在平穩(wěn)序列的前提下進(jìn)行建模的。造成這種情況的主要原因是序列可以有許多種(復(fù)雜的)非平穩(wěn)的方式,而平穩(wěn)性只有一種,且更加易于分析和建模。而且,與非平穩(wěn)序列相比,平穩(wěn)序列相關(guān)的理論更加成熟且易于實(shí)現(xiàn)。
一般可以通過以下幾種方式來檢驗(yàn)序列的平穩(wěn)性。一是ACF 與PACF 曲線。如果時(shí)間序列是穩(wěn)定的,則ACF/PACF 曲線中某一觀測數(shù)據(jù)與其滯后數(shù)據(jù)點(diǎn)呈現(xiàn)很小的相關(guān)性,且這個(gè)相關(guān)性會(huì)迅速下降消失。二是滑動(dòng)均值和方差的變化趨勢,通過繪制滑動(dòng)均值和方差的曲線,可以看出時(shí)間序列的均值和方差是否隨著時(shí)間序列變化。三是ADF 檢驗(yàn)(Augmented Dickey-Fuller Test),這是用于檢驗(yàn)數(shù)據(jù)平穩(wěn)性的統(tǒng)計(jì)檢驗(yàn)方法之一。在ADF 檢驗(yàn)中,零假設(shè)為時(shí)間序列是非平穩(wěn)的,測試結(jié)果包括一些統(tǒng)計(jì)量、置信度和臨界值。如果檢驗(yàn)統(tǒng)計(jì)量小于關(guān)鍵值,則可以拒絕原假設(shè),并認(rèn)為該序列是平穩(wěn)的。在實(shí)際開發(fā)中我們采用了滑動(dòng)均值的方式。
2.3.3 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換,即把非平穩(wěn)序列轉(zhuǎn)換為平穩(wěn)序列,使之更容易處理。主要使用幾種較常用的方式來進(jìn)行處理,即先進(jìn)行對數(shù)轉(zhuǎn)換(log 變換),接著求差分,一般差分是用某時(shí)刻的數(shù)值減去上一時(shí)刻數(shù)值來得到新序列。但這里有一點(diǎn)區(qū)別,實(shí)際操作中是使用當(dāng)前時(shí)刻數(shù)值減去其對應(yīng)時(shí)刻的滑動(dòng)均值。自回歸模型就是利用滯后的時(shí)間來預(yù)測當(dāng)前時(shí)間點(diǎn)的數(shù)據(jù),如使用x(t-1)、x(t-2)和x(t-3)來擬合預(yù)測x(t)。這里使用的滯后變量數(shù)量就是p;MA(Moving Averages,q)。滑動(dòng)平均模型使用滯后序列的白噪聲來擬合當(dāng)前數(shù)據(jù),同樣的滯后數(shù)據(jù)數(shù)量即q;Difference(即差分,d),在這個(gè)過程中,通過數(shù)據(jù)轉(zhuǎn)換將非平穩(wěn)序列轉(zhuǎn)變?yōu)槠椒€(wěn)序列,因?yàn)锳R 和MA 無法對非平穩(wěn)序列進(jìn)行擬合。接下來進(jìn)行數(shù)據(jù)擬合(將生產(chǎn)實(shí)時(shí)數(shù)據(jù)作為訓(xùn)練集),經(jīng)過多層次訓(xùn)練和調(diào)整,然后進(jìn)行參數(shù)搜索,找到最佳值,最后得出預(yù)測結(jié)果。公式為Arima 的模型算法,是油田信息化技術(shù)體系構(gòu)建地震、地質(zhì)、數(shù)值模型的計(jì)算理論公式基礎(chǔ)。
在生產(chǎn)環(huán)境中,井站根據(jù)開關(guān)頻率,分為每天開關(guān)數(shù)次、每天開關(guān)一次、數(shù)天開關(guān)一次;根據(jù)生產(chǎn)指令不定時(shí)開或關(guān)分為4種類型,但無論是哪一種類型總要滿足:關(guān)井時(shí),油壓必然隨著時(shí)間升高;開井時(shí),其油壓會(huì)隨著時(shí)間降低,壓力高低差可達(dá)數(shù)兆帕。因此,判斷開關(guān)井狀態(tài)的實(shí)質(zhì)就是分析壓力隨時(shí)間變化的曲線,找出符合開關(guān)井時(shí)曲線特征的部分,開關(guān)井狀態(tài)判斷就是“信號”處理后,再進(jìn)行“信號”分析。
筆者使用了基于小波變換的時(shí)間序列相似模式匹配來進(jìn)行分析,先分析其開關(guān)井的特征并提取形成“模式”,再到源數(shù)據(jù)中進(jìn)行匹配,結(jié)果如圖3 所示。這種方法對固定開關(guān)時(shí)間的井的狀態(tài)能夠進(jìn)行較好的判斷。
在進(jìn)一步分析多口井站數(shù)據(jù)后,特別是不定時(shí)開關(guān)或者臨時(shí)開關(guān)的井站,模式匹配遇到一定困難,但無論其曲線怎么變化總能滿足開井時(shí)刻必然在壓力隨時(shí)間變化曲線的某個(gè)“峰”值或附近,關(guān)井時(shí)刻在壓力曲線的某個(gè)“谷”值或附近,從“谷”到“峰”壓力隨之上升,從“峰”到“谷”壓力隨之減小。
找“峰”的算法就是對區(qū)間內(nèi)的數(shù)據(jù)進(jìn)行求一階差分,找到連續(xù)非負(fù)值和負(fù)值的轉(zhuǎn)換點(diǎn)。找“谷”的時(shí)候把差分值x-1后再找轉(zhuǎn)換點(diǎn)即可。但在分析具體井站數(shù)據(jù)時(shí),發(fā)現(xiàn)因有多種因素會(huì)對壓力產(chǎn)生“細(xì)微”影響,這種影響直接表現(xiàn)在一階差分上,就是從“谷”到“峰”不是單調(diào)的增加,而是增加區(qū)間和減少區(qū)間交替出現(xiàn),整個(gè)區(qū)間總體形式是增加的,反之亦然。于是,對算法做出調(diào)整,加入正負(fù)區(qū)間變化幅度和分布數(shù)量作為參數(shù)。在解決了判斷“峰”和“谷”的問題后,對生產(chǎn)數(shù)據(jù)進(jìn)行實(shí)際測試,如圖4 所示。
因?yàn)檎业降姆搴凸忍?,遠(yuǎn)遠(yuǎn)大于開和關(guān)的次數(shù),仍然無法具體定位開或關(guān)。
通過對多口井?dāng)?shù)據(jù)進(jìn)行分析比對,總結(jié)以下幾個(gè)關(guān)鍵點(diǎn)來分析“峰”和“谷”:寬度,壓力曲線從“谷”到“峰”再到“谷”,這兩個(gè)谷的間隔即寬度;高度,峰值必定是大于區(qū)間內(nèi)某個(gè)值的,在實(shí)際算法中采用區(qū)間內(nèi)平均值;間隔,開關(guān)井的壓力變化不是一個(gè)短時(shí)間內(nèi)能完成的事務(wù),在兩次開關(guān)井之間必然存在一定距離;對稱性,大多數(shù)井壓力變化有一種特性,關(guān)井時(shí)壓力上升前快后慢,開井時(shí)同樣也是前快后慢,但關(guān)井壓力升到“峰”耗時(shí)一般高于開井時(shí)降到“谷”的耗時(shí)。于是,進(jìn)一步改進(jìn)算法,加入4 個(gè)參數(shù)作為條件進(jìn)行判斷。最終較為準(zhǔn)確地判斷出開關(guān)井狀態(tài),如圖5 所示。
油田信息化生產(chǎn)建設(shè)是油田適應(yīng)時(shí)代發(fā)展潮流的必然選擇。為實(shí)現(xiàn)油田更好的發(fā)展,需要相關(guān)工作人員不斷加強(qiáng)油田信息化建設(shè)方面的研究,通過新的技術(shù)手段來加強(qiáng)油田信息化應(yīng)用。同時(shí),在實(shí)際應(yīng)用過程中,要持續(xù)進(jìn)行大數(shù)據(jù)技術(shù)、云計(jì)算技術(shù)、智能生產(chǎn)技術(shù)等方面的創(chuàng)新,通過不斷創(chuàng)新找到新的發(fā)展出路,提升油田生產(chǎn)的效率與效益。