劉 合, 李艷春, 杜慶龍, 賈德利, 王素玲, 喬美霞, 屈如意
(1.東北石油大學(xué)機(jī)械科學(xué)與工程學(xué)院,黑龍江大慶 163318; 2.中國(guó)石油勘探開(kāi)發(fā)研究院,北京 100083;3.大慶油田有限責(zé)任公司勘探開(kāi)發(fā)研究院,黑龍江大慶 163712)
油田開(kāi)發(fā)中產(chǎn)量指標(biāo)是評(píng)價(jià)油田開(kāi)采狀況、進(jìn)行油田開(kāi)發(fā)方案、增儲(chǔ)上產(chǎn)和產(chǎn)能建設(shè)的基礎(chǔ)和依據(jù),產(chǎn)量預(yù)測(cè)的精度是影響油田開(kāi)發(fā)效果至關(guān)重要的因素[1]。由于中國(guó)油田儲(chǔ)集層92%為陸相碎屑巖沉積,天然能量弱,水驅(qū)開(kāi)發(fā)一直是中國(guó)油田主體開(kāi)發(fā)方式之一[2-3],隨著水驅(qū)開(kāi)發(fā)不斷深入,目前進(jìn)入了高采出程度、高含水階段[4-5]。高含水期油藏縱向和平面非均質(zhì)性嚴(yán)重,層間矛盾加劇,剩余油賦存狀態(tài)發(fā)生改變[6-7]。油相由連續(xù)相變?yōu)榉稚⑾?油相流動(dòng)能力顯著下降,水油比快速上升,這導(dǎo)致產(chǎn)量預(yù)測(cè)面臨巨大的挑戰(zhàn)。具體表現(xiàn)為利用傳統(tǒng)的經(jīng)驗(yàn)?zāi)P头A(yù)測(cè)高含水期產(chǎn)量,水驅(qū)特征曲線發(fā)生上翹,預(yù)測(cè)結(jié)果誤差較大,已不適于描述高含水期產(chǎn)量遞減規(guī)律[7-10]。此外常規(guī)油藏工程方法考慮的影響因素較少,計(jì)算精準(zhǔn)度難以保證[11-12],而數(shù)值模擬方法對(duì)高含水期進(jìn)行產(chǎn)量預(yù)測(cè)的時(shí)效較低,模擬計(jì)算負(fù)荷隨高含水期非線性特征增強(qiáng)而增大,嚴(yán)重時(shí)甚至?xí)o(wú)法收斂[13]。因此進(jìn)入特高含水期,隨著油藏滲流規(guī)律日益復(fù)雜,儲(chǔ)層時(shí)變特征凸顯,需要充分利用地震、地質(zhì)、油藏等資料表征油藏屬性的時(shí)變特征,推動(dòng)常規(guī)油藏描述向動(dòng)態(tài)油藏描述技術(shù)升級(jí),受限于現(xiàn)有流動(dòng)模擬方法和進(jìn)一步研究的時(shí)間成本,亟需一種能夠提高產(chǎn)量預(yù)測(cè)精度的智能方法。筆者針對(duì)油田高含水期地質(zhì)條件復(fù)雜、地層物性變化多樣導(dǎo)致產(chǎn)量預(yù)測(cè)正確率低的問(wèn)題,提出一種基于多變量時(shí)間序列模型即多變量長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)的產(chǎn)量預(yù)測(cè)方法。
隨著油田開(kāi)發(fā)的深入進(jìn)行,多油田陸續(xù)進(jìn)入高含水期的開(kāi)采階段。在這個(gè)階段,油田面臨著嚴(yán)峻的生產(chǎn)形勢(shì),產(chǎn)量預(yù)測(cè)的難度也相應(yīng)增加,同時(shí)層間矛盾變得更加突出,水淹規(guī)律的復(fù)雜性進(jìn)一步凸顯。造成這種情況的主要原因可以歸結(jié)為3個(gè)方面:①受儲(chǔ)層物性差異影響,導(dǎo)致儲(chǔ)層在縱向上呈現(xiàn)出強(qiáng)烈的非均質(zhì)性;層間出現(xiàn)高滲透層,從而形成了水竄現(xiàn)象,阻礙了低滲透層的產(chǎn)能釋放,嚴(yán)重干擾了層間的產(chǎn)油情況;②受開(kāi)發(fā)井網(wǎng)變化和井網(wǎng)完善程度的影響,油田開(kāi)發(fā)過(guò)程中,井網(wǎng)的布置和改變會(huì)對(duì)流體的分布產(chǎn)生影響,導(dǎo)致產(chǎn)液結(jié)構(gòu)的不均勻性增加,進(jìn)而增加了油水滲流規(guī)律的復(fù)雜性;③為兼顧開(kāi)發(fā)成本與開(kāi)采效果,注水開(kāi)發(fā)初期一般采用多層合采的開(kāi)發(fā)模式,造成層間注水不均衡現(xiàn)象加劇,滲流規(guī)律的定量表征難度加大。受以上因素影響,導(dǎo)致注水初期多層合采產(chǎn)量線性回歸關(guān)系模型在高含水期適用性差。
近年來(lái),隨著人工智能在科學(xué)和工程領(lǐng)域的廣泛應(yīng)用,數(shù)字化轉(zhuǎn)型、大數(shù)據(jù)和人工智能逐漸成為石油和天然氣工業(yè)的研究熱點(diǎn)[14-20]。很多學(xué)者探索利用人工智能方法解決油田高含水期產(chǎn)能預(yù)測(cè)存在的難點(diǎn),主要針對(duì)油井產(chǎn)量主控因素分析[21-23]以及油井產(chǎn)量預(yù)測(cè)[24-27]進(jìn)行研究。例如基于聚類(lèi)模型和數(shù)據(jù)挖掘概率模型,結(jié)合神經(jīng)網(wǎng)絡(luò)與灰色關(guān)聯(lián)分析的產(chǎn)量預(yù)測(cè)模型,以及多機(jī)器學(xué)習(xí)算法綜合預(yù)測(cè)模型應(yīng)用于產(chǎn)量預(yù)測(cè)[28-30]。利用隨機(jī)森林和BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行單一模型的擬合和預(yù)測(cè),不僅成為一種新的組合產(chǎn)量預(yù)測(cè)模型[31],而且在非常規(guī)油氣儲(chǔ)集層中的老井和新井的生產(chǎn)現(xiàn)狀預(yù)測(cè)方面,逐漸開(kāi)始探索機(jī)器學(xué)習(xí)算法與地質(zhì)模型、生產(chǎn)歷史數(shù)據(jù)和生產(chǎn)制度等信息的結(jié)合,以發(fā)現(xiàn)其潛在應(yīng)用[32]。但傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)無(wú)法有效利用產(chǎn)量時(shí)序性特征,因此一些學(xué)者通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡(jiǎn)稱(chēng)RNN)建立考慮時(shí)間因素且更加符合實(shí)際生產(chǎn)情況的油井產(chǎn)量預(yù)測(cè)模型[33-34]。Gupta等[35]提出分別采用基于數(shù)據(jù)挖掘技術(shù)和時(shí)間序列分析方法進(jìn)行產(chǎn)量預(yù)測(cè)。例如,王洪亮等[36]在油田產(chǎn)量預(yù)測(cè)方面采用了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)構(gòu)建的模型。該模型不僅能夠捕捉到產(chǎn)量與主控因素之間的關(guān)聯(lián),而且能夠捕捉產(chǎn)量數(shù)據(jù)中的時(shí)序信息,從而更準(zhǔn)確地預(yù)測(cè)未來(lái)產(chǎn)量變化。劉巍等[37]通過(guò)篩選與日產(chǎn)油數(shù)據(jù)相關(guān)的特征參數(shù)并基于LSTM模型通過(guò)學(xué)習(xí)歷史數(shù)據(jù)的長(zhǎng)期依賴(lài)關(guān)系,使模型能夠更好地預(yù)測(cè)未來(lái)的產(chǎn)量趨勢(shì)。
這些機(jī)器學(xué)習(xí)模型雖然在技術(shù)方法上取得了進(jìn)步,但大多數(shù)產(chǎn)量預(yù)測(cè)方法或采用多變量預(yù)測(cè)模型忽略了生產(chǎn)中油井產(chǎn)量時(shí)序性特征,或采用單變量時(shí)序預(yù)測(cè)模型未能充分考慮油田產(chǎn)量受儲(chǔ)層性質(zhì)和生產(chǎn)制度等多因素影響。因此本文旨在基于油田產(chǎn)量歷史數(shù)據(jù)的多因素相關(guān)性和時(shí)序相關(guān)性,使用多變量LSTM預(yù)測(cè)油田高含水期的產(chǎn)量。首先,基于XGBoost進(jìn)行產(chǎn)量主控因素篩選,降低產(chǎn)量預(yù)測(cè)模型復(fù)雜度,提高模型精度;其次,闡述LSTM模型原理及其與高含水產(chǎn)量預(yù)測(cè)問(wèn)題的適配性,并基于多變量LSTM建立產(chǎn)量預(yù)測(cè)模型;最后,與其他3種同類(lèi)神經(jīng)網(wǎng)絡(luò)模型對(duì)比,通過(guò)對(duì)多變量LSTM模型在高含水產(chǎn)量預(yù)測(cè)中的應(yīng)用效果進(jìn)行分析,可以有效指導(dǎo)智能產(chǎn)量預(yù)測(cè)在高含水油田的實(shí)際應(yīng)用和實(shí)施。
選擇中國(guó)東部某中高滲透砂巖區(qū)塊作為研究對(duì)象,該區(qū)塊具備優(yōu)良的油氣儲(chǔ)藏條件。目前該區(qū)塊正處于高含水期的開(kāi)發(fā)階段,盡管原油產(chǎn)量相對(duì)保持穩(wěn)定,但產(chǎn)液量和平均含水量逐年增加,如圖1所示開(kāi)發(fā)效果逐年惡化。
為了深入研究該問(wèn)題,收集了研究區(qū)內(nèi)100多口油井近10 a的生產(chǎn)數(shù)據(jù),并結(jié)合靜態(tài)數(shù)據(jù)和流體物性數(shù)據(jù)形成了初始的產(chǎn)量分析樣本數(shù)據(jù)集,共計(jì)27個(gè)維度,其中1個(gè)為標(biāo)簽特征。分析樣本數(shù)據(jù)集包括每口井的地質(zhì)參數(shù)和工程參數(shù),地質(zhì)參數(shù)反映了油藏的地質(zhì)屬性,包括孔隙度、滲透率、含油飽和度和射開(kāi)有效厚度等指標(biāo),這些地質(zhì)參數(shù)對(duì)于油藏的儲(chǔ)量和產(chǎn)能具有重要影響。同時(shí)考慮到油井投產(chǎn)后能量的變化和生產(chǎn)狀況對(duì)產(chǎn)油量的直接影響,還考慮了生產(chǎn)天數(shù)、流壓、靜壓、沖程、沖次、動(dòng)液面、連通有效厚度和連通井注水量等工程參數(shù)。這些工程參數(shù)能夠反映油井的生產(chǎn)情況和工藝特征,將有助于深入理解地質(zhì)參數(shù)和工程參數(shù)對(duì)產(chǎn)量的影響,并為進(jìn)一步的分析和預(yù)測(cè)提供基礎(chǔ)。
目前樣本數(shù)據(jù)中地質(zhì)和工程各類(lèi)參數(shù)多達(dá)20余種,如果同時(shí)對(duì)樣本庫(kù)中的指標(biāo)進(jìn)行使用,一方面掩蓋了數(shù)據(jù)有效性,另一方面會(huì)使計(jì)算量驟增,極大地影響計(jì)算效率,需要通過(guò)指標(biāo)篩選去掉一些無(wú)意義數(shù)據(jù),保留有用指標(biāo)。因此使用Pearson相關(guān)系數(shù)、互信息結(jié)合通過(guò)極限梯度提升算法(eXtreme gradient boosting,XGBoost)進(jìn)行產(chǎn)量主控因素挖掘,具體算法流程如圖2所示。
圖2 產(chǎn)量主控因素挖掘流程
首先,通過(guò)計(jì)算樣本數(shù)據(jù)集中每個(gè)特征變量與產(chǎn)量的互信息值,獲得各特征變量與產(chǎn)量之間的關(guān)聯(lián)程度。其次,計(jì)算各個(gè)特征之間的Pearson相關(guān)系數(shù)來(lái)判斷特征變量之間的相關(guān)程度;對(duì)于強(qiáng)相關(guān)的特征,刪除其中與產(chǎn)量之間互信息值較低的特征參數(shù),以避免特征冗余或共線性帶來(lái)的影響。最后,使用XGBoost算法計(jì)算每個(gè)特征的重要性程度,依據(jù)特征的全局重要度進(jìn)行特征篩選,逐次減少1 ~ 2個(gè)重要度最低的特征,以此減少特征空間的維度,直至達(dá)到預(yù)設(shè)的最小閾值,從而迭代得出最優(yōu)特征子集。
由于樣本數(shù)據(jù)來(lái)自于不同類(lèi)型的數(shù)據(jù)源,出現(xiàn)數(shù)據(jù)異常的可能性較為常見(jiàn)。在數(shù)據(jù)分析之前,需要對(duì)數(shù)據(jù)進(jìn)行描述性分析和預(yù)處理,數(shù)據(jù)預(yù)處理對(duì)于產(chǎn)量主控因素挖掘起著至關(guān)重要的作用,主要包括異常值處理、缺失值處理和數(shù)據(jù)標(biāo)準(zhǔn)化等。首先,對(duì)每個(gè)缺失值的特征建模,并使用該估計(jì)值進(jìn)行估算,以迭代循環(huán)方式執(zhí)行,比如有孔隙度數(shù)據(jù)缺少滲透率時(shí)可以根據(jù)滲透率與孔隙度的關(guān)系進(jìn)行估算,采用均值插補(bǔ)法或中位數(shù)插補(bǔ)進(jìn)行數(shù)據(jù)的填充。其次,利用3σ準(zhǔn)則對(duì)各類(lèi)數(shù)據(jù)分別進(jìn)行異常值的篩除,設(shè)測(cè)量值為x1,x2,x3,…,xn,算出其算術(shù)平均值x及剩余誤差vi=xi-x(i=1,2,…,n),依據(jù)貝塞爾式算出標(biāo)準(zhǔn)偏差σ,當(dāng)某數(shù)據(jù)xt的剩余誤差vt(1≤t≤n)滿足
|vi|=|xi-x|>2δ.
(1)
則認(rèn)為xt應(yīng)予以剔除。最后,因?yàn)閿?shù)據(jù)來(lái)源多樣,不同數(shù)據(jù)之間量級(jí)存在較大差異。因此采用
(2)
進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,消除變量間的量綱差異,避免影響數(shù)據(jù)分析、數(shù)據(jù)建模及優(yōu)化的結(jié)果。
對(duì)預(yù)處理后的樣本數(shù)據(jù)進(jìn)行特征初步選擇。首先,計(jì)算各個(gè)特征之間的Pearson相關(guān)系數(shù),用于衡量特征之間的線性相關(guān)性。得到如圖2所示的Pearson相關(guān)系數(shù)圖譜,這里展示其中的10個(gè)特征。然后,計(jì)算每個(gè)特征與產(chǎn)量之間的互信息值,并按照從大到小的順序進(jìn)行排序?;バ畔⒅翟酱?表示特征與產(chǎn)量之間的關(guān)聯(lián)度越高,重要性也越高。將對(duì)應(yīng)于Pearson相關(guān)系數(shù)圖譜的10個(gè)特征進(jìn)行展示,并將它們的互信息值列在表1中。對(duì)于兩個(gè)隨機(jī)變量X=(x1,x2,…,xn),Y=(y1,y2,…,yn)的Pearson相關(guān)系數(shù)表示為
表1 特征與產(chǎn)量的互信息值
(3)
P(X,Y)的絕對(duì)值越大,表示兩個(gè)變量之間的相關(guān)程度越高。當(dāng)P(X,Y)的值接近1或-1時(shí),表示兩個(gè)變量之間存在強(qiáng)烈的線性相關(guān)性;當(dāng)P(X,Y)的值接近0時(shí),表示兩個(gè)變量之間不存在線性相關(guān)性。
設(shè)p(x,y)、p(x)和p(y)分別為(X,Y)的聯(lián)合分布函數(shù)、X的邊緣分布函數(shù)和Y的邊緣分布函數(shù),則X,Y的互信息I(X,Y)定義為
(4)
從式(4)可以看出,I(X,Y)的意義是X、Y共享信息的一個(gè)度量。它表示當(dāng)知道一個(gè)變量的取值時(shí),對(duì)另一個(gè)變量的不確定度減少的程度。互信息的計(jì)算可以用來(lái)衡量?jī)蓚€(gè)變量之間的關(guān)聯(lián)性和信息傳遞程度。如果兩個(gè)變量是相互獨(dú)立的,即一個(gè)變量的取值無(wú)法提供任何關(guān)于另一個(gè)變量的信息,那么它們的互信息值將為0。
由圖3(a)中的Pearson相關(guān)系數(shù)圖譜,根據(jù)Pearson相關(guān)系數(shù)的絕對(duì)值評(píng)估可知部分特征之間的相存在較強(qiáng)相關(guān)程度,這表示特征之間存在冗余性。為了去除這些冗余特征,篩選出所有具有強(qiáng)相關(guān)性的特征,即Pearson相關(guān)系數(shù)絕對(duì)值大于0.6的特征對(duì),對(duì)比冗余特征的互信息值?;バ畔⒅悼梢耘袛嗵卣鞯闹匾耘c產(chǎn)量之間的關(guān)聯(lián)程度。對(duì)于具有較低互信息值的特征,可以將其刪除,以減少冗余特征的影響。
圖3 特征篩選前后Pearson相關(guān)系數(shù)圖譜對(duì)比
經(jīng)過(guò)去冗余操作后,特征的Pearson相關(guān)系數(shù)圖譜(取其中10個(gè)特征展示)如圖3(b)所示??梢杂^察到,在保留的特征中不再存在強(qiáng)冗余的特征對(duì)。這意味著成功地去除了原始特征中的冗余信息,保留了與產(chǎn)量預(yù)測(cè)相關(guān)且互信息值較高的特征。
為了降低產(chǎn)量預(yù)測(cè)特征維度并優(yōu)化特征空間,通過(guò)XGBoost得到每個(gè)特征的重要性評(píng)估值,該評(píng)估值直觀地反映各特征量對(duì)產(chǎn)量的貢獻(xiàn)度,以便合理地保留重要特征并舍棄不重要的特征,實(shí)現(xiàn)特征空間的優(yōu)化。XGBoost集成了多個(gè)回歸樹(shù),因此根據(jù)數(shù)據(jù)預(yù)處理后的分析樣本構(gòu)建決策樹(shù)回歸模型為
(5)
式中,fk為一棵回歸樹(shù)。
該模型為融合多特征量的綜合產(chǎn)量主控因素分析模型,為防止過(guò)擬合,引入正則化損失函數(shù),表示為
(6)
式中,Ω(fk)為損失函數(shù)的正則化項(xiàng);γ和λ為損失函數(shù)的懲罰系數(shù);T和w分別為第k棵樹(shù)的葉子數(shù)目及葉子權(quán)重。
損失函數(shù)的最小化是為了獲得更優(yōu)的模型分類(lèi)結(jié)果,表示模型能更準(zhǔn)確地評(píng)估各特征量對(duì)產(chǎn)量的貢獻(xiàn)度,通過(guò)對(duì)損失函數(shù)進(jìn)行二階泰勒展開(kāi),可以計(jì)算出每個(gè)葉子j的最優(yōu)權(quán)重,并相應(yīng)地計(jì)算得到最優(yōu)的目標(biāo)值。最優(yōu)值計(jì)算為
(7)
式中,wobj為最優(yōu)目標(biāo)值;Gj為葉子節(jié)點(diǎn)j的梯度之和,即節(jié)點(diǎn)j一階導(dǎo)數(shù)累加之和;Hj為葉子節(jié)點(diǎn)j所包含的樣本的二階導(dǎo)數(shù)累加之和。
對(duì)于所有葉子節(jié)點(diǎn),采用貪心算法對(duì)子樹(shù)劃分,每次對(duì)一個(gè)節(jié)點(diǎn)進(jìn)行分裂,分裂前后的信息增益為
(8)
式中,GL和GR分別為當(dāng)前節(jié)點(diǎn)左子樹(shù)和右子樹(shù)的梯度之和;HL和HR分別為當(dāng)前節(jié)點(diǎn)左子樹(shù)和右子樹(shù)的二階導(dǎo)數(shù)之和。
在每次分裂過(guò)程中,計(jì)算每個(gè)特征的信息增益值,即衡量分裂前后數(shù)據(jù)純度改善的程度。選擇信息增益最大的特征進(jìn)行分裂,而忽略其他信息增益較低的特征。通過(guò)不斷迭代這個(gè)過(guò)程,可以構(gòu)建出一棵回歸樹(shù),其中每個(gè)節(jié)點(diǎn)都是根據(jù)特征的信息增益進(jìn)行分裂。這樣的分裂過(guò)程會(huì)考慮特征的重要性和關(guān)聯(lián)性,從而構(gòu)建出更準(zhǔn)確的回歸樹(shù)模型,并將特征列向量作為樹(shù)的分支節(jié)點(diǎn)。這種方法可以通過(guò)最大化信息增益來(lái)選擇具有較高預(yù)測(cè)能力的特征進(jìn)行分裂,從而提高模型的性能和準(zhǔn)確性。為了衡量特征在單棵樹(shù)中的重要性,用計(jì)算式表示為
(9)
式中,K和K-1分別為葉子和非葉子的節(jié)點(diǎn)數(shù);Ik為節(jié)點(diǎn)k分裂后平方損失的減少值。
在XGBoost中,通過(guò)集成多個(gè)回歸樹(shù)并進(jìn)行特征分裂,可以將選中特征的分裂次數(shù)作為該特征的重要度衡量指標(biāo)[38]。為了分析特征的重要性,將特征樣本輸入XGBoost模型進(jìn)行特征訓(xùn)練,并計(jì)算特征的分裂次數(shù)。
基于分析結(jié)果,進(jìn)行了4次特征重要度篩選過(guò)程。在每次篩選過(guò)程中,剔除1~2個(gè)重要度最低的特征,并生成新的特征空間。通過(guò)這種方式不斷縮減特征空間的維度,直到達(dá)到預(yù)設(shè)的最小閾值。特征重要度的篩選過(guò)程如圖4所示。通過(guò)觀察圖4,可以了解產(chǎn)量影響因素的重要度篩選過(guò)程。這個(gè)過(guò)程有助于理解哪些特征對(duì)產(chǎn)量的影響最為關(guān)鍵,以及在模型中起到重要作用的特征。
圖4 產(chǎn)量影響因素重要度篩選
為了確保所選擇的產(chǎn)量主控因素具有最優(yōu)性能,采用主成分分析法對(duì)上述待選特征進(jìn)行分析。主成分分析法通過(guò)計(jì)算方差貢獻(xiàn)率來(lái)選取主成分,以保留最具代表性的特征。
根據(jù)表2結(jié)果,可以進(jìn)一步觀察前6個(gè)主成分的方差累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到81%。這意味著這6個(gè)主成分能夠代表所有特征的方差。因此可以將原始的26個(gè)特征降維為6個(gè)主成分,這樣可以更好地綜合特征信息,減少特征間的冗余性。
表2 產(chǎn)量主控因素方差及方差貢獻(xiàn)率
如表3所示,篩選得到的6個(gè)特征涵蓋了地質(zhì)和工程兩個(gè)類(lèi)別的特征參數(shù),具有廣泛的信息覆蓋范圍。地質(zhì)參數(shù)方面包括孔隙度、滲透率和含油飽和度等指標(biāo),反映了油藏的物理性質(zhì)和儲(chǔ)集條件。工程參數(shù)方面包括生產(chǎn)天數(shù)、流壓和靜壓等指標(biāo),關(guān)注了油井的生產(chǎn)過(guò)程和工程操作。同時(shí)這6個(gè)特征完全符合圖4中XGBoost第4輪的選擇結(jié)果,通過(guò)這些特征的綜合應(yīng)用,可以更準(zhǔn)確地預(yù)測(cè)產(chǎn)量,并全面了解地質(zhì)和工程因素對(duì)產(chǎn)量的影響。這將為智能產(chǎn)量預(yù)測(cè)在高含水油田的實(shí)施提供有效指導(dǎo)。
表3 產(chǎn)量主控因素分布
油井產(chǎn)量預(yù)測(cè)是基于油水井生產(chǎn)歷史的典型時(shí)間序列預(yù)測(cè)問(wèn)題,水驅(qū)開(kāi)發(fā)油藏在長(zhǎng)期的注水生產(chǎn)過(guò)程中,油藏的埋藏條件會(huì)逐漸發(fā)生變化,包括儲(chǔ)層性質(zhì)、流體性質(zhì)和地層壓力等的變化。這些變化對(duì)注水增產(chǎn)效果產(chǎn)生重要影響。因此油井產(chǎn)量預(yù)測(cè)在考慮產(chǎn)量時(shí)序性變化特征的基礎(chǔ)上,兼顧產(chǎn)量指標(biāo)與油藏動(dòng)態(tài)分布特征的內(nèi)在關(guān)聯(lián),利用大數(shù)據(jù)分析水驅(qū)開(kāi)發(fā)產(chǎn)量歷史數(shù)據(jù)變換規(guī)律,結(jié)合多變量LSTM建立產(chǎn)量預(yù)測(cè)模型,多變量LSTM產(chǎn)量預(yù)測(cè)模型架構(gòu)如圖5所示。
圖5 多變量LSTM產(chǎn)量預(yù)測(cè)模型
提出的基于多變量LSTM的產(chǎn)量預(yù)測(cè)模型充分考慮了產(chǎn)油量與地質(zhì)因素和工程因素之間的多變量相關(guān)性特征。該模型的網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、隱藏層和輸出層,共3層。在輸入層中,通過(guò)圖5可知,對(duì)產(chǎn)量主控因素進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換,使其能夠用于監(jiān)督學(xué)習(xí)。為了考慮時(shí)間相關(guān)性,通過(guò)時(shí)間窗口分割的方式將數(shù)據(jù)劃分為輸入集和相應(yīng)的輸出集。采用以時(shí)間步長(zhǎng)t為間隔的方式,將每個(gè)時(shí)刻的前t個(gè)時(shí)間步的數(shù)據(jù)作為輸入,而該時(shí)刻對(duì)應(yīng)的樣本值作為目標(biāo)輸出,得到了一系列的輸入-輸出樣本對(duì)。并且為了使輸入數(shù)據(jù)能夠包含多變量特征,將6個(gè)產(chǎn)量主控因素和t-1個(gè)時(shí)間步的歷史產(chǎn)量整合作為模型輸入,這些特征將作為時(shí)間步的唯一索引,輸入到隱藏層中,隱藏層通過(guò)使用損失函數(shù)計(jì)算得到的梯度反向傳播調(diào)整式中的權(quán)重來(lái)進(jìn)行學(xué)習(xí)。
通過(guò)使用Adam算法來(lái)更新模型參數(shù),不斷迭代優(yōu)化,直到損失函數(shù)達(dá)到收斂狀態(tài)。模型訓(xùn)練完成后,通過(guò)輸出層對(duì)結(jié)果進(jìn)行反歸一化等處理,將經(jīng)過(guò)歸一化處理的預(yù)測(cè)值還原為與實(shí)際產(chǎn)量數(shù)據(jù)相匹配的原始時(shí)序數(shù)據(jù)格式,從而完成產(chǎn)量預(yù)測(cè)。通過(guò)這種基于多變量LSTM的產(chǎn)量預(yù)測(cè)模型,能夠考慮到產(chǎn)油量與地質(zhì)因素和工程因素之間的多變量相關(guān)性特征,從而提高了產(chǎn)量預(yù)測(cè)的準(zhǔn)確性和可靠性。
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)作為循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的一種變體,解決了傳統(tǒng)RNN在長(zhǎng)期依賴(lài)性和梯度消失方面的致命缺點(diǎn)。LSTM隱藏層是包含了若干LSTM節(jié)點(diǎn)的結(jié)構(gòu),通過(guò)反復(fù)迭代可以有效地捕捉到產(chǎn)量與其主控因素的內(nèi)在關(guān)系及相鄰節(jié)點(diǎn)的前后聯(lián)系。LSTM節(jié)點(diǎn)的設(shè)計(jì)核心是門(mén)限機(jī)制,包括輸入門(mén)、遺忘門(mén)、記憶單元和輸出門(mén)。
輸入門(mén)用來(lái)篩選新信息,通過(guò)輸入門(mén)可以決定輸入到記憶單元狀態(tài)的信息并更新當(dāng)前時(shí)刻的記憶單元狀態(tài),它決定上一時(shí)刻的記憶信息與哪些信息應(yīng)該被保留,并將其與當(dāng)前輸入進(jìn)行相乘。輸入門(mén)的數(shù)學(xué)模型為
(10)
遺忘門(mén)用于控制前一時(shí)間步的記憶對(duì)當(dāng)前時(shí)間步的影響,它決定哪些信息應(yīng)該是被丟棄信息,其數(shù)學(xué)模型為
ft=σ(Wf[ht-1,xt]+bf).
(11)
式中,ft為t時(shí)刻遺忘門(mén)門(mén)限輸入;Wf和bf分別為遺忘門(mén)網(wǎng)絡(luò)權(quán)重和偏置。
記憶單元狀態(tài)類(lèi)似于傳送帶,貫穿于整個(gè)LSTM網(wǎng)絡(luò),作用是儲(chǔ)存當(dāng)前時(shí)刻LSTM的網(wǎng)絡(luò)信息并將其向下傳遞,記憶單元狀態(tài)的計(jì)算式為
(12)
式中,ct-1為t-1時(shí)刻的記憶單元狀態(tài);ct為t時(shí)刻經(jīng)過(guò)輸入門(mén)和遺忘門(mén)后更新的記憶單元狀態(tài)。
輸出門(mén)決定了LSTM模型的最終輸出和保留的信息。它利用Sigmoid函數(shù)將當(dāng)前時(shí)刻的輸入信息和上一時(shí)刻的輸出信息進(jìn)行加權(quán)相加,得到一個(gè)初始輸出。然后,通過(guò)tanh激活函數(shù)對(duì)之前學(xué)習(xí)到的記憶信息進(jìn)行縮放,再將其與初始輸出相乘,最終得到LSTM模型的輸出。
輸出門(mén)的數(shù)學(xué)模型為
(13)
式中,ht為t時(shí)刻被保留的狀態(tài)信息;Wo和bo分別為輸出門(mén)網(wǎng)絡(luò)權(quán)重和偏置。
t時(shí)刻的輸出值為當(dāng)前時(shí)刻網(wǎng)絡(luò)單元的輸入值與t-1時(shí)刻單元輸出數(shù)據(jù)共同作用的結(jié)果,這表明LSTM模型可以保存上一個(gè)時(shí)間步長(zhǎng)的信息,并將其作用于當(dāng)前時(shí)刻,說(shuō)明了LSTM在時(shí)序性數(shù)據(jù)上的學(xué)習(xí)能力。
為了評(píng)估多變量LSTM模型在產(chǎn)量預(yù)測(cè)中的準(zhǔn)確度和泛化能力。使用了兩個(gè)評(píng)價(jià)指標(biāo),即均方誤差(root mean square error,RMSE)和決定系數(shù)(R2),來(lái)衡量模型的預(yù)測(cè)效果。其中,RMSE是評(píng)估預(yù)測(cè)值與實(shí)際觀測(cè)值之間差異的指標(biāo),R2是衡量預(yù)測(cè)值與目標(biāo)值之間相關(guān)性的指標(biāo),其數(shù)學(xué)表達(dá)式分別為
(14)
(15)
當(dāng)測(cè)試數(shù)據(jù)得到的RMSE越低且R2接近1,表明當(dāng)前模型預(yù)測(cè)結(jié)果越準(zhǔn)確。根據(jù)同樣的訓(xùn)練集數(shù)據(jù),分別利用單變量LSTM、KNN和SVR這3種機(jī)器學(xué)習(xí)方法建立了油藏產(chǎn)量預(yù)測(cè)模型,并利用同樣未經(jīng)過(guò)訓(xùn)練的測(cè)試集數(shù)據(jù),各個(gè)模型的預(yù)測(cè)結(jié)果比較見(jiàn)表4。
表4 不同模型預(yù)測(cè)結(jié)果對(duì)比
通過(guò)比較不同模型的結(jié)果,發(fā)現(xiàn)多變量LSTM模型在測(cè)試結(jié)果中表現(xiàn)出最低的RMSE,并且R2更接近1,預(yù)測(cè)誤差最小。這表明多變量LSTM模型相比其他模型具有更好的預(yù)測(cè)性能和泛化能力。通過(guò)引入多個(gè)相關(guān)變量作為輸入,該模型能夠更好地捕捉特征之間的關(guān)系和相互影響,從而提高了預(yù)測(cè)的準(zhǔn)確性。
如圖6所示,通過(guò)不同模型單井產(chǎn)量預(yù)測(cè)值與實(shí)際值擬合對(duì)比,可以更直觀地展示不同模型對(duì)油田單井產(chǎn)量的預(yù)測(cè)精度。由圖6可以看出,多變量LSTM模型的產(chǎn)量預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)的擬合度最高,能夠更準(zhǔn)確地捕捉到實(shí)際產(chǎn)量數(shù)據(jù)的變化趨勢(shì)和波動(dòng)性。
如圖6(a)和(b)所示KNN和SVM的單井產(chǎn)量預(yù)測(cè)結(jié)果盡管大部分符合率良好,但針對(duì)極大值點(diǎn)的預(yù)測(cè)存在較大誤差。單變量LSTM方法可以一定程度上保證產(chǎn)量極大值點(diǎn)的連續(xù)性,但如圖6(c)所示單井產(chǎn)量實(shí)際數(shù)據(jù)與單井產(chǎn)量預(yù)測(cè)結(jié)果的整體擬合度仍不能令人滿意。相比之下,如圖6(d)所示多變量LSTM方法能夠更好地捕捉數(shù)據(jù)的突發(fā)性變化,預(yù)測(cè)結(jié)果的整體符合程度較其他3種模型有明顯提高,也再次驗(yàn)證了多變量LSTM模型在產(chǎn)量預(yù)測(cè)方面的優(yōu)越性。
為驗(yàn)證產(chǎn)量主控因素挖掘的有效性,利用十倍交叉驗(yàn)證方法對(duì)產(chǎn)量預(yù)測(cè)樣本形成3組平衡的數(shù)據(jù)集進(jìn)行訓(xùn)練、測(cè)試,根據(jù)測(cè)試集的預(yù)測(cè)結(jié)果對(duì)比特征刪選前后的預(yù)測(cè)精度。用這3種機(jī)器學(xué)習(xí)方法和本文提出的多變量LSTM方法建立的產(chǎn)量預(yù)測(cè)模型,針對(duì)產(chǎn)量主控因素挖掘前后的特征子集,分別進(jìn)行4個(gè)模型的性能測(cè)試實(shí)驗(yàn),測(cè)試結(jié)果見(jiàn)表5。
表5 主控因素篩選前后不同方法下的模型性能對(duì)比
進(jìn)行產(chǎn)量主控因素刪選前后,分別采用KNN、SVR以及多變量LSTM方法對(duì)產(chǎn)量進(jìn)行訓(xùn)練預(yù)測(cè),因單變量LSTM模型輸入不包含其他特征變量,因此該方法不參與比較。從表5中可以看出,特征篩選后數(shù)據(jù)集相較原數(shù)據(jù)集,各種機(jī)器學(xué)習(xí)方法的預(yù)測(cè)效果均有明顯提升,在KNN和SVR方法下準(zhǔn)確率分別提高了1.16%和2.42%,在多變量LSTM方法下準(zhǔn)確率提升了5.54%,說(shuō)明了去除完冗余特征和無(wú)效特征基礎(chǔ)上,通過(guò)產(chǎn)量主控因素建立產(chǎn)量預(yù)測(cè)模型可以大幅提升預(yù)測(cè)效果。
為更為直觀地驗(yàn)證主控因素篩選對(duì)產(chǎn)量預(yù)測(cè)的影響,將主控因素篩選前后多變量LSTM模型產(chǎn)量預(yù)測(cè)值和實(shí)際值擬合對(duì)比,見(jiàn)圖7,可以更清晰地展示產(chǎn)量主控因素篩選對(duì)預(yù)測(cè)效果的提升。由圖7可以看出,產(chǎn)量主控因素篩選前產(chǎn)量預(yù)測(cè)值和實(shí)際值的數(shù)據(jù)點(diǎn)離散于擬合線y=x兩側(cè),產(chǎn)量主控因素篩選后產(chǎn)量預(yù)測(cè)值和實(shí)際值的數(shù)據(jù)點(diǎn)集中于擬合線y=x附近,擬合效果較好,進(jìn)一步印證產(chǎn)量主控因素篩選使產(chǎn)量預(yù)測(cè)模型精度提升且穩(wěn)定。
圖7 主控因素篩選前后產(chǎn)量預(yù)測(cè)值和實(shí)際值擬合對(duì)比
提出了一種基于多變量分析的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)方法,用于預(yù)測(cè)高含水期的油井產(chǎn)量。這種方法克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法無(wú)法描述產(chǎn)量時(shí)序性依賴(lài)的問(wèn)題,并利用實(shí)際產(chǎn)量對(duì)油藏和工程數(shù)據(jù)的依賴(lài)和相關(guān)性進(jìn)行建模,從而有效提高了高含水期產(chǎn)量的預(yù)測(cè)精度。在方法的實(shí)施過(guò)程中,首先對(duì)數(shù)據(jù)樣本進(jìn)行清洗和預(yù)處理,以保證數(shù)據(jù)的準(zhǔn)確性和一致性;然后對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使得不同特征之間具有可比性,從而更好地捕捉特征之間的關(guān)系,最終構(gòu)建了完整的油井產(chǎn)量預(yù)測(cè)樣本數(shù)據(jù)集,其中包括油藏和工程數(shù)據(jù)的多個(gè)變量。采用XGBoost算法對(duì)模型進(jìn)行特征重要度分析,篩選對(duì)單井產(chǎn)量影響最大的主控因素。這些主控因素包括孔隙度、滲透率、含油飽和度、流壓、連通井注水量以及生產(chǎn)天數(shù)?;诋a(chǎn)量主控因素建立多變量LSTM網(wǎng)絡(luò)產(chǎn)量預(yù)測(cè)模型,有效利用不同產(chǎn)量的主控因素之間的信息,并分別考慮了產(chǎn)量與油藏、工程參數(shù)在時(shí)間維度上的聯(lián)系,使預(yù)測(cè)誤差均低于SVR回歸、KNN回歸及單變量分析的LSTM模型,同時(shí)預(yù)測(cè)精度達(dá)到工程精度要求,對(duì)高含水期產(chǎn)量預(yù)測(cè)具有更加精確的指導(dǎo)意義,可以有效指導(dǎo)高含水期油藏復(fù)雜生產(chǎn)狀況下的油井產(chǎn)量預(yù)測(cè)。
致謝感謝大慶油田有限責(zé)任公司勘探開(kāi)發(fā)研究院提供的實(shí)驗(yàn)數(shù)據(jù),以及東北石油大學(xué)機(jī)械采油實(shí)驗(yàn)室提供的實(shí)驗(yàn)環(huán)境。