趙洪濤,李金澤,楊 毅,趙洪緒,房鑫磊,于偉強(qiáng)
(1.中法渤海地質(zhì)服務(wù)有限公司,天津 300457;2.中海石油(中國(guó))有限公司天津分公司,天津 300459)
掌握油井產(chǎn)量變化規(guī)律是實(shí)現(xiàn)油田高效生產(chǎn)與管理的關(guān)鍵[1]。由于油藏地質(zhì)、舉升工藝、作業(yè)措施、管理水平等均具有復(fù)雜性,油井產(chǎn)量的影響因素眾多,為準(zhǔn)確預(yù)測(cè)油井產(chǎn)量帶來巨大挑戰(zhàn)[2]。傳統(tǒng)的產(chǎn)量預(yù)測(cè)多采用基于滲流理論的油藏工程方法或者油藏?cái)?shù)值模擬方法[3-5],然而,這些傳統(tǒng)方法或者因基于理想滲流情況而不能反映實(shí)際儲(chǔ)層滲流情況,或者因需要大量地質(zhì)、流體物性和開發(fā)動(dòng)態(tài)等方面的數(shù)據(jù),致使結(jié)果受歷史擬合和地質(zhì)建模的影響[6]。
近年來,隨著人工智能技術(shù)發(fā)展,機(jī)器學(xué)習(xí)方法被大量用于油井產(chǎn)量預(yù)測(cè),并取得了良好的預(yù)測(cè)效果[7-12]。2018年,Loh等人[13]將長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)用于短期產(chǎn)量預(yù)測(cè),可以準(zhǔn)確捕捉生產(chǎn)動(dòng)態(tài)并預(yù)測(cè)短期生產(chǎn)。周于浩等[14]構(gòu)建了基于門控遞歸單元(GRU)的神經(jīng)網(wǎng)絡(luò)產(chǎn)量預(yù)測(cè)模型,相比于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)而言,門控遞歸單元方法可大幅減少運(yùn)行參數(shù),提高運(yùn)算及記憶性能。2021年,Cheng & Yang[15]研究指出,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)適合用于特征參數(shù)多和數(shù)據(jù)量多的開發(fā)區(qū),而門控遞歸單元適用于數(shù)據(jù)較少的開發(fā)區(qū)。2019年,谷建偉等[16]選取排量、泵深、生產(chǎn)時(shí)間、含水率、動(dòng)液面、氣油比、鄰井注水量和鄰井產(chǎn)液量作為影響油井產(chǎn)量的參數(shù),建立長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)油井產(chǎn)量預(yù)測(cè)模型,實(shí)現(xiàn)油井產(chǎn)量準(zhǔn)確預(yù)測(cè)。2020年,劉巍等[1]考慮油井和周圍注水井的油藏靜態(tài)資料和開發(fā)動(dòng)態(tài)參數(shù),建立了一種利用機(jī)器學(xué)習(xí)模型實(shí)現(xiàn)油井日產(chǎn)油量的快速預(yù)測(cè)方法。王洪亮等[17]在對(duì)32個(gè)產(chǎn)量影響因素分析的基礎(chǔ)上,采用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型進(jìn)行產(chǎn)量預(yù)測(cè),發(fā)現(xiàn)該方法的預(yù)測(cè)結(jié)果優(yōu)于傳統(tǒng)水驅(qū)曲線方法和全連接神經(jīng)網(wǎng)絡(luò)(FCNN)方法。2021年,張瑞和賈虎[18]將井組內(nèi)不同生產(chǎn)井產(chǎn)油量和注水井注水量作為相關(guān)時(shí)間序列,建立基于多變量時(shí)間序列(MTS)和向量自回歸(VAR)機(jī)器學(xué)習(xí)模型的油井產(chǎn)量預(yù)測(cè)方法。2022年,Ng等[19]利用元啟發(fā)式算法(MA)和機(jī)器學(xué)習(xí)算法對(duì)Volve油田生產(chǎn)數(shù)據(jù)進(jìn)行產(chǎn)量預(yù)測(cè)研究,并對(duì)7種數(shù)據(jù)驅(qū)動(dòng)模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià),發(fā)現(xiàn)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)在訓(xùn)練結(jié)果和預(yù)測(cè)準(zhǔn)確性方面均優(yōu)于其他6個(gè)模型。
從現(xiàn)有研究來看,采用長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)方法可以獲得較好的油井產(chǎn)量預(yù)測(cè)效果。但大多數(shù)研究方法所需的參數(shù)較多,數(shù)據(jù)收集困難,并且往往將注水井總注入量作為一個(gè)特征參數(shù)來考慮,未考慮分層注水對(duì)油井產(chǎn)量的影響。本文以分層注水區(qū)塊為研究對(duì)象,首先采用平均不純度減少(MDI)方法分析區(qū)塊中所有分注層段對(duì)單井產(chǎn)量和含水率的影響程度;然后,根據(jù)重要性確定出主要的分注層段,實(shí)現(xiàn)數(shù)據(jù)降維;最后,利用篩選出的分注層段的注水?dāng)?shù)據(jù)以及油井日產(chǎn)量和含水率數(shù)據(jù)對(duì)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和優(yōu)化,得到最終的單口油井產(chǎn)量和含水率預(yù)測(cè)模型。為簡(jiǎn)便、快捷、準(zhǔn)確預(yù)測(cè)油井產(chǎn)量和含水率變化提供一種新的手段。
油井產(chǎn)量受儲(chǔ)量、儲(chǔ)層物性、舉升工藝、儲(chǔ)層措施、油水井?dāng)?shù)量、采油速度、生產(chǎn)時(shí)間等因素影響[1,20],其最終關(guān)系表現(xiàn)在注入井和生產(chǎn)井的參數(shù)上。本文將中間影響因素作為“黑盒子”,僅考慮注入量與采出量之間的關(guān)聯(lián)關(guān)系。對(duì)于一個(gè)分層注水的井組來講,距離和層位不同的注水層段對(duì)生產(chǎn)井的貢獻(xiàn)不同。為了降低計(jì)算維度、提高計(jì)算精度,有必要對(duì)影響油井產(chǎn)量和含水率的主要注水層段特征參數(shù)進(jìn)行篩選。
目前機(jī)器學(xué)習(xí)中常用的特征參數(shù)提取方法主要有過濾法、包裹法和嵌入法。三種方法的優(yōu)缺點(diǎn)如表1所示。
表1 特征參數(shù)提取方法比較
由表1可以看出,嵌入法在解決過擬合、參數(shù)忽略等方面具有較大優(yōu)勢(shì),而基于正則項(xiàng)的特征選擇方法不利于優(yōu)化求解[21],因此本文最終采用了基于隨機(jī)森林的特征選擇方法。隨機(jī)森林是一種集成學(xué)習(xí)算法,被廣泛應(yīng)用于研究各種分類、預(yù)測(cè)、特征選擇等問題[19]。算法提供了平均不純度減少(MDI)和平均精確度減少(MDA)兩種特征選擇方法。平均不純度減少表示每個(gè)特征對(duì)誤差的平均減少程度,常用于確定特征的重要性。對(duì)于每一個(gè)特征,計(jì)算其在每棵決策樹中減少的不純度,然后求其平均值,得到該特征減少的平均不純度。平均不純度減少越多,說明在決策樹訓(xùn)練過程中的作用越大,則該特征的重要程度越大[22]。平均精確度減少是通過打亂某個(gè)特征的特征值順序,度量順序變動(dòng)對(duì)于模型精確率的影響。對(duì)于不重要的特征,打亂順序?qū)δP偷木_率影響不會(huì)太大;但是對(duì)于重要的特征,打亂順序就會(huì)降低模型的精確率[23]。這兩種特征重要性評(píng)估方法對(duì)異常值和噪聲具有很好的容忍度,不易出現(xiàn)過度擬合等現(xiàn)象[24]。本文選用平均不純度減少方法篩選影響油井產(chǎn)量和含水率的主要注水層段特征參數(shù)[1]。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)具有自循環(huán)結(jié)構(gòu),可以將前一時(shí)刻的信息傳遞到下一時(shí)刻的計(jì)算中,使遞歸神經(jīng)網(wǎng)絡(luò)的輸出同時(shí)受當(dāng)前時(shí)刻輸入和過去所有時(shí)刻輸入的共同影響[25]。因此遞歸神經(jīng)網(wǎng)絡(luò)在解決時(shí)間序列問題方面具有明顯優(yōu)勢(shì)。遞歸神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。
圖1 遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在t=0時(shí)刻,對(duì)U、V、W進(jìn)行隨機(jī)初始化,該時(shí)刻的狀態(tài)h0通常初始化為0;在t=1時(shí)刻,其隱藏狀態(tài)h1和輸出o1表示為:
h1=f(Ux1+Wh0)
(1)
o1=g(Vh1)
(2)
式中:h0,h1分別為t=0,1時(shí)刻的隱藏狀態(tài);f為輸入層激活函數(shù),通常為tanh、ReLU、logistic;g為輸出層激活函數(shù),通常為softmax;U為從輸入層到隱藏層的權(quán)重;V為從隱藏層到輸出層的權(quán)重;W為從隱藏層到隱藏層的權(quán)重;x1為t=1時(shí)刻的輸入;o1為t=1時(shí)刻的輸出。
當(dāng)t=2時(shí),隱藏狀態(tài)h1作為記憶狀態(tài)參與本時(shí)刻的預(yù)測(cè)活動(dòng),即:
h2=f(Ux2+Wh1)
(3)
o2=g(Vh2)
(4)
式中:h2為t=2時(shí)刻的隱藏狀態(tài);x2為t=2時(shí)刻的輸入;o2為t=2時(shí)刻的輸出。
以此類推,遞歸神經(jīng)網(wǎng)絡(luò)的計(jì)算公式為:
ht=f(Uxt+Wht-1)
(5)
ot=g(Vht)
(6)
式中:ht、ht-1為t、t-1時(shí)刻的隱藏狀態(tài);xt為t時(shí)刻的輸入;ot為t時(shí)刻的輸出。
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)是一種改進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò),其準(zhǔn)確性、計(jì)算速度和可靠性優(yōu)于遞歸神經(jīng)網(wǎng)絡(luò),因此適用于油田生產(chǎn)的長(zhǎng)時(shí)時(shí)序預(yù)測(cè)。長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)在遞歸神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了輸入門、輸出門和遺忘門,其結(jié)構(gòu)如圖2所示。
圖2 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
在t時(shí)刻,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)單元通過處理輸入狀態(tài)xt、短期隱藏狀態(tài)ht-1和長(zhǎng)期隱藏狀態(tài)ct-1來生成輸出狀態(tài)yt。長(zhǎng)期隱藏狀態(tài)ct-1包含t時(shí)刻之前時(shí)間步的相關(guān)信息,短期隱藏狀態(tài)ht-1包含上一個(gè)時(shí)間步的信息。
遺忘門決定t時(shí)刻ct-1被遺忘的部分,通過執(zhí)行ft和ct-1之間的數(shù)組元素相乘來實(shí)現(xiàn),當(dāng)ct-1里的元素被0相乘則全部遺忘,被1相乘則全部保留。輸入門通過執(zhí)行g(shù)t和it之間的數(shù)組元素相乘來決定在長(zhǎng)期隱藏狀態(tài)中g(shù)t被保存的部分。遺忘門信息(ft?ct-1)和輸入門信息(gt?it)相結(jié)合得到時(shí)刻t的長(zhǎng)期隱藏狀態(tài)(ct),表達(dá)式為:
ct=ft?ct-1+gt?it
(7)
式中:?表示數(shù)組元素依次相乘。
輸出門處理新的長(zhǎng)期隱藏狀態(tài)ct和輸出向量ot來生成新的短期隱藏狀態(tài)ht,表達(dá)式為:
ht=ot?f(ct)
(8)
輸入狀態(tài)xt和短期隱藏狀態(tài)ht-1通過全連接層FC進(jìn)行處理,其中g(shù)t、ft、it、ot分別為:
(9)
(10)
(11)
(12)
式中:l為非線性激活函數(shù),一般為tanh或ReLU;σ為激活函數(shù),通常為Sigmoid;ft、gt及it、ot分別為控制遺忘門、輸入門和輸出門,值由激活函數(shù)σ和l決定,取值范圍[0~1];Wxg、Wxf、Wxi、Wxo分別為四個(gè)全連接層處理輸入xt的權(quán)重矩陣;Whg、Whf、Whi、Who分別為四個(gè)全連接層處理短期隱藏狀態(tài)ht-1的權(quán)重矩陣;bg、bf、bi、bo為偏置項(xiàng)。
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的好壞采用決定系數(shù)和平均相對(duì)誤差來評(píng)價(jià)。
對(duì)數(shù)據(jù)進(jìn)行歸一化可以提升長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型計(jì)算精度,讓不同維度之間的特征在數(shù)值上有一定的可比性。同時(shí),數(shù)據(jù)歸一化還可以提升長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型的收斂速度,更容易收斂得到最優(yōu)解。
本文采取最大最小歸一化方法將數(shù)據(jù)映射到[0,1]區(qū)間[1],計(jì)算公式如下:
(13)
式中:X為某特征(如分層注水量、油井產(chǎn)量、含水率)歸一化后的數(shù)據(jù);x為某特征(如分層注水量、油井產(chǎn)量、含水率)待歸一化的數(shù)據(jù);xmin為該特征的最小值;xmax為該特征的最大值。
基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的油井產(chǎn)液量和含水率預(yù)測(cè)步驟包括:①確定數(shù)據(jù)集并將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集;②利用平均不純度減少方法分析井組中所有注水井的各個(gè)注水層段對(duì)每口油井產(chǎn)液量和含水率的重要程度,篩選出影響每口油井產(chǎn)液量和含水率的主要注水層段;③對(duì)各個(gè)注水層段注水量、油井產(chǎn)液量和含水率分別進(jìn)行歸一化處理,建立歸一化的機(jī)器學(xué)習(xí)數(shù)據(jù)集;④利用訓(xùn)練集數(shù)據(jù)訓(xùn)練長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型,得到預(yù)測(cè)模型;⑤利用測(cè)試集數(shù)據(jù)測(cè)試長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)效果。
以海上某區(qū)塊作為研究對(duì)象,該區(qū)塊描述含油砂體16個(gè)、潛力含油砂體18個(gè),探明石油地質(zhì)儲(chǔ)量750×104t、潛力石油地質(zhì)儲(chǔ)量近1 000×104t[17]。目前共有生產(chǎn)井60口、分層注水井44口。根據(jù)斷層情況,該區(qū)塊劃分成10個(gè)注采井組。選取其中一個(gè)井組作為預(yù)測(cè)油井產(chǎn)液量和含水率的研究對(duì)象。該井組于2015年11月30日投產(chǎn),最初采用合注方式生產(chǎn),2019年8月16日開始采取分注措施,目前包括20口生產(chǎn)井和13口注水井。本文以研究分層注水量對(duì)油井產(chǎn)液量和含水率的影響為目的,選取注水井各分層注水量為特征參數(shù),不考慮油井之間的相互影響,收集和整理自分注開始至2021年2月13日的分層注水量、油井日產(chǎn)液量和油井含水率數(shù)據(jù),并進(jìn)行研究。該區(qū)塊生產(chǎn)井產(chǎn)液量和含水率波動(dòng)大,采用傳統(tǒng)的油藏工程方法難以進(jìn)行生產(chǎn)預(yù)測(cè)。
利用平均不純度減少方法進(jìn)行特征選擇的目的是分析井組內(nèi)各個(gè)注水井層段注水量對(duì)每口生產(chǎn)井產(chǎn)液量和含水率的影響程度,剔除影響較小的注水井層段,實(shí)現(xiàn)特征參數(shù)空間維數(shù)的壓縮,以提高長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型的準(zhǔn)確度。以生產(chǎn)井B29井為例,利用隨機(jī)森林分類函數(shù)進(jìn)行平均不純度減少分析,計(jì)算各個(gè)注水井層段的重要性,結(jié)果如圖3所示。
圖3 B29井平均不純度減少特征重要性桿狀圖
圖3橫坐標(biāo)為井組內(nèi)所有注水井各個(gè)注水層段的平均不純度減少值(即特征重要性),平均不純度減少值越大說明該層段的注水量對(duì)B29井產(chǎn)液量和含水率的影響越大。從圖中可以看出:S-4、S-3和R-2三個(gè)層段對(duì)B29井產(chǎn)液量和含水率的影響大。剔除排序靠后的、累計(jì)值為15%的16個(gè)注水層段,保留前24個(gè)注水層段作為L(zhǎng)STM的輸入特征參數(shù)。
長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的邏輯是輸入前n天某口生產(chǎn)井的產(chǎn)液量和含水率以及篩選出的注水層段的注水量,預(yù)測(cè)第n+1天產(chǎn)液量和含水率;接著按照一定步長(zhǎng)移動(dòng)這個(gè)n天時(shí)間步,來預(yù)測(cè)下一個(gè)n+1天產(chǎn)液量和含水率,從而實(shí)現(xiàn)整個(gè)數(shù)據(jù)集的迭代計(jì)算。為了防止過度擬合,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中添加忽略層,在每次訓(xùn)練時(shí)隨機(jī)忽略一些神經(jīng)元(比例一般為20%~40%)。長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中的其他網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)取值分別為:時(shí)間步長(zhǎng)5 d、批次大小128、第一層內(nèi)神經(jīng)元數(shù)目128、第二層內(nèi)神經(jīng)元數(shù)目128、隨機(jī)忽略的神經(jīng)元比例20%、訓(xùn)練次數(shù)為480次。
根據(jù)B29井特征選擇結(jié)果剔除冗余特征后,剩余特征與B29井產(chǎn)液量和含水率構(gòu)成數(shù)據(jù)集,歸一化數(shù)據(jù)集后以82的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集;然后利用選擇的超參數(shù)進(jìn)行長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,選擇均方誤差作為損失函數(shù);訓(xùn)練結(jié)束后反歸一化處理,計(jì)算決定系數(shù)和平均相對(duì)誤差來判斷訓(xùn)練模型的好壞。模型訓(xùn)練過程中訓(xùn)練集和測(cè)試集的損失函數(shù)隨訓(xùn)練次數(shù)的變化如圖4所示??梢钥闯?,訓(xùn)練集和測(cè)試集的損失函數(shù)隨訓(xùn)練次數(shù)的增加逐漸減小并趨于穩(wěn)定,且兩者非常接近,說明長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中沒有出現(xiàn)過擬合或欠擬合現(xiàn)象。產(chǎn)液量和含水率擬合的決定系數(shù)分別為0.866和0.953、平均相對(duì)誤差分別為3.05%和2.15%,說明模型具有較高精度。
圖4 B29井訓(xùn)練集和測(cè)試集損失函數(shù)隨訓(xùn)練次數(shù)的變化
根據(jù)建立的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型,B29井產(chǎn)液量和含水率預(yù)測(cè)結(jié)果如圖5、圖6所示,產(chǎn)液量和含水率預(yù)測(cè)的決定系數(shù)分別為0.745和0.829,平均相對(duì)誤差分別為12.68%和4.45%。從預(yù)測(cè)結(jié)果可以看出,B29井長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果準(zhǔn)確掌握了該井產(chǎn)液量和含水率的變化趨勢(shì),部分日期的預(yù)測(cè)結(jié)果與實(shí)際結(jié)果對(duì)比,二者吻合度較高,相對(duì)誤差較小(表2)。
圖5 B29井測(cè)試集產(chǎn)液量預(yù)測(cè)結(jié)果
圖6 B29井測(cè)試集含水率預(yù)測(cè)結(jié)果
表2 B29井產(chǎn)液量和含水率預(yù)測(cè)值與實(shí)際值統(tǒng)計(jì)
采用相同的方法對(duì)井組內(nèi)其余生產(chǎn)井進(jìn)行產(chǎn)液量和含水率預(yù)測(cè),平均相對(duì)誤差統(tǒng)計(jì)結(jié)果如圖7所示。井組產(chǎn)液量和含水率平均誤差分別為6.22%和2.97%,能夠滿足現(xiàn)場(chǎng)工程應(yīng)用要求。利用訓(xùn)練好的模型,可以用于井組分層注水優(yōu)化,為現(xiàn)場(chǎng)注采方案調(diào)整提供依據(jù)。
圖7 井組所有生產(chǎn)井產(chǎn)液量和含水率平均相對(duì)誤差統(tǒng)計(jì)
(1)考慮油井生產(chǎn)動(dòng)態(tài)數(shù)據(jù)的變化趨勢(shì)和前后關(guān)聯(lián)性,利用現(xiàn)場(chǎng)易得到的分層注水?dāng)?shù)據(jù)以及油井產(chǎn)量和含水率數(shù)據(jù),建立了一種基于長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)的油井產(chǎn)量和含水率預(yù)測(cè)方法。
(2)現(xiàn)場(chǎng)實(shí)例應(yīng)用結(jié)果表明,基于注水井分層注水量為特征的LSTM模型可以很好地預(yù)測(cè)油井產(chǎn)液量和含水率變化,井組產(chǎn)液量和含水率平均誤差分別為6.22%和2.97%,預(yù)測(cè)精度能滿足現(xiàn)場(chǎng)工程應(yīng)用要求。
(3)基于平均不純度減少的特征選擇方法能夠有效篩選出影響油井產(chǎn)液量和含水率的主要注水層段,有助于認(rèn)識(shí)生產(chǎn)井與注水層段之間的相互關(guān)系,同時(shí)為降低預(yù)測(cè)模型復(fù)雜度、提高計(jì)算效率奠定基礎(chǔ)。
(4)基于目前研究成果,可以進(jìn)一步將區(qū)塊中各口油井之間的相互影響引入MDI分析和LSTM模型中,以考慮油井之間的干擾影響;此外,也可將建立的方法用于油井沉沒度、系統(tǒng)能耗、舉升效率等生產(chǎn)指標(biāo)的預(yù)測(cè)。