潘 元,王永輝,車明光,廖銳全,鄭 恒
(1.中國石油天然氣集團(tuán)公司采油采氣重點(diǎn)試驗(yàn)室 長江大學(xué)分室,湖北 武漢430100; 2.長江大學(xué) 石油工程學(xué)院,湖北 武漢430100; 3.中國石油集團(tuán) 科學(xué)技術(shù)研究院,北京 100083)
隨著國內(nèi)對(duì)致密儲(chǔ)層認(rèn)識(shí)的深入,逐漸形成了以水平井多段壓裂為主的開發(fā)方式[1-2],但由于其與常規(guī)儲(chǔ)層的差異,如何準(zhǔn)確地預(yù)測(cè)產(chǎn)量與選取壓裂參數(shù)仍是研究的熱點(diǎn)。致密油層壓后產(chǎn)量預(yù)測(cè)方法主要分為機(jī)器學(xué)習(xí)法、解析法與數(shù)值模擬法[3-5],但解析法與數(shù)值模擬法存在模型簡(jiǎn)化、求解單一、計(jì)算成本大等問題。
目前主流的機(jī)器學(xué)習(xí)算法有樹形算法、支持向量機(jī)算法、神經(jīng)網(wǎng)絡(luò)算法等[6-11]。對(duì)于大多數(shù)機(jī)器學(xué)習(xí)算法而言,確定模型參數(shù)與訓(xùn)練樣本規(guī)模是精準(zhǔn)預(yù)測(cè)的前提,例如支持向量機(jī)算法存在內(nèi)核參數(shù)、懲罰參數(shù)難以確定等問題;隨機(jī)森林算法雖能有效降低泛化誤差,但對(duì)于回歸問題其訓(xùn)練樣本存在數(shù)量多且部分樣本關(guān)聯(lián)度低等問題,在某些噪聲過大的數(shù)據(jù)點(diǎn)也會(huì)發(fā)生過擬合。
因此采用灰色關(guān)聯(lián)投影隨機(jī)森林兩階段混合算法(GCPRF)[12],通過引入加權(quán)的灰色關(guān)聯(lián)投影法(GCP)來選擇合適的訓(xùn)練集訓(xùn)練隨機(jī)森林模型,起到減小數(shù)據(jù)集規(guī)模提高模型預(yù)測(cè)精度的目的。產(chǎn)量預(yù)測(cè)實(shí)例證明,該兩階段混合算法相較隨機(jī)森林算法(RF)和梯度提升決策樹算法(GBDT)具有更好的性能;在此基礎(chǔ)上采用響應(yīng)面分析的方法對(duì)壓裂施工參數(shù)進(jìn)行了優(yōu)化,該方法為致密儲(chǔ)層水平井壓裂參數(shù)優(yōu)化提供了一種新的思路。
灰色關(guān)聯(lián)投影方法在灰色關(guān)聯(lián)度分析方法的基礎(chǔ)上進(jìn)行改進(jìn),通過引入加權(quán)和投影的概念克服了灰色關(guān)聯(lián)系數(shù)評(píng)價(jià)的劣勢(shì)。首先使用熵算法突出關(guān)鍵因素,其次計(jì)算每個(gè)因素在參考因素上的投影值,在高緯度空間中識(shí)別出哪個(gè)樣本與預(yù)測(cè)樣本更相似。其中,待預(yù)測(cè)樣本特征向量與第i個(gè)樣本的特征向量可表示為
X0=[x0(1),x0(2),x0(3),…,x0(n)];
Xi=[xi(1),xi(2),xi(3),…,xi(n)],
i=1,2,3,…,m。
(1)
灰色關(guān)聯(lián)投影方法選擇相似數(shù)據(jù)集的過程如下:
(1)選取影響產(chǎn)量的關(guān)聯(lián)因素如水平段長度、一類油層鉆遇率、孔隙度、滲透率、含油飽和度、壓裂段數(shù)、裂縫簇?cái)?shù)、總?cè)刖毫?、加砂量、壓裂液返排率,?duì)數(shù)據(jù)進(jìn)行歸一化預(yù)處理,即
(2)
(2)構(gòu)建灰色關(guān)聯(lián)判斷矩陣ε,設(shè)置待預(yù)測(cè)樣本特征向量X0為母序列,Xi為子序列,計(jì)算關(guān)聯(lián)度
(3)
式中,ρ為分辨系數(shù),這里取0.5。
(3)計(jì)算權(quán)重向量W與加權(quán)后的灰色關(guān)聯(lián)判斷矩陣。
計(jì)算單個(gè)因素對(duì)參考數(shù)列影響權(quán)重大小,具體方法為當(dāng)前關(guān)聯(lián)值除以所有因素權(quán)重值之和,即
(4)
得到的權(quán)重向量形式為
W=[w1w2w3…wn]。
(5)
計(jì)算權(quán)向量加權(quán)后的灰色關(guān)聯(lián)判斷矩陣,即
(6)
(4)計(jì)算各訓(xùn)練樣本在待預(yù)測(cè)樣本上的灰色投影值,即
(7)
Di表示各樣本在待預(yù)測(cè)樣本上的投影值。與常規(guī)的灰色關(guān)聯(lián)系數(shù)方法相比,該方法更為全面。
(5)設(shè)定一個(gè)閾值,從數(shù)據(jù)中篩選灰色投影值較大的樣本組成隨機(jī)森林算法的訓(xùn)練集。
隨機(jī)森林算法是一種有監(jiān)督的集成學(xué)習(xí)模型,相較于傳統(tǒng)決策樹模型具有更好的泛化能力,具有抗過擬合、調(diào)節(jié)參數(shù)少等優(yōu)勢(shì)。隨機(jī)森林算法總體來說是將許多棵決策樹整合成森林,并通過多棵決策樹作用得到最終結(jié)果。
本算法中隨機(jī)森林構(gòu)建的流程如下:
(1)從數(shù)據(jù)集中隨機(jī)選出m個(gè)樣本,構(gòu)成一個(gè)訓(xùn)練集A,其余作為測(cè)試集B,再從訓(xùn)練集A中采用自助采樣法進(jìn)行T次采樣,形成T個(gè)采樣集。
(2)對(duì)于T個(gè)采樣集建立含有T棵回歸樹的隨機(jī)森林模型進(jìn)行訓(xùn)練,各個(gè)模型的節(jié)點(diǎn)參數(shù)可由網(wǎng)格搜索方法進(jìn)行優(yōu)選得到。靜態(tài)產(chǎn)量預(yù)測(cè)屬于回歸問題,最終的預(yù)測(cè)結(jié)果可由各決策樹模型的回歸結(jié)果之和的平均得到。
常用的回歸模型評(píng)價(jià)指標(biāo)有均方誤差(MSE)、均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)。各指標(biāo)的大小隨著業(yè)務(wù)不同而不同,不具有普遍可讀性,因此采用決定系數(shù)R2(R-Square)方法作為隨機(jī)森林的評(píng)價(jià)指標(biāo),即
(8)
式中:Ya為實(shí)際值;Yp為預(yù)測(cè)值;Ym為平均值。
分母部分表示原始數(shù)據(jù)的離散程度,分子部分表示預(yù)測(cè)數(shù)據(jù)與原始數(shù)據(jù)的誤差,二者相除可以消除原始數(shù)據(jù)離散程度的影響。一般來說,R2的取值范圍為[-∞,1],越接近1,表明模型對(duì)變量的解釋能力越強(qiáng),擬合效果越好。
在上述理論的基礎(chǔ)上構(gòu)建用于產(chǎn)量預(yù)測(cè)的灰色關(guān)聯(lián)投影-隨機(jī)森林算法模型,算法流程如圖1所示。
圖1 產(chǎn)量預(yù)測(cè)算法流程Fig.1 Flow chart of yield prediction algorithm
以新疆瑪湖油田某井區(qū)8口井共2 928條樣本作為初始數(shù)據(jù)集,具體參數(shù)包括工藝參數(shù)(水平段長度、壓裂段數(shù)、裂縫簇?cái)?shù)、入井壓裂液量、加砂量等),儲(chǔ)層參數(shù)(平均孔隙度、平均滲透率、含油飽和度等),生產(chǎn)參數(shù)(井口壓力、壓裂液返排率、日產(chǎn)油量等)。
以該井區(qū)M1井為例,水平段長度994 m,一類油層鉆遇率92.28%,平均孔隙度11.56%,平均滲透率3.06×10-3μm2,含油飽和度55.56%,壓裂段數(shù)17,裂縫簇?cái)?shù)33,總?cè)刖毫?8 565 m3,加砂量1 122 m3。首先根據(jù)灰色關(guān)聯(lián)投影方法計(jì)算各樣本的灰色關(guān)聯(lián)投影值,并篩選投影值大于0.9的1 613例樣本作為隨機(jī)森林模型的輸入樣本,見圖2,將輸入樣本按70%測(cè)試集、30%訓(xùn)練集進(jìn)行劃分,其中1 130例作為訓(xùn)練集,483例作為測(cè)試集。
圖2 灰色關(guān)聯(lián)投影方法篩選M1井樣本集Fig.2 Screening M1 well sample set by grey relation projection method
隨后采用網(wǎng)格搜索交叉驗(yàn)證方法對(duì)灰色關(guān)聯(lián)投影-隨機(jī)森林預(yù)測(cè)模型參數(shù)進(jìn)行優(yōu)選,圖3中橫坐標(biāo)為交叉組合編號(hào),縱坐標(biāo)為得分情況。最終優(yōu)選結(jié)果為:決策樹個(gè)數(shù)20,決策樹最大深度9,中間節(jié)點(diǎn)、葉子節(jié)點(diǎn)最小樣本數(shù)分別為5、3。
將灰色關(guān)聯(lián)投影法篩選后的樣本集帶入訓(xùn)練好的隨機(jī)森林模型進(jìn)行回歸預(yù)測(cè),預(yù)測(cè)該井生產(chǎn)360 d內(nèi)日產(chǎn)油隨時(shí)間變化規(guī)律。為充分評(píng)價(jià)模型預(yù)測(cè)效果,同時(shí)采用未篩選的2 928條樣本作為樣本集訓(xùn)練隨機(jī)森林、梯度提升決策樹預(yù)測(cè)模型,在控制3者訓(xùn)練集R2相近的情況下計(jì)算其測(cè)試集R2情況,計(jì)算結(jié)果如圖4、表1所示。
圖4 M1井不同預(yù)測(cè)算法日產(chǎn)油量對(duì)比Fig.4 Comparison of production of well M1 predicted using different algorithms
從表1計(jì)算結(jié)果可以看出,經(jīng)過訓(xùn)練后3種算法的訓(xùn)練集R2為0.9~0.92,此時(shí)模型擬合效果較好,且3種算法的訓(xùn)練程度相同,此時(shí)隨機(jī)森林算法較梯度提升決策樹算法而言與實(shí)際曲線更為貼近,且在訓(xùn)練樣本、訓(xùn)練程度相同的情況下隨機(jī)森林算法測(cè)試集R20.857 8高于梯度提升樹算法測(cè)試集R20.734 1,這是由于隨機(jī)森林算法采用多棵樹進(jìn)行決策,降低了預(yù)測(cè)的泛化誤差,同時(shí)隨機(jī)森林本身的自助采樣方法也增加了決策樹間的不相關(guān)性,減少發(fā)生過擬合的風(fēng)險(xiǎn)。
表1 不同預(yù)測(cè)算法R2值Tab.1 Score of different prediction algorithms
在此基礎(chǔ)上對(duì)比灰色關(guān)聯(lián)投影隨機(jī)森林算法與隨機(jī)森林算法預(yù)測(cè)結(jié)果,采用灰色關(guān)聯(lián)投影方法篩選樣本集后再使用隨機(jī)森林算法預(yù)測(cè)的兩階段混合算法相較直接預(yù)測(cè)的隨機(jī)森林算法有更好的預(yù)測(cè)效果,測(cè)試集R2得分由0.875 8提高到0.918 9,M1井實(shí)際日產(chǎn)油與預(yù)測(cè)值之間的誤差為9.6%。
為驗(yàn)證灰色關(guān)聯(lián)投影隨機(jī)森林算法的可靠性,用訓(xùn)練好的模型對(duì)M2井、M3井進(jìn)行產(chǎn)能預(yù)測(cè),M2井、M3井計(jì)算參數(shù)見表2,預(yù)測(cè)結(jié)果見圖5。
表2 M2井、M3井計(jì)算參數(shù)Tab.2 Calculation parameters of wells M2 and M3
圖5 M2、M3井日產(chǎn)油量預(yù)測(cè)值與實(shí)際值對(duì)比Fig.5 Comparison of forecast and actual production of wells M2 and M3
圖5中M2、M3井實(shí)際日產(chǎn)油與預(yù)測(cè)值之間的誤差為1.2%、1.1%,說明該算法在訓(xùn)練程度相同的情況下能起到縮小數(shù)據(jù)集規(guī)模、提高預(yù)測(cè)精度的效果。
選取待壓裂井的壓裂施工參數(shù)結(jié)合實(shí)際情況進(jìn)行中心組合設(shè)計(jì),將灰色關(guān)聯(lián)投影隨機(jī)森林算法模型預(yù)測(cè)的不同施工參數(shù)下的產(chǎn)量作為試驗(yàn)結(jié)果,利用響應(yīng)面分析法選擇預(yù)測(cè)產(chǎn)量最大值,即可得到產(chǎn)量最大值下對(duì)應(yīng)的施工參數(shù),進(jìn)而達(dá)到優(yōu)化目的。
仍以M1井為例,在確定地質(zhì)參數(shù)的基礎(chǔ)上,根據(jù)中心組合設(shè)計(jì)方法設(shè)計(jì)3因素共20組試驗(yàn)。需要說明的是,為避免試驗(yàn)設(shè)計(jì)中出現(xiàn)高段數(shù)低簇?cái)?shù)等不合理的試驗(yàn)方案,這里只將裂縫簇?cái)?shù)作為影響因素,壓裂段數(shù)隨裂縫簇?cái)?shù)變化(默認(rèn)單段三簇的壓裂方式),試驗(yàn)參數(shù)與結(jié)果如表3所示。
表3 中心組合設(shè)計(jì)試驗(yàn)結(jié)果Tab.3 Experiment results of central composite designs
利用試驗(yàn)結(jié)果開展響應(yīng)面分析,從曲面上找出預(yù)測(cè)產(chǎn)量最大點(diǎn),其對(duì)應(yīng)的施工參數(shù)可作為壓裂施工參數(shù)優(yōu)化的依據(jù)。以裂縫簇?cái)?shù)、加砂量對(duì)日產(chǎn)油影響的響應(yīng)面(圖6)為例,當(dāng)總?cè)刖毫繛?1 000
圖6 裂縫簇?cái)?shù)、總砂量對(duì)日產(chǎn)油量響應(yīng)面Fig.6 Effects of crack cluster number and total sand amount on daily oil production
m3時(shí),共有9種解決方法,對(duì)應(yīng)的最優(yōu)解為:裂縫簇?cái)?shù)34,總砂量1 181.86m3,對(duì)應(yīng)日產(chǎn)油為44.356 m3。
(1)利用灰色關(guān)聯(lián)投影隨機(jī)森林算法對(duì)新疆油田某區(qū)塊進(jìn)行產(chǎn)量預(yù)測(cè),結(jié)果表明該算法的測(cè)試集決定系數(shù)0.918 9高于隨機(jī)森林算法0.875 8、梯度下提升決策樹算法0.734 1,3口井的日產(chǎn)油量實(shí)際值與計(jì)算值之間的誤差為9.6%、1.2%、1.1%。
(2)在確定地質(zhì)參數(shù)的基礎(chǔ)上,采用中心組合設(shè)計(jì)試驗(yàn)方法對(duì)M1井壓裂參數(shù)進(jìn)行優(yōu)化,當(dāng)總?cè)刖毫繛?1 000 m3時(shí),裂縫簇?cái)?shù)為34、總砂量為1 181.86 m3,此時(shí)對(duì)應(yīng)日產(chǎn)油為44.356 m3。