李克文,周廣悅,路慎強(qiáng),郭 俊
(1.中國(guó)石油大學(xué)(華東),山東 青島 266580;2.中國(guó)石化勝利油田分公司,山東 東營(yíng) 257022)
目前,中國(guó)大部分油田處于勘探開(kāi)發(fā)中后期,探明儲(chǔ)量以隱蔽性油藏為主,但隱蔽性油藏較難被發(fā)現(xiàn)[1],因此,有利區(qū)預(yù)測(cè)是勘探開(kāi)發(fā)過(guò)程中非常關(guān)鍵的一步[2]。傳統(tǒng)的有利區(qū)預(yù)測(cè)一般基于斷層、地貌等地質(zhì)信息或者根據(jù)少量常用的地震屬性參數(shù)建模[3],許多學(xué)者在該方面進(jìn)行了深入的研究,主要以地震、測(cè)井等資料為基礎(chǔ),分析構(gòu)造特征以及油藏特征,利用參數(shù)分析法、AVO屬性分析法等完成儲(chǔ)層綜合評(píng)價(jià),以此為依據(jù)進(jìn)行有利區(qū)預(yù)測(cè)[4-7]。傳統(tǒng)預(yù)測(cè)方法由于地質(zhì)條件復(fù)雜、采用的地震屬性相關(guān)性差、井震匹配關(guān)系差,導(dǎo)致預(yù)測(cè)精度低。隨著地球物理技術(shù)的進(jìn)步和發(fā)展,利用機(jī)器學(xué)習(xí)進(jìn)行有利區(qū)預(yù)測(cè)的方式應(yīng)運(yùn)而生[8-11]。機(jī)器學(xué)習(xí)中考慮到地震屬性之間的隱含作用,篩選出對(duì)分類起積極作用的關(guān)鍵地震屬性,解決了多解性問(wèn)題,從而輔助地質(zhì)人員快速圈定有利目標(biāo)。以東營(yíng)某區(qū)域地震體為例,該區(qū)域的已鉆井?dāng)?shù)量較少,還未對(duì)有利區(qū)進(jìn)行充分的挖掘,采用嶺回歸與邏輯斯諦分類算法相融合的模型,通過(guò)對(duì)地震屬性集進(jìn)行相關(guān)性分析,選擇能反映有利區(qū)的關(guān)鍵屬性,進(jìn)而預(yù)測(cè)有利區(qū)分布。
地震屬性集[12]中可能存在大量冗余以及無(wú)關(guān)的屬性,使用特征提取算法[13]對(duì)屬性集進(jìn)行約簡(jiǎn),降低屬性集的維度,避免有害屬性對(duì)分類結(jié)果產(chǎn)生影響,使得預(yù)測(cè)結(jié)果更加準(zhǔn)確。文中使用正則化-嶺回歸進(jìn)行屬性約減。
正則化即在已有模型的最小化經(jīng)驗(yàn)誤差函數(shù)上加上額外的約束或者懲罰項(xiàng),該約束或懲罰項(xiàng)可以理解為對(duì)參數(shù)引入先驗(yàn)分布。誤差函數(shù)由原來(lái)的E(X,Y)變?yōu)镋(X,Y)+alpha‖w‖,其中X為輸入變量,Y為輸出變量,w為模型系數(shù)組成的向量,‖‖為L(zhǎng)1或者L2的范數(shù)[14],alpha為一個(gè)可調(diào)參數(shù),控制正則化的強(qiáng)度。當(dāng)正則化用在線性模型上時(shí),L1正則化和L2正則化也稱為L(zhǎng)asso和Ridge。
L2正則化將模型系數(shù)w的L2范數(shù)添加到了誤差函數(shù)中,其中懲罰項(xiàng)中系數(shù)為二次方,因此,L2正則化會(huì)讓系數(shù)的取值變得平均。關(guān)聯(lián)性大的特征,對(duì)應(yīng)系數(shù)相近[15]。用于特征選擇時(shí),L2是一種相對(duì)穩(wěn)定的模型,對(duì)于特征理解來(lái)說(shuō)更加有用[16]:能力強(qiáng)的特征對(duì)應(yīng)的系數(shù)為非零。嶺回歸的損失函數(shù)為:
(1)
簡(jiǎn)單的線性回歸函數(shù)中每個(gè)訓(xùn)練數(shù)據(jù)對(duì)應(yīng)一個(gè)假設(shè)值,該假設(shè)值是連續(xù)的,不能直接進(jìn)行分類,在此函數(shù)基礎(chǔ)上延伸,將概率和假設(shè)值結(jié)合起來(lái)進(jìn)行分類,即邏輯斯諦回歸算法[17-18]。
1.2.1 二項(xiàng)邏輯斯諦回歸模型
二項(xiàng)邏輯斯諦回歸模型是用于分類的模型,使用P(Y|X)表示,其中,隨機(jī)變量X取實(shí)數(shù),隨機(jī)變量Y取1或0。該模型的條件概率分布分別為:
(2)
(3)
式中:x∈Rn,為輸入;Y∈{0,1},為輸出;b為偏置;w·x為內(nèi)積。
根據(jù)給定的輸入值x,由上式求得P(Y=1|x)和P(Y=0|x),通過(guò)比較2個(gè)條件概率值的大小,將x進(jìn)行分類[19]。對(duì)于給定的訓(xùn)練集T=[(x1,y1),(x2,y2),…,(xN,yN)],模型參數(shù)通過(guò)極大似然估計(jì)法得到,進(jìn)而得到邏輯斯諦回歸模型。
1.2.2 多項(xiàng)邏輯斯諦回歸
將二項(xiàng)邏輯斯諦回歸模型推廣為多項(xiàng)邏輯斯諦回歸模型。若定義離散型隨機(jī)變量Y的取值集合為{1,2,…,K},則多項(xiàng)邏輯斯諦回歸模型為:
(4)
(5)
式中:x∈Rn+1;wk∈Rn+1。
以東營(yíng)某區(qū)域第4層位作為研究對(duì)象,從勘探數(shù)據(jù)庫(kù)、地震數(shù)據(jù)體等數(shù)據(jù)源中提取目的層位的地震屬性、井?dāng)?shù)據(jù)、巖性剖面數(shù)據(jù)、時(shí)深轉(zhuǎn)換以及層位數(shù)據(jù)等井震信息,作為有利區(qū)預(yù)測(cè)的數(shù)據(jù)來(lái)源。
2.2.1 直井樣本的獲取
選擇井口坐標(biāo)最近的地震道A,提取該地震道對(duì)應(yīng)的地震屬性集,記作輸入變量Xi={x1,x2,…,xn},n為地震屬性的個(gè)數(shù);根據(jù)層位數(shù)據(jù)選取地震道A的時(shí)窗[t1,t2];根據(jù)標(biāo)定數(shù)的時(shí)深對(duì),計(jì)算對(duì)應(yīng)的深度范圍[d1,d2];統(tǒng)計(jì)[d1,d2]范圍內(nèi)砂巖的累計(jì)厚度,計(jì)算類別標(biāo)簽,有利區(qū)按照好、中、差分為3類,記作輸出變量y={0,1,2}。
2.2.2 斜井樣本的獲取
斜井由于井眼軌道偏移,對(duì)應(yīng)層位的地震道需要重新計(jì)算。根據(jù)井斜數(shù)據(jù),逐點(diǎn)計(jì)算采樣點(diǎn)對(duì)應(yīng)的垂深、坐標(biāo)方向偏移量[vd,Δx,Δy];利用時(shí)深標(biāo)定數(shù)據(jù),計(jì)算νd對(duì)應(yīng)于地震剖面上的時(shí)間st;利用Δx、Δy、井口坐標(biāo)計(jì)算與采樣點(diǎn)最近的地震道A。根據(jù)層位數(shù)據(jù)獲取當(dāng)前地震道A的時(shí)窗[t1,t2],若st
圖1為嶺回歸算法篩選不同對(duì)應(yīng)采收率地震屬性。由圖1可知,選擇的特征個(gè)數(shù)為5時(shí)分類準(zhǔn)確率最高,特征選擇個(gè)數(shù)小于5時(shí),分類準(zhǔn)確率整體上呈現(xiàn)升高趨勢(shì),關(guān)鍵屬性個(gè)數(shù)的增加提高了分類器的性能;特征選擇個(gè)數(shù)大于5時(shí),分類準(zhǔn)確率整體上呈現(xiàn)下降趨勢(shì),無(wú)用屬性以及冗余屬性的增加降低了分類器的性能。由實(shí)驗(yàn)可知,分類準(zhǔn)確率最高的5個(gè)關(guān)鍵屬性分別為均方根振幅、瞬時(shí)相位、最小振幅、弧長(zhǎng)、最大振幅。采用嶺回歸得到的關(guān)鍵屬性基本包含了傳統(tǒng)有利區(qū)預(yù)測(cè)常用的均方根振幅、瞬時(shí)相位、最小振幅、最大振幅等地震屬性,同時(shí)篩選出的不常用屬性弧長(zhǎng)可作為下一步嘗試用于有利區(qū)預(yù)測(cè)的地震屬性。
圖1 嶺回歸特征選擇分類性能
表1為支持向量機(jī)遞歸特征消除、方差分析[20]、隨機(jī)森林、Lasso回歸[21]、嶺回歸等特征選擇算法在邏輯斯諦回歸、K近鄰算法、決策樹(shù)[22]、自適應(yīng)增強(qiáng)算法[23]上的分類準(zhǔn)確率比較。由表1可知,嶺回歸特征選擇算法在邏輯斯諦回歸、K近鄰算法、決策樹(shù)、自適應(yīng)增強(qiáng)分類器上的準(zhǔn)確率分別是57.5%、58.4%、52.4%、56.0%,且對(duì)比其他的特征選擇算法,嶺回歸對(duì)應(yīng)的分類準(zhǔn)確率最高。由此說(shuō)明嶺回歸特征選擇不僅能夠選擇出比較好的關(guān)鍵特征,而且能夠獲得較高的分類性能。
表1 多種特征選擇方法在不同分類器上的準(zhǔn)確率
2.4.1 采用多種分類算法進(jìn)行對(duì)比實(shí)驗(yàn)
地震屬性作為輸入變量,其衡量的尺度有很大的差異,需要對(duì)其進(jìn)行去均值及方差歸一化處理。將經(jīng)過(guò)標(biāo)準(zhǔn)化處理的地震屬性作為分類模型的輸入,采用交叉驗(yàn)證方法,計(jì)算多種帶有默認(rèn)參數(shù)分類算法的準(zhǔn)確率、精確率、召回率以及F1值進(jìn)行模型評(píng)估,選擇分類效果最優(yōu)的模型。
文中采用的分類算法包括邏輯斯諦回歸、線性判別式分析、K近鄰算法、決策樹(shù)、樸素貝葉斯[24]等普通分類算法以及自適應(yīng)增強(qiáng)算法、梯度提升決策樹(shù)[25]、隨機(jī)森林[26]、極端隨機(jī)樹(shù)、極端梯度提升等。
采用各個(gè)算法訓(xùn)練分類模型,計(jì)算不同算法對(duì)應(yīng)的準(zhǔn)確率、精確率、召回率以及F1值(表2、3)。普通分類算法中線性判別式分析、邏輯斯諦回歸以及K近鄰算法的準(zhǔn)確率都達(dá)到了50.0%以上,集成分類算法中的梯度提升決策樹(shù)、隨機(jī)森林、極端梯度提升準(zhǔn)確率較高,說(shuō)明以上算法具有進(jìn)一步研究的意義。
表2 普通分類算法性能指標(biāo)
表3 集成分類算法性能指標(biāo)
2.4.2 確定最優(yōu)參數(shù)
選取分類效果比較好的幾種算法的常用參數(shù)取值范圍,采用網(wǎng)格搜索進(jìn)行自動(dòng)調(diào)參,使用交叉驗(yàn)證降低劃分訓(xùn)練集造成的偶然性,獲得平均準(zhǔn)確率最高的參數(shù)組合。最優(yōu)參數(shù)的選擇結(jié)果如表4所示。
表4 分類器最優(yōu)參數(shù)
由表4可知,經(jīng)最優(yōu)參數(shù)選擇后的K近鄰算法、梯度提升決策樹(shù)以及邏輯斯諦回歸的準(zhǔn)確率最高。
2.4.3 選擇最優(yōu)的分類算法
利用表4中的K近鄰算法、梯度提升決策樹(shù)以及邏輯斯諦回歸最優(yōu)參數(shù)算法對(duì)數(shù)據(jù)樣本進(jìn)行重新訓(xùn)練,采用交叉驗(yàn)證,隨機(jī)選擇種子,保證分類結(jié)果的準(zhǔn)確性。各訓(xùn)練模型的分類算法指標(biāo)如表5所示。
表5 優(yōu)選分類算法性能指標(biāo)
綜上所述,邏輯斯諦回歸分類算法準(zhǔn)確率最高,達(dá)到60.0%左右,且精確率、召回率以及F1值相對(duì)于其他算法也是最高的,因此,確定為最優(yōu)算法。
將預(yù)處理后的地震屬性集作為輸入,采用嶺回歸篩選出關(guān)鍵地震屬性集,包括均方根振幅、瞬時(shí)相位、最小振幅、弧長(zhǎng)、最大振幅,將其作為邏輯斯諦回歸模型的輸入,進(jìn)而訓(xùn)練分類模型,該融合模型的分類準(zhǔn)確率為61.5%,精確率為48.5%,召回率為60.1%,F(xiàn)1值為48.5%。實(shí)驗(yàn)結(jié)果表明,利用嶺回歸與邏輯斯諦分類相融合的算法,分類準(zhǔn)確率達(dá)到60%以上,預(yù)測(cè)效果明顯。
圖2為對(duì)東營(yíng)某區(qū)域進(jìn)行預(yù)測(cè)的二維結(jié)果俯視圖,其中綠色區(qū)域代表非有利儲(chǔ)層發(fā)育區(qū)(標(biāo)簽為0),黃色區(qū)域代表儲(chǔ)層發(fā)育區(qū)(標(biāo)簽為1),紅色區(qū)域代表有利儲(chǔ)層發(fā)育區(qū)(標(biāo)簽為2),藍(lán)色表示無(wú)數(shù)據(jù)區(qū)域。勘探人員能夠以圖中黃色以及紅色連片區(qū)域作為參考,進(jìn)行有利區(qū)的圈定。
圖2 東營(yíng)某區(qū)域有利區(qū)預(yù)測(cè)結(jié)果
(1) 采用嶺回歸與邏輯斯諦分類相融合的算法進(jìn)行有利區(qū)預(yù)測(cè),分類準(zhǔn)確率達(dá)到60.0%以上,與常規(guī)儲(chǔ)層預(yù)測(cè)方法相比效果明顯,證明了該文提出的基于機(jī)器學(xué)習(xí)預(yù)測(cè)方法的有效性。
(2) 通過(guò)預(yù)測(cè)結(jié)果,得到有利區(qū)的大概分布范圍,為地質(zhì)勘探人員打井提供了一種參考,從而快速圈定有利區(qū)。
(3) 因有利區(qū)的判定不僅與地震屬性相關(guān),后續(xù)研究將綜合考慮除地震屬性之外的地質(zhì)構(gòu)造特征、測(cè)井解釋成果、試油結(jié)論等進(jìn)行有利區(qū)的預(yù)測(cè),同時(shí),將會(huì)不斷實(shí)踐新的算法以及改進(jìn)算法,進(jìn)一步提高利用機(jī)器學(xué)習(xí)預(yù)測(cè)有利區(qū)的準(zhǔn)確率。