王如意 吳 鈞 楊向同 丁江輝 秦 冬
(1.中國石油集團(tuán)工程技術(shù)研究院有限公司,北京 102206;2.中國石油大慶油田有限責(zé)任公司勘探開發(fā)研究院,黑龍江 大慶 163712)
隨著常規(guī)油氣資源日益匱乏,頁巖油等非常規(guī)油氣資源日益增加,逐步成為油氣儲量和產(chǎn)量增長的重要領(lǐng)域。 頁巖油儲層總有機碳含量(w(TOC))是反映頁巖油氣富集程度及生烴潛力的關(guān)鍵參數(shù)之一[1]。w(TOC)的定量表征和預(yù)測對于頁巖油地質(zhì)甜點確定、儲量評估和開發(fā)方案制定具有重要作用。w(TOC)通常在實驗室內(nèi)通過巖石熱解儀器對少量巖心化驗分析獲得,數(shù)據(jù)采集成本較高,數(shù)據(jù)量也相對較少[2]。因此對于w(TOC)預(yù)測通常利用巖心標(biāo)定測井建立數(shù)學(xué)模型的方法實現(xiàn)。目前ΔlogR法[3-10]及改進(jìn)ΔlogR法[11-14]、Carblog 法[15]、疊合面積法[16-17]、多元回歸法等常規(guī)方法應(yīng)用于w(TOC)的預(yù)測中,但預(yù)測精度普遍較低。近年來隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,支持向量機[18-21]、最近鄰[22]、貝葉斯判別[23]、隨機森林回歸算法[24]、最優(yōu)化估算和貝葉斯統(tǒng)計[25]、BP 神經(jīng)網(wǎng)絡(luò)[26-28]、貝葉斯正則化改進(jìn)BP 神經(jīng)網(wǎng)絡(luò)[29]、卷積神經(jīng)網(wǎng)絡(luò)[30]和概率神經(jīng)網(wǎng)絡(luò)[31]等人工智能技術(shù)和方法開始應(yīng)用于w(TOC)的預(yù)測中。雖然人工智能技術(shù)在烴源巖w(TOC)預(yù)測上已經(jīng)取得了較多的應(yīng)用成果,但是受巖心測試數(shù)據(jù)與測井?dāng)?shù)據(jù)之間分辨率差異、鉆桿深度與電纜深度系統(tǒng)誤差、敏感測井曲線與算法和參數(shù)選擇等因素影響,w(TOC)預(yù)測具有較高的不確定性,模型的泛化能力普遍較低。針對這一問題,本文提出融合滑動窗口法巖心歸位技術(shù)、基于相關(guān)系數(shù)的層次聚類算法和機器學(xué)習(xí)自動化技術(shù)融合的機器學(xué)習(xí)智能決策系統(tǒng),解決w(TOC)智能預(yù)測的不確定問題,最大化降低w(TOC)預(yù)測的不確定性,提高預(yù)測精度和模型的泛化能力,并利用大慶油田古龍頁巖油實際鉆測井資料進(jìn)行了驗證,取得了很好的應(yīng)用效果。
古龍凹陷處于松遼盆地中央坳陷區(qū)的西部,東面鄰近大慶長垣,面積約為5 500 km2。古龍凹陷在青山口組沉積階段湖平面上升,沉積了一套70~120 m 厚的半深湖—深湖相富含有機質(zhì)的暗色泥頁巖[32]。其中,青一段和青二段下部地層是頁巖油富集的重點層段,巖性以厚層頁巖為主,局部可見厚度極薄的粉砂巖、白云巖及介殼灰?guī)r等夾層,有機質(zhì)類型以Ⅰ型和Ⅱ型干酪根為主,屬于典型的湖相富有機質(zhì)泥頁巖。通過對古龍凹陷青山口組4 口取心井中680 塊樣本的總有機碳含量巖心化驗結(jié)果進(jìn)行數(shù)據(jù)分析,w(TOC)主要為1.5%~4.2%,平均值為2.2%[32],其中,青一段的w(TOC)相對較高,主要為2.0%~4.2%,平均值為2.7%[32],屬于高有機質(zhì)含量泥頁巖。
針對古龍頁巖油藏多尺度數(shù)據(jù)耦合、敏感測井響應(yīng)特征優(yōu)選、機器學(xué)習(xí)方法及附帶參數(shù)優(yōu)選問題,以系統(tǒng)論為思想基礎(chǔ),聯(lián)合基于滑動窗口算法的w(TOC)巖心自動歸位技術(shù)、基于相關(guān)系數(shù)的層次聚類算法w(TOC)敏感特征優(yōu)選技術(shù)和基于粒子群機器學(xué)習(xí)自動優(yōu)化算法的w(TOC)預(yù)測技術(shù)構(gòu)建機器學(xué)習(xí)智能決策系統(tǒng)。應(yīng)用該系統(tǒng)可以實現(xiàn)基于測井?dāng)?shù)據(jù)的頁巖油w(TOC)定量表征及智能預(yù)測研究。
該技術(shù)是將w(TOC)巖心化驗分析數(shù)據(jù)標(biāo)定到測井曲線上的一種智能算法,以有效解決因電纜和鉆桿壓縮系數(shù)不同而產(chǎn)生測量深度系統(tǒng)誤差問題[33]。在利用滑動窗口法進(jìn)行巖心歸位時,首先需要明確測井?dāng)?shù)據(jù)的采樣間隔和滑動窗口的長度,依次逐點滑動計算各數(shù)據(jù)中w(TOC)和常規(guī)測井?dāng)?shù)據(jù)之間的相關(guān)系數(shù),以相關(guān)系數(shù)的絕對值最大為決策條件優(yōu)選出絕對相關(guān)系數(shù)最大的測井曲線類別及深度位置(圖1)。一般而言,滑動長度控制在10 m 以內(nèi),窗長為目標(biāo)地層巖心分析測試數(shù)據(jù)頂?shù)咨疃龋瑒硬介L為測井?dāng)?shù)據(jù)采樣間隔,多為0.1 m 或者0.125 m。
圖1 滑動窗口法巖心自動歸位示意Fig.1 Schematic diagram of automatic core location by sliding window method
定義1:數(shù)據(jù)集S= {Sm1,Sm2,…,Smn}是一個具有m行,n個維度特征的數(shù)據(jù)集合。對于任一維度特征數(shù)據(jù)有X=S:k,Y=S:j,k,j∈[1,n]。
相關(guān)系數(shù)是由統(tǒng)計學(xué)家卡爾·皮爾遜設(shè)計的統(tǒng)計指標(biāo),是研究變量之間線性相關(guān)程度的量,相關(guān)系數(shù)定義為
式中:r——相關(guān)系數(shù);cov(X,Y)——X,Y的協(xié)方差;var(X)、var(Y)——X、Y的方差。
層次聚類算法是一種表征數(shù)據(jù)之間相似度系數(shù)層次結(jié)構(gòu)關(guān)系的算法。該算法在處理高維度或多類別數(shù)據(jù)問題上具有不可替代的優(yōu)勢,該算法可以根據(jù)數(shù)據(jù)點、數(shù)據(jù)變量和數(shù)據(jù)簇之間相似度系數(shù)進(jìn)行相似度層次結(jié)構(gòu)的構(gòu)建。開始時,點、變量或聚類等數(shù)據(jù)樣本分別被視為一個單獨的聚類,即每個聚類只包含一個數(shù)據(jù)樣本(點、變量或聚類)。然后計算出數(shù)據(jù)樣本之間的相似系數(shù)矩陣,并將大多數(shù)相似的數(shù)據(jù)聚類合并成一個新的聚類。重復(fù)上述步驟,直到所有樣本(或變量)被合并到一個聚類中,或者所有相似性系數(shù)小于或大于閾值的多個類別中。通常,數(shù)據(jù)點或數(shù)據(jù)簇以距離為度量進(jìn)行聚類,其中具有最小距離的兩個點首先被合并。本文以相關(guān)系數(shù)為相似度計算指標(biāo)代替距離重構(gòu),基于相關(guān)系數(shù)的層次聚類算法,解決連續(xù)型數(shù)據(jù)之間層次結(jié)構(gòu)關(guān)系問題。應(yīng)用該算法可以實現(xiàn)w(TOC)敏感特征的定量分析。
為了解決不同數(shù)據(jù)集或同一數(shù)據(jù)集不同模式識別訓(xùn)練任務(wù)會對不同的算法具有不同的適應(yīng)性問題,將交叉驗證數(shù)據(jù)集剖分技術(shù)、粒子群優(yōu)化算法和機器學(xué)習(xí)算法融合構(gòu)建出基于粒子群機器學(xué)習(xí)自動優(yōu)化算法。應(yīng)用該算法進(jìn)行w(TOC)智能預(yù)測,可起到人工智能算法和附帶參數(shù)智能優(yōu)選的作用,具有智能化程度高、預(yù)測精度高和計算效率高的特點。
粒子群優(yōu)化算法(Particle Swarm Optimization,PSO)是基于模擬鳥群捕食行為提出的一種群智能算法,其中每一只鳥代表一個粒子,鳥群所尋找的“食物”就是所求的最優(yōu)解。采用粒子群優(yōu)化算法對一群隨機粒子進(jìn)行初始化處理,第i個粒子的坐標(biāo)為xti=(xti1,xti2,…,xtiN),xtiN∈[LN,UN],N個目標(biāo)解的坐標(biāo)為未優(yōu)化前的目標(biāo)解。第i個粒子運行 速 度 為vti= (vti1,vti2,…,vtin),vtin∈[vmin,N,vmax,N],第i個粒子最優(yōu)化位置為Pti=(Pti1,Pti2,…,),種群最優(yōu)化位置為Ptg=(,,…,)。則第s維度的粒子運動速度和粒子坐標(biāo)的迭代結(jié)果可表示為
式中:v——無因次粒子速度;t——迭代次數(shù);ω——慣性權(quán)重,具有平衡全局和局部搜索的作用;c1、c2——學(xué)習(xí)因子,分別控制著粒子尋找個體最優(yōu)位置和全局最優(yōu)位置的能力;r1、r2——介于[0,1]的隨機數(shù)。
基于粒子群機器學(xué)習(xí)自動優(yōu)化算法的w(TOC)智能預(yù)測技術(shù)利用數(shù)據(jù)集剖分技術(shù)將標(biāo)簽集劃分為參數(shù)優(yōu)化數(shù)據(jù)集和測試數(shù)據(jù)集2 部分,參數(shù)優(yōu)選數(shù)據(jù)集采用交叉驗證法將數(shù)據(jù)集N等分,依次將其中的1 份當(dāng)作驗證數(shù)據(jù)集,其余的N-1 份當(dāng)作訓(xùn)練數(shù)據(jù)集。
基于粒子群機器學(xué)習(xí)自動優(yōu)化算法中不同的數(shù)據(jù)集具有不同的作用,訓(xùn)練數(shù)據(jù)集主要承擔(dān)模型訓(xùn)練的任務(wù),驗證數(shù)據(jù)集主要承擔(dān)機器學(xué)習(xí)參數(shù)優(yōu)選的任務(wù),而測試數(shù)據(jù)集主要承擔(dān)機器學(xué)習(xí)算法的評價和優(yōu)選任務(wù)(圖2)。
圖2 基于粒子群優(yōu)化算法的機器學(xué)習(xí)自動化技術(shù)流程Fig.2 Machine learning automation system based on particle swarm optimization algorithm
當(dāng)前機器學(xué)習(xí)算法類別較多,每種算法需要優(yōu)化的參數(shù)也較多,利用常規(guī)的網(wǎng)格搜索算法耗時較長,難以滿足智能化運算的時間需求。將機器學(xué)習(xí)算法和參數(shù)的選擇問題轉(zhuǎn)化為優(yōu)化問題,應(yīng)用粒子群優(yōu)化算法驅(qū)動w(TOC)數(shù)據(jù)進(jìn)行機器學(xué)習(xí)算法和參數(shù)的智能優(yōu)選,最終得出滿足平均絕對誤差最低或者符合率最高決策條件的機器學(xué)習(xí)算法及其最優(yōu)參數(shù)組合(圖2)。
為得到優(yōu)良的人工智能回歸模型,本次集成6種回歸算法進(jìn)行基于粒子群優(yōu)化算法的機器學(xué)習(xí)自動化模型優(yōu)化,包括線性回歸算法、嶺回歸算法、決策樹回歸算法、隨機森林回歸算法、最近鄰回歸算法和支持向量機回歸算法。每種機器回歸學(xué)習(xí)算法的關(guān)鍵參數(shù)見表1。
表1 機器學(xué)習(xí)智能決策系統(tǒng)回歸算法及其關(guān)鍵參數(shù)Table 1 Machine learning intelligent decision system regression algorithm and its key parameters
本文利用4 口取心井中680 個w(TOC)測試數(shù)據(jù)和對應(yīng)測井?dāng)?shù)據(jù),應(yīng)用機器學(xué)習(xí)智能決策系統(tǒng)開展古龍頁巖油w(TOC)參數(shù)定量表征及智能預(yù)測研究?;谠摲椒A(yù)測,井A2 等w(TOC)巖心測試為訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集;井A8 為盲井測試數(shù)據(jù)集。
針對各w(TOC)巖心測試井利用基于滑動窗口法的巖心歸位技術(shù)從自然伽馬(qAPI)、淺側(cè)向電阻率(RLLS)、深側(cè)向電阻率(RLLD)、微球型聚焦電阻率(RMSFL)、聲波時差(Δt)、密度(ρDEN)和中子孔隙度(φN)共7 種常規(guī)測井曲線中智能優(yōu)選出與w(TOC)相關(guān)系數(shù)絕對值最高的特征敏感曲線和最優(yōu)歸位深度,以此建立w(TOC)—測井?dāng)?shù)據(jù)大表。以井A2 為例,應(yīng)用基于滑動窗口法的巖心歸位技術(shù)后計算得出的敏感測井曲線為聲波時差(Δt),將歸位深度下移4.250 m,歸位后的w(TOC)和聲波時差(Δt)的相關(guān)系數(shù)從0.06 提高到0.55(圖3—圖4,表2,圖5)。其他各巖心測試井經(jīng)基于滑動窗口法的巖心歸位技術(shù)計算后具有相同的規(guī)律,聲波時差(Δt)是進(jìn)行巖心歸位最優(yōu)特征測試曲線。以相關(guān)系數(shù)絕對值為決策條件可以準(zhǔn)確得出最優(yōu)巖心歸位位置,實現(xiàn)w(TOC)巖心測試數(shù)據(jù)對測井?dāng)?shù)據(jù)的標(biāo)定,以此建立測井?dāng)?shù)據(jù)大表?;诨瑒哟翱谒惴ǖ膚(TOC)巖心自動歸位技術(shù)解決了鉆桿深度和測井深度之間系統(tǒng)誤差校正問題,通過滑動窗口法進(jìn)行巖心歸位從200 次運算中求取了最優(yōu)解,尋找到了巖心歸位最佳位置,消除了巖心測試w(TOC)數(shù)據(jù)和測井曲線之間鏈接的系統(tǒng)誤差。通過該算法智能化計算出w(TOC)的敏感測井曲線,確定了最優(yōu)化歸位位置,最大程度提升了巖心刻度測井曲線的準(zhǔn)確度,降低巖心歸位的不確定性。
圖5 井A2 w(TOC)巖心自動歸位成果Fig.5 Results of w(TOC)in Well A2 by automatic core homing
表2 井A2各測井曲線巖心自動歸位參數(shù)Table 2 Automatic core homing parameters for logging curves of well A2
圖3 井A2巖心自動歸位效果Fig.3 Automatic core location of well A2
圖4 井A2歸位前、后w(TOC)和Δt測井特征關(guān)系Fig.4 Relationship between w(TOC)and Δt logging characteristics of Well A2 before and after homed
本文通過w(TOC)—測井?dāng)?shù)據(jù)大表中巖心化驗分析w(TOC)參數(shù)與自然伽馬(qAPI)、淺側(cè)向電阻率(RLLS)、深側(cè)向電阻率(RLLD)、微球型聚焦電阻率(RMSFL)、聲波時差(Δt)、密度(ρDEN)和中子孔隙度(φN)共7 種測井曲線數(shù)據(jù),應(yīng)用基于相關(guān)系數(shù)的層次聚類算法進(jìn)行w(TOC)參數(shù)敏感測井曲線分析。研究發(fā)現(xiàn)w(TOC)參數(shù)與自然伽馬(qAPI)、淺側(cè)向電阻率(RLLS)、深側(cè)向電阻率(RLLD)及微球型聚焦電阻率(RMSFL)不具有明顯的相關(guān)性,因此這3 個參數(shù)不是w(TOC)的敏感測井響應(yīng)特征參數(shù)。w(TOC)與聲波時差(Δt)、密度(ρDEN)和中子孔隙度(φN)測井曲線具有明顯相關(guān)關(guān)系,聲波時差(Δt)是w(TOC)最為明顯的敏感測井參數(shù),它們之間的相關(guān)系數(shù)為0.65。聲波時差(Δt)、密度(ρDEN)和中子孔隙度(φN)之間具有明顯的自相關(guān)性,聲波時差(Δt)和中子孔隙度(φN) 之間相關(guān)性最強,相關(guān)系數(shù)為0.75(圖6)。經(jīng)過數(shù)據(jù)挖掘分析可知,聲波時差(Δt)、密度(ρDEN)和中子孔隙度(φN)測井曲線可以作為w(TOC)參數(shù)預(yù)測的特征測井曲線。
圖6 w(TOC)參數(shù)與測井曲線相關(guān)系數(shù)矩陣Fig.6 Matrix of correlation coefficients between w(TOC)parameters and logging curves
基于相關(guān)系數(shù)的層次聚類算法解決了多特征參數(shù)內(nèi)部之間以及多特征參數(shù)與目標(biāo)之間層次結(jié)構(gòu)關(guān)系定量表征問題,該方法突破了傳統(tǒng)人工二維交會圖法進(jìn)行數(shù)據(jù)分析的技術(shù)瓶頸,不僅實現(xiàn)了兩兩數(shù)據(jù)之間的關(guān)系分析,還能實現(xiàn)多維連續(xù)性數(shù)據(jù)之間層次結(jié)構(gòu)關(guān)系的定量化分析,從而實現(xiàn)了預(yù)測目標(biāo)參數(shù)敏感特征的準(zhǔn)確分析,挖掘出油藏數(shù)據(jù)中蘊含的地質(zhì)規(guī)律。在本次研究中發(fā)現(xiàn)w(TOC)參數(shù)的敏感特征,并非主觀認(rèn)為的電阻率測井曲線而是三孔隙度測井曲線。該項技術(shù)對于挖掘地質(zhì)規(guī)律從而提高w(TOC)參數(shù)的預(yù)測精度具有重要意義。
針對w(TOC)—測井?dāng)?shù)據(jù)大表進(jìn)行數(shù)據(jù)剖分,除井A8 的122 個數(shù)據(jù)點作為盲井測試數(shù)據(jù)集外,其余558 個w(TOC)—測井?dāng)?shù)據(jù)設(shè)置為參數(shù)優(yōu)化數(shù)據(jù)集,以交叉驗證技術(shù)按照5 等份進(jìn)行數(shù)據(jù)集剖分,輪番以其中4 份數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,剩余1 份作為驗證數(shù)據(jù)集。
利用粒子群智能優(yōu)化算法驅(qū)動6 種人工智能回歸算法,以5 次驗證數(shù)據(jù)集w(TOC)平均絕對誤差最低為決策條件,迭代運算進(jìn)行算法參數(shù)優(yōu)化,并以井A8 測試數(shù)據(jù)集w(TOC)平均絕對誤差最低為決策條件進(jìn)行層次迭代優(yōu)化。最終利用粒子群智能優(yōu)化算法優(yōu)選出隨機森林回歸算法在max_depth=24, max_features=0.7, n_estimators=63的參數(shù)組合下(圖7)可實現(xiàn)訓(xùn)練集的平均絕對誤差為0.313%,符合率為81.2%;驗證集平均絕對誤差為0.320%,符合率為82.3%。井A8 測試集粒子群優(yōu)化算法參數(shù)優(yōu)化后的隨機森林算法可以將w(TOC)預(yù)測平均絕對誤差降低為0.354%,預(yù)測符合率可達(dá)81.7%(表4、圖8―圖9)。
圖9 井A8機器學(xué)習(xí)智能決策系統(tǒng)w(TOC)參數(shù)多方法智能預(yù)測成果Fig.9 Multi-method intelligent prediction of TOC parameters for machine learning intelligent decision system for Well A8
表4 井A8測試集機器學(xué)習(xí)模型評價Table 4 Evaluation of machine learning models for test set of Well A8
圖8 測試集巖心實測w(TOC)和不同算法測井預(yù)測w(TOC)結(jié)果交會Fig.8 Crossplots of w(TOC)of test dataset core vs.w(TOC)of log prediction by different algorithms
基于粒子群機器學(xué)習(xí)自動優(yōu)化技術(shù)解決了頁巖油儲層w(TOC)參數(shù)預(yù)測中方法和參數(shù)智能選擇的不確定問題,通過粒子群智能優(yōu)化算法驅(qū)動6 種機器學(xué)習(xí)回歸算法,以w(TOC)參數(shù)預(yù)測平均絕對誤差最低為決策條件進(jìn)行w(TOC)參數(shù)智能預(yù)測。該方法與應(yīng)用單一人工智能算法手工調(diào)參技術(shù)或網(wǎng)格搜索進(jìn)行調(diào)參技術(shù)相比,最大化提高了w(TOC)參數(shù)預(yù)測的精度并最大化降低計算時間。
(1)基于滑動窗口法的巖心歸位技術(shù)可以有效解決巖心測試數(shù)據(jù)和測井曲線之間耦合中鉆桿深度和電纜深度之間存在誤差的問題,該方法應(yīng)用于井A2 確定下移4.250 m 為巖心歸位最優(yōu)距離,歸位后w(TOC)和聲波時差(Δt)的相關(guān)系數(shù)可從0.06提高到0.55。
(2)基于相關(guān)系數(shù)的層次聚類算法可以有效解決w(TOC)與測井曲線之間相關(guān)性層次結(jié)構(gòu)分析問題,應(yīng)用該算法挖掘出古龍頁巖油聲波時差、密度和中子孔隙度是w(TOC)的敏感測井響應(yīng)特征曲線,可以作為預(yù)測w(TOC)的特征參數(shù);自然伽馬、淺側(cè)向電阻率、深側(cè)向電阻率及微球型聚焦電阻率曲線不能有效地反映w(TOC),是預(yù)測w(TOC)的無效特征參數(shù)。
(3)應(yīng)用基于粒子群機器學(xué)習(xí)自動優(yōu)化技術(shù)解決頁巖油w(TOC)參數(shù)預(yù)測中人工方法和參數(shù)選擇出現(xiàn)的不確定性問題,從6 種回歸算法中系統(tǒng)優(yōu)化出隨機森林回歸算法及其附屬參數(shù)組合可將盲井測試集w(TOC)的預(yù)測精度最大提高到81.7%。
(4)基于系統(tǒng)論思想將滑動窗口法、基于相關(guān)系數(shù)的層次聚類算法和機器學(xué)習(xí)自動化技術(shù)有機融合構(gòu)建機器學(xué)習(xí)智能決策系統(tǒng),應(yīng)用該系統(tǒng)可以解決古龍頁巖油藏多尺度數(shù)據(jù)耦合、w(TOC)敏感測井響應(yīng)特征優(yōu)選、機器學(xué)習(xí)方法及附屬參數(shù)優(yōu)選問題,最大化降低頁巖油w(TOC)參數(shù)定量表征和智能預(yù)測的不確定性。