太萬雪,劉成林,田繼先,馮德浩,曾 旭,李 培,孔 驊
(1.油氣資源與探測國家重點實驗室,北京 102249;2.中國石油大學(北京),北京 102249;3.中國石油勘探開發(fā)研究院,河北 廊坊 065007)
烴源巖總有機碳含量(TOC)是識別有效烴源巖的重要依據(jù),相關(guān)學者在TOC預測研究中通常使用的手段有多元回歸法、ΔlgR法、人工神經(jīng)網(wǎng)絡法以及支持向量機和核磁共振測井等[1-4]。ΔlgR法是Passey等[5]通過大量數(shù)據(jù)擬合和實驗分析提出的一種經(jīng)典理論。國內(nèi)外學者針對原始的ΔlgR模型進行多種改進[6-7],邊雷博等[8]在 ΔlgR 法基礎上增加自然伽馬參數(shù),使預測模型更加穩(wěn)定。但上述ΔlgR法均未針對受鹽度影響巖性變化復雜的烴源巖地層進行過研究。多元回歸模型通過建立自變量與因變量的數(shù)學關(guān)系進行TOC預測,計算簡便,但一般僅是根據(jù)數(shù)學關(guān)系進行模型建立,缺乏地質(zhì)思維。人工神經(jīng)網(wǎng)絡模型通過模擬人腦神經(jīng)元處理信息的機制,對輸入樣本的TOC與測井曲線的相關(guān)性進行學習,從而預測未知層位的TOC。近年來國內(nèi)外大量學者在預測TOC時,均大量應用人工神經(jīng)網(wǎng)絡方法[9-12]。但在使用神經(jīng)網(wǎng)絡方法時,未針對輸入測井參數(shù)進行優(yōu)選,參數(shù)冗余導致模型泛化能力弱。
目前柴達木盆地西部古近系咸化湖盆仍然采用單一的方法進行TOC的預測,前人忽略了鹽度對測井參數(shù)及TOC的影響。在柴西地區(qū)分別應用多元回歸法、優(yōu)化的ΔlgR法和BR-BP神經(jīng)網(wǎng)絡法進行TOC預測,討論3種方法預測TOC的精度,通過對方法的優(yōu)化提高TOC預測精度。解決柴西地區(qū)不同咸化條件下烴源巖預測的難題,為國內(nèi)外咸化烴源巖TOC的預測提供了一種切實可行的流程及方法。
柴達木盆地是中國典型的高原山間斷陷盆地,位于青藏高原東北部。目的層烴源巖為古近紀下干柴溝組上段(E32)。根據(jù)郭佩[13]研究,E32層沉積期柴達木盆地主要有獅子溝超咸化中心、紅溝子-油泉子地區(qū)2個咸化中心(圖1)。E32層烴源巖關(guān)鍵井測井參數(shù)齊全,TOC整體上不高,但富烴凹陷面積較大,有效烴源巖規(guī)模較大,具有較高的勘探開發(fā)價值。
圖1 柴達木盆地西部構(gòu)造劃分及地層柱狀圖Fig.1 Structural division and stratigraphic column of western Qaidam Basin
由圖1可知,柴達木盆地獅子溝地區(qū)E32層受高鹽度影響,石鹽段及灰質(zhì)泥巖段測井曲線變化異常,石鹽段測井曲線呈異常高聲波時差、高電阻率等特征,而碳酸鹽巖與泥巖混積段測井曲線易震蕩。因此,針對測井曲線的異常表現(xiàn),高鹽度與中—低鹽度地區(qū)需要分別建立TOC預測模型,選取獅子溝井位建立高咸化TOC預測模型,選取小梁山井位建立中—低咸化TOC預測模型。
根據(jù)E32層烴源巖的單一測井參數(shù)與TOC的相關(guān)性對比(圖2),選取自然伽馬(GR)、聲波時差(AC)、井徑(CAL)、電阻率(Rt)以及中子孔隙度(CNL)參數(shù)進行多元回歸擬合,舍棄電導率(σ)參數(shù)。使用SAS軟件求解多元回歸未知系數(shù)。具體回歸模型見表1。
圖2 下干柴溝組上段測井參數(shù)與TOC響應關(guān)系Fig.2 Relationship between well logging parameters and TOC response in upper member of Lower Ganchaigou Formation
表1 下干柴溝組上段多元回歸預測模型Table 1 Multiple regression forecast model of upper member of Lower Ganchaigou Formation
使用多元回歸方法建立的下干柴溝組上段烴源巖有機碳預測模型(表1)相關(guān)系數(shù)一般為0.500 0~0.700 0,預測結(jié)果較差,在此基礎上使用圖2優(yōu)選出的測井參數(shù)進行有機碳ΔlgR預測與神經(jīng)網(wǎng)絡模型預測。
該文在邊雷博[8]的研究基礎上,應用歸一化原理,采取一一映射法將不同范圍的聲波時差與260~460 μs/m聲波時差一一映射,將不同范圍的電阻率與聲波時差為260~460 μs/m時對應的電阻率一一映射,并建立預測模型。
首先將電阻率和聲波時差歸一化:
式中:Rt為電阻率,Ω·m;Rtmax、Rtmin為電阻率曲線疊合段最大值、最小值,Ω·m,Rt基值為電阻率基線值,Ω·m;Δt為聲波時差,μs/m;Δt基值為聲波時差基線值,μs/m;Δtmax、Δtmin為聲波曲線疊合段最大值、最小值,μs/m。
根據(jù)聲波時差的應用范圍,Δtmax為460 μs/m,Δtmin為 260 μs/m,式(1)變?yōu)?
該公式與原始ΔlgR法相比,在處理深層低聲波時差段烴源巖的有機碳預測方面,具有較高的準確性。
高咸化模型(獅 20井)Rt基值為 8.64 Ω·m,Δt基值為207.83 μs/m;中—低咸化模型(梁 3 井)Rt基值為 7.41 Ω·m,Δt基值為 200.85 μs/m。利用SAS軟件確定待定系數(shù),代入式(3)得到ΔlgR預測模型。
高咸化ΔlgR模型:
中—低咸化ΔlgR模型:
影響TOC表達的測井參數(shù)較多,為了避免參數(shù)冗余降低神經(jīng)網(wǎng)絡模型泛化能力,首先進行測井參數(shù)的主成分分析[14]。根據(jù)計算的高咸化模型主成分累計貢獻率(表2),給出主成分個數(shù),當前a個主成分的累計貢獻率達到85.00%時,滿足預測需要,停止主成分引入。
表2 測井參數(shù)主成分分析Table 2 Principal component analysis of loging parameters
使用SAS軟件得到的主成分Y1、Y2、Y3的計算公式為:
式中:Y1、Y2、Y3代表引入的3個主成分;x1為自然電位;x2為自然伽馬;x3為聲波時差;x4為電阻率;x5為井徑。
引入主成分Y3時累計貢獻率達到90.30%(表2),超過預測TOC要求的85.00%,引入結(jié)束。同理,可以進行中—低咸化BP模型主成分分析。
在進行BP神經(jīng)網(wǎng)絡訓練時,部分輸入?yún)?shù)受鹽度影響,局部測井曲線出現(xiàn)極值,曲線波動大,訓練系統(tǒng)為了使這部分樣本與訓練集完全匹配,導致訓練過程過度嚴格,出現(xiàn)過擬合現(xiàn)象。過擬合得到的模型在訓練集表現(xiàn)良好,但驗證集表現(xiàn)很差,模型泛化能力弱,不能應用到其他井位。因此,此次模型選取的是貝葉斯正則化算法[12],算法在損失函數(shù)中添加一個L2正則項,用來抑制過大的模型參數(shù),緩解過擬合現(xiàn)象,具體如式(9)所示:等式右側(cè)第1項代表原始損失函數(shù),稱為C0項;等式右側(cè)第2項是引入的L2正則項。
式中:N為樣本總數(shù);yi和為第i個樣本的真實值和預測值;n為訓練集樣本數(shù);wj為網(wǎng)絡權(quán)值;λ為正則項系數(shù),通過λ權(quán)衡正則項與C0項的比重。
式(9)提高了算法的收斂速率和泛化能力。針對研究區(qū)將測井數(shù)據(jù)按75%、15%、15%的比例分配訓練集、測試集以及驗證集,拓撲關(guān)系如圖3所示。
圖3 BP神經(jīng)網(wǎng)絡拓撲關(guān)系圖Fig.3 Topological graph of BP neural network
綜合建立的模型,針對3種方法進行應用,選取高咸化地區(qū)獅20井、低咸化地區(qū)梁3井繪制了實測TOC與預測TOC的擬合圖(圖4),使用相關(guān)系數(shù)(R2)作為評價標準。
圖4 下干柴溝組上段實測TOC與預測TOC對比Fig.4 Comparison of measured TOC and predicted TOC in upper member of Lower Ganchaigou Formation
回歸模型R2均小于0.500 0,總體表現(xiàn)最差,離散度也最大。高咸化的ΔlgR模型R2為0.691 3;中—低咸化ΔlgR模型R2為0.677 7,ΔlgR模型在高咸化地區(qū)預測結(jié)果更好,ΔlgR模型整體上優(yōu)于回歸模型。高咸化神經(jīng)網(wǎng)絡模型訓練集 R2為0.889 0;中—低咸化訓練集R2為0.973 4,其中,高咸化模型的驗證集(圖4b、c)R2低于訓練集較多,說明鹽度在一定程度上影響了模型穩(wěn)定性。
圖5為不同鹽度地區(qū)3種預測模型的實際應用,針對圖5的應用結(jié)果進行模型預測結(jié)果討論。
圖5 下干柴溝組上段烴源巖TOC預測模型單井對比Fig.5 Single well correlation diagram of TOC prediction models for high salinity and medium-low salinity source rocks
神經(jīng)網(wǎng)絡模型由于方法的優(yōu)越性,整體上表現(xiàn)最優(yōu),通過大量的機器學習,達到90%以上的準確率。由圖5可知,神經(jīng)網(wǎng)絡模型在高咸化地區(qū)的預測效果沒有低咸化地區(qū)效果明顯,中—低咸化模型數(shù)據(jù)收斂性最好。通過貝葉斯算法雖然提高了模型的泛化能力,但在實際預測中,輸入測井參數(shù)的品質(zhì)、網(wǎng)絡參數(shù)(權(quán)值、迭代次數(shù)、訓練速率等)都會影響模型預測結(jié)果。且高咸化模型的輸入?yún)?shù)較復雜,測井參數(shù)與TOC之間的對應關(guān)系也沒有中低咸化模型簡單,這些原因都會提高機器學習難度,降低預測準確度。此外,機器學習需要大量數(shù)據(jù)支撐,在測井數(shù)據(jù)較少的地區(qū)不能使用神經(jīng)網(wǎng)絡預測。
優(yōu)化的ΔlgR僅需要聲波和電阻率2條曲線,對測井要求較低。圖5中優(yōu)化的ΔlgR曲線明顯具有聲波曲線與電阻率曲線的變化特征,在沉積過程中,高鹽度地區(qū)受鹽度變化影響,碳酸鹽巖與泥巖大量互層的烴源巖段聲波曲線超出公式應用范圍,但應用歸一化原理,降低了鹽度影響,使得高鹽度模型表現(xiàn)優(yōu)于低鹽度地區(qū)模型。同時在應用過程中發(fā)現(xiàn),由于烴源巖層在縱向上跨越深度較大,在基值的選取中不能應用于整個層位,需要分層位、甚至在同一層分段擬合ΔlgR公式,工作量較大。
圖5回歸模型預測趨于將曲線中心化,曲線左右幅度變化較小,整體預測TOC變化程度較小。在高鹽度和中—低鹽度地區(qū)應用模型預測差異小,模型對鹽度不敏感,回歸模型僅根據(jù)數(shù)學方法預測,TOC與擬合值結(jié)果偏差較大。
(1)根據(jù)測井曲線參數(shù),采用優(yōu)化的ΔlgR和BR-BP神經(jīng)網(wǎng)絡對柴西地區(qū)下干柴溝組上段烴源巖的TOC進行預測,根據(jù)咸化程度不同分別建立預測模型。
(2)多元回歸模型擬合效果趨近中心值,表現(xiàn)平庸,準確率一般;優(yōu)化的ΔlgR模型應用歸一化原理,有效減小鹽度影響,但基值選取繁瑣,曲線普適性不好;BR-BP神經(jīng)網(wǎng)絡模型的預測效果總體上最好,貝葉斯算法有效提高了模型泛化能力。高咸化地區(qū)受復雜地質(zhì)條件影響,預測效果較低咸化模型表現(xiàn)差,在處理高咸化模型時應注意網(wǎng)絡參數(shù)的設定。
(3)在柴達木西部地區(qū)下干柴溝組上段(E32)具體應用時,優(yōu)先選取BR-BP人工神經(jīng)網(wǎng)絡預測,針對鹽度對巖性和測井曲線的變化,分別建立了高鹽度神經(jīng)網(wǎng)絡模型和中—低鹽度神經(jīng)網(wǎng)絡模型,可在全柴西范圍內(nèi)應用。當部分井測井數(shù)據(jù)較少而不足以支撐機器學習以及高鹽度神經(jīng)網(wǎng)絡模型響應不好時,選用優(yōu)化后的ΔlgR模型進行輔助研究,建立的模型可以覆蓋柴西全區(qū),有效指導盆地內(nèi)高精度烴源巖評價。