郭廣山 郭建宏 孫立春 劉麗芳 田永凈
(1.中海油研究總院有限責(zé)任公司 北京 100028; 2.油氣資源與勘探技術(shù)教育部重點實驗室(長江大學(xué)) 湖北武漢 430100)
煤層氣是以吸附態(tài)為主的非常規(guī)天然氣,歷經(jīng)幾十年勘探開發(fā)實踐,中國已取得顯著成效。2021年全國煤層氣地面抽采達到59.6億m3,已建成沁水盆地南部和鄂爾多斯盆地東緣兩個煤層氣基地。近些年在深部煤層氣、多薄煤層疊置煤層氣藏等領(lǐng)域?qū)崿F(xiàn)突破性進展。隨著煤層氣勘探開發(fā)進程,對煤層氣儲層精細評價和認知深度的需求愈發(fā)提高。在諸多煤層氣儲層參數(shù)中,含氣性精細評價尤為重要。煤儲層含氣性貫穿于煤層氣開發(fā)整個生命周期,從前期煤層氣精準(zhǔn)選區(qū)、適應(yīng)性工程工藝設(shè)計、探明儲量申報、產(chǎn)能建設(shè)以及低產(chǎn)低效井治理對煤層含氣性認識均提出更高的要求。目前,行業(yè)內(nèi)普遍采用參數(shù)井直接法確定含氣量大小。為解決含氣性非均質(zhì)性強等難題,不少學(xué)者和專家創(chuàng)新提出諸多含氣量間接方法,如多元回歸分析法、基于測井?dāng)?shù)據(jù)含氣量預(yù)測方法、KIM方程含氣量預(yù)測方法、地震疊合反演含氣量預(yù)測方法、核磁共振技術(shù)含氣量預(yù)測方法、基于生產(chǎn)數(shù)據(jù)含氣量預(yù)測方法等,這些含氣量間接法有效的提高含氣量的評價精度,適用于不同的勘探開發(fā)階段,但受限于煤層氣參數(shù)井含氣量測試數(shù)量和參與計算數(shù)據(jù)的準(zhǔn)確性[1-3]。隨著大數(shù)據(jù)、AI技術(shù)、機器學(xué)習(xí)等新技術(shù)的興起,不少學(xué)者已嘗試將這些技術(shù)應(yīng)用到煤儲層評價中,目前機器學(xué)習(xí)含氣量預(yù)測方法主要包括XGboost算法、隨機森林算法、支持向量機算法和神經(jīng)網(wǎng)絡(luò)算法等[4-8]。煤層氣現(xiàn)場工程工藝迫切需要深化煤儲層含氣量空間分布特征,而三維地質(zhì)建模在常規(guī)油氣儲層方面已得到廣泛的應(yīng)用,但針對煤儲層參數(shù)三維建模應(yīng)用相對有限[9-14]。同時,未見有將機器學(xué)習(xí)和三維地質(zhì)建模有機結(jié)合評價煤儲層含氣性。
為解決上述問題,筆者以沁水盆地南部柿莊南高煤階煤層氣田3號煤層為評價對象,依托38口煤層氣參數(shù)井含氣量測試數(shù)據(jù)和476口生產(chǎn)井常規(guī)測井資料,利用隨機森林算法建立3號煤層含氣量計算模型,并利用盲井進行可靠性驗證,與實測值吻合度較好。在構(gòu)建3號煤層構(gòu)造框架基礎(chǔ)上,利用油氣行業(yè)成熟建模軟件構(gòu)建3號煤層含氣量三維模型,精細刻畫含氣量空間分布規(guī)律,為區(qū)塊滾動勘探和整體開發(fā)奠定基礎(chǔ)。
柿莊南區(qū)塊位于沁水盆地東南部(圖1),是中國煤層氣勘探程度較高的區(qū)塊之一,區(qū)塊面積388.0 km2。區(qū)域上沁水盆地南部屬于沁水復(fù)向斜的南端,整體為一單斜構(gòu)造。盆地西部主要發(fā)育寬緩的 NNE 向的次級褶曲,東部發(fā)育近南北向的次級山字形構(gòu)造,斷層不發(fā)育,地層傾角 5°左右,較為平緩。該區(qū)塊具有東西分帶的構(gòu)造格局,整體呈東南高、西北低的構(gòu)造格局。區(qū)內(nèi)石炭系上統(tǒng)太原組和二疊系下統(tǒng)山西組是主要含煤層系。山西組為一套海陸過渡為主的三角洲沉積體系,其中3號煤層是該區(qū)開發(fā)目的煤層,煤層厚度分布穩(wěn)定,主要在4.0~8.0 m,平均6.0 m;中等埋藏深度,主要在400~1 020 m,平均750 m;煤巖成熟度較高,Ro在2.5%~3.0%,為無煙煤三類;參數(shù)井注入/壓降試井測試結(jié)果顯示3號煤層滲透率整體較低,主要在0.01~0.04 mD,屬特低滲儲層[15-16]。
圖1 柿莊南區(qū)塊區(qū)域位置圖
隨機森林算法由Breiman于2001年提出[17],是一種并行式集成學(xué)習(xí)方法,即將多個個體學(xué)習(xí)器組合形成集成模型。隨機森林方法是由同一類型的決策樹模型組成,屬于同質(zhì)集成。隨機森林算法中的每一個基學(xué)習(xí)器都是一個決策樹模型。決策樹節(jié)點分裂特征選擇指標(biāo)為Gini指數(shù),相對于信息增益的對數(shù)化計算,其計算速度更快。為了防止模型出現(xiàn)過擬合或訓(xùn)練不充分導(dǎo)致的精度過低問題,將Bagging(bootstrap aggregation)思想引入至隨機森林方法[2]。Bagging是典型的集成學(xué)習(xí)方法,而集成學(xué)習(xí)方法的基礎(chǔ)就是Bootstrap方法。Bootstrap是一種抽樣方法,其核心是對一整體樣本進行有放回的抽取,該方法在數(shù)據(jù)分析中得到了較好的應(yīng)用[3]。Bagging是基于bootstrap方法的并行式集成方法,所謂并行式方法是指個體學(xué)習(xí)器之間相互獨立,不存在強依賴關(guān)系,可同時生成,即累積多個個體學(xué)習(xí)器的學(xué)習(xí)能力,能獲得更優(yōu)越的泛化性能,提高整體模型的預(yù)測精度和穩(wěn)定性[17]。Bagging算法的流程如圖2所示。
圖2 Bagging算法流程圖
本文評價煤層含氣量的隨機森林回歸模型使用CART樹,隨機森林算法的流程如下:給定原始訓(xùn)練樣本大小為N,參與建模的特征個數(shù)(測井曲線數(shù))為M。
(1)
式(1)中:e為自然常數(shù)。可得到當(dāng)樣本足夠大時,未參與決策樹模型建立的樣本數(shù)越趨近于原始訓(xùn)練樣本數(shù)的36.8%,這一部分數(shù)據(jù)就叫做袋外數(shù)據(jù)(OOB,out of bag),一般可用于檢驗決策樹模型效果。
2)基于子訓(xùn)練集建立決策樹模型,首先從總體特征中隨機選擇m(m≤M)個特征,節(jié)點分裂時選取的特征通過計算m個特征的Gini指數(shù)。Gini指數(shù)越小,代表純度越高,故Gini指數(shù)最小的特征即為該節(jié)點分裂的最佳特征,Gini指數(shù)具體計算公式為:
(2)
式(2)中:pl為樣本屬于第l類的概率;L為目標(biāo)分裂節(jié)點所含樣本的總類別數(shù);A為m個特征中某個特征。通過該公式可以計算得到m個特征中Gini指數(shù)最小的特征。而在回歸問題中,通過均方誤差表征純度,均方誤差越小,代表純度越高,故均方誤差最小的特征即為該節(jié)點分裂的最佳特征。
通過上述原則,以二叉樹的形式進行分裂至葉子節(jié)點,分裂結(jié)束的依據(jù)由設(shè)置的樹的深度以及葉子節(jié)點包含最小樣本數(shù)所定。
3)重復(fù)(1)、(2)步驟K次,即可得到K個子訓(xùn)練集以及對應(yīng)的模型,這些相互獨立的模型集成就形成隨機森林模型。
4)利用隨機森林分類模型對測試集進行預(yù)測時,每個決策樹模型都會給出一個預(yù)測結(jié)果。對于回歸類型問題,隨機森林預(yù)測結(jié)果采取平均值方式,即K個基分類器預(yù)測結(jié)果的均值為隨機森林預(yù)測結(jié)果。
可見,隨機森林的“隨機”體現(xiàn)在兩方面:基分類器的訓(xùn)練數(shù)據(jù)的隨機性及節(jié)點分裂特征選擇的隨機性,因此當(dāng)基分類器較多時能實現(xiàn)原始訓(xùn)練數(shù)據(jù)的有效利用,且Bootstrap的思想能一定程度上解決樣本數(shù)據(jù)分布不均衡的問題,這也使隨機森林方法成為一種高效且實用性強的非線性算法。
針對目標(biāo)區(qū)塊,共收集到38口參數(shù)井,對參數(shù)井進行了井壁取心,各參數(shù)井在3號層采集的巖心樣品個數(shù)為6~13組,收集對應(yīng)參數(shù)井測井資料,包括井徑測井、自然伽馬測井、自然電位測井,電阻率系列測井(深、淺側(cè)向)與三孔隙度系列測井(補償密度、聲波時差與補償中子)等。以SZN1井為例,展示其含氣量數(shù)據(jù)來源,該樣品含氣量測定遵照GB/T 19559-2004《煤層氣含量測定方法》。SZN-1井中3號層共采集13個巖心樣本用于解吸實驗,巖心樣本從取心密閉罐中送至實驗室,結(jié)合實驗測量了各關(guān)鍵參數(shù),最終通過校正得到各井取心樣品在空氣干燥基狀態(tài)下的含氣量數(shù)值。
1)基于2.2中收集到的目標(biāo)區(qū)塊3號煤層含氣量實驗數(shù)據(jù),結(jié)合對應(yīng)巖心樣品的實驗參數(shù)值,即實驗室視密度值與實驗室空氣干燥基狀態(tài)下的工業(yè)組分灰分值,通過比對上述值與實際補償密度測井資料的響應(yīng)變化趨勢對巖心樣本進行深度歸位。
2)對各參數(shù)井間地球物理測井資料進行標(biāo)準(zhǔn)化處理,旨在消除因測井儀器與環(huán)境差異導(dǎo)致的測井曲線響應(yīng)異常,具體做法為將參數(shù)井3號煤層上端的致密層視作標(biāo)準(zhǔn)層,以其中一口參數(shù)井為標(biāo)準(zhǔn)井,通過對比其他參數(shù)井致密層地球物理測井資料響應(yīng)值與標(biāo)準(zhǔn)井之間的差異,確定加法因子后對地球物理測井資料響應(yīng)值進行標(biāo)準(zhǔn)化處理,整個工作流程于CIFLOG軟件中完成。
3)對測井資料進行擴徑校正處理,由于煤層機械強度差易碎,使得鉆井過程中易出現(xiàn)井壁垮塌即擴徑現(xiàn)象,這一現(xiàn)象會使得地球物理測井資料響應(yīng)值出現(xiàn)異常,本文對受擴徑影響嚴(yán)重的測井系列進行擴徑校正,利用多元回歸模型完成了三孔隙度系列測井曲線及電阻率測井曲線的擴徑校正。
4)根據(jù)深度歸位后巖心樣品的深度段提取對應(yīng)的地球物理測井資料響應(yīng)值,由于巖心樣本并非為一深度點而是對應(yīng)一深度段,因此對測井曲線響應(yīng)值預(yù)處理時結(jié)合測井儀器實際采樣間隔進行了多組數(shù)據(jù)提取以覆蓋整個實驗巖心段,并對樣本數(shù)據(jù)組進行清洗,清洗目標(biāo)可分為三類:①深度段對應(yīng)測井曲線響應(yīng)不全處,即由于部分巖心樣本位于3號煤層起始段附近與終止段附近,這類樣本點對應(yīng)的測井曲線響應(yīng)值往往只有理論響應(yīng)值的一半(“半幅點”),不利于后續(xù)煤層含氣量模型構(gòu)建;②夾矸段,在3號煤層下半段中存在非煤巖段,多為泥巖或炭質(zhì)泥巖,這類巖心樣本對應(yīng)的地球物理測井資料中自然伽馬測井系列與補償密度測井系列響應(yīng)值為異常高值,電阻率測井系列響應(yīng)值為異常低值,故對這類巖心樣本進行清洗;③對本就不符合實驗規(guī)范的巖心樣品進行清洗。
綜上,針對目標(biāo)區(qū)塊3號煤層含氣量研究共獲得689組煤層含氣量與測井曲線響應(yīng)數(shù)據(jù)用于煤層含氣量模型構(gòu)建。
結(jié)合本文實際研究內(nèi)容,構(gòu)建目標(biāo)區(qū)塊3號煤層含氣量評價模型的實際步驟為:
1)將實際收集到的地球物理測井曲線響應(yīng)與煤層含氣量進行相關(guān)性分析,已有成果也表明測井曲線與煤層含氣量的變化存在密切關(guān)系[5-7]?;趯嶋H測井系列,選取自然伽馬測井曲線,補償密度測井曲線,聲波時差測井曲線,補償中子測井曲線和深、淺側(cè)向電阻率曲線為敏感測井曲線,作為特征向量參與建立煤層含氣量評價模型。
2)利用選取出的測井序列按照隨機森林算法建模步驟進行模型構(gòu)建,通過網(wǎng)格尋優(yōu)與交叉驗證的方法尋找最優(yōu)的決策樹個數(shù)與分裂特征數(shù),同時測試模型的有效性。
3)根據(jù)探究得到的特征個數(shù)與回歸子樹個數(shù)進行建模,并用未參與建模的數(shù)據(jù)進行預(yù)測驗證,以確保模型的泛化性。
在煤層含氣量模型的構(gòu)建中,受制于樣本數(shù)量的限制,使得這一問題屬小樣本問題,隨機森林算法中對小樣本數(shù)據(jù)敏感的超參數(shù)為決策樹個數(shù)與分裂特征數(shù),樹的深度在小樣本數(shù)據(jù)中作用與決策樹個數(shù)差異小,葉子節(jié)點數(shù)無須參與網(wǎng)格尋優(yōu)[8]。因此本文對隨機森林中分裂特征數(shù)與分裂特征數(shù)進行網(wǎng)格尋優(yōu),將分裂特征數(shù)的尋優(yōu)步長設(shè)為1,決策樹個數(shù)尋優(yōu)步長設(shè)置為10,并同時引入交叉驗證用于模型正確性判斷,交叉驗證是指將訓(xùn)練集數(shù)據(jù)等分成數(shù)份,每次留有一份數(shù)據(jù)作為驗證,其余數(shù)據(jù)用于訓(xùn)練,利用驗證部分的誤差來判斷模型的正確性,最終每一份數(shù)據(jù)都會得到一份誤差結(jié)果,若每一份數(shù)據(jù)誤差結(jié)果差距不大且穩(wěn)定,則表明方法的正確性與有效性,本文使用的為十折交叉驗證。將現(xiàn)有的樣本數(shù)據(jù)組中隨機抽取70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%的數(shù)據(jù)作為測試集[18],訓(xùn)練集用于訓(xùn)練構(gòu)建煤層含氣量模型,測試集用于檢驗煤層含氣量模型的正確性,并在此基礎(chǔ)上,引入同工區(qū)中的其他新井作為驗證數(shù)據(jù)來檢驗?zāi)P偷姆夯耘c實用性。首先利用訓(xùn)練集對模型進行訓(xùn)練構(gòu)造,圖3a為隨機森林方法的超參數(shù)網(wǎng)格尋優(yōu)過程,經(jīng)計算表明,分裂特征數(shù)為4且決策樹個數(shù)為421時均方誤差最低,并對這一參數(shù)配置進行交叉驗證結(jié)果檢查,如圖3b所示,結(jié)合交叉驗證結(jié)果誤差表明,等分的十份數(shù)據(jù)各作為驗證部分時誤差低且無明顯波動,即構(gòu)建的模型效果展示無偶然性,也表明了該組超參數(shù)尋優(yōu)結(jié)果的正確性。
圖3 隨機森林構(gòu)建煤層含氣量尋優(yōu)過程
將模型分別應(yīng)用至測試集與驗證集新井中,效果如圖4所示,圖4a為模型訓(xùn)練集回判結(jié)果,通過繪制交會圖分析得到訓(xùn)練集數(shù)據(jù)準(zhǔn)確性高,平均相對誤差為4.51%,且所有樣本點均在15%誤差線內(nèi);圖4b為模型對數(shù)據(jù)測試集的應(yīng)用效果,樣本點中2%的數(shù)據(jù)落在15%誤差線外,無誤差異常高值點,整體樣本數(shù)據(jù)均勻分布在零誤差線兩側(cè),平均相對誤差為8.77%;圖4c為對新井?dāng)?shù)據(jù)進行處理后與實驗數(shù)據(jù)繪制的交會圖,通過誤差分析分析,驗證集數(shù)據(jù)分布于零誤差線兩側(cè),分析結(jié)果表明各組數(shù)據(jù)相對誤差小于15%,平均相對誤差為9.86%,使用效果與測試集上的表現(xiàn)相吻合。通過上述分析,訓(xùn)練集的結(jié)果表明了模型建立的有效性,表明模型對數(shù)據(jù)學(xué)習(xí)利用的完整性,測試集的結(jié)果表明了模型的正確性,驗證集的結(jié)果表明了模型具有泛化性與實用性。
圖4 隨機森林構(gòu)建煤層含氣量模型效果展示
此外,圖5展示了一口驗證集新井的評價結(jié)果,隨機森林方法計算得到的含氣量曲線與對應(yīng)深度的巖心樣本實驗含氣量結(jié)果在數(shù)值上吻合程度高。這說明了隨機森林方法在煤層含氣量模型構(gòu)建的可行性與正確性,也表明了利用隨機森林方法結(jié)合地球物理測井資料評價得到的煤層含氣量模型可被推廣應(yīng)用于煤層含氣量三維精細建模。
圖5 隨機森林方法構(gòu)建的煤層含氣量模型在驗證集新井上的應(yīng)用效果
煤儲層含氣量三維建模將煤儲層含氣量測試技術(shù)、計算機算法和測井學(xué)等多門學(xué)科有機結(jié)合,最大程度精細刻畫含氣量空間分布特征,有效支撐區(qū)塊煤層氣滾動勘探和整體開發(fā)[19]。
筆者依托參數(shù)井巖心含氣量測試數(shù)據(jù)和隨機森林算法含氣量預(yù)測曲線,利用常規(guī)油氣成熟三維建模軟件,在3號煤層層序建模的基礎(chǔ)上構(gòu)建含氣量三維模型,精細刻畫3號煤層含氣量空間分布特征。
依據(jù)研究區(qū)面積和參與本次建模的煤層氣井平面分布情況,對3號煤層三維地質(zhì)建模做網(wǎng)格化處理,平面網(wǎng)格設(shè)置為100 m×100 m;根據(jù)研究區(qū)3號煤層厚度大小及穩(wěn)定性情況,垂向網(wǎng)格控制在0.5 m,三維地質(zhì)模型的網(wǎng)格為:X方向為111個網(wǎng)格,Y方向為146個網(wǎng)格,Z方向為19個網(wǎng)格,網(wǎng)格總數(shù)為111×146×19=307 914個。
構(gòu)造模型是實現(xiàn)煤儲層屬性精細建模的前提。本次研究區(qū)勘探開發(fā)程度較高,參與此次建模的井?dāng)?shù)多且分布均勻,為實現(xiàn)精細建模提供資料基礎(chǔ)。將參與建模煤層氣井基礎(chǔ)信息、含氣量測井曲線、煤層頂、底面海拔數(shù)據(jù)導(dǎo)入,生成3號煤層頂面和底面構(gòu)造兩個層面,構(gòu)建煤層結(jié)構(gòu)體和層序建模,實現(xiàn)3號煤層構(gòu)造建模。結(jié)果顯示,山西組3號煤層厚度在2.5~14.0 m,平均6.0 m;區(qū)塊具有東西分帶的構(gòu)造特征,整體呈東南高、西北低的構(gòu)造格局(圖6)。
圖6 山西組3號煤層三維構(gòu)造模型
在三維構(gòu)造模型基礎(chǔ)上,利用基于隨機森林算法含氣量預(yù)測曲線,構(gòu)建3號煤層含氣量三維模型。具體步驟為:①將隨機森林算法計算得出的含氣量曲線導(dǎo)入數(shù)據(jù)庫;②選擇隨機森林算法計算的含氣量曲線,在指定研究區(qū)內(nèi)進行煤層氣井篩選,確定參與建模的煤層氣井和含氣量曲線;③采用序貫高斯算法,利用高斯模型構(gòu)建含氣量屬性三維模型;④利用變差函數(shù)分析對含氣量在空間上的連續(xù)性及各方向異性進行評價。模型結(jié)果顯示:區(qū)內(nèi)3號煤層含氣量分布在6.4~25.4 m3/t;高含氣區(qū)分布在區(qū)塊西部和北部,縱向上在距頂面1.0 m和底面2.0 m范圍內(nèi)發(fā)育兩個高含氣層段(圖7)。煤層含氣性對煤層氣勘探開發(fā)、儲量評估和產(chǎn)能建設(shè)具有決定性指導(dǎo)作用,該模型將對煤層氣精準(zhǔn)選區(qū)、水平井軌跡設(shè)計、射孔層段優(yōu)選以及低產(chǎn)低效井綜合治理具有重要的指導(dǎo)意義。
圖7 山西組3號煤層含氣量三維模型
1)利用隨機森林方法結(jié)合地球物理測井資料可以有效評價煤層含氣量,隨機森林方法因Bagging思想能平衡數(shù)據(jù)樣本分布不均的問題使得這一模型針對含氣量的評價效果無偏差,且利用網(wǎng)格尋優(yōu)與交叉驗證相結(jié)合的超參數(shù)尋優(yōu)方式能保證模型的正確性與有效性,構(gòu)建的煤層含氣量模型具有泛化性與實用性,為含氣量精細三維模型的構(gòu)建打下堅實的數(shù)據(jù)基礎(chǔ)。
2)機器學(xué)習(xí)與三維地質(zhì)建模技術(shù)高度融合是實現(xiàn)含氣性空間表征的有效途徑之一。隨機森林算法在含氣量計算中的應(yīng)用能有效克服樣本數(shù)少且非均質(zhì)性強等問題。對于不同類型煤層氣田適用的機器學(xué)習(xí)方法會有所不同,需根據(jù)具體情況來確定。含氣性空間表征的準(zhǔn)確程度取決于含氣量機器學(xué)習(xí)曲線的數(shù)量和參與計算井分布情況,隨著樣本數(shù)和參與計算井?dāng)?shù)的增加以及分布相對均勻,含氣量三維地質(zhì)模型愈發(fā)精確。該方法對于煤層氣精準(zhǔn)選區(qū)、水平井軌跡設(shè)計及鉆探、壓裂射孔優(yōu)選具有較好指導(dǎo)意義。