付君豪 陳再賀 付 憲 李云峰 胡慧婷
(1. 長(zhǎng)江大學(xué)資源與環(huán)境學(xué)院,湖北 武漢 430100;2. 中國(guó)石油華北油田分公司第五采油廠,河北 辛集 052360;3. 東北石油大學(xué)地球科學(xué)學(xué)院,黑龍江 大慶 163318)
砂地比是表征儲(chǔ)層特征的重要參數(shù)之一,被廣泛應(yīng)用于地質(zhì)研究的多個(gè)領(lǐng)域。作為碎屑巖沉積響應(yīng)的特征值,砂地比可用于開(kāi)展沉積物源分析及沉積相刻畫(huà)[1-5]、分析地層沉積旋回及劃分地層[6]、開(kāi)展裂縫發(fā)育程度預(yù)測(cè)[7]等工作。同時(shí),砂地比是評(píng)價(jià)碎屑巖儲(chǔ)層輸導(dǎo)油氣能力的重要指標(biāo)[8-12],被廣泛應(yīng)用于油藏類(lèi)型判斷及有利區(qū)帶預(yù)測(cè)等工作中。
砂地比資料可以通過(guò)錄井?dāng)?shù)據(jù)和測(cè)井巖性解釋數(shù)據(jù)獲得,但這種方法只能提供井點(diǎn)處的砂地比信息,應(yīng)用受限,在無(wú)井區(qū)則需借助地震資料開(kāi)展預(yù)測(cè)。地震屬性是根據(jù)一些數(shù)學(xué)算法提取地震數(shù)據(jù)中的特征信息,利用其與砂地比等儲(chǔ)層參數(shù)建立關(guān)聯(lián)而開(kāi)展儲(chǔ)層參數(shù)的三維空間估算[13-15]。單一地震屬性除了受巖性影響外,還會(huì)受到孔隙結(jié)構(gòu)、孔隙中流體性質(zhì)以及隨機(jī)噪聲等多種因素干擾,預(yù)測(cè)結(jié)果存在多解性。
因此,越來(lái)越多的學(xué)者嘗試應(yīng)用人工智能算法,綜合多種地震屬性建立地震屬性與儲(chǔ)層參數(shù)之間的非線性關(guān)系[16-22]。隨機(jī)森林算法在生物信息、文本分類(lèi)、遙感地理學(xué)等領(lǐng)域均取得了良好的效果[23-30],并由M.J.Cracknell 等[31-32]首次引入到地球物理領(lǐng)域,應(yīng)用于航空數(shù)據(jù)確定巖性分布關(guān)系。同時(shí),其在利用地球物理數(shù)據(jù)開(kāi)展巖性識(shí)別等方面也有初步嘗試[33-35],對(duì)于巖性判別這種離散型數(shù)據(jù)識(shí)別效果好于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)。
本文以井筒巖性信息為標(biāo)簽數(shù)據(jù),以單砂體和地震分辨率為約束的細(xì)分法來(lái)解決樣本量不足的問(wèn)題。采用隨機(jī)森林算法進(jìn)行直接預(yù)測(cè)砂地比,獲得了比線性回歸方法有較大提升的結(jié)果。
束21 井區(qū)位于束鹿凹陷北端,緊鄰陡坡帶,含有豐富的油氣資源(圖1(a))。受地層超覆的影響,束21 井區(qū)僅發(fā)育館陶組和東營(yíng)組,其中館陶組是主要的油氣儲(chǔ)層。
圖1 束21井區(qū)構(gòu)造位置及地層綜合柱狀圖Fig. 1 Structural location and comprehensive stratigraphic column of Shu21 well block
束鹿凹陷的主要成藏期為館陶組末期和明化鎮(zhèn)組中期至現(xiàn)在,根據(jù)砂體輸導(dǎo)連通概率的研究,砂地比是束21 井區(qū)館陶組油層成藏評(píng)價(jià)的關(guān)鍵參數(shù),束21 井區(qū)砂地比的大小直接影響著油氣的運(yùn)移和成藏,對(duì)束21 井區(qū)砂地比的準(zhǔn)確評(píng)價(jià),有助于預(yù)測(cè)該區(qū)域油氣資源的分布和成藏規(guī)律研究。
束21 井區(qū)館陶組發(fā)育辮狀河沉積體系,砂體分布較廣,自上而下劃分為NgⅠ、NgⅡ和NgⅢ,與下伏古近系呈不整合接觸(圖1(b))。NgⅠ主要發(fā)育辮狀河道及泛濫平原沉積微相,單砂體厚度為1~20 m,平均為4 m,砂地比為0.3~0.8;NgⅡ主要發(fā)育心灘及泛濫平原沉積微相,砂體厚度變化較大,測(cè)井曲線呈齒化箱形,單砂體厚度為0.5~38.0 m,平均為8 m,砂地比為0.4~0.7;NgⅢ主要發(fā)育心灘沉積微相,地層較薄,單砂體厚度不大但砂地比高,測(cè)井曲線呈齒化箱形,單砂體厚度為0.1~17.0 m,平均為5 m,砂地比為0.5~1.0。
束21 井區(qū)西北部井網(wǎng)較密,東南部井網(wǎng)稀疏,為了獲得全區(qū)砂地比展布,需引入地震資料開(kāi)展預(yù)測(cè)。地震資料縱向分辨能力為,根據(jù)研究區(qū)目的層頻譜分析可知,地震資料的主頻約為20 Hz,根據(jù)地層速度1 200 m/s 估算地震資料縱向分辨能力為15 m 左右。
儲(chǔ)層巖性等數(shù)據(jù)可以從井筒的錄井、測(cè)井、取心等資料獲取,也可以通過(guò)地震數(shù)據(jù)提取相關(guān)屬性來(lái)表征。由于井筒數(shù)據(jù)和地震數(shù)據(jù)的采集方式不同,需要在井震層位標(biāo)定的基礎(chǔ)上進(jìn)行樣本提取,以確保井震信息的一致性。束21 井區(qū)的巖性資料相對(duì)較為充分,通過(guò)直接利用巖性進(jìn)行統(tǒng)計(jì)計(jì)算可以得到各層砂地比。然而,由于井位數(shù)量有限,若只提取井點(diǎn)處NgⅠ、NgⅡ和NgⅢ層位的砂地比,數(shù)量會(huì)受到限制,不利于隨機(jī)森林模型的訓(xùn)練。
根據(jù)前人研究成果,振幅類(lèi)地震屬性、復(fù)地震道類(lèi)和頻率類(lèi)屬性均有利于表征儲(chǔ)層的巖性變化。由于研究區(qū)位于束鹿凹陷西斜坡超覆邊界處,因此采用平行于頂面的方式進(jìn)行地震屬性提取。同時(shí),提取范圍與井筒計(jì)算的砂地比范圍保持一致,構(gòu)建了一套井震統(tǒng)一的標(biāo)簽數(shù)據(jù),以地震屬性作為輸入,井筒砂地比統(tǒng)計(jì)值作為輸出,用于模型訓(xùn)練。
束21 井區(qū)館陶組目的層單砂體平均厚度在8 m左右,地震資料分辨率在15 m 左右,因此分別以8和15 m 為間隔開(kāi)展地層細(xì)分。通過(guò)提取細(xì)分層砂地比,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行有效擴(kuò)充。
受地震數(shù)據(jù)本身存在的噪聲和人為層位解釋誤差的影響,提取的地震屬性無(wú)法避免存在一定“野值”和“毛刺”。
首先需對(duì)提取的地震屬性開(kāi)展平滑濾波處理;其次,不同地震屬性反映的地球物理意義不同,計(jì)算公式也不同,導(dǎo)致地震屬性之間量綱不統(tǒng)一,個(gè)別地震屬性數(shù)量級(jí)差異較大,因此還需對(duì)地震屬性開(kāi)展標(biāo)準(zhǔn)化或歸一化等處理,進(jìn)而避免因數(shù)據(jù)量級(jí)差異而導(dǎo)致的貢獻(xiàn)率差異。
地震屬性數(shù)據(jù)平滑濾波,通常采用3 點(diǎn)或者5點(diǎn)平滑因子濾波,在特殊情況下,如對(duì)某些小面元采集的地震數(shù)據(jù)進(jìn)行提取屬性時(shí),也可以用7 點(diǎn)或9 點(diǎn)平滑因子濾波,但此時(shí)容易掩蓋掉某些細(xì)微異常。
因此要根據(jù)具體的情況來(lái)確定所采用的平滑因子濾波的方式[17],其表達(dá)式為
式中:y(k) ——濾波后第k個(gè)目標(biāo)樣點(diǎn)值;y(i)——濾波后第i個(gè)樣點(diǎn)值;n——選定的濾波間隔數(shù);M——數(shù)據(jù)文件的總樣點(diǎn)數(shù)。
數(shù)據(jù)預(yù)處理流程包括有數(shù)據(jù)異常值剔除,地震屬性值正態(tài)標(biāo)準(zhǔn)化處理公式為
式中:y——標(biāo)準(zhǔn)化后數(shù)據(jù);x——待正太標(biāo)準(zhǔn)化的數(shù)據(jù);μ——原始樣本數(shù)據(jù)的均值;σ——原始樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
束21 井區(qū)館陶組砂泥互層發(fā)育,砂體發(fā)育不均,橫向變化大,振幅類(lèi)屬性有利于直觀展示此類(lèi)儲(chǔ)層發(fā)育特征。同時(shí)復(fù)地震道類(lèi)、頻率類(lèi)屬性也有利于開(kāi)展儲(chǔ)層砂體預(yù)測(cè)。
因此本文提取目的層間儲(chǔ)層類(lèi)相關(guān)屬性30 余種,實(shí)現(xiàn)儲(chǔ)層相關(guān)屬性第1 步優(yōu)選;第2 步優(yōu)選與目標(biāo)層砂地比相關(guān)性高且自相關(guān)性小的屬性。皮爾遜相關(guān)系數(shù)能較準(zhǔn)確地測(cè)量線性關(guān)系能力[18],它是一種衡量特征之間線性相關(guān)性的指標(biāo),可以反映出特征之間的強(qiáng)度和方向。
在地震屬性優(yōu)選中,通過(guò)計(jì)算不同屬性之間的皮爾遜相關(guān)系數(shù),可評(píng)估它們之間的相關(guān)性,并選擇最具代表性的特征,從而減少特征數(shù)量,便于提高模型效率和準(zhǔn)確性。
皮爾遜線性相關(guān)系數(shù)計(jì)算公式為
式中:rx,y——2 個(gè)變量x、y之間的線性相關(guān)系數(shù);m——樣本容量個(gè)數(shù);xi——表示第1 個(gè)變量中第i條數(shù)據(jù)的值;yi——表示第2 個(gè)變量中第i條數(shù)據(jù)的值;——xi的平均值;——yi的平均值。
由計(jì)算結(jié)果可知各地震屬性與砂地比之間的相關(guān)性。結(jié)合數(shù)據(jù)分布和地質(zhì)情況,優(yōu)選與砂地比相關(guān)性大于0.3 的地震屬性進(jìn)行建模運(yùn)算,包括反射強(qiáng)度斜率(相關(guān)系數(shù)0.355 4)、平均瞬時(shí)相位(相關(guān)系數(shù)0.345 1)、瞬時(shí)斜率頻率(相關(guān)系數(shù)0.313 9)和絕對(duì)振幅和體(相關(guān)系數(shù)0.312 1)。
結(jié)合砂地比預(yù)測(cè)所需輸入數(shù)據(jù),隨機(jī)森林預(yù)測(cè)流程如圖2 所示。隨機(jī)森林是基于決策樹(shù)分類(lèi)模型的一種集成學(xué)習(xí)方法[19-20],將有限的決策樹(shù)分類(lèi)模型進(jìn)行組合,以投票的方式將分類(lèi)器的預(yù)測(cè)結(jié)果進(jìn)行最終分類(lèi),從而解決單棵決策樹(shù)對(duì)數(shù)據(jù)分布特征表征不準(zhǔn)確、判別準(zhǔn)確率不高、過(guò)擬合風(fēng)險(xiǎn)等問(wèn)題,并廣泛應(yīng)用于智能訓(xùn)練的各個(gè)領(lǐng)域[21-23]。
圖2 利用隨機(jī)森林法預(yù)測(cè)砂地比流程示意Fig. 2 Schematic prediction workflow of sandstone thickness ratio by random forest method
在建立模型并對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)測(cè)的時(shí)候,通常會(huì)根據(jù)模型的誤差指標(biāo)來(lái)評(píng)價(jià)模型預(yù)測(cè)得好壞。本文中主要采取了3 個(gè)誤差指標(biāo)來(lái)進(jìn)行評(píng)價(jià):均方誤差(RMSE)、均方根誤差(RRMSE)、平均絕對(duì)誤差(RMAE)。
根據(jù)單砂體厚度和地震資料分辨能力,選擇8 m 細(xì)分層和15 m 細(xì)分層2 種間隔開(kāi)展數(shù)據(jù)統(tǒng)計(jì),并由此得到2 種樣本數(shù)據(jù)。為驗(yàn)證這2 種樣本數(shù)據(jù),哪個(gè)更優(yōu),本次研究采用隨機(jī)森林算法進(jìn)行試算。由圖3 可以看出隨機(jī)森林模型的3 個(gè)誤差指標(biāo),均是15 m 細(xì)分層的樣本數(shù)據(jù)訓(xùn)練的模型預(yù)測(cè)效果最好。
圖3 8、15 m細(xì)分層情況下隨機(jī)森林預(yù)測(cè)誤差Fig. 3 Random forest prediction error for 8 and 15 m subdivided layers
在細(xì)分地層過(guò)程中,由于以8 m 間隔細(xì)分的層位厚度比以15 m 間隔細(xì)分的層位厚度小,因此8 m細(xì)分的層位可能會(huì)導(dǎo)致該層全是砂巖或泥巖。這將導(dǎo)致所統(tǒng)計(jì)出來(lái)的砂地比值中有很多0 和1,而這些值屬于模型中的異常值,會(huì)影響模型的精確度。
因此,建議采用15 m 間隔細(xì)分的層位厚度進(jìn)行細(xì)分地層的操作。
針對(duì)此次束鹿凹陷束21 井區(qū)的砂地比的預(yù)測(cè),本文主要采用了3 種模型來(lái)分析哪一種達(dá)到的效果更佳。這3 種模型分別是基于人工智能的神經(jīng)網(wǎng)絡(luò)模型、隨機(jī)森林模型,線性回歸模型。
神經(jīng)網(wǎng)絡(luò)模型具有非線性映射能力和柔性網(wǎng)絡(luò)結(jié)構(gòu),但對(duì)于樣本數(shù)據(jù)類(lèi)型有一定要求;隨機(jī)森林模型運(yùn)行速度快、兼容性強(qiáng),具有隨機(jī)性;線性回歸模型建模速度快,但對(duì)異常值敏感,可能影響結(jié)果的準(zhǔn)確性。隨機(jī)森林模型在束21 井區(qū)的樣本訓(xùn)練數(shù)據(jù)下,其均方誤差指標(biāo)(RMSE)、均方根誤差指標(biāo)(RRMSE)、平均絕對(duì)誤差指標(biāo)(RMAE)都明顯優(yōu)于神經(jīng)網(wǎng)絡(luò)模型以及線性回歸模型(圖4)。
圖4 15 m細(xì)分層數(shù)據(jù)的不同模型預(yù)測(cè)誤差Fig. 4 Prediction error of different models for 15 m subdivided layers data
異常數(shù)據(jù)對(duì)于機(jī)器學(xué)習(xí)模型的訓(xùn)練和預(yù)測(cè)結(jié)果具有重要的影響。異常數(shù)據(jù)可能由于數(shù)據(jù)采集誤差、錄入錯(cuò)誤、不完整數(shù)據(jù)或真實(shí)存在的極端值等原因產(chǎn)生。
傳統(tǒng)的線性回歸和神經(jīng)網(wǎng)絡(luò)等模型可能會(huì)因?yàn)楫惓?shù)據(jù)導(dǎo)致過(guò)擬合或欠擬合現(xiàn)象,從而影響模型性能。相比之下,隨機(jī)森林模型具有較好的魯棒性和泛化性能,在處理異常數(shù)據(jù)時(shí)具有較高的適應(yīng)性和兼容性。隨機(jī)森林模型基于決策樹(shù)算法構(gòu)建,在每個(gè)節(jié)點(diǎn)上進(jìn)行隨機(jī)特征選擇和隨機(jī)樣本抽樣,從而減少了異常數(shù)據(jù)對(duì)模型的影響。隨機(jī)森林模型還可以通過(guò)集成多個(gè)決策樹(shù)來(lái)進(jìn)行預(yù)測(cè),從而提高模型的準(zhǔn)確性和魯棒性。因此,當(dāng)數(shù)據(jù)集中存在異常數(shù)據(jù)時(shí),可以考慮使用隨機(jī)森林模型進(jìn)行建模,以獲得更好的性能和準(zhǔn)確性。
以束21 井區(qū)內(nèi)井點(diǎn)屬性及所對(duì)應(yīng)的砂地比為樣本數(shù)據(jù)集,以15 m 間隔為基礎(chǔ)進(jìn)行層位細(xì)分,NgⅠ細(xì)分為3層,NgⅡ細(xì)分為8層,NgⅢ細(xì)分為2層,共使用43口井,后驗(yàn)井5口,311個(gè)樣本來(lái)進(jìn)行建模訓(xùn)練,隨機(jī)森林算法預(yù)測(cè)砂地比的平面分布。
圖5 顯示了細(xì)分層的平均符合率和NgⅠ—NgⅢ小層的平均符合率。其中NgⅠ砂地比預(yù)測(cè)符合率可達(dá)85%,NgⅡ符合率可達(dá)81%,NgⅢ符合率可達(dá)75%。從圖6 中可以看出高砂地比區(qū)整體呈現(xiàn)出近南北向展布,與實(shí)際地質(zhì)情況較為符合,說(shuō)明隨機(jī)森林算法在砂地比預(yù)測(cè)過(guò)程中,模型的學(xué)習(xí)能力較強(qiáng),預(yù)測(cè)結(jié)果較好。
圖5 不同小層砂地比預(yù)測(cè)結(jié)果符合率Fig. 5 Coincidence rate of prediction results of different sublayers sandstone-strata thickness ratio
圖6 NgⅢ砂地比預(yù)測(cè)平面Fig. 6 Sandstone-strata thickness ratio prediction plane of NgⅢ
由上述分析可知,應(yīng)用15 m 細(xì)分層開(kāi)展樣本統(tǒng)計(jì),采用9 個(gè)分類(lèi)器的隨機(jī)森林模型開(kāi)展預(yù)測(cè),砂地比預(yù)測(cè)效果最優(yōu)。
據(jù)此,以多點(diǎn)地質(zhì)統(tǒng)計(jì)學(xué)為手段,以單井解剖為條件數(shù)據(jù),以現(xiàn)今束鹿凹陷束21 井區(qū)辮狀河沉積體系為概率模型,結(jié)合斷裂特征已有研究認(rèn)識(shí),利用地質(zhì)軟件平臺(tái)建立非均質(zhì)復(fù)合輸導(dǎo)格架模型。并基于侵入逾滲理論的三維油氣運(yùn)移數(shù)值模擬,耦合分析非均質(zhì)輸導(dǎo)體系中運(yùn)移動(dòng)力和阻力,定量模擬了束21 井區(qū)關(guān)鍵成藏期油氣運(yùn)移路徑,并且以含油氣飽和度的形式顯示(圖7)。
圖7 束21井區(qū)館陶組油氣運(yùn)聚過(guò)程模擬結(jié)果(自東向西視角)Fig. 7 Simulation results of hydrocarbon migration and accumulation process of Guantao Formation in Shu21 well block (from east to west perspective)
根據(jù)束21 井區(qū)油氣運(yùn)移路徑模擬圖,在油氣運(yùn)移路徑上部署新鉆井4 口,較原有井產(chǎn)量提升約10%。
(1)隨機(jī)森林方法和神經(jīng)網(wǎng)絡(luò)法均優(yōu)于單一屬性法,砂地比預(yù)測(cè)精度更高。受鉆井?dāng)?shù)量及地層厚度統(tǒng)計(jì)間隔影響,樣本數(shù)量少且分布不規(guī)則,針對(duì)這種數(shù)據(jù)特點(diǎn),隨機(jī)森林法適用性相對(duì)于神經(jīng)網(wǎng)絡(luò)而言更強(qiáng)。
(2)砂地比預(yù)測(cè)樣本數(shù)據(jù)可以通過(guò)細(xì)分層統(tǒng)計(jì)得以有效擴(kuò)充,應(yīng)用與地震資料分辨率相當(dāng)?shù)暮穸乳g隔統(tǒng)計(jì)砂地比值相對(duì)于應(yīng)用單砂體厚度為間隔統(tǒng)計(jì)砂地比值開(kāi)展預(yù)測(cè),其預(yù)測(cè)精度更高。若開(kāi)展提高地震資料分辨能力等預(yù)處理方法,則需重新分析地震資料分辨極限,并用此極限值為厚度間隔開(kāi)展砂地比統(tǒng)計(jì),可進(jìn)一步提高預(yù)測(cè)精度。