要惠芳 ,趙明坤,陳 強(qiáng)
(1.太原理工大學(xué) 礦業(yè)工程學(xué)院,山西 太原 030024;2.煤與煤系氣地質(zhì)山西省重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;3.河南省煤炭地質(zhì)勘察研究總院,河南 鄭州 450052)
致密砂巖氣資源量約占到全球非常規(guī)資源量的70%,是重要的接替能源[1]; 鄂爾多斯盆地作為我國主要的深部致密砂巖氣產(chǎn)區(qū),其上古生界石炭、二疊系儲層是典型的以低、特低孔隙度和滲透率為特征的準(zhǔn)連續(xù)型氣藏,物性非均質(zhì)性較強(qiáng)[2-4]。流動單元,又稱巖石物理流動單元[5]、水動流動單元[6-7],是受沉積、成巖作用等因素控制的、以非均質(zhì)性為特征的不同類型儲集單元,而在相同類型單元內(nèi)部巖石物理性質(zhì)相似,流體滲流特征相似[8],可近似為均質(zhì)性的或可預(yù)測的[5,9]。因此,流動單元的合理分類是決定是否可以將低孔低滲儲層物性的非均質(zhì)問題簡化為均質(zhì)問題的關(guān)鍵。流動單元的劃分主要有成因特征分類法及微觀孔隙結(jié)構(gòu)統(tǒng)計分析法2類。前者全部或部分考慮了沉積相、巖石相、成巖和構(gòu)造作用等地質(zhì)控制因素,具體表征參數(shù)包括礦物組分和粒度、成熟度及分選性等巖石學(xué)特征[10],壓實(shí)、膠結(jié)、溶蝕、破裂等成巖作用特征[6],高分辨率層序及成因砂體組合、沉積微相及界面,隔層、夾層、沉積構(gòu)造等沉積學(xué)特征[11],斷層及其封堵性等構(gòu)造學(xué)特征[12],劃分方法有層對比及相疊加[10]、層次分析[13]、灰色關(guān)聯(lián)[14]等。但該類方法對地質(zhì)認(rèn)識依賴大,效率低,可實(shí)現(xiàn)性較差。而微觀孔隙結(jié)構(gòu)法主要利用孔隙度、滲透率、孔喉半徑等測試數(shù)據(jù),通過流動層段指數(shù)(FZI)和孔喉半徑R35等表征參數(shù),基于測井?dāng)?shù)據(jù)采用多元線性回歸[15]、聚類分析[16]、神經(jīng)網(wǎng)絡(luò)[17-19]、支持向量機(jī)等算法[20-21]等,劃分不同類型的流動單元,進(jìn)而在同類單元內(nèi),利用孔隙度與滲透率的良好相關(guān)性,建立相應(yīng)的滲透率解釋模型[22]。由于后者可以將厘米-米尺度的宏觀測井參數(shù)與微米尺度的孔喉等微觀結(jié)構(gòu)、分類算法等多方面因素有機(jī)地結(jié)合起來,而且可將取心井成果推廣至未取心井,預(yù)測性強(qiáng),更有利于低孔滲氣藏的高效分類和評價。因此,流動單元統(tǒng)計分類方法是目前應(yīng)用最廣泛的儲層分類方法[23],也是準(zhǔn)確評價低孔滲儲層物性參數(shù),提高預(yù)測精度的重要途徑。但是以往流動單元統(tǒng)計分類研究還存在一些不足,如數(shù)據(jù)集的規(guī)模較小,分類算法及模型單一等。各區(qū)塊在長期勘探開發(fā)中積累了海量的數(shù)據(jù),包括數(shù)值型(孔滲測試數(shù)據(jù)、壓汞、測井等)和類別型或名稱型數(shù)據(jù)(巖心觀察、薄片、X射線衍射和掃描電鏡等反映的巖石相和成巖相特征)等。近年來,基于數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)技術(shù)發(fā)展迅速[24],為充分利用上述數(shù)據(jù),實(shí)現(xiàn)流動單元成因及微觀孔隙結(jié)構(gòu)特征的綜合分類,加深對致密砂巖儲層的認(rèn)識,提供了一個極具潛力的工具?;诖?,研究將利用鄂爾多斯DJ區(qū)塊1 880塊巖心柱塞孔滲分析及33組壓汞分析資料,基于概率累積分布函數(shù)曲線變化特征及孔-滲相關(guān)性,優(yōu)選流動單元分類方案;在此基礎(chǔ)上,結(jié)合734組宏觀巖石相等類別型及數(shù)值型測井?dāng)?shù)據(jù),嘗試建立無監(jiān)督、有監(jiān)督2類機(jī)器學(xué)習(xí)模型,并通過K均值聚類、決策樹、樸素貝葉斯、隨機(jī)森林、梯度提升樹、支持向量機(jī)、深度學(xué)習(xí)7種分類模型的性能評估,探討致密砂巖流動單元機(jī)器分類學(xué)習(xí)的可行性。
研究區(qū)位于鄂爾多斯盆地東部晉西撓褶帶中南段(圖1),整體為一傾向NW的單斜構(gòu)造,地層走向及主要構(gòu)造軸向均呈NNE向;構(gòu)造變形較弱,僅東部有古驛-窯渠背斜、薛關(guān)-峪口斷層帶等;主要儲集層段位于含煤系地層內(nèi),為一套穩(wěn)定地臺構(gòu)造背景上的淺海陸棚—三角洲-河流、湖泊充填沉積,包括本溪組,太原組、山西組和下石盒子組,埋深為1 500~2 500 m;發(fā)育有多套煤及煤線,且富含有機(jī)質(zhì)的暗色泥巖,泥灰?guī)r等優(yōu)質(zhì)烴源巖;上石盒子組發(fā)育一套穩(wěn)定的厚度約100 m的湖相泥巖,蓋層條件較好。本區(qū)塊雖然從早白堊世以來持續(xù)抬升剝蝕,仍然保留了可觀的致密氣資源,呈現(xiàn)準(zhǔn)連續(xù)分布、源外成藏、近源聚集的特征[3];區(qū)內(nèi)砂巖經(jīng)歷了壓實(shí)壓溶、不穩(wěn)定組分溶蝕以及碳酸鹽、硅質(zhì)和黏土礦物膠結(jié)等多種成巖作用,現(xiàn)處于晚成巖階段B期[26]。多類型、多期次、不同強(qiáng)度的成巖作用及其疊加對本區(qū)砂巖孔隙、裂隙的形成、保存以及破壞產(chǎn)生了極為復(fù)雜的影響。
圖1 研究區(qū)位置及構(gòu)造綱要圖Fig.1 Location and structure outline map of DJ Block
已有研究表明[25],DJ區(qū)塊砂巖碎屑成分以石英或巖屑為主,長石含量低,通常不超過4%;巖屑組分主要為沉積巖,次為變質(zhì)巖和火成巖。填隙物質(zhì)量分?jǐn)?shù)為6%~37%,雜基(以泥質(zhì)為主)含量一般低于膠結(jié)物;在結(jié)構(gòu)特征方面,粒徑以中粒居多,粗粒及細(xì)粒也有一定的分布;磨圓度以次圓-次棱角狀為主,分選好-差;成分成熟度、磨圓度及分選性呈現(xiàn)隨地層由老至新逐漸變差的趨勢。
根據(jù)碎屑組分和粒度,本區(qū)砂巖可分8種巖石相類型(圖2)。其中,圖2a為DJ4-6井山2段粗粒石英砂巖,孔隙較發(fā)育,鈣質(zhì)膠結(jié)為主,石英次生加大明顯;巖屑含燧石、硅質(zhì)巖、酸性火山巖;圖2b為DJ5-8-15井山2段中粒石英砂巖,孔隙發(fā)育一般,硅質(zhì)膠結(jié)。巖屑以燧石、硅質(zhì)巖為主,含少量碳酸鹽巖;圖2c為DJ4-6井山1段粗粒巖屑石英砂巖,孔隙欠發(fā)育,硅質(zhì)-泥質(zhì)膠結(jié)為主,石英次生加大邊明顯。主要巖屑為變質(zhì)巖、泥板巖及少量白云母,碳酸鹽巖;圖2d為DJ6-5井盒8段中粒巖屑石英砂巖,孔隙發(fā)育,粒間與粒內(nèi)溶蝕孔隙為主,含長石及碳酸鹽巖等剛性易溶巖屑;圖2e為DJ7井盒8段粗粒巖屑砂巖,孔隙較發(fā)育,泥質(zhì)膠結(jié)為主,局部石英有次生加大;巖屑為變質(zhì)石英巖、碳酸鹽巖、燧石、酸性火山巖。圖2f為DJ7井盒8段中粒巖屑砂巖,泥質(zhì)膠結(jié),孔隙較發(fā)育;巖屑包括泥板巖、燧石、變質(zhì)石英巖,碳酸鹽巖、酸性火山巖;圖2g為DJ5-8井盒8段細(xì)粒巖屑石英砂巖,孔隙較發(fā)育,硅質(zhì)膠結(jié)為主;巖屑以硅質(zhì)巖、燧石、酸性火山巖、碳酸鹽巖為主;圖2h為DJ6-8井盒8段細(xì)粒巖屑砂巖,孔隙欠發(fā)育,有較弱的粒間與粒內(nèi)溶蝕孔隙,泥質(zhì)膠結(jié),溶蝕作用較弱;巖屑主要有泥板巖、片巖、白云母等軟巖。
圖2 DJ區(qū)塊典型巖石相的鑄體薄片F(xiàn)ig.2 Thin sections photomicrographs of typical lithofacies in DJ Block
根據(jù)巖心觀察、薄片和X射線衍射、掃描電鏡結(jié)果,本區(qū)砂巖孔隙類型主要為原生殘余粒間孔及泥質(zhì)雜基微孔、溶蝕粒間孔和粒內(nèi)孔、鑄???、晶間孔和微裂隙等次生孔隙;巖心孔滲資料統(tǒng)計分析表明,區(qū)內(nèi)砂巖孔隙度為0.60%~19.88%,中值5.85%,滲透率(0.000 4~244)×10-3μm2,中值0.131×10-3μm2;DJ區(qū)塊雖然以特低孔滲儲層為主,但部分層段發(fā)育有大孔喉及微裂縫,滲透率有所改善。
DJ7等關(guān)鍵井的33個巖心柱塞壓汞數(shù)據(jù)表明,儲集巖中值壓力為1.0~5.5 MPa,平均值4.4 MPa,喉道系數(shù)5.272~12.180,中值為9.35;喉道分選系數(shù)1.414~5.109,中值2.56;結(jié)構(gòu)系數(shù)0.122~108.100,中值0.28;偏度0.028~2.530,平均值1.51;平均孔喉半徑為0.076~11.115 μm,中值0.28 μm;R35孔喉半徑為0.016~10.036 μm,中值為0.2 μm,具有顯著的小孔徑、窄喉道的孔隙結(jié)構(gòu)特征。根據(jù)上述特征可劃分3種類型(圖3a),第I類峰值孔徑為8.0~11.9 μm,第Ⅱ類0.12~1.26 μm,第III類0.012~0.032 μm;相對應(yīng)的35%進(jìn)汞飽和度毛管壓力約為0.9 MPa(圖3b),20 MPa(圖3c)和80 MPa(圖3d)。
圖3 典型孔徑特征分布及其壓汞曲線Fig.3 Distribution characteristics chart of three typical throat size and mercury injection capillary pressure curves
整體來看,主要受宏觀巖石相、沉積相、成巖相等多種地質(zhì)因素的控制,本區(qū)砂巖儲集層的孔滲特征非均質(zhì)性極強(qiáng)。
AMAEFULE等[7]提出了采用孔隙度和滲透率實(shí)現(xiàn)流動單元分類的FZI法,F(xiàn)ZI值計算方法如式(1)—式(3)所示:
(1)
(2)
FZI=RQI/φz
(3)
式中:RQI為儲層品質(zhì)指數(shù),μm;FZI為流動層段指數(shù);k為滲透率,10-3μm2;φe為有效孔隙度,%;φz為標(biāo)準(zhǔn)化孔隙度,%。
此外,PITTMAN等[26]認(rèn)為壓汞曲線上進(jìn)汞飽和度達(dá)35%時的孔隙半徑R35能夠反映流體流動狀態(tài),因此可用其來劃分流動單元;利用孔隙度和滲透率計算孔喉半徑R35值的方法見式(4)[27],即
lgR35=0.523lgφ-0.565lgk-0.255
(4)
式中:φ為孔隙度,%。
為更好地反映研究區(qū)實(shí)際孔滲特征,將33組R35與孔隙度、滲透率實(shí)測值作了二元非線性回歸,回歸方程見式(5),R2可達(dá)0.96。
lgR35=0.650 3lgk-1.019 2lgφ+0.105 2
(5)
因此,利用式(3)和式(5)對研究區(qū)1 880組巖心數(shù)據(jù)分別計算了FZI和R35,在此基礎(chǔ)上,進(jìn)一步計算了lg FZI和R35的概率累積分布函數(shù)(Cumulative density Function)(圖4)。
按照文獻(xiàn)[16]中的方法,基于lg FZI和R35概率累積分布函數(shù)曲線的斜率變化特征,劃分了3類流動單元,如圖4和表1所示。
表1 DJ區(qū)塊儲層流動單元分類Table 1 Classification scheme of reservoir flow units
圖4 Lg FZI及R35指數(shù)概率累積分布函數(shù)散點(diǎn)圖Fig.4 Cumulative density function plots to obtain optimal number of lg FZI and R35 flow units
圖4中黑色箭頭所指的位置即累積密度分布函數(shù)曲線斜率的突變點(diǎn)。無論是lg FZI還是R35法,除第Ⅱ類單元外,其他2類單元內(nèi)部還可見小的斜率變化,仍可細(xì)分;但由于在所有樣本中,第Ⅱ類單元中的樣本占比(>50%)遠(yuǎn)大于其他2類(<16%),如果再將Ⅰ類和Ⅲ類細(xì)分,其樣本數(shù)量會更少。此外,在后續(xù)機(jī)器學(xué)習(xí)前還需做數(shù)據(jù)清洗工作,數(shù)據(jù)集之中的樣本數(shù)還將進(jìn)一步減少。因此,本次對Ⅰ,Ⅲ類單元劃分標(biāo)準(zhǔn)做了部分粗化處理。
根據(jù)表2中流動單元劃分標(biāo)準(zhǔn),將3類單元中的所有樣本投影到φ-lgk坐標(biāo)系,如圖5和圖6所示。滲透率的孔隙度一元回歸模型見表2。通過對比可以發(fā)現(xiàn):① 各類流動單元內(nèi)孔隙度與滲透率的相關(guān)性顯著提升,僅有一個單元的R2小于0.5,其余為0.68~0.81(表2)。說明FZI和R35兩種流動單元分類法均能反映微觀孔隙結(jié)構(gòu)的變化,且同一流動單元內(nèi)的樣本具有相近的孔喉特征;② 在同一單元內(nèi),隨著孔隙體積比的增加,滲透率呈冪指數(shù)增大;③ 相同孔隙體積條件下,F(xiàn)ZI和R35值越大,孔喉半徑和滲透率越大,具有I類>II類>III類單元的變化規(guī)律;④ FZI和R35兩種分類方案的主要差別在于第I類單元,R35劃分結(jié)果中孔滲相關(guān)度僅為0.47,相對于FZI的0.81明顯變差。因此,本次流動單元分類最終采用了基于流動層段指數(shù)FZI的劃分方案。
圖5 lg FZI值劃分的流動單元孔、滲分布特征Fig.5 Three flow units identified by lg FZI indicator in relation to porosity and permeability
圖6 R35值劃分的3類流動單元的孔、滲分布特征Fig.6 Three flow units identified by R35 indicator in relation to porosity and permeability
表2 DJ區(qū)塊3類流動單元滲透率解釋模型Table 2 Permeability interpretation models of 3 flow units in DJ Block
綜上,合理的流動單元劃分方案可以改善微觀孔隙結(jié)構(gòu)的均質(zhì)性問題,提高孔隙度和滲透率的相關(guān)度。這樣,當(dāng)砂巖樣所屬流體單元判別正確時,滲透率的預(yù)測精度將會大幅提高。
鑒于大多數(shù)井不取心,僅有測井和錄井資料。因此,如何以測井、錄井?dāng)?shù)據(jù)為媒介,將巖心測試成果統(tǒng)計分析確定的流動單元的分類成果,推廣至未取心井,實(shí)現(xiàn)流動單元的高精度分類,是本次流動單元分類機(jī)器學(xué)習(xí)重點(diǎn)解決的問題。
3.1.1初始數(shù)據(jù)集
共收集到46井1 880組的巖心孔隙度、滲透率測試數(shù)據(jù)以及少量的巖心觀察、薄片、巖電測試分析等資料;但相對應(yīng)且有完整測、錄井信息的樣本較少,最終可用于機(jī)器學(xué)習(xí)的僅有24井808個樣本。
3.1.2數(shù)據(jù)屬性
測井選取了井徑(CAL)、補(bǔ)償中子(CNL)、自然伽瑪(GR)、自然電位(SP)、聲波時差(AC)、補(bǔ)償密度(DEN)、視電阻率(Ra,8 inch感應(yīng)電阻率)、巖性密度(PE)、測井孔隙度(POR)等9種參數(shù)屬性;此外,通過計算樣點(diǎn)埋深以上巖石的垂向靜壓力構(gòu)建了表征應(yīng)力差異的垂向應(yīng)力屬性;利用各層段沉積的地質(zhì)年代(時間)構(gòu)建了年代屬性,具體屬性值有盒7,盒8,山1,山2,太原,本溪共6個;利用錄井資料構(gòu)建了巖石相屬性,具體屬性值有粗粒石英砂巖、中粒石英砂巖、粗粒巖屑石英砂巖、中粒巖屑石英砂巖、粗粒巖屑砂巖、中粒巖屑砂巖、細(xì)粒巖屑砂巖等7個。以上12個屬性中,巖石相、年代屬性為類別型數(shù)據(jù),其他均為數(shù)值型。
3.1.3分類標(biāo)簽
按照表1中FZI指數(shù)的分類標(biāo)準(zhǔn),將lg FZI的2個特征值-0.35和0.2作為門檻,定義了3類流動單元,并對所有樣本設(shè)定了相應(yīng)的分類標(biāo)簽,作為輸出變量,用于有監(jiān)督學(xué)習(xí)的訓(xùn)練和測試。
3.1.4數(shù)據(jù)集處理
通過深度校正、環(huán)境校正和標(biāo)準(zhǔn)化等預(yù)處理,使測井?dāng)?shù)據(jù)在區(qū)內(nèi)具有統(tǒng)一的刻度,并使系統(tǒng)誤差減至最小。對電阻率做了對數(shù)處理,使其數(shù)據(jù)分布呈正態(tài)化;自然電位進(jìn)行了泥巖基線校正;以井徑增大率小于50%為門檻對數(shù)據(jù)進(jìn)行了篩選,篩選后總樣本數(shù)減少至24井734組。此外,針對部分異常值和噪音做了零均方差(Z-score)標(biāo)準(zhǔn)化處理;針對不同屬性值數(shù)據(jù)范圍差異大的問題,基于不同算法要求在學(xué)習(xí)過程中做了線性或非線性歸一化處理。
機(jī)器學(xué)習(xí)模式可分為2類:無監(jiān)督與有監(jiān)督學(xué)習(xí)。研究的重心是測試有監(jiān)督學(xué)習(xí)算法,以期對測井、巖石相等數(shù)據(jù)(輸入)和流動單元類型(輸出)之間的關(guān)系進(jìn)行泛化和評估,最終實(shí)現(xiàn)分類模型優(yōu)選。因此,只采用K均值聚類算法進(jìn)行了無監(jiān)督學(xué)習(xí)試驗(yàn),而測試的有監(jiān)督學(xué)習(xí)算法共5種,包括樸素貝葉斯、決策樹、支持向量機(jī)、深度學(xué)習(xí)和集成學(xué)習(xí)算法(隨機(jī)森林、梯度提升樹)。6種機(jī)器學(xué)習(xí)算法原理簡述如下:①K均值聚類(K-means Clustering,KC),是一種無監(jiān)督學(xué)習(xí)方法,需要給定簇的個數(shù),找出各簇的質(zhì)心,將與各質(zhì)心距離相近的數(shù)據(jù)點(diǎn)聚集成簇,實(shí)現(xiàn)分類;② 樸素貝葉斯(Naive Bayesian,NB),是一種統(tǒng)計學(xué)方法,通過對相互獨(dú)立的多個輸入變量,應(yīng)用貝葉斯理論計算各個類別的概率,選取最大概率對應(yīng)的類別作為分類結(jié)果;③ 決策樹(Decision Trees,DT),是一種信息論方法,通過信息熵構(gòu)建純的子集,對目標(biāo)變量影響最顯著的將在樹的根或近根層次;④ 支持向量機(jī)(Support Vector Machine,SVM),采用數(shù)學(xué)最優(yōu)化理論,通過構(gòu)建多維的超平面形成多個界面進(jìn)行分類;⑤ 深度學(xué)習(xí)(Deep Learning,DL),通過模擬神經(jīng)元的工作方式,建立具多隱層結(jié)構(gòu)且有反饋的網(wǎng)絡(luò)來連接輸入和輸出,從而實(shí)現(xiàn)分類;⑥ 集成學(xué)習(xí),一種“元學(xué)習(xí)”方法,通常由多個不同的獨(dú)立模型,利用集體智慧如投票的方式,綜合成一個最優(yōu)的模型。該類算法非常適合噪聲數(shù)據(jù)、離群點(diǎn)存在的數(shù)據(jù)集,本次測試的隨機(jī)森林(Random Forest,RF)和梯度提升樹(Gradient Tree Boosting)均為以決策樹為基礎(chǔ)模型的集成學(xué)習(xí)類算法。
本次機(jī)器學(xué)習(xí)分類的所有算法均在Rapidminer Studio數(shù)據(jù)挖掘平臺上實(shí)現(xiàn)。
通過以上方式處理后的數(shù)據(jù)集中共包含734組樣本(24井),其中I類樣本111個,Ⅱ類496個,Ⅲ類127個;各分類樣本數(shù)失衡,為提高后續(xù)建模的可信度,須作均化處理[24]。為保證有相同的數(shù)據(jù)分布特征,按二次分層抽樣(Stratified Sampling)方式對II類數(shù)據(jù)進(jìn)行了1/3比例抽稀,并分別與I類和III類樣本合并,形成3個數(shù)據(jù)子集分別進(jìn)行建模。每個子集內(nèi)3類樣本數(shù)量一致,均為111-165-127,總樣本數(shù)量為503。每個子集均按50%~90%的比例抽樣訓(xùn)練,剩余樣本作為測試集進(jìn)行驗(yàn)證和評估;最終的模型性能指標(biāo)以3個子集的等權(quán)重之和計算,再進(jìn)行評估。
針對不同的算法特性,本次機(jī)器學(xué)習(xí)的訓(xùn)練和測試選擇了不同的屬性集合:K均值聚類、深度學(xué)習(xí)、支持向量機(jī)等全部采用純數(shù)值型數(shù)據(jù),具體包括CNL、GR、SP、AC、DEN、Ra、PE、垂向應(yīng)力等8種;樸素貝葉斯、決策樹、隨機(jī)森林和梯度提升樹采用數(shù)值型和類別型的混合型數(shù)據(jù);包括年代、巖石相、POR、CNL、GR、SP、Ra、垂向應(yīng)力等8種。
每種算法均需要與特定數(shù)據(jù)集與方法本身匹配的建模參數(shù),如決策樹的樹個數(shù)、支持向量機(jī)的學(xué)習(xí)速率等。上述參數(shù)如用人工進(jìn)行優(yōu)選,效率低,客觀性難以保證。為此,采用參數(shù)區(qū)間及其步長設(shè)定-訓(xùn)練-建模-測試-性能評估的交互驗(yàn)證方法,其優(yōu)點(diǎn)在于,每一組參數(shù)的改變均可由計算機(jī)自動實(shí)現(xiàn)訓(xùn)練、建模和測試,并獲得其所建模型的分類精度、召回率和平衡分?jǐn)?shù)f1值等。由于f1能綜合反映分類精度和召回率的變化[24],相對更全面,因此,可以通過f1箱形圖的變化特征對各算法的建模參數(shù)及其組合進(jìn)行分析和優(yōu)選,以保證各算法均能實(shí)現(xiàn)最佳分類。
不同算法對于建模參數(shù)的敏感度不同,f1離散度越高就越敏感[28]。圖7為6種有監(jiān)督學(xué)習(xí)算法的不同建模參數(shù)組合f1得分值箱形圖,在圖7中,樸素貝葉斯f1分布最為集中,深度學(xué)習(xí)和支持向量機(jī)f1離散度最高,以決策樹為基礎(chǔ)的3種算法介于兩者之間,說明深度學(xué)習(xí)和支持向量機(jī)2種算法對建模參數(shù)要求是最高的;此外,二者雖然最高和最低得分基本相同,但f1的中位數(shù)差異較大,深度學(xué)習(xí)為78.8%,而支持向量機(jī)僅73.5%,說明后者只有少數(shù)參數(shù)組合有較好的分類表現(xiàn),算法對參數(shù)依賴性強(qiáng),穩(wěn)定性較差。
圖7 不同算法建模參數(shù)組合的驗(yàn)證f1得分箱形圖Fig.7 Boxplots of f1-score obtained from cross validation performed over different parameter sets of each algorithm
通過上述方法,可以得到每種算法的最優(yōu)參數(shù)組合。以梯度提升樹模型為例,其最優(yōu)參數(shù)為:樹個數(shù):100;可再生性:真實(shí);本地隨機(jī)種子數(shù):1992;最大深度: 10;學(xué)習(xí)率:0.02;分布形式:多模態(tài)。
3.5.1有監(jiān)督與無監(jiān)督學(xué)習(xí)模型
圖8為無監(jiān)督學(xué)習(xí)K均值聚類方法與其他5種有監(jiān)督學(xué)習(xí)的最終分類效果對比圖,與圖5相同,紅色樣點(diǎn)代表Ⅰ類流動單元砂巖,黃色為Ⅱ類,藍(lán)色為Ⅲ類??梢?,有或無監(jiān)督學(xué)習(xí)這2類機(jī)器學(xué)習(xí)模型的樣點(diǎn)分布特征大相徑庭, 5種有監(jiān)督學(xué)習(xí)算法的樣點(diǎn)分布與圖5相近,而K均值聚類模型結(jié)果與FZI分類基本不相關(guān)。這一現(xiàn)象說明同樣基于數(shù)據(jù)驅(qū)動,以消極學(xué)習(xí)為特征的K均值聚類只有在數(shù)據(jù)本身與分類目標(biāo)期望契合的特定情況下,才可能實(shí)現(xiàn)理想分類;而以深度學(xué)習(xí)為代表的積極學(xué)習(xí)算法,在類標(biāo)簽的約束下,對隱含規(guī)則或關(guān)系的泛化能力更強(qiáng),知識挖掘能力更高。因此,如若應(yīng)用無監(jiān)督的機(jī)器學(xué)習(xí)算法對流動單元進(jìn)行分類,訓(xùn)練測試數(shù)據(jù)集的構(gòu)建至關(guān)重要;而有監(jiān)督的、積極的學(xué)習(xí)方法不需要對數(shù)據(jù)集進(jìn)行針對性處理,學(xué)習(xí)門檻低,效率更高。
圖8 不同機(jī)器學(xué)習(xí)算法分類結(jié)果對比Fig.8 Classification results of different machine learning algorithms
3.5.2有監(jiān)督學(xué)習(xí)模型優(yōu)選
該類模型的整體表現(xiàn)較好,f1最高值均超過了72%(圖7),可以對流動單元進(jìn)行有效分類。另外,從中值分布特征來看,樸素貝葉斯最低僅為71%;深度學(xué)習(xí)、梯度提升樹和隨機(jī)森林2類集成學(xué)習(xí)算法的表現(xiàn)較好,中值分別為78.8%、79.0%和77.8%,接近80%,而樸素貝葉斯、決策樹和支持向量機(jī)較低,為70%~74%。
綜合f1分布特征(圖7)和分類效果(圖8),本次機(jī)器學(xué)習(xí)最終確定的最優(yōu)模型有2個:一個是基于數(shù)值型數(shù)據(jù)集的深度學(xué)習(xí)模型,另一個是面向數(shù)值和類別型混合數(shù)據(jù)的梯度提升樹模型,其f1平均得分值分別為82.63%和85.56%,其性能指標(biāo)詳見表3。
表3 梯度提升樹和深度學(xué)習(xí)分類模型性能對比Table 3 Classification matrices obtained with prediction over training set using GTB and DL algorithms
可見,在DJ區(qū)塊,采用不同的數(shù)據(jù)類型和與之匹配的機(jī)器學(xué)習(xí)算法,可以構(gòu)建出準(zhǔn)確度和可靠性相近的不同機(jī)器學(xué)習(xí)模型。因此,能夠?qū)崿F(xiàn)流動單元高效合理分類的機(jī)器學(xué)習(xí)模型并不是唯一的。
對于工程應(yīng)用來說,可以基于井徑、補(bǔ)償中子、自然伽瑪、自然電位、聲波時差、補(bǔ)償密度、視電阻率、巖性密度等表征巖性、物性和流體性質(zhì)的測井參數(shù),通過構(gòu)建以深度學(xué)習(xí)為代表的數(shù)值型機(jī)器學(xué)習(xí)
模型,實(shí)現(xiàn)流體單元的準(zhǔn)確分類,進(jìn)而提高滲透率的測井解釋精度。雖然這一類模型難以解讀其地質(zhì)含義,但是方法健壯性好,分類預(yù)測精度高,既能處理高度非線性問題,又有極強(qiáng)的反饋能力[28],是高效完成現(xiàn)場準(zhǔn)確預(yù)測任務(wù)的最佳選擇。
但對于流體單元的成因特征等基礎(chǔ)地質(zhì)研究來說,由于其采用的地質(zhì)語言均為類別型,如不同類型砂巖的形成年代、巖石相、沉積微相、成巖相等,很難轉(zhuǎn)換為數(shù)值型數(shù)據(jù)加以量化表征,深度學(xué)習(xí)、支持向量機(jī)等數(shù)值類機(jī)器學(xué)習(xí)算法無法處理。能夠?qū)ι鲜鲂畔⑦M(jìn)行處理的只有樸素貝葉斯、決策樹和以其為基礎(chǔ)的梯度提升樹、隨機(jī)森林等集成學(xué)習(xí)模型,而且模型結(jié)果兼具可解讀性[29]。雖然本次研究僅考慮了巖石相和年代特征,但是DJ區(qū)塊梯度提升樹學(xué)習(xí)模型研究初步表明(圖9):排在前13位的建模影響因子中(影響因子總和為81.8%),測井孔隙度等6種數(shù)值型屬性貢獻(xiàn)率之和為45.1%,粗粒石英砂巖等7種巖石相類別屬性為36.7%,說明二者影響力相當(dāng),巖石相同樣對最終模型的構(gòu)建有顯著影響。同時也可以看到,巖石相的屬性變化對本區(qū)砂巖儲層滲流特性的影響程度明顯高于年代屬性(未進(jìn)入前13位),控制作用更明顯。如果能進(jìn)一步考慮成巖相、沉積微相等其他類似巖石相的地質(zhì)信息,建立更完善的數(shù)據(jù)集,利用已有的FZI流體單元分類結(jié)果,完成訓(xùn)練、建模和測試,就能通過解讀最優(yōu)模型泛化產(chǎn)生的具體分類指標(biāo),挖掘其關(guān)聯(lián)關(guān)系和分類規(guī)則,歸納分析不同相及其耦合對流體單元分類的影響程度,從而形成關(guān)于研究區(qū)砂巖滲流特性成因的地質(zhì)控制要素及其耦合關(guān)系的新認(rèn)識。
圖9 梯度提升樹模型部分建模屬性影響因子Fig.9 Relative importance of input features for classification with gradient tree boosting algorithm
因此,采用不同的數(shù)據(jù)集和與之相適應(yīng)的機(jī)器學(xué)習(xí)算法,可以構(gòu)建相互獨(dú)立的流體單元分類模型,進(jìn)而實(shí)現(xiàn)不同的研究目標(biāo)。
1)利用1 880塊巖芯柱塞孔滲及33組壓汞數(shù)據(jù),通過lg FZI和R35概率累積分布函數(shù)曲線和滲透率、孔隙度一元回歸分析,優(yōu)選了DJ區(qū)塊致密砂巖儲層的FZI流動單元3分類方案。在同一單元內(nèi),滲透率與孔隙度相關(guān)性增強(qiáng),呈冪指數(shù)關(guān)系,有利于提高滲透率的定量預(yù)測精度。
2)針對II類流動單元砂巖樣本數(shù)量遠(yuǎn)大于I、III類砂巖,數(shù)據(jù)分布失衡的問題,采用二次分層抽樣方法構(gòu)建了不同類型砂巖樣本數(shù)量相近的多個數(shù)據(jù)子集,增強(qiáng)了有監(jiān)督機(jī)器學(xué)習(xí)模型的可靠性。
3) 綜合應(yīng)用交互驗(yàn)證和f1得分箱形圖法實(shí)現(xiàn)了不同機(jī)器學(xué)習(xí)算法的建模參數(shù)優(yōu)選和算法穩(wěn)定性分析。樸素貝葉斯對參數(shù)選取不敏感,決策樹、隨機(jī)森林和梯度提升樹次之,而深度學(xué)習(xí)和支持向量機(jī)等2種算法對建模參數(shù)及其組合最為敏感,穩(wěn)定性相對較差。
4) 與無監(jiān)督方法相比,有監(jiān)督的、積極的機(jī)器學(xué)習(xí)方法更適合于流動單元分類研究;在DJ區(qū)塊所有砂巖機(jī)器學(xué)習(xí)分類模型中,深度學(xué)習(xí)和梯度提升樹算法模型表現(xiàn)最優(yōu)。
5)深度學(xué)習(xí)模型對測井參數(shù)等數(shù)值型數(shù)據(jù)的處理能力強(qiáng),適用于滲透率定量解釋等工程應(yīng)用場景;梯度提升樹等以決策樹為基礎(chǔ)的集成建模方法可以處理巖石相、成巖相、沉積微相等有明確地質(zhì)含義的類別型數(shù)據(jù),模型的可解讀性優(yōu)于深度學(xué)習(xí),在流體單元成因地質(zhì)研究方面有較好的應(yīng)用潛力。