李玉偉,李子健,邵力飛,田福春,湯繼周
(1.東北石油大學(xué) 石油工程學(xué)院,黑龍江 大慶 163318;2.遼寧大學(xué) 環(huán)境學(xué)院,遼寧 沈陽 110036;3.中鋼集團馬鞍山礦山研究總院股份有限公司,安徽 馬鞍山 243000;4.中國石油大港油田分公司石油工程研究院,天津 300280;5.同濟大學(xué) 海洋與地球科學(xué)學(xué)院,上海 200092)
頁巖油作為一種重要的非常規(guī)油氣資源,但頁巖油儲層屬于低孔、低滲的致密儲層,需要通過大規(guī)模壓裂改造才能實現(xiàn)商業(yè)化開發(fā)[1]。準確進行頁巖油儲層可壓性評價是開展壓裂改造設(shè)計的重要前提,對于預(yù)測儲層壓裂改造效果、合理選擇壓裂井層和預(yù)測壓后產(chǎn)能都有著十分重要的意義[2-3]。目前,采用各種巖石力學(xué)參數(shù)建立的多種可壓性評價模型已被證明是非常有效的方法[4],但各種評價方法對參數(shù)的可靠性要求均較高,故準確獲取頁巖油儲層巖石力學(xué)參數(shù)對于準確開展可壓性評價至關(guān)重要[5]。
儲層巖石力學(xué)參數(shù)通常采用巖心實驗獲取或通過現(xiàn)有經(jīng)驗公式進行估算[6]。實驗方法通常工作量較大,且需對整個井段進行取心,對巖心質(zhì)量要求很高,耗費大量時間和經(jīng)濟成本[7]。經(jīng)驗公式估算相較于實驗方法降低了成本,但仍需要大量準確的巖石礦物組分、孔隙率和孔隙結(jié)構(gòu)等參數(shù)作為支撐,這導(dǎo)致現(xiàn)有各類經(jīng)驗公式難以保證巖石力學(xué)參數(shù)估算的準確率。相比之下,機器學(xué)習(xí)方法只需通過少量取心實驗結(jié)果,就可以實現(xiàn)對地層連續(xù)剖面的參數(shù)預(yù)測,在準確獲取巖石力學(xué)參數(shù)的同時大大降低了時間和經(jīng)濟成本[8]。
用機器學(xué)習(xí)方法解決巖石力學(xué)問題最早可以追溯到20 世紀,1998 年P(guān).E.Nikracesh[9]利用模糊邏輯模型在測井數(shù)據(jù)中發(fā)現(xiàn)了數(shù)據(jù)集之間結(jié)構(gòu)關(guān)系,預(yù)測了沿地層深度變化的巖石力學(xué)參數(shù),證明了機器學(xué)習(xí)方法相較于實驗方法更加快捷高效。B.N.Alajmi 等[10]使用模糊邏輯系統(tǒng)推理和支持向量機方法,根據(jù)測井資料和實驗數(shù)據(jù)來估計巖石力學(xué)參數(shù),結(jié)果表明,機器學(xué)習(xí)方法預(yù)測準確率高于經(jīng)驗公式。為了提高巖石力學(xué)參數(shù)的預(yù)測精度,越來越多的優(yōu)化算法被開發(fā)應(yīng)用。C.M.Ruse 等[11]采用優(yōu)化的梯度boosting(自適應(yīng))算法預(yù)測頁巖的巖石力學(xué)參數(shù),利用充足的地質(zhì)測井數(shù)據(jù)集進行訓(xùn)練,將預(yù)測結(jié)果與實驗數(shù)據(jù)進行對比,準確率可達90%,說明優(yōu)化算法boosting 的實用性。研究人員不斷對boosting 算法進行改進,Zhou Jian 等[12]使用boosting 算法的進化模型XGBoost 對巖石力學(xué)參數(shù)進行預(yù)測,并與隨機森林、支持向量機和多層感知機等模型進行比較,結(jié)果表明,XGBoost 模型在預(yù)測巖石力學(xué)參數(shù)時具有較好的預(yù)測精度,但當數(shù)據(jù)量不足時,XGBoost 模型極易發(fā)生過擬合現(xiàn)象,無法被廣泛應(yīng)用。為了解決這一問題,Cao Jing 等[13]在XGBoost 模型的基礎(chǔ)上提出XGBoost-firefly(螢火蟲)優(yōu)化算法間接估算巖石力學(xué)參數(shù),使用支持向量機和XGBoost 算法來比較其模型性能,結(jié)果表明XGBoost-firefly 算法可以克服過擬合現(xiàn)象,但準確率并沒有得到較大提升。隨著現(xiàn)場工程技術(shù)發(fā)展,采集數(shù)據(jù)量不斷增多,大部分機器學(xué)習(xí)模型無法應(yīng)對龐大的數(shù)據(jù)集,為解決這一問題,神經(jīng)網(wǎng)絡(luò)作為機器學(xué)習(xí)的一個分支被提出。S.Dehghan 等[14]采用邏輯回歸和神經(jīng)網(wǎng)絡(luò)預(yù)測巖石力學(xué)參數(shù),研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型在處理大批量數(shù)據(jù)時顯示了比邏輯回歸模型更高的性能。Z.Tariq 等[15]開發(fā)了包括神經(jīng)網(wǎng)絡(luò)、模糊邏輯和支持向量機3 種機器學(xué)習(xí)模型來估計石灰?guī)r地層的巖石力學(xué)參數(shù),采用162 口井的常規(guī)測井數(shù)據(jù)建立了彈性模量、泊松比和無側(cè)限抗壓強度的預(yù)測模型,研究結(jié)果證實了神經(jīng)網(wǎng)絡(luò)模型在數(shù)據(jù)量龐大的情況下完成既定任務(wù)時的優(yōu)越性。機器學(xué)習(xí)方法在解決巖石力學(xué)問題方面已經(jīng)取得了一些成果,但普遍建立在數(shù)據(jù)量充足的基礎(chǔ)上,一旦出現(xiàn)數(shù)據(jù)量不足的情況,將會出現(xiàn)預(yù)測準確率低和泛化性差等問題,導(dǎo)致無法對巖石力學(xué)參數(shù)進行精準預(yù)測[16]。
數(shù)據(jù)的約束已經(jīng)極大地限制了機器學(xué)習(xí)方法在巖石力學(xué)問題中的應(yīng)用,為了解決這一問題,建立一種基于物理信息約束的神經(jīng)網(wǎng)絡(luò)模型,通過嵌入已有物理規(guī)律和經(jīng)驗?zāi)P偷男畔⒖梢允股窠?jīng)網(wǎng)絡(luò)模型在少量的訓(xùn)練數(shù)據(jù)集下整合基本物理定律和領(lǐng)域知識,達到規(guī)范和約束預(yù)測過程的作用[17]。首先構(gòu)建物理信息約束的神經(jīng)網(wǎng)絡(luò)、隨機森林、XGBoost 和人工神經(jīng)網(wǎng)絡(luò)4種學(xué)習(xí)模型,然后采用多種評價標準對4 種機器學(xué)習(xí)模型性能進行比較。優(yōu)選性能最佳的模型對渤海灣盆地滄東凹陷K2 段不同井深的巖石力學(xué)參數(shù)進行預(yù)測,得到彈性模量、泊松比、抗拉強度和斷裂韌性等參數(shù),最后結(jié)合現(xiàn)有的儲層可壓性評價方法,實現(xiàn)對滄東凹陷K2 段不同儲層的可壓性評價。
研究目標儲層位于渤海灣盆地滄東凹陷K2 段地層,以往開展了連續(xù)取心工作,取心長495.71 m,巖心采取率99.14%,通過巖心礦物組成分析可以將儲層劃分成4 種頁巖組構(gòu),分別為厚層狀灰云質(zhì)頁巖、紋層狀長英質(zhì)頁巖、紋層狀混合質(zhì)頁巖和薄層狀灰云質(zhì)頁巖(圖1)[18-19]。本文研究方法可分為3 個步驟(圖2),第一步數(shù)據(jù)工作,對測井數(shù)據(jù)和礦物組分數(shù)據(jù)進行特征選擇和數(shù)據(jù)預(yù)處理;第二步模型選擇,使用物理信息神經(jīng)網(wǎng)絡(luò)、XGBoost、隨機森林和神經(jīng)網(wǎng)絡(luò)4 種機器學(xué)習(xí)方法對特征值與巖石力學(xué)參數(shù)之間的非線性關(guān)系進行擬合,采用多種評價標準對4 種機器學(xué)習(xí)模型性能進行對比評價,優(yōu)選機器學(xué)習(xí)模型;第三步采用優(yōu)選的機器學(xué)習(xí)模型對實際研究儲層進行預(yù)測,使用預(yù)測得到的不同儲層的巖石力學(xué)參數(shù)完成目標儲層的可壓性評價分析。
圖1 渤海灣盆地滄東凹陷K2 段4 種頁巖組構(gòu)熒光薄片[18-19]Fig.1 Fluorescent thin sections of four shale fabrics in the K2 member of the Cangdong sag,Bohai Bay Basin[18-19]
圖2 渤海灣滄東凹陷K2 段儲層可壓性評價工作流程Fig.2 Workflow for the fracability evaluation of reservoirs in the K2 member of the Cangdong sag,Bohai Bay Basin
本文數(shù)據(jù)選自渤海灣滄東凹陷K2 段A 井頁巖儲層相關(guān)數(shù)據(jù),A 井井位如圖3 所示。研究使用的測井數(shù)據(jù)包括井深、橫波時差和縱波時差,巖石礦物組分包含長石、石英、鈣質(zhì)、白云石、方解石、方沸石和黏土的含量,共計210 組數(shù)據(jù)。渤海灣滄東凹陷A 井3 009~3 214 m 單井柱狀如圖4 所示。
圖3 渤海灣滄東凹陷A 井井位Fig.3 Map showing the location of well A in Cangdong sag,Bohai Bay Basin
圖4 渤海灣滄東凹陷A 井3 009~3 214 m 單井柱狀圖Fig.4 Single-well stratigraphic column of well A at a depth of 3 009–3 214 m in the Cangdong sag,Bohai Bay Basin
采用Pearson 相關(guān)系數(shù)計算得到測井數(shù)據(jù)、巖石礦物組分數(shù)據(jù)與巖石力學(xué)參數(shù)之間的相關(guān)性。Pearson 相關(guān)系數(shù)是按積差方法計算,以2 個變量與各自平均值的離差為基礎(chǔ),通過2 個離差相乘來反映兩變量之間的相關(guān)程度。Pearson 相關(guān)系數(shù)計算方法如下:別為對Yi樣本的標準分數(shù)、樣本平均值和樣本標準差。Pearson 相關(guān)系數(shù)計算結(jié)果如圖5 所示。
圖5 中井深與彈性模量呈負相關(guān)性,相關(guān)系數(shù)為-0.83,井深在相關(guān)性排序中位于第一位,井深和巖石彈性模量之間存在一定的相關(guān)性,但并不是一種簡單的線性關(guān)系。當沉積物、巖石等地層材料受到地質(zhì)作用的影響,如擠壓、折疊、斷層等,它們的物理性質(zhì)會發(fā)生變化。因此,井深可以作為一個間接指示因素,用于反映可能導(dǎo)致巖石力學(xué)參數(shù)變化的其他因素[20]。方沸石、石英與彈性模量的相關(guān)系數(shù)分別為0.71 和-0.38,其中石英和方沸石在相關(guān)性排序分別位于第二位和第六位。通常情況下,石英與彈性模量呈正相關(guān)性,然而巖石中石英含量和彈性模量之間的關(guān)系是復(fù)雜的,需要結(jié)合多種因素進行分析。當巖石中存在其他礦物質(zhì),這些礦物質(zhì)的硬度和彈性模量也會對彈性模量產(chǎn)生影響,如鈣質(zhì)。在石英含量較低的情況下,其他礦物質(zhì)的含量和硬度較高,可能會導(dǎo)致彈性模量升高,從而與石英含量呈現(xiàn)負相關(guān)性。王斌等[21]指出,方沸石與彈性模量呈高度正相關(guān);石英卻情況復(fù)雜,石英含量大于37%時,彈性模量隨石英含量的增加而增大,在石英含量低于37%時,彈性模量隨石英含量的增加而逐漸減小。與本文研究結(jié)論一致。圖5 中黏土與彈性模量的相關(guān)系數(shù)為-0.6,在相關(guān)性排序中位于第三位,當巖石中含有大量的黏土礦物時,這些礦物會分散在巖石中,將巖石中的大顆粒分隔開來,形成微觀孔隙。這些微觀孔隙的存在會使得巖石的彈性模量降低,驗證了本文相關(guān)性分析的正確性[22]??v波、橫波時差與彈性模量的相關(guān)系數(shù)分別為-0.53 和-0.4,在相關(guān)性排序中分別位于第四位和第五位,在巖石中,縱波時差和橫波時差可以用于測量巖石的物理性質(zhì),如彈性模量和剪切模量。對圖5 分析可以發(fā)現(xiàn),井深、橫波時差、縱波時差、黏土、方沸石和石英含量與彈性模量的相關(guān)性最高,用于彈性模量預(yù)測輸入?yún)?shù),其他參數(shù)與彈性模量的相關(guān)系數(shù)均不超過0.35。
圖5 中黏土與泊松比的相關(guān)系數(shù)為0.59,黏土在相關(guān)性排序中位于第一位,巖石中的黏土含量越高,其孔隙結(jié)構(gòu)越復(fù)雜,孔隙連通性越好,巖石的泊松比也會相應(yīng)地增加[23]。橫波、縱波時差與泊松比的相關(guān)系數(shù)分別為0.54 和0.59,縱波時差在與泊松比的相關(guān)性排序中并列第一位,橫波時差位于第四位,波在彈性介質(zhì)中傳播的方式與介質(zhì)的力學(xué)性質(zhì)密切相關(guān)。泊松比越小,說明介質(zhì)在受力作用下的體積收縮能力越小,而橫波和縱波在介質(zhì)中傳播時,都會引起介質(zhì)的體積變化[24],驗證了本文相關(guān)性分析的正確性。井深與泊松比的相關(guān)系數(shù)為0.58,井深在相關(guān)性排序中位于第三位,井深依然是影響巖石力學(xué)參數(shù)的間接因素。方沸石與泊松比呈現(xiàn)最大負相關(guān)性,相關(guān)系數(shù)為-0.38,在相關(guān)性排序中位于第五位。方沸石的存在會導(dǎo)致巖石中的孔隙形態(tài)和大小發(fā)生改變,使得巖石的體積變化程度較小,從而使得巖石的泊松比較小[25]。由圖5 可知,井深、橫波時差、縱波時差、方沸石和黏土含量與泊松比相關(guān)性最高,其他參數(shù)與泊松比的相關(guān)系數(shù)均不超過0.35。
由圖5 可知,抗拉強度、斷裂韌性與參數(shù)之間的相關(guān)性均處在-0.31~0.45,不同參數(shù)與抗拉強度和斷裂韌性的相關(guān)性沒有明顯差距,因此在預(yù)測抗拉強度和斷裂韌性這兩種參數(shù)時選擇所有的數(shù)據(jù)作為輸入?yún)?shù)。各巖石力學(xué)參數(shù)所對應(yīng)的輸入?yún)?shù)見表1。
表1 4 種巖石力學(xué)參數(shù)預(yù)測時輸入?yún)?shù)的選取Table 1 Input parameters for the prediction of four rock mechanical parameters
為了解決數(shù)據(jù)量綱不一和數(shù)據(jù)異常而產(chǎn)生擬合效果差等問題,采用E-score 標準化(式(2))和K 近鄰插補法(式(3))對數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理。
表2 數(shù)據(jù)處理前與數(shù)據(jù)處理后對比Table 2 Data pre and post processing
1.2.1隨機森林模型
隨機森林[26]作為集成學(xué)習(xí)bagging(裝袋法)的優(yōu)化學(xué)習(xí)算法,利用集成學(xué)習(xí)的思想將多棵CART 決策樹(Classification and Regression Tree)進行集成的一種算法。隨機森林需要通過大量的基礎(chǔ)樹模型找到最可靠的結(jié)果,最終的預(yù)測結(jié)果由所有樹模型共同決定。為了解決單一決策樹的誤差和過擬合問題,通過不同的決策樹應(yīng)用隨機處理的方法建立算法,森林中各個決策樹彼此互不關(guān)聯(lián),為單一的個體。隨機森林基本原理如圖6 所示。
圖6 隨機森林算法工作流程Fig.6 Workflow of the random forest algorithm
1.2.2XGBoost 回歸模型
XGBoost[27]模型作為一種集成學(xué)習(xí)方法,其對應(yīng)的基學(xué)習(xí)器就是一堆決策樹,將每棵樹的預(yù)測值加到一起作為最終的預(yù)測值。XGBoost 將損失函數(shù)的二階泰勒公式作為其替代函數(shù),求解其最小化來決定回歸樹的最優(yōu)切分點和葉子節(jié)點輸出值,同時,XGBoost 在損失函數(shù)中引入子樹葉節(jié)點數(shù)值和子樹數(shù)量等,充分考慮到了正則化問題,能夠有效避免過擬合。在效率上,XGBoost 通過利用獨特的近似回歸樹分叉點估計和子節(jié)點并行化等方式,加上二階收斂的特性,建模效率較一般的GBDT(Gradient Boosting Decision Tree)有了大幅提升。
1.2.3人工神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)作為一種計算模型,由大量的神經(jīng)元(節(jié)點)相互連接構(gòu)成,每個神經(jīng)元代表一種特定的輸出函數(shù),稱為激活函數(shù),每兩個神經(jīng)元間的連接都代表著一個通過該連接信號的加權(quán)值,稱之為權(quán)重。網(wǎng)絡(luò)的輸出則取決于網(wǎng)絡(luò)的架構(gòu)、連接方式、激活函數(shù)和權(quán)重。而網(wǎng)絡(luò)自身通常是對某種算法或者函數(shù)的逼近,也可能是對一種邏輯策略的表達[28]。本文構(gòu)建的人工神經(jīng)網(wǎng)絡(luò)架構(gòu)的主要思想如圖7 所示。
1.2.4物理信息約束的神經(jīng)網(wǎng)絡(luò)
1) 物理信息
由納維·柯西方程變形得到彈性模量的經(jīng)驗公式,該公式利用聲波測井的橫縱波時差數(shù)據(jù)和體積密度資料得到彈性模量,公式適用于硬脆性地層[24],公式如下:
式中:E為彈性模量,GPa;ρ為體積密度,g/cm3;Δts為橫波時差,μs/ft;Δtp為 縱波時差,μ s/ft 。當ρ=0時,式(4)—式(5)轉(zhuǎn)化為:
式(4)和式(5)為彈性模量的經(jīng)驗公式,式(6)和式(7)為邊界條件,兩者共同構(gòu)成彈性模量的經(jīng)驗?zāi)P?,該?jīng)驗?zāi)P妥鳛槲锢硇畔⑶度肷窠?jīng)網(wǎng)絡(luò)中,對彈性模量的預(yù)測過程進行物理約束。
納維·柯西方程變形依舊可以得到泊松比的經(jīng)驗公式[25],公式也適用于硬脆性地層。利用橫波和縱波的時差得到泊松比的經(jīng)驗公式及其偏導(dǎo)形式:
式中:μ為泊松比。由式(8)可知,當Δts=0,泊松比為1,當Δtp=0,泊松比為1/2,可以得到式(11)和式(12)。
通過偏導(dǎo)公式(9)和式(10)可以看出,當Δtp=Δts=0,可以得到關(guān)系式(13)和式(14)。
式(8)-式(10)作為泊松比的經(jīng)驗公式,式(11)-式(14)作為邊界條件,兩者共同構(gòu)成泊松比的經(jīng)驗?zāi)P?,該模型將作為物理信息嵌入神?jīng)網(wǎng)絡(luò)中,對泊松比的預(yù)測過程構(gòu)成物理約束。
金衍等[29]在研究深部頁巖儲層巖石力學(xué)參數(shù)時,利用彈性模量作為中間變量計算巖石抗拉強度,得到經(jīng)驗公式:
式中:σc為抗壓強度,MPa;Vcl為泥質(zhì)含量,%;σt為抗拉強度,MPa;K為巖石抗壓強度比例系數(shù)。由式(6)和式(15)可知,當ρ=0 時,E=0,即 σc=0,最終得到σt=0,因此可以得到:
式(15)和式(16)作為抗拉強度的經(jīng)驗公式,式(17)作為邊界條件,兩者共同構(gòu)成抗拉強度的經(jīng)驗?zāi)P?,該模型將作為物理信息嵌入神?jīng)網(wǎng)絡(luò)中,對抗拉強度的預(yù)測過程進行物理約束。
滿軻等[30]在研究渤海灣滄東凹陷板塊深部頁巖儲層巖石力學(xué)參數(shù)時,利用橫縱波時差相關(guān)數(shù)據(jù)計算巖石斷裂韌性,得到經(jīng)驗公式如下:
式中:KIC為斷裂韌性,MPa·m1/2。由式(18)和式(19)可知,當 Δtp=0 時,KIC=0.387,當 Δts=0時,KIC=0.349,關(guān)系式如下:
式(18)和式(19)作為斷裂韌性的經(jīng)驗公式,式(20)和式(21)作為邊界條件,兩者共同構(gòu)成斷裂韌性的經(jīng)驗?zāi)P?,該模型將作為物理信息嵌入神?jīng)網(wǎng)絡(luò)中,對斷裂韌性的預(yù)測過程進行物理約束。
2) 網(wǎng)絡(luò)架構(gòu)
物理信息約束的神經(jīng)網(wǎng)絡(luò)模型可以分為兩個部分,第一部分通過構(gòu)建全連接神經(jīng)網(wǎng)絡(luò)計算得到目標值,這里產(chǎn)生的損失函數(shù)用于衡量神經(jīng)網(wǎng)絡(luò)模型得到的預(yù)測值與真實值之間的誤差;第二部分通過自動微分將經(jīng)驗?zāi)P颓度肷窠?jīng)網(wǎng)絡(luò)模型中,這里產(chǎn)生的損失函數(shù)用于衡量預(yù)測值不滿足物理信息約束所產(chǎn)生的誤差。圖8 展示了預(yù)測泊松比的物理信息約束的神經(jīng)網(wǎng)絡(luò),其他3 種巖石力學(xué)參數(shù)預(yù)測過程與之類似。
圖8 物理信息約束的神經(jīng)網(wǎng)絡(luò)Fig.8 Physics-informed neural network
如圖8 所示,采用物理信息約束的神經(jīng)網(wǎng)絡(luò)預(yù)測泊松比的過程如下:
(1)除現(xiàn)有的數(shù)據(jù)集外,需要另外定義兩組數(shù)據(jù),每組數(shù)據(jù)量都為210 個,第一組數(shù)據(jù)假設(shè)橫波為0,其他輸入特征在現(xiàn)有數(shù)據(jù)集的范圍內(nèi)隨機取值,該組數(shù)據(jù)用于滿足邊界條件式(11)和式(14)。第二組數(shù)據(jù)假設(shè)縱波為0,其他輸入特征在現(xiàn)有數(shù)據(jù)集的范圍內(nèi)隨機取值,該組數(shù)據(jù)用于滿足邊界條件式(12)和式(13)。
(2)構(gòu)造一個神經(jīng)網(wǎng)絡(luò),其中輸入層為深度、橫波、縱波、方沸石和黏土,輸出層的目標參數(shù)為巖石泊松比。
(3)構(gòu)造損失函數(shù)量化在物理信息約束下預(yù)測泊松比與真實泊松比之間的殘差。
(4)訓(xùn)練神經(jīng)網(wǎng)絡(luò),通過損失函數(shù)梯度調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置項來確定泊松比,使預(yù)測泊松比和真實泊松比之間的誤差最小化。
在第(2)步中,構(gòu)建了一個具有3 層隱藏層的全連接神經(jīng)網(wǎng)絡(luò),隱藏層中的神經(jīng)元數(shù)量必須隨輸入和輸出的數(shù)量縮放。在隱藏層中采用了6、8 和6 個神經(jīng)元,在復(fù)雜場景中則需要更多的神經(jīng)元。所有隱藏層均采用ReLU 激活函數(shù):
式中:x為神經(jīng)元的輸入;ReLU(x)為神經(jīng)元的輸出。
在第(3)步中,構(gòu)造2 種損失函數(shù),第一種損失函數(shù)為數(shù)據(jù)驅(qū)動下神經(jīng)網(wǎng)絡(luò)在預(yù)測過程中產(chǎn)生的誤差,第二種損失函數(shù)為物理約束下預(yù)測結(jié)果不滿足物理條件產(chǎn)生的誤差,物理信息神經(jīng)網(wǎng)絡(luò)總的損失函數(shù)為兩種損失函數(shù)的加權(quán)求和,由于在(1)中定義了兩組數(shù)據(jù)用于滿足物理信息中的邊界條件,這兩組數(shù)據(jù)的數(shù)量均與現(xiàn)有數(shù)據(jù)集相等,為了保證神經(jīng)網(wǎng)絡(luò)自身計算產(chǎn)生的誤差與物理信息約束下產(chǎn)生的誤差重要性一致,此處定義第一種損失函數(shù)的懲罰系數(shù)為2,第二種損失函數(shù)的懲罰系數(shù)為1,物理信息約束的神經(jīng)網(wǎng)絡(luò)損失函數(shù)表示如下:
式中:θ為神經(jīng)網(wǎng)絡(luò)權(quán)重;Fh為物理約束條件(經(jīng)驗?zāi)P?;Lh(μ)為不滿足物理信息的約束條件產(chǎn)生的誤差;NNLoss(θ)為 神經(jīng)網(wǎng)絡(luò)的計算誤差;α、β為懲罰系數(shù);Loss為總體誤差。
在第(4)步中采用目前非常有效的隨機梯度下降算法(SGD),從樣本中隨機抽取一組,訓(xùn)練后按梯度更新一次,重復(fù)這樣的過程,在樣本量較大的情況下,不用訓(xùn)練完所有的樣本就可以獲得一個在可接受范圍內(nèi)的損失值。
R2通常被稱為決定系數(shù),它量化了一個自變量與其他自變量之間的方差。R2是Pearson 相關(guān)系數(shù)r的平方,它衡量2 個變量X和y之間的線性相關(guān)性。R2的表達式如下:
式中:yi為 每個數(shù)據(jù)點的值;為平均值;yreg為回歸模型預(yù)測的值。
本文還使用平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Square Error,RMSE)對結(jié)果進行量化,表達式分別如下:
機器學(xué)習(xí)模型的泛化能力是評價模型性能的一項非常重要的指標。在機器學(xué)習(xí)中使用訓(xùn)練集去訓(xùn)練一個模型,通常做法是定義一個損失函數(shù),通過最小化損失函數(shù)的過程提高模型的性能。然而學(xué)習(xí)模型的目的是解決實際問題,單純的將訓(xùn)練數(shù)據(jù)集損失函數(shù)最小化,并不能保證在解決一般問題時模型依然保持優(yōu)秀的性能,甚至不能保證模型是可用的。
k折交叉驗證方法很好地解決了這一問題,k折交叉驗證是一種用于驗證機器學(xué)習(xí)模型泛化能力的常見方法。其基本思想是將數(shù)據(jù)集分成k個互不重疊的子集,然后使用其中一個子集作為驗證集,其余k-1 個子集作為訓(xùn)練集,重復(fù)k次這個過程,每次選擇不同的子集作為驗證集。最終,將k次的驗證結(jié)果平均值作為模型的性能評估指標,以此評估模型在未知數(shù)據(jù)上的泛化能力。過程如圖9 所示。
圖9 k 折交叉驗證流程Fig.9 The k-fold cross-validation process
這種方法可以很好地解決模型在單個數(shù)據(jù)集上過擬合或欠擬合的問題。當模型在訓(xùn)練集上表現(xiàn)很好,但在測試集上表現(xiàn)很差時,就會出現(xiàn)過擬合的問題。而當模型在訓(xùn)練集和測試集上表現(xiàn)都很差時,則出現(xiàn)欠擬合的問題。通過使用k折交叉驗證,可以使模型在不同的訓(xùn)練集和驗證集上進行多次驗證,從而有效地評估模型的泛化能力。
本文采用頁巖油儲層巖石的脆性指數(shù)和力學(xué)參數(shù)對渤海灣盆地滄東凹陷K2 段儲層可壓裂性進行評價。根據(jù)國內(nèi)外對頁巖儲層可壓裂性評價的研究成果,脆性指數(shù)不僅能夠衡量壓裂改造的難易程度,還可以表示壓裂后儲層形成復(fù)雜裂縫網(wǎng)絡(luò)的難易程度。頁巖脆性指數(shù)高的地方一般對壓裂改造的反映敏感,極易形成復(fù)雜的網(wǎng)狀裂縫,頁巖脆性指數(shù)低的地方則容易形成簡單的雙翼型裂縫。本文采用彈性模量和泊松比計算脆性指數(shù),由于預(yù)測得到的彈性模量和泊松比均為動態(tài)參數(shù),需要通過動靜態(tài)轉(zhuǎn)換公式對其進行轉(zhuǎn)換,M.Slota-Valim[31]在研究頁巖彈性特性時提出了動靜態(tài)轉(zhuǎn)換關(guān)系如下:
式中:Ej為 靜態(tài)彈性模量;μj為靜態(tài)泊松比。
研究區(qū)域目標儲層頁巖靜態(tài)彈性模量為17~33 GPa,平均26 GPa,靜態(tài)泊松比為0.14~0.27,平均0.19,采用R.Rickman 等[32]對脆性指數(shù)的研究成果,得到脆性指數(shù)計算公式:
式中:EBrit為 歸一化的彈性模量;μBrit為歸一化的泊松比;Brit為脆性指數(shù)。
袁俊亮等[33]采用脆性指數(shù)與力學(xué)參數(shù)對頁巖油儲層可壓性進行評價,通過計算可壓裂指數(shù)來表征儲層壓裂的難易程度(下式)。其在研究中指出頁巖油儲層的可壓裂性與脆性指數(shù)呈正相關(guān),與斷裂韌性和抗拉強度呈負相關(guān),評價效果理想,與本文的研究路線基本一致,因此采用該方法對渤海灣滄東凹陷研究區(qū)進行可壓性分析。
式中:σt為抗拉強度,MPa;Frac為可壓裂指數(shù)。
本文通過4 種機器學(xué)習(xí)模型預(yù)測彈性模量、泊松比、抗拉強度和斷裂韌性這四種巖石力學(xué)參數(shù)。模型選用了210 組數(shù)據(jù),按8∶2 的比例分為訓(xùn)練集和測試集,訓(xùn)練集為168 組,測試集為42 組。使用4 種機器學(xué)習(xí)方法對數(shù)據(jù)集進行訓(xùn)練,對每種方法進行10 折交叉驗證。表3 展示了4 種巖石力學(xué)參數(shù)在機器學(xué)習(xí)模型訓(xùn)練中的最佳、平均和最差性能,平均值顯示了這些模型在測試數(shù)據(jù)集上的平均性能,這些指標對判斷機器學(xué)習(xí)模型是否優(yōu)異具有重要意義。此外,圖10 顯示了僅在測試階段預(yù)測四種巖石力學(xué)參數(shù)時模型的性能,為了更直觀地觀察四種機器學(xué)習(xí)算法的性能,圖11顯示了沿井深變化所提出的模型對測試集數(shù)據(jù)的擬合能力,需要注意的是,由于劃分測試集時的隨機性,所以在預(yù)測四種巖石力學(xué)參數(shù)時,每個測試集中的數(shù)據(jù)點都各不相同。
表3 4 種機器學(xué)習(xí)模型預(yù)測巖石力學(xué)參數(shù)時的評價結(jié)果Table 3 Evaluation results of four machine learning models for predicting rock mechanical parameters
圖11 機器學(xué)習(xí)模型對測試集數(shù)據(jù)的擬合能力沿井深變化Fig.11 Well depth-varying fitting ability of machine learning models for data in the test set
從表3、圖10 和圖11 可以看出,PINN 對巖石力學(xué)參數(shù)的預(yù)測相比于其他3 種機器學(xué)習(xí)模型更準確,預(yù)ERM測S和彈性R2模的平量均的值實分驗別中為,P1I.N5 7 N、在1.6測4 和試階96%段,的相比EM于A、XGBoost 模型、隨機森林和神經(jīng)網(wǎng)絡(luò)的準確率分別高出5%、9%和10%。在泊松比的預(yù)測中,PINN的EMA、ERMS和R2的平均值分別為0.012、0.021 和95%,同樣表現(xiàn)為最優(yōu)異的模型,相比于XGBoost 模型、隨機森林和神經(jīng)網(wǎng)絡(luò)的準確率分別高出5%、8%和9%。在抗拉強度的預(yù)測中,PINN 的平均準確率為95%,相比于XGBoost 模型、隨機森林和神經(jīng)網(wǎng)絡(luò)準確率高出5%、10%和11%,性能均優(yōu)于其他模型。在斷裂韌性的預(yù)測中,PINN 的平均準確率為97%,相比于XGBoost 模型、隨機森林和神經(jīng)網(wǎng)絡(luò)準確率高出5%、8%和11%。該結(jié)果說明了PINN相比較于隨機森林、XGBoost 和人工神經(jīng)網(wǎng)絡(luò)在性能上具有優(yōu)越性。
此外,PINN 在經(jīng)過10 折交叉驗證后,其在預(yù)測彈性模量時EMA、ERMS和R2的最值差距分別為0.26、0.34 和6%,在預(yù)測泊松比時EMA、ERMS和R2的最值差距分別0.016、0.019 和9%,最值差距始終為4 種機器學(xué)習(xí)模型中最小的,在抗拉強度和斷裂韌性的實驗中亦然。準確率最值差距較小的模型,其k折交叉驗證的各次驗證準確率都比較穩(wěn)定,說明模型對數(shù)據(jù)的泛化能力較強。也就是說,該模型在訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)中的表現(xiàn)差異較小,能夠很好地應(yīng)對新的數(shù)據(jù)集。因此,在選擇模型時,通常會選擇準確率最值差距較小的模型,因為這樣的模型更具有可靠性和穩(wěn)定性。因此,可以發(fā)現(xiàn)PINN 自身具有較強的泛化能力,并可以推廣到解決其他巖石力學(xué)問題中。
XGBoost 在4 種巖石力學(xué)參數(shù)的預(yù)測實驗中,平均準確率分別為91%、90%、90%和92%,雖然預(yù)測精度不及物理信息約束的神經(jīng)網(wǎng)絡(luò),但依靠其強大的集成學(xué)習(xí)計算方法,在4 種機器學(xué)習(xí)模型中表現(xiàn)也較為可觀。隨機森林的表現(xiàn)次之,在4 種巖石力學(xué)參數(shù)預(yù)測中平均準確率分別為86%、87%、85%和89%,在10 折交叉驗證的過程中,隨機森林算法中EMA和ERMS的最值差距相比于其他模型明顯較大,在彈性模量實驗中,EMA、ERMS和R2的最值差距分別為1.65、3.62和21%,在泊松比的實驗中,EMA、ERMS和R2的最值差距分別為0.068、0.071 和23%,這相較于其他模型最值差距已經(jīng)非常大,究其原因,當進行回歸時,隨機森林不能夠做出超越訓(xùn)練集數(shù)據(jù)范圍的預(yù)測,這導(dǎo)致對某些特定噪聲的數(shù)據(jù)進行建模時出現(xiàn)過度擬合,此次研究中,隨機森林模型前期展示出較高擬合能力,但在交叉驗證過程中擬合效果下降明顯,說明存在過擬合現(xiàn)象,這也是進行交叉驗證的目的。若在訓(xùn)練模型后不加以驗證,一旦出現(xiàn)過擬合現(xiàn)象,模型可能在現(xiàn)有的數(shù)據(jù)集上表現(xiàn)優(yōu)異,但其不具有泛化性,無法應(yīng)用到更廣泛的場景中,那么該模型是失敗的。人工神經(jīng)網(wǎng)絡(luò)的擬合效果與隨機森林方法相近,在四種巖石力學(xué)參數(shù)預(yù)測中其準確率分別為87%、86%、84%和86%,人工神經(jīng)網(wǎng)絡(luò)在這里沒有獲得更好的表現(xiàn)能力,主要因為其優(yōu)勢就是為了進行大規(guī)模數(shù)據(jù)分析,處理龐大的數(shù)據(jù)集并且尋找數(shù)據(jù)間的非線性復(fù)雜關(guān)系。因此,PINN 優(yōu)勢突出,它在少量的數(shù)據(jù)下依然可以最大程度地發(fā)揮出神經(jīng)網(wǎng)絡(luò)模型的潛力。
使用PINN 預(yù)測得到巖石力學(xué)參數(shù),采用式(33)可壓性評價方法確定目標儲層可壓裂指數(shù),該可壓裂指數(shù)反映滄東凹陷K2 段不同儲層頁巖可壓性的相對大小,如圖12 所示,顏色越紅,可壓裂指數(shù)越高,即可壓裂性越好,形成復(fù)雜裂縫網(wǎng)絡(luò)的可能性更大,裂縫更容易延伸;顏色越綠,可壓裂指數(shù)越低,代表可壓裂性越差,形成的裂縫形態(tài)單一,裂縫不易延伸。
圖12 可壓裂指數(shù)三維分布Fig.12 3D distribution of fracability index
通過計算得到可壓裂指數(shù)并結(jié)合現(xiàn)場實際生產(chǎn)狀況,將可壓性分為3 個級別:可壓裂指數(shù)高于0.7,頁巖可壓性良好,屬于優(yōu)質(zhì)頁巖儲層,容易形成復(fù)雜的裂縫網(wǎng)絡(luò);可壓裂指數(shù)位于0.4~0.7,頁巖可壓性中等,可能形成復(fù)雜的裂縫網(wǎng)絡(luò);可壓裂性指數(shù)低于0.4,頁巖可壓性較差,較難形成復(fù)雜的裂縫網(wǎng)絡(luò)。圖13 展示了不同井深的可壓裂指數(shù),由圖中可知,滄東凹陷K2 段不同儲層可壓性整體上較好,其中,紋層狀混合質(zhì)頁巖(2 951~2 961 m)可壓裂指數(shù)高于0.7,可壓性良好;紋層狀長英質(zhì)頁巖(2 926~2 942 m)、厚層狀灰云質(zhì)頁巖(2 919~2 925 m)和薄層灰云質(zhì)頁巖(2 974~2 984 m)可壓裂指數(shù)均在0.4~0.7,可壓性中等。
圖13 渤海灣滄東凹陷K2 段不同井深可壓性變化Fig.13 Fracability index at different well depths in the K2 member of the Cangdong sag,Bohai Bay Basin
韓文中等[34]對滄東凹陷K2 段進行了甜點層定量評價,經(jīng)過研究發(fā)現(xiàn)紋層狀混合質(zhì)頁巖甜點指數(shù)最高為0.94,甜點指數(shù)最低的儲層為厚層狀灰云質(zhì)頁巖,甜點指數(shù)0.62。其研究提到目前渤海灣滄東凹陷K2 段已經(jīng)開采長達600 多天,其中紋層狀混合質(zhì)頁巖儲層平均日產(chǎn)油量可以達到16.6 t,是4 種頁巖儲層中產(chǎn)量最高的??梢园l(fā)現(xiàn)文獻[34]對滄東凹陷K2 段的研究結(jié)果以及目前該地區(qū)的產(chǎn)能情況與本次研究得到的可壓性規(guī)律一致(圖14),在此證明了本文研究結(jié)果的正確性。
圖14 不同儲層可壓性評價結(jié)果驗證Fig.14 Verification of the fracability evaluation results of different reservoirs
本文采用渤海灣滄東凹陷K2 段的測井數(shù)據(jù)和巖石礦物組分數(shù)據(jù),通過物理信息約束的神經(jīng)網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)、隨機森林和XGBoost 這4 種機器學(xué)習(xí)模型對不同儲層的巖石力學(xué)參數(shù)進行預(yù)測,采用多種評價標準橫向?qū)Ρ? 種機器學(xué)習(xí)模型的性能,研究結(jié)果表明物理信息約束的神經(jīng)網(wǎng)絡(luò)預(yù)測精度最高,預(yù)測4 種巖石力學(xué)參數(shù)的平均準確率均在95%以上,性能遠優(yōu)于其他3 種模型。使用物理信息約束的神經(jīng)網(wǎng)絡(luò)預(yù)測得到的儲層巖石力學(xué)參數(shù)結(jié)合現(xiàn)有的可壓性評價方法,完成對渤海灣滄東凹陷K2 段4 種頁巖油儲層的可壓性評價。本文建立物理信息約束的神經(jīng)網(wǎng)絡(luò)預(yù)測巖石力學(xué)參數(shù),不僅極大地節(jié)約了人力物力,而且克服了經(jīng)典機器學(xué)習(xí)模型由于數(shù)據(jù)量較少無法準確預(yù)測巖石力學(xué)參數(shù)的局限性,為儲層可壓性評價方法提供了可靠的巖石力學(xué)參數(shù)。本文建立的模型相比于過去的研究方法雖然取得了一定的進步,但也存在一些不足。該模型未考慮嵌入物理信息的種類和物理信息的數(shù)量對模型性能的影響,物理信息約束的神經(jīng)網(wǎng)絡(luò)最佳性能仍然有待挖掘。后續(xù)將針對嵌入物理信息的種類和物理信息的數(shù)量做深入研究,使物理信息約束的神經(jīng)網(wǎng)絡(luò)模型可以發(fā)揮更大的作用。
a.提出一種基于物理信息約束的神經(jīng)網(wǎng)絡(luò)模型(PINN),采用PINN 預(yù)測彈性模量、泊松比、抗拉強度和斷裂韌性的平均準確率分別為96%、95%、95%和97%,其準確率明顯高于人工神經(jīng)網(wǎng)絡(luò)、隨機森林和XGBoost 模型,在少量的數(shù)據(jù)下,通過對神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)添加物理信息約束可以有效提高預(yù)測的精度。
b.XGBoost 預(yù)測巖石力學(xué)參數(shù)的平均準確率在90%以上,隨機森林和人工神經(jīng)網(wǎng)絡(luò)預(yù)測的平均準確率均在85%以上,這3 種機器學(xué)習(xí)模型在巖石力學(xué)參數(shù)的預(yù)測中雖然效果不及物理信息約束的神經(jīng)網(wǎng)絡(luò)優(yōu)異,但相較于傳統(tǒng)的室內(nèi)實驗方法和經(jīng)驗公式方法表現(xiàn)出經(jīng)濟高效的特點。
c.將PINN 應(yīng)用于滄東凹陷K2 段儲層可壓性評價,得出研究區(qū)整體可壓性較好,紋層狀混合質(zhì)頁巖可壓性良好,紋層狀長英質(zhì)頁巖、厚層狀灰云質(zhì)頁巖和薄層灰云質(zhì)頁巖可壓性中等。
d.提出的PINN 經(jīng)過k折交叉驗證后具有良好的泛化能力,選取的可壓性評價方法經(jīng)過前人的多次驗證具有較高的可靠性,證實本文研究方法具有一定的普適性,可以推廣到解決其他巖石力學(xué)和儲層可壓性問題中。