杜睿山,李宏杰,孟令東
(1.東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318;2.油氣藏及地下儲庫完整性評價黑龍江省重點實驗室,黑龍江 大慶 163318)
在處理巖石工程時,脆性被認(rèn)為是一個重要的巖石參數(shù)。例如,在天然氣和石油工程領(lǐng)域,評估井筒穩(wěn)定性以及評估水力壓裂作業(yè)的性能需要充分了解巖石脆性。巖石脆性是指巖石在發(fā)生很小變形即破壞的性質(zhì),是井筒穩(wěn)定性評價和水力壓裂評估的參數(shù)之一[1]。在非常規(guī)油氣勘探開發(fā)過程,特別是頁巖和致密砂巖油氣,儲層脆性評價和預(yù)測更是不可或缺的研究內(nèi)容[2]。
脆性的定義已經(jīng)提出了很多,但由于工程中需要的目的不同,脆性的測量和識別仍然沒有統(tǒng)一的規(guī)則。目前測井?dāng)?shù)據(jù)評價巖石脆性的方法可以分為以下幾類:基于脆性礦物含量的脆性評價、基于巖石力學(xué)參數(shù)的脆性評價和基于應(yīng)力-應(yīng)變曲線的脆性指數(shù)評價?,F(xiàn)在應(yīng)用較為廣泛的是基于巖石力學(xué)參數(shù)的脆性指數(shù)評價,其計算需要楊氏模量和泊松比等彈性參數(shù),而參數(shù)的計算需要橫波測井和巖性-密度測井,由于測井服務(wù)成本高,傳統(tǒng)上不采用,因此有時需要從局部經(jīng)驗擬合方程粗略計算彈性參數(shù),這可能會給最終的脆性結(jié)果帶來較大的誤差。另外,由于巖石的脆性特征是在一定的地層條件下的巖石不同礦物組成、結(jié)構(gòu)和物理力學(xué)性質(zhì)的綜合結(jié)果[3]。因此,想要全面體現(xiàn)巖石的脆性特征,需要綜合考慮多條測井曲線。
近年來,巖石脆性已被許多地質(zhì)力學(xué)領(lǐng)域的研究者廣泛研究,大量研究使用機(jī)器學(xué)習(xí)(ML)和人工智能(AI)技術(shù)來解決科學(xué)和工程領(lǐng)域的相關(guān)問題。一些學(xué)者也比較傾向于建立基于數(shù)據(jù)的脆性關(guān)系,具體的測井曲線或儲層屬性與脆性指數(shù)的關(guān)系。部分學(xué)者的研究中,已證實了脆性指數(shù)與一些常規(guī)測井曲線具有良好的關(guān)系。在一些頁巖氣儲層中,礦物學(xué)脆性與自然伽馬/光電吸收截面指數(shù)(自然伽馬與光電吸收截面指數(shù)比)、孔隙度、縱波時差等之間存在良好的關(guān)系[4-6]。時賢等人[7]利用人工智能技術(shù)預(yù)測了巖石脆性,并在論文中說明礦物學(xué)信息和測井信息的結(jié)合有助于更好地擴(kuò)展有限的礦物學(xué)數(shù)據(jù),同時反映井下情況。袁思喬等人[8]基于多測井曲線利用層次分析法對脆性指數(shù)進(jìn)行了預(yù)測。葉亞培等人[9]基于常規(guī)測井?dāng)?shù)據(jù),利用PCA-BPNN的方法對脆性指數(shù)進(jìn)行了預(yù)測,實驗結(jié)果表明,該方法具有較高的準(zhǔn)確性。
根據(jù)前人的研究表明,利用常規(guī)測井曲線去預(yù)測脆性指數(shù)是可行的,因此,該文利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法進(jìn)行脆性預(yù)測,基于巖石力學(xué)參數(shù)楊氏模量和泊松比構(gòu)建的脆性數(shù)據(jù)集,建立常規(guī)測井參數(shù)與脆性指數(shù)的關(guān)系模型,準(zhǔn)確地將脆性指數(shù)與測井參數(shù)關(guān)聯(lián)起來。這種關(guān)聯(lián)的優(yōu)勢在于:可以使用廉價且相對簡單的預(yù)測技術(shù)來估計整口井的脆性指數(shù),而且大多數(shù)井的測井輸入數(shù)據(jù)都可以在整口井中獲得,而不需要收集額外數(shù)據(jù)。
之前的一些研究承認(rèn)機(jī)器學(xué)習(xí)技術(shù)在解決工程問題方面的適用性,但仍有一些技術(shù)未被使用或幾乎未被用于預(yù)測巖石脆性指數(shù)[10]。前人的研究幾乎都是利用傳統(tǒng)機(jī)器學(xué)習(xí)方法或者統(tǒng)計學(xué)習(xí)方法,雖然可以建立常規(guī)測井曲線與脆性指數(shù)的模型,但是未能考慮測井曲線的序列特征,因此可能會帶來一定的誤差。該文選取雙向長短期記憶神經(jīng)網(wǎng)絡(luò),因為其可以綜合考慮過去和未來信息,使得序列信息在模型中一直傳遞下去,從而更能保證結(jié)果的有效性。
該文基于常規(guī)測井曲線數(shù)據(jù),選取多條測井曲線數(shù)據(jù)為輸入,以脆性指數(shù)為輸出,首次將雙向長短期記憶神經(jīng)網(wǎng)絡(luò)引入到脆性指數(shù)預(yù)測中,采用CNN-BiLSTM-AM神經(jīng)網(wǎng)絡(luò)進(jìn)行實驗,構(gòu)建出常規(guī)測井曲線和脆性指數(shù)的關(guān)系模型,對儲層巖石的脆性指數(shù)進(jìn)行預(yù)測與分析,并和多種機(jī)器學(xué)習(xí)方法進(jìn)行對比,以驗證該模型的優(yōu)越性。借助Pearson相關(guān)系數(shù)分析,研究了各測井曲線對脆性的敏感性等級。利用這些變量,比較了若干種機(jī)器學(xué)習(xí)模型和文中所提模型的性能。從神經(jīng)網(wǎng)絡(luò)模型獲得的脆性數(shù)值結(jié)果揭示了CNN-BiLSTM-AM在預(yù)測過程中的高精度和高效率,這有助于使用現(xiàn)有的實驗數(shù)據(jù)進(jìn)行更好的脆性預(yù)測。
CNN(卷積神經(jīng)網(wǎng)絡(luò))的局部感知和權(quán)值共享可以大大減少參數(shù)的數(shù)量,從而提高模型的學(xué)習(xí)效率。CNN主要由三部分組成:卷積層、池化層和全連接層[11]。每個卷積層包含多個卷積核,其計算公式見公式(1)。對卷積層進(jìn)行卷積運算后,提取數(shù)據(jù)的特征。然而,提取的特征維數(shù)非常高。所以為了解決這個問題,降低網(wǎng)絡(luò)訓(xùn)練的成本,在卷積層之后增加了一個pooling層來降低特征維數(shù)。
lt=tanh(xt*kt)+bt
(1)
其中,lt為卷積后的輸出值,tanh為激活函數(shù),xt為輸入向量,kt為卷積核的權(quán)值,bt為卷積核的偏置值。
2.2.1 LSTM
常規(guī)的RNN會發(fā)生梯度消失或者梯度爆炸問題[12],導(dǎo)致不收斂,從而致使網(wǎng)絡(luò)預(yù)測效果不佳。為此,后來的學(xué)者對其進(jìn)行了改良,LSTM通過添加3個門來控制不同時序?qū)罄m(xù)信息的影響同時使用隱狀態(tài)和細(xì)胞狀態(tài)傳遞信息,使得LSTM能夠綜合局部信息和序列信息[13]。
圖1是常見的長短期模型記憶單元,主要由遺忘門、輸入門和輸出門這三個門組成。
圖1 LSTM 網(wǎng)絡(luò)重復(fù)單元結(jié)構(gòu)
每個門的具體公式如下所示:
ft=σ[Wf(ht-1,xt)+bf]
(2)
it=σ[Wi(ht-1,xt)+bi]
(3)
Ct=ftCt-1+itCtt
(4)
Ot=σ[Wo(ht-1,xt)+bo]tanhCt
(5)
式中,ft是t時刻遺忘門的輸出,ht-1為前一時刻的隱狀態(tài),xt為當(dāng)前時刻的輸入,Ot是t時刻輸入門的輸出;Ctt是t時刻tanh層的輸出;Ct為t時刻的細(xì)胞狀態(tài),it是t時刻輸入門的輸出,Wf、bf是遺忘門的權(quán)重和偏置;Wi、bi是輸入門的權(quán)重和偏置;Wo、bo是輸出門的權(quán)重和偏置。
2.2.2 BiLSTM
BiLSTM(雙向長短期記憶)神經(jīng)網(wǎng)絡(luò)由兩層獨立的LSTM層構(gòu)成(如圖2所示),一層前向LSTM和一層后向LSTM,是對LSTM的改進(jìn),BiLSTM可以綜合考慮歷史信息與未來信息,所以較普通LSTM有更好的效果。
圖2 BiLSTM示例圖
注意力機(jī)制(Attention Mechanism)的主要思想來源于人類視覺注意的過程[14]。AM選擇性地關(guān)注一些比較重要的信息,忽略不重要的信息,可以分配信息的重要性。
如圖3所示,AM的計算過程一般分為三個階段:(1)相似度計算階段;(2)歸一化處理階段;(3)注意力加權(quán)求和階段,每階段具體公式如下:
圖3 AM流程
St=tanh(Whht+bh)
(6)
(7)
(8)
其中,Wh為AM的權(quán)值,bh為AM的偏置,ht為輸入向量,Wh、bh為各層的共享權(quán)值,v為注意值。
CNN具有關(guān)注視線中最明顯的特征的特點,因此在特征工程中被廣泛應(yīng)用。BiLSTM具有按時間序列展開的特點,在時間序列分析中應(yīng)用廣泛。AM具有將時間序列數(shù)據(jù)的過去特征狀態(tài)添加到輸出結(jié)果的重要特性。
根據(jù)CNN、BiLSTM和AM的特點,充分發(fā)揮各自的優(yōu)勢,該文提出了一種基于CNN-BiLSTM-AM的巖石脆性預(yù)測模型。模型結(jié)構(gòu)如圖4所示,主要結(jié)構(gòu)有CNN、BiLSTM、AM,包括輸入層、CNN層(一維卷積層、池化層)、BiLSTM層(正向LSTM層、反向LSTM層)、AM層、輸出層。
圖4 CNN-LSTM-AM模型
(1)輸入層:對脆性數(shù)據(jù)集進(jìn)行切片處理,并將處理好的數(shù)據(jù)作為CNN層的輸入。
(2)CNN層:其有共享權(quán)重和局部感知等特點,這意味著CNN具有獨特的優(yōu)勢。該文使用卷積和池化操作從測井曲線序列數(shù)據(jù)中提取特征。
(3)BiLSTM層:該層由正向LSTM和逆向LSTM組成。與LSTM相比,BiLSTM可以雙向提取測井曲線序列信息,更好地收集來自CNN的數(shù)據(jù)的正向和反向依賴關(guān)系,對特征信息進(jìn)行選擇性記憶和遺忘,學(xué)習(xí)測井信息隨深度的變化趨勢和前后相關(guān)性,有效防止梯度消失或爆炸。
(4)AM層:注意力層可以對特征進(jìn)行進(jìn)一步的信息篩選,對不同的特征賦予不同的權(quán)重,有選擇地從模型訓(xùn)練過程中學(xué)習(xí)特征和關(guān)鍵信息,過濾無用信息,從而提高模型預(yù)測的準(zhǔn)確性。
(5)輸出層:輸出AM層加權(quán)求和的預(yù)測結(jié)果,然后將測試集輸入訓(xùn)練好的模型進(jìn)行預(yù)測,生成脆性指數(shù)預(yù)測結(jié)果。
該文研究的一種基于CNN-BiLSTM-AM的脆性指數(shù)預(yù)測模型具體流程如圖5所示。
圖5 CNN-LSTM-AM流程
(1)采集區(qū)域內(nèi)井的數(shù)據(jù),構(gòu)建出基于巖石彈性參數(shù)的脆性指數(shù)數(shù)據(jù)集。
(2)對測井?dāng)?shù)據(jù)進(jìn)行處理,并且進(jìn)行Pearson線性相關(guān)性分析以及XGBoost特征重要性分析,篩選特征,提升模型預(yù)測的精度以及速度。
(3)劃分步驟二中歸一化后的數(shù)據(jù)集,按照7∶3的比例劃分為訓(xùn)練集和測試集。
(4)利用前饋傳播計算輸出本次迭代的預(yù)估值,然后再反向計算每個神經(jīng)元的誤差項值,經(jīng)過Adam優(yōu)化參數(shù)后繼續(xù)訓(xùn)練模型。
(5)將訓(xùn)練步數(shù)作為終止條件,若達(dá)到終止條件,則返回最優(yōu)結(jié)果,否則繼續(xù)步驟四。
實驗環(huán)境:實驗在Windows平臺進(jìn)行,計算機(jī)具體配置如下:處理器為酷睿i7-9700K,顯卡為英偉達(dá)GTX2070和16G內(nèi)存條,所提模型基于python深度學(xué)習(xí)框架。
實驗數(shù)據(jù)集來源于勝利油田某井的常規(guī)測井?dāng)?shù)據(jù),脆性指數(shù)是基于巖石力學(xué)參數(shù)楊氏模量和泊松比計算而來的,具體計算公式如式(9)所示:
(9)
其中:
(10)
(11)
式中,BI0為巖石脆性指數(shù);ΔEs為楊氏模量;ΔPRs為泊松比;Es為靜態(tài)楊氏模量106psi(1psi=0.006 894 8 MPa);PRs為靜態(tài)泊松比,無量綱。
該文收集了完整的測井?dāng)?shù)據(jù)集,包括聲波時差(AC)、井徑(CAL)、密度(DEN)、中子(CNL)、伽馬射線(GR)、自然電位(SP)和深度側(cè)向測井(LLD)等曲線。其中LLD測井曲線表示地層電阻率,主要受地層流體和飽和度控制,與巖石力學(xué)性質(zhì)無關(guān),因此首先剔除LLD測井曲線。其次,通過分析實測BI(脆性指數(shù))值與相應(yīng)的測井?dāng)?shù)據(jù)之間的關(guān)系,選擇合適的測井參數(shù)進(jìn)行脆性評價是模型構(gòu)建的關(guān)鍵步驟,因為輸入?yún)?shù)與脆性指數(shù)值密切相關(guān)的測井?dāng)?shù)據(jù)可以準(zhǔn)確地預(yù)測脆性指數(shù)值。以Pearson相關(guān)系數(shù)為關(guān)鍵指標(biāo),考察脆性對測井曲線的線性依賴程度,具體的Pearson相關(guān)系數(shù)計算公式如下:
(12)
從圖中6可以看出,除了SP與BI無明顯的線性相關(guān)性,其余曲線都與BI有著或多或少的相關(guān)性。AC、CNL、CAL與BI呈負(fù)相關(guān)性,且AC、CNL與BI的負(fù)相關(guān)性較大;DEN、GR與BI成正相關(guān),其中部分結(jié)果可以從巖石物理角度加以說明。
AC、CNL、DEN曲線與脆性指數(shù)有著重要的關(guān)系,因為巖石孔隙度的增加會導(dǎo)致巖石脆性的降低。總有機(jī)碳(TOC)含量高的頁巖會產(chǎn)生較高的伽馬射線值,前人研究表明,有機(jī)質(zhì)主要富集在硅質(zhì)頁巖和碳質(zhì)頁巖中,由于存在適量的石英和碳酸鹽礦物,這類巖石具有較高的BI值,因此,BI高的巖石通常具有較高的GR[9]。本數(shù)據(jù)集中,SP曲線雖然與BI無明顯的線性相關(guān)性,但SP與巖石孔隙度相關(guān),也是一個十分重要的參數(shù)。從以上可以看出,本研究所選取的測井曲線幾乎都是與BI有著重要的物理關(guān)系。
雖然CAL、GR、SP與BI的線性相關(guān)性并不明顯,但是不排除它們之間有著非線性關(guān)系,因此有必要進(jìn)一步分析。采用XGBoost方法進(jìn)行特征重要性分析,XGBoost可以找到特征和目標(biāo)之間的非線性關(guān)系,其在分裂時會使用最高信息增益的特征作為分裂條件。當(dāng)某一個特征多次被用來構(gòu)建決策樹,其重要性就會越高,經(jīng)XGBoost排序后的重要性如表1所示。
表1 特征重要性排序
考慮到特征之間可能存在線性相關(guān)性較高的特征,即冗余特征,因此對兩兩測井參數(shù)之間進(jìn)行Pearson相關(guān)性分析,圖6可以看到測井曲線之間的線性關(guān)系。AC與CNL曲線相關(guān)性程度高達(dá)0.824,根據(jù)Pearson相關(guān)系數(shù)定義,AC與CNL具有強相關(guān)性,對模型最終結(jié)果有著幾乎相同的影響,因此,舍棄CNL。再結(jié)合XGBoost特征重要性排序結(jié)果,CAL、SP和GR得分較靠前,也屬于重要參數(shù)。因此將AC(聲波時差)、CAL(井徑)、DEN(密度)、GR(自然伽馬)、SP(自然電位)作為神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù),這樣可以避免規(guī)模過大的問題,保證更快的運行速度和更高的精度。
圖6 皮爾遜相關(guān)系數(shù)
本研究的主要目的是利用常規(guī)測井資料對儲層脆性指數(shù)進(jìn)行預(yù)測。因此,將測井曲線作為網(wǎng)絡(luò)的輸入,而將脆性值作為網(wǎng)絡(luò)的輸出。考慮到每一種測井曲線的量綱不一,所以要進(jìn)行無量綱化處理,通過歸一化轉(zhuǎn)換將數(shù)據(jù)集中的數(shù)據(jù)縮放到一個區(qū)間。采用常用的min-max歸一化方法,將數(shù)據(jù)線性縮放到0~1之間的值:
(13)
表2 數(shù)據(jù)集部分?jǐn)?shù)據(jù)
表3 神經(jīng)網(wǎng)絡(luò)超參數(shù)選擇情況
之后是數(shù)據(jù)集的劃分,將數(shù)據(jù)集以7∶3的比例劃分為訓(xùn)練集和測試集。因此在這個模擬中,大約70%的數(shù)據(jù)用于訓(xùn)練,30%用于測試。為了評價預(yù)測結(jié)果,以均方誤差(MSE)和均方根誤差(RMSE)作為性能指標(biāo)。表達(dá)式如下:
(14)
(15)
其中,yi為測量數(shù)據(jù),f(xi)為預(yù)測數(shù)據(jù),n為用于訓(xùn)練或測試神經(jīng)網(wǎng)絡(luò)的樣本個數(shù)。
為了保證實驗公平,對涉及到的神經(jīng)網(wǎng)絡(luò)模型統(tǒng)一采用Adam優(yōu)化器優(yōu)化內(nèi)部參數(shù)。Adam是一種基于低階矩自適應(yīng)估計的隨機(jī)目標(biāo)函數(shù)一階梯度優(yōu)化算法,該算法易于實現(xiàn),計算效率高,內(nèi)存需求小。Adam通過優(yōu)化目標(biāo)函數(shù),也適用于BiLSTM神經(jīng)網(wǎng)絡(luò),其目標(biāo)是找到一組使均方誤差最小化的參數(shù)[15]。
在CNN-LSTM-AM模型實驗過程中,需要對神經(jīng)網(wǎng)絡(luò)的超參數(shù)進(jìn)行調(diào)整,以保證神經(jīng)網(wǎng)絡(luò)的性能盡可能最優(yōu),影響模型效果的超參數(shù)主要有四個:批處理參數(shù)、訓(xùn)練步數(shù)、學(xué)習(xí)率以及激活函數(shù)。超參數(shù)優(yōu)化最常用的是人工搜索,人工搜索需要耗費較大的時間和精力。若通過正交試驗法獲得最優(yōu)組合超參數(shù),將耗費大量的資源和時間,并且不能確保得到的超參數(shù)組合是最優(yōu)解。因此,該文選取經(jīng)典群智能算法-粒子群算法進(jìn)行超參數(shù)優(yōu)化。
經(jīng)粒子群尋優(yōu)后,當(dāng)批處理參數(shù)為32,訓(xùn)練步數(shù)為50,學(xué)習(xí)率為0.005,隱層神經(jīng)元個數(shù)為64時,模型效果最好。
為了進(jìn)一步驗證文中模型在脆性預(yù)測中的效果,選取集中傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行對比,并與文獻(xiàn)[9]提出的方法進(jìn)行了對比。同時為了減少實驗誤差,將模型運行10次,取平均值為最終預(yù)測結(jié)果,因測試集數(shù)量較多,不好進(jìn)行觀察,所以選擇了部分測試集的預(yù)測進(jìn)行結(jié)果展示,預(yù)測結(jié)果對比如圖7~10所示,橫坐標(biāo)是測試集的數(shù)量,縱坐標(biāo)是脆性指數(shù)。
圖7 SVR預(yù)測結(jié)果
圖8 隨機(jī)森林預(yù)測結(jié)果
圖9 PCA-BPNN預(yù)測結(jié)果
圖10 CNN-BILSTM-AM模型預(yù)測結(jié)果
總體來說,CNN-BiLSTM-AM模型得到的低偏差說明了其具有較好的預(yù)測能力。雖然傳統(tǒng)的機(jī)器學(xué)習(xí)算法在預(yù)測過程中不如CNN-BiLSTM-AM強,但是它們?nèi)匀豢梢员徽J(rèn)為是一種較為可靠的脆性預(yù)測方法。
在訓(xùn)練和測試過程中,CNN-BiLSTM-AM在MSE和RMSE誤差方面(見表4)都比傳統(tǒng)機(jī)器學(xué)習(xí)模型表現(xiàn)更好。實驗結(jié)果表明,該模型在預(yù)測巖石脆性精度方面要更加優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型,符合實驗的預(yù)期成果。傳統(tǒng)方法忽略了測井曲線內(nèi)部信息的關(guān)聯(lián),BiLSTM可以有效地考慮上下文信息,因此會比傳統(tǒng)的方法更為精確,另外,在雙向長短期的基礎(chǔ)上添加了一維卷積進(jìn)行特征提取,同時也添加了注意力機(jī)制,可以有針對性對地給特征分配權(quán)重,從而有更小的誤差。
表4 各模型的MSE和RMSE
該文討論了傳統(tǒng)的機(jī)器學(xué)習(xí)模型和CNN-BiLSTM-AM模型在預(yù)測頁巖儲層脆性方面的應(yīng)用,得出了以下結(jié)論:
(1)CNN-BiLSTM-AM模型選取多條常規(guī)測井曲線作為輸入變量,脆性指數(shù)作為輸出變量,成功地對巖石脆性進(jìn)行了準(zhǔn)確、可靠的脆性指數(shù)預(yù)測,為儲層脆性預(yù)測提供一種新途徑。
(2)傳統(tǒng)的機(jī)器學(xué)習(xí)模型和CNN-BiLSTM-AM模型都可以進(jìn)行脆性預(yù)測,但是CNN-BiLSTM-AM模型的誤差小于其他模型,并且該文運用相關(guān)系數(shù)矩陣分析等數(shù)據(jù)挖掘技術(shù)有助于提取特定數(shù)據(jù)集的最重要和最相關(guān)的特征。
(3)建立的CNN-BiLSTM-AM模型較為復(fù)雜,所以運行速度比其他模型慢,仍可以進(jìn)一步對其進(jìn)行優(yōu)化,提升預(yù)測的速度和效率。