藍茜茜, 張逸倫, 康志宏*
(1.中國地質(zhì)大學(北京)能源學院, 北京 100083; 2.北京大學地球與空間科學學院, 北京 100871)
儲層流體性質(zhì)識別是一項重要的儲層表征和含油氣性評價方法,對后續(xù)油田開發(fā)方案的制定與調(diào)整起到關(guān)鍵作用。復雜儲層具有儲集空間多樣、巖性復雜、非均質(zhì)性強等特點,由于測井資料受多種因素控制導致流體響應特征不明顯,僅利用單一的測井資料或者儲層參數(shù)無法準確識別儲層流體性質(zhì)[1]。目前以綜合多種測井資料及儲層參數(shù)解釋為主要識別手段,常用的方法包括多參數(shù)重疊法、交會圖法、經(jīng)驗公式法等[2-5]。近年來隨著數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,回歸算法、聚類算法、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)、決策樹算法、隨機森林、支持向量機等技術(shù)及結(jié)合上述多種技術(shù)的綜合判別方法均被用于儲層流體識別中[6-13]。
在眾多的機器學習算法中,BP神經(jīng)網(wǎng)絡(luò)及其改進算法由于在綜合多屬性數(shù)據(jù)預測中優(yōu)秀的非線性映射能力,已成為最為廣泛使用的儲層性質(zhì)識別技術(shù),但該方法網(wǎng)絡(luò)結(jié)構(gòu)簡單,只能挖掘到樣本淺層的特征信息。與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)相比,深度學習的網(wǎng)絡(luò)結(jié)構(gòu)更深,學習能力更強,具備處理大量樣本數(shù)據(jù)、解決復雜非線性預測問題的能力,同時避免了傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)易陷入局部極小值,梯度消失的問題[14-16]。針對目前復雜儲層流體識別中常規(guī)方法存在的識別率低、嚴重依賴人工經(jīng)驗的問題,將深度學習方法引入,建立了多屬性測井參數(shù)和復雜儲層流體性質(zhì)之間的非線性關(guān)系,并將其應用于車排子油田低滲油藏某井區(qū),體現(xiàn)了深度學習在復雜儲層流體識別中的優(yōu)越性。
深度神經(jīng)網(wǎng)絡(luò)是一種有監(jiān)督式的特征學習模型,它在人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,通過增加隱含層數(shù)提高特征提取能力。與隱含層數(shù)量較少的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相比,深度學習可以將低層特征進行組合,提取潛在的復雜高層特征信息,從而較好地解決復雜的非線性問題。
典型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由輸入層、多個隱含層和輸出層構(gòu)成,層與層之間采用全連接方式,上一層的神經(jīng)元輸出即為下一層神經(jīng)元的輸入。訓練模型包括信息前饋傳遞和誤差反向傳遞兩個過程。以隱含層中的一個神經(jīng)元為例,前饋傳遞過程如圖1所示。經(jīng)多結(jié)點加權(quán)求和與非線性函數(shù)激活,神經(jīng)元在傳遞過程中具備了非線性表達能力。誤差反向傳遞過程采用小批量梯度下降法更新網(wǎng)絡(luò)[17]。
Y、Z分別表示神經(jīng)元的輸入和輸出值;Xi、ωi、b分別為上一層第i個神經(jīng)元(共m個神經(jīng)元)的輸出值、連接權(quán)值和偏置項;G為非線性激活函數(shù)圖1 單個神經(jīng)元前饋傳遞過程Fig.1 Feedforward transmission process of a single neuron
深度神經(jīng)網(wǎng)絡(luò)是建立在擬均衡樣本集的基礎(chǔ)上,樣本選取是否合理直接影響到深度學習的預測效果。儲層流體性質(zhì)識別本質(zhì)上是一個多屬性分類問題,對于復雜儲層區(qū)塊,非產(chǎn)層段在所有井段中往往占絕對優(yōu)勢,作為開發(fā)目標的產(chǎn)層段明顯少于水層、干層等非產(chǎn)層段,在深度學習中極易忽視產(chǎn)層段帶來的影響,出現(xiàn)誤判和錯判的情況。
采用混合采樣技術(shù)進行樣本均衡優(yōu)化。該方法將上采樣和下采樣有機結(jié)合,在上采樣過程中采用Smote算法增加少樣本類別的樣本數(shù);下采樣過程中采用K-means聚類算法減少多樣本類別的樣本數(shù)[18-19]。假定一個包含N個樣本的非均衡數(shù)據(jù)集分為m類{C1,C2,…,Cm},每類中的樣本數(shù)為{N1,N2,…,Nm},具體實現(xiàn)步驟如下。
(1)據(jù)式(1)計算每類中樣本數(shù)的平均值k,以k為分界,大于k的類別為大樣本類,反之則為小樣本類。經(jīng)混合采樣后每類樣本大小均為k,原始不均衡樣本集將演化為均衡樣本集。
(2)對于大樣本類,K-means算法將樣本聚為k類,僅保留距離每個聚類中心最近的一個樣本,聚類后的k個樣本在降采樣的基礎(chǔ)上仍保留了原始數(shù)據(jù)的全部特征。
(1)
(2)
式中:R為一個均勻分布在0~1間的隨機數(shù)。
1.2.1 ReLU-Softmax激活函數(shù)
神經(jīng)網(wǎng)絡(luò)中引入激活函數(shù)的目的是最大限度地擬合輸入層與輸出層之間復雜的非線性關(guān)系,目前Sigmod、Tanh和ReLU是常用的隱含層激活函數(shù),如圖2所示。Sigmod和Tanh函數(shù)在反向誤差傳播過程時,由于函數(shù)值在邊界處變化緩慢,導數(shù)趨近于0,容易出現(xiàn)梯度消失現(xiàn)象從而導致模型無法收斂,且Sigmod和Tanh函數(shù)本身及其求導過程涉及指數(shù)和除法運算,計算復雜度高。ReLU是一個分段函數(shù)[式(3)],求解函數(shù)及其導數(shù)過程均較為簡單,避免了梯度消失現(xiàn)象,計算便捷高效,故選用ReLU函數(shù)作為隱含層神經(jīng)元節(jié)點的激活函數(shù)[20]。
圖2 不同類型的激活函數(shù)Fig.2 Different types of activation function
對于多分類問題,在輸出層后添加一個Softmax層,如式(4)所示,假定輸出層有T個原始輸出,該層使用Softmax函數(shù)將輸出值Vi映射為0~1區(qū)間內(nèi)的概率值Si,即轉(zhuǎn)換為“軟分類”模型。利用Softmax激活函數(shù)后,以交叉熵作為損失函數(shù),誤差反向傳導過程易于實現(xiàn),應用效果較好。ReLU、Softmax激活函數(shù)分別應用于隱含層和輸出層,兩者的有機結(jié)合起到了優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的作用。
(3)
(4)
1.2.2 Dropout正則化
隱含層的增加保證了訓練模型較好的學習能力,但同時復雜的網(wǎng)絡(luò)結(jié)構(gòu)使得模型預測結(jié)果嚴重依賴于訓練樣本集,出現(xiàn)“過擬合”現(xiàn)象。在儲層流體識別中具體表現(xiàn)為:預測樣本集識別率顯著低于訓練集,模型泛化能力差,跨井位、跨工區(qū)的遷移性較差。Dropout正則化通過對網(wǎng)絡(luò)結(jié)構(gòu)進行取平均有效防止模型“過擬合”,模型訓練過程中按照一定比例隨機丟棄一些“神經(jīng)元”(圖3),每一次訓練的網(wǎng)絡(luò)結(jié)構(gòu)均不同,使得網(wǎng)絡(luò)在每次迭代過程中并不依賴于所有全連接層神經(jīng)元,降低了網(wǎng)絡(luò)結(jié)構(gòu)復雜的關(guān)聯(lián)性,學習到的樣本特征更具魯棒性[21]。
圖3 Dropout正則化示意圖Fig.3 Diagram of Dropout regularization
將深度學習應用于多分類問題時,其識別效果受多種因素影響。因此,需要提出適用于復雜儲層流體性質(zhì)識別問題的優(yōu)化方案。針對樣本數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)兩方面進行優(yōu)化。
利用混合采樣進行樣本優(yōu)化后,大樣本類的樣本數(shù)減少,小樣本類的樣本數(shù)增加,原本不均衡樣本集轉(zhuǎn)換為均衡樣本集,使得模型訓練時不會過分受某一類別干擾而影響識別效果。在優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)時,將ReLU激活函數(shù)、Softmax層和Dropout正則化引入,可使網(wǎng)絡(luò)模型更好地適應多分類問題,防止出現(xiàn)“過擬合”現(xiàn)象,有效提高訓練模型的穩(wěn)定性。
在識別過程中,首先將優(yōu)化后的樣本集作為深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)集,經(jīng)改進后的網(wǎng)絡(luò)訓練得到神經(jīng)網(wǎng)絡(luò)模型,并對儲層流體性質(zhì)進行識別。樣本數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化策略的有機統(tǒng)一提高了本文方法的應用效果。
車排子油田位于準噶爾盆地西北緣,是盆地內(nèi)主要的油氣富集區(qū)之一。研究區(qū)儲層沉積了一套以礫巖、砂礫巖為主的粗碎屑沉積,儲層非均質(zhì)性較強。根據(jù)部分巖心資料分析,研究區(qū)儲層孔隙度分布區(qū)間為1.2%~26.7%,平均值為17.54%;絕對滲透率分布區(qū)間為0.02~802 mD,平均值為4.19 mD,為中孔低滲儲層。自2016年新井投產(chǎn)后,該研究區(qū)部分出現(xiàn)高部位斷塊油井試油出水,同一斷塊不同部位試油結(jié)論差異大,因此,有效識別油層對儲層精細描述和開發(fā)方案調(diào)整至關(guān)重要。
目標區(qū)測井資料包括聲波時差(AC)、補償中子(CNL)、密度(DEN)、自然伽馬(GR)、井徑(CAL)、自然電位(SP)、沖洗帶電阻率(RXO)、淺側(cè)向電阻率(RI)、深側(cè)向電阻率(RT)9種,測井資料統(tǒng)計情況如表1所示,根據(jù)多種測錄井解釋方法和試油分析的聯(lián)合標定結(jié)果,將研究區(qū)內(nèi)12口開發(fā)井的所有層段劃分為干層、水層、油層和油水同層4類。
表1 目標區(qū)測井資料統(tǒng)計Table 1 Logging data statistics in target area
該區(qū)塊地層中鈣質(zhì)含量較低,水層一般為低電阻響應特征,深側(cè)向電阻率小于淺側(cè)向電阻率,但負差異較小,沖洗帶電阻率低,自然伽馬低,井徑顯著增大,自然電位異常幅度最大,且變化幅度劇烈,呈“齒狀”,聲波時差為中等值。干層的儲層物性一般較差,電阻率低,深淺側(cè)向電阻率無明顯正負差異,部分干層由于含鈣質(zhì)導致電阻率增大,沖洗帶電阻率低,自然伽馬低,自然電位可能存在微小異常,井徑無明顯響應,聲波時差低,密度高,中子低。油層電阻率明顯高于水層,一般為水層的3~5倍,深淺側(cè)向電阻率曲線基本重疊且均為高阻特征,沖洗帶電阻率高,自然伽馬值一般較低,自然電位異常幅度較水層小,聲波時差低且無明顯變化,曲線呈“箱形”,密度和中子變化平緩。油水同層的測井響應特征介于油層和水層之間,深淺側(cè)向電阻率高于水層且低于油層,其他測井響應特征與油層基本一樣。
目標區(qū)塊多種測井參數(shù)與儲層流體性質(zhì)間無明顯的線性響應特征,且參數(shù)間耦合關(guān)系復雜,單一的測井響應很難準確識別該區(qū)塊的儲層流體性質(zhì),依靠人工解釋時,往往結(jié)合多種測井參數(shù)綜合識別,但容易顧此失彼,解釋結(jié)果嚴重依賴人工經(jīng)驗,準確識別還有賴于綜合利用其他資料,如地震、錄井資料和試油結(jié)論等。因此,可以利用深度神經(jīng)網(wǎng)絡(luò)建立測井響應特征與儲層流體性質(zhì)之間的非線性映射關(guān)系,準確識別儲層流體性質(zhì)。
由于深度學習良好的自動學習能力,將所有測井參數(shù)利用式(5)進行歸一化處理后均作為神經(jīng)網(wǎng)絡(luò)模型輸入?yún)?shù),避免了常規(guī)訓練模型中半定量化優(yōu)選參數(shù)導致的誤差影響,有效節(jié)省了算法用時。采用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。經(jīng)過多次重復試驗,最終確定網(wǎng)絡(luò)參數(shù)為輸入層9個神經(jīng)元(對應9種測井參數(shù))、5個隱含層(神經(jīng)元個數(shù)依次為20、25、30、25、15,Dropout比例為0.2)、輸出層4個神經(jīng)元[邏輯數(shù)組{1,0,0,0},{0,1,0,0},{0,0,1,0},{0,0,0,1}分別表示4種流體性質(zhì)]和一個Softmax層。Softmax層中最大概率值對應的類別即為最終分類結(jié)果。
圖4 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 The deep neural network structure
(5)
將12口開發(fā)井中的10口井數(shù)據(jù)作為訓練樣本集,其余兩口作為測試樣本集。圖5所示分別為訓練集和測試集的樣本集數(shù)量分布,原始訓練集儲層流體中水層段占絕對優(yōu)勢,在1 297個樣本中占比達67.85%,為高度不均衡樣本集,經(jīng)混合采樣后達到均衡。兩口井數(shù)據(jù)組成的測試數(shù)據(jù)集共包括 197個樣本,其中水層樣本122個,占61.9%;干層樣本46個,占23.4%;油水同層和油層樣本分別為18、11個,僅占9.1%、5.6%,樣本不均衡程度與訓練集接近,均為高度不均衡樣本集。
圖5 樣本集數(shù)量分布Fig.5 Distribution of sample set
利用訓練得到的深度神經(jīng)網(wǎng)絡(luò)模型預測儲層流體性質(zhì),并對結(jié)果進行綜合評價。其中,混淆矩陣是神經(jīng)網(wǎng)絡(luò)多分類器中常用的評價手段,矩陣中每行代表相應類別的實際樣本數(shù),每列代表預測樣本數(shù)(表2),評價指標包括精準率(Precision),召回率(Recall),F(xiàn)值(F-measure)。式(6)~式(8)為第i類樣本(共K類)的評價指標表達式精準率和召回率從不同維度評價多分類問題,而F值是對精準率和召回率的平均估計,是評價多分類問題的最佳參數(shù),F(xiàn)值越高,代表分類結(jié)果越好。
表2 識別結(jié)果混淆矩陣Table 2 Confusion matrix of identification results
(6)
(7)
(8)
式中:Aij為實際結(jié)果為第i類、預測結(jié)果為第j類的樣本數(shù);β為調(diào)節(jié)精準率和召回率的權(quán)值常數(shù),取1。
由混淆矩陣可知,對角位置為正確識別樣本,水層、干層、油水同層和油層分別為105、35、15、8個,累計占總樣本數(shù)的比例達82.7%。兩個大樣本類(水層和干層)的F值分別為88.6%、69.3%,兩個小樣本類(油水同層和油層)的F值分別為90.9%、69.6%。結(jié)果顯示,本文方法在保證了整體識別率的基礎(chǔ)上,目標流體層的識別率也達到理想預測結(jié)果。
混淆矩陣非對角位置為錯誤分類結(jié)果,分析可知,水層與干層之間、油層與干層之間互相誤判的樣本數(shù)較多,分別為24、7個,這兩類誤判中均包含干層,其主要原因是干層的測井響應特征不明顯,導致對其他層段的識別造成干擾。進一步結(jié)合區(qū)塊內(nèi)開發(fā)井史得知,部分干層也出現(xiàn)了少量的工業(yè)油氣流,推測區(qū)塊內(nèi)可能存在“假性”干層。同時,由于采用概率輸出值的不確定性預測,對于測井響應不明顯的層位,網(wǎng)絡(luò)輸出值經(jīng)Softmax層得到的 4個概率間的差異可能較小,將其歸入概率最大值對應的類中會造成結(jié)果的誤判,可根據(jù)實際情況將樣本類別進一步細分來減少錯誤識別樣本數(shù)量。
將儲層流體性質(zhì)的模型預測結(jié)果與人工解釋結(jié)論進行對比,如圖6所示,選取的目標層段為其中一口測試井2 580~2 640 m共60 m的儲層段。該段內(nèi)的含油飽和度So均較高,平均值達37.2%。結(jié)合測井響應特征、儲層物性特征和試油結(jié)果等,人工解釋結(jié)論將目標段劃分為9個流體層段。其中,油層段有4個,層厚分布不一;油水同層和水層段各有1個,均為厚層;干層有3個,均為薄層。
圖6 人工解釋結(jié)論與模型預測結(jié)果對比Fig.6 Comparison of artificial interpretation conclusions and model prediction results
結(jié)果顯示,厚層段的預測結(jié)果與人工解釋結(jié)果完全一致,包括3個油層段、1個水層段、1個油水同層段。這是由于厚層段測井曲線呈現(xiàn)“鐘形”或“箱形”結(jié)構(gòu),響應特征變化幅度小,樣本的輸入測井參數(shù)在段內(nèi)較為穩(wěn)定,預測結(jié)果抗干擾能力強,模型對厚層段的容錯率較高。
對于薄層段,僅有兩個極薄的干層段被錯識為油層段,主要原因是薄層段“鋸齒形”或“脈沖形”的測井曲線變化幅度大,選取的測井輸入?yún)?shù)無法較好地反映段內(nèi)真實的測井響應特征。但由于局部的極薄層段在開發(fā)過程中不作為主力產(chǎn)層段,對整體預測結(jié)果的影響可近似忽略。在復雜儲層流體精細識別中,可將模型的預測結(jié)果作為預判,在此基礎(chǔ)上,對薄層段做進一步人工解釋。
為了進一步驗證混合采樣技術(shù)和Dropout正則化組合策略的應用效果,在參數(shù)設(shè)置一致的前提下,以F值為綜合評價指標,設(shè)置3個參照組與本文方法進行對比,各方法的識別結(jié)果如圖7所示。其中,4種方法對水層的識別效果均較好,F(xiàn)值接近,分布為84%~90%;干層的識別情況也較為接近,與未采用兩種優(yōu)化策略的結(jié)果相比,本文方法的F值提高了10.2%;4種方法在油水同層和油層中的識別效果差異顯著,其中,本文方法的識別效果最好。
圖7 不同優(yōu)化方法的識別效果(F值)對比Fig.7 Comparison of identification effects (F-measure) of different optimization methods
分析可知,若未采用混合采樣技術(shù),F(xiàn)值大小與各類別的樣本數(shù)量明顯正相關(guān),大部分樣本被歸為水層和干層這兩個大樣本類中,導致水層和干層的識別效果較好,但油水同層和油層的識別率極差,驗證了混合采樣技術(shù)可顯著提高不均衡樣本集中小樣本類的識別效果。
在未采用混合采樣時,Dropout正則化對識別效果的提高不顯著;采用混合采樣對樣本集進行均衡處理后,Dropout正則化顯著提高了油水同層和油層的識別率,說明Dropout正則化在樣本均衡的前提下可有效防止模型“過擬合”。綜上,充分說明了樣本數(shù)據(jù)選取與網(wǎng)絡(luò)結(jié)構(gòu)之間相互制衡和統(tǒng)一的關(guān)系,驗證了基于優(yōu)化組合策略的深度神經(jīng)網(wǎng)絡(luò)方法在實際應用中的優(yōu)越性。
針對常規(guī)儲層流體性質(zhì)識別中存在識別效果差、嚴重依賴人工經(jīng)驗的問題,以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),從樣本數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化入手,創(chuàng)新性地提出一種綜合混合采樣技術(shù)、ReLU-Softmax激活函數(shù)、Dropout正則化的儲層流體性質(zhì)識別新方法,建立了儲層測井參數(shù)與流體性質(zhì)之間的神經(jīng)網(wǎng)絡(luò)模型,得到以下結(jié)論。
(1)優(yōu)化策略的有機結(jié)合有效提高了儲層流體性質(zhì)的識別效果?;旌喜蓸蛹夹g(shù)使樣本集均衡化,顯著提高了小樣本類的識別率;ReLU-Softmax激活函數(shù)使得多分類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)得以優(yōu)化;Dropout正則化降低了模型對網(wǎng)絡(luò)結(jié)構(gòu)的“過擬合”。
(2)車排子油田目標井區(qū)12口井資料的識別結(jié)果顯示:儲層流體性質(zhì)的總體識別準確率達82.7%,樣本量分別僅占9.1%、5.6%的油水同層和油層的識別率均顯著高于其他未優(yōu)化方法結(jié)果,滿足實際測井資料解釋的要求。與其他未優(yōu)化方法的識別效果對比,優(yōu)化策略的有機結(jié)合使得本文方法的流體識別準確率大幅提高,進一步驗證了本文組合優(yōu)化策略在儲層流體性質(zhì)識別中的優(yōu)越性。展示了深度學習在復雜儲層流體識別中良好的應用效果。