符強(qiáng),譚忠健,李鴻儒,郭明宇,劉志偉,苑仁國(guó)
1.中海油能源發(fā)展股份有限公司工程技術(shù)分公司(天津 300459)
2.中海石油(中國(guó))有限公司天津分公司(天津 300459)
從已經(jīng)發(fā)現(xiàn)的眾多潛山類型油氣藏來看,變質(zhì)巖潛山約占潛山油氣儲(chǔ)量發(fā)現(xiàn)的四分之三,商業(yè)價(jià)值很大[1-3]。渤海油田在錦州25-1南構(gòu)造、渤中19-6構(gòu)造和渤中13-2構(gòu)造等多個(gè)變質(zhì)巖潛山中獲得了好的油氣發(fā)現(xiàn),揭示了變質(zhì)巖潛山在渤海油氣勘探發(fā)現(xiàn)中的巨大潛力。
當(dāng)前對(duì)于變質(zhì)巖潛山巖性的定名,主要依據(jù)實(shí)驗(yàn)室?guī)r石薄片鑒定結(jié)果結(jié)合常規(guī)測(cè)井曲線特征對(duì)變質(zhì)巖巖性進(jìn)行綜合定名[4-6],雖然效果顯著,但時(shí)效性差,成本較高。與實(shí)驗(yàn)室專用的高精度ZSX Primus Ⅱ波長(zhǎng)色散X 射線元素?zé)晒夤庾V儀相比,現(xiàn)場(chǎng)主要選用簡(jiǎn)易型能量色散型儀器EML-200 型和HB-X100型對(duì)現(xiàn)場(chǎng)巖屑進(jìn)行元素分析,其特點(diǎn)是分析時(shí)間短,成本低,結(jié)構(gòu)簡(jiǎn)單,易于拆卸和搬運(yùn),特別適合錄井現(xiàn)場(chǎng)的作業(yè)環(huán)境。但相應(yīng)的缺點(diǎn)也突出,受俄歇效應(yīng)和基體效應(yīng)影響,儀器對(duì)低原子序數(shù)(如Na元素)和低含量元素的測(cè)量精度較低,導(dǎo)致井間可對(duì)比性差[7-9],特別是對(duì)于由火山巖變質(zhì)作用形成的非均質(zhì)性較強(qiáng)的變質(zhì)巖潛山來說,巖性識(shí)別精度更差。其次是缺少相應(yīng)的變質(zhì)巖潛山巖性判別圖版,行業(yè)內(nèi)相對(duì)權(quán)威的TAS 圖版是基于礦物成分而非元素對(duì)火成巖巖性的判別[10]。最后是當(dāng)前應(yīng)用元素錄井對(duì)巖性的判別多是依據(jù)經(jīng)驗(yàn),比如,陳穎等的塔河油田風(fēng)化殼卡取難點(diǎn)及方法引用[11],陳然等的庫(kù)車坳陷博孜1201 井古近系鹽底卡層技術(shù)[12]。近年來,數(shù)據(jù)挖掘技術(shù)被廣泛應(yīng)用在石油行業(yè)。它是一種建立在計(jì)算機(jī)技術(shù)基礎(chǔ)上的數(shù)學(xué)算法分析技術(shù),通過統(tǒng)計(jì)、在線分析處理、機(jī)器學(xué)習(xí)、專家系統(tǒng)(經(jīng)驗(yàn)法則)等方式挖掘隱藏在數(shù)據(jù)中的人工不易察覺的規(guī)律和價(jià)值。它的優(yōu)勢(shì)在于最大程度降低了人的主觀因素在判別結(jié)果中的權(quán)重,評(píng)價(jià)結(jié)果更加客觀且智能。近年來該方法在石油行業(yè)的成功案例不勝枚舉[13-16]。
井場(chǎng)元素錄井?dāng)?shù)據(jù)雖然在一定程度上反應(yīng)了變質(zhì)巖潛山巖性的信息,但還無法對(duì)變質(zhì)巖潛山巖性給出準(zhǔn)確定名,需要借助數(shù)據(jù)挖掘技術(shù)提高數(shù)據(jù)本身的價(jià)值。本文基于井場(chǎng)元素錄井?dāng)?shù)據(jù),應(yīng)用數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)降維和隨機(jī)森林算法,建立巖性判別模型,以實(shí)現(xiàn)對(duì)變質(zhì)巖潛山巖性的智能高效判別。
實(shí)施方法是基于實(shí)驗(yàn)室薄片鑒定及測(cè)井?dāng)?shù)據(jù)的巖性結(jié)論,將井場(chǎng)元素錄井(XRF)數(shù)據(jù)按照巖性結(jié)論整理為初選樣本,再通過PCA(Principal Component Analysis)數(shù)據(jù)降維的方法精簡(jiǎn)樣本,提高樣本的代表性,最后應(yīng)用隨機(jī)森林算法形成訓(xùn)練樣本決策樹,進(jìn)而形成基于隨機(jī)森林算法的巖性判別模型,利用生成的判別模型對(duì)實(shí)際井資料進(jìn)行分析,最終得出巖性判別結(jié)果(圖1)。
圖1 隨機(jī)森林巖性判別模型建立流程圖
以渤海渤中13-X 構(gòu)造及渤中19-X 構(gòu)造為研究目標(biāo),研究區(qū)潛山受構(gòu)造及多期次巖漿侵入影響,儲(chǔ)層具有巖性及內(nèi)部結(jié)構(gòu)復(fù)雜多樣、縫—孔復(fù)合發(fā)育、非均質(zhì)性強(qiáng)等特征,嚴(yán)重制約了儲(chǔ)層的深入認(rèn)識(shí)。通過研究區(qū)渤中13-X 構(gòu)造電測(cè)參數(shù)結(jié)合巖心及壁心實(shí)驗(yàn)室薄片結(jié)論可建立綜合解釋巖電響應(yīng)關(guān)系圖版(圖2),由圖2 可見,研究區(qū)不同巖性間的電學(xué)特征差異十分明顯。圖3 為該構(gòu)造井場(chǎng)人員依據(jù)元素錄井?dāng)?shù)據(jù)結(jié)合經(jīng)驗(yàn)做出的巖性解釋剖面圖。從圖2、圖3 可見,研究區(qū)內(nèi)實(shí)際巖性種類繁雜,測(cè)井可分出6 種,但井場(chǎng)工程師解釋巖性單一,錄井僅能識(shí)別2 種,雖發(fā)現(xiàn)了元素?cái)?shù)據(jù)含量變化,卻無法據(jù)此對(duì)巖性進(jìn)行細(xì)分判斷,使得井場(chǎng)巖性解釋不夠精確,無法滿足變質(zhì)巖儲(chǔ)層快速評(píng)價(jià)和勘探?jīng)Q策的需求。
圖2 目標(biāo)區(qū)BZ13-X構(gòu)造巖電響應(yīng)關(guān)系圖版
圖3 目標(biāo)BZ13-X構(gòu)造井場(chǎng)巖性解釋剖面圖
通過搜集研究區(qū)9 口井近600 個(gè)元素?cái)?shù)據(jù)點(diǎn),綜合實(shí)驗(yàn)室薄片鑒定及區(qū)域不同巖性的測(cè)井曲線特征,將研究區(qū)巖性歸納為9 類:①二長(zhǎng)片麻巖;②變晶花崗片麻巖;③堿長(zhǎng)片麻巖;④斜長(zhǎng)片麻巖;⑤混合花崗巖;⑥片麻質(zhì)碎裂巖;⑦變粒巖;⑧閃長(zhǎng)玢巖;⑨蝕變輝綠巖。
1.2.1 數(shù)據(jù)樣本建立
將上述9種巖性對(duì)應(yīng)的現(xiàn)場(chǎng)元素?cái)?shù)據(jù)處理形成初步樣本,樣本包括井場(chǎng)元素錄井技術(shù)所測(cè)得17種元素(Si、Fe、Al、Na、Ti、Mn、Ca、Mg、K、P、S、Cl、Ba、V、Ni、Sr、Zr)和對(duì)應(yīng)的巖性分析結(jié)果。
1.2.2 樣本數(shù)據(jù)預(yù)處理
綜上所述,當(dāng)前渤海應(yīng)用的能量色散類EML-200型和HB-X100型元素錄井測(cè)量?jī)x器對(duì)低原子序數(shù)(如Na元素)和低含量元素的測(cè)量精度較低,結(jié)合不同元素的含量情況,為了提高對(duì)變質(zhì)巖潛山巖性的識(shí)別準(zhǔn)確性,減少不準(zhǔn)確元素對(duì)最終巖性判別模型的干擾,決定選取常見造巖礦物中具有代表性的7 種主元素,分別為Si、Al、Fe、Ca、Mg、Na、K(表1)。利用數(shù)據(jù)降維方法對(duì)該7 種元素進(jìn)行降維處理,提取其中的主要敏感元素。
表1 元素?cái)?shù)據(jù)與巖性的相關(guān)系數(shù)
1.3.1 基于PCA算法的元素錄井?dāng)?shù)據(jù)降維處理
1.3.1.1 數(shù)據(jù)降維原理及推導(dǎo)
PCA 算法是一種常見數(shù)據(jù)分析方式,常用于將包含冗余信息的高維數(shù)據(jù)轉(zhuǎn)化為包含原始數(shù)據(jù)所有主要信息的少量低維數(shù)據(jù),即主成分分析。其核心是正交分解。通過選擇新的相互正交的空間基向量將若干可能具有相關(guān)性的數(shù)據(jù)變成一組無關(guān)變量的方式,用少數(shù)幾種最關(guān)鍵的主成分為代表,從而實(shí)現(xiàn)數(shù)據(jù)降維的目標(biāo)[17-18]。
數(shù)學(xué)推導(dǎo)可以從最大可分性和最近重構(gòu)性兩方面進(jìn)行,前者的優(yōu)化條件為劃分后方差最大,后者的優(yōu)化條件為點(diǎn)到劃分平面距離最小,這里選擇方差最大的方式。PCA算法的典型步驟如下:
1)對(duì)原始數(shù)據(jù)矩陣進(jìn)行標(biāo)準(zhǔn)化處理。假定原始數(shù)據(jù)樣本數(shù)為n,特征變量維數(shù)為p,生成矩陣X=(Xi1,Xi2,...,Xip)T,其中i=1,2,...,n,n>p,對(duì)樣本矩陣進(jìn)行如下變換:
2)計(jì)算相關(guān)系數(shù)矩陣。通過公式(2)計(jì)算得到經(jīng)過標(biāo)準(zhǔn)化處理后數(shù)據(jù)的相關(guān)系數(shù):
并得到以下相關(guān)系數(shù)矩陣:
F=,其中p為參數(shù)個(gè)數(shù),i,j為某個(gè)特征列的編號(hào)。
3)計(jì)算相關(guān)系數(shù)矩陣F的特征值和特征向量。計(jì)算矩陣F的特征值,并按特征值從大到小的順序進(jìn)行排列,假定求得的特征值:λ1,λ2...,λp。對(duì)應(yīng)的特征向量為Ai=(Ai1,Ai2,...Aip),i=1,2,...,p。
4)選擇重要的主成分,并計(jì)算主成分得分。由主成分分析可以得到p個(gè)主成分,但是在實(shí)際分析時(shí),常根據(jù)各個(gè)主成分的累積貢獻(xiàn)率的大小選取前k個(gè)主成分,以達(dá)到數(shù)據(jù)降維的目的。取相關(guān)系數(shù)矩陣F的特征值的累積貢獻(xiàn)率達(dá)到一定值的前k個(gè)特征值所對(duì)應(yīng)的特征向量組成特征矩陣P,即特征矩陣P=(Ai1,Ai2,...Aik)。
原始數(shù)據(jù)矩陣X乘以特征矩陣P,就得到了降維后的數(shù)據(jù)矩陣Q,即Q=XP
1.3.1.2 樣本數(shù)據(jù)降維處理
利用上述降維方法對(duì)選取的7種主元素進(jìn)行降維處理(表1,圖4),選擇降維后第一個(gè)主成分相關(guān)的數(shù)據(jù)列A、B、D、G 為敏感性元素,分別為Si、Al、Na、K,其中Si和Al主要存在于硅鋁酸鹽,在變質(zhì)巖礦物中的占比較大,Na和K分別主要存在于變質(zhì)巖中的斜長(zhǎng)石和鉀長(zhǎng)石,這與研究區(qū)變質(zhì)巖礦物組分也是吻合的。
圖4 PCA對(duì)7種元素進(jìn)行數(shù)據(jù)降維處理結(jié)果
結(jié)合以上結(jié)論將初步樣本降維處理為表2,形成降維樣本數(shù)據(jù)。
表2 降維后的樣本數(shù)據(jù)質(zhì)量分?jǐn)?shù)及結(jié)果(部分)
從數(shù)據(jù)降維后的表2 中可以發(fā)現(xiàn),每種巖性沒有特別的直觀特征,僅依靠個(gè)人主觀判斷無法將巖性進(jìn)行細(xì)分,需要借助一種智能手段輔助進(jìn)行巖性判別。本文選用數(shù)據(jù)挖掘技術(shù)中的隨機(jī)森林算法建立對(duì)變質(zhì)巖潛山巖性的判別模型。
1.3.2 基于隨機(jī)森林算法的巖性識(shí)別模型建立
隨機(jī)森林算法是機(jī)器學(xué)習(xí)領(lǐng)域中的一種集成學(xué)習(xí)方法[19],它通過集成多個(gè)決策樹的分類效果來組成一個(gè)整體意義上的分類器(圖5)。隨機(jī)森林算法主要有兩大優(yōu)勢(shì):①分類準(zhǔn)確度高;②算法學(xué)習(xí)過程快速且易于并行化[20-21]。
圖5 隨機(jī)森林分類示意圖
該方法是用隨機(jī)的方式建立一個(gè)森林,森林里有很多相互之間無關(guān)聯(lián)的決策樹。在得到森林之后,當(dāng)新樣本輸入時(shí),會(huì)在森林中的每棵決策樹進(jìn)行一次分類和判別,系統(tǒng)會(huì)統(tǒng)計(jì)出判別結(jié)果,以出現(xiàn)頻率最多的為最終輸出結(jié)果。
通過樣本數(shù)據(jù)隨機(jī)選取和待選特征隨機(jī)選取構(gòu)建隨機(jī)森林判別模型。①首先從m個(gè)對(duì)象數(shù)據(jù)的樣本文件(訓(xùn)練數(shù)據(jù))中進(jìn)行有放回的抽樣,構(gòu)造n個(gè)子數(shù)據(jù)集,然后利用子數(shù)據(jù)集構(gòu)建決策樹,這些樣本組成了決策樹的訓(xùn)練數(shù)據(jù)集。待選特征隨機(jī)選取即為子決策樹構(gòu)建過程,與數(shù)據(jù)集隨機(jī)選取類似,隨機(jī)森林中的子決策樹的每一個(gè)分裂過程并未用到所有待選特征。②隨機(jī)選擇一定的特征值,然后再在隨機(jī)選擇的特征中選取最優(yōu)特征,這樣能夠保證隨機(jī)森林中的每一個(gè)決策樹都不相同,提升系統(tǒng)的多樣性,進(jìn)而提升分類性能。假設(shè)每個(gè)樣本數(shù)據(jù)均有k個(gè)特征,從所有特征中隨機(jī)選取i(i≤k)個(gè)特征,選擇最佳分割屬性作為節(jié)點(diǎn)建立決策樹,重復(fù)上述步驟即可構(gòu)建m棵決策樹,進(jìn)而形成隨機(jī)森林。
應(yīng)用上述理論,將獲得的表3數(shù)據(jù)做訓(xùn)練數(shù)據(jù),以1~9號(hào)巖性作為決策樹分類模型,對(duì)數(shù)據(jù)降維后的樣本數(shù)據(jù)做隨機(jī)森林模型建立。建立好的模型可以用來進(jìn)行新樣本的巖性判別,從而實(shí)現(xiàn)對(duì)區(qū)域內(nèi)變質(zhì)巖潛山巖性快速識(shí)別,減少了個(gè)人主觀因素對(duì)巖性判別結(jié)果的影響。
表3 實(shí)際資料處理符合率統(tǒng)計(jì)表
應(yīng)用已經(jīng)建立好的變質(zhì)巖潛山巖性判別模型對(duì)目標(biāo)區(qū)渤中19 構(gòu)造內(nèi)其余13 口井370 個(gè)元素樣品資料進(jìn)行處理,將結(jié)果與相應(yīng)的薄片鑒定結(jié)果進(jìn)行對(duì)比,其中320 個(gè)符合,50 個(gè)不符合,整體符合率達(dá)86.5%,與現(xiàn)場(chǎng)錄井原始巖性剖面僅60%的準(zhǔn)確率相比有很大提高。從圖6 可見,本技術(shù)方法在變質(zhì)巖潛山復(fù)雜巖性識(shí)別上具有較好的實(shí)際應(yīng)用效果。實(shí)際資料處理符合率統(tǒng)計(jì)見表3。
圖6 BZ19-B1井元素錄井資料處理剖面圖(4 088~4 122 m)
由圖7 分析可知,該方法能較好地識(shí)別變晶花崗巖、堿長(zhǎng)片麻巖、混合花崗巖等,而對(duì)碎裂巖識(shí)別效果相對(duì)較差,其中未能識(shí)別的碎裂巖21 個(gè),占不符合樣本的42%,這主要是由于碎裂巖屬于動(dòng)力變質(zhì)巖,其母巖與其他變質(zhì)巖成分相似,因此識(shí)別準(zhǔn)確率不高,可結(jié)合鏡下薄片,依據(jù)其母巖成分對(duì)碎裂巖巖性進(jìn)行細(xì)分,以達(dá)到井場(chǎng)元素錄井?dāng)?shù)據(jù)可以識(shí)別的程度。此外,一部分識(shí)別錯(cuò)誤存在于巖性變化處,其原因是元素錄井資料采樣間距為5~10 m,導(dǎo)致在靠近巖性界面處識(shí)別效果較差,可以通過空間插值的方法提高元素錄井?dāng)?shù)據(jù)間隔密度。
圖7 未能識(shí)別巖性分析統(tǒng)計(jì)圖
對(duì)于變質(zhì)巖巖性的識(shí)別,行業(yè)界還沒有統(tǒng)一的標(biāo)準(zhǔn),相對(duì)權(quán)威的火成巖巖性TAS 模型也是基于礦物,并沒有基于元素的巖性識(shí)別模型。本模型的建立一定程度上解決了特定構(gòu)造內(nèi)的變質(zhì)巖潛山復(fù)雜巖性的識(shí)別問題,但有待改進(jìn),需要加入更大更全面的標(biāo)準(zhǔn)樣本,加大模型的覆蓋面,最終形成一套完整的、行業(yè)內(nèi)相對(duì)認(rèn)可的基于巖石元素?cái)?shù)據(jù)的變質(zhì)巖巖性分類及判別模型。
1)基于井場(chǎng)元素錄井?dāng)?shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)降維及隨機(jī)森林算法,以實(shí)驗(yàn)室薄片鑒定結(jié)論做標(biāo)定,建立對(duì)變質(zhì)巖潛山巖性識(shí)別模型。該方法對(duì)研究區(qū)13 口井的巖性識(shí)別準(zhǔn)確率達(dá)到86.5%,可以實(shí)現(xiàn)對(duì)變質(zhì)巖潛山巖性的有效智能識(shí)別。
2)對(duì)于變質(zhì)巖潛山巖性的識(shí)別依托于實(shí)驗(yàn)室薄片鑒定的結(jié)論,部分巖性定名結(jié)論對(duì)于井場(chǎng)現(xiàn)有技術(shù)條件下較難區(qū)分,比如碎裂巖,需要根據(jù)其母巖成分進(jìn)行進(jìn)一步細(xì)分,以達(dá)到井場(chǎng)元素錄井技術(shù)可以判別的程度。
石油工業(yè)技術(shù)監(jiān)督2024年4期