張景越,肖小玲,,王鵬飛,向家富,張翔
(1.長(zhǎng)江大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,湖北 荊州 434000;2.油氣資源與勘探技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(長(zhǎng)江大學(xué)),湖北 武漢 430100)
測(cè)井曲線分層是在利用測(cè)井資料進(jìn)行巖性識(shí)別、測(cè)井相分析、沉積相分析、存儲(chǔ)參數(shù)等研究工作時(shí),首先要完成的工作,正確合理的分層能夠保證后續(xù)的研究順利進(jìn)行[1]。但每個(gè)地區(qū)的地質(zhì)情況不同,沒有哪一種方法能夠適用于所有地區(qū),需要根據(jù)實(shí)際情況選擇合適的測(cè)井曲線和分層方法以提高分層精度。
目前測(cè)井曲線分層方法分為兩大類: 傳統(tǒng)的時(shí)域分析方法和新興的頻域分析方法。時(shí)域分析方法包括層內(nèi)差異法、極值方差法、活度分層法,以及人工智能方法中的自組織神經(jīng)網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)等;頻域分析方法包括Hilbert-Huang 變換、小波變換等方法。
時(shí)域分析方法基于曲線形態(tài)本身進(jìn)行分層。沈祿銀等[2]將多條曲線上的信息整合,形成一條包含多曲線信息的綜合曲線,然后使用活度分層法對(duì)綜合曲線進(jìn)行分層。極值方差法的指導(dǎo)思想是層內(nèi)差異小、層間差異大,用求微分、斜率極值點(diǎn)在測(cè)井曲線上尋找拐點(diǎn)和半幅點(diǎn)[3-4]。閻輝等[5]提出用自組織神經(jīng)網(wǎng)絡(luò)對(duì)測(cè)井曲線進(jìn)行自動(dòng)分層。還有一些使用機(jī)器學(xué)習(xí)法[6-8],其中人工智能的BP 神經(jīng)網(wǎng)絡(luò)方法也被廣泛使用[9-12],但使用BP 神經(jīng)網(wǎng)絡(luò)首先需要大量的樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并且不同地區(qū)需要訓(xùn)練不同的樣本。
頻域分析方法則通過曲線在頻域空間中的特性進(jìn)行分析。覃瑞東等[13]利用Hilbert-Huang 變換得到測(cè)井曲線各個(gè)固有模態(tài)函數(shù)的瞬時(shí)頻率,將測(cè)井曲線的瞬時(shí)頻率變化劇烈的點(diǎn)作為層界點(diǎn)位置,從而實(shí)現(xiàn)測(cè)井曲線自動(dòng)分層。小波變換分層方法是將測(cè)井曲線進(jìn)行小波分解,選擇中間尺度的分解波,將曲線瞬時(shí)頻率變化較大的點(diǎn)作為層界點(diǎn)[14-15]。史清江等[16]提出了一種將小波變換和沃爾什變換聯(lián)合的測(cè)井曲線自動(dòng)分層方法。Pan 等[17]和Mukherjee 等[18]利用傅里葉變換和小波變換相結(jié)合的方式進(jìn)行分層。頻域分析方法目前分層效果較好,其缺點(diǎn)在于將一條曲線分解會(huì)有很多的分量,選擇不同的分量進(jìn)行分析會(huì)得到不同的分層結(jié)果,難以選擇合適的分量進(jìn)行分層,而且往往采用1~2 條測(cè)井曲線進(jìn)行分析,使用的測(cè)井信息有限。而本文將多種算法融合、數(shù)據(jù)集融合[19],能使用更多的測(cè)井信息,在加快分層速度的同時(shí)也可提高分層精度。
現(xiàn)有的各種地球物理測(cè)井方法,由于其儀器設(shè)備的縱向探測(cè)范圍和對(duì)應(yīng)的縱向分辨率各不相同,因此各種不同的測(cè)井曲線在分層能力上是不同的。在選取測(cè)井曲線方面,應(yīng)挑選縱向分辨率高且對(duì)分層尤其是薄層敏感的測(cè)井曲線,通過Fisher 方法選擇特征較為明顯的測(cè)井曲線;隨后采用卡爾曼濾波去噪處理,抑制測(cè)井曲線上的毛刺和噪點(diǎn),曲線濾波后使用多信息融合的方法將相似曲線合并; 然后使用層次聚類方法進(jìn)行地層劃分,將低維空間中難以劃分的地層信息轉(zhuǎn)化到高維空間中,屬于同一地層的物理性質(zhì)越相似,在高維空間中的距離就越近,通過距離將其劃分為一層。
層次聚類算法是無監(jiān)督聚類算法中最典型的算法之一,主要任務(wù)是把一個(gè)數(shù)據(jù)集分成若干個(gè)類或簇,分為凝聚法和分裂法2 種算法[20]。本文主要使用凝聚法中的AGNES 算法進(jìn)行測(cè)井曲線的自動(dòng)分層方法研究。AGNES 算法是由單個(gè)個(gè)體開始,把單個(gè)個(gè)體當(dāng)成不同的類,然后找出距離最小的2 個(gè)類進(jìn)行合并,不斷重復(fù)到預(yù)期類。
距離是層次聚類方法中一個(gè)決定聚類質(zhì)量的關(guān)鍵因素,層次聚類的距離和規(guī)則相似度容易定義而且可以聚類成任意形狀。距離度量包含最短距離、 最大距離、平均距離和離差平方和距離等。文中使用的距離為離差平方和距離,致力于最小化集群內(nèi)的總方差。在每一步中,合并距離最近的2 個(gè)集群,以最小化集群的相關(guān)損失來建立集群。在合并集群的每一步中,算法考慮每個(gè)可能的集群并對(duì)其進(jìn)行組合,選擇增加信息損失最小的2 個(gè)集群進(jìn)行合并。這里的信息損失是通過ESS(error sum-of-squares criterion)定義的。每個(gè)類的離差平方和用公式可表示為
式中:ESSi為第i 類的離差平方和;xj為第j 個(gè)點(diǎn)的值;i為類的序號(hào);N 為類的總個(gè)數(shù);n 為族群中包含的點(diǎn)的個(gè)數(shù);j 為族群中包含的點(diǎn)的序號(hào)。
總離差平方和是所有類的離差平方和之和:
式中:ESSsum為總離差平方和。
層次聚類會(huì)使用不同的距離度量,這個(gè)距離度量決定了不同的類之間距離的計(jì)算方式。本文使用1 000條具有3 個(gè)特征的數(shù)據(jù)測(cè)試不同的距離度量對(duì)聚類效果的影響,其結(jié)果分為3 個(gè)實(shí)際類別(見圖1,每個(gè)類別用不同顏色表示)。不同距離度量對(duì)聚類結(jié)果影響的測(cè)試數(shù)據(jù)見圖2。
圖1 實(shí)際類別Fig.1 Actual category
圖2 不同距離度量的聚類結(jié)果Fig.2 Clustering results of different distance metrics
從圖2 可以看出: 使用最短距離與平均距離時(shí)的聚類結(jié)果較差,大部分?jǐn)?shù)據(jù)被劃分為一類,少部分?jǐn)?shù)據(jù)被劃分為其余類別;最大距離的劃分結(jié)果一般;離差平方和距離的聚類效果最好。聚類結(jié)果的優(yōu)劣也可從表1 中各距離度量下的調(diào)蘭德指數(shù)(ARI)看出:ARI的取值范圍為[-1,1],取值越大越好,反映2 種劃分的重疊程度;0 附近的值表示重疊的聚類,負(fù)值通常表示樣本已被分配到錯(cuò)誤的集群,其中離差平方和距離的ARI最高,為0.492 5。因此本文選擇離差平方和距離作為不同類別合并的距離指標(biāo)。
表1 各距離度量下的ARITable 1 ARI for each distance metrics
使用各種分層方法對(duì)測(cè)井曲線進(jìn)行分層之前,要先對(duì)測(cè)井曲線進(jìn)行特征優(yōu)選。測(cè)井?dāng)?shù)據(jù)中包含很多曲線,并不是每條曲線都適合用作特定地區(qū)的分層,而且有些曲線中還有無效數(shù)據(jù),做特征優(yōu)選時(shí)要把無效數(shù)據(jù)用插值法填充[21]。優(yōu)選后再進(jìn)行數(shù)據(jù)的預(yù)處理,用濾波方法,去除測(cè)井曲線上的毛刺和噪點(diǎn)。
在實(shí)際工作中,若只使用一兩條測(cè)井曲線的數(shù)據(jù)會(huì)造成信息量較少,從而導(dǎo)致分層結(jié)果不準(zhǔn)確。使用特征優(yōu)選的方式,選擇測(cè)井曲線中包含主要信息的多條曲線,則能更好地描述問題。實(shí)際研究中,PCA 方法會(huì)改變?cè)继卣髁繉傩?,新?gòu)建的主特征量物理意義不一定十分明確,因此,使用Fisher 準(zhǔn)則進(jìn)行特征優(yōu)選[22]。
本文依據(jù)Fisher 值選擇得分較高的8 條曲線作為特征曲線,分別是鈾(U)、補(bǔ)償中子(CNL)、聲波時(shí)差(AC)、地層真電阻率(Rt)、沖洗帶地層電阻率(RXO)、自然伽馬(GR)、無鈾伽馬(KTH)、密度(DEN)。
一般測(cè)井信號(hào)會(huì)受到儀器或是外界環(huán)境的影響,在真實(shí)值附近無規(guī)律波動(dòng),因此最終輸出的測(cè)井信號(hào)由地質(zhì)的真實(shí)信息和噪聲組成。測(cè)井曲線濾波去噪是為了抹除曲線中的小直徑波峰、 波谷和一些突變異常值,以減少噪聲對(duì)曲線特征的影響。
卡爾曼濾波的基本思想是綜合利用上一次的物理量狀態(tài)和測(cè)量值對(duì)物理量的狀態(tài)進(jìn)行預(yù)測(cè)估計(jì)[23]。在使用卡爾曼濾波器時(shí),通過預(yù)測(cè)偏差來控制濾波效果。預(yù)測(cè)偏差越小,濾波效果越明顯,曲線越光滑;反之,曲線越接近原曲線。偏差過大或過小,濾波效果都不太好,本文測(cè)試了3 個(gè)預(yù)測(cè)偏差值對(duì)曲線濾波效果的影響,結(jié)果見圖3。從圖中可以看出:曲線太過光滑時(shí),曲線上的薄層信息被抹除;曲線太接近原曲線時(shí),濾波效果不明顯。根據(jù)結(jié)果,本文選擇的預(yù)測(cè)偏差為0.1。
圖3 預(yù)測(cè)偏差對(duì)濾波效果的影響Fig.3 Influence of prediction deviation on filtering effect
不同的測(cè)井曲線從不同的方面反映地質(zhì)特性,但選出的曲線中有些曲線可能具有高相關(guān)性,即2 條曲線之間的形態(tài)相近,表現(xiàn)的物理意義相似,含有大量的相似信息,因此需要對(duì)測(cè)井曲線作相關(guān)性分析。各曲線間的相關(guān)性如圖4 所示。其中地層真電阻率和沖洗帶地層電阻率相關(guān)性較高,同樣,自然伽馬與無鈾伽馬和鈾的相關(guān)性也比較高,即多條曲線中含有大量相同信息,使用多信息融合的方式,將相似性較高的曲線融合為1 條。曲線融合處理可以消除觀測(cè)數(shù)據(jù)中個(gè)別參數(shù)畸變的局部影響,突出多項(xiàng)觀測(cè)數(shù)據(jù)中能量貢獻(xiàn)最大的部分[24],又可以避免多重相關(guān)性的影響。
圖4 各曲線間的相關(guān)系數(shù)Fig.4 Correlation coefficient between curves
假設(shè)有L 條測(cè)井曲線,每條測(cè)井曲線有K 個(gè)觀測(cè)點(diǎn),則測(cè)井曲線上的數(shù)據(jù)可使用歸一化矩陣D 表示:
濾波器輸出信號(hào)OUT:
式中:x 為加權(quán)因子;Dl為第l 條測(cè)井曲線值。
輸出信號(hào)能量PS:
噪聲能量PN:
信噪比SNR:
以最終輸出信號(hào)能量和噪聲能量之比最大為目標(biāo),保留盡可能多的曲線信息。式(4)中的加權(quán)因子x為超參數(shù),可使用遺傳算法進(jìn)行求解[25]。根據(jù)求解的加權(quán)因子,把GR,KTH 和U 融合為1 條曲線CL1,把RXO和Rt融合為1 條曲線CL2。將2 條融合曲線(CL1,CL2)和CNL,AC,DEN 共5 條曲線作為后續(xù)層次聚類分層使用的曲線。
由于常規(guī)分層方法只能使用1 條曲線,單一測(cè)井曲線包含信息較少,容易產(chǎn)生串層現(xiàn)象,因此本文采用多信息融合的方法[26],將8 條測(cè)井曲線根據(jù)相關(guān)性進(jìn)行分類融合,然后將2 條融合曲線(CL1,CL2)同CNL,AC,DEN 一起使用遺傳算法求得新的權(quán)值。將CL1,CL2,CNL,AC 和DEN 融合成為一條多信息的綜合測(cè)井曲線,對(duì)綜合曲線進(jìn)行歸一化、濾波處理,最終將處理后的綜合曲線作為活度分層等方法的分層曲線。
對(duì)同一井段使用不同測(cè)井曲線的分層結(jié)果如圖5 所示(紅線表示劃分的層界面)。由圖可以看出:?jiǎn)为?dú)使用自然伽馬曲線進(jìn)行分層得到的層界點(diǎn)較少,在5 050~5 150 m 的許多小層發(fā)生了竄層的情況;使用鈾曲線又會(huì)劃分出過多的薄層。由于單條曲線包含的地層信息較少,使用常規(guī)分層方法無法對(duì)地層進(jìn)行有效劃分。運(yùn)用多信息融合方法可將不同曲線上的巖石物理響應(yīng)特征都保存在一條綜合曲線上,在使用綜合曲線分層時(shí),能夠充分利用多條測(cè)井曲線上的地層信息,從而取得不錯(cuò)的劃分結(jié)果。
圖6 是本文方法與其他分層方法的分層結(jié)果對(duì)比。從圖中可以看出,僅使用綜合曲線的活度分層法和極值方差法能準(zhǔn)確劃分出一些地層,但當(dāng)綜合曲線某個(gè)區(qū)間的變化為“急—緩—急”時(shí),活度分層曲線就會(huì)出現(xiàn)“極大值—極小值—極大值”的情況,在這個(gè)區(qū)間內(nèi)會(huì)劃分出過多的薄層。深度在5 240~5 270 m 的區(qū)間內(nèi),5 250 m 處的活度較小,兩側(cè)的活度較大,因此在曲線上可劃出2 個(gè)層界點(diǎn)。
圖6 其他分層方法與本文方法分層結(jié)果對(duì)比Fig.6 Comparison of stratification results of other stratification methods and those of the stratification method in this paper
極值方差法的分層依據(jù)和活度分層法較為相似,因此極值方差法也會(huì)出現(xiàn)類似的情況(見圖6b),而這樣的層界點(diǎn)并不符合實(shí)際的地層劃分。
本文使用多信息融合的層次聚類測(cè)井曲線分層方法,將相關(guān)性較高的測(cè)井曲線融合,既避免了曲線間多重相關(guān)性的影響,又保存了地層信息,還減少了計(jì)算量。由于屬于同一地層各個(gè)點(diǎn)的物理性質(zhì)相似,且高維空間中的距離相近,因此使用聚類方法將同一地層的數(shù)據(jù)劃分為一類,以達(dá)到劃分地層的目的。由于層次聚類法是在高維空間中使用多條測(cè)井曲線進(jìn)行劃分,有些層界面在1 條曲線中無法體現(xiàn),如5 150~5 200 m 的區(qū)間內(nèi),使用本文方法可以劃分出有效地層 (見圖6c),常規(guī)分層方法則無法做到這一點(diǎn)。本文方法在曲線走勢(shì)復(fù)雜的地方劃分出的地層較多,平緩處劃分出的地層較少,符合實(shí)際地層劃分規(guī)律。相對(duì)于常規(guī)分層方法,本文方法能劃分出更多的有效地層,且準(zhǔn)確率更高。
各分層方法的分層結(jié)果如表2 所示。自動(dòng)分層(活度分層法、極值方差法、本文方法)的結(jié)果與地質(zhì)分層(人工分層)的結(jié)果并不是一一對(duì)應(yīng)的。這是由于自動(dòng)分層是基于巖石物理響應(yīng)差異進(jìn)行的,而地質(zhì)分層主要基于巖性的差異。不同的巖性可能具有相同的巖石物理響應(yīng),而相同的巖性也可能具有不同的巖石物理響應(yīng)。
由表2 可知,人工分層結(jié)果共24 個(gè)層界點(diǎn)?;疃确謱臃▽?duì)應(yīng)17 個(gè)層界點(diǎn),準(zhǔn)確率為70%;極值方差法有58%的層界點(diǎn)與人工分層相近;本文提出的多信息融合的層次聚類法的準(zhǔn)確率則達(dá)到了83%,表明本文方法的分層結(jié)果與人工分層結(jié)果較為接近。
某地區(qū)以砂巖和頁(yè)巖為主要的油儲(chǔ)層,巖性以泥頁(yè)巖為主,具有較多的薄互層。圖7 是在部分井段應(yīng)用本文方法的分層結(jié)果。多口井的應(yīng)用表明,本文方法可以有效地提取和保護(hù)薄層信息,并且能夠在主要的曲線突變處設(shè)置分層,地層劃分準(zhǔn)確率最高可以達(dá)到88.89%。
常規(guī)測(cè)井曲線分層方法,通常采用單一測(cè)井曲線進(jìn)行地層劃分,使用的地層信息有限,容易發(fā)生竄層現(xiàn)象。本文在數(shù)據(jù)預(yù)處理時(shí)首先使用Fisher 方法選取縱向分辨率較高的測(cè)井曲線,然后提出多信息融合方法,用濾波器將多條測(cè)井曲線進(jìn)行融合,使多條曲線上的不同巖石物理響應(yīng)能匯聚在一條綜合曲線上,有效地提取和保護(hù)了薄層信息。相比于常規(guī)分層方法,本文方法能夠綜合多條測(cè)井曲線進(jìn)行分層工作,使用更多的地層信息,劃分出單條曲線上巖石物理響應(yīng)不明顯的地層,有利于克服竄層問題。從應(yīng)用結(jié)果來看,本文方法分層效果較好,地層劃分準(zhǔn)確率可以達(dá)到88.89%,可用于輔助測(cè)井曲線的分層工作。