孫衛(wèi)濤,曹 宏,楊志芳,晏信飛
(1.清華大學(xué)航天航空學(xué)院,北京100084;2.清華大學(xué)周培源應(yīng)用數(shù)學(xué)研究中心,北京100084;3.中國(guó)石油集團(tuán)勘探開發(fā)研究院,北京100083)
地震剖面數(shù)據(jù)特征提取的研究由來(lái)已久[1-4],其目標(biāo)是提取地震數(shù)據(jù)中盡可能多的有效信息,包括信號(hào)振幅、頻率、衰減等,通過(guò)數(shù)學(xué)、物理建模方法建立特征和儲(chǔ)層參數(shù)(速度、孔隙度、泥質(zhì)含量等)之間的聯(lián)系,實(shí)現(xiàn)對(duì)油氣藏的識(shí)別。由數(shù)據(jù)特征提取空間看,現(xiàn)有模型大致可以歸結(jié)為3類:時(shí)間域的信號(hào)振幅強(qiáng)弱和傳播速度特征[4-5]、頻率域的信號(hào)頻率成分和振幅強(qiáng)弱特征[6-7]以及波形函數(shù)域(小波、曲波)的系數(shù)分布特征[8-9]。
第一類特征直接反映地層結(jié)構(gòu)和巖性的特點(diǎn)。在地層波阻抗界面上,波場(chǎng)發(fā)生反射和透射,檢波器通常會(huì)記錄到反射波。反射信號(hào)的振幅強(qiáng)弱與地層反射系數(shù)有關(guān),并且還與波場(chǎng)傳播的方位角度、偏移距以及地層深度有關(guān),常常用于反演儲(chǔ)層信息[10-11]。與此同時(shí),地震反射信號(hào)在空間上的連續(xù)性還揭示了地質(zhì)結(jié)構(gòu)的形態(tài)。地震數(shù)據(jù)處理的一個(gè)關(guān)鍵目標(biāo)是從地震剖面中發(fā)現(xiàn)有地質(zhì)意義的特征,包括利用同相軸識(shí)別斷層、不整合面、油氣藏地質(zhì)結(jié)構(gòu),主要適用于具有較好地層結(jié)構(gòu)特征的含油氣儲(chǔ)層,但在具有多樣性和復(fù)雜特征的儲(chǔ)層(如信噪比較低的深層致密巖石儲(chǔ)層,厚度薄、規(guī)模小的碎屑巖儲(chǔ)層等)處理中面臨挑戰(zhàn)。
第二類特征反映地層對(duì)不同頻率信號(hào)的響應(yīng)。利用傅里葉變換方法將時(shí)間域信號(hào)變換為頻率域信號(hào),根據(jù)信號(hào)所含不同頻率成分的分布情況,在不同頻率條件下分析信號(hào)所含地質(zhì)信息。由于某些特定頻率對(duì)地層結(jié)構(gòu)特征具有更高的敏感性,因此可以在該頻率信號(hào)中獲取更多信息[12-13]。此外,地震數(shù)據(jù)中信號(hào)和噪聲如果出現(xiàn)在不同的頻率分量上,通過(guò)頻率域?yàn)V波可以實(shí)現(xiàn)消除噪聲、提高信號(hào)質(zhì)量的目的[14]。
第三類特征可以在小波系數(shù)空間反映地層對(duì)信號(hào)的響應(yīng)。小波變換(WT)是一種對(duì)信號(hào)進(jìn)行分解并分析頻率成分隨時(shí)間變化特征的方法。與傅里葉變換相比,該類特征允許對(duì)非平穩(wěn)信號(hào)的成分進(jìn)行分析。小波系數(shù)具有稀疏性,可以實(shí)現(xiàn)對(duì)信號(hào)的壓縮,同時(shí)反映地震信號(hào)在傳播過(guò)程中不同頻率成分隨時(shí)間(傳播路徑上的地層特征)的變化情況[15-16]。
地震剖面是接收器記錄的信號(hào),主要包含振幅、相位和頻率等信息。這些信息是信號(hào)本身的特征,其時(shí)空變化受到地下儲(chǔ)層介質(zhì)物理屬性(孔隙度、飽和度、巖性等)的影響。通過(guò)適當(dāng)?shù)男盘?hào)處理方法,可以從剖面中提取出波速、密度等儲(chǔ)層地質(zhì)和地球物理屬性。由此可知,由剖面直接提取的是信號(hào)本身特征(振幅、相位、頻率等),需要基于地球物理模型和數(shù)學(xué)建模,通過(guò)信號(hào)處理方法得到具有物理意義的地下儲(chǔ)層屬性。由于地質(zhì)構(gòu)造、巖石屬性、孔隙流體屬性等影響因素不同,導(dǎo)致產(chǎn)生不同的地震數(shù)據(jù)特征[17]。對(duì)于特定儲(chǔ)層來(lái)說(shuō),希望獲得盡可能多的地震信號(hào)特征。
在傳統(tǒng)地震剖面處理中,一般使用振幅、相位、頻率等特征。但是,隨著新技術(shù)的發(fā)展,人們發(fā)現(xiàn)地震剖面信號(hào)中還蘊(yùn)含著其它豐富信息(如地震信號(hào)指紋特征點(diǎn)),這些信息尚未被充分挖掘,其優(yōu)點(diǎn)(例如數(shù)據(jù)量小、包含信息豐富等)也未得到充分利用。近年來(lái),基于對(duì)地震數(shù)據(jù)紋理屬性的研究進(jìn)展迅速[18-20],在數(shù)據(jù)來(lái)源和質(zhì)量相對(duì)固定的情況下,通過(guò)紋理特征深入挖掘現(xiàn)有數(shù)據(jù)信息,已經(jīng)成為傳統(tǒng)振幅、頻率等特征的有力補(bǔ)充。與地震剖面上的振幅、相位、頻率等傳統(tǒng)特征一樣,指紋特征點(diǎn)是信號(hào)本身的特征,需要通過(guò)地球物理模型和數(shù)學(xué)建模,得到有明確的物理意義或地質(zhì)意義的地震屬性。
本文提出了基于地震剖面數(shù)據(jù)“指紋特征點(diǎn)”(dactylogram minutiae)的特征提取方法,研究如何在海量地震數(shù)據(jù)中提取含有重要儲(chǔ)層信息的數(shù)據(jù)特征。這種特征具有大規(guī)模數(shù)據(jù)降維和標(biāo)準(zhǔn)化編碼能力,適用于人工智能學(xué)習(xí)算法,也被用來(lái)識(shí)別地球內(nèi)部信息[21]。研究基于地震剖面數(shù)據(jù)指紋特征點(diǎn)識(shí)別算法和指紋特征點(diǎn)陣列(DMA)編碼算法,實(shí)現(xiàn)了高壓縮率(數(shù)據(jù)量降低2個(gè)數(shù)量級(jí))數(shù)據(jù)降維和高信息量編碼技術(shù),其目標(biāo)旨在識(shí)別提取地震剖面上最具代表性特征點(diǎn),提高海量數(shù)據(jù)特征提取效率;同時(shí)算法獲得的DMA特征包含了同相軸不連續(xù)點(diǎn)、分叉點(diǎn)等關(guān)鍵特征的全部信息,為儲(chǔ)層參數(shù)識(shí)別的人工智能算法提供了自動(dòng)標(biāo)簽化數(shù)據(jù)集合。
一般而言,在研究地震剖面特征時(shí),通常把儲(chǔ)層屬性跟這些特征直接建立聯(lián)系。比如,當(dāng)孔隙含氣體時(shí),地震剖面信號(hào)會(huì)出現(xiàn)“亮點(diǎn)”,振幅發(fā)生明顯變化。在研究中常常會(huì)把信號(hào)特征等同于儲(chǔ)層地震屬性。但是對(duì)于新型的信號(hào)特征(如指紋特征點(diǎn)),尚未明確其與儲(chǔ)層地震屬性之間的直接關(guān)系,因此還無(wú)法直接從指紋特征點(diǎn)的分布特征上直接“讀出”對(duì)應(yīng)的儲(chǔ)層屬性及其地質(zhì)意義。但是,這并不意味著指紋特征點(diǎn)沒有物理意義或地質(zhì)含義。相反,對(duì)這些新型地震剖面特征背后蘊(yùn)含的豐富地震屬性的深入挖掘,能夠推動(dòng)地球物理和數(shù)學(xué)建模領(lǐng)域的新發(fā)展,并不斷發(fā)現(xiàn)其應(yīng)用價(jià)值?;谪S富的指紋分析方法和人工智能算法,有望實(shí)現(xiàn)基于地震剖面數(shù)據(jù)指紋特征點(diǎn)的儲(chǔ)層參數(shù)直接識(shí)別,為海量數(shù)據(jù)地質(zhì)結(jié)構(gòu)的自動(dòng)提取提供基礎(chǔ)。
人類指紋是由脊線和谷線交錯(cuò)分布形成的紋路(圖1a),其幾何結(jié)構(gòu)由個(gè)體遺傳信息決定,到目前為止,世界上還不曾發(fā)現(xiàn)有兩個(gè)人的指紋完全相同,因此可以作為人類個(gè)體身份識(shí)別的特征。指紋特征點(diǎn)是指指紋脊線的分叉點(diǎn)、不連續(xù)間斷點(diǎn)等特殊幾何結(jié)構(gòu),這些特征點(diǎn)具有唯一性特點(diǎn),通常被用作指紋識(shí)別的基本特征。指紋識(shí)別可以看作是一個(gè)特征點(diǎn)集的匹配問(wèn)題[22],在給定誤差限制下,搜索兩個(gè)點(diǎn)集中對(duì)應(yīng)點(diǎn)配對(duì)數(shù)最大的最優(yōu)匹配。
地震剖面由地下地質(zhì)結(jié)構(gòu)反射信號(hào)的同相軸形成(圖1b),具有數(shù)值上正負(fù)交錯(cuò)的復(fù)雜數(shù)據(jù)線條分布特征。地震數(shù)據(jù)特征點(diǎn)也具有唯一性特點(diǎn),其同相軸是由勘探區(qū)域地層的地下結(jié)構(gòu)和含油氣情況所決定,可以作為該地區(qū)油氣分布的識(shí)別特征。
圖1 人類指紋(a)及地震數(shù)據(jù)剖面(b)示意
對(duì)比地震剖面和指紋數(shù)據(jù)圖可以看出,地震數(shù)據(jù)剖面的信號(hào)特征與人類指紋的特征既存在差異,也具有許多相似性。主要差異包括:
1) 指紋往往是弧線,圍繞中心點(diǎn)形成渦旋結(jié)構(gòu);疊后地震數(shù)據(jù)主要以水平方向?yàn)槠叫休S,按照順序依次排列分布;
2) 指紋的“脊”和“溝”紋理相對(duì)光滑,疊后地震數(shù)據(jù)往往具有高頻毛刺;
3) 指紋的“脊”和“溝”連續(xù)性相對(duì)較好,疊后地震數(shù)據(jù)水平同相軸間斷較多。
重要的相似性主要包括:
1) 兩者都存在連續(xù)的數(shù)據(jù)紋理曲線;
2) 兩者都存在紋路不連續(xù)間斷點(diǎn)和分叉點(diǎn)等特征。
基于這些相似性,可以利用指紋特征點(diǎn)識(shí)別技術(shù)實(shí)現(xiàn)對(duì)地震數(shù)據(jù)的降維和編碼處理。
指紋識(shí)別分析算法由來(lái)已久[23-24],其中主流方法都是基于對(duì)指紋特征點(diǎn)的二維空間分布特征,而非直接分析指紋的線條分布。人類指紋并非是完整連續(xù)的同心圓環(huán),而是存在大量的非連續(xù)局部特征點(diǎn),包括間斷、分叉等。這些特征點(diǎn)的空間分布構(gòu)成了代表人類個(gè)體的獨(dú)有特征數(shù)據(jù)。這些指紋特征點(diǎn)的類型繁多,其中最主要的特征點(diǎn)可以用圖1a所示的局部結(jié)構(gòu)表示。
與之相類似,我們發(fā)現(xiàn)地震剖面上也存在大量的間斷、分叉等局部特征點(diǎn)(圖1b)。這些特征點(diǎn)源于地下油氣儲(chǔ)層對(duì)地震波傳播信號(hào)的干擾,由儲(chǔ)層的巖石屬性、油氣含量和分布特征決定,因此也代表了勘探區(qū)域的儲(chǔ)層個(gè)體獨(dú)有特征。但是,現(xiàn)有主要地震數(shù)據(jù)處理方法(傅里葉變換、小波變換等)無(wú)法提取出這些典型局部特征,需要研究新的地震數(shù)據(jù)特征提取方法。
地震數(shù)據(jù)DMA拾取通常包括圖像增強(qiáng)、分割、二值化和細(xì)化階段,進(jìn)而得到由單像素寬度脊線形成的數(shù)據(jù)圖像。圖像增強(qiáng)是為了使圖像更加清晰,便于進(jìn)一步操作,通過(guò)圖像增強(qiáng)提高信號(hào)波峰和波谷對(duì)比度,去除孤立噪聲散點(diǎn),有利于保持?jǐn)?shù)據(jù)識(shí)別的精度。為了提高圖像質(zhì)量,我們采用了高斯對(duì)數(shù)拉普拉斯濾波器。首先,使用快速傅里葉變換(FFT)將圖像變換到頻域;然后,在相對(duì)較小的區(qū)域內(nèi)增加主導(dǎo)頻率的振幅;最后利用逆FFT(IFFT)將圖像重新變換回空間域。另一種圖像增強(qiáng)方法是通過(guò)計(jì)算剖面圖像數(shù)據(jù)的局部密度實(shí)現(xiàn),定義一個(gè)l×l的子窗口,利用子窗口在剖面數(shù)據(jù)矩陣上進(jìn)行掃描,并計(jì)算當(dāng)前窗口位置的數(shù)據(jù)值之和,并將整個(gè)剖面的數(shù)據(jù)密度歸一化形成密度級(jí)別矩陣,然后對(duì)密度級(jí)別矩陣進(jìn)行填補(bǔ)局部空洞和去除孤立噪點(diǎn)圖形處理操作,形成較為連貫和光滑的數(shù)據(jù)剖面,為后續(xù)拾取指紋特征點(diǎn)提供方便。
數(shù)據(jù)分割是為了提高特征點(diǎn)拾取效率。一般來(lái)說(shuō),對(duì)于每個(gè)地震剖面,人們更關(guān)心含特殊地質(zhì)構(gòu)造的區(qū)域。缺少有效同相軸的區(qū)域?qū)⒈慌懦谒阉鞣秶?進(jìn)而得到有效搜索區(qū)域的邊界;同時(shí),對(duì)于數(shù)據(jù)量巨大的剖面,可以將數(shù)據(jù)分割成子區(qū)域,在子區(qū)域內(nèi)分別搜索特征點(diǎn),提高處理效率。
二值化在信號(hào)特征提取的過(guò)程中是一個(gè)非常重要的步驟,地震數(shù)據(jù)是浮點(diǎn)型矩陣,剖面同相軸強(qiáng)度在不同位置是不同的。但是,對(duì)于識(shí)別數(shù)據(jù)不連續(xù)點(diǎn)和分叉點(diǎn)來(lái)說(shuō),二值化數(shù)據(jù)剖面已經(jīng)包含了足夠的信息。二值化過(guò)程將浮點(diǎn)數(shù)據(jù)轉(zhuǎn)換為0或1數(shù)值,保證提供足夠的數(shù)據(jù)信息,并使數(shù)據(jù)處理更加方便,提高了確定性。通常具有正值的目標(biāo)信號(hào)賦予1,具有負(fù)值的信號(hào)賦予0,實(shí)際計(jì)算中常常利用閾值方法來(lái)實(shí)現(xiàn)二值化。
地震數(shù)據(jù)細(xì)化是一個(gè)去除同相軸的冗余像素的過(guò)程,直到軸線寬度降為一個(gè)像素。該步驟可以采用一種迭代并行法,在完整數(shù)據(jù)剖面上,算法將每個(gè)小圖像窗口中的冗余像素標(biāo)記下來(lái),經(jīng)過(guò)多次窗口掃描,最終去除所有標(biāo)記為冗余的像素。然后利用圖像處理形態(tài)學(xué)過(guò)濾變薄的地震數(shù)據(jù)同相軸,去除噪聲孤立點(diǎn)。
對(duì)地震剖面進(jìn)行特征點(diǎn)拾取是至關(guān)重要的一步。對(duì)比人類指紋特征點(diǎn)提取過(guò)程,可以利用計(jì)算機(jī)圖像處理算法和間斷點(diǎn)、分叉識(shí)別算法來(lái)生成地震剖面特征點(diǎn)分布圖。得到細(xì)化數(shù)據(jù)后,利用交叉數(shù)的概念提取標(biāo)記指紋特征點(diǎn)。一般來(lái)說(shuō),對(duì)于每個(gè)3×3像素窗口,如果中心像素為1并且恰好有3個(gè)鄰居像素為1(交叉數(shù)為3),那么該中心像素是一個(gè)分支點(diǎn)(圖2a);如果中心像素為1,且只有1個(gè)鄰居像素為1(交叉數(shù)為1),則中心像素為間斷點(diǎn)(圖2b)。
圖2 地震剖面數(shù)據(jù)的分叉特征點(diǎn)(a)和不連續(xù)特征點(diǎn)(b)示意
圖3給出了地震數(shù)據(jù)經(jīng)過(guò)處理后的特征曲線和不連續(xù)間斷點(diǎn)、分叉特征點(diǎn)分布。在標(biāo)記數(shù)據(jù)指紋特征點(diǎn)的同時(shí),細(xì)化數(shù)據(jù)剖面的脊線都被賦予一個(gè)唯一的標(biāo)識(shí),以便進(jìn)一步操作。
在圖3c中,箭頭代表細(xì)化脊線的方位角變化,每一條脊線都有一系列獨(dú)特的方位角變化值,構(gòu)成一個(gè)代表該脊線的唯一特征向量。利用像素窗口掃描數(shù)據(jù)剖面,可以實(shí)現(xiàn)脊線方位角的識(shí)別算法。首先,定義5×5方位角矩陣(圖4),利用該矩陣在數(shù)據(jù)剖面上進(jìn)行像素掃描,方位角矩陣與像素窗口的“與”操作可以得到矩陣中心像素點(diǎn)及其附近像素組成的圖線方位角,通過(guò)地震剖面數(shù)據(jù)的特征點(diǎn)識(shí)別和脊線方位角特征向量,我們把連續(xù)的信號(hào)數(shù)據(jù)圖轉(zhuǎn)換為離散的特征點(diǎn)分布圖,實(shí)現(xiàn)數(shù)據(jù)特征點(diǎn)降維。
圖3 地震剖面上特征曲線及不連續(xù)間斷點(diǎn)、分叉特征點(diǎn)分布
圖4 細(xì)化數(shù)據(jù)脊線方位角矩陣
由特征點(diǎn)分布圖可以發(fā)現(xiàn),在毛刺多的信號(hào)部分,特征點(diǎn)較為密集;在低頻光滑信號(hào)部分,特征點(diǎn)較為稀疏;同時(shí),在信號(hào)幅度較大的地方,特征點(diǎn)往往延伸范圍也較大。這表明特征點(diǎn)不是隨機(jī)分布,而是與信號(hào)的頻率、振幅及時(shí)空變化特征等相關(guān)聯(lián)。因此,特征點(diǎn)的分布包含了原始信號(hào)的頻率、振幅等屬性信息。
1.2.1 地震剖面數(shù)據(jù)指紋特征點(diǎn)匹配
給定兩組地震數(shù)據(jù)剖面,指紋特征點(diǎn)匹配算法用來(lái)判斷對(duì)應(yīng)兩組特征點(diǎn)是否具有相似性。算法包括兩個(gè)步驟:對(duì)齊和匹配。對(duì)齊是指將兩組數(shù)據(jù)剖面中對(duì)應(yīng)特征點(diǎn)平移和旋轉(zhuǎn)過(guò)程。給定兩組數(shù)據(jù)剖面,從每個(gè)剖面中任選一個(gè)特征點(diǎn),計(jì)算與兩個(gè)特征點(diǎn)相關(guān)的特征點(diǎn)集合相似性。如果相似性大于閾值,則將每一組特征點(diǎn)平移旋轉(zhuǎn)到一個(gè)新的坐標(biāo)系,其原點(diǎn)在選定的特征參考點(diǎn),其坐標(biāo)軸與參考點(diǎn)的所在脊線方位重合。匹配是指獲得兩組對(duì)齊的特征點(diǎn)集之后,計(jì)算特征點(diǎn)對(duì)的相似性系數(shù)。
與特征點(diǎn)相關(guān)聯(lián)的細(xì)化同相軸可以表示為一系列離散點(diǎn)(x1,x2,…,xn)組成的“山脊”。從參考特征點(diǎn)開始,沿每條“山脊”每隔長(zhǎng)度L取樣一個(gè)點(diǎn),其中的L的數(shù)值可以取為“山脊”線之間的平均間隔。兩組脊線特征點(diǎn)相似性系數(shù)S0定義為:
(1)
式中:xi和Xi是兩組數(shù)據(jù)剖面上特征點(diǎn)的坐標(biāo);m是特征點(diǎn)的數(shù)量。如果相似度得分大于預(yù)先設(shè)定的閾值(如0.8),則進(jìn)行特征點(diǎn)的對(duì)齊,否則繼續(xù)匹配下一對(duì)脊線特征點(diǎn)。
在特征點(diǎn)的對(duì)齊步驟中,對(duì)于每組數(shù)據(jù)剖面特征點(diǎn)集合,將所有特征點(diǎn)相對(duì)于參考特征點(diǎn)進(jìn)行平移和旋轉(zhuǎn),計(jì)算公式如下:
(2)
式中:(x0,y0,θ0)表示參考特征點(diǎn)的位置和方位角;R是旋轉(zhuǎn)矩陣。
(3)
該方法使用了之前計(jì)算得到特征點(diǎn)方位角度,由于方位角度已經(jīng)與每個(gè)特征點(diǎn)的坐標(biāo)一起計(jì)算并保存,因此節(jié)省了計(jì)算時(shí)間。
對(duì)于地震剖面上兩個(gè)數(shù)據(jù)窗口進(jìn)行特征點(diǎn)匹配時(shí),算法復(fù)雜度是計(jì)算效率的一個(gè)重要體現(xiàn)。設(shè)窗口數(shù)據(jù)集I中包含M個(gè)特征點(diǎn),窗口數(shù)據(jù)集J中包含N個(gè)特征點(diǎn)。算法第一個(gè)步驟從I和J中任意各選一個(gè)參考特征點(diǎn)進(jìn)行對(duì)齊操作,這一對(duì)特征點(diǎn)各自關(guān)聯(lián)的兩個(gè)同相軸長(zhǎng)度一般不相同,設(shè)其中較短同相軸的長(zhǎng)度為L(zhǎng),數(shù)據(jù)剖面上同相軸平均間距為d,則特征點(diǎn)對(duì)齊步驟的計(jì)算復(fù)雜度為O(M×N×L/d)。已對(duì)齊特征點(diǎn)的相似度計(jì)算見公式(1),設(shè)相似度大于預(yù)先設(shè)定閾值的部分占比例p(p<1)。在算法第二個(gè)步驟中對(duì)這些相似度較大的特征點(diǎn)進(jìn)行旋轉(zhuǎn),并對(duì)旋轉(zhuǎn)后的數(shù)據(jù)集進(jìn)行特征點(diǎn)匹配,其計(jì)算復(fù)雜度為O(p×M×N)。在引入特征點(diǎn)類型后(分叉點(diǎn)、不連續(xù)點(diǎn)等),在第一步驟中對(duì)相同類型的特征點(diǎn)進(jìn)行對(duì)齊,計(jì)算復(fù)雜度降低至O(m×n×L/d),其中m 1.2.2 地震剖面數(shù)據(jù)指紋特征點(diǎn)數(shù)據(jù)降維/標(biāo)準(zhǔn)化編碼方法 利用地震剖面指紋特征點(diǎn),可以實(shí)現(xiàn)一維“指紋特征點(diǎn)陣列”壓縮編碼。在對(duì)地震剖面數(shù)據(jù)進(jìn)行特征點(diǎn)識(shí)別之后,得到了二維空間的“指紋特征點(diǎn)”離散分布數(shù)據(jù)。該數(shù)據(jù)仍需要進(jìn)行進(jìn)一步編碼,進(jìn)而得到“指紋特征點(diǎn)陣列”。 這里給出了一種標(biāo)準(zhǔn)化的地震數(shù)據(jù)特征點(diǎn)陣列格式(Compact seismic data minutiae array,簡(jiǎn)稱CoSDMA)編碼壓縮格式,該格式包含地震數(shù)據(jù)所有特征點(diǎn)的類型、位置和角度信息。首先,定義一個(gè)方位角矩陣,該矩陣包含特征點(diǎn)所在位置的角度,即特征點(diǎn)在細(xì)化同相軸上的切向方位角。對(duì)應(yīng)于每個(gè)角度,我們定義了從1到8共計(jì)8個(gè)數(shù)字,代表不同方位角(圖5)。 圖5 特征點(diǎn)方位角矩陣(括號(hào)中的數(shù)字代表不同方位角數(shù)值) 在地震數(shù)據(jù)剖面上,搜索特征點(diǎn)的時(shí)候需要定義一個(gè)數(shù)據(jù)窗口,該窗口的大小根據(jù)需要可以變化,最大窗口可以包括整個(gè)剖面。特征點(diǎn)位置包含數(shù)字1到3,分別代表該處特征點(diǎn)的屬性。特征點(diǎn)屬性1表示細(xì)化同相軸脊線的不連續(xù)端點(diǎn),2表示分叉點(diǎn),3表示脊線發(fā)生劇烈角度變化(通過(guò)角度變化閾值來(lái)定義)的轉(zhuǎn)折點(diǎn)。每個(gè)特征點(diǎn)都具有獨(dú)特的方位角度,該角度表示特征點(diǎn)沿脊線切線方向的走向。因此,每個(gè)特征點(diǎn)包括位置、屬性和方位角3個(gè)特征。 每個(gè)特征點(diǎn)的屬性可以是從1到3的3種不同類型,同時(shí),每一種類型的特征點(diǎn)都可以具有從1到8的8個(gè)方位角。因此,對(duì)于任意特征點(diǎn),可以具有24種屬性和方位角組合。為了唯一定義一個(gè)特征點(diǎn),同時(shí)便于特征點(diǎn)數(shù)據(jù)編碼和壓縮,我們定義了一個(gè)屬性/方位角的編碼表(圖6)。 圖6 地震剖面數(shù)據(jù)特征點(diǎn)編碼表 根據(jù)編碼表規(guī)則,數(shù)據(jù)特征點(diǎn)可能的24種屬性/方位角組合可以用24個(gè)字母表示,這樣就可以實(shí)現(xiàn)特征點(diǎn)矩陣的信息編碼。地震剖面局部數(shù)據(jù)窗口中特征點(diǎn)可以表示為圖7。 圖7 局部地震剖面數(shù)據(jù)特征點(diǎn)編碼示意 為進(jìn)一步減少數(shù)據(jù)存儲(chǔ)量,我們定義了特征點(diǎn)二維矩陣到一維陣列的映射規(guī)則。對(duì)于二維矩陣,我們將每一列特征點(diǎn)編碼字母前后串連,形成一維數(shù)組。 同時(shí),如果在特征點(diǎn)之間存在空白的數(shù)據(jù)位,我們用字母Z表示。 基于圖6定義的規(guī)則,可以將“指紋特征點(diǎn)”序列轉(zhuǎn)換為由A-Z字母組成的一維陣列。以圖7的特征點(diǎn)為例,可以表示為圖8所示的編碼數(shù)據(jù)串。 圖8 地震剖面數(shù)據(jù)特征點(diǎn)一維編碼數(shù)據(jù) 編碼進(jìn)一步精簡(jiǎn)為:Q2EZAWXNOHKRDCBA-IGPZ4JZSJQAMQIGXZGX,其中字符串的Q2表示出現(xiàn)連續(xù)2個(gè)Q字符,Z4表示出現(xiàn)連續(xù)4個(gè)Z。這樣,不但可以去除冗余的數(shù)據(jù)信息,保留了特征點(diǎn)的全部數(shù)據(jù),而且還保留了特征點(diǎn)之間的相對(duì)位置信息。 圖7所示特征點(diǎn)編碼是一個(gè)包含35個(gè)字母的字符串,與原來(lái)二維5×8數(shù)據(jù)塊相比,數(shù)據(jù)存儲(chǔ)量降低明顯,從80個(gè)數(shù)值(40個(gè)特征點(diǎn)屬性+40個(gè)方位角值)降低到只有35個(gè)數(shù)值,在稀疏特征點(diǎn)情況下,該編碼壓縮率可以進(jìn)一步提高。 地震數(shù)據(jù)分析中運(yùn)用深度學(xué)習(xí)方法需要解決兩個(gè)關(guān)鍵技術(shù)問(wèn)題:數(shù)據(jù)和算法。地震數(shù)據(jù)屬于一種時(shí)空數(shù)據(jù),可以很方便地表示為數(shù)據(jù)圖片。運(yùn)用深度學(xué)習(xí)的方法可以幫助我們分析處理這些圖片,找到其中的規(guī)律。深度學(xué)習(xí)的效果很大程度上取決于數(shù)據(jù)數(shù)量和質(zhì)量。地震數(shù)據(jù)的體量非常巨大,數(shù)據(jù)的差異性很強(qiáng)。例如,不同儲(chǔ)層得到的數(shù)據(jù)性質(zhì)可能存在很大的差別,相同儲(chǔ)層在不同測(cè)線上接收到的信號(hào)也存在差異,因此給數(shù)據(jù)匹配和識(shí)別帶來(lái)困難。 地震數(shù)據(jù)的深度學(xué)習(xí)質(zhì)量問(wèn)題主要體現(xiàn)在帶有標(biāo)簽的數(shù)據(jù)十分有限,地震數(shù)據(jù)的標(biāo)簽遠(yuǎn)比人臉和數(shù)字圖片要困難,而且需要大量的專家經(jīng)驗(yàn)??朔?biāo)簽數(shù)據(jù)的不足主要有兩個(gè)辦法,一個(gè)是數(shù)據(jù)擴(kuò)充(data augmentation),包括人工合成數(shù)據(jù);另一個(gè)辦法是運(yùn)用無(wú)監(jiān)督學(xué)習(xí)方法,這相當(dāng)于把標(biāo)簽數(shù)據(jù)的困難轉(zhuǎn)嫁到了算法上。我們提出了一種利用半監(jiān)督方法自動(dòng)獲取地震剖面標(biāo)簽化數(shù)據(jù)的方法。 針對(duì)地震數(shù)據(jù)剖面地質(zhì)特征提取問(wèn)題,首先將地震數(shù)據(jù)表示成指紋特征點(diǎn),然后運(yùn)用半監(jiān)督學(xué)習(xí)和指紋特征點(diǎn)匹配算法,找出地震數(shù)據(jù)中具有相似指紋點(diǎn)特征的局部地震數(shù)據(jù)特征。所謂半監(jiān)督學(xué)習(xí)是指在剖面上通過(guò)人工交互,識(shí)別出我們認(rèn)為較為明顯的一個(gè)局部特征,之后由指紋點(diǎn)識(shí)別算法在全部剖面數(shù)據(jù)中自動(dòng)識(shí)別出相同指紋特征的數(shù)據(jù)區(qū)域,并自動(dòng)將這一類數(shù)據(jù)生成具有相同標(biāo)簽的數(shù)據(jù)集。 在此基礎(chǔ)上,我們可以對(duì)解決無(wú)監(jiān)督學(xué)習(xí)中缺少標(biāo)簽數(shù)據(jù)的問(wèn)題,利用自動(dòng)生成的標(biāo)簽數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),從中提取地質(zhì)特征并對(duì)海量數(shù)據(jù)的地質(zhì)結(jié)構(gòu)進(jìn)行識(shí)別和預(yù)測(cè)。 該算法的關(guān)鍵點(diǎn)在于將地震數(shù)據(jù)表示成指紋特征點(diǎn)數(shù)據(jù)體,然后運(yùn)用半監(jiān)督指紋識(shí)別算法找出圖片中具有相似性的結(jié)構(gòu)。對(duì)于三維數(shù)據(jù)體,第一步需要通過(guò)人工交互方式,在指紋特征點(diǎn)數(shù)據(jù)切片上選擇一個(gè)具有明顯地質(zhì)結(jié)構(gòu)特征的區(qū)域,提取該區(qū)域的指紋特征點(diǎn),然后利用指紋點(diǎn)識(shí)別算法,在整個(gè)數(shù)據(jù)剖面上識(shí)別出具有類似特征的區(qū)域。由于不同數(shù)據(jù)剖面代表不同測(cè)線位置,因此對(duì)地質(zhì)結(jié)構(gòu)的信號(hào)反映也不完全相同。在不同剖面上識(shí)別地質(zhì)結(jié)構(gòu)特征,其指紋特征點(diǎn)分布并不會(huì)完全吻合,因此需要定義一個(gè)表征指紋點(diǎn)識(shí)別相似度的量。在前文指紋特征點(diǎn)識(shí)別相似度基礎(chǔ)上,進(jìn)一步定義一個(gè)相似度判斷準(zhǔn)則。 令A(yù),B分別表示兩個(gè)不同的指紋特征點(diǎn)分布,其中A圖有m個(gè)特征點(diǎn),其坐標(biāo)表示為(xi,yi),i=1,2,…,m,B圖中有n個(gè)特征點(diǎn),坐標(biāo)表示為(Xj,Yj),j=1,2,…,n。在對(duì)特征點(diǎn)進(jìn)行平移和旋轉(zhuǎn)后,A和B圖中的特征點(diǎn)得到了最大程度匹配。盡管如此,匹配特征點(diǎn)之間仍然不會(huì)完全吻合,相互之間存在一定距離。為了評(píng)價(jià)特征點(diǎn)的匹配程度,定義相似度S為: (4) (5) (6) j=1,2,…,n 式中:Si是A圖中特征點(diǎn)i的匹配程度;di是特征點(diǎn)i與對(duì)應(yīng)匹配點(diǎn)的最小距離;D是特征點(diǎn)匹配的判斷距離閾值(D=15),當(dāng)di 通過(guò)指紋特征點(diǎn)匹配算法模塊,實(shí)現(xiàn)了三維數(shù)據(jù)特征點(diǎn)匹配和地質(zhì)特征點(diǎn)半監(jiān)督標(biāo)簽數(shù)據(jù)識(shí)別。該算法需要輸入的三維數(shù)據(jù)體包括:①地震指紋點(diǎn)三維數(shù)據(jù);②地震特征點(diǎn)方位角三維數(shù)據(jù);③地震數(shù)據(jù)同相軸細(xì)化三維數(shù)據(jù);④三維地震疊后數(shù)據(jù)體。其中前面三個(gè)數(shù)據(jù)體可以通過(guò)本文提出的算法生成。 對(duì)實(shí)際地震數(shù)據(jù)進(jìn)行了測(cè)試計(jì)算。為了便于清楚地說(shuō)明算例效果,這里截取了一個(gè)具有斷層結(jié)構(gòu)的數(shù)據(jù)剖面,數(shù)據(jù)單道樣點(diǎn)數(shù)為800,共401道,剖面見圖9a。 圖9 地震剖面數(shù)據(jù)特征點(diǎn)分布示意 對(duì)整體剖面特征點(diǎn)進(jìn)行了CoSDMA編碼計(jì)算,矩陣大小為800×401=320800,數(shù)據(jù)量為800×401=320800。如果采用float型數(shù)值格式來(lái)存儲(chǔ)的話,64位編譯器下每個(gè)float型變量占用4個(gè)字節(jié)(byte),320800個(gè)float數(shù)據(jù)共占用1283200字節(jié),即1.22MB。整個(gè)剖面共有693個(gè)特征點(diǎn)(圖9b),包括239個(gè)“脊線”端點(diǎn),221個(gè)分支點(diǎn)和233個(gè)方位角突變點(diǎn),采用CoSDMA編碼后,得到地震數(shù)據(jù)DMA編碼,編碼長(zhǎng)度為3371位,編碼中每個(gè)英文和數(shù)字占一個(gè)字節(jié)(byte),3371位編碼占3371字節(jié),即3.3KB。因此,指紋特征點(diǎn)編碼算法的編碼率為1283200/3371=381倍,經(jīng)過(guò)特征點(diǎn)識(shí)別后的有效數(shù)據(jù)量約占原始數(shù)據(jù)的0.26%,數(shù)據(jù)存儲(chǔ)量降低了約兩個(gè)數(shù)量級(jí)。常規(guī)數(shù)據(jù)無(wú)損壓縮算法(如霍夫曼算法和LZW算法)一般可以將數(shù)據(jù)壓縮到原來(lái)的1/2~1/4,有損壓縮算法壓縮率約為1/10。由此可見,當(dāng)對(duì)較大數(shù)據(jù)量進(jìn)行編碼時(shí),CoSDMA編碼算法壓縮率具有明顯優(yōu)勢(shì)。 需要指出的是,雖然CoSDMA編碼對(duì)地震剖面信號(hào)來(lái)說(shuō)是一種有損壓縮算法,但是其包含全部特征點(diǎn)空間分布信息,如剖面特征點(diǎn)的維度、特征點(diǎn)之間的間隔、特征點(diǎn)類型和特征點(diǎn)方位角度等。這些信息完全存儲(chǔ)在CoSDMA編碼中,足夠?qū)⒕幋a從一維字符串恢復(fù)為二維特征點(diǎn)矩陣,并完全可重構(gòu)出地震剖面的特征點(diǎn)分布。因此,對(duì)于剖面特征點(diǎn)分布來(lái)說(shuō),CoSDMA編碼是一種無(wú)損壓縮算法,能夠完全恢復(fù)指紋特征點(diǎn)。 針對(duì)某區(qū)塊三維地震數(shù)據(jù)體(圖10),對(duì)其中的斷層地震特征進(jìn)行了指紋特征點(diǎn)識(shí)別、CoSDMA編碼和自動(dòng)標(biāo)簽化。該數(shù)據(jù)體的inline數(shù)據(jù)道范圍為100~200,Xline數(shù)據(jù)道范圍為1~400,每一道采樣點(diǎn)數(shù)為801。 圖10 某區(qū)塊三維地震數(shù)據(jù)體示意(部分) 首先對(duì)Xline剖面上的斷層地震特征進(jìn)行了識(shí)別。將參考剖面選為第80個(gè)剖面(斷層結(jié)構(gòu)明顯的剖面),利用人工交互窗口選擇位于地震道采樣點(diǎn)200附近的地層不連續(xù)特征,窗口大小為100×100像素。待搜索目標(biāo)剖面范圍選為80~100,目標(biāo)匹配窗口大小為100×100。在inline剖面上,DMA編碼壓縮率最大達(dá)到約95倍,平均壓縮率達(dá)到73;在Xline剖面上,編碼壓縮率最大達(dá)到約115倍,平均壓縮率約97;在水平切片上,編碼壓縮率最大達(dá)到約200倍,平均壓縮率達(dá)到79。 當(dāng)完成目標(biāo)剖面80的特征點(diǎn)識(shí)別后,依次進(jìn)行下一個(gè)目標(biāo)剖面的匹配掃描,在給定目標(biāo)剖面中,當(dāng)目標(biāo)數(shù)據(jù)窗口的特征點(diǎn)相似度S大于預(yù)先設(shè)定閾值(這里選擇S>0.68)時(shí),認(rèn)為該窗口內(nèi)部的指紋特征點(diǎn)與參考窗口內(nèi)特征點(diǎn)滿足匹配相似條件,將該窗口內(nèi)對(duì)應(yīng)的特征點(diǎn)分布、細(xì)化同相軸和地震信號(hào)保存下來(lái),作為后續(xù)深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練標(biāo)簽化數(shù)據(jù)集。 對(duì)參考剖面80上的斷層不連續(xù)面地震特征進(jìn)行半監(jiān)督標(biāo)簽化,生成斷層特征點(diǎn)標(biāo)簽集(圖11)和對(duì)應(yīng)原始數(shù)據(jù)剖面標(biāo)簽集(圖12)。 圖11 目標(biāo)剖面斷層結(jié)構(gòu)地震特征集(143個(gè)指紋特征點(diǎn))標(biāo)簽示意 從半監(jiān)督自動(dòng)生成的標(biāo)簽化數(shù)據(jù)可以看出,以參考剖面人工選擇的斷層地震特征為對(duì)象,通過(guò)指紋特征點(diǎn)匹配和識(shí)別算法,可以在海量數(shù)據(jù)中自動(dòng)尋找并搜集與參考特征近似的地震信號(hào)特征局部數(shù)據(jù),并生成標(biāo)簽化數(shù)據(jù)集。同時(shí),通過(guò)肉眼觀察可以發(fā)現(xiàn),標(biāo)簽數(shù)據(jù)集中的各個(gè)數(shù)據(jù)圖(圖12)并非是完全一樣的,各個(gè)數(shù)據(jù)圖與參考圖之間的相似度通過(guò)匹配度S衡量,較大的S值對(duì)應(yīng)很好的匹配,反之則差異大一些。 圖12 目標(biāo)剖面斷層結(jié)構(gòu)地震信號(hào)特征集(143個(gè)地震信號(hào)特征)標(biāo)簽示意 需要注意的是,在深度學(xué)習(xí)算法中,完全一致的標(biāo)簽數(shù)據(jù)集數(shù)據(jù)并非是一種優(yōu)勢(shì),反而會(huì)帶來(lái)算法的局限性,比如過(guò)擬合、泛化能力弱等。相反,標(biāo)簽集中數(shù)據(jù)的多樣性可以增加學(xué)習(xí)算法的魯棒性,這是由于多樣化的數(shù)據(jù)特征可以提高算法的泛化能力。本質(zhì)上說(shuō),深度學(xué)習(xí)是一種插值算法,而不是外推算法,當(dāng)訓(xùn)練集中標(biāo)簽數(shù)據(jù)能夠覆蓋更多情況時(shí),其插值能力(即預(yù)測(cè)能力)能得到更大的提升。因此,在半監(jiān)督方法生成地質(zhì)體地震特征數(shù)據(jù)標(biāo)簽集時(shí),通過(guò)對(duì)匹配度S參數(shù)的調(diào)整,可以改善深度學(xué)習(xí)算法的效果。 綜上所述,從二維地震數(shù)據(jù)剖面出發(fā),經(jīng)過(guò)①指紋特征點(diǎn)識(shí)別;②特征點(diǎn)標(biāo)記一維化;③生成指紋特征點(diǎn)陣列3個(gè)步驟,可以實(shí)現(xiàn)地震特征數(shù)據(jù)的降維、編碼,并生成“指紋特征點(diǎn)陣列”(DMA)數(shù)據(jù)。該數(shù)據(jù)比原始數(shù)據(jù)存儲(chǔ)量極大降低,同時(shí)包含特征點(diǎn)的全部信息,可以用于識(shí)別儲(chǔ)層結(jié)構(gòu)特征,自動(dòng)生成標(biāo)簽化數(shù)據(jù)集合。 地震數(shù)據(jù)指紋特征點(diǎn)的優(yōu)點(diǎn)在于: 1) 極大壓縮了地震數(shù)據(jù)的冗余信息,降低了數(shù)據(jù)量,提高了數(shù)據(jù)處理能力; 2) 實(shí)現(xiàn)地震信號(hào)屬性特征的編碼,得到了地震剖面DMA數(shù)據(jù)結(jié)構(gòu); 3) 數(shù)據(jù)結(jié)構(gòu)形式簡(jiǎn)單,數(shù)據(jù)編碼序列內(nèi)容豐富,蘊(yùn)含了代表地質(zhì)特征的地震數(shù)據(jù)信號(hào)屬性; 4) DMA數(shù)據(jù)結(jié)構(gòu)易于通過(guò)成熟的生物信息學(xué)方法處理,極大豐富了地震數(shù)據(jù)資料處理的手段,實(shí)現(xiàn)了多個(gè)領(lǐng)域方法的交叉融合。 DMA編碼為發(fā)現(xiàn)儲(chǔ)層屬性和油氣分布內(nèi)在“基因”編碼提供了一個(gè)新手段,是對(duì)傳統(tǒng)儲(chǔ)層識(shí)別方法的有益補(bǔ)充,其主要特點(diǎn)在于該方法通過(guò)地震指紋特征點(diǎn)數(shù)據(jù)體的匹配來(lái)識(shí)別斷層特征,無(wú)需直接在原始數(shù)據(jù)體上進(jìn)行計(jì)算,因此無(wú)論是加載數(shù)據(jù)還是處理數(shù)據(jù),都避免了直接讀取海量原始數(shù)據(jù),極大降低了對(duì)系統(tǒng)內(nèi)存的要求;對(duì)數(shù)據(jù)存儲(chǔ)的要求也極大降低,提高了處理過(guò)程的便捷性,滿足便攜式工作輕量級(jí)設(shè)備的需求;由于該處理方法無(wú)需直接面對(duì)原始地震數(shù)據(jù),因此可以避免不必要的數(shù)據(jù)接觸,提高數(shù)據(jù)資料的保密性。 基于地震剖面與人類指紋的相似性,本文提出了人工地震數(shù)據(jù)指紋特征點(diǎn)的定義方法,并對(duì)地震數(shù)據(jù)指紋特征點(diǎn)識(shí)別提取、編碼壓縮算法和自動(dòng)標(biāo)簽化方法進(jìn)行了研究。對(duì)實(shí)際數(shù)據(jù)的應(yīng)用分析發(fā)現(xiàn):①地震數(shù)據(jù)體指紋特征點(diǎn)與剖面信號(hào)特征結(jié)構(gòu)具有對(duì)應(yīng)關(guān)系,通過(guò)對(duì)特征點(diǎn)匹配,可以實(shí)現(xiàn)自動(dòng)生成海量數(shù)據(jù)的半監(jiān)督標(biāo)簽化數(shù)據(jù)集;②指紋特征點(diǎn)是對(duì)地質(zhì)結(jié)構(gòu)地震特征的間接體現(xiàn),通過(guò)特征點(diǎn)的位置和方位角信息匹配分析,可以實(shí)現(xiàn)對(duì)斷層等地質(zhì)結(jié)構(gòu)的特征標(biāo)簽化;③特征點(diǎn)標(biāo)簽化數(shù)據(jù)集的數(shù)據(jù)圖之間并非完全一樣,這是由于數(shù)據(jù)剖面本身信號(hào)特征之間存在差異,同一個(gè)地質(zhì)結(jié)構(gòu)體在空間的延展變化,引起標(biāo)簽數(shù)據(jù)的多樣性,指紋特征點(diǎn)匹配度S能夠定量反映這種差異;④對(duì)基于同相軸拓?fù)潢P(guān)系的數(shù)據(jù)分析可以在經(jīng)過(guò)降維、編碼的指紋特征點(diǎn)數(shù)據(jù)體上進(jìn)行,后者對(duì)存儲(chǔ)空間的需求更少,而且不直接接觸原始數(shù)據(jù),可以提高保密性,并利于在更廣范圍內(nèi)尋求新型數(shù)據(jù)處理方法;⑤地震數(shù)據(jù)指紋特征點(diǎn)與地質(zhì)結(jié)構(gòu)地震特征之間存在相關(guān)性,通過(guò)對(duì)地震數(shù)據(jù)特征點(diǎn)的半監(jiān)督識(shí)別與匹配方法,能夠?qū)崿F(xiàn)自動(dòng)生成海量數(shù)據(jù)體地質(zhì)特征的標(biāo)簽化地震特征集合;⑥地震數(shù)據(jù)指紋特征點(diǎn)編碼使數(shù)據(jù)存儲(chǔ)量降低兩個(gè)數(shù)量級(jí)。上述特點(diǎn)表明,地震數(shù)據(jù)指紋特征點(diǎn)對(duì)三維數(shù)據(jù)體自動(dòng)標(biāo)簽化過(guò)程具有優(yōu)勢(shì),能夠?yàn)闄C(jī)器學(xué)習(xí)算法快速提供大量特征訓(xùn)練數(shù)據(jù),是一種極具潛力的海量地震數(shù)據(jù)特征存儲(chǔ)和處理的新方法。1.3 地震數(shù)據(jù)剖面指紋特征點(diǎn)匹配和自動(dòng)標(biāo)簽化
2 測(cè)試分析
2.1 地震數(shù)據(jù)剖面指紋特征點(diǎn)拾取和編碼
2.2 地震剖面斷層特征指紋特征點(diǎn)自動(dòng)標(biāo)簽化
3 結(jié)論
——工程地質(zhì)勘察中,一種做交叉剖面的新方法