楊夢(mèng)瓊,王澤峰,許輝群,李欣怡,魏文齋
(1.長江大學(xué) 地球物理與石油資源學(xué)院,湖北 武漢 430100;2.中國石油遼河油田公司錦州采油廠,遼寧 凌海 121209)
斷層是地殼因受到一定強(qiáng)度的作用力發(fā)生破裂,且沿破裂面有明顯相對(duì)移動(dòng)的構(gòu)造,它是一種非常常見的地質(zhì)現(xiàn)象,目前我國大部分含油盆地內(nèi)的含油構(gòu)造都含有斷層,能否準(zhǔn)確識(shí)別斷層對(duì)油氣的開采有著非常重要的影響[1]。利用地震資料的斷層探測(cè)發(fā)展到如今,已經(jīng)出現(xiàn)了許多方法,常規(guī)的斷層探測(cè)方法主要有:Colorni提出的螞蟻體技術(shù)[2],Gersztenkorn等提出的C3相干體技術(shù)[3],Marfurt K J等提出的平面多屬性分析技術(shù)[4],Randen T等提出的邊緣探測(cè)技術(shù)[5],劉志遠(yuǎn)等提出的淺層地震反射波法[6],吳永輝等提出的三維地震小斷層精細(xì)解釋方法[7],上述技術(shù)方法在實(shí)際運(yùn)用中都取得了不錯(cuò)的效果。隨著人工智能技術(shù)的發(fā)展,先后出現(xiàn)了用BP人工神經(jīng)網(wǎng)絡(luò)自動(dòng)識(shí)別小斷層[8],該方法的參數(shù)選擇受人為因素影響較大,而分形技術(shù)與神經(jīng)網(wǎng)絡(luò)結(jié)合[9]可以實(shí)現(xiàn)參數(shù)選擇的自動(dòng)化。上述機(jī)器學(xué)習(xí)的方法與傳統(tǒng)方法結(jié)合,如螞蟻?zhàn)粉櫵惴ê蜕窠?jīng)網(wǎng)絡(luò)結(jié)合[10]可以解決斷層的樣本問題,但現(xiàn)實(shí)的標(biāo)簽獲取中無論是通過相干體、邊緣探測(cè)還是螞蟻體技術(shù),仍然有一些斷層標(biāo)簽無法獲取,通過競(jìng)爭(zhēng)學(xué)習(xí)的方法[11]可以解決上述問題。為了進(jìn)一步提高斷層的探測(cè)精度,通過深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)地震數(shù)據(jù)和斷層標(biāo)簽之間的關(guān)系[12],從地震數(shù)據(jù)中提取特征,訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)來進(jìn)行斷層探測(cè)[13]。MLP、SVM、VGG分別是上述技術(shù)中用到的典型模型,本文將對(duì)這三種模型斷層探測(cè)的性能進(jìn)行分析,找出最佳模型,并分析不同插值方式的影響。
單隱層MLP[14]包含三層:一層是由感知單元組成的輸入層,一層是計(jì)算節(jié)點(diǎn)的隱含層,一層是輸出層。輸入層的激活函數(shù)是對(duì)數(shù)s形函數(shù),隱含層激活函數(shù)是線性函數(shù)。
SVM[15]的準(zhǔn)則是結(jié)構(gòu)風(fēng)險(xiǎn)最小化。對(duì)于線性可分的二分類問題,目標(biāo)是尋找最優(yōu)線性分界面,使兩類模式向量分開的間隔最大,對(duì)于線性不可分的二分類問題,尋找一個(gè)核函數(shù),通過某種非線性映射將樣本映射到一個(gè)特征空間,在這個(gè)特征空間中構(gòu)造最優(yōu)分類超平面,不同的核函數(shù)會(huì)形成不同的算法,多項(xiàng)式核函數(shù)、徑向基函數(shù)都是最常用的核函數(shù)。
VGG[16]相比AlexNet的一個(gè)改進(jìn)是采用連續(xù)的幾個(gè)3×3的卷積核代替AlexNet中的較大卷積核(11×11,7×7,5×5)。對(duì)于給定的感受野,采用堆積的小卷積核優(yōu)于采用大的卷積核,因?yàn)槎鄬臃蔷€性層可以通過增加網(wǎng)絡(luò)深度來保證學(xué)習(xí)更復(fù)雜的模式,而且參數(shù)更少。
模型的訓(xùn)練過程由兩部分組成。一部分通過自下向上的無監(jiān)督學(xué)習(xí):采用無標(biāo)簽數(shù)據(jù)分層訓(xùn)練各層參數(shù),這是一個(gè)無監(jiān)督訓(xùn)練(也是一個(gè)特征學(xué)習(xí))過程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。具體是:用無標(biāo)簽數(shù)據(jù)去訓(xùn)練第一層,這樣就可以學(xué)習(xí)到第一層的參數(shù),在學(xué)習(xí)得到第n-1層后,再將第n-1層的輸出作為第n層的輸入,訓(xùn)練第n層,進(jìn)而分別得到各層的參數(shù)。這稱為網(wǎng)絡(luò)的預(yù)訓(xùn)練。另一部分進(jìn)行自頂向下的監(jiān)督學(xué)習(xí):在預(yù)訓(xùn)練后,采用有標(biāo)簽的數(shù)據(jù)來對(duì)網(wǎng)絡(luò)進(jìn)行區(qū)分性訓(xùn)練,此時(shí)誤差自頂向下傳輸[17]。預(yù)訓(xùn)練類似傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化,但由于深度學(xué)習(xí)的第一步不是隨機(jī)初始化而是通過學(xué)習(xí)無標(biāo)簽數(shù)據(jù)得到的,因此這個(gè)初值比較接近全局最優(yōu),所以深度學(xué)習(xí)效果好很多,程序上應(yīng)歸功于第一步的特征學(xué)習(xí)過程。斷層探測(cè)的方法一般分為三步,第一步是數(shù)據(jù)的獲取與預(yù)處理,預(yù)處理主要是為了減輕數(shù)據(jù)本身的質(zhì)量缺陷對(duì)探測(cè)結(jié)果的影響而采取的轉(zhuǎn)置、翻轉(zhuǎn)、高斯平滑、標(biāo)準(zhǔn)化等操作;第二步是數(shù)據(jù)切分,提取數(shù)據(jù)的特征信息,這也是樣本構(gòu)建的關(guān)鍵,處理效果直接關(guān)系到模型最后的探測(cè)準(zhǔn)確度;第三步就是數(shù)據(jù)后處理部分,確定斷層位置和形狀[18]。深度學(xué)習(xí)本質(zhì)上是構(gòu)建一個(gè)復(fù)雜函數(shù)進(jìn)行分類和預(yù)測(cè)。而斷層探測(cè)本質(zhì)上是一個(gè)二分類問題,即有斷層的地方為1,無斷層的地方為0,因此基于深度學(xué)習(xí)的斷層探測(cè)原理就是將各個(gè)位置的地震數(shù)據(jù)放入構(gòu)建的函數(shù)中,根據(jù)得到的結(jié)果進(jìn)行是否為斷層的判斷[19]
首先讀取地震數(shù)據(jù)并轉(zhuǎn)換為矩陣,將矩陣轉(zhuǎn)置翻轉(zhuǎn)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)可以避免過擬合。當(dāng)數(shù)據(jù)集具有某種明顯的特征,使用Cutout方法和風(fēng)格遷移變化等相關(guān)方法可避免模型學(xué)到跟目標(biāo)無關(guān)的信息。此外還可以提升模型的穩(wěn)定性,降低模型對(duì)數(shù)據(jù)的敏感度[20]。
由于地震數(shù)據(jù)振幅值變化范圍很大,且含有異常值,對(duì)矩陣進(jìn)行高斯平滑和標(biāo)準(zhǔn)化處理。接著讀取標(biāo)簽文件,將其轉(zhuǎn)換為矩陣,根據(jù)公式(1)和公式(2)計(jì)算斷層線的坐標(biāo),創(chuàng)建空白圖片,并根據(jù)坐標(biāo)繪制斷層線。
式(1)、式(2)中,x為斷層線端點(diǎn)橫坐標(biāo);y為斷層線端點(diǎn)的縱坐標(biāo);l為道號(hào);m為起始道號(hào);c為道號(hào)間隔;t為采樣時(shí)間,單位為ms;s為采樣起始時(shí)間,單位為ms;z為采樣間隔。其中原始數(shù)據(jù)和樣本如圖1所示。最后將標(biāo)簽數(shù)據(jù)和地震數(shù)據(jù)切分為若干個(gè)方陣,這是因?yàn)橛?jì)算機(jī)在識(shí)別圖像信息的過程中,機(jī)器需要將圖片切分成很多個(gè)小塊,然后從每一個(gè)小塊中提取某些低級(jí)特征,這個(gè)過程類似于卷積,切分的大小代表感受野的大小,移動(dòng)的步長代表提取的精度。移動(dòng)步長為1時(shí),相鄰步感受野會(huì)有重復(fù)的區(qū)域,隨著步長增大,相鄰感受野會(huì)減少甚至沒有,且步長為1提取的特征較多,遺漏的特征少。步長增加會(huì)遺漏許多特征,因此本文在切分過程中將移動(dòng)步長設(shè)為1。切分完之后對(duì)切分圖像的大小進(jìn)行Resize操作,Resize后根據(jù)切分得到的標(biāo)簽方陣中0的數(shù)量來判定其是否含有斷層線,將含有斷層線的方陣放入斷層列表,無斷層線的放入非斷層列表,將斷層列表和非斷層列表合并組成數(shù)據(jù)列表,生成與斷層列表數(shù)量一致的全為1的列表,與非斷層數(shù)量一致的全為0的列表,兩列表合并組成標(biāo)簽列表。
圖1 樣本對(duì)Fig.1 Sample pair
創(chuàng)建模型,包括VGG模型、MLP模型、SVM模型,訓(xùn)練數(shù)據(jù)采用合成地震數(shù)據(jù),將5個(gè)484道,76個(gè)采樣點(diǎn)的地震剖面放入模型中進(jìn)行訓(xùn)練,訓(xùn)練結(jié)束后保存模型結(jié)構(gòu)文件(json)和模型權(quán)重文件(h5),加載訓(xùn)練好的模型,測(cè)試數(shù)據(jù)由Tessaral軟件正演得出一個(gè)101道,971個(gè)采樣點(diǎn)的地震剖面,放入模型后,對(duì)其進(jìn)行預(yù)測(cè)。其預(yù)測(cè)結(jié)果含有Accuracy、Sensitivity、Specificity、F1-Score、AUC五個(gè)評(píng)價(jià)指標(biāo),其中,Accuracy為準(zhǔn)確率,是分類正確的斷層和非斷層占全部數(shù)據(jù)的比例;Sensitivity為敏感性,是指正確判斷非斷層的概率;Specificity為特異性,是指正確判斷斷層的概率;F1-Score為平衡F分?jǐn)?shù),其取值范圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結(jié)果最差。由于數(shù)據(jù)集不平衡,特異性和準(zhǔn)確性分?jǐn)?shù)不能很好地表示這些指標(biāo)的含義[21],AUC值是一個(gè)用來評(píng)價(jià)二分類模型優(yōu)劣的常用指標(biāo),AUC值越高,通常表明模型的效果越好。各個(gè)模型指標(biāo)得分如表1所示,預(yù)測(cè)結(jié)果如圖2所示。
表1 各模型指標(biāo)得分
圖2 預(yù)測(cè)結(jié)果Fig.2 Prediction results
數(shù)據(jù)輸入到網(wǎng)絡(luò)模型中是轉(zhuǎn)為向量(矩陣)輸入的。由于網(wǎng)絡(luò)結(jié)構(gòu)的限制,進(jìn)入全連接層的輸入維度必須是固定的,因此需要進(jìn)行大小調(diào)整,使輸入向量維數(shù)等于輸入層節(jié)點(diǎn)數(shù)。數(shù)據(jù)尺寸變化需要進(jìn)行插值,nearest(最近鄰插值)、linear(雙線性插值)和cubic(雙三次插值)是最常見的三種方式,其中雙三次插值計(jì)算量最大,其不僅考慮到周圍四個(gè)直接相鄰像素點(diǎn)灰度值的影響,還考慮到它們灰度值變化率的影響[22]。上述三種插值方式在圖像處理中的作用已經(jīng)有許多學(xué)者對(duì)其進(jìn)行了分析和比較,而area(使用像素區(qū)域關(guān)系重采樣)大都語焉不詳,想要對(duì)比這四種插值效果的優(yōu)劣。同一模型中不同插值方法預(yù)測(cè)結(jié)果分別如圖3、圖4、圖5所示。
圖3 VGG模型Fig.3 VGG model
圖4 MLP模型Fig.4 MLP model
圖5 SVM模型Fig.5 SVM model
1)相同插值條件下,根據(jù)AUC值得分和預(yù)測(cè)結(jié)果對(duì)比,SVM模型預(yù)測(cè)效果最好。
2)在數(shù)據(jù)前期處理中,改變切分圖片RESIZE時(shí)的插值方式,同一模型中INTER-AREA插值法與INTER-CUBIC、INTER-LINEAR插值法相比預(yù)測(cè)結(jié)果更精細(xì),INTER-AREA插值法與INTER-NEAREST插值法相比預(yù)測(cè)結(jié)果更純凈,即同一模型中INTER-AREA插值法下檢測(cè)效果最好。
由于訓(xùn)練采用的是合成地震數(shù)據(jù),無法復(fù)現(xiàn)所有類型真實(shí)的地質(zhì)構(gòu)造,斷層形狀是被簡化過的,只有直斷層,所以上述結(jié)論只適用于地質(zhì)構(gòu)造較為簡單,斷層彎曲程度較小的地區(qū)。