于智瀚,王 濤*,孫鵬遠,王文闖,郭振波
1.南京大學(xué) 地球科學(xué)與工程學(xué)院,南京 210023;
2.中石油東方地球物理公司 物探技術(shù)研究中心,涿州 072750
自20世紀70年代以來,前人提出并發(fā)展了一系列震相識別和到時拾取的自動化算法,其本質(zhì)都是通過比較背景噪聲和地震信號的特征差異來實現(xiàn)?;谡穹卣?,前人提出了短長時窗平均 比 例(Short Time Average/Long Time Average, STA/LTA)的方法(Allen, 1978),其應(yīng)用在高信噪比的數(shù)據(jù)上取得了良好的效果。為了提高初至拾取的精度,許多基于短長時窗比的改良方法被提出,包括Modified Energy Ratio(MER)(Wong et al., 2009)和信噪比選擇法(Li and Peng, 2016)。此外,針對初至的不同物理特征,前人也提出了基于分形學(xué)(Boschetti et al., 1996; Jiao and Moon, 2000; Sabbione et al., 2010)、Akaike信息準則(Diehl et al., 2009)、高級統(tǒng)計量(Yung and Ikelle, 1997)和小波分析(Zhang et al., 2003; Tibuleac et al., 2003)等多種拾取方法。上述方法都是對單條地震記錄進行自動化初至拾取,并沒有考慮到勘探地震記錄中相鄰道之間的波形相關(guān)性和時距關(guān)系。
近年來,機器學(xué)習(xí)可以處理較復(fù)雜的多變量數(shù)據(jù)并提取其中的數(shù)據(jù)特征,已被引入進行地震初至的自動化拾取。這些方法主要包括了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(Murat and Rudman, 1992; McCormack et al.,1993; Li et al., 2013; Maity et al., 2014)、支 持 向 量機(Qu et al., 2018)和深度神經(jīng)網(wǎng)絡(luò)(Yuan et al.,2018; Hollander et al., 2018; Mezyk and Malinowski,2018; Tsai et al., 2018; Zhu and Beroza, 2018; 于子葉等,2018; Hu et al., 2019; Wang et al., 2019; 趙明等,2019; Zhen et al., 2019;周本偉等,2020)。上述方法大都是對單條地震記錄進行初至拾取,并未利用相鄰道之間的走時和波形關(guān)系。另外,機器學(xué)習(xí)的泛化能力不足已經(jīng)成為這些方法拾取初至的“痛點”。前人利用U型全卷積神經(jīng)網(wǎng)絡(luò)(U-Net)對初至進行拾取,將訓(xùn)練后的模型應(yīng)用于不同區(qū)域的數(shù)據(jù)集上進行泛化能力測試(Hu et al., 2019)。他們的結(jié)果顯示,對于不同區(qū)域的數(shù)據(jù)集,需要使用該區(qū)域的數(shù)據(jù)對模型進行重新訓(xùn)練。泛化能力不足意味著針對不同區(qū)域需要重新制作訓(xùn)練集,這將消耗大量時間和精力。
我們將主動源多道記錄的P波初至拾取視作為圖像分割任務(wù),并使用U型卷積神經(jīng)網(wǎng)絡(luò)(U-Net)作為深度學(xué)習(xí)模型。為解決模型的泛化性問題,本文借鑒半監(jiān)督深度學(xué)習(xí)框架(Cubuk et al., 2019)中的數(shù)據(jù)增強方法,實現(xiàn)了使用較少的訓(xùn)練集提取P波初至的主要特征并達到較高的拾取精度。通過對比模型拾取與傳統(tǒng)算法拾取的P波初至到時,討論神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)增強的優(yōu)勢。
本文使用的主動源地震數(shù)據(jù)是由中國石油集團東方地球物理勘探有限公司提供,在一條長為49公里的測線上等間距放炮后接收到的地震記錄。其中一共有1450次主動源地震事件,每次放炮事件被測線上的520個檢波器記錄到,產(chǎn)生520道地震記錄(圖1C)。每一個檢波器的地震事件記錄時間長度為6 s,采樣頻率為500 Hz。每次放炮點位于相鄰兩個檢波器距離中點,并依次平移,且檢波器之間的距離為25 m。對于主動源地震數(shù)據(jù)的預(yù)處理我們使用常規(guī)地震數(shù)據(jù)處理的方法:去均值、去趨勢以及去儀器響應(yīng)。為了制作高質(zhì)量的訓(xùn)練集樣本,我們還對處理后的地震記錄進行濾波處理,利用低通濾波器濾除150 Hz以上的信號,去除高頻噪聲的干擾。對地震記錄到的事件波形目視檢查后,發(fā)現(xiàn)各道初至到時基本上小于2 s,因此我們只截取前2 s內(nèi)的地震記錄進行訓(xùn)練,這樣也可以降低顯存需求并且提高初至拾取的分辨率。
我們使用GeoTomo公司提供的TomoPlus地球物理數(shù)據(jù)處理軟件對各道地震記錄拾取初至到時,并將其作為訓(xùn)練集、驗證集的標簽和測試集的真實結(jié)果。部分檢波器的地震記錄信噪比較差,所以TomoPlus無法拾取全部道的初至到時。特別是靠近炮點的檢波器的初至信號和面波信號混雜在一起(圖1B),并且面波信號的能量較強,造成初至信號的信噪比較差,TomoPlus難以拾取這些檢波器的初至記錄。最終,我們選擇TomoPlus可以準確拾取初至的道數(shù)大于450道的炮集數(shù)據(jù)(共計852炮),進一步將TomoPlus拾取的單炮初至到時進行線性插值,得到完整的初至結(jié)果。
卷積神經(jīng)網(wǎng)絡(luò)(LeCun et al., 1989)是一個性能出眾并且被廣泛應(yīng)用的深度學(xué)習(xí)網(wǎng)絡(luò),適用于醫(yī)學(xué)圖像分割、計算機視覺、無人駕駛等領(lǐng)域。本文中使用的深度神經(jīng)網(wǎng)絡(luò)是U型卷積神經(jīng)網(wǎng)絡(luò)(U-Net)(Ronneberger et al., 2015)。為 了 簡 化U-Net中的參數(shù),我們將最大池化層(Zhou and Chellappa,1988)應(yīng)用在U-Net中。U-Net類似于編碼—解碼器,左半部分對應(yīng)編碼器,作用是提取輸入圖像不同維度的特征,右半部分對應(yīng)解碼器,作用是將提取的抽象特征恢復(fù)到原樣。在解碼部分中,將采樣后數(shù)據(jù)恢復(fù)的過程中,特征的通道數(shù)量會減少,必然會有信息的損失,因此U-Net每次反卷積之后輸出的特征圖像與淺層對應(yīng)通道數(shù)相同的特征圖像進行拼接(Skip Connection),拼接之后特征通道數(shù)量翻倍。拼接操作將底層提取的特征與高層抽象的特征進行結(jié)合,這樣特征圖像不僅包括高度抽象的部分又包含底層相對直觀的部分,起到了信息補充的作用。本文中所建立的U-Net(圖2)特征提取部分包含了4個卷積塊,每個卷積塊中包含了2個卷積層和1個池化層;上采樣部分包含了4個反卷積塊,反卷積塊包含了1個拼接層、1個反卷積層和一個卷積層。卷積核的大小為3×3,卷積步長為1,采用最鄰近元法差值進行上采樣。損失函數(shù)使用交叉熵損失函數(shù)。
在我們確定使用U-Net作為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)后,我們需要制作對應(yīng)的訓(xùn)練集。筆者將初至拾取視作語義分割任務(wù),其主要目標是尋找圖像中不同語義的邊界。首先,我們需要將單炮的波形數(shù)據(jù)的范圍縮放到灰度圖像的像素數(shù)據(jù)范圍,作為訓(xùn)練集中的樣本?;叶葓D像中每個像素的取值范圍為0(黑)~255(白)。因此筆者將各道地震記錄進行歸一化,并將其值縮放到0~255范圍內(nèi),對應(yīng)著灰度圖中從黑到白的像素。按照炮檢距左右對稱排列各道地震記錄組成單炮波形圖像。制作完訓(xùn)練集的樣本后,我們需要制作對應(yīng)的人工拾?。ㄎ闹惺褂肨omoPlus拾取)的語義標簽圖像。我們可知制作出的樣本圖像中包含兩種語義,第一種是在初至到來前的噪聲信號,第二種是在初至到來之后的信號和噪聲相混雜的波形。因此,我們希望機器學(xué)習(xí)能夠拾取到兩種語義的邊界,即初至到時。我們將初至到來前的波形的標簽設(shè)置為0(黑),將初至到來后的波形的標簽設(shè)置為255(白)來區(qū)分兩種語義(圖2)。最終,一共有852個圖片數(shù)據(jù)集可供U-Net架構(gòu)進行訓(xùn)練和驗證。
模型中,絕緣子串可以使用兩種簡化方法:① 將絕緣子串視為剛體;② 將其視為變形體,如為變形體則需賦予很大的彈性模量.本文在鐵塔有限元模型建立過程中,將絕緣子串視為剛體.為簡化計算和分析,文中假設(shè)在塔-線體系模型中不含有螺栓、鐵板等小輔助零件,僅令桿塔的質(zhì)量、特征尺寸與實際吻合.
為了測試不同訓(xùn)練集樣本數(shù)量對于模型訓(xùn)練和預(yù)測結(jié)果的影響,我們做了三組對比實驗。三組實驗分別使用了占總樣本比例為5%、15%、70%的部分樣本作為訓(xùn)練集,其余的樣本作為驗證集(表1),測試訓(xùn)練后模型的預(yù)測效果。
本文實驗是在南京大學(xué)高性能計算中心(HPCC)平臺上進行的,訓(xùn)練過程所使用的硬件是Nvidia公司生產(chǎn)的高性能CUDA計算卡Tesla V100 GPU,顯存為32G,在訓(xùn)練樣本數(shù)為597的條件下,訓(xùn)練50輪大約需要消耗12個小時。我們將訓(xùn)練過程的學(xué)習(xí)率設(shè)置為0.005,并且設(shè)置每完成訓(xùn)練10輪后學(xué)習(xí)率減半,在訓(xùn)練的過程中逐漸降低學(xué)習(xí)率有助于模型快速逼近最優(yōu)解。三組實驗的損失函數(shù)隨著訓(xùn)練輪數(shù)的變化曲線顯示:隨著訓(xùn)練輪數(shù)的增加,損失函數(shù)逐漸下降,且訓(xùn)練集占比越大下降越快(圖3)。這說明模型輸入的訓(xùn)練樣本越多,其特征學(xué)習(xí)越快。驗證集的損失函數(shù)和準確率在訓(xùn)練過程中存在較大波動,其原因是部分驗證集樣本的震相特征沒有包含在訓(xùn)練集中,即U-Net沒有學(xué)習(xí)到部分樣本的特征。最終,我們選擇損失函數(shù)最小對應(yīng)的訓(xùn)練輪數(shù)作為結(jié)束,并保存在該輪數(shù)下的模型信息(表1)。
圖3 訓(xùn)練過程中訓(xùn)練集和驗證集損失函數(shù)和準確率的變化曲線Fig.3 Changes in loss function and accuracy of the training set and the verification set during training
表1 以不同樣本比例訓(xùn)練的模型的均方根誤差表Table 1 Root mean square error (RMSE) for models trained with different sample ratios
在訓(xùn)練好U-Net后,為了將其應(yīng)用到初至拾取的工作上,我們將全部852炮作為測試集并輸入網(wǎng)絡(luò)進行預(yù)測,并與真實結(jié)果進行對比,用來評估模型預(yù)測的平均誤差。在2.1實驗數(shù)據(jù)的預(yù)處理部分中,我們規(guī)定了標簽中初至到來前波形為黑(像素值為0),初至到來后波形為白(像素值為255),在輸入神經(jīng)網(wǎng)絡(luò)后標簽分別轉(zhuǎn)化為0和1。同理,預(yù)測結(jié)果中像素含義與標簽中像素含義相同。因此,預(yù)測結(jié)果的圖像中黑色區(qū)域與白色區(qū)域的邊界線即為各道地震記錄中的初至到時。我們使用了圖像邊緣檢測算法中的Canny算法(Canny et al., 1986)對預(yù)測圖像中的黑白邊界進行拾取。Canny算法的目的是尋找到一個最優(yōu)的邊緣,實現(xiàn)盡可能多地標識出圖像中的實際邊界,并且標識出的邊界要和真實的邊界足夠接近,以及要對圖像中的噪聲有一定的魯棒性。Canny算法包含了三個步驟:降噪、尋找梯度以及跟蹤邊緣。降噪操作是對原始數(shù)據(jù)與高斯平滑模板做卷積,卷積后的圖片與原始圖像相比有輕微的模糊,降低像素噪聲對邊緣檢測的影響。尋找梯度的過程中,使用4個Mask檢測水平、垂直以及對角線方向的邊緣。跟蹤邊緣部分使用了滯后閾值,滯后閾值需要一個高閾值和低閾值。在梯度高于高閾值的時候,認為該像素是邊緣像素;在梯度小于低閾值的時候,認為該像素是假的邊緣像素。由此,我們篩選出邊緣像素并連成邊界線。對比其他邊緣檢測算子Sobel和Prewitt等,Canny算法的改進是提出了基于邊緣梯度方向的非極大值抑制以及雙閾值的滯后閾值處理。從效果上講,Canny算法是對Sobel和Prewitt等算子效果的進一步細化和更加準確的定位。通過Canny算法,我們對各道進行拾取,得到了初至到時。
為了確定U-Net的拾取效果,我們計算了初至拾取到時和TomoPlus拾取到時的均方根誤差:
公式中t(i)代表了TomoPlus拾取的第i道的數(shù)據(jù)的初至到時,t?(i)代表了U-Net拾取的第i道的初至到時,N代表了單炮道集中的檢波器數(shù)量(本文中為520個)。通過比較各種情況下測試集的各炮的均方根誤差的分布,來評估模型的拾取效果和精度。
誤差直方分布圖顯示數(shù)據(jù)集的比例對模型預(yù)測的效果有顯著影響(圖4)。實驗Ⅰ中使用了總樣本數(shù)5%作為訓(xùn)練集,平均拾取均方根誤差為11.4 ms,大約為6個采樣點。雖然實驗Ⅰ中的平均均方根誤差較大,但是其訓(xùn)練時間明顯縮短且占用計算資源較小。其可能原因是樣本數(shù)量較少,無法包含所有樣本的特征,因此其預(yù)測效果較差。實驗Ⅱ中使用了總樣本數(shù)15%作為訓(xùn)練集,其平均均方根誤差降低至7.4 ms,大約為3個采樣點,說明增加訓(xùn)練集樣本量能夠降低預(yù)測誤差,提升初至拾取的精度。由于訓(xùn)練集樣本量的更加,訓(xùn)練的時間隨之增加,訓(xùn)練樣本包含的特征也變得豐富且泛化,有利于模型學(xué)習(xí)整體目標區(qū)域的初至特征。在實驗Ⅲ中,我們將訓(xùn)練集樣本量增加到總樣本數(shù)的70%。隨著訓(xùn)練樣本的增加,平均均方根誤差降低至6.5ms。綜上所述,U-Net對訓(xùn)練集的大小敏感,訓(xùn)練集越大,U-Net學(xué)習(xí)到的樣本的特征和細節(jié)越多,越有利于對整體樣本的預(yù)測,預(yù)測誤差的分布相對集中,因此預(yù)測的準確性越高(圖4)。
圖4 不同訓(xùn)練集比例的預(yù)測誤差分布Fig.4 Prediction error distribution of different training set proportions
數(shù)據(jù)增強(Data Augmentation)是深度學(xué)習(xí)中常用的技巧之一,在已有的訓(xùn)練樣本集上,通過改造、重組、變換方法增加訓(xùn)練集樣本量,讓訓(xùn)練集盡可能的多樣化,使得訓(xùn)練的模型有更強的泛化能力(Perez et al., 2017, Zhu et al., 2020), 并提高模型的預(yù)測效果。 前人已經(jīng)發(fā)掘出多種應(yīng)用在圖像上的數(shù)據(jù)增強方法,例如平移、旋轉(zhuǎn)、反色、鏡像、隨機剪裁(Wang et al., 2016)、隨機擦除(Zhong et al., 2017)、增加噪聲等。我們使用的訓(xùn)練集是由多道地震數(shù)據(jù)組成的灰度圖像,不存在RGB格式圖片中的三個通道,所以對于RGB通道進行的數(shù)據(jù)增強方法沒有效果,筆者將其排除。由于主動源地震的天然特征,旋轉(zhuǎn)圖像等改變角度的數(shù)據(jù)增強方法同樣不適用。經(jīng)過對地震數(shù)據(jù)條件的分析,我們最終選擇四種方法對小樣本訓(xùn)練集進行數(shù)據(jù)增強操作:隨機剪裁、隨機擦除、彈性形變(Pastor et al.,2013)以及加入噪聲(圖5)。以上的數(shù)據(jù)增強操作對訓(xùn)練集中的樣本和標簽是相同的,用來保證信息的一致性。
圖5 不同的數(shù)據(jù)增強方式對圖像處理的效果Fig.5 Effects of different data augmentation methods on image processing
隨機剪裁是指從原圖像中隨機剪裁出一定面積比例的部分圖像,并線性插值到原圖像的尺寸作為新的樣本。隨機剪裁的優(yōu)點是集中神經(jīng)網(wǎng)絡(luò)的注意力,有利于提取圖像中的高維信息,可以降低神經(jīng)元之間的關(guān)聯(lián)性以及模型中的參數(shù)的復(fù)雜程度。隨機擦除是指使用包含隨機噪聲的矩陣覆蓋原圖像和標簽圖像的一部分。遮擋住圖像的部分信息能提高神經(jīng)網(wǎng)絡(luò)的魯棒性,防止神經(jīng)網(wǎng)絡(luò)過擬合。彈性形變是對原圖像隨機的矩形區(qū)域扭曲變換。加入高斯噪聲是在原有的數(shù)據(jù)基礎(chǔ)上增加高斯噪聲,降低數(shù)據(jù)的信噪比,增加模型的魯棒性。對于不同的數(shù)據(jù)增強方法,有多種參數(shù)調(diào)節(jié)其數(shù)據(jù)增強的效果,例如是否對原始圖像使用數(shù)據(jù)增強的概率、不同數(shù)據(jù)增強方法的程度(面積、扭曲程度、噪聲的幅度等等)。 針對于小樣本訓(xùn)練集,合適的數(shù)據(jù)增強方法能有效地提高模型的訓(xùn)練效果。
本文實驗中筆者在完整訓(xùn)練集(852個樣本)中隨機選取一定比例的訓(xùn)練樣本組成小樣本訓(xùn)練集。在小樣本訓(xùn)練集的基礎(chǔ)上,我們利用數(shù)據(jù)增強方法將小樣本訓(xùn)練集樣本數(shù)擴增到1000個,以此來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。
此次研究保留實驗Ⅰ中所使用的35個樣本的訓(xùn)練集,并對其使用不同的數(shù)據(jù)增強方法(表2),使得訓(xùn)練集樣本數(shù)量增加到1000個。經(jīng)過訓(xùn)練模型并對測試集進行初至提取,得到四組實驗結(jié)果Ⅳ、Ⅴ、Ⅵ、Ⅶ。
表2 以相同樣本比例后經(jīng)數(shù)據(jù)增強的訓(xùn)練模型的均方根誤差表Table 2 Root mean square error with the same sample augmented
為了直觀展現(xiàn)不同實驗的拾取誤差,我們使用了核密度估計曲線來對誤差分布進行擬合(圖6)。對比實驗Ⅰ、Ⅳ、Ⅶ的結(jié)果可以發(fā)現(xiàn),經(jīng)過彈性形變的實驗Ⅳ雖然優(yōu)于未經(jīng)過數(shù)據(jù)增強的實驗Ⅰ,但是其誤差卻高于傳統(tǒng)的利用增加噪聲方式的實驗Ⅶ。這說明彈性形變的方式不符合地下細微異常結(jié)果對于地震波形的影響,屬于錯誤的方向,因此其效果甚至差于添加噪聲。在實驗Ⅰ、Ⅲ、Ⅴ、Ⅵ中,經(jīng)過隨機剪裁和隨機擦除數(shù)據(jù)增強方法的實驗Ⅴ、Ⅵ都明顯優(yōu)于未經(jīng)過增強的實驗Ⅰ,原因可能是因為訓(xùn)練集樣本數(shù)量的增加,并且隨機剪裁和隨機擦除的操作能有效降低模型過擬合程度。但是通過實驗Ⅴ、Ⅵ和實驗Ⅲ對比,我們發(fā)現(xiàn)5%樣本(35個)在經(jīng)過隨機擦除增強到1000個樣本后,其拾取誤差甚至優(yōu)于70%(597個)樣本不經(jīng)過任何增強操作的誤差。同時,也排除了數(shù)據(jù)增強增加的樣本對于拾取誤差的影響。對此,我們做出如下解釋:隨機剪裁操作能夠降低預(yù)測誤差,是因為隨機剪裁可以理解為圖像的平移,類似于放炮點位置的變化,所以機器學(xué)習(xí)能夠更好地分辨初至到時的特征;隨機剪裁也伴隨著圖像的局部縮放,能夠讓網(wǎng)絡(luò)學(xué)習(xí)到更多的細節(jié)并且減少無關(guān)波形對初至的干擾,有利于提高預(yù)測的準確率。隨機擦除操作取得更好的效果,其原因是在圖像的隨機位置上利用噪聲遮蓋原圖像能夠有效地降低過擬合程度,增加其泛化性。
圖6 經(jīng)過不同增強方法和未經(jīng)過增強的訓(xùn)練集得到的均方根誤差分布Fig.6 Predicted error distributions obtained by training sets with different data augmentation
經(jīng)過上述四種圖像增強方法的比較,我們可以看到總樣本數(shù)5%的訓(xùn)練集在經(jīng)過隨機擦除操作后,其拾取效果甚至優(yōu)于不經(jīng)過數(shù)據(jù)增強的總樣本數(shù)70%的訓(xùn)練集(圖7)。這說明,我們可以使用數(shù)據(jù)增強方法來對小樣本數(shù)據(jù)集進行數(shù)據(jù)增強,增加的數(shù)據(jù)部分并不需要人工標注。因此,在針對不同區(qū)域的初至進行拾取的時候,我們可以通過此方法來減少重新訓(xùn)練模型的人工成本,只利用少量的本區(qū)域的訓(xùn)練樣本即可實現(xiàn)較低的拾取誤差。
圖7 所有情況所得到的預(yù)測誤差的對比圖Fig.7 Comparison of the predicted errors in all cases
利用訓(xùn)練好的U-Net對驗證集樣本進行初至拾取。為了比較本文方法和TomoPlus的拾取效果,我們選擇兩者的RMSE較大的一個單炮道集中三個不同炮檢距的波形進行分析(圖8)。TomoPlus中算法設(shè)置為拾取初至信號的波谷,因此U-Net學(xué)習(xí)的初至也為初至信號的波谷。在圖8a中,我們可以看出無論是在高信噪比還是低信噪比環(huán)境下TomoPlus和U-Net對P波拾取是一致且正確的;圖8b中第220~230道,TomoPlus錯誤地拾取了前一個的波谷。為了探究TomoPlus與U-Net的真實誤差,我們?nèi)斯な叭波初至(在圖中為粉色標記)。經(jīng)過對比,并分別計算兩者與人工拾取之間的均方根誤差:U-Net與人工拾取的RMSE為1.64,TomoPlus與人工拾取的RMSE為4.46;8c中,我們聚焦于炮點附近數(shù)據(jù),由于TomoPlus無法拾取炮點附近初至,我們使用人工對P波初至進行拾取,但由于信噪比較差,加大了拾取難度。對比U-Net與人工拾取,說明良好的標簽是必要的。根據(jù)前人經(jīng)驗,訓(xùn)練樣本的質(zhì)量決定了模型訓(xùn)練的好壞,進而影響拾取效果。TomoPlus中初至拾取算法本身相對于人工來說存在系統(tǒng)誤差,并且在制作訓(xùn)練集時,部分道的初至到時是經(jīng)過線性插值得到的結(jié)果,同樣存在誤差。因此,如果提供給U-Net的訓(xùn)練樣本的初至均為人工挑選,則U-Net的拾取誤差將更小。
圖8 RMSE較大的單炮道集中U-Net,TomoPlus和人工拾取對比圖Fig.8 Comparison of picking details between U-Net (augmented) and TomoPlus
綜上所述,利用數(shù)據(jù)增強將小樣本訓(xùn)練集擴增,既能減少人工標記的成本,又能提升U-Net拾取的效果,提升模型在不同區(qū)域的泛化性。
傳統(tǒng)機器學(xué)習(xí)拾取P波初至方法的泛化性不足,完成訓(xùn)練后的模型在拾取不同區(qū)域的初至到時可能誤差較大,因而在不同區(qū)域需要大量人工標注進行重新訓(xùn)練。本研究將數(shù)據(jù)增強方法應(yīng)用在機器學(xué)習(xí)拾取初至的過程中,在達到相同訓(xùn)練效果的前提下,訓(xùn)練所需樣本數(shù)量僅為原來的二十分之一,大大減少了重新訓(xùn)練過程中人工標注的工作量。本文構(gòu)建共炮點多道集的圖像數(shù)據(jù)集,使用U-Net模型進行圖像分割實現(xiàn)初至拾取,通過對比不同數(shù)據(jù)增強方法的效果,得到如下的結(jié)論:
(1)U-Net具有區(qū)別初至前波形部分和初至后波形部分的能力,繼而拾取初至到時,初至前和初至后的波形的語義分割準確率可以到達99%以上。
(2)U-Net具有良好的圖像語義分割能力,能夠提取圖像特征并將特定目標區(qū)域分割開。對于共炮點道集,U-Net適合批量拾取初至到時。對于本文所使用的不同比例的訓(xùn)練集和測試集,U-Net在訓(xùn)練20輪左右后平均拾取誤差最低為6.4 ms。
(3)對樣本數(shù)量小的訓(xùn)練集,使用數(shù)據(jù)增強方法增加其樣本量,能夠有效提高模型的拾取精度。實驗證明,相比于使用原樣本數(shù)量的訓(xùn)練集,使用數(shù)據(jù)增強后的訓(xùn)練集所訓(xùn)練的模型的拾取誤差顯著降低,從11.4 ms降低至5.5~9.2 ms不等。其中,經(jīng)過隨機擦除增強后的訓(xùn)練集的訓(xùn)練效果最好,平均拾取誤差為5.5 ms。
(4)使用TomoPlus代替人工拾取到時作為深度學(xué)習(xí)的標簽,而TomoPlus本身存在著拾取誤差,深度學(xué)習(xí)的優(yōu)劣與訓(xùn)練樣本的好壞有直接關(guān)系。因此U-Net模型拾取精度提升空間大,并為綜合分析P波初至到時提供了一種可行的方法。
因為共炮點道集的樣本相似性較高、初至特征較為明顯,所以制作大量的訓(xùn)練集標簽是沒有必要也是耗費大量人工成本的。根據(jù)上述結(jié)論,在今后使用機器學(xué)習(xí)方法對多道地震記錄初至到時進行提取時,可以使用本文中所采用的U-Net結(jié)合數(shù)據(jù)增強的方法,在小樣本訓(xùn)練集的前提下,實現(xiàn)較好的拾取效果。對于步入大數(shù)據(jù)時代的地震學(xué)來說,小樣本學(xué)習(xí)方法逐漸的探索和實現(xiàn),能夠有效地減輕研究人員數(shù)據(jù)處理的壓力,更有利于地震數(shù)據(jù)的批量處理和信息有效挖掘。