摘要: 隨著勘探目標(biāo)的構(gòu)造和地表地質(zhì)條件的日趨復(fù)雜,地震數(shù)據(jù)經(jīng)常存在不規(guī)則和不完整的問題,給后續(xù)的處理帶來嚴(yán)重困難。針對這一難題,文中提出了一種基于XGBoost 算法的地震數(shù)據(jù)重建方法。該方法從局部學(xué)習(xí)的角度出發(fā),針對隨機缺失的地震道,在其周圍選擇一定數(shù)量的相鄰地震道作為參考。通過構(gòu)建這些參考地震道的道號、采樣點號與數(shù)值之間的回歸模型,能夠精確學(xué)習(xí)并重建出缺失地震道的數(shù)據(jù)。為全面評估該方法的性能,對模擬數(shù)據(jù)不同地震道缺失情況下進行了實驗,并與基于U‐net 卷積神經(jīng)網(wǎng)絡(luò)和基于凸集投影的Curvelet 算法等重建方法進行比較。實驗結(jié)果表明,基于XGBoost 算法的重建方法對隨機缺失地震數(shù)據(jù)重建具有較高的精度。實際數(shù)據(jù)處理結(jié)果表明,該方法能夠為后續(xù)地震資料處理提供高精度的規(guī)則炮集數(shù)據(jù)。
關(guān)鍵詞: 地震數(shù)據(jù)重建,XGBoost 算法,凸集投影,機器學(xué)習(xí),U‐net
中圖分類號:P631 文獻(xiàn)標(biāo)識碼:A DOI:10. 13810/j. cnki. issn. 1000‐7210. 2024. 05. 005
0 引言
目前中國油氣地震勘探領(lǐng)域正逐漸向高精度、高分辨率、多尺度的方向發(fā)展,勘探目標(biāo)更加復(fù)雜,對地震數(shù)據(jù)的處理要求也隨之提高。然而,由于地表條件的限制,地震數(shù)據(jù)采集常常無法按照預(yù)定設(shè)計方案進行,需要消除各種障礙物、禁采區(qū)、海上拖纜羽狀漂移現(xiàn)象以及廢炮和廢道等因素的影響。為了滿足高精度、高分辨率、多尺度地震勘探的要求,野外地震數(shù)據(jù)采集需要以高密度、高維度、寬方位的方式進行,這無疑需要巨大的生產(chǎn)成本。而通過地震數(shù)據(jù)重建,可以以較低的計算成本獲得高密度、規(guī)則的、寬方位的數(shù)據(jù)[1]。當(dāng)前的地震數(shù)據(jù)重建方法主要分為三類:第一類是基于預(yù)測濾波的重建方法,通過設(shè)計濾波器對缺失地震數(shù)據(jù)重建。Fomel 等[2]提出了流式預(yù)測誤差濾波器,通過實時更新濾波系數(shù),將預(yù)測方程與局部相似約束條件相結(jié)合,求解超定的線性系統(tǒng),實現(xiàn)缺失數(shù)據(jù)的快速重建; 吳庚等[3]提出高階流式預(yù)測濾波重建方法,有效處理了包括近炮檢距缺失情況在內(nèi)的連續(xù)數(shù)據(jù)重建問題。第二類是基于稀疏變換的方法[4],也是目前的主流方法。以Donoho[5]提出的壓縮感知理論為基礎(chǔ),將信號在某一變換域中稀疏表示,再用一個與稀疏變換基不相關(guān)的采樣矩陣進行觀測,將數(shù)據(jù)重建問題轉(zhuǎn)換成求解約束最優(yōu)化問題,以達(dá)到重建地震數(shù)據(jù)的目的。趙子越等[6]通過求取一組正交基函數(shù)與時間序列的內(nèi)積,使原始信號呈現(xiàn)更強稀疏性,提出一種基于壓縮感知技術(shù)的離散正交S 變換的地震數(shù)據(jù)重建方法; 段中鈺等[7]提出了基于壓縮感知的平方正則交替乘子方向算法的地震數(shù)據(jù)重建方法,具有較高的精度和實用性; 董烈乾等[8]從快速迭代收縮閾值算法出發(fā),提出了基于曲波變換的快速凸集投影算法,該算法保留了迭代收縮閾值算法的計算簡單性,具有全局收斂速度快的優(yōu)點[9-10]。第三類是基于機器學(xué)習(xí)的方法,其中深度學(xué)習(xí)在地震數(shù)據(jù)重建中具有自動調(diào)參、計算速度快等優(yōu)點,是近年的研究熱點。Chai 等[11]提出了基于U‐net 卷積神經(jīng)網(wǎng)絡(luò)的地震數(shù)據(jù)重建方法,成功應(yīng)用于規(guī)則缺失數(shù)據(jù)重建; 馮永基等[12]發(fā)現(xiàn)普通GAN 網(wǎng)絡(luò)的重建結(jié)果常存在模糊、假頻等現(xiàn)象,提出了融合部分卷積和注意力模型的改進GAN 網(wǎng)絡(luò),顯著提高了重建精度。此外,集成算法作為機器學(xué)習(xí)中的一個分支,抗噪能力強、樣本抽樣方式多樣、泛化能力強、數(shù)據(jù)適應(yīng)能力強,在地震數(shù)據(jù)重建方面也得到了應(yīng)用。集成算法[13]按用途可分為三類:用于降低方差的 Bagging 法[14‐15]、用于減少偏差的 Boosting 法[16]和用于提升預(yù)測結(jié)果精度的Stacking 法[17]。Bagging 法的基本思想是訓(xùn)練多個分類器,各個分類器之間不存在強依賴關(guān)系,然后把計算結(jié)果求平均值,隨機森林算法是其典型代表; Boosting 法的典型代表是AdaBoost、XGBoost算法,其原理是將多個弱模型組合成一個強模型,每個新模型都會基于上一個模型進行學(xué)習(xí),并針對預(yù)測錯誤的樣本進行重點訓(xùn)練。Stacking 是把樣本分成若干份,使用分類器對樣本進行處理,處理結(jié)果作為下一層分類器的輸入進行迭代。徐凱等[18]基于隨機森林算法實現(xiàn)了地震數(shù)據(jù)重建; 楊熙鐳等[19]基于XGBoost 算法對隨機缺失含噪海上地震數(shù)據(jù)實現(xiàn)了高精度重建。XGBoost 算法是Chen 等[20]在梯度提升決策樹(GBDT)算法的基礎(chǔ)上提出的,具有計算速度快、預(yù)測精度高的優(yōu)點,在眾多領(lǐng)域也取得了較好的應(yīng)用效果。閆星宇等[21]應(yīng)用XGBoost 算法建立了致密砂巖儲層的孔隙度與滲透率回歸預(yù)測模型; 谷宇峰等[22] 從優(yōu)化參數(shù)角度出發(fā),基于XGBoost算法建立了滲透率預(yù)測模型; 張家臣等[23]基于XGBoost 算法對渤海灣盆地測井曲線進行了重構(gòu)。