徐雷良 徐維秀
(中石化石油工程地球物理有限公司勝利分公司,山東東營 257000)
地震勘探技術(shù)的發(fā)展對地震資料質(zhì)量監(jiān)控技術(shù)的要求越來越高。早期,僅憑肉眼和經(jīng)驗查看監(jiān)視記錄每天即可完成二維地震數(shù)十道、上百道的單炮質(zhì)量監(jiān)控。地震勘探技術(shù)與地震采集設備以及計算機技術(shù)的發(fā)展催生了現(xiàn)場地震資料處理技術(shù)[1],并以此作為現(xiàn)場延時質(zhì)控的重要手段。隨著高精度、高密度三維地震勘探技術(shù)的出現(xiàn)以及地震采集設備的不斷升級,陸續(xù)出現(xiàn)了地震資料現(xiàn)場實時質(zhì)控技術(shù)[2-3],并研發(fā)了大量軟件成果[4-7],完全改變了依靠監(jiān)視記錄和部分資料抽檢進行人工定性監(jiān)控模式,現(xiàn)場實時質(zhì)控技術(shù)具有比較全面、定量化及相對科學的特性[7]。以小面元、大道數(shù)為典型特征的“兩寬一高”與高效地震采集技術(shù)的發(fā)展應用在持續(xù)推動技術(shù)進步的同時,也引起了數(shù)據(jù)量的急劇攀升,亦即俗稱的“海量地震數(shù)據(jù)”。近年來,三維區(qū)塊部署的單炮數(shù)據(jù)量動輒數(shù)百兆字節(jié),而相鄰兩炮激發(fā)的時差已在半分鐘內(nèi)(井炮),甚至僅有數(shù)秒(可控震源),因此傳統(tǒng)定性質(zhì)控模式很難有效監(jiān)控海量地震資料,現(xiàn)有的定量化監(jiān)控技術(shù)與評價軟件面臨巨大挑戰(zhàn)[7-8]。地震資料評價技術(shù)是質(zhì)量監(jiān)控技術(shù)的重要組成部分,二者同步發(fā)展。從最初人工定性分析發(fā)展到基于標準進行多因素評價[4-5,7],再發(fā)展為基于單個屬性的資料評價[2-3],直到如今多元地震屬性綜合統(tǒng)計分析評價[6-7],逐步形成了由激發(fā)、接收、環(huán)境噪聲及地震屬性等全方位要素參與的評價體系,特別是基于地震屬性的資料評價模式已由單炮記錄面貌轉(zhuǎn)向內(nèi)部特征,為目前油氣勘探開發(fā)所急需的高精度、高分辨率地震資料提供了更為可靠的質(zhì)量保障。地震記錄一般是在連續(xù)地表與地質(zhì)條件及相同激發(fā)與接收環(huán)境下獲得的,因此各炮之間存在天然的、隱性的聯(lián)系,需要一種自學習算法尋找其潛在的關系,以快速完成單炮記錄品質(zhì)評價。目前,人工智能[9-10]已在許多領域取得成功,顯著地改變了人們的生產(chǎn)、生活方式。它在地震資料評價方面也有一定應用成果,但其著眼點主要是針對地震成果數(shù)據(jù)[11-13],在現(xiàn)場資料評價方面的應用才剛剛起步[14]。本文首先討論了目前常用的單炮記錄評價理論方法,接著探討了基于隨機森林(Random Forest,RF)[15-16]的海量地震資料智能評價流程及其關鍵技術(shù)。
國家標準[17]和一些行業(yè)標準、企業(yè)標準中對地震資料分級制定了明確的技術(shù)規(guī)范,這些規(guī)范是對地震儀器、設備、激發(fā)與接收等各種因素性能指標的限定,是多年地震勘探實踐所形成的確定性指標。例如,TB時差、不正常道數(shù)量或占比、斷排列數(shù)、震源畸變超限等。根據(jù)標準,把這些參數(shù)硬性指標的考核稱為確定性評價模型。目前,通用或商用監(jiān)控軟件[7,18-20]全部采用了該模型。這類確定性評價模型專注于施工因素監(jiān)控,但并不能充分反映地表與地質(zhì)、環(huán)境以及偶然因素對地震資料的影響,該評價模式并不對單炮記錄品質(zhì)進行評判。
這種模型是通過新老資料對比確定地震屬性閾值,利用單一屬性的閾值是否超限進行資料分級[3],該模型的優(yōu)勢在于針對性強,對于特定油氣勘探目標資料品質(zhì)分析具有指導意義。但不同地震屬性體現(xiàn)資料的不同特征,且每種地震屬性對資料品質(zhì)的反映具有片面性和模糊性,依賴單一地震屬性判定原始單炮記錄合格與否顯然是不科學的。
多元屬性單炮記錄評價的實質(zhì)是多元判別分析問題,以下先討論兩級分類。
(1)
(2)
式中Σ1、Σ2分別為G1和G2屬性的協(xié)方差矩陣。
生產(chǎn)炮合格判定的準則可描述為
(3)
(4)
式(4)為單炮記錄兩級分類判別準則。如果做三級分類,可增加一個閾值。
實際生產(chǎn)中,也可采用品質(zhì)好的生產(chǎn)炮替代試驗炮。為了確保協(xié)方差矩陣的秩存在,炮數(shù)應大于地震屬性個數(shù),一般選擇最近采集的20~30炮為宜??紤]到多線束施工模式,這些炮應兼顧到每束線、每個排列,空間分布應相對均勻,從而使其更具代表性。如果選取一條優(yōu)質(zhì)生產(chǎn)炮記錄S(稱為標準記錄)作為G1的重心,判別準則變?yōu)?/p>
(5)
式中:μi、si分別表示生產(chǎn)炮X和S炮的第i個屬性;θi為設定的第i個屬性的閾值,且有θi≥0。
所有與S炮具有相似地表和地下地質(zhì)條件、相同激發(fā)與接收及環(huán)境因素的生產(chǎn)炮以式(5)為判別準則。但是,一旦與以上條件不符,如不同激發(fā)藥量,就需要建立新的炮集重心。因此,同一個工區(qū)可建立多個區(qū)域,每個區(qū)域形成一個炮集G1,每個炮集只有一條標準記錄(重心)。圖1為據(jù)此開發(fā)的監(jiān)控軟件M[8]所設計的多區(qū)域海量地震資料評價流程。
多元屬性評價模型理念易于接受、方便計算機實現(xiàn),適于現(xiàn)場實時監(jiān)控與評價。工程技術(shù)人員利用經(jīng)驗并結(jié)合老資料可檢驗分類效果,通過標準差、方差對監(jiān)控結(jié)果進行統(tǒng)計分析,并將結(jié)果疊合在遙感影像上,便于全區(qū)資料分析,指導地震采集施工。圖2為M軟件在某工區(qū)的合格炮能量分布圖(背景為衛(wèi)星照片),可見單炮能量與沙丘高程呈正相關。
圖2 某工區(qū)合格單炮能量分布(背景為衛(wèi)星照片)
多元屬性評價單炮的分類模式隱含著“異類即錯”的思想,目的在于嚴格實時監(jiān)控廢炮,以便及時補炮。該模型的主要局限在于閾值θi的定義,主觀性太強,難以適應多變的地震地質(zhì)條件,生產(chǎn)中不易把握且極易引起爭議。
人工智能是利用數(shù)字計算機或者數(shù)字計算機控制的機器開發(fā)用于模擬、延伸和擴展人類智能的理論、方法、技術(shù)及其應用的一門新興技術(shù)科學[9,21]。實現(xiàn)單炮記錄智能評價有多種途徑,但需要結(jié)合應用領域知識才能獲得正確的解決思路。
地震屬性研究已產(chǎn)生了豐富的研究成果,定義的地震屬性多達幾百種[22],其中振幅、能量屬性就有30種之多。海量地震資料采集單炮數(shù)據(jù)量大、炮數(shù)多,但提取的地震屬性,特別是反映單炮記錄品質(zhì)的基本屬性相對較少。表征野外單炮記錄特征的屬性可分為單炮、單道、初至前、初至區(qū)及目的層等的能量、頻率、信噪比等。多個工區(qū)的實驗分析表明,同一工區(qū)的單炮記錄屬性大多呈高斯分布或偏態(tài)分布(圖3a),這一特征為地震屬性的數(shù)據(jù)預處理和統(tǒng)計學分析提供了數(shù)學基礎。
地震屬性體現(xiàn)單炮品質(zhì)的程度不同,其間相關性差異較大。圖3b是該工區(qū)炮集能量與目的層能量對比圖,圖中藍色折線為炮集能量分布,黃色折線為目的層能量分布,顯然,這兩類能量間具有較強的相關性。一般地,機器學習應避免相關性強的屬性參與。通過對這些屬性所反映的單炮品質(zhì)深入挖掘,發(fā)現(xiàn)其潛在聯(lián)系,進而形成分類模型。
圖3 某工區(qū)地震屬性分布特征(a)目的層能量分布;(b)炮集能量與目的層能量曲線對比
圖4為基于RF的單炮記錄智能評價流程。使用前期勘探成果及試驗炮建立初始樣本集,提取樣本屬性并構(gòu)建協(xié)方差矩陣,求解該矩陣的特征值和特征向量,利用主成分分析法(該步可選),在剔除強相關屬性后,將對地震資料品質(zhì)更具敏感的屬性挑選出來,基于這些優(yōu)化屬性并結(jié)合廢品庫,擴增樣本以滿足機器學習樣本數(shù)量;對訓練集樣本進行RF訓練,如果沒有通過驗證,則調(diào)整參數(shù)后重新訓練;輸入生產(chǎn)炮,按RF分類,在模型評估后,如果沒有達到精準度要求,則調(diào)整參數(shù)處理后重新進行分類;如果達到精準度要求,在輸出分類結(jié)果后檢測樣本集是否完備,若需要則把生產(chǎn)炮作為學習樣本補充到樣本集中,重新組成模型訓練,否則,關閉訓練模型,陸續(xù)對生產(chǎn)炮進行自動分類。
圖4 單炮記錄智能評價流程圖
樣本集是人工智能學習的基礎,必須具有大量代表性及多樣性的樣本所建立的分類模型才能防止過擬合[15,23],且各類別樣本數(shù)目盡量平衡,否則,樣本數(shù)特別少的類別分類精準度低。
利用以往勘探中地理位置鄰近或地表、地質(zhì)條件及激發(fā)與接收因素相似的地震采集工區(qū)成果,抽取具有代表性的單炮記錄,如一、二級品記錄、低頻炮、低信噪比炮;廢炮庫是由不同激發(fā)條件和接收因素以及在各種地表地質(zhì)條件下所采集的不合格單炮組成,如斷排列炮、串感炮、噪聲炮等;試驗資料具有當前工區(qū)地震激發(fā)與接收的廣泛代表性,可將其作為一、二級品樣本以減少對前期成果樣本的過度依賴。以上這些單炮組成初始樣本集。
在智能評價建模應用初期,初始樣本集普遍存在樣本不足的情況,需要擴增樣本,在增加樣本數(shù)量時應盡量避免由此造成的過擬合問題,擴增渠道包括對部分樣本做樣本增強技術(shù)[23-24]及納入后期正確分類的生產(chǎn)炮,擴增方法一般通過數(shù)學變換或增加噪聲方式實現(xiàn)。
由于高斯白噪的功率譜密度服從均勻分布,幅度分布服從高斯分布,利用高斯白噪聲對原始樣本集進行重構(gòu),形成新樣本集。假設地震波有效信號為W(t),時間為t,環(huán)境噪聲為H(t),高斯白噪聲為nG(t),則重構(gòu)信號Y(t)為
Y(t)=W(t)+H(t)+nG(t)
(6)
在樣本擴增時,對nG(t)做如下限定
-E(Y)≤λE(nG)≤E(Y)
(7)
式中:E(Y)為重構(gòu)信號能量;E(nG)為高斯噪聲能量;λ為約束因子,|λ|≤1。
為了更好地反映特定工區(qū)中的一些特殊勘探目標要求,在試驗炮屬性提取后,按照高斯白噪聲分布規(guī)律,在限定范圍內(nèi)由試驗炮重構(gòu)新屬性。設試驗炮數(shù)為M1,新增樣本數(shù)為M2,于是,新增樣本i(i=1,2,…,M2)的屬性值w′i為
(8)
式中:wj為第j個試驗炮的屬性值;nGi為高斯白噪聲因子。式(8)中的λ確定了新樣本類別,由勘探目標及工區(qū)地表地質(zhì)條件等因素確定。
圖5為LJ工區(qū)樣本擴增10倍前后單炮能量與最小優(yōu)勢頻率對比,定義|λ|≤0.20為一級品,0.25<|λ|≤0.50為二級品,0.55<|λ|<1.00為廢炮。圖中橫軸為單炮能量的自然對數(shù)值,縱軸為最小優(yōu)勢頻率(Hz)。需要說明的是,此處出現(xiàn)了0.20~0.25、0.50~0.55的數(shù)據(jù)間隙,這是因為統(tǒng)計分析認為該范圍內(nèi)生成的新樣本存在二義性(即可能為上一級,也可能為下一級)。
圖5 LJ工區(qū)樣本擴增前后單炮能量與最小頻率交會圖
w′p=xi+rand(0,1)×(yk-xi)
(9)
將原始廢炮與二級品樣本結(jié)合(式(9)),比單獨增加新廢炮樣本方式(式(8))更能改善樣本集性能,提高分類效率。
3.4.1 分類建模算法
基于RF單炮記錄分類建模過程如下:
(1)從原始樣本集G1中以樣本放回方式隨機抽取M個樣本組成訓練集G,按如下過程遞歸生成決策樹:
1)從N個地震屬性中采用放回方式隨機抽取K(K 2)在具有K個連續(xù)屬性的M個樣本中求最優(yōu)屬性,以最優(yōu)屬性建立分支節(jié)點; 3)分別判斷分支節(jié)點的左右支樣本集中各樣本的類別標簽(一級品、二級品和廢炮)是否屬同一類,或是葉節(jié)點,如果不是,K=K-1,返回2); (2)重復步驟(1)P次,生成P棵決策樹,形成RF; (3)對于生產(chǎn)炮,遍歷RF的每顆決策樹,統(tǒng)計每棵樹的分類結(jié)果,取最多的類別為該炮類別。 3.4.2 連續(xù)性屬性的分支節(jié)點構(gòu)建 基于RF的單炮記錄分類最基礎也是最重要的工作是分支節(jié)點的建立。 通常,決策樹采用離散值作為節(jié)點,而地震屬性是連續(xù)數(shù)據(jù)。為此,對于由M個樣本組成的訓練集G,若每個樣本只取K個屬性,則G可表示為G={(xi,1,xi,2,…,xi,K,li)|i=1,2,…,M},其中,xi,j為樣本i的第j個屬性,li為樣本炮i的類別標簽。 為了從K個地震屬性中最優(yōu)構(gòu)建決策樹的分支節(jié)點,定義信息增益作為決策樹最優(yōu)屬性的衡量指標。地震屬性j的信息增益定義如下 (10) (11) 式中pk為第k(k=1,2,3)類(分別對應一級品、二級品和廢炮)樣本在樣本集G中的占比。 3.4.3 RF單炮分類建模參數(shù) 決策樹數(shù)目P決定了RF規(guī)模,也體現(xiàn)RF分類性能。理論上,P越大,分類效果越好[25],但計算量會隨之提高。通常,參考樣本擴增后的樣本數(shù)及其屬性數(shù)確定P值,如果這些數(shù)目較多,決策樹的數(shù)目可相對少一些,一般以一百到數(shù)百棵為宜。 僅從決策樹角度看,為減少異常噪聲影響,防止過擬合,需要對決策樹剪枝處理[23,25],利用以下參數(shù)進行預剪枝:最大深度、內(nèi)部節(jié)點劃分所需最小樣本數(shù)和葉節(jié)點最小樣本數(shù),這些參數(shù)的選取和調(diào)整參數(shù)的順序與具體數(shù)據(jù)分布有關,可根據(jù)局部尋優(yōu)方法依次確定[26]。文獻[16,23,25]說明:RF中兩個隨機性(隨機樣本和隨機屬性抽取)的引入使分類算法完全可避免過擬合現(xiàn)象,況且樣本集擴增已采取了多樣性增強措施。但考慮現(xiàn)場計算能力,也可對決策樹通過預剪枝以減少計算量。目前,一些開源實用開發(fā)庫[27]已提供成熟的算法較好地優(yōu)化這些參數(shù),本文不再探討。 3.4.4 單炮記錄RF分類結(jié)果評估 在上述算法中,構(gòu)建所有決策樹使用了P×M個樣本,但其中包含大量相同的樣本。因此,從概率上分析,樣本集中仍有36.8%的樣本未參與訓練[28],可用作驗證樣本。 利用單炮分類正確率(C)和廢炮識別率(R)作為驗證分類標準,其中,后者必須達到對廢炮的完全識別(100%),它們分別定義為 (12) (13) 式中:M5為驗證樣本總數(shù);Uk為驗證樣本經(jīng)RF分類后k類樣本的正確分類數(shù);M6是驗證樣本中的實際廢炮總數(shù);U3是驗證樣本經(jīng)RF分類后正確分類的廢炮數(shù)。 人工智能技術(shù)如今發(fā)展迅速,已建立了多種開源的機器學習平臺、系統(tǒng)、框架、工具包和類庫等。利用Scikit-learn 0.21.2開源庫[25],實現(xiàn)了單炮記錄分類算法,并根據(jù)現(xiàn)場計算機配置自動調(diào)整線程并行數(shù)以提高性能,該算法已集成到M軟件中。 利用中國西部沙漠ZH6J工區(qū)資料進行應用測試,共提取了18種地震屬性,但沒有使用圖4流程中所提的主成分分析法做參數(shù)優(yōu)化。通過樣本增強與吸收生產(chǎn)炮,建立了4500炮的樣本集。在RF模型訓練時,以分類正確率C作為分類泛化能力的檢測依據(jù)。參數(shù)按如下順序調(diào)優(yōu):首先確定決策樹的數(shù)目P使算法穩(wěn)定;再確定決策樹的最大深度和內(nèi)部節(jié)點劃分所需最小樣本數(shù)以控制算法復雜度;然后,聯(lián)合調(diào)試內(nèi)部節(jié)點劃分所需最小樣本數(shù)和葉節(jié)點最小樣本數(shù)以增強決策樹的泛化能力;最后,獲得最大隨機屬性數(shù)K。在完成訓練后對生產(chǎn)炮自動分類,并與人工分類結(jié)果對比,表1是兩次統(tǒng)計結(jié)果。對某天采集的600炮數(shù)據(jù)自動分類,與人工分類結(jié)果相比,正確率達到97.33%,且準確識別出當天全部廢炮。在參數(shù)調(diào)優(yōu)后,對工區(qū)所有56797炮自動分類(已無廢炮),正確率達98.70%。需要指出的是,人工評價與實際分類存在一定誤差。 表1 ZH6J工區(qū)單炮記錄分類結(jié)果統(tǒng)計表 多因素確定性評價模型是地震采集工程現(xiàn)場質(zhì)控的重點內(nèi)容之一,是其他評價模型不可替代的;多元屬性判別分析評價模型設計思路簡明,便于發(fā)現(xiàn)廢炮,適于實時單炮監(jiān)控。以上兩種模型相結(jié)合一般能夠及時發(fā)現(xiàn)異常道、異常排列和廢炮。智能評價模型從眾多已有標簽的樣本及其各類地震屬性中學習,分類方式客觀,可用于實時監(jiān)控單炮質(zhì)量,也可用于單炮的延時分析評估,在標準記錄選擇與閾值設置困難的勘探程度相對較低地區(qū),該模型優(yōu)勢尤其明顯。 以上三種評價模型適用于不同地震采集方式。海上或過渡帶、多波多分量地震資料等有其獨特性,主要體現(xiàn)在地震數(shù)據(jù)記錄方式,可根據(jù)各自的特點首先進行資料預處理,然后采用上述模型分類處理。例如,雙檢單炮記錄包含了陸檢和水檢分量,需把單炮記錄解編為陸檢和水檢單炮數(shù)據(jù)結(jié)構(gòu)后[28],再分別建模分類。 影響海量地震數(shù)據(jù)采集實時質(zhì)控的因素主要包括網(wǎng)絡傳輸速率、單炮數(shù)據(jù)解編與屬性提取、分類評價等。實驗表明,目前決定實時質(zhì)控效率的關鍵是傳輸。例如,10萬道接收的單炮若采用7s長度和1ms采樣,以SEGD格式存儲單炮數(shù)據(jù)量約為2.6GB,若采用野外較通用的千兆網(wǎng)傳輸,該單炮數(shù)據(jù)傳輸與存儲約耗時31.32s;若采用先進的光纜傳輸與高效的固態(tài)硬盤存儲大約需要5.9s。因此,應專門研究這種瞬時大數(shù)據(jù)流和持續(xù)大數(shù)據(jù)量的數(shù)據(jù)傳輸與存儲模式,以適應實時質(zhì)控需求。 不同于數(shù)據(jù)傳輸受限于網(wǎng)絡和硬盤讀寫等物理因素,單炮數(shù)據(jù)解編與屬性提取采用內(nèi)存映射、多線程并行等綜合優(yōu)化技術(shù)后實際數(shù)據(jù)處理能力顯著提升[29],耗時主要在時間域到頻率域變換過程。就單純的單炮記錄分類模型而言,多因素確定性評價模型耗時主要在一些定量化分析上[30];多元屬性判別分析模型主要耗時在區(qū)域劃分和標準記錄的選取,生產(chǎn)炮分類時僅僅是指定屬性門檻值的比對。上述兩類模型耗時幾乎都在毫秒數(shù)量級。而智能評價模型耗時主要在分類建模階段,由于需要反復建模與驗證,一般可在采集試驗后完成,但評價模型一旦建立,實際生產(chǎn)炮的分類可在秒內(nèi)完成。 總之,在時效性方面,單炮傳輸時間在數(shù)秒到十數(shù)秒,甚至數(shù)十秒,解編和屬性提取一般2s內(nèi)可完成,而分類過程不到1s。 多因素確定性評價模型與各種變形的基于多元屬性判別分析的單炮評價模型,已在地震采集工程現(xiàn)場質(zhì)量監(jiān)控中發(fā)揮了重要作用。不過,多元屬性判別分析模型所基于的標準記錄與閾值定義主觀性太強,三級判別更加困難。人工智能單炮評價方法匯集以往的勘探成果,利用試驗炮和廢炮擴充樣本,既保持了各炮的獨立性,又增加了樣本的多樣性,提高了樣本集的整體性能,彌補了不平衡樣本集可能帶來的較大分類誤差;基于RF的單炮記錄分類建模利用兩個隨機性引入,避免了人工智能最易出現(xiàn)的過擬合問題,增強了算法的穩(wěn)定性,且該模型計算過程易于高度并行化處理,評價結(jié)果客觀,適用于海量地震采集現(xiàn)場質(zhì)量監(jiān)控。 地震采集是復雜的系統(tǒng)工程,利用人工智能對地震資料品質(zhì)評價需要綜合考慮各方面的因素,原始樣本庫建設、模型分類效果評價[31]及其物理解釋等是下一步研究方向。 特別感謝中石化石油工程地球物理有限公司勝利分公司石翠翠女士,為本文研究提供了RF單炮分類實驗結(jié)果。3.5 模型在ZH6J工區(qū)應用及效果
4 模型關系及其適應性與時效性
5 結(jié)論及認識