蔣海昆 王錦紅
摘要:基于1970—2021年中國大陸及邊鄰地區(qū)地震目錄、地震序列目錄和歷史地震震源機制資料,參考以往研究和震后趨勢預(yù)測實踐,構(gòu)建基于地震觀測數(shù)據(jù)的機器學(xué)習(xí)序列類型判定特征樣本數(shù)據(jù)集。基于地震序列分類,設(shè)置多震型、主余型、孤立型3類樣本標(biāo)簽,初步提出44個可用于機器學(xué)習(xí)地震序列類型判定的備選特征,包括主震及震源機制相關(guān)參數(shù)、歷史地震序列類型、序列衰減和G-R關(guān)系相關(guān)參數(shù)、震級及頻次相關(guān)參數(shù)。以44個備選特征為基礎(chǔ),變換震級下限、統(tǒng)計時段等參數(shù),可以擴充出更多的機器學(xué)習(xí)備選特征?;谔卣髋c標(biāo)簽之間的關(guān)聯(lián)特性,評估特征對序列分類的重要性。宏觀來看,震級相關(guān)參數(shù)、G-R關(guān)系和序列衰減相關(guān)參數(shù)、歷史地震序列類型、震源機制相關(guān)參數(shù)等特征對序列分類有貢獻,其中震級相關(guān)參數(shù)特征與標(biāo)簽之間的互信息值明顯較大且排序穩(wěn)定。補齊缺失特征不但能夠增加可用的訓(xùn)練和檢驗樣本,還可明顯提升特征與序列類型之間的關(guān)聯(lián)性,這意味著恰當(dāng)?shù)臄?shù)據(jù)預(yù)處理在一定程度上有可能提高特征的序列分類能力。添加原始數(shù)據(jù)的交互特征是拓展可用特征數(shù)量的重要方式之一,非獨立特征經(jīng)信息交互處理之后顯示出與序列標(biāo)簽更強的關(guān)聯(lián)性,這意味著特征選擇應(yīng)以模型預(yù)測效能的綜合評價結(jié)果為準(zhǔn),不宜過分強調(diào)特征參數(shù)的獨立性。
關(guān)鍵詞:地震序列類型;機器學(xué)習(xí);特征;互信息
中圖分類號:P315.7?? 文獻標(biāo)識碼:A?? 文章編號:1000-0666(2023)02-0155-18
doi:10.20015/j.cnki.ISSN1000-0666.2023.0034
0 引言
正確的震后趨勢預(yù)測,是破壞性地震發(fā)生后政府和社會最為關(guān)心的問題,是地震應(yīng)急、抗震救災(zāi)和恢復(fù)重建的重要決策依據(jù)之一。震后趨勢預(yù)測的目的是強余震震級估計,最主要的技術(shù)手段是地震序列類型判定?;跉v史地震類比和序列參數(shù)計算的地震序列類型判定,是當(dāng)前廣泛采用并且還將長期發(fā)揮作用的主要余震預(yù)測方法(陳立德等,1992;蔣海昆等,2015)。已有研究顯示,不同參數(shù)對序列類型具有或多或少的分辨能力,但從嚴(yán)格的統(tǒng)計檢驗結(jié)果來看,單參數(shù)序列類型識別正確率并不十分理想(蔣海昆等,2006a):一是實際序列參數(shù)數(shù)值分布較為離散,即使同一類型的地震序列,也有較為離散的序列參數(shù)數(shù)值分布范圍;二是部分參數(shù)最優(yōu)分類標(biāo)準(zhǔn)與主震震級、震后持續(xù)時間等因素有關(guān);三是單參數(shù)預(yù)測為主,不同參數(shù)對同一個序列的判定結(jié)論經(jīng)常出現(xiàn)矛盾,因而序列類型判定較多地依賴于“統(tǒng)計+經(jīng)驗”的方法以及研究者的經(jīng)驗和能力。還有非常重要的一點是,當(dāng)前的序列類型判定方法對多震型地震和前震幾乎沒有序列類型甄別能力(蔣海昆,周少輝,2020),而多震型和前震型地震又屬于可能導(dǎo)致更嚴(yán)重災(zāi)害的地震序列類型。
機器學(xué)習(xí)(machine learning)是人工智能的重要組成部分,近年來以機器學(xué)習(xí)和深度學(xué)習(xí)為代表的基于大數(shù)據(jù)的人工智能技術(shù)飛速發(fā)展,通過數(shù)據(jù)驅(qū)動的技術(shù)手段,在樣本分類、指標(biāo)提取、綜合決策等方面提供了許多新的工具,在疾病診斷、圖像識別、自然語言處理、精準(zhǔn)服務(wù)、虛擬體驗等實際應(yīng)用場景取得許多突破。在地震預(yù)測領(lǐng)域,尤其是針對固定區(qū)域、固定時間窗內(nèi)可能發(fā)生地震的震級預(yù)測方面,也已有許多探索,具體可參見Mignan和Broccardo(2020)、Al Banna等(2020)、Mousavi 和Beroza(2022)以及王錦紅和蔣海昆(2023)的綜述。但目前專門針對序列類型判定及余震預(yù)測的機器學(xué)習(xí)研究尚不多見(王錦紅,蔣海昆,2023),因而針對現(xiàn)有主要基于單參數(shù)、以及“統(tǒng)計+經(jīng)驗”為主的序列后續(xù)趨勢預(yù)測模式存在的不足,同時考慮更多的影響因素(特征),采用人工智能等新技術(shù)對序列類型進行多因素的綜合判定,是研究者始終持續(xù)探索的一條途徑(韓渭賓等,1993;蔡立冬等,1994;周翠英等,1996;莊昆元等,2001;蔣海昆等,2007a;李冬梅等,2013)。從另一個角度來看,序列類型判定從技術(shù)上屬于分類問題,而“分類”正是機器學(xué)習(xí)的長項。
機器學(xué)習(xí)是利用計算機基于歷史數(shù)據(jù)(經(jīng)驗),建立某種模型(規(guī)律),并據(jù)此預(yù)測未來的一種方法或手段(趙志勇,2018),與人類思考和經(jīng)驗總結(jié)過程有些類似,但它能顧及更多的情形,執(zhí)行更為復(fù)雜的計算。機器學(xué)習(xí)需要基于歷史數(shù)據(jù)對模型進行訓(xùn)練,訓(xùn)練的結(jié)果被用來對新數(shù)據(jù)進行預(yù)測,這個結(jié)果即模型。訓(xùn)練與預(yù)測是機器學(xué)習(xí)的兩個過程,模型則是過程的中間輸出結(jié)果。機器學(xué)習(xí)中的訓(xùn)練與預(yù)測可粗略對應(yīng)于人類思維活動的歸納和推測,這與震后趨勢預(yù)測領(lǐng)域當(dāng)前主流的“統(tǒng)計+經(jīng)驗”的預(yù)測模式有些類似。
有監(jiān)督學(xué)習(xí)是最為常見的機器學(xué)習(xí)算法,它使用標(biāo)記良好的訓(xùn)練數(shù)據(jù)進行模型訓(xùn)練,目的是找到一個映射函數(shù)來映射輸入變量(特征)和輸出變量(標(biāo)簽)之間的關(guān)系。所謂標(biāo)簽,即樣本的分類屬性,在地震序列類型判定中即是常用的多震型、主余型、孤立型等序列類型。所謂特征即用于機器學(xué)習(xí)的樣本的特性,以往地震序列類型判定中用到的歷史地震活動、序列衰減、G-R關(guān)系等均屬機器學(xué)習(xí)樣本數(shù)據(jù)集中的特征類數(shù)據(jù)。監(jiān)督學(xué)習(xí)包含樣本數(shù)據(jù)集構(gòu)建、數(shù)據(jù)集拆分、模型選擇和訓(xùn)練、外推預(yù)測等4個主要步驟,其中樣本數(shù)據(jù)集構(gòu)建是機器學(xué)習(xí)最重要的基礎(chǔ),對諸如地震預(yù)測這一類機理不明、單項特征與標(biāo)簽之間關(guān)系不唯一的分類任務(wù),如何確定訓(xùn)練數(shù)據(jù)集的輸入特征,是機器學(xué)習(xí)數(shù)據(jù)準(zhǔn)備的最重要工作。機器學(xué)習(xí)應(yīng)用大多與大數(shù)據(jù)高度關(guān)聯(lián),各種不同模型或算法在輸入的數(shù)據(jù)量達到一定量級后,都有相近的準(zhǔn)確度https://www.cnblogs.com/subconscious/p/4107357.html.,這也是機器學(xué)習(xí)領(lǐng)域推崇“數(shù)據(jù)為王”的重要原因https://hellofuture.orange.com/en/towards-a-less-data-and-energy-intensive-ai/.。樣本數(shù)量、數(shù)據(jù)質(zhì)量、對實際場景的覆蓋程度以及特征與標(biāo)簽之間的關(guān)聯(lián)性,都會影響到學(xué)習(xí)和訓(xùn)練的效果(王東,2021)。
綜上,作為機器學(xué)習(xí)模型訓(xùn)練的基礎(chǔ),本文將基于1970—2021年中國大陸地震目錄和歷史地震、震源機制等資料,針對序列類型判定這一目的,構(gòu)建樣本數(shù)據(jù)集;討論數(shù)據(jù)集備選特征與標(biāo)簽之間的統(tǒng)計關(guān)聯(lián)特性,給出推薦的樣本數(shù)據(jù)特征參數(shù)集合,構(gòu)建適用于不同應(yīng)用場景、具有較高預(yù)測準(zhǔn)確性及泛化能力的序列分類模型。
1 地震數(shù)據(jù)及樣本標(biāo)簽
1.1 地震數(shù)據(jù)
依據(jù)中國地震臺網(wǎng)統(tǒng)一地震目錄http://data.earthquake.cn/data/.,1970—2021年中國大陸及邊鄰地區(qū)(國界線外擴10 km)共記錄到MS≥5.0地震1 336次,依據(jù)余震破裂范圍(Wells,Coppersmith,1994)及余震活動持續(xù)時間(Lolli,Gasperini,2003)甄別并刪除其中的余震。刪除余震后有MS≥5.0地震902次,其中5.0~5.9級722次、6.0~6.9級153次、7.0~7.9級25次、8.0級以上地震2次。以0.5級為間隔的地震頻次統(tǒng)計結(jié)果如表1第II行所列。地震主要分布于南北地震帶、青藏地塊、新疆天山地震帶和西昆侖地震帶,大陸東部地震主要分布于華北、東北地區(qū)?;谥袊卣鹋_網(wǎng)統(tǒng)一地震目錄,采用時-空距離方法(Wells,Coppersmith,1994;Lolli,Gasperim,2003)構(gòu)建MS≥5.0地震的序列目錄,其中204個川滇及附近區(qū)域地震的序列目錄直接采用趙小艷等人工整理的序列目錄趙小艷.2022.地震預(yù)測開放基金(2021)結(jié)題報告——“基于決策樹的西南地區(qū)中強地震序列類型判定研究”.。
1.2 樣本標(biāo)簽
針對地震序列類型判定的機器學(xué)習(xí)樣本數(shù)據(jù)集,序列類型即是樣本標(biāo)簽。國外通常把地震序列類型分為主余型(mainshock-aftershock)、震群型(swarm)或多震型(multiplets/multievents)(Utsu,2002;Felzer et al,2004),著重序列顯著特征的定性描述,但缺乏定量的分類標(biāo)準(zhǔn)。我國由于余震預(yù)測的實際需要,從定量的角度以序列中最大地震釋放的能量Emax占全序列釋放能量Etotal之比RE=Emax/Etotal進行序列類型劃分(周惠蘭等,1980),這種分類方式物理含義清晰,但序列活動未結(jié)束之前無法計算全序列釋放的能量。另一種更為簡潔的序列類型劃分是基于序列最大與次大地震的震級差ΔM=M0-M1來進行(吳開統(tǒng),1971),其中M0、M1分別為序列最大與次大地震的震級。上述兩種序列分類方法在一定的簡化假設(shè)條件下等價(蔣海昆等,2006b)。在實際序列跟蹤及強余震預(yù)測中,由于難以明確判斷后續(xù)類似大小地震究竟是兩次(雙震型)還是兩次以上(震群型),因而一般把雙震型、震群型合稱為“多震型”(Felzer et al,2004)。因而,在我國實際地震序列類型判定工作中一般依據(jù)震級差ΔM將余震序列分為多震型(-0.6<ΔM<0.6)、主余型(0.6<ΔM<2.4)、孤立型(ΔM>2.4)3類(蔣海昆等,2006c,2015)??紤]到與當(dāng)前業(yè)務(wù)工作的銜接,本文服務(wù)于機器學(xué)習(xí)序列類型判定的樣本數(shù)據(jù)集標(biāo)簽(序列類型)仍基于序列主震與序列后續(xù)最大地震震級差ΔM=M0-M1確定。
需要說明的是,部分地震序列主震前短時間內(nèi)震源區(qū)會有震級小于主震的地震發(fā)生,即前震活動。全球不同區(qū)域的研究結(jié)果顯示大約10%~40%的中強以上地震伴隨有前震活動(陳颙,1980;Jones,Molnar,1979;朱傳鎮(zhèn),王琳瑛,1989;Reasenberg,1999;李振,王輝,2011;薛艷等,2012),且前震檢出率隨地震監(jiān)測能力的提升似有增加的趨勢(Trugman,Ross,2019)。籠統(tǒng)而言,主震前短時間內(nèi)震源區(qū)震級小于主震的地震均可稱為前震(蔣海昆,周少輝,2020),但為與廣泛使用的多震型序列(-0.6<ΔM<0.6)相區(qū)分,可約定符合ΔM≤-0.6的地震序列為前震序列。由于本文目的是為中強地震震后趨勢判定構(gòu)建機器學(xué)習(xí)樣本數(shù)據(jù)集,目標(biāo)地震(序列主震)均為M0≥5.0地震,因而即使考慮前震,所涉地震序列中符合主震M0≥5.0且震級差ΔM≤-0.6的樣本集也僅有17例。由于前震型、多震型均屬后續(xù)地震危險性較大的序列類型(前震型后續(xù)存在發(fā)生比主震更大地震的危險,多震型后續(xù)存在發(fā)生與主震同等大小地震的危險),加之本文前震型樣本數(shù)量較少,因而合并前震序列與多震型為一類,暫且仍稱為“多震型”序列。
據(jù)此,本文地震序列類型標(biāo)簽確定標(biāo)準(zhǔn)為:①多震型:ΔM<0.6(包含以往提及的雙震型、震群型及前震序列);②主余型:0.6≤ΔM≤2.4;③孤立型:ΔM>2.4。
基于地震序列資料計算主震與最大余震震級差ΔM=M0-M1,依據(jù)上述地震序列標(biāo)簽確定標(biāo)準(zhǔn),確定表1第II行所列902個地震的樣本標(biāo)簽,其中181個樣本由于余震區(qū)后續(xù)無余震記錄而無法分辨序列類型,這些無法分辨序列類型的地震主要分布于西藏、青藏交界、新藏交界、青新交界等地震監(jiān)測能力較弱的區(qū)域,還包括1999年4月8日、2002年6月29日吉林汪清2次7.2級深源地震以及該區(qū)域的幾次6級深源地震。對721個可以確定序列標(biāo)簽(序列類型)的樣本,分序列類型及不同震級區(qū)間的地震頻次統(tǒng)計如表1第III~V行所列??偟膩砜炊嗾鹦汀⒅饔嘈?、孤立型分別約占15.5%、59.8%和24.7%,主余型和孤立型合計約占84.5%,與前人78%~87%的統(tǒng)計結(jié)果(吳開統(tǒng)等,1990;蔣海昆等,2006;蘇有錦等,2014)基本一致。后續(xù)研究中將無余震記錄從而無法確認(rèn)序列類型的181個樣本(表1第VI行)統(tǒng)一歸并為“孤立型”,之所以如此處理,是因為它們都具有后續(xù)都無顯著余震發(fā)生這一共同的特點。最終,本文數(shù)據(jù)集樣本特征標(biāo)簽分為多震型、主余型和孤立型3類,3類樣本數(shù)據(jù)集G-R關(guān)系b值分別為(0.73±0.030)、(0.77±0.046)和(1.04±0.075)(圖1),可見多震型、主余型樣本中不同震級地震比例基本一致,孤立型樣本中低震級地震明顯較多。
2 備選特征數(shù)據(jù)集構(gòu)建
2.1 現(xiàn)有地震序列類型判定方法
研究顯示,構(gòu)造和介質(zhì)不均勻性以及應(yīng)力水平對地震序列類型有重要影響(Mogi,1962;Takayuki,Hirata,1987;Chen,Knopoff,1987;Ben-Zion,James,1993;Ban-Zion,Lyakhovsky et al,2005;Somerville et al,1999;蘇有錦等,1999;Yamanaka,Kikuchi,2004;Kanamori,Brodsky,2004;蔣海昆等,2006b;Aochi,Ide,2009;Marone,Richardson,2016;曲均浩等,2015)。迄今為止尚無完全準(zhǔn)確、普適的序列類型判定方法,當(dāng)前使用較多的主要有定性類比和定量計算兩類。震后早期,序列數(shù)據(jù)尚少,一般只能基于構(gòu)造及歷史地震活動定性類比的方法來判斷序列類型;隨著序列地震數(shù)據(jù)逐漸增多,基于地震目錄的序列參數(shù)計算結(jié)果被用于序列類型判定,依據(jù)震后不同時段序列參數(shù)變化特征,對序列類型進行定性(變化趨勢)或定量(參數(shù)統(tǒng)計指標(biāo))的判定,例如大森公式p值、h值,G-R關(guān)系b值,歸一化能量熵,地震震級、頻次和應(yīng)變等參數(shù)的變化。
基于地震目錄的統(tǒng)計地震學(xué)方法在當(dāng)前地震序列類型判定中發(fā)揮著不可替代的作用,而基于數(shù)字地震記錄的研究結(jié)果也得到越來越多的應(yīng)用。例如震源機制一致性和波形相似性方法就被廣泛提及(陳颙,1980;Wiemer,Wyss,2002;王俊國,刁桂苓,2005),但不同研究者得到的認(rèn)識有一定差異(崔子健等,2012;黃浩,付虹,2014)。由于應(yīng)力降與震后斷層面上的剩余應(yīng)力水平有關(guān),因而應(yīng)力降或視應(yīng)力也被嘗試用于序列類型判定(陳學(xué)忠等,2003;鐘羽云等,2004;秦嘉政等,2005)、余震區(qū)應(yīng)力水平估計及強余震預(yù)測(杜迎春,2000;Baltay et al,2011;王培玲等,2013;周少輝,蔣海昆,2017)。需要指出的是,盡管基于地震波的方法因其能夠直接獲得震源或路徑信息而受到重視,但到目前為止,要給出地震序列類型的定量判據(jù)仍十分困難,難點首先在于從理論上無法給出不同類型序列“應(yīng)該”具有的震源特征,仍然只能采用震例統(tǒng)計的方式進行分析,而這又由于已研究樣本有限使得結(jié)果欠缺統(tǒng)計顯著性(Abercrombie,1995;Ide,Beroz,2001;Allman,Shearer,2009),加之中小地震應(yīng)力降或視應(yīng)力等震源參數(shù)隨震級變化(Dysart et al,1988;Trifu,Radulian,1989;吳忠良等,1999;趙翠萍等,2011;華衛(wèi)等,2012;周少輝,蔣海昆,2017),更是帶來了諸多的不確定性。因而,本文備選特征未包含基于數(shù)字地震記錄計算的這些震源或介質(zhì)參數(shù)。
2.2 備選特征
參考現(xiàn)有地震序列類型判定參數(shù)和方法,用于機器學(xué)習(xí)地震序列類型判定的備選特征見表2,主要依據(jù)參數(shù)來源細(xì)分為8類44個備選特征。
(1)主震相關(guān)參數(shù)(表2特征1~3)
余震活動強度與主震大小定性正相關(guān),因而余震活動水平與主震大小直接關(guān)聯(lián)(Bth,1965;Helmstetter,Sornette,2003;alohar,2014)。序列類型具有一定的區(qū)域特征(刁守中等,1995;王華林等,1997;郭大慶等,1998;蔣海昆等,2006b),結(jié)合區(qū)域及發(fā)震構(gòu)造特征的歷史地震活動類比,可在一定程度提供序列類型判定的參考依據(jù)。因而,開展序列類型判定備選特征選擇應(yīng)考慮主震空間位置即經(jīng)、緯度參數(shù)的影響。
(2)主震震源機制相關(guān)參數(shù)及相對于附近區(qū)域平均應(yīng)力場的偏差(表2特征4~19)
地震序列類型與構(gòu)造運動或主震破裂形式有一定關(guān)系(陳颙,1980;秦保燕,劉武英,1992;Reasenberg,1999;蘇有錦等,1999;蔣海昆等,2006b;張國民等,2010),因而主震震源機制相關(guān)參數(shù)(表2特征4~11)被納入作為機器學(xué)習(xí)的備選特征。考慮導(dǎo)致地震破裂的應(yīng)力場特征,主震附近區(qū)域平均P軸方位角、傾角及其標(biāo)準(zhǔn)差(表2特征12~15),主震P軸方位角和傾角相對于區(qū)域平均結(jié)果的偏差及離散程度(表2特征16~19)也一并納入作為機器學(xué)習(xí)的備選特征。此處的“平均結(jié)果”來源于主震附近區(qū)域以往地震相關(guān)參數(shù)的統(tǒng)計,“附近區(qū)域”是以主震為圓心、以R為半徑的圓域,R與震級MW相關(guān),可粗略地認(rèn)為等同于主震破裂尺度(Wells,Coppersmith,1994):
R=10Mw-5.081.16+10(1)
式(1)右側(cè)加10為考慮定位誤差而人為增加的一個常量(單位:km)。震級標(biāo)度MS與MW之間采用下式進行粗略轉(zhuǎn)換(Giacomo et al,2015):
MW=e(-0.222+0.233MS)+2.863(2)
(3)主震附近區(qū)域歷史地震序列類型相關(guān)參數(shù)(表2特征20~22)
基于與歷史地震序列類型的定性類比,是當(dāng)前最主要的序列類型判定手段之一(蔣海昆等,2015),表2第20~22行分別為主震附近半徑為R的圓域范圍內(nèi)、震級MS≥x地震序列中,多震型、主余型及孤立型所占的比例。與主震震級相關(guān)的R由式(1)(2)計算得到,歷史地震序列類型基礎(chǔ)數(shù)據(jù)來源于當(dāng)前正在實時運行并準(zhǔn)實時更新的CAAFs系統(tǒng)基礎(chǔ)數(shù)據(jù)(劉珠妹等,2019)。
(4)序列衰減相關(guān)參數(shù)(表2特征23~29)
序列衰減是余震活動的最主要特征,修改的大森公式n(t)=K(t+c)-p是對余震衰減的最經(jīng)典描述,衰減系數(shù)p分布在0.6~2.5之間,均值為1.1(Utsu et al,1995;Freed,Lin,2001;Scholz,2002;Lyakhovsky et al,2005;賈若,蔣海昆,2014)。p值與區(qū)域地殼介質(zhì)狀況有關(guān)(Creamer,Kisslinger,1993;Rabinowitz,Steinberg,1998;Jones,Craven,1990;曲均浩等,2015),余震衰減還受控于應(yīng)力狀態(tài)(Narteau,2009)。在修改的大森公式基礎(chǔ)上,劉正榮等(1979)、劉正榮和孔紹麟(1986)提出的 h值方法,在余震跟蹤預(yù)測中發(fā)揮著重要作用。因而,本文為機器學(xué)習(xí)序列類型判定而構(gòu)建的備選特征數(shù)據(jù)集中包含了大森公式相關(guān)參數(shù)的計算結(jié)果(表2特征23~29)。其中特征23為大森公式衰減系數(shù)p值;特征24、25分別為指定時段基于修改的大森公式計算的完備震級以上的理論地震頻次與 實際地震頻次之差的絕對值及標(biāo)準(zhǔn)差,兩者共同表征了修改的大森公式與實際地震頻次變化的貼合程度;特征26為指定時段單位時間折合震級的線性衰減速率(假定為線性衰減),特征27為折合震級線性衰減縱軸截距(ML),特征28、29分別為實際折合震級與線性衰減理論折合震級之差絕對值的平均值及標(biāo)準(zhǔn)差,三者間接表征了序列應(yīng)變能釋放時間衰減特征,以及理論預(yù)期相對于實際的偏差。
(5)G-R關(guān)系相關(guān)參數(shù)(表2特征30~35)
完整地震序列的震級-頻度關(guān)系遵循G-R關(guān)系LogN=a-bM,比例系數(shù)b值介于0.6~1.1之間,與構(gòu)造及背景應(yīng)力狀態(tài)有關(guān)(Utsu,2002)。G-R關(guān)系相關(guān)參數(shù)是機器學(xué)習(xí)地震預(yù)測研究中使用最為廣泛的一類參數(shù)(王錦紅,蔣海昆,2023)。表2特征30、31為MLE方法計算的G-R關(guān)系比例系數(shù)b值及標(biāo)準(zhǔn)差;特征32、33為G-R關(guān)系比例系數(shù)a值及標(biāo)準(zhǔn)差(Gulia,Wiemer,2019);特征34為基于G-R關(guān)系外推的最大余震震級,即依據(jù)b值截距方法(國家地震局科技監(jiān)測司,1990;劉正榮,1995;Shcherbakov et al,2013)估計的最大余震震級,這在當(dāng)前最大余震震級預(yù)測中發(fā)揮著重要作用。已有研究顯示,震后足夠長時間之后,序列G-R關(guān)系外推最大余震震級逐漸趨近于真實的最大余震震級(蘇有錦等,2014);特征35為序列主震震級與G-R關(guān)系外推最大余震震級之差的絕對值。
(6)歸一化能量熵(表2特征36)
歸一化能量熵是描述地震序列能量分配均勻程度的一個統(tǒng)計量,反映了序列地震能量分配均勻程度隨時間的變化(朱傳鎮(zhèn),王琳瑛,1989;王琳瑛,舒曦,1997)。余震序列性質(zhì)判定單參數(shù)判據(jù)的統(tǒng)計研究顯示,歸一化能量熵具有相對較強的序列分類能力(蔣海昆等,2006a)。
(7)序列地震震級相關(guān)參數(shù)(表2特征37、38)
余震活動強度與主震大小定性正相關(guān),早期一般認(rèn)為主震與最大余震震級差ΔM是一個與主震震級無關(guān)的常數(shù)(平均約為1.2;Bth,1965)。進一步的研究顯示,Bth定律并不嚴(yán)格適合所有余震序列,實際ΔM介于0~3之間,受震源機制、震源深度、序列類型、區(qū)域構(gòu)造特征、斷層之間相互作用等多種因素的影響(Kisslinger,Jones,1991;Helmstetter,Sornette,2003;蔣海昆等,2006c,2015;蘇有錦等,2014;alohar,2014;Rodríguez-Pérez,Zúiga,2016;Apostol,2021),這意味著同等強度主震的余震活動水平可以明顯不同。在實際預(yù)測應(yīng)用方面,Shcherbakov 等(2013)、Shcherbakov和Turcotte(2004)提出改進的Bth定律并引入推定最大余震震級對最大余震震級進行估算;也有研究利用主震震級、余震分布尺度等參數(shù)之間的統(tǒng)計關(guān)系(蔣海昆等,2007c;呂曉健等,2010)、震級差(劉蒲雄等,1996)等來對最大余震震級進行估計?;谝陨涎芯?,表2特征37、38分別為指定時段最大余震震級、序列主震與該最大余震震級差的絕對值。隨震后時間的推移,特征37將趨近于序列最大余震,特征38會趨近于序列主震與序列最大余震震級差ΔM,而ΔM是序列標(biāo)簽的確定依據(jù)。
(8)序列地震頻次相關(guān)參數(shù)(表2特征39~44)
已有研究顯示,震后不同時段小震頻次(王志東等,1982;陳榮華等,1994)及應(yīng)變釋放(戴英華等,1990)特征一定程度上含有序列的分類信息。據(jù)此,表2特征39~41分別為震后指定時段ML≥x小震的累積頻次、日均頻次及相對于震后首日的歸一化頻次;特征42~44分別為ML≥x小震的平均震級、平均震級標(biāo)準(zhǔn)差和折合震級,兩者分別從小震頻次和震級/應(yīng)變釋放的角度,反映指定時段余震活動的平均水平以及震級分布的離散程度。
3 基于互信息的特征重要性評估
3.1 特征數(shù)據(jù)概況
根據(jù)前人提出的序列類型判定方法或參數(shù),本文分8類列出44個備選特征,自特征23之后所有基于地震序列目錄計算的參數(shù)中,指定時段可包含一系列震后不同的統(tǒng)計時段,特征20~22中x亦可取不同的震級下限,如此可得到多個組合備選特征,分別對應(yīng)震后不同時段震中附近區(qū)域MS≥x地震樣本中,多震型、主余型及孤立型所占的比例。同樣,特征39~43中涉及的震級下限x,在保證數(shù)據(jù)基本完備的情況下也可取如ML3.0、ML3.5等多個數(shù)值。因而,以上述44個備選特征為基礎(chǔ),可以擴充出更多的機器學(xué)習(xí)備選特征。具體到本文,針對表1中所列902次MS≥5.0地震樣本,以震后3天資料為例,計算表2所列44個參數(shù),構(gòu)建包含902個樣本的機器學(xué)習(xí)樣本集,每個樣本包含44個備選特征。為簡單起見,特征20~22僅考慮x=MS5.0的情形,即僅使用震中附近區(qū)域MS≥5.0地震多震型、主余型及孤立型所占的比例;特征39~43中僅考慮x=ML3.0的情形。
44個備選特征中,特征23之后的序列參數(shù)計算要求一定的樣本量,加之由于地震監(jiān)測能力的差異,部分早期地震序列以及發(fā)生在青藏高原監(jiān)測能力較低區(qū)域的地震,有些特征參數(shù)無法給出計算結(jié)果。由44個備選特征的數(shù)據(jù)缺失情況統(tǒng)計可見(圖2),主震參數(shù)及主震附近區(qū)域歷史地震相關(guān)參數(shù)的完備性相對較高,達98%;涉及主震震源機制的相關(guān)參數(shù),特征完備性接近70%;涉及統(tǒng)計時段震級差或震級相關(guān)參數(shù)的特征,特征完備性接近60%;修改的大森公式及G-R關(guān)系相關(guān)參數(shù),特征完備性僅及32%。圖2中108Lab2為序列標(biāo)簽。
機器學(xué)習(xí)算法一方面期望有盡可能多的特征用于序列分類,另一方面過高的特征維度又可能導(dǎo)致維度災(zāi)難的發(fā)生。對高維向量的降維處理,不僅能顯著降低運算和存儲開銷,還有利于提高模型訓(xùn)練效率、提高分類效果(楊秋良等,2021)。特征降維的主要依據(jù)是特征重要性,主要有特征選擇和特征抽取兩大類算法,其中特征選擇由于計算復(fù)雜度較低而被廣泛采用(劉健,張維明,2008)。盡管諸如決策樹、隨機森林等機器學(xué)習(xí)算法本身就包含有相關(guān)的特征重要性評估(Breiman,2001;趙志勇,2018),但有研究表明,機器學(xué)習(xí)模型默認(rèn)的特征重要性更“偏好”連續(xù)型的類型變量,因為連續(xù)型的類型變量在樹節(jié)點上更容易找到切分點,換言之更容易過擬合從而得到“好”的訓(xùn)練模型(Strobl et al,2007)。
本文不涉及具體的機器學(xué)習(xí)模型,僅從特征與分類標(biāo)簽之間相關(guān)性的角度,通過互信息方法展示和討論上述備選特征對地震序列分類的重要性,為后續(xù)實際模型選擇或訓(xùn)練提供參考。
3.2 互信息計算
在概率論和信息論中,互信息可用于表征隨機變量之間的相互依賴或相關(guān)性程度,其基礎(chǔ)是信息熵。信息熵是系統(tǒng)不確定性或復(fù)雜性的一種度量,早在20世紀(jì)40年代即已提出。假設(shè)隨機變量X={x1,x2,…,xn}的概率分布為p(x),則X的信息熵定義為:
H(X)=-∑x∈Xp(x)logp(x)(3)
信息熵H(X)越大,信息量越大、系統(tǒng)越復(fù)雜。
若隨機變量X和Y={y1,y2,…,yn}服從聯(lián)合分布P(X,Y), Y的概率分布為p(y), 則X和Y的聯(lián)合熵表示為(Cai et al,2018):
H(X,Y)=-∑x∈X∑y∈Yp(x,y)logp(x,y)(4)
式中:H(X,Y)表示多個隨機變量信息量的總和。
給定X變量的條件下,Y的不確定程度由條件熵H(X│Y)表示https://blog.csdn.net/qq_40765537/article/details/114838485.:
H(Y│X)=-∑x∈Xp(x)∑y∈Yp(x,y)logp(x,y)(5)
對于兩個隨機變量X和Y,互信息熵(簡稱互信息MI,Mutual Information)定義為(李欣倩等,2022)https://zhuanlan.zhihu.com/p/128091167.:
I(X;Y)=H(Y)-H(Y│X)=∑x∈X∑y∈Yp(x,y)logp(x,y)p(x)p(y)(6)
互信息值I(X;Y)用于衡量變量之間的依存關(guān)系,具體描述兩組變量之間的信息共享及相互依賴程度(徐洪峰,孫振強,2019)。換言之,MI可用于確定X中所含Y的信息量,或在X已知時確定Y所減少的不確定性(李欣倩等,2022)。在機器學(xué)習(xí)特征工程中,常用MI來度量特征與標(biāo)簽之間的相關(guān)性強弱,即討論特征對標(biāo)簽分類(categorical)的重要性。X和Y完全無關(guān)或相互獨立時I(X;Y)=0; 反之I(X;Y)值越大,表示該特征與樣本標(biāo)簽之間的相關(guān)性越強(周志華,2016)https://blog.csdn.net/weixin_46072771/article/details/106188753.。利用scikit-learn庫https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html.基于k最近鄰居距離方法計算互信息值(Kraskov et al,2004;Ross,2014),最近鄰居數(shù)取缺省值k=3。
3.3 基于互信息的特征重要性評價及相關(guān)問題討論
3.3.1 基于互信息的特征重要性
作為地震序列類型判定的依據(jù),特征與序列類型(標(biāo)簽)之間的相關(guān)性強弱,是衡量特征重要性的重要指標(biāo)。圖3給出特征與類型之間的互信息計算結(jié)果,從下往上為互信息值從大到小的排序,表征相關(guān)性由高到低,亦可理解為各特征對序列分類重要性由大到小的排序。由于序列資料的限制,許多樣本有不同的特征缺失,圖3刪除了所有有特征缺失的樣本,因而僅有285個樣本參加計算。
圖3a為未進行任何更進一步的數(shù)據(jù)預(yù)處理,是針對最原始數(shù)據(jù)的互信息計算結(jié)果。從圖3a總的來看,各特征與序列類型之間相關(guān)性均不十分顯著,其中特征38(主震與統(tǒng)計時段最大余震震級差的絕對值)與序列類型之間具有最大的關(guān)聯(lián)性,互信息約為0.33;震級相關(guān)參數(shù)(特征38、37、44)、能量熵(特征36)、歷史地震序列類型(特征20)、主震震級及G-R關(guān)系外推震級相關(guān)參數(shù)(特征35)等特征互信息相對較高(MI>0.1)。除此之外,其它諸如小震頻次和震級相關(guān)參數(shù)(特征43、42、28、41、25、40、39、24)、主震緯度(特征1)、G-R關(guān)系b值及相關(guān)參數(shù)(特征27、34、31、33)、震源機制相關(guān)參數(shù)(特征18、11、19、14)等特征也有較弱的分類貢獻率,互信息大于0。
圖3b為對不平衡樣本數(shù)據(jù)進行了處理。不平衡樣本是指樣本數(shù)據(jù)集各類標(biāo)簽不均衡,例如主余型樣本就遠(yuǎn)多于多震型樣本。通常多數(shù)類與少數(shù)類樣本比例接近100:1時可認(rèn)為屬于不平衡樣本https://www.cnblogs.com/kamekin/p/9824294.html.,不平衡樣本對模型訓(xùn)練結(jié)果有一定影響。在樣本總量受限的情況下,對不平衡數(shù)據(jù)集的處理主要從數(shù)據(jù)本身和算法兩方面入手。由于本文不涉及具體的機器學(xué)習(xí)算法,因而主要從數(shù)據(jù)的角度進行不平衡數(shù)據(jù)處理。針對圖3a數(shù)據(jù),采用隨機重采樣算法https://github.com/scikit-learn-contrib/imbalanced-learn.,從少數(shù)類樣本中對特征進行隨機采樣,以組合構(gòu)建新的(偽)樣本,從而達到各分類樣本數(shù)均衡的目的。不平衡數(shù)據(jù)處理之后的互信息計算結(jié)果如圖3b所示。從不平衡數(shù)據(jù)處理前、后的結(jié)果對比來看(圖3a、b之間的連線),除個別特征(如特征11、22、40、26、39)重要性排序有較大差異外,大多數(shù)特征的重要性排序及互信息值基本一致。這意味著,對刪除特征缺失樣本后的數(shù)據(jù)集,是否進行不平衡數(shù)據(jù)處理對特征分類重要性影響不大。
3.3.2 缺失特征補齊對互信息計算結(jié)果影響
類似圖3對含有缺失特征樣本進行刪除的數(shù)據(jù)處理方式,對大數(shù)據(jù)問題不會有明顯影響,但對地震預(yù)測這一類小樣本問題,會進一步加劇樣本不足的矛盾。機器學(xué)習(xí)數(shù)據(jù)預(yù)處理算法中有許多缺失特征處理方式,圖4為采用同類樣本中位值對缺失特征進行補齊的結(jié)果。
具體做法是:對表2中每一個特征,首先分多震型、主余型、孤立型3類,計算該特征中位值,之后對該類樣本中缺失該特征的樣本,以該中位值進行補齊。例如對多震型樣本的G-R關(guān)系b值(30 bVal),首先基于多震型樣本中無b值缺失的樣本,計算b值的中位值,進而對有b值缺失的多震型樣本,用該中位值進行補齊,對主余型、孤立型樣本做類似處理。如此處理的好處是,所有樣本都可參與互信息計算。并且從初步結(jié)果來看,缺失特征補齊與否,對特征與類型之間的相關(guān)性有較大影響,主要體現(xiàn)在4個方面:
(1)缺失特征補齊之后絕大多數(shù)特征均顯示與序列類型之間具有或多或少的相關(guān)性(圖4),且各特征互信息值較圖3所示的未進行缺失特征處理的結(jié)果有明顯增大,例如特征38的互信息值就增大到0.49。
(2)針對缺失特征補齊之后的樣本數(shù)據(jù),是否進行不平衡數(shù)據(jù)處理,對重要性較大特征的排序仍然影響不大。從圖4具體來看,對序列分類具有較大貢獻的特征的重要性排序始終比較穩(wěn)定,關(guān)聯(lián)性最好的特征(MI>0.2)在不平衡數(shù)據(jù)處理前、后完全一致,這些特征仍然以震級、頻次相關(guān)參數(shù)為主(特征38、37、44、42、43、40、39);MI>0.1的特征相關(guān)性排序也基本一致,這些特征包括能量熵(36)、主震及G-R關(guān)系外推震級相關(guān)參數(shù)(35)、G-R關(guān)系和序列衰減相關(guān)參數(shù)(特征34、33、27、30);此外主震破裂形式和P軸方位相關(guān)參數(shù)(特征11、15、10)、歷史地震序列類型(特征21、22、23)等也有一定的序列分類能力,其MI>0.05。這種相對穩(wěn)定的特征重要性排序,對后續(xù)序列類型判定機器學(xué)習(xí)模型訓(xùn)練非常重要。
(3)缺失特征補齊前后的特征重要性排序并不完全一致(圖5),這意味著是否進行缺失特征補齊對特征重要性排序有影響。所幸的是,對序列分類重要性最大的前幾個特征排序幾乎完全一致,例如特征38、37、44、43、42、36、35等,而對序列類型判定真正起“駕轅”作用的,可能就是這些與序列類型相關(guān)性最強的、重要性排序比較穩(wěn)定的特征。
(4)圖5紅色水平條上側(cè)與圖3上部互信息等于或接近于0的區(qū)域相對應(yīng),這些特征未進行任何數(shù)據(jù)預(yù)處理之前對序列分類沒有貢獻。但由圖5對比可見,這些先前對序列分類沒有貢獻的特征,在進行缺失值補齊處理之后,部分特征、尤其是序列衰減相關(guān)參數(shù)(特征23、29)、序列G-R關(guān)系相關(guān)參數(shù)(特征30、32)的互信息值排序明顯提前,序列分類的貢獻度明顯提升;而缺失值補齊處理前有一定序列分類能力的歷史地震序列類型(特征20)、震源機制相關(guān)參數(shù)(特征18、19、14)等特征,其重要性排序在缺失值補齊之后明顯降低。這意味著,恰當(dāng)?shù)臄?shù)據(jù)處理方式在一定程度上會提高大多數(shù)特征的序列分類能力,但同時也可能導(dǎo)致部分特征的序列分類能力降低,具體如何取舍需視最終模型需求而定。
3.3.3 信息交互對特征重要性的影響
理論上總是希望特征之間彼此獨立以拓展盡可能寬泛的信息來源,但實際上彼此完全獨立的信息來源總是很少,特征的獨立性假設(shè)往往難以達成(李欣倩等,2022)。但另一方面,機器學(xué)習(xí)中有一個重要的概念即特征間的信息交互(feature interaction)。已有研究顯示,很多特征單獨來看可能與標(biāo)簽無關(guān),一旦組合在一起卻與標(biāo)簽集明顯相關(guān)(Jakulin,Bratko,2003)。信息交互在諸如信息推送等人工智能應(yīng)用中已被廣泛采用https://zhuanlan.zhihu.com/p/384271606.。豐富特征表達、拓展可用特征數(shù)量的重要方式之一即添加原始數(shù)據(jù)的交互特征(interaction feature),例如針對線性模型不僅可以學(xué)習(xí)偏移,還可以學(xué)習(xí)斜率https://blog.csdn.net/snail9610/article/details/105925305/.。由表2各特征參數(shù)物理含義可見,特征之間或多或少具有物理上的關(guān)聯(lián)性,這從特征參數(shù)之間的樹狀關(guān)系(圖6)亦可看出。由圖6中虛線可將特征粗略劃分為具有一定相關(guān)性的4個部分,自左至右第I部分是序列G-R關(guān)系及序列衰減關(guān)系相關(guān)參數(shù),第II部分是主震及震中附近震源機制相關(guān)參數(shù),第III部分是主震及震中附近歷史地震序列類型相關(guān)參數(shù),第IV部分是序列地震震級及頻次相關(guān)參數(shù)。實際上,上述所有用于序列類型判定的備選特征,都來源于地震目錄及震源機制,特征之間自然具有或多或少的相關(guān)性,但在特征組合之后仍顯示出與序列標(biāo)簽更強的關(guān)聯(lián)性。類似的特征組合方式,在機器學(xué)習(xí)地震預(yù)測中已有許多應(yīng)用(Reyes et al,2013;Asencio-Cortes et al,2016,2018;Shodiq et al,2017,2018)。實際上,著名的G-R關(guān)系、修改的大森公式等都來源于地震目錄,但它們又都提供了對地震序列震級-頻度關(guān)系、地震序列衰減特征等的全新認(rèn)識,某種程度上說,這就是信息交互的典型做法。
4 結(jié)論及討論
基于1970—2021年中國大陸及邊鄰地區(qū)地震數(shù)據(jù),參考以往研究和余震預(yù)測實踐,以服務(wù)于震后序列類型判定為目的,構(gòu)建基于地震觀測數(shù)據(jù)的地震序列類型判定機器學(xué)習(xí)特征樣本數(shù)據(jù)集?;诨バ畔⒎椒ǎㄟ^樣本特征數(shù)據(jù)與標(biāo)簽之間的相關(guān)性,評估特征對序列分類的重要性,以利于構(gòu)建適用于不同應(yīng)用場景、具有較高預(yù)測準(zhǔn)確性及較強泛化能力的序列分類模型,得到以下主要認(rèn)識:
(1)初步提出可用于機器學(xué)習(xí)地震序列類型判定的備選特征。參考現(xiàn)有地震序列類型判定參數(shù)和方法,初步提出44個可用于機器學(xué)習(xí)地震序列類型判定的備選特征,這些特征包括主震三要素相關(guān)參數(shù)、主震及附近區(qū)域震源機制相關(guān)參數(shù)、主震附近區(qū)域歷史地震序列類型、序列衰減相關(guān)參數(shù)、序列G-R關(guān)系相關(guān)參數(shù)、序列能量相關(guān)參數(shù)、序列地震震級及頻次相關(guān)參數(shù)等8類。以震后3天觀測數(shù)據(jù)為例,構(gòu)建了包含902個樣本、每個樣本包含44個備選特征的機器學(xué)習(xí)樣本集。根據(jù)地震序列類型設(shè)置樣本“標(biāo)簽”,分為多震型、主余型、孤立型3類?;趯罄m(xù)危險性的考慮,將前震型序列合并至多震型。902個樣本中多震型、主余型、孤立型分別約占15.5%、59.8%和24.7%,其中主余型和孤立型合計為84.5%,與前人研究結(jié)果基本一致。
由于序列參數(shù)的計算要求一定的樣本量,加之部分監(jiān)測能力較低區(qū)域地震記錄不完備,因而部分樣本的部分特征參數(shù)(如G-R關(guān)系b值、序列衰減系數(shù)p值等)無法計算??偟膩砜?,主震及主震附近區(qū)域歷史地震相關(guān)參數(shù)完備性較高,約為98%,主震震源機制相關(guān)參數(shù)完備性接近70%,序列地震震級相關(guān)參數(shù)完備性接近60%,修改的大森公式及G-R關(guān)系等相關(guān)參數(shù)的完備性僅及32%。
(2)近60%的備選特征顯示與序列類型之間具有一定的關(guān)聯(lián)性?;诨バ畔⒎椒ǚ治鎏卣髋c標(biāo)簽(序列分類)之間的相關(guān)性強弱,討論各特征對序列分類的重要性。在刪除缺失特征樣本的情況下,有近60%的特征(26項)與序列類型之間互信息大于0,但相關(guān)性均不太強,最大互信息值僅為0.33。這些特征中,震級相關(guān)參數(shù)、能量相關(guān)參數(shù)、歷史地震序列類型、主震震級及序列G-R關(guān)系外推震級相關(guān)參數(shù)等特征的互信息相對較高(MI>0.1),其它如小震頻次相關(guān)參數(shù)、主震緯度、G-R關(guān)系b值及相關(guān)參數(shù)、震源機制相關(guān)參數(shù)等特征也有相對弱的序列分類能力。
(3)補齊缺失特征可明顯提升特征的序列分類能力。缺失特征補齊的數(shù)據(jù)預(yù)處理方式,不但可顯著增加可用的模型訓(xùn)練和檢驗樣本量,更可以明顯提升特征與序列分類之間的關(guān)聯(lián)性。本文以中位值補齊樣本缺失特征的情況下,大多數(shù)特征(42項,約占95%)顯示出與序列類型之間具有或多或少的關(guān)聯(lián)特性,且各特征的互信息值明顯增大,最大達0.49。
(4)特征間之間的信息交互有利于提升特征的序列分類能力。信息交互是機器學(xué)習(xí)特征構(gòu)建的重要手段。本文結(jié)果顯示,即使實際資料中特征的獨立性假設(shè)難以達成,但依據(jù)這些彼此并不完全獨立的參數(shù)構(gòu)建的特征,仍顯示一定的特征重要性,即具有一定的序列分類能力。換言之,在機器學(xué)習(xí)數(shù)據(jù)處理過程中,即使已明確知道彼此或多或少相關(guān)的特征,也不宜一開始即完全刪除。特征選擇是一個復(fù)雜的過程,盡管為節(jié)省內(nèi)存和運算開支,特征選取應(yīng)在保留盡可能多分類信息的前提下僅保留盡可能少的特征(姜文煊等,2021),但特征之間的信息交互對特征與標(biāo)簽之間關(guān)聯(lián)性的提升作用亦須重視,在當(dāng)前機器學(xué)習(xí)仍屬“黑箱”操作的前提下,最終的特征選擇應(yīng)以模型預(yù)測效能的綜合評價結(jié)果為準(zhǔn)。
(5)震級相關(guān)參數(shù)對序列類型判定的特征重要性相對較大。宏觀來看,震級相關(guān)參數(shù)、能量相關(guān)參數(shù)、G-R關(guān)系和序列衰減相關(guān)參數(shù)、歷史地震序列類型、震源機制相關(guān)參數(shù)等的特征重要性排序相對靠前,對序列分類有貢獻,其中震級相關(guān)參數(shù)特征與標(biāo)簽之間的互信息明顯較大且排序穩(wěn)定。本文結(jié)果還顯示一些有趣的現(xiàn)象,例如主震空間位置尤其是主震緯度,以及主震震源機制相對于區(qū)域應(yīng)力場的偏差等參數(shù),對序列分類似乎也具有一定的貢獻率,前者實際上與此前序列類型具有一定區(qū)域特征這一認(rèn)識(王華林等,1997;蔣海昆等,2006b)相契合,后者此前研究未見提及,但這也提示我們,通過大數(shù)據(jù)或人工智能所揭示的現(xiàn)象或特征,有可能為地震序列分類物理本質(zhì)的探尋提供思路或指引。
(6)需重點關(guān)注機器學(xué)習(xí)算法的小尺度樣本數(shù)據(jù)適用性問題。需要指出的是,機器學(xué)習(xí)算法著重于大樣本數(shù)據(jù)共性特征的提取和學(xué)習(xí),其能夠發(fā)揮作用的基礎(chǔ)是大數(shù)據(jù)。事實上已有研究關(guān)注到中尺度數(shù)據(jù)集(~10K尺度樣本數(shù))的算法適用性問題(Grinsztajn et al,2022),但與此相比,用于地震預(yù)測的數(shù)據(jù)或?qū)W習(xí)樣本可謂十分匱乏,加之如本文所展示的那樣,不同的數(shù)據(jù)處理方式對結(jié)果還有復(fù)雜的影響,因而盡管基于機器學(xué)習(xí)的地震預(yù)測已經(jīng)展現(xiàn)出一定的應(yīng)用前景(Al Banna et al,2020;Mignan,Broccardo,2020;王錦紅,蔣海昆,2023),但就余震預(yù)測而言,機器學(xué)習(xí)是否比現(xiàn)有“經(jīng)驗+統(tǒng)計”的傳統(tǒng)預(yù)測方法有更好的預(yù)測效率,有待進一步的深入探討,各種機器學(xué)習(xí)算法對小尺度樣本數(shù)據(jù)(K尺度樣本數(shù))的模型適應(yīng)性問題即是當(dāng)前面臨的重要問題之一。
參考文獻:
蔡立冬,宮家文,甘俊人,等.1994.地震序列類型預(yù)測的人工神經(jīng)網(wǎng)絡(luò)方法[J].地震研究,17(1):40-45.
陳立德,蔡靜觀,孫志民.1992.震后趨勢早期判定的初步研究[J].地震研究,15(4):355-364.
陳榮華,吳開統(tǒng),劉杰,等.1994.不同地震序列類型的早期特征[J].地震,14(1):44-47.
陳學(xué)忠,王小平,王林瑛,等.2003.地震視應(yīng)力用于震后趨勢快速判定的可能性[J].國際地震動態(tài),(7):1-4.
陳颙.1980.用震源機制一致性作為描述地震活動性的新參數(shù)[J].地球物理學(xué)報,2(3):39-47.
崔子健,李志雄,陳章立,等.2012.判別小震群序列類型的新方法研究——譜振幅相關(guān)分析法[J].地球物理學(xué)報,55(5):1718-1724.
戴英華,李欽祖,王澤皋,等.1990.地震現(xiàn)場綜合地震學(xué)預(yù)報方法[J].地震,10(1):1-13.
刁守中,王紅衛(wèi),華愛軍.1995.中國大陸地區(qū)地震序列顯著地震的時間分布特征[J].中國地震,11(4):315-326.
杜迎春.2000.1998年張北地震及其較大余震 的應(yīng)力降[J].華北地震科學(xué),18(2):66-69.
郭大慶,劉蒲雄,袁一凡,等.1998.地震現(xiàn)場工作大綱和技術(shù)指南[M].北京:地震出版社.
國家地震局科技監(jiān)測司.1990.地震學(xué)分析預(yù)報方法程式指南[M].北京:地震出版社.
韓渭賓,王虹,曾健,等.1993.中強以上地震的震后趨勢早期綜合判斷方法的研究[J].地震學(xué)報,15(1):15-21.
華衛(wèi),陳章立,鄭斯華,等.2012.水庫誘發(fā)地震與構(gòu)造地震震源參數(shù)特征差異性研究——以龍灘水庫為例[J].地球物理學(xué)進展,27(3):924-935.
黃浩,付虹.2014.2008年以來滇西地區(qū)地震序列的譜振幅相關(guān)系數(shù)變化特征[J].地震學(xué)報,36(4):631-639.
賈若,蔣海昆.1994.基于同震庫侖應(yīng)力變化的汶川余震序列頻次研究[J].中國地震,31(1):74-90.
姜文煊,段友祥,孫歧峰.2021.基于交互信息的混合特征選擇算法[J].應(yīng)用科學(xué)學(xué)報,39(4):545-558.
蔣海昆,代磊,侯海峰,等.2006a.余震序列性質(zhì)判定單參數(shù)判據(jù)的統(tǒng)計研究[J].地震,26(3):17-25.
蔣海昆,李永莉,曲延軍,等.2006b.中國大陸中強地震序列類型的空間分布特征[J].地震學(xué)報,28(4):389-398.
蔣海昆,曲延軍,李永莉,等.2006c.中國大陸中強地震余震序列的部分統(tǒng)計特征[J].地球物理學(xué)報,49(4):1110-1117.
蔣海昆,楊馬陵,付虹,等.2015.震后趨勢判定參考指南[M].北京:地震出版社.
蔣海昆,鄭建常,代磊,等.2007a.中國大陸余震序列類型的綜合判定[J].地震,27(1):17-25.
蔣海昆,鄭建常,吳瓊,等.2007b.中國大陸中強以上地震余震分布尺度的統(tǒng)計特征[J].地震學(xué)報,29(2):151-164.
蔣海昆,周少輝.2020.前震:預(yù)測意義及識別方法[J].地震地磁觀測與研究,41(5):223-225.
李冬梅,周翠英,朱成林,等.2013.基于SVM的地震序列類型早期預(yù)測研究[J].地震研究,36(1):69-73.
李欣倩,楊哲,任佳.2022.基于互信息與層次聚類雙重特征選擇的改進樸素貝葉斯算法[J].模式識別與人工智能,41(2):36-69.
李振,王輝.2011.前震序列時間空間統(tǒng)計特點[C]//中國地球物理學(xué)會.中國地球物理學(xué)會第二十七屆年會論文集.北京:中國地球物理學(xué)會,353.
劉健,張維明.2008.基于互信息的文本特征選擇方法研究與改進[J].計算機工程與應(yīng)用,44(10):135-137.
劉蒲雄,陳修啟,呂曉健,等.1996.地震序列的后續(xù)顯著地震的預(yù)測研究[J].地震學(xué)報,18(1):27-33.
劉正榮,孔紹麟.1986.地震頻度衰減與地震預(yù)報[J].地震研究,9(1):6-8.
劉正榮,錢兆霞,王維清,等.1979.前震的一個標(biāo)志——地震頻度的衰減[J].地震研究,2(4):1-9.
劉正榮.1995.b值特征的研究[J].地震研究,18(2):168-173.
劉珠妹,蔣海昆,李盛樂,等.2019.基于震例類比的震后趨勢快速判定技術(shù)系統(tǒng)建設(shè)[J].中國地震,34(4):602-615.
呂曉健,高孟潭,陳丹.2010.全球大陸7級淺源大地震強余震震級和空間分布特征[J].地震,30(3):108-122.
秦保燕,劉武英.1992.發(fā)震構(gòu)造類型與震型預(yù)測[J].西北地震學(xué)報,14(1):29-36.
秦嘉政,錢曉東,葉建慶,等.2005.2001年施甸MS5.9地震序列的震源參數(shù)研究[J].地震學(xué)報,27(3):250-259.
曲均浩,蔣海昆,宋金,等.2015.介質(zhì)黏滯性質(zhì)對余震活動影響的數(shù)值模擬[J].地震地質(zhì),37(1):53-67.
蘇有錦,李忠華,趙小艷,等.2014.全球7級以上地震序列研究[M].昆明:云南大學(xué)出版社.
蘇有錦,劉祖蔭,蔡民軍,等.1999.云南地區(qū)強震分布的深部地球介質(zhì)背景[J].地震學(xué)報,21(3):313-332.
王東.2021.機器學(xué)習(xí)導(dǎo)論[M].北京:清華出版社.
王華林,周翠英,耿杰.1997.中國大陸及鄰區(qū)地震序列類型的分區(qū)特征和震源環(huán)境討論[J].地震,17(1):34-42.
王錦紅,蔣海昆.2023.基于地震數(shù)據(jù)的機器學(xué)習(xí)地震預(yù)測研究進展綜述[J].地震研究,46(2),doi:173-187.
王俊國,刁桂苓.2005.千島島弧大震前哈佛大學(xué)矩心矩張量(CMT)解一致性的預(yù)測意義[J].地震學(xué)報,27(2):178-183.
王林瑛,舒曦.1997.利用熵值及多分形方法研究地震序列類型的早期判定[C]//地震短臨預(yù)報的理論與方法——“八五”攻關(guān)三級課題論文集.北京:地震出版社,136-142.
王培玲,姚家駿,劉文邦,等.2013.玉樹地區(qū)兩次強震序列應(yīng)力降對比研究[J].內(nèi)陸地震,27(4):295-302.
王志東,焦遠(yuǎn)碧,吳開統(tǒng).1982.地震序列的持續(xù)時間與震級的關(guān)系[J].地震,2(5):34-39.
吳開統(tǒng),焦遠(yuǎn)碧,呂培苓,等.1990.地震序列概論[M].北京:北京大學(xué)出版社.
吳開統(tǒng).1971.地震序列的基本類型及其在地震預(yù)報中的應(yīng)用[J].地震戰(zhàn)線,7(11):45-51.
吳忠良,陳運泰,Mozaffari P.1999.應(yīng)力降的標(biāo)度性質(zhì)與震源譜高頻衰減常數(shù)[J].地震學(xué)報,21(5):460-468.
徐洪峰,孫振強.2019.多標(biāo)簽學(xué)習(xí)中基于互信息的快速特征選擇方法[J].計算機應(yīng)用,39(10):2815-2821.
薛艷,劉杰,余懷忠,等.2012.2011年日本本州東海岸附近9.0級地震活動特征[J].科學(xué)通報,57(8):634-640.
楊秋良,王鈺,楊杏麗,等.2021.基于互信息F統(tǒng)計量特征選擇技術(shù)的地基氣象云圖分類[J].計算機與現(xiàn)代化,(2):18-23.
張國民,鈕鳳林,邵志剛,等.2010.中國大陸MS≥7.8大震余震活動差異性特征及其成因研究[J].地震,30(4):1-12.
趙翠萍,陳章立,華衛(wèi),等.2011.中國大陸主要地震活動區(qū)中小地震震源參數(shù)研究[J].地球物理學(xué)報,54(6):1478-1489.
趙志勇.2018.Python機器學(xué)習(xí)算法[M].北京:電子工業(yè)出版社.
鐘羽云,張帆,張震峰,等.2004.應(yīng)用強震應(yīng)力降和視應(yīng)力進行震后趨勢快速判定的可能性[J].防災(zāi)減災(zāi)工程學(xué)報,24(1):8-14.
周翠英,張宇霞,王紅衛(wèi).1996.以模式識別方法提取地震序列早期判斷的綜合指標(biāo)[J].地震學(xué)報,18(1):118-124.
周惠蘭,房桂榮,章愛娣,等.1980.地震震型判斷方法探討[J],西北地震學(xué)報,2(2):45-59.
周少輝,蔣海昆.2017.景谷6.6級、魯?shù)?.5級地震序列應(yīng)力降變化對比研究[J].中國地震,33(1):23-37.
周志華.2016.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社.
朱傳鎮(zhèn),王琳瑛.1989.震群信息熵異常與地震預(yù)報[C]//地震預(yù)報方法實用化研究文集(地震學(xué)專輯).北京:學(xué)術(shù)書刊出版社,229-242.
莊昆元,王煒,章純,等.2001.震后趨勢決策支持系統(tǒng)PTDSS[J].西北地震學(xué)報,23(4):21-28.
Abercrombie R E.1995.Earthquake source scaling relationships from -1 to 5 using seismograms recorded at 2.5 km depth[J].J Geophys Res,100(B12):24015-24036.
Al Banna M H,Taher K A,Kaiser M S,et al.2020.Application of artificial intelligence in predicting earthquakes:state-of-the-art and future challenges[J].IEEE Access,8:192880-192923.
Allman B P,Shearer P M.2009.Global variations of stress drop for moderate to large earthquakes[J].J Geophys Res,114(B1):B01310.
Aochi H,Ide S.2009.Complexity in earthquake sequences controlled by multiscale heterogeneity in fault fracture energy[J].J Geophys Res,114(B3):Bo3305.
Apostol B F.2021.Correlations and Baths law[J].Results in Geophysical Sciences,doi:org/10.1016/j.ringps.2021.100011.
Asencio-Cortés G,Morales-Esteban A,Shang X,et al.2018.Earthquake prediction in California using regression algorithms and cloud-based big data infrastructure[J].Computers & Geosci-ences,115(5):198-210.
Baltay A,Ide S,Prieto G,et al.2011.Variability in earthquake stress drop and apparent stress[J].Geophys Res Lett,38(6):L06303.
Ben-Zion Y,James R R.1993.Earthquake failure sequences along a cellular fault zone in a three- dimensional elastic solid containing asperity and nonasperity regions[J].J Geophys Res,B8:14109-14131.
Ben-Zion Y,Lyakhovsky V.2006.Analysis of aftershocks in a lithospheric model with seismogenic zone governed by damage rheology[J].Geophys J Int,165(1):197-210.
Breiman L.2001.random forests[J].Machine Learning,45:5-32.
Bth M.1965.Lateral inhomogeneities in the upper mantle[J].Tectonophysics,2(6):438-514.
Cai J,Luo J W,Wang S L,et al.2018.Feature selection in machine learning:a new perspective[J].Neurocomputing,300(26):70-79.
Chen Y T,Knopoff L.1987.Simuation of earthquake sequences[J].J Geophys Res,91(3):693-703.
Creamer F H,Kisslinger C.1993.The relation between temperature and the Omori decay parameter for aftershock sequences near Japan[J].EOS74,43(S),417.
Dysart P S,Snoke J A,Sacks I S.1988.Source parameters and scaling relations for small earthquakes in the Matsushiro region,southwest Honshu,Japan[J].Bull Seism Soc Am,78(2):571-589.
Felzer K R,Abercrombie R E,Ekstrom G.2004.A common origin for aftershocks,foreshocks,and multiplets.Bulletin of the Seismological Society of America[J].94(1):88-98.
Freed A M,Lin J.2001.Delayed triggering of the 1999 Hector Mine earthquake by viscoelastic stress transfer[J].Nature,411(6834):180-183.
Giacomo D D.Bondár I,Storchak D A,et al.2015.ISC-GEM:Global instrumental earthquake catalogue(1900-2009),III.Re-computed MS and mb,proxy MW,final magnitude composition and completeness assessment[J].Physics of the Earth and Planetary Interiors,239(1B):33-47.
Grinsztajn L,Oyallon E,Varoquaux G.2022.Why do tree-based models still outperform deep learning on tabular data[J].Neurlps arXiv:2207.08815v1[cs.LG]18 Jul 2022.
Gulia L,Wiemer S.2019.Real-time discrimination of earthquake foreshocks and aftershocks[J].Nature,574(7777):193-199.
Helmstetter A,Sornette D.2003.Bths law derived from the Gutenberg-Richter law and from aftershock properties[J].Geophys Res Lett,30(20):1-4.
Ide S,Beroz G C.2001.Does apparent stress vary with earthquake size?[J].Geophys Res Lett,28(17):3349-3352.
Jakulin A,Bratko I.2003.Analyzing attribute dependencies[J].Lect Notes Artif Intell,2838:229-240.
Jones A G,Craven J A.1990.The North American central plains conductivity anomaly and its correlation with gravity,magnetics,seismic,and heat flow data in the province of Saskatchewan[J].Phys Earth planet Inter,60(1-2):169-194.
Jones L M,Molnar P.1979.Some characteristics of foreshocks and their possible relationship to earthquake prediction and premonitory slip on fault [J].J Geophys Res,84(B7):3596-3608.
Kanamori H,Brodsky E E.2004.The physics of earthquakes[J].Rep Prog Phys,67(8):1429-1496.
Kisslinger C,Jones L M.1991.Properties of aftershock sequences in southern California[J].J Geophys Res,96(B7):11947-11958.
Kraskov A,Stogbauer H,Grassberger P.2004.Estimating mutual information[J].Phys Rev E,69:66138-66154.
Lolli B,Gasperini P.2003.Aftershocks hazard in Italy Part I:Estimation of time-magnitude distribution model parameters and computation of probabilities of occurrence[J].Journal of Seismology,7(2):235-257.
Lyakhovsky V,Ben-Zion Y,Agnon A.2005.A visco-elastic damage rheology and rate-and state-dependent friction[J].Geophys J Int,161(1):179-190.
Marone C,Richardson E.2016.Connections between fault roughness,dynamic weakening,and fault zone structure[J].Geology,44(1):79-80.
Mignan A,Broccardo M.2020.Neural network applications in earthquake prediction(1994-2019):Meta-analytic and statistical insights on their limitations[J].Seismological Research Letters,91(4):2330-2342.
Mogi K.1962.Magnitude-frequency relation for elastic shocks accompanying fractures of various materials and some related problems in earthquakes[J].Bull Earthq Res Inst,40:831-853.
Mousavi S M,Beroza G C.2020.A machine-learning approach for earthquake magnitude estimation[J].Geophysical Research Letters,47(1):e2019GL085976.
Narteau C.2009.Common dependence on stress for the two fundamental laws of statistical seismology[J].Nature,462(3):642-645.
Rabinowitz N,Steinberg D M.1998.Aftershock decay of three recent strong earthquakes in the Levant[J].BSSA,88(6):1580-1587.
Reasenberg P A.1999.Foreshock occurrence before large earthquakes[J].J Geophys Res,104(B3):4755-4768.
Reyes J,Morales-Esteban A,Martínez-lvarez F.2013.Neural networks to predict earthquakes in Chile[J].Applied Soft Computing,13(2):1314-1328.
Rodríguez-Pérez Q,Zúiga F R.2016.Bths law and its relation to the tectonic environment:A case study for earthquakes in Mexico[J].Tectonophysics,687:66-77.
Ross B C.2014.Mutual information between discrete and continuous data sets[J].PLoS ONE,9(2):e87357.
Scholz C H.2002.The mechanics of earthquakes and faulting[M].New York:Cambridge Univ Press.
Shcherbakov R,Goda K,Ivanian A.et al.2013.Aftershock statistics of major subduction earthquakes[J].Bull Seism Soc Am,103(6):3222-3234.
Shcherbakov R,Turcotte D L.2004.A modified form of Baths law[J].Bull Seism Soc Am,94(5):1968-1975.
Shodiq M N,Kusuma D H,Rifqi M G.et al.2017.Spatial analysis of magnitude distribution for earthquake prediction using neural network based on automatic clustering in Indonesia[C]//International Electronics Symposium on Knowledge Creation and Intelligent Computing(IESKCIC).IEEE,246-251.
Shodiq M N,Kusuma D H,Rifqi M G.et al.2018.Neural network for earthquake prediction based on automatic clustering in Indonesia[J].International Journal on Informatics Visualization(JOIV),2(1):37-43.
Somerville P,Irikura K,Graves R,et al.1999.Characterizing crustal earthquake slip models for the prediction of strong ground motion[J].Seismological Research Letters,70(1):59-80.
Strobl C,Boulesteix A,Zeileis A,et al.2007.Bias in random forest variable importance measures:Illustrations,sources and a solution[J].BMC Bioinformatics,8(1):25.
Takayuki W,Hirata G A.1987.Omoris Power law aftershock sequences of microftacturing in rock fracture experiment[J].J Geophys Res,92(B7):6215-6221.
Trifu C I,Radulian M.1989.Asperity distribution and percolation as fundamentals of an earthquake cycle[J].Phys Earth Planet Inter,58(4):277-288.
Trugman D T,Ross Z.2019.Pervasive foreshock activity across southern California[J].Geophysical Research Letters,46(15):8782-8781.
Utsu T,Ogata Y,Matsuura R S.1995.The Centenary of the Omori formula for a decay law of aftershock activity[J].J Phys Earth,43 (1):1-33.
Utsu T.2002.Statistical features of seismicity[J].International Geophysics,81(A):719-731.
Wells D L,Coppersmith K J.1994.New empirical relationships among magnitude,rupture Length,rupture width,rupture area,and surface displacement[J].Bulletin of the Seismological Society of America,84(4):974-1002.
Wiemer S,Wyss M.2002.Mapping spatial variability of the frequency-magnitude distribution of earthquakes[J].Adv Geophys,45:259-302.
Yamanaka Y,Kikuchi M.2004.Asperity map along the subduction zone in northeastern Japan inferred from regional seismic data[J].J Geophys Res,109:B07307.
alohar J.2014.Explaining the physical origin of Bths law[J].Journal of Structural Geology,60(B2):30-45.
Discussion on the Importance of the Features for the Judgement ofEarthquake Sequence Types Applicable to Machine Learning
JIANG Haikun1,WANG Jinhong2
(1.China Earthquake Networks Center,Beijing 100045,China)(2.Institute of Earthquake Forecasting,China Earthquake Administration,Beijing 100036,China)
Abstract
Based on the catalog and focal mechanism of earthquakes in Chinese mainland since 1970 and referring to the previous research and practice on estimation of aftershock activity tendency,a feature sample dataset for judgement of earthquake sequence types by machine learning has been constructed.Three labels—multiplet mainshocks type,mainshock-aftershock type,as well as isolated earthquake type—have been set up according to the earthquake sequences.Forty-four alternative features that can be used for machine learning for earthquake sequence type judgement have been proposed preliminarily,including mainshock and focal-mechanism-related parameters,historical earthquake sequence types,sequence decay and G-R relationship-related parameters,magnitude- and frequency-related parameters.Based on the 44 alternative features,more features can be expanded by different threshold magnitude or statistical period.Based on the mutual information between features and labels,the feature importance or contribution rate of feature parameters to sequence classification has been evaluated.In summary,the magnitude-related parameters,G-R relationship,sequence-decay-related parameters,historical earthquake sequence type,focal mechanism related parameters are contributory for sequence classification.Especially,the mutual information between magnitude-related parameters and labels are obviously large and the ranking is stable.Our results show that the complementing of missing features can not only increase the available samples for model training and testing,but also significantly improve the correlation between features and labels,which means that appropriate data preprocessing on features may improve the ability of sequence classification to a certain extent.Adding interactive features of original data is one of the important ways to expand the number of available features,the independent features show a stronger correlation with sequence labels after information interaction processing in this paper,reminding us that the feature selection should be based on the results of efficiency estimation of the final model,and the feature independence should not be overemphasized.
Keywords:earthquake sequence type;machine learning;feature;mutual information
收稿日期:2022-09-19.
基金項目:地震動力學(xué)國家重點實驗室開放基金(LED2022B05).
第一作者簡介:蔣海昆(1964-),研究員,博士,主要從事余震統(tǒng)計、余震機理及余震預(yù)測研究.E-mail:jianghaikun@seis.ac.cn.
蔣海昆,王錦紅.2023.適用于機器學(xué)習(xí)的地震序列類型判定特征重要性討論[J].地震研究,46(2):155-172,doi:10.20015/j.cnki.ISSN1000-0666.2023.0034.