劉 濤 戴志軍 陳 蘇 傅 磊
(中國北京 100081 中國地震局地球物理研究所)
人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,縮寫為ANN)在過去的三十年中取得了長足的發(fā)展,從最開始模仿神經(jīng)元而建立數(shù)學(xué)模型發(fā)展到如今已經(jīng)成為廣泛應(yīng)用于眾多領(lǐng)域的實用技術(shù)(Murphy,2012;Jordan,Mitchell,2015),特別是在地震學(xué)領(lǐng)域也有很多應(yīng)用,例如地震識別和分類(Dysart,Pulli,1990;Ursinoet al,2001;周本偉等,2020)、地震相位拾?。═iira,1999;Wiszniowskiet al,2014;李安等,2020)等.深度神經(jīng)網(wǎng)絡(luò)作為人工神經(jīng)網(wǎng)絡(luò)的一個分支,由于需要大量的訓(xùn)練數(shù)據(jù)和其它約束條件,并未得到廣泛使用,但最近十多年里該技術(shù)在數(shù)據(jù)收集、存儲、傳輸和分析等方面的應(yīng)用得到了突破性的發(fā)展.數(shù)據(jù)的爆炸性增長迫切需要能夠?qū)ζ溥M行有效分析的方法,而深度神經(jīng)網(wǎng)絡(luò)正好可以滿足這一迫切需求,而且由于該方法具有對事物或抽象概念建立更復(fù)雜模型的能力,因而在處理大樣本和復(fù)雜函數(shù)關(guān)系時更為便捷(隗永剛等,2019).對于運用深度學(xué)習(xí)方法的地震學(xué)研究,其核心是利用深度學(xué)習(xí)模型分析數(shù)據(jù)以獲取、使用有效的信息.經(jīng)過地震學(xué)研究人員近年來的努力,深度學(xué)習(xí)技術(shù)已成功用于許多挑戰(zhàn)性的研究中,例如地震巖性預(yù)測(Zhanget al,2018)、地震事件檢測與定位(Huanget al,2018)、地震相位檢測與拾取(Zhuet al,2019)、相位關(guān)聯(lián)(Rosset al,2019)等.而現(xiàn)階段,地震的準確預(yù)測作為公認的世界性科學(xué)難題,還很難實現(xiàn)(張肇誠,張煒,2016).為了預(yù)防地震帶來較大的危害和損失,須根據(jù)當?shù)氐目拐鹪O(shè)防標準進行抗震設(shè)計.在工程抗震設(shè)計、研究和分析中,往往需要選擇實際的地震動記錄來代表地震對結(jié)構(gòu)的作用,亦或是代表施加于該結(jié)構(gòu)的一種地震荷載(謝禮立,翟長海,2003).對于工程而言,考慮到路徑和場地的影響,實際的地震動應(yīng)該是當?shù)氐拇笳鹩涗?,顯然滿足此要求的地震動記錄很少,甚至很多地方都無大的地震動記錄,這就需要對當?shù)氐牡卣饎佑涗涍M行一定調(diào)整以使其滿足作為地震動輸入的要求.國外對這方面的研究開展較早,美國太平洋地震研究中心(Pacific Earthquake Engineering Research,縮寫為PEER)將地震動記錄的縮放方法分成五類:①通過震級、斷層距將記錄在已知結(jié)構(gòu)基本周期處的加速度譜值縮放至目標譜在該周期處的值;② 通過縮放記錄幅值,使所選記錄的反應(yīng)譜與危險譜擬合一致;③ 選擇的記錄譜應(yīng)很好地擬合條件均值譜(Baker,Cornell,2005;Baker,Cornell,2006);④ 所選記錄的 ε應(yīng)與預(yù)測地震的 ε值相接近,ε是給定周期點的記錄譜值與地震動預(yù)測方程平均值的差值(Gouletet al,2004), ε在預(yù)測結(jié)構(gòu)反應(yīng)上有顯著表現(xiàn),是一個譜形的指標(Goulet,2005;Gouletet al,2006);⑤ 所選記錄的位移譜應(yīng)較好地擬合非線性目標位移譜(Baker,Cornell,2006b).而在國內(nèi),對于地震動輸入多是選擇比較常用的大震記錄,對于地震動記錄的處理往往是將加速度記錄調(diào)整到目標場地、目標設(shè)防的規(guī)范加速度值(朱曉煒,2011),具有明顯的局限性.為了選擇一個合適的地震動記錄調(diào)整方法,本文擬建立一個卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,縮寫為CNN)來分析地震加速度時程記錄的特征,并選擇歸一化的加速度記錄作為樣本輸入以訓(xùn)練模型對大、小地震進行分類,并基于單方向地震加速度記錄來判斷地震的震級大小,由此判斷小震記錄經(jīng)過調(diào)整是否具有一定的大震特性,以提高抗震分析的有效性.
在訓(xùn)練過程中,為了提高模型的有效性,確保每個樣本數(shù)據(jù)的規(guī)模相當,需先對數(shù)據(jù)進行歸一化處理,使每個地面運動記錄輸入具有相同的峰值加速度.將每個地震加速度記錄定義為一組向量,即
取每個地震記錄的絕對加速度最大值為
依次將每個加速度值除以加速度最大絕對值xmax,相應(yīng)的歸一化公式為
卷積神經(jīng)網(wǎng)絡(luò)要求每個地震記錄樣本的輸入形狀必須一致,但地震記錄具有不同的持時和采樣頻率,因此,在數(shù)據(jù)預(yù)處理階段,本文以20 s的采樣時間和100 Hz的采樣頻率對每個地震記錄進行均勻采樣.在每個地震記錄截取五段共獲取20 s長的輸入數(shù)據(jù),前0.05%的阿里亞斯強度(Arias,1970)是采樣的起點,后0.05%的阿里亞斯強度是采樣的終點,起點與終點之間平均取五段,每段的采樣時間為4 s,總計20 s,如圖1所示.
圖1 預(yù)處理階段采樣圖紅線部分是采樣頻率為100 Hz的五個采樣位置,每個位置采樣時長為4 s,五個部分共20 sFig. 1 Pre-processing samplingThe red boxes delineate the five sampling positions with a sampling frequency of 100 Hz. The sampling time of each position is 4 s,and the five parts are 20 s in total
近年來,深度學(xué)習(xí)的飛速發(fā)展使其成為智能數(shù)據(jù)分析的有力工具,而地震學(xué)是一門以數(shù)據(jù)為驅(qū)動力的學(xué)科,因此構(gòu)建深度學(xué)習(xí)模型成為我們的首選,其中卷積神經(jīng)網(wǎng)絡(luò)因其特征提取的魯棒性而被廣泛應(yīng)用.特別是在語音識別領(lǐng)域中(Sainathet al,2013;Tóth,2013;Qianet al,2016;Sercuet al,2016;Yuet al,2016),每個人的發(fā)音大不相同,卷積神經(jīng)網(wǎng)絡(luò)因為有局部濾波和最大池化技術(shù)可以有效地消除這種差異,有利于語音的聲學(xué)建模,并且可以提高訓(xùn)練效果.考慮到地震動數(shù)據(jù)在很多方面與語音數(shù)據(jù)相似,例如都需要介質(zhì),都是通過振動傳播,都是非平穩(wěn)時間序列信號等,本文擬采用卷積神經(jīng)網(wǎng)絡(luò)模型基于地震動記錄識別地震的大致震級.
如圖2b所示,模型中卷積層共有三層,每一層只有一個卷積層,沒有池化層.每層分為五個部分,分別對應(yīng)于每個樣本的五段輸入,也就是采樣過程中的五段數(shù)據(jù).第一層每段輸入數(shù)據(jù)形狀為1×400,核心數(shù)為4,卷積窗尺寸為1×5,步長為5;第二層卷積層將第一層卷積層的輸出作為輸入,核心數(shù)為8,卷積窗尺寸為1×4,步長為4;第三層卷積層將第二層輸出作為輸入,核心數(shù)為16,卷積窗尺寸為1×2,步長為2.上述卷積層的所有激活函數(shù)都使用ReLu激活函數(shù)(Krizhevskyet al,2017),這是因為ReLu激活函數(shù)可以有效地避免梯度消失和過度擬合的問題,并且具有樣本導(dǎo)數(shù)形式,可以加快訓(xùn)練速度.ReLu激活函數(shù)如下:
圖2 神經(jīng)網(wǎng)絡(luò)模型從輸入數(shù)據(jù)到獲取分類結(jié)果的流程圖(a)模型的流程說明;(b)模型的架構(gòu)Fig. 2 Flow chart of neural network model from data inputting to classfication result acquirement(a)Process description of the model;(b)Model architecture
樣本每次經(jīng)過卷積層時,數(shù)據(jù)長度都會以卷積步長為倍數(shù)而減少,數(shù)據(jù)寬度會以核心數(shù)為倍數(shù)而增加.在三層卷積層之后,樣本的五段數(shù)據(jù)形狀為16×10.
因為全連接神經(jīng)網(wǎng)絡(luò)的輸入是線性的,所以需要對卷積層的輸出結(jié)果進行線性處理.將卷積層輸出的結(jié)果經(jīng)過兩個全連接層之后合并為一條線性數(shù)據(jù),然后在三個全連接層之后輸出兩個結(jié)果,它們分別代表模型判斷樣本為大震或小震的概率.除最后一層之外,所有層的激活函數(shù)均使用ReLu激活函數(shù).最后一層不使用激活函數(shù),但是在計算損失函數(shù)時會添加一個softmax [ 式(5)] 層.Softmax激活函數(shù)在規(guī)范化過程中使用指數(shù)形式,這意味著較大的值更大而較小的值會更小,增加了區(qū)分的對比度,可使模型訓(xùn)練更加有效,這對于分類問題尤其重要.
本文使用自適應(yīng)矩估計優(yōu)化器(adaptive moment estimation optimizer,縮寫為Adam)來訓(xùn)練模型.該優(yōu)化器針對AdaGrad和RMSProp的缺點彌補而來,具有以下優(yōu)點:實現(xiàn)簡單且計算效率較高,幾乎無需調(diào)整超參數(shù),可以自動調(diào)節(jié)學(xué)習(xí)速度,非常適合大型數(shù)據(jù)和參數(shù)模型訓(xùn)練.
本文模型所用訓(xùn)練集和驗證集數(shù)據(jù)來自K-NET和KiK-net,共有11萬9 760個地震記錄,涉及1 698個臺站.按時間順序排列,將9萬1 488個記錄作為訓(xùn)練集,2萬8 272個記錄作為驗證集,共6萬8 580個大震記錄和5萬1 180個小震記錄.
模型訓(xùn)練過程中,超參數(shù)的調(diào)整對訓(xùn)練效率和訓(xùn)練結(jié)果均會產(chǎn)生影響,本文涉及兩個超參數(shù):學(xué)習(xí)率和批量(batch size).
1)學(xué)習(xí)率.學(xué)習(xí)率是模型每次減小損失函數(shù)值的程度,學(xué)習(xí)率參數(shù)值設(shè)置得較大,則模型前幾次可能會很快收斂,但學(xué)習(xí)率設(shè)置得過大,可能使模型無法達到全局最優(yōu),學(xué)習(xí)率參數(shù)值較小對訓(xùn)練效率也會產(chǎn)生較大的影響.在保證其它變量相同的情況下用控制變量法測得模型訓(xùn)練過程中的準確率,結(jié)果如圖3所示.可見:當學(xué)習(xí)率為0.001 (橙線)時,隨著訓(xùn)練次數(shù)的增加,訓(xùn)練集的準確率逐步提高,測試集的準確率反而下降,出現(xiàn)了過擬合現(xiàn)象,也就是模型過度擬合訓(xùn)練集,因而導(dǎo)致該模型在其它數(shù)據(jù)集上的表現(xiàn)不佳;當學(xué)習(xí)率為0.01(藍線)和0.000 1 (綠線)時,訓(xùn)練集的準確率表現(xiàn)基本持平,而學(xué)習(xí)率為0.01 (藍線)時模型在測試集更勝一籌,所以面對其它數(shù)據(jù)學(xué)習(xí)率為0.01 (藍線)的模型可能會有更好的效果.因此本文將學(xué)習(xí)率設(shè)置為0.01,每迭代一周學(xué)習(xí)率乘以0.99,隨著訓(xùn)練次數(shù)增加,學(xué)習(xí)率逐漸降低,使模型損失更接近全局最小值.
圖3 不同學(xué)習(xí)率下訓(xùn)練集(a)和測試集(b)的準確率隨訓(xùn)練次數(shù)增加的變化Fig. 3 The change in the correct rates of the trainings set (a)and the test set (b)with the training time increasing on the condition of different learning rate
2)批量(batch size).批量是指每次輸入模型的樣本數(shù)量,批量太小容易使模型收斂方向出現(xiàn)偏差,太大容易使模型困在局部最優(yōu)而無法達到全局最優(yōu).根據(jù)訓(xùn)練集和測試集準確率的變化(圖4),可以看到不同批量情況下均出現(xiàn)了程度不同的過擬合現(xiàn)象.考慮到模型以較強的泛化能力和最低過擬合現(xiàn)象為佳,我們選取批量為400,這種情況下模型在訓(xùn)練過程中過擬合現(xiàn)象最輕且在測試集效果最好,有較強的泛化能力.這樣我們就可以選擇出現(xiàn)過擬合現(xiàn)象前的模型作為最終結(jié)果.
圖4 不同批量大小下訓(xùn)練集(a)和測試集(b)的準確率隨訓(xùn)練次數(shù)增加的變化Fig. 4 The change in the correct rates of the trainings set (a)and the test set (b)with the training time increasing on the condition of different batch size
本文提出使用CNN識別地震震級大小的方法.在對原始地震數(shù)據(jù)進行篩選和歸一化之后,使用CNN模型對預(yù)處理后的地震記錄進行識別和分類.經(jīng)過100次訓(xùn)練后,將驗證數(shù)據(jù)集上精度最高的模型用于分析.模型準確率統(tǒng)計流程如圖5a所示,訓(xùn)練準確率隨訓(xùn)練次數(shù)的變化如圖5b所示,部分記錄的識別結(jié)果展示在圖5c中,圖中的四個記錄分別來自AIC010,A0M013,AKT021和AKT002臺站,地震分別發(fā)生于2006年9月24日,2015年3月6日,2014年10月11日和2012年8月14日.結(jié)果顯示:基于11萬9 760個記錄進行訓(xùn)練,以M5.5作為分界線進行分類,該模型在訓(xùn)練集上的平均準確率達到93.6%,在測試集上的平均準確率達到92.3%.根據(jù)統(tǒng)計,當?shù)卣鹫鸺壧幱?.0—5.9范圍內(nèi)即在M5.5附近時,模型的準確率僅為79.7%,這與平均準確率之間的差距較大,因此以M5.5作為地震震級分類界限是可行的.
圖5 (a)計算模型精度的流程;(b)準確率;(c)模型對于部分記錄的識別結(jié)果Fig. 5 (a)The flowchart of calculating model accuracy;(b)Training accuracy;(c)The recognition results of the model for some recordings
本文以歸一化的地震動記錄為數(shù)據(jù)集來構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),分類效果良好,初步得到以下結(jié)論:① 模型進行了多次對比訓(xùn)練,均出現(xiàn)了不同程度的過擬合現(xiàn)象,可采用文中提到的早停法等策略解決;② 超參數(shù)中的學(xué)習(xí)率大小宜適中,學(xué)習(xí)率過大,模型不易收斂,過小則訓(xùn)練較慢,批量過大容易造成局部最小,過小則訓(xùn)練過程中波動太大;③ 模型能夠識別經(jīng)過歸一化的地震動記錄的震級大小,說明地震的加速度時程記錄帶有一定的地震震級信息.
盡管該模型具有比較好的訓(xùn)練效果,但仍有一些問題需要解決,還有需要優(yōu)化的方面:
1)如何選擇分類分界線來區(qū)分大地震與小地震.我們使用M5.5作為模型的分類標準,僅基于簡單的統(tǒng)計信息,且M5.0—5.9地震記錄在模型中的平均準確率為79.7%,遠低于整個數(shù)據(jù)集的平均準確率,所以我們初步判斷M5.5作為分類界限有一定可行性,但可能會有更合適的震級界線來區(qū)分大小地震,應(yīng)該也在M5.5左右,未來我們會不斷嘗試優(yōu)化模型,找到一個最優(yōu)震級作為分類界限;
2)本文使用的數(shù)據(jù)來自K-NET和Kik-net,尚需驗證該模型是否適用于其它地區(qū).下一步會將來自其它國家地區(qū)的數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)中,以提高模型的泛化能力;
3)未來我們會不斷優(yōu)化模型,并基于該模型測試常見的地震動模擬以及調(diào)整方法所得的模擬地震動或者經(jīng)調(diào)整的小震記錄能否被模型識別為大震,為這些方法的選擇及模擬或調(diào)整效果提供參考.另一方面,基于該模型深入研究,不拘泥于二分類,可以做成大、中、小地震的三分類問題,甚至可以直接識別出大致震級等延展性工作.