周施文 李水龍 于偉恒
(福建省地震局,福建 福州 350003)
眾所周知,地震預(yù)警是攻克地震預(yù)報(bào)難題之前能夠有效減輕地震災(zāi)害的重要途徑。地震預(yù)警充分利用現(xiàn)有地震監(jiān)測臺網(wǎng)資源,通過地震監(jiān)測預(yù)警技術(shù)系統(tǒng),產(chǎn)出地震預(yù)警信息并對外發(fā)布,政府機(jī)關(guān)、行業(yè)用戶、個(gè)人用戶等可以根據(jù)地震預(yù)警信息及時(shí)采取相應(yīng)的緊急避震措施,從而在一定程度上減輕地震災(zāi)害。
近年來,以人工神經(jīng)網(wǎng)絡(luò)為代表的人工智能技術(shù)是一大熱點(diǎn),地震行業(yè)的專家學(xué)者例如,趙剛等(2017)、Perol 等(2018)、趙明等(2019),也開始嘗試用人工神經(jīng)網(wǎng)絡(luò)技術(shù)解決諸如地震識別、震中定位等相關(guān)問題。人工神經(jīng)網(wǎng)絡(luò)技術(shù)離不開大數(shù)據(jù)的支持,每一個(gè)模型的訓(xùn)練和評估都依托于大量整理和標(biāo)記過的數(shù)據(jù)。
本文作者所在地震預(yù)警技術(shù)團(tuán)隊(duì)除了對在線生產(chǎn)的地震監(jiān)測預(yù)警技術(shù)系統(tǒng)進(jìn)行日常運(yùn)維和優(yōu)化外,也在不斷探索研究可以提高地震監(jiān)測預(yù)警效率的新方法新技術(shù)。開展人工神經(jīng)網(wǎng)絡(luò)技術(shù)在地震預(yù)警方面的應(yīng)用嘗試工作,首先需要解決的是數(shù)據(jù)處理問題,包括整理歷史波形數(shù)據(jù)、標(biāo)記數(shù)據(jù)、提取數(shù)據(jù)等。經(jīng)過需求分析和前期嘗試,我們初步設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)地震監(jiān)測大數(shù)據(jù)處理平臺,通過平臺提供的數(shù)據(jù)處理工具,對歷史波形數(shù)據(jù)進(jìn)行導(dǎo)入、標(biāo)記、提取等;平臺數(shù)據(jù)庫中存儲的按規(guī)定格式標(biāo)記的波形數(shù)據(jù),經(jīng)過不斷積累,可以形成地震監(jiān)測大數(shù)據(jù),為今后持續(xù)開展人工智能技術(shù)應(yīng)用研究奠定基礎(chǔ)。
目前國內(nèi)使用的常見的地震波形數(shù)據(jù)存儲方式有:以MINISEED 格式保存的臺站歷史波形數(shù)據(jù)和以SEED 或EVT 格式保存的歷史震例波形數(shù)據(jù)。MINISEED 臺站歷史波形數(shù)據(jù)文件(以下簡稱MINISEED 文件)以臺網(wǎng)編碼、臺站編碼、儀器類型、通道標(biāo)識、年份和天數(shù)等參數(shù)命名,如“FJ.ZPYF.00.BHZ.D.2018.037”, 從文件名可以看出一個(gè)MINISEED 文件包含了一個(gè)臺站儀器單個(gè)通道一天的連續(xù)波形數(shù)據(jù);SEED 或EVT 歷史震例波形數(shù)據(jù)文件以發(fā)震時(shí)刻命名,包含了記錄到該次地震的所有臺站儀器所有通道的波形數(shù)據(jù)。
人工智能技術(shù)對數(shù)據(jù)樣本的完整性有較高的要求,即我們用于訓(xùn)練和測試人工神經(jīng)網(wǎng)絡(luò)模型的噪音、地震等數(shù)據(jù)的數(shù)量要相當(dāng),而SEED 或EVT 歷史震例波形數(shù)據(jù)文件中包含的地震數(shù)據(jù)遠(yuǎn)多于噪音數(shù)據(jù),且這種數(shù)據(jù)比例與實(shí)際生產(chǎn)環(huán)境相差甚遠(yuǎn)。因此,我們選取了MINISEED 文件作為平臺的輸入數(shù)據(jù)——最原始的波形數(shù)據(jù)包含了相對更完整的監(jiān)測數(shù)據(jù)信息。
以積累地震監(jiān)測大數(shù)據(jù)為出發(fā)點(diǎn),我們希望標(biāo)記過后的數(shù)據(jù)可以成為基礎(chǔ)數(shù)據(jù)被多次利用,這就要求數(shù)據(jù)滿足兩個(gè)需求:一是數(shù)據(jù)庫中單條記錄中的數(shù)據(jù)量足夠小,可以滿足不同需求的提取和拼接;二是要有統(tǒng)一的標(biāo)簽用來識別數(shù)據(jù)類型,如地震或噪音等。一個(gè)MINISEED 數(shù)據(jù)包里包含有3-5 秒不等的數(shù)據(jù)量,地震預(yù)警系統(tǒng)是以秒為單位對監(jiān)測數(shù)據(jù)進(jìn)行處理,因此,我們將MINISEED 文件中的數(shù)據(jù)提取、拼接,再重新以整秒為單位壓縮成MINISEED 文件,與臺站編號、分向、時(shí)間等基本信息同時(shí)存入數(shù)據(jù)庫中作為一條波形數(shù)據(jù)記錄;同時(shí),我們設(shè)計(jì)了一個(gè)通用標(biāo)簽表,用來標(biāo)記數(shù)據(jù)庫中的波形數(shù)據(jù)。
需要一個(gè)基礎(chǔ)工具能根據(jù)需求,將數(shù)據(jù)庫中符合要求的數(shù)據(jù)逐條提取出來,包括波形數(shù)據(jù)和標(biāo)簽,存入文件以供使用。
該模塊包括3 個(gè)子工具,分步實(shí)現(xiàn)從導(dǎo)入原始波形數(shù)據(jù)到生成數(shù)據(jù)樣本集的處理過程;為方便用戶使用,集合成一個(gè)數(shù)據(jù)處理工具,如圖1。
圖1 數(shù)據(jù)處理工具結(jié)構(gòu)圖
其中,波形文件處理工具將用戶導(dǎo)入的MINISEED 文件中的數(shù)據(jù)解壓拼接,再以秒為單位重新封裝成MINISEED 文件并存入數(shù)據(jù)庫中;標(biāo)簽插入工具根據(jù)用戶輸入的參數(shù),對數(shù)據(jù)庫中對應(yīng)的波形數(shù)據(jù)進(jìn)行標(biāo)記,即更新數(shù)據(jù)庫表中對應(yīng)記錄的Tag 欄的數(shù)據(jù),例如1 表示噪音,2 表示地震等;數(shù)據(jù)集生成工具根據(jù)用戶輸入的參數(shù),從數(shù)據(jù)庫中調(diào)取出波形數(shù)據(jù),進(jìn)行便簽轉(zhuǎn)置后,生成數(shù)據(jù)集文件。
2.2.1 臺站儀器信息表(instu_info)(表1)
表1 臺站儀器信息表
2.2.2 儀器波形標(biāo)簽表(wave_labelled)(表2)
表2 儀器波形標(biāo)簽表
2.2.3 標(biāo)簽信息表(tag_dic)(表3)
表3 標(biāo)簽信息表
目前地震行業(yè)內(nèi)訓(xùn)練、調(diào)試人工神經(jīng)網(wǎng)絡(luò)模型,基本上屬于深度學(xué)習(xí)中的有導(dǎo)式學(xué)習(xí),即用數(shù)據(jù)對比模型給出的結(jié)果,持續(xù)對模型進(jìn)行調(diào)整,這就需要大規(guī)模標(biāo)注數(shù)據(jù)。為提高標(biāo)注數(shù)據(jù)的利用率,設(shè)計(jì)了一套統(tǒng)一的數(shù)據(jù)標(biāo)簽,用以標(biāo)注原始波形數(shù)據(jù),見表4。
表4 地震數(shù)據(jù)標(biāo)簽
地震監(jiān)測大數(shù)據(jù)處理平臺的初步實(shí)現(xiàn)采用CS 架構(gòu),界面用JAVASWING 實(shí)現(xiàn),服務(wù)端和數(shù)據(jù)庫部署在內(nèi)網(wǎng)服務(wù)器上。運(yùn)行客服端啟動程序,彈出數(shù)據(jù)處理工具的主界面,如圖2。
圖2 數(shù)據(jù)處理工具主界面
點(diǎn)擊按鈕波形文件處理工具,彈出該工具的界面,如圖3。用戶選擇需要導(dǎo)入的Miniseed 文件后,點(diǎn)擊導(dǎo)入數(shù)據(jù)庫,工具會將該文件中的波形數(shù)據(jù)解壓拼接,再以秒為單位重新封裝成Miniseed 文件并存入數(shù)據(jù)庫中。數(shù)據(jù)庫中波形數(shù)據(jù)插入結(jié)果示例參見圖4。
圖3 波形文件處理工具主界面
圖4 數(shù)據(jù)庫表插入波形數(shù)據(jù)結(jié)果示例
點(diǎn)擊按鈕標(biāo)簽插入工具,彈出該工具的界面,如圖5。用戶填好相關(guān)參數(shù),點(diǎn)擊插入標(biāo)簽,工具將更新數(shù)據(jù)庫表中Tag 欄的數(shù)據(jù),示例如圖6 所示。
圖5 標(biāo)簽插入工具主界面
圖6 標(biāo)簽插入結(jié)果示例
點(diǎn)擊按鈕數(shù)據(jù)集生成工具,彈出該工具的界面,如圖7。左邊為標(biāo)簽轉(zhuǎn)置區(qū):人工神經(jīng)網(wǎng)絡(luò)框架,如DeepLearning4J,要求數(shù)據(jù)集的標(biāo)簽從0 開始,連續(xù)標(biāo)記,因此需要對標(biāo)簽進(jìn)行轉(zhuǎn)置;sql 標(biāo)簽表示數(shù)據(jù)庫表里的標(biāo)簽,比如1 代表噪音,2代表地震;dataset 標(biāo)簽表示將要導(dǎo)入人工神經(jīng)網(wǎng)絡(luò)框架訓(xùn)練模型的數(shù)據(jù)集里的標(biāo)簽。右邊為參數(shù)設(shè)置區(qū):用戶輸入數(shù)據(jù)集的文件名(不帶文件格式后綴.txt),輸入相應(yīng)參數(shù)后,點(diǎn)擊確認(rèn)參數(shù),工具將該組參數(shù)對應(yīng)的數(shù)據(jù)從數(shù)據(jù)庫中提取處理并寫入文件,用戶可多次輸入?yún)?shù)提取數(shù)據(jù)并點(diǎn)擊確認(rèn)參數(shù),參數(shù)會顯示在清單中。點(diǎn)擊結(jié)束寫入,完成數(shù)據(jù)提取和寫入,示例參見圖8。在文件保存路徑下,會生成與數(shù)據(jù)集文件對應(yīng)的信息文件,示例參見圖9、圖10。
圖7 數(shù)據(jù)集生成工具主界面
圖8 數(shù)據(jù)集生成工具使用示例
圖9 數(shù)據(jù)集文件數(shù)據(jù)示例
圖10 數(shù)據(jù)集信息文件示例
在開展人工神經(jīng)網(wǎng)絡(luò)技術(shù)在地震預(yù)警方面的應(yīng)用嘗試過程中,本文作者結(jié)合數(shù)據(jù)處理的實(shí)際需求,經(jīng)過需求分析和前期嘗試,初步設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)地震監(jiān)測大數(shù)據(jù)處理平臺,統(tǒng)一通過平臺的數(shù)據(jù)處理工具,對監(jiān)測波形數(shù)據(jù)進(jìn)行導(dǎo)入、標(biāo)記、提取等。目前,平臺數(shù)據(jù)庫中已存儲了一定數(shù)量的帶有規(guī)范標(biāo)記的波形數(shù)據(jù),經(jīng)過持續(xù)積累,可以慢慢形成地震監(jiān)測大數(shù)據(jù);數(shù)據(jù)處理工具的功能也可以持續(xù)開發(fā)和完善,平臺的性能也會不斷優(yōu)化,從而為今后持續(xù)開展人工智能技術(shù)應(yīng)用研究奠定基礎(chǔ)。