車濛琪,陳 俊,應允翔,朱 虹,張明明
(1.蒙城監(jiān)測中心站,安徽 蒙城 233527;2.蒙城地球物理野外觀測站,安徽 蒙城 233527)
“十三五”建設(shè)后期,國內(nèi)建設(shè)了越來越多地磁觀測臺站。面對大量產(chǎn)出的地磁數(shù)據(jù),傳統(tǒng)人工地磁數(shù)據(jù)處理方法存在工作效率低、主觀性強等缺陷[1]。實現(xiàn)觀測數(shù)據(jù)的自動化和智能化處理,已然成為了地震科技創(chuàng)新工作中的主流方向。隨著人工智能相關(guān)理論與技術(shù)的發(fā)展,深度學習憑借其覆蓋范圍廣、學習能力強、數(shù)據(jù)驅(qū)動上限高等優(yōu)勢成為各個領(lǐng)域中的應用熱門[2]。當前,國內(nèi)外研究人員對深度學習應用于地磁數(shù)據(jù)處理領(lǐng)域進行了深入研究,在地磁暴預測、大地電磁反演和地磁數(shù)據(jù)重構(gòu)等方面取得了突破性進展。Amy M.[3]等利用OMNIWeb 數(shù)據(jù)構(gòu)建數(shù)據(jù)集并在前饋人工神經(jīng)網(wǎng)絡(luò)(ANN)和長短時記憶(LSTM)下進行訓練,最終得到的模型具有較好預測效果;而Adrian Tasistro-Hart 等[4]通過添加更多觀測值作為特征以提高模型預測能力;Spichak 等[5]利用ANN 探索大地電磁三維反演問題的可能性;姚休義等[6]利用BP 神經(jīng)網(wǎng)絡(luò)完成對地磁觀測數(shù)據(jù)重構(gòu)工作。以上工作均為在深度學習框架下對地磁數(shù)據(jù)進行研究,并產(chǎn)出良好的產(chǎn)品。
在此情境下,將人工智能深度學習技術(shù)與地磁觀測相結(jié)合,利用神經(jīng)網(wǎng)絡(luò)通過對不同干擾數(shù)據(jù)集的學習,實現(xiàn)干擾自動化分類,可為進行干擾判別的一線檢測人員提供參考依據(jù),并減少人工檢查成本,進而提高工作效率和穩(wěn)定性。因此,為更好推進地磁觀測干擾自動化和智能化的識別研究,本文通過對原始數(shù)據(jù)的篩選及對干擾標簽的整合,構(gòu)建了地磁干擾數(shù)據(jù)集及標簽樣本。然后基于目前主流深度學習模型進行實驗對比,敲定合理訓練數(shù)據(jù)格式,構(gòu)造合適訓練樣本,為后期搭建模型訓練用地磁干擾數(shù)據(jù)庫奠定了基礎(chǔ)。
在日常地磁相對觀測中得到了大量的原始數(shù)據(jù),并及時進行了預處理。當數(shù)據(jù)受到干擾時,地震監(jiān)測臺站一線工作人員將會對其進行分類,并由學科組進行復核,經(jīng)過幾年的積累地磁觀測臺網(wǎng)數(shù)據(jù)庫獲得了具有一定可靠性的干擾標簽。地磁干擾分類利用深度學習中的監(jiān)督學習,本質(zhì)上是一個對訓練數(shù)據(jù)特征提取及參數(shù)優(yōu)化的問題[7]。構(gòu)造合適數(shù)據(jù)集和具有可靠性干擾標簽是學習數(shù)據(jù)集特征及對應標簽的必要步驟。
收集全國共25 個臺站34 套儀器地磁觀測數(shù)據(jù)及預處理標簽,具體臺站、測點儀器及數(shù)據(jù)時間見表1,干擾數(shù)據(jù)閾值設(shè)置為0.5 nT。數(shù)據(jù)收集地域具有廣泛性,且連續(xù)率、完整率高,并擁有一定的干擾樣本。根據(jù)近年來深度學習在mnist 手寫體分類中良好的應用[8-9],參與訓練的數(shù)據(jù)樣本量需在60 000條以上。為保障后續(xù)數(shù)據(jù)集的準確性和科學性,通過對數(shù)據(jù)集數(shù)據(jù)進行隨機采樣加人工校驗來評估其質(zhì)量。整個樣本集的錯誤率低于0.5%時,可以認定本文構(gòu)建的數(shù)據(jù)集具有較高質(zhì)量和可信度,并能夠完成深度學習訓練。
表1 數(shù)據(jù)采用詳細信息
為檢驗數(shù)據(jù)集質(zhì)量,通過調(diào)用keras 的封裝模塊使用CNN 完成深度學習過程。CNN 模型已不斷發(fā)展形成了適用于各個場景的架構(gòu)模型,在地震與噪聲分類[7]、微震與爆破事件辨識[10]、地震事件自動檢測[11]、地震反演[12]等各實驗中有良好的表現(xiàn)。Keras 基于Tensorflow 實現(xiàn)且模塊化程度高,其中包含網(wǎng)絡(luò)層、損失函數(shù)、優(yōu)化器、激活函數(shù)等常用獨立模塊,能根據(jù)需求快速搭建并訓練深度學習網(wǎng)絡(luò)模型[13]。本文參考有眾多成功經(jīng)驗的經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)“Le-Net5”[14],及在地震與噪聲分類中CNN模型的變形,構(gòu)建包含1 個輸入層、6 個隱藏層以及1 個輸出層的一維卷積模型,使神經(jīng)網(wǎng)絡(luò)能更好獲得地磁干擾樣本數(shù)據(jù)集的空間特性,以完成分類目標。將表1 中收集數(shù)據(jù)建立為實驗組,將只含有昌黎臺數(shù)據(jù)建立為對比組。
主要實驗流程分3 步:確立樣本數(shù)據(jù)的干擾類別、確定樣本數(shù)據(jù)的數(shù)據(jù)格式、將樣本數(shù)據(jù)與干擾類別標簽對應。其技術(shù)路線(其中n為樣本數(shù)量)見圖1。
圖1 技術(shù)路線
確立干擾類別:地磁觀測中長時間段內(nèi)的數(shù)據(jù)是正常、不存在干擾的,存在干擾的數(shù)據(jù)一般遠少于正常數(shù)據(jù),并且不同干擾類別數(shù)據(jù)的數(shù)量也是存在量級差異。統(tǒng)計實驗組數(shù)據(jù)得到高壓直流干擾和未分類干擾在日常觀測中出現(xiàn)頻次多,能夠提供一定數(shù)量樣本以保障訓練正常進行。因此,本文嘗試選擇3 種干擾類型標簽進行實驗,分別為無干擾、高壓直流干擾、未分類干擾類型。
數(shù)據(jù)格式的確定:選取30 分鐘時長的數(shù)據(jù)為一個數(shù)據(jù)樣本。根據(jù)觀測數(shù)據(jù)特點、地磁要素計算及訓練需要,并參照圖像分類識別,將地磁D、H、Z 三分量波形看作一維三通道圖像數(shù)據(jù),選取實驗組、對照組三測向數(shù)據(jù),分割、重組、構(gòu)建成為30分鐘長度×3 通道的數(shù)據(jù)格式。有些時間段的數(shù)據(jù)由于缺數(shù)或入庫問題并未采集到,重組時出現(xiàn)某半小時時段內(nèi)缺少某分量數(shù)據(jù)的情況時,遵從“優(yōu)勝劣汰”原則進行嚴格數(shù)據(jù)清理,刪除該條樣本數(shù)據(jù)。有些時段內(nèi)數(shù)據(jù)由于儀器或觀測環(huán)境影響存在部分缺數(shù),“NULL”在深度學習過程會造成特征提取困難,將所有空值使用0 替換,篩選掉問題數(shù)據(jù)。最終構(gòu)造數(shù)據(jù)集時,為保障分類質(zhì)量評估結(jié)果的準確性和可靠性,3 個類別標簽樣本數(shù)量應不存在量級差距,所以對3 個類別需隨機挑選固定且無量級差異的樣本數(shù)量后進行訓練。分割統(tǒng)計后,2 個組別內(nèi)均為高壓直流輸電干擾樣本數(shù)最少,以各自高壓直流樣本數(shù)作為其他2 個干擾類別樣本數(shù)量。最終實驗組數(shù)據(jù)集樣本數(shù)約為15 000×3 條,對比組數(shù)據(jù)集樣本數(shù)約為2 000×3 條,實驗樣本集達到訓練樣本量要求。各數(shù)據(jù)集的20%劃分為測試集,剩下數(shù)據(jù)將在模型訓練中將80%劃分為訓練集、20%劃分為驗證集。
進行標簽對應處理時,需要在訓練數(shù)據(jù)洗牌后,利用初始索引保證樣本數(shù)據(jù)與干擾標簽之間對應關(guān)系不變。將處理好的同類型訓練樣本分別存入“.npy”文件中方便日常管理和之后訓練時提取。
分別用實驗組和對比組進行三分類和二分類。其中二分類將三分類中的高壓直流和未分類干擾歸為一類作為有干擾類別,無干擾類別不進行操作。將實驗組和對比組分別進行二分類三分類的訓練。具體訓練過程中準確率和損失變化見圖2~5;模型訓練精度與驗證精度比較見表2。
圖2 實驗中出現(xiàn)的早停
表2 模型訓練精度與驗證精度比較
在訓練開始前,需對訓練集內(nèi)的樣本進行標準化和歸一化。在確定標準化對象后,發(fā)現(xiàn)對每個樣本3 個通道分別進行標準化后的數(shù)據(jù)集將獲得更高的準確率(accuracy)和更低的損失(loss)??梢姙楂@得更好的分類效果,需在訓練前對每個訓練樣本的每個通道進行標準化。
訓練過程中,添加使用批標準化“batch_normalization”和激活函數(shù)“relu”。全連接層中使用“dropout”,神經(jīng)元的丟棄概率為“0.3”,達到避免過擬合目的。訓練和測試的批次大小都為“30”,使用 Adam 優(yōu)化器,學習率初始值為“0.01”。當訓練集數(shù)量不足時,迭代次數(shù)多后則避免不了出現(xiàn)過擬合現(xiàn)象。過擬合將導致最終模型泛化能力低,對測試集預測效果較差,需避免。例如圖6 箭頭過后出現(xiàn)過擬合現(xiàn)象,驗證集的精度不再上升、損失不再下降而改為開始上升,利用“早停”停止訓練。再利用“saveBestModel”功能保存最優(yōu)模型完成訓練,保存下來的模型在之后的訓練直接加載即可繼續(xù)學習。
圖6 對比組小樣本量三分類acc 和loss
為更好地了解模型在三分類過程中3 種干擾類型的訓練情況,在上述實驗后構(gòu)建新測試集,利用實驗組在三分類訓練中得到的模型進行分類測試。在得到3 種干擾預測標簽后與真實標簽進行計算,利用“sklearn.metrics”模塊導出其混淆矩陣和各干擾召回率、f1 等參數(shù)報告表格(表3~4)。
表3 各干擾召回率、f 1 等參數(shù)報告
在保障一定樣本數(shù)量的前提下,經(jīng)歷數(shù)據(jù)清洗和樣本格式重構(gòu)后的數(shù)據(jù)集其實驗分類準確率在80%左右,說明該數(shù)據(jù)集和模型具有一定識別干擾能力,但準確率和召回率都有待提升。通過訓練曲線可以發(fā)現(xiàn),驗證集和訓練集各參數(shù)在幾次迭代后、未達到良好分類效果前迅速出現(xiàn)了差距,說明訓練出現(xiàn)了過擬合現(xiàn)象。
根據(jù)實驗組和對比組組間對比,即大樣本量同小樣本量精度對比,無論是在三分類(圖4 與圖5 對比)還是二分類任務(wù)(圖2 與圖3 對比)中,大樣本量的數(shù)據(jù)集損失更小、準確率更大。實驗結(jié)果符合深度學習規(guī)律:在分類模型能力內(nèi),數(shù)據(jù)集樣本越多,特征學習越好,訓練后分類效果越佳。
圖3 實驗組大樣本量二分類acc 和loss
圖4 對比組小樣本量二分類acc 和loss
圖5 實驗組大樣本量三分類acc 和loss
查看表2,比較三分類和二分類在不同數(shù)據(jù)集中的表現(xiàn),可以發(fā)現(xiàn)在三分類實驗中實驗組訓練效果相較于對比組訓練效果的提升要大于在二分類中的提升,進行較少分類目標的實驗將擁有更高的準確率和更低的損失。表明更進一步的分類依賴于充足的樣本量,更多更細的分類需要更多數(shù)據(jù)樣本支持。
查看表3 中各干擾類別的召回率情況,混淆矩陣可以清楚地表示模型對新測試集樣本各干擾的分類判別情況(表4),發(fā)現(xiàn)-1(正常)和0(未分類干擾)判別成為313(高壓直流輸電干擾)較少,而313(高壓直流輸電干擾)易預測為-1(正常)??赡芨糠峙_站數(shù)據(jù)受高壓直流輸電影響但變化幅度不大有關(guān),模型對樣本集中的313 特征提取不夠或泛化性不足。
表4 測試集混淆矩陣
通過建立地磁干擾數(shù)據(jù)集、搭建CNN 網(wǎng)絡(luò)模型,進行模型訓練、驗證與測試,證明了通過CNN 網(wǎng)絡(luò)的分類能力可以應用于地磁干擾分類這一應用場景?;谏疃葘W習構(gòu)造的數(shù)據(jù)集經(jīng)過嚴格數(shù)據(jù)清理過程,該數(shù)據(jù)集數(shù)據(jù)覆蓋范圍廣、易收集與添加新樣本,后期維護簡單,能在訓練后產(chǎn)出具有一定分類能力的模型,實現(xiàn)地磁干擾分類。
未來在進一步工作中可繼續(xù)研究的方向有以下幾個方面。
1)構(gòu)造數(shù)據(jù)集工作量較大,嘗試在同一個數(shù)據(jù)集下同時實現(xiàn)不同的任務(wù),實現(xiàn)數(shù)據(jù)集價值最大化;并繼續(xù)補充數(shù)據(jù)集樣本數(shù)量,并嘗試手動挖掘一些特征,嘗試不同格式加入原始數(shù)據(jù)集,以期獲得更好分類效果,在干擾類別更細、更多的任務(wù)下也可以較好完成分類。
2)實驗中,在較大數(shù)據(jù)量上還是容易出現(xiàn)過擬合,考慮單個樣本所含特征較少或模型構(gòu)造及參數(shù)仍可改進,在未來模型調(diào)參時針對過擬合進行調(diào)節(jié),并且可考慮適當擴大輸入層節(jié)點。如秒數(shù)據(jù)中特征表現(xiàn)往往更為明顯,則利用分數(shù)據(jù)標簽套用到秒數(shù)據(jù)中,嘗試增大每個樣本的數(shù)據(jù)長度或?qū)?shù)據(jù)集采用傳統(tǒng)的平移、濾波、使用插值等預處理手段,探索更高精度的分類效果。
3)將該數(shù)據(jù)集基于更深層或更多不同架構(gòu)的模型、不同激活函數(shù)、不同損失函數(shù)計算方式(如加權(quán)交叉熵函數(shù)等)下進行訓練,測試其特性并根據(jù)要求或結(jié)果優(yōu)化數(shù)據(jù)集格式和預處理方法。