佘雅文 付廣裕
1 南京大學地球科學與工程學院,南京市仙林大道163號,210023 2 中國地震局地震預測研究所地震預測重點實驗室,北京市復興路63號,100036
獲取高空間分辨率的重力異常場對研究地球形狀、地球內(nèi)部結(jié)構(gòu)和物質(zhì)遷移活動等重要地球物理問題至關(guān)重要,但受限于儀器精度和時間經(jīng)濟成本,現(xiàn)階段難以直接通過地表重力觀測手段獲取高空間分辨率的重力異常場,而通常是通過對觀測結(jié)果進行推估獲取[1-2]。隨著重力觀測數(shù)據(jù)的不斷積累,不同區(qū)域的重力觀測數(shù)據(jù)覆蓋率逐漸提升[3-4],同時大數(shù)據(jù)分析技術(shù)的興起,使深度神經(jīng)網(wǎng)絡在各個方面取得廣泛應用[5]。深度神經(jīng)網(wǎng)絡中的循環(huán)神經(jīng)網(wǎng)絡主要應用于序列數(shù)據(jù)分析,在數(shù)據(jù)趨勢推估方面具有良好的效果[6]。
基于循環(huán)神經(jīng)網(wǎng)絡在數(shù)據(jù)推估方面的優(yōu)勢,本文首先對觀測的自由空氣重力異常數(shù)據(jù)進行隨機采樣,作為訓練循環(huán)神經(jīng)網(wǎng)絡模型的數(shù)據(jù)集;然后基于長短期記憶循環(huán)神經(jīng)網(wǎng)絡,結(jié)合訓練數(shù)據(jù)集對神經(jīng)網(wǎng)絡進行訓練;最后通過比較分析神經(jīng)網(wǎng)絡和傳統(tǒng)克里金方法計算結(jié)果的差異,對2種方法進行評價。
為方便對比循環(huán)神經(jīng)網(wǎng)絡和傳統(tǒng)克里金插值方法的結(jié)果,采用2014和2017年鄂爾多斯西南緣地區(qū)的自由空氣重力異常數(shù)據(jù)[7],該數(shù)據(jù)包含385個重力觀測點。圖1為觀測點空間分布圖,圓點不同顏色表示自由空氣重力異常值。重力異常觀測儀器為Burris相對重力儀,采用A-B-C- … -C-B-A觀測方式來提高觀測精度,平差處理軟件為LGADJ[8]。在經(jīng)過正常場改正和高程改正后,可得到自由空氣重力異常。
圖2為循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)圖,由輸入層Ii、隱藏層Si和輸出層Oi組成,其中I、S和O為向量。U
圖2 循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.2 Structure of recurrent neural network
為輸入層到隱藏層的權(quán)重矩陣,V為隱藏層到輸出層的權(quán)重矩陣,W為上一神經(jīng)元的輸出權(quán)重矩陣。上述各變量的關(guān)系可表示為:
Oi=g(VSi)
(1)
Si=f(UIi+WSi-1)
(2)
式中,f和g為激活函數(shù),本文采用反正切函數(shù)作為激活函數(shù)[8]。
由式(1)和(2)可得:
Oi=g(Vf(UIi+Wf(UIi-1+Wf(UIi-2+
Wf(UIi-3+…)))))
(3)
式(3)也同時表明該神經(jīng)網(wǎng)絡存在不足:在訓練模型時需要采用梯度下降法,通過反向迭代來求解隱藏層Si,當數(shù)據(jù)序列很長時,在模型訓練計算時會出現(xiàn)梯度爆炸和梯度彌散問題[9],即Si過大或趨于0。出現(xiàn)梯度爆炸和梯度彌散都將影響序列數(shù)據(jù)之間信息的傳遞,進而造成循環(huán)神經(jīng)網(wǎng)絡計算結(jié)果較差,無法滿足應用研究的需求。為解決梯度爆炸和梯度彌散問題,長短期記憶神經(jīng)元被引入到循環(huán)神經(jīng)網(wǎng)絡中,并已取得良好效果[6,10]。
LSTM將RNN中Si替換為2個輸出值進行處理,即神經(jīng)元的當前狀態(tài)值Ci和輸出值hi。Ci可保存序列數(shù)據(jù)的長期狀態(tài),通過遺忘門(Fi)、輸入門(Ii)和輸出門(Oi)進行控制。圖3為LSTM神經(jīng)元結(jié)構(gòu)圖,其中各變量之間的數(shù)學關(guān)系見式(4):
Ini=tanh(WxInIi+WhInhi-1+bi)
Ji=sigm(WxjIi+Whjhi-1+bj)
Fi=sigm(WxfIi+Whfhi-1+bf)
Oi=tanh(WxoIi+Whohi-1+bo)
Ci=Ci-1⊙Fi+Ii⊙Ji
hi=tanh(Ci)⊙Oi
(4)
式中,tanh和sigm分別為反正切函數(shù)和sigmoid函數(shù),sigmoid函數(shù)取值范圍為0~1,可對信息進行篩選,控制上一層信息進入該層的程度?!褳樵胤e符號,W*和b*分別為權(quán)重矩陣和偏置項。結(jié)合圖3和式(4)可知,通過LSTM神經(jīng)元可控制需要記憶和遺忘的數(shù)據(jù)信息,使隱藏層輸出合適數(shù)值,并將數(shù)據(jù)信息狀態(tài)通過Ci進行傳遞,從而解決梯度爆炸和梯度彌散問題。
圖3 長短期記憶神經(jīng)網(wǎng)絡結(jié)構(gòu)Fig.3 Structure of long short-term memory
神經(jīng)網(wǎng)絡訓練的核心工作是對訓練數(shù)據(jù)集進行多參數(shù)擬合。循環(huán)神經(jīng)網(wǎng)絡訓練主要分3步進行:一是輸出前向計算神經(jīng)元;二是反向計算神經(jīng)元的誤差項δi,該項為誤差函數(shù)對神經(jīng)元i的加權(quán)輸入矩陣的偏導數(shù);三是計算每個權(quán)重的梯度,并利用隨機梯度下降算法更新權(quán)重。同時,通過隨機拋棄部分神經(jīng)元參數(shù)的方式,防止出現(xiàn)過擬合情況,以獲取最優(yōu)的訓練模型。在本文研究中,將輸入層對應為訓練數(shù)據(jù)集中重力觀測點的位置信息,輸出層則為訓練數(shù)據(jù)集的自由空氣重力異常?;贚STM方法對自由空氣重力異常數(shù)據(jù)進行訓練,以獲取合適的深度神經(jīng)網(wǎng)絡模型,并將其用于推估其他位置的重力異常值。
為研究循環(huán)神經(jīng)網(wǎng)絡對自由空氣重力異常的推估能力,將傳統(tǒng)克里金方法[11]獲取的推估結(jié)果與LSTM循環(huán)神經(jīng)網(wǎng)絡的結(jié)果進行對比分析。LSTM循環(huán)神經(jīng)網(wǎng)絡采用4個隱藏層和每層72個神經(jīng)元的網(wǎng)絡結(jié)構(gòu)進行訓練,迭代次數(shù)為3 000次。基于圖1的觀測數(shù)據(jù),隨機抽取50、100和150個點作為訓練數(shù)據(jù)集,將剩余點作為測試數(shù)據(jù)集。對每個采樣點數(shù)進行100次隨機采樣,各自生成100組訓練數(shù)據(jù)集。使用LSTM和克里金方法分別進行推估計算,將推估結(jié)果與測試數(shù)據(jù)集進行求差并計算差異的標準差,結(jié)果如圖4所示。
Mean和Std分別表示平均值和標準差,Num為訓練集數(shù)據(jù)量
通過比較LSTM和克里金方法的結(jié)果可知,LSTM方法獲取的100組隨機數(shù)據(jù)的推估結(jié)果和測試數(shù)據(jù)集差異的標準差分布符合正態(tài)分布,結(jié)果較為穩(wěn)定,且測試標準差小于克里金方法,相對而言克里金方法獲取的結(jié)果較為分散?;谝陨嫌柧毥Y(jié)果,本文認為利用LSTM循環(huán)神經(jīng)網(wǎng)絡方法推估的自由空氣重力異常結(jié)果比傳統(tǒng)克里金方法更為可靠。但訓練神經(jīng)網(wǎng)絡所需的時間遠大于克里金方法的計算時間,即使在使用GPU (Nvidia Tesla P4)訓練的情況下,使用包含100個數(shù)據(jù)點的訓練集,訓練4層72個神經(jīng)元所需的時間超過120 s,而克里金方法耗時則小于1 s,從效能角度考慮克里金方法仍占優(yōu)勢。隨著計算機硬件能力和神經(jīng)網(wǎng)絡基礎研究的發(fā)展,相信未來基于神經(jīng)網(wǎng)絡的推估方法會逐漸替代傳統(tǒng)方法。
為進一步測試LSTM方法和傳統(tǒng)克里金方法對實測數(shù)據(jù)的推估能力,基于圖1中數(shù)據(jù)分別使用2種方法推估計算鄂爾多斯西南緣的自由空氣重力異常場(圖5)。為方便對比分析,分別繪制鄂爾多斯西南緣EIGEN-6C4模型[12]自由空氣重力異常場(圖5(a))和高程空間分布結(jié)果(圖5(b)),高程數(shù)據(jù)提取自ETOPO1模型[13]。圖5(c)和5(d)分別為克里金方法和LSTM方法的推估結(jié)果,這2組結(jié)果是基于經(jīng)度和緯度的二維推估計算結(jié)果,推估計算點為0.1°×0.1°網(wǎng)格數(shù)據(jù)。由圖5(a)、5(c)和5(d)可知,受限于觀測點的分布(圖5中黑點),雖然2種方法推估的自由空氣重力異常結(jié)果均不理想,但相對于克里金方法,LSTM方法推估的重力異常分布特征與模型數(shù)據(jù)更為接近,特別是在研究區(qū)中部和北部,LSTM方法可正確推估重力異常低值和高值區(qū)域。圖5(e)和5(f)為2種方法基于圖1中385個觀測點數(shù)據(jù)的經(jīng)度、緯度和高程數(shù)據(jù)進行的三維推估結(jié)果,推估計算點與二維方法一致。除經(jīng)緯度信息外,還加入對應點的高程信息(圖5(b))。LSTM方法獲取的結(jié)果與模型數(shù)據(jù)基本一致,且明顯優(yōu)于克里金方法,該結(jié)果表明加入高程數(shù)據(jù)作為約束條件對神經(jīng)網(wǎng)絡的訓練更為有利,這與前人的研究結(jié)果一致[14]。
圖5 基于不同推估方法的鄂爾多斯西南緣自由空氣重力異常場Fig.5 Free-air gravity anomaly field in the southwestern margin of Ordos based on different estimation methods
基于觀測的自由空氣重力異常數(shù)據(jù),對LSTM循環(huán)神經(jīng)網(wǎng)絡的推估能力進行分析,并與傳統(tǒng)克里金方法的推估結(jié)果進行比較,得到以下結(jié)論:1)LSTM循環(huán)神經(jīng)網(wǎng)絡可利用有限的數(shù)據(jù)獲取較好的推估結(jié)果。2)LSTM循環(huán)神經(jīng)網(wǎng)絡的推估能力優(yōu)于傳統(tǒng)克里金方法,但在運算效率上克里金方法表現(xiàn)更優(yōu)。3)利用鄂爾多斯西南緣的觀測數(shù)據(jù)對整個區(qū)域進行推估,結(jié)果表明,LSTM方法明顯優(yōu)于克里金方法,加入高程數(shù)據(jù)作為約束條件可有效提高LSTM方法推估自由空氣重力異常場的精度。