王 同 蘇 林 任群言 王文博 賈雨晴 馬 力
①(中國(guó)科學(xué)院聲學(xué)研究所中國(guó)科學(xué)院水聲環(huán)境特性重點(diǎn)實(shí)驗(yàn)室 北京 100190)
②(中國(guó)科學(xué)院大學(xué) 北京 100049)
海水中的聲速是一個(gè)基本的海洋學(xué)變量,它決定了海洋中的聲傳播特性[1]。然而海水的聲速剖面受到很多海水環(huán)境參數(shù)的影響,其中有一些相對(duì)穩(wěn)定的參數(shù),如海底的結(jié)構(gòu)、海洋的深度等;還有一些動(dòng)態(tài)變化的參數(shù),如海水的生物群、海流、溫度、鹽度等,其中溫度變化對(duì)聲速的影響最為顯著[2]。在復(fù)雜的淺海環(huán)境下,海水溫度會(huì)隨著時(shí)間的變化而產(chǎn)生無(wú)規(guī)律起伏,使得淺海聲速剖面在時(shí)空上具有明顯的非線性變化。
海水溫度可以通過(guò)經(jīng)驗(yàn)公式轉(zhuǎn)換為聲速數(shù)據(jù)。海水溫度的預(yù)報(bào)目前主要有經(jīng)驗(yàn)預(yù)報(bào)方法、統(tǒng)計(jì)預(yù)報(bào)方法和數(shù)值預(yù)報(bào)方法[3]。其中海水溫度經(jīng)驗(yàn)預(yù)報(bào)公式僅能夠預(yù)報(bào)旬尺度平均海水溫度;數(shù)值預(yù)報(bào)計(jì)算時(shí)間長(zhǎng),資源需求量大,面對(duì)復(fù)雜海洋環(huán)境和海洋動(dòng)力學(xué)過(guò)程,如何構(gòu)建初始場(chǎng)和參數(shù)化物理過(guò)程是一個(gè)難題;統(tǒng)計(jì)預(yù)報(bào)方法中,卡爾曼濾波方法是以統(tǒng)計(jì)理論為基礎(chǔ)的代表性同化方法,現(xiàn)在已逐漸應(yīng)用到海洋數(shù)值預(yù)報(bào)中[4],但卡爾曼濾波方法在狀態(tài)空間建模時(shí)仍需要較為準(zhǔn)確的狀態(tài)方程描述海洋變化過(guò)程。聲速剖面也可以通過(guò)海洋聲學(xué)的方法反演得到。聲層析方法[5]利用觀測(cè)信號(hào)的某些特征作為觀測(cè)量,通過(guò)聲場(chǎng)傳播模型計(jì)算相同特征得到拷貝量,反演出聲波傳播路徑的等效聲速剖面,具體方法有匹配場(chǎng)層析方法[6-10]等。聲層析反演的本質(zhì)是代價(jià)函數(shù)的尋優(yōu)問(wèn)題,遺傳算法[11,12]和序貫反演算法[13-19]的引入提升了反演結(jié)果的精度,但仍需要進(jìn)行大量的聲場(chǎng)模型計(jì)算以得到拷貝量,計(jì)算量大。
機(jī)器學(xué)習(xí)在數(shù)據(jù)中學(xué)習(xí)得到模型,這使得它在分析預(yù)測(cè)領(lǐng)域取得了優(yōu)異的成績(jī),越來(lái)越多的學(xué)者將機(jī)器學(xué)習(xí)方法應(yīng)用到海洋預(yù)報(bào)問(wèn)題中。Lins等人[20]將支持向量機(jī)與粒子群優(yōu)化算法相結(jié)合,對(duì)巴西東北部海岸海面溫度進(jìn)行預(yù)測(cè);Tangang等人[21]利用神經(jīng)網(wǎng)絡(luò)模型,對(duì)熱帶太平洋的海溫異常進(jìn)行了季節(jié)性預(yù)報(bào); Nowruzi等人[22]利用人工神經(jīng)網(wǎng)絡(luò)(ANN),探究溫度與磁場(chǎng)對(duì)水中聲速預(yù)測(cè)的影響;Jain等人[23]利用人工神經(jīng)網(wǎng)絡(luò)(ANN),利用海表面參數(shù)以及垂直方向上的海水鹽度、溫度等數(shù)據(jù),預(yù)測(cè)了27深度處的聲速; Sun等人[24]使用字典學(xué)習(xí),對(duì)有內(nèi)波擾動(dòng)的聲速剖面進(jìn)行重構(gòu);Zhang等人[25]利用長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)海表溫度進(jìn)行時(shí)間上的預(yù)測(cè),將其描述為一個(gè)時(shí)間序列回歸問(wèn)題;Sarkar等人[26,27]將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)與數(shù)值估計(jì)器相結(jié)合,對(duì)印度洋特定位置的海表溫度進(jìn)行預(yù)測(cè)。
在復(fù)雜的海洋動(dòng)力學(xué)過(guò)程的作用下,海水聲速剖面具有顯著的時(shí)間演化特性,并表現(xiàn)出高度的非線性,聲速剖面的預(yù)測(cè)可以描述為一個(gè)非線性的時(shí)間序列預(yù)測(cè)問(wèn)題。在時(shí)序數(shù)據(jù)的處理上,解決了梯度消失問(wèn)題的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)有著得天獨(dú)厚的優(yōu)勢(shì)?;贚STM單元的編碼-解碼網(wǎng)絡(luò)在序列長(zhǎng)度增加時(shí)性能快速下降,添加注意力機(jī)制能夠幫助LSTM對(duì)時(shí)間模式更好的建模,基于注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)[28,29]在時(shí)間序列預(yù)測(cè)上展現(xiàn)了良好的性能。本文將利用深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò),添加注意力機(jī)制構(gòu)建多維時(shí)間序列預(yù)測(cè)網(wǎng)絡(luò),來(lái)學(xué)習(xí)歷史聲速剖面數(shù)據(jù),對(duì)淺海環(huán)境下的全海深時(shí)變聲速剖面進(jìn)行預(yù)測(cè),并比較多個(gè)模型的預(yù)測(cè)精確度。
Mnih等人[30]于2014年提出了注意力機(jī)制(Attention Mechanism),通過(guò)賦予不斷更新的權(quán)重,使網(wǎng)絡(luò)集中注意力于編碼輸出的某些部分上,而不單依賴內(nèi)容向量,這使得序列對(duì)序列任務(wù)的學(xué)習(xí)效果得到了明顯的提升。
如圖1所示,注意力機(jī)制通過(guò)以下3個(gè)步驟實(shí)現(xiàn)。首先根據(jù)查詢(query) 和鍵(key)計(jì)算兩者的相似性或相關(guān)性,得到注意力分值Similarityi(queryi,keyi),通常使用的函數(shù)和計(jì)算機(jī)制有加性模型、點(diǎn)積模型或余弦相似度等;
其次,引入類似softmax的方式對(duì)第1步的結(jié)果進(jìn)行數(shù)值轉(zhuǎn)換,通過(guò)式(1)對(duì)原始注意力分值進(jìn)行歸一化處理,得到權(quán)重系數(shù)ai
其中,輸入信息表示為鍵值對(duì)(key-value pair),鍵(key)與值(value)相對(duì)應(yīng),在第1步中與查詢(query)計(jì)算相似度,作為注意力選取的依據(jù);查詢(query)是一次執(zhí)行注意力時(shí)的查詢;值(value)是被注意并選取的數(shù)據(jù),往往是上一層的輸出,一般保持不變。
添加雙層注意力機(jī)制的編碼-解碼模型(圖2)由Qin等人[28]在2017年提出,這一模型在股票價(jià)格預(yù)測(cè)問(wèn)題中取得了較為優(yōu)秀的結(jié)果。該模型是在編碼-解碼模型的基礎(chǔ)上,在編碼階段引入注意力機(jī)制,對(duì)輸入進(jìn)行選擇,構(gòu)建輸入注意力層;并在解碼階段引入注意力機(jī)制,來(lái)捕獲輸入當(dāng)中的相關(guān)特征以及相關(guān)的歷史時(shí)刻,構(gòu)建時(shí)間注意力層。在這一構(gòu)建思想上,針對(duì)全海深時(shí)變聲速剖面預(yù)測(cè)問(wèn)題,構(gòu)建DA-LSTM模型。
聲速剖面數(shù)據(jù)來(lái)源于某次海洋調(diào)查試驗(yàn)。溫度鏈潛標(biāo)布放站位處的海深約為87 m,共采集到約為168 h長(zhǎng)達(dá)7 d的溫度數(shù)據(jù),如圖3所示;25°C等溫線分布如圖4,試驗(yàn)中采用CTD測(cè)量得到了全海深的鹽度和溫度數(shù)據(jù),如圖5所示;利用經(jīng)驗(yàn)公式[2]式(12)將溫度鹽度數(shù)據(jù)轉(zhuǎn)換為聲速數(shù)據(jù),式中c為聲速(m/s),T為溫度(°C),S為鹽度(‰),D為深度( m)。轉(zhuǎn)換結(jié)果如圖6所示。
圖2 添加雙層注意力機(jī)制的編碼-解碼模型
圖3 溫度鏈在該站位采集到的溫度數(shù)據(jù)
圖4 該站位處25℃等溫線分布
如圖3所示,在整個(gè)試驗(yàn)周期內(nèi)可以觀測(cè)到豐富的內(nèi)波活動(dòng),受到多源內(nèi)波的影響,溫度數(shù)據(jù)出現(xiàn)無(wú)規(guī)律起伏。
圖5 CTD在該站位測(cè)量得到的溫度、鹽度剖面
圖6 由經(jīng)驗(yàn)公式得到的聲速剖面數(shù)據(jù)
在等溫線波動(dòng)較緩和劇烈處分別選取數(shù)據(jù),共選取4段9 h的聲速剖面數(shù)據(jù),分為數(shù)據(jù)集1、數(shù)據(jù)集2、數(shù)據(jù)集3和數(shù)據(jù)集4,如圖7所示;每個(gè)數(shù)據(jù)集的前8 h數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù),后1 h數(shù)據(jù)作為待預(yù)測(cè)的測(cè)試集數(shù)據(jù),其中白色分割線劃分出了訓(xùn)練集以及待預(yù)測(cè)的測(cè)試集。從圖8可以看到,數(shù)據(jù)集1的25°C等溫線主要在40~50 m內(nèi)波動(dòng),訓(xùn)練集和測(cè)試集在深度方向上波動(dòng)較緩;數(shù)據(jù)集2的25°C等溫線主要在40~60 m內(nèi)波動(dòng),訓(xùn)練集在深度方向上前期波動(dòng)較大,測(cè)試集在深度方向上波動(dòng)較緩;數(shù)據(jù)集3的25°C等溫線主要在40~70 m內(nèi)波動(dòng),其測(cè)試集在深度方向上波動(dòng)跨度較大;數(shù)據(jù)集4的25°C等溫線主要在40~60 m內(nèi)波動(dòng),其訓(xùn)練集在深度方向上前期波動(dòng)較緩,后期波動(dòng)跨度較大,且測(cè)試集在深度方向上波動(dòng)跨度較大。在淺海環(huán)境下聲速剖面預(yù)測(cè)問(wèn)題中,這4個(gè)數(shù)據(jù)集具有一定的代表性,能夠展現(xiàn)模型在該實(shí)際問(wèn)題中的應(yīng)用性能。
圖7 所選取的數(shù)據(jù)集1、數(shù)據(jù)集2、數(shù)據(jù)集3和數(shù)據(jù)集4
圖8 數(shù)據(jù)集的25°C等溫線
為了表明DA-LSTM網(wǎng)絡(luò)模型的有效性,共構(gòu)建了3種神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比,分別為未添加注意力機(jī)制的編碼-解碼模型(Encoder-Decoder),在編碼階段添加注意力機(jī)制的編碼-解碼模型(Encoder-Attn-LSTM),在解碼階段添加注意力機(jī)制的編碼-解碼模型(Decoder-Attn-LSTM);以編碼-解碼模型作為基準(zhǔn)線方法,對(duì)4種網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)性能比較;每種網(wǎng)絡(luò)模型根據(jù)隱藏層個(gè)數(shù)的不同分為4類。每一個(gè)模型在4個(gè)訓(xùn)練集下分別進(jìn)行訓(xùn)練,對(duì)于一個(gè)訓(xùn)練集模型共訓(xùn)練10次,獲得平均的預(yù)測(cè)性能E和最佳的預(yù)測(cè)性能Ebest,以此對(duì)比不同模型的預(yù)測(cè)性能。表1展示了在4個(gè)數(shù)據(jù)集下,不同模型對(duì)全海深聲速剖面的預(yù)測(cè)性能。圖9為DA-LSTM(256)獲得Ebest時(shí)的RMSE。
在表1可以觀察到,在隱藏層個(gè)數(shù)相同的情況下,DA-LSTM網(wǎng)絡(luò)模型的預(yù)測(cè)性能要優(yōu)于其他3種方法,添加了單層注意力機(jī)制的兩個(gè)網(wǎng)絡(luò)模型的預(yù)測(cè)性能優(yōu)于不添加注意力機(jī)制的Encoder-Decoder網(wǎng)絡(luò)模型,這表明了注意力機(jī)制在聲速剖面預(yù)測(cè)問(wèn)題中的促進(jìn)作用;在同一種模型下,增加隱藏層個(gè)數(shù)能夠提升模型的預(yù)測(cè)性能。具體而言,在隱藏元個(gè)數(shù)為256個(gè)的情況下,對(duì)于最佳預(yù)測(cè)性能,DA-LSTM網(wǎng)絡(luò)模型在4個(gè)數(shù)據(jù)集上相較于其他3個(gè)網(wǎng)絡(luò)模型分別有著不同程度的預(yù)測(cè)效果提升:對(duì)于數(shù)據(jù)集1,DA-LSTM網(wǎng)絡(luò)模型相較于Encoder-Attn-LSTM網(wǎng)絡(luò)模型、Decoder-Attn-LSTM網(wǎng)絡(luò)模型、Encoder-Decoder網(wǎng)絡(luò)模型分別有66.5%, 71.9%, 80.5%的預(yù)測(cè)效果提升;對(duì)于數(shù)據(jù)集2,DA-LSTM網(wǎng)絡(luò)模型相較上述3個(gè)網(wǎng)絡(luò)模型分別有59.9%, 50.1%, 51.7%的預(yù)測(cè)效果提升;對(duì)于數(shù)據(jù)集3,在相同情況下,DA-LSTM網(wǎng)絡(luò)模型相較上述3個(gè)網(wǎng)絡(luò)模型分別有39%, 42%, 63%的預(yù)測(cè)效果提升;對(duì)于數(shù)據(jù)集4,在相同情況下,DALSTM網(wǎng)絡(luò)模型相較上述3個(gè)網(wǎng)絡(luò)模型分別有23%,33%, 53%的預(yù)測(cè)效果提升。對(duì)于DA-LSTM網(wǎng)絡(luò)模型,對(duì)于最佳預(yù)測(cè)性能,256元網(wǎng)絡(luò)在4個(gè)數(shù)據(jù)集上相較于128元、64元、32元網(wǎng)絡(luò)分別有著不同程度的預(yù)測(cè)效果提升:在數(shù)據(jù)集1下,256元的網(wǎng)絡(luò)相較于128元、64元、32元網(wǎng)絡(luò)分別有27.1%, 31.5%,39.4%的預(yù)測(cè)效果提升;在數(shù)據(jù)集2下,256元的網(wǎng)絡(luò)相較于128元、64元、32元網(wǎng)絡(luò)分別有7.6%,14.5%, 19.3%的預(yù)測(cè)效果提升;在數(shù)據(jù)集3下,256元的網(wǎng)絡(luò)相較于128元、64元、32元網(wǎng)絡(luò)分別有25%, 33%, 52%的預(yù)測(cè)效果提升;在數(shù)據(jù)集4下,256元的網(wǎng)絡(luò)相較于128元、64元、32元網(wǎng)絡(luò)分別有41%, 22%, 59%的預(yù)測(cè)效果提升。
表1 不同模型對(duì)全海深聲速剖面的預(yù)測(cè)性能
圖9 DA-LSTM (256)獲得Ebest時(shí)的RMSE
對(duì)于引入單層注意力機(jī)制的兩個(gè)網(wǎng)絡(luò)模型,對(duì)聲速剖面在深度方向上的空間特征和在時(shí)間步上的時(shí)間演化特征分別進(jìn)行了建模。而DA-LSTM網(wǎng)絡(luò)在編碼階段引入輸入注意力機(jī)制,捕獲不同深度上的空間特征;在解碼階段引入時(shí)間注意力機(jī)制,捕獲不同時(shí)間步上的時(shí)間演化特征。圖10可視化了DA-LSTM(256)網(wǎng)絡(luò)在空間和時(shí)間上的注意力權(quán)重分布。圖10(a)、圖10(b)為數(shù)據(jù)集1下DA-LSTM(256)網(wǎng)絡(luò)的注意力可視化圖,圖10(c)、圖10(d)為數(shù)據(jù)集2下DA-LSTM(256)網(wǎng)絡(luò)的注意力可視化,圖10(e)、圖10(f)為數(shù)據(jù)集3下DA-LSTM(256)網(wǎng)絡(luò)的注意力可視化,圖10(g)、圖10(h)為數(shù)據(jù)集4下DA-LSTM(256)網(wǎng)絡(luò)的注意力可視化;圖10(a)、圖10(c) 、圖10(e) 、圖10(g)為空間上的注意力權(quán)重分布,圖10(b)、圖10(d)、圖10(f) 、圖10(h)為時(shí)間上的注意力權(quán)重分布。
從圖10可以看到,在數(shù)據(jù)集1上,30~40 m深度的注意力權(quán)重較高;在數(shù)據(jù)集2上,40~60 m深度的注意力權(quán)重較高;在數(shù)據(jù)集3上,40~70 m深度的注意力權(quán)重較高;在數(shù)據(jù)集4上,40~60 m深度的注意力權(quán)重較高。而從圖8可以看到,4個(gè)數(shù)據(jù)集中聲速剖面起伏較大的深度,大致在這兩個(gè)深度范圍內(nèi),表明在編碼階段引入輸入注意力機(jī)制,成功捕獲了不同深度上的空間相關(guān)性。而DALSTM(256)網(wǎng)絡(luò)在時(shí)間上的注意力權(quán)重分布較為均勻,表明各時(shí)間步的重要性較為一致。
圖10 注意力可視化圖
淺海海洋環(huán)境復(fù)雜多變,面對(duì)具有非線性時(shí)間演化特性的聲速剖面預(yù)測(cè)問(wèn)題,現(xiàn)有的海溫預(yù)報(bào)方法和聲層析方法,有著物理模型復(fù)雜難以建模、運(yùn)算量大等難題。本文利用深度學(xué)習(xí)中的循環(huán)神經(jīng)網(wǎng)絡(luò),添加注意力機(jī)制構(gòu)建多維時(shí)間序列預(yù)測(cè)網(wǎng)絡(luò),來(lái)學(xué)習(xí)歷史聲速剖面數(shù)據(jù),對(duì)淺海環(huán)境下的全海深時(shí)變聲速剖面進(jìn)行預(yù)測(cè)。本文共構(gòu)建了4種神經(jīng)網(wǎng)絡(luò)模型:Encoder-Decoder網(wǎng)絡(luò)模型,添加單層注意力機(jī)制的Encoder-Attn-LSTM網(wǎng)絡(luò)模型和Decoder-Attn-LSTM網(wǎng)絡(luò)模型網(wǎng)絡(luò),以及DALSTM網(wǎng)絡(luò)模型。在兩個(gè)不同的數(shù)據(jù)集下設(shè)置不同參數(shù)進(jìn)行訓(xùn)練,獲得不同神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果表明,DA-LSTM網(wǎng)絡(luò)模型在4個(gè)不同類型數(shù)據(jù)集上都達(dá)到了與其他3個(gè)網(wǎng)絡(luò)模型相比的最佳預(yù)測(cè)性能,在不同數(shù)據(jù)集上有著不同程度的預(yù)測(cè)效果提升。此外,本文將注意力權(quán)值可視化進(jìn)行了分析,該結(jié)果表明注意力機(jī)制成功捕捉到聲速剖面在時(shí)空上的演化特征,注意力權(quán)重的分布能夠與實(shí)際物理現(xiàn)象相關(guān)聯(lián),為水聲學(xué)中物理模型與機(jī)器學(xué)習(xí)的結(jié)合提供了新的思路。
由于本文的目標(biāo)是預(yù)測(cè)單一站點(diǎn)未來(lái)一個(gè)時(shí)間步的聲速剖面,接下來(lái)的工作將進(jìn)行單一站點(diǎn)多時(shí)間步的聲速剖面預(yù)測(cè)問(wèn)題,并考慮如何將這一方法擴(kuò)展,進(jìn)行2維海域以及3維海域的時(shí)變聲速剖面預(yù)測(cè)。