鐘國榮,李學剛,曲寶曉,王彥俊,袁華茂,宋金明
( 1. 中國科學院海洋研究所 海洋生態(tài)與環(huán)境科學重點實驗室,山東 青島 266071;2. 中國科學院大學,北京 100049;3. 青島海洋科學與技術試點國家實驗室 海洋生態(tài)與環(huán)境科學功能實驗室,山東 青島 266237;4. 中國科學院 海洋大科學研究中心,山東 青島 266071)
當前的研究普遍認為大洋每年可以吸收約2 Pg(以碳計)左右的大氣CO2,這一結果主要是通過海?氣二氧化碳分壓差估算出來的,并且與模式的估計也相一致。但用分壓差估算出的結果仍有很大的不確定性,主要原因是二氧化碳海?氣交換速率的不確定,以及參與計算的表層海水二氧化碳分壓(pCO2)的數(shù)據(jù)較少且空間分布不均勻[1–3]。盡管pCO2實測數(shù)據(jù)相對一些其他參數(shù)比較容易獲得,可以通過基于非色散紅外法的船舶連續(xù)走航觀測獲得[4],但獲得的實測數(shù)據(jù)相對于整個大洋來說仍然較少,這使得通過集成多年的數(shù)據(jù)構建氣候態(tài)分布成為過去比較有效的研究方法[5],但要獲得大范圍區(qū)域pCO2的連續(xù)時間變化用一般的空間插值法僅依靠這些實測數(shù)據(jù)是遠遠不夠的。并且實測數(shù)據(jù)在時空分布上也非常不均勻,特別是早期20世紀70年代前的實測數(shù)據(jù)幾乎沒有,這極大地限制了基于pCO2演化有關的大洋碳循環(huán)研究的時空尺度。雖然美國國家航空航天局(NASA)、歐洲多國合作觀測項目(EPOCA)等一直在著手擴展海洋觀測網(wǎng)絡,但巨大的資金投入換來的也是十分有限的時空覆蓋范圍。在這個背景下,通過大數(shù)據(jù)技術利用僅有的少量觀測數(shù)據(jù)和一些輔助參數(shù),構建均勻的大洋pCO2格點數(shù)據(jù)來研究全球變化成為新的突破方向。有研究者嘗試利用傳統(tǒng)的多元線性回歸來重建二氧化碳分壓變化,但其結果只適用于有限的特定區(qū)域[6],甚至只適用于特定季節(jié)[7]。相比之下機器學習算法和人工神經(jīng)網(wǎng)絡更具有優(yōu)勢,可以通過實驗建立起大量參數(shù)間的實證關聯(lián),來更準確地反映復雜的海水系統(tǒng)中pCO2的變化規(guī)律[8]。機器學習算法包括隨機森林算法(Random Forest Algorithm,RFRE)、支持向量機(Support Vector Machine,SVM)等,目前的研究也多局限于單一過程主導的小范圍區(qū)域,對復雜區(qū)域及全球范圍的預測則顯得比較乏力。人工神經(jīng)網(wǎng)絡種類很多,現(xiàn)有研究中利用的有前反饋神經(jīng)網(wǎng)絡(Feed forward Neural Network,F(xiàn)FNN)[9–10]、自組織映射神經(jīng)網(wǎng)絡(Self-Organizing Map,SOM)[11]等,目前仍存在較大的不確定性,其標準誤差從17.6 μatm到20.2 μatm不等[12–13]。廣義回歸神經(jīng)網(wǎng)絡(General Regression Neural Network, GRNN)是FFNN中徑向基網(wǎng)絡的一種變形形式,與傳統(tǒng)的前反饋網(wǎng)絡相比,GRNN是非線性擬合能力特化的形式,在各個學科和工程領域應用都更加廣泛。GRNN無需傳統(tǒng)的改變神經(jīng)元間連接權值的訓練,只需要對一個光滑因子尋優(yōu),訓練速度比FFNN快幾十到上百倍,對數(shù)據(jù)預測的連續(xù)性也優(yōu)于SOM的離散估計。為了獲得誤差更低的高時空分辨率全球表層海水pCO2數(shù)據(jù),本文首次嘗試了將GRNN應用于表層海水pCO2格點數(shù)據(jù)的推演。
研究使用的表層海水二氧化碳分壓實測數(shù)據(jù)來源于表層大洋二氧化碳地圖(Surface Ocean CO2Atlas,SOCATv2019)數(shù)據(jù)集,該數(shù)據(jù)集由超過100個成員組成的國際海洋碳研究組織組建,對實測數(shù)據(jù)進行了質量控制后公開發(fā)布。整個數(shù)據(jù)集包含約2570萬條觀測數(shù)據(jù),時間范圍為從1957?2018年。由于受葉綠素濃度數(shù)據(jù)的時間范圍限制,我們只使用了1998?2018年的數(shù)據(jù)。數(shù)據(jù)的總數(shù)量分布如圖1所示。實測數(shù)據(jù)的分布十分不均勻,整體上北半球數(shù)據(jù)覆蓋率和數(shù)據(jù)總量都高于南半球,歐洲、日本與美國東部沿岸等少數(shù)區(qū)域數(shù)據(jù)總量超過10萬條,而印度洋、南太平洋和一些近岸區(qū)域20年間數(shù)據(jù)總量只有100到1000條左右,不到10條甚至沒有數(shù)據(jù)的區(qū)域也占不小的比例。在時間分布上不均勻的程度更加明顯,如圖2所示的最近20 a獲得的pCO2調查數(shù)據(jù),以后10 a數(shù)據(jù)量多,數(shù)據(jù)覆蓋范圍更廣,而前10 a數(shù)據(jù)量少,覆蓋范圍也小。
圖1圖例中n為數(shù)據(jù)的數(shù)量級,代表格點位置中有10n條實測數(shù)據(jù),灰色部分代表格點位置中無實測數(shù)據(jù)。
圖1 1998–2018年間SOCAT二氧化碳分壓數(shù)據(jù)分布情況Fig. 1 Spatial distribution of pCO2 observations in SOCAT dataset from 1998 to 2018
圖中實測數(shù)據(jù)覆蓋范圍指有實測數(shù)據(jù)的網(wǎng)格數(shù)占海洋區(qū)域總網(wǎng)格數(shù)的比例,1°×1°經(jīng)緯度的分辨率下,海洋區(qū)域總網(wǎng)格數(shù)約為43000個。
在SOCAT數(shù)據(jù)集中給出的是二氧化碳逸度(fCO2),在使用時將其轉換成二氧化碳分壓,以便與其他研究或數(shù)據(jù)集進行對比驗證,二者間的換算關系為[14]
式中,R為氣體常數(shù)(8.314 J/(K·mol));p為大氣壓(單位:Pa);T為絕對溫度(單位:K);B和δ為校正系數(shù)(單位:m3/mol),計算式為
圖2 SOCAT pCO2實測數(shù)據(jù)時間分布Fig. 2 Temporal distribution of pCO2 observations in SOCAT dataset
理論上,表層海水二氧化碳分壓主要受海水的熱力學性質、生物活動和物理過程控制。在新構建的方法中,選取了與這些過程緊密相關的溫度、鹽度和葉綠素濃度,加上與時空連續(xù)性相關的經(jīng)緯度、時間等參數(shù)作為推演pCO2的輔助參數(shù)。這些輔助參數(shù)的實測數(shù)據(jù)時空覆蓋范圍決定了生產(chǎn)出的格點數(shù)據(jù)的時空覆蓋范圍,因此在相關性高的條件下,應優(yōu)先選擇實測數(shù)據(jù)多的參數(shù)。本方法中使用的表層海水溫度與葉綠素濃度為衛(wèi)星遙感數(shù)據(jù),具有足夠大的空間范圍和足夠長時間的連續(xù)觀測。通過建立與這些參數(shù)間的非線性關系來推演表層海水二氧化碳分壓變化:
式中,Lon、Lat為經(jīng)過三角函數(shù)換算的經(jīng)緯度,經(jīng)度為0°~360°制,以保證數(shù)據(jù)在空間上的連續(xù)性。Year、Month分別為數(shù)據(jù)對應的年和月;SST、SSS分別為表層海水的溫度(單位:℃)、鹽度;CHL為葉綠素濃度(單位:mg/m3)。使用的所有參數(shù)實測數(shù)據(jù)來源如表1所示。
表1 數(shù)據(jù)來源Table 1 Data source
廣義回歸網(wǎng)絡是Specht[15]在1991年建立的一種徑向基網(wǎng)絡的變形形式,和徑向基網(wǎng)絡一樣具有良好的非線性問題處理能力,并且訓練更為方便。將訓練樣本作為后驗條件,在Parzen非參數(shù)估計的基礎上,廣義回歸網(wǎng)絡計算輸出時遵循最大概率原則[16]。
假設神經(jīng)網(wǎng)絡的輸入和輸出分別為X和Y,聯(lián)合概率密度可表示為f(X,Y),以X0代表訓練集的觀測值輸入,Y相對X的回歸為
輸入X0時,神經(jīng)網(wǎng)絡的預測輸出為Y(X0)。給出訓練樣本數(shù)據(jù)集X0與Y0的情況下,利用Parzen非參數(shù)估計對密度函數(shù)f(X0,Y)進行估算并化簡可以得到:
式中,n為樣本總數(shù),l為輸入變量X的維數(shù)。σ為光滑因子,等同于高斯函數(shù)中的標準差。Xi代表第i個計算樣本對應的神經(jīng)網(wǎng)絡輸入,Yi代表第i個計算樣本對應的神經(jīng)網(wǎng)絡輸出;X0j代表訓練樣本數(shù)據(jù)集輸入X0的第j個維度,Xij代表第i個計算樣本對應的輸入Xi的第j個維度。
式(10)即為廣義回歸神經(jīng)網(wǎng)絡計算出的預測值,其分子為訓練集中所有樣本求出的Yi的加權和,權值等于 e?d(X0,Xi)。
從結構上看,廣義神經(jīng)網(wǎng)絡分為4層:輸入層、隱含層、加和層和輸出層(圖3)。
圖3 廣義回歸神經(jīng)網(wǎng)絡結構Fig. 3 Structure of general regression neural network
輸入層即負責接收樣本數(shù)據(jù)的輸入向量X,神經(jīng)元數(shù)量與輸入向量X的維數(shù)l相同,以簡單的線性函數(shù)作為傳輸函數(shù)。其中維數(shù)l等于7,即輸入包含7個維度,分別為經(jīng)度、緯度、年、月、海表溫度、海表鹽度和葉綠素濃度。一些研究中時間僅使用月或者僅使用年作為輔助參數(shù),但同時使用能略微降低整體的誤差,因為增加了輸入向量的維度,而且這對計算時間影響很小。隱含層的神經(jīng)元數(shù)量為馴良樣本數(shù)量,通常使用高斯函數(shù)作為基礎函數(shù),Φi代表第i個隱含層神經(jīng)元,其中心向量為對應的輸入向量Xi。加和層的神經(jīng)元只有兩種,分別為分子單元和分母單元。分子單元將訓練集樣本的輸出期望作為權值,求得隱含層神經(jīng)元的加權和,即式(12)中的分子部分,分母單元負責的是隱含層神經(jīng)元的代數(shù)和,即式(12)中的分母部分,分子單元和分母單元的輸出在輸出層中相除即得到輸入X對應的預測輸出Y。
為快速檢索,原始實測數(shù)據(jù)根據(jù)時間和經(jīng)緯度存儲在細胞數(shù)組中,時間分辨率為12月×21 a,空間分辨率為1°×1°經(jīng)緯度,對神經(jīng)網(wǎng)絡進行訓練時需要先將格點化的數(shù)據(jù)集轉換成向量,再將其輸入到網(wǎng)絡中,過程如圖4所示。
圖4 原始數(shù)據(jù)向量化過程Fig. 4 Vectorization of original data
訓練使用的樣本數(shù)據(jù)集為1998?2018年的所有數(shù)據(jù)中隨機抽取的80%,由于數(shù)據(jù)總量大,并且格點數(shù)據(jù)構建的目標最小時間分辨率為1個月,對同1個1°×1°格點里同1個月內的pCO2實測數(shù)據(jù)進行了算術平均化處理。GRNN程序通過MATLAB自帶的廣義回歸神經(jīng)網(wǎng)絡函數(shù)工具箱實現(xiàn),網(wǎng)絡的創(chuàng)建、訓練和插值計算均可以通過工具箱函數(shù)命令進行。其中訓練過程在創(chuàng)建的同時完成,函數(shù)語法為
式中,X0、Y0分別為訓練集的輸入和對應的期望輸出,X0是經(jīng)度、緯度、年、月、溫度、鹽度、葉綠素濃度實測數(shù)據(jù)組成的向量,Y0是pCO2實測數(shù)據(jù)組成的向量;net為網(wǎng)絡名,在同時存在多個網(wǎng)絡時用于辨識;newgrnn為MATLAB自帶的廣義回歸網(wǎng)絡工具箱函數(shù),用于創(chuàng)建并訓練網(wǎng)絡。spread為擴散速度,是人為設定的固定標量,默認為1.0,其值越大擬合出的曲線越平滑,但如果想更精確地接近訓練樣本的期望輸出,應該選擇較小的擴散速度值,經(jīng)過多次試驗后我們擇優(yōu)選取的值為1.4。廣義回歸網(wǎng)絡的訓練過程目的是為了求得式(9)中光滑因子σ值的最佳值,這個值很大程度地影響網(wǎng)絡的性能。當σ值非常大時,d(X0,Xi)趨近于0,計算出的輸出Y(X0)近似于所有訓練集樣本輸出的平均值;當σ值趨近于0時,神經(jīng)網(wǎng)絡會出現(xiàn)過學習的現(xiàn)象,表現(xiàn)為給定的輸入與訓練集中某一數(shù)據(jù)相同時,計算得到的預測輸出與實測值非常接近,但給出的輸入不在訓練數(shù)據(jù)集中時,計算出的輸出與實測值偏差較大。避免這各種情況出現(xiàn)的方法是對輸入的各個參數(shù)量級進行調整,保證各參數(shù)變化范圍的數(shù)量級不相差過大。在我們使用的輸入?yún)?shù)中,除年份外的參數(shù)均在0~40間變化,因此將所有數(shù)據(jù)的年份的數(shù)量級調整到與其他參數(shù)一致:
調整后年份的變化范圍為1~21,這樣就避免了過學習現(xiàn)象的出現(xiàn)。
創(chuàng)建并訓練網(wǎng)絡后,輸入二氧化碳分壓空白區(qū)域對應的溫、鹽等參數(shù)組成的向量X,即可計算出預測的二氧化碳分壓值Y,函數(shù)語法為
式中,net和創(chuàng)建時的net為網(wǎng)絡名,可替換為其他名稱,但兩個過程的名稱必須保證一致。在這個計算過程中,輸入的向量X包括了所有待插值的格點,不需要每個格點單獨計算。最后再將輸出的二氧化碳分壓預測值向量Y還原成180°×360°大小的矩陣,存儲到細胞數(shù)組中,插值方法結束。
由于在插值方法訓練時僅使用80%的實測數(shù)據(jù),剩余的20%實測數(shù)據(jù)就可用于對方法進行準確性評估。這20%實測數(shù)據(jù)在訓練完成后輸入到神經(jīng)網(wǎng)絡中,比較實測值Y0和神經(jīng)網(wǎng)絡計算出的預測值Y的差異來評估所構建數(shù)據(jù)的準確度。通常用標準誤差(RMSE)和平均相對誤差(MRE)來描述方法的精確度。
其中標準誤差的計算公式為
式中,Yi代表第i個樣本的pCO2神經(jīng)網(wǎng)絡預測值,Y0i代表第i個樣本的pCO2實測值,n為進行誤差評估的測試樣本總數(shù),參與神經(jīng)網(wǎng)絡訓練的數(shù)據(jù)不用于誤差評估。標準誤差對一次預測中的特大或特小誤差十分敏感,反映出預測值相對于實際值的偏離程度,是用于評價擬合效果的指標中最常用的。
平均相對誤差的計算公式為對每個點誤差占實測值的比重求平均:
對比廣義回歸網(wǎng)絡計算出的預測值Y和實測值Y0可以發(fā)現(xiàn),預測結果與實測數(shù)據(jù)基本一致。以Y為x軸,Y0為y軸作圖,絕大部分數(shù)據(jù)點聚集在y=x直線處,部分偏離較遠但仍均勻地靠近直線并分布在直線兩側(圖5),回歸線也十分逼近y=x直線。全球大洋的預測值相較于實測值的平均相對誤差為2.97%,標準誤差為16.93 μatm,相關系數(shù)為0.8847。實測數(shù)據(jù)多的區(qū)域,如亞熱帶太平洋、赤道太平洋和亞熱帶大西洋,插值預測的表現(xiàn)最好,標準誤差為10.45~13.87 μatm,平均相對誤差為1.93%~2.66%。南太平洋數(shù)據(jù)量較少,誤差卻也很低,可能是因為數(shù)值變化范圍較其他區(qū)域小,實測pCO2值均在250~450 μatm之間,而不管哪個區(qū)域在這一區(qū)間內的預測值與實測值都很接近。表2給出了與其他方法的標準誤差對比[11–13,17–21],在整體上,GRNN略優(yōu)于FFNN與SOM,具體到特定區(qū)域范圍時,一些機器學習算法的表現(xiàn)可能更加精確,例如Chen等[17]使用隨機森林算法重建了墨西哥灣的pCO2變化,標準誤差僅9.10 μatm,然而僅適用于主導因素較為單一的小范圍區(qū)域。也有研究將SOM和FFNN結合在一起,利用SOM將大西洋劃分成多個區(qū)域,對每個區(qū)域訓練一個FFNN來進行插值預測[20],但精確度并沒有顯著提升,并且由于同時使用了兩種神經(jīng)網(wǎng)絡,應用起來更加繁瑣。近岸區(qū)域由于受到陸地徑流和人類活動等因素影響,規(guī)律十分復雜,廣義回歸網(wǎng)絡做出的預測表現(xiàn)與大洋區(qū)域相比較差,但相近于Laruelle等[21]使用SOM-FFNN法對近岸區(qū)域的預測表現(xiàn)。如果包含近岸區(qū)域,整體的標準誤差將上升到21.60 μatm,但其他的研究也只關注大洋區(qū)域,或者只關注近岸區(qū)域,并沒有統(tǒng)一研究。
圖5 廣義回歸神經(jīng)網(wǎng)絡預測值與實測值對比Fig. 5 Comparation of GRNN predict pCO2 and in situ measurements
表2 GRNN與其他方法誤差對比Table 2 Comparation of errors between GRNN and other approaches
圖6 GRNN與實測值及其他神經(jīng)網(wǎng)絡方法同時間點pCO2數(shù)據(jù)結果對比Fig. 6 Comparation of pCO2 distribution between in situ measurements, GRNN and other approaches
盡管存在一定的誤差,GRNN法的結果與pCO2實測值的分布在高值和低值區(qū)域的位置上基本一致(圖6a,圖6b)。與同樣使用SOCAT數(shù)據(jù)集的其他神經(jīng)網(wǎng)絡方法的數(shù)據(jù)產(chǎn)品進行對比(圖6b至圖6d),圖6c為SOM法,標準誤差為23.3 μatm,圖6d為SOM?FFNN聯(lián)用法,標準誤差為22.8 μatm,幾種方法整體的季節(jié)趨勢表現(xiàn)出高度的一致。在1月份,南半球中緯度海域pCO2高,南太平洋東部高于西部;北半球中緯度海域整體pCO2低,而北太平洋和北大西洋近極地區(qū)域與中緯度區(qū)域相反,pCO2高。7月中緯度海域整體分布規(guī)律與1月大致相反,南大洋pCO2高,北極區(qū)域低,這些特征都與其他方法給出的結果相一致。盡管使用的實測pCO2數(shù)據(jù)集一致,不同方法使用的輔助參數(shù)種類也不同,例如圖6中另外兩種方法中,圖6c使用的參數(shù)中沒有經(jīng)度,使用了混合層深度,圖6d沒有經(jīng)緯度和時間,這可能也是特定區(qū)域的pCO2分布規(guī)律上各有差異的原因,特別是印度洋等實測數(shù)據(jù)少的區(qū)域。此外,不同研究使用的輔助參數(shù)空間覆蓋范圍不同,導致構建出的pCO2空間范圍存在差異。不同類型的神經(jīng)網(wǎng)絡本身的特性也存在差異,由于SOM給出的是離散的估計,數(shù)據(jù)的空間連續(xù)性最差,存在明顯的斑塊狀分布。SOM-FFNN雖然是連續(xù)的估計,但是數(shù)據(jù)過渡也不太平滑,銳利的邊界仍存在。而表層海水并不是相互獨立的,由于物理混合過程的影響,高分辨率的情況下相鄰網(wǎng)格間月平均pCO2不應該相差太大。比起其他方法,GRNN法推演出的數(shù)據(jù)平滑程度更高,不需再進行人為的二次處理來達到平滑過渡效果,有潛力應用于更高分辨率的數(shù)據(jù)構建上,如0.25°×0.25°甚至更高。
除了神經(jīng)網(wǎng)絡法外,與Takahashi等[24]通過將數(shù)十年的實測數(shù)據(jù)校正到同一年,構建氣候態(tài)分布的方法對比,pCO2的整體分布規(guī)律也存在較高的一致性。如圖7b是Takahashi等[24]的研究中給出的校正到2005年的1月pCO2全球分布,圖7a是同時間GRNN法給出的結果,北太平洋的高值帶和低值帶、南大洋的低值區(qū)域等非常相似。盡管使用的源數(shù)據(jù)和方法本身上存在一些差異,使不同研究的結果在具體的區(qū)域分布各有不同,但整體的分布規(guī)律高度相似,結合標準誤差和平均相對誤差來看,有足夠的理由相信廣義回歸神經(jīng)網(wǎng)絡在二氧化碳分壓的插值預測上是可靠的。
圖7 GRNN法與Takahashi等[24]氣候態(tài)pCO2數(shù)據(jù)對比(2005年1月)Fig. 7 Comparation of pCO2 distributions between GRNN output and Takahashi[24] climatological mean (January, 2005)
基于廣義回歸神經(jīng)網(wǎng)絡,建立了表層海水二氧化碳分壓與經(jīng)緯度、時間、溫度、鹽度和葉綠素濃度間的非線性關系,并據(jù)此重建了近20年來表層海水二氧化碳分壓的全球分布,標準誤差為16.93 μatm,平均相對誤差為2.97%。與其他方法的對比證實了本插值方法的可靠性,并且廣義回歸神經(jīng)網(wǎng)絡法的適用性更強,對近岸區(qū)域也能做出預測,其表現(xiàn)與只關注近岸區(qū)域的其他研究相近,網(wǎng)絡訓練的速度也遠高于其他神經(jīng)網(wǎng)絡。使用廣義回歸網(wǎng)絡進行插值預測時,由于不需要設定擴散速度外的參數(shù),插值結果的表現(xiàn)主要受實測數(shù)據(jù)本身影響。在參數(shù)選擇方面,輸入?yún)?shù)對神經(jīng)網(wǎng)絡的預測表現(xiàn)影響很大,但增加相關性低的參數(shù)并不能提高精確度,反而會降低輸出數(shù)據(jù)的平滑度,導致分布呈現(xiàn)斑塊狀,并且會增加計算時間。雖然增加相關性高的參數(shù)可以顯著地提高精確度,但受該參數(shù)可獲得性的極大限制。例如本研究在pCO2參數(shù)的構建中選用的葉綠素濃度,該參數(shù)與pCO2有較高的相關性,但由于僅能獲取該參數(shù)在1998年以后的大量衛(wèi)星遙感數(shù)據(jù),也僅能用該參數(shù)重建1998年以后的pCO2數(shù)據(jù),而由于無法獲得足夠的1998年之前的數(shù)據(jù),就無法用本研究建立的插值方法重建1998年之前的pCO2數(shù)據(jù)?,F(xiàn)有研究也大部分是通過使用衛(wèi)星遙感數(shù)據(jù)來解決參數(shù)可獲得性的問題,但滿足條件的衛(wèi)星遙感數(shù)據(jù)也只有最近幾十年的,這也是大部分現(xiàn)有研究都只能重建近幾十年pCO2數(shù)據(jù)的原因。而更早期的觀測數(shù)據(jù)過少,很難支撐大范圍的預測插值,因此如何重建早期的pCO2數(shù)據(jù)成為待解決的下一個難題。