尹 飛 戚甲偉 滕東東
(山東科技大學(xué) 測繪與空間信息學(xué)院, 山東 青島 266590)
水深是海底地形測繪和海洋環(huán)境調(diào)查的基本要素之一。作為海洋與陸地或島嶼和珊瑚礁周圍環(huán)境的相互作用區(qū),淺水為海洋和沿海生態(tài)系統(tǒng)的可持續(xù)性和生物多樣性提供了基本的物理環(huán)境[1]。傳統(tǒng)的水深測量費(fèi)時(shí)費(fèi)力,且海上天氣多變,淺海地形復(fù)雜,測量工作會(huì)受到影響。隨著遙感技術(shù)的發(fā)展,越來越多的學(xué)者利用多光譜遙感圖像的方法進(jìn)行淺海水深測量。遙感方法可以進(jìn)行大范圍的同步測量,具有效率高、成本低的優(yōu)點(diǎn)。對偏遠(yuǎn)水域以及海域爭端地區(qū),遙感技術(shù)可以作為傳統(tǒng)測深技術(shù)的有效補(bǔ)充[2]。
使用遙感圖像進(jìn)行水深測繪的關(guān)鍵是建立圖像像元值和實(shí)測水深值之間的數(shù)值關(guān)系[3]。Lyzenga等在不考慮水體內(nèi)部反射效應(yīng)的條件下,研究底質(zhì)分類對水深反演的影響,建立水深與水體反射率之間的理論解析模型,是最早提出的理論解析模型[4]。由于模型中多種水體光學(xué)參數(shù)難以獲取,限制了其實(shí)際應(yīng)用。因此,Stumpf等提出了對數(shù)比值模型,可以在一定程度上消除復(fù)雜底質(zhì)的影響[5]。但由于水體懸浮物質(zhì)、海底底質(zhì)等因素存在,使得水深和水體表面輻射亮度之間的線性關(guān)系并不總是成立。因此,水深反演的半經(jīng)驗(yàn)半理論算法具有一定的局限性。
隨著計(jì)算機(jī)領(lǐng)域的快速發(fā)展,機(jī)器學(xué)習(xí)算法在解決多變量、非線性復(fù)雜問題等方面具有出色的模擬能力。許多學(xué)者開始利用機(jī)器學(xué)習(xí)方法進(jìn)行水深測量研究。溫開祥等使用XGBoost、隨機(jī)森林以及支持向量機(jī)的方法,利用Sentinel-2衛(wèi)星數(shù)據(jù),對梅州水庫進(jìn)行水深反演[6]。閆峰等對懸浮泥沙光譜特性進(jìn)行分析,將“泥沙因子”作為BP(back propagation)神經(jīng)網(wǎng)絡(luò)的輸入?yún)?shù),構(gòu)建的水深反演模型在一定程度上削弱了懸浮泥沙對遙感測深的影響,反演性能明顯優(yōu)于線性回歸模型[7]。可見,選擇適當(dāng)?shù)姆囱菀蜃涌梢杂行岣咚罘囱菽P偷木取?/p>
海洋生態(tài)環(huán)境復(fù)雜,在生物活動(dòng)和自然環(huán)境的影響下,海底底質(zhì)類型往往是復(fù)雜多樣的,與假設(shè)的均一理想條件差距很大,研究區(qū)域的底質(zhì)帶來的空間異質(zhì)性會(huì)影響水深反演的精度??臻g特征可以提高水深之間的空間自相關(guān),結(jié)合光譜特征有助于提高水深反演的精度[3]。本文考慮到復(fù)雜底質(zhì)帶來的空間異質(zhì)性問題,在光譜信息的基礎(chǔ)上引入空間特征因子,用地理坐標(biāo)表征空間特征,采用XGBoost算法與BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建水深反演模型,降低了水深殘差的空間聚集性,提高了模型的空間一致性,水深反演精度顯著提高。
甘泉島(Robert Island)位于中國西沙群島,北緯16°30′28″,東經(jīng)111°35′10″,面積約為0.3 km2。由于遠(yuǎn)離大陸,受人為影響較小,大氣條件良好,水質(zhì)清澈透明,適合開展水深反演研究。研究區(qū)域的多光譜圖像如圖1所示。
圖1 研究區(qū)域的多光譜圖像
本文使用的GeoEye-1衛(wèi)星數(shù)據(jù)于2013年2月18日拍攝,其成像時(shí)的太陽天頂角為134.5°,衛(wèi)星方位角為113.8°。屬于L2A標(biāo)準(zhǔn)產(chǎn)品。影像基于WGS-84坐標(biāo)系,通用橫軸墨卡托投影(universal transverse Mercator,UTM)。有4個(gè)標(biāo)準(zhǔn)波段(藍(lán)、綠、紅、近紅外)以及一個(gè)全色波段。衛(wèi)星具體的參數(shù)如表1所示。
表1 GeoEye-1遙感影像參數(shù)
計(jì)算地物的光譜反射率時(shí),要將圖像無量綱的像元亮度值(digital number,DN)轉(zhuǎn)化為具有實(shí)際意義的輻射亮度值。本文采用的是絕對輻射定標(biāo)方法。精確的大氣糾正對精確的測深至關(guān)重要,本文使用6S大氣校正模型(second simulation of a satellite signal in the solar spectrum)來消除大氣粒子、氣溶膠以及分子的散射和吸收對水體信息提取的干擾,獲得高度真實(shí)的地面輻射或反射[8]。
實(shí)測水深數(shù)據(jù)為2013年1月通過機(jī)載Optech Aquarius測深系統(tǒng)采集得到的激光雷達(dá)測深數(shù)據(jù)。其坐標(biāo)系為2000國家大地坐標(biāo)系(China Geodetic Coordinate System 2000,CGCS2000)坐標(biāo)系,高斯-克呂格3°帶投影,中央經(jīng)線為111°E。通過解析激光雷達(dá)波形獲得的水深對應(yīng)于瞬時(shí)水深,需要利用潮汐數(shù)據(jù)對測深數(shù)據(jù)進(jìn)行校正,以獲得光學(xué)遙感圖像采集時(shí)間的水深值[8]。通過查找潮汐表可以得到遙感影像成像時(shí)刻對應(yīng)的瞬時(shí)潮高為0.91 m,則測量水深與潮高之和就是遙感影像的瞬時(shí)水深。
極限梯度提升算法, 即XGBoost(eXtreme Gradient Boosting)算法,是由陳天奇提出的基于Boosting思想的集成學(xué)習(xí)算法,其核心是基于梯度提升樹實(shí)現(xiàn)的集成算法[9]。XGBoost采用多顆分類回歸樹(classification and regression tree,CART)進(jìn)行預(yù)測,不斷進(jìn)行特征分裂生長成樹。每次迭代過程中都會(huì)增加一棵樹。把每次生成的樹當(dāng)作新函數(shù),用來擬合上一次殘差。各個(gè)葉節(jié)點(diǎn)的權(quán)重之和,即所需的預(yù)測值[10]。模型的目標(biāo)函數(shù)Obj可以表示為
(1)
(2)
式中,γ為節(jié)點(diǎn)切分的難度;T表示葉子節(jié)點(diǎn)的個(gè)數(shù);λ為L2正則化系數(shù);ω為葉子節(jié)點(diǎn)向量的模。
通過多次實(shí)驗(yàn)對模型進(jìn)行優(yōu)化調(diào)參,參數(shù)取值如表2所示,其他參數(shù)缺省。
表2 XGBoost模型參數(shù)
BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò)模型之一,它是一類基于誤差逆向傳播算法的多層前饋神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)理論上可以在結(jié)構(gòu)合理、權(quán)值適當(dāng)?shù)那闆r下逼近任意非線性連續(xù)函數(shù)。它利用誤差梯度下降算法使網(wǎng)絡(luò)輸出值與實(shí)際輸出值之間的均方誤差最小,因而在模擬水深反演這種非線性變化系統(tǒng)上,相比傳統(tǒng)的統(tǒng)計(jì)方法具有更好的能力[11]。
本文采用3層BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如圖2所示,分別是輸入層、隱含層、輸出層。輸入層中的神經(jīng)元負(fù)責(zé)接收信息后傳入到中間的神經(jīng)元,神經(jīng)元通過調(diào)整內(nèi)部節(jié)點(diǎn)關(guān)系的連接,進(jìn)而達(dá)到處理信息的目的。隱含層把處理完成后的信息再傳入到輸出層中。進(jìn)一步處理數(shù)據(jù)后,輸出水深值。通過反復(fù)訓(xùn)練,由表3可知,當(dāng)隱含層節(jié)點(diǎn)數(shù)為6時(shí),均方根誤差最小。其他參數(shù)默認(rèn)為缺省值。模型的參數(shù)設(shè)置具體如表4所示。
圖2 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
表3 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
表4 BP神經(jīng)網(wǎng)絡(luò)模型參數(shù)
圖3為波段反射率與水深相關(guān)性圖,即使有相同的光譜輻射,圖3(a)與3(b)藍(lán)綠波段與水深相關(guān)性較好,而紅波段在水深超過5 m,近紅外波段超過2 m時(shí),由于紅光與近紅外光不再以輻射傳輸方程指數(shù)衰減,他們與水深之間的相關(guān)性會(huì)變差。僅靠光譜特征不足以進(jìn)行水深測量,因此有必要從遙感圖像中提取其他特征。
由于海底底質(zhì)分布上的不均勻性及其復(fù)雜性,會(huì)導(dǎo)致空間的異質(zhì)性問題,影響模型反演水深的精度??臻g特征在遙感影像上也是一個(gè)不可忽視的特征。引入空間特征可以有效地解決空間異質(zhì)性問題[12]。地理坐標(biāo)信息是最容易獲得的空間特征信息,可以作為模型反演的因子來反演水深。
(a)藍(lán)波段的水深
本文共計(jì)提取了6 119個(gè)的水深樣本點(diǎn),每個(gè)水深樣本點(diǎn)包含4個(gè)波段的反射率信息、實(shí)測水深值以及地理坐標(biāo)信息。將提取的實(shí)測水深樣本點(diǎn)按照7∶3比例隨機(jī)劃分為訓(xùn)練樣本數(shù)據(jù)集和驗(yàn)證樣本數(shù)據(jù)集。其中,訓(xùn)練集用于擬合模型參數(shù)來構(gòu)建水深反演模型,驗(yàn)證集用于衡量模型的性能和反演精度。以決定系數(shù)(the coefficient of determination,R2),均方根誤差(root mean squard error,RMSE)和平均絕對誤差(mean absolute error,MAE)作為評(píng)價(jià)指標(biāo)。
為驗(yàn)證空間特征信息對水深反演模型精度的影響,將空間特征與GeoEye-1遙感影像的藍(lán)、綠、紅、近紅外4個(gè)波段反射率信息結(jié)合,共同作為水深反演因子,輸入到建立的XGBoost與BP神經(jīng)網(wǎng)絡(luò)水深反演模型中,來對比分析模型水深值與實(shí)測水深之間的線性關(guān)系。圖4為甘泉島附近反演水深和實(shí)測深度的誤差散點(diǎn)圖,圖中通過坐標(biāo)原點(diǎn)且斜率為1的紅色輔助線稱為“1∶1”線,“1∶1”線上表示模型水深值等于實(shí)測水深值。空間特征模型相比波段反射率模型的驗(yàn)證點(diǎn)更均勻地分布在“1∶1”的兩側(cè),表示其實(shí)測值與水深值基本吻合。
表5中,XGBoost和BP神經(jīng)網(wǎng)絡(luò)水深反演模型的決定系數(shù)為0.97時(shí),說明模型水深與實(shí)際水深之間存在強(qiáng)相關(guān)性。以無空間特征的波段反射率模型為參考,空間特征模型RMSE明顯優(yōu)于波段反射率模型。其中,結(jié)合空間特征的XGboost水深反演模型的精度最高,其RMSE為0.90 m,較波段反射率模型減少了0.49 m。結(jié)合空間特征的BP神經(jīng)網(wǎng)絡(luò)模型RMSE從1.37 m降低到0.94 m。
表5 XGBoost與BP神經(jīng)網(wǎng)絡(luò)的反演精度對比表
(a)XGBoost波段反射率
為了更好地評(píng)估模型的性能,根據(jù)XGBoost與BP神經(jīng)網(wǎng)絡(luò)水深反演模型,繪制了甘泉島淺海海域的全局水深圖,如圖5所示。其中,圖5(d)是實(shí)測水深反演圖。XGBoost與BP神經(jīng)網(wǎng)絡(luò)模型得到的水深反演結(jié)與實(shí)測水深的整體變化趨勢大致保持一致。說明兩個(gè)機(jī)器學(xué)習(xí)的模型反演水深的性能較好。
XGBoost模型在甘泉島北側(cè)的淺水區(qū)域,引入空間特征模型的水深反演結(jié)果相比以無空間特征的波段反射率為因子的模型,明顯與實(shí)測水深更相近。而引入空間特征的BP神經(jīng)網(wǎng)絡(luò)模型,其在陸地周圍區(qū)域比無空間特征的模型表現(xiàn)更佳。
(a)GeoEye-1遙感影像
根據(jù)反演水深點(diǎn)的殘差分布來體現(xiàn)空間特征因子對模型精度的影響。如圖6所示,由于甘泉島周圍分布珊瑚與砂分布不均勻,導(dǎo)致預(yù)測的殘差分布不均勻。僅使用波段反射率因子的模型大于4 m或小于-4 m的殘差表現(xiàn)為聚集狀態(tài),可能是由于底質(zhì)的差異導(dǎo)致。引入空間特征的兩個(gè)模型,如圖6(b)與6(d)所示,甘泉島北側(cè)淺水區(qū)域,XGBoost模型與BP神經(jīng)網(wǎng)絡(luò)模型精度提高顯著,大于4 m或小于-4 m的(較大的紅色和黃色圓點(diǎn))殘差和在區(qū)間-4~-2 m和2~4 m(較小的紅色和黃色圓點(diǎn))的殘差點(diǎn)明顯減少。引入空間特征因子反演得到的水深殘差在-2~2 m的點(diǎn)(白色圓點(diǎn))相比僅使用光譜信息的水深明顯增多,正負(fù)的殘差點(diǎn)均勻分布,表明引入空間特征因子可以提高水深反演的精度。
(a)XGBoost波段反射率殘差圖
本研究的主要目的是探究結(jié)合光譜信息的空間特征因子對XGBoost與BP神經(jīng)網(wǎng)絡(luò)模型的影響,探索其在水深反演中的潛力??紤]由于海底底質(zhì)和水質(zhì)變化導(dǎo)致的空間異質(zhì)性問題,提出了將空間特征作為模型的輸入量,與無空間特征的模型相比較。XGBoost與BP神經(jīng)網(wǎng)絡(luò)模型的R2從0.94提高到0.97, RMSE分別從1.39與1.37 m降低到0.90與0.94 m,降幅分別為25.3%與31.4%。引入空間特征的兩個(gè)機(jī)器學(xué)習(xí)模型被賦予更高的空間一致性,降低了模型殘差的空間聚集性,避免由于空間異質(zhì)性導(dǎo)致的誤差分布不均勻帶來的問題,水深反演精度提升顯著,為后續(xù)機(jī)器學(xué)習(xí)反演水深研究提供了有效的參考方向。盡管本研究區(qū)域僅限于甘泉島,但這些方法被認(rèn)為能夠推廣到世界其他珊瑚礁區(qū)域的有效參考。