余 果, 鐘雅楓, 付東洋, 劉大召, 徐華兵
1. 廣東海洋大學(xué)化學(xué)與環(huán)境學(xué)院, 廣東 湛江 524088
2. 廣東海洋大學(xué)電子與信息工程學(xué)院, 廣東 湛江 524088
3. 南方海洋科學(xué)與工程廣東省實(shí)驗(yàn)室(湛江), 南海資源大數(shù)據(jù)中心, 廣東 湛江 524025
4. 廣東省海洋遙感與信息技術(shù)工程技術(shù)中心, 廣東 湛江 524088
顆粒物后向散射系數(shù)(bbp)是水體中重要的固有光學(xué)量, 主要受到水中懸浮顆粒物的濃度, 大小, 組成, 形狀和結(jié)構(gòu)等因素影響[1], 而懸浮顆粒物在海洋生態(tài)系統(tǒng)和生物地球化學(xué)循環(huán)中扮演著重要的角色[2], 因此了解bbp的光譜特性及影響因子對近海二類水體的光學(xué)和生態(tài)環(huán)境研究具有重要的意義。 近年來, 國內(nèi)外學(xué)者對海洋中bbp的光譜特性及影響因子進(jìn)行了相關(guān)的研究, 如Gordon等[3]在圣地亞哥和夏威夷近海海域進(jìn)行研究發(fā)現(xiàn),bbp隨波長的變化可以用冪函數(shù)表示; Reynolds等[2]利用楚科奇海和波弗特海的現(xiàn)場實(shí)測數(shù)據(jù)來分析海水中bbp與懸浮物濃度、 體積組成和尺寸分布之間的關(guān)系; 姜玲玲等[4]發(fā)現(xiàn)渤海近岸不同季節(jié)水體顆粒物的粒徑構(gòu)成對bbp具有不同的影響; Sun等[5]基于渤海、 黃海和東海的野外測量數(shù)據(jù), 分析了顆粒物后向散射比的變化規(guī)律, 并對顆粒物后向散射比變化的驅(qū)動機(jī)制展開了研究。 然而, 目前對于受人類活動影響較大和富營養(yǎng)水平較高的半封閉海灣水體顆粒物的光學(xué)行為仍缺乏深入地了解, 對湛江灣bbp的研究可為近海二類水體光學(xué)研究提供一次有意義的補(bǔ)充。
水體表面的光譜反射率與bbp大致成正比, 水體表面的光譜反射率能被衛(wèi)星或者其他的光學(xué)探測器所接收, 通過遙感反演, 來獲取bbp信息, 再利用bbp與水體中生物地球化學(xué)參數(shù)的關(guān)系, 從而得到懸浮物, 粒徑譜斜率和顆粒有機(jī)碳(POC)等信息[6-8], 因此bbp反演的準(zhǔn)確性至關(guān)重要。 準(zhǔn)分析算法(QAA)是半分析算法(SAA)中比較經(jīng)典的算法之一, 從遙感反射率出發(fā), 經(jīng)過一些經(jīng)驗(yàn)和分析模型得到水體固有光學(xué)量, 一些學(xué)者在QAA的基礎(chǔ)上改進(jìn)和擴(kuò)展了許多不同方法, 以適應(yīng)和得到不同水域的生物光學(xué)參量[9-11]。 然而, 不同水域的光學(xué)性質(zhì)差異性較大, 基于QAA及其擴(kuò)展的估計方法是否適用于湛江灣, 還有待進(jìn)一步研究。 近年來, 隨著機(jī)器學(xué)習(xí)在遙感領(lǐng)域的發(fā)展, 一些學(xué)者利用隨機(jī)森林、 人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等方法成功反演水體中的生物光學(xué)參數(shù)[12-13], 證明了機(jī)器學(xué)習(xí)在遙感反演中的應(yīng)用潛力, 然而將隨機(jī)森林算法應(yīng)用到bbp的反演還未見報道。 隨機(jī)森林(RF)是一種集成學(xué)習(xí)方法, 在訓(xùn)練期間構(gòu)建大量決策樹, 每個樹之間相互獨(dú)立, 并將所有決策樹預(yù)測的平均值輸出作為模型預(yù)測結(jié)果。 隨機(jī)森林方法在數(shù)據(jù)集處理上表現(xiàn)較穩(wěn)定, 運(yùn)行速度快, 泛化性能好, 不容易產(chǎn)生過擬合, 并且對異常值和噪聲的敏感性較低, 具有較好的可推廣性和準(zhǔn)確性[12]。 本工作試圖建立隨機(jī)森林算法來反演光學(xué)性質(zhì)較復(fù)雜的湛江灣bbp。
湛江灣位于雷州半島東北部, 是南海西北部海域的一個半封閉海灣, 灣內(nèi)水動力條件較差, 水體生態(tài)系統(tǒng)受到人類活動的影響較嚴(yán)重, 水體光學(xué)性質(zhì)較復(fù)雜, 開展該區(qū)域生物光學(xué)參量研究對我國近海二類水體光學(xué)特性研究及水體生態(tài)環(huán)境研究具有重要的價值。 本文利用2018年1月在湛江灣的原位數(shù)據(jù), 分析了水體bbp的光譜特性及影響因子, 構(gòu)建了bbp的隨機(jī)森林反演模型, 并比較了隨機(jī)森林模型與QAA-v6[9]、 QAA-RGB[10]和QAA-705[11]三種半分析算法的反演精度。
圖1為2018年1月在湛江灣海域設(shè)置的采樣站位, 共收集了24個站位的原位遙感反射率和水體后向散射系數(shù)數(shù)據(jù)。 同步采集了表層水樣, 水樣置于冷藏冰箱當(dāng)天帶回實(shí)驗(yàn)室, 用于測量葉綠素a和無機(jī)懸浮顆粒物的濃度。
圖1 湛江灣采樣站位圖
利用德國TriOS RAMSES水面光譜儀(波長范圍是320~950 nm, 光譜精度是0.3 nm)獲得光譜輻射參數(shù)(包括水體上行輻射亮度、 天空漫散射光下行輻射亮度和水表面入射輻照度), 測量方法參考唐軍武等[14]提出的水面以上測量法。 遙感反射率的計算公式為[14]
(1)
式(1)中,Lu(λ)為水體上行輻射亮度,Lsky(λ)為天空漫散射光下行輻射亮度,r為氣—水界面對天空光的反射率, 在本文中取值0.025,Ed(λ)為水表面入射輻照度。
利用美國HydroScat-6p后向散射儀測量水體整個剖面的后向散射系數(shù), HydroScat-6p攜帶6個波段, 分別為420, 442, 470, 510, 590和700 nm, 測量之后的數(shù)據(jù)在HOBI Labs用戶手冊的指導(dǎo)下進(jìn)行sigma校正, 校正后的值減去純水的后向散射系數(shù)就得到顆粒物后向散射系數(shù), 其中純水的后向散射系數(shù)為純水散射系數(shù)的一半, 純水散射系數(shù)數(shù)值參考Buiteveld等[15]實(shí)測的結(jié)果。
葉綠素a的濃度通過熒光分光光度法測定, 用Whatman玻璃纖維濾膜(GF/F)過濾1 L水樣, 使用90%丙酮萃取濾膜上的Chl a, 并通過10-AU型特納熒光儀測定得到Chl a濃度[16]。 無機(jī)懸浮顆粒物濃度通過重量法測定, 將GF/F濾膜放在電熱恒溫干燥箱中進(jìn)行恒溫脫水, 冷卻后放在硅膠干燥器中6~8 h后再進(jìn)行稱重, 用稱重好的濾膜過濾2 L水樣, 使用馬弗爐灰化過濾好的濾膜, 然后用十萬分之一分析天平稱量殘留物的質(zhì)量, 從而得到無機(jī)懸浮顆粒物的濃度[17]。
利用MatlabR2018a中的TreeBagger工具實(shí)現(xiàn)隨機(jī)森林模型的構(gòu)建, 將5個不同波段(443, 492, 560, 665和705 nm)的實(shí)測遙感反射率作為輸入變量,bbp(510)作為輸出變量。 在模型訓(xùn)練之前需要對RF對應(yīng)的葉子節(jié)點(diǎn)數(shù)與樹的數(shù)量擇優(yōu)選取, 經(jīng)過不斷調(diào)試, 確定最優(yōu)樹個數(shù)與最優(yōu)葉子節(jié)點(diǎn)個數(shù)分別為100和5。 采用上述參數(shù)進(jìn)行模型訓(xùn)練, 并利用袋外誤差來衡量模型自身的性能, 從而得到隨機(jī)森林模型的預(yù)測結(jié)果。
QAA-v6算法是Lee等[9]在2014年提出的, 在本研究中, 由于各站位實(shí)測Rrs(670)均大于0.001 5 sr-1, 將Rrs(443)、Rrs(490)、Rrs(555)和Rrs(670)作為輸入, 經(jīng)過一些理論和經(jīng)驗(yàn)公式的計算, 得到bbp(510), 詳細(xì)計算步驟參見文獻(xiàn)[9]。 Pitarch和Vanhellemont[10]基于高空間分辨率衛(wèi)星傳感器的波段設(shè)置, 在QAA算法的基礎(chǔ)上提出QAA-RGB, 該算法表明僅使用紅、 綠、 藍(lán)三個波段處的遙感反射率就可以得到大部分的固有光學(xué)量, 包括水體后向散射系數(shù)和吸收系數(shù)等, 具體計算步驟參見文獻(xiàn)[10]。 Qing等[11]針對近岸和內(nèi)陸高渾濁水體, 提出QAA-705, 該模型將QAA算法中的參考波長555和670 nm替換為705 nm, 并且對算法中的一些模型重新參數(shù)化, 改進(jìn)后的模型步驟參見文獻(xiàn)[11]。
采用決定系數(shù)(R2)、 平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)對顆粒物后向散射系數(shù)估計模型的性能進(jìn)行定量評價, 見式(2)—式(4)。
(2)
(3)
(4)
其中,Xi和Yi分別為顆粒物后向散射系數(shù)的實(shí)測值和估計值,Z為顆粒物后向散射系數(shù)實(shí)測值的平均值。
在調(diào)查期間, 湛江灣海域水體表層(水下0.6 m以內(nèi))生物光學(xué)參數(shù)變化幅度較大。 Chl a濃度標(biāo)準(zhǔn)差為0.63 mg·m-3, 變異系數(shù)為20.9%。 從標(biāo)準(zhǔn)差和變異系數(shù)的大小可以看出, ISM濃度的變化范圍比Chl a稍大, 標(biāo)準(zhǔn)差為2.54 mg·L-1, 變異系數(shù)為25.4%。 營養(yǎng)鹽和有機(jī)物的陸源輸入、 人類的養(yǎng)殖活動、 工業(yè)和生活廢水的排放可能是導(dǎo)致湛江灣葉綠素a變化的主要原因[18], 而引起ISM變化的主要因素為水深、 季風(fēng)、 潮汐和人類采砂活動等[19]。 在以往的研究中, 通常用水體中懸浮顆粒物組成(Chl a/TSM)來表示懸浮顆粒物組成[5], 然而總懸浮顆粒物(TSM)包括無機(jī)懸浮顆粒物(ISM)和有機(jī)懸浮顆粒物(OSM), 而OSM可能包括Chl a為主的藻類顆粒物, 為了消除Chla的影響, 本研究以Chla/ISM作為懸浮顆粒物組成的指標(biāo)[20], Chla/ISM也同樣呈現(xiàn)出較大的變化, 變異系數(shù)為36.2%。 此外,bbp則表現(xiàn)出更大的可變性,bbp(420),bbp(442),bbp(470),bbp(510),bbp(590)和bbp(700)的變異系數(shù)均在50%~60%之間,bbp最大值出現(xiàn)在470 nm, 為0.2112 m-1, 最小值出現(xiàn)在700 nm, 為0.026 1 m-1。 湛江灣水體bbp數(shù)值跨越了兩個數(shù)量級, 這與世界其他海洋及沿岸海域bbp數(shù)值具有一定的可比較性[2, 4]。bbp數(shù)值大于0.1 m-1的位置位于湛江灣灣口及靠近工廠排污口附近的海域, 這些區(qū)域ISM及Chl a濃度相對較高。 各生物光學(xué)參數(shù)具體變化范圍、 均值、 標(biāo)準(zhǔn)差和變異系數(shù)見表1。
表1 湛江灣水體生物光學(xué)參數(shù)的變化
觀測到湛江灣同一站位bbp在不同的波段呈現(xiàn)較小的數(shù)值差異, 且不同站位bbp從短波段到長波段可能表現(xiàn)出不同的變化趨勢, 但總體變化趨勢較平穩(wěn), 如圖2所示。 為了準(zhǔn)確描述湛江灣水體bbp的光譜特性, 本研究以510 nm作為參考波長, 計算出bbp光譜模型斜率指數(shù),bbp光譜模型一般滿足以下關(guān)系[2]
(5)
圖2 各站位顆粒物后向散射系數(shù)光譜圖
式(5)中,λ0為參考波長,n為光譜模型斜率指數(shù), 應(yīng)用該式對湛江灣水體bbp的光譜特性進(jìn)行模擬。 由表2可知, 其他各波段bbp與bbp(510)之間具有極強(qiáng)的相關(guān)性, 將bbp(λ)與bbp(510)進(jìn)行線性擬合, 擬合關(guān)系式為:bbp(λ)=A(λ)bbp(510), 各波長擬合決定系數(shù)R2都在0.99及以上, 獲得的系數(shù)A分別為1.015 1, 1.043 8, 1.060 6, 1, 0.885 9, 0.785 1, 然后再利用A與波長比值λ/λ0進(jìn)行冪函數(shù)擬合, 得到湛江灣水體bbp光譜模型斜率指數(shù)n=1.55(R2=0.89)。 諸多學(xué)者對光譜模型斜率指數(shù)進(jìn)行了研究, 如波弗特和楚科奇海域n的變化范圍為0.13~3.01, 中值為1[2]; 中國黃海、 東海海區(qū)n的變化范圍為0.61~1.99, 平均值為1.146[21]。 對于不同海區(qū)該指數(shù)具有一定的差別, 這種差異性可能是不同水體顆粒物的濃度、 組成、 結(jié)構(gòu)相異等所導(dǎo)致。
表2 各個波段bbp與bbp(510)的相關(guān)性
顆粒物后向散射系數(shù)一階驅(qū)動因子主要是水體中懸浮顆粒物濃度[22], 而懸浮顆粒物又分為無機(jī)懸浮顆粒物和有機(jī)懸浮顆粒物, 而有機(jī)懸浮顆粒物通常以藻類顆粒物為主, 在本研究中, 以Chl a濃度代表藻類顆粒物的濃度, 對bbp(510)與ISM、 Chla的濃度進(jìn)行相關(guān)性分析發(fā)現(xiàn),bbp(510)與ISM顯示出較高的正相關(guān)關(guān)系, 相關(guān)系數(shù)為0.84(p<0.01), 而與Chla則顯示無明顯相關(guān)性, 表明研究區(qū)域水體bbp一階驅(qū)動因子主要為無機(jī)懸浮顆粒物濃度。 為了進(jìn)一步定量確定無機(jī)懸浮顆粒物對bbp的影響, 本研究進(jìn)行了回歸分析, 得到bbp(510)與ISM濃度呈現(xiàn)乘冪關(guān)系, 如圖3所示,bbp(510)與ISM濃度乘冪指數(shù)為1.88, 與世界其他海域報告的數(shù)值有所差別[2], 一方面可能是因?yàn)椴煌w中ISM濃度、 大小、 結(jié)構(gòu)和組成的差異, 另一方面可能是因?yàn)閰⒖疾ǘ芜x取不同。bbp二階驅(qū)動因子主要是水體中懸浮顆粒物組成、 結(jié)構(gòu)、 密度、 形狀等[22], 利用Chla/ISM來表征顆粒物組成, 對其與bbp(510)進(jìn)行回歸分析得到bbp(510)與Chla/ISM呈現(xiàn)指數(shù)關(guān)系, 如圖4所示, 低bbp值對應(yīng)高Chla/ISM值, 高Chla/ISM通常是以藻類顆粒物為主, 而高bbp值對應(yīng)低Chla/ISM值, 低Chla/ISM通常是以無機(jī)懸浮顆粒物為主, 表明湛江灣水體顆粒物組成對bbp有重要的貢獻(xiàn), 與Sun等[5]在渤海、 黃海和東海的研究結(jié)果相一致。
圖3 bbp(510)與ISM濃度的關(guān)系
圖4 bbp(510)與Chla/ISM的關(guān)系
bbp包含了水體中懸浮顆粒物信息, 這些信息最終可以反映在水面遙感反射率光譜中。 選取了QAA-v6、 QAA-RGB和QAA-705三種半分析算法[9-11], 與所構(gòu)建的隨機(jī)森林模型進(jìn)行對比。 仍然以bbp(510)作為實(shí)驗(yàn)分析, 以便將反演值與實(shí)測值進(jìn)行對比。 隨機(jī)森林模型利用5個波段(443, 492, 560, 665和705 nm)處的遙感反射率作為輸入,bbp(510)作為輸出。 圖5比較了四種方法bbp(510)的估算精度, 可以看出本文構(gòu)建的隨機(jī)森林模型[圖5(d)]反演精度最高, 具有最高的R2和最低的MAPE、 RMSE。 雖然QAA-v6[圖5(a)]、 QAA-RGB[圖5(b)]和QAA-705[圖5(c)]也具有較高的R2, 但是其估計值和測量值之間存在顯著差異, 反演值整體偏大, 同時MAPE和RMSE也較大, 其精度不理想, 顯然, 利用QAA及其擴(kuò)展的方法來反演湛江灣海域水體bbp(510)具有一定的誤差, 這些誤差可能來源于QAA及其擴(kuò)展的方法中的經(jīng)驗(yàn)公式, 經(jīng)驗(yàn)公式中的參數(shù)需要經(jīng)過一定的區(qū)域化調(diào)試來適應(yīng)該水域bbp的反演, 但調(diào)試需要測量更多的固有光學(xué)量來進(jìn)行驗(yàn)證, 因此此方法存在一定的局限性。 隨機(jī)森林算法表現(xiàn)明顯優(yōu)于QAA-v6、 QAA-RGB和QAA-705算法。 從自變量重要性直方圖(圖6)來看,Rrs(560)、Rrs(665)、Rrs(705)對bbp(510)的貢獻(xiàn)居前三位, 這些波段都是懸浮顆粒物的特征波段, 從側(cè)面也印證了bbp(510)與懸浮顆粒物關(guān)系密切。 同時, 這5個波段是Sentinel-2或者Landsat-8衛(wèi)星的中心波段, 為實(shí)現(xiàn)湛江灣海域的高空間分辨率反演bbp(510)提供了可能。 綜合考慮, 在湛江灣海域使用Rrs來對bbp進(jìn)行反演, 隨機(jī)森林是首選方法, 但是需要進(jìn)一步通過優(yōu)化該模型來提高bbp的反演精度。
圖5 隨機(jī)森林(d)與QAA-v6 (a)、 QAA-RGB (b)和QAA-705 (c)算法的比較
圖6 隨機(jī)森林的自變量重要性直方圖
(1)湛江灣水體實(shí)測bbp呈現(xiàn)較大的可變性, 數(shù)值變化范圍為0.026 1~0.211 2 m-1,bbp從短波段到長波段總體變化趨勢較平穩(wěn), 其光譜變化通過建立的冪函數(shù)模型進(jìn)行模擬, 得到顆粒物后向散射系數(shù)模型斜率指數(shù)n為1.55。
(2)bbp(510)與ISM存在較高的正相關(guān)關(guān)系, 相關(guān)系數(shù)為0.84, 與Chl a無明顯相關(guān)關(guān)系, 表明湛江灣水體bbp一階驅(qū)動因子主要為無機(jī)懸浮顆粒物濃度; Chl a/ISM與bbp呈現(xiàn)指數(shù)關(guān)系, 決定系數(shù)R2為0.62, 表明二階驅(qū)動因子水體顆粒物組成對bbp變異有重要的貢獻(xiàn)。
(3)利用原位遙感反射率建立了隨機(jī)森林模型, 用于估算湛江灣bbp, 與QAA-v6、 QAA-RGB和QAA-705算法的比較表明, 隨機(jī)森林算法的反演精度最高, 決定系數(shù)R2為0.86, 平均絕對百分比誤差MAPE為12%, 均方根誤差RMSE為0.02 m-1。 隨機(jī)森林算法為具有復(fù)雜光學(xué)性質(zhì)的湛江灣水體顆粒物后向散射系數(shù)的遙感估算提供了一種有效的方法, 但還需要進(jìn)一步通過優(yōu)化該模型來提高bbp的反演精度。