鄧夢嬌,徐 新,2,馬盈盈,龔 威,金適寬,胡瑞敏
(1. 武漢科技大學計算機科學與技術(shù)學院,湖北武漢 430065;2. 武漢科技大學智能信息處理與實時工業(yè)系統(tǒng)重點實驗室,湖北武漢 430065;3. 武漢大學測繪遙感信息工程國家重點實驗室,湖北武漢 430072;4. 武漢大學計算機學院,湖北武漢 430072)
隨著遙感技術(shù)的發(fā)展,衛(wèi)星遙感數(shù)據(jù)在測繪、環(huán)境、國土、海洋、林業(yè)、農(nóng)業(yè)等領(lǐng)域得到廣泛的應(yīng)用. 遙感衛(wèi)星對地觀測時會受到云的遮擋,導(dǎo)致遙感影像上的信息造成不同程度的缺失,降低其數(shù)據(jù)質(zhì)量,這會直接影響到大氣參數(shù)反演、異常檢測和分類以及農(nóng)作物檢測等許多傳統(tǒng)的遙感任務(wù)[1~3]. 此外,云層類型的多樣性和地表的復(fù)雜性也阻礙了遙感影像中云的高精度檢測[4,5]. 因此,準確地將云和晴空進行分離對遙感數(shù)據(jù)的處理和應(yīng)用有著十分重要的意義.
目前,研究人員提出了大量基于閾值的傳統(tǒng)云檢測算法. 基于閾值的方法具有精度高、結(jié)果穩(wěn)定等優(yōu)點,其大多利用云具有較高的反射率以及較低的溫度的特性,在不同的波段設(shè)定固定的閾值實現(xiàn)云檢測. 例如用于AVHRR 的云掩膜算法應(yīng)用5 個閾值測試,對每個像素而言,只有當所有的測試都證明其為無云像素時,才將其識別為無云像素[6,7]. 然而,對于復(fù)雜地表和云類型,很難從任何波長中確定合適的閾值來準確檢測云. 針對這一問題,研究人員開發(fā)了動態(tài)閾值、自適應(yīng)閾值以及多波段組合閾值等云檢測方法. 例如,Jedlovec 等人[4]提出了一種用于GOES-12 成像儀的雙譜復(fù)合閾值技術(shù),利用20 天合成的差分圖像來表征時空變化的晴空閾值. 隨著機器學習在解決二分類問題上的良好發(fā)展,研究人員也開始將其應(yīng)用到云檢測上. 如Wei 等人[8]提出一種將隨機森林與超像素提取結(jié)合的云檢測方法;Li等人[9]提出了一種基于弱監(jiān)督深度學習的云檢測方法. 然而,由于地表的復(fù)雜性以及云層類型的多樣性,如何用正確的數(shù)據(jù)訓練機器學習模型變得尤為重要. 為了解決這個問題,本文通過SBDART 輻射傳輸模型模擬不同地表類型下的反射率,將其作為多層感知機模型的訓練樣本.
風云三號D 星(FY-3D)是我國的第二代極軌氣象衛(wèi)星,于2017年12月發(fā)射,2018年11月交付.FY-3D星上搭載的中分辨率光譜成像儀(advanced Medium Resolution Spectral Imager,MERSI II)是主要的傳感器之一,可以獲得地表、土壤、植被、水體、積雪等光譜范圍內(nèi)的反射率數(shù)據(jù)以及大氣中粒子的吸收和散射輻射信息[10]. 本文以MERSI II 傳感器為例,針對其覆蓋面積廣、掃描角度寬和像元空間分辨率較低等特點,設(shè)計了一套結(jié)合輻射傳輸模型和多層感知機模型的云檢測方案. 該方案以輻射傳輸模型模擬的衛(wèi)星表觀反射率為訓練樣本,將訓練好的多層感知機模型用來檢測MERSI II影像中的云,最后使用CALIOP/CALIPSO 的同時觀測數(shù)據(jù)對其進行驗證,并將其云檢測正確率與MYD35 產(chǎn)品進行對比. 相對于真實樣本,本研究使用模擬樣本有以下好處:(1)無人為選擇的影響;(2)可應(yīng)用于任何傳感器;(3)可在傳感器發(fā)射之前測試其性能. 本文方法所采用的思路為通用思路,可以為其他新的衛(wèi)星或機載數(shù)據(jù)在試驗階段設(shè)定一套處理方案.
云和地物在不同的波段具有不同的光譜特征,根據(jù)該特征,研究者們展開了一系列基于閾值的云檢測工作. 例如,Rossow 等人[11]提出用于國際人造衛(wèi)星云氣候?qū)W計劃(ISCCP)的云檢測方法;Irish 等人[12,13]提出了一種用于Landsat 7 的自動云覆蓋評估方法;Ackerman等人[14]提出了用于MODIS的云檢測方法. 然而,此類方法依賴特定的傳感器,對于復(fù)雜的地表和云層類型,很難找到合適的閾值來檢測云[15],并且當高分辨率衛(wèi)星傳感器波段較少且無法提供更多的特征來區(qū)分云和地表時,算法識別云的準確率會下降. 針對以上問題,Sun 等人[15]利用6S(Second Simulation of the Satellite Signal in the Solar Spectrum)[16,17]模型,模擬了不同觀測和大氣條件下的地表反射率和表觀反射率變化的關(guān)系,提出了基于先驗地表反射率數(shù)據(jù)庫的通用動態(tài)閾值云檢測算法;Zhu 等人[1]提出一種適合Landsat 影像的云檢測方法,該方法根據(jù)不同的場景自動設(shè)置閾值并且結(jié)合云對象識別從影像中識別出云.
隨著機器學習的發(fā)展,研究人員開始嘗試將機器學習應(yīng)用到大氣遙感領(lǐng)域,開始利用該技術(shù)進行云檢測. 例如,Wang 等人[18]使用支持向量機進行云檢測;Meng 等人[19]為恢復(fù)影像中因云遮擋而造成的信息缺失,以去除影像中的云,提出了一種基于稀疏字典學習的圖像修復(fù)方法;Wei 等人[8]為識別復(fù)雜地表上的碎云和薄云,先使用隨機森林方法得到初步的分類結(jié)果,考慮云的空間特征,采用SEEDS(Super-pixels Extracted via Energy-Driven Sampling)分割方法對初步分類結(jié)果進行再處理,得到最后的云識別結(jié)果. 深度學習是機器學習的一個分支,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學習算法在計算機視覺、自然語言處理等領(lǐng)域得到十分廣泛的應(yīng)用[20~22]. 基于卷積神經(jīng)網(wǎng)絡(luò)強大的表征學習能力,研究人員也將其應(yīng)用到云檢測. 例如,Xie 等人[23]采用簡單線性迭代聚類方法構(gòu)建超像素,再使用卷積神經(jīng)網(wǎng)絡(luò)從而識別出云;Segal-Rozenhaimer等人[24]針對World-View-2(WV-2)和Sentinel-2(S-2)衛(wèi)星提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的域自適應(yīng)云檢測方法. 全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[25]將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層轉(zhuǎn)化為一個個卷積層,通過上采樣恢復(fù)到與輸入圖像相同的尺寸,實現(xiàn)基于像素級的分類. 隨著FCN的提出以及圖像分割任務(wù)的發(fā)展,研究人員也將云檢測當作語義分割問題來解決. 例如,Chai 等人[26]將云和云影檢測作為一種語義分割問題,基于SegNet 提出了一種應(yīng)用于Landsat 系列衛(wèi)星的云和云影檢測方法;Mateo-García 等人[27]基于FCN 模型并利用兩種域適應(yīng)變換策略分別實現(xiàn)從Landsat-8 衛(wèi)星遷移到Proba-V衛(wèi)星和從Proba-V遷移到Landsat-8的跨平臺云檢測;Li 等人[28]基于編碼-解碼結(jié)構(gòu)提出了一種可用于多種傳感器的多尺度卷積特征融合方法,該方法融合6 種不同尺度的特征,得到基于像素級的分類結(jié)果;Wielan 等人[29]提出了一種基于經(jīng)典的Unet 結(jié)構(gòu)的云和云影分割方法,并展示了不同的訓練策略和光譜波段組合對分割性能的影響.Yang 等人[30]提出了一種CDnet(Cloud Detection neural network)云檢測方法,該方法基于ResNet50 網(wǎng)絡(luò)進行特征提取,運用一個特征金字塔模塊(Feature Pyramid Module,F(xiàn)PM)提取不同尺度的上下文信息,再通過一個邊界細化模塊(Boundary Refinement,BR)來細化云的邊界,從而實現(xiàn)云檢測,然而,由于遙感影像尺寸較大,為降低計算一般將其裁剪為256×256,512×512 或1024×1024 大小的影像;為了支持更大尺度的空間特征,同時減少對大型衛(wèi)星圖像的計算需求,Luotamo等人[31]提出了一種兩級聯(lián)CNN模型組件結(jié)構(gòu)依次處理欠采樣和全分辨率圖像,從而實現(xiàn)云的檢測.
對于機器學習和深度學習方法,訓練數(shù)據(jù)的數(shù)量以及訓練樣本的正確性是十分重要的,然而由于城鎮(zhèn)用地、裸土等地表的復(fù)雜性,該地表類型上的云通常難以被檢測和正確標注. 而輻射傳輸模型計算的樣本能充分考慮到各種復(fù)雜的情況,可以避免人工選擇樣本的主觀性. 因此,本研究采用另一種思路,通過SBDART輻射傳輸模型模擬衛(wèi)星表觀反射率,得到多層感知機模型的訓練樣本,將訓練好的多層感知機檢測MERSI II影像中的云,用CALIOP/CALIPSO 的同時觀測數(shù)據(jù)對其進行驗證,并從月份、緯度兩個方面將其云檢測正確率與MYD35 產(chǎn)品進行對比. 為了進一步驗證本文方法的有效性,將模擬得到的訓練樣本分別用于k-最近鄰、樸素貝葉斯以及隨機森林算法,并從總正確率和F1 評分兩個指標上與本文多層感知機算法進行對比.
SBDART(Santa Barbara DIS ORT Atmospheric Radiative Transfer)是一個可以用于計算在晴朗和有云條件下地球大氣和地面間平面平行輻射傳輸?shù)能浖ぞ撸捎糜诜治鲂l(wèi)星遙感和大氣能量收支研究中遇到的各種輻射傳輸問題[32]. 在耦合大氣和地表的系統(tǒng)中,輻射傳播可以通過求解下列輻射傳輸方程得到[33]:
其中,I(τ,μ,Φ)為散射輻射的分布,τ為光學厚度,ω和Φ分別為單次散射反照率以及散射角,p(cosθ)為散射相函數(shù),μ和μ'分別為入射光和散射光的方位角,S*(τ,μ',Φ')為單次散射源項. 因此,通過SBDART 來模擬各種復(fù)雜的大氣條件下衛(wèi)星所接收到的表觀反射率.
輸入不同的內(nèi)在光學特性(Inherent Optical Properties,IOPs)到SBDART模型,關(guān)鍵IOPs參數(shù)的設(shè)置如表1所示. 其中,大氣IOPs參數(shù)的設(shè)置主要考慮不同特性的氣溶膠和云. 對于云參數(shù),使用SBDART 模型自帶的球形云滴參數(shù)數(shù)據(jù)庫,主要考慮冰云和水云的高度、云光學厚度(Cloud Optical Depth,COD)和云滴有效半徑.而表面IOPs 主要考慮陸地類型,陸地地表的反射特性由Ross-Li核驅(qū)動的BRDF模型確定. 其中,地表下墊面各向異性反射由聚類方法從MODIS 產(chǎn)品中得到,每一種地物類型聚類得到兩套反射參數(shù),并在輻射傳輸模型中將其以隨機的線性比例混合,以模仿不同季節(jié)可能的反射特征.
表1 關(guān)鍵IOPs參數(shù)設(shè)置
通過SBDART 模型的模擬,得到約560 萬個帶標簽的樣本,每條樣本除有關(guān)鍵IOPs 參數(shù)特征外,還含有MERSI II 傳感器1~7 波段以及19 波段的反射率特征.將該數(shù)據(jù)作為多層感知機模型的訓練數(shù)據(jù).
多層感知機(Multilayer Perceptron,MLP)是一種將一組輸入數(shù)據(jù)映射到一組輸出數(shù)據(jù)的前饋神經(jīng)網(wǎng)絡(luò)[34],其一重要特點是多層,因此也被稱為深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN). 云檢測可看作一種二分類問題,多層感知機能夠用來解決復(fù)雜的分類問題,并且具有準確率高的特點.
多層感知機由3 層組成,分別為輸入層、隱藏層以及輸出層. 輸入層接收數(shù)據(jù)的輸入,隱藏層對輸入數(shù)據(jù)特征進行處理,而輸出層輸出預(yù)測結(jié)果. 多層感知機的輸出描述如下[35]:
其中,xi為給定樣本的i個特征的輸入,wij和wjp分別為輸入層與隱藏層的連接權(quán)重以及隱藏層與輸出層的連接權(quán)重,φH為隱藏層的激活函數(shù),而φo為輸出層的激活函數(shù).
通過上一步輻射傳輸模型的模擬,得到約560萬條帶標簽的樣本,每條樣本含有關(guān)鍵IOPs 參數(shù)特征、MERSI II 傳感器1~7 波段以及19 波段的反射率特征.樣本標簽0 表示無云,1 表示有云. 本研究選取其中的13 個特征作為多層感知機模型的輸入?yún)?shù),分別為太陽天頂角、衛(wèi)星天頂角、相對方位角、8 個波段的反射率、地表高程以及地表類型. 因此,多層感知機模型的輸入神經(jīng)元個數(shù)設(shè)置為13. 將多層感知機的隱藏層個數(shù)設(shè)置為2,其每層神經(jīng)元的個數(shù)分別設(shè)置為10 和8,各層的激活函數(shù)選擇ReLU函數(shù). 將輸出層的神經(jīng)元個數(shù)設(shè)置為2,輸出層使用sigmoid 函數(shù). 由于在線性回歸問題中,常選用均方誤差(Mean Squared Error,MSE)函數(shù)作為損失函數(shù),而在分類問題中,常選用交叉熵函數(shù)作為損失函數(shù)[36],因此,本研究選用交叉熵損失函數(shù)來計算傳播誤差.
多層感知機模型最后一層的輸出結(jié)果按照以下方式來確定:由于輸出層通過sigmoid 函數(shù)將輸出值映射到0 和1 之間,輸出層兩個神經(jīng)元的值分別代表著無云和有云的概率,而每一層神經(jīng)元從0 開始編號,即輸出層兩個神經(jīng)元的編號分別為0 和1,與樣本標簽數(shù)值一致,那么可選取概率大的神經(jīng)元編號作為整個模型的輸出結(jié)果,即0表示無云,1表示有云.
將多層感知機模型訓練的學習率設(shè)置為0.001,將batch_size 的大小設(shè)置為256,訓練次數(shù)設(shè)置為200. 為了防止過擬合,在隱藏層的激活函數(shù)后面加上dropout層,dropout層隨機丟棄神經(jīng)元的概率分別設(shè)置為0.2 和0.5. 整個方法的流程圖如圖1所示.
圖1 算法流程圖
4.1.1 MERSI II/FY-3D 數(shù)據(jù)和MODIS 產(chǎn)品
MERSI II共配備25個通道,包括16個可見光-近紅外通道、3個短波紅外通道和6個中長波紅外通道[37],其掃描寬幅約為2900 km,并能每天完成一次對全球的覆蓋. 本研究使用了MERSI II 傳感器的前7個通道以及第19號通道,具體的波段及其基礎(chǔ)參數(shù)如表2所示.
表2 MERSI II 傳感器1-7及19波段基礎(chǔ)參數(shù)
中分辨率成像光譜儀(Moderate Resolution Imaging Spectroradiometer,MODIS)是搭載在TERRA 和AQUA衛(wèi)星上的主要傳感器之一,兩顆衛(wèi)星相互配合每1~2天可以重復(fù)觀測整個地球表面[38],其觀測到的數(shù)據(jù)可幫助我們理解全球陸地、海洋等的動態(tài)變化過程. 由于MODIS 和MERSI II 兩種傳感器的設(shè)計相似,因此本文主要使用MODIS 發(fā)布的MYD35,MCD43C1 以及MCD12C1 三種產(chǎn)品數(shù)據(jù),分別作為云掩膜對比以及輻射傳輸模型的輸入數(shù)據(jù). 由于FY-3D 為下午星,因此選用同為下午星的AQUA 衛(wèi)星上的MODIS 云掩膜產(chǎn)品MYD35,用于與本文方法所得結(jié)果進行對比. 其中,MYD35 為MODIS 二級產(chǎn)品,該產(chǎn)品算法采用一系列閾值測試來檢測1 km 像素內(nèi)是否存在云.MCD43C1 產(chǎn)品提供了光譜散射、體散射和幾何光學散射三個權(quán)重參數(shù),用于BRDF 模型以確定陸地地表的反射特性,本研究根據(jù)每一個地表類型從該產(chǎn)品中聚類出了兩種地物反射參數(shù),在模擬時隨機線性混合這兩種地表參數(shù). 而MCD12C1 產(chǎn)品是Terra 和Aqua 衛(wèi)星遙感獲得的地表覆蓋類型數(shù)據(jù),用于確定不同經(jīng)緯度下的土地覆蓋類型,該參數(shù)作為輻射傳輸模型的輸入數(shù)據(jù)之一.
4.1.2 CALIOP/CALIPSO 產(chǎn)品
CALIPSO(The Cloud-Aerosol LIDAR Infrared Pathfinder Satellite Observations)衛(wèi) 星 是 由 美 國NASA 于2006年4月成功發(fā)射的太陽同步軌道衛(wèi)星,分別于當?shù)貢r間01∶30 和13∶30 過境,16 天可覆蓋全球. CALIPSO由3 個部分構(gòu)成,分別為雙波長偏振激光雷達(Cloud-Aerosol Lidar with Orthogonal Polarization,CALIOP)、紅外成像輻射計(Imaging Infrared Radiometer,IIR)和寬幅照相機(Wide Field Camera,WFC). CALIOP 每24 h發(fā)射170 萬次激光. 垂直特性掩膜(Vertical Feature Mask,VFM)產(chǎn)品數(shù)據(jù)由CALIOP 獲得,采用一系列算法確定云和氣溶膠的空間位置信息. 本研究使用4.0 版本、空間分辨率約為5 km 的VFM產(chǎn)品,最終得到近400萬個樣本,用作本文云檢測算法和MODIS 云掩膜產(chǎn)品的驗證數(shù)據(jù).
4.1.3 實驗數(shù)據(jù)
在輻射傳輸模型模擬階段,利用MODIS 發(fā)布的MCD43C1和MCD12C1兩種產(chǎn)品數(shù)據(jù),得到輻射傳輸模型的輸入數(shù)據(jù). 在多層感知機模型訓練階段,使用輻射傳輸模型模擬得到的約560 萬條帶標簽的樣本數(shù)據(jù).而在多層感知機模型的測試階段,使用MERSI II 傳感器獲取的真實數(shù)據(jù). 該數(shù)據(jù)的真實標簽來源于CALIOP 的VFM 產(chǎn)品數(shù)據(jù).CALIOP 是一種主動探測設(shè)備,發(fā)射激光脈沖來進行大氣探測,主動信號對云滴顆粒很敏感,因此它的VFM 數(shù)據(jù)可以看作真實值,故可作為測試集的標簽. 最終得到近400 萬個樣本作為測試數(shù)據(jù).
本研究將輻射傳輸模型模擬得到的約560 萬條數(shù)據(jù)作為訓練集,將MERSI II傳感器獲取的近400萬條數(shù)據(jù)作為測試集. 數(shù)據(jù)下載鏈接如表3所示.
表3 所用數(shù)據(jù)
圖2 是輻射傳輸模型在不同太陽天頂角范圍內(nèi)模擬得到的水云和冰云的反射光譜特征,每個圖均為模擬的在不同的云光學厚度下表1 所列出的波段處的反射特征. 其中,圖2(a)是太陽天頂角取值為0°~30°,圖2(b)是太陽天頂角取值為30°~60°,圖2(c)是太陽天頂角取值為60°~90°. 衛(wèi)星天頂角和相對方位角分別為30°和60°. 由圖2可知:第一,當云光學厚度和波長一定時,在不同的太陽天頂角范圍下,云的反射率有所不同,并且隨著太陽天頂角的增大,反射率先增大后減小,這可能是因為太陽天頂角過大,傾斜路徑的散射會更強;第二,對于不同波長而言,有云和無云的反射率有明顯的差異,在1.38 μm 波段處,由于該波段處于一個極強水汽吸收帶[39],水汽的強烈吸收導(dǎo)致地面和低空水云的輻射難以到達傳感器,進而導(dǎo)致水云的反射信號非常微弱,而無云的反射率幾乎為0;第三,隨著云光學厚度的增大,反射率也隨著增大,這是由于云越來越密實,云體反射率逐漸增大而造成的.
圖2 不同角度下水云和冰云的反射光譜特征.由于1.38微米波段處主要受水汽吸收的影響,故將該波段單獨列出放置最右側(cè)
基于此,通過多層感知機來學習這些特征差異,進而檢測出MERSI II影像中的云.
本研究選取了不同的地區(qū)進行實驗,其中包含了植被、冰雪、裸土等多種下墊面. 本研究選取了4 個案例,用訓練好的多層感知機檢測FY-3D 的MERSI II 影像中的云,識別結(jié)果如圖3 所示. 其中,第1 列到第3 列分別為真彩色影像、云檢測結(jié)果以及CALIOP 觀測的VFM 產(chǎn)品. 真彩色影像中紅色線為CALIPSO 過境軌道線. 圖3(a)為我國西南部及印度北部地區(qū)的影像,該區(qū)域地貌復(fù)雜,橫跨青藏高原;圖3(b)是包含我國西部及土庫曼斯坦鄰近幾個國家的影像,其植被較少,以溫帶荒漠和溫帶草原為主. 從這兩幅影像的云檢測結(jié)果可以看出,影像中的云幾乎均被多層感知機檢測出來. 圖3(c)為蒙古東部地區(qū)及黑龍江省的影像,植被類型以森林為主,從其云檢測結(jié)果可以看出,有部分地物被誤判成了云. 圖3(d)為我國中西部地區(qū),其主要植被類型為草原和荒漠,從其云檢測結(jié)果可以發(fā)現(xiàn),部分云沒有被檢測出來. 從圖3 可以看到,本研究方法能夠較好地從影像中識別出云,尤其對于復(fù)雜的陸地表面,這可能是因為該地表類型特征易于被多層感知機捕捉.
圖3 云檢測結(jié)果圖
本研究利用CALIPSO 的VFM 產(chǎn)品對其進行驗證,將VFM 產(chǎn)品得出的結(jié)果作為云檢測結(jié)果,也就是說,如果VFM 產(chǎn)品劃分其為云像元,則認為其為云像元,進而來計算本研究云檢測方法的正確率.
4.4.1 多層感知機方法與MYD35產(chǎn)品的對比
利用訓練好的多層感知機對MERSI II 影像進行云檢測,計算了在不同月份和緯度下的正確率,并與MYD35 產(chǎn)品的正確率進行對比. 圖4(a)為云檢測正確率隨月份變化的關(guān)系圖,圖4(b)為云檢測正確率隨緯度變化的關(guān)系圖. 從圖4(a)中可以看到,本文算法云檢測結(jié)果有很明顯的季節(jié)特征,除1 月、2 月、4 月和12 月之外,本文方法在其他月份下的云檢測正確率均高于MODIS 產(chǎn)品,尤其是夏季.7 月份的云檢測正確率能達到86.8%,而在冬季時的云檢測效果最差. 這可能是因為冬季地表被冰雪覆蓋,而冰雪與云的光譜特征非常相似,導(dǎo)致容易出現(xiàn)誤判和漏判的情況. 增加亮溫測試可能可以緩解冬季識別效果差的狀況,但亮溫信息很大程度上受下墊面而不是太陽光影響,復(fù)雜的地表類型使得亮溫模擬更加困難. 此外,從圖4(b)中可以看到,本文云檢測方法在低緯度的云檢測正確率較MODIS 產(chǎn)品高,在赤道附近的精度可達到91.7%. 這可能是因為低緯度地區(qū),植被較為復(fù)雜,多層感知機能夠較好地檢測出復(fù)雜地表的云.
圖4 正確率隨月份和緯度變化的關(guān)系圖
為了更好地驗證本文的方法,計算了在不同地表類型下云檢測的正確率. 同樣地,將其與MYD35 產(chǎn)品正確率進行對比,結(jié)果如表4 所示. 表中加粗字體表示本文算法云檢測正確率高于MYD35產(chǎn)品的地方.
從表4中可以看到,多層感知機在常綠闊葉林地表類型下的云檢測正確率最高,而常綠闊葉林主要分布于低緯度地區(qū),這正好與上文結(jié)論相符. 而地表類型為草地時,云檢測正確率最低,這可能是因為該地表類型下的樣本數(shù)較多,涵蓋了可出現(xiàn)的多種情況,而多層感知機在訓練階段并沒有學習到這些特征. 多層感知機在城鎮(zhèn)用地、農(nóng)田等復(fù)雜地表類型的正確率相差不大,并且均高于MYD35 產(chǎn)品的正確率,這可能歸功于我們利用MODIS 產(chǎn)品MCD43C1 較為準確地計算了這些復(fù)雜地表類型下的地表各向異性反射. 然而,地表類型為濃密灌木叢時,本文方法云檢測的正確率明顯低于MYD35 產(chǎn)品,這可能是因為本文得到的該類型樣本數(shù)較少,多層感知機沒有完全學習或者過度學習了該類型下的特征.
表4 不同地表類型下的云檢測正確率比較
4.4.2 多層感知機算法與k-最近鄰、樸素貝葉斯、隨機森林算法的對比
k-最近鄰(K-Nearest Neighbours,KNN)[40]、樸素貝葉斯(Naive Bayesian,NB)[41]、隨機森林(Random Forest,RF)[42~44]均為機器學習中高效的分類方法. 本文用該3種算法與本文多層感知機方法進行對比. 這3種算法所用的數(shù)據(jù)與多層感知機所用數(shù)據(jù)一致,即訓練數(shù)據(jù)均為輻射傳輸模型模擬得到的模擬數(shù)據(jù).
為了定量的評價這幾種方法,本文采用正確率(Accuracy)和F1 評分這兩種評價指標. 正確率表示的是正確識別的云和晴空像素的數(shù)量占總像素數(shù)量的比例.F1 評分為查準率(Precision)和查全率(Recall)的綜合評價,用于綜合反映整體的指標. 其中,查準率表示的是識別為云的像素中實際為云像素的比例,查全率表示的是識別為云的像素占真實云像素總數(shù)的比例.這兩種評價指標的值越大,則算法的性能越好. 其計算公式如下:
其中,TP 為正確識別的云像素數(shù)量;FP 為誤判為云的晴空像素數(shù)量;TN 為正確識別的晴空像素的數(shù)量;FN為漏判的云像素數(shù)量.
表5為多層感知機與KNN,NB,RF的對比結(jié)果. 表中在各評價指標上的最高值用加粗字體表示. 由表5可見,本文的多層感知機方法在正確率和F1評分這兩個評價指標上是比較的方法中最高的,分別達到了76.25%和82.32%. 多層感知機的F1 評分值略高于KNN,NB,RF 3種算法,而這3種算法的F1評分值相差不大,這表明多層感知機算法對云像素具有更好的識別能力. RF算法云識別正確率僅69.51%,多層感知機正確率遠高于隨機森林算法,而隨機森林算法F1評分卻與其他對比算法相差不大,這表明隨機森林算法不能較好地識別云像素,間接表明多層感知機更適合我們的方法.
表5 4種方法的對比
本文結(jié)合多層感知機和輻射傳輸模型提出了一種云檢測方法,該方法通過輻射傳輸模型模擬,得到了各種復(fù)雜陸地表面的反射率數(shù)據(jù),以此作為多層感知機的訓練樣本,待訓練完成后用以檢測MERSI II 光學影像中的云像元,并用CALIPSO 的VFM 產(chǎn)品以及MODIS云掩膜產(chǎn)品對其進行對比驗證. 本方法具有一定的通用性,并且云檢測的結(jié)果較為理想,其總的正確率達到76.25%. 在不同的季節(jié)以及不同緯度下云檢測正確率也有所不同. 通過與MYD35 產(chǎn)品對比發(fā)現(xiàn),從季節(jié)上看,本文所提出的云檢測方法在6月、7月和8月的效果最好,其中,7 月份的云檢測正確率能達到86.8%. 從緯度上看,本文方法在低緯度地區(qū)的效果最好,其中,在赤道附近地表的準確率能達到91.7%. 本文計算了不同地表類型下的云檢測正確率,與MYD35產(chǎn)品對比發(fā)現(xiàn),本文方法在城市、農(nóng)田和裸地等復(fù)雜下墊面條件下的云檢測效果更好. 為了進一步驗證本文方法的有效性,將同樣的樣本分別用于k-最近鄰、樸素貝葉斯以及隨機森林算法的訓練,待訓練完成后,將此3 種算法用于檢測MERSI II影像中的云像元,并從總正確率和F1評分兩個指標上與本文多層感知機算法進行對比. 結(jié)果表明,多層感知機結(jié)合輻射傳輸模型模擬具有更好的效果.
利用多層感知機可以捕捉到不同特征之間更深層次的聯(lián)系,更為準確地檢測出云. 在今后的研究中,可以考慮先將地表進行分類,確定不同地表類型下足夠的樣本數(shù)量,分別對不同地表類型進行訓練,以進一步提高云檢測的正確率.