吳海濱,戴詩(shī)語(yǔ),王愛(ài)麗*,巖堀祐之,于效宇
(1.哈爾濱理工大學(xué) 測(cè)控技術(shù)與通信工程學(xué)院 黑龍江省激光光譜技術(shù)及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150080;2.中部大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,日本 愛(ài)知 487-8501;3.電子科技大學(xué) 中山學(xué)院 電子信息學(xué)院,廣東 中山 528400)
高光譜圖像由同一區(qū)域數(shù)百個(gè)連續(xù)波段的光譜組成,具有光譜分辨率高、“圖譜合一”的獨(dú)特優(yōu)勢(shì),其豐富的光譜信息可以用于識(shí)別不同地物的組成材質(zhì)與內(nèi)在結(jié)構(gòu)[1-2]。近年來(lái),深度學(xué)習(xí)端到端的特征學(xué)習(xí)框架,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[3-4],3D CNN[5]等深度模型,能自動(dòng)學(xué)習(xí)圖像中的復(fù)雜特征表示,為高光譜圖像分類(lèi)提供了新的方法路徑。
激光雷達(dá)(LiDAR)可以生成數(shù)字表面模型(Digital Surface Model,DSM),反映地表目標(biāo)的三維立體信息[6-7],地物在高程形態(tài)特征上的差異被廣泛應(yīng)用于分類(lèi)任務(wù)中。高光譜圖像和Li-DAR 數(shù)據(jù)作為兩種不同的遙感模態(tài),存在明顯的異質(zhì)性。充分利用兩種數(shù)據(jù)之間的互補(bǔ)信息,提取更豐富的特征表達(dá)是當(dāng)前限制異構(gòu)遙感數(shù)據(jù)深層次協(xié)同的關(guān)鍵難題之一。
相較于使用單傳感器數(shù)據(jù)源,協(xié)同后的高光譜和LiDAR 數(shù)據(jù)集成了光譜特征、空間結(jié)構(gòu)以及高程信息,能夠從更多維度全面描述地物。具體來(lái)說(shuō),高光譜數(shù)據(jù)提供細(xì)致的光譜信息,在識(shí)別和表達(dá)地物光譜差異性方面具有明顯優(yōu)勢(shì);而LiDAR 數(shù)據(jù)提供高精度的空間分辨率和高程信息,能夠準(zhǔn)確反映地物的空間分布特征。兩種數(shù)據(jù)源在表征地物方面呈現(xiàn)互補(bǔ)性,深層次協(xié)同可以增強(qiáng)地物類(lèi)別的可分離性,進(jìn)而提高分類(lèi)的準(zhǔn)確率。
ConvNeXt[8-9],ViT[10],DaViT[11]和Spect-Former[12]等網(wǎng)絡(luò)架構(gòu),通過(guò)自注意力機(jī)制和全局上下文信息的建模,能夠更好地捕捉圖像的關(guān)鍵特征,實(shí)現(xiàn)更準(zhǔn)確的視覺(jué)推理和分析?;谏疃葘W(xué)習(xí)的CNN 和Transformer 模型,也被引入遙感圖像的多源數(shù)據(jù)協(xié)同分類(lèi)任務(wù),取得了令人滿意的協(xié)同分類(lèi)效果[13-18]。例如,采用形態(tài)學(xué)擴(kuò)展的屬性剖面[13]、IP-CNN[14],Transformer[15]、雙分支卷積網(wǎng)絡(luò)(Two-Branch CNN)[16]、深度編碼器-解碼器網(wǎng)絡(luò)(EndNet)[17]、多源特征中間層融合網(wǎng)絡(luò)(MDL-Middle)[18]和多注意力分層稠密融合網(wǎng)絡(luò)(MAHiDFNet)[19]。
對(duì)比學(xué)習(xí)作為一種自監(jiān)督表示學(xué)習(xí)方法,可以學(xué)習(xí)到具有強(qiáng)大區(qū)分能力的特征表達(dá),在多模態(tài)領(lǐng)域得到了廣泛的應(yīng)用[20]。通過(guò)使用同一樣本在不同視角下的代理任務(wù)進(jìn)行訓(xùn)練,對(duì)比學(xué)習(xí)能夠獲得具有語(yǔ)義對(duì)齊的特征表達(dá)[21-22]。為解決異構(gòu)多模態(tài)數(shù)據(jù)特征表達(dá)能力不足的問(wèn)題,本文提出了基于對(duì)比學(xué)習(xí)CNN-Transformer 高光譜和LiDAR 數(shù)據(jù)協(xié)同分類(lèi)網(wǎng)絡(luò)(Contrastive Learning based CNN-Transformer Network,CLCTNet),結(jié)合ConvNeXt V2 Block 設(shè)計(jì)了共有特征提取網(wǎng)絡(luò),增強(qiáng)模型對(duì)異構(gòu)多模態(tài)數(shù)據(jù)的表征能力,實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)之間的特征對(duì)齊。然后,充分發(fā)揮CNN 的局部特征學(xué)習(xí)和Transformer 的全局上下文建模能力,構(gòu)建了包含空間-通道分支和光譜上下文分支的雙分支HSI 編碼器,以及結(jié)合頻域自注意力機(jī)制的LiDAR 編碼器,挖掘不同模態(tài)數(shù)據(jù)之間的互補(bǔ)信息。最后,利用集成對(duì)比學(xué)習(xí)進(jìn)行分類(lèi),進(jìn)一步推動(dòng)模態(tài)特征對(duì)齊,提升多模態(tài)數(shù)據(jù)協(xié)同分類(lèi)的精度。
圖1 展示了CLCT-Net 模型的架構(gòu)框圖。該模型主要包含以下三個(gè)部分:共有特征提取網(wǎng)絡(luò)、HSI 編碼器、LiDAR 編碼器和集成對(duì)比學(xué)習(xí)損失函數(shù)。CLCT-Net 模型首先經(jīng)過(guò)共有特征提取網(wǎng)絡(luò)進(jìn)行共有特征提取,共有特征提取網(wǎng)絡(luò)由ConvNeXt V2 Block 組成,通過(guò)全局響應(yīng)歸一化、深度可分離卷積等實(shí)現(xiàn)共性特征提取。提取后的共有特征分別輸入HSI 編碼器和LiDAR 數(shù)據(jù)編碼器中,HSI 編碼器由空間-通道子分支、光譜上下文子分支組成,其中空間-通道子分支利用局部空間窗口多頭雙注意力(Spatial Window Multi-headed Self-attention,SW-MHSA)機(jī)制和通道組多頭雙注意力(Channel Group Multiheaded Self-attention,CG-MHSA)機(jī)制,LiDAR編碼器利用頻域注意力機(jī)制(Spectrum Former)。HSI 編碼器學(xué)習(xí)圖像的空間結(jié)構(gòu)和光譜信息,Li-DAR 編碼器學(xué)習(xí)數(shù)據(jù)中的高程信息以及其空間結(jié)構(gòu)依賴性。最后,兩種模態(tài)特征通過(guò)基于集成對(duì)比學(xué)習(xí)的聯(lián)合分類(lèi)器,其中損失函數(shù)同時(shí)包含對(duì)比損失和分類(lèi)損失,可以增強(qiáng)特征的判別能力,將同源數(shù)據(jù)特征距離最小化,異源數(shù)據(jù)特征距離最大化,實(shí)現(xiàn)高光譜圖像和LiDAR 數(shù)據(jù)的協(xié)同分類(lèi)。
圖1 CLCT-Net 模型架構(gòu)Fig.1 Model architecture of CLCT-Net
由于異構(gòu)多模態(tài)特征分布存在差異性,這給模型建??缒B(tài)的相關(guān)信息對(duì)齊帶來(lái)困難,模型難以直接學(xué)習(xí)到不同模態(tài)間隱含的聯(lián)系規(guī)律。為解決異構(gòu)多模態(tài)特征的對(duì)齊問(wèn)題,本文設(shè)計(jì)了基于ConvNeXt V2 Block 的共有特征提取網(wǎng)絡(luò),通過(guò)深度可分離卷積高效提取兩種模態(tài)數(shù)據(jù)的低頻共性特征,再通過(guò)全局響應(yīng)歸一化(Global Response Normalization,GRN)更好地傳導(dǎo)共有信息,進(jìn)而實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的深層協(xié)同,從而在多層抽象程度上挖掘不同模態(tài)之間的語(yǔ)義關(guān)聯(lián)信息,實(shí)現(xiàn)跨模態(tài)數(shù)據(jù)之間的特征對(duì)齊,如圖2 所示。其中,24 維7×7 深度可分離卷積層(d7×7,24)用于聚合全局特征信息,深度可分離卷積將標(biāo)準(zhǔn)卷積操作分解為深度卷積和點(diǎn)卷積,大大減少了計(jì)算量而保持了等效的建模能力。在可分離卷積后進(jìn)行層規(guī)范化(Layer Normalization,LN)操作,96 維1×1 卷積層進(jìn)行通道數(shù)升維,GELU 激活函數(shù)引入非線性,GRN 層對(duì)特征進(jìn)行校準(zhǔn),增強(qiáng)模型的穩(wěn)定性。最后,24 維1×1 卷積層負(fù)責(zé)通道數(shù)降維,并通過(guò)殘差連接,使網(wǎng)絡(luò)更專注于學(xué)習(xí)兩種異構(gòu)模態(tài)之間的低頻共有特征。其中,GRN 是通過(guò)劃分特征圖中的相鄰區(qū)域,對(duì)區(qū)域內(nèi)特征響應(yīng)值進(jìn)行歸一化處理,實(shí)現(xiàn)共有信息的傳遞,即有:
圖2 共有特征提取網(wǎng)絡(luò)示意圖Fig.2 Schematic diagram of shared feature extraction network
相比直接串聯(lián)原始特征或分別單獨(dú)訓(xùn)練,共有特征提取網(wǎng)絡(luò)具有更少的參數(shù)量、更加緊湊的特征表達(dá)能力。因原始HSI 圖像中獨(dú)立的光譜通道存在一定程度的冗余性,共有特征提取網(wǎng)絡(luò)能夠?qū)SI 光譜通道信息進(jìn)行整合,以減少冗余并增強(qiáng)光譜通道間的關(guān)聯(lián)性。
在高光譜圖像中,每個(gè)像素都包含多個(gè)光譜波段的信息,波段之間存在復(fù)雜的空間和光譜關(guān)聯(lián)。因此,本文設(shè)計(jì)了基于Transformer 的雙分支HSI 編碼器(Two Branch HSI Encoder,TBHSI),由空間-通道子分支和光譜上下文子分支組成,如圖3 所示。其中,空間-通道子分支專注建模局部光譜-空間依賴,而光譜上下文子分支聚焦于全局光譜特征挖掘。相比單一分支結(jié)構(gòu),該設(shè)計(jì)可以同時(shí)捕獲局部光譜-空間特征和全局光譜語(yǔ)義信息,全面提高了模型對(duì)HSI 特征的理解和表達(dá)能力。
圖3 HSI 編碼器示意圖Fig.3 Schematic diagram of HSI encoder
2.3.1 空間-通道特征提取子分支
空間-通道特征提取子分支利用SW-MHSA和CG-MHSA 學(xué)習(xí)高光譜圖像的空間依賴關(guān)系和不同光譜通道之間的關(guān)聯(lián)性,以增強(qiáng)模型對(duì)高光譜圖像空間-通道特征的表達(dá)能力。如圖3(a)所示,SW-MHSA 將輸入高光譜圖像分割成多個(gè)局部圖像塊,在每個(gè)塊周?chē)x一個(gè)空間窗口,僅計(jì)算窗口內(nèi)塊之間的注意力權(quán)重。在多頭結(jié)構(gòu)下,不同的頭學(xué)習(xí)不同類(lèi)型的局部空間依賴模式。SW-MHSA 能夠更高效建模局部空間信息,增強(qiáng)對(duì)空間信息的學(xué)習(xí)能力。
設(shè)輸入特征矩陣為X∈RN×C,其中N為空間位置數(shù),C為特征維數(shù)。對(duì)于窗口w,提取局部特征子集Xw,Xw=Xi:i+w,根據(jù)線性映射得到Query,Key,Value 矩陣:
這里的WQ,WK,WV表示線性映射的參數(shù)矩陣,將輸入X映射到Query,Key,Value 的對(duì)角空間中。
對(duì)于每個(gè)窗口w,計(jì)算注意力分?jǐn)?shù):
其中d表示線性映射的參數(shù)矩陣的第二維,也就是映射后的特征維度。計(jì)算窗口內(nèi)Value加權(quán)和:
最后,串聯(lián)所有窗口輸出得到最終的多頭自注意力輸出。
CG-MHSA 將輸入特征的通道分成多個(gè)組,在每個(gè)通道組內(nèi)計(jì)算自注意力,學(xué)習(xí)同組內(nèi)通道之間的依賴關(guān)系。設(shè)輸入特征X∈RN×C×H×W,其中N為batch size,C為通道數(shù),H,W為高度和寬度。將X重塑為X∈RN×C'×M,其中M=H×W,g為組數(shù)。在通道組維度上計(jì)算注意力分?jǐn)?shù),串聯(lián)所有通道組輸出得到最終多頭自注意力輸出。相比全通道的注意力計(jì)算,CGMHSA 更高效并可捕捉光譜之間的關(guān)聯(lián)性,增強(qiáng)對(duì)光譜信息的建模能力。
2.3.2 光譜上下文特征提取子分支
光譜上下文子分支使用Transformer 編碼器結(jié)構(gòu),如圖3(b)所示。通過(guò)自注意力機(jī)制學(xué)習(xí)光譜維度之間的依賴,并利用編碼器部分進(jìn)一步充分捕捉光譜特征之間的上下文語(yǔ)義信息。
設(shè)高光譜圖像塊為X∈RH×W×C,其中H,W為高光譜圖像塊的高度和寬度,C為光譜波段數(shù)量,提取該光譜特征矩陣中對(duì)應(yīng)中心像素的C維特征向量作為光譜上下文子分支的輸入,進(jìn)行線性投影生成Query,Key,Value 矩陣。通過(guò)多頭自注意力計(jì)算獲得中心像素光譜特征的上下文表示,重復(fù)該過(guò)程進(jìn)行多層編碼,以學(xué)習(xí)光譜特征之間的依賴關(guān)系,獲得中心像素在光譜全局視角下的上下文表示。
LiDAR 數(shù)據(jù)有豐富的建筑物邊界、植被形狀等高程信息,充分學(xué)習(xí)LiDAR 數(shù)據(jù)的高程特征,能夠極大提升協(xié)同分類(lèi)性能。因此,本文設(shè)計(jì)基于頻域自注意力機(jī)制的LiDAR 編碼器(Spectrum LiDAR Encoder,Spectrum-LiDAR),該編碼器使用Transformer 編碼器結(jié)構(gòu),采用基于傅里葉變換的自注意力機(jī)制,學(xué)習(xí)LiDAR 的全局依賴關(guān)系,聚焦高程信息。
如圖4 所示,設(shè)LiDAR 數(shù)據(jù)經(jīng)過(guò)共有特征提取網(wǎng)絡(luò)獲得空間域特征為z(x,y),進(jìn)行二維離散傅里葉變換得到其頻域表達(dá)Z(u,v),即:
圖4 LiDAR 編碼器示意圖Fig.4 Schematic diagram of LiDAR encoder
其中u和v是頻率域的變量。
隨后,定義頻域?yàn)V波器Wc(u,v),與Z(u,v)進(jìn)行逐點(diǎn)乘法,得到加權(quán)后的頻域函數(shù):
最后,對(duì)Z'(u,v)進(jìn)行反傅里葉變換,以取得空間域的輸出函數(shù):
z'(x,y)反映了LiDAR 數(shù)據(jù)在不同頻率下的特征分布,能夠捕獲到不同頻率下豐富的高程信息。
為實(shí)現(xiàn)更加有效的異構(gòu)多模態(tài)特征對(duì)齊與模態(tài)協(xié)同性能,本文構(gòu)建了包含對(duì)比學(xué)習(xí)損失和分類(lèi)損失的聯(lián)合損失函數(shù)。對(duì)比學(xué)習(xí)損失通過(guò)拉近同類(lèi)異構(gòu)特征之間的距離,著重跨模態(tài)數(shù)據(jù)中的共性信息,為異構(gòu)數(shù)據(jù)協(xié)同分類(lèi)提供更統(tǒng)一可靠的特征表示,以提升模型分類(lèi)性能。
對(duì)比損失函數(shù)由兩部分構(gòu)成:HSI 對(duì)LiDAR的特征對(duì)比損失函數(shù),以及LiDAR 對(duì)HSI 的特征對(duì)比損失函數(shù)。第i個(gè)樣本的對(duì)比損失函數(shù)如下:
HSI 對(duì)LiDAR,LiDAR 對(duì)HSI 的對(duì)比損失函數(shù)的計(jì)算公式如下:
其中:
其中:fHSI(·)和fLiDAR(·)分別是HSI 和LiDAR 模態(tài)的特征提取函數(shù);表示樣本對(duì)中HSI 與Li-DAR 特征之間的相似性;τ∈R,表示溫度參數(shù)。
總的對(duì)比損失函數(shù)通過(guò)對(duì)所有樣本對(duì)的對(duì)比損失求平均得到:
通過(guò)最小化該損失函數(shù),可以學(xué)習(xí)到語(yǔ)義上對(duì)齊的HSI 和LiDAR 表征,從而提升兩者特征的聯(lián)合表示能力。
分類(lèi)損失采用交叉熵?fù)p失的形式,用于度量預(yù)測(cè)類(lèi)別分布與真實(shí)類(lèi)別分布之間的距離。
其中:yi是樣本i的編碼類(lèi)別標(biāo)簽,pi是模型預(yù)測(cè)的類(lèi)別分布概率,分類(lèi)損失能夠優(yōu)化神經(jīng)網(wǎng)絡(luò)的分類(lèi)性能。
最終的損失函數(shù)為對(duì)比學(xué)習(xí)損失和分類(lèi)損失的加權(quán)結(jié)合:
通過(guò)聯(lián)合訓(xùn)練兩種損失函數(shù),模型既學(xué)習(xí)了判別性的特征表示,又獲得了準(zhǔn)確的地物分類(lèi)結(jié)果。
Houston2013 數(shù)據(jù)集由美國(guó)國(guó)家科學(xué)基金會(huì)資助的空中激光雷達(dá)制圖中心(NCALM)在2013 年獲取,覆蓋休斯頓大學(xué)校園及周邊城市區(qū)域。高光譜和LiDAR DSM 數(shù)據(jù)都包含349×1 905 個(gè)像素,具有相同的空間分辨率(2.5 m)。高光譜圖像包含144 個(gè)光譜波段,波段為380~1 050 nm,包含15 個(gè)類(lèi)別。表1 列出了不同類(lèi)別的樣本數(shù)量及對(duì)應(yīng)的顏色,圖5 給出了Houston2013 數(shù)據(jù)集的可視化結(jié)果,可在IEEE GRSS網(wǎng)站(http://dase.grss-ieee.org/)上獲得。
表1 Houston2013 數(shù)據(jù)集土地類(lèi)別詳情T(mén)ab.1 Land class details in Houston2013 dataset
圖5 Houston2013 數(shù)據(jù)集的偽彩色圖和真值圖Fig.5 Pseudo color map and ground-truth map of Houston2013 dataset
Trento 數(shù)據(jù)集中高光譜圖像由AISA Eagle傳感器獲取,LiDAR DSM 利用Optech ALTM 3100EA 傳感器的第一和最后一個(gè)點(diǎn)云脈沖生成,兩者均為600×166 像素,空間分辨率均為1 m。高光譜圖像包含63 個(gè)波段,覆蓋402.89~989.09 nm,包含6 個(gè)類(lèi)別。表2 列出了不同類(lèi)別的樣本數(shù)量以及對(duì)應(yīng)的顏色,圖6 給出了Trento數(shù)據(jù)集的偽彩色圖和真值圖。
表2 Trento 數(shù)據(jù)集土地類(lèi)別詳情T(mén)ab.2 Land class details in Trento dataset
圖6 Trento 數(shù)據(jù)集的偽彩色圖和真值圖Fig.6 Pseudo color map and ground-truth map of Trento dataset
實(shí)驗(yàn)基于Ubuntu 18.04 系統(tǒng),使用配備Tesla P100 GPU 與Intel(R)Xeon(R)CPU E5-2640 v4 @ 2.40 GHZ 處理器的計(jì)算服務(wù)器,Python3.7 語(yǔ)言及PyTorch 1.10 深度學(xué)習(xí)框架構(gòu)建實(shí)驗(yàn)環(huán)境,模型訓(xùn)練使用的batch size 為64,epoch為200,隨機(jī)劃分訓(xùn)練集和驗(yàn)證集,訓(xùn)練集和驗(yàn)證集的劃分比例為8∶2,采用AdamW 優(yōu)化器、cosine 學(xué)習(xí)率調(diào)度策略,初始學(xué)習(xí)率設(shè)置為5×10-4,權(quán)重衰減系數(shù)為1×10-1。CG-MHSA 中組數(shù)g設(shè)置為1,對(duì)比學(xué)習(xí)損失中超參數(shù)τ 設(shè)置為0.07,最終聯(lián)合損失中的比重超參數(shù),本文設(shè)置為λ1=0.5,λ2=1.0。
3.3.1t-SNE 分析
根據(jù)圖7 和圖8 所示的t-SNE(t-Distributed Stochastic Neighbor Embedding)可視化結(jié)果,在Houston 2013 和Trento 兩個(gè)數(shù)據(jù)集上僅利用HSI 圖像進(jìn)行分類(lèi),不同類(lèi)別的數(shù)據(jù)點(diǎn)分布存在明顯的重疊現(xiàn)象。這表明僅依靠光譜信息進(jìn)行分類(lèi)的效果受限。另一方面,僅利用LiDAR數(shù)據(jù)進(jìn)行分類(lèi)時(shí),數(shù)據(jù)點(diǎn)的分布比較散亂,這表明僅依靠空間結(jié)構(gòu)信息進(jìn)行分類(lèi)的性能也較差,且明顯不及僅使用HSI 圖像進(jìn)行分類(lèi)的效果。
圖7 Houston2013 數(shù)據(jù)集的特征可視化Fig.7 Feature visualizations of Houston2013 dataset
圖8 Trento 數(shù)據(jù)集的特征可視化Fig.8 Feature visualizations of Trento dataset
相較而言,同時(shí)利用HSI 圖像和LiDAR 數(shù)據(jù)進(jìn)行聯(lián)合分類(lèi)時(shí),不同類(lèi)別的數(shù)據(jù)點(diǎn)能夠獲得更好的聚類(lèi)和區(qū)分。由此表明,高光譜和LiDAR協(xié)同分類(lèi)模型能夠更有效地利用兩種數(shù)據(jù)的互補(bǔ)信息,提高對(duì)不同地物類(lèi)別的判別能力,從而獲得優(yōu)于單數(shù)據(jù)源的分類(lèi)性能。
3.3.2 不同分類(lèi)方法的對(duì)比
為驗(yàn)證CLCT-Net 模型的聯(lián)合分類(lèi)的有效性,將它與Two-Branch CNN[16],EndNet[17],MDL-Middle[18]和MAHiDFNet[19]進(jìn)行比較。同時(shí),本文還比較了雙分支HSI 編碼器(TB-HSI)、基于頻域信息的LiDAR 編碼器(Spectrum-Li-DAR)兩種單傳感器分類(lèi)模型。
實(shí)驗(yàn)評(píng)價(jià)指標(biāo)為整體精度(Overall Accuracy,OA)、平均精度(Average Accuracy,AA)和Kappa 系數(shù)。OA 表示模型在所有測(cè)試樣本上的正確預(yù)測(cè)樣本與總樣本數(shù)之間的比例。AA 是每個(gè)類(lèi)別中正確預(yù)測(cè)數(shù)與該類(lèi)別總數(shù)之間的比例,取各類(lèi)別精度的平均值。Kappa 系數(shù)用于評(píng)估分類(lèi)準(zhǔn)確性,驗(yàn)證遙感分類(lèi)結(jié)果圖與地面真實(shí)圖之間的一致性。
表3 和表4 給出了不同算法在 Houston2013和Trento 數(shù)據(jù)集上測(cè)試15 次得到的平均分類(lèi)結(jié)果。由表3 可知,雙傳感器協(xié)同分類(lèi)模型的分類(lèi)精度明顯優(yōu)于單傳感器分類(lèi)方法,這一結(jié)論與t-SNE 的分析結(jié)果一致。與Two-Branch CNN,EndNet,MDL-Middle 和MAHiDFNet 相比,本文提出的方法在OA,AA 和Kappa 系數(shù)方面都有明顯改善,尤其對(duì)Stressed grass,Road,Railway 和Tennis court 有顯著提升。其中,Stressed grass 的分類(lèi)精度達(dá)到了98.05%,Tennis court 的分類(lèi)精度為100.00%。
表3 不同方法在Houston2013 數(shù)據(jù)集上的分類(lèi)精度對(duì)比Tab.3 Comparison of classification accuracy of different methods on Houston2013 dataset(%)
表4 不同方法在Trento 數(shù)據(jù)集上的分類(lèi)精度對(duì)比Tab.4 Comparison of classification accuracy of different methods on Trento dataset(%)
根據(jù)表4,在Trento 數(shù)據(jù)集上,Spectrum-LiDAR 分類(lèi)模型的OA 為84.94%,AA 為74.90%,Kappa 為80.56%。TB-HSI 分類(lèi)模型這三個(gè)指標(biāo)分別為 95.42%,89.28% 和93.89%。聯(lián)合使用雙傳感器進(jìn)行分類(lèi)時(shí),OA 提高到98.90%,AA 提高到98.10%,Kappa 提高到98.54%。本文方法在Roads 的分類(lèi)性能方面也有明顯提升,達(dá)到了96.28%。
為了直觀驗(yàn)證所提出的CLCT-Net 模型的效果,在Houston 2013 和Trento 兩個(gè)數(shù)據(jù)集上進(jìn)行了分類(lèi)結(jié)果的可視化對(duì)比,如圖9 和圖10所示。本文提出的CLCT-Net 能夠更準(zhǔn)確地描繪出Highway 區(qū)域以及Apples 區(qū)域的邊緣,呈現(xiàn)更清晰且平滑的輪廓,其他方法獲得的地物邊界存在明顯的鋸齒狀邊界,不夠平滑。這表明CLCT-Net 模型在細(xì)粒度特征表示和提取能力方面更為強(qiáng)大,能夠捕捉復(fù)雜場(chǎng)景的微小細(xì)節(jié),進(jìn)行更精細(xì)和連貫的語(yǔ)義理解,在復(fù)雜邊界描繪方面的表現(xiàn)更加出色。
圖9 不同方法在Houston2013 數(shù)據(jù)集上的分類(lèi)結(jié)果Fig.9 Classification results of different methods on Houston2013 dataset
圖10 不同方法在Trento 數(shù)據(jù)集上的分類(lèi)結(jié)果Fig.10 Classification results of different methods on Trento dataset
3.3.3 計(jì)算復(fù)雜性分析
本文采用浮點(diǎn)運(yùn)算數(shù)(FLOPs)和參數(shù)量(#param)兩個(gè)指標(biāo)評(píng)估不同模型的計(jì)算復(fù)雜性,如表5 所示。其中,F(xiàn)LOPs 表示模型處理單幅圖像并完成一次前向傳播所需的浮點(diǎn)數(shù)運(yùn)算量,反映了模型的時(shí)間復(fù)雜性。#param 表示模型的參數(shù)總量,決定了模型本身的大小,并直接影響模型在推理時(shí)所需的內(nèi)存占用,反映了模型的空間復(fù)雜性。
表5 不同分類(lèi)模型的FLOPs 和參數(shù)數(shù)量Tab.5 FLOPs and parameters of different classification models
由于未考慮空間鄰域信息,EndNet 模型的時(shí)間和空間復(fù)雜度相對(duì)較低。僅使用單個(gè)像素作為輸入可以降低模型復(fù)雜度,忽略鄰域依賴關(guān)系也會(huì)導(dǎo)致特征表達(dá)能力的局限,降低模型的分類(lèi)準(zhǔn)確率。對(duì)比Two-Branch,MAHiDFNet模型,本文提出的模型具有更為緊湊和高效的模型結(jié)構(gòu),可以在模型空間復(fù)雜度較低的情況下保持較好的性能。CLCT-Net 采用多個(gè)基于Transformer 的編碼器分支,能夠更全面地提取特征。然而,由于多頭自注意力機(jī)制的特性,Transformer 常需大量計(jì)算資源,這使得模型的浮點(diǎn)數(shù)運(yùn)算量不可避免地增加。考慮到效果和復(fù)雜度綜合因素,CLCT-Net 模型雖然需要較多浮點(diǎn)數(shù)運(yùn)算,但占用的內(nèi)存空間較少。這種權(quán)衡使分類(lèi)準(zhǔn)確率顯著提升,達(dá)到了性能和復(fù)雜度的最佳平衡。
本文提出了一種基于CNN-Transformer 的端到端聯(lián)合分類(lèi)網(wǎng)絡(luò)CLCT-Net。該網(wǎng)絡(luò)應(yīng)用共有特征提取網(wǎng)絡(luò)模塊,通過(guò)提取不同模態(tài)間的共性特征實(shí)現(xiàn)異構(gòu)傳感數(shù)據(jù)在語(yǔ)義級(jí)別的深層對(duì)應(yīng)。其次,設(shè)計(jì)了雙分支HSI 編碼器和頻域自注意力LiDAR 編碼器,結(jié)合各模態(tài)特性分別學(xué)習(xí)豐富有效的特征表示。最后,引入集成對(duì)比學(xué)習(xí)策略,進(jìn)一步提升了模型協(xié)同跨模態(tài)數(shù)據(jù)的地物分類(lèi)能力。實(shí)驗(yàn)在Houston 2013 和Trento 數(shù)據(jù)集上進(jìn)行,CLCT-Net 的OA 值分別為92.01%和98.90%,AA 值分別為91.78% 和90.10%,Kappa 值分別為91.33%和98.54%,優(yōu)于其他分類(lèi)方法。實(shí)驗(yàn)結(jié)果表明,基于CNN-Transformer的框架進(jìn)行異構(gòu)數(shù)據(jù)聯(lián)合表達(dá)和建模是地物分類(lèi)任務(wù)的有效途徑。