馮權(quán)瀧 牛博文 朱德海 陳泊安 張 超 楊建宇
(1.中國(guó)農(nóng)業(yè)大學(xué)土地科學(xué)與技術(shù)學(xué)院, 北京 100193; 2.自然資源部農(nóng)用地質(zhì)量與監(jiān)控重點(diǎn)實(shí)驗(yàn)室, 北京 100193)
土地利用/覆被(Land use and land cover, LULC)專題圖,是表達(dá)自然土地類型以及人類開(kāi)發(fā)利用土地狀況的專題要素地圖,在資源調(diào)查、環(huán)境監(jiān)測(cè)、生態(tài)保護(hù)、城市規(guī)劃、農(nóng)業(yè)生產(chǎn)等領(lǐng)域具有十分重要的作用。由于遙感具有大范圍同步觀測(cè)等優(yōu)勢(shì),已經(jīng)成為土地利用/覆被制圖的主要數(shù)據(jù)來(lái)源,如何基于遙感影像實(shí)現(xiàn)土地利用/覆被的自動(dòng)分類成為研究熱點(diǎn)問(wèn)題[1-8]。
在深度學(xué)習(xí)技術(shù)[9]興起以前,土地利用/覆被遙感分類多依賴于人工設(shè)計(jì)特征與機(jī)器學(xué)習(xí)分類器[10-11]。其中人工設(shè)計(jì)特征包括歸一化植被指數(shù)等光譜指數(shù)、紋理特征、纓帽變換特征等[12-13],而機(jī)器學(xué)習(xí)分類器多以決策樹(shù)、隨機(jī)森林和支持向量機(jī)為主[14-17]。人工設(shè)計(jì)特征對(duì)專家知識(shí)的要求很高,同時(shí)其魯棒性和泛化能力存在一定缺陷,導(dǎo)致更換研究區(qū)和數(shù)據(jù)后,已有的遙感分類模型往往不能取得較好的分類結(jié)果。
相比于經(jīng)典機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)不需要人工設(shè)計(jì)特征的環(huán)節(jié),而是能夠根據(jù)損失函數(shù)自動(dòng)提取與目標(biāo)任務(wù)最相關(guān)的特征,具有魯棒性強(qiáng)、模型易于遷移等優(yōu)勢(shì),成為了遙感領(lǐng)域的一個(gè)研究熱點(diǎn),并已經(jīng)應(yīng)用在城市土地利用分類、濱海濕地土地覆被分類、作物精細(xì)分類、道路及建筑等專題要素制圖等領(lǐng)域[18-22]。鑒于深度學(xué)習(xí)的相關(guān)研究成果日益增多,本文擬從樣本數(shù)據(jù)集、模型結(jié)構(gòu)、算法策略方面對(duì)深度學(xué)習(xí)在土地利用/覆被遙感分類中的研究進(jìn)展進(jìn)行綜述,為相關(guān)研究人員提供參考。
首先介紹人工智能與深度學(xué)習(xí)的相關(guān)知識(shí),包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等常用網(wǎng)絡(luò)模型;然后從樣本角度出發(fā),對(duì)現(xiàn)有的土地利用/覆被遙感分類樣本集進(jìn)行綜述;其次從深度學(xué)習(xí)模型的角度出發(fā),綜述土地利用/覆被遙感分類中用到的各種深度神經(jīng)網(wǎng)絡(luò)模型;再次從模型泛化能力的角度出發(fā),對(duì)稀疏樣本下深度學(xué)習(xí)模型的學(xué)習(xí)策略進(jìn)行綜述;最后對(duì)未來(lái)研究方向進(jìn)行展望。深度學(xué)習(xí)樣本-模型-算法總體框架如圖1所示。
圖1 深度學(xué)習(xí)樣本-模型-算法框架圖Fig.1 Flow chart of sample-model-strategy for deep learning
人工智能是研究用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門技術(shù)科學(xué)[23]。隨著大數(shù)據(jù)技術(shù)以及高性能計(jì)算的發(fā)展和成熟,以深度學(xué)習(xí)為代表的人工智能已經(jīng)在語(yǔ)音識(shí)別、目標(biāo)檢測(cè)、機(jī)器翻譯等領(lǐng)域取得了超過(guò)傳統(tǒng)算法的性能,并逐漸受到遙感與地學(xué)領(lǐng)域?qū)<业年P(guān)注和重視。具體而言,人工智能包括許多研究分支,其中機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種重要方法,而深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,通過(guò)構(gòu)建深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)人類大腦認(rèn)知過(guò)程的模擬[9]。
深度學(xué)習(xí)可以看作經(jīng)典人工神經(jīng)網(wǎng)絡(luò)的“深度”版本,通過(guò)增加隱含層數(shù)量,從而提高特征學(xué)習(xí)和表達(dá)能力。實(shí)際上,深度學(xué)習(xí)是深度神經(jīng)網(wǎng)絡(luò)的同義詞,常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò),以及用于語(yǔ)義分割的全卷積神經(jīng)網(wǎng)絡(luò)等。
1.2.1卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)主要用于計(jì)算機(jī)視覺(jué)(Computer vison, CV)領(lǐng)域[24-27],通過(guò)卷積、池化等操作,對(duì)圖像的高層語(yǔ)義特征進(jìn)行提取。
一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)為VGG[25],主要包含卷積層、池化層、全連接層和分類層。其中,卷積層主要利用卷積算子實(shí)現(xiàn)特征向量的計(jì)算,并通過(guò)多層卷積堆疊,實(shí)現(xiàn)多層級(jí)的圖像特征提??;池化層包括均值池化、最大值池化等,主要為了減小特征圖的尺寸;全連接層中所有神經(jīng)元以全連接的形式進(jìn)行連接;分類層主要采用softmax分類器。
以自然圖像分類為例,相比于經(jīng)典的機(jī)器學(xué)習(xí)模型,卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)是將圖像特征提取與分類任務(wù)集成到一個(gè)模型中,通過(guò)端到端訓(xùn)練,可以使模型自動(dòng)學(xué)習(xí)到最具代表性的圖像特征,進(jìn)而提高分類精度。
1.2.2循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network, RNN)的輸入一般為序列數(shù)據(jù)(如文本、視頻等),其隱含層之間是存在連接的,t時(shí)刻隱含層的輸入不僅來(lái)自輸入層,同時(shí)來(lái)自t-1時(shí)刻隱含層的輸出。
循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入是一個(gè)序列數(shù)據(jù)Xt,t時(shí)刻隱含層的輸出是ht,A表示循環(huán)神經(jīng)網(wǎng)絡(luò)當(dāng)前的狀態(tài)[31]。常用的循環(huán)神經(jīng)網(wǎng)絡(luò)包括長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short term memory, LSTM)[28]、門控循環(huán)單元(Gated recurrent unit, GRU)[29]、Transformer[30]等。由于循環(huán)神經(jīng)網(wǎng)絡(luò)在處理序列數(shù)據(jù)方面具有天然的優(yōu)勢(shì)[31],已經(jīng)被應(yīng)用在多時(shí)相遙感影像分析、高光譜圖像分類中,用于建模多時(shí)相數(shù)據(jù)之間以及高光譜不同波段之間的相互依賴關(guān)系。
1.2.3生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[32]包括:生成器(Generator, G)和判別器(Discriminator, D)。其中生成器G主要用來(lái)學(xué)習(xí)真實(shí)圖像的分布,從而使生成的圖像更加接近于真實(shí)圖像;而判別器D主要對(duì)生成的圖像進(jìn)行真假判斷。生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練過(guò)程是一個(gè)min-max的優(yōu)化問(wèn)題。
隨著網(wǎng)絡(luò)的迭代訓(xùn)練,生成器G與判別器D不斷進(jìn)行對(duì)抗,并最終達(dá)到一種動(dòng)態(tài)平衡:生成器G生成的圖像十分接近真實(shí)情況,判別器D無(wú)法判斷出圖像真假,對(duì)于給定圖像預(yù)測(cè)為真的概率為50%。在遙感領(lǐng)域,生成對(duì)抗網(wǎng)絡(luò)主要用于模擬樣本的生成和模型的對(duì)抗訓(xùn)練。
1.2.4全卷積神經(jīng)網(wǎng)絡(luò)
全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional network, FCN)是將卷積神經(jīng)網(wǎng)絡(luò)CNN中的全連接層替換為卷積層所形成的,被用于圖像語(yǔ)義分割任務(wù)中,并在醫(yī)學(xué)圖像分割等領(lǐng)域[33-36]得到應(yīng)用。相比于基于中心像素所在圖像塊的分類方式,全卷積神經(jīng)網(wǎng)絡(luò)可以減少冗余計(jì)算、提高大范圍土地利用/覆被制圖的效率,受到了廣泛關(guān)注[37-38]。經(jīng)典的全卷積神經(jīng)網(wǎng)絡(luò)包括FCN[39]、UNet[40-42]、DeepLab[43-46]等模型。
從樣本角度來(lái)綜述土地利用/覆被遙感分類中樣本數(shù)據(jù)集的研究進(jìn)展。隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[47-49]、循環(huán)神經(jīng)網(wǎng)絡(luò)[50-51]、全卷積神經(jīng)網(wǎng)絡(luò)[52-53]等模型均被應(yīng)用到土地利用/覆被遙感分類中。然而如何驗(yàn)證不同模型之間的可比性,從而進(jìn)一步評(píng)價(jià)模型優(yōu)劣,成為關(guān)鍵問(wèn)題。因此,開(kāi)源樣本數(shù)據(jù)集的構(gòu)建具有十分重要的意義。
近年來(lái),各國(guó)學(xué)者、機(jī)構(gòu)發(fā)布了一系列土地利用/覆被遙感分類樣本數(shù)據(jù)集,涵蓋了不同尺度、傳感器類型、時(shí)間/空間/光譜分辨率等,為相關(guān)研究提供了基準(zhǔn)數(shù)據(jù)支持。本文將其分為兩個(gè)類型:圖像塊級(jí)樣本和像素級(jí)樣本。其中圖像塊級(jí)樣本多來(lái)自于遙感場(chǎng)景識(shí)別數(shù)據(jù)集,用一個(gè)N×N大小圖像塊(image-patch)表示一種土地利用/覆被類型。而像素級(jí)樣本多來(lái)自于遙感語(yǔ)義分割數(shù)據(jù)集,對(duì)不同土地利用/覆被的邊界進(jìn)行像素級(jí)別的標(biāo)注。
基于圖像塊的土地利用/覆被樣本集與遙感場(chǎng)景識(shí)別數(shù)據(jù)集類似,其標(biāo)注過(guò)程表現(xiàn)為對(duì)一個(gè)N×N的圖像塊賦以特定的土地利用/覆被類別(圖2)。該樣本集對(duì)應(yīng)的深度學(xué)習(xí)模型多為基于CNN或RNN的圖像分類模型,優(yōu)勢(shì)是標(biāo)注過(guò)程簡(jiǎn)單,劣勢(shì)是并不能獲取特定地物的邊界信息。
圖2 圖像塊級(jí)土地利用/覆被樣本示例[54]Fig.2 LULC sample based on image-patch[54]
表1列舉了廣泛使用且具有影響力的圖像塊級(jí)樣本數(shù)據(jù)集,并給出了相關(guān)元數(shù)據(jù)。
如表1所示,圖像塊級(jí)樣本集多以航空影像(如UC Merced[54]、SAT-4/SAT-6[58])和高分辨率的Google Earth衛(wèi)星影像(如WHU-RS19[55]、AID[60]等)為主,空間分辨率多在0.3~2 m之間,然而其光譜分辨率較低,多為RGB或RGB-NIR影像??紤]到深度學(xué)習(xí)模型訓(xùn)練對(duì)于海量標(biāo)簽樣本的需求,數(shù)據(jù)集整體呈現(xiàn)出樣本數(shù)量不斷增加的趨勢(shì),從幾千發(fā)展到幾十萬(wàn)不等。此外,少部分?jǐn)?shù)據(jù)集以Sentinel-2等多光譜衛(wèi)星影像作為數(shù)據(jù)源,其光譜分辨率有所提升,然而其空間分辨率相對(duì)較低。
表1 圖像塊級(jí)土地利用/覆被遙感分類樣本集Tab.1 Commonly used LULC sample dataset based on image-patch
上述樣本集在土地利用/覆被類別數(shù)量的設(shè)定上存在兩種分化。一方面,部分?jǐn)?shù)據(jù)集只關(guān)心少數(shù)概要性的地物類別,如SAT-4數(shù)據(jù)集僅包含裸地、森林、草地和其它共4類土地覆被類型;另一方面,部分?jǐn)?shù)據(jù)集則更關(guān)注土地利用/覆被的精細(xì)分類,如UC Merced、WHU-RS19、AID等包含幾十種具有特定語(yǔ)義的土地利用/覆被類別。
基于像素的土地利用/覆被樣本集與遙感語(yǔ)義分割數(shù)據(jù)集類似,其標(biāo)注過(guò)程表現(xiàn)為對(duì)某一特定地物涵蓋的所有像素進(jìn)行標(biāo)注(圖3)。該樣本集對(duì)應(yīng)的深度學(xué)習(xí)模型多為語(yǔ)義分割模型,優(yōu)勢(shì)是可以獲取地物的準(zhǔn)確邊界,劣勢(shì)是標(biāo)注工作量較大。
圖3 像素級(jí)土地利用/覆被樣本集示例[62]Fig.3 LULC sample based on pixel[62]
由于逐像素的土地利用/覆被制圖能夠提供更為精細(xì)的地物分布情況,對(duì)氣候、生態(tài)、水文等多領(lǐng)域的研究有著重要意義[63],其樣本數(shù)據(jù)集的發(fā)布也日益增加。
常用的像素級(jí)樣本集如表2所示??梢钥闯?,大部分樣本集擁有更多的波段數(shù),但在樣本數(shù)量、類別等方面都存在局限性。同時(shí),受到光譜分辨率的制約,這類數(shù)據(jù)集的空間分辨率較低。同時(shí)大部分?jǐn)?shù)據(jù)集僅為指定研究區(qū)內(nèi)的單幅影像與標(biāo)注,只有一些最近發(fā)布的數(shù)據(jù)集(如DeepGlobe、GID)其樣本數(shù)量和空間分辨率較高,但僅為一般的RGB或RGB-NIR影像,光譜分辨率較低。
表2 像素級(jí)土地利用/覆被遙感分類樣本集Tab.2 Commonly used LULC sample dataset based on pixel
像素級(jí)樣本集一般具有更為精細(xì)的土地利用/覆被類別設(shè)定,如GIC發(fā)布的Indian pines數(shù)據(jù)集供包含玉米、小麥等共16種土地覆被類別,GID數(shù)據(jù)集則包含了工廠、居民區(qū)、灌叢等共15種土地利用/覆被類別。
總體而言,相比于圖像塊級(jí)樣本集,像素級(jí)樣本集仍缺乏標(biāo)注質(zhì)量高的大規(guī)模數(shù)據(jù)集,且現(xiàn)有的大部分?jǐn)?shù)據(jù)集僅針對(duì)特定區(qū)域,普適性有待提升。
以Google Scholar中的論文引用次數(shù)作為影響力指標(biāo),對(duì)常用土地利用/覆被遙感分類樣本集進(jìn)行影響力分析(圖4)。如圖4所示,基于像素尺度的樣本集影響力較大,以GIC發(fā)布的Indian pines[65-66]和University of Pavia[65]數(shù)據(jù)集為代表,且由該團(tuán)隊(duì)發(fā)布的Salinas[65]和KSC[65]數(shù)據(jù)集也具有較高的影響力。在圖像塊尺度的樣本集中,經(jīng)典數(shù)據(jù)集UC Merced[54]具有最高影響力,國(guó)內(nèi)學(xué)者提出的AID[60]和RSSCN7[56]數(shù)據(jù)集發(fā)布時(shí)間相對(duì)較晚,但由于其在樣本數(shù)量、質(zhì)量、尺寸等方面的優(yōu)勢(shì),其近兩年影響力逐漸提升。
圖4 常用土地利用/覆被遙感分類樣本集影響力統(tǒng)計(jì)結(jié)果Fig.4 Impact statistics of commonly used LULC sample dataset
同時(shí),圖4表明國(guó)內(nèi)外學(xué)者更多關(guān)注基于多/高光譜影像的逐像素分類。一方面由于更多光譜信息的引入,可以有效提高地物的類間可分性,提升分類精度;另一方面,逐像素分類結(jié)果能夠?qū)ν恋乩?覆被情況進(jìn)行更精細(xì)的刻畫(huà),也利于后續(xù)變化檢測(cè)等任務(wù)。同時(shí),圖像塊級(jí)分類受限于大范圍制圖時(shí)的“棋盤效應(yīng)”,其在遙感場(chǎng)景分類中更受關(guān)注。
從模型角度,綜述土地利用/覆被遙感分類中常用的深度學(xué)習(xí)模型,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、全卷積神經(jīng)網(wǎng)絡(luò)(FCN)等。
卷積神經(jīng)網(wǎng)絡(luò)因其強(qiáng)大的圖像特征提取能力,在土地利用/覆被分類中被廣泛應(yīng)用。在前期研究中,研究人員多傾向于直接使用計(jì)算機(jī)視覺(jué)領(lǐng)域內(nèi)的經(jīng)典模型(AlexNet、VGG、ResNet等)或者自行搭建一個(gè)簡(jiǎn)單網(wǎng)絡(luò),通過(guò)訓(xùn)練基于圖像塊的分類模型,然后在整個(gè)研究區(qū)的影像上以滑窗(sliding window)方式得到逐像素或逐圖像塊的預(yù)測(cè)結(jié)果。其中REZAEE等[69]采用在ImageNet上預(yù)訓(xùn)練的AlexNet網(wǎng)絡(luò)進(jìn)行了濕地土地覆被制圖的研究,并將其與隨機(jī)森林等經(jīng)典機(jī)器學(xué)習(xí)模型進(jìn)行比較,結(jié)果表明卷積神經(jīng)網(wǎng)絡(luò)可以有效改善濕地土地覆被分類精度。類似的研究如文獻(xiàn)[70-76]。
然而上述研究?jī)H僅是借用CV經(jīng)典模型,并沒(méi)有考慮到遙感多譜段成像的特點(diǎn)。針對(duì)這一問(wèn)題,研究人員轉(zhuǎn)向了雙路(或雙分支)卷積神經(jīng)網(wǎng)絡(luò)的研究,用于同時(shí)學(xué)習(xí)遙感影像的空間特征和光譜特征。在一個(gè)典型的雙路神經(jīng)網(wǎng)絡(luò)中,包含兩個(gè)分支或子網(wǎng)絡(luò),即空間特征提取子網(wǎng)絡(luò)和光譜特征提取子網(wǎng)絡(luò)。其中HUANG等[77]設(shè)計(jì)了一個(gè)雙路卷積神經(jīng)網(wǎng)絡(luò)模型用于城市土地利用制圖,該模型的第1個(gè)分支是在ImageNet上預(yù)訓(xùn)練的AlexNet網(wǎng)絡(luò),用于提取空間特征,第2個(gè)分支是由幾個(gè)卷積層級(jí)聯(lián)形成的小卷積網(wǎng)絡(luò)(small DCNN),用于提取光譜特征,最后采用特征堆疊的方法進(jìn)行空間-光譜特征的融合,并基于WorldView高分辨率影像實(shí)現(xiàn)了香港和深圳的城市土地利用制圖,取得了91.25%的分類精度。類似的研究如文獻(xiàn)[78-80]。
筆者針對(duì)城市土地利用遙感分類問(wèn)題,對(duì)雙路卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),構(gòu)建了多尺度殘差模塊以增強(qiáng)空間特征的代表性和可分性,從而有效提高了分類精度。同時(shí)針對(duì)濱海濕地土地覆被分類問(wèn)題[81],通過(guò)引入多源光學(xué)、雷達(dá)遙感影像,提出了一個(gè)多路卷積神經(jīng)網(wǎng)絡(luò)模型(圖5),該模型通過(guò)多尺度可變形卷積模塊提高其對(duì)于地物尺寸和形狀變異的魯棒性,并設(shè)計(jì)了一個(gè)深度特征自適應(yīng)融合模型,用于融合多傳感器、多時(shí)相的光學(xué)和雷達(dá)數(shù)據(jù),在黃河三角洲取得了93.78%的分類精度,并驗(yàn)證了多傳感器數(shù)據(jù)的融合可以有效增加濱海濕地土地覆被類型之間的可分性。此外,筆者還針對(duì)農(nóng)業(yè)塑料覆被[82]、城中村[83]等土地利用/覆被中的專題要素進(jìn)行了提取。
圖5 多路卷積神經(jīng)網(wǎng)絡(luò)模型[81]Fig.5 Multi-branch convolutional neural network model[81]
循環(huán)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于對(duì)序列信號(hào)進(jìn)行建模,雖然不能像CNN那樣對(duì)遙感影像的空間特征進(jìn)行提取,但RNN對(duì)光譜特征和時(shí)序特征的學(xué)習(xí)能力要強(qiáng)于CNN,同樣被廣泛應(yīng)用于土地利用/覆被的遙感分類研究中[84-92]。
在光譜特征提取方面,RNN被用于多光譜和高光譜影像的分類中,用于建模不同波段之間的相互依賴關(guān)系。MOU等[85]針對(duì)高光譜影像的土地利用/覆被分類問(wèn)題,較早使用LSTM、GRU等循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建了分類模型。其中模型的輸入為單個(gè)像素對(duì)應(yīng)的光譜曲線,模型的輸出則為對(duì)應(yīng)的土地利用/覆被類別,并在3個(gè)航空高光譜數(shù)據(jù)集上驗(yàn)證了RNN模型的分類效果。后續(xù)研究則集中在如何繼續(xù)優(yōu)化RNN模型結(jié)構(gòu),從而提高光譜特征提取能力。文獻(xiàn)[86]研究具有典型性,通過(guò)構(gòu)建級(jí)聯(lián)RNN模型進(jìn)行高光譜分類,該模型由2個(gè)RNN級(jí)聯(lián)而成,其中第1個(gè)RNN用于去除高光譜影像中的冗余波段,第2個(gè)RNN則利用剩余波段進(jìn)行影像分類。通過(guò)上述級(jí)聯(lián)的方式,可以進(jìn)一步提高模型的分類精度。相關(guān)研究還包括文獻(xiàn)[87]。
在時(shí)序特征提取方面,RNN被用于多時(shí)相遙感影像的分類研究中,通過(guò)學(xué)習(xí)多時(shí)相影像之間的時(shí)序依賴關(guān)系,從而提高不同地物的類間可分性以改善土地利用/覆被分類精度。其中,RUΒWURM等[88]基于多時(shí)相Sentinel-2號(hào)影像,分別采用LSTM和GRU構(gòu)建了土地覆被分類模型,并在17種地物分類中取得了90%的精度,驗(yàn)證了RNN在時(shí)序特征提取中的有效性。類似研究有文獻(xiàn)[89-91],均采用RNN對(duì)耕地中的農(nóng)作物進(jìn)行了精細(xì)分類。
考慮到CNN的優(yōu)勢(shì)在于遙感影像的空間特征提取,而RNN的優(yōu)勢(shì)在于光譜特征和時(shí)序特征提取,因此將CNN和RNN進(jìn)行耦合可以實(shí)現(xiàn)空間、時(shí)序、光譜特征之間的有效融合,并進(jìn)一步提高土地利用/覆被分類的精度。其中,MEI等[93]基于高光譜影像,分別構(gòu)建了空間注意力卷積神經(jīng)網(wǎng)絡(luò)和光譜注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型,分別對(duì)高光譜的空間特征和光譜特征進(jìn)行提取,并通過(guò)特征融合進(jìn)一步提高分類精度。MOU等[94]構(gòu)建了一個(gè)CNN-RNN耦合模型實(shí)現(xiàn)了光譜-空間-時(shí)序特征的有效提取,其中CNN用于提取遙感影像的光譜-空間特征,而RNN用于提取多時(shí)相影像的時(shí)序特征,通過(guò)級(jí)聯(lián)CNN和RNN模型,實(shí)現(xiàn)了土地利用/覆被的變化檢測(cè)。類似的研究還包括文獻(xiàn)[95-98]。
筆者針對(duì)小尺度的土地利用/覆被精細(xì)分類問(wèn)題,構(gòu)建了一種基于循環(huán)注意力網(wǎng)絡(luò)的CNN-RNN耦合模型[99],并應(yīng)用在多時(shí)相無(wú)人機(jī)可見(jiàn)光影像的分類中(圖6)。具體而言,考慮到無(wú)人機(jī)影像具有豐富幾何結(jié)構(gòu)信息的特點(diǎn),首先構(gòu)建多尺度可變形卷積神經(jīng)網(wǎng)絡(luò),對(duì)無(wú)人機(jī)影像進(jìn)行空間特征提取,以提高模型對(duì)于地塊形狀和尺度變異的魯棒性;同時(shí)構(gòu)建融合注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)多時(shí)相無(wú)人機(jī)影像空間特征和時(shí)序特征的自適應(yīng)融合;該模型取得了92.80%的分類精度,并驗(yàn)證了循環(huán)注意力融合模型在學(xué)習(xí)多時(shí)相特征依賴關(guān)系方面的有效性。
圖6 循環(huán)注意力網(wǎng)絡(luò)模型[99]Fig.6 Attention-based recurrent convolutional neural network[99]
相比于CNN、RNN等模型以基于圖像塊的方式進(jìn)行土地利用/覆被分類,全卷積神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)像素級(jí)的地物分類,在大范圍土地利用/覆被制圖時(shí)其計(jì)算效率高的優(yōu)勢(shì)較為明顯。其中FCN是計(jì)算機(jī)視覺(jué)領(lǐng)域最早提出的全卷積神經(jīng)網(wǎng)絡(luò)模型,被廣泛應(yīng)用于土地利用/覆被分類領(lǐng)域。其中張宏鳴等[100]利用FCN-8s模型對(duì)灌區(qū)無(wú)人機(jī)影像進(jìn)行了渠系提取,楊亞男等[101]基于FCN-8s模型對(duì)無(wú)人機(jī)影像中的梯田進(jìn)行了提取,都取得了較好分類結(jié)果。同時(shí),研究人員在FCN的基礎(chǔ)上進(jìn)行了模型改進(jìn),如孫鈺等[102]針對(duì)無(wú)人機(jī)影像農(nóng)業(yè)塑料覆被分類任務(wù)對(duì)FCN模型進(jìn)行了改進(jìn),SHRESTHA等[103]提出了一種增強(qiáng)的FCN模型用于提高建筑物的分類精度。相關(guān)研究還包括文獻(xiàn)[104-105]。
同時(shí),UNet以模型結(jié)構(gòu)簡(jiǎn)潔、魯棒性高等優(yōu)勢(shì),受到了遙感領(lǐng)域研究人員的關(guān)注,其模型也被不斷改進(jìn),并廣泛應(yīng)用于土地利用/覆被分類中。DIAKOGIANNIS等[106]提出了一種UNet的改進(jìn)模型,將殘差連接、空洞卷積、金字塔池化以及多任務(wù)學(xué)習(xí)方法進(jìn)行組合,同時(shí)改進(jìn)Dice損失以解決樣本不平衡問(wèn)題,提高了土地利用/覆被的分類精度。YE等[107]將空間-光譜注意力機(jī)制應(yīng)用于UNet模型,以提升不同卷積層之間的特征表達(dá)一致性,實(shí)現(xiàn)了建筑物的高精度提取。類似的研究還包括文獻(xiàn)[106-113]。
DeepLab系列模型也在土地利用/覆被分類中得到了廣泛應(yīng)用。其中LIN等[114]利用通道注意力模塊對(duì)DeepLab模型進(jìn)行改進(jìn),以提升模型對(duì)光譜特征的敏感性,并將其應(yīng)用于道路提取。吳永靜等[115]采用ResNet-50作為特征提取網(wǎng)絡(luò)對(duì)DeepLab進(jìn)行改進(jìn),并基于高分辨率遙感影像實(shí)現(xiàn)了光伏用地的高精度分類。相關(guān)研究還包括文獻(xiàn)[72,115-119]。
相比于計(jì)算機(jī)視覺(jué)領(lǐng)域,土地利用/覆被遙感分類中的樣本標(biāo)注對(duì)專家知識(shí)的要求更高,必要時(shí)還需要進(jìn)行野外考察,從而造成了訓(xùn)練樣本的稀疏性。如果僅使用有限的標(biāo)簽樣本,將容易造成分類模型的過(guò)擬合,降低模型的時(shí)空泛化能力,因此如何綜合利用有限的標(biāo)簽樣本和海量無(wú)標(biāo)簽樣本進(jìn)行模型訓(xùn)練,就成為了一個(gè)關(guān)鍵技術(shù)問(wèn)題。下面主要闡述樣本稀疏條件下的土地利用/覆被遙感分類算法的研究進(jìn)展,所涉及的算法包括主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、弱監(jiān)督學(xué)習(xí)、自監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)等。
主動(dòng)學(xué)習(xí)最早見(jiàn)于機(jī)器學(xué)習(xí)領(lǐng)域,是目前解決標(biāo)簽樣本稀疏的常用學(xué)習(xí)策略之一。其核心思想為:首先使用少量標(biāo)簽樣本訓(xùn)練分類模型,再利用該模型從無(wú)標(biāo)簽樣本集中選擇最具代表性或最易錯(cuò)分的樣本,由專家對(duì)其進(jìn)行標(biāo)注,再加入到標(biāo)簽樣本集中,并迭代訓(xùn)練模型,從而使模型具有更高的精度和泛化能力[120-122]。
主動(dòng)學(xué)習(xí)的核心問(wèn)題在于如何選取無(wú)標(biāo)簽樣本。其選擇策略種類較多,主要?jiǎng)澐譃?類:基于無(wú)標(biāo)簽樣本的不確定性,如委員會(huì)查詢[123];基于無(wú)標(biāo)簽樣本對(duì)模型的影響程度,如Fisher信息比[124];基于無(wú)標(biāo)簽樣本的分布情況,如流形學(xué)習(xí)[125]、KL散度[126]等。
主動(dòng)學(xué)習(xí)備受遙感領(lǐng)域研究人員的關(guān)注[127-135],并被應(yīng)用到土地利用/覆被遙感分類中。HAUT等[131]設(shè)計(jì)了一種主動(dòng)學(xué)習(xí)策略,用于貝葉斯卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,通過(guò)構(gòu)建多維貝葉斯卷積神經(jīng)網(wǎng)絡(luò)以適應(yīng)多種高光譜影像,在Indian Pines、Salinas等公開(kāi)數(shù)據(jù)集上實(shí)現(xiàn)了較好的分類結(jié)果。楊承文等[132]將深度貝葉斯網(wǎng)絡(luò)與主動(dòng)學(xué)習(xí)策略相結(jié)合,先基于有限的標(biāo)簽樣本對(duì)模型進(jìn)行預(yù)訓(xùn)練,再篩選出不確定性高的樣本對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,從而增強(qiáng)了模型在樣本稀疏條件下的泛化性。相關(guān)研究還包括文獻(xiàn)[130,133-134]。
上述方法均采用預(yù)先設(shè)計(jì)好的策略或準(zhǔn)則對(duì)無(wú)標(biāo)簽樣本進(jìn)行選取,然而這些策略或準(zhǔn)則的泛化性仍難以得到保證。為了解決這些問(wèn)題,部分學(xué)者將度量學(xué)習(xí)與主動(dòng)學(xué)習(xí)相結(jié)合,通過(guò)優(yōu)化損失函數(shù)的設(shè)計(jì)以提高無(wú)標(biāo)簽樣本選擇的合理性。其中ZHANG等[135]提出了一種結(jié)合主動(dòng)學(xué)習(xí)的多度量學(xué)習(xí)方法,通過(guò)多個(gè)度量指標(biāo)的分配,以學(xué)習(xí)并優(yōu)化損失函數(shù),在Houston和Indian Pines數(shù)據(jù)上驗(yàn)證了該方法的有效性。
與主動(dòng)學(xué)習(xí)類似,半監(jiān)督學(xué)習(xí)旨在利用少量標(biāo)簽樣本和大量無(wú)標(biāo)簽樣本對(duì)模型進(jìn)行訓(xùn)練。不同的是,半監(jiān)督學(xué)習(xí)更強(qiáng)調(diào)訓(xùn)練過(guò)程的自動(dòng)化,而不是主動(dòng)學(xué)習(xí)中大量的人工干預(yù)[136-137]。半監(jiān)督學(xué)習(xí)主要包括兩大類:基于偽標(biāo)簽的方法和基于一致性正則化的方法。前者主要利用為無(wú)標(biāo)簽樣本賦予偽標(biāo)簽的思想,利用當(dāng)前模型給予無(wú)標(biāo)簽樣本最有可能被預(yù)測(cè)的類別作為其偽標(biāo)簽,之后將偽標(biāo)簽加入標(biāo)簽數(shù)據(jù)集對(duì)模型進(jìn)行繼續(xù)訓(xùn)練[138];后者主要依賴對(duì)干擾不變性的假設(shè),即對(duì)同一樣本進(jìn)行數(shù)據(jù)增強(qiáng),而增強(qiáng)后的樣本之間,其預(yù)測(cè)標(biāo)簽應(yīng)當(dāng)保持一致[139]。
由于土地利用/覆被分類往往難以獲得海量、高質(zhì)量的標(biāo)簽樣本,因此半監(jiān)督學(xué)習(xí)受到了廣大研究人員的關(guān)注。其中,在基于偽標(biāo)簽的半監(jiān)督學(xué)習(xí)方面,CENGGORO等[140]采用了一種變分半監(jiān)督學(xué)習(xí)框架,同時(shí)利用標(biāo)簽樣本和無(wú)標(biāo)簽樣本對(duì)深度學(xué)習(xí)模型進(jìn)行優(yōu)化,以解決土地利用/覆被分類中的樣本不平衡問(wèn)題。相關(guān)研究還包括文獻(xiàn)[141]。
筆者在偽標(biāo)簽法方面開(kāi)展了半監(jiān)督深度學(xué)習(xí)的相關(guān)研究。針對(duì)半干旱區(qū)的土地覆被分類問(wèn)題,提出了一種多門控機(jī)制的半監(jiān)督深度學(xué)習(xí)框架[142],通過(guò)概率門、不確定性門和抗噪性門的聯(lián)合使用,以篩選并生成高質(zhì)量的偽標(biāo)簽樣本(圖7),并通過(guò)消融實(shí)驗(yàn)證實(shí)了不同門控機(jī)制的有效性。同時(shí),針對(duì)城市防塵綠網(wǎng)的遙感分類問(wèn)題,構(gòu)建了一種two-step的半監(jiān)督深度學(xué)習(xí)算法[143],首先篩選高概率的無(wú)標(biāo)簽樣本,然后將其與標(biāo)簽樣本進(jìn)行特征相似度計(jì)算,若top-k的標(biāo)簽樣本具有相同的類別,則將該類別賦給當(dāng)前無(wú)標(biāo)簽樣本。
圖7 多門控機(jī)制的半監(jiān)督深度學(xué)習(xí)框架[142]Fig.7 Multi-gate semi-supervised learning method[142]
除了上述偽標(biāo)簽樣本方法外,一致性正則化方法也得到了研究。其中ZHANG等[144]提出了一種基于半監(jiān)督學(xué)習(xí)的語(yǔ)義分割網(wǎng)絡(luò)(S4Net),在對(duì)標(biāo)簽樣本進(jìn)行特征提取的同時(shí),對(duì)無(wú)標(biāo)簽樣本施加隨機(jī)變換或擾動(dòng),并利用組合的損失函數(shù)訓(xùn)練模型,在DeepGlobe數(shù)據(jù)集上取得了具有競(jìng)爭(zhēng)力的結(jié)果。文獻(xiàn)[145]進(jìn)行了類似研究。
本文所指的弱監(jiān)督學(xué)習(xí)主要針對(duì)不確切監(jiān)督(Inexact supervision)問(wèn)題[146],即基于粗粒度的上游標(biāo)簽實(shí)現(xiàn)細(xì)粒度的下游任務(wù)。在土地利用/覆被遙感分類中,常見(jiàn)的弱監(jiān)督學(xué)習(xí)表述如下:如何在只有圖像塊級(jí)別或低分辨率的土地利用/覆被標(biāo)注的情況下,去實(shí)現(xiàn)像素級(jí)別或高分辨率的土地利用/覆被遙感分類任務(wù)。
弱監(jiān)督學(xué)習(xí)可以一定程度上實(shí)現(xiàn)粗粒度標(biāo)注樣本的復(fù)用,對(duì)于樣本稀疏引起的模型過(guò)擬合具有一定的緩解作用,在近期受到了遙感研究人員的關(guān)注[147-151]。其中,SCHMITT等[147]探索了如何使用低分辨率的土地覆被樣本去生成高分辨率的土地覆被分類圖,首先采用MODIS的500 m分辨率的全球土地覆被數(shù)據(jù)集作為低分辨率樣本集,然后利用DeepLab v3+和UNet語(yǔ)義分割模型在高分辨率Sentinel影像數(shù)據(jù)集SEN12MS上進(jìn)行訓(xùn)練,并在DFC2020數(shù)據(jù)集的驗(yàn)證集上進(jìn)行精度評(píng)估。雖然作者指出上述方法的精度并不能令人滿意,但是其技術(shù)路線可以給人以啟發(fā),因?yàn)榈头直媛实耐恋乩?覆被樣本比較容易獲得,相似的研究還包括文獻(xiàn)[148]。相比于SCHMITT等[147]直接使用低分辨率的樣本對(duì)模型進(jìn)行訓(xùn)練,WANG等[149]則利用圖像塊級(jí)的標(biāo)簽樣本和類激活圖(Class activation maps, CAMs)的方法獲取像素級(jí)的偽標(biāo)簽,并將偽標(biāo)簽加入標(biāo)簽樣本集,對(duì)UNet語(yǔ)義分割模型進(jìn)行重新訓(xùn)練,證明了上述弱監(jiān)督方法在土地覆被分類中的有效性。針對(duì)跨領(lǐng)域的土地利用/覆被分類問(wèn)題,LI等[150]提出了一個(gè)基于弱監(jiān)督約束的語(yǔ)義分割模型,通過(guò)弱監(jiān)督遷移不變性約束、弱監(jiān)督偽標(biāo)簽約束以及弱監(jiān)督旋轉(zhuǎn)一致性約束,改善了模型的分類效果。
自監(jiān)督學(xué)習(xí)屬于無(wú)監(jiān)督學(xué)習(xí)的一種[152],可在沒(méi)有明確人工監(jiān)督信息的情況下(如標(biāo)簽),從數(shù)據(jù)本身出發(fā)構(gòu)建學(xué)習(xí)算法[153]。主要通過(guò)設(shè)計(jì)輔助任務(wù)(如灰度圖像上色[154]、拼圖游戲[155]、圖像修復(fù)[156]等)來(lái)對(duì)模型進(jìn)行預(yù)訓(xùn)練,從而更好完成下游任務(wù)(如目標(biāo)檢測(cè)、語(yǔ)義分割等)。近年來(lái),隨著各種輔助任務(wù)的提出,自監(jiān)督策略的訓(xùn)練效果越來(lái)越接近全監(jiān)督學(xué)習(xí),引起了越來(lái)越多國(guó)內(nèi)外研究者的關(guān)注。
目前將自監(jiān)督學(xué)習(xí)應(yīng)用到土地利用/覆被遙感分類中的研究較少,國(guó)內(nèi)外相關(guān)研究均處于起步階段。其中AYUSH等[157]提出了地理感知自監(jiān)督對(duì)比學(xué)習(xí)策略,該方法通過(guò)時(shí)序正樣本對(duì)在空間上對(duì)齊的方式,并結(jié)合影像拍攝地點(diǎn)的知識(shí),在Map of the World數(shù)據(jù)集上較MoCo-v2模型提升了8%的精度。REN等[158]提出一種基于相互信息的自監(jiān)督模型,并首次將自監(jiān)督學(xué)習(xí)應(yīng)用于PolSAR土地覆被分類任務(wù)中,通過(guò)輔助任務(wù)的設(shè)計(jì),提高了土地覆被制圖的性能。文獻(xiàn)[159-160]進(jìn)行了類似研究。
遷移學(xué)習(xí)主要解決不同域(源域和目標(biāo)域)之間的模型對(duì)齊問(wèn)題[161]。考慮到遙感影像具有天然的多域性,即在時(shí)間、空間、光譜等維度上存在天然差異,因此如何將源域?qū)W習(xí)到的知識(shí)遷移至目標(biāo)域,并利用有限的目標(biāo)域樣本提升遙感分類模型的性能,就依賴于遷移學(xué)習(xí)的深入研究。
遷移學(xué)習(xí)主要包括基于模型參數(shù)的遷移、基于域適應(yīng)的遷移、基于對(duì)抗學(xué)習(xí)的遷移等。其中基于模型參數(shù)的遷移屬于早期被廣泛應(yīng)用的方法,深度學(xué)習(xí)網(wǎng)絡(luò)的微調(diào)法(fine tune)即屬于此類方法。其中WURM等[162]利用在QuickBird上訓(xùn)練好的模型遷移至具有不同光譜波段的Sentinel-2和TerrasSAR-X中,并對(duì)貧民窟這一獨(dú)特的土地利用類型進(jìn)行分類,結(jié)果表明基于模型參數(shù)的遷移對(duì)異源傳感器(QuickBird與SAR)之間的學(xué)習(xí)效果較差,而對(duì)于同源傳感器(QuickBird與Sentinel-2)之間的分類結(jié)果具有提升作用。
在基于域適應(yīng)的遷移方面,QIN等[163]提出了一種基于張量對(duì)齊的域適應(yīng)(Domain adaptation, DA)方法。首先將源域和目標(biāo)域的遙感影像分割成超像素,然后通過(guò)對(duì)齊矩陣實(shí)現(xiàn)源域和目標(biāo)域之間的子空間對(duì)齊,并通過(guò)投影矩陣完成特征重映射,從而提高了目標(biāo)域內(nèi)土地利用/覆被分類的精度。文獻(xiàn)[164-165]進(jìn)行了類似研究。
在基于對(duì)抗學(xué)習(xí)的遷移方面,XU等[166]采用對(duì)抗學(xué)習(xí)策略提出了一種可轉(zhuǎn)移注意力的對(duì)齊方法,以增加細(xì)粒度特征,并在語(yǔ)義分割模型中使用域適應(yīng)方法,以緩解類間不平衡問(wèn)題。文獻(xiàn)[167-168]進(jìn)行了類似研究。
深度學(xué)習(xí)本質(zhì)上屬于數(shù)據(jù)驅(qū)動(dòng)模型,其在土地利用/覆被遙感分類中的性能很大程度上取決于樣本數(shù)據(jù)的規(guī)模、標(biāo)注質(zhì)量、地物類別的多樣性與完備性等。雖然研究人員相繼發(fā)布了一些土地利用/覆被分類遙感樣本數(shù)據(jù)集,然而大部分樣本僅采樣自某一地區(qū)和某一時(shí)相,這將導(dǎo)致訓(xùn)練出的深度學(xué)習(xí)分類模型的時(shí)空泛化能力較差,如果直接將上述分類模型用于其他地區(qū)或時(shí)相,分類精度往往難以得到保證。
為了解決土地利用/覆被遙感分類中深度學(xué)習(xí)模型的時(shí)空泛化問(wèn)題,一個(gè)最直接有效的辦法是構(gòu)建大規(guī)模遙感樣本數(shù)據(jù)集,并進(jìn)行公開(kāi)發(fā)布,從而有助于廣大研究人員利用其進(jìn)行深度學(xué)習(xí)模型構(gòu)建與訓(xùn)練。實(shí)際上,在計(jì)算機(jī)視覺(jué)領(lǐng)域,正是由于ImageNet等大規(guī)模開(kāi)源樣本數(shù)據(jù)集的發(fā)布,才有效促進(jìn)了深度學(xué)習(xí)在自然圖像分類、目標(biāo)檢測(cè)等領(lǐng)域的發(fā)展和落地應(yīng)用。
在未來(lái)研究中,可以優(yōu)先考慮以下兩種類型的遙感樣本數(shù)據(jù)集:圖像塊級(jí)樣本數(shù)據(jù)集;像素級(jí)樣本數(shù)據(jù)集。其中圖像塊級(jí)樣本數(shù)據(jù)集的構(gòu)建方法與UC Merced、AID等場(chǎng)景識(shí)別數(shù)據(jù)集類似,用一個(gè)遙感圖像塊來(lái)表示某一種特定的土地利用/覆被類型,樣本標(biāo)注的過(guò)程較為簡(jiǎn)單,標(biāo)注人員直接對(duì)該遙感圖像塊的類別進(jìn)行賦值即可。然而這種樣本并不能提供精確的地物邊界信息,導(dǎo)致大區(qū)域制圖結(jié)果出現(xiàn)明顯的邊緣鋸齒效應(yīng);此外一個(gè)遙感圖像塊中往往同時(shí)存在多種地物類型,這種場(chǎng)景復(fù)雜性也將增加分類難度。相比于圖像塊級(jí)樣本數(shù)據(jù)集,像素級(jí)樣本數(shù)據(jù)集可以提供每一種土地利用/覆被類型的邊界信息,然而標(biāo)注工作量較高,較為費(fèi)時(shí)費(fèi)力。同時(shí),在構(gòu)建上述兩類樣本數(shù)據(jù)集時(shí),還需要考慮遙感影像的多源性,盡可能覆蓋多尺度、多傳感器、多時(shí)相、多區(qū)域的遙感影像,進(jìn)而提高樣本數(shù)據(jù)集的完備性和可用性。
在當(dāng)前土地利用/覆被遙感分類研究中,研究人員或直接采用計(jì)算機(jī)視覺(jué)領(lǐng)域較為成熟的深度學(xué)習(xí)模型、或在經(jīng)典模型上進(jìn)行結(jié)構(gòu)改進(jìn),在各自數(shù)據(jù)集上取得了較好的分類精度。雖然也有相關(guān)研究人員針對(duì)遙感影像的特點(diǎn)進(jìn)行模型結(jié)構(gòu)優(yōu)化,但其適用范圍往往需要進(jìn)一步驗(yàn)證。
在未來(lái)的研究中,一方面可以繼續(xù)借鑒計(jì)算機(jī)視覺(jué)領(lǐng)域的最新研究成果,但更重要的是需要分析遙感影像自身特點(diǎn),有針對(duì)性地對(duì)深度學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。相比于計(jì)算機(jī)視覺(jué)領(lǐng)域關(guān)注的自然圖像,遙感影像具有天然的多源、多傳感器、多譜段、多尺度、多時(shí)相等特征。在設(shè)計(jì)分類網(wǎng)絡(luò)時(shí),多光譜影像、高光譜影像、雷達(dá)影像的特征提取網(wǎng)絡(luò)是否需要單獨(dú)設(shè)計(jì),不同波段之間的特征是否需要融合,厘米級(jí)的無(wú)人機(jī)影像、亞米級(jí)的高分辨率衛(wèi)星影像以及中低分辨率衛(wèi)星影像,其特征提取網(wǎng)絡(luò)有何不同,多時(shí)相影像、多傳感器影像之間如何進(jìn)行特征融合,從而進(jìn)一步提高分類的精度和可靠性,同時(shí),相比于自然圖像,遙感影像更多揭示的是宏觀地學(xué)現(xiàn)象,因此在設(shè)計(jì)深度學(xué)習(xí)模型結(jié)構(gòu)時(shí),如何考慮增加地學(xué)的先驗(yàn)知識(shí),從而提高模型結(jié)構(gòu)的合理性,也是一個(gè)需要思考的問(wèn)題。
此外,還可以研究深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)尋優(yōu)方法,即網(wǎng)絡(luò)結(jié)構(gòu)也是從樣本數(shù)據(jù)集中學(xué)習(xí)得到的。需要注意的是,網(wǎng)絡(luò)結(jié)構(gòu)的自動(dòng)尋優(yōu)需要海量的訓(xùn)練樣本,如果樣本集的規(guī)模較小,其學(xué)習(xí)到的網(wǎng)絡(luò)結(jié)構(gòu)僅是局部最優(yōu)解,其時(shí)空泛化能力仍存在缺陷。
通過(guò)構(gòu)建大規(guī)模遙感樣本數(shù)據(jù)集,可以一定程度上解決深度學(xué)習(xí)模型的時(shí)空泛化能力問(wèn)題。然而大規(guī)模樣本集的構(gòu)建費(fèi)時(shí)費(fèi)力,同時(shí)在實(shí)際的土地利用/覆被遙感分類中,可用的樣本數(shù)量總是較少的,因此稀疏樣本是遙感領(lǐng)域研究者需要面對(duì)的一個(gè)重要議題。稀疏樣本可以從時(shí)間和空間兩方面去理解,即已有的樣本數(shù)據(jù)集往往是基于某一特定時(shí)間、特定空間的影像進(jìn)行標(biāo)注的,那么在這一時(shí)空范圍以外的遙感影像,如果不進(jìn)行大規(guī)模重新標(biāo)注,那么其樣本必然是稀疏的。此外,對(duì)歷史影像而言,如果沒(méi)有對(duì)應(yīng)時(shí)間段的野外采樣記錄,其樣本類別只能通過(guò)遙感影像目視解譯的方法進(jìn)行判讀,其不確定性較高。
為了解決稀疏樣本問(wèn)題,在未來(lái)的研究中,可以重點(diǎn)考慮無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)等算法。其中無(wú)監(jiān)督學(xué)習(xí)對(duì)標(biāo)簽樣本的依賴度最低,其通過(guò)海量無(wú)標(biāo)簽樣本的訓(xùn)練,從而將原始影像數(shù)據(jù)轉(zhuǎn)換到一個(gè)類間可分性高的特征空間。而自監(jiān)督學(xué)習(xí)屬于無(wú)監(jiān)督學(xué)習(xí)中的一個(gè)熱門方向,其相關(guān)思想也可以被遙感領(lǐng)域研究人員所借鑒。這是因?yàn)檫b感影像作為天然的無(wú)標(biāo)簽樣本庫(kù),可為無(wú)監(jiān)督學(xué)習(xí)提供海量無(wú)標(biāo)簽訓(xùn)練樣本。同時(shí),半監(jiān)督學(xué)習(xí)由于同時(shí)考慮了有限的標(biāo)簽樣本和海量的無(wú)標(biāo)簽樣本,也可以緩解因稀疏樣本造成的遙感分類模型的過(guò)擬合問(wèn)題。遷移學(xué)習(xí)則重點(diǎn)考慮不同光譜、空間、時(shí)間分辨率遙感影像之間的樣本復(fù)用問(wèn)題,可以采用域適應(yīng)的方法實(shí)現(xiàn)遙感分類模型的時(shí)空譜遷移,提高模型泛化能力。
綜上,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,土地利用/覆被樣本集的種類和數(shù)量將持續(xù)上升,為模型訓(xùn)練和精度對(duì)比提供數(shù)據(jù)支撐;深度學(xué)習(xí)模型的結(jié)構(gòu)也將得到進(jìn)一步優(yōu)化,并更能適應(yīng)遙感影像的特點(diǎn);各種學(xué)習(xí)策略的不斷改進(jìn),將會(huì)提高模型在樣本稀疏條件下的時(shí)空泛化能力。上述樣本-模型-算法的改進(jìn)將持續(xù)推動(dòng)深度學(xué)習(xí)在土地利用/覆被制圖中的廣泛應(yīng)用。
農(nóng)業(yè)機(jī)械學(xué)報(bào)2022年3期