陳舒暢 楊萬里 李新立
(1.長春汽車工業(yè)高等??茖W(xué)校 信息技術(shù)學(xué)院 吉林省長春市 130013)
(2.一汽解放汽車有限公司 制造物流部 吉林省長春市 130013)
(3.吉林大學(xué) 儀器科學(xué)與電氣工程學(xué)院 吉林省長春市 130061)
遙感影像技術(shù)由于在地理測繪、環(huán)境監(jiān)測、地物識別、農(nóng)業(yè)氣象等領(lǐng)域都有著重大的意義,可以應(yīng)用于農(nóng)學(xué)、氣象、環(huán)保等多個應(yīng)用領(lǐng)域,所以一直以來都是圖像分類與識別領(lǐng)域的研究熱點問題[1]。遙感影像分類與識別是指利用影像中的光譜、紋理以及形態(tài)等不同特征對其中的內(nèi)容加以識別,并賦予真實的標(biāo)志。深度學(xué)習(xí)優(yōu)秀的特征學(xué)習(xí)能力,不但和人類認(rèn)知信息的過程非常接近,同時還具備了較強的信息遷移能力[2]。所以,近些年很多學(xué)者逐漸開始關(guān)注基于深度學(xué)習(xí)的、并且適合運用于遙感影像應(yīng)用領(lǐng)域的分析方法。本文首先介紹了三種經(jīng)典的深度學(xué)習(xí)算法,然后介紹了遙感影像分類與識別的基本方法,接著論述了基于深度學(xué)習(xí)的遙感影像分類和識別的研究現(xiàn)狀,最后對未來深度學(xué)習(xí)技術(shù)在遙感應(yīng)用領(lǐng)域中的發(fā)展方向進(jìn)行了總結(jié)。
DBN算法歸屬于神經(jīng)網(wǎng)絡(luò)范疇,非監(jiān)督學(xué)習(xí)場景和監(jiān)督學(xué)習(xí)場景都適用。DBN算法的最終目的是生成一個最佳的網(wǎng)絡(luò)結(jié)構(gòu),這個過程是通過訓(xùn)練各神經(jīng)元間的權(quán)重來完成的。DBN能夠?qū)崿F(xiàn)特征識別、數(shù)據(jù)分類以及數(shù)據(jù)生成等工作,且拓展性極強,應(yīng)用非常廣泛,可應(yīng)用于手寫數(shù)字識別、語音識別和圖片處理等相關(guān)領(lǐng)域[3]。如圖1所示。
圖1:深度置信神經(jīng)網(wǎng)絡(luò)(DBN-DNN)結(jié)構(gòu)
DBN網(wǎng)絡(luò)結(jié)構(gòu)由多層神經(jīng)元所構(gòu)成,神經(jīng)元包括顯性神經(jīng)元和隱性神經(jīng)元兩種模式,其中顯性神經(jīng)元主要用于數(shù)據(jù)信息的接收,而隱性神經(jīng)元的主要用于特征的提取。以三層隱藏層構(gòu)成的DBN-DNN系統(tǒng)為例,整個網(wǎng)絡(luò)結(jié)構(gòu)由三個受限玻爾茲曼機(RBM)單元堆砌而成,受限玻爾茲曼機(RBM)也是一種神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),但其具有一定的隨機性[4],其中RBM包含表層隱層和基層顯層。當(dāng)構(gòu)造DNN網(wǎng)絡(luò)結(jié)構(gòu)時,前一組RBM的隱層輸出層將作為下一組RBM的顯層輸入層,然后順序堆疊,最終構(gòu)成一個DBN模型。
深度學(xué)習(xí)是人工智能的重要技術(shù),其中學(xué)習(xí)的方式包括兩種:一種是監(jiān)督學(xué)習(xí),另一種是非監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是較為常用的方式,但其需要進(jìn)行大規(guī)模地標(biāo)注樣本,而且通常由人工來完成,但在許多時候卻很難進(jìn)行精確的標(biāo)注,這時就體現(xiàn)了非監(jiān)督學(xué)習(xí)的重要性。自編碼網(wǎng)絡(luò)屬于非監(jiān)督學(xué)習(xí)算法,通過自編碼網(wǎng)絡(luò)可以對輸入信息進(jìn)行重新構(gòu)建,從而實現(xiàn)比原始數(shù)據(jù)更加豐富的特征,因此應(yīng)用自編碼網(wǎng)絡(luò)去實現(xiàn)新特征生成有利于訓(xùn)練出更好的模型。
自編碼網(wǎng)絡(luò)由兩部分組成:編碼器與解碼器,工作過程中,自編碼網(wǎng)絡(luò)將輸入復(fù)制到輸出,然后通過解碼器返回特征并映射回數(shù)據(jù)空間[5]。SAE網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示:一個自編碼網(wǎng)絡(luò)至少需要一個編碼函數(shù),一個解碼函數(shù),以及一個損失函數(shù)。
圖2:自編碼網(wǎng)絡(luò)結(jié)構(gòu)
相比于普通神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)多出了卷積層和子采樣層,是深度學(xué)習(xí)的代表算法。卷積神經(jīng)網(wǎng)絡(luò)的隱含層包含卷積層、池化層和全連接層3種結(jié)構(gòu),其中卷積核是一個權(quán)值,以圖像處理過程為例,卷積核依次與輸入圖像的不同區(qū)域塊做卷積操作,從而得到輸出,這可以看作是一個特征提取的過程;其中池化層也叫作子采樣層,一般有平均子采樣(mean pooling)和最大值子采樣(max pooling),池化層的作用主要是降維。卷積和子采樣最大的作用就是簡化了模型復(fù)雜度,同時也減少了模型的參數(shù)。如圖3所示。
圖3:CNN結(jié)構(gòu)示意圖
遙感影像分類與識別是利用計算機解析遙感影像中各種地物的光譜信息和空間信息,并通過特征篩選,把圖象中的像元根據(jù)一定規(guī)則分為不同的種類,進(jìn)而進(jìn)行真實場景的信息標(biāo)記。常見的分類方法有監(jiān)督分類法和非監(jiān)督分類法。
監(jiān)督分類需要事先知道特征以及標(biāo)簽,經(jīng)過訓(xùn)練的模型會記錄遙感影像的地物特征,根據(jù)這些地物特征進(jìn)行分類預(yù)測從而實現(xiàn)圖像的具體分類。常見的監(jiān)督分類方法有支持向量機(SVM)和神經(jīng)網(wǎng)絡(luò)分類法等。
非監(jiān)督分類只需要事先知道特征即可,不需要標(biāo)簽信息,它以聚類為基本思路并根據(jù)關(guān)聯(lián)規(guī)則構(gòu)建劃分依據(jù)。其中一種典型的算法是K-Means算法,K-Means算法實現(xiàn)過程分為4步:第一步需要確定K個初始的簇中心;第二步需要把離中心最近的K個樣本都?xì)w在某類中;第三步重新計算類的簇中心;第四步:重復(fù)1-3步的過程直到收斂,也就是簇中心不再改變。另一種典型的非監(jiān)督學(xué)習(xí)算法是ISODATA 算法,ISODATA 算法增加了類別合并與分裂機制,算法結(jié)構(gòu)更復(fù)雜[6-7]。
呂啟等人于2014年將DBN模型應(yīng)用在SAR影像中用于城市地圖制作,通過改變DBN模型的網(wǎng)絡(luò)層數(shù)和隱含層數(shù)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),并進(jìn)行對比實驗表明DBN的分類效果更加突出[8]。高蓉在2015年將DBN進(jìn)行了稀疏極值化,其中的關(guān)鍵就是將SAR影像數(shù)據(jù)的極化信息作為特征提取[9]。劉大偉等人于2016年針對高分辨率遙感影像的分類問題,提出了基于光譜紋理特征的方法,同時使用DBN模型進(jìn)行訓(xùn)練,并通過對比實驗驗證該模型的效果,最終通過實驗表明該方法適合較為復(fù)雜樣本的圖像分類問題[10]。徐麗坤等2017年通過調(diào)整DBN的網(wǎng)絡(luò)層數(shù)、隱含層層數(shù)和參數(shù),設(shè)計DBN結(jié)構(gòu)并應(yīng)用于遙感影像分類問題中,通過大量對比試驗證明分類效果較好[11]。Zhong等人在2017年經(jīng)過規(guī)范預(yù)訓(xùn)練和微調(diào)階段參數(shù)的方法提出了一種新的DBN模型,也可以有效地解決遙感影像分類問題[12]。趙自雨于2018年在分析了深度置信網(wǎng)絡(luò)的基礎(chǔ)上,研究了多光譜信息分類方法,并經(jīng)過試驗表明可以通過加入信息熵的方法確定最佳隱含層層數(shù)從而提高分類精度[13]。姜宗辰等人在2019年通過構(gòu)建DBN模型,將DBN技術(shù)運用到赤潮災(zāi)害遙感檢測中,并運用渤海地區(qū)機載高光譜遙感數(shù)據(jù)進(jìn)行赤潮分類,以實現(xiàn)獲取高光譜影像中赤潮水體范圍的目的。并與典型的SVM分類法和ISODATA分類法進(jìn)行對比試驗,表明DBN模型可以在擁有更高的分析準(zhǔn)確度[14]。黃鴻等人于2021年提出了一種深度流形重構(gòu)置信網(wǎng)絡(luò),該網(wǎng)絡(luò)利用DBN獲取數(shù)據(jù),然后進(jìn)行近鄰匹配來構(gòu)造類內(nèi)圖與類間圖,壓縮類內(nèi)近鄰匹配點與相應(yīng)的重構(gòu)點,從而提升地物分類精度[15]。
林洲漢在2014年給出了AE-SVM和SAE-LR分類器的兩種分類方法。SAE可以獲得更多的特性從而為SVM分類識別做好準(zhǔn)備[16]。王知音等于2015年提出基于堆棧稀疏自編碼的結(jié)構(gòu)模型,通過該模型可以提高水體影像的提取精度[17]。戴曉愛等于2016年將堆棧稀疏自編碼器用于高光譜遙感影像,并尋找最合適的隱藏層數(shù)量,從而提高分類的精度[18]。譚鋼等人于2017年針對高光譜遙感影像的分類問題,通過添加空間特征構(gòu)建SAE模型來優(yōu)化,并應(yīng)用Softmax分類器,使用數(shù)據(jù)集加以驗證,證實了添加空間特征的SAE方法效果更好[19]。徐佳等人在2018年通過構(gòu)造深度極限學(xué)習(xí)機對原有訓(xùn)練集進(jìn)行特征分割,然后利用SAE進(jìn)行子特征轉(zhuǎn)換,再將數(shù)據(jù)傳入D-ELM,并不斷經(jīng)過試驗確認(rèn)隱含層數(shù)從而得出優(yōu)化模型[20]。張國東等2019年提出通過棧式自編碼網(wǎng)絡(luò)充分利用影像中的光譜信息來提高高光譜的分類精度[21]。郭交等人2021年通過選取不同的分類模型構(gòu)建融合網(wǎng)絡(luò),充分考慮了CNN分類的優(yōu)勢,通過試驗驗證該方法通過一次監(jiān)督訓(xùn)練便可以實現(xiàn)高光譜影像的直接分類,大大簡化了傳統(tǒng)數(shù)據(jù)處理的流程[22]。
陳文康于2016年在CaffeNet學(xué)習(xí)框架下,對農(nóng)村建筑和非建筑物影像進(jìn)行了訓(xùn)練與測試,識別率達(dá)95%[23]。趙漫丹等人于2017年通過建立5層神經(jīng)網(wǎng)絡(luò)分析逐個像素的光譜信息,然后在輸入端提供全光譜數(shù)據(jù)集并對引入代價函數(shù),從而完成光譜信息的特征提取與分類,分類準(zhǔn)確率達(dá)到90.16%[24]。羅建華于2017年將所有像素點空間鄰域結(jié)構(gòu)信息作為CNN模型的輸入,對激活函數(shù)ReLu進(jìn)行設(shè)計,通過試驗證明mini-batch隨機梯度下降法能夠提升CNN分類準(zhǔn)確度,分類精度達(dá)97.57%[25]。杜敬于2017年使用DCNN技術(shù)建立了水域辨識模型,通過使用MSER算法,對無人機高分辨率遙感影像進(jìn)行分析,通過鎖定待辨識目標(biāo)區(qū)域,導(dǎo)入DCNN水體辨識模型,辨識精度高達(dá)95.36%[26]。朱袁杰等人于2020年針對南京建鄴區(qū)的城市綠地用地類別繁雜、具有明顯地域差異性等特征,基于特定情景語義構(gòu)建CNN模型訓(xùn)練影像,從而實現(xiàn)各類綠地的自動分類,通過試驗證明分類準(zhǔn)確率可達(dá)87.74%[27]。王嘉楠等2021年提出一種基于視覺轉(zhuǎn)換器和圖卷積網(wǎng)絡(luò)雙分支結(jié)構(gòu)的光學(xué)遙感影像分類方法。該方法首先將影像進(jìn)行分塊處理,再利用位置編碼和視覺轉(zhuǎn)換器對影像進(jìn)行特征編碼;同時對遙感影像進(jìn)行超像素分割,將每個超像素對應(yīng)的卷積神經(jīng)網(wǎng)絡(luò)特征進(jìn)行池化處理并作為圖結(jié)構(gòu)中的結(jié)點,利用圖卷積網(wǎng)絡(luò)對場景內(nèi)部圖結(jié)構(gòu)進(jìn)行建模;最終融合兩個分支產(chǎn)生的特征形成最終特征并用于分類。并通過對比實驗驗證了所提方法在遙感場景分類中的有效性[28]。徐姍姍等人2022年選用深度卷積神經(jīng)網(wǎng)絡(luò)模型檢測高分辨率遙感影像中的植被區(qū)域,首先對不同的優(yōu)化器進(jìn)行分析,并通過設(shè)置不同卷積核大小進(jìn)行對比試驗;然后對網(wǎng)絡(luò)層數(shù)進(jìn)行研究;最后針對訓(xùn)練樣本用構(gòu)造的深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行植被區(qū)域檢測[29]。
深度學(xué)習(xí)技術(shù)在遙感影像處理方面的進(jìn)展迅速,但同時也面臨著很多問題,主要有以下幾個方面:
(1)DBN依靠無監(jiān)督學(xué)習(xí)在遙感影像處理上可以較好的提取影像的特征,但是必須提前進(jìn)行數(shù)據(jù)標(biāo)注以及先驗知識設(shè)置,從而確定網(wǎng)絡(luò)結(jié)構(gòu),因此可能產(chǎn)生一些誤差。
(2)SAE使用的是無監(jiān)督分類方法,因而沒有復(fù)雜的人工標(biāo)注過程,這樣可以減少在特征提取和數(shù)據(jù)降維上的偏差,但需要其他分類器的結(jié)合才能達(dá)到較高的訓(xùn)練準(zhǔn)確度。
(3)CNN主要應(yīng)用在高光譜影像處理領(lǐng)域,但CNN模型在實際使用時必須依賴參數(shù)和激活函數(shù),在正確的選取下才可以提高運算效率。
隨著深度學(xué)習(xí)的快速發(fā)展,各種問題也隨之而來,綜合上述問題,深度學(xué)習(xí)技術(shù)在遙感領(lǐng)域可以從以下幾方面發(fā)展:
(1)完善和優(yōu)化深度神經(jīng)網(wǎng)絡(luò)模型的參數(shù)和激活函數(shù),并選取了恰當(dāng)?shù)暮瘮?shù)以便在遙感影像處理分析中發(fā)揮積極影響。
(2)研究多種算法組合的模型結(jié)構(gòu),如SAE與SVM算法的結(jié)合,深入提升遙感影像處理精度,并提高機器學(xué)習(xí)的能力。
(3)研究數(shù)據(jù)樣本的擴展問題,并結(jié)合數(shù)據(jù)處理的各種變換形式增加樣本容量,以提高模型精度。
本文簡要闡述了深度學(xué)習(xí)技術(shù)在遙感影像分類與識別領(lǐng)域的實際應(yīng)用狀況,并介紹了深度學(xué)習(xí)的三個經(jīng)典算法,以及它們在遙感影像應(yīng)用方面的研究進(jìn)展,最后提出了將深度學(xué)習(xí)技術(shù)應(yīng)用于遙感影像中存在的問題,并針對這些問題和現(xiàn)階段深度學(xué)習(xí)在遙感影像的發(fā)展趨勢指出了未來具體遙感應(yīng)用領(lǐng)域中深度學(xué)習(xí)的發(fā)展方向。