錢 佩,皮原征*,雷 靂,黃慶飛
(1.廣東省國土資源測繪院,廣東 廣州 510500)
建筑物提取的方法大致可分3類[1-5]。目前,卷積類深度神經(jīng)網(wǎng)絡(luò)在遙感影像處理方面多是監(jiān)督式學(xué)習(xí)且自適應(yīng)性低,但在農(nóng)村建筑物提取過程中,影像的干擾性地物復(fù)雜多樣,對(duì)深度神經(jīng)網(wǎng)絡(luò)的自適應(yīng)性要求較高。無監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)以其數(shù)據(jù)降維與特征提取方面的優(yōu)勢[17-22],被廣泛應(yīng)用于高維影像數(shù)據(jù)的目標(biāo)檢測等領(lǐng)域的研究[23]。
本文采用棧式稀疏自編碼神經(jīng)網(wǎng)絡(luò)的方法從遙感影像中提取農(nóng)村建筑物。首先使用高分辨率遙感數(shù)據(jù)集,以無監(jiān)督學(xué)習(xí)的方式對(duì)棧式稀疏自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提取遙感影像中農(nóng)村建筑物的特征,然后利用標(biāo)記數(shù)據(jù)和提取的農(nóng)村建筑物特征以監(jiān)督學(xué)習(xí)的方式對(duì)其分類,從而實(shí)現(xiàn)對(duì)建筑物的準(zhǔn)確提取。
由于遙感影像中相鄰像素之間存在很強(qiáng)的相關(guān)性,這種強(qiáng)相關(guān)性信息對(duì)于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練來說是冗余的,白化(Whitening)是算法為有效降低輸入影像像素間的相關(guān)聯(lián)度而引入的一種預(yù)處理手段。主成分分析(PCA)白化是一種能夠有效提高無監(jiān)督學(xué)習(xí)算法處理速度的數(shù)據(jù)降維技術(shù)。因此,本文首先采用PCA白化對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以降低神經(jīng)網(wǎng)絡(luò)輸入數(shù)據(jù)的冗余度。
PCA白化預(yù)處理的具體過程如下:首先,為保持樣本數(shù)據(jù)特征分布不變,對(duì)樣本數(shù)據(jù)的進(jìn)行零均值化,得到去均值化后的矩陣X,根據(jù)X計(jì)算樣本數(shù)據(jù)集各個(gè)特征的協(xié)方差矩陣如下:
式中,C是樣本數(shù)據(jù)集的協(xié)方差矩陣;m是無標(biāo)簽樣本的數(shù)目。根據(jù)公式(1)顯然可得協(xié)方差矩陣C是一個(gè)實(shí)對(duì)稱矩陣,其對(duì)角線分別是特征維中各個(gè)特征的方差,而第i行第j列和第j行第i列元素相同,表示i和j2個(gè)字段的協(xié)方差。
然后,根據(jù)實(shí)對(duì)稱矩陣的性質(zhì),可利用奇異值分解等方法求解該協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量,之后將特征向量按對(duì)應(yīng)特征值大小從上往下按行排列成特征值矩陣,根據(jù)如下的PCA誤差表達(dá)式:
式中,δ表示PCA的誤差大??;k表示前k維;m是樣本的無標(biāo)簽樣本的數(shù)目;P表示特征值矩陣。在保證控制在2%以內(nèi)的誤差的前提下,取相應(yīng)的k值及前k維對(duì)應(yīng)的特征值矩陣P,根據(jù)如下公式將數(shù)據(jù)降至k維:
1.2.1 自編碼器
自編碼(auto-encoder,AE)神經(jīng)網(wǎng)絡(luò)是一種無監(jiān)督的學(xué)習(xí)算法,它使用反向傳播算法(Back-Propaga?tion)和最優(yōu)化方法(如梯度下降法、L-BFGS優(yōu)化算法等),借助輸出值等于或接近于輸入值這一規(guī)則,來訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一種映射關(guān)系,這種映射關(guān)系能夠自動(dòng)從無標(biāo)注的數(shù)據(jù)中抽離出比原始數(shù)據(jù)更好的特征描述,進(jìn)而實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的重構(gòu)。如圖1所示。
圖1 自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
一個(gè)單隱藏層的自編碼神經(jīng)網(wǎng)絡(luò)可分為三層,即輸入層、隱藏層和輸出層,其中“1”表示偏置項(xiàng)系數(shù)。假設(shè)表示連接第l層第j個(gè)神經(jīng)元和第l+1層第i個(gè)神經(jīng)元的權(quán)重系數(shù),表示第l+1層第i個(gè)神經(jīng)元的偏置項(xiàng),表示第l+1層第i個(gè)神經(jīng)元對(duì)輸入值的加權(quán)和,sl表示第l層神經(jīng)元的總數(shù),則有:
在自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,采用反向傳播來訓(xùn)練學(xué)習(xí)權(quán)重和偏置項(xiàng)系數(shù)參數(shù),使無標(biāo)簽輸入樣本xi與輸出結(jié)果目標(biāo)yi相等的方式來建立最小化損失函數(shù)。對(duì)于一個(gè)包含m個(gè)樣本的數(shù)據(jù)集,則自編碼神經(jīng)網(wǎng)絡(luò)的損失函數(shù)可表示為:
1.2.2 稀疏自編碼器
當(dāng)隱藏層神經(jīng)元的節(jié)點(diǎn)個(gè)數(shù)少于輸入和輸出層時(shí),自編碼神經(jīng)網(wǎng)絡(luò)試圖使用更小的維度數(shù)據(jù)去描述和刻畫原始數(shù)據(jù),同時(shí)又盡可能保證不損失原始的數(shù)據(jù)信息。因此,此時(shí)的自編碼神經(jīng)網(wǎng)絡(luò)在訓(xùn)練的過程中傾向于去學(xué)習(xí)數(shù)據(jù)內(nèi)部規(guī)律,如相關(guān)性等,可看作是對(duì)原始數(shù)據(jù)的降維或壓縮操作。如果隱藏層維度比輸入數(shù)據(jù)層維度大時(shí),為防止網(wǎng)絡(luò)出現(xiàn)過擬合現(xiàn)象,則通過對(duì)隱藏層施加稀疏性約束,同樣也能夠得到輸入數(shù)據(jù)內(nèi)部的結(jié)構(gòu)與規(guī)律,該模型被稱為稀疏自編碼器(SAE)。稀疏自編碼首先是學(xué)習(xí)原始數(shù)據(jù)信息的高維表達(dá),再借助稀疏性的規(guī)則從高維表達(dá)中進(jìn)行特征選擇,找出大量維度中真正起重要作用的若干維,進(jìn)而只讓這些重要的若干隱藏層節(jié)點(diǎn)處于“活躍”狀態(tài),使自編碼器被推動(dòng)以減少編碼層中活動(dòng)神經(jīng)元的數(shù)量,迫使自編碼器將每個(gè)輸入表示為少量激活的組合。
本文算法的神經(jīng)元激活函數(shù)采用非線性sigmoid函數(shù),即,神經(jīng)網(wǎng)絡(luò)中第l層第i個(gè)神經(jīng)元的激活值用表示。該神經(jīng)元激活函數(shù)的閾值為(0,1),當(dāng)神經(jīng)元的輸出接近于1時(shí)則可以認(rèn)為該神經(jīng)元處于激活狀態(tài);當(dāng)神經(jīng)元的輸出接近0時(shí)則可以認(rèn)為該神經(jīng)元處于抑制狀態(tài)。因此,稀疏自編碼的實(shí)質(zhì)是在自編碼神經(jīng)網(wǎng)絡(luò)的損失函數(shù)中添加適當(dāng)?shù)南∈栊约s束,使大部分神經(jīng)元處于抑制狀態(tài)。假設(shè)表示第n個(gè)樣本輸入xn情況下第j個(gè)神經(jīng)元的激活值(輸出值),用神經(jīng)元j對(duì)于所有樣本的平均激活值,具體如公式(6)。為了使控制在一個(gè)接近于零的范圍,引入相對(duì)熵概念,令為相對(duì)熵中其中一個(gè)隨機(jī)變量,令P為相對(duì)熵中另外一個(gè)隨機(jī)變量,這里通過給定P一個(gè)固定值(通常設(shè)置為一個(gè)較小
值,本文令P=0.05),當(dāng)和P越接近時(shí),的值越小。本文的相對(duì)熵的計(jì)算公式如公式(7):增加稀疏限制之后,以β作為稀疏約束懲罰項(xiàng)的系數(shù),則稀疏自編碼神經(jīng)網(wǎng)絡(luò)的代價(jià)目標(biāo)函數(shù)為:
公式(8)由三部分的和構(gòu)成,其中第一部分是均方差項(xiàng);第二部分是正則化懲罰項(xiàng);最后一部分是稀疏約束懲罰項(xiàng)。公式(8)是關(guān)于各個(gè)權(quán)值和偏置項(xiàng)的非線程函數(shù),且整體為非凸函數(shù),因此采用迭代法求解,本文采用的是L-BFGS優(yōu)化算法。具體為:首先進(jìn)行前向傳播,之后依據(jù)后向傳播思想、代價(jià)目標(biāo)函數(shù)和優(yōu)化算法優(yōu)化參數(shù);再進(jìn)行前向傳播,以此往復(fù)直到代價(jià)目標(biāo)函數(shù)停留在一個(gè)較小值附近。
1.2.3 棧式自編碼器
棧式稀疏自編碼器是指多個(gè)稀疏自編碼器疊加構(gòu)造的網(wǎng)絡(luò)結(jié)構(gòu),棧式自編碼的結(jié)構(gòu)如圖2所示。
圖2 棧式自編碼神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
從圖中可以看出,棧式自編碼神經(jīng)網(wǎng)絡(luò)中其中一層提取的特征結(jié)果是下一層的輸入數(shù)據(jù)。具體訓(xùn)練過程為:首先訓(xùn)練棧式中某一層,然后保持其他層的參數(shù)不變,前一層訓(xùn)練完成之后訓(xùn)練下一層,以此類推。當(dāng)所有層訓(xùn)練完成之后,利用反向傳播算法對(duì)所有參數(shù)進(jìn)行微調(diào),最終達(dá)到最優(yōu)的結(jié)果。
農(nóng)村房屋的真實(shí)形狀各異,經(jīng)過神經(jīng)網(wǎng)絡(luò)提取到的特征層所包含的特征形狀也是多種多樣。因此考慮到logistic回歸解決的僅僅是二分類問題,本文選擇可以進(jìn)行多分類問題的softmax函數(shù),該函數(shù)是logistic回歸函數(shù)的一個(gè)擴(kuò)展。用于softmax回歸模型訓(xùn)練的樣本集通過棧式稀疏自編碼提取到的特征,采用相應(yīng)的標(biāo)記數(shù)據(jù)對(duì)訓(xùn)練過程進(jìn)行監(jiān)督。通過向softmax回歸模型代價(jià)函數(shù)中加入正則化權(quán)重衰減項(xiàng)后,新的代價(jià)函數(shù)是凸函數(shù),因此存在唯一的極小值。通過一些迭代算法優(yōu)化之后可以得到全局最優(yōu)解。
為了有效提取出遙感影像中的農(nóng)村建筑物目標(biāo),本文在地理國情監(jiān)測生產(chǎn)基礎(chǔ)上,選取場景均為農(nóng)村地區(qū)的影像及相應(yīng)的矢量化地表覆蓋分類成果,將其裁切為512×512像素大小的數(shù)據(jù)塊,最終形成本次實(shí)驗(yàn)的數(shù)據(jù)集。該數(shù)據(jù)集中包含訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)。其中,訓(xùn)練數(shù)據(jù)是用于訓(xùn)練無監(jiān)督特征學(xué)習(xí)網(wǎng)絡(luò)和softmax特征提取過程,而測試數(shù)據(jù)則是用于測試本文算法對(duì)高分辨率遙感影像中農(nóng)村建筑物的提取效果。
為降低遙感影像像素間的相關(guān)聯(lián)度、進(jìn)一步提高無監(jiān)督學(xué)習(xí)算法的速度,在數(shù)據(jù)預(yù)處理階段引入PCA白化處理。通過計(jì)算得到樣本數(shù)據(jù)的平均值和協(xié)方差矩陣,進(jìn)而求解出樣本數(shù)據(jù)協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量,在保留下來的方差占比大于98%的前提下,選取前k個(gè)最大特征值所對(duì)應(yīng)的特征向量,通過矩陣運(yùn)算使數(shù)據(jù)的維度降至k維,實(shí)現(xiàn)數(shù)據(jù)維度降低。在預(yù)處理過程中,隨機(jī)抽取100個(gè)數(shù)據(jù)塊進(jìn)行展示,原始數(shù)據(jù)塊影像與預(yù)處理結(jié)果分布如圖3a、b所示。
圖3 數(shù)據(jù)預(yù)處理結(jié)果展示
為了有效評(píng)價(jià)棧式稀疏自編碼神經(jīng)網(wǎng)絡(luò)從遙感影像中提取農(nóng)村建筑的的效果,本文采用目前運(yùn)用最廣泛的傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)作為本次實(shí)驗(yàn)的對(duì)比算法。直觀實(shí)驗(yàn)結(jié)果如圖4所示。
圖4中分別給出了農(nóng)村地區(qū)原始遙感影像圖、對(duì)應(yīng)的參考真值影像以及傳統(tǒng)BP方法的實(shí)驗(yàn)結(jié)果,其中的參考真值影像是在原始影像數(shù)據(jù)上進(jìn)行人工目視圖解進(jìn)行建筑物提取得到的。通過對(duì)比農(nóng)村地區(qū)原始遙感影像圖、對(duì)應(yīng)的參考真值影像與傳統(tǒng)BP方法實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),傳統(tǒng)BP方法能夠?qū)⒋蟛糠洲r(nóng)村建筑物提取出來,但其結(jié)果也存在誤提取現(xiàn)象,即將與建筑物結(jié)構(gòu)相似或與建筑物顏色相近的非建筑物地表覆蓋錯(cuò)誤地提取為建筑物,傳統(tǒng)BP方法提取結(jié)果影像中還存在較多誤提的細(xì)小且瑣碎的不規(guī)則圖斑、建筑物提取邊界模糊以及部分農(nóng)村建筑物沒有被提取出來等問題。
圖5給出了農(nóng)村地區(qū)原始遙感影像圖、對(duì)應(yīng)的參考真值影像以及本文提出的基于棧式稀疏自編碼神經(jīng)網(wǎng)絡(luò)建筑物提取的實(shí)驗(yàn)結(jié)果。通過與對(duì)比提取結(jié)果發(fā)現(xiàn),本文算法能夠更加全面地將遙感影像中的建筑物提取出來,且提取圖版邊界較為清晰規(guī)整,但在提取結(jié)果中也存在一定程度的建筑物的漏提、誤提以及存在細(xì)碎圖斑等現(xiàn)象。與圖4c中傳統(tǒng)BP算法提取結(jié)果的目視效果相比,本文算法的提取結(jié)果中漏提、誤提比例明顯較低,提取結(jié)果中的破碎圖斑也相對(duì)較少,提取的建筑物圖斑邊界更為規(guī)則清晰。
圖4 傳統(tǒng)BP方法建筑物提取結(jié)果
圖5 本文方法建筑物提取結(jié)果
為了定量評(píng)估本文算法的提取效果,采用精準(zhǔn)率和召回率作為評(píng)價(jià)實(shí)驗(yàn)結(jié)果的相關(guān)評(píng)價(jià)指標(biāo)。其中,精準(zhǔn)率(Precision)又叫查準(zhǔn)率,是相對(duì)于實(shí)驗(yàn)預(yù)測結(jié)果而言,表示預(yù)測為真的樣本中有多少預(yù)測對(duì),其含義是在所有被預(yù)測為真的樣本中實(shí)際為真的樣本的概率,即“找得對(duì)”。其公式可表示為:
式中,TP表示預(yù)測結(jié)果為真,實(shí)際也為真;FP表示預(yù)測結(jié)果為真,而實(shí)際為假。
召回率(Recall)又叫查全率,是相對(duì)于原樣本真值而言的,其含義是在實(shí)際為真的樣本中被預(yù)測為真的樣本比例,即“找得全”。其公式如下:
式中,F(xiàn)N表示預(yù)測結(jié)果為假,而實(shí)際為真。
根據(jù)實(shí)際要求,需盡可能將遙感影像中農(nóng)村地區(qū)的建筑物全部提取出來,即建筑物盡可能的“找全”。因此,在進(jìn)行傳統(tǒng)BP方法與本文算法的實(shí)驗(yàn)過程中,需盡可能地提高召回率。而在保證高召回率的同時(shí),實(shí)驗(yàn)結(jié)果不可避免地錯(cuò)誤提取了較多非建筑物的圖斑和大量瑣碎圖斑,導(dǎo)致2種算法在建筑物提取過程中精準(zhǔn)率的統(tǒng)計(jì)值大幅降低。具體實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同分辨率的建筑物提取結(jié)果/%
從上表中可以看出,無論是召回率還是精準(zhǔn)率評(píng)價(jià)指標(biāo),本文算法的統(tǒng)計(jì)結(jié)果均優(yōu)于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)。其中,召回率平均提高了5.48%,精準(zhǔn)率平均提高了5.31%。實(shí)驗(yàn)結(jié)果表明,本文提出的基于棧式稀疏自編碼的農(nóng)村建筑物提取算法能夠有效提取出農(nóng)村地區(qū)的建筑物,為違法占用耕地建房現(xiàn)象的早發(fā)現(xiàn)、早制止和早處理提供有力的技術(shù)支撐。
本文提出的棧式稀疏自編碼深度神經(jīng)網(wǎng)絡(luò)以無監(jiān)督和有監(jiān)督結(jié)合的特征學(xué)習(xí)方式,有效提高了高分辨率遙感影像中農(nóng)村建筑物的提取準(zhǔn)確率。該算法首先通過PCA白化技術(shù)進(jìn)行預(yù)處理,去除了原始影像數(shù)據(jù)中的高冗余度與強(qiáng)相關(guān)性強(qiáng),然后利用棧式稀疏自編碼器構(gòu)建了深度神經(jīng)網(wǎng)絡(luò)模型,通過無監(jiān)督訓(xùn)練得到遙感影像的學(xué)習(xí)特征,最后結(jié)合有標(biāo)簽數(shù)據(jù)對(duì)Softmax分類器進(jìn)行監(jiān)督訓(xùn)練,實(shí)現(xiàn)對(duì)農(nóng)村建筑物信息的有效提取。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)相比,在應(yīng)對(duì)計(jì)算量大、分辨率高的高分遙感影像的農(nóng)村建筑物目標(biāo)提取中,本文算法具有更高的提取精度。但若從農(nóng)村占用耕地建房問題的需求出發(fā),遙感影像農(nóng)村建筑物的提取精度仍有待進(jìn)一步提高。限制精度的原因可能是訓(xùn)練數(shù)據(jù)集較小等,可通過加大樣本數(shù)據(jù)集、增加神經(jīng)網(wǎng)絡(luò)的層數(shù)等方式,來進(jìn)一步挖掘并充分發(fā)揮出無監(jiān)督特征學(xué)習(xí)潛在強(qiáng)大的泛化能力,并借助并行計(jì)算等策略提高處理速度,以期取得更好的農(nóng)村建筑物提取效果。