王小芹 張志梅 邵燁 王常穎 張小峰
摘? 要: 高分辨率遙感影像空間信息豐富,同時也給地物分類帶來挑戰(zhàn)。故提出一種基于詞袋模型的地物分類方法,通過實驗討論詞袋模型在這一問題中的適用性。首先在多尺度影像下隨機選取場景,通過場景的底層特征聚類建立多尺度視覺詞典;然后用視覺單詞表達少量標記樣本來訓練支持向量機;最后用分類器提取典型地物。結(jié)果表明,在多尺度詞袋模型表達下,研究區(qū)分類總體精度達到92.18%,Kappa系數(shù)為0.880 9。對比實驗結(jié)果表明,詞袋模型和多尺度詞袋模型可以有效表達語義特征,從而在少量標記樣本下提高分類精度。
關鍵詞: 高分遙感影像; 詞袋模型; 地物分類; 視覺詞典; 地物特征提取; 樣本表達
中圖分類號: TN911.73?34; TP75; TP391? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)17?0056?04
Abstract: High?resolution remote sensing images that contain rich spatial information bring about great challenges to classification of the ground feature. In this paper, a terrain classification method based on the bag of visual words (BOVW) is proposed. The multi?scale visual dictionary is built by clustering of the low?level features in a scene that are randomly selected in the multi?scale image. The visual words are used to express a few marked samples for training the support vector machine. Finally, a classifier is used to extract the typical object features. The results show that, with the expression of the multi?scale BOVW, the overall accuracy of the classification in the study area reaches 92.18%, and the Kappa coefficient is 0.880 9. The comparative experiment results indicate that the BOVW and the multi?scale BOVW can effectively express the semantic features, thus the accuracy of the classification can be improved with a few marked samples.
Keywords: high?resolution remote sensing image; BOVW; ground object classification; visual dictionary; ground object feature extraction; sample expression
0? 引? 言
2013年以來,我國相繼發(fā)射了高分系列衛(wèi)星影像,其中,高分二號的發(fā)射意味著我國進入“亞米級”高分時代,高分辨率的遙感影像雖然提供了豐富的地面細節(jié)信息,卻很容易產(chǎn)生“同物異譜,同譜異物”的現(xiàn)象。傳統(tǒng)面向像元的方法已無法解決地物分類問題,基于場景的分類方法成為研究熱點。如文獻[1]融合場景的像素一致性信息、空間信息和外觀信息,采用K?means聚類進行量化并統(tǒng)計直方圖,對場景的特征進行表達,實現(xiàn)了高分辨率遙感場景分類;文獻[2]提出了一種基于場景的自動識別高鐵沿線建筑物隱患目標的方法。其中,基于監(jiān)督學習的方法可以有效地進行影像地物分類,但是這類方法需要大量標記樣本進行訓練,而獲取大量標記樣本需要耗費巨大的人力和物力。面對海量的高分辨率遙感數(shù)據(jù),如何利用廉價、易得的大量未標記樣本和小部分標記樣本實現(xiàn)監(jiān)督分類,是一個需要解決的問題。
文獻[3]提出的視覺詞袋模型(Bag of Visual Words,BOVW)通過挖掘未標記樣本在底層特征上的語義信息,在標記樣本和未標記樣本之間建立聯(lián)系,可以有效地緩解需要大量標記樣本進行訓練的問題,具有一定的泛化能力。
本文建立了一個面向高分遙感影像的地物分類模型,探究BOVW在高分辨率遙感影像地物分類問題上的適用性。具體來說,首先引入圖像尺度金字塔,用多尺度下隨機選取的未標記樣本的光譜和紋理特征作為底層特征,通過改進的聚類算法建立多尺度視覺詞典;進而結(jié)合在小樣本分類問題中占有優(yōu)勢的支持向量機方法進行監(jiān)督學習;然后對高分影像以滑動開窗的方式進行分類。
1? 特征表達
BOVW用未標記樣本創(chuàng)建視覺詞典,再對標記樣本進行視覺詞袋表達,從而建立起未標記樣本和標記樣本之間的語義聯(lián)系。具體包括底層特征計算、視覺詞典構建和詞袋特征直方圖表達。
1.1? 底層特征計算
高分辨率遙感影像的光譜波段較少,具有較低類間差異和較高類內(nèi)差異的特點,而其紋理信息豐富,紋理能夠在影像灰度模式下反映出不同地物類別的空間分布特征,因而利用紋理特征對高分影像進行地物分類能夠顯著提高分類精度[4]。因此,底層特征在使用光譜特征的同時,引入了紋理特征。
灰度共生矩陣(Gray Level Co?occurrence Matrix,GLCM)已經(jīng)被廣泛應用于遙感影像的地物分類中[5?7]。GLCM充分利用空間信息,可對影像的紋理分布均勻性、紋理的走向等進行準確描述[8]?;贕LCM的紋理提取方法通過統(tǒng)計紋理信息,研究像元灰度間的分布特性來描述紋理,從而反映影像中灰度分布的規(guī)律。利用GLCM提取紋理信息時,發(fā)現(xiàn)能量、相關性、對比度和逆差距4種統(tǒng)計量所含信息量最大,最終選取這4種統(tǒng)計量作為最佳紋理特征組合。將選取的紋理特征向量與高分影像的光譜特征向量組合作為底層特征。
1.2? 視覺詞典構建
在研究區(qū)影像中采用均勻網(wǎng)格的方法提取局部圖像塊,隨機選取圖像塊作為場景,并提取這些場景的底層特征進行聚類,將所有聚類中心作為單詞構建視覺詞典。高分辨率遙感影像豐富的空間信息一方面體現(xiàn)出不同地物的紋理信息,另一方面細節(jié)太多容易引起分類精度的下降,為此引入圖像空間金字塔到BOVW中,建立3個尺度的視覺詞典。
傳統(tǒng)的BOVW是用K?means進行聚類的,其中合適的聚類中心[K]的大小需要根據(jù)實驗反復調(diào)整。SOINN是一個結(jié)合增長式神經(jīng)云和自組織特征映射網(wǎng)優(yōu)點并加以改進的神經(jīng)網(wǎng)絡模型,用于聚類時可以自動發(fā)現(xiàn)合適的類別數(shù)目,能更好地反映數(shù)據(jù)的特性[9]。
本文利用SOINN對提取的底層特征進行增量學習,將產(chǎn)生的初次聚類結(jié)果作為K?means的初始聚類中心,避免了K?means進行聚類時需要根據(jù)實驗反復調(diào)整合適的[K]大小。
1.3? 詞袋特征直方圖表達
已經(jīng)用未標記樣本建立了3個尺度的視覺詞典,只需對標記樣本進行視覺詞袋表達,就可以建立起未標記樣本和標記樣本之間的語義聯(lián)系。首先在每個尺度影像上分別提取標記樣本,并將其進行特征量化,分別標記成與3個尺度的視覺詞典歐氏距離最小的單詞;然后利用頻次直方圖分別統(tǒng)計3個尺度下每個單詞出現(xiàn)的頻次;最后將3個尺度下的頻次直方圖加權合并得到標記樣本的特征表達,其中權值設置相等。
2? 分類器
支持向量機[10](Support Vector Machine,SVM)是基于小樣本情況下統(tǒng)計理論的一種機器學習方法,在標記樣本較少的情況下,亦能獲得良好的統(tǒng)計規(guī)律。應用SVM對遙感影像進行地物分類的優(yōu)點是不用對數(shù)據(jù)進行降維,在分類精度和訓練速度等方面都具有較好的性能。遙感影像地物分類是一個多分類問題,本文利用LIBSVM工具包實現(xiàn)SVM多分類,采用徑向基函數(shù)(Radial Basis Function,RBF)作為核函數(shù)。在遙感影像地物分類中,給定[N]個類,對[N]個類中的每兩個類都訓練一個分類器,共訓練[N(N-1)2]個二分類器。對于一個已經(jīng)進行多尺度視覺詞袋表達的場景,需要經(jīng)過所有分類器的預測,使用投票的方式?jīng)Q定該場景所屬類別。
3? 面向高分影像的地物分類模型
圖1 給出了基于詞袋模型的地物分類流程,其具體的算法描述如下:
Step1:利用高斯濾波和下采樣(采樣因子為0.5)的方法,對原始影像不斷模糊和縮減,得到3個尺度的影像[L1],[L2]和[L3]。
Step2:在影像[L1],[L2]和[L3]中,采用均勻網(wǎng)格的方法提取局部圖像塊,在影像[L1]中隨機選取[M]個場景,[L2]和[L3]中隨機選取[M2]個場景,[L3]中隨機選取[M4]個場景。
Step3:對3個尺度下的場景分別提取底層特征,得到特征描述集[F1],[F2]和[F3]。
Step4:利用SOINN對3個尺度下的特征描述集[F1],[F2]和[F3]進行聚類,產(chǎn)生初始的聚類結(jié)果[C1],[C2]和[C3]。
Step5:利用誤差控制[ε]和K?means聚類方法,通過初始聚類結(jié)果[C1],[C2]和[C3]產(chǎn)生最終的3個尺度下的視覺詞典[D1],[D2]和[D3]。
Step6:分別在[L1],[L2]和[L3]影像上提取樣本,將其分別標記成與視覺詞典[D1],[D2]和[D3]歐氏距離最小的單詞,并分別用頻次直方圖統(tǒng)計3個尺度下每個單詞出現(xiàn)的頻次,最后將3個尺度下的頻次直方圖加權合并得到特征表達。
Step7:訓練SVM分類器。
Step8:利用滑動窗口的方式在影像上提取場景圖像,其中窗口大小為[W×W],滑動步長為1。
根據(jù)Step6中方法對場景圖像進行特征量化,完成場景圖像的多尺度視覺詞袋表達。
Step9:將滑動窗口中場景圖像的視覺詞袋特征依次送入SVM分類器,完成整個研究區(qū)影像的地物分類。
4? 實驗與分析
4.1? 實驗數(shù)據(jù)
實驗數(shù)據(jù)來自武漢大學遙感圖像標注數(shù)據(jù)庫2018年7月20日發(fā)布的用于土地利用分類的高分影像數(shù)據(jù)集(GID)[11]。選取了位于內(nèi)蒙古自治區(qū)呼倫貝爾市牙克石市東興街道附近區(qū)域的影像,該數(shù)據(jù)成像時間為2016年7月19日,影像大小為7 200×6 800,空間分辨率為4 m。該影像包含建成區(qū)、農(nóng)田、森林、草甸、水域和未知區(qū)域6類,對應分別選取了場景大小為30×30的訓練樣本15,25,20,45,15和35個。在GID中,對建成區(qū)、農(nóng)田、森林、草甸、水域典型地物和未知區(qū)域6類分別用紅色、綠色、青色、黃色、藍色和黑色表示。實驗數(shù)據(jù)原始影像和專家解譯的影像如圖2a)、圖2b)所示,可以明顯地發(fā)現(xiàn)有多處未標注正確,尤其是草甸(黃色),故在專家解譯的影像基礎上又進行了補充,紅色方框內(nèi)是主要的補充區(qū)域 ,補充后的解譯影像如圖2c)所示。
4.2? 地物分類結(jié)果
按照面向高分影像地物分類模型的算法流程,對研究區(qū)影像進行地物分類。[L1]尺度影像隨機選取800個場景,[L2]尺度影像隨機提取場景400個,[L3]尺度影像隨機提取場景200個,場景大小皆為30×30。通過算法流程得到的最終聚類中心[D1]=258,[D2]=105,[D3]=54,即3個尺度下的視覺詞典單詞個數(shù)。
在多尺度視覺詞典生成后,就可以對研究區(qū)影像進行特征量化。首先利用滑動開窗的方式提取場景圖像,其中窗口大小設置為5×5,步長為1,然后提取場景的底層特征,將其分別標記成與視覺詞典[D1],[D2]和[D3]中歐氏距離最小的單詞,并用頻次直方圖統(tǒng)計每個單詞出現(xiàn)的頻次,最后將所有尺度下的直方圖進行加權連接,完成場景的多尺度視覺詞袋表達。
將得到的視覺詞袋特征應用于訓練好的SVM分類器中完成場景的分類,最終的地物分類結(jié)果如圖3a)所示。在少量訓練樣本的情況下,能夠得到和人工解譯相近的結(jié)果。
4.3? 精度評價
為了研究詞袋模型在高分影像地物分類問題中的有效性,同樣使用SVM分類器對研究區(qū)影像進行了基于不同特征表達的對比實驗,具體包括:基于底層特征;基于BOVW;基于多尺度BOVW。其中,所有方法的訓練樣本都一致。不同方法下的分類結(jié)果如圖3b),圖3c)所示,參照補充后的解譯影像,在此基礎上進行精度評價,采用混淆矩陣的總體分類精度和Kappa系數(shù)進行評定,結(jié)果如表1所示。
通過影像的地物分類結(jié)果可以看出:基于底層特征的SVM分類存在少量的噪聲,對于大面積地物能夠較好的識別,但是對于紋理特征相似的森林、草甸和農(nóng)田地物,僅依賴底層特征仍然不能很好的區(qū)分;基于BOVW的SVM分類改善了森林、草甸和農(nóng)田地物的分類結(jié)果;基于多尺度的BOVW模型的分類精度相較最高,說明構建多尺度詞典是有效的。
5? 結(jié)? 語
本文針對高分辨率遙感影像地物分類問題,提出了一個地物分類模型,探究了詞袋模型的應用技巧和改進方法。實驗結(jié)果表明,該模型取得了較好的分類結(jié)果,可得到以下結(jié)論:
1) 視覺詞袋模型可以很好地刻畫復雜場景的內(nèi)容,獲得更好的特征表達,適合不易獲得大量標記樣本的遙感圖像,能有效提高分類精度。
2) 將圖像尺度金字塔引入視覺詞袋模型中,建立不同尺度下的視覺單詞,通過加權組合形成多尺度視覺詞袋模型,對場景進行視覺詞袋表達,分類精度比僅基于視覺詞袋模型的分類方法有所提高。
3) K?means構建詞典時需要根據(jù)實驗效果反復調(diào)整[K]的大小。將SOINN產(chǎn)生的初次聚類結(jié)果作為K?means方法的初始聚類中心進行聚類可有效避免該問題。
參考文獻
[1] 徐培罡,張海青,王超,等.基于多重分割關聯(lián)子的高分辨率遙感場景分類[J].地理科學,2018,38(2):293?299.
[2] 慎利,方燦明,王繼成,等.場景解譯框架下的高鐵沿線建筑物自動識別[J].遙感信息,2018,33(3):80?87.
[3] CSURKA G, DANCE C R, FAN Lixin, et al. Visual categorization with bags of keypoints [EB/OL]. [2011?02?28]. https://wenku.baidu.com/view/5baf27c2d5bbfd0a7956736e.html.
[4] 郝劍南,王瑞紅.紋理特征與面向?qū)ο蠼Y(jié)合的高分影像耕地提取應用[J].安徽農(nóng)業(yè)科學,2018,46(19):72?75.
[5] 潘一凡,張顯峰,于泓峰,等.聯(lián)合快舟一號影像紋理信息的城市土地覆蓋分類[J].遙感技術與應用,2016,31(1):194?202.
[6] 謝嘉麗,李永樹,李何超,等.利用灰度共生矩陣紋理特征識別空心村損毀建筑物的方法[J].測繪通報,2017(12):90?93.
[7] 朱秀芳,李石波,肖國峰.基于無人機遙感影像的覆膜農(nóng)田面積及分布提取方法[J].農(nóng)業(yè)工程學報,2019,35(4):106?113.
[8] 葉鵬,王永芳,夏雨蒙,等.一種融合深度基于灰度共生矩陣的感知模型[J].計算機科學,2019,46(3):92?96.
[9] 邱天宇,申富饒,趙金熙.自組織增量學習神經(jīng)網(wǎng)絡綜述[J].軟件學報,2016,27(9):2230?2247.
[10] CORTES C, VAPNIK V. Support?vector networks [J]. Machine learning, 1995, 20(3): 273?297.
[11] TONG Xinyi, XIA Guisong, LU Qikai, et al. Learning transferable deep models for land?use classification with high?resolution remote sensing images [EB/OL]. [2018?08?11]. https://www.researchgate.net/publication/326437096.