胡金梅,董張玉,楊學志
(1.合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230009;2.工業(yè)安全與應急技術 安徽省重點實驗室,安徽 合肥 230009)
自第一顆高分辨率衛(wèi)星發(fā)射成功以來,高分辨率衛(wèi)星的應用已涉及多個領域。高分辨率遙感影像為災害監(jiān)測、土地規(guī)劃等方面提供了幫助,從中提取的相關地物信息,可分析相關地物信息的空間分布和變化特征,并預測未來發(fā)展和規(guī)劃[1]。傳統(tǒng)的像元分類方法已得到廣泛應用,但其數(shù)據量較大、運算成本較高。面向對象的影像分類技術通過分割原始影像構建包含多個相對同質像元的影像對象,從而提取融合影像對象多特征屬性,再選取合適的分類模型完成分類;通過減小像元錯分的概率來提升分類效果。SVM、決策樹以及 BP人工神經網絡等現(xiàn)有的分類模型已基本成熟[2], 其中對SVM和決策樹的研究較多,如沈照慶[3]等利用SVM算法提取了道路信息;郝劍南[4]等基于面向對象的方法,利用SVM算法結合紋理特征提取了高分辨率影像的耕地信息;郭玉寶[5]等利用最大似然法、SVM算法和隨機森林(RF)算法進行了城市用地分類,并對比分析了3種分類結果,結果表明RF算法既能保證分類精度又能保持一定的時間效率;QIAN Y[6]等通過處理WorldView-2影像發(fā)現(xiàn),在城市土地分類中SVM算法和貝葉斯分類方法的效果優(yōu)于決策樹和最近鄰分類法。
傳統(tǒng)的面向對象分類方法采用某種單一分類算法對不同地物進行信息提取,存在對某類地物分類效果較高或較差的情況;且無論采用何種算法,不同地物之間都會出現(xiàn)混分現(xiàn)象,不同分類算法的混分對象也千差萬別?;诖耍疚母鶕芯繉ο筇卣?,構建了一種改進的面向對象的高分辨率遙感影像信息提取分類方法。首先利用分割算法,通過設置合適的分割參數(shù)將影像分割為若干個研究對象;再提取并融合研究對象的紋理、形狀等特征;然后利用SVM分類器區(qū)分特征信息相近的耕地和道路,利用RF分類器提取水體和人工表面信息;最后對兩種信息提取結果進行拼接,實現(xiàn)土地利用分類。該方法可充分利用高分辨率影像的紋理和形狀等特征,同時結合不同分類器的特點,彌補了傳統(tǒng)面向對象分類方法的不足,實現(xiàn)對地物的精確識別和快速提取分類。
在我國民用光學衛(wèi)星中,第一顆精度達到空間亞m級的是GF-2號遙感衛(wèi)星。本文采用的數(shù)據來源于GF-2號衛(wèi)星,包括1 m全色數(shù)據和4 m多光譜數(shù)據,其中全色數(shù)據僅含一個波段(0.45~0.90 μm);多光譜數(shù)據包含藍光波段(0.45~0.52 μm)、綠光波段(0.52~0.59 μm)、紅光波段(0.63~0.69 μm)、近紅外波段(0.77~0.89 μm)4個波段。考慮數(shù)據大小和計算機運行速度,本文截取大小為935×912的矩形影像作為數(shù)據源。
為了較好地保持影像的紋理、形狀等屬性特征,需對原始影像進行預處理,包括正射校正、幾何校正和Flash大氣校正等;并利用Gram-Schmidt PanSharpening對校正后的影像數(shù)據進行影像融合,獲取分辨率為1 m的彩色融合影像,作為實驗數(shù)據,如圖1所示。
圖1 實驗數(shù)據
傳統(tǒng)的面向對象分類方法是對影像中所有地物信息進行分類,不同地物分類精度不一致,因此存在混分現(xiàn)象。本文提出的改進的面向對象分類方法,利用不同分類模型對不同地物的分類效果不一致的特性,選擇對某一類或多類地物分類效果較好的分類器進行對應地物信息提??;再對所有信息提取結果進行拼接,實現(xiàn)土地利用分類。
目前已設計出多種影像分割算法,根據一種或多種 標準得到包含多樣化特征信息的分割區(qū)域。其目的 是提供攜帶多種特征信息的對象集,再利用這些對象集完成影像分析。因此,分割效果將直接影響分析過程。常用的影像分割算法包括多尺度分割、分水嶺[7]、基于拓撲信息保留的超像素分割(TPS)[8]以及SLIC超像素算法等,其中多尺度分割算法中分割參數(shù)與分割效果沒有直接聯(lián)系,分割過程需根據經驗進行反復試驗,從而找到合適的分割參數(shù);分水嶺、TPS和SLIC超像素算法的分割精度均較高;SLIC超像素算法生成的多邊形分割區(qū)域近似均勻且緊湊,運算速度較快,內存效率更高。通過綜合考慮,本文選取SLIC超像素算法進行影像分割。
SLIC超像素算法的主要參數(shù)為期望分割的分割塊數(shù)目(k)。實驗采用的影像是RGB色彩空間,需先將其轉換成CIELAB色彩空間,再進行聚類分析。聚類的第一個步驟是初始化,在包含N個像素的影像上每間隔S個像素采樣一個中心點,共采樣k個初始聚類中心Ci。其計算公式為:
傳統(tǒng)的K-mean算法是計算每個中心點與影像中 每個像素的間距;而SLIC超像素算法則是在每個中心點的固定區(qū)域內,計算區(qū)域內與所有像素的間距。SLIC超像素算法減小了計算量,且使復雜性與影像對象的個數(shù)無關,降低了復雜度。間距測量D表示聚類中心與像素的緊密度,從而確定每個像素所屬的分割區(qū)域。其計算公式為:
式中,dc為顏色距離;ds為空間距離,并對不同特征進行歸一化;m為空間鄰近性與顏色的相對重要性,m越大,表示空間鄰近性越重要,獲取的分割區(qū)域越緊湊,反之,則顏色距離的貢獻度更大,適用于邊界分割,獲得的分割區(qū)域具有較小的規(guī)則尺寸和形狀,其范圍為[1,40],本文中m=30。
特征是兩個或多個物體之間具有差異性的屬性。本文基于分割之后的數(shù)據,采用現(xiàn)階段常用的特征提取算法實現(xiàn)特征提取。由于土地覆蓋類型的多樣性和復雜性,在實際分類過程中,通過融合多種特征屬性的方式來提高研究對象之間的差異性。
影像的紋理特征反映了像元灰度級的變化與重復,描述地物的表面屬性。常用的提取算法包括局部二值模式和灰度共生矩陣(GLCM)。GLCM研究的是影像局部區(qū)域,是統(tǒng)計區(qū)域內兩個灰度級分別為i和j的像元之間聯(lián)合概率P(i,j)組成的矩陣。實驗數(shù)據中包含大量的耕地、水體信息,空間上紋理差異性較大,本文主要計算GLCM中的對比度、熵、相似性以及能量4個關鍵特征。
1)對比度用以描述影像灰度級在局部上的變化特征,體現(xiàn)影像的清晰度。其值越大,紋理越明顯,輪廓越清晰。其計算公式為:
2)熵反映了影像紋理的隨機性。其計算公式為:
3)相似性體現(xiàn)了影像灰度級在局部上的關聯(lián)性。其計算公式為:
4)能量是矩陣中各聯(lián)合概率的平方和,用以描述灰度分布情況和紋理變化程度。其計算公式為:
紋理特征僅能描述影像表面的局部特征,研究對象之間的差異性不夠明顯;還需融合光譜、形狀等其他特征。光譜特征用于統(tǒng)計影像亮度等變化特征,是影像基本特征之一,本文選取均值、亮度和標準差 3種典型特征統(tǒng)計量,具體描述如表1所示。形狀特征用以表征影像對象的形狀屬性,可區(qū)分一些具有規(guī)則形狀的地物,其中形狀指數(shù)可描述對象邊界的平滑度,其值越小,地物形狀越平滑。
表1 光譜特征和形狀特征
基于上述原理,本文首先提取所有影像對象的特征值;再對紋理、光譜和形狀特征進行多特征融合,構建一組最優(yōu)特征向量,得到影像對象樣本集;最后從樣本集中選取合適的數(shù)據組成訓練數(shù)據,其他作為測試數(shù)據。
在影像分割和特征提取的基礎上進行信息提取,本文采用SVM分類器和RF分類器兩種分類模型,其中SVM分類器適用于特征值較為接近的地物信息,能獲取較高的分類精度;RF分類器內存運行效率高且分類精度較高,適用于數(shù)據、特征參數(shù)多的高分辨率影像[9]。因此,本文利用SVM分類器提取耕地、道路和船只信息,利用RF分類器提取水體和人工表面信息;再對兩種信息提取結果進行拼接,從而實現(xiàn)土地利用分類。信息提取流程如圖2所示。
圖2 信息提取流程圖
2.3.1 SVM算法
20世紀90年代,有學者提出了一種統(tǒng)計學理論體系,可解決有限樣本學習問題[10]。基于此,SVM算法得到了快速發(fā)展,并擴展出一系列改進算法,已廣泛應用于模式識別、影像分類等領域[11]。SVM算法是一種非參數(shù)分類器,適合解決復雜的分類問題,適用于維度較高的特征空間和小樣本數(shù)據,具有較強的穩(wěn)定性,已普遍應用于識別、分類等領域[12]。若采取考慮地塊整體特征的策略進行面向地物區(qū)域的分類,訓練樣本將會大大減少,這時SVM算法就可以發(fā)揮很大優(yōu)勢。
對于線性不可分問題,為給定的每個樣本加入一個松弛變量ξi≥0,則約束條件改為:
目標函數(shù)變?yōu)椋?/p>
式中,C為懲罰函數(shù)。
本文采用LibSVM開源軟件包進行SVM分類,由于多特征融合后得到的特征向量是線性不可分的,因此實驗中分類器的核函數(shù)選擇徑向基核函數(shù)。
2.3.2 RF算法
決策樹是一種樹形分類模型,由許多二叉樹組成,根據判別規(guī)則,通過持續(xù)分割影像,形成具有相同屬性的子集,從而確定影像中每個研究對象的所屬類型。RF算法是一種基于集成學習方法的組合型分類器,是決策樹衍生出來的新型分類模型。隨機建立多個決策樹,分類時根據多個決策樹對樣本進行投票,選擇最優(yōu)決策樹決定樣本所屬的類型[13]。RF算法能在有效處理大量數(shù)據的同時避免過度擬合,具有訓練樣本快、分類精度高、抗噪性強等優(yōu)點,因此被廣泛應用于遙感分類領域。本文利用RF算法實現(xiàn)水體和人工表面信息的提取。
2.3.3 信息提取拼接
基于上述原理,本文對兩種信息提取結果進行拼接。首先利用SVM算法提取耕地、道路和船只信息,并對3種地物信息進行標志位處理,將耕地標志為1、道路標志為2、船只標志為3、其余信息標志為4,得到第一組地物信息;再利用RF算法提取水體和人工表面信息,并進行標志位處理,將水體標志為5、人工表面標志為6、其余信息標志為7,得到第二組地物信息;最后將第一組地物信息中標志為4的地物信息替換成第二組地物信息中標志為5、6的地物信息,從而完成信息提取拼接,得到所有地物信息,實現(xiàn)地物分類。
基于上述原理,本文著重研究了影像分類問題,并提出了改進方法,利用不同分類器的特性實現(xiàn)了高分辨率遙感影像信息的提取分類。
本文采用SLIC超像素算法進行影像分割,結果如圖3所示,可以看出,當k=1 000時易產生欠分割現(xiàn)象,分割精度最低;當k=5 000時,分割精度最高,部分地物被分割得很準確,尤其是一些細小地物,但超像元尺寸過小,易產生過分割現(xiàn)象,超像元之間特征值過于相似,各地物信息區(qū)分度較低;當k=3 000時分割精度較高,且各超像元之間的特征值有明顯差異,各地物信息之間有明顯的區(qū)分度。因此,本文實驗均在k=3 000的條件下進行。
圖3 SLIC超像素算法影像分割結果
首先對分割結果中所有的超像元對象進行光譜、紋理和形狀特征提取,并進行多特征融合;再將得到的多特征數(shù)據集合分別輸入SVM分類器和RF分類器中,獲得兩種分類結果,如圖4所示。
圖4 分類結果
由分類結果可知,兩種分類方法在一定程度上均存在混分現(xiàn)象,但不同分類器的混分對象是不同的。對比原圖發(fā)現(xiàn),耕地和道路的相似性較高,水體和建筑的區(qū)別較明顯。由圖4a可知,SVM分類器對耕地和道路具有更好的區(qū)分度,對建筑物和水體的區(qū)分度較低;由圖4b可知,RF分類器對建筑物和水體具有更好的區(qū)分度,對耕地和道路的區(qū)分度較低,因此本文利用SVM分類器提取相似性較高的耕地和水體,利用RF分類器提取建筑物和水體信息(圖5)。最后,本文對兩種信息提取結果進行了拼接,實現(xiàn)了土地利用分類,如圖6所示,可以看出,本文提出的分類方法的總體精度高于SVM算法和RF算法。
圖5 不同地物信息提取
圖6 不同分類方法的結果對比
為了定量分析本文方法的有效性,本文從Kappa系數(shù)和總體精度兩個方面對分類結果進行評估。Kappa系數(shù)和總體精度的計算公式分別為:
式中,Ci,j為真實地物的第i類被分到第j類的數(shù)量。
基于上述公式,在不同方法下,計算得到每類地物的Kappa系數(shù)和總體精度(表2)。結果表明,本文方法精度高于SVM算法和RF算法。
表2 各種分類方法的精度對比/%
本文提出一種改進的面向對象的高分辨率遙感影像信息提取分類方法,提高了總體精度。
1)分割結果的精度直接影響信息提取結果的精度;但并不是分割精度越高,信息提取精度就越高,需要選擇合適的分割參數(shù),從而獲得較高的信息提取精度。
2)相同的地物信息采用不同分類器將得到不同的分類精度,因此可利用某種分類器對一種或多種地物的分類精度較高的特性,組合多種分類器的信息提取結果,利用多種分類器區(qū)分多種地物信息。
本文方法結合了SVM算法和RF算法的優(yōu)點,總體上提高了分類精度;但在分割時仍有部分地物出現(xiàn)欠分割現(xiàn)象,如實驗中的船只沒有精確分割,導致其與水體出現(xiàn)混分的情況。未來將在分割精度上繼續(xù)開展研究,從而提高分類精度。