李 平,吳曼喬,曾聯(lián)明
(1.廣東省地質(zhì)測繪院,廣東廣州 510800;2.佛山科學技術(shù)學院信息中心,廣東佛山 528000)
支持向量機技術(shù)在土地利用監(jiān)測的應(yīng)用研究
李 平1,吳曼喬1,曾聯(lián)明2
(1.廣東省地質(zhì)測繪院,廣東廣州 510800;2.佛山科學技術(shù)學院信息中心,廣東佛山 528000)
針對遙感圖像在土地利用監(jiān)測應(yīng)用中采用人工識別導(dǎo)致監(jiān)測效率低的問題,提出采用支持向量機的自動識別方法和識別流程,以提高土地利用動態(tài)監(jiān)測的自動化程度和監(jiān)控效率。該方法基于統(tǒng)計學習理論,使用小樣本訓(xùn)練,支持線性和非線性分類。
支持向量機;土地利用監(jiān)測;分類方法;識別
遙感作為一種高效獲取信息的手段,具有覆蓋范圍大、信息量豐富、全天候的特點,以及信息現(xiàn)勢性強和多光譜等特性,使得數(shù)據(jù)從靜態(tài)走向動態(tài),從單項技術(shù)走向多技術(shù)集成,并在我國土地資源調(diào)查監(jiān)測工作中得到廣泛應(yīng)用[1]。目前,最常用的土地利用遙感監(jiān)測方法有兩種[2-3]:①分類前像元比較法,②分類后比較法。分類前像元比較法包括單變量圖像差值法、像素比值法、光譜特征變異法、彩色合成法等[4];分類后比較法首先對整個監(jiān)測區(qū)域的逐個影像系列進行各自分類,然后,比較在各影像系列同一位置分類結(jié)果,進而確定土地利用類型變化的位置和所屬類型等信息,它主要分監(jiān)督分類和非監(jiān)督分類法[5]。此外,還有面向?qū)ο蟮膭討B(tài)監(jiān)測方法等。
遙感圖像分類是遙感的地學應(yīng)用領(lǐng)域中的一項重要環(huán)節(jié),支持向量機 (suport vector machine, SVM)作為一種新的基于統(tǒng)計學習理論的、有效的學習方法,近年來成為模式識別與機器學習領(lǐng)域一個新的研究熱點,能夠較好地解決小樣本、非線性、高維數(shù)、局部極小點等實際問題,已經(jīng)逐漸成為解決模式分類問題的首選工具[6]。SVM已經(jīng)被廣泛應(yīng)用于遙感圖像分析與處理領(lǐng)域,SVM在土地利用監(jiān)測中的應(yīng)用屬于分類后比較法的范疇。
傳統(tǒng)的統(tǒng)計模式識別方法只有在樣本趨向無窮大時,其性能才有理論的保障。統(tǒng)計學習理論研究有限樣本情況下的機器學習問題。傳統(tǒng)的統(tǒng)計模式識別方法在進行機器學習時,強調(diào)經(jīng)驗風險最小化。而單純的經(jīng)驗風險最小化會產(chǎn)生“過學習問題”,其推廣能力較差。
Vapnik.V(1995年)[7]提出的 S VM理論最基本思想之一的結(jié)構(gòu)化風險最小化原則(structural risk minimization,SRM)要優(yōu)于傳統(tǒng)的經(jīng)驗風險最小化原則(empirical risk min imization,ERM)。不同于 ERM試圖最小化訓(xùn)練集上誤差的做法,SRM試圖最小化VC維的上界,從而使其學習機獲得了更好的推廣性能。
SVM的基本思想是把輸入空間的樣本通過非線性變換映射到高維特征空間,然后在特征空間中求取把樣本線性分開的最優(yōu)分類面。算法使用分類間隔控制線性學習機器的容量,從而使結(jié)構(gòu)風險最小,也使其在有限樣本下具有了較強的泛化能力?;诮y(tǒng)計學習理論和結(jié)構(gòu)風險最小化原則,不同的核函數(shù)即變換到不同的特征空間,使用核函數(shù)也避免了在高維的特征空間中直接計算。
SVM的機理:尋找一個滿足分類要求的最優(yōu)分類超平面,使得它在保證分類精度的同時,既盡可能多地將兩類數(shù)據(jù)點正確地分開,同時使得該超平面兩側(cè)的空白區(qū)域最大化,即使分開的兩類數(shù)據(jù)點距離分類面最遠。
同一個訓(xùn)練樣本可以有被不同超平面分類的情況,當超平面的空白區(qū)域Margin最大時,超平面就是最優(yōu)分類超平面[8]。如圖 1所示。
圖 1中,黑圓點和白形點代表兩類樣本,H為分類線,H1、H2分別為過各類中離分類線最近的樣本且平行于分類線的直線,它們之間的距離叫做分類間隔(margin)。所謂最優(yōu)分類線就是要求分類線不但能將兩類正確分開 (訓(xùn)練錯誤率為 0),而且使分類間隔最大,推廣到高維空間,最優(yōu)分類線就變?yōu)樽顑?yōu)分類面。在土地地物分類中,不同的類代表不同的地物,SVM的功能就是通過訓(xùn)練生成分類模型,把不同的地物區(qū)別出來,再進行比較,從而達到動態(tài)監(jiān)測的目的。
圖1 SVM分類及其最優(yōu)分類超平面
基于 SVM的遙感影像土地利用動態(tài)監(jiān)測過程主要包括:圖像預(yù)處理,感興趣區(qū)域?qū)傩蕴卣骷坝?xùn)練樣本的提取,數(shù)據(jù)標準化及歸一化處理,C、γ參數(shù)設(shè)置,基于 SVM的土地地物分類和分類精度評價幾個部分?;?SVM的土地利用監(jiān)測動態(tài)分類流程如圖2所示。
圖2 基于 SVM的土地遙感影像動態(tài)監(jiān)測流程
在上面的分類流程中所使用的遙感圖像是經(jīng)過幾何校正和匹配、圖像裁切等處理的遙感圖像,流程中的預(yù)處理主要是指樣本的選取和格式轉(zhuǎn)換等。下面將具體實施過程中的四個主要步驟加以闡述。
1.數(shù)據(jù)預(yù)處理
遙感圖像預(yù)處理主要是為了保證提供給 SVM的數(shù)據(jù)符合其處理格式。預(yù)處理階段是實施圖像分類的關(guān)鍵階段,感興趣樣本選擇后必須轉(zhuǎn)換成可以被分類識別器所能識別的數(shù)據(jù)格式,所以必須編寫專門的數(shù)據(jù)格式轉(zhuǎn)換程序來實現(xiàn)。
遙感數(shù)據(jù)通常都是多波段的數(shù)字圖像,其數(shù)字圖像記錄格式隨著計算機技術(shù)的發(fā)展而有不同程度的變化,常用的數(shù)據(jù)格式包括 BSQ、B IP、B IL三種。為了保持遙感數(shù)據(jù)包含信息的完整性以及保證數(shù)據(jù)處理的方便,感興趣區(qū)域遙感數(shù)據(jù)采用 B IP的格式,并將其轉(zhuǎn)換成文本格式,在分類的過程中還需要進行一系列的轉(zhuǎn)換,如訓(xùn)練樣本的歸一化處理,同時必須轉(zhuǎn)換成能夠被 SVM處理軟件識別的特定格式。在分類完成以后,文本格式的遙感數(shù)據(jù)需要轉(zhuǎn)換成B IP文件格式,以方便其他遙感軟件對圖像文件進行進一步的操作。
訓(xùn)練樣本選取原則要充分考慮各種地物的光譜、結(jié)構(gòu)和紋理特征,因地制宜地進行選擇[9]。感興趣區(qū)域的選擇方法可以滿足訓(xùn)練樣本的選擇要求,可以是單個的多邊形所包含的區(qū)域,也可以是多邊形、點、矢量等的組合區(qū)域。需要保證所選擇的樣本區(qū)域特征信息的廣泛性。
對于遙感土地利用地物分類,樣本采集可以通過 ENV I的 RO I工具來進行。目前,RO I提取算法很多,本文根據(jù)遙感圖像多波段、高分辨率的特點,結(jié)合顏色和紋理特征,采用 ENV I軟件進行數(shù)據(jù)的采集操作。訓(xùn)練樣本選取原則要充分考慮各種地物的光譜、結(jié)構(gòu)和紋理特征,因地制宜地進行選擇。感興趣區(qū)域的選擇方法可以滿足訓(xùn)練樣本的選擇要求,可以是單個的多邊形所包含的區(qū)域,也可以是多邊形、點、矢量等的組合區(qū)域。遙感圖像的感興趣區(qū)域樣本選擇在 ENV I 4.4軟件中進行,ENV I 4.4支持多個感興趣區(qū)域的選擇,選擇的區(qū)域可以根據(jù)用戶需要進行定義,并且在任何一個主圖像窗口、滾動窗口以及縮放窗口中進行繪制。為了適合一個特殊的圖元像素的閥值,感興趣區(qū)域可以擴展到該圖元像素的臨近像素,保證了所選擇的樣本區(qū)域特征信息的廣泛性。在實際的工作中,由于存在“同物異譜”的情況,因此,對于同一種類型可能有多種不同的特征。為此,可以參照已有的區(qū)域資料進行,對不同類型的地面物體分別選取了一定數(shù)量的具有普遍性、代表性的樣本點,選取各類樣本在對應(yīng)波段的波譜反射率生成各地物類別的參考訓(xùn)練樣本,進行訓(xùn)練。
數(shù)據(jù)的歸一化處理在 SVM執(zhí)行分類處理中非常重要,一方面可以避免小數(shù)值范圍的屬性的值被更多大數(shù)值范圍的屬性的數(shù)值所支配,避免運算中大數(shù)“吃”小數(shù)的現(xiàn)象;另一方面可以避免統(tǒng)計過程中遇到的計算困難。在實際數(shù)據(jù)處理過程中通常建議將屬性的值歸一到[-1,1]或[0,1]的范圍。
2.SVM分類器模型生成
SVM樣本訓(xùn)練中參數(shù)的優(yōu)化主要是 (C,γ)參數(shù)的優(yōu)化,這是一個決定分類效果的重要因素,在圖像分類中采用的基于“網(wǎng)格搜索”的交叉驗證方法為(C,γ)優(yōu)化參數(shù)的獲取提供了途徑。在生成分類器模型時選擇 RBF作為核函數(shù),同時利用網(wǎng)格搜索和交叉驗證方法選取核參數(shù)和懲罰因子,以尋求最大分類超平面為最優(yōu)分類超平面。利用上一步選取的核函數(shù)和最佳參數(shù)對訓(xùn)練樣本進行訓(xùn)練,構(gòu)造SVM分類器模型。
3.土地利用地物分類體系及分類器結(jié)構(gòu)
根據(jù) 2002年全國土地分類標準,土地采用三級分類:一級為農(nóng)用地、建設(shè)用地、未利用地。其中每一大類又分成眾多的二級分類。如農(nóng)用地分為:耕地、園地、林地、牧草地、其他農(nóng)用地;建設(shè)用地分為:商服用地、工礦倉儲用地、公共設(shè)施用地、公共建筑用地、住宅用地、交通運輸用地、水利設(shè)施用地、特殊用地;未利用地分為:未利用土地、其他土地。在二級分類的基礎(chǔ)上進一步細分三級分類,如耕地可細分為:灌溉水田、望天田、水澆地、旱地、菜地。
基于 SVM的土地利用地物分類體系的實現(xiàn),需要為每一個大類構(gòu)造一個分類模型,此模型采用SVM分類方法,通過訓(xùn)練此模型中的分類地物樣本來得到。常用的 SVM多類分類方法有一對一(1-a-1)和一對多(1-a-r)兩種,本文采用的土地地物分類器是基于二叉樹的多類 SVM分類器提出來的?;诙鏄涞亩囝?SVM對于 k類的訓(xùn)練樣本,訓(xùn)練k-1個支持向量機[9]。第一個支持向量機以第一個樣本為正樣本,將第 2,3,…,k類訓(xùn)練樣本作為負的訓(xùn)練樣本訓(xùn)練 SVM1;第 i個支持向量機以第 i個類樣本為正的訓(xùn)練樣本,將第 i+1,i+2,…,k類訓(xùn)練樣本作為負的訓(xùn)練樣本訓(xùn)練 SVMi,直到 k-1個支持向量機將以第 k-1類樣本作為正樣本,第 k類樣本為負樣本訓(xùn)練 SVM(k-1)。圖 3以農(nóng)用地大類為例來說明基于 SVM二叉樹多類土地地物分類器的結(jié)構(gòu)。
圖3 基于 SVM的二叉樹多類土地地物分類器結(jié)構(gòu)
二叉樹方法可以避免傳統(tǒng)方法的不可分情況,并只需構(gòu)造 k-1個 SVM分類器,測試時并不一定需要計算所有的分類器判別函數(shù),從而可節(jié)省測試時間。
用訓(xùn)練好的 SVM分類器模型對研究區(qū)整個ET M影像進行了信息提取,輸出分類結(jié)果。此時的分類結(jié)果,由于其數(shù)據(jù)格式還是 SVM的數(shù)據(jù)格式,因此,還必須對其進行相應(yīng)的轉(zhuǎn)換,去除分類結(jié)果中的標識信息,還原成能夠被遙感圖像處理軟件識別的通用格式,并加以保存。
4.土地利用地物分類精度檢驗
基于 SVM的土地地物分類精度驗證是在對成果進行定性評價的基礎(chǔ)上的定量分析,是確定土地覆蓋單元類別、面積劃定和描述的精度。相同的數(shù)據(jù)源按照同樣的樣本訓(xùn)練方法制作訓(xùn)練樣本,用訓(xùn)練好的 SVM分類器模型對研究區(qū)整個 T M影像進行了信息提取,然后對兩次分類結(jié)果進行比較,以確定區(qū)分土地利用分類錯分程度差異。通過野外檢查和航空影像對比進行檢驗,在土地利用一級分類的錯判率約為 5%,如圖 4所示[10]。主要是未利用地和農(nóng)用地的錯分,這與像元混合的復(fù)雜程度有關(guān),根據(jù)區(qū)域影像像元特點,通過進一步的樣本訓(xùn)練,可以提高復(fù)雜的混合像元分類的測繪邊界精度。
圖4 SVM提取的土地利用地物分類圖
高分辨率衛(wèi)星遙感技術(shù)是目前監(jiān)測土地利用動態(tài)發(fā)展變化的有效手段。如何采用新方法,解決遙感圖像在土地利用監(jiān)測應(yīng)用中采用人工識別導(dǎo)致監(jiān)測效率低的問題,是本文研究的主要內(nèi)容。采用基于支持向量機方法實現(xiàn)土地利用動態(tài)監(jiān)測具有很強的現(xiàn)實意義和推廣價值,有效提高了土地利用動態(tài)監(jiān)測的自動化程度和監(jiān)控效率。下一步重點研究的內(nèi)容在于如何克服地物對分類的影響,提高分類識別精度。
[1] 陳亞嶺,付治河,張景湘.3S技術(shù)在土地動態(tài)監(jiān)測中的應(yīng)用[J].光盤技術(shù),2007(5):61-62.
[2] 陳春希,祝曉坤,張海濤.應(yīng)用遙感技術(shù)開展土地動態(tài)監(jiān)測方法評述與定量評價研究 [J].北京測繪, 2009(2):23-25.
[3] 潘耀忠,陳志軍,聶娟,等.基于多源遙感的土地利用動態(tài)變化信息綜合監(jiān)測方法研究[J].地球科學進展, 2002,17(2):182-187.
[4] 李德仁.利用遙感影像進行變化檢測[J].武漢大學學報:信息科學版,2003,28(S1):7-12.
[5] 盧鈺.土地利用動態(tài)監(jiān)測變化信息提取算法評估[J].湖北農(nóng)學院學報,2002,22(5):394-396.
[6] ZHANG Xuegong.Introduction to StatisticalLearning Theory and Support Vector Machines[J].Acta Automatica Sinica,2000,26(1):32-42.
[7] VAPN IK V N.The Nature of Statistical Learning Theory [M].New York:Springer-Verlag,1995.
[8] NELLO CR IST IAN IN I,JOHN SHAWE-TAYLOR.An Introduction to SupportVectorMachines and Other Kernel-Based LearningMethods[M].Cambrige:Cambrige University Press,2000.
[9] 張錦水,何春陽,潘耀忠,等.基于 SVM的多源信息復(fù)合的高空間分辨率遙感數(shù)據(jù)分類研究[J].遙感學報, 2006,10(1):49-57.
[10] 曾聯(lián)明,吳湘濱,劉鵬.感興趣區(qū)域遙感圖像分類與支持向量機應(yīng)用研究[J].計算機工程與應(yīng)用,2009, 45(6):243-245.
On Application of Surport VectorMachine Technology to Land Use M on itoring
L I Ping,WU Manqiao,ZENGLianming
0494-0911(2010)08-0028-03
P237.9
B
2010-05-26
李 平(1970—),廣東潮州人,助理工程師,主要從事遙感與地理信息的開發(fā)應(yīng)用。