任廣波,張 杰,馬 毅,宋平艦
(國(guó)家海洋局第一海洋研究所,青島 266061)
在遙感影像分類中,對(duì)某些無(wú)法實(shí)施現(xiàn)場(chǎng)踏勘和沒(méi)有歷史資料可參考的區(qū)域進(jìn)行分類時(shí),從其他類似影像中選擇替代訓(xùn)練樣本進(jìn)行拓展應(yīng)用是最直接的方法;面向大規(guī)模、重復(fù)性的遙感監(jiān)測(cè)活動(dòng),該方法又可為樣本的重復(fù)利用提供可行途徑。由于地物類型在不同影像中的輻射環(huán)境不同,導(dǎo)致替代訓(xùn)練樣本對(duì)待分類影像的代表性較差,以致所訓(xùn)練出的分類器產(chǎn)生偏差,無(wú)法保證獲得好的分類精度[1-4]。
訓(xùn)練樣本的拓展應(yīng)用是遙感影像自動(dòng)化分類的重要途徑之一,更是當(dāng)前模式識(shí)別領(lǐng)域面臨的亟待解決的技術(shù)問(wèn)題[5]。Du 等[6]、張友水等[7]、Koukal等[8]和Ren等[9]在對(duì)影像進(jìn)行相對(duì)輻射校正或絕對(duì)輻射校正的基礎(chǔ)上,提出了遙感影像分類樣本的拓展應(yīng)用方法。然而,且不論一般的影像不可能完成絕對(duì)輻射校正[2],僅相對(duì)輻射校正也因其操作流程繁瑣復(fù)雜、對(duì)操作者主觀依賴性強(qiáng)而較難實(shí)現(xiàn)。
遙感影像中,同類型樣本會(huì)在特征空間中表現(xiàn)出明顯聚類特征。通過(guò)引入大量的未標(biāo)記樣本,挖掘?qū)儆诓煌愋偷臉颖驹谔卣骺臻g中的分布特征;利用這些特征,即使所選的訓(xùn)練樣本在對(duì)影像類型特征的代表性上存在偏差,也能通過(guò)有效利用未標(biāo)記樣本估計(jì)出一個(gè)能在待分類影像中有較好泛化能力(generalization ability,即機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力)的分類面,這便是本文要引入的解決訓(xùn)練樣本時(shí)空拓展問(wèn)題的半監(jiān)督學(xué)習(xí)方法。
半監(jiān)督學(xué)習(xí)是數(shù)據(jù)挖掘領(lǐng)域中的一種方法,其同時(shí)利用已標(biāo)記樣本(即訓(xùn)練樣本)和未標(biāo)記樣本,通過(guò)挖掘未標(biāo)記樣本中所隱含的各待分類類型在特征空間中的固有結(jié)構(gòu)信息,對(duì)已標(biāo)記樣本因代表性不好而造成的擬合分類器有偏差情況進(jìn)行矯正。該思想產(chǎn)生于 20 世紀(jì) 60 年代,Scudder[10],F(xiàn)ralick[11]以遞歸式自學(xué)習(xí)的方式最早發(fā)現(xiàn)了未標(biāo)記樣本的作用;直到20世紀(jì)70年代,可有效估計(jì)不完全數(shù)據(jù)中各生成成分參數(shù)的EM算法得到了普及,使得半監(jiān)督學(xué)習(xí)思想逐漸得到了認(rèn)可。半監(jiān)督學(xué)習(xí)思想已在文本分類[12-13]和 Web 挖掘[14-15]等領(lǐng)域得到廣泛應(yīng)用。在遙感影像分類中,有關(guān)半監(jiān)督學(xué)習(xí)的研究成果不多[5,16-22]。上述研究的出發(fā)點(diǎn)是解決在精力或資源有限情況下的小樣本分類問(wèn)題,但訓(xùn)練樣本依然來(lái)自待分類影像自身,而基于其他影像替代訓(xùn)練樣本的半監(jiān)督學(xué)習(xí)分類方法的文獻(xiàn)報(bào)道卻不多。同時(shí),半監(jiān)督學(xué)習(xí)算法中應(yīng)用最多的是Joachims[23]提出的訓(xùn)練算法,但該算法實(shí)現(xiàn)條件苛刻且效率低。陳毅松等[24]、沈新宇等[25]和廖東平等[26]針對(duì)該問(wèn)題提出了相應(yīng)的優(yōu)化算法,但都因未考慮遙感影像分類特點(diǎn)(數(shù)據(jù)量大、類別分布不均衡和先驗(yàn)知識(shí)難以獲取等)導(dǎo)致在遙感影像分類中適用性不好。
針對(duì)以上問(wèn)題,本文以直推式支持向量機(jī)(trans ductive support vector machine,TSVM)分類為例,開(kāi)展基于半監(jiān)督學(xué)習(xí)的遙感影像分類訓(xùn)練樣本拓展應(yīng)用方法研究。選擇覆蓋我國(guó)海岸帶區(qū)域的2景SPOT5影像和2景覆蓋海島的Quick Brid影像,進(jìn)行訓(xùn)練樣本拓展分類應(yīng)用實(shí)驗(yàn)(對(duì)SPOT5影像應(yīng)用基于像元的分類策略,對(duì)Quick Bird影像應(yīng)用基于分割對(duì)象的分類策略),以證實(shí)本文提出的方法在遙感影像分類訓(xùn)練樣本時(shí)空拓展應(yīng)用中的有效性。
1.1.1 遙感影像和覆蓋區(qū)域
選擇覆蓋相似地物分布區(qū)域、獲取時(shí)相相近的SPOT5和Quick Bird遙感影像進(jìn)行分類實(shí)驗(yàn)。選擇這2種影像的原因是其分別為當(dāng)前中、高空間分辨率遙感應(yīng)用中的主流影像,也是m級(jí)和亞m級(jí)空間分辨率遙感影像的代表影像,開(kāi)展基于這2種影像的分類研究對(duì)其他同類影像有參考意義。影像覆蓋區(qū)域和相應(yīng)的快視圖如圖1所示。
圖1 SPOT5影像(A,B)和Quick Brid影像(C,D)覆蓋區(qū)域和相應(yīng)的快視圖Fig.1 SPOT5(A,B)and Quick Bird(C,D)images and their coverage
圖1中,SPOT5影像A覆蓋青島市嶗山區(qū)東海岸的鰲山衛(wèi),影像B覆蓋煙臺(tái)市龍口市欒家口,由于該類影像沒(méi)有藍(lán)光波段,故其快視圖為近紅外波段(R)、紅光波段(G)和綠光波段(B)的彩色合成影像;Quick Bird影像C和D分別覆蓋我國(guó)三沙市西沙群島的永興島和東島,均為多光譜影像,其快視圖為紅光波段(R)、綠光波段(G)和藍(lán)光波段(B)的彩色合成影像。2組影像詳細(xì)信息如表1所示。
對(duì)于SOPT5影像,2景影像同處膠東半島,所包含的主要地物類型相似(包括木本植被、草本植被、水體、人工建筑、沙灘和裸地),雖不是同一年獲取的影像,但獲取的季節(jié)相近,影像中地物所處輻射環(huán)境也較為相似;對(duì)于Quick Bird影像,2景影像雖獲取時(shí)間相差半年,但由于同處熱帶,季節(jié)對(duì)地物的影響較小,且2島距離較近,島體底質(zhì)、礁盤(pán)和島上地物覆蓋類型均較相似(包括木本植被、草本植被、水體、珊瑚沙灘和人工建筑等5種類型)。
表1 SPOT5和Quick Bird影像信息Tab.1 Informatiom of the SPOT5 and Quick Bird images
1.1.2 實(shí)驗(yàn)設(shè)計(jì)
分類實(shí)驗(yàn)中,分別選擇影像A和影像C為替代訓(xùn)練樣本來(lái)源影像;影像B和影像D為待分類影像。根據(jù)SPOT5和QuickBird影像不同空間分辨率的應(yīng)用特點(diǎn),擬對(duì)SPOT5影像采用基于像元的分類策略,對(duì)QuickBird影像采用基于分割對(duì)象的分類策略。相應(yīng)的分類實(shí)驗(yàn)設(shè)計(jì)如下:
1)在基于像元的分類實(shí)驗(yàn)中,從SPOT5影像A中采用監(jiān)督方法獨(dú)立選擇共3組訓(xùn)練樣本集(分別為24,48和96個(gè)樣本),樣本數(shù)量在每個(gè)類別中平均分布;從影像B中以隨機(jī)方式獨(dú)立選擇4組未標(biāo)記樣本集(分別為100,200,500和1 000個(gè)樣本);訓(xùn)練樣本集和未標(biāo)記樣本集逐一搭配進(jìn)行分類實(shí)驗(yàn)(共12種搭配結(jié)果)。采用這種組合實(shí)驗(yàn)方式的目的是觀察在遙感影像訓(xùn)練樣本拓展應(yīng)用中,訓(xùn)練樣本和未標(biāo)記樣本之間的樣本數(shù)量比例是否與分類精度存在關(guān)系。若有關(guān)系,如何配置2種樣本的比例使分類結(jié)果達(dá)到最優(yōu),并探究隨樣本數(shù)量的增加和比例的變化對(duì)分類結(jié)果的影響。
2)在基于分割對(duì)象的分類實(shí)驗(yàn)中,首先對(duì)QuickBird影像C和D進(jìn)行圖像分割處理,采用同樣的分割尺度和參數(shù),要求每景影像中分割斑塊數(shù)量盡量少,且每個(gè)斑塊中只能包含一種地物。由于分割結(jié)果影像中斑塊的數(shù)量較為有限,故分類時(shí)將待分類影像中所有的分割斑塊都作為未標(biāo)記樣本參與半監(jiān)督學(xué)習(xí);待分類器優(yōu)化過(guò)程結(jié)束,分類即完成。而對(duì)于訓(xùn)練樣本,分別獨(dú)立選擇20,40和60個(gè)樣本,樣本數(shù)量在每個(gè)類別中平均分布。
3)訓(xùn)練樣本的選擇和最終分類結(jié)果的精度驗(yàn)證依據(jù)為:①“我國(guó)近海海洋綜合調(diào)查與評(píng)價(jià)專項(xiàng)”對(duì)上述2個(gè)區(qū)域的人機(jī)交互解譯的最終提取成果;②分別于2006年和2008年開(kāi)展的2次現(xiàn)場(chǎng)踏勘所獲取的數(shù)據(jù)資料。
本文提出的基于半監(jiān)督學(xué)習(xí)的遙感影像訓(xùn)練樣本時(shí)空拓展方法的技術(shù)流程如圖2所示。
圖2 基于半監(jiān)督學(xué)習(xí)的遙感影像分類樣本拓展方法技術(shù)流程Fig.2 Flow chat of the method of remote sensing images training sample extending based on sem i-supervised learning
本文方法與一般遙感影像半監(jiān)督學(xué)習(xí)分類方法的區(qū)別:①替代訓(xùn)練樣本和未標(biāo)記樣本分別來(lái)源于不同的影像;②在基于分割對(duì)象的分類中,將待分類影像中所有的分割斑塊作為未標(biāo)記樣本參與分類器的半監(jiān)督學(xué)習(xí)與優(yōu)化。圖2的“條件”指分類中涉及的2景影像需要有相似的地物類型分布和相近的獲取時(shí)相,以保證用于拓展分類的訓(xùn)練樣本對(duì)待分類影像地物類型的代表性不會(huì)有太大偏差,使半監(jiān)督學(xué)習(xí)過(guò)程中分類面能向正確的方向優(yōu)化。
1.2.1 SVM 分類器半監(jiān)督學(xué)習(xí)
當(dāng)訓(xùn)練樣本對(duì)待分類影像的代表性較差時(shí),根據(jù)其結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原理,支持向量機(jī)(support vector machine,SVM)優(yōu)秀的分類和泛化能力反而成為其最大的弱點(diǎn)。針對(duì)這一問(wèn)題,機(jī)器學(xué)習(xí)領(lǐng)域提出了半監(jiān)督學(xué)習(xí)的SVM分類方法,即TSVM方法。該方法通過(guò)尋找參與分類器擬合的大量未標(biāo)記樣本所表現(xiàn)出的地物類型在特征空間所固有的分布和結(jié)構(gòu),使分類器在待分類影像中獲得較好的分類泛化能力。
以2類分類問(wèn)題為例,樣本集X={x1,x2,…,xl,xl+1,…,xl+n}的前l(fā)個(gè)樣本為訓(xùn)練樣本,對(duì)應(yīng)Y={y1,y2,…,yl}?{-1,+1};后n個(gè)樣本為未標(biāo)記樣本,要求擬合一個(gè)分類超平面f(xi)=wxi+b=0,對(duì)屬于“+1”類的樣本f(xi)>0,反之f(xi)<0;w和b分別為特征空間中分類超平面的法向量和偏移量。對(duì)于軟分類(訓(xùn)練過(guò)程中允許有少量的訓(xùn)練樣本被錯(cuò)分)問(wèn)題的最優(yōu)分類面擬合,實(shí)際上是求解以下優(yōu)化問(wèn)題,使min服從
式中:K(x)為將高維特征空間映射到低維度空間的核函數(shù);C和C*分別為訓(xùn)練樣本和未標(biāo)記樣本的懲罰因子,描述在多大程度上可以容忍某些樣本被錯(cuò)分,懲罰因子越大,越不允許錯(cuò)分;ζ為松弛變量(ζi≥0,ζj≥0),表示被錯(cuò)分的樣本點(diǎn)x的錯(cuò)分程度,1-ζ為x點(diǎn)到分類面的距離。
針對(duì)上述分類面擬合最優(yōu)化問(wèn)題,Joachims[23]給出了迄今應(yīng)用最廣的訓(xùn)練算法,但該算法需要事先確定屬于某個(gè)類別未標(biāo)記樣本的具體數(shù)目,對(duì)于遙感影像中的地物分類(特別是進(jìn)行樣本拓展應(yīng)用的分類問(wèn)題),事先確定某個(gè)類別樣本的具體數(shù)目或者比例是不可能的,一旦錯(cuò)誤估計(jì),對(duì)分類結(jié)果的影響將是災(zāi)難性的。陳毅松[24-26]等對(duì)分類器訓(xùn)練中未標(biāo)記樣本的標(biāo)注過(guò)程進(jìn)行了改進(jìn),但若應(yīng)用到遙感圖像分類中,還存在重要問(wèn)題,即對(duì)未標(biāo)記樣本的標(biāo)注過(guò)程未考慮到各個(gè)類別在特征空間中的實(shí)際分布。上述工作或直接對(duì)等地標(biāo)注一對(duì)樣本,或按照某個(gè)固定閾值標(biāo)注一個(gè)區(qū)域的樣本,或考慮到閾值的差別而對(duì)區(qū)域標(biāo)注閾值進(jìn)行人為估測(cè),但都無(wú)法適應(yīng)遙感圖像分類時(shí)的數(shù)據(jù)量大、類別分布不均衡和先驗(yàn)知識(shí)難以獲取等情況,因而需要對(duì)訓(xùn)練學(xué)習(xí)算法進(jìn)行改進(jìn)。
1.2.2 改進(jìn)的TSVM分類器半監(jiān)督學(xué)習(xí)
面向分類樣本拓展應(yīng)用的遙感圖像分類問(wèn)題和特點(diǎn),針對(duì)目前半監(jiān)督學(xué)習(xí)算法面臨的問(wèn)題,提出一種改進(jìn)的TSVM算法。
對(duì)于有M個(gè)類別的遙感影像樣本時(shí)空拓展分類問(wèn)題,算法流程如下:
假設(shè)影像A和影像B具有相似的地物類型和獲取時(shí)相,將影像A作為訓(xùn)練樣本的來(lái)源影像,影像B作為待分類影像。步驟如下:
1)從影像A中監(jiān)督選擇K個(gè)訓(xùn)練樣本,組成訓(xùn)練樣本集L;從影像B中非監(jiān)督選擇N個(gè)未標(biāo)記樣本,組成未標(biāo)記樣本集U(其中,K<N)。
2)給出懲罰因子C,應(yīng)用樣本集L訓(xùn)練初始的SVM分類器,用f(0)[SVM(x)]表示;考慮第t次遞歸訓(xùn)練(t≥1),分類器用f(t-1)[SVM(x)]表示。
3)用訓(xùn)練的分類器f(t-1)[SVM(x)]對(duì)未標(biāo)記樣本集U(t-1)中的樣本進(jìn)行類別預(yù)測(cè),得到屬于每個(gè)類別的樣本數(shù)目Ni(i=1,2,…,M)。設(shè)置判別函數(shù)閾值σi=1-λNi/N(λ為調(diào)節(jié)參數(shù),默認(rèn)為1),對(duì)于分類問(wèn)題中有特別傾向的,可將之變小。對(duì)于類別i,將滿足||wK(xi)+b|-1|≤σi并可預(yù)測(cè)出類別的樣本加入到訓(xùn)練樣本集L中,將該部分樣本從未標(biāo)記樣本集U中移除,新樣本集分別用L(t)和U(t)表示。應(yīng)用新樣本集L(t)重新輸入訓(xùn)練分類器,得到f(t)[SVM(x)]。
4)當(dāng)滿足||wK(xi)+b|-1|≤σi的樣本不存在時(shí),停止遞歸,輸出分類函數(shù)f(t)[SVM(x)];否則,返回步驟3繼續(xù)訓(xùn)練。
與傳統(tǒng)算法相比,本文提出的算法有4個(gè)特點(diǎn):①采用效率更高的區(qū)域標(biāo)注法,即每次遞歸將滿足閾值條件的未標(biāo)記樣本一次性標(biāo)注;②對(duì)未標(biāo)記樣本的標(biāo)注過(guò)程考慮到了各類別在特征空間中的分布特征,即對(duì)每個(gè)類別都設(shè)置了與其先驗(yàn)概率估計(jì)值Ni/N相關(guān)的標(biāo)注判別閾值,隨著被標(biāo)記的未標(biāo)記樣本數(shù)的增加,Ni/N越接近于真實(shí)的先驗(yàn)概率;但初始判別閾值因無(wú)法準(zhǔn)確估計(jì)其先驗(yàn)概率而都設(shè)置為一個(gè)相同較小的值,因?yàn)閷?duì)于每個(gè)類別初始的已標(biāo)記樣本數(shù)量Ni都是一樣且較小的;③標(biāo)注過(guò)程對(duì)處于支持向量面2側(cè)的未標(biāo)記點(diǎn)都進(jìn)行考慮,包括因已標(biāo)記樣本代表性問(wèn)題導(dǎo)致的未標(biāo)記樣本點(diǎn)都落在初始分類面和初始支持向量面之間的情況;④預(yù)留對(duì)有傾向類別的調(diào)節(jié)參數(shù),對(duì)遙感圖像分類中常見(jiàn)的、在圖像中處于像元數(shù)量弱勢(shì)但極其重要的類別,可適當(dāng)調(diào)節(jié)λ來(lái)增加對(duì)其的關(guān)注度。
對(duì)基于支持向量機(jī)的半監(jiān)督學(xué)習(xí)算法中區(qū)域標(biāo)注法的收斂性已在陳毅松等[24]的研究中給出了證明,不再贅述。
根據(jù)實(shí)驗(yàn)設(shè)計(jì),分別從SPOT5影像A中獨(dú)立地監(jiān)督選擇24,48和96個(gè)訓(xùn)練樣本。由于待分類影像B中地物類型的先驗(yàn)分布未知,故樣本在木本植被、草本植被、水體、人工建筑、沙灘和裸地等6種地物類型中平均分布。同時(shí),從待分類影像中獨(dú)立地隨機(jī)選取100,200,500和1 000個(gè)未標(biāo)記樣本參與半監(jiān)督學(xué)習(xí)。初始懲罰因子C的取值通過(guò)實(shí)現(xiàn)對(duì)已標(biāo)記樣本的最優(yōu)分類來(lái)進(jìn)行估計(jì)。
在相同樣本組合下,分別進(jìn)行了SVM監(jiān)督分類、傳統(tǒng)TSVM分類和本文算法的半監(jiān)督學(xué)習(xí)分類(圖3),其分類精度見(jiàn)表2。
圖3 從影像A中選擇訓(xùn)練樣本在影像B中拓展應(yīng)用分類結(jié)果對(duì)比Fig.3 Comparison of different classification results of image B with the training samples selected from image A
表2 基于像元的不同分類結(jié)果精度比較Tab.2 Comparison of the accuracies of different classification results based on pixel
分析圖3和表2不難發(fā)現(xiàn):
1)半監(jiān)督學(xué)習(xí)方法可有效完成訓(xùn)練樣本的時(shí)空拓展應(yīng)用。實(shí)驗(yàn)結(jié)果顯示,在24個(gè)訓(xùn)練樣本和500個(gè)未標(biāo)記樣本的組合試驗(yàn)中,與樣本直接拓展應(yīng)用的SVM監(jiān)督分類方法相比,本文提出的方法使分類精度提高了約41個(gè)百分點(diǎn),達(dá)到85.6%;并取得了比傳統(tǒng)TSVM方法更高的分類精度,且在每一個(gè)分類組合中都提高了約10個(gè)百分點(diǎn)。
本文提出的方法獲得了比其他2種方法更好的分類效果。從原理上分析,基于統(tǒng)計(jì)學(xué)習(xí)理論的SVM方法在處理小樣本問(wèn)題上具有優(yōu)勢(shì),但在處理樣本有偏分布問(wèn)題時(shí),其優(yōu)秀的泛化能力反而變成了弱點(diǎn)(如圖3(a)中由于裸地類型在該區(qū)域的光譜特征較為相似,導(dǎo)致該類型樣本在特征空間中分布集中;而木本植被和人工建筑樣本特征在特征空間中分布相對(duì)分散,致使最終分類結(jié)果中木本植被和人工建筑的過(guò)度分類);傳統(tǒng)TSVM方法要求估計(jì)各類別在待分類影像中的比重,對(duì)于本文所面臨的未知區(qū)域分類問(wèn)題,估計(jì)先驗(yàn)比重將面臨較大經(jīng)驗(yàn)風(fēng)險(xiǎn)(如圖3(b)中因?qū)β愕厮急戎氐墓烙?jì)過(guò)小,導(dǎo)致人工建筑和裸地都出現(xiàn)了較嚴(yán)重的分類錯(cuò)誤);而本文方法根據(jù)未標(biāo)記樣本在特征空間中聚類的特點(diǎn),在每一次遞歸中,漸進(jìn)式地計(jì)算和調(diào)整分類面的變化方向和幅度。分類結(jié)果證實(shí)本文方法可有效完成分類訓(xùn)練樣本的拓展應(yīng)用(圖3(c))。
2)當(dāng)進(jìn)行拓展應(yīng)用的訓(xùn)練樣本對(duì)待分類圖像地物類型的空間特征結(jié)構(gòu)描述不好時(shí),過(guò)多使用訓(xùn)練樣本會(huì)對(duì)分類結(jié)果產(chǎn)生負(fù)作用(如表2中,對(duì)于相同的未標(biāo)記樣本,24個(gè)訓(xùn)練樣本組合的分類精度要高于48和96個(gè)的分類精度)。
在半監(jiān)督學(xué)習(xí)中,當(dāng)未標(biāo)記樣本在特征空間中表現(xiàn)出待分類地物類型固有特征中心和訓(xùn)練樣本的位置有明顯差異時(shí),少量具有較大偏差分布的訓(xùn)練樣本集中的樣本,可以被設(shè)置的懲罰因子C所容忍和忽略,而此時(shí)訓(xùn)練樣本的作用是為SVM分類提供一個(gè)初始的有導(dǎo)向性作用的分類面;但當(dāng)這樣的訓(xùn)練樣本增多到懲罰因子無(wú)法容忍時(shí),其必將給分類結(jié)果造成影響。
3)當(dāng)訓(xùn)練樣本的數(shù)目一定時(shí),未標(biāo)記樣本應(yīng)用得多并不一定都可提高分類精度。從表2看出,當(dāng)分類訓(xùn)練樣本為24個(gè)時(shí),未標(biāo)記樣本從500增加到1 000個(gè),反而導(dǎo)致了分類精度的下降。
對(duì)式(1)分析表明,隨著未標(biāo)記樣本數(shù)目的增多,特別是相對(duì)于訓(xùn)練樣本占絕對(duì)優(yōu)勢(shì)時(shí),目標(biāo)函數(shù)值的走向在較大程度上受到未標(biāo)記樣本的支配,訓(xùn)練樣本便失去了對(duì)其進(jìn)行類別引導(dǎo)的作用。本文的分類實(shí)驗(yàn)結(jié)果顯示,當(dāng)未標(biāo)記樣本和訓(xùn)練樣本數(shù)量差距保持在10~20個(gè)時(shí),可取得較好的分類效果(如實(shí)驗(yàn)結(jié)果在24,48和96個(gè)已標(biāo)記樣本情況下,其最高分類精度出現(xiàn)在與500和1 000個(gè)未標(biāo)記樣本搭配分類的時(shí)候),這與任廣波等[19]在基于生成模型的半監(jiān)督學(xué)習(xí)分類中得到的結(jié)論一致。
在分類效率方面,通過(guò)1.2節(jié)的方法描述,改進(jìn)的TSVM方法在算法復(fù)雜度上與傳統(tǒng)的TSVM是相同的,但由于可自適應(yīng)地調(diào)整分類面變化的方向和幅度,相比每次遞歸只對(duì)固定數(shù)目的樣本進(jìn)行標(biāo)注,可有效地提高效率(在本文遙感圖像分類實(shí)驗(yàn)中,遞歸8次以內(nèi)便可達(dá)到收斂,而TSVM方法則平均需要50次以上)。
不同于基于像元的分類,針對(duì)高分辨率遙感影像(如QuickBird),基于分割斑塊的分類已成為研究的熱點(diǎn)之一。首先對(duì)影像C和影像D進(jìn)行圖像分割,由于2景影像分別覆蓋的永興島和東島上的地物類型、尺度等都較為相似,因此用相同的分割參數(shù)(分割尺度參數(shù)40,形狀參數(shù)0.6,緊致度參數(shù)0.5)進(jìn)行分割,獲得2 232個(gè)分割斑塊(圖4(a))。
按照實(shí)驗(yàn)設(shè)計(jì),以分割斑塊為基本單元,選擇分割后影像每個(gè)斑塊分別在4個(gè)波段的像點(diǎn)均值為特征,從影像C中獨(dú)立選擇3組訓(xùn)練樣本(分別有20,40和60個(gè)樣本),對(duì)影像D進(jìn)行分類(圖4(b)(c))。
圖4 從影像C中選擇的分類樣本在影像D中拓展應(yīng)用分類結(jié)果Fig.4 Comparison of different classification results of image D with training sample selected from image C
由于在基于像元的分類中已經(jīng)證實(shí)本文提出的方法較傳統(tǒng)的TSVM方法更有效,故本實(shí)驗(yàn)僅就使用本文提出的半監(jiān)督學(xué)習(xí)方法前后的效果進(jìn)行分析,分類精度見(jiàn)表3。
表3 基于分割對(duì)象的不同分類結(jié)果精度比較Tab.3 Comparison of the accuracies of different classification results based on object
基于分割對(duì)象的分類結(jié)果和基于像元的分類結(jié)果表現(xiàn)出相似的特點(diǎn),不再重復(fù)論述。不同的是,基于分割對(duì)象的分類中將待分類影像中所有的分割斑塊都作為未標(biāo)記樣本參與半監(jiān)督學(xué)習(xí),分類工作隨著半監(jiān)督學(xué)習(xí)過(guò)程的結(jié)束而完成。這在機(jī)器學(xué)習(xí)理論中是真正意義上的“直推式學(xué)習(xí)”。同時(shí),若將對(duì)影像的分割作為影像預(yù)處理而不作為分類過(guò)程的工作,則可獲得比基于像元分類方法更好的分類效率。
另外,在最終分類結(jié)果中,仍有部分斑塊被錯(cuò)誤分類(如東島東北部的浪花被錯(cuò)分為沙灘,環(huán)繞島陸的部分沙灘被錯(cuò)分為人工建筑),這是由于地物的同譜異物問(wèn)題造成的。可通過(guò)利用分割對(duì)象特有的形狀參數(shù)和地物位置關(guān)系等信息對(duì)分類結(jié)果進(jìn)行二次判定,以獲得更高精度的分類結(jié)果。
1)訓(xùn)練樣本的拓展應(yīng)用有望成為實(shí)現(xiàn)遙感圖像自動(dòng)化分類的有效途徑。因本文所涉及的分類問(wèn)題是在無(wú)法從待分類圖像中獲取訓(xùn)練樣本時(shí)的分類樣本拓展應(yīng)用問(wèn)題,訓(xùn)練樣本的獲取源有著較大的不確定性;或者說(shuō)只要保證訓(xùn)練樣本對(duì)待分類圖像有一定的代表性,樣本取自何處便不再重要。如此,不妨設(shè)想可建立一個(gè)較為全面的訓(xùn)練樣本集,在涉及樣本拓展應(yīng)用分類問(wèn)題時(shí),根據(jù)待分類圖像的類型、區(qū)域、待分類類別等條件,從樣本集中自動(dòng)選擇訓(xùn)練樣本、開(kāi)展分類。這將很大程度地提高分類過(guò)程的自動(dòng)化程度。
2)基于分割對(duì)象的半監(jiān)督學(xué)習(xí)應(yīng)用潛力巨大。分割對(duì)象帶來(lái)的一系列基于像元分類所不具備的特征維度(如形狀指數(shù)和空間語(yǔ)義關(guān)系等),將有望幫助我們開(kāi)辟一條更高效、高精度、高自動(dòng)化處理無(wú)樣本或樣本代表性不好的遙感圖像分類的途徑。
3)訓(xùn)練樣本對(duì)待分類影像具有一定的代表性,是半監(jiān)督學(xué)習(xí)方法取得較好分類效果的前提,但實(shí)際應(yīng)用中這種代表性卻不容易準(zhǔn)確地控制。因此如何使所選取的訓(xùn)練樣本對(duì)待分類影像的“代表性”足以讓半監(jiān)督學(xué)習(xí)取得好效果,是一個(gè)值得深入研究的問(wèn)題。
1)半監(jiān)督學(xué)習(xí)方法有效利用了未標(biāo)記樣本所表現(xiàn)出的地物類別在特征空間中的固有結(jié)構(gòu)信息,成功實(shí)現(xiàn)了遙感影像訓(xùn)練樣本的拓展應(yīng)用;所提出的半監(jiān)督學(xué)習(xí)算法能更好地解決樣本拓展應(yīng)用中待分類影像地物類別比例無(wú)法準(zhǔn)確估計(jì)的問(wèn)題,取得比傳統(tǒng)TSVM方法更好的分類效果。
2)過(guò)多地使用訓(xùn)練樣本和未標(biāo)記樣本都可能會(huì)對(duì)訓(xùn)練樣本拓展應(yīng)用效果產(chǎn)生不利影響,其原因是由于半監(jiān)督學(xué)習(xí)算法的限制,過(guò)多地使用上述2類樣本都可能會(huì)對(duì)分類過(guò)程產(chǎn)生誤導(dǎo)。
3)基于分割對(duì)象的半監(jiān)督學(xué)習(xí)分類方法是真正意義上的直推式學(xué)習(xí)方法,可獲得比基于像元的分類方法更高的分類效率。
[1] Jackson Q,Landgrebe D A.An adaptive classifier design for high-dimensional data analysis with a limited training data set[J].IEEE Transactions on Geoscience and Remote Sensing,2001,39(12):2664-2679.
[2] Jensen JR.Introductory digital image processing:A remote sensing perspective[M].3rd ed.New Jersey:Prentice Hall,2006:195-209.
[3] Kaufman Y J.Fraster R S.Atmospheric effect on classification of finite fields[J].Remote Sensing of Environment,1984,15(2):95-118.
[4] Cracknell A P,Hayes LW.Atmospheric corrections to passive satellite remote sensing data[M]//Cracknell A P,Hayes L W B.Chapter 8 in Introduction to Remote Sensing.London:Taylor and Francis,1993:116-158.
[5] Camps V G,Bandos T,Zhou D Y.Semi-supervised graph based hyperspectral image classification[J].IEEE Transaction on Geoscience and Remote Sensing,2007,45(10):3044-3054.
[6] Du Y,Teillet PM,Cihlar J.Radiometric normalization of multitemporal high-resolution satellite images with quality control for land cover change detection[J].Remote Sensing of Environment,2002,82(1):123-134.
[7] 張友水,馮學(xué)智,周成虎.多時(shí)相TM影像相對(duì)輻射校正研究[J].測(cè)繪學(xué)報(bào),2006,35(2):122-127.Zhang Y S,F(xiàn)eng X Z,Zhou C H.Relative radiometric correction for multitemporal TM images[J].Acta Geodaetica et Cartographica Sinica,2006,35(2):122-127.
[8] Koukal T,Suppan F,Schneider W.The impact of relative radiometric calibration on the accuracy of KNN-predictions of for estattributes[J].Remote Sensing of Environment,2007,110(4):431-437.
[9] Ren G B,Zhang J,Ma Y,etal.A method for classification training sample spatial-time expanding of remote sensing images[C]//International Conference on Space Information Technology,Beijing,Proceedings of the SPIE,2009:76510G1-G7.
[10] Scudder I I.Probability of error of some adaptive pattern-recognition machines[J].IEEE Transactions on Information Theory,1965,11(3):363-371.
[11] Fralick S.Learning to recognize patterns without a teacher[J].IEEE Transactions on Information Theory,1967,13(1):57-64.
[12] Nigam K,McCallum A,Mitchell T.Semi-supervised text classification using EM semi-supervised learning[M].Cambridge MA:MIT Press,2006:33-55.
[13] István N T,Richárd F,János C.On positive and unlabeled learning for text classification[C]//István N T,Richárd F,János C.Lecture Notes in Computer Science.London:Springer,2011,6836:219-226.
[14] Schenker A,Bunke H,Last M,et al.A graph-based framework for web document mining[M]//Schenker A,Bunke H,Last M,et al.Document Analysis Systems.London:Springer,2004:401-412.
[15] Yang Y,Wu F,Nie F,et al.Web and personal image annotation by mining label correlation with relaxed visual graph embedding image processing[J].IEEE Transactions,2012,21(3):1339-1351.
[16] Shahshahani B M,Landgrebe D A.The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon[J].IEEE Transactions on Geoscience and Remote Sensing,1994,32(5):1087-1092.
[17] 駱劍承,王欽敏,馬江洪,等.遙感圖像最大似然分類方法的EM 改進(jìn)算法[J].測(cè)繪學(xué)報(bào),2002,31(3):234-239.Luo JC,Wang Q M,Ma JH,et al.The EM-based maximum likelihood classifier for remotely sensed data[J].Acta Geodaetica et Cartographica Sinica,2002,31(3):234-239.
[18] Tuia D,Camps V G.Semi-supervised remote sensing image classification with cluster kernels[J].IEEE Geoscience and Remote Sensing Letters,2009,6(2):224-228.
[19] 任廣波,張 杰,馬 毅,等.生成模型學(xué)習(xí)的遙感影像半監(jiān)督分類[J].遙感學(xué)報(bào),2010,14(6):1090-1104.Ren G B,Zhang J,Ma Y,et al.Generative model based semi-supervised learning method of remote sensing image classification[J].Journal of Remote Sensing,2010,14(6):1090-1104.
[20] Tuia D,Pasolli E,Emery W J.Using active learning to adapt remote sensing image classifiers[J].Remote Sensing of Environment,2011,115(9):2232-2242.
[21] Galante N,Siqueia R,Sant’Anna S J,et al.Semi-supervised remote sensing image classification methods assessment[C]//IGARSS.Geoscience and Remote Sensing Symposium.Vancouve:IEEE International,2011:2939-2942.
[22] Mishra N S,Ghosh S,Ghosh A.Semi-supervised fuzzy clustering algorithms for change detection in remote sensing images[C]//Mishra N S,Ghosh S,Ghosh A.Lecture Notes in Computer Science.London:Springer,2012,7143:269-276.
[23] Joachims T.Transductive inference for text classification using support vector machines[C]//Proceedings of the 16th International Conference on Machine Learning(ICML).San Francisco:Morgan Kaufmann Publishers,1999:200-209.
[24] 陳毅松,汪國(guó)平,董士海.基于支持向量機(jī)的漸進(jìn)直推式分類學(xué)習(xí)算法[J].軟件學(xué)報(bào),2003,14(3):451-460.Chen Y S,Wang G P,Dong SH.A progressive trans ductive inference algorithm based on support vector machine[J].Journal of Software,2003,14(3):451-460.
[25] 沈新宇,許宏麗,官騰飛.基于直推式支持向量機(jī)的圖像分類算法[J].計(jì)算機(jī)應(yīng)用,2007,27(6):1463-1464.Shen X Y,Xu H L,Guan T F.Image classification based on transductive support vector machines[J].Computer Application,2007,27(6):1463-1464.
[26] 廖東平,魏璽章,黎 湘,等.一種改進(jìn)的漸進(jìn)直推式支持向量機(jī)分類學(xué)習(xí)算法[J].信號(hào)處理,2008,24(2):213-218.Liao D P,Wei X Z,Li X,et al.An improved learning algorithm with progressive transductive support vector machine[J].Signal Processing,2008,24(2):213-218.