楊杰,高偉,段茜茜,胡洋
(1.天津城建大學(xué) 地質(zhì)與測繪學(xué)院,天津 300384;2.邯鄲市恒達(dá)地理信息工程有限責(zé)任公司,河北 邯鄲 056000)
隨著經(jīng)濟(jì)和社會的快速發(fā)展,各個地區(qū)的城鎮(zhèn)化率迅速提高,在城鎮(zhèn)化率提高的同時,建設(shè)用地占據(jù)城市土地資源的一大部分,對城市綠化及生態(tài)用地造成影響[1]。建筑物作為城市中主要的目標(biāo)性地物,對其進(jìn)行信息提取和目標(biāo)識別會為城市管理提供準(zhǔn)確的信息來源[2]。而面對復(fù)雜的城市結(jié)構(gòu),使用人工進(jìn)行信息搜集必然會耗費大量的人力、物力且難以保證提取精度。近些年來,航天遙感向著高時間分辨率、高空間分辨率、高光譜分辨率的方向發(fā)展,為研究人員提供了高效率、高精度、低成本的地理空間數(shù)據(jù)來源[3]。高分遙感影像的出現(xiàn)提高了建筑物信息提取的精度,促進(jìn)了各地區(qū)城市管理工作的開展。遙感影像數(shù)據(jù)的建筑物提取方法大致分為基于像元的建筑物提取和面向?qū)ο蟮慕ㄖ锾崛?種[4]?;谙裨慕ㄖ锾崛。瑳]有考慮高分辨率遙感影像中具有豐富的地物信息,只考慮地物光譜單個特征信息,因此,利用該方法進(jìn)行高分辨率遙感影像的建筑物信息提取時,容易產(chǎn)生椒鹽現(xiàn)象,由于區(qū)分不同地物光譜亮度的差異不同,還會出現(xiàn)“同物異譜,同譜異物”的現(xiàn)象[5]。面向?qū)ο蟮慕ㄖ锾崛》椒ㄈ娣治龅匚锏墓庾V特征、形狀特征、紋理特征等多方面特征,能夠在一定程度上緩解椒鹽噪聲和“同物異譜,同譜異物”現(xiàn)象的出現(xiàn)[6]。高分二號遙感影像具有高分特性,構(gòu)建建筑物信息提取規(guī)則集時有很多特征可以應(yīng)用,但是從眾多特征中找到最佳的建筑物信息提取特征,構(gòu)建有效的規(guī)則集是一個難題。為了解決這一問題,本文提出了一種方法。首先,依據(jù)樣本采集原則采集研究區(qū)各類地物樣本,創(chuàng)建訓(xùn)練集;然后,運用SEaTH算法進(jìn)行特征優(yōu)選;最終,自動化地確定最有效特征的閾值。這樣選取的特征具有客觀性和代表性,實現(xiàn)了建筑物信息提取特征閾值的自動化確定,加快了建立知識規(guī)則。
面向?qū)ο蟮慕ㄖ锾崛》椒ㄊ切畔⑻崛〉男滤悸?。面向?qū)ο蟮慕ㄖ锾崛∈紫葘⒂跋穹指?,不同影像對象特征屬性不同,依?jù)影像對象的獨特性,對多個影像對象進(jìn)行分類,構(gòu)建合適的規(guī)則集,進(jìn)行建筑物信息提取[7-8]。面向?qū)ο蟮慕ㄖ锾崛×鞒倘鐖D1所示。
圖1 面向?qū)ο蟮慕ㄖ锾崛×鞒虉D
SEaTH算法最初是為國際原子能機構(gòu)基于高分辨率影像的核設(shè)施目標(biāo)檢測和監(jiān)測提供一種自動化的方法,后來逐漸應(yīng)用于高分辨率遙感影像的面向?qū)ο蠓诸怺9-11]。SEaTH算法是一種半自動化信息提取構(gòu)建分類規(guī)則的方法,基于各個地物類別的樣本,構(gòu)建一套分類規(guī)則,用于信息提取。SEaTH算法包括特征優(yōu)選和自動確定閾值2部分,在運用SEaTH算法之前首先要采集研究區(qū)的地物樣本。
1)特征優(yōu)選。SEaTH算法的基本思想是在依據(jù)對象特征符合其正態(tài)分布的基礎(chǔ)上,利用J-M(distance of Jeffries-Matusita)距離來衡量地物類別之間的分離度[12],如果對象特征不符合正態(tài)分布,則該特征的分離性差,不用于分類。圖2表示C1和C2基于B、A、C3個特征的分離度,依次為較差分離、部分分離和完全分離,這說明特征C用來區(qū)分C1和C2效果最好。
圖2 類別C1和C2的分離度
在SEaTH算法中,衡量2個地物類別之間可分離性的一個有效手段是J-M距離。J的值域為[0,2],當(dāng)J=0時,說明2個地物類別之間在某個特征上幾乎都混淆;當(dāng)J=2時,說明2個地物類別之間在某個特征上的分離度較好,可以完全分開[13]。然而,由于各個地物類別之間總是有一些交集,J=2的情況在實際應(yīng)用中很少出現(xiàn)[14]。一般而言,使用最大分離度的前幾個特征就可以滿足信息提取的要求。J-M距離如式(1)所示。
J=2(1-e-B)
(1)
式中:B表示巴氏距離(Bhattacharyya distance),在保證各個地物的樣本特征值符合正態(tài)分布的前提下,可以利用B通過錯分概率的貝斯決策規(guī)則衡量2個地物類別之間的可分離性[15],C1和C22個地物類別的巴氏距離如式(2)所示。
(2)
式中:m1和m2是2個地物類別的某特征均值;σ1和σ2是2個地物類別的某特征標(biāo)準(zhǔn)差。
2)自動確定閾值。在eCognition 8.9上,利用知識規(guī)則提取地物信息需要人工反復(fù)嘗試,并依據(jù)地物類別區(qū)分的目視效果不斷地對閾值進(jìn)行調(diào)整,最終找到合適的特征閾值。人工尋找特征閾值的方法具有效率低且易受主觀因素干擾的缺點,所以尋找一種自動化的方法尤其重要。SEaTH算法不僅能夠自動化地確定區(qū)別兩兩地物類別的最優(yōu)特征,還能算出最優(yōu)閾值。關(guān)于某一特征對于2個類別C1和C2的概率分布,本文采用高斯概率混合模型進(jìn)行描述[16],其概率模型如式(3)所示。
p(x)=p(x|C1)p(C1)+p(x|C2)p(C2)
(3)
式中:x為隨機變量;p(x)為隨機變量屬于C1、C2的概率;p(x|C1)、p(x|C2)分別為隨機變量x在C1、C2條件下的概率;p(C1)、p(C2)分別為C1、C2的概率。
當(dāng)隨機變量x在C1、C2條件下的概率相同時,兩兩地物類別之間的混淆分類情況最少。如圖3所示,當(dāng)特征閾值T對應(yīng)的是X1時,C1和C22個地物類別的分離性最佳。
圖3 C1和C2 2個地物類別的最佳分離閾值
特征閾值T的計算如式(4)、式(5)所示。
(4)
(5)
式中:n1、n2表示2個地物類別的樣本數(shù)。
SEaTH算法基于樣本特征值服從正態(tài)分布這一假設(shè),所以當(dāng)假設(shè)不成立時,運用此算法算出的特征閾值并不一定非常準(zhǔn)確。因此,Marpu等[17]根據(jù)隨機數(shù)據(jù)處理方法,提出了一種解決方法,再結(jié)合圖3,最佳閾值T的計算規(guī)則如下。
若J≥1.75,則T′=T;
若1.25 若0.5≤J<1.25,則T′=m2; 若J<0.5,則忽略該特征值。 本文采用我國自主研發(fā)的高分二號衛(wèi)星多光譜波段和全色波段的遙感數(shù)據(jù),研究區(qū)域隸屬于天津市西青區(qū),數(shù)據(jù)大小為862像素×1 066像素。 研究區(qū)的地物類別可劃分為建筑物、道路、植被、綠茵場、陰影和裸地6類。根據(jù)建筑物房頂材料的不同,研究區(qū)的建筑物可再分為3類:灰色屋頂、藍(lán)色屋頂和紅色屋頂,最終制作分類圖時再將這3類并為建筑物??傮w來說,研究區(qū)建筑物樣式分布不規(guī)則,地物具有復(fù)雜多樣性,作為研究區(qū)具有一定代表性。 1)研究區(qū)地物樣本采集。訓(xùn)練樣本的質(zhì)量直接影響后續(xù)特征優(yōu)選時分離度和特征閾值計算的準(zhǔn)確性,甚至影響建筑物信息提取和建筑監(jiān)測的精度。選擇訓(xùn)練樣本時應(yīng)遵循以下3方面原則:①訓(xùn)練樣本應(yīng)包含研究區(qū)高分二號影像中所有的地物類型,主要包括建筑物、道路、植被、綠茵場、陰影和裸地6類地物類型;②每種地物類型的訓(xùn)練樣本總數(shù)應(yīng)與其分布面積成比例,并且均勻分布在該地物類型的區(qū)域內(nèi);③應(yīng)選取地物類型分割較好的影像對象,含有混合地物的影像對象一般不選為樣本。 2)訓(xùn)練集的創(chuàng)建。運用SEaTH算法構(gòu)建知識規(guī)則。首先選取訓(xùn)練樣本,并且將訓(xùn)練樣本的特征值運用SEaTH算法進(jìn)行自動確定特征優(yōu)選和特征閾值。本文研究區(qū)的地物類別主要有6類,其中建筑物根據(jù)房頂材料的不同又分為了3類,根據(jù)訓(xùn)練樣本的選取規(guī)則,以多尺度分割的結(jié)果圖為基礎(chǔ)選取各個地物類別的樣本。 以各個地物類別的樣本和特征為數(shù)據(jù)基礎(chǔ),計算出J-M距離來衡量兩兩地物類別之間基于某個特征的分離度,從中選出J-M距離值最大的特征。統(tǒng)計建筑物與所有非建筑物類別之間對應(yīng)的最大J-M距離,建立建筑物的提取規(guī)則,如表1至表3所示。 表1 灰色屋頂建筑物的提取規(guī)則 表2 藍(lán)色屋頂建筑物的提取規(guī)則 表3 紅色屋頂建筑物的提取規(guī)則 表1至表3中,構(gòu)建了每種建筑物子類的提取規(guī)則,所有的規(guī)則取交集提取建筑物,考慮到最終要把3種建筑物子類合并,在提取過程中只需保證提取出的是建筑物,并不一定是特別純的建筑物子類。藍(lán)色屋頂建筑物與植被和道路的最優(yōu)特征都是Ratio_layer3,那么使用這個特征時,規(guī)則為Ratio_layer3≤0.210,其他地類亦是如此。 基于SEaTH算法建立知識規(guī)則,并將灰色屋頂、藍(lán)色屋頂、紅色屋頂?shù)慕ㄖ锖喜?,得到建筑物信息初提取結(jié)果,如圖4所示。 圖4 建筑物初提取結(jié)果 在建筑物初提取結(jié)果中,存在一些細(xì)碎的噪聲,這些細(xì)碎的斑點區(qū)域并不是建筑物,可以通過初提取結(jié)果中各個建筑物的像素數(shù)目進(jìn)行判斷。當(dāng)小于某值時,則判斷不是建筑物,并將這個小斑塊過濾掉。 建筑物初提取結(jié)果中,建筑物的輪廓不夠平滑和規(guī)整,本文基于像素對象調(diào)整進(jìn)行建筑物邊緣的平滑,進(jìn)一步對初提取結(jié)果進(jìn)行優(yōu)化,其主要思路為:①遍歷建筑物的輪廓;②設(shè)置建筑物輪廓在X、Y和Z方向上的像素值,形成一個大小為N×N的像素窗口,N為奇數(shù),本文將X和Y都設(shè)置為5,Z設(shè)置為1;③設(shè)置一個閾值V,當(dāng)像素窗口中建筑物部分所占比例大于V時,則該中心像素隸屬于建筑物,本文將V設(shè)置為0.5?;谙袼貙ο笳{(diào)整算法的示意圖如圖5所示。 圖5 基于像素對象調(diào)整算法的示意圖 將建筑物初提取結(jié)果進(jìn)行優(yōu)化后的影像如圖6所示,優(yōu)化后的建筑物輪廓得到了平滑,更加接近建筑物的輪廓,局部對比如圖7所示。 圖6 優(yōu)化提取結(jié)果圖 圖7 優(yōu)化前后局部對比 在遙感分類效果評價方法中,混淆矩陣是常用的一種方法[18],該方法將影像分類結(jié)果與地表真實信息進(jìn)行對比,且單個混淆矩陣中可以顯示影像分類結(jié)果精度[19],如式(6)所示。 (6) 式中:n表示類別數(shù);mij表示i類像素被分到j(luò)類中的像素總數(shù);mii表示正確分類數(shù)。當(dāng)混淆矩陣對角線上的元素值越大時,分類精度越高;反之,分類精度越低。 分類精度的指標(biāo)主要包括總體精度、Kappa系數(shù)、生產(chǎn)者精度、用戶精度、Hellden精度和Short精度[20]。其中,Hellden精度是生產(chǎn)者精度和用戶精度的調(diào)和平均值,可以作為綜合考量生產(chǎn)者精度和用戶精度的指標(biāo)。 本文還應(yīng)用了面向?qū)ο蟮淖钹徑诸惙▽ㄖ镞M(jìn)行了提取。為確保提取結(jié)果的可比性,使用同一分割尺度參數(shù),并將初提取結(jié)果運用于像素對象調(diào)整的方法進(jìn)行優(yōu)化(圖8)。 圖8 建筑物提取結(jié)果比較 在ArcGIS中,根據(jù)遙感數(shù)據(jù)并參照天地圖采集建筑物和非建筑物的樣本點用于精度評定。針對本文數(shù)據(jù),本文算法和基于面向?qū)ο蟮淖钹徑诸惙ǖ木仍u定的混淆矩陣分別如表4和表5所示。 表4 基于本文方法的精度評價 由圖8可知,基于面向?qū)ο蟮淖钹徑诸惙▽⒉糠直驹撌堑缆返挠跋駞^(qū)域錯分為建筑物,還存在建筑物漏分現(xiàn)象,而本文方法的錯分和漏分現(xiàn)象相比較少。由表4和表5可以得出,本文方法的總體精度和Kappa精度都要高于基于面向?qū)ο蟮淖钹徑诸惙椒ā?/p> 表5 基于最鄰近分類法的精度評價 本文基于高分二號遙感數(shù)據(jù),結(jié)合研究區(qū)的地物類別和建筑物房頂材料的不同特征,通過運用面向?qū)ο蟮姆诸惙椒ê蚐EaTH算法的原理,構(gòu)建建筑物提取規(guī)則,進(jìn)行建筑物信息初提取及優(yōu)化建筑物輪廓。精度驗證表明:本文方法的總精度為87.29%、Kappa精度為74.63%,與基于面向?qū)ο蟮淖钹徑诸惙ㄏ啾?,總精度提高?0.17%、Kappa精度提高了20.29%,表明本文方法在建筑物信息提取方面具有一定的可行性。2 數(shù)據(jù)來源與數(shù)據(jù)處理
2.1 數(shù)據(jù)來源
2.2 數(shù)據(jù)處理
2.3 基于SEaTH算法的建筑物信息提取知識規(guī)則
3 提取結(jié)果優(yōu)化
3.1 小斑塊處理
3.2 建筑物輪廓優(yōu)化
4 精度評價
4.1 精度評價指標(biāo)
4.2 精度評價實驗
5 結(jié)束語