吳琳琳, 李曉燕, 毛德華, 王宗明
(1.吉林大學(xué)地球科學(xué)學(xué)院,長春 130012; 2.中國科學(xué)院濕地生態(tài)與環(huán)境重點(diǎn)實(shí)驗(yàn)室,中國科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所,長春 130102)
城市土地利用信息反映著社會經(jīng)濟(jì)功能和活動(dòng),是城市規(guī)劃和區(qū)域管理的重要基礎(chǔ)[1-2],對于解決城市問題、科學(xué)合理的發(fā)展城市具有重要意義[3-5]。因此,準(zhǔn)確、詳細(xì)的城市土地利用信息對城市規(guī)劃和發(fā)展起到關(guān)鍵性作用[6-8]。然而,城市土地利用類型復(fù)雜多樣,人工進(jìn)行實(shí)地調(diào)查費(fèi)時(shí)費(fèi)力,獲取詳細(xì)的城市土地利用信息較為困難[9-10]。國內(nèi)外學(xué)者基于遙感影像獲取城市土地利用信息展開了豐富的研究。Gong等[11]利用隨機(jī)分類方法對中國332個(gè)地級市進(jìn)行城市土地利用分類研究; Zong等[12]基于多源數(shù)據(jù),采用隨機(jī)森林算法對蘭州市城市土地利用進(jìn)行分類并分析不同特征組合對分類結(jié)果的影響; Zeferino等[13]利用Landsat8衛(wèi)星影像研究環(huán)境數(shù)據(jù)對土地利用的影響; Saboori等[14]利用高分辨率影像多尺度的紋理特征與神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,對城市土地利用信息進(jìn)行提取。
隨著城市化的不斷發(fā)展,快速高效獲取城市土地利用信息成為研究熱點(diǎn)。隨機(jī)森林是一種新型的集成算法,具有訓(xùn)練樣本數(shù)量少、人工干預(yù)少,精度較高、不易過擬合的特點(diǎn),相較于其他傳統(tǒng)方法具有很好的魯棒性[15-16]。目前,隨機(jī)森林已廣泛運(yùn)用到遙感影像分類中。周天寧等[17]基于Landsat TM影像,利用隨機(jī)森林優(yōu)化算法對昌平區(qū)進(jìn)行土地利用分類,其結(jié)果驗(yàn)證了隨機(jī)森林在土地利用分類的穩(wěn)定性; 馬玥等[18]基于隨機(jī)森林算法,對齊齊哈爾市周邊的農(nóng)業(yè)耕種區(qū)進(jìn)行土地利用分類研究,實(shí)現(xiàn)了分類效率、精度及適用性之間的平衡,為農(nóng)業(yè)耕種提供參考; 楊耘等[19]利用高分辨率影像提取城市土地利用分類,通過多個(gè)算法對比發(fā)現(xiàn)隨機(jī)森林算法對城市土地利用類型提取效果較好,可以為城市土地利用分類提供準(zhǔn)確的依據(jù)。
傳統(tǒng)的土地利用調(diào)查無法滿足城市土地管理的需求。隨著通信技術(shù)的不斷發(fā)展,熱力圖數(shù)據(jù)、社交媒體數(shù)據(jù)、興趣點(diǎn)數(shù)據(jù)等具有地理意義的空間大數(shù)據(jù)獲取方便,多源數(shù)據(jù)為城市空間結(jié)構(gòu)的研究提供了依據(jù)和便利[20]。如興趣點(diǎn)(point of interest,POI)數(shù)據(jù)與傳統(tǒng)的土地調(diào)查數(shù)據(jù)相比,POI數(shù)據(jù)樣本數(shù)量多、易獲取,可以記錄土地利用類型及位置信息[21],更能準(zhǔn)確詳細(xì)地展現(xiàn)城市空間布局,滿足城市土地利用分類的需要。
哈爾濱市為黑龍江省省會城市,是中國15座副省級城市之一。哈爾濱地處中國東北地區(qū),是東北北部的政治、經(jīng)濟(jì)、文化中心。哈爾濱市城市用地類型較多,獲取困難,研究哈爾濱城市土地利用分類對促進(jìn)城市發(fā)展和解決城市問題具有重要意義。選擇哈爾濱城市用地為研究區(qū),分析多源地理空間數(shù)據(jù)對城市土地利用類型的提取能力,利用多尺度分割和隨機(jī)森林算法對哈爾濱市城市用地進(jìn)行分類,為城市規(guī)劃及管理提供依據(jù)。
哈爾濱市(圖1)位于東北平原,地處E125°42′~130°10′,N44°04′~46°40′之間。哈爾濱市總面積為5.31×104km2,其中,建成區(qū)面積為302.41 km2; 截至2019年,全市常住人口為1 076.3萬人,城鎮(zhèn)人口709.3萬人,城鎮(zhèn)化率65.9%。哈爾濱市東部與牡丹江市相連,南部與長春市、吉林市接壤,西部與綏化市、大慶市相連,北部與伊春市接壤。哈爾濱市不僅是黑龍江省省會城市,同時(shí)也是東北亞中心地帶。本文選取哈爾濱市環(huán)城高速路內(nèi)為研究區(qū)。
圖1 研究區(qū)位置示意圖
1.2.1 Sentinel-2A遙感數(shù)據(jù)
研究所需的影像數(shù)據(jù)從Google Earth Engine平臺下載(https: //earthengine. google. com/),采集的數(shù)據(jù)為2019年6月18日的Sentinel-2A遙感衛(wèi)星影像。Sentinel-2A有13個(gè)波段,幅寬達(dá)290 km,重訪周期為10 d。本研究獲取該數(shù)據(jù)空間分辨率為10 m的紅光、綠光、藍(lán)光、近紅外4個(gè)波段。影像無云,質(zhì)量較好,可以滿足研究需求。
1.2.2 OSM路網(wǎng)數(shù)據(jù)
路網(wǎng)數(shù)據(jù)在OpenStreetMap(OSM)網(wǎng)站上獲取(https: // www.openstreetmap.org),OSM是目前最大的協(xié)作和公開許可的地理空間數(shù)據(jù)集合,被廣泛運(yùn)用于權(quán)威數(shù)據(jù)的替代或補(bǔ)充[22]。研究使用的數(shù)據(jù)是2019年哈爾濱城市道路中心線數(shù)據(jù)。根據(jù)路網(wǎng)數(shù)據(jù)的屬性信息,提取哈爾濱市的高速公路、一級公路、二級公路及居民道路; 其次將路網(wǎng)數(shù)據(jù)根據(jù)等級建立緩沖區(qū),根據(jù)哈爾濱市車道數(shù)量和車道寬度從遙感影像中選取道路樣本進(jìn)行采樣測距取得平均值,將緩沖區(qū)寬度分別設(shè)置為24 m,42 m,25 m和13 m; 最后利用緩沖區(qū)數(shù)據(jù)將遙感影像數(shù)據(jù)進(jìn)行切割(圖2)。
(a) OSM路網(wǎng)數(shù)據(jù)(b) 路網(wǎng)緩沖區(qū)數(shù)據(jù)
1.2.3 采樣地塊數(shù)據(jù)
采樣地塊數(shù)據(jù)來源于Google Earth和實(shí)地調(diào)查采樣,作為訓(xùn)練樣本及驗(yàn)證樣本。根據(jù)城市基本土地利用制圖采樣方案[11],將城市土地利用類型分為5個(gè)一級地類; 10個(gè)二級地類(表1)。在Google Earth中選取318個(gè)訓(xùn)練樣本,涵蓋了所有二級土地利用類型,選取的地塊具有典型性和穩(wěn)定性,并且土地利用混合性低。哈爾濱市實(shí)地選取66個(gè)樣本,包括地理位置、一級類別、二級類別、建筑物名稱、混合比例并拍攝現(xiàn)場照片作為驗(yàn)證樣本。
表1 采樣地塊類型及數(shù)量
1.2.4 POI數(shù)據(jù)
POI數(shù)據(jù)來源于百度地圖,通過爬蟲獲取研究區(qū)2019年6月的所有數(shù)據(jù)。POI數(shù)據(jù)基本涵蓋城市地理的全部要素信息,其內(nèi)容豐富且精度較高。POI數(shù)據(jù)包含的土地利用類型較為齊全,共有13個(gè)類型,18.2萬條數(shù)據(jù),為百度地圖分類系統(tǒng)。經(jīng)過對POI數(shù)據(jù)進(jìn)行清洗和糾偏[23],將POI數(shù)據(jù)依據(jù)上述分類系統(tǒng)重新分類(表2)。
表2 POI城市基本土地利用分類體系
1.2.5 夜間燈光數(shù)據(jù)
夜間燈光數(shù)據(jù)來源于珞珈一號(http: //59.175.109.173: 8888/app/login.html)。夜間光照強(qiáng)度與城市用地類型有一定相關(guān)性,夜間燈光數(shù)據(jù)可以用來描述區(qū)域人口、城市化和經(jīng)濟(jì)發(fā)展?fàn)顩r[24-25]。人類活動(dòng)強(qiáng)度越大,夜間光照強(qiáng)度就越大。本研究選擇2018年9月8日的哈爾濱市夜間燈光數(shù)據(jù)作為人類活動(dòng)指標(biāo),空間分辨率為130 m,是目前可獲取的最新數(shù)據(jù)。由于2018—2019年間城市土地利用變化不大,因此選擇此數(shù)據(jù)。對夜間燈光數(shù)據(jù)進(jìn)行特征提取并進(jìn)行重采樣至10 m,參與哈爾濱城市土地利用分類。
圖3為研究中使用的主要方法: ①用OSM獲取的路網(wǎng)數(shù)據(jù)生成城市地塊; ②對Sentinel-2A數(shù)據(jù)、POI數(shù)據(jù)和夜間燈光數(shù)據(jù)進(jìn)行特征提??; ③通過Google Earth和實(shí)地測量采集訓(xùn)練樣本和驗(yàn)證樣本; ④進(jìn)行哈爾濱市制圖和分類精度評估,分析不同特征組合對分類結(jié)果的影響。
圖3 研究方法流程
遙感影像多尺度分割的結(jié)果直接影響用地分類結(jié)果的好壞[26-27]。因此,確定最優(yōu)分割尺度對城市土地利用類型的確定是至關(guān)重要的。對于一種特定的土地利用類型,最優(yōu)分割尺度應(yīng)能夠較好地顯示地物的邊界,不能出現(xiàn)過于破碎或模糊的現(xiàn)象[28]。Woodcock等[29]最先利用布局方差對影像進(jìn)行多尺度分割,得到的結(jié)果精度較好。因此,選擇局部方差法對研究區(qū)進(jìn)行最優(yōu)尺度分割。計(jì)算公式為:
(1)
(a) 分割尺度為50(b) 分割尺度為100(c) 分割尺度為180
表3是對數(shù)據(jù)提取的特征,分別對光譜、紋理、POI數(shù)據(jù)、珞珈一號夜間燈光數(shù)據(jù)進(jìn)行特征提取。根據(jù)Sentinel-2A波段和典型光譜指數(shù)計(jì)算光譜特征; 通過灰度共生矩陣計(jì)算紋理特征; 計(jì)算POI總數(shù)、二級地類POI個(gè)數(shù)及比例; 計(jì)算夜間燈光數(shù)據(jù)的像元亮度DN平均值和DN總和。
表3 地塊特征匯總
隨機(jī)森林是2001年由Breiman提出的一種機(jī)器學(xué)習(xí)算法,結(jié)合Bagging集成學(xué)習(xí)理論和隨機(jī)子空間的方法,由多顆決策樹分類器構(gòu)成[30]。隨機(jī)森林的訓(xùn)練流程如圖5所示。首先,通過隨機(jī)重采樣的方式從原始訓(xùn)練樣本中有放回的隨機(jī)抽取N個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集數(shù)量約為原始數(shù)據(jù)集的2/3; 其次,將每個(gè)訓(xùn)練集建立分類決策樹,產(chǎn)生N棵CART決策樹組成的森林。根據(jù)基尼系數(shù)最小原則選出最優(yōu)內(nèi)部節(jié)點(diǎn)分支; 最后,采用集成學(xué)習(xí)理論將N棵決策樹的預(yù)測結(jié)果進(jìn)行統(tǒng)計(jì),通過投票結(jié)果判定未分類樣本的類別,分類結(jié)果由多數(shù)決策樹投票結(jié)果決定。在抽取樣本時(shí)約有1/3的數(shù)據(jù)沒有抽中,利用這1/3的數(shù)據(jù)進(jìn)行內(nèi)部誤差估計(jì),產(chǎn)生袋外(out-of-bag)數(shù)據(jù)誤差。
圖5 隨機(jī)森林原理流程
本研究以地塊為分類單元,隨機(jī)森林算法通過eCognition Developer 9平臺實(shí)現(xiàn)。通過實(shí)驗(yàn)得出,當(dāng)N≥100時(shí),各個(gè)地物類型的袋外誤差趨于穩(wěn)定。
利用驗(yàn)證樣本對隨機(jī)森林分類精度進(jìn)行驗(yàn)證,采用混淆矩陣對城市土地利用分類精度進(jìn)行評價(jià)。評價(jià)指標(biāo)包括生產(chǎn)者精度、用戶精度、總體精度及Kappa系數(shù),表達(dá)式分別為:
PA=Pjj/P+j,
(2)
UA=Pii/Pi+,
(3)
OA=(Pk1+Pk2+···+Pkn)/P,
(4)
(5)
式中:PA為生產(chǎn)者精度;Pjj為類型中第j類和實(shí)測數(shù)據(jù)類型第j類所占的組成成分;P+j為實(shí)際觀測的第j類的總和;UA為用戶精度;Pii為類型中第i類和實(shí)測數(shù)據(jù)類型第i類所占的組成成分;Pi+為分類得到的第i類總和;OA為總體精度;Pk1,Pk2,…,Pkn為實(shí)測數(shù)據(jù)類型中第k類所占的組成成分;P為總樣本數(shù);P+i為實(shí)際觀測的第i類的總和。
表4為一級地類精度的混淆矩陣,利用總體精度和Kappa系數(shù)來判定地類精度。一級地類總體精度為86.0%,Kappa系數(shù)為0.75; 二級地類總體精度為73.9%,Kappa系數(shù)為0.69。其中,商業(yè)用地用戶者精度為95.1%,公園與綠地用戶者精度為97.1%; 機(jī)關(guān)團(tuán)體用地和醫(yī)療衛(wèi)生用地分類精度較低,前者用戶者精度為15.7%,后者用戶者精度為11.1%。
表4 一級地類精度混淆矩陣
通過OSM數(shù)據(jù)對哈爾濱市路網(wǎng)數(shù)據(jù)進(jìn)行提取,利用多尺度分割將Sentinel-2A遙感衛(wèi)星影像分割為地塊。對POI數(shù)據(jù)進(jìn)行篩選和重分類,將夜間燈光數(shù)據(jù)進(jìn)行特征提取,利用隨機(jī)森林分類方法對研究區(qū)進(jìn)行分類,結(jié)果如圖6所示。
圖6 城市土地利用分類結(jié)果
圖7為二級地類在不同特征組合下參與土地利用分類的生產(chǎn)者精度及用戶精度??梢钥闯?,不同數(shù)據(jù)組合參與土地利用分類的精度不同。當(dāng)采樣地塊參與土地利用分類時(shí),公園與綠地的生產(chǎn)者精度和用戶精度最高,分別為95.5%和64.6%。相比加入POI數(shù)據(jù)和夜間燈光數(shù)據(jù)后精度的提高并不顯著。說明對公園與綠地的識別主要依賴于遙感光譜特征和紋理特征。圖7中,與(a)相比,(b)和(c)中商務(wù)辦公用地和商業(yè)用地精度顯著提高,但夜間燈光數(shù)據(jù)對商服用地精度的提升幅度更大; (b)中教育用地的精度高于(a)中的精度,說明POI數(shù)據(jù)可以提高教育用地的精度,其生產(chǎn)者精度為71.4%,用戶精度為62.5%; (c)中夜間燈光數(shù)據(jù)對住宅用地的分類精度略有提高,但沒有(b)中提高幅度大,表明POI數(shù)據(jù)可以改善對住宅用地分類精度,但程度有限; (a)中工礦倉儲用地精度較低,(b)中工礦倉儲用地精度有顯著提高,說明工礦倉儲用地更適合用POI數(shù)據(jù)參與分類。在所有試驗(yàn)中,機(jī)關(guān)團(tuán)體用地和醫(yī)療衛(wèi)生用地精度均較低,POI數(shù)據(jù)和夜間燈光數(shù)據(jù)對機(jī)關(guān)團(tuán)體用地和醫(yī)療衛(wèi)生用地精度提升改善程度有限。同(a)相比,(b)中體育和文化設(shè)施用地精度有所提升,說明POI數(shù)據(jù)可以提高體育和文化設(shè)施用地的精度,但是并未達(dá)到良好效果。遙感影像數(shù)據(jù)的光譜特征、紋理特征、POI數(shù)據(jù)和夜間燈光數(shù)據(jù)可以有效提高城市土地利用分類精度。單獨(dú)使用采樣地塊數(shù)據(jù)參與分類時(shí),城市土地利用分類精度較低; 當(dāng)使用采樣地塊和POI數(shù)據(jù)時(shí),可以較好地提高住宅用地、工礦倉儲用地和教育用地精度; 當(dāng)使用采樣地塊和夜間燈光數(shù)據(jù)時(shí),對商務(wù)辦公用地和商業(yè)用地精度提升較大; 將全部特征參與分類時(shí),分類結(jié)果的精度最高,即為分類的最佳組合。這表明綜合使用多源特征可以改善城市土地利用分類的精度,光譜特征、紋理特征、POI數(shù)據(jù)和夜間燈光數(shù)據(jù)可以顯著提升某些地塊類型的準(zhǔn)確性,但是綜合運(yùn)用可以有效提升所有地物類型的準(zhǔn)確性。
(a) 采樣地塊(b) 采樣地塊-POI
(c) 采樣地塊-夜間燈光數(shù)據(jù)(d) 采樣地塊-POI-夜間燈光數(shù)據(jù)
圖7 基于不同特征組合的生產(chǎn)者精度和用戶精度(二級地類)
本文以哈爾濱市市區(qū)為研究區(qū),結(jié)合OSM數(shù)據(jù)將地塊劃分為基本分類單元,基于Sentinel-2A遙感影像、POI數(shù)據(jù)和夜間燈光數(shù)據(jù)等,采用隨機(jī)森林分類方法對研究區(qū)進(jìn)行城市土地信息提取,得到如下結(jié)論:
1)一級地類總體分類精度為86.0%,Kappa系數(shù)為0.75; 二級地類總體精度為73.9%,Kappa系數(shù)為0.69。
2)遙感影像、多源地理空間數(shù)據(jù)及網(wǎng)絡(luò)數(shù)據(jù)相結(jié)合能夠有效提高分類精度,有利于提高城市土地利用分類效果。
3)POI數(shù)據(jù)可以顯著提高住宅用地、工礦倉儲用地和教育用地分類精度; 夜間燈光數(shù)據(jù)能夠有效提高商務(wù)辦公用地及商業(yè)用地分類精度。
相較于2018年中國基本城市土地利用分類,本文分類精度有較高的提升。文章選取訓(xùn)練樣本的混合度更低,提高了訓(xùn)練樣本的純度和數(shù)量; 利用更詳細(xì)的路網(wǎng)數(shù)據(jù)對地塊進(jìn)行分割,并且選取訓(xùn)練樣本數(shù)據(jù)時(shí)盡可能在空間分布上均勻分布。盡管上述方法對于研究區(qū)能夠得到較好的分類結(jié)果,同時(shí)也存在局限性。城市土地內(nèi)部結(jié)構(gòu)復(fù)雜多樣,實(shí)際土地利用大多為混合地塊,無法精確保證每個(gè)地塊均為單一類型。同時(shí)城市的快速發(fā)展使城市三維空間利用率增加,一幢建筑中不同高度的建筑用地不是單一用地類型,僅用路網(wǎng)數(shù)據(jù)很難對其進(jìn)行精確有效的劃分。POI數(shù)據(jù)和夜間燈光數(shù)據(jù)可以有效提高分類精度,但是并不適合所有用地類型,造成城市土地利用分類精度差異性。在對城市土地利用類型進(jìn)行分類過程中,應(yīng)更進(jìn)一步對地塊進(jìn)行精準(zhǔn)劃分,路網(wǎng)數(shù)據(jù)可以有效對地塊進(jìn)行劃分,但是并不能完全將不同類型的地塊劃分出來。要進(jìn)一步優(yōu)化地塊分割的過程,盡量減少有多種土地利用類型的地塊,根據(jù)不同土地利用類型的特征使用不同尺度參數(shù)的分割。此外,對于具有多種利用類型的地塊,根據(jù)不同高度或面積來有針對性地權(quán)衡POI數(shù)據(jù)對分類結(jié)果的影響,盡可能將不同土地利用類型進(jìn)行細(xì)化區(qū)分。