摘要:為了快速準確識別城市邊緣地區(qū)閑置土地,文章基于高分2號遙感影像提出了一種融合場景解譯與面向對象分割的方法,用于識別城市邊緣區(qū)域的閑置土地。文章引入四叉樹分割方法制作了多尺度場景解譯標簽;選取性能優(yōu)越的Vision Transformer模型作為提取工具,進行訓練以得到解譯模型;將該解譯模型應用于經(jīng)過面向對象分割處理后的影像對象進行場景分類。實驗結果表明,相比傳統(tǒng)方法,該方法在閑置土地識別方面取得了顯著提升。
關鍵詞:城市邊緣區(qū)域閑置地;場景解譯;面向對象分割;遙感影像;深度學習
中圖分類號:P258文獻標志碼:" A
0引言
經(jīng)過城市化高速發(fā)展,我國現(xiàn)階段約2/3的城市仍處于快速擴張的階段。這種提升城市化水平的趨勢一方面促進了社會經(jīng)濟的迅猛增長,但同時也帶來了城市閑置土地問題,對社會生活和生態(tài)環(huán)境造成了嚴重影響。因此,準確獲取城市邊緣地區(qū)閑置土地的空間分布與變化信息對于制定有效的土地決策具有重要意義。目前,關于閑置土地在數(shù)量、面積和空間分布等方面的情況主要通過結合影像目視解譯和實地查證方法進行調查,然而這種方法耗時費力 [1]。近年來,隨著遙感數(shù)據(jù)在空間、時間和光譜分辨率等方面不斷提升,已有基于衛(wèi)星遙感影像開展閑置土地提取的研究[2-3]。在人工智能技術不斷發(fā)展下,遙感影像解譯技術自動化程度逐漸提高,并廣泛應用于國土資源與環(huán)境監(jiān)測、農(nóng)作物監(jiān)測與估產(chǎn)、森林碳匯估算以及國防安全等領域[4-6]。因此,在當前條件下利用先進的遙感智能解譯技術快速準確識別城市邊緣地區(qū)閑置土地可行且具有意義。
遙感智能解譯方法可分為兩類:基于像素和面向對象?;谙袼氐姆椒ㄌ幚磉^程較慢且難以解決椒鹽噪聲問題。而面向對象的方法首先將圖像分割成“同質均一”的對象,再利用形狀、光譜、空間紋理等特征進行分類。該方法具有較好的完整性,但存在地物混分現(xiàn)象,并且常用的分類算法智能化程度相對較低,如隨機森林需要人工設置特征參數(shù),支持向量機分類算法則需選取合適的核參數(shù)。
隨著人工智能技術的不斷發(fā)展,深度學習技術已廣泛應用于遙感圖像的語義分割和場景解譯。語義分割主要通過端到端的像素級分類來對圖像目標進行精準劃分;而場景解譯則致力于從多幅影像中區(qū)別出具有相似場景特征的圖像,并對其進行準確分類。在深度學習技術中,卷積神經(jīng)網(wǎng)絡(CNN)是最常用的圖像特征提取方法,如VGGNet[7]、ResNet [8]和 GoogLeNet [9] 等網(wǎng)絡模型。然而,由于卷積操作受限于局部感受野,在全面理解圖像本身并充分利用上下文信息方面存在局限性。近年來,國內(nèi)外學者開始嘗試將自然語言處理領域中的Transformer模型應用于圖像處理領域。Transformer模型具備自注意力機制,不受局部相互作用的限制,能夠挖掘長距離依賴關系以及實現(xiàn)并行計算。此外,它還可以根據(jù)不同任務目標學習最合適的歸納偏置,在多個視覺任務中取得了顯著效果[10]。Dosovitskiy等[11]在原生的 Transformer 架構上進行了改進,提出基于視覺任務的 Vision Transformer (ViT) 。ViT 將輸入的圖像劃分成固定大小的特征塊,經(jīng)過線性變換后得到特征序列,然后對特征序列進行多頭自注意力運算,既能充分獲得長距離的特征依賴,同時也降低了運算量,被廣泛應用于目標檢測等任務。
場景解譯的基本單元為對象塊,裁切規(guī)則下的圖像中常存在多種地物特征,從而導致分類精度降低和類別邊界不準確等問題。此外,面向對象分類算法智能化程度有限、語義分割中存在椒鹽噪聲且運行速度無法滿足實時性要求。因此,本文研究了一種融合場景解譯與面向對象分割的方法,以精準識別城市邊緣區(qū)域閑置地。
1數(shù)據(jù)與研究區(qū)
本文研究區(qū)選擇南京市棲霞區(qū)。棲霞區(qū)位于南京市東部,地處長江下游,地理位置優(yōu)越,交通網(wǎng)絡發(fā)達,不僅是長江流域的重要物流樞紐,也是連接長三角地區(qū)的重要通道。研究區(qū)是以科技教育、航運物流、醫(yī)藥電子、風景名勝、機械制造為主要職能的現(xiàn)代化江濱區(qū),總面積約395.44平方千米。
在研究區(qū)域內(nèi),從綠色基礎設施的角度,本文將閑置地劃分為四大類別:自然閑置地、基礎設施閑置地、工業(yè)棕地和建設廢棄地。這些分類旨在更好地理解不同類型的閑置地的特點和潛力,從而為城市規(guī)劃和土地利用提供科學依據(jù)。
2原理與方法
2.1原理
2.1.1自注意力機制
Transformer中使用的注意力是歸一化的點乘注意力。自注意力機制的原理如圖1所示,對于每一個輸入向量a,經(jīng)過self-attention之后都對應輸出一個向量b,此時的向量b考慮了所有的輸入向量對ai產(chǎn)生的影響。對于輸入向量a,同時定義3個權重矩陣Wq,Wk,Wv,通過矩陣計算(Q=XWq,K=XWk,K=XWk)得到3個向量Q、K、V。首先計算Q和每個K的點積操作計算權值矩陣。為了防止內(nèi)積太大造成梯度求導困難,將權值矩陣除以dk,然后使用Softmax函數(shù)進行歸一化,計算相似注意力分數(shù)權重,最后將權重結果和K做點積,即得到Q的權重分布。計算如式(1)所示:
2.1.2四叉樹影像分割
影像四叉樹分割算法的基本思想是將原始影像通過計算正方形內(nèi)部顏色差異分成大小不等的若干方塊,其原理如圖2所示。首先,判斷每個方塊是否滿足一致性測度,如果滿足就不再繼續(xù)分裂,如果不滿足就再分成4個方塊,并對得到的方塊繼續(xù)應用一致性檢驗,迭代直到所有的影像塊都滿足一致性測度。基于四叉樹的圖像分割算法具備分割速度較快、分割過程全自動等優(yōu)勢,且分割后同質性高的圖像可直接用于深度模型圖像的預測。
2.2研究方法
城市邊緣區(qū)域閑置地具有多樣的特征和復雜的結構,給提取帶來較大的挑戰(zhàn)。如圖3所示,本文總結了閑置地轉換規(guī)律,即閑置地從遙感影像上識別整體上表現(xiàn)為裸土地和草地等特征,或者為兩種特征的綜合。對于T1時刻、T2時刻和T3時刻來說,裸土地和草地之間通常會相互轉換,嚴重干擾提取精度。基于此分析,在制作樣本時,可通過以上兩種地類的綜合特征進行樣本選取。
傳統(tǒng)圖像處理方法主要將圖像按照同質性區(qū)域進行分類,導致提取精度不盡如人意。為此,本文首先制作了多尺度樣本,并利用基于自注意力機制的深度學習場景分類模型進行閑置地模型訓練與識別。使用該模型對四叉樹影像分割對象進行閑置地預測,并通過GIS空間分析方法改進地物提取精度,總體技術路線如圖4所示。
3實驗與分析
3.1多尺度樣本制作
將包含閑置地的影像數(shù)據(jù)裁剪為64×64、128×128和256×256像素的規(guī)則影像瓦片,裁剪過程如圖7所示。之后,再采用目視解譯的方法從一系列影像瓦片數(shù)據(jù)集中挑選出閑置地場景作為正樣本,不包含閑置地場景的作為負樣本。為了一定程度上提高模型的泛化性能,挑選的正樣本的影像特征全要素都是閑置地,負樣本包含大量非閑置地的多種類別,如建筑、林地、道路、水域等。同時,考慮數(shù)據(jù)集中正負樣本類別平衡對于監(jiān)督學習的重要性,本文最終使用的正負樣本數(shù)目大致相等,正樣本和負樣本分別為1931個和1771個。
3.2實驗結果分析
基于多尺度樣本集,利用自注意力機制的深度學習場景分類模型Vision Transformer(ViT)進行閑置地識別的模型訓練,并對四叉樹分割和規(guī)則裁切的影像進行預測,得到研究區(qū)閑置地識別結果,如圖5所示。利用深度學習場景分類模型對規(guī)則裁切的數(shù)據(jù)集進行預測的結果如圖5(a)所示,對四叉樹分割對象進行預測的結果如圖5(b)所示,利用隨機森林算法提取的結果如圖5(c)所示??梢钥闯?,圖5(a)的缺點為邊界太粗,圖5(c)的缺點為漏提與錯提現(xiàn)象較多,當閑置地為非黃色裸土的出現(xiàn)漏提現(xiàn)象,一些屋頂與裸土特征類似,因此出現(xiàn)錯提;而圖5(b)的邊界較圖5(a)細致很多且錯漏現(xiàn)象被大大的減少。如表1所示,經(jīng)過改進的ViT模型在提取精度方面表現(xiàn)較差,僅為83.28%;相比之下,隨機森林算法的精度比ViT提升了0.82%,這可能是由于研究區(qū)范圍大小對結果產(chǎn)生影響;而本文所采用的方法達到了最高精度,整體準確率(OA)達到了89.13%,尤其適用于閑置地的提取。綜上所述,本文方法在閑置地提取方面表現(xiàn)優(yōu)異,具有高效、準確、魯棒等優(yōu)點。該方法可以作為一種有效的工具來幫助土地管理人員和決策者快速準確地提取閑置地,從而更好地管理和利用土地資源。
4結論
由于城市邊緣區(qū)域存在多種類型的閑置地,包括自然閑置地、基礎設施閑置地、工業(yè)廢棄地和建設廢棄地等。同時,遙感影像特征復雜,目前利用深度學習語義分割和面向對象分類方法在解譯精度上仍有待提高。本文提出了一種融合深度學習的場景解譯與面向對象分割方法,以實現(xiàn)對城市邊緣區(qū)域閑置地的準確提取。通過試驗分析得出以下結論:(1)自注意力模型在處理特征復雜的閑置地時表現(xiàn)良好。(2)將場景解譯和面向對象方法相結合可以平衡對閑置地邊界細致度和準確率之間的要求。當然,本文所提出的方法還存在不足之處。例如,在面向對象分割過程中可能會忽略小尺寸物體。因此,仍需進一步研究更優(yōu)化的策略,以提高分割的精度和效果,更好地滿足城市邊緣區(qū)域閑置地提取的實際需求。
參考文獻
[1]褚晨暉.南京市主城區(qū)閑置土地分布及植物多樣性研究[D].南京:南京農(nóng)業(yè)大學,2020.
[2]尹峰,余海,李智峰,等.GF-1、GF-2號衛(wèi)星影像在閑置土地監(jiān)測中的應用[J].地理空間信息,2016(10):29-32.
[3]沈鳳嬌,余曉敏,祁玉杰.基于衛(wèi)星遙感影像的閑置土地提取與核查研究[J].國土資源信息化,2021(6):48-53.
[4]夏列鋼,駱劍承,王衛(wèi)紅,等.遙感信息圖譜支持的土地覆蓋自動分類[J].遙感學報,2014(4):788-803.
[5]李道紀,郭海濤,盧俊,等.遙感影像地物分類多注意力融和U型網(wǎng)絡法[J].測繪學報,2020(8):1051-1064.
[6]王勝利,張連蓬,朱壽紅,等.多共性特征聯(lián)合的Landsat 8 OLI遙感影像光伏電站提取[J].測繪通報,2018(11):46-52.
[7]查鴻偉,李浩,朱益虎,等.利用邊緣輔助分割網(wǎng)絡提取稻蝦共作養(yǎng)殖田[J].農(nóng)業(yè)工程學報,2023(19):154-164.
[8] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition, Washington: IEEE Computer Society, 2015.
[9]HE K M, ZHANG X Y, REN S Q, et al. Deep residuallearning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition,Washington: IEEE Computer Society,2016.
[10]WANG S, ZHU Y, ZHENG N,et al. Change detection based on existing vector polygons and up-to-date images using an attention-based multi-scale convtransformer network[J].Remote Sensing, 2024 (10):1736.
[11]BAZI Y, BASHMAL L, RAHHAL M M A, et al. Vision transformers for remote sensing image classification [J].Remote Sensing, 2021(3):516.
Method combining scene interpretation and object-oriented segmentation to
accurately identify idle land in urban fringe areasXIE Qiang
(Jiangsu Geologic Surveying and Institute, Nanjing 211102, China)Abstract:nbsp; The present study proposes a method based on Gaofen-2 remote sensing image data to efficiently and accurately identify idle land in the urban fringe by integrating scene interpretation and object-oriented segmentation. Initially, the quadtree segmentation technique is employed to generate multi-scale scene interpretation labels. Subsequently, the superior Vision Transformer model is selected as the extraction tool for training purposes to acquire an interpretation model. Finally, this interpretation model is applied to object-oriented image objects after undergoing object segmentation for scene classification. Experimental results demonstrate that compared with conventional approaches, this method exhibits significant advancements in identifying idle land.
Key words: idle land in urban fringe areas; scene interpretation; object-oriented segmentation; remote sensing image; deep learning