袁歡歡, 隋立春, 徐家利, 李彥東, 李冠宇
(長安大學地質(zhì)工程與測繪學院, 西安 710061)
道路作為交通網(wǎng)絡(luò)的主要組成部分,也是重要的基礎(chǔ)地理信息,在智能交通、物流配送、資源環(huán)境等方面起著關(guān)鍵作用。目前遙感影像道路提取方法很多依賴人工操作,自動化程度低,因而如何從影像上快速高效獲取準確的道路成為研究重點。
目前道路提取的算法主要有以下幾類[1]:第一類是基于像素層次的道路提取,該類算法是在提取像素特征如光譜特征的基礎(chǔ)上,根據(jù)分類規(guī)則依次判別像素點是否劃分為道路,獲得道路提取結(jié)果。洪紹軒等[2]提出融合模糊C均值聚類(fuzzyC-means, FCM)與支持向量機(support vector machine,SVM)的提取算法,提高道路提取的完整度;Shi等[3]提出SVM結(jié)合光譜與空間特征的算法提取道路區(qū)域,減少錯誤提取的道路像元數(shù)目。第二類為基于對象層次的提取算法,采用分割算法將影像分成不同的對象,結(jié)合對象的光譜特征、形狀特征、紋理特征、語義特征等選取最優(yōu)特征組合,提取道路信息。周家香等[4]使用Mean-shift算法分割影像,引入形狀因子去除干擾區(qū)域,實現(xiàn)城區(qū)道路網(wǎng)的提取;曹云剛等[5]在多尺度分割基礎(chǔ)上決策融合像素級與對象級特征,采用SVM對特征分類提取道路,減少粘連現(xiàn)象。第三類為基于知識層次的道路提取,綜合學習已給定的先驗知識或利用卷積神經(jīng)網(wǎng)絡(luò)自主學習的知識提取道路。Poullis等[1]融合感知編組理論提出了自動化檢測特征、分類、提取復雜道路網(wǎng)的框架,對于衛(wèi)星影像與激光雷達數(shù)據(jù)均有較好的道路提取效果;Buslaev等[6]提出以基于預訓練的ResNet-34網(wǎng)絡(luò)為編碼器、U-Net網(wǎng)絡(luò)為解碼器的卷積神經(jīng)網(wǎng)絡(luò),設(shè)計混合損失函數(shù),穩(wěn)健而準確地提取影像道路。
現(xiàn)有較高精度的道路提取算法大多屬于監(jiān)督學習,需要大量帶有標簽的樣本進行訓練,但實際應用中難以人工標注大規(guī)模的道路樣本集。因此現(xiàn)提出一種基于自適應標注樣本的高分辨率遙感影像道路提取算法,利用基于馬氏距離的模糊C均值聚類算法進行初步道路分類,根據(jù)分類結(jié)果標注樣本;利用基于二次投票的集成去噪算法定位標簽錯誤的噪聲樣本,更新樣本數(shù)據(jù)集;利用隨機森林訓練更新的樣本集,獲得道路提取結(jié)果;最后采用多方向形態(tài)學濾波,去除非道路區(qū)域,得到最終提取道路的二值圖像。
本文算法流程如圖1所示。
模糊C均值聚類算法是通過求解最小目標函數(shù),得到像元對不同類別的隸屬度,從而實現(xiàn)聚類的一種非監(jiān)督聚類算法[7-8]。
假設(shè)X={x1,x2,…,xn}是影像像元的灰度值集合,且影像共有c個類別,則影像的模糊集合表示為A={[μA(xi),xi]|xi∈A}。
隸屬函數(shù)J(U,C)表示為
(1)
式(1)中:dij(ci,xj)=‖ci-xj‖;U為隸屬度矩陣;C為聚類中心;m表示模糊程度,一般取值為2。
傳統(tǒng)的FCM算法采用歐氏距離計算目標函數(shù),這一準則成立的前提是數(shù)據(jù)在特征空間中不相關(guān),各簇具有相同的超球形結(jié)構(gòu)。實際影像聚類中不滿足該條件,傳統(tǒng)FCM算法聚類效果不佳。歐式距離計算樣本間的距離,而馬氏距離計算樣本與分布總體的距離,能夠克服歐氏距離的缺點,并且在高維特征數(shù)據(jù)有著計算優(yōu)勢。因此采取基于馬氏距離的FCM算法提取道路。
馬氏距離計算公式為
(2)
式(2)中:Σ為協(xié)方差矩陣。
此時隸屬函數(shù)調(diào)整為
(3)
約束條件為
(4)
基于馬氏距離的FCM算法的樣本標注首先輸入待標注影像,設(shè)置各參數(shù),初始化聚類中心與隸屬度矩陣,通過迭代計算馬氏距離更新隸屬度矩陣,繼而更新聚類中心,直至前后兩次誤差小于閾值,結(jié)束算法。該算法具體實現(xiàn)過程如表1所示。
圖1 道路自動提取方法流程Fig.1 The process flow of the proposed approach for automatic extraction of road
表1 改進FCM算法實現(xiàn)過程Table 1 The process of the improved FCM algorithm
樣本的類別標簽來源于上述改進FCM算法的標注,不可避免地存在特征數(shù)據(jù)與類別標簽不一致的情況,此類樣本即為標簽噪聲樣本。標簽噪聲樣本對于分類器的決策會產(chǎn)生較大偏差,造成提取道路中包含較多錯誤分類的像元。
針對標簽噪聲的問題,處理方法主要有兩種,一類是利用模型對標簽噪聲魯棒的特性降低噪聲干擾[9],另一類是建立模型檢測并剔除標簽噪聲[10]。設(shè)計了基于二次投票的集成去噪算法,首先通過K折交叉驗證的方式多次劃分數(shù)據(jù)集,即每個數(shù)據(jù)集下輪流選擇1份數(shù)據(jù)作為測試集,其余K-1份數(shù)據(jù)作為訓練集。然后分別對每一數(shù)據(jù)集采用訓練樣本集建立隨機森林模型,按照多數(shù)投票的方式得到測試集的噪聲樣本。最后對所有數(shù)據(jù)集預測的噪聲樣本二次投票,去除誤分類的正確標簽樣本,獲得最終的噪聲樣本集。
樣本去噪算法的主要步驟如下。
步驟1數(shù)據(jù)準備。原圖像與標簽圖像構(gòu)成樣本數(shù)據(jù)集,采取K折交叉驗證方法對數(shù)據(jù)集多次隨機劃分成m個不同的數(shù)據(jù)塊,每個數(shù)據(jù)塊劃分為訓練集與測試集。
步驟2定位標簽噪聲樣本。對于任一數(shù)據(jù)塊,首先將訓練集投入隨機森林訓練得到n個決策樹。然后對于測試集的每個樣本進行統(tǒng)計,如果超過半數(shù)的決策樹未能正確分類該樣本,將此樣本加入噪聲樣本集。
步驟3二次投票表決噪聲樣本。m個數(shù)據(jù)塊決策出m個噪聲樣本集,采取一致投票方法獲得交集,即為最終的標簽噪聲樣本集。在之后提取道路的算法中不參與模型訓練。
本文算法剔除噪聲樣本的效果如圖2所示,經(jīng)本文算法去除噪聲后,在不同噪聲比例下,訓練樣本集的標簽正確率均得到明顯提高。
圖2 不同噪聲比例下的去噪效果Fig.2 Noise cleaning results with different mislabeled ratios
隨機森林算法是以決策樹為基分類器的一種集成學習算法,并且引入隨機屬性擾動,降低過擬合風險,噪聲容忍度高,性能優(yōu)異[11-12]。隨機森林提取道路區(qū)域的主要步驟為。
步驟1首先采用 bootstrap有放回重抽樣方法得到n個訓練樣本子集,每次未被抽取的樣本作為袋外樣本。本算法中訓練集為經(jīng)過樣本標簽噪聲檢測后的數(shù)據(jù)集。
步驟2設(shè)置參數(shù),建立T棵決策樹模型。每棵決策樹的根節(jié)點包含所有訓練樣本,從根節(jié)點根據(jù)基尼系數(shù)G進行一系列屬性判別測試,最后葉節(jié)點儲存決策結(jié)果?;嵯禂?shù)計算公式為
(5)
式(5)中:D為樣本集合;c為數(shù)據(jù)集中包含類別數(shù)目;pk為D中第k類樣本所占比例。
步驟3T棵決策樹組成隨機森林,將測試集輸入模型中,每棵樹預測出樣本的分類結(jié)果,進行多數(shù)投票,票數(shù)最高者為樣本的類別屬性。
步驟4輸出道路二值圖像。
其中,決策樹數(shù)量T極大影響隨機森林的分類性能,如圖3所示。當T較小時,隨機森林的袋外分類(out-of-bag,OOB)誤差明顯較大;當T逐漸增大時,袋外分類誤差明顯降低,但運算效率同樣降低。選擇決策樹數(shù)量T,必須兼顧提取精度與運算效率,因此在袋外分類誤差趨于穩(wěn)定時,需要選擇較小的決策樹數(shù)量節(jié)省計算開銷。
圖3 參數(shù)T對分類誤差的影響Fig.3 The influence of parameter T on classification error
高分辨率影像空間分辨率增大造成同物異譜現(xiàn)象增加,道路提取結(jié)果易受車輛、陰影、建筑物、空地等干擾,路面出現(xiàn)孔洞、粘連等現(xiàn)象,道路邊緣的平行性遭到破壞,提取的道路結(jié)果目視效果較差。
數(shù)學形態(tài)學是數(shù)學與拓撲學的有機結(jié)合,將圖像處理的復雜操作轉(zhuǎn)換為簡單的集合運算。其基本思想是借助帶有對象某種特征的結(jié)構(gòu)元素進行影像中特定目標的識別與檢測。數(shù)學形態(tài)學中的膨脹、腐蝕及其組合運算可以有效填充孔洞、去除毛刺、消除孤立噪聲,但普通結(jié)構(gòu)元素的形態(tài)學運算無法區(qū)分建筑物等其他地物與道路混疊的區(qū)域。在高分辨率遙感影像中,道路呈現(xiàn)細長且有一定像素寬度的長條狀,具有方向性。因此可以構(gòu)造一種具有明顯道路特征的多方向形態(tài)學濾波[13],將道路從粘連區(qū)域中獨立出來。
結(jié)構(gòu)元素EL,αi表達式為
(6)
式(6)中:αi為方向角;L為結(jié)構(gòu)元素的長度。
利用該結(jié)構(gòu)元素對道路二值圖像進行開運算,提取道路區(qū)域。
多方向結(jié)構(gòu)元素顯示如圖4(a)所示,圖4(b)與圖4(c)為道路片段利用該結(jié)構(gòu)元素形態(tài)學濾波去除非道路區(qū)域的作用效果。
圖4 多方向形態(tài)學濾波結(jié)果Fig.4 Multi-direction morphological filtering results
算法試驗環(huán)境為Intel(R) Core(TM) i7-9750H CPU、8 GB內(nèi)存、Win10系統(tǒng),在MATLAB 2019b平臺實現(xiàn),共設(shè)計了3組實驗,從不同方法、不同分辨率、不同道路類型進行對比道路提取效果,驗證本文算法的有效性。
道路提取算法的精度評價從定性和定量兩個角度出發(fā),定性評價主要是從目視效果上對比道路提取是否完整、是否存在毛刺、孔洞等;而定量評價采用完整率(completeness,Com)、正確率(correctness,Cor)、檢測質(zhì)量(quality,Q)等指標綜合評價道路提取效果[14]。具體指標計算公式為
(8)
(9)
(10)
式中:TP為正確提取的道路像元個數(shù);FN為未提取出的道路像元個數(shù);FP為錯誤提取的道路像元個數(shù)。
試驗數(shù)據(jù)選取Massachusetts Roads Dataset[15]與預處理后的ZY-3衛(wèi)星影像數(shù)據(jù)。前者參考道路圖像來源于數(shù)據(jù)集的標記圖像,后者為人工目視解譯結(jié)果。試驗數(shù)據(jù)相關(guān)信息如表2所示。
表2 3組試驗數(shù)據(jù)信息Table 2 Three experimental datasets
通過與文獻[2-4]中算法對比,3組實驗結(jié)果分別如圖5~圖7所示,各方法精度評價如表3所示。
試驗1數(shù)據(jù)區(qū)域為包含簡單直線道路的城鎮(zhèn)區(qū)域,地物類型包括道路、建筑物及少量植被。由圖5中的提取結(jié)果可以看出,幾種算法都可以較為完整地提取道路。但文獻[2]提取道路存在較多的斷裂,毛刺現(xiàn)象突出;面向?qū)ο蟮奈墨I[4]方法提取出的道路存在少量的粘連現(xiàn)象,道路與部分空地未分離開;本文算法提取結(jié)果的視覺效果較好,基本上將全部道路提取完整,從定量角度看,本文算法與其他兩種算法相比,完整率、正確率、提取質(zhì)量上均最優(yōu)。
試驗2區(qū)域由曲率較大的道路組成,道路標志線與部分土地植被光譜特征相似,提取難度增加。由圖6可知,相較文獻[2]與文獻[4]算法,本文算法對于城郊曲線型道路提取效果較好,提取結(jié)果光滑流暢,基本保持道路邊緣的平行性,而且提取道路較為完整,正確率及提取質(zhì)量高于其他兩種算法。
試驗3數(shù)據(jù)為ZY-3號衛(wèi)星數(shù)據(jù),分辨率較航空影像有所降低,場景較為復雜,存在較多建筑物遮擋,部分陰影下的道路區(qū)域光譜特征不明顯,幾種算法整體上提取結(jié)果較差。本文算法相較其他算法較為完整地提取出主要道路,但未能準確提取出陰影下的道路區(qū)域,造成道路上的斷裂、遺漏等。道路提取的完整率、正確率與提取質(zhì)量數(shù)值相對較高,優(yōu)于其他算法,但與試驗1與試驗2中的結(jié)果相比,提取效果較差。
圖5 試驗數(shù)據(jù)1不同方法道路提取結(jié)果Fig.5 The road extraction results by different methods of data1
圖6 試驗數(shù)據(jù)2不同方法道路提取結(jié)果Fig.6 The road extraction results by different methods of data2
圖7 試驗數(shù)據(jù)3不同方法道路提取結(jié)果Fig.7 The road extraction results by different methods of data3
表3 不同算法提取精度Table 3 Extraction accuracy of different algorithms
提出了一種基于自適應標注樣本的提取遙感影像道路方法,得到以下結(jié)論。
(1)該方法自主標注訓練樣本的類別標簽,避免人工采集樣本數(shù)據(jù),提高作業(yè)效率,得到較為精確的道路提取結(jié)果。
(2)3組實驗通過不同場景、不同分辨率進行各方法的對比,實驗結(jié)果表明,本文算法有效改善了道路提取中的椒鹽噪聲以及相似地物之間的粘連現(xiàn)象。對于高分辨率遙感影像中直線型及曲線型道路均有較好的道路提取效果。
(3)對于存在較多建筑物陰影、光譜特征受到破壞的城鎮(zhèn)復雜影像提取效果一般,但優(yōu)于其他算法。
自適應樣本標注方法得到的類別標簽含有一定噪聲,影響道路提取精度,因此在今后的研究中將探索如何更精準地標注類別標簽。另外,如何提取陰影遮擋下的道路區(qū)域需要進一步研究。