段增強(qiáng),劉杰東,鹿 鳴,孔祥斌,楊 娜
(中國(guó)農(nóng)業(yè)大學(xué)土地科學(xué)與技術(shù)學(xué)院 自然資源部農(nóng)用地質(zhì)量與監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,北京 100193)
圖像語(yǔ)義分割(Image Semantic Segmentation,ISS)是指,為圖像中的每一個(gè)像素分配一個(gè)預(yù)先定義好的表示其語(yǔ)義類(lèi)別的標(biāo)簽[1]。基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割方法(Image Semantic Segmentation based on Convolutional Neural Network,CNN-ISS)是一門(mén)涉及計(jì)算機(jī)視覺(jué)、模式識(shí)別與人工智能等研究領(lǐng)域的交叉學(xué)科,是當(dāng)前數(shù)字圖像處理與機(jī)器視覺(jué)的研究熱點(diǎn)內(nèi)容之一[2-5]。作為典型CNN-ISS模型,DeepLab V3模型在Pascal VOC數(shù)據(jù)集上的均交并比(Mean Intersection over Union,mIoU)值達(dá)到86.9%,DeepLab V3+模型的分割精度達(dá)到了89.0%,在Cityspace公開(kāi)數(shù)據(jù)集上也達(dá)到82.1%的分類(lèi)精度[6-7]。CNN-ISS在遙感影像分類(lèi)方面也具有較為廣泛的應(yīng)用,相較于傳統(tǒng)遙感影像分類(lèi)方法[8-9],CNN-ISS具有較強(qiáng)的遷移學(xué)習(xí)能力和泛化能力,能夠有效提取地物紋理、幾何等深層次特征,在高分辨率影像解譯、復(fù)雜地物識(shí)別和作物分布制圖等方面具備一定優(yōu)勢(shì)[10-14]。
出于效率或者硬件性能限制的考慮,通常需要對(duì)大幅的遙感影像進(jìn)行瓦片切圖[15],將生成的影像瓦片作為語(yǔ)義分割數(shù)據(jù)處理對(duì)象。人為的遙感影像瓦片化過(guò)程會(huì)產(chǎn)生瓦片邊緣地物碎片,進(jìn)而影響遙感影像邊緣附近像素的分類(lèi)精度,從而產(chǎn)生瓦片邊緣附近像素分類(lèi)精度低于瓦片中央?yún)^(qū)域像素分類(lèi)精度的現(xiàn)象,即瓦片邊緣效應(yīng)[16]。目前學(xué)者針對(duì)CNN-ISS遙感影像分類(lèi)的研究主要有3個(gè)方面,一是僅在瓦片尺度進(jìn)行模型驗(yàn)證和精度評(píng)價(jià)[17-18];二是側(cè)重于優(yōu)化地物邊緣分類(lèi)的研究,并未對(duì)瓦片邊緣效應(yīng)做專(zhuān)門(mén)分析及特別考慮[19-20];三是通過(guò)“重疊預(yù)測(cè)”和概率圖累加算法來(lái)降低或消除瓦片邊緣效應(yīng)[21]。目前鮮見(jiàn)對(duì)CNN-ISS模型分類(lèi)結(jié)果的瓦片邊緣效應(yīng)進(jìn)行定量化分析的研究文獻(xiàn)。
本研究系統(tǒng)分析了研究區(qū)在高分辨率遙感影像CNN-ISS(以DeepLab V3為核心模型)分類(lèi)中的瓦片邊緣效應(yīng),構(gòu)建了一個(gè)消除CNN-ISS瓦片邊緣效應(yīng)的數(shù)據(jù)后處理框架,以實(shí)現(xiàn)大幅遙感影像分類(lèi)解譯和瓦片邊緣效應(yīng)消除。
研究區(qū)位于河北省唐山市曹妃甸區(qū)北部以及灤南縣南部地區(qū)(118°18"E~118°48"E,39°30"N~40°12"N)。具有典型的鄉(xiāng)村土地覆被特點(diǎn),土地覆被類(lèi)型主要包括水田、水澆地、設(shè)施農(nóng)用地、農(nóng)村居民點(diǎn)、河流、坑塘、交通用地等(圖1)。
2.1.1 訓(xùn)練區(qū)數(shù)據(jù)集構(gòu)建
本研究訓(xùn)練區(qū)面積為200 km2(圖1),研究采用2019年5月4日高分二號(hào)影像,經(jīng)預(yù)處理后,最終得到空間分辨率為1 m的真彩色融合影像。通過(guò)人工目視解譯土地覆被類(lèi)型,分類(lèi)標(biāo)準(zhǔn)如表1所示,進(jìn)而構(gòu)建CNN-ISS訓(xùn)練樣本數(shù)據(jù)集(圖2)。
表1 土地覆被類(lèi)型及目視解譯劃分標(biāo)準(zhǔn) Table 1 Visual interpretation division criteria of land cover type
CNN-ISS模型神經(jīng)網(wǎng)絡(luò)層數(shù)多、參數(shù)規(guī)模大,模型訓(xùn)練計(jì)算量大,出于模型學(xué)習(xí)精度和學(xué)習(xí)效率的考慮,通常限定特定尺寸圖像作為訓(xùn)練和預(yù)測(cè)對(duì)象,常用的瓦片大小有256×256、512×512像素等。如果對(duì)大幅遙感影像進(jìn)行語(yǔ)義分割,則需要首先將大幅影像進(jìn)行瓦片化處理,以特定大小的瓦片作為基本處理單元。
本研究以DeepLab V3模型作為核心CNN-ISS模型,以512×512像素瓦片作為訓(xùn)練和預(yù)測(cè)處理單元。通過(guò)對(duì)訓(xùn)練區(qū)順序裁剪生成2000張訓(xùn)練瓦片,并在此基礎(chǔ)上采用隨機(jī)翻轉(zhuǎn)、增加點(diǎn)噪聲、高斯濾波和雙邊濾波等數(shù)據(jù)增強(qiáng)處理方式[22-23],共計(jì)生成15000幅瓦片。由于道路和河流溝渠像素占試驗(yàn)區(qū)影像總像素比例較低,采用過(guò)采樣方案[24]增加了3000幅包括高速公路和河流瓦片。最終的訓(xùn)練集包括512×512像素瓦片共計(jì)18000幅。選取其中的75%作為訓(xùn)練數(shù)據(jù)集,25%作為驗(yàn)證數(shù)據(jù)集。綜合考慮效率及最終精度,本試驗(yàn)以ResNet V2_50預(yù)訓(xùn)練模型[25]為基礎(chǔ)進(jìn)行遷移訓(xùn)練。
2.1.2 預(yù)測(cè)區(qū)數(shù)據(jù)集構(gòu)建
選取同幅影像內(nèi)與訓(xùn)練區(qū)毗鄰的14 km2區(qū)域作為預(yù)測(cè)區(qū)(圖3),采用與訓(xùn)練區(qū)相同的分類(lèi)標(biāo)準(zhǔn),通過(guò)人工目視解譯對(duì)預(yù)測(cè)區(qū)土地覆被類(lèi)型進(jìn)行劃分。
預(yù)測(cè)區(qū)影像、土地覆被類(lèi)型劃分及瓦片化結(jié)果如圖3所示。模型精度評(píng)估、影像瓦片邊緣效應(yīng)分析與消除等均基于預(yù)測(cè)區(qū)數(shù)據(jù)集完成。
2.2.1 核心網(wǎng)絡(luò)
語(yǔ)義分割(ISS)是在像素級(jí)別進(jìn)行分類(lèi)。CNN-ISS將輸入的遙感影像通過(guò)CNN提取影像特征,得到像素類(lèi)別得分圖后,再通過(guò)softmax函數(shù)以及argmax函數(shù)得到輸入影像的像素類(lèi)別[26]。
典型的語(yǔ)義分割模型數(shù)據(jù)處理過(guò)程[27]如圖4中CNN-ISS標(biāo)注部分所示,具體可以概況為以下3個(gè)過(guò)程:
1)將瓦片輸入至CNN-ISS模型中,進(jìn)行影像特征提取。其公式為V=F(T,θ),其中,V為經(jīng)過(guò)系列特征提取后形成的類(lèi)別得分矩陣,T為瓦片處理單元矩陣,θ為CNN-ISS模型中各層網(wǎng)絡(luò)的參數(shù)。實(shí)現(xiàn)過(guò)程依具體CNN-ISS模型而定,以DeepLab V3為例,這個(gè)過(guò)程包括了卷積、池化、空洞空間池化金字塔及上采樣等數(shù)據(jù)處理過(guò)程。
2)將類(lèi)別得分圖中各像素的分值分別經(jīng)softmax函數(shù)處理后,統(tǒng)一歸一化至0~1范圍內(nèi),生成的圖像為類(lèi)別概率圖。這一過(guò)程的公式為P=softmax(V),P為類(lèi)別概率矩陣。
3)選取某一像素點(diǎn)對(duì)應(yīng)的概率矩陣中最大值的索引作為該像素的最終類(lèi)別,這一過(guò)程輸出的結(jié)果即為遙感影像分類(lèi)圖。這一過(guò)程的公式為C=argmax(P),C為分類(lèi)結(jié)果矩陣。
本研究以DeepLab V3作為核心模型,該模型以ResNet 50作為特征提取網(wǎng)絡(luò),加入了空洞空間池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)模塊來(lái)提取全局、多尺度信息。ASPP采用了4個(gè)并行的卷積,即1個(gè)1×1的卷積和3個(gè)擴(kuò)張率分別為(6、12、18)的3×3擴(kuò)張卷積,同時(shí)加入了批歸一化(Batch Normalization,BN)層對(duì)影像特征進(jìn)行處理,最后通過(guò)16倍的上采樣恢復(fù)到原圖大小[28]。
2.2.2 瓦片邊緣效應(yīng)消除方案
遙感影像瓦片化會(huì)在瓦片邊緣產(chǎn)生土地覆被類(lèi)型碎片,從而影響分類(lèi)精度,存在瓦片邊緣效應(yīng)。
本研究中,以整幅影像上做移窗切圖后生成的512×512像素瓦片影像作為處理單元,縱向和橫向均以512像素步長(zhǎng),依次從左到右,從上到下進(jìn)行移窗和瓦片影像語(yǔ)義分割。為消除瓦片邊緣效應(yīng),設(shè)定不同的移窗起點(diǎn)位置(i,k),i、k為該移窗偏置起點(diǎn)的像素行列位置,從而保證整幅遙感影像上任意像素點(diǎn)一定處于某次偏置設(shè)置下生成的瓦片中央?yún)^(qū)域。假定共進(jìn)行m次移窗,則可為每個(gè)輸入影像像素生成至多m批次的類(lèi)別打分值,假定有n個(gè)分類(lèi)類(lèi)別,則每個(gè)像素至多生成m×n個(gè)類(lèi)別打分值,以該像素的m×n個(gè)類(lèi)別打分值為基礎(chǔ),設(shè)計(jì)不同的瓦片效應(yīng)消除技術(shù)方案,從而提高語(yǔ)義分割精度。
設(shè)輸入遙感影像為H×W×3的矩陣X,其中,H為影像高度,W為影像寬度,H和W單位都為像素,像素x(a,b)=[xR,xG,xB],xR,xG,xB代表輸入影像的彩色通道,(a,b)代表某一像素在輸入遙感影像上的坐標(biāo)。
對(duì)X設(shè)定一個(gè)移窗切圖的移窗起點(diǎn)為(i,k),進(jìn)行移窗切圖,將生成的瓦片數(shù)據(jù)集經(jīng)核心CNN-ISS模型處理得到瓦片像素類(lèi)別打分結(jié)果,拼接后得到全圖打分結(jié)果,記為類(lèi)別得分矩陣V(i,k),其中(i,k)為偏置起點(diǎn)的像素位置。對(duì)偏置起點(diǎn)為(0,0)的情況,得到類(lèi)別得分矩陣V(0,0)。
其中v(a,b)為像素x(a,b)的各類(lèi)別得分值所組成的一維向量組,即v(a,b)=[v1(a,b),...,vc(a,b),...,vn(a,b)],vc(a,b)代表像素x(a,b)預(yù)測(cè)分類(lèi)c的類(lèi)別得分值,c=1,2,..,n,n為語(yǔ)義分割的分類(lèi)數(shù)量。
當(dāng)偏置起點(diǎn)為(i,k)時(shí),輸入影像的前i行和前k列像素不參與瓦片生成和后續(xù)的CNN-ISS核心模型數(shù)據(jù)處理,因此無(wú)法得到其所對(duì)應(yīng)的類(lèi)別得分,則為其進(jìn)行非數(shù)填充處理,在下邊的矩陣表達(dá)中用NaN表示,得到偏置起點(diǎn)為(i,k)的類(lèi)別得分矩陣V(i,k)
假定第s次偏置中,像素的c類(lèi)別打分值記為為了消除基于瓦片數(shù)據(jù)處理而產(chǎn)生的瓦片邊緣效應(yīng),本研究進(jìn)行多次、不同的偏置處理,并對(duì)多次偏置生成的多個(gè)類(lèi)別得分矩陣進(jìn)行合成。表示編號(hào)s的偏置方案中,像素x(a,b)對(duì)應(yīng)類(lèi)別c的類(lèi)別得分值和概率值,(,)abcv和 (,)abcp則表示合成后的c類(lèi)別得分值和概率值;c(a,b)表示像素x(a,b)的分類(lèi)結(jié)果。其中,c∈[1,n],s∈[1,m]。具體的瓦片邊緣效應(yīng)消除方案處理邏輯如表2所示,其操作對(duì)象均為像素x(a,b),故將下標(biāo)(a,b)進(jìn)行省略。
表2 瓦片邊緣效應(yīng)消除方案 Table 2 Tile edge effect elimination solution
方案1:假設(shè)影像中某一點(diǎn)在第s次偏置時(shí),到瓦片邊緣的距離最大,則選取此次偏置中該點(diǎn)對(duì)應(yīng)的打分值作為該點(diǎn)的最終打分值后經(jīng)softmax函數(shù)處理得到整幅影像的類(lèi)別概率值Pc,進(jìn)而得到最終分類(lèi)結(jié)果。
方案2:對(duì)每個(gè)類(lèi)別c,在m次偏置中形成的m個(gè)像素類(lèi)別打分值中選最大值,作為類(lèi)別c的類(lèi)別判斷打分值vc,進(jìn)而根據(jù)vc計(jì)算類(lèi)別概率pc和分類(lèi)。
方案3:對(duì)m次偏置中形成的m個(gè)像素類(lèi)別打分值求平均值,作為類(lèi)別c的類(lèi)別判斷打分值vc,通過(guò)softmax函數(shù)得到類(lèi)別概率pc,然后選取pc對(duì)應(yīng)的類(lèi)別作為最終分類(lèi)結(jié)果。
方案4:將m次移窗得到的m組打分值分別進(jìn)行softmax處理,得到m組像素類(lèi)別概率值選擇其中最大的類(lèi)別概率值作為類(lèi)別c的類(lèi)別判斷概率值pc,并將pc對(duì)應(yīng)的類(lèi)別作為像素的最終類(lèi)別。
需要指出的是,本研究通過(guò)消除瓦片邊緣效應(yīng)來(lái)提升語(yǔ)義分割精度,是對(duì)CNN-ISS瓦片化處理結(jié)果的一種后處理方案,可采用不同的核心模型,且可以直接繼承所采用不同核心模型的預(yù)訓(xùn)練結(jié)果或遷移學(xué)習(xí)結(jié)果。
2.2.3 精度評(píng)價(jià)指標(biāo)
本研究采用總精度(Pixel Accuracy,PA)[29]、Kappa系數(shù)[30]、交并比(Intersection over Union,IoU)[31]、均交并比(Mean Intersection over Union,mIoU)[32]作為精度評(píng)價(jià)指標(biāo)。PA、Kappa系數(shù)、IoU和mIoU的數(shù)值越大,說(shuō)明CNN-ISS模型分類(lèi)精度越高。
瓦片邊緣效應(yīng)具體體現(xiàn)為距離瓦片邊緣愈近的區(qū)域,其錯(cuò)分像素占比愈高。本研究通過(guò)構(gòu)建瓦片邊緣距離誤判率ERD(Error Rate with a Distance to tile edges,ERD)和整體誤判率ERW(Error Rate of the Whole image,ERW)2個(gè)指標(biāo),來(lái)對(duì)CNN-ISS遙感影像分類(lèi)解譯的瓦片邊緣效應(yīng)進(jìn)行定量分析,其計(jì)算式如下
式中d記為到瓦片邊緣的像素距離,單位為像素,N為柵格總數(shù),Nd瓦片邊緣距離為d的柵格總數(shù),表示到瓦片邊緣距離為d的錯(cuò)分柵格總數(shù),NF表示錯(cuò)分柵格總數(shù)。
本研究以DeepLab V3作為CNN-ISS核心模型。偏置起點(diǎn)設(shè)為(0,0),在不進(jìn)行多次偏置前提下,得到的影像分類(lèi)結(jié)果等同于將DeepLab V3原始模型分類(lèi)瓦片直接拼接形成的分類(lèi)圖。本研究基于此結(jié)果對(duì)DeepLab V3分類(lèi)精度進(jìn)行評(píng)估,同時(shí)將其作為邊緣效應(yīng)消除方案的對(duì)照數(shù)據(jù)。由于各瓦片邊緣效應(yīng)消除方案均設(shè)置有多個(gè)瓦片切割起點(diǎn)偏置,因此有效預(yù)測(cè)范圍與對(duì)照組不同,以下所有分析均選取公共有效區(qū)域進(jìn)行。
本試驗(yàn)操作系統(tǒng)為Windows10,編程語(yǔ)言為Python 3.5,使用開(kāi)源深度學(xué)習(xí)框架TensorFlow 1.9.0,計(jì)算機(jī)CPU為i7-7700HQ,配16 GB RAM和一塊GTX 1070(8 GB)。DeepLab V3模型訓(xùn)練參數(shù)batch_size為4,初始學(xué)習(xí)率為0.0001,每8000次迭代學(xué)習(xí)率遞減50%,L2正則化系數(shù)為0.0001。
在最終的分類(lèi)模型中,訓(xùn)練集loss值為0.0698,驗(yàn)證集loss值為0.0011,在預(yù)測(cè)區(qū)總分類(lèi)精度為94.99%,Kappa系數(shù)為0.8688,mIoU值為76.24%,各覆蓋類(lèi)型IoU值見(jiàn)表3中的對(duì)照組數(shù)據(jù)。與相關(guān)研究結(jié)果對(duì)比[13],本研究的PA、Kappa系數(shù)和mIoU值均達(dá)到較高數(shù)值,說(shuō)明本研究的CNN-ISS模型具有較高分類(lèi)精度,但由于訓(xùn)練數(shù)據(jù)及數(shù)據(jù)量較小,且道路和溝渠占比較少,導(dǎo)致其IoU相對(duì)較低。
表3 對(duì)照組精度匯總表 Table 3 Accuracy summary table of control group
CNN-ISS分類(lèi)精度與標(biāo)簽精度及訓(xùn)練樣本數(shù)據(jù)量有關(guān),相關(guān)研究已經(jīng)驗(yàn)證了DeepLab V3模型在遙感影像分類(lèi)中的性能[2,33-36],而本研究重點(diǎn)在于瓦片邊緣效應(yīng)分析及其消除方案,因此不再對(duì)DeepLab V3在本試驗(yàn)中各地類(lèi)精度進(jìn)行更詳細(xì)分析。
當(dāng)遙感影像中的地物位于輸入模型瓦片的邊緣處時(shí),會(huì)產(chǎn)生地物碎片或不完整地物,從而丟失部分識(shí)別信息,影響到分類(lèi)精度。
本研究CNN-ISS影像瓦片大小為512×512像素,預(yù)測(cè)區(qū)總面積為14 km2。將每個(gè)瓦片按照3×3平均劃分為9個(gè)區(qū)域,并將外圍的8個(gè)子區(qū)作為邊緣區(qū)域,中央子區(qū)作為中央?yún)^(qū)域,分別以邊緣區(qū)域、中央?yún)^(qū)域和整個(gè)瓦片區(qū)域作為統(tǒng)計(jì)范圍。14 km2預(yù)測(cè)區(qū)內(nèi)對(duì)照組所有瓦片邊緣處與中心處的精度評(píng)估結(jié)果如表4所示,整個(gè)瓦片區(qū)域的精度評(píng)價(jià)結(jié)果如表3所示。
表4 對(duì)照組瓦片邊緣與中心處精度對(duì)比 Table 4 Accuracy comparison between tip edge and center of control group
PA、Kappa和mIoU評(píng)估結(jié)果整體表現(xiàn)為中央?yún)^(qū)域>整個(gè)瓦片區(qū)域>邊緣區(qū)域;根據(jù)各地類(lèi)中央?yún)^(qū)域IoU與邊緣IoU的差值從高到低排序依次為,坑塘(6.41個(gè)百分點(diǎn))>農(nóng)村居民點(diǎn)(1.42個(gè)百分點(diǎn))>道路(0.68個(gè)百分點(diǎn))>其他農(nóng)用地(0.67個(gè)百分點(diǎn))>河流溝渠(?3.77個(gè)百分點(diǎn)),其中坑塘、農(nóng)村居民點(diǎn)中央?yún)^(qū)域IoU與邊緣區(qū)域IoU相比均高出1%以上,說(shuō)明這2個(gè)土地覆蓋類(lèi)型的邊緣效應(yīng)更加突出。對(duì)照遙感影像和預(yù)測(cè)區(qū)標(biāo)簽可以發(fā)現(xiàn),坑塘和農(nóng)村居民點(diǎn)均由多種顏色和紋理的小斑塊組成,屬于典型的“異構(gòu)體”復(fù)雜對(duì)象,因此瓦片切割產(chǎn)生的碎片更易損失對(duì)象的整體特征信息,因而其瓦片邊緣效應(yīng)更加突出。當(dāng)?shù)缆贰⒑恿鳒锨染€(xiàn)狀地物靠近瓦片邊緣或以較小夾角通過(guò)瓦片邊緣時(shí),也較易產(chǎn)生瑣碎或狹長(zhǎng)碎片,從而也具有瓦片邊緣效應(yīng)?!捌渌r(nóng)用地”是整個(gè)景觀(guān)中“基質(zhì)”成分,瓦片切割造成的獨(dú)立和零散分布的碎片較少,瓦片邊緣效應(yīng)相對(duì)較弱,表3數(shù)據(jù)也表明其他農(nóng)用地具有較弱的瓦片邊緣效應(yīng)。
道路和河流溝渠在訓(xùn)練區(qū)樣本數(shù)量都比較低,包含道路和河流溝渠的瓦片數(shù)量少,包含道路和河流溝渠的瓦片中其像素占比也很小,造成道路和河流溝渠分類(lèi)精度相對(duì)較低。在預(yù)測(cè)區(qū)也存在類(lèi)似情況,使得道路和河流溝渠精度統(tǒng)計(jì)學(xué)意義降低。
為消除邊緣效應(yīng),本研究設(shè)置的橫、縱向移窗偏置步長(zhǎng)均為1/3瓦片寬度(高度),共計(jì)9次偏置,即在本研究中,s=9,因此除整幅遙感影像邊緣處外,可以確保任意像素一定處于某次偏置設(shè)置下生成的移窗瓦片的中央?yún)^(qū)域。
運(yùn)用2.2.2中各方案對(duì)預(yù)測(cè)區(qū)影像進(jìn)行重新分類(lèi),測(cè)試了不同瓦片邊緣效應(yīng)消除方案的效果。如圖5所示,瓦片邊框處的河流溝渠、農(nóng)村居民點(diǎn)和坑塘,瓦片內(nèi)地物碎片導(dǎo)致分類(lèi)結(jié)果出現(xiàn)明顯的局部錯(cuò)分或漏分。較對(duì)照組,本研究所提5種瓦片邊緣消除方案對(duì)瓦片邊緣處的地物分類(lèi)效果均有不同程度提升。
各方案精度匯總?cè)绫?所示。由表5可知,相較于對(duì)照組,方案1~5的各項(xiàng)評(píng)價(jià)指標(biāo)均有不同程度提升。不同方案的Kappa系數(shù)從高到低依次為:方案2(0.8810)>方案5(0.8789)>方案3(0.8788)>方案4(0.8777)>方案1(0.8759),均大于對(duì)照組(0.8688)。方案2的分類(lèi)效果最好,因此本文將以方案2為例,分析不同土地覆被類(lèi)別精度可知,相對(duì)于對(duì)照組,各類(lèi)型IoU提升幅度次序從高到低為:道路(4.13個(gè)百分點(diǎn))>坑塘(2.97個(gè)百分點(diǎn))>河流溝渠(1.61個(gè)百分點(diǎn))>農(nóng)村居民點(diǎn)(0.65個(gè)百分點(diǎn))>其他農(nóng)用地(0.46個(gè)百分點(diǎn)),總體規(guī)律表現(xiàn)為線(xiàn)狀地物和復(fù)雜異構(gòu)體(坑塘、農(nóng)村居民點(diǎn))的提升幅度高于基底地類(lèi)(其他農(nóng)用地)。方案2的mIoU最高達(dá)到78.20%,較對(duì)照組的76.24%提升了1.97百分點(diǎn)。
表5 各方案精度匯總表 Table 5 Accuracy summary table of each solution
預(yù)測(cè)區(qū)內(nèi)對(duì)照組和方案2的所有瓦片的瓦片邊緣距離誤判率ERD統(tǒng)計(jì)結(jié)果如圖6所示。對(duì)照組瓦片邊緣距離誤判率ERD隨著到瓦片邊緣距離的增加呈現(xiàn)波動(dòng)下降的趨勢(shì),在瓦片邊緣處時(shí),ERD最高,達(dá)到了6.93%,在到瓦片邊緣距離為242像素時(shí),RED最低,為3.52%,而整體誤判率ERW則為5.01%。ERD與到瓦片邊緣的距離負(fù)相關(guān),具有瓦片邊緣效應(yīng)。對(duì)照組整體誤判率ERW為5.01%,方案2ERW下降到4.61%。與對(duì)照組相比,方案2ERD在所有距離上均有所下降,其中瓦片邊緣附近ERD值由對(duì)照組的6.93%下降至4.75%,下降幅度最大,說(shuō)明像素到邊緣的距離對(duì)方案2 ERD的影響降低,瓦片邊緣效應(yīng)得到有效改善。
本研究中DeepLab V3模型對(duì)高分辨率下具有復(fù)雜遙感影像特征的異構(gòu)體(坑塘、農(nóng)村居民點(diǎn))識(shí)別能力較好,而對(duì)于線(xiàn)狀地物(道路、河流溝渠)分辨能力較弱,產(chǎn)生這種現(xiàn)象的一個(gè)重要原因是訓(xùn)練區(qū)中的道路和河流溝渠樣本占總像素比例低,即使進(jìn)行過(guò)采樣預(yù)處理,模型對(duì)于這種小樣本地物的影像特征獲取依然不足,這個(gè)問(wèn)題在遙感影像CNN-ISS分類(lèi)中普遍存在。因此可從以下幾個(gè)方面進(jìn)行優(yōu)化:一是在數(shù)據(jù)預(yù)處理階段,除了一般的圖像處理數(shù)據(jù)增強(qiáng)手段,以及人為增加包含像素占比較少的小樣本地物(如道路、河流溝渠等)瓦片數(shù)量的過(guò)采樣方式,亦可通過(guò)“小樣本地物提取+背景轉(zhuǎn)換”的高級(jí)數(shù)據(jù)擴(kuò)展方法,從而盡可能增加小樣本地物、及其在各種環(huán)境場(chǎng)景中的圖像特征信息[37]。二是構(gòu)造適用于小樣本數(shù)據(jù)的損失函數(shù),通過(guò)增大損失函數(shù)中小樣本地物的權(quán)重值來(lái)解決由于不平衡樣本導(dǎo)致的模型精度問(wèn)題。三是針對(duì)不同地物分類(lèi)效果的差異特性,構(gòu)建一種混合分類(lèi)模型。例如,線(xiàn)狀地物的像素在整幅影像中占比少且紋理簡(jiǎn)單,傳統(tǒng)遙感影像分類(lèi)方法對(duì)于此種類(lèi)型地物識(shí)別效果較好,而對(duì)于復(fù)雜異構(gòu)體而言,CNN-ISS模型能夠更為有效提取其深層次影像特征,在今后的研究中可考慮根據(jù)地物類(lèi)型整合使用各自最優(yōu)的分類(lèi)模型。
本研究提出的通過(guò)多次移窗偏置消除瓦片邊緣效應(yīng)的技術(shù)方案,本質(zhì)上是通過(guò)多視野的方法降低地物碎片對(duì)圖像分類(lèi)精度的影響,而多視野信息是否綜合以及如何綜合消除瓦片邊緣效應(yīng)的效果各方案也有所不同。本研究提出的方案1直接將分類(lèi)置信度最高視野中的像素分類(lèi)作為該像素最終的分類(lèi)結(jié)果,并未進(jìn)行多視野信息綜合;方案2~5不但進(jìn)行多視野判斷,還同時(shí)對(duì)每個(gè)視野(移窗)獲取的類(lèi)別打分矩陣或類(lèi)別概率矩陣進(jìn)行了信息綜合。方案2、3分別在類(lèi)別打分層次對(duì)多視野打分結(jié)果取最大值和取平均值,然后再以類(lèi)別打分為基礎(chǔ)計(jì)算類(lèi)別概率值,進(jìn)而對(duì)像素類(lèi)別進(jìn)行判斷。方案4、5則在類(lèi)別判斷概率層次對(duì)多視野信息進(jìn)行綜合,其中方案4對(duì)多視野形成的類(lèi)別判斷概率取最大值,方案5對(duì)多視野類(lèi)別判斷概率取平均值;然后再在類(lèi)別判斷概率的基礎(chǔ)進(jìn)行類(lèi)別判斷。研究結(jié)果表明,上述多視野信息綜合方案中,方案2效果分類(lèi)精度最高。本研究提出的方案1~5的分類(lèi)精度差異是否在不同場(chǎng)景保持一致有待進(jìn)一步驗(yàn)證和分析。
對(duì)于具有代表性的DeepLab模型,從DeepLab V3到DeepLab V3-JFT、DeepLab V3+ (Xception)、DeepLab V3+ (Xception-JFT)的迭代過(guò)程中,在PASCAL VOC 2012數(shù)據(jù)集的mIoU依次分別提升了1.2%、0.9%和1.2%[7]。Liu等構(gòu)建了一種全卷積神經(jīng)網(wǎng)絡(luò)——SRI-Net模型,在WHU Aerial Building Dataset中得到的IoU值較DeepLab V3+在該數(shù)據(jù)集中得到的IoU提升了1.78%[38]。本研究提出的消除瓦片邊緣效應(yīng)的技術(shù)方案是對(duì)CNN-ISS(DeepLab V3)的后處理方案,以方案2為例,相較于對(duì)照組,其mIoU提升了1.97個(gè)百分點(diǎn),特別是對(duì)于線(xiàn)狀地物和異構(gòu)體的提升效果更大,對(duì)道路和坑塘的IoU分別提升了4.13和2.97個(gè)百分點(diǎn)。因此研究者認(rèn)為,本研究的提出的瓦片邊緣效應(yīng)消除方案,作為一種CNN-ISS模型的后處理方案,能夠有效提升整幅遙感影像分類(lèi)精度,尤其針對(duì)復(fù)雜異構(gòu)體和線(xiàn)狀地物精度提升幅度更大。但是上述結(jié)論還應(yīng)該在更多應(yīng)用場(chǎng)景中進(jìn)一步驗(yàn)證。
本文所用到的高分二號(hào)影像,經(jīng)過(guò)預(yù)處理后,其空間分辨率為1m,在這種空間分辨率影像中,城市高大建筑物的陰影和側(cè)墻面均表現(xiàn)明顯,且對(duì)分類(lèi)有較大影響。目前有研究提出專(zhuān)門(mén)的模型用于消除高大建筑物陰影對(duì)建筑物識(shí)別的影響[39]。城市建筑物,特別是具有復(fù)雜平面結(jié)構(gòu)的建筑物,在瓦片化過(guò)程中的瓦片化效應(yīng)應(yīng)該更加突出,在未來(lái)可單獨(dú)針對(duì)此應(yīng)用場(chǎng)景展開(kāi)瓦片邊緣效應(yīng)的相關(guān)研究。
由瓦片邊緣距離誤判率的統(tǒng)計(jì)結(jié)果可知,CNN-ISS分類(lèi)精度與像素位置到瓦片邊緣的距離呈正相關(guān)關(guān)系,瓦片中央?yún)^(qū)域精度高于瓦片邊緣區(qū)域;各類(lèi)型地物瓦片中央與邊緣處的精度差異表明,不同類(lèi)型地物的瓦片邊緣效應(yīng)程度不同,由復(fù)雜顏色、紋理圖像特征構(gòu)成的復(fù)雜異構(gòu)體(農(nóng)村居民點(diǎn)、坑塘)和線(xiàn)狀地物瓦片邊緣效應(yīng)較其他地物的瓦片邊緣效應(yīng)更加突出。本文設(shè)計(jì)的5個(gè)消除瓦片邊緣效應(yīng)的技術(shù)方案,均可從不同程度消除瓦片邊緣效應(yīng),其中取多次偏置中各像素類(lèi)別打分值最大值對(duì)應(yīng)的類(lèi)別作為其最終類(lèi)別的方案對(duì)精度的提升最大;此外,瓦片邊緣效應(yīng)消除方案對(duì)不同類(lèi)型地物的效果也有差異,瓦片邊緣效應(yīng)消除方案對(duì)復(fù)雜異構(gòu)體(農(nóng)村居民點(diǎn),坑塘)和線(xiàn)狀地物分類(lèi)精度的提升更大。