張 峰 ,趙忠國,李 剛, 陳 剛
(1.新疆交通職業(yè)技術(shù)學(xué)院,烏魯木齊, 830052;2.新疆大學(xué)資源與環(huán)境科學(xué)學(xué)院,烏魯木齊,830052;3.河南測繪職業(yè)學(xué)院,鄭州,450000)
【研究意義】遙感影像分類是獲取地物的有效信息,而分類方法的選擇是影響分類精度的關(guān)鍵因素[1]。傳統(tǒng)的遙感分類方法在資料獲取中受到人員的限制,在大面積的調(diào)查過程中也存在時間的制約,分類精度會受到數(shù)據(jù)的質(zhì)量和判讀者的經(jīng)驗水平的影響[2]。近年來,遙感分類不管從數(shù)據(jù)的來源和質(zhì)量方面都有了進(jìn)一步的發(fā)展,在分類方法上更趨向人工智能領(lǐng)域的發(fā)展[3]。目前,伴隨著神經(jīng)網(wǎng)絡(luò)、支持向量機、隨機森林等分類器技術(shù)的快速發(fā)展,結(jié)合高質(zhì)量的遙感衛(wèi)星數(shù)據(jù),使得遙感分類的精度有了進(jìn)一步的提升。選擇一種合適分類器對遙感分類的精度具有重要意義?!厩叭搜芯窟M(jìn)展】目前支持向量機(SVM)已經(jīng)在鹽堿地信息提取、濕地遙感分類、圖像建筑物等方面得到了廣泛的應(yīng)用[4-6],支持向量機的高分辨率遙感影像的艦船目標(biāo)識別研究也得到了應(yīng)用[7]。程彬[8]通過利用最大似然法和支持向量機的方法對乾安縣土地利用進(jìn)行分類研究,結(jié)果表明支持向量機方法分類精度更高。隨機森林(RF)已經(jīng)在遙感圖像分類中涉及樹種分析[9]、土地分類[10]、生態(tài)區(qū)的劃分[11]等方面得到了廣泛的應(yīng)用。Pierce 通過隨機森林來對當(dāng)?shù)氐纳只馂?zāi)進(jìn)行預(yù)警,大大降低了火災(zāi)風(fēng)險程度[12]。隨機森林也應(yīng)用到高光譜遙感圖像分類中的應(yīng)用,李壘[13]通過提取高光譜數(shù)據(jù)的光譜信息和空間結(jié)構(gòu),提出了一種新的方法,且分類精度高于單一特征的方法?!颈狙芯壳腥朦c】不同類型遙感影像各具特點、不同分類器各具優(yōu)缺點,很難找到一個適合多種應(yīng)用需求的分類器[4]。基于Landsat 8 OLI衛(wèi)星遙感影像為數(shù)據(jù)源,對新疆奇臺縣農(nóng)用地(草地、裸地、冬小麥、其他耕地、水體、道路)進(jìn)行分類,利用支持向量機(SVM)、隨機森林(RF)和神經(jīng)網(wǎng)絡(luò)(Neural Net)三種分類器對不同地物地類提取精度進(jìn)行對比分析。【擬解決的關(guān)鍵問題】利用不同分類器方法對研究區(qū)農(nóng)用地進(jìn)行分類,并對不同方法進(jìn)行比較分析,找出一種精度相對比較高的適合研究區(qū)地物的分類方法。
奇臺縣位于新疆東北部,東與木壘縣為鄰,南與吐魯番市交界,西連吉木薩爾縣,北接富蘊縣、青河縣,位于E89°13′-91°22′,N42°25′-45°29′。東西橫距150公里,南北縱距250公里,縣域總面積1.93萬平方公里。 奇臺縣屬中溫帶大陸性半荒漠干旱性氣候。年平均氣溫5.5℃。7月平均氣溫22.6℃,年平均降水量269.4mm,農(nóng)業(yè)資源豐富。圖1
圖1 研究區(qū)示意
Fig.1 Sketch map of research area
研究影像從地理空間數(shù)據(jù)云網(wǎng)站獲取兩景Landsat 8 OLI 影像數(shù)據(jù)(http://www.gscloud.cn/),成像時間為2017年4月19。將Landsat 8 OLI影像在ENVI軟件的FLAASH模塊完成輻射定標(biāo)、大氣校正,并對進(jìn)行圖像鑲嵌、圖像裁剪工作。輻射定標(biāo)主要實現(xiàn)DN值到輻射率的過程;大氣校正減少或消除大氣對遙感影像的影響;對兩幅相鄰遙感影像進(jìn)行大范圍、無縫拼接,通過圖像裁剪去除非研究區(qū),最后得到研究區(qū)域。
實地GPS采樣的50個野外實測點數(shù)據(jù)主要用來對冬小麥分類的驗證,用高分辨率的Google Earth,利用目視判讀對研究影像分類進(jìn)行驗證。
隨機森林法是用N來表示訓(xùn)練用例(樣本)的個數(shù),M表示特征數(shù)目。通過輸入特征數(shù)目m,用于確定決策樹上一個節(jié)點的決策結(jié)果;其中m應(yīng)遠(yuǎn)小于M。從N個訓(xùn)練用例(樣本)中以有放回抽樣的方式,取樣N次,形成一個訓(xùn)練集(即bootstrap取樣),并用未抽到的用例(樣本)作預(yù)測,評估其誤差。對于每一個節(jié)點,隨機選擇m個特征,決策樹上每個節(jié)點的決定都是基于這些特征確定的。根據(jù)這m個特征,計算其最佳的分裂方式[14]。
支持向量機是一種二分類模型,目的是尋找一個超平面來對樣本進(jìn)行分割,分割的原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解。同時能夠在有限樣本信息的條件下,在學(xué)習(xí)精度和學(xué)校效果之間找到最佳平衡[15]。
神經(jīng)網(wǎng)絡(luò)包括輸入層、隱含層和輸出層,輸入層主要是包括單個訓(xùn)練像元的信息,比如光譜信息、高程、坡度等信息。不同層之間由互相連接的節(jié)點構(gòu)成,因此可使得信息與多個方向互通。當(dāng)訓(xùn)練樣本數(shù)據(jù)越具有代表性,神經(jīng)網(wǎng)絡(luò)就越能映射真實世界的反應(yīng),從而得到精確的分類結(jié)果[16]。
選用支持向量機算法(SVM)、隨機森林算法(RF)和神經(jīng)網(wǎng)絡(luò)方法(NeuralNet)三種分類器對農(nóng)用地分類提取進(jìn)行對比分析。為保證分類精度,首先對三種分類器的參數(shù)進(jìn)行分析。隨機森林算法通過設(shè)置不同決策樹的數(shù)量以及停止分割的最小樣本數(shù)從而找出最適參數(shù),三者所選特征均一致。隨機森林算法決策樹數(shù)量參數(shù)(Number of Trees , NT)設(shè)置對精度評價結(jié)果。表1
表1 決策樹數(shù)量下精度變化
Table1 Effect of Decision Tree Number on Accuracy
決策樹數(shù)量NT1102030405060708090100總體分類精度OA89.37%92.11%92.57%92.62%92.71%92.70%92.85%92.56%93.00%92.91%92.89%卡帕系數(shù)Kappa0.8590.8950.9010.9020.9030.9030.9050.9010.9070.9060.905
研究表明,隨機森林算法決策樹數(shù)量的不斷增加,分類的總體精度整體在不斷緩慢增高,Kappa的值也隨之緩慢增高當(dāng)決策樹數(shù)量為80時,總體精度和kappa系數(shù)達(dá)到最大分別為93.00%、0.907,不過從整體角度來評價分類精度,決策樹數(shù)量對分類總體精度不大??刂茮Q策樹數(shù)量為80時,對分割的最小樣本數(shù)進(jìn)行研究,隨機森林算法不同分割的最小樣本數(shù)(Min Node Samples,MNS)參數(shù)設(shè)置對精度評價結(jié)果。表1,表2
表2 停止分割的最小樣本數(shù)參數(shù)下精度變化
Table2 the Effect of Minimum Sample Number Parameters on the Accuracy of Stopping Segmentation
最小樣本數(shù)MNS11020304050607080總體分類精度OA93.00%92.74%92.11%92.07%94.30%91.49%91.58%91.17%91.14%卡帕系數(shù)Kappa0.907 20.903 80.895 40.894 70.92510.8870.888 30.882 50.882 4
當(dāng)控制決策樹數(shù)量為80時,不同分割的最小樣本數(shù)對分類總體精度整體先增加后減少,kappa系數(shù)的變化與總體精度變化基本保持一致,但MNS=1時,分類整體精度高于其他分割的最小樣本數(shù)參數(shù)(除MNS= 40),與MNS 是表示停止分割的最小樣本數(shù),MNS=1時,分割的更加精細(xì),提高了分類總體精度。MNS=40時取得最高的總體精度94.30%、kappa系數(shù)為0. 9251。
支持向量機算法核函數(shù)選擇徑向基核函數(shù),懲罰系數(shù)選擇30,gamma參數(shù)設(shè)置為0;神經(jīng)網(wǎng)絡(luò)算法激活函數(shù)選擇對數(shù)(Logistic),訓(xùn)練貢獻(xiàn)閾值0.9,權(quán)重調(diào)節(jié)速度為0.2,由于進(jìn)行非線性分類,隱藏層默認(rèn)設(shè)置為1,當(dāng)?shù)螖?shù)為1 000次或訓(xùn)練RMS值小于0.1時停止訓(xùn)練,通過不斷訓(xùn)練得到最好的神經(jīng)網(wǎng)絡(luò)RMS誤差圖,訓(xùn)練迭代到800次時訓(xùn)練的均方根RMS誤差趨近于0.33,得到研究區(qū)的初步分類圖,接著通過聚類等分類后處理方法,得到研究區(qū)的分類結(jié)果。圖2,圖3
圖2 神經(jīng)網(wǎng)絡(luò)均方根(RMS)誤差
Fig.2 RMS Error of Neural Network
圖 3 研究區(qū)分類
Fig.3 Study Area Classification Diagram
其中在神經(jīng)網(wǎng)絡(luò)分類中,草地的制圖精度、用戶精度較低,錯分誤差為14.41%,漏分誤差為25.37%;冬小麥制圖精度為97.44%,用戶精度93.73%,錯分、漏分誤差分別為6.27%和2.56%。表3
表3 神經(jīng)網(wǎng)絡(luò)(Neural Network)農(nóng)用地分類精度評價結(jié)果
Table 3 Accuracy Evaluation of Neural Network Ground Object Classification
地物分類Classificationof objects制圖精度Cartographic accuracy用戶精度User accuracy錯分誤差Commission Errors漏分誤差Omission Errors草地Grassland74.6385.5914.4125.37裸地Bare land99.6592.137.870.35冬小麥Winter wheat97.4493.736.272.56其他耕地Other cultivated land89.5198.221.7810.49水體Water body100.00100.000.000.00道路Road88.6297.142.8611.38
表4 支持向量機(SVM)農(nóng)用地分類精度評價結(jié)果
Table 4 Accuracy Evaluation of Ground Object Classification Based on Support Support Vector Machine
地物分類Classification of objects制圖精度Cartographic accuracy用戶精度User accuracy錯分誤差Commission Errors漏分誤差Omission Errors草地Grassland67.3672.8427.1632.64裸地Bare land100.0094.255.750.00冬小麥Winter wheat94.6191.788.225.39其他耕地Other cultivated land93.5282.3517.656.48水體Water body100.00100.000.000.00道路Road34.5185.2514.7565.49
在支持向量機算法在地物分類精度評價中,草地的制圖精度和用戶精度分別為67.36%和72.84%。錯分誤差和漏分誤差分別達(dá)27.16%和32.64%,相對于裸地、冬小麥和其他耕地分類精度最低。在隨機森林算法對冬小麥分類的制圖、用戶精度分別為96.36%和96.90%,錯分、漏分誤差為3.10%和3.64%,三者分類整體精度評價結(jié)果。表6
三種算法的地物分類總體精度支持向量機(SVM)<隨機森林(RF)R<神經(jīng)網(wǎng)絡(luò)(Neural Net),在 kappa系數(shù)方面支持向量機(SVM)<隨機森林(RF)<神經(jīng)網(wǎng)絡(luò)(Neural Net),神經(jīng)網(wǎng)絡(luò)分類總體精度為94.84%比隨機森林(NT= 80,MNS=40)分類高0.54%,比SVM分類算法高4.09%;kappa系數(shù)為0.9317,比RF、SVM分別高0.0069、0.54。整體分類中使用神經(jīng)網(wǎng)絡(luò)分類對研究區(qū)地物分類效果最好。
表5 隨機森林(RF)農(nóng)用地分類精度評價結(jié)果
Table 5 Evaluation of Random Forest Classification Accuracy
地物分類Classification of objects制圖精度Cartographic accuracy用戶精度User accuracy錯分誤差Commission Errors漏分誤差Omission Errors草地Grassland87.0782.4017.6012.93裸地Bare land99.9393.996.010.07冬小麥Winter wheat96.3696.903.103.64其他耕地Other cultivated land93.6888.1111.896.32水體Water body97.5396.502.103.20道路Road56.9089.7110.2943.10
表6 精度整體評價結(jié)果
Table 6 Accuracy evaluation results
分類算法Classification algorithm支持向量機SVM神經(jīng)網(wǎng)絡(luò)Neural Net隨機森林RF總體分類精度OA90.75%94.84%94.30%卡帕系數(shù)Kappa0.877 60.931 70.925 1
遙感圖像分類的主要研究目的是提取有效的地物類型,在地物信息提取過程中,如何選擇適當(dāng)可行的分類方法是我們所面臨的主要問題之一。機器學(xué)習(xí)分類方法作為目前流行的算法,在分類精度方面和時間效率方面相對于傳統(tǒng)的分類方法具有一定的優(yōu)勢[17]。
由于遙感成像的復(fù)雜性和多種不可控制因素的影響,在傳統(tǒng)感影像分類過程中存在一定的模糊性和不確定性。神經(jīng)網(wǎng)絡(luò)算法能夠在一定程度上消除上述的弊端[18]研究中神經(jīng)網(wǎng)絡(luò)算法相對于支持向量機算法和隨機森林算法在模型訓(xùn)練時間消耗長,但是在分類精度方面是最優(yōu)的,對于容易錯分漏分的地物得到了比較好的分區(qū),能夠更準(zhǔn)確地提取出目標(biāo)地物。但是閆琰利用了神經(jīng)網(wǎng)絡(luò)和支持向量機等四種方法對遙感圖像監(jiān)督分類進(jìn)行了總體分類精度評價,認(rèn)為支持向量機在總體分類精度比神經(jīng)網(wǎng)絡(luò)算法較高[19],原因之一有可能在于在兩者之間樣本的選擇方法不同而造成。 研究在神經(jīng)網(wǎng)絡(luò)算法中選擇的模型參數(shù)均按默認(rèn)值,在今后的研究中選取合理的神經(jīng)網(wǎng)絡(luò)模型和權(quán)重調(diào)節(jié)方面需要進(jìn)一步的研究,因為默認(rèn)的權(quán)重是用標(biāo)準(zhǔn)正態(tài)分布隨機初始化的存在一定的弊端,因此在權(quán)重選擇方面要進(jìn)一步的實驗從而選擇最優(yōu)權(quán)重。
劉毅[3]等通過對隨機森林參數(shù)設(shè)置對分類精度的影響程度進(jìn)行了研究,認(rèn)為參數(shù)設(shè)置對分類精度的影像不敏感,使用默認(rèn)條件下,就可以達(dá)到理想的分類效果。研究按照不同參數(shù)設(shè)置進(jìn)一步實驗得出隨機森林分類控制決策樹數(shù)量和最小樣本數(shù),從而保證分類效果。但是在最終分類精度方面高于支持向量機算法而小于神經(jīng)網(wǎng)絡(luò)算法。但是在實驗過程中能夠找到最優(yōu)合適的分類樹數(shù)目,能夠不僅能提高分類精度同時在運算速度方面相對于其他算法具有一定的優(yōu)勢。
研究確定樣本的方法是結(jié)合實地調(diào)查、目視解譯標(biāo)志與高分辨率遙感影像相結(jié)合的選取樣本的方法,雖然在一定程度上提高了樣本的精確性,但是在以后研究中,樣本的選擇要根據(jù)不連續(xù)性、代表性、分布、數(shù)量等方面綜合考慮,進(jìn)而保證分類結(jié)果的精度。同時除了樣本因素考慮外,要進(jìn)一步提高特征選擇,如果選擇特征少與多,會造成分類器設(shè)計簡單與復(fù)雜,影響分類。因此進(jìn)一步要研究分類所有特征,從而達(dá)到最優(yōu)。
在神經(jīng)網(wǎng)絡(luò)算法中,冬小麥制圖精度為和用戶精度分別為相對于草地、裸地和其他耕地的精度要高。在支持向量機算法中,草地的信息提取精度相對于裸地、冬小麥和其他耕地最低。在隨機森林算法中,耕地的提取精度整體要比其他地類提取的精度要好。而三種算法的地物分類總體精度進(jìn)行比較中,神經(jīng)網(wǎng)絡(luò)算法的分類精度高于其它算法,適合該區(qū)域的基于遙感影像的農(nóng)用地地物分類信息提取方法。