• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樣本優(yōu)選改進(jìn)的隨機(jī)森林遙感影像分類研究

      2017-09-03 11:01:01趙海強(qiáng)
      城市勘測(cè) 2017年4期
      關(guān)鍵詞:決策樹分類器森林

      趙海強(qiáng)

      (廣州市增城區(qū)城鄉(xiāng)規(guī)劃與測(cè)繪地理信息研究院,廣東 廣州 511300)

      基于樣本優(yōu)選改進(jìn)的隨機(jī)森林遙感影像分類研究

      趙海強(qiáng)*

      (廣州市增城區(qū)城鄉(xiāng)規(guī)劃與測(cè)繪地理信息研究院,廣東 廣州 511300)

      在遙感影像分類的隨機(jī)森林(Random Forests,RF)算法中,樣本的質(zhì)量是分類的基礎(chǔ)和重要環(huán)節(jié),構(gòu)建優(yōu)質(zhì)的樣本數(shù)據(jù)集是一項(xiàng)重要工作,本文對(duì)此進(jìn)行研究,并提出以計(jì)算樣本間的相似度的方法作為度量標(biāo)準(zhǔn),來優(yōu)化樣本數(shù)據(jù)集。結(jié)果表明:①由計(jì)算相似度方法優(yōu)化后的樣本數(shù)據(jù)精確度得到提升,對(duì)各類別的數(shù)據(jù)判讀更加明確;②在文中實(shí)驗(yàn)條件下,改進(jìn)的隨機(jī)森林法的分類結(jié)果優(yōu)于傳統(tǒng)方法,且精度優(yōu)于CART決策樹和SVM方法。

      影像分類;隨機(jī)森林;決策樹;樣本優(yōu)化;精度

      1 引 言

      遙感影像分類是通過對(duì)遙感影像中各類地物的光譜、空間、幾何、紋理等信息的分析,選擇特征,利用一定的手段對(duì)影像中的每個(gè)像素或者分割對(duì)象進(jìn)行歸類,分類依據(jù)是各樣本內(nèi)在的相似性[1]。由于不同類型的遙感影像各具特點(diǎn)[2],比如航片、衛(wèi)片,不同分辨率的影像,其光譜信息、紋理信息各不相同,不同的分類器也各具優(yōu)缺點(diǎn),其任一方法很難同時(shí)適應(yīng)各種復(fù)雜條件,當(dāng)分類數(shù)據(jù)維度較大時(shí),在分類精確度,效率等方面很難有最優(yōu)方法。多分類器的集成學(xué)習(xí)能夠綜合不同的分類方法以期得到較好的分類效果,在理論上集成分類器的效果要優(yōu)于單分類器[3]。隨機(jī)森林(Random Forests,RF)方法是由Leo Breiman將Bagging集成學(xué)習(xí)理論[4]與隨機(jī)子空間方法[5]相結(jié)合,于2001年提出的一種非常有效的及其學(xué)習(xí)算法[6]。在經(jīng)濟(jì)、生物及地球科學(xué)等領(lǐng)域的數(shù)據(jù)挖掘、數(shù)據(jù)篩選與分類方面有廣泛應(yīng)用,其在遙感影像分類方面也有很高的精確度和穩(wěn)定性[7~9]。隨機(jī)森林方法需要樣本訓(xùn)練數(shù)據(jù)來構(gòu)建優(yōu)秀的分類器,而樣本數(shù)據(jù)的選擇往往是一件煩瑣過程,以一定規(guī)則實(shí)現(xiàn)的自動(dòng)化樣本選擇方案效率提高,但得到的樣本可靠性難以保證,錯(cuò)誤樣本和弱樣本影響分類器的準(zhǔn)確性,而人工選擇樣本工作量大,耗時(shí)較長,且目前對(duì)樣本數(shù)據(jù)方面的研究較少。在實(shí)際生產(chǎn)中,好的分類方法對(duì)影像上地物的準(zhǔn)確判別具有重要作用,因此研究影像分類方法及獲取優(yōu)秀的樣本數(shù)據(jù)集是一項(xiàng)重要的工作。

      本文旨在研究用隨機(jī)森林算法對(duì)遙感影像進(jìn)行分類,介紹隨機(jī)森林方法和原理,并提出以計(jì)算樣本間相似度篩選樣本的方法,以此為基礎(chǔ)改進(jìn)隨機(jī)森林方法,以航片影像數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析,以期在高分辨率遙感影像下,對(duì)較高維度數(shù)據(jù)集進(jìn)行分類,并得到優(yōu)質(zhì)的樣本數(shù)據(jù)集。

      2 分類方法與原理

      2.1 隨機(jī)森林方法原理

      隨機(jī)森林是基于無參數(shù)回歸算法的集成學(xué)習(xí)策略[4],是由一組決策樹分類器{h(X,θk),k=1,2…,K}組成的集成分類器,其中{θk}是服從獨(dú)立同分布的隨機(jī)向量,K表示隨機(jī)森林中決策樹的個(gè)數(shù),在給定了自變量X下,每個(gè)決策樹分類器通過投票來決定最優(yōu)的分類結(jié)果??梢哉J(rèn)為每個(gè)決策樹是某一方面的專家,隨機(jī)森林就是將所有專家聚集,將專家投票結(jié)果進(jìn)行綜合,得到最終分類結(jié)果。

      在構(gòu)建森林的過程中,每一棵決策樹的生長,需要注意采樣與完全分裂。包含兩個(gè)隨機(jī)過程,首先對(duì)于樣本集S(s1,s2…sn)中n個(gè)數(shù)據(jù)集,每構(gòu)建一棵決策樹時(shí),從S中隨機(jī)選擇同樣數(shù)量的數(shù)據(jù)構(gòu)成該決策樹的樣本訓(xùn)練集,即采用bootstrap方法有放回的隨機(jī)抽取自助樣本集,隨機(jī)的選擇樣本降低分類樹之間的相關(guān)性;對(duì)于每棵決策樹的分類節(jié)點(diǎn),需要從原始數(shù)據(jù)的特征集(個(gè)數(shù)M)中隨機(jī)的抽取特征子集(個(gè)數(shù)m≤M),然后以一定規(guī)則選擇最優(yōu)特征作為該節(jié)點(diǎn)分裂的依據(jù)。以上兩個(gè)隨機(jī)性防止了決策樹構(gòu)建和訓(xùn)練樣本集的過度擬合,從而不需要對(duì)決策樹再進(jìn)行剪枝處理。

      隨機(jī)森林的建立過程:

      (1)從N個(gè)原始樣本集中,按照bootstrap抽樣方法隨機(jī)有放回的選擇N個(gè)樣本,作為決策樹根節(jié)點(diǎn)數(shù)據(jù),本次未被選中的樣本為袋外數(shù)據(jù)(Out-of-bag,OOB,由概率統(tǒng)計(jì)原理:大約有1/3的原始數(shù)據(jù)未被選中),由OOB數(shù)據(jù)對(duì)分類誤差進(jìn)行估計(jì);

      (2)原始數(shù)據(jù)集中包含M個(gè)特征,每棵樹的每個(gè)節(jié)點(diǎn)分裂時(shí),隨機(jī)從M屬性中抽取m(m≤M)個(gè)特征,并按照一定策略(如信息增益),選擇最優(yōu)分裂能力的特征進(jìn)行節(jié)點(diǎn)分裂;

      (3)每棵樹的生長都按2過程分裂,直到達(dá)到最大分裂限度,并不需對(duì)樹剪枝。

      (4)由以上三個(gè)步驟建立設(shè)定數(shù)量的大量決策樹,構(gòu)成隨機(jī)森林的原型。

      隨機(jī)森林算法創(chuàng)建多個(gè)類型的決策樹,每棵樹對(duì)待分類數(shù)據(jù)進(jìn)行分類,隨機(jī)森林按照多數(shù)投票法將結(jié)果進(jìn)行綜合,最終得到隨機(jī)森林的分類結(jié)果。算法流程圖如圖1所示。

      圖1 隨機(jī)森林算法圖

      2.2 基于樣本優(yōu)選策略的改進(jìn)

      本文提出的樣本優(yōu)選策略是通過樣本間的相似度作為度量標(biāo)準(zhǔn),其思想為:不同類別的樣本相似度極低;同一類別的樣本,識(shí)別度低的樣本與識(shí)別度高的樣本相似性不足某一閾值,通過閾值剔除識(shí)別度低的樣本,最終得到優(yōu)選樣本。相似性計(jì)算[12]是隨機(jī)森林方法中的一個(gè)重要分析工具之一,它表征了樣本數(shù)據(jù)之間的相似性關(guān)系,其求取過程是在每棵樹(tree-i,i=1,2…n)生長完,形成森林后,對(duì)原始數(shù)據(jù)集(S)進(jìn)行整理,將兩個(gè)樣本(sm,sn)放到每棵樹內(nèi)進(jìn)行分類,如果兩個(gè)樣本出現(xiàn)在同一個(gè)葉子節(jié)點(diǎn),則將這兩個(gè)數(shù)據(jù)歸為一類,認(rèn)為這棵樹對(duì)兩個(gè)樣本分類結(jié)果一致,將所有的樹進(jìn)行分類,對(duì)結(jié)果計(jì)數(shù),并除以樹的總數(shù)作歸一化,就可以得到某一個(gè)樣本與其他所有樣本的相似性結(jié)果,相似性計(jì)算是一種聚類分析的策略。

      對(duì)構(gòu)建好的隨機(jī)森林RF,包含n棵樹,一對(duì)樣本數(shù)據(jù)為(sm,sn),同時(shí)遍歷森林中每棵樹(tree-i),記錄該對(duì)樣本數(shù)據(jù)在每棵樹的分類結(jié)果,記為{Zmi,Zni,i為第i棵樹},則相似性計(jì)算式為:

      (1)

      式中I(…)為測(cè)試度計(jì)數(shù)函數(shù),用以判斷兩個(gè)變量值是否相等,相等計(jì)數(shù)為1,否則計(jì)數(shù)為0。改進(jìn)的隨機(jī)森林方法流程圖如圖2所示。

      圖2 改進(jìn)的隨機(jī)森林方法流程圖

      3 實(shí)驗(yàn)與分析

      實(shí)驗(yàn)數(shù)據(jù)為某地2011年的航空影像數(shù)據(jù)(空間分辨率為 0.3 m,圖3(a)),影像包含有城市街區(qū)以及周邊郊區(qū),該范圍內(nèi)的地物類型主要分為:水體、道路、廠房、居民區(qū)、農(nóng)田及植被。由面向?qū)ο蠓诸惖乃悸?,將原始影像先進(jìn)行多尺度分割,選擇了部分?jǐn)?shù)據(jù)作為樣本(圖3(b)),樣本類別如圖3(c):A(廠房),B(道路),C(居民區(qū)),D(農(nóng)田),E(水體),F(xiàn)(植被)。

      實(shí)驗(yàn)中隨機(jī)森林算法和樣本優(yōu)選方法是基于C++和opencv計(jì)算機(jī)視覺庫為平臺(tái)實(shí)現(xiàn),CART樹和SVM采用eCognition軟件實(shí)現(xiàn),eCognition提供了面向?qū)ο蠓诸惖母鞣N方法,在面向?qū)ο蟮倪b感影像分割分類方面具有不可取代的優(yōu)勢(shì)。

      圖3 原始影像及樣本數(shù)據(jù)

      為研究大數(shù)據(jù)量以及大量特征信息下的影像分類效果,本實(shí)驗(yàn)分別提取了影像分割對(duì)象的均值(Mean),標(biāo)準(zhǔn)差(Standard deviation),紋理信息包含:同質(zhì)性(Homogeneity),角二階矩陣(Ang. 2nd moment),熵(Entropy)等六種紋理信息,及形狀因子(Shape index),亮度(Brightness),歸一化植被指數(shù)(NDVI),歸一化水指數(shù)(NDWI)等26種特征信息,本實(shí)驗(yàn)樣本對(duì)象數(shù):1 632個(gè),待分類的數(shù)據(jù)對(duì)象:23 251個(gè)。

      樣本優(yōu)選的原始數(shù)據(jù)是構(gòu)建的特定規(guī)則下在eCognition軟件中自動(dòng)獲取的 2 000個(gè)樣本數(shù)據(jù)集,優(yōu)選策略是:計(jì)算每個(gè)類別的某個(gè)樣本與其他所有樣本在隨機(jī)森林下的相似度,按照相似度在20%(20%是由數(shù)據(jù)統(tǒng)計(jì)得到的)以上的樣本進(jìn)行計(jì)數(shù),遍歷所有樣本,將計(jì)數(shù)結(jié)果進(jìn)行統(tǒng)計(jì),如果某個(gè)樣本的計(jì)數(shù)結(jié)果在10個(gè)以上,認(rèn)為是較好樣本進(jìn)行保存,反之認(rèn)為樣本較差。

      將原始2 000樣本數(shù)據(jù)進(jìn)行隨機(jī)森林的訓(xùn)練,形成訓(xùn)練器,通過計(jì)算統(tǒng)計(jì)OOB誤差結(jié)果,得到?jīng)]有優(yōu)化的OOB誤差。然后再由以上樣本優(yōu)選的策略進(jìn)行優(yōu)化,篩選掉了208個(gè)樣本數(shù)據(jù),得到優(yōu)化后的OOB誤差統(tǒng)計(jì)。

      OOB誤差個(gè)數(shù)跟樹的數(shù)目相同,這里統(tǒng)計(jì)了前10個(gè)OOB結(jié)果:

      OOB誤差統(tǒng)計(jì)結(jié)果 表1

      將原始數(shù)據(jù)和優(yōu)選后的樣本數(shù)據(jù)分別構(gòu)建隨機(jī)森林分類器,并將訓(xùn)練器進(jìn)行數(shù)據(jù)檢驗(yàn),將兩次分類的結(jié)果與正確值(已經(jīng)在實(shí)驗(yàn)前統(tǒng)計(jì)好)進(jìn)行比較,統(tǒng)計(jì)正確率,得到的統(tǒng)計(jì)結(jié)果如表2所示:

      分類結(jié)果統(tǒng)計(jì)表 表2

      分析表1和表2 可以得到,經(jīng)過相似性策略得到的樣本優(yōu)選結(jié)果的OOB誤差低于原始樣本數(shù)據(jù),在分類正確率方面可以看出,經(jīng)過相似性策略的樣本分類正確率得到提升,錯(cuò)誤分類數(shù)量減少,表明該方法進(jìn)行樣本的優(yōu)選策略具有一定的可靠性。

      實(shí)驗(yàn)中隨機(jī)森林的參數(shù)選擇:樹最大深度:25,最小樣本數(shù):10,樹的數(shù)目:100,以樹的構(gòu)建數(shù)目和正確率作為分裂終止條件。并在同樣的樣本集和分割結(jié)果下,采用CRAT決策樹和SVM方法進(jìn)行相同的分類,結(jié)果如下:

      圖4 分類結(jié)果

      局部結(jié)果分析:

      圖5 分類結(jié)果局部對(duì)比

      圖4中(a)、(b)、(c)、(d)分別為采用不同方法對(duì)整個(gè)區(qū)域的分類結(jié)果,整體來看,三種方法的分類結(jié)果符合一致性。圖5的a—e為城市地區(qū)局部對(duì)比圖,分析可得,在特征較為明顯容易區(qū)分的城市建筑群,RF算法,CART樹算法和SVM三種方法都能較正確地進(jìn)行分類,分類結(jié)果沒有明顯差別,但是在四幅圖中圓圈框內(nèi)的城市植被類別區(qū)域,對(duì)比了原始圖像的特征,可以看出RF方法的分類結(jié)果好于CART樹和SVM,而改進(jìn)的RF方法比傳統(tǒng)RF法結(jié)果更準(zhǔn)確些,剔除了一些細(xì)節(jié),使整體結(jié)果更加準(zhǔn)確,反而SVM方法出現(xiàn)了過分類現(xiàn)象。圖5的(f)~(j)為郊區(qū)沿海的農(nóng)田區(qū)域,從農(nóng)田區(qū)域的分類效果來看,RF方法相對(duì)于CART樹和SVM方法將田地之間的分界線也能較為精細(xì)的分出來,在方形框內(nèi)顯示了改進(jìn)的RF方法比傳統(tǒng)RF方法的分類要好,且都好于另外兩種方法。

      4 結(jié) 語

      本文主要討論使用隨機(jī)森林算法對(duì)遙感影像的分類,并提出基于樣本優(yōu)化的隨機(jī)森林改進(jìn)方法,從理論原理分析和實(shí)驗(yàn)相結(jié)合,并與其他分類方法CART決策樹和SVM分類方法的結(jié)果進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明在本文實(shí)驗(yàn)中隨機(jī)森林方法在分類的精細(xì)度和準(zhǔn)確率方面優(yōu)于CART決策樹和SVM分類方法,改進(jìn)的隨機(jī)森林方法優(yōu)于傳統(tǒng)隨機(jī)森林方法,在高分辨率的航片影像上隨機(jī)森林算法得到了良好的效果,但從隨機(jī)森林分類的結(jié)果上也可以看到,由于其分類的精細(xì)化,可能導(dǎo)致在某些地區(qū)的分類效果不能得到提升。隨機(jī)森林訓(xùn)練器的形成是建立在良好的樣本基礎(chǔ)上,如果樣本數(shù)據(jù)噪聲過大,會(huì)影響分類器的性能,而本文提出基于相似度策略的樣本優(yōu)選方案,由實(shí)驗(yàn)可以得到經(jīng)過相似度優(yōu)選的樣本建立的隨機(jī)森林OOB誤差減小,且在分類的正確率方面得到了提升,表明了該方法具有一定的可用性。

      下一步的工作是進(jìn)一步研究隨機(jī)森林算法在衛(wèi)片,和不同尺度影像的適用性以及樣本優(yōu)選策略中,如何選擇合適的測(cè)試度以適應(yīng)不同的樣本數(shù)據(jù)。

      [1] 杜鳳蘭,田慶久,夏學(xué)齊. 遙感圖像分類方法評(píng)析與展望[J]. 遙感技術(shù)與應(yīng)用,2004(6):521~525.

      [2] 劉毅,杜培軍,鄭輝等. 基于隨機(jī)森林的國產(chǎn)小衛(wèi)星遙感影像分類研究[J]. 測(cè)繪科學(xué),2012(4):194~196.

      [3] Giacinto G,F(xiàn)abio R. Approach to the Automatic Design of Multiple Classifier Systems[J]. Pattern Recognition Letters,2001,22(1):25~33.

      [4] Breiman,L. Bagging predictors[J].Machine learning,1996,24(2):123~140.

      [5] Ho T. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832~844.

      [6] Breiman,L.Random forests[J]. Machine learning,2001,45(1):5~32.

      [7] Rodríguez V F,Abarca F,Ghimire B. Incorporating Spa-tial Variability Measures in Land-cover Classification u-sing Random Forest[J]. Procedia Environmental Sciences. 2011,3(1):44~49.

      [8] Pall O G,Jon A B,Johannes R S.Random Forests for land cover classification. Pattern Recognition Letters. 2006,27(4):294~300.

      [9] Verikas A,Gelzin A,Bacauskiene M.Mining data with random forests:A survey and results of new tests[J]. Pattern Recognition. 2011,44(2):330~349.

      [10] 齊樂,岳彩榮. 基于CART決策樹方法的遙感影像分類[J]. 林業(yè)調(diào)查規(guī)劃,2011(2):62~66.

      [11] Cortes C,Vapnik V. Support-Vector Networks[J]. Machine Learning,1995,20(3):273~297.

      [12] Qi YanJun,Kelein-Seetharaman Judith,Bar-Joseph Ziv.Random Forest Similarity for Protein-Protein Interaction Prediction from Multiple Sources[C]. Pacfic Symposium on Biocomputing 10,2005:531~542.

      The Research of Improved Random Forest Remote Sensing Image Classification Based on Sample Optimization

      Zhao Haiqiang

      (Zengcheng Surveying and Mapping Institute of Urban and Rural Planning,Guangzhou 511300,China)

      The quality of the samples is the basic and important segment in the random forest(R.F.) algorithm of remote sensing image classification,building high quality sample data sets is an important work,This article is based on this problem,and proposed a metric to optimize the sample data set based on calculating the similarity between samples,The results show that:①The sample data accuracy has improved by calculating the similarity method,and more clear to all kinds of other data interpretation;②The classification result of improved RF is more precise,the accuracy is superior to the CART decision tree and the SVM method at the conditions of this paper.

      image classification;random forests;decision tree;sample optimization;precision

      1672-8262(2017)04-79-05

      TP753

      A

      2017—02—17

      趙海強(qiáng)(1988—),男,碩士,助理工程師,主要從事攝影測(cè)量與遙感生產(chǎn)應(yīng)用研究的相關(guān)工作。

      住房和城鄉(xiāng)建設(shè)部2013年科學(xué)技術(shù)項(xiàng)目——科技示范工程項(xiàng)目(2013-S5-30)

      猜你喜歡
      決策樹分類器森林
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      哈Q森林
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      哈Q森林
      哈Q森林
      基于決策樹的出租車乘客出行目的識(shí)別
      哈Q森林
      翼城县| 江门市| 颍上县| 九寨沟县| 江华| 葫芦岛市| 霍邱县| 花垣县| 阿鲁科尔沁旗| 江永县| 石楼县| 政和县| 吉首市| 桃园市| 东乡| 温泉县| 略阳县| 金昌市| 喜德县| 普定县| 巴南区| 禹城市| 平乐县| 祥云县| 宾阳县| 青龙| 阿坝县| 金寨县| 望都县| 罗山县| 阜新市| 乌兰县| 驻马店市| 京山县| 文登市| 乐清市| 西和县| 兴国县| 宁武县| 马山县| 陆良县|