董建江,田 野,張建興,欒振東*,杜增豐*
1. 中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)部物理與光電工程學(xué)院,山東 青島 266100 2. 中國(guó)科學(xué)院海洋研究所,中國(guó)科學(xué)院海洋地質(zhì)與環(huán)境重點(diǎn)實(shí)驗(yàn)室&深海極端環(huán)境與生命過(guò)程研究中心,中國(guó)科學(xué)院海洋大科學(xué)研究中心,山東 青島 266071
近年來(lái)近海生態(tài)系統(tǒng)受到全球變化和人類活動(dòng)的多重影響,出現(xiàn)生境退化、資源衰退、生物多樣性降低等問(wèn)題。海洋牧場(chǎng)建設(shè)是實(shí)現(xiàn)生境恢復(fù)和資源增殖的重要手段,是漁業(yè)產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí)的重要抓手。海洋牧場(chǎng)的生物豐度統(tǒng)計(jì)等工作,以往通過(guò)人工解決,效率低、周期長(zhǎng)、成本大且準(zhǔn)確率不高。目前,已經(jīng)有不少海洋牧場(chǎng)企業(yè)利用水下攝像系統(tǒng)開(kāi)始視頻數(shù)據(jù)的收集和利用,實(shí)時(shí)信息量巨大,難以利用人工方法進(jìn)行生物群落數(shù)據(jù)的提取,圖像分析技術(shù)與機(jī)器學(xué)習(xí)等在海洋牧場(chǎng)生物資源監(jiān)測(cè)研究中顯得尤為重要[1]。在水產(chǎn)養(yǎng)殖中應(yīng)用人工智能、機(jī)器視覺(jué)技術(shù)及其他傳感器技術(shù),可以實(shí)時(shí)的監(jiān)測(cè)生態(tài)環(huán)境等,并結(jié)合深度學(xué)習(xí)、隨機(jī)森林(random forest,RF)等算法實(shí)現(xiàn)機(jī)器視覺(jué)的識(shí)別分類檢測(cè),對(duì)海洋生物進(jìn)行分類識(shí)別統(tǒng)一分析,深入挖掘養(yǎng)殖過(guò)程數(shù)據(jù),提高工作效率和決策可靠性。
水下目標(biāo)探測(cè)所使用傳統(tǒng)的紅-綠-藍(lán)(RGB)相機(jī)取得圖像的技術(shù)越來(lái)越成熟。傳統(tǒng)的圖像處理方法[2-3]和基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的目標(biāo)檢測(cè)算法,如基于區(qū)域的快速卷積神經(jīng)網(wǎng)絡(luò)(faster R-CNN)[3],You Only Look Once(YOLO)[4]等已廣泛應(yīng)用于水下目標(biāo)檢測(cè)。在理想的水下成像環(huán)境中,檢測(cè)速度和檢測(cè)結(jié)果均優(yōu)于傳統(tǒng)方法,各種算法的精度都能達(dá)到較為理想的水平。然而,傳統(tǒng)的RGB圖像檢測(cè)技術(shù)存在一系列問(wèn)題。當(dāng)水下成像環(huán)境較差且海洋動(dòng)物具有保護(hù)色彩機(jī)制時(shí),很難從復(fù)雜的背景中有效地檢測(cè)和識(shí)別實(shí)驗(yàn)?zāi)繕?biāo)[5-6]。
高光譜成像技術(shù)可以提供比RGB圖像更高的光譜分辨率,可從紫外、可見(jiàn)光、近紅外到中紅外波段,提供豐富的光譜信息。高光譜數(shù)據(jù)一般由數(shù)百個(gè)相鄰的窄光譜波段獲取,可以解決傳統(tǒng)RGB圖像檢測(cè)技術(shù)所遇到的問(wèn)題,也使其具有較好的目標(biāo)識(shí)別能力和相似目標(biāo)識(shí)別能力。經(jīng)典的高光譜目標(biāo)檢測(cè)算法包括由Reed和Yu開(kāi)發(fā)的異常檢測(cè)器RXD算法[7]、核RXD (KRXD)算法[8]、正交子空間投影(OSP)算法[9]和約束能量最小化(CEM)算法[10]。Mohite等[11]使用高光譜數(shù)據(jù)檢測(cè)葡萄上的農(nóng)藥殘留,比較了XGBoost、RF、SVM和人工神經(jīng)網(wǎng)絡(luò)(ANN)四種分類器。此外,研究了LASSO和Elastic Net特征選擇的效用。結(jié)果表明,當(dāng)同時(shí)使用LASSO和Elastic Net選擇的波段時(shí),RF獲得了最準(zhǔn)確的分類模型。目前,文獻(xiàn)中關(guān)于高光譜水下目標(biāo)檢測(cè)與分類的研究較少。
隨機(jī)森林(RF)算法已成功應(yīng)用于一系列高維數(shù)據(jù)分類研究,其中包括高光譜數(shù)據(jù)分析[12]。RF是一個(gè)bagging(即bootstrap聚合)集成過(guò)程,其中分類樹(shù)是從訓(xùn)練數(shù)據(jù)中獲得的隨機(jī)樣本中生長(zhǎng)出來(lái)的[13]。RF使用套袋和隨機(jī)變量選擇在集合中構(gòu)建決策樹(shù)[14]。作為集成分類器,RF算法擁有幾個(gè)優(yōu)點(diǎn):(1)該算法結(jié)合了特征之間的交互作用;(2)在計(jì)算上比裝袋或增壓更有效;(3)不容易出現(xiàn)過(guò)擬合現(xiàn)象;(4)提供了可變強(qiáng)度估計(jì)和內(nèi)部誤差估計(jì)[13]。
本研究的目的是:(1)利用水下高光譜數(shù)據(jù)和三種RF算法建立模型,在水下環(huán)境中對(duì)五種海洋牧場(chǎng)常見(jiàn)的底棲動(dòng)物進(jìn)行分類識(shí)別;(2)評(píng)估RF、主成分分析的隨機(jī)森林(principal component analysis-random forest,PCA-RF)和遞歸特征消除的隨機(jī)森林(recursive feature elimination-random forest,RFE-RF)三種算法在水下高光譜數(shù)據(jù)分類分析中的效用,選擇可能產(chǎn)生最佳分類精度的波段子集。(3)比較RF、PCA-RF與RFE-RF算法的分類性能,測(cè)試不同特征選擇算法選擇的波段組合是否能夠提高最終的分類精度。
所使用的水下目標(biāo)物的高光譜數(shù)據(jù)由中國(guó)科學(xué)院海洋研究所研發(fā)的水下推掃式高光譜成像儀獲得,采用標(biāo)準(zhǔn)鹵素?zé)?400~1 000 nm)作為水下主動(dòng)照明光源,分光模組(Imspector V10,江蘇雙利合譜科技有限公司,中國(guó))入射狹縫為30 μm,CCD(ICX,SONY,日本)像素?cái)?shù)為1 392×1 040,掃描視場(chǎng)角為22°,通道數(shù)分1 440、720、360、176四檔,光譜分辨率和空間分辨率由通道數(shù)決定。整機(jī)兼容靜態(tài)定點(diǎn)掃描和動(dòng)態(tài)巡航掃描,可坐底或者搭載無(wú)人艇或者水下機(jī)器人進(jìn)行工作。
選用5種海洋牧場(chǎng)常見(jiàn)的經(jīng)濟(jì)動(dòng)物(蝦夷扇貝、櫛孔扇貝、脈紅螺、皺紋盤鮑、仿刺參)作為目標(biāo)物,使用研發(fā)的水下推掃式高光譜成像儀,選用靜態(tài)定點(diǎn)式掃描,獲取以上5種目標(biāo)物的高光譜數(shù)據(jù)。
實(shí)驗(yàn)數(shù)據(jù)由收集的7張高光譜圖像提取。經(jīng)過(guò)預(yù)處理,得到360個(gè)反射譜波段。在此提供了5張圖片的真實(shí)情況如圖1所示。為了獲得、訓(xùn)練和評(píng)價(jià)分類模型,70%的光譜數(shù)據(jù)用于分類算法訓(xùn)練集,訓(xùn)練集數(shù)據(jù)來(lái)自圖1的高光譜圖像的反射譜數(shù)據(jù);30%的光譜數(shù)據(jù)作為測(cè)試集用于分類模型評(píng)估,測(cè)試集數(shù)據(jù)來(lái)自額外的2張高光譜圖像的反射譜數(shù)據(jù)。
圖1 本研究所選擇的訓(xùn)練集光譜數(shù)據(jù)由五張高光譜圖像(a)—(e)提取,目標(biāo)為五種樣品,光譜分辨率2.8 nm;(f)為不同顏色標(biāo)記的五種樣品,分別為仿刺參(紅色),蝦夷扇貝(綠色),脈紅螺(藍(lán)色),櫛孔扇貝(黃色),皺紋盤鮑(青色),樣品的標(biāo)記與光譜提取及預(yù)處理由ENVI軟件完成Fig.1 The spectral data of the selected training set is extracted from five hyperspectral images (a)—(e),showing five target samples with a spectral resolution of 2.8 nm;(f) Five samples with different color markings,namely,imitation spiny ginseng (red),scallop (green),veined red snail (blue),ctenophore (yellow),and wrinkled disc abalone (cyan). The sample labeling,spectral extraction and pre-processing are done using ENVI software
所選擇的高光譜圖像的目標(biāo)樣品有五種,分別為蝦夷扇貝、櫛孔扇貝、脈紅螺、皺紋盤鮑、仿刺參。在將他們進(jìn)行分類識(shí)別之前,每個(gè)目標(biāo)都打上相應(yīng)的數(shù)字與顏色標(biāo)簽。每種樣品在其表面隨機(jī)點(diǎn)與隨機(jī)區(qū)域全覆蓋共提取35條光譜,每張高光譜圖像提取175條光譜,五張高光譜圖像總共提取875條光譜構(gòu)建為訓(xùn)練集。測(cè)試集數(shù)據(jù)則是用另外兩張拍攝位置不同但其他實(shí)驗(yàn)條件相同的高光譜圖像提取,總共提取375條光譜。
五種底棲動(dòng)物樣品的數(shù)字標(biāo)簽分別為:(1)仿刺參、(2)蝦夷扇貝、(3)脈紅螺、(4)櫛孔扇貝、(5)皺紋盤鮑。通過(guò)對(duì)五種樣品進(jìn)行數(shù)字標(biāo)簽標(biāo)識(shí),可以在隨機(jī)森林算法分類過(guò)程中用數(shù)字標(biāo)簽輸出分類結(jié)果,提高目標(biāo)識(shí)別便利性。
本研究的重點(diǎn)是建立對(duì)水下目標(biāo)底棲動(dòng)物的高光譜數(shù)據(jù)的隨機(jī)森林分類模型。實(shí)驗(yàn)采集了363.87~1 047.92 nm光譜范圍內(nèi)的數(shù)據(jù)。所收集的光譜曲線橫坐標(biāo)為波長(zhǎng),縱坐標(biāo)為反射譜強(qiáng)度,將收集到的光譜進(jìn)行歸一化處理,圖2為五樣品的歸一化光譜曲線,光譜曲線顏色與樣品的顏色標(biāo)簽相對(duì)應(yīng),分別為:仿刺參(紅色)、蝦夷扇貝(綠色)、脈紅螺(藍(lán)色)、櫛孔扇貝(黃色)、皺紋盤鮑(青色)。由于水體對(duì)光的吸收作用,選取了3 63.87與830.00 nm波長(zhǎng)區(qū)間內(nèi)的光譜。
圖2 五種樣品的歸一化反射譜光譜曲線Fig.2 Normalized reflectance spectral curves of the five samples
1.2.1 隨機(jī)森林(RF)
RF方法流程圖如圖3所示。
圖3 基于RF算法的高光譜數(shù)據(jù)分類方法流程圖Fig.3 Flowchart of hyperspectral data classification method based on RF algorithm
RF算法是一個(gè)決策樹(shù)的集合。由于其簡(jiǎn)單、精度好,已在多個(gè)高光譜分類工作中使用[13]。決策樹(shù)是輸入數(shù)據(jù)的一種遞歸分割方法[15]。從根節(jié)點(diǎn)(樹(shù)的第一級(jí))到葉節(jié)點(diǎn)進(jìn)行分割,減少每次分割時(shí)的熵。葉節(jié)點(diǎn)是樹(shù)的最后一層也是熵最小的地方。其目的是在葉子中只保留同一類的樣品。從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑上有幾個(gè)分離節(jié)點(diǎn)。這些包括基于可用特征和應(yīng)用于所選特征的閾值的決策規(guī)則。
盡管決策樹(shù)非??焖俸秃?jiǎn)單,但它們對(duì)噪聲非常敏感,經(jīng)常過(guò)擬合訓(xùn)練樣本。正因?yàn)槿绱?決策樹(shù)可以被歸類為弱學(xué)習(xí)者。為了克服這些缺點(diǎn),將決策樹(shù)集成到一個(gè)強(qiáng)學(xué)習(xí)器中。在RF算法中,森林中的樹(shù)必須是不相關(guān)的,每棵樹(shù)都是唯一的,因此應(yīng)用了隨機(jī)子空間(feature bagging)和bootstrap aggregating (bagging)技術(shù)。
Breiman在2001年提出了Bootstrap aggregating算法,它包括對(duì)訓(xùn)練數(shù)據(jù)集樣本子集的隨機(jī)選擇和替換[15]。Ho在1995年提出隨機(jī)子空間由每個(gè)節(jié)點(diǎn)的所有輸入特征中隨機(jī)選擇的特征子集組成,并從所選擇的新特征子集中考慮在下一層產(chǎn)生較小熵的分割節(jié)點(diǎn)的特征[16]。
如前所述,這兩種技術(shù)在不增加趨勢(shì)的情況下使模型方差最小化。因此,當(dāng)單個(gè)決策樹(shù)對(duì)噪聲敏感時(shí),對(duì)于樹(shù)的集合的平均預(yù)測(cè)不敏感,前提是這些樹(shù)是不相關(guān)的。在完成森林后,每棵樹(shù)都為一個(gè)類投了一票,標(biāo)簽由多數(shù)投票來(lái)定義。該算法的主要優(yōu)點(diǎn)是能很好地處理噪聲、可調(diào)參數(shù)少、計(jì)算代價(jià)低。
對(duì)于這項(xiàng)工作,RF算法使用了python軟件中的scikit-learn包的RandomForestClassifier庫(kù)實(shí)現(xiàn)。樹(shù)的數(shù)量設(shè)置為500,深度設(shè)置為8。這些值是在一個(gè)調(diào)優(yōu)過(guò)程之后定義的。使用RF進(jìn)行5倍交叉驗(yàn)證模型參數(shù)訓(xùn)練,通過(guò)這個(gè)過(guò)程輸出最優(yōu)參數(shù),超過(guò)最優(yōu)參數(shù)后整體精度也不會(huì)再顯著提高,因此設(shè)定了這些參數(shù)值。
在RF訓(xùn)練過(guò)程中,三分之一不用于種樹(shù)的樣本(“out of bag”,或稱為OOB)用于計(jì)算:(1)OOB誤差,它提供了分類性能的內(nèi)部度量;(2)變量重要性,這是基于準(zhǔn)確性的平均下降或基尼指數(shù)[14]。
RF的一個(gè)有用的副產(chǎn)物是變量重要性,它可用于特征排序。因此,RF的變量重要性揭示了相關(guān)波段對(duì)模型分類的貢獻(xiàn)程度[15]。本研究中使用基尼系數(shù)重要性或排列重要性作為波段重要性的度量,以此選擇特征波段。基尼系數(shù)重要性是用森林中樹(shù)木數(shù)量歸一化的分裂變量的基尼系數(shù)雜質(zhì)減少量的總和計(jì)算。
利用OOB觀測(cè)值計(jì)算分類精度平均下降時(shí)的變量重要性。它是通過(guò)測(cè)量當(dāng)OOB觀測(cè)數(shù)據(jù)與原始觀測(cè)數(shù)據(jù)隨機(jī)排列時(shí)預(yù)測(cè)精度的變化來(lái)計(jì)算的。然后對(duì)所有樹(shù)的預(yù)測(cè)精度差取平均值,計(jì)算排列重要性值[17]。
1.2.2 基于主成分分析的隨機(jī)森林(PCA-RF)
PCA-RF算法流程如圖4所示。
圖4 基于PCA-RF算法的高光譜數(shù)據(jù)分類流程圖Fig.4 Flow chart of hyperspectral data classification based on PCA-RF algorithm
主成分分析(PCA)是常用的特征降維方法,其思想是求解一個(gè)正交線性變換,使原始數(shù)據(jù)可以用少數(shù)幾個(gè)正交方向線性表示,同時(shí)使得原始數(shù)據(jù)的信息量損失最小。然而,PCA變換使原始數(shù)據(jù)的物理意義發(fā)生了改變,而且,當(dāng)波段間的相關(guān)性很弱時(shí),PCA方法的效率會(huì)大大下降。本工作使用PCA對(duì)高光譜數(shù)據(jù)進(jìn)行降維,提取隱藏在數(shù)據(jù)中的主成分,壓縮特征空間,再對(duì)主成分?jǐn)?shù)據(jù)進(jìn)行光譜特征提取,根據(jù)主成分?jǐn)?shù)對(duì)模型的特征貢獻(xiàn)度分析,算法最終采用6個(gè)主成分分量進(jìn)行特征提取。然后將PCA降維后的結(jié)果輸入RF分類器,得到分類準(zhǔn)確度。利用python軟件中的sklearn.decomposition包的PCA庫(kù)實(shí)現(xiàn)數(shù)據(jù)的降維。
1.2.3 基于遞歸特征消除的隨機(jī)森林(RFE-RF)
圖5為RFE-RF算法的流程圖。
圖5 基于RFE-RF算法的高光譜數(shù)據(jù)特征選擇分類方法流程圖Fig.5 Flowchart of feature selection classification method for hyperspectral data based on RFE-RF algorithm
對(duì)于三種算法,70%的光譜數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,30%的光譜數(shù)據(jù)則是作為獨(dú)立的測(cè)試數(shù)據(jù)集,以提供模型精度的獨(dú)立估計(jì)。分類精度首先使用RF中的OOB誤差估計(jì)和混淆矩陣來(lái)評(píng)估,OOB誤差估計(jì)公式可參考Simone Vincenzi團(tuán)隊(duì)的工作[19]。
實(shí)驗(yàn)數(shù)據(jù)共360個(gè)波段,從RF算法運(yùn)算得到的基于變量重要性的波段選擇結(jié)果來(lái)看(如圖6),準(zhǔn)確度排名最高的前二十個(gè)波段組合為:367.48、371.08、471.22、365.67、412.75、374.70、372.89、458.38、445.57、451.06、456.55、454.72、378.31、438.26、380.12、407.30、469.39、449.23、443.74和473.06 nm,該順序按照變量重要性由高到低排列。
圖6 五種樣品的光譜波段變量重要性分布Fig.6 Importance distribution of spectral band variables for five samples
通過(guò)RF的變量重要性排序,篩選出排名較高,對(duì)模型貢獻(xiàn)度高的最佳波段數(shù)所對(duì)應(yīng)的反射譜強(qiáng)度數(shù)據(jù),再將RF運(yùn)算結(jié)果中排名靠前的最佳特征波段數(shù)據(jù)輸入分類器中,通過(guò)優(yōu)化參數(shù),得到分類準(zhǔn)確度。通過(guò)對(duì)訓(xùn)練集與測(cè)試集的劃分訓(xùn)練,以及OOB誤差估計(jì)(圖7),優(yōu)化后的n_estimators值為400;max_depth值為8。
圖7 五種樣品的OOB誤差估計(jì)n_estimators為400時(shí),OOB誤差為0.004 6Fig.7 OOB error estimation for five samplesOOB error is 0.004 6 when n_estimators=400
將數(shù)據(jù)的分類結(jié)果輸出混淆矩陣(圖8),可以看到五種樣品的識(shí)別情況。第三種(脈紅螺)樣品識(shí)別精度最低,為64%;第一種(仿刺參)與第四種(櫛孔扇貝)的識(shí)別精度最高,為100%;第二種(蝦夷扇貝)與第五種(皺紋盤鮑)的識(shí)別精度分別為91%與96%,總體分類精度較高。因?yàn)榉麓虆⑴c櫛孔扇貝的反射譜特征與其他四種樣品有明顯差異,所以兩種樣品更容易被識(shí)別,分類精度最高。實(shí)驗(yàn)所提取的脈紅螺反射譜光譜曲線趨勢(shì)與光譜特征與其他樣品在某些波段部分相似,測(cè)試集中的75個(gè)脈紅螺樣品有20個(gè)被錯(cuò)誤識(shí)別,因此識(shí)別精度最低。通過(guò)識(shí)別結(jié)果可知,脈紅螺有36%的幾率被識(shí)別為皺紋盤鮑。RF分類精度為90.13%,在n_estimators為400情況下OOB誤差為0.004 6,kappa系數(shù)為0.876 7,模型穩(wěn)定度優(yōu)異。
圖8 (a)根據(jù)測(cè)試集樣品數(shù)量輸出混淆矩陣;(b)根據(jù)樣品識(shí)別精度輸出混淆矩陣Fig.8 (a) Output confusion matrix based on the number of samples in the test set;(b) Output confusion matrix based on sample identification accuracy
主成分分析可以將數(shù)據(jù)從N維降低到M維,此時(shí)需要找到M個(gè)向量用于投影原始數(shù)據(jù),使投影誤差(投影距離)最小。因此,可以對(duì)原始數(shù)據(jù)進(jìn)行主成分分析,這樣就可以使用具有較少維度且不相關(guān)的數(shù)據(jù)來(lái)取代原始的高維數(shù)據(jù),然后用變換后的數(shù)據(jù)進(jìn)行建模。對(duì)經(jīng)歸一化處理的光譜數(shù)據(jù)進(jìn)行主成分分析降維,得到帕累托圖(Pareto chart)。通過(guò)帕累托圖可以推斷,當(dāng)保留6個(gè)主成分時(shí),特征貢獻(xiàn)率達(dá)到了99.92%,因此計(jì)算中采用前6個(gè)主成分。圖9給出了數(shù)據(jù)的PCA散點(diǎn)圖分布。將最佳解釋度選出的主成分?jǐn)?shù)輸入PCA*RF分類器中,得到降維后的五種樣品的光譜分類精度。PCA-RF分類精度為95.20%,Explained variance(解釋度)0.999 2,kappa系數(shù)0.843 3,模型穩(wěn)定度優(yōu)異。
圖9 五種樣品高光譜數(shù)據(jù)的PCA主成分分布散點(diǎn)圖,主成分?jǐn)?shù)設(shè)定為6Fig.9 Scatter plot of PCA principal component distribution for hyperspectral data of five samples with the first 6 principal components
圖10為五種樣品的高光譜數(shù)據(jù)在RFE-RF模型運(yùn)行過(guò)程中的RFECV精度隨篩選特征數(shù)的變化。由RFE算法選擇了最佳波段子集,用于五種樣品的分類,如表1,提供了有關(guān)所選波段的細(xì)節(jié)。RFE選擇的波段范圍為400~1 000 nm。
表1 五種樣品的高光譜數(shù)據(jù)通過(guò)RFE所篩選的特征波段Table 1 Characteristic bands filtered by RFE for the hyperspectral data of the five samples
圖10 五種樣品的高光譜數(shù)據(jù)在RFE-RF模型中RFECV精度隨篩選特征數(shù)的變化Fig.10 Variation of RFECV accuracy with the number of screening features for RFE-RF model based on hyperspectral data of five samples
采用RF算法和所有波段進(jìn)行底棲動(dòng)物的分類,優(yōu)化的n_estimators和max_depth值也用于RFE。從表1可以看出,使用RFE算法對(duì)五種樣品進(jìn)行分類得到了最佳的總體分類結(jié)果。RFE總共選擇了83個(gè)波段??傮w而言,RFE顯著降低了數(shù)據(jù)維度。與使用RF和所有波段相比,RFE-RF提供了更好的分類結(jié)果(分類精度為98.74%,kappa系數(shù)0.876 6)。
RFE算法已經(jīng)在一些高光譜研究中使用[20],實(shí)現(xiàn)了顯著的維數(shù)下降,同時(shí)具有高分類性能。在本研究中,RFE實(shí)現(xiàn)了波段子集的顯著減少。此外,在本研究的實(shí)驗(yàn)?zāi)P拖?RFE-RF算法的準(zhǔn)確度優(yōu)于RF與PCA-RF算法,產(chǎn)生了更小的子集和更好的分類精度。
本研究評(píng)估了高光譜數(shù)據(jù)在識(shí)別水下底棲動(dòng)物方面的效用。更具體地說(shuō),我們?cè)u(píng)估了RF的三種使用方法,以獲得一個(gè)最佳主成分?jǐn)?shù)或最佳波段子集,可用于區(qū)分不同水下樣品。RF包裝框架通過(guò)識(shí)別最優(yōu)波段子集顯著降低了原始數(shù)據(jù)集的維數(shù),從而簡(jiǎn)化了建模過(guò)程,最終提高了分類性能。本研究的總體結(jié)果表明,使用的三種RF算法令維數(shù)顯著下降,PCA-RF與RFE-RF都提高了分類精度,如表2。
表2 三種方法分類識(shí)別精度對(duì)比Table 2 Comparison of classification recognition accuracies of the three methods
旨在實(shí)現(xiàn)對(duì)海洋牧場(chǎng)水下底棲動(dòng)物的原位識(shí)別,同時(shí)評(píng)估RF、PCA-RF、RFE-RF特征選擇算法在高光譜數(shù)據(jù)分析中的效用。運(yùn)用高光譜手段,收集五種底棲動(dòng)物樣品的高光譜圖像并提取樣品反射光譜,數(shù)據(jù)經(jīng)過(guò)光譜歸一化預(yù)處理后用三種不同特征選擇方式的隨機(jī)森林算法進(jìn)行分類,得到的分類精度分別為:RF 90.13%;PCA-RF 95.20%;RFE-RF 98.74%。結(jié)果表明,在本研究的水下分類模型中,RFE-RF算法的分類精度優(yōu)于RF與PCA-RF算法。此外,與使用RF的所有波段相比,RFE-RF顯著降低了維數(shù),并提高了分類精度。RFE-RF模型體現(xiàn)了隨機(jī)森林運(yùn)用在水下高光譜數(shù)據(jù)分類研究的可行性。