竇 剛, 陳廣勝, 趙 鵬
東北林業(yè)大學(xué)信息與計算機(jī)工程學(xué)院, 黑龍江 哈爾濱 150040
基于近紅外光譜反射率特征的木材樹種分類識別系統(tǒng)的研究與實(shí)現(xiàn)
竇 剛, 陳廣勝*, 趙 鵬
東北林業(yè)大學(xué)信息與計算機(jī)工程學(xué)院, 黑龍江 哈爾濱 150040
提出了一種基于木材表面光譜反射率的新型木材樹種分類識別系統(tǒng), 它解決了下面三個問題。 首先, 考慮到實(shí)際采集的光譜反射率曲線在某些波長噪聲較大, 這些波長應(yīng)該被刪除。 另外, 木材光譜反射率曲線波段為350~2 500 nm, 原始實(shí)驗(yàn)數(shù)據(jù)為一個2 150維的向量(光譜采樣間隔設(shè)定為1 nm), 所以要對光譜數(shù)據(jù)進(jìn)行特征選擇和降維處理。 為高效和同時地解決這兩個問題, 使用了一種散步矩陣求解特征值方法進(jìn)行了光譜特征波長的特征選擇, 同時還對噪聲波長進(jìn)行了濾波處理。 該方法收到了較好的效果, 具有一定的新穎性。 最后, 為了使光譜儀采集到的光譜反射率曲線具有最佳的模式可分性信息, 還對室內(nèi)照明光源的安裝高度進(jìn)行了最優(yōu)化設(shè)計, 使用遺傳算法求解出光源的最佳安裝高度, 使得采集的光譜反射率曲線具有最佳的樹種分類信息。 因此, 提出的這種照明光源安裝高度優(yōu)化設(shè)計方法, 在一定程度上提高了樹種分類識別的精度, 它具有較好的可行性和一定的新穎性。 針對東北地區(qū)常見的五種樹種(白松、 樟子松、 落葉松、 楊木和樺木)木材進(jìn)行大量的(約10萬次)分類測試, 實(shí)驗(yàn)結(jié)果表明五種樹種木材的混合識別率達(dá)到了95%以上, 具有較好的分類識別精度和速度。 特征選擇的波長主要集中在近紅外波段。
樹種識別; 特征選擇; 近紅外; 光譜分析; 遺傳算法
木材樹種分類識別是木材加工和貿(mào)易的一個重要環(huán)節(jié), 它有助于充分利用木材資源和合理定價木材產(chǎn)品, 在木材加工企業(yè)和海關(guān)植檢等部門有重要應(yīng)用意義[1]。 現(xiàn)在的計算機(jī)分析處理檢測識別技術(shù)主要有木材微觀細(xì)胞結(jié)構(gòu)分類識別和木材表面的宏觀特征分類處理。 微觀處理法需要顯微鏡和切片加工處理, 步驟繁瑣復(fù)雜[2]。 宏觀處理法包括圖像分析處理法和光譜分析處理法。 圖像法提取的分類特征主要有顏色特征和紋理特征兩種。 顏色特征包括顏色矩特征、 直方圖的能量、 熵等[3]。 紋理特征主要用空間灰度共生矩陣及其統(tǒng)計量, 還包括灰度行程長度矩陣、 Fourier頻譜分析法等頻域法[4-6]。 國外學(xué)者使用了超聲波或者應(yīng)力波進(jìn)行了木材樹種的分類識別, 但是容易受到外界噪聲的干擾和木材內(nèi)部缺陷的負(fù)面影響[7-8]。
光譜分析法主要是使用光譜儀采集1D光譜信號進(jìn)行分類識別。 1D光譜信號包括光譜反射率和透射率, 運(yùn)算速度比較快適合于在線實(shí)時檢測。 例如, Piuri等設(shè)計了一種基于熒光光譜分析的木材快速種類識別裝置[9], Lavine等使用Raman光譜儀和遺傳算法對98種樹木進(jìn)行了熱帶和溫帶的軟木和硬木種類識別[10]。 王志輝等研究了森林的高光譜樹種分類識別, 采集葉片表面的光譜反射率特征, 使用了光譜微分法和光譜包絡(luò)線法提取分類特征[11]。 楊忠等初步探索了使用近紅外漫反射光譜技術(shù)進(jìn)行木材表面光澤度測量的可行性[12]。
使用了美國ASD公司的FieldSpec ProFR4便攜式分光輻射光譜儀在自然外界環(huán)境下采集不同樹種木材表面的光譜反射率曲線, 它不再需要專用的激光光源, 只要現(xiàn)場的天氣足夠晴朗無云即可。 如果室外天氣條件不好, 那么也可以在室內(nèi)進(jìn)行光譜反射率的測量。 這時需要使用ASD配備的專用室內(nèi)光源鹵素?zé)簦?它一般安裝在三角支架上并且安裝高度可調(diào)節(jié), 使得被測樣本能夠獲得不同強(qiáng)度的照明。 因此, 對室內(nèi)照明光源的安裝高度進(jìn)行了最優(yōu)化設(shè)計, 使用遺傳算法求解出光源的最佳安裝高度(也稱工作距離), 使得采集的光譜反射率曲線具有最佳的樹種分類信息, 為后續(xù)的木材樹種分類識別奠定良好基礎(chǔ)。
另外, 由于現(xiàn)場環(huán)境復(fù)雜多變, 采集的光譜反射率曲線經(jīng)常受到噪聲的影響; 并且光譜曲線的波長范圍是350~2 500 nm(采樣間隔1 nm), 導(dǎo)致了光譜數(shù)據(jù)向量達(dá)到了2 150D, 直接用于分類時計算量較大降低處理速度。 因此, 設(shè)計了基于散步矩陣的采樣波長特征選擇和光譜曲線噪聲波段濾波方法, 將光譜曲線的噪聲濾波和特征選擇同步完成, 不再需要單獨(dú)的光譜信號數(shù)據(jù)濾波過程, 較大地提高了處理效率。
1.1 儀器與材料
根據(jù)機(jī)器視覺木材樹種自動識別原理, 建立了由木塊、 多光譜輻射分析儀、 計算機(jī)等構(gòu)成的實(shí)驗(yàn)系統(tǒng)平臺(圖1)。 多光譜輻射分析儀用于測量木材的光譜反射率, 采用美國ASD公司的FieldSpec ProFR4便攜式分光輻射光譜儀, 該儀器工作波長范圍350~2 500 nm; 采樣頻率10次·s-1, 光譜采樣間隔設(shè)定為1 nm。 本系統(tǒng)的計算機(jī)使用了聯(lián)想筆記本V4400A, CPU主頻為I5系列, 內(nèi)存8G, 硬盤空間1TB, 使用了Visual Studio 2005 C++編程環(huán)境完成木材樹種分類識別系統(tǒng)的設(shè)計與編程。 測量木材光譜反射率時一般需要在被測木塊下面鋪一塊黑布, 盡可能消除雜散光的影響。
在大慶市木材批發(fā)市場購買了五種常見樹種白松、 樟子松、 落葉松、 楊木和樺木的木材, 加工成大約20 cm×15 cm×5 cm的木塊, 共1 000塊木塊作為實(shí)驗(yàn)樣本, 每個樹種包括200塊木塊, 其中100塊作為訓(xùn)練樣本, 其余的100塊作為測試樣本。
圖1 便攜式木材樹種識別系統(tǒng)示意圖(室外環(huán)境)
Fig.1 The structure graph of portable wood species recoghition system coutdoor environment
1.2 光譜反射率曲線的濾波和采樣波長特征選擇
關(guān)于五種樹種木材表面的光譜反射率采集, 為了減少實(shí)驗(yàn)時光照變化和光散射等外界干擾因素的影響, 每個木塊表面反復(fù)多次采集數(shù)條光譜反射率曲線。 圖2給出了五種樹種木塊的5條光譜反射率曲線的實(shí)例。 觀察圖2, 可以發(fā)現(xiàn)每個樹種的光譜反射率曲線具有下面3點(diǎn)特征。 首先, 在某些波段內(nèi)(例如2 400~2 500 nm)光譜反射率曲線變化很劇烈, 說明這些波段內(nèi)噪聲干擾比較大, 它們將對后續(xù)的樹種分類識別產(chǎn)生負(fù)面影響, 應(yīng)該濾除這些波段。 其次, 在不同的時刻采集的某樹種木塊的數(shù)條光譜反射率曲線都不完全相同, 如圖3所示, 分析其原因, 這主要是現(xiàn)場的光照環(huán)境變化和光譜儀器的采樣誤差引起的。 因此, 對于各個樹種樣本, 應(yīng)該采集多條光譜反射率曲線進(jìn)行平均化處理。 最后, 實(shí)驗(yàn)收集到的木材光譜反射率曲線波段為350~2 500 nm, 每條曲線的原始實(shí)驗(yàn)數(shù)據(jù)為一個2 150維的向量(光譜采樣間隔設(shè)定為1 nm)。 這樣的高維向量進(jìn)行分類處理有很大的計算代價, 并且很多波長的光譜反射率的樹種可分性信息較差, 所以要對此高維向量進(jìn)行特征選擇/降維處理。
圖2 不同樹種木材表面的光譜反射率曲線
wood 015: Picea jezoensis; wood 1110: Larix gmelinii; wood 1440: Betula platy phylla; wood 2010: Pinus sylvestris; wood 3040: Populus davidiana
圖3 同一樹種(楊樹)的同一木塊樣本的
為解決上述問題, 設(shè)計了一種基于散步矩陣的特征選擇和光譜曲線濾波方法, 可以將光譜曲線的噪聲濾波和采樣波長特征選擇同步完成, 不再需要單獨(dú)的光譜信號數(shù)據(jù)濾波過程, 較大地提高了處理效率。
具體過程簡述如下, 由于訓(xùn)練時每類樹種光譜反射率曲線為600條(實(shí)驗(yàn)時每個樹種訓(xùn)練樣本為100塊, 每個木塊表面采集6條光譜反射率曲線), 可以近似正態(tài)分布, 這樣, 每類樹種就擁有600個2 150D的特征向量, 它對應(yīng)于該樹種在350~2 500 nm全波段內(nèi)的光譜反射率。 根據(jù)多維正態(tài)分布的性質(zhì), 可容易求出每類樹種訓(xùn)練樣本的協(xié)方差矩陣Cj,j=1, …, 5; 進(jìn)而求出全部五個樹種的總體類內(nèi)散步矩陣
(1)
式(1)中的P(wj)=0.2, 即假定各個樹種的先驗(yàn)概率相同。 另外, 由于每類樹種擁有600個2 150D的特征向量, 則全部五個樹種就擁有3 000個這樣的特征向量, 進(jìn)而求出全部5個樹種的總體散步矩陣/協(xié)方差矩陣St和總體類間散步矩陣Sb=St-Sw。
圖4 正態(tài)分布下散度
1.3 室內(nèi)照明光源的最優(yōu)化設(shè)計
ASD公司的FieldSpec ProFR4便攜式多光譜輻射儀對于光源照明要求比較高, 它配備了一種適合于室內(nèi)檢測的照明光源裝置, 使用鹵素?zé)?13 V/57 W), 可以提供均勻穩(wěn)定的光照效果。 該照明裝置可以固定在載物臺或者三角支架上。 鹵素?zé)舭惭b的高度不同, 它距離被測樣本木塊表面的工作距離就不同, 這樣光束到達(dá)木塊表面的光照強(qiáng)度就產(chǎn)生了差別, 進(jìn)而多光譜輻射儀就會采集到不同的光譜反射率曲線, 它們包含的模式可分性信息量也有所不同。 因此, 應(yīng)該對鹵素?zé)舻陌惭b高度進(jìn)行最優(yōu)化選擇和設(shè)計, 使得采集的光譜反射率曲線產(chǎn)生的木材樹種分類識別精度最好。
(2)
式中的[]為取整函數(shù),hcurrent為光源的當(dāng)前安裝高度。 步驟2: 初始群體產(chǎn)生。 這里隨機(jī)產(chǎn)生20個個體作為初始群體。 步驟3: 染色體解碼和適應(yīng)度計算。 將光源高度參數(shù)的二進(jìn)制染色體解碼, 以便求解其適應(yīng)度值。 定義正態(tài)分布下(在光源的每個高度位置上, 每類樹種光譜反射率曲線采集600條)的散度公式
(3)
圖4(a)兩類樣本的兩個正態(tài)分布的均值距離較遠(yuǎn), 而各自的方差較小, 這樣計算出來的散度比較大; 圖4(b)兩個正態(tài)分布的均值距離較近, 而各自的方差較大, 這樣計算出來的散度比較小。
(4)
(5)
(6)
這樣, 最終定義如下的適應(yīng)度函數(shù)
(7)
其中,λ1, …,λN是1.2節(jié)應(yīng)用散步矩陣方法求解出來的特征采樣波長;h是光源的某一個安裝高度。 遺傳算法的其他步驟限于篇幅這里不再詳述。
圖5 散度和變換散度的函數(shù)關(guān)系圖
1.4 分類器設(shè)計
使用了馬氏距離函數(shù)分類器, 在分類器訓(xùn)練階段, 假設(shè)經(jīng)過光譜波長的特征選擇后特征向量降維到N維, 那么可得每個木塊有V1~V6共6個N維向量Vi=(v1,v2,v3, …,vN)T(實(shí)驗(yàn)時每個樹種訓(xùn)練樣本為100塊, 每個木塊表面采集6條光譜反射率曲線)。 這樣, 每個樹種可得600個這樣的N維特征向量, 近似成多維正態(tài)分布, 可求其均值向量Mj和其協(xié)方差矩陣Cj,j=1, …, 5。
在分類器的測試和識別階段, 使用了兩種馬氏距離對樹種進(jìn)行分類計算
(8)
(9)
本系統(tǒng)的計算機(jī)使用了聯(lián)想筆記本V4400A, CPU主頻為I5系列, 內(nèi)存8G, 硬盤空間1TB, 使用了Visual Studio 2005 C++編程環(huán)境完成木材樹種分類識別系統(tǒng)的設(shè)計與編程。 首先進(jìn)行了室外環(huán)境下理想光照條件下的訓(xùn)練和測試, 在木材樹種分類處理的分類器訓(xùn)練階段, 每個樹種使用了600條全波段的光譜反射率曲線(將其存為csv文件), 使用了基于散步矩陣的光譜反射率曲線濾波和特征波長選擇算法。 在特征波長選擇中, 將特征波長對應(yīng)的光譜反射率向量分別降維至5維、 10維、 15維、 20維、 …、 60維。 實(shí)驗(yàn)發(fā)現(xiàn), 在特征波長向量為5~25維時, 選擇的波長主要集中在1 600~1 700 nm范圍內(nèi); 在特征向量為30~60維時, 選擇的波長主要集中在1 600~1 700 nm和1 300~1 400 nm范圍內(nèi)。 另外, 觀察圖2中這兩個波段區(qū)間, 可以發(fā)現(xiàn)它們不處在噪聲污染區(qū)間范圍內(nèi), 驗(yàn)證了本光譜波長選擇算法同時也具有相應(yīng)的光譜曲線濾波作用。
在測試階段, 分別使用了式(8)和式(9)進(jìn)行樹種分類測試, 這兩個公式都需要計算出Mx, 因此每次測試都是選擇某一個樹種的若干個特征向量進(jìn)行處理計算其Mx。 實(shí)驗(yàn)中這樣的特征向量數(shù)量取作20~35個, 并且選取是隨機(jī)抽取的, 具有客觀性。 再將特征波長向量分別降維至5維、 10維、 15維、 20維、 …、 60維后進(jìn)行相應(yīng)的測試實(shí)驗(yàn)。
實(shí)驗(yàn)發(fā)現(xiàn), 應(yīng)用式(8)時白松和樟子松的分類效果較差, 兩者有時出現(xiàn)互相誤識的情況。 分析其原因, 在將多個特征向量近似成正態(tài)分布時只考慮均值向量是片面的, 還應(yīng)該考慮樣本的分散程度即Cx。 但是, 應(yīng)用式(9)時五個樹種的分類識別效果比較好, 例如, 在降維后特征波長向量維數(shù)為30且特征向量數(shù)量為35的情況下, 白松、 樺木、 落葉松、 楊木和樟子松的正確識別率分別達(dá)到了98%, 100%, 96%, 100%和99%。 此種情況下, 單次測試所需時間平均為1.75 s, 這是一種比較理想的分類識別精度和速度。 分析其原因, 式(9)同時考慮了多個特征向量的均值Mx和協(xié)方差矩陣Cx, 當(dāng)然近似成正態(tài)分布時特征向量的數(shù)量應(yīng)該比較多(本實(shí)驗(yàn)中應(yīng)該大于等于30)。 軟件系統(tǒng)的運(yùn)行界面參見圖6。
圖6 木材樹種識別軟件系統(tǒng)運(yùn)行界面圖
最后, 還進(jìn)行了室內(nèi)鹵素?zé)粽彰鞴庠礂l件下的分類識別實(shí)驗(yàn), 使用了遺傳算法進(jìn)行了照明光源安裝高度的最優(yōu)化選擇, 本實(shí)驗(yàn)光源的最優(yōu)安裝高度是28.5 cm。 實(shí)驗(yàn)中, 式(5)中的參數(shù)Q=64; 相應(yīng)的實(shí)驗(yàn)裝置圖參見圖7。 同樣, 應(yīng)用式(9)時五個樹種的分類識別效果比較好, 例如, 在降維后特征波長向量維數(shù)為30且特征向量數(shù)量為35的情況下, 白松、 樺木、 落葉松、 楊木和樟子松的最佳的正確識別率分別達(dá)到了99%, 98%, 96%, 98%和99%, 與室外晴朗條件下分類識別精度基本相同。 在其他的光源高度情況下, 五種樹種的分類識別精度有所下降, 例如, 最差情況下的正確識別率分別為88%, 85%, 80%, 84%和82%(特征波長向量維數(shù)為30且特征向量數(shù)量為35)。
圖7 便攜式木材樹種識別系統(tǒng)示意圖
Fig.7 The structure graph of portable wood species recoghition system (indoor environment) with adjustable radian’s mounting height
提出了一種基于光譜波長特征選擇的光譜反射率曲線濾波和木材樹種分類處理方法, 研制的軟件測試系統(tǒng)具有較高的分類識別精度和處理速度。 我們計劃針對國內(nèi)的常見50余種樹種、 珍貴樹種(8類30種紅木樹種)和國外進(jìn)口樹種分別進(jìn)行擴(kuò)展研究, 進(jìn)一步擴(kuò)大木材樹種樣本數(shù)據(jù)庫, 在大數(shù)據(jù)平臺上開發(fā)出實(shí)用的快速的木材樹種識別系統(tǒng), 應(yīng)用于海關(guān)植檢等部門。
伴隨著木材樹種的增加, 有些光譜反射率曲線可能出現(xiàn)部分重疊難以區(qū)分的情況。 對于這樣的一部分樹種, 在分類器訓(xùn)練階段我們將計劃使用支持向量機(jī)映射到高維向量空間, 進(jìn)一步增加其模式可分性信息, 提高相應(yīng)的分類識別精度, 這是我們今后的研究工作方向。
[1] Khalid M, Yusof R, Liew E, et al. International Journal of Simulation System, Science and Technology, 2008, 9(3): 9.
[2] REN Hong-e, XU Hai-tao(任洪娥, 徐海濤). Scientia Silvae Sinicae(林業(yè)科學(xué)), 2007, 43(9): 68.
[3] Brunner C C, Shaw G B, Butler D A, et al. Wood and Fiber Science, 1990, 22(5): 413.
[4] YU Hai-peng, LIU Yi-xing, LIU Zhen-bo(于海鵬, 劉一星, 劉鎮(zhèn)波). Scientia Silvae Sinicae(林業(yè)科學(xué)), 2007, 43(4): 77.
[5] Yusof R, Khalid M, Khairuddin A S M. Computers and Electronics in Agriculture, 2013, 93(2): 68.
[6] Filho P L, Oliveira L S, Jr A S B, et al. IEEE ICPR, 2010, 8: 4178.
[7] Jordan R, Feeney F, Nesbitt N, et al. Ultrasonics, 1998, 36(4): 219.
[8] Rojas J A M, Alpuente J, Postigo D, et al. Applied Acoustics, 2011, 72(8): 934.
[9] Piuri V, Scotti F. IEEE Trans SMC-Part C, 2010, 40(3): 358.
[10] Lavine B K, Davidson C E, Moores A J, et al. Applied Spectroscopy, 2001, 55(8): 960.
[11] DING Li-xia, WANG Zhi-hui, GE Hong-li(丁立霞, 王志輝, 葛宏立). Journal of Zhejiang Forestry College(浙江林學(xué)院學(xué)報), 2010, 27(6): 809.
[12] LIU Ya-na, YANG Zhong, Lü Bin, et al(劉亞娜, 楊 忠, 呂 斌, 等). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2014, 34(3): 648.
Research and Implementation of Wood Species Recognition System with Wood Near Infrared Spectral Reflection Features
DOU Gang, CHEN Guang-sheng*, ZHAO Peng
Information and Computer Engineering College, Northeast Forestry University, Harbin 150040, China
This paper proposes a novel wood species recognition scheme based on the spectral reflection features of wood surface, aiming to address the following three issues in terms of the noise filtering, feature selection and radian’s optimal design . First, noises occur in some bands of wood spectral reflection curve so that these noisy bands should be deleted. Second, the wood spectral band is 350~2 500 nm, which is a 2 150Dvector with a spectral sampling interval of 1 nm. Therefore, both noise filtering and feature selection should be performed to wood spectral data. In this paper, to simultaneously and efficiently solve the two problems of feature selection and noise filtering, both a feature selection procedure and a noise filtering procedure are performed by solving the eigenvalues of dispersion matrix. This scheme is novel and produces a good outcome. Third, to make the spectral reflection curves picked up by the spectral instrument have the best pattern recognition information; an optimal design is performed for the indoor radian's mounting height. The genetic algorithm is used to solve the optimal radian's height so that the spectral reflection curves have the best classification information for wood species. Therefore, the optimal design scheme for the radian's mounting height can improve the pattern classification accuracy of the wood species to some extents, which is novel with excellent executive feasibility. Many experiments made with our developed software system on the five ordinary wood species in northeast region of China (i.e., includingBetulaplatyphylla,Populusdavidiana,PinusSylvestris,Piceajezoensis,Larixgmelinii) are performed for approximately 105times. It indicates that the overall recognition rate reaches to a good recognition accuracy of 95% for five wood species with an ideal recognition velocity. The selected feature wavelengths by using of our feature selection algorithm based on dispersion matrix are mainly in the near infrared band.
Wood species recognition; Feature selection; Near infrared; Spectral analysis; Genetic algorithm
May 8, 2015; accepted Oct. 11, 2015)
2015-05-08,
2015-10-11
國家自然科學(xué)基金項(xiàng)目(31170515), 教育部新世紀(jì)優(yōu)秀人才支持計劃專項(xiàng)(NCET-12-0809)資助
竇 剛, 1978年生, 東北林業(yè)大學(xué)信息與計算機(jī)工程學(xué)院博士研究生 e-mail: 13911621133@qq.com *通訊聯(lián)系人 e-mail: kjc_chen@163.com
O439
A
10.3964/j.issn.1000-0593(2016)08-2425-05
*Corresponding author