馮國紅, 朱玉杰, 李耀翔
東北林業(yè)大學(xué)工程技術(shù)學(xué)院, 黑龍江 哈爾濱 150040
隨著木材需求的增加, 我國從歐洲、 東南亞、 非洲、 大洋洲等地區(qū)進(jìn)口木材的數(shù)量和種類正逐年大幅增長, 樹種不符是進(jìn)口貿(mào)易中最常見的問題之一, 也是主要的欺詐手法。 正確鑒定樹種是進(jìn)口木材執(zhí)法的前提和市場流通的需要[1]。 進(jìn)口木材樹種種類繁多, 木材樹種的快速、 準(zhǔn)確識別研究已成為木材科學(xué)發(fā)展中的一個備受關(guān)注的問題。 近年來, 有關(guān)木材樹種識別的方法主要有DNA法、 圖像法、 高光譜法和紅外光譜法等。 DNA法是通過提取木材的DNA進(jìn)行識別的, 由于DNA的提取不容易實現(xiàn), 目前研究的較少。 圖像法主要從木材的紋理特征出發(fā), 側(cè)重于圖像特征提取方法的研究[2-4]。 高光譜法主要利用其窄波段特性在較小的空間尺度上能區(qū)分地表的細(xì)微變化的優(yōu)勢進(jìn)行樹種識別, 該方法主要應(yīng)用于樹種的遙感識別[5-6]。 紅外光譜法主要基于木材的物質(zhì)結(jié)構(gòu)信息與光譜的吸收特征的關(guān)系進(jìn)行識別。
光譜分析法具有綠色、 高效、 可實時在線分析等特點, 目前, 紅外光譜分析已經(jīng)成為發(fā)展最快、 最引人矚目的一門獨立的分析技術(shù)。 近年來人們開始探索基于紅外光譜分析識別木材的樹種。 譚念等基于近紅外光譜利用主成分分析和支持向量機(jī)進(jìn)行了樹種識別研究, 識別率達(dá)到94.29%[7]。 汪紫陽等基于可見/近紅外光譜對樹葉樹種的識別進(jìn)行了研究[8]。 縱觀目前的研究, 光譜范圍主要集中在近紅外區(qū)域, 對于中紅外的研究鮮有報道。 中紅外的波數(shù)范圍在400~4 000 cm-1之間, 是絕大多數(shù)有機(jī)物和無機(jī)離子的基頻吸收帶, 是紅外光譜中吸收能力最強(qiáng)的振動譜區(qū), 所以中紅外區(qū)也被認(rèn)為是最適合于進(jìn)行紅外光譜定性和定量分析的區(qū)域[9-10]。
以進(jìn)口的盧氏黑黃檀、 風(fēng)車木、 微凹黃檀、 燃料紫檀和東非黑黃檀為研究對象(該五種樹種在日常交易中常被稱為大葉紫檀、 皮灰黑檀、 微凹黃檀、 贊比亞血檀和紫光檀), 采用中紅外光譜儀獲取其光譜數(shù)據(jù), 對數(shù)據(jù)進(jìn)行平滑處理及一階導(dǎo)數(shù)處理, 運用主成分分析提取光譜數(shù)據(jù)的特征, 基于常用的模式識別方法-支持向量機(jī)和馬氏距離建立判別模型[11-12], 驗證兩種判別方法的識別效果。 應(yīng)用中紅外光譜在木材識別領(lǐng)域進(jìn)行探索與實踐。
美國Frontier FT-IR的傅里葉中紅外光譜儀, 采用PerkinElmer spectrum軟件采集漫反射光譜, 波數(shù)范圍400~4 000 cm-1。
樹種試樣為6 cm×4 cm×1 cm的木塊, 如圖1所示。 每塊木塊采集10組光譜數(shù)據(jù), 共采集500組, 盧氏黑黃檀、 風(fēng)車木、 微凹黃檀、 燃料紫檀和東非黑黃檀各采集100組。
圖1 木塊試樣
平滑處理: 此處采用7點移動平滑處理。
波數(shù)的篩選: 觀察平滑處理的光譜圖, 兩端的譜圖噪聲較大, 選取600~3 800 cm-1波數(shù)的數(shù)據(jù)為分析范圍。
導(dǎo)數(shù)處理: 采用一階導(dǎo)數(shù)處理。
歸一化處理: 將數(shù)據(jù)集映射到[0, 1]上。
經(jīng)平滑處理和一階導(dǎo)數(shù)處理的五種樹種的光譜圖如圖2所示。 由圖2可以看出, 五種樹種的光譜圖在600~1 900及2 900~3 800 cm-1范圍內(nèi)存在差異, 尤其是燃料紫檀、 風(fēng)車木與其他3種檀差異性明顯。 經(jīng)過平滑加一階導(dǎo)數(shù)處理的光譜圖差異性較明顯。
圖2 五種樹種的光譜圖
主成分分析法是較常用的一種數(shù)據(jù)壓縮特征提取方法, 簡化原始高維變量的同時最大限度的保留了原始數(shù)據(jù)的信息。
對五種樹種的平滑處理數(shù)據(jù)和平滑加一階導(dǎo)數(shù)處理數(shù)據(jù)進(jìn)行主成分分析, 分別繪制測試集的第一、 第二主成分得分的散點圖, 如圖3所示(為避免數(shù)據(jù)點密集, 此處僅給出前10個得分)。 由圖3可以看出, 經(jīng)過平滑加一階導(dǎo)數(shù)處理的測試集的各自聚類性較平滑處理好。
圖3 測試集前2個主成分的得分圖
支持向量機(jī)(support vector machine, SVM)是一種較常用的模式識別方法, SVM能夠很好的預(yù)防欠學(xué)習(xí)與過學(xué)習(xí)的發(fā)生, 在解決實際問題中總是屬于最好的方法之一。 臺灣大學(xué)林智仁教授等開發(fā)設(shè)計了SVM的訓(xùn)練與預(yù)測工具箱-LIBSVM, 可快速有效的進(jìn)行SVM模式識別。 此處基于該工具箱進(jìn)行識別研究。 使用時需要確定核函數(shù)、 懲罰因子c及核參數(shù)g, 此處確定的核函數(shù)為徑向基核函數(shù),c和g的尋優(yōu)方法采用粒子群算法(particle swarm optimization, PSO)。
使用PSO進(jìn)行參數(shù)尋優(yōu)時, 首先需要確定光譜圖的特征個數(shù), 即主成分的個數(shù), 主成分個數(shù)的選取直接影響識別結(jié)果。 由主成分分析的結(jié)果可知, 平滑處理和平滑加一階導(dǎo)數(shù)處理的前5個主成分的累積貢獻(xiàn)率達(dá)到了90%以上, 此處對主成分個數(shù)為[5, 30]范圍進(jìn)行試驗驗證, 以獲得最佳值。 每種樹種的60組數(shù)據(jù)為訓(xùn)練集, 15組數(shù)據(jù)用于c和g的尋優(yōu), 剩下20組數(shù)據(jù)用于測試。 利用Matlab軟件對主成分個數(shù)為[5, 30]范圍進(jìn)行c和g的尋優(yōu), 得到的5折檢驗下的最佳判別準(zhǔn)確率如表1所示。
由表1可以看出, 平滑處理和平滑加一階導(dǎo)數(shù)處理的主成分個數(shù)在[7, 11]范圍內(nèi)的5折檢驗下的最佳判別準(zhǔn)確率較高, 達(dá)到95%以上, 主成分個數(shù)在15個以上時, 5折檢驗下的最佳判別準(zhǔn)確率降低明顯。 此處, 結(jié)合15組的判別準(zhǔn)確率, 最終確定的主成分個數(shù)為8個。 此時得到的PSO參數(shù)尋優(yōu)的適應(yīng)度曲線如圖4所示。
表1 不同主成分個數(shù)的5折檢驗下的最佳判別準(zhǔn)確率
Table 1 The best discriminant accuracy under the 5-fold test of different principal components
主成分個數(shù)最佳判別準(zhǔn)確率/%平滑平滑+一階導(dǎo)數(shù)主成分個數(shù)最佳判別準(zhǔn)確率/%平滑平滑+一階導(dǎo)數(shù)59598.33149090691.6796.67159593.3379596.671691.6791.67896.6798.331793.3391.6799596.671888.3391.671095951986.6791.671195952085901293.3391.672584.3386.671393.33953083.3381.67
圖4 PSO參數(shù)尋優(yōu)的適應(yīng)度曲線
由圖4可知, 平滑處理的光譜數(shù)據(jù)c=1.218 1,g=36.102 7時, 5折檢驗下的最佳判別準(zhǔn)確率為96.67%; 平滑加一階導(dǎo)數(shù)處理的光譜數(shù)據(jù)c=1.592 8,g=18.905 2時, 5折檢驗下的最佳判別準(zhǔn)確率為98.33%。 以徑向基函數(shù)為核函數(shù), 分別以c=1.218 1,g=36.102 7和c=1.592 8,g=18.905 2建立支持向量機(jī)模型, 對五種樹種的100組測試集(每種20組)進(jìn)行分類, 得到的各樹種的正確識別率如表2所示。 表2的結(jié)果表明, 基于支持向量機(jī)法以前8個主成分的得分作為特征, 對5個樹種的識別效果較好。 經(jīng)平滑加一階導(dǎo)數(shù)處理的數(shù)據(jù), 其識別效果優(yōu)于平滑處理。 平滑加一階導(dǎo)數(shù)處理的數(shù)據(jù)僅有盧氏黑黃檀和東非黑黃檀各出現(xiàn)了1例錯判, 正確識別率達(dá)98%。
表2 支持向量機(jī)的樹種識別結(jié)果
馬氏距離判別法的基本思想是: 首先根據(jù)已知分類的數(shù)據(jù), 分別計算各類的中心, 即分類均值, 在此基礎(chǔ)上, 距離判別準(zhǔn)則是對于任意給定的一組新樣品的觀測值, 若它與第i類中心距離最近, 就認(rèn)為它來自第i類。
將每個樹種的75個校正集的前8個主成分得分求平均, 記為該樹種的中心, 利用式(1)求每個驗證集到各樹種中心的馬氏距離, 驗證集距離哪個中心近, 則判定驗證集屬于該樹種。
(1)
利用SPSS軟件計算得到的五種樹種的100組測試集的樹種識別結(jié)果如表3所示。 表3的結(jié)果表明, 在馬氏距離法中, 以前8個主成分的得分作為特征, 可以獲得較好的識別效果。 經(jīng)平滑處理的數(shù)據(jù)正確識別率達(dá)94%, 平滑加一階導(dǎo)數(shù)處理的數(shù)據(jù)正確識別率達(dá)97%。 馬氏距離的正確識別率整體略低于支持向量機(jī)。
表3 馬氏距離的樹種識別結(jié)果
利用中紅外光譜儀采集了盧氏黑黃檀、 風(fēng)車木、 微凹黃檀、 燃料紫檀及東非黑黃檀五種樹種的光譜, 進(jìn)行了平滑處理和一階導(dǎo)數(shù)處理, 運用主成分分析法提取了光譜圖的特征信息, 由測試集的第一和第二主成分的得分, 得出五種樹種的光譜數(shù)據(jù)具有較好的各自聚類性, 平滑加一階導(dǎo)數(shù)處理的聚類性優(yōu)于平滑處理。 應(yīng)用支持向量機(jī)進(jìn)行判別研究, 對主成分個數(shù)為[5, 30]范圍進(jìn)行懲罰因子c和核參數(shù)g的尋優(yōu), 結(jié)果表明: 主成分個數(shù)在[7, 11]范圍內(nèi)的5折檢驗下的最佳判別準(zhǔn)確率較高, 結(jié)合驗證集的識別準(zhǔn)確率確定的主成分個數(shù)為8個。 取前8個主成分作為輸入變量, 基于最優(yōu)的c和g進(jìn)行判別, 結(jié)果顯示: 平滑處理的正確識別率達(dá)到95%, 平滑加一階導(dǎo)數(shù)處理的正確識別率達(dá)到98%。 取前8個主成分作為輸入變量, 進(jìn)行了馬氏距離判別, 結(jié)果顯示: 平滑處理的正確識別率達(dá)到94%, 平滑加一階導(dǎo)數(shù)處理的正確識別率達(dá)到97%, 平均識別率稍低于支持向量機(jī)。 支持向量機(jī)和馬氏距離識別中平滑加導(dǎo)數(shù)處理的識別效果優(yōu)于平滑處理, 燃料紫檀和風(fēng)車木的識別效果最好, 盧氏黑黃檀的識別率稍低。 由支持向量機(jī)和馬氏距離的識別率可以認(rèn)為, 中紅外光譜可用于識別樹種, 具有良好的應(yīng)用前景。