陳博文 胡 娟 金詠琪 鄭 安 顓孫浩 林金國 關(guān) 鑫
(1. 福建農(nóng)林大學(xué)材料工程學(xué)院,福建 福州 350108;2. 江西財經(jīng)大學(xué)軟件與物聯(lián)網(wǎng)工程學(xué)院,江西 南昌 330013)
翅莢木(Zenia insignis)作為速生樹種,其適應(yīng)性強,易于繁殖且生長周期短[1],在一定程度上能夠緩解我國木材資源短缺問題[2?3],若結(jié)合木材材性與紅外光譜技術(shù)(IR)建立無損預(yù)測,不僅可以為翅莢木培育和科學(xué)加工提供基礎(chǔ)數(shù)據(jù),最大限度地利用翅莢木,也能為調(diào)整森林培育和遺傳改良措施提供參考,使人工林培育具有針對性。
IR是一種非破壞性測試技術(shù),在竹木材領(lǐng)域,許多學(xué)者已經(jīng)在預(yù)測竹木材的三大素、密度、抗壓強度、抗彎強度和抗彎彈性模量等[4?8]取得了不錯的成績。在光譜預(yù)測木材力學(xué)性質(zhì)方面,采用的預(yù)測模型多為線性模型,比如主成分回歸(PCR)模型、偏最小二乘(PLS)模型等,其中PLS 模型預(yù)測結(jié)果較為精確[9?10]。在光譜分析法方面,主要集中在光譜數(shù)據(jù)預(yù)處理法、異常樣本剔除及特征波長提取等方面[11?17]。相比于近紅外,傅里葉紅外光譜擁有更廣的波長范圍[18],大量的數(shù)據(jù)建立的模型具有更高的可信度。綜合來看,紅外光譜結(jié)合化學(xué)計量學(xué)的分析方法,在預(yù)測木材的力學(xué)性質(zhì)上,具有無損、高效的特點,擁有廣闊的應(yīng)用前景。
本研究以常見的人工木種翅莢木的150個樣品為研究對象,使用傅里葉紅外光譜儀采集所有樣品的光譜數(shù)據(jù),按國標(biāo)測定其順紋抗壓強度。經(jīng)數(shù)據(jù)集預(yù)處理后,使用連續(xù)投影算法(SPA)選擇波長組合,建立PLS回歸模型用于預(yù)測未知樣品的順紋抗壓強度,為翅莢木的生產(chǎn)開發(fā)提供科學(xué)依據(jù)。
選用生長環(huán)境相似、立地環(huán)境相同的福建龍巖市10年生的翅莢木人工林原木10組,平均樹高為19.8 m,平均枝下高為10.6 m。自樣木胸高處向上2.0 m長的木段作為試材,放置在室內(nèi)陰涼通風(fēng)處,氣干至木材含水率達到福建省福州市木材平均含水率,約15%[19]。在翅莢木試材中隨機選取加工150組的樣品,偏差控制在0 mm,并將每份樣品剩料磨粉、過篩,選取目的木粉,供后續(xù)紅外光譜采集。
嚴格按照GB/T 1935—2009[20]測定翅莢木的順紋抗壓強度測量。
光譜儀器采用VERTEX 70v高端研究級紅外光譜儀(布魯克公司,德國)。由于布魯克DigiTect專利技術(shù)能將檢測器自帶的電子前置信號放大器和數(shù)模轉(zhuǎn)換器相互結(jié)合,所以采集結(jié)果能夠較大限度地避外界模擬信號對光譜的干擾,確保了出色的信噪比。
儀器的測試條件為:光通量15000,光譜范圍 400~4 000 cm?1,樣品掃描次數(shù)為 64次,同時對比空白KBr片64次的背景掃描。每個樣品制成壓3次片并取平均值作為光譜結(jié)果。
為減少光譜數(shù)據(jù)中異常樣本對建模結(jié)果的影響,將采用蒙特卡羅交叉驗證方法(MCCV)[21]將樣本數(shù)據(jù)集隨機劃分為校正集與預(yù)測集,并對未參與構(gòu)建模型的樣本進行預(yù)測誤差計算,在幾千次隨機采樣后,最后得到預(yù)測誤差的分布,并將超出均值的3倍的數(shù)據(jù)視為異常樣本,最后進行剔除。采用MCCV驗證方法不但可以檢驗樣本光譜數(shù)據(jù)的異常點、參考數(shù)據(jù)異常點,而且還能檢驗共同的異常點。
在剔除異常數(shù)據(jù)后,利用蒙特卡洛隨機抽樣的方式,將剔除異常值后的光譜數(shù)據(jù)按2∶1分為樣本集和預(yù)測集。并在建模前,對紅外光譜進行預(yù)處理,預(yù)處理的方法為:多元散射校正(MSC) 、標(biāo)準(zhǔn)正態(tài)變化(SNV)以及一階導(dǎo)數(shù)(1stD)對光譜進行預(yù)處理,并根據(jù)建模的結(jié)果,選擇最優(yōu)預(yù)處理方法。
對預(yù)處理后的光譜數(shù)據(jù),雖然已經(jīng)進行了修正,但是直接采用4000~400 cm?1全光譜數(shù)據(jù)進行模型的建立會導(dǎo)致工作量較大、計算復(fù)雜。因此可以采用SPA算法[22?23]。SPA算法是一種使矢量空間共線性最小化的前向變量選擇算法,該算法可以選取最少的冗余度和最小共線性的有效波長,該算法隨機選取1個波長,并且循環(huán)計算其他未選入波長上的投影,把投影向量最大的波長放入波長組合中,使得每1個新選入的光譜波長,都與前一個線性關(guān)系最小。
最后,利用SPA算法提取樣本集光譜上幾個特征波長,并根據(jù)PLS原理建立預(yù)測模型,將預(yù)測組的光譜數(shù)據(jù)帶入模型進行模型精度檢驗,其中對所建模型的質(zhì)量采用決定系數(shù)(R2)、預(yù)測絕對誤差,預(yù)測標(biāo)準(zhǔn)偏差(RESEP)來評價。其中R2越靠近1,模型擬合性越好,預(yù)測絕對誤差與預(yù)測標(biāo)準(zhǔn)誤差越小,模型預(yù)測精度越高。
對150組樣本進行處理,其中測量翅莢木樣本順紋抗壓強度與試件的厚度與寬度,如表1所示。
對150組樣本進行紅外采集,采集的原始紅外光譜數(shù)據(jù)結(jié)果如圖1所示。不同順紋抗壓強度的樣品光譜圖在特定的波段有所不同,即3342 cm?1的O-H伸縮振動吸收峰、2885 cm?1的甲基、亞甲基和次甲基的C-H伸縮振動吸收峰以及1033 cm?1處芳香環(huán)的C-H伸縮振動吸收峰。但是總體光譜趨勢是一致的,因此必需借助化學(xué)計量學(xué)的方法才能從光譜中提取定性和定量分析信息。
圖1 不同抗壓強度試樣(a)與全部試樣(b)的傅里葉紅外光譜圖Fig. 1 Fourier infrared spectra of samples with different compressive strength(a) and all samples(b)
采用蒙特卡羅的異常樣本識別方法,經(jīng)過10000次的循環(huán)隨機采樣計算后,計算的樣本預(yù)測殘差的均值與方差如圖2所示,設(shè)置平均值3倍的標(biāo)準(zhǔn)差作為參考依據(jù)。
圖2 基于樣本預(yù)測誤差分布Fig. 2 Based on sample prediction error distribution
從圖2可以看出有6個數(shù)據(jù)屬于異常數(shù)據(jù),在剔除異常數(shù)據(jù)后,將144組數(shù)據(jù)按2∶1的比例隨機分為97組樣本集與47組預(yù)測集。
在紅外光譜采集到的光譜信息中,除了所需的基本樣品特性,還經(jīng)常摻雜著的無關(guān)信息和噪聲,因此利用MSC、 SNV、1stD對紅外光譜進行預(yù)處理。首先對預(yù)處理后的光譜數(shù)據(jù)利用PLS選取主因子的數(shù)量,如圖3所示。然后建立預(yù)測模型,結(jié)果如表2所示。
表2 不同預(yù)處理方式建模結(jié)果Table 2 Modeling results of different preprocessing methods
圖3 根據(jù)PRESS選擇主因子數(shù)Fig. 3 Select the number of major factors according to PRESS
與原始光譜數(shù)據(jù)相比,進行預(yù)處理不僅在一定程度上降低模型復(fù)雜度,而且能提升模型的預(yù)測精度,其中MSC預(yù)處理方式表現(xiàn)最佳。因為MSC算法是基于統(tǒng)計的方法修正光譜散射,既不會造成過度修正,也不需要依賴經(jīng)驗選擇合適的段間距。因此在后續(xù)的處理中,將采用MSC作為預(yù)處理手段,其中MSC處理的光譜結(jié)果如圖4所示。
圖4 MSC處理后的光譜圖Fig. 4 Spectral image after MSC processing
由于光譜儀器的影響,在某些波段下的光譜質(zhì)量較差,并且這些波段會引起模型的不穩(wěn)定,但選擇有效的光譜波長能夠減少波長變量的個數(shù)簡化模型,提高計算速度,更主要的是由于不相關(guān)的變量剔除,可以得到預(yù)測性強的、穩(wěn)定性好的預(yù)測模型。
對原光譜數(shù)據(jù)進行MSC預(yù)處理后,利用SPA算法,選取含有最少冗余度和最小共線性的波長。最后利用PLS算法建立翅莢木光譜預(yù)測模型。并計算相關(guān)系數(shù)R2與SEP對模型進行評價。
圖5表示的是經(jīng)過MSC預(yù)處理后,所選特征波長位置示意圖,通過SPA算法所選的波數(shù)結(jié)果分別為410.83、462.91、731.00、771.51、779.22、806.22、827.44、866.02、1110.97、1278.77、1506.36、1543.01、1780.25、2123.57、3288.54、3649.22、3716.72、3849.81 cm?1。最后利用PLS建立最終的回歸模型。結(jié)果如表3所示。
表3 不同處理方式建立的PLS的模型結(jié)果Table 3 PLS model results established by different processing methods
圖5 SPA特征波數(shù)選擇示意圖Fig. 5 Schematic diagram of SPA characteristic wave number selection
根據(jù)圖6可知與原始光譜相比,直接利用SPA進行波段選擇,在一定程度上能提升模型預(yù)測擬合程度,但是預(yù)測的精度取沒有提升;若先利用MSC預(yù)處理,將原光譜的噪聲信息去除,再利用SPA算法對預(yù)處理光譜進行波段選擇,可以顯著的提高模型預(yù)測的精度,同時能夠有效降低均方根誤差。
圖6 不同處理方法的實際值與預(yù)測值散點圖Fig. 6 Scatter diagram of actual value and predicted value of different treatment methods
若在原光譜數(shù)據(jù)的基礎(chǔ)上,添加試樣寬度與厚度,并利用MCS?SPA進行處理,其預(yù)測能力和預(yù)測情況見表4及圖7。
比較表4與圖7,加入其他的關(guān)聯(lián)變量對預(yù)測模型的精度有了較大的提升,所以在建立預(yù)測模型時,可以加入幾個獨立變量,來提高模型的預(yù)測能力。但是在添加變量時,應(yīng)當(dāng)檢測變量之間的共線性,防止在添加其他變量后,模型的擬合度與預(yù)測精度下降。
圖7 添加不同變量的抗壓強度實際與預(yù)測散點圖Fig. 7 Actual and predicted scatter plots of compressive strength with different variables added
表4 添加不同變量建立的PLS對比結(jié)果Table 4 Comparison results of PLS established by addingdifferent variables
針對人工林翅莢木缺少有效的無損檢測手段的問題,本研究重點討論了利用中紅外光譜對人工林翅莢木順紋抗壓強度進行快速檢測。結(jié)果表明利用中紅外無損檢測人工林翅莢木的方法是可行的。主要結(jié)論如下。
針對傅里葉光譜儀器采集的木粉樣品漫反射的光譜數(shù)據(jù),對其進行合理有效的預(yù)處理手段,如MSC、 1stD等可以有效地的提升預(yù)測模型的精度。
在采用SPA算法對預(yù)處理后的光譜數(shù)據(jù)進行波段選擇,可以有效的提升模型預(yù)測精度,最后預(yù)測的R2與SEP分別為0.910 9與0.612 5,能夠滿足對人工林翅莢木的無損檢測的需求。
對比單一的變量,添加其他獨立的自變量,如試樣的寬度與厚度,可以提高擬合程度,同時的提升模型的預(yù)測精度,即降低SEP。但是在添加變量時,應(yīng)當(dāng)檢測變量之間的共線性,防止在添加其他變量后,模型的擬合度與預(yù)測精度下降。