摘 要 以相思樹樣本的克拉森木素含量為研究對象,利用多波長下的近紅外光譜數(shù)據(jù)建立了若干個預測木素含量的子數(shù)學模型。使用加權(quán)平均值公式給出了木素含量的首次近似值。根據(jù)木素含量實驗值與近似值之間所具有的較強線性關(guān)系,給出了建立近紅外光譜數(shù)據(jù)預測模型的迭代法。模型的預測精度隨迭代次數(shù)的增加而提高。本迭代法有望用于其它樹木某些化學成分含量的測定。
關(guān)鍵詞 光譜學;近紅外;迭代法;木素
1 引 言
近紅外光譜分析技術(shù)是一項新的無損檢測技術(shù),它可以充分利用全譜段或多波長下的光譜數(shù)據(jù)進行定性或定量分析,具有速度快、效率高、成本低、測試重現(xiàn)性好和測量方便等特點,已經(jīng)被越來越多地應用于食品工業(yè)、石油化工和醫(yī)藥等領(lǐng)域[1~6],近年來也在木材科學研究方面得到了越來越多的應用[7~10]。木材化學成分的測定和評價需要消耗大量人力、物力及時間。因此,尋求一種快速、準確、低成本的評價方法對于林木遺傳改良、木材化學組成分析具有重要的理論指導意義和實際應用價值。
建立優(yōu)秀的數(shù)學模型,是實現(xiàn)快速測定木材化學成分的關(guān)鍵。目前,用近紅外光譜數(shù)據(jù)建模常用的方法有:多元線性回歸(MLR)、主成分分析(PCA)、主成分回歸(PCR)、偏最小二乘法(PLS)、拓撲學和人工神經(jīng)網(wǎng)絡(luò)(ANN)等方法。本研究以相思樹樣本的克拉森木素含量為研究對象,在朗伯-比爾定律的基礎(chǔ)上,利用多波長下的近紅外光譜數(shù)據(jù)建立了若干個預測木素含量的子數(shù)學模型。然后使用加權(quán)平均值公式給出了木素含量的首次近似值,再利用木素含量實驗值與近似值之間所具有的較強線性關(guān)系,給出了建立近紅外光譜數(shù)據(jù)預測模型的迭代法。本研究建模只使用了1/10的光譜數(shù)據(jù),如將全部光譜數(shù)據(jù)用于建模,模型的預測誤差有望進一步減小。本建模方法有望用于其它樹木某些化學成分含量的測定。
2 儀器與數(shù)據(jù)
2.1 樣品制備及化學成分含量的測定
原材料為16棵采自廣西的相思樹,每棵樹從胸高到樹梢間隔1.5 m取一個圓盤,在實驗室將圓盤磨碎后,篩取0.24~0.18 mm粒徑的木粉供分析, 共制得78個樣品。用苯醇混合液抽提木粉2 h,再以72% H2SO4水解,稀釋煮沸4 h后,定量測定其水解殘余物的質(zhì)量,得到克拉森木素含量。
2.2 儀器設(shè)備與光譜數(shù)據(jù)的采集
傅立葉變換近紅外光譜儀(德國布魯克光譜儀器公司),帶有RT-PbS檢測器,OPUS/OVP自檢功能,內(nèi)置鍍金漫反射積分球,分辨率為8 cm-1;采用旋轉(zhuǎn)臺以增加采樣面積,采集樣品的漫反射光譜。將木粉樣品置于直徑50 mm石英杯內(nèi),在4000~12000 cm-1譜區(qū)內(nèi),用近紅外光譜儀掃描64次,取平均值成為一個光譜數(shù)據(jù),每個光譜數(shù)據(jù)包含2074個吸光值。
2.3 數(shù)據(jù)的分組
將78個光譜數(shù)據(jù)分成兩組,用59個光譜數(shù)據(jù)構(gòu)成校正集,其余19個光譜數(shù)據(jù)構(gòu)成驗證集。校正集中的光譜數(shù)據(jù)編號為1~59,并用YA=(y1, y2,…,y59)表示校正集所對應的克拉森木素含量向量;驗證集中的光譜數(shù)據(jù)編號為60~78,并用YB=(y60, y61,…,y78)表示驗證集所對應的克拉森木素含量向量。校正集中每個波長處的吸光值構(gòu)成一個59維的向量,將吸光值向量按波數(shù)從小到大的次序排列,依次記為XA0001, XA0002,…, XA2074,驗證集的吸光值向量類似地記為XB0001, XB0002,…,XB2074(每個吸光值向量均為19維)。由于波長較小的數(shù)據(jù)噪音成分較大,建模時不使用下標超過1400的吸光值向量。為減小計算量,本研究只使用校正集中1/10的吸光值向量(XA0001, XA0011, XA0021,XA0031,…,XA1391)建模,然后用與之對應的驗證集的吸光值向量(XB0001, XB0011, XB0021,XB0031,…, XB1391)檢驗模型。
本研究建模的基本方法是每次先建立10個子模型,根據(jù)子模型的預測結(jié)果用加權(quán)平均值公式得出總的預測值。為此需將校正集中的吸光值向量XA0001, XA0011, XA0021,XA0031,…, XA1391進一步劃分為10個小組,第k+1組由XA00k1, XA01k1, XA02k1, …,XA13k1構(gòu)成(k=0,1,2,…,9)。為便于數(shù)學表達,將它們簡記為WAk1, WAk2,…WAk14。對與之對應的驗證集的吸光值向量也做同樣的劃分,并簡記為WBk1, WBk2,…,WBk14。
分 析 化 學第39卷
第1期劉 勝等:迭代法在相思樹近紅外光譜分析中的應用
2.4 木素含量的首次估計值
先用WAk1, WAk2,…,WAk14建立子模型。參考朗伯-比爾定律,設(shè)YA可由ck0 IA+∑14i=1cki ln(IA-WAki) 近似表示(IA是分量均為1的59維向量),其中cki (i=0,1,…,14)為待定常數(shù)。即設(shè)
YA=ck0 IA+∑14i=1cki ln(IA-WAki)+εk(1)
其中,εk為誤差向量(設(shè)εk=(εk(1), εk(2),….εk(59)))。為減小誤差,不限定cki的正負。為增強模型的預測能力,從cki中選出4個常數(shù),并令它們的值為零(具體做法見3.3節(jié))。
用擬合法求出式(1)中剩余的11個待定常數(shù)的值,可得由校正集第k+1組的吸光值向量確定的YA的首次近似值向量YAk1=ck0 IA+∑14i=1cki ln(IA-WAki)。計算子模型的誤差向量εk=Y(jié)A-YAk1 及平均誤差εk=159∑59j=1εk(j),再對10個近似值向量進行加權(quán)平均,可得YA的首次估計值向量ZA1=∑9k=0qk1 YAk1,其中qk1為權(quán)重系數(shù),由經(jīng)驗公式qk1=(εk)-16∑9r=0(εr)-16確定。
由驗證集吸光值向量WBk1, WBk2,…,WBk14確定的木素含量向量YB的首次近似值向量為YBk1=ck0 IB+∑14i=1cki ln(IB-WBki),其中IB是分量均為1的19維向量。YB的首次預測值向量為ZB1=∑9k=0qk1 YBk1。
2.5 迭代法建模
用WAk1, WAk2,…,WAk14建立子模型。設(shè)WAki=(wki(1),wki(2),…,wki(59)), ZA=(z1,z2,…,z59)是YA的某個估計值向量。因為木素的實驗值與估計值之間具有較強的線性關(guān)系,所以可用D1+D2 zj作為yj的近似值(j=1,2,…,59),其中D1, D2為常數(shù)。為減小誤差,將D1, D2分別用與光譜數(shù)據(jù)有關(guān)的變量ak0IA+∑14i=1akiln(IA-WAki和bk0ZA+∑14i=1bkiln(IA-Wki))代替,則YA可由[ak0 IA+∑14i=1akiln(IA-WAki)+(bk0ZA+
∑14i=1bki(ZAln(IA-WAki))]近似表示,其中ZAln(IA-WAki)定義為向量。(z1ln(1-wki(1)), z2ln(1-wki(2)),…, z59ln(1-wki(59))),aki, bki (i=0,1,…,14)為待定常數(shù)。為減少式(3)中所含待定常數(shù)的個數(shù),從而增強模型的預測能力,本研究建立下面的兩種子模型:
YA=ak0IA+∑7i=1ak(2i) ln(IA-WAk(2i))+bk0ZA+∑7i=1bk(2i-1)(ZAln(IA-WAk(2i-1)))+εk′ (2)
YA=ak0IA+∑7i=1ak(2i-1) ln(IA-WAk(2i-1))+bk0ZA+∑7i=1bk(2i)(ZAln(IA-WAk(2i)))+εk″ (3)
其中,εk′和εk″為誤差向量。
交替使用式(2)和(3),減小模型的預測誤差。將ZA=ZA1(YA的首次估計值向量)帶入式(2),為增強模型的預測能力,從ak(2i) (i=1,2,…,7)中選出2個常數(shù),并令它們的值為零(具體做法見3.3節(jié))。用擬合法求出式(2)中剩余的14個待定常數(shù)的值,則由WAk1, WAk2,WAk14確定的YA的第二次近似值向量為
YAk2=ak0IA+∑7i=1ak(2i) ln(IA-WAk(2i))+bk0ZA1+∑7i=1bk(2i-1)(ZA1ln(IA-WAk(2i-1))) (4)
仿照第2.4節(jié)的方法計算平均誤差εk′ 和權(quán)重系數(shù)qk2=(εk′)-16∑9r=0(εr′)-16,可得YA的第二次估計值向量ZA2=∑9k=0qk2 YAk2,類似可得YB的第二次預測值向量ZB2=∑9k=0qk2YBk2,其中YBk2是由WBk1, WBk2,WBk14確定的YB的第二次近似值向量,其表達與式(4)類似。
將ZA=ZA2帶入式(3),仿照前面的做法從ak(2i-1) (i=1,2,…,7)中選出2個常數(shù),并令它們的值為零,用擬合法求出其余14個待定常數(shù)的值,與前述方法類似可得YA的第3次估計值向量ZA3和YB的第3次預測值向量ZB3。將ZA=ZA3帶入式(2),與得出ZA2和ZB2的方法完全類似可得YA的第4次估計值向量ZA4和YB的第4次預測值向量ZB4。再將ZA=ZA4帶入式(3),與得出ZA3和ZB3的方法完全類似可得YA的第5次估計值向量ZA5和YB的第5次預測值向量ZB5。
3 結(jié)果與討論
3.1 誤差情況
表1給出了YB的分量的各次預測值所產(chǎn)生的平均相對誤差,實驗值與預測值之間的相關(guān)系數(shù)r以及模型的擬合優(yōu)度R2。 圖1 模型的預測圖
Fig.1 Prediction figure of model
表1 對ZB1,ZB2,ZB3,ZB4,ZB5的評價
Table 1 Evaluations to ZB1,ZB2,ZB3,ZB4,ZB5
向量Vector平均相對誤差
Mean relative errorrR2
ZB10.0172 0.95910.9121
ZB20.0147 0.96860.9226
ZB30.0136 0.97060.9247
ZB40.0140 0.97040.9295
ZB50.0134 0.97050.9291
由表1可見:模型的預測精度總體上隨迭代次數(shù)的增加而提高;如果用ZB5作為YB的預測值向量,則預測值所產(chǎn)生的平均相對誤差為0.0134,實驗值與預測值之間的相關(guān)系數(shù)為r=09705,模型的擬合優(yōu)度為R2=09291;ZB5與YB的對比情況見圖1。
3.2 建模方法的變化
在得到ZA1和ZB1后,如果不使用迭代法,而用最小二乘法算式(2)中常數(shù)D1 , D2的值,并用D1+D2 Z1B作為YB的預測值向量,則預測值所產(chǎn)生的平均相對誤差為0.0168,實驗值與預測值之間的相關(guān)系數(shù)為r=0.9591,模型的擬合優(yōu)度為R2=0.9199。顯然迭代法具有更高的預測精度。
如果用得出ZB2,ZB3,ZB4,ZB5的方法繼續(xù)使用迭代法得出ZB6,ZB7等預測值向量,模型的預測誤差有望進一步減小。本研究在建模和預測過程中只使用了1/10的光譜數(shù)據(jù),如果將全部光譜數(shù)據(jù)用于建模和預測,模型的預測誤差有望進一步減小。本研究為得出YAk1所用的子模型中待定常數(shù)的實際個數(shù)為11,用于得出YAki (i=2, 3, …)的子模型中待定常數(shù)的實際個數(shù)為14,這是根據(jù)建模經(jīng)驗所做的一種嘗試;改變子模型中待定常數(shù)的實際個數(shù)(11和14)有可能會得出更好的預測模型,但這需要做大量的計算和嘗試。
3.3 待定常數(shù)個數(shù)的減少方法
為減少式(1)中待定常數(shù)的實際個數(shù),先用擬合法求出常數(shù)cki (i=0,1,…,14)的值,設(shè)使cki (i=1,2,…,14)最小的系數(shù)為cki1 (1
SymbolcB@ i1
SymbolcB@ 14),令cki1=0;重新使用擬合法求出其余14個待定常數(shù)的值,設(shè)使cki (1
SymbolcB@ i
SymbolcB@ 14,i≠i1)最小的系數(shù)為cki2 (1
SymbolcB@ i2
SymbolcB@ 14),令cki2=0;繼續(xù)使用上述方法找出另外兩個系數(shù)cki3和cki4,并令它們的值為零,則式(1)中待定常數(shù)的實際個數(shù)減少為11。
為減少式(4)中待定常數(shù)的實際個數(shù),先用擬合法求出ak0, bk0, ak(2i), bk(2i-1) (i=1,2,…,7)的值,設(shè)使ak(2i) (i=1,2,…,7)最小的系數(shù)為ak(2i1),令ak(2i1)=0;重新使用擬合法求出其余15個待定常數(shù)的值,設(shè)使ak(2i) (1
SymbolcB@ i
SymbolcB@ 7,i≠i1)最小的系數(shù)為ak(2i2),將ak(2i2)=0,則式(4)中待定常數(shù)的實際個數(shù)減少為14。
3.4 小結(jié)
本研究利用化學組成含量實驗值與近似值之間所具有的較強線性關(guān)系及加權(quán)平均值公式,給出了建立近紅外光譜數(shù)據(jù)預測模型的迭代法。將本方法用于建立相思樹的克拉森木素含量預測模型,所得預測值的平均相對誤差為0.0134,實驗值與預測值之間的相關(guān)系數(shù)為0.9705,模型的擬合優(yōu)度為0.9291。上述結(jié)果表明,這種建模方法還有望用于其它樹木某些化學成分含量的測定。
致 謝 本研究所用數(shù)據(jù)均由北京林業(yè)大學材料學院提供,感謝姚勝博士所提供的幫助。
References
1 XIE Jun, PAN Tao, CHEN Jie-Mei, CHEN Hua-Zhou, REN Xiao-Huan(謝 軍, 潘 濤, 陳潔梅, 陳華舟, 任小煥). Chinese J. Anal. Chem.(分析化學),2010, 38(3): 342~346
2 DAI Chuan-Yun, GAO Xiao-Yan, TANG Bo, FU Ya, LIU Huo-An(戴傳云, 高曉燕, 湯 波, 傅 亞, 劉火安). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2010, 30(2): 358~362
3 Balabin R M, Safieva R Z. Journal of Near Infrared Spectroscopy, 2007, 15 (6): 343~349
4 LIU Yan-De, LUO Ji, CHEN Xing-Miao(劉燕德, 羅 吉, 陳興苗). J. Infrared Millim. Waves(紅外與毫米波學報), 2008, 27(2): 119~122
5 LI Yan-Kun,SHAO Xue-Guang,CAI Wen-Sheng(李艷坤, 邵學廣, 蔡文生). Chem. J. Chinese Universities(高等學?;瘜W學報), 2007, 28(2): 246~249
6 CHENG Zhong, ZHU Ai-Shi, CHEN De-Zhao(成 忠, 諸愛士, 陳德釗). Chinese J. Anal. Chem. (分析化學), 2007, 35(7): 978~982
7 Poke F S, Raymond C A. Journal of Wood Chemistry and Technology, 2006, 26(2): 187~199
8 Schimleck L R, Payne P, Wearne R H. Wood and Fiber Science, 2005, 37(3): 462~471
9 Schimleck L R, Kube P D, Raymond C A. Canadian Journal of Forest Research, 2004, 34(11): 2363~2370
10 HUANG An-Min, JIANG Ze-Hui, LI Gai-Yun(黃安民, 江澤慧, 李改云). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2007, 27(7): 1328~1331
Application of Iterative Method to Near Infrared
Spectra Analysis of Acacia
LIU Sheng*, ZHANG Wen-Jie
(Beijing Forestry University, Beijing 100083)
Abstract Using contents of Klason lignin of acacia specimens as an object of study, several sub mathematical models that can be used to predict the contents of lignin were built by using near infrared(NIR) spectral data of multi wavelength. Then, the first time approximation values of the contents of lignin were given by the weighted mean value equation. From the relatively strong linear relation between the experiment values and the predicted values of the contents of lignin, the iterative method of constructing prediction model by near infrared spectral data was given. The accuracy of prediction of the model will rise when the number of repeating times increases. It is possible that the repeated method can be used to determine the contents of some chemical components of other kind of trees.
Keywords Spectroscopy; Near infrared; Iterative method; Lignin
(Received 19 May 2010; accepted 06 July 2010)