• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于支持向量機的近紅外特征變量選擇算法用于樹種快速識別

      2016-02-23 07:39:40房桂干崔宏輝張新民趙振義
      分析測試學(xué)報 2016年1期
      關(guān)鍵詞:近紅外光譜支持向量機

      梁 龍 ,房桂干*,吳 珽 ,崔宏輝 ,張新民 ,趙振義

      (1.中國林業(yè)科學(xué)研究院 林產(chǎn)化學(xué)工業(yè)研究所;江蘇省生物質(zhì)能源與材料重點實驗室;國家林業(yè)局 林產(chǎn)化學(xué)

      工程重點開放性實驗室;生物質(zhì)化學(xué)利用國家工程實驗室,江蘇  南京 210042;

      2.華夏科創(chuàng)儀器有限公司,北京 100085)

      ?

      基于支持向量機的近紅外特征變量選擇算法用于樹種快速識別

      梁龍1,房桂干1*,吳珽1,崔宏輝1,張新民2,趙振義2

      (1.中國林業(yè)科學(xué)研究院林產(chǎn)化學(xué)工業(yè)研究所;江蘇省生物質(zhì)能源與材料重點實驗室;國家林業(yè)局林產(chǎn)化學(xué)

      工程重點開放性實驗室;生物質(zhì)化學(xué)利用國家工程實驗室,江蘇 南京210042;

      2.華夏科創(chuàng)儀器有限公司,北京100085)

      摘要:將穩(wěn)定度自適應(yīng)重加權(quán)采樣特征變量選擇算法用于支持向量機定性分析(Support vector machine-stability competitive adaptive reweighted sampling,SVM-SCARS)。該算法通過對數(shù)據(jù)多次采樣建模計算各變量的穩(wěn)定度值,穩(wěn)定度值能更加客觀準(zhǔn)確地評估變量在建模中的作用,因此可作為變量重要性的評價依據(jù)。通過循環(huán)迭代方式,采用自適應(yīng)重加權(quán)采樣技術(shù)逐步篩選變量,然后以每次循環(huán)所得變量子集建立SVM模型,并以模型交叉驗證分類正確率(Correct classification rate of cross validation,CCRCV)評估子集優(yōu)劣,確定最優(yōu)特征變量子集。將該算法結(jié)合漫反射近紅外光譜技術(shù)建立了制漿造紙常用木材的樹種識別模型,實現(xiàn)了對4種桉木和2種相思木的快速識別分類。最終共篩選出15個特征變量建立分類模型,模型對各樹種分類的正確率達(dá)97.9%,具有較好的分類效果。與全光譜模型和遞歸特征消除支持向量機模型相比,SVM-SCARS能夠篩選出更少的特征變量,且模型具有更好的預(yù)測性能和穩(wěn)定性。研究結(jié)果表明,SVM-SCARS算法能夠有效優(yōu)化光譜特征變量,提高近紅外在線分析模型在木材材性分析中的穩(wěn)健性和適用性。

      關(guān)鍵詞:近紅外光譜;支持向量機;變量選擇;樹種識別;制漿造紙

      由于優(yōu)質(zhì)木材原料供應(yīng)短缺,采用多種木材纖維原料混合制漿造紙目前已成為必然。而不同樹種的木材原料因其纖維形態(tài)、化學(xué)組成等差異會直接影響到工藝參數(shù)、生產(chǎn)成本和紙漿產(chǎn)品質(zhì)量,因此需要針對木材樹種和材性的變化適時調(diào)整生產(chǎn)工藝條件[1]。但傳統(tǒng)制漿原料的分析方法步驟繁瑣且測試周期長,無法實現(xiàn)實時在線檢測,企業(yè)通常只能采用高用藥量和高能耗的方法保證產(chǎn)品質(zhì)量,但會導(dǎo)致化學(xué)品浪費和污染排放嚴(yán)重等問題。因此開發(fā)新型木材材性特征在線檢測系統(tǒng),實施在線調(diào)控生產(chǎn)工藝參數(shù),將對企業(yè)節(jié)能減排、提高市場競爭力具有重要意義。

      近紅外光譜技術(shù)(Near-infrared spectroscopy,NIR)作為一種成熟的快速測量手段,具有高效、無損、在線分析等優(yōu)勢,可用于制漿生產(chǎn)過程中對木材原料材種和材性進行在線監(jiān)測,以調(diào)整工藝條件實時反饋信息,實現(xiàn)對化學(xué)品用量和能耗的精確控制,從而提高工業(yè)生產(chǎn)效率并降低生產(chǎn)成本和污染排放[2-3]。目前近紅外光譜技術(shù)在木材材性分析方面的研究已取得較多成果,主要是通過實驗室型儀器對經(jīng)特殊處理的木材樣品進行分析,而其在造紙行業(yè)的工業(yè)化應(yīng)用研究尚未見報道[4-6]。此外由于近紅外光譜主要反映的是含氫基團的倍頻與合頻吸收,光譜強度弱,譜帶重疊嚴(yán)重,存在較強的干擾信息[7-8],嚴(yán)重影響模型預(yù)測性能,因此需從原光譜篩選出與樣品特征信息關(guān)聯(lián)性較強的變量建模,以提高模型的精度和穩(wěn)定性[9]。本文利用漫反射近紅外光譜技術(shù)直接對工業(yè)生產(chǎn)中使用的制漿木片進行測量,并結(jié)合支持向量機模型實現(xiàn)了多種制漿造紙常用樹種的快速識別,同時應(yīng)用自適應(yīng)重加權(quán)采樣特征變量選擇算法篩選出與各樹種相關(guān)程度較高的特征變量建立穩(wěn)健的識別模型,從而提高了近紅外在線分析模型的穩(wěn)定性和適用性。

      1實驗部分

      1.1儀器設(shè)備

      1.2樣品制備與光譜采集

      實驗材料為制漿造紙常用木材,由廣西某造紙廠提供,主要包括4種桉樹:巨尾桉(E.grandis×E.urophylla)、尾葉桉(Eucalyptusurophylla)、藍(lán)桉(Eucalyptusglobulus)和小葉桉(Eucalyptustereticonis)以及2種相思樹:厚莢相思(Acaciacrassicarpa)和馬占相思(Acaciamangium),均為企業(yè)生產(chǎn)中常用木材。從表1列出的樣品具體材性信息可發(fā)現(xiàn),不同樹種的化學(xué)成分和纖維形態(tài)均存在差異,其中小葉桉和藍(lán)桉的綜纖維素含量較高,有利于獲得較高制漿得率,而厚莢相思的纖維長寬比最大且壁腔比最小,可制得強度性能優(yōu)良的紙張,因此可基于木材主要纖維化學(xué)結(jié)構(gòu)的近紅外特征吸收實現(xiàn)對不同樹種的分類。

      將實驗所用木材剝?nèi)淦ず笠韵髌瑱C削切成滿足制漿生產(chǎn)規(guī)格的木片樣品,平衡水分后用于光譜采集,將木片樣品平鋪于樣品杯中,采用置頂旋轉(zhuǎn)測樣方式,采集近紅外漫反射光譜,每次測量掃描50次自動平均為一個光譜。考慮到木片尺寸不規(guī)則對測量均勻性的影響,每份樣品重復(fù)裝樣5次采集光譜以充分獲取木片樣品信息。

      表1 不同種類木材樣本

      1.3SVM-RFE算法

      支持向量機(Support vector machine,SVM)是一種基于統(tǒng)計學(xué)習(xí)理論的模式識別方法,其基本思想是通過核函數(shù)將數(shù)據(jù)從原始特征空間映射到高維特征空間,使線性內(nèi)積運算非線性化,然后在特征空間建立使分類間隔最大化的最優(yōu)超平面,并基于該超平面實現(xiàn)對未知樣本的判別[10]。

      支持向量機遞歸特征消除算法(Support vector machine-recursive feature elimination,SVM-RFE)是一種基于支持向量機建模的特征變量選擇方法[11]。SVM-RFE根據(jù)建模時生成的權(quán)向量構(gòu)造特征變量的排序系數(shù),以此評判每個變量對分類的貢獻。排序系數(shù)Ri為變量i存在時SVM建模的代價函數(shù)值與假定變量i被消除后SVM建模代價函數(shù)值差值的絕對值。

      (1)

      其中H=(Hij)i,j=1,…,m,Hij=yiyjK(xi,xj),K為核函數(shù),y是類別標(biāo)簽,x是數(shù)據(jù)點,α是建模計算過程中引入的參數(shù)。通過循環(huán)迭代的方式逐個移除排序系數(shù)最小的變量,并計算該變量被移除后SVM分類模型的交叉驗證分類正確率(Correct classification rate of cross validation,CCRCV),直至所有特征變量被移除,最后以迭代過程中CCRCV最大的變量子集為最優(yōu)特征變量子集。

      調(diào)查對象為地質(zhì)工程專業(yè)2011屆畢業(yè)生,調(diào)查時間為2012年9月,為該專業(yè)首屆畢業(yè)生參加工作一年之際。調(diào)查內(nèi)容包括就業(yè)單位行業(yè)性質(zhì)、單位性質(zhì)、工作崗位等,還特別選擇了行業(yè)內(nèi)從事專業(yè)技術(shù)工作的10位畢業(yè)生進行訪談,詳細(xì)了解他們從事專業(yè)技術(shù)工作的感受與建議,如專業(yè)對口度、能力與崗位需求差距、實習(xí)對就業(yè)的影響、影響職業(yè)能力的因素等。

      1.4SVM-SCARS算法

      SVM-RFE通過建模參數(shù)直接構(gòu)造排序系數(shù),而建模參數(shù)又隨樣本數(shù)據(jù)數(shù)值變化而變化,因此計算結(jié)果易受數(shù)據(jù)波動性和隨機性的影響,不能全面反映變量重要性。此外每次迭代只消去1個變量,運算量較大,計算效率低[12]。因此本研究將穩(wěn)定度自適應(yīng)重加權(quán)采樣策略應(yīng)用于支持向量機變量選擇(Support vector machine-stability competitive adaptive reweighted sampling,SVM-SCARS),該算法在傳統(tǒng)SVM-RFE的基礎(chǔ)上從以下兩方面進行改進:

      ①以排序系數(shù)穩(wěn)定度作為變量重要性的評判標(biāo)準(zhǔn)。采用蒙特卡洛采樣法從m個樣本中隨機抽取msam(msam

      (2)

      ②通過自適應(yīng)重加權(quán)采樣(Adaptive reweighted sampling,ARS)篩選特征變量。對于每次迭代,采用ARS篩選出穩(wěn)定度值較大的變量,通過指數(shù)衰減函數(shù)確定篩選出的變量個數(shù)占全部變量數(shù)的比率[13-14]。第k次迭代時變量的篩選比根據(jù)下式計算。

      cK=ae-bk

      (3)

      其中a與b為常數(shù),可基于兩種情況計算:第一次迭代,所有p個變量均被篩選,此時c1=1;最后一次迭代,只有1個變量被篩選,此時cN=1/p,因此可推算,a=p1/(N-1),b=(lnp)/(N-1),p是變量總個數(shù),N是總迭代次數(shù)。通過指數(shù)衰減函數(shù)可將變量篩選過程分為粗選和精選兩個階段,粗選階段變量篩選比率下降迅速,變量數(shù)減少很快,可迅速剔除大量無用和干擾變量;精選階段變量數(shù)減少緩慢,可對較重要的變量精細(xì)篩選,從而快速高效地篩選重要的特征變量。

      SVM- SCARS具體算法過程如下:

      (1) 通過蒙特卡洛采樣法對樣本集t次采樣建模,并結(jié)合式(1)和式(2)計算各變量的排序系數(shù)穩(wěn)定度值S;

      (2) 根據(jù)式(3)確定該次迭代篩選變量個數(shù)ns;采用ARS技術(shù)篩選穩(wěn)定度值較大的ns個變量組成該次迭代的特征變量子集Vk;

      (3) 循環(huán)迭代(1)和(2)步N次,共獲得N個變量子集(V1,V2,…,VN),根據(jù)各變量子集建立SVM分類模型,以各模型的交叉驗證分類正確率評估這些子集的優(yōu)劣,確定最優(yōu)特征變量子集。

      2結(jié)果與討論

      2.1光譜預(yù)處理

      由于本實驗直接采集木片光譜,而木片樣品的不規(guī)則和不均勻性會導(dǎo)致嚴(yán)重的光散射和光程變化,干擾光譜分析,因此使用一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、標(biāo)準(zhǔn)正態(tài)變換(Standard normal variate,SNV)等多種預(yù)處理方法優(yōu)化原始光譜。表2結(jié)果表明,一階導(dǎo)數(shù)結(jié)合標(biāo)準(zhǔn)正態(tài)變換可有效消除干擾信息,提高模型的預(yù)測性能。

      表2 不同光譜預(yù)處理方法對模型鑒別準(zhǔn)確率的影響

      2.2變量篩選

      采用一對一建模策略建立了SVM多分類模型對本實驗中6種木材進行樣本分類[15]。從所有559個樣本中隨機抽取372個樣本作為訓(xùn)練集,其余187個樣本作為測試集。訓(xùn)練集經(jīng)SVM-SCARS篩選出最優(yōu)變量子集并建立SVM分類模型,通過測試集對該模型進行驗證,并與傳統(tǒng)SVM-RFE方法進行對比。SVM建模采用線性核函數(shù),SVM-SCARS所需參數(shù):蒙特卡洛采樣數(shù)t=50,每次抽取樣本數(shù)msam為訓(xùn)練集樣本總數(shù)的4/5,迭代次數(shù)N=30。

      圖1和圖2反映了SVM-RFE和SVM-SCARS變量篩選過程中變量數(shù)目和CCRCV的變化趨勢。迭代前期,隨著變量數(shù)減少,兩種方法的CCRCV均無明顯變化,表明無用和冗余變量被逐漸剔除。但由于SVM-RFE每次只消去1個變量,計算效率較低,而SVM-SCARS通過指數(shù)衰減函數(shù)確定篩選變量個數(shù),在粗選階段能夠迅速剔除大量冗余變量。此后隨著較重要變量被剔除,模型預(yù)測性能被逐漸削弱,兩種方法的CCRCV均呈下降趨勢。值得注意的是,SVM-RFE在迭代后期出現(xiàn)較大波動,這主要是因為SVM-RFE直接利用建模參數(shù)構(gòu)建排序系數(shù),易受數(shù)據(jù)波動性的影響。尤其在大部分冗余數(shù)據(jù)被剔除后,剩余變量均對模型有不同程度的影響,只通過1次取樣建模獲取的排序系數(shù)無法全面評估各變量的重要性,容易出現(xiàn)對變量排序的誤判,使某些更重要的變量被提前剔除導(dǎo)致模型預(yù)測能力不穩(wěn)定。而SVM-SCARS通過重復(fù)采樣建模的穩(wěn)定度值綜合考察變量,能夠客觀準(zhǔn)確地評估變量在建模中的作用,按其重要性逐次篩選變量,因此其CCRCV的變化較為平緩。綜合分析,最終確定SVM-RFE選出的最優(yōu)變量為其第72次迭代所得的29個特征變量,SVM-SCARS選出的最優(yōu)變量為其第13次迭代所得的15個特征變量。

      2.3模型預(yù)測性能分析

      基于篩選出的特征變量建立SVM分類模型并對測試集進行預(yù)測,結(jié)果見表3。由于4種桉木同屬于桃金娘科桉屬,2種相思木同屬于金合歡屬,同屬樹種間差異性較小,其近紅外光譜反映的材性信息較為相似,增加了全光譜模型預(yù)測難度,此外樣品不均勻和光散射干擾也會影響模型預(yù)測性能。通過篩選變量去除冗余和干擾信息后,模型預(yù)測性能得到顯著提高。但由于變量篩選過程波動性較大,SVM-RFE模型對不同樹種的預(yù)測性能并不穩(wěn)定,如對尾葉桉和小葉桉能夠完全識別,但對2種相思木的預(yù)測精度卻不理想。SVM-SCARS模型基于穩(wěn)定度值綜合評估變量的重要性,能有效提取樹種間差異較大的光譜變量,這些變量與各樹種主要化學(xué)纖維結(jié)構(gòu)的特征性吸收均有較強的關(guān)聯(lián)性,提高了建模數(shù)據(jù)的特異性,因此對各樹種均有較好的預(yù)測能力。

      表3 不同變量選擇方法對測試集的分類結(jié)果

      3結(jié)論

      利用SVM-SCARS篩選出多種制漿常用木材的近紅外光譜特征變量,建立了穩(wěn)健的SVM樹種識別模型。SVM-SCARS通過對數(shù)據(jù)重復(fù)采樣建模,綜合評判各變量對模型的重要性,采用自適應(yīng)重加權(quán)采樣策略快速高效地篩選出對模型有重要作用的變量,從而優(yōu)化特征變量,提升模型性能。與原光譜模型和SVM-RFE模型相比,SVM-SCARS模型具有更好的預(yù)測能力和穩(wěn)定性。研究結(jié)果表明,便攜式近紅外光譜儀結(jié)合SVM變量篩選算法能夠建立穩(wěn)健的近紅外在線分析模型,可實現(xiàn)對制漿木材材性的在線分析評估,對精確控制工藝條件促進制漿原料的高效合理利用具有重要的指導(dǎo)意義。

      參考文獻:

      [1]Schwanninger M,Tsuchikawa S.Appl.Spectrosc.Rev.,2013,48(7):560-587.

      [2]Tavassoli N,Tsai W,Bicho P,Grant E R.Anal.Methods,2014,6:8906-8914.

      [3]Inagaki T,Sirisomboon P,Liu C,Thanapase W,Tsuchikawa S.J.WoodSci.,2013,59(2):119-126.

      [4]Yang Z,Ren H Q,Jiang Z H.Spectrosc.SpectralAnal.(楊忠,任海青,江澤慧.光譜學(xué)與光譜分析),2008,28(4):793-796.

      [5]Yang Z,Lü B,Huang A M,Liu Y N,Xie X Q.Spectrosc.SpectralAnal.(楊忠,呂斌,黃安民,劉亞娜,謝序勤.光譜學(xué)與光譜分析),2012,32(7):1785-1789.

      [6]Ma M Y,Wang G Y,Huang A M,Zhang Z Y,Xiang Y H,Gu X.Spectrosc.SpectralAnal.(馬明宇,王桂蕓,黃安民,張卓勇,相玉紅,顧軒.光譜學(xué)與光譜分析),2012,32(9):2377-2381.

      [7]Huang C Y,F(xiàn)an H B,Liu F,Xu G R.J.Instrum.Anal.(黃常毅,范海濱,劉飛,許贛榮.分析測試學(xué)報),2014,33(5):520-526.

      [8]Diesel K M F,Costa F S L D,Pimenta A S,Lima K M G D.WoodSci.Technol.,2014,48(5):949-959.

      [9]Zou X B,Zhou J W,Povey M J W,Holmes M,Mao H P.Anal.Chim.Aata,2010,667:14-32.

      [10]Cortes C,Vapnik V.MachineLearning,1995,20(3):273-297.

      [11]Guyon I,Weston J,Barnhill S,Vapnik V.MachineLearning,2002,46(1/3):389-422.

      [12]Duan K B,Rajapakse J C,Wang H Y,Azuaje F.IEEETrans.Nanobiosci.,2005,4(3):228-234.

      [13]Li H D,Liang Y Z,Xu Q S,Cao D S.Anal.Chim.Acta,2009,648(1):77-84.

      [14]Zhang H X,Li X N,F(xiàn)an W,Liang Y Z,Tang Y L.J.Instrum.Anal.(張華秀,李曉寧,范偉,梁逸曾,唐玉蓮.分析測試學(xué)報),2010,29(5):430-434.

      [15]Hsu C W,Lin C J.IEEETrans.NeuralNetworks,2002,13(2):415-425.

      [16]Wu R M,Wang X,Guo P,Ai S R,Yan L Y,Liu M H.J.Instrum.Anal.(吳瑞梅,王曉,郭平,艾施榮,嚴(yán)霖元,劉木華.分析測試學(xué)報),2013,32(11):1359-1363.

      [17]He W M,Hu H R.Bioresour.Technol.,2013,140:299-305.

      Fast Identification of Wood Species Using Near Infrared Spectroscopy Coupled with Variables Selection Methods Based on Support Vector MachineLIANG Long1,FANG Gui-gan1*,WU Ting1,CUI Hong-hui1,ZHANG Xin-min2,ZHAO Zhen-yi2

      (1.Institute of Chemical Industry of Forestry Products,CAF;Key Laboratory of Biomass Energy and Material,Jiangsu

      Province;Key and Open Laboratory on Forest Chemical Engineering,SFA;National Engineering Laboratory for Biomass Chemical

      Utilization,Nanjing210042,China;2.China invent Instrument Tech.Co.Ltd.,Beijing100085,China)

      Abstract:A novel variable selection method based on stability competitive adaptive reweighted sampling was applied to work with support vector machines(SVM-SCARS) for selecting informative variables of near infrared spectroscopy to build more robust SVM model.This method computed the stability index of each variable from a statistical analysis of weight vectors of multiple SVMs trained on subsamples of the original data by multiple sampling.The stability index represents the influence of variable on SVM modeling and could be used to evaluate the importance of variable.The variable with higher stability index was treated as informative variable that has an important effect on predictive performance of the model.Through iterations,the important variables was selected gradually by using adaptive reweighted sampling technology.Then the selected variables in each iteration were stored into variable subset.The optimal variable subset was determined by assessing the correct classification rate of cross validation(CCRCV) of SVM models based on all variable subsets.The SVM-SCARS algorithm combined with near-infrared diffusion reflectance spectrum technology were applied to construct wood identification model for four kinds of eucalyptus and two kinds of acacia.Experimental results showed that the SVM-SCARS model has a superior performance for identifying different wood species,in comparison to the full spectrum model and the support vector machine recursive feature elimination(SVM-RFE) model,both in terms of prediction ability and selected variables size.As a result,fifteen variables were selected by SVM-SCARS method to construct identification model with the correct classification rate of 97.9%.This study demonstrates that SVM-SCARS could effectively extract important characteristic variables from near infrared spectrum to improve the robustness and applicability of NIR online detection model for wood property analysis.

      Key words:near infrared spectroscopy;support vector machines;variable selection;wood species identification;pulp and paper

      中圖分類號:O657.3;F762.4

      文獻標(biāo)識碼:A

      文章編號:1004-4957(2016)01-0101-06

      doi:10.3969/j.issn.1004-4957.2016.01.017

      通訊作者:*房桂干,國際木材科學(xué)院院士,教授,研究方向:制漿造紙清潔生產(chǎn)、木材材性無損檢測分析,Tel:025-85482548,E-mail:fangguigan@icifp.cn

      基金項目:國家林業(yè)局948項目(2014-4-31)

      收稿日期:2015-07-10;修回日期:2015-08-05

      猜你喜歡
      近紅外光譜支持向量機
      基于改進支持向量機的船舶縱搖預(yù)報模型
      中國水運(2016年11期)2017-01-04 12:26:47
      基于SVM的煙草銷售量預(yù)測
      動態(tài)場景中的視覺目標(biāo)識別方法分析
      論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
      價值工程(2016年32期)2016-12-20 20:36:43
      基于近紅外光譜法的藜麥脂肪含量快速檢測
      基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
      價值工程(2016年29期)2016-11-14 00:13:35
      基于支持向量機的金融數(shù)據(jù)分析研究
      中國當(dāng)代醫(yī)藥(2016年19期)2016-09-30 20:42:57
      小麥子粒粗蛋白FT—NIRS分析模型建立的初步研究
      近紅外光譜分析技術(shù)快速檢測冰溫貯藏牛肉品質(zhì)
      肉類研究(2015年3期)2015-06-16 12:41:35
      确山县| 龙井市| 靖西县| 临漳县| 乐陵市| 镇远县| 维西| 桐梓县| 额敏县| 肃北| 奎屯市| 两当县| 同德县| 合水县| 乳源| 江孜县| 桐梓县| 临泉县| 靖江市| 阿拉善右旗| 宁国市| 榆树市| 开化县| 浦东新区| 维西| 友谊县| 榆林市| 桐庐县| 井研县| 瑞昌市| 云林县| 东兰县| 抚远县| 象州县| 留坝县| 胶南市| 南郑县| 旬邑县| 古田县| 湾仔区| 文水县|