A Multilevel Feature Extraction Strategy for Leaf Spectral Signal
李 響1 呂 勇1張倩暄2(北京信息科技大學(xué)儀器科學(xué)與光電工程學(xué)院1,北京 100192;北京雪迪龍科技股份有限公司2,北京 102206)
?
一種葉片光譜信號(hào)的多層次特征提取方法
北京市自然科學(xué)基金資助項(xiàng)目(編號(hào):4154071);
北京市組織優(yōu)秀人才基金資助項(xiàng)目(編號(hào):2014000020124G105)。
修改稿收到日期:2015-01-06。
第一作者李響(1982-),男,2012年畢業(yè)于北京航空航天大學(xué)光學(xué)工程專業(yè),獲博士學(xué)位,講師;主要從事光電檢測(cè)方向的研究。
葉片作為植物機(jī)體最重要的組成部分,不僅是光合作用的主要場(chǎng)所,而且在果實(shí)成熟過程中充當(dāng)了重要的角色[1-2]。植物葉片生化參數(shù)(葉綠素和水分)無損檢測(cè)在精細(xì)農(nóng)、林業(yè)等領(lǐng)域具有重要的意義。光譜檢測(cè)技術(shù)以其快速、無損、實(shí)時(shí)等優(yōu)點(diǎn)在各個(gè)研究領(lǐng)域發(fā)揮著重要的作用。
植物葉片在可見/近紅外波段(400~1 100 nm)的吸收特征沒有近紅外波段復(fù)雜,尤其是在可見區(qū)域,主要受到色素即葉綠素吸收的影響。雖然葉綠素吸收峰相對(duì)比較明確,但對(duì)于活體檢測(cè)時(shí),物質(zhì)的吸收之間存在相關(guān)干擾,再加上散射等物理因素的影響,會(huì)使這些特征峰發(fā)生漂移或重疊。另外,隨著季節(jié)的變更,植物生長(zhǎng)期以及健康狀態(tài)的改變,其自身機(jī)體的保護(hù)機(jī)制也會(huì)使色素的特征吸收波長(zhǎng)發(fā)生藍(lán)移或者紅移[3]。因此針對(duì)不同目的的校正模型(數(shù)據(jù)自身特點(diǎn)和物質(zhì)結(jié)構(gòu)特點(diǎn)),需要選擇不同的建模波長(zhǎng),從而說明波長(zhǎng)選擇算法對(duì)于葉綠素含量的檢測(cè)具有重要的意義。
本文對(duì)葉片生化參數(shù)檢測(cè)模型的簡(jiǎn)潔性和穩(wěn)健性進(jìn)行探討,提出了一種多層次特征信息提取算法。
對(duì)于多變量校正方法,為不丟失光譜信息,可用全部光譜數(shù)據(jù)建模,但這樣不僅計(jì)算量大,校正模型的預(yù)測(cè)精度也未必能達(dá)到最佳值。波長(zhǎng)優(yōu)選的目的是從光譜中提取最有效的譜圖特征信息,建立最佳的校正模型,簡(jiǎn)化運(yùn)算,并降低模型維護(hù)的復(fù)雜性。因此選擇包含最佳信息的特征波長(zhǎng)是建立多變量校正模型的關(guān)鍵[4]。
本文所述多層次特征信息提取方法,在進(jìn)行特征信息提取時(shí),首先應(yīng)用后向間隔偏最小二乘法進(jìn)行特征波段選擇,先選擇有用信息波段,實(shí)現(xiàn)無用信息的剔除。然后再在有用信息里消去信息的共線性。
1.1特征信息提取理論依據(jù)
傳統(tǒng)的校正模型可以表達(dá)為:
式中: C為樣本的濃度信息矩陣; R為光譜響應(yīng)變量矩陣; B為估計(jì)的回歸系數(shù)矩陣; E為誤差矩陣。為了不失一般性,R和C均為歸一化的矩陣(即零均值標(biāo)準(zhǔn)方差)。
光譜測(cè)量的基本原理是通過式(1)估計(jì)回歸系數(shù)B,然后可對(duì)未知樣本進(jìn)行預(yù)測(cè),得到濃度C的信息。
相關(guān)研究證明[5],回歸系數(shù)B的無偏估計(jì)為:
假設(shè)誤差服從獨(dú)立同分布,模型的預(yù)測(cè)均方根誤差mesp可表達(dá)為:
由式(2)和式(3)可知,增加光譜數(shù)據(jù)的變量個(gè)數(shù)可提高模型的預(yù)測(cè)誤差。但實(shí)際過程中,這個(gè)是不可能實(shí)現(xiàn)的,還需要考慮到光譜R和濃度C的誤差。
假設(shè)光譜與濃度的誤差獨(dú)立同分布,考慮R和C的誤差,將式(3)表達(dá)為一階形式:
式中: bi和ri分別為B和R的第i個(gè)元素。
若光譜模型中包括J個(gè)波長(zhǎng)變量,式(4)可記為:
將式(4)與式(5)聯(lián)立,得到msep的變化量:
假設(shè)原來的回歸系數(shù)的估計(jì)誤差受后添加的變量的影響不大,因此式(6)近似為:
從式(7)可看到,增加的波長(zhǎng)變量有兩方面特點(diǎn)。一方面,第一項(xiàng)一定為負(fù),這是因?yàn)閷?duì)增加的波長(zhǎng)變量進(jìn)行擬合,變量個(gè)數(shù)多的原始波長(zhǎng)處的回歸系數(shù)的平方和一定小于沒有增加之前的;另一方面,可類似求得后面兩項(xiàng)必定為正。因此,當(dāng)增加了變量處的光譜數(shù)據(jù)誤差較大或者增加的變量處的回歸系數(shù)的誤差較大時(shí),mesp會(huì)隨著變量的增加而增加。
選擇具有較大SNR的波長(zhǎng)以及對(duì)回歸系數(shù)估計(jì)誤差小的變量(不確定度小),可提高模型的精度。波長(zhǎng)變量的不確定度大是指波長(zhǎng)處包含著一些不能夠用目前的校正集樣本校正的因素。這些因素可能受測(cè)量中的各種非線性影響,如實(shí)驗(yàn)條件、儀器漂移物理屬性導(dǎo)致的漂移或較大的隨機(jī)誤差等。波長(zhǎng)處大的不確定度是指波長(zhǎng)的增加會(huì)明顯增加模型的復(fù)雜度,說明該波長(zhǎng)包含了與目標(biāo)濃度無關(guān)的信息,需要更多的主成分來提取信息。
1.2特征波段的選擇
間隔偏最小二乘(interval partial least squares,iPLS)由N?rgaard等人[6]提出,其克服了與化合物無關(guān)的因素,使得校正模型穩(wěn)定,依賴模型精度最小化選擇最佳波長(zhǎng)間隔組合,能夠有效地消除無用信息。其主要原理為:將整個(gè)光譜范圍分割成為許多小的等間距區(qū)間,然后在每個(gè)區(qū)間構(gòu)建PLS模型,通過驗(yàn)證計(jì)算各子區(qū)間的預(yù)測(cè)均方根誤差(root mean square error of cross validation,RMSECV)。當(dāng)RMSECV最小時(shí),對(duì)應(yīng)的因子為該區(qū)間的最佳因子,因此可建立局部最優(yōu)PLS模型。
iPLS的主要目的是優(yōu)化PLS模型的預(yù)測(cè)能力,并提高模型的解釋能力。
間隔偏最小二乘可有效地將物質(zhì)的特征波段選擇出來,消除那些無用波段,減少不確定度大的波長(zhǎng),從而提高模型的精度。但同時(shí)會(huì)導(dǎo)致另一個(gè)問題的出現(xiàn),當(dāng)物質(zhì)的特征波段不止一個(gè)時(shí),如水分,其理論吸收峰在760 nm和970 nm附近,為提高模型的精度,這兩個(gè)特征波段應(yīng)該均被選入。因此需要對(duì)間隔偏最小二乘選擇好的波段進(jìn)行組合,組合的方式有很多種,如前向逐步選擇、后向逐步選擇、基于GA算法的選擇等。雖然方法不同,但結(jié)果是類似的,這里采用后向逐步選擇法(backward interval partial least squares,BiPLS)。后向選擇的方式,逐漸減少建模的區(qū)間間隔數(shù),直到RMSECV減少后又開始增加。這時(shí)的間隔組合即為最佳區(qū)間組合,其原理如圖1所示。
圖1 BiPLS實(shí)現(xiàn)流程圖Fig.1 Flowchart of BiPLS realization
1.3特征波長(zhǎng)的提取
在選取了有用信息波段之后,再選擇特征波長(zhǎng)來消除波長(zhǎng)變量之間的共線性。連續(xù)投影算法(successive projection algorithm,SPA)是Araújo M C U等人[7]于2001年提出的一種變量選擇方法,它可最大程度地消除變量之間的共線性,以有效地進(jìn)行特征波長(zhǎng)的選擇。由于該方法對(duì)噪聲的敏感性較大,因此一些微弱吸收的波長(zhǎng)會(huì)被忽略掉。本文將其應(yīng)用在不確定度小的波段范圍內(nèi)進(jìn)行選擇,克服了該缺點(diǎn)。
連續(xù)投影算法是一種向前選擇變量方法,開始時(shí)選擇一個(gè)變量,然后通過投影算法,每迭代一次增加一個(gè)新變量,直到選定最佳的N個(gè)變量為止。SPA的目的是選擇具有最少冗余信息的變量,解決變量間的共線性問題。SPA選擇變量的過程基本原理是,在未選出的剩余變量集中,找到一個(gè)新變量,且該變量在上一個(gè)已選出變量的正交子空間中具有最大投影值。需要注意的是,進(jìn)行初始設(shè)置時(shí),開始變量Xstart及選擇變量個(gè)數(shù)N的選擇很關(guān)鍵。N在校正集樣品數(shù)之間變化,通??蓪?duì)每一對(duì)(Xstart,N)參數(shù)進(jìn)行多元回歸分析,具有最小的預(yù)測(cè)均方根誤差的(Xstart,N)參數(shù)就是初始設(shè)置的最優(yōu)值。其算法為:
①令start =1~p;
②Xsel(0)= Xstart;
③令N =1~(n-1);
④令Xsel(0)為Xcal的初始列向量;
⑤令n =1~N;
⑥令Xnot為未選擇的變量,即Xnot= { j,1≤j≤p并且j{ Xsel(n),…,Xsel(N)} } ;
⑦計(jì)算Xj在Xsel(n-1)的正交子空間上的投影,即:
式中: P為投影算子。
⑧令sel(n)= arg(max‖PXj‖),j∈Xnot;
⑨令Xj= PXj,j∈Xnot;
⑩n = n +1,返回⑥直到n = N;
?選擇的變量集合為{Xsel(n); n =0,…,N-1};
?用選擇的變量建立PLS模型,對(duì)于每對(duì)(Xstart,N),計(jì)算驗(yàn)證集預(yù)測(cè)均方根誤差(root mean square error of prediction,RMSEP),即:
式中: ym和^ym分別為第m個(gè)驗(yàn)證集樣本的參考值和預(yù)測(cè)值; M為驗(yàn)證集樣本個(gè)數(shù)。
?start = start + 1,返回②直到start = p,迭代結(jié)束;
?根據(jù)最小RMSEP (Xstart,N)值選擇最優(yōu)的變量子集。
將前述優(yōu)選的特征波段數(shù)據(jù)采用SPA投影算法消除變量的非線性因素,得到最終的特征變量用以建立校正模型,可有效地選擇反映目標(biāo)參數(shù)的特征信息,同時(shí)還可有效地提高模型的精度。
將本文提出的多層次特征信息提取算法應(yīng)用于植物葉片光譜數(shù),并與目前主流波長(zhǎng)選擇算法進(jìn)行比較,研究本算法的有效性。
2.1實(shí)驗(yàn)部分
采集6片綠色水平不同的綠蘿葉片,所選樣本均是健康的、顏色均勻、無花青素或明顯損傷的葉子。分別采集每個(gè)樣本在6個(gè)不同位置上的光譜,共測(cè)得36條光譜,原始光譜如圖2所示。所獲36個(gè)樣本的葉綠素含量范圍為8.79~38.4 mg/kg,均值為22.7 mg/kg,標(biāo)準(zhǔn)差為12.8 mg/kg。
圖2 葉綠素?cái)?shù)據(jù)的原始光譜圖Fig.2 The original spectrum of chlorophyll data
儀器采用海洋光學(xué)的USB4000便攜式光譜儀,用直徑為400 μm的反射光纖和PRH-1光纖支架,以及陶瓷標(biāo)準(zhǔn)反射板,儀器的有效波長(zhǎng)范圍為450~1 050 nm波段,共計(jì)3 149個(gè)波長(zhǎng)。
2.2數(shù)據(jù)預(yù)處理
在對(duì)數(shù)據(jù)建模之前,采用小波分析的方法對(duì)其進(jìn)行去噪,并采用OPLEC方法校正。由于樣本位置差異引起的光譜差異,校正后的光譜圖如圖3所示。
圖3 OPLEC校正后的光譜圖Fig.3 Spectrogram after OPLEC correction
2.3實(shí)驗(yàn)結(jié)果分析
將各種波長(zhǎng)選擇算法和本文提出的多層次特征信息提取算法分別應(yīng)用在葉綠素含量模型中,從模型的精度、復(fù)雜度以及變量的可解釋性3個(gè)方面進(jìn)行分析。
波段選擇前后葉綠素含量模型的精度對(duì)比和各種波長(zhǎng)選擇算法在葉綠素?cái)?shù)據(jù)的應(yīng)用曲線分別如表1、圖4所示。
表1 波段選擇前后葉綠素含量模型的精度對(duì)比Tab.1 Precision comparison of Chlorophyll content model before and after the waveband selection
圖4 各種波長(zhǎng)選擇算法在葉綠素?cái)?shù)據(jù)的應(yīng)用曲線Fig.4 The application curves of various wavelength selection algorithms in Chlorophyll data
從表1中可看到,基于物理意義選擇波長(zhǎng)的算法(除了SIMPLISMA)選出的波長(zhǎng)數(shù)目都很多,大約是原始光譜的三分之一。從圖4中可發(fā)現(xiàn),VIP類算法即圖4(a)和4(b)中被選出的波長(zhǎng)集中在幾個(gè)波段內(nèi),450~500 nm、520~570 nm、620~800 nm,以及1 010~1 050 nm范圍內(nèi),葉綠素兩個(gè)特征峰(450 nm、670 nm)被選出。UVE類算法即圖4(c)和圖4(d)不同于VIP類算法的波段是720~890 nm和960~1 010 nm,除了前面葉綠素的吸收峰和反射峰之外,UVE選出的波段主要集中在短波近紅外區(qū)域(760~1 100 nm),在精度方面,VIP類算法對(duì)模型精度的提高是有效的,尤其是Bootstrap-VIP,RMSECV從2.29降低為2.07,RMSEP 從3.13降低到3.01,分別降低了9.6%和3.8%。但UVE類算法的效果卻不理想,減少了建模的復(fù)雜度,同時(shí)也丟失了一部分信息,使得PLS模型的主成分個(gè)數(shù)也降為4。UVE類算法考察的是波長(zhǎng)回歸系數(shù)的穩(wěn)定性,因此一些不是目標(biāo)因素引起的變異較大的波長(zhǎng)可能被選出,反而不利于模型精度的提高。
圖4(e)所示SIMPLISMA算法,雖然大大地降低了光譜的復(fù)雜性,但精度沒有提高,這是所列幾種方法中模型精度最差的一種?;貧w點(diǎn)位移(regression point displacement,RPD)只有1.99,表明該模型是不可預(yù)測(cè)的。SIMPLISMA算法考察的是光譜自身的差異,與被測(cè)參數(shù)自身無關(guān),將波長(zhǎng)按所包含的變異信息從大到小依次排列。因此,其對(duì)光譜的質(zhì)量要求很高,當(dāng)光譜質(zhì)量不高時(shí),就無法選出真正與目標(biāo)濃度相對(duì)應(yīng)的波長(zhǎng)。
圖4(f)是采用本文提出的BiPLS-SPA混合波長(zhǎng)選擇算法選出的10個(gè)波長(zhǎng),分別是483.84 nm、512.4 nm、513.24 nm、513.86 nm、555.21 nm、581.7 nm、694.65 nm、706.83 nm、910.92 nm、913.76 nm。這些波長(zhǎng)涵蓋了葉綠素a的吸收峰(690 nm,700 nm)和葉綠素b的吸收峰(480 nm)。其余的波長(zhǎng)是葉綠素a和b吸收都很小的波長(zhǎng),如圖5所示。
圖5 葉綠素a和葉綠素b的吸收光譜圖Fig.5 The absorption spectrums of chlorophyll a and chlorophyll b
圖5說明BiPLS-SPA選出的波長(zhǎng)具有明確的物理意義,可解釋性強(qiáng),對(duì)選出的波長(zhǎng)建立PLS模型。由表1可知,與原始PLS模型相比,新建模型不僅提高了模型精度,RMSECV降低了26.3%,而且增強(qiáng)了模型的預(yù)測(cè)能力,RMSEP降低了24.0%。
2.4實(shí)驗(yàn)結(jié)論
對(duì)于本組數(shù)據(jù),VIP和UVE兩種方法是較有效的波長(zhǎng)選擇方法,但前者是選擇有效的,后者是消除無用的,因此從效果上來看,二者不僅減少了波長(zhǎng)個(gè)數(shù),而且還在一定程度上提高了預(yù)測(cè)精度或者和原始模型的精度維持一致。SIMPLSIMA方法無論是葉綠素?cái)?shù)據(jù)還是水分?jǐn)?shù)據(jù)模型精度都較差,這與光譜質(zhì)量的噪聲大有關(guān)系。研究表明,該算法對(duì)噪聲異常敏感,因此在使用之前,應(yīng)該采用相應(yīng)的去噪措施。PLS模型自身具有抑制噪聲的作用,因此SIMPLSIMA算法在本文的數(shù)據(jù)應(yīng)用中不是最佳的波長(zhǎng)選擇算法。Bootstrap-VIP及EMCUVE,多次重復(fù)VIP和MCUVE方法,期望在統(tǒng)計(jì)上給出某些波長(zhǎng)的重要性,但并未取得期望的效果。在參數(shù)相同的情況下,兩者期望相同,但前者比后者所需要的波長(zhǎng)要多。如進(jìn)行波段優(yōu)選,VIP方法要較UVE方法略勝一籌,前者選擇的波長(zhǎng)都集中于一些固定的區(qū)域,而后者所選的波長(zhǎng)在整個(gè)波段范圍內(nèi)散開,但物理原因不明確。這幾種方法的共同特點(diǎn)是確定所需閾值較困難,需要不斷嘗試,給出最佳參數(shù),因此,計(jì)算量較大且復(fù)雜。
本文所述多層次特征信息提取算法,物理意義明確,不需要參數(shù)設(shè)置,有效地選出了各生化參數(shù)的特征吸收波段,剔除了不相關(guān)波段的無用信息或冗余信息。采用連續(xù)投影算法消除選出波段內(nèi)的共線性,最大程度地降低建模的復(fù)雜性。
特征信息提取是建立高精度校正模型的一個(gè)重要環(huán)節(jié),減少模型復(fù)雜度的同時(shí)也增加模型的穩(wěn)定性。最佳的波長(zhǎng)選擇算法不僅要求改善校正模型的精度,還要求容易解釋,以更加真實(shí)地反映物質(zhì)的相應(yīng)特性。本文在比較了常用的波長(zhǎng)選擇算法的基礎(chǔ)上,提出了一種多層次特征信息提取算法。該方法首先消除與目標(biāo)濃度無關(guān)的無用信息,突出光譜中的微弱信號(hào),然后極大地消除剩余光譜變量之間的冗余信息,降低其共線性。該算法選出的波長(zhǎng)具有較強(qiáng)的可解釋性,物理意義明確。與常用的幾種波長(zhǎng)選擇算法即VIP、UVE、SIMPLISMA以及由它們衍生的相關(guān)算法進(jìn)行對(duì)比,結(jié)果表明,多層次特征信息提取算法不僅可有效地提取光譜的特征信息,而且選擇的變量易于解釋,可有效提高建模效率并提高模型精度和穩(wěn)定性。
參考文獻(xiàn)
[1]譚昌偉,王紀(jì)華,黃文江,等.高光譜遙感在植被理化信息提取中的應(yīng)用動(dòng)態(tài)[J].西北農(nóng)林科技大學(xué)學(xué)報(bào):自然科學(xué)版,2005,33(5): 151-156.
[2]Gitelson A A,Merzlyak M N.Spectral reflectance changes associate with autumn senescence of Aesculus hippocastanum L.and Acer platanoides L.leaves Spectral features and relation to chlorophyll estimation[J].Journal of Plant Physiology,1994,143(7):286–292.
[3]Gregory A C.Alan K K.Leaf optical properties in higher plants: linkingspectral characteristicstostressandchlorophyll concentration[J].American Journal of Botany,2001,88 (4 ): 677-684.
[4]李麗娜.近紅外光譜微弱信息提取技術(shù)研究[D].北京:北京航空航天大學(xué),2011.
[5]王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京:國防工業(yè)出版社,1999.
[6]N?rgaard L,Saudland A,Wagner J,et al.Interval partial least squares regression (iPLS): a comparative chemometric study with an example from near-infrared spectroscopy[J].Applied Spectroscopy,2000,54(6):413-419.
[7]Araújo M,Saldanha T,Galvao R,et al.The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems, 2001,57(8):65-73.
A Multilevel Feature Extraction Strategy for Leaf Spectral Signal
李響1呂勇1張倩暄2
(北京信息科技大學(xué)儀器科學(xué)與光電工程學(xué)院1,北京100192;北京雪迪龍科技股份有限公司2,北京102206)
摘要:對(duì)葉片生化參數(shù)檢測(cè)模型的簡(jiǎn)潔性和穩(wěn)健性進(jìn)行探討,提出了一種多層次特征信息提取算法。在進(jìn)行特征信息提取時(shí),首先應(yīng)用后向間隔偏最小二乘法進(jìn)行特征波段選擇,先選擇有用信息波段,剔除無用信息,然后從有用信息里消去信息的共線性。實(shí)驗(yàn)結(jié)果表明,多層次特征信息提取算法不僅可以有效地提取光譜的特征信息,選擇易于解釋的變量,而且提高了檢測(cè)精度。
關(guān)鍵詞:光譜分析特征提取信號(hào)處理生化參數(shù)檢測(cè)無損檢測(cè)最小二乘法
Abstract:The simplicity and robustness of the leaf biochemical parameter detection model are investigated,and a multilevel feature information extraction algorithm is proposed.When the feature information is extracted,the first thing to do is applying the backward interval partial least square method for selecting feature wavebands,the useful information waveband is selected,to implement rejection of the useless information; then the collinearity of the information is eliminated from the useful information.The experimental results indicate that the multilevel feature extraction algorithm can effectively extract the feature information of spectrum,and select the variable that easily to be explained,as well as improve the detection accuracy.
Keywords:Spectrum analysis Feature extraction Signal processing Biochemical parameter detection Nondestructive testing Least square method
中圖分類號(hào):TH-3; TP2
文獻(xiàn)標(biāo)志碼:A
DOI:10.16086/j.cnki.issn1000-0380.201603008