宋雨宸,宦克為,韓雪艷,石曉光,趙環(huán)
(長春理工大學 理學院,長春 130022)
基于蒙特卡洛變量組合集群分析法的小麥蛋白質(zhì)近紅外光譜變量選擇
宋雨宸,宦克為,韓雪艷,石曉光,趙環(huán)
(長春理工大學 理學院,長春 130022)
小麥是我國重要的糧食之一,提高對小麥蛋白質(zhì)含量預測的精準性對保證小麥質(zhì)量具有重要的意義。采用不同地區(qū)的小麥共93個樣本近紅外光譜與化學值作為建模數(shù)據(jù)。首先利用小波包(WTP)對光譜信號進行降噪處理,消除外界噪音信號對光譜的影響。其次利用蒙特卡洛變量組合集群分析法(MC-VCPA)進行變量選擇,最后利用偏最小二乘法(PLS)建立小麥蛋白質(zhì)預測模型,并對預測集樣本進行預測。對比其他的建模方法,MC-VCPA所選擇的10個特征變量代替了全光譜256個變量,預測均方根誤差(RMSEP)值由0.4974降低到0.3295,提高了33%,優(yōu)于其他建模方法。結(jié)果表明,基于MC-VCPA的近紅外光譜分析方法對小麥蛋白質(zhì)含量進行定量分析是可行的。
小麥;蛋白質(zhì);近紅外光譜;蒙特卡羅變量組合集群分析法;變量選擇
近紅外的光譜頻段為780nm~2500nm,光譜信息源來源于有機物的含氫基團的倍頻和合頻吸收,近紅外光譜分析技術能夠廣泛的應用于物質(zhì)的定性分析和定量分析領域,因此該項技術被譽為“具有提高全球農(nóng)業(yè)分析能力的潛力技術”。由于近紅外光譜具有256個光譜波段,當儀器采集這些波段時除了樣品自身的信息以外還包含了大量的外界信息,如噪音、樣品背景干擾等。所以在分析研究中,變量選擇對數(shù)據(jù)分析和建模有著及其重要的影響,進行變量選擇,實際就是對變量的重要性來進行合理評價[1]。
現(xiàn)在,國內(nèi)外主要應用的變量選擇方法有相關系數(shù)法(CCM)、無信息變量刪除法(UVE)、蒙特卡羅無信息變量刪除法(MC-UVE)[2]、遺傳學算法(GA)[3-5]、隨機蛙跳算法(RF)、迭代保留有信息變量法(IRIV)[6]、競爭自適應重采樣方法(CARS)[7,8]、變量組合集群分析法(VCPA)[9]等。以上幾種方法在近紅外領域被大量的運用,但是在校正集樣本出現(xiàn)波動時,以上每一種方法對于變量的重要性判斷也受到一定程度的影響。為了解決這一問題,本文通過對CARS、IRIV、VCPA等算法不足之處的研究提出了一種新的變量選擇方法—蒙特卡洛變量組合集群分析法(MC-VCPA)對小麥近紅外光譜信號進行變量選擇確定最佳的特征變量,對比其他的變量選擇方法的預測精度,評價模型的預測性能,結(jié)果表明,MC-VCPA是一種可行的變量選擇方法。
選用的光譜儀是德國卡爾蔡司的MCS611NIR光纖光譜儀,其光譜范圍為950nm~1690nm,自制光纖束,樣品皿,計算機和光源為OSRAM64258,12V,20W 長壽命鹵鎢燈,聚光結(jié)構(gòu)采用反射聚光器配合前置準直透鏡的聚光結(jié)構(gòu)。環(huán)帶光纖耦合漫透射反射接收器在圓周上均勻分布19個定向接受點,分為兩層環(huán)帶分布,分別與受照面成30度(9點)和60度(10點),每個接收點為光纖收集,漫反射光的能量通過這19個收集通道在另一端導入光譜儀,每個樣品的厚度為18mm,測試每個樣品前,測試一次標準白板的光譜,每個小麥樣品采集3條光譜,計算出每個樣品三條吸光度的平均值,如圖1所示。
圖1 小麥的近紅外光譜圖
本次研究所使用的93個小麥樣本和小麥蛋白質(zhì)化學值數(shù)據(jù)來源于國家糧食局北京東方孚德研究中心,本次研究所用的分類方法為Kennard-Stone(K-S)算法,運用K-S將93個小麥樣本分為61個建模集樣本和32個預測集樣本,如表1所示。
表1 小麥的蛋白質(zhì)含量值統(tǒng)計表
采用了MATLAB軟件,由于在近紅外光譜采集時,會有許多噪聲等信息夾入,大大的影響了預測模型的可靠性,為了避免這些噪聲因素的影響,運用小波包(WTP)消除原始光譜中的噪聲信號,從而實現(xiàn)光譜消噪獲得更加準確的小麥光譜數(shù)據(jù)[10]。采用建模均方根誤差(RMSEC)、建模決定系數(shù)(R2c)、預測決定系數(shù)(R2p)和預測均方根誤差(RMSEP)作為模型評價參數(shù)。
VCPA是一種新的變量選擇算法,該算法首先運用二進制矩陣采樣法(BMS)從變量空間中采樣K組變量子集,運用PLS分別計算出這K組變量子集的交互檢驗均方根誤差(RMSECV),保留RMSECV最小的σ×K組變量子集,統(tǒng)計這σ×K組變量子集中每個變量出現(xiàn)的頻率,通過指數(shù)衰減函數(shù)(EDF)去掉出現(xiàn)頻率較小的波長點,將所保留的變量重復BMS采樣和EDF消除,此過程重復N次,剩余了L個光譜變量,最后計算出這L個變量之間的所有變量組合的RMSECV,其RMSECV值最小的變量組合即為最終所選取的特征變量組合。
雖然VCPA方法考慮了所有可能有相互影響的自由變量組合,但是在科研實踐中,由于所收集的樣本數(shù)一般不會太多,所以會出現(xiàn)樣本少變量多的情況,而且會有大量的無信息變量和干擾變量夾入,所以VCPA不僅難以實現(xiàn)所有的變量組合,還會受到大量的無信息變量和干擾變量的影響。也是由于任何為建模收集的樣本總數(shù)不足以完全表達總體信息,所以由一次性建模所得到的如變量重要性等參數(shù)會存在著很大的不確定性因素,樣本產(chǎn)生波動勢必會對變量的重要性分布產(chǎn)生一定的影響,這會影響模型的預測性能。采用蒙特卡洛采樣方法(MCS)隨機從小麥光譜與蛋白質(zhì)數(shù)據(jù)的61校正集樣本中選取80%的樣本,采樣1000次得到了1000組不同的樣本集合,然后運用偏最小二乘判別分析(PLS-LDA)計算出每個光譜變量的選擇性比值(SR),得到了每個光譜變量的1000個SR值,其波長為965.78nm光譜變量和波長為1118.38nm光譜變量的重要性分布如圖2所示。
圖2 樣本集合變化時光譜變量的重要性分布
從圖2中可以看出,由于每次選擇80%的樣本子集不同進而導致了每個光譜變量的SR值發(fā)生了一定的波動,所以,樣本的變化會對變量的重要性判定產(chǎn)生一定的影響,同樣,針對不同的樣本數(shù)據(jù)集,每個變量選擇方法所保留的變量組合也會有一定的變化,同樣運用MCS從建模集樣本中隨機選出80%的樣本,采樣兩次得到兩組不同的樣本子集,然后運用VCPA方法對兩組不同的樣本子集進行變量選擇,第一組樣本子集中所選取的特征變量組合為950.74nm,1002.71nm,1009.98nm,1118.38nm,1138.49nm,1257.22nm,1284.86nm,1359.44nm,1627.59nm,1691.09nm;在第二組樣本子集中所選取的特征變量組合為969.52nm,1009.98nm,1020.83nm,1115nm,1138.49nm,1158.35nm,1190.90nm,1206.93nm,1229.12nm;如圖3所示。
圖3 VCPA在兩組樣本子集中的變量選擇結(jié)果
對比運用VCPA方法在兩組不同的樣本子集中所選取的特征波長可知,VCPA在第一組樣本子集中所選取的特征變量如波長為1118.38nm,1359.44nm等光譜變量卻在第二組樣本子集中作為干擾變量或無信息變量刪除了,這也正是樣本集合變化對變量重要性的影響,同時也是VCPA等變量選擇方法的不足之處。
MC-VCPA方法首先通過MCS方法對樣本空間進行隨機采樣,每次采樣80%的樣本,得到不同的樣本子集,然后通過VCPA方法對不同樣本子集的變量空間進行特征變量選取,保留通過VCPA方法在不同子集中所保留的變量,得到一個新的變量空間R,這樣可以刪除通過VCPA方法在所有的樣本子集中所刪除的共同的變量,避免了一次性變量刪除的缺陷,具體步驟如圖4所示。
圖4 MC-VCPA的流程圖
該方法首先通過MCS方法隨機從校正集小麥樣本空間獲取50個樣本子集,如圖5所示,然后針對每個樣本子集運用VCPA方法選取出其子集的特征變量,其次統(tǒng)計所有子集的特征變量組成一個新的變量空間,當被刪除的變量超過閾值h時,設置新的VCPA參數(shù)對這個新的變量空間做進一步變量選擇,具體策略如下:
VCPA算法的控制參數(shù)經(jīng)多次驗證,針對每個樣本子集初始化如下參數(shù):BMS采樣次數(shù)K=1000;EDF迭代次數(shù)N=50;二進制矩陣M中每個變量被采樣的次數(shù)所占總采樣次數(shù)的百分比α=0.5;K個變量子集中優(yōu)秀子集所占的比率σ=10%;校正集樣本數(shù)n=61;光譜波長數(shù)目p=256,R中變量數(shù)量上限的閾值h=128。
針對每個樣本子集運用VCPA的BMS對這個子集的變量進行1000次采樣,其目的是BMS不僅能夠保證每個變量具有相同的被采樣概率,而且還能獲取1000組不同的變量子集,運用PLS分別計算出這1000組變量子集的RMSECV,保留RMSECV最小的前100個的變量子集作為優(yōu)秀變量子集如圖5所示。計算出這100個優(yōu)秀變量子集中每個變量出現(xiàn)的頻率,并通EDF刪除出現(xiàn)頻率小的變量,將保留的變量繼續(xù)進行1000次BMS采樣和EDF刪除,此過程重復50次,最終保留14個光譜變量,計算這14個變量之間所有變量組合的RMSECV,其值最小的變量組合為這個樣本子集中最優(yōu)的變量組合。
圖5 二進制矩陣采樣法所采樣的1000個變量子集
通過VCPA在這50個樣本子集中所保留的所有變量如圖6所示(注:五角星部分橫坐標為VCPA保留的波長,縱坐標沒有實際意義),其意義通過VCPA對每個樣本子集進行特征變量選取,獲取每個樣本子集的最佳變量組合,保留VCPA在每個樣本子集中所保留的變量得到一個新的變量空間,消除了大部分無信息變量和干擾變量的影響。
圖6 平均光譜和VCPA方法在所有樣本子集中所保留的變量
從圖6中可知,變量數(shù)量由原始光譜的256個下降到了117個,這時需要設置新的BMS采樣次數(shù)和EDF迭代次數(shù),為了統(tǒng)計每個參數(shù)對VCPA性能的影響,針對參數(shù)所設置的每個數(shù)值,運用VCPA執(zhí)行50次并記其RMSEP,這些參數(shù)及其RMSEP分布列出如下:
N:EDF迭代次數(shù),經(jīng)過大量的實驗測試,統(tǒng)計結(jié)果如圖7所示,EDF迭代次數(shù)在以下8種情況預測精度最佳,分別為 50,100,150,200,250,300,350,400。其中在N=200時其RMSEP值的下限最低,所以EDF的迭代次數(shù)最佳參數(shù)為N=200。
圖7 統(tǒng)計EDF不同迭代次數(shù)對RMSEP的影響
K:BMS采樣次數(shù),經(jīng)過大量的實驗測試,BMS采樣次數(shù)最佳的7種情況分別為50,100,150,200,250,500,1000。其中K=200 時其RMSEP值的下限最低,所以BMS的采樣次數(shù)最佳參數(shù)為K=200,如圖8所示。
圖8 統(tǒng)計BMS不同采樣次數(shù)對RMSEP的影響
基于光譜變量由全光譜的256個下降到117個,變量的數(shù)量降到了128個以下,并且VCPA算法自帶BMS變量采樣策略,所以對剩下的117個光譜變量做進一步處理時可以省去MCS樣本采樣這一環(huán)節(jié),直接運用VCPA(采樣次數(shù)K=200,迭代次數(shù)N=200)對這個新的變量空間進行進一步的變量選擇。為了防止運算過程中算法的隨機性對結(jié)果的影響,將VCPA運行50次,取其RMSEP值最小的變量組合,其RMSEP分布如圖9所示:
圖9 VCPA篩選結(jié)果的預測均方根誤差
從圖9中可知第7組變量組合的預測精度最高,最終MC-VCPA所保留的變量如圖10所示(注:方塊部分橫坐標為MC-VCPA保留的波長,縱坐標沒有實際意義),其變量組合為:954.51nm,1002.71nm,1013.61nm,1118.38nm,1138.49nm,1148.45nm,1203.74nm,1229.12nm,1405.60nm,1612.50nm。
圖10 平均光譜和MC-VCPA最終保留的波長
采用MC-VCPA方法所選取的10個特征變量建立的偏最小二乘回歸模型,建模結(jié)果RMSEC=0.2911。RMSEP=0.3295。校正集樣本和預測集樣本的預測值與實際值的之間的點散圖,如圖11所示。
圖11 基于MC-VCPA-PLS的小麥蛋白質(zhì)含量的預測值與真實值之間的散點分布圖
相同條件下將WTP降噪后的小麥近紅外光譜數(shù)據(jù)分別采用了 CCM、UVE、GA、RF、IRIV、CARS、MC-UVE、VCPA和MC-VCPA九種變量選擇方法進行特征變量選取,由于每種變量選擇算法在運行過程中都帶有一定隨機性,進而影響預測模型的可靠性,所以將以上每種算法運行50次,最后挑選出每種變量選擇算法的預測均方根誤差最小的特征波長組合作為每種變量選擇方法最終的特征波長選取結(jié)果,運用PLS建立小麥蛋白質(zhì)預測模型,每種建模方法的結(jié)果如表2所示。
對比WTP-PLS與PLS可以看出,其RMSEP由0.5096下降到了0.4974,這表明在小麥原始光譜中包含了一些噪音信息,并且運用WTP對原始光譜進行降噪是可行的。對比WTP-MC-VCPA-PLS與WT-PLS可以看出,預測模型的RMSEP從0.4974下降到了0.3295,其預測精度提升了33%,其原因是因為所收集的樣本數(shù)總不足以表達總體信息,因此,進行一次性建模,是很容易導致預測模型的過擬合。對比WTP-MC-VCPA-PLS與WTP-CCM-PLS、 WTP-UVE-PLS、 WTPGA-PLS、 WTP-RF-PLS、 WTP-MC-UVEPLS、WTP-MC-CARS-PLS可以看出,其RMSEP分別從0.3939、0.4063、0.4143、0.3881、0.3808、0.3474降低到了0.3295,其原因是WTP-MC-VCPA-PLS中的BMS變量采樣策略考慮到了變量組合效應并且能保證每個變量具有相同的被采樣概率,實現(xiàn)了對更多的不同變量組合的篩選。對比WTP-MC-VCPA-PLS 與 WTP-IRIV-PLS、WTP-VCPA-PLS的預測精度可以看出,其RMSEP分別從0.3644、0.3530下降到了0.3295,其原因是作為兩種新的變量選擇方法WTP-IRIV-PLS和WTP-VCPA-PLS的BMS采樣策略雖然保證了每個變量被采樣的概率相同,但不能保證實現(xiàn)所有的變量組合,而且對于這樣的“小樣本,多變量”的數(shù)據(jù),在此眾多變量中存在著大量的無信息變量和干擾變量,還會因為樣本集合的變化對其變量重要性判斷產(chǎn)生影響,進而影響其預測模型的預測精準性和可靠性。WTP-MC-VCPA-PLS不僅通過BMS實現(xiàn)了對變量空間的采樣,還通過了MCS實現(xiàn)了對樣本空間的采樣,避免了樣本集合變化對光譜變量重要性判斷的影響,對光譜波長進行了兩次選取更進一步的消除了無信息變量和干擾變量的影響,提高了有用變量之間的組合概率,因此MCS樣本采樣與VCPA實現(xiàn)了互補。
表2 小麥蛋白質(zhì)含量預測結(jié)果比較
利用WTP-MC-VCPA-PLS方法對小麥近紅外光譜進行特征變量選取,同時實現(xiàn)了對樣本空間采樣和變量空間采樣,變量數(shù)目由256個降到了10個,極大程度減少了無信息變量和干擾變量,其RMSEP由全波段建模的0.4974降到了0.3295,與其他的變量選擇方法相比,其預測精準度更高。結(jié)果表明,MC-VCPA是一種有效的簡化小麥蛋白質(zhì)近紅外光譜模型并提高模型的預測精度的變量選擇算法。
[1]梁逸曾,徐青松.復雜體系儀器分析—白、灰、黑分析體系及其多變量解析方法[M].北京:化學工業(yè)出版社,2012:245-251.
[2]Cai W S,Li Y K,Shao X G.A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra[J].Chemometr Intell Lab Syst,2008,90(2):188-194.
[3]Leardi R.Application of genetic algorithm-PLS for feature selection in spectral data sets[J].J.Chemometr,2000,14(5):643-655.
[4]Leardi R.Genetic algorithms in chemometrics and chemistry:a review[J]. J.Chemometr,2001,15(7):559-569.
[5]Yun Y H,Cao D S,Tan M L,et al.A simple idea on applying large regression coefficient to improve the genetic algorithm-PLS for variable selection in multivariate calibration [J].Chemometr.Intell Lab Syst,2014(130):76-83.
[6]Yun Y H,Wang W T,Tan M L,et al.A strategy that iteratively retains informative variables for selecting optimal variable subset in multivariate calibration [J].Anal.Chim.Acta,2014(807):36-43.
[7]Li H D,Liang Y Z,Xu Q S,et al.Key wavelengths screening using competitive adaptive re-weighted sampling method for multivariate calibration[J].Anal.Chim.Acta,2009,648(1):77-84.
[8]Zheng K Y,Li Q Q,Wang J J,et al.Stability competitive adaptive re-weighted sampling (SCARS)and its applications to multivariate calibration of NIR spectra[J].Chemometr Intell Lab Syst,2012,112(15):48-54.
[9]Yun Y H,Wang W T,Deng B C,et al.Using variable combination population analysis for variable selection in multivariable calibration[J].Anal.Chim Acta,2015(862):14-23.
[10]宦克為,劉小溪,王欣,等.基于連續(xù)小波變換參數(shù)選擇的小麥近紅外光譜模型優(yōu)化方法研究[J].長春理工大學學報:自然科學版,2014,37(5):146-150.
Variable Selection of Wheat Protein Near Infrared Spectra Based on Monte Carlo Variable Cluster Analysis
SONG Yuchen,HUAN Kewei,HAN Xueyan,SHI Xiaoguang,ZHAO Huan
(School of Science,ChangChun University of Science and Technology,Changchun,130022)
Wheat is one of the important grain in our country.It is important to improve the accuracy of wheat protein content prediction to ensure the quality of wheat,in this paper,the different parts of the wheat,a total of 93 samples of near infrared spectroscopy and chemical values as the modeling data.Firstly,the wavelet packet(WTP)is used to denoise the spectral signal to eliminate the influence of the external noise signal on the spectrum.Secondly,the Monte Carlo variable cluster analysis(MC-VCPA) method was used to select variables.Finally,the partial least squares(PLS) method was used to establish the wheat protein prediction model,and the forecast set samples were predicted.Compared with other modeling methods 10 variables selected by MC-VCPA instead of the full spectrum of 256 variables,the root mean square error of prediction(RMSEP)value decreased from 0.4974 to 0.3295,increased by 33%,better than other modeling methods.The results show that it is feasible to do quantitative analysis of wheat protein content based on near infrared spectroscopy(MC-VCPA).
wheat;protein;near infrared spectrum;Monte Carlo variable cluster population analysis;variables selection
O657.3
A
1672-9870(2017)05-0029-07
2017-06-22
2014年度國家公益性行業(yè)(氣象)科研專項課題(GYHY201406037);2011年高等學校博士學科點專項科研基金聯(lián)合資助項目(20112216110006)
宋雨宸(1990-),女,碩士研究生,E-mail:1444304689@qq.com
宦克為(1982-),男,博士,副教授,E-mail:huankewei@126.com