高玨,李海森,徐超,朱培逸
(1.哈爾濱工程大學水聲工程學院,黑龍江哈爾濱150001;2.哈爾濱工程大學水聲技術重點實驗室,黑龍江哈爾濱150001;3.常熟理工學院電氣與自動化工程學院,江蘇常熟215500)
基于模糊隸屬度的近紅外光譜模型魯棒性分析
高玨1,2,3,李海森1,2,徐超1,2,朱培逸3
(1.哈爾濱工程大學水聲工程學院,黑龍江哈爾濱150001;2.哈爾濱工程大學水聲技術重點實驗室,黑龍江哈爾濱150001;3.常熟理工學院電氣與自動化工程學院,江蘇常熟215500)
針對近紅外光譜模型存在的魯棒性問題,在模型建立時引入模糊隸屬度,提出了一種自動生成模糊隸屬度的方法。建立光譜樣本的數(shù)據(jù)域描述函數(shù),引入信任因子和舍棄因子,通過映射關系得到模糊隸屬度函數(shù),參數(shù)尋優(yōu)后自動生成每個樣本的模糊隸屬度。在此基礎上建立了基于FSVM的蘋果糖度回歸模型。試驗結果表明,對比常規(guī)的MLR、PLSR和SVM模型,F(xiàn)SVM模型在訓練樣本變化和高斯噪聲、乘性噪聲、基線漂移、基線傾斜和波長漂移這5種噪聲的分別作用下表現(xiàn)出最佳的性能。模糊隸屬度的引入提高了近紅外光譜模型的泛化能力和抗噪能力,改善了模型的魯棒性。關鍵詞:魯棒性;模糊隸屬度;近紅外光譜;建模;噪聲;數(shù)據(jù)域描述
近紅外光譜技術憑借其無損、快速等優(yōu)點,廣泛應用于農業(yè)工程[1]、食品分析[2]、環(huán)境監(jiān)測[3]和水聲探測[4?5]等領域。通過近紅外光譜,可以建立不同的模型獲取樣本信息,國內外學者在提高模型的預測性能方面進行了大量研究[6?9],而對于模型魯棒性的改善[10?11]給予的關注相對較少。魯棒性是模型對光譜數(shù)據(jù)中不確定因素的適應性,主要表現(xiàn)為模型的抗噪能力和泛化能力。光譜建模時,儀器響應的漂移、樣本包含噪聲或奇異值、樣本不充分等因素[12]都會影響模型的魯棒性,魯棒性不足會導致模型應用于不同條件或受噪聲影響的光譜數(shù)據(jù)時預測誤差成倍增長,嚴重限制了紅外光譜技術的進一步推廣和應用。
為了改善模型的魯棒性,一種方法是對訓練樣本進行預處理,從而剔除異常樣本[13],但由于缺乏足夠的先驗知識,這種方法很難執(zhí)行;另一種方法是對訓練樣本引入模糊隸屬度[14],依據(jù)樣本包含不確定因素的大小、信息的重要性對樣本賦予不同的模糊隸屬度,通過較小的模糊隸屬度賦值來限制異常樣本對模型的影響。目前,盡管有多種隸屬度函數(shù)構造方法[15?17],但還沒有可遵循的一般性準則,在無法獲悉樣本分布信息的前提下,很難構造出符合客觀實際的模糊隸屬度。
本文提出了一種自動生成模糊隸屬度的方法。建立光譜樣本的數(shù)據(jù)域描述函數(shù),引入信任因子和舍棄因子,通過映射關系得到模糊隸屬度函數(shù),參數(shù)尋優(yōu)后自動生成每個樣本的模糊隸屬度。在此基礎上建立蘋果糖度回歸模型,通過泛化試驗和抗噪試驗來檢驗模型的魯棒性。
假如光譜樣本的概率密度分布可知,可定義pi為訓練樣本xi的非異常概率,賦予xi的模糊隸屬度為μi=pi。而在實際應用中,幾乎無法獲取這些信息,需要用某種方法來估計樣本包含不確定信息的概率??梢詷嫿ü庾V樣本的數(shù)據(jù)域描述函數(shù),通過映射關系建立其與概率密度函數(shù)的關聯(lián),由此得到樣本的模糊隸屬度函數(shù)。
1.1 光譜樣本的數(shù)據(jù)域描述函數(shù)
給定光譜樣本集X={x1,…xi,…,xl}(其中xi∈Rn為包含n維光譜樣本),構建光譜樣本的數(shù)據(jù)域描述函數(shù)[18],需要尋找樣本的最小包含超球。當光譜樣本為非球形分布時,引入映射φ:Rn→F將光譜樣本映射到一個高維的特征空間F,最小化超球體體積可得規(guī)劃:
式中:R為最小包含超球半徑,a為球心,ξi為松弛變量,C為懲罰因子。求解該優(yōu)化問題即可得到特征空間中的光譜樣本數(shù)據(jù)域描述。
光譜樣本xi在特征空間中映射φ(xi)到最小包含超球球心a的距離定義為
式中:βi和βj為拉格朗日系數(shù);K(xi,xj)為核函數(shù);特征空間中最小包含超球半徑滿足R=D(xk),其中xk為支持向量。由式(2)可以得到給定數(shù)據(jù)集的數(shù)據(jù)域描述:Dmax=maxD(xi),Dmin=minD(xi),Dmax和Dmin分別為樣本到最小包含超球球心的最大和最小距離。對于光譜樣本xi,當Dmin<D(xi)≤R時,表示xi滿足數(shù)據(jù)域描述,意味著該光譜樣本包含相對重要并確定的信息;當R<D(xi)≤Dmax時,表示樣本xi偏離數(shù)據(jù)域描述,意味著該光譜樣本包含相對次要且不確定的信息。
1.2 模糊隸屬度函數(shù)
為了得到樣本的模糊隸屬度函數(shù),要通過映射關系建立數(shù)據(jù)域描述D(xi)與概率密度px(xi)的關聯(lián)。引入信任因子DC和舍棄因子DT將光譜的訓練樣本劃分為3個區(qū)域:位于D(xi)<DC區(qū)域的光譜樣本,D(xi)值小于信任因子DC,樣本具有極高的可信度并且賦予模糊隸屬度為1;與此相反,位于D(xi)>DT區(qū)域的光譜樣本,D(xi)值小于舍棄因子DT,樣本極有可能包含噪聲或奇異點,對應的模糊隸屬度為最小值σ;位于其他區(qū)域的光譜樣本包含噪聲或奇異值的概率各不相同,從而對所建模型所作的貢獻也不同,模糊隸屬度與包含噪聲或奇異值的概率成正比關系。
可以通過如下的映射關系得到模糊隸屬度函數(shù):
式中:DC為信任因子,DT為舍棄因子。這2個因子控制著D(xi)和px(xi)的映射區(qū)域,d是控制映射度的參數(shù),D(xi)和px(xi)映射關系如圖1所示。
圖1 D(xi)和px(xi)的映射Fig.1 The mapping between D(xi)and px(xi)
將自動生成模糊隸屬度的方法結合模糊支持向量機(fuzzy support vector machines,F(xiàn)SVM),對蘋果近紅外光譜建立糖度回歸模型,分析模型的魯棒性。
2.1 試驗材料和儀器裝置
隨機選取紅富士和國光2種蘋果各45個作為試驗樣品,把表皮清洗干凈后,依次序作好標記。在2種蘋果中各選30個作為訓練樣品建立模型,剩余30個作為預測樣品。所有樣品在室溫(25~28)℃放置24 h。
選用海洋光學公司的USB2000光纖光譜儀和HL?2000鹵鎢光源構建檢測平臺,通過漫反射檢測方式采集蘋果近紅外光譜,采集波長范圍是400~1 000 nm,采樣間隔為0.37 nm,取每個蘋果赤道4個測試部位的平均光譜作為該蘋果樣本的原始光譜。使用上海光學儀器五廠生產的阿貝折射儀測量蘋果樣本的糖度,測量結果如表1所示。
表1 蘋果糖度的統(tǒng)計信息Table1 Statistics of apple sugar content
2.2 試驗方案
試驗方案如圖2所示。首先,通過近紅外光譜儀獲取蘋果的近紅外光譜xi,使用理化方法測量蘋果糖度yi,完成原始數(shù)據(jù)的獲取環(huán)節(jié);其次,構建光譜樣本的數(shù)據(jù)域描述函數(shù),通過映射關系得到樣本的模糊隸屬度函數(shù),參數(shù)尋優(yōu)后自動生成每個樣本的模糊隸屬度μi;最后,對(xi,yi,μi)訓練建立FSVM模型[14],與光譜分析中常用的多元線性回歸(multivariate linear re?gression,MLR)、偏最小二乘回歸(partial least square re?gression,PLSR),和支持向量機(support vector ma?chines,SVM)模型進行泛化能力和抗噪能力的對比試驗。
2.3 模型性能評價
模型的預測性能的評價指標包括決定系數(shù)R2、交叉驗證均方根誤差(RMSECV)和預測均方根誤差(RMSEP):
式中:yi和是樣本測量值和預測值,n為樣本個數(shù)。
模型的魯棒性通過泛化試驗和抗噪試驗來驗證,以RMSEP作為評價指標。泛化試驗設計為以包含不同數(shù)目和不同果品的訓練集分別建立模型,研究模型的推廣能力??乖朐囼炓罁?jù)Roussel等[19]提出的在原始光譜上分別加入高斯、乘性、基線漂移、基線傾斜、波長漂移這5種噪聲的方法來模擬光譜獲取中各個環(huán)節(jié)可能引入的噪聲,考察模型對噪聲的敏感度。
3.1 模糊隸屬度的確定
通過近紅外光譜建立基于支持向量數(shù)據(jù)域描述函數(shù),其中核函數(shù)選擇徑向基核函數(shù)。通過求解式(1)、(2)得到D(xi)和R,樣本集中各個樣本的D(xi)分布如圖3所示,其中虛線為特征空間中最小包含超球半徑R=0.88。
為了確定模糊隸屬度函數(shù)的4個參數(shù),首先固定信任因子DC=Dmin和舍棄因子DT=Dmax,對映射度d和模糊隸屬度下限σ執(zhí)行二維窮舉搜索。σ的搜索范圍是[0.1,0.9],步長0.1;d的搜索范圍是[2-8,28],乘積為2。接著固定d和σ,對DC和DT實施兩維窮舉搜索,DC的值選擇為使0、10%、20%、30%、40%、50%的樣本模糊隸屬度為1;DT的值選擇為使0、10%、 20%、30%、40%、50%的樣本模糊隸屬度為σ。最終搜索結果為DC=20%、DT=10%、d=8和σ=0.3,將這些參數(shù)代入式(3),自動生成了每個樣本的模糊隸屬度。
圖3 樣本到最小包含超球球心距離Fig.3 Distances between the sample and the centre of the hypersphere
3.2 模型的預測性能
4種模型的蘋果糖度預測結果如表2所示。試驗結果可知SVM及FSVM模型的預測性能要優(yōu)于線性的PLSR和MLR模型。其中FSVM表現(xiàn)最優(yōu),SVM與之接近,兩者都優(yōu)于PLSR和MLR。這是由于近紅外光譜與蘋果糖度之間并不是線性相關,SVM及FSVM模型對比線性模型更能適應這種非線性。
表2 模型的蘋果糖度預測性能Table2 Performances of models for brix prediction in apple
3.3 模型的魯棒性分析
3.3.1 模型的泛化試驗
將分屬2種蘋果的樣本集分為A子集(紅富士)和B子集(國光)。設計4組訓練集:第1組選擇A子集共30個樣本;第2組選擇B子集共30個樣本;第3組從A子集和B子集中隨機各取15個樣本;第4組選擇A子集和B子集的所有樣本共60個。建立模型對分屬2種蘋果的30個樣本進行預測,RMSEP試驗結果如表3所示。
表3 模型的泛化試驗結果Table3 Experimental results of models for generalization
試驗結果可知,第1組和第2組訓練集都僅包含一種蘋果,測試包含2種蘋果的預測集時,F(xiàn)SVM模型性能最優(yōu),而SVM模型性能與之相比有較大差距,MLR和PLSR模型性能均較差。第3組和第4組訓練集均包含2種蘋果但樣本數(shù)目存在差異,測試相同的預測集時,F(xiàn)SVM和SVM模型的性能受樣本數(shù)目的影響較小,PLSR和MLR模型性能受樣本數(shù)目的影響較大。試驗表明,F(xiàn)SVM模型對比其他模型,學習能力更強,從光譜樣本中獲取的信息更充分,更能適應訓練樣本的變化。
3.3.2 模型的抗噪試驗
在原始光譜上分別加入高斯噪聲、乘性噪聲、基線漂移、基線傾斜、波長漂移,考察模型對這5種噪聲的敏感度。模型抗噪試驗的結果如圖4所示,其中半徑0.2的實線代表較好的模型性能,半徑0.8的實線代表較差的模型性能,半徑越大意味著模型性能受該噪聲影響越嚴重。
圖4 模型抗噪試驗結果Fig.4 Experimental results of models for anti?noise
試驗結果可知,MLR模型易受高斯噪聲和基線傾斜影響,尤其是高斯噪聲下MLR模型的性能大幅下降;PLSR模型對基線漂移、基線傾斜和波長漂移均比較靈敏,其中波長漂移對PLSR模型的影響最大;SVM模型在高斯噪聲和波長漂移作用下,性能有所下降,但總體優(yōu)于線性模型;FSVM對基線傾斜的相對較為敏感度,但模型性能與無噪聲情況下非常接近,受各種噪聲的影響最小。試驗表明,高斯噪聲和基線傾斜對模型性能的影響最大,而乘性噪聲對模型性能的影響最小,F(xiàn)SVM模型對各種噪聲的敏感度最低,表現(xiàn)出最強的抗噪能力。
1)試驗結果可知,非線性模型比線性模型表現(xiàn)出了更好的預測性能,引入模糊隸屬度的FSVM模型對比常用的MLR、PLSR和SVM模型,具有最強的魯棒性。
2)提出了一種自動生成模糊隸屬度的方法。構建光譜樣本的數(shù)據(jù)域描述函數(shù),引入信任因子和舍棄因子,通過映射關系得到模糊隸屬度函數(shù),最后由參數(shù)尋優(yōu)自動生成每個樣本的模糊隸屬度。簡化了模糊隸屬度的獲取,而得到的模糊隸屬度更為客觀的反映了光譜數(shù)據(jù)結構。
3)在應用近紅外光譜技術建模時,訓練樣本不充分和測量過程中的各種噪聲會引起模型無法穩(wěn)定而正常的工作,引入自動生成的模糊隸屬度是一種有效的解決方法。此外,提高模型的學習能力和擴展模型的適用對象,會使模型的性能得到提升,進一步推動近紅外光譜技術的工業(yè)應用,這也是下一步研究的主要方向。
[1]COZZOLINO D.Recent trends on the use of infrared spec?troscopy to trace and authenticate natural and agricultural food products[J].Applied Spectroscopy Reviews,2012,47(7):518?530.
[2]CHEN L J,YAN Z L,HAN L J.A review on the use of near?infrared spectroscopy for analyzing feed protein materi?als[J].Applied Spectroscopy Reviews,2013,48(7):509?522.
[3]BELLON?MAUREL V,MCBRATNEY A.Near?infrared(NIR)and mid?infrared(MIR)spectroscopic techniques for assessing the amount of carbon stock in soils-Critical review and research perspectives[J].Soil Biology&Bio?chemistry,2011,43(7):1398?1410.
[4]陳中偉,張凌江,王虹斌,等.海洋顏色八通道多光譜成像測量研究[J].哈爾濱工程大學學報,2010,31(3):377?381.CHEN Zhongwei,ZHANG Lingjiang,WANG Hongbin,et al.Measuring sea color with eigh?channel spectral imaging[J].Journal of Harbin Engineering University,2010,31(3):377?381.
[5]程凱,侯華明,李德平,等.深海原位激光拉曼光譜系統(tǒng)釋樣設計與海試[J].哈爾濱工程大學學報,2011,32(8):1058?1062.CHENG Kai,HOU Huaming,LI Deping,et al.Design and sea trial on a sample releasing device used for deep?sea in?si?tu laser Raman spectroscopy system[J].Journal of Harbin Engineering University,2011,32(8):1058?1062.
[6]NICOLAI B M,BEULLENS K,BOBELYN E,et al.Nonde?structive measurement of fruit and vegetable quality by means of NIR spectroscopy:a review[J].Postharvest Biology and Technology,2007,46(2):99?118.
[7]傅霞萍,應義斌,陸輝山,等.應用多種近紅外建模方法分析梨的堅實度[J].光譜學與光譜分析,2007,27(5):911?915.FU Xiaping,YING Yibin,LU Huishan,et al.Application of some different modeling algorithms to pear MT?firmness detection using NIR spectra[J].Spectroscopy and Spectral Analysis,2007,27(5):2079?2082.
[8]高玨,王從慶.基于LS?SVM的蘋果近紅外光譜回歸模型的研究[J].計算機測量與控制,2011,19(1):176?178.GAO Jue,WANG Congqing.Regression model for apples' near infrared spectroscopy based on LS?SVM[J].Computer Measurement and Control,2011,19(1):176?178.
[9]介鄧飛,謝麗娟,饒秀勤,等.近紅外光譜變量篩選提高西瓜糖度預測模型精度[J].農業(yè)工程學報,2013,33(8):2079?2082.JIE Dengfei,XIE Lijuan,RAO Xiuqin,et al.Improving ac?curacy of prediction model for soluble solids content of water?melon by variable selection based on near?infrared spectros?copy[J].Transactions of the Chinese Society of Agricultural Engineering,2013,33(8):2079?2082.
[10]FERNáNDEZ?PIERNA J A,CHAUCHARD F,PREYS S,et al.How to build a robust model against perturbation fac?tors with only a few reference values:a chemometric chal?lenge at‘Chimiométrie 2007'[J].Chemometrics and In?telligent Laboratory Systems,2011,106(2):152?159.
[11]ROTBART N,SCHMILOVITCH Z,COHEN Y,et al.Esti?mating olive leaf nitrogen concentration using visible and near?infrared spectral reflectance[J].Biosystems Engi? neering,2013,114(4):426?434.
[12]BOBELYN E,SERBAN A?S,NICU M,et al.Postharvest quality of apple predicted by NIR?spectroscopy:study of the effect of biological variability on spectra and model per?formance[J].Postharvest Biology and Technology,2010,55(3):133?143.
[13]CAO L J,LEE H P,CHONG W K.Modified support vec?tor novelty detector using training data with outliers[J].Pattern Recognition Letters,2003,24(14):2479?2487.
[14]LIN C F,WANG S D.Fuzzy support vector machines[J].IEEE Transaction on Neural Networks,2002,13(2):466?471.
[15]朱堅民,雷靜桃,翟東婷,等.基于灰關聯(lián)分析和模糊隸屬度匹配的球形水果自動識別方法[J].儀器儀表學報,2012,33(8):1826?1836.ZHU Jianmin,LEI Jingtao,ZHAI Dongting,et al.Spheri?cal fruit automatic recognition method based on grey rela?tional analysis and fuzzy membership degree matching[J].Chinese Journal of Scientific Instrument,2012,33(8):1826?1836.
[16]YANG C Y,CHOU J J,LIAN F L.Robust classifier learn?ing with fuzzy class labels for large?margin support vector machines[J].Neurocomputing,2013,99(1):1?14.
[17]AN W J,LIANG M G.Fuzzy support vector machine based on within?class scatter for classification problems with outli?ers or noises[J].Neurocomputing,2013,110(13):101?110.
[18]TAX D M J,DUIN R P W.Support vector data description[J].Machine Learning,2004,54(1):45?66.
[19]ROUSSEL S A,IGNE B,F(xiàn)UNK D B et al.Noise robust?ness comparison for near?infrared prediction models[J].Journal of Near Infrared Spectroscopy,2011,19(1):23?36.
Robustness analysis of near infrared spectroscopy model using fuzzy membership
GAO Jue1,2,3,LI Haisen1,2,XU Chao1,2,ZHU Peiyi3
(1.College of Underwater Acoustic Engineering,Harbin Engineering University,Harbin 150001,China;2.Science and Technology on Underwater Acoustic Laboratory,Harbin Engineering University,Harbin 150001,China;3.College of Electric and Automatic Engi?neering,Changshu Institute of Technology,Changshu 215500,China)
In order to analyze the robustness of the near infrared spectroscopy model,this paper proposes a method of automatically generating the fuzzy membership by introducing the fuzzy membership when building the model.This method constructs a description function in the data domain of spectrum samples,introduces two factors?confi?dent factor and trashy factor,and then obtains the fuzzy membership function of samples from a mapping function.It automatically generates the fuzzy membership of each sample after optimizing parameters.On that basis,the re?gression model of apple sugar content was built based on fuzzy support vector machines(FSVM).The experimental results revealed that comparing with regular multivariate linear regression(MLR),partial least squares regression(PLSR)and support vector machines(SVM),the FSVM model showed the best performance with the change of training samples,under the influence of five noises,i.e.Gaussian noise,multiplicative noise,baseline shift,base?line slope and wavelength shift.The model shows better performance in robustness,especially generalization ability and anti?noise ability,primarily due to the contribution of fuzzy membership.
robustness;fuzzy membership;near infrared spectroscopy;modelling;noise;data description
10.3969/j.issn.1006?7043.201312026
http://www.cnki.net/kcms/detail/23.1390.U.20150109.1504.005.html
TP273.4
A
1006?7043(2015)03?0312?05
2013?12?26.網(wǎng)絡出版時間:2015?01?09.
蘇州市科技計劃資助項目(SYN201109).
高玨(1981?),男,博士研究生;李海森(1962?),男,教授,博士生導師.
李海森,E?mail:hsenli@126.com.