陳素彬,胡振
(南充職業(yè)技術(shù)學院,四川南充637131)
基于近紅外光譜和QPSO-LSSVM模型的玉米脂肪測定
陳素彬1,胡振
(南充職業(yè)技術(shù)學院,四川南充637131)
為了建立一個精確、穩(wěn)健的玉米脂肪近紅外光譜定量模型,提出了以全波段光譜建立最小二乘支持向量機(LS-SVM)模型、用量子行為粒子群優(yōu)化(QPSO)算法結(jié)合留一交叉驗證(LOO-CV)規(guī)則優(yōu)化模型參數(shù)的新方法,并用76份樣本數(shù)據(jù)進行了驗證。與常用的偏最小二乘(PLS)校正模型相比,當采用原光譜數(shù)據(jù)建模預測時,相關(guān)系數(shù)(Rp)和相對分析誤差(RPD)分別由0.9248、2.43升至0.9801、4.38以上,預測均方根誤差(RMSEP)從0.0624降到0.0311以下;若將光譜進行多元散射校正(MSC)預處理之后再建模預測,則Rp和RPD分別由0.9618、3.95升至0.9934、8.11以上,RMSEP從0.0395降到0.0215以下。試驗結(jié)果表明,以全波段近紅外光譜建立的QPSO-LSSVM校正模型完全可用于玉米脂肪的實際檢測。
玉米;近紅外光譜;脂肪;最小二乘支持向量機;量子行為粒子群優(yōu)化算法
玉米是重要的糧食和飼料,也是生產(chǎn)玉米油的主要原料,其品質(zhì)高低取決于水分、蛋白質(zhì)和脂肪等主要成分的含量。目前,檢測玉米脂肪含量的國標方法為索氏抽提法和酸水解法[1],所用的主要試劑乙醚是眾所周知的有害物質(zhì),而且測定時間長、成本高[2]。因此,企業(yè)在進行原料玉米檢測時,更愿意選用無損、快速、低成本的近紅外光譜(Near infrared spectroscopy,NIRS)分析方法,但國標GB/T 24902-2010僅給出了大致流程[3],完全沒有操作性。
近紅外光譜(波長為780~2526nm)是由分子振動的非諧振性使其從基態(tài)向高能級躍遷時產(chǎn)生的,主要反映含氫基團X-H(X=C、O、N、S等)振動的倍頻和合頻吸收,記錄了幾乎全部有機化合物和混合物的組成、結(jié)構(gòu)和狀態(tài)信息。各種基團(或同一基團處于不同化學環(huán)境)在近紅外區(qū)域具有特定的吸收波長與強度,其相關(guān)性符合Beer-Lambert定律。研究表明,玉米的幾種主要成分在近紅外區(qū)域同樣有著明顯的選擇性吸收,其吸收程度取決于相應(yīng)成分的含量,可以據(jù)此建立近紅外光譜校正模型來測定成分含量。
現(xiàn)有研究大多采用基于最小二乘原理的線性建模方法[4-6],如多元線性回歸(Multivariate linear regression,MLR)、主成分回歸(Principal component regression,PCR)和偏最小二乘(Partial least squares,PLS)等;另外一些則建立了基于機器學習理論的人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)或支持向量機(Support vector machine,SVM)等非線性回歸模型[7,8]。這兩類模型各具優(yōu)勢,并在實際應(yīng)用中取得了一定的效果。然而,當物質(zhì)的待測屬性與光譜數(shù)據(jù)之間的線性相關(guān)度較差時,不適合建立線性回歸模型[9];另一方面,非線性模型的參數(shù)優(yōu)化則一直是個難題,常用的幾種方法都有明顯缺陷,難以找到確定的最優(yōu)值。為此,本文采用最小二乘支持向量機(Least squares support vector machine,LS-SVM)建立玉米脂肪測定的近紅外光譜校正模型,并運用量子行為粒子群優(yōu)化(Quantum-behaved particle swarm optimization,QPSO)算法實現(xiàn)參數(shù)尋優(yōu),以增強模型的適應(yīng)性和泛化性能。
1.1 樣品采集與制備
收集不同地區(qū)、不同品種玉米樣品76個,各樣品用四分法縮分至約300g,用旋風磨粉碎過40目篩(0.42mm)。將玉米粉末樣品分為2份,分別用于常規(guī)分析和近紅外光譜掃描。
1.2 常規(guī)測定與光譜采集
按國家標準GB5009.6-2016之第一法(索氏抽提法)準確測定每個玉米粉樣品的脂肪含量,作為近紅外光譜定量模型的參考值。所得數(shù)據(jù)見表1。
表1 玉米樣品的脂肪含量數(shù)據(jù)Tab.1Fat content data of corn samples
使用NIRSystems 6500型近紅外多功能分析儀進行光譜采集:玉米粉樣品裝載于矩形杯(4.6× 5.7cm)中;因1000nm以下和2500nm以上波段光譜的信噪比較低,故選擇掃描范圍為1100~2498nm,波長間隔2nm。每個樣品重復裝樣、掃描3次,取平均值并轉(zhuǎn)換為log 1/R形式保存。全部樣品的近紅外光譜見圖1。
圖1 玉米樣本的近紅外光譜圖Fig.1Near infrared spectra of corn samples
1.3 近紅外光譜校正模型的建立
1.3.1 樣品近紅外光譜預處理近紅外譜帶較寬,各種基團的吸收較弱、且重疊嚴重,因而光譜信息復雜、信噪比低。同時,在測量中難免存在一些與樣品待測屬性無關(guān)的干擾,如樣品的粒度、密度和均勻性,光的散射、雜射、背景以及儀器噪聲等因素,會導致NIRS的基線漂移和重現(xiàn)性差等現(xiàn)象[10]。因此,需首先對光譜數(shù)據(jù)進行預處理,減弱以至于消除各種非目標因素對光譜的影響,盡可能去除無關(guān)信息,提高分辨率和靈敏度[11],從而提高NIRS校正模型的預測精度和穩(wěn)健性。
光譜預處理的方法眾多,各種方法對于不同待測樣本有著特定的優(yōu)越性和缺點。根據(jù)研究經(jīng)驗和玉米粉末樣品的特點,主要試驗矢量歸一化(Vector normalization)、均值中心化(Mean centering)、Savitzky-Golay卷積平滑(Savitzky-Golay smoothing)、一階導數(shù)(1st derivative)、標準正態(tài)變量變換(Standard normal variable transformation,SNV)、多元散射校正(Multiplicative scatter correction,MSC)和正交信號校正(Orthogonal signal correction,OSC)。其中OSC是一種新概念的光譜預處理方法,它不是僅對光譜數(shù)據(jù)進行處理,而是通過與濃度陣的正交運算,濾除光譜中與濃度無關(guān)的信號,從而減少建模的主因子數(shù),達到簡化模型、提高預測能力的目的[12]。
應(yīng)用上述幾種方法及其部分組合方案進行76個玉米粉末樣品的NIRS預處理,并以PLS方法建模預測脂肪含量,以模型的相關(guān)系數(shù)R(Correlation coefficient)、校正均方根誤差(Root mean square error of calibration,RMSEC)、預測均方根誤差(Root mean square error of prediction,RMSEP)和相對分析誤差(Ratio of performance to standard deviate,RPD)為評價指標。該過程用The Unscrambler X 10.4軟件完成。
1.3.2 樣本集劃分采用隨機法(Random sampling,RS)進行樣本集劃分。先將全部玉米樣本按脂肪含量升序排列,再隨機抽取16個樣本組成預測集,其余60個樣本作為校正集,使校正集和預測集樣本的屬性值分布范圍相近。
1.3.3 LS-SVM定量模型建立LS-SVM是SVM的擴展,它用等式約束代替了后者的不等式約束,并將SVM中的不敏感損失函數(shù)項轉(zhuǎn)換為殘差的平方和,使得求解二次規(guī)劃問題轉(zhuǎn)化成為求解線性方程組,降低了計算的復雜度,加快了求解速度。
LS-SVM能夠用于線性和非線性建模,其穩(wěn)健性優(yōu)于一般的線性建模方法,而且避免了ANN存在的訓練速度慢、容易陷入局部最優(yōu)、過擬合和泛化能力較差等局限性。從運行過程看,LS-SVM模型的訓練主要是求解線性方程組,預測則是計算各建模樣本與待測樣本之間的核函數(shù),其計算量取決于校正集的樣本數(shù)目,而與光譜維數(shù)無關(guān)。因此,本文采用樣品NIRS的全波段信息來建立LS-SVM校正模型測定脂肪含量,而不進行波長的選擇處理。
1.3.4 用QPSO算法優(yōu)化模型參數(shù)核函數(shù)選擇與參數(shù)優(yōu)化是LS-SVM建模過程中的兩個關(guān)鍵問題。比較而言,采用徑向基核函數(shù)(Radial basis function,RBF)具有支持向量數(shù)少、計算復雜度低、能以小樣本完成模型訓練等優(yōu)勢。LS-SVM的正則化參數(shù)γ在模型的復雜度和訓練誤差之間取得折衷,直接影響其泛化性能;核函數(shù)寬度σ2則控制樣本數(shù)據(jù)在特征空間中分布的復雜程度,與支持向量數(shù)目和模型預測精度密切相關(guān)。
常用的LS-SVM模型參數(shù)尋優(yōu)算法各有缺點:網(wǎng)格搜索法復雜度高、學習精度偏低,對大樣本集不太適用;模式搜索法計算量大,不能確保結(jié)果為全局最優(yōu)值;遺傳算法、粒子群算法則易發(fā)生早熟現(xiàn)象,還可能因過擬合而降低模型的泛化性能。為此,采用QPSO算法結(jié)合留一法交叉驗證(Leave-one-out cross validation,LOO-CV)規(guī)則來對LS-SVM模型參數(shù)尋優(yōu),以交叉驗證均方根誤差(Root mean square error of cross validation,RMSECV)為適應(yīng)度函數(shù):
式中n:訓練集樣品數(shù);yi、y:第i個樣品的參考值和預測值。
QPSO算法實現(xiàn)LS-SVM模型參數(shù)尋優(yōu)的步驟如下:(1)設(shè)定參數(shù)(γ,σ2)的大致尋優(yōu)范圍[γmin,γmax]和[σmin,σmax];
(2)分別在[γmin,γmax]和[σmin,σmax]區(qū)間初始化粒子群(每個粒子在兩個維度的位置即分別為參數(shù)(γ, σ2)的值);
(3)取樣本集中的1個樣本作預測集、其余樣本為校正集,建立LS-SVM模型;
(4)以當前粒子位置為(γ,σ2)參數(shù)值完成LS-SVM模型訓練,并用預測集進行待測成分含量估計;
(5)重復步驟(3)、(4),直到每個樣本都作一次測試集。根據(jù)式(1)計算RMSECV;
(6)根據(jù)RMSECV的最小值確定當前粒子的個體最優(yōu)位置和全局最優(yōu)位置,然后根據(jù)QPSO算法公式更新粒子位置;
(7)重復步驟(3)~(6),直到迭代終止。最后的粒子全局最優(yōu)位置即是參數(shù)(γ,σ2)的最優(yōu)值[13]。
本文的樣本集劃分、LS-SVM建模和參數(shù)尋優(yōu)過程皆用MATLAB R2015b編程實現(xiàn)。
2.1 樣品光譜預處理及建立PLS定量模型
主要試驗了11種光譜預處理方案,結(jié)合建立玉米NIRS的PLS回歸模型預測其脂肪含量,通過結(jié)果比較選取其中最優(yōu)者。在The Unscrambler X 10.4軟件環(huán)境中,進行光譜預處理并建立PLS校正模型時設(shè)置:Savitzky-Golay的“Smoothing points”(平滑點數(shù))為7、“Polynomial order”(多項式次數(shù))為2;MSC的“Function”(函數(shù))選“Full MSC”;OSC的“Option”(選項)取“NIPALS”、“Number of components”(成分數(shù))置5;PLS的“Cross validation method”(交互驗證方法)選“Full”、“Algorithm”(算法)為“Kernel PLS”。結(jié)果見表2。
根據(jù)國際谷物科技協(xié)會(International association for cereal science and technology,ICC)標準,RPD≥3的定量分析模型才可用于實際檢測。顯然,僅有方案6能夠達標,其PLS模型的Rc、Rp分別為0.9779、0.9618,RMSEC、RMSEP分別為0.0277、0.0395,這兩對指標值都相差較小,且RPD為3.95,因此該預處理方案最佳;SNV和矢量歸一化所得結(jié)果較差,相應(yīng)模型的Rc、Rp較小而RMSEC、RMSEP較大,但其兩對指標值都比較接近,說明模型穩(wěn)健性較好;均值中心化預處理之后,所建模型的兩對指標值相差較大,意味著其泛化性能有待提高;Savitzky-Golay卷積平滑、OSC則與無預處理的建模效果非常相近,但OSC方法的模型RMSEC、RMSEP高達2.5088、2.4956,且RPD僅為0.07,表明其預測誤差較大。由表2還可發(fā)現(xiàn),5個預處理組合方法的效果都不及其中一種方法的單獨應(yīng)用。
表2 各種光譜預處理方法的PLS模型測定玉米脂肪結(jié)果Tab.2Results of corn fat by PLS model with various spectral pretreatment methods
此外,還試驗了矢量歸一化、均值中心化分別與SNV、MSC、OSC的組合方法,其結(jié)果與單獨使用后3種方法并無明顯差別;而一階導數(shù)、二階導數(shù)及其與其它預處理的組合方法效果都很差,因此,未將其列入表中。圖2為MSC預處理之后的玉米樣品近紅外光譜。
圖2 MSC預處理的玉米樣本近紅外光譜圖Fig.2Near infrared spectra of corn samples pretreated by MSC method
2.2 用QPSO算法搜索LS-SVM模型的最優(yōu)參數(shù)
QPSO是一種群體智能搜索算法,這里以LS-SVM模型參數(shù)γ和σ2為其優(yōu)化變量,通過迭代獲取最優(yōu)解。該過程用全部玉米樣品按LOO-CV規(guī)則建立LS-SVM模型進行脂肪含量預測,迭代尋找RMSECV取得最小值所對應(yīng)的γ和σ2。算法程序的運行參數(shù)設(shè)置:粒子群規(guī)模30,迭代次數(shù)100,γ和σ2的搜索區(qū)間分別為[0.5,1.0e20]、[2.0,1.0e10]。
運行QPSO算法程序?qū)τ脴悠吩庾V數(shù)據(jù)所建LS-SVM模型進行參數(shù)尋優(yōu),得到γ=9.77058771060 7214e+15、σ2=1.582942191985999e+08,相應(yīng)RMSECV值為0.0173;然后對樣品光譜進行MSC預處理,以同樣方法尋找最優(yōu)參數(shù),得到γ=5.9929801192 88668e+18、σ2=2.104096717963797e+08,相應(yīng)RMSECV值為0.0168。
2.3 玉米脂肪測定的近紅外光譜LS-SVM定量模型
以玉米樣品的全波段原光譜數(shù)據(jù)建立LS-SVM模型,代入用QPSO算法所得γ、σ2最優(yōu)值進行訓練和脂肪定量,以Rp、RMSEP、MRE(Mean relativeerror,平均相對誤差)和RPD為評價指標;為了進一步驗證模表3所列數(shù)據(jù)表明,采用QPSO算法優(yōu)化參數(shù)γ和σ2型的預測精度和穩(wěn)健性,將樣本集劃分、建模和預測的整個過程重復10次。再將樣品光譜進行MSC預處理后,以相同方法建模測定玉米脂肪含量。結(jié)果見表3。
表3 QPSO-LSSVM模型測定玉米脂肪結(jié)果Tab.3Results of corn fat by QPSO-LSSVM model
之后,直接用玉米樣品的原光譜全波長數(shù)據(jù)所建LS-SVM模型明顯優(yōu)于表2所列的各種PLS模型,完全可用于脂肪含量的實際測定。10次試驗皆得Rp>0. 98、RPD≥4.3,RMSEP<0.032、MRE<0.76%;而將光譜數(shù)據(jù)進行MSC預處理后,所建QPSO-LSSVM模型的預測精度和穩(wěn)健性得到了進一步提高。
以第6次試驗為例,MSC預處理光譜所建QPSO-LSSVM模型測得玉米樣品脂肪含量見圖3(a);相應(yīng)的參數(shù)尋優(yōu)迭代過程見圖3(b)。
圖3 用QPSO-LSSVM模型測定玉米脂肪及參數(shù)尋優(yōu)過程(a)Corn fat content by QPSO-LSSVM model(b)Process of QPSO-LSSVM parameter optimizationFig.3Determination of corn fat and parameter optimization by QPSO-LSSVM model
由圖3可見,顯然,16個樣品的預測值和參考值重合性好,并很規(guī)則地分布在回歸線的兩側(cè);其參數(shù)尋優(yōu)過程迭代到60次時,即收斂于適應(yīng)度值0.0168處。
(1)建立近紅外光譜定量分析的常用方法是“光譜預處理+PLS模型”。本文研究玉米脂肪測定的近紅外光譜分析模型,通過試驗探討了11種光譜預處理方案對PLS模型的影響,發(fā)現(xiàn)樣品光譜經(jīng)MSC預處理后所建的PLS模型效果較好,其Rc和Rp值較高、RMSEC和RMSEP值較低,且這兩對數(shù)據(jù)相差較小,RPD值達到3.95,能夠用于實際檢測。另外10種“光譜預處理+PLS模型”則均未完全達到應(yīng)用標準。
(2)本文提出了“全波段原光譜+QPSO-LSSVM模型”的玉米脂肪測定方法。先用QPSO算法結(jié)合LOO-CV規(guī)則搜索LS-SVM模型的最優(yōu)參數(shù),然后以樣品的全波段原光譜建模。10次驗證的結(jié)果表明,該模型的預測精度和穩(wěn)健性明顯優(yōu)于PLS模型,完全能夠用于實際檢測。以此為基礎(chǔ),繼續(xù)嘗試用MSC預處理光譜建立QPSO-LSSVM模型,發(fā)現(xiàn)其性能有了進一步提升。
(3)本文方法采用全波段光譜建模,并引入了智能搜索算法優(yōu)化模型參數(shù),因此計算量較大,宜于編寫計算機程序?qū)崿F(xiàn)。
[1]國家食品藥品監(jiān)督管理總局.GB5009.6-2016食品安全國家標準食品中脂肪的測定[S].北京:中國標準出版社,2017:1-5.
[2]肖青青.近紅外光譜用于玉米水分和粗脂肪的快速分析[D].廣州:暨南大學,2015.
[3]中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局.GB/T 24902-2010糧油檢驗玉米粗脂肪含量測定近紅外法[S].北京:中國標準出版社,2010:1-3.
[4]謝秀娟,趙龍蓮.獨立分量分析在近紅外光譜定量分析中的應(yīng)用[J].江西農(nóng)業(yè)大學學報,2012,34(4):828-831.
[5]王冬,閔順耕,朱業(yè)偉,等.法布里干涉近紅外光譜儀定量測定大豆、玉米主要成分[J].現(xiàn)代儀器,2011,17(5):30-33.
[6]李晉華,楊志良,王召巴,等.近紅外漫透射技術(shù)檢測玉米成分
[J].紅外技術(shù),2013,35(11):732-736.
[7]侯振雨,湯長青,姚樹文,等.離散小波變換-支持向量回歸方法及其在谷物分析中的應(yīng)用[J].河南農(nóng)業(yè)科學,2006,35(8):40-42.
[8]劉天玲,蘇琪雅,孫群,等.基于NIR分析和模式識別技術(shù)的玉米種子識別系統(tǒng)[J].光譜學與光譜分析,2012,32(5):1209-1212.
[9]包鑫.穩(wěn)健回歸技術(shù)及其在光譜分析中的應(yīng)用[D].杭州:浙江大學,2010.
[10]王立琦,朱秀超,張禮勇.基于小波分析的近紅外光譜數(shù)據(jù)預處理[J].哈爾濱商業(yè)大學學報(自然科學版),2009,25(6):700-702.
[11]曾立波,賀志平.遺傳算法在近紅外光譜分析波長及預處理方法同步選擇中的應(yīng)用[J].分析儀器,2006,37(3):23-26.
[12]褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應(yīng)用[J].化學進展,2004,16(4):528-542.
[13]胡振,陳素彬.水中溶解氧含量的優(yōu)化WLS-SVM預測方法[J].微型電腦應(yīng)用,2014,30(5):54-58.
Determination of corn fat based on NIRS and QPSO-LSSVM model
CHEN Su-bin,HU Zhen
(Nanchong Professional Technic College,Nanchong 637131,China)
To establish an accurate and robust quantitative model for near infrared spectroscopy of corn fat,a least squares support vector machine model based on full band spectrum is proposed.A new method to optimize the parameters of the model using the quantum-behaved particle swarm optimization algorithm combined with leaveone-out cross validation and 76 sample data are used to verify.Compared with the commonly used partial least squares correction model,the correlation coefficient increased from 0.9248 to above 0.9801,the ratio of performance to standard deviate increased from 2.43 to above 4.38,the root mean square error of prediction decreases from 0.0624 to below 0.0311.If build models and forecast after doing a multiplicative scatter correction and a preprocessing,the correlation coefficient increased from 0.9618 to above 0.9934,the ratio of performance to standard deviate increased from 3.95 to above 8.11,the root mean square error of prediction decreases from 0.0395 to below 0.0215.The experimental results show that the QPSO-LSSVM calibration model established by the full band nearinfrared spectroscopy can be used for the actual detection of corn fat.
corn;near infrared spectroscopy;fat;LS-SVM;QPSO algorithm
O657.33
A
10.16247/j.cnki.23-1171/tq.20170830
2017-03-08
陳素彬(1967-),女,漢,本科,講師,從事分析化學教學與分析檢測工作。