張云琪,崔超遠,陳永,魯翠萍
(1中國科學院合肥物質(zhì)科學研究院智能機械研究所,安徽 合肥 230031;2中國科學技術(shù)大學,安徽 合肥 230026;3合肥學院先進制造工程學院,安徽 合肥 230061)
酸度是衡量蘋果內(nèi)部品質(zhì)的重要指標之一,實現(xiàn)對該指標的無損測定十分重要。可見-近紅外光譜(Vis-NIRS)檢測技術(shù)以其快速、無損的優(yōu)勢,在水果糖度、酸度、硬度等內(nèi)部品質(zhì)檢測領(lǐng)域得到了廣泛應用[1?6]。采用Vis-NIRS檢測設備獲取到的樣本漫反射光譜信號,主要由樣本分子結(jié)構(gòu)中碳氫鍵、碳氧鍵等振動產(chǎn)生在可見-近紅外波段的特征譜線,這些特征譜線的強度可以反映樣本中化學組成的含量。對于蘋果的Vis-NIRS,已有相關(guān)研究表明在550~570 nm、650~680 nm、720~740 nm及840~860 nm的波長范圍內(nèi)存在酸度的特征峰,且酸度含量越高,峰值越大[7?9]。
近年來,研究人員采用化學計量學方法提取光譜有效信息,建立水果內(nèi)部品質(zhì)與光譜信息之間的關(guān)系,構(gòu)建基于Vis-NIRS數(shù)據(jù)的無損檢測模型。研究表明通過光譜特征波長或波長區(qū)間數(shù)據(jù)的有效篩選,不僅可以簡化模型,還可剔除不相關(guān)或非線性變量,建立預測能力強、穩(wěn)健性好的模型[10,11],從而實現(xiàn)預測模型的優(yōu)化。在特征波長選擇方面,應用較為廣泛的方法有連續(xù)投影法(SPA)[12]、競爭自適應重加權(quán)采樣法(CARS)[13]以及無信息變量消除法(UVE)[14]等。因設計理念的不同,每種算法各有優(yōu)勢,如SPA法篩選的特征波長數(shù)目少,簡化了模型,但降低了模型精度;相反,UVE與CARS法選出的波長變量數(shù)目較多,提高了模型精度,但增加了模型的復雜度。
近年來,研究人員嘗試融合多種特征波長選取方法,減少建模變量,簡化預測模型。Fan等[15]提出了CARS-SPA法,用SPA對CARS選取的特征波長進行二次篩選。將該法應用于蘋果可溶性固形物含量偏最小二乘(PLS)預測模型的建立,模型變量數(shù)從42項減少至15項。Jiang等[16]在馬鈴薯還原糖含量的PLS檢測模型建立過程中使用CARS-SPA法,模型變量數(shù)從33項減少至17項。Feng等[17]使用SPA-SPA法提取波長變量,建立蘋果硬度檢測模型,建模變量數(shù)從9項降至4項。Liu等[18]通過UVE-SPA進行建模變量選擇,建立了多種蘋果的(MLR)通用模型,建模變量數(shù)從155項減少至22項,但模型精度下降了4.6%。Wang等[19]基于UVE-SPA法選取的特征波長建立番茄紅素含量PLS檢測模型,建模變量數(shù)從283項降至35項,但預測模型精度下降了3.4%。上述研究表明這些方法可以有效減少建模變量數(shù)目,然而會降低模型精度。
為綜合考慮建模變量數(shù)目及模型精度,本文提出一種逐次追加、優(yōu)勝劣汰的競爭性特征波長篩選法,建立了基于PLS的預測模型。在“黃金帥”蘋果酸度的無損測定中運用該方法,不僅保證了檢測精度,且優(yōu)化了模型的復雜程度,研究結(jié)果對基于Vis-NIRS的水果品質(zhì)無損檢測具有重要意義。
挑選沒有表面損傷和缺陷、大小勻稱的31個“黃金帥”蘋果作為樣本。對每個樣本沿著赤道均勻地標注四個部位并依次編號,在每個標記點區(qū)域進行漫反射光譜采集與酸度含量測定。為擴大樣本數(shù)量,將每個標記點作為一個獨立樣本,組成樣本集。
實驗采用HL-2000-HP型鹵素燈作為光源、USB 4000光纖光譜儀獲取數(shù)據(jù)、QR400-7-VIS-NIR型光纖(Ocean optics INC.,USA)進行光的傳輸。實驗中,通過光纖采樣附件采集樣本赤道上均勻分布的四個標記點區(qū)域的可見-近紅外漫反射光譜。具體方式為:將光纖探頭豎直固定于蘋果樣本正上方,該光纖將光源出射端和蘋果樣本的漫反射光收集端設計在一起。光源發(fā)出的光通過光纖傳輸并經(jīng)過透鏡聚焦到蘋果表面,光從蘋果表面入射到果肉中,從蘋果內(nèi)部漫反射出來的光經(jīng)光纖探頭會聚后傳輸至光譜儀,光譜儀完成光信號的分光和采集并傳輸至計算機。USB4000光纖光譜儀的采集波長范圍為346~1046 nm,分辨率為2 nm。在支架上設置升降臺以控制光纖探頭與樣本采集點間的距離,放置海綿墊以固定樣本。實驗搭建的光譜采集平臺如圖1所示。
圖1 光譜采集平臺Fig.1 Platform for spectral acquisition
使用PAL-BX/ACID5型蘋果糖酸一體機(Atago Co.,Tokyo,Japan)對蘋果樣本赤道上均勻標注的四個區(qū)域進行酸度測量,步驟如下:
1)挖取直徑約2 cm的一塊果肉,擠出約2 mL果汁;
2)稱取質(zhì)量為1 g的果汁放進燒杯中,加入50 g的去離子水稀釋,用攪拌棒充分攪拌均勻;
3)用滴管從燒杯中取0.3 mL稀釋后的樣品,滴入儀器的棱鏡槽中,按“Start”鍵開始測量,2 s后儀器顯示讀數(shù)。重復攪拌與測量操作多次,將重復出現(xiàn)三次的讀數(shù)記為該測量點的酸度。
偏最小二乘法是一種數(shù)學優(yōu)化技術(shù),它通過最小化誤差的平方和找到一組數(shù)據(jù)的最佳函數(shù)匹配。
在光譜數(shù)據(jù)建模過程中,PLS算法應用最為廣泛。該方法在計算過程中同時考慮了光譜數(shù)據(jù)和濃度數(shù)據(jù)對建模結(jié)果的影響,能較好地處理數(shù)據(jù)多重共線性、因子結(jié)果不確定性和數(shù)據(jù)非正態(tài)分布等問題。PLS回歸模型可以寫為
此處X代表蘋果樣本光譜矩陣,Y代表樣本酸度矩陣,b為回歸系數(shù)向量,e為模型殘差。
蘋果酸度可見-近紅外無損測定模型的總體架構(gòu)如圖2所示。所提出的模型構(gòu)建方法將SPA和CARS兩種波長選取方法進行了融合。將SPA和CARS法選取的波長集合分別記為S和C,即S={p1,p2,···,pn},C={q1,q2,···,qm},且m>n。定義建模波長集合A={λi|λi∈S}(1≤i≤n),建模備選波長集合B={μj|μj∈C且μj?S}(1≤j≤k,k≤m),則對應的建模光譜數(shù)據(jù)集為,建模備選光譜數(shù)據(jù)集為,其中l(wèi)為樣本數(shù)目,xi,j為光譜矩陣X中的元素,表示第i個樣本光譜在對應波長位置j處的數(shù)據(jù)。
圖2 模型總體架構(gòu)Fig.2 Overview architecture of the model
預測模型構(gòu)建的步驟如下:1)根據(jù)數(shù)據(jù)集DA建立原始PLS模型,并計算模型的決定系數(shù);2)從集合B中依次提取第i個波長μi加入集合A,得到更新的集合Ai={μi,λ1,λ2,···,λn},對應更新的建模光譜數(shù)據(jù)集,根據(jù)數(shù)據(jù)集建立PLS模型,并計算模型的決定系數(shù),而后將μi從集合Ai中刪除;3)由Step2中建立的各模型決定系數(shù)組成集合,取其中的最大值,此時對應加入集合A中的波長為μp(μp∈B);4)比較與的大小。若,則更新,將波長μp加入集合A并將其從集合B中剔除,更新集合A={μp,λ1,λ2,···,λn}、集合B={μ1,μ2,···,μp?1,μp+1,···μk},對應的建模光譜數(shù)據(jù)集更新為而后返回Step2繼續(xù)執(zhí)行,直至集合B為空。若,算法終止。
采用均方根誤差(ERMS)、決定系數(shù)(R2)和相對分析誤差(DRP)對模型性能進行評價,各指標的計算公式可分別表示為
式中:yi和分別表示第i個樣本點酸度的測量值和預測值,表示所有樣本點酸度的平均值,DS為標準差。一個性能良好且可靠的預測模型,其ERMS應盡可能低、R2盡可能接近于1、DRP盡可能高且需滿足DRP>1.4[20]。
使用搭建的光譜采集平臺獲取各蘋果樣本標記點區(qū)域的可見-近紅外漫反射光譜。采集前打開光源預熱30 min后使用標準漫反射白板進行校正。光譜采集使用OceanView軟件,積分時間設為30 ms,采集平均次數(shù)設為5。為減小光程差異的影響,采集過程中通過調(diào)節(jié)升降臺將光纖探頭與各采集點間的距離嚴格控制為2 cm。
由光譜儀采集的光譜波長范圍為346~1046 nm,其兩端存在較大噪聲,這些噪聲的加入會嚴重影響建模效果,因此將譜線兩端的噪聲剔除。選取波長范圍為475~925 nm的光譜用于建模,如圖3所示,圖中橫坐標為波長,縱坐標為反射率,該區(qū)域內(nèi)共有波長變量2335個。由圖3可見,在550~570 nm波長范圍內(nèi)有較為明顯的漫反射特征峰;同時,在650~680 nm、720~740 nm及840~860 nm范圍內(nèi)也存在特征峰。但由于“黃金帥”蘋果樣本酸度含量較低,使得這幾處的特征峰值較低。
圖3 樣本原始光譜Fig.3 Original spectra of the samples
在光譜采集與酸度測量階段,共得124條樣本數(shù)據(jù),剔除存在明顯異常的光譜和超量程的酸度數(shù)據(jù)后,保留110條樣本數(shù)據(jù),構(gòu)建樣本集。樣本集酸度的分布范圍為0.10%~0.68%。采用SPXY(Sample set partitioning based on joint x-y distance)方法[21]對樣本集按經(jīng)驗值進行劃分,使校正集與預測集樣本的比例為4:1,即校正與預測樣本數(shù)分別為88條和22條。
SPXY方法基于變量之間的歐式距離,在特征空間中均勻選取樣本。在逐步選擇過程中,樣本之間的距離dxy(i,j)可表示為
式中dx(i,j)和dy(i,j)分別代表以光譜為特征參數(shù)和以酸度為特征參數(shù)計算的樣本之間的距離,i,j∈(1,z),z為樣本數(shù)。為使樣本在光譜數(shù)據(jù)矩陣和酸度數(shù)據(jù)矩陣中具有相同的權(quán)重,分別除以他們各自的最大值進行標準化處理。
根據(jù)
將上述漫反射光譜轉(zhuǎn)換為吸光度光譜,后續(xù)實驗均以吸光度光譜進行計算。
光譜預處理旨在消除數(shù)據(jù)非相關(guān)信息和噪聲。常用方法有歸一化(NORM)、卷積平滑(SG)、多元散射校正(MSC)、標準正態(tài)變量變換(SNV)、小波變換(WDE)等[22?24]。為得到較優(yōu)的定量模型,有時需要組合使用多種預處理方法。其中,NORM操作可校正由微小光程差異引起的光譜變化;SG能夠消除光譜信號中疊加的隨機誤差以提高信噪比;MSC與SNV可以消除蘋果表面散射及光程變化對光譜數(shù)據(jù)的影響;WDE利于實現(xiàn)頻域函數(shù)與時域函數(shù)之間的轉(zhuǎn)換,在信號處理中有著較為廣泛的應用。此處對比了基于幾種預處理及其組合方法對光譜數(shù)據(jù)進行處理后,通過CARS法選取波長變量建立的PLS預測模型,對比結(jié)果如表1所示。
表1 基于不同預處理方法建立的預測模型結(jié)果Table 1 Results of prediction model based on different preprocessing methods
由表1可知:基于SG+WDE預處理方法建立的預測模型的精度最高,ERMS、R2與DRP值分別達到了0.0085、0.9873和8.8626,因此確定SG與WDE的組合方式為此處光譜數(shù)據(jù)的預處理方法。經(jīng)該方法預處理后的光譜如圖4所示,圖中橫坐標為波長,縱坐標為吸光度。
圖4 樣本預處理后光譜Fig.4 Preprocessed spectra of the samples
特征波長的選擇直接影響著預測模型的精度。本研究將所提出方法同SPA、CARS、CARS-SPA三種方法進行了比較,特征波長選擇結(jié)果分別如圖5(a)~(d)所示,圖中各個小黑框表示選取的特征波長對應的數(shù)據(jù)在整條光譜曲線上的分布情況。
由圖5可知,選取波長變量數(shù)目最多的是CARS法,最少的是SPA法,所提出方法介于兩者之間。在酸度特征峰的四個區(qū)域550~570 nm、650~680 nm、720~740 nm以及840~860 nm內(nèi),所提出方法均有選中特征變量,而SPA和CARS-SPA法在這些區(qū)域內(nèi)均未選中任何變量,這說明了所提出方法的優(yōu)越性。
圖5 特征波長選擇結(jié)果。(a)SPA;(b)CARS;(c)CARS-SPA;(d)所提出方法Fig.5 Resultsof wavelength selection methods.(a)SPA;(b)CARS;(c)CARS-SPA;(d)Proposed method
為進一步探究本研究提出的特征波長選擇方法選取的變量數(shù)目與所建預測模型精度的關(guān)系,選取R2為主要評價指標,并以變量數(shù)目為橫坐標,預測模型的決定系數(shù)R2為縱坐標,建立兩者之間的關(guān)系圖,如圖6所示。圖6直觀地展示出了兩者間的關(guān)系:隨著選取變量數(shù)目的增加,預測模型的精度不斷提高;當選取變量數(shù)目達到36項時,精度R2達到最大值0.9776;隨后預測模型精度隨變量數(shù)目的增多而逐步下降。因此確定了模型精度達最大值時的特征波長共36項。
圖6 預測模型精度與變量數(shù)目的關(guān)系Fig.6 Relationship between model accuracy and number of variables
根據(jù)本方法選取的36項波長變量建立預測模型,并與基于前述SPA、CARS、CARS-SPA三種方法選取的波長變量建立的預測模型相比較,各項指標如表2所示。
表2 基于不同波長變量選擇方法建立的預測模型結(jié)果Table 2 Results of prediction model based on different wavelength selection methods
綜合分析表2中的三項指標可知,基于SPA選取的波長變量數(shù)最少,但由此所建預測模型的各評價指標不理想;基于CARS所建預測模型的精度最高,但選取的變量數(shù)也最多;基于CARS-SPA所建預測模型綜合指標最低。所提出方法綜合考慮了建模變量數(shù)目及預測模型精度,實驗結(jié)果證實了其有效性。相比于SPA,本方法的精度與可靠性大幅提升,ERMS下降至0.0113%,R2和DRP分別由?0.6921和0.7688提升至0.9776和6.6812;相比于CARS,本方法的ERMS僅上升了0.0028%,R2僅下降了0.98%。在保證模型精度與可靠性的同時,選取的波長變量數(shù)目由129項顯著下降到36項,建模變量大幅減少,有效降低了模型的復雜程度,提高了運算速度。
基于所提出方法建立蘋果酸度預測模型,模型預測結(jié)果如圖7所示。由圖可知,模型具有較高的精度和可靠性,驗證了本方法的有效性。
圖7 基于所提出方法的蘋果酸度預測結(jié)果Fig.7 Prediction result of appleacidity based on the proposed method
Vis-NIRS檢測技術(shù)以快速無損的優(yōu)勢在水果內(nèi)部品質(zhì)檢測方面得到了廣泛應用。光譜特征波長的選擇直接影響預測模型的精度,為綜合考慮模型精度與建模變量數(shù)目,提出了一種逐次添加的競爭性特征波長篩選法,設計了基于偏最小二乘法的預測模型。首先使用SPXY方法對樣本集進行劃分,并以SG平滑結(jié)合小波變換對光譜數(shù)據(jù)進行預處理。在此基礎(chǔ)上使用所提出方法選擇光譜特征波長,建立PLS預測模型,與SPA、CARS、CARS-SPA法篩選特征波長后建立的模型相比較。實驗結(jié)果表明,當變量數(shù)目為36項時,PLS預測模型的決定系數(shù)達到最大值0.9776,證明了所提出方法的有效性。所提出方法大幅減少了建模變量數(shù),簡化了模型的復雜程度,并保證了檢測精度,對基于Vis-NIRS的水果品質(zhì)無損檢測具有指導意義。