付建華, 周新奇, 劉輝軍, 林 敏*
(1. 中國計量學(xué)院 計量測試工程學(xué)院, 杭州 310018; 2. 聚光科技(杭州)股份有限公司, 杭州 310052)
基于稀疏主成分分析的近紅外光譜法鑒別黃花梨的成熟度
付建華1, 周新奇2, 劉輝軍1, 林 敏1*
(1. 中國計量學(xué)院 計量測試工程學(xué)院, 杭州 310018; 2. 聚光科技(杭州)股份有限公司, 杭州 310052)
從同一果園的12棵果樹上,在8月的4個不同日期各采集5個黃花梨樣品,共采集240個樣品。從每個樣品上采集光譜數(shù)據(jù)。通過稀疏主成分分析(SPCA)和主成分分析(PCA)提取光譜中與成熟度相關(guān)的特征并進行解析,結(jié)合人工神經(jīng)網(wǎng)絡(luò)(ANN)建立黃花梨成熟度的鑒別模型。從所得載荷向量圖可知:① SPCA能有效提取光譜中與成熟度有關(guān)的特征,其7個稀疏主成分分別反映了黃花梨的糖類物質(zhì)、水分、色素和硬度等信息;② SPCA-ANN的成熟度鑒別模型的預(yù)測總識別率為93.33%,高于PCA-ANN的鑒別模型的預(yù)測總識別率91.67%。
近紅外光譜法; 稀疏主成分分析; 黃花梨; 成熟度
水果采收期的成熟度決定了果實的貯藏品質(zhì)和口感[1-2],適宜的采收成熟度對提高水果的耐貯性和商品價值至關(guān)重要。目前,水果的成熟度鑒別主要依據(jù)觀察水果外觀變化及化學(xué)方法檢測內(nèi)部品質(zhì)變化,這些方法主觀性強,破壞水果、耗時費力、成本較高,無法實現(xiàn)水果成熟度的快速無損檢測。因此,研究一種快速無損技術(shù)對水果成熟度進行鑒別具有實際意義。
近年來,近紅外光譜技術(shù)已被應(yīng)用到水果的品質(zhì)檢測中,并取得了一些研究成果?,F(xiàn)有報道多集中在水果品質(zhì)的定量分析方面,如表面色澤[3]、可溶性固形物[4]、酸度[5]和硬度[6]等指標(biāo)。在水果成熟度定性鑒別方面的報道相對較少,文獻[7]中使用近紅外光譜技術(shù)結(jié)合簇類獨立軟模式法(SIMCA)對4類不同成熟度的杏進行鑒別,其識別率為87%;文獻[8]中根據(jù)可溶性固形物和酸度把不同成熟度的葡萄分為兩類,并使用可見-近紅外光譜結(jié)合偏最小二乘判別分析(PLSDA)對不同成熟度的葡萄進行鑒別,其識別率分別為89%,83%;文獻[9]中使用近紅外光譜技術(shù)分別結(jié)合馬氏距離判別分析、SIMCA和最小二乘支持向量機(LS-SVM)等3種方法對3類不同成熟度的李果實進行鑒別,其識別率分別為96.3%,87.04%,83.33%。
梨是日常生活中的主要水果之一,梨在成熟過程中,其水分、糖類物質(zhì)等內(nèi)部品質(zhì)和色素、硬度等外部形態(tài)都隨之變化,而這些變化與其成熟度密切相關(guān)[1]。本工作通過稀疏主成分分析(SPCA)和主成分分析(PCA)提取光譜中與成熟度相關(guān)的特征,分析其與樣品物理化學(xué)指標(biāo)的具體對應(yīng)關(guān)系,從而有效解析樣品光譜,并與人工神經(jīng)網(wǎng)絡(luò)(ANN)相結(jié)合建立了黃花梨成熟度的鑒別模型,以實現(xiàn)對未知樣本的快速無損鑒別。
1.1 儀器與試劑
Zeiss MCS600型單波束二極管陣列型光纖光譜儀,配直徑為35 mm的自制積分球漫反射附件;Aspect Plus光譜采集軟件;Matlab 7.11數(shù)據(jù)分析軟件。
1.2 儀器工作條件
光譜采集范圍為450~1 650 nm;掃描次數(shù)為5次;采集光譜3次;溫度為(25±1) ℃。
1.3 試驗方法
1.3.1 樣品的收集及處理
樣品采自某果園,選擇12棵果樹,分別于2013年8月9日、8月16日、8月23日和8月30日進行采摘,每次由有經(jīng)驗果農(nóng)從選定的上述果樹上各采摘5個黃花梨樣品,同一采摘期的60個黃花梨樣品成熟度相近,共采摘240個。采摘后,將黃花梨樣品的表皮擦拭干凈,置于室溫(25 ℃)下保存24 h。
1.3.2 光譜采集
試驗前儀器先預(yù)熱30 min,每個樣品沿赤道線間隔120°采集3條光譜,取其平均光譜為樣品光譜。
1.3.3 成熟度的確定
黃花梨在成熟過程中種子顏色由黃白色逐漸變?yōu)楹诤稚?把不同顏色的種子分為4個等級:種子黃白色的為0級;種子整個表面的1/3以下為黑褐色的為1級;種子整個表面的1/3~2/3為黑褐色的為2級;種子整個表面的2/3以上為黑褐色的為3級。定義各采收期種子的轉(zhuǎn)色指數(shù),按公式(1)計算:
種子轉(zhuǎn)色指數(shù)=
由公式(1)計算4次采收期種子的轉(zhuǎn)色指數(shù),定義種子轉(zhuǎn)色指數(shù)達到75%時對應(yīng)采收期的黃花梨為成熟[10],因此,成熟前2周對應(yīng)采收期的黃花梨為未成熟,成熟前1周對應(yīng)采收期的黃花梨為部分成熟,成熟后1周對應(yīng)采收期的黃花梨為過熟,見表1。
表1 黃花梨成熟度的定義Tab. 1 Definition of maturity for Huanghua pears
1.3.4 樣品集的劃分
將不同成熟度的黃花梨樣品以2∶1∶1的比例劃分為訓(xùn)練集、驗證集和預(yù)測集,參照Kennard-Stone算法[11]優(yōu)先挑選訓(xùn)練集樣品,再分別挑選驗證集樣品和預(yù)測集樣品,以保證樣品集的合理性和代表性,樣品集的劃分見表2。
表2 樣品集的劃分Tab. 2 Division of sample sets
1.3.5 數(shù)據(jù)處理
通過稀疏主成分分析和主成分分析對不同成熟度黃花梨的光譜進行特征提取并解析,結(jié)合人工神經(jīng)網(wǎng)絡(luò)建立黃花梨成熟度的鑒別模型。
稀疏主成分分析是在主成分分析的基礎(chǔ)上,通過引入懲罰函數(shù)把載荷向量中的部分元素置零,凸顯主成分中的主要部分,更能有效提取光譜中有效信息的特征提取方法。試驗采用文獻[12]中提出的基于“彈性網(wǎng)”懲罰結(jié)構(gòu)的稀疏主成分算法。算法的具體實現(xiàn)步驟如下:
1) 計算一般主成分的前K個主成分對應(yīng)的載荷向量(αj)。
2) 在給定A=(α1,…,αk)的情況下,利用最小角回歸算法解如下的“彈性網(wǎng)”回歸問題:
λ‖βj‖2+λ1,j‖
式中:βj為彈性網(wǎng)絡(luò)回歸系數(shù);X為光譜數(shù)據(jù);λ為l2范數(shù)的調(diào)節(jié)參數(shù);λ1,j為l1范數(shù)的調(diào)節(jié)參數(shù);T為轉(zhuǎn)置。
3) 對于給定的B=(β1,…,βk),計算XTXB=UDVT(U、D、V為變量)的奇異值分解(SVD),并且令A(yù)=UVT。
4) 重復(fù)步驟2),3)至收斂。
人工神經(jīng)網(wǎng)絡(luò)模型具有較強的自學(xué)習(xí)、自組織和自適應(yīng)能力,能夠?qū)崿F(xiàn)輸入與輸出之間的高度非線性映射。反向傳播(BP)神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),在光譜判別分析中具有廣泛應(yīng)用[13-14]。試驗采用3層BP神經(jīng)網(wǎng)絡(luò):輸入層、隱含層和輸出層,輸入層與隱含層、隱含層與輸出層之間的傳遞函數(shù)分別用Logsig函數(shù)和Purelin函數(shù),訓(xùn)練函數(shù)采用Trainlm,隱含層節(jié)點數(shù)為6,輸出層節(jié)點數(shù)為4,目標(biāo)誤差為1×10-8,設(shè)定訓(xùn)練迭代次數(shù)為1 000次。
2.1 不同成熟度黃花梨的光譜分析
不同成熟度黃花梨的漫反射平均光譜圖見圖1。
1-未成熟;2-部分成熟;3-成熟;4-過熟圖1 不同成熟度黃花梨的漫反射平均光譜圖Fig. 1 Average reflection spectra of Huanghua pears with different maturity
由圖1可知:未成熟黃花梨與過熟黃花梨的漫反射光譜差異較明顯,部分成熟黃花梨與成熟黃花梨的漫反射光譜重疊嚴(yán)重,相似度高,且不同成熟度的黃花梨在672.3,974.7,1 186,1 431.5 nm附近有明顯的吸收。672.3 nm處附近為葉綠素的吸收,而在974.7,1 186,1 431.5 nm處附近主要是水分和糖的吸收。
不同波長處黃花梨的漫反射平均光譜圖見圖2。
由圖2可知:由于在成熟過程中黃花梨果皮從青褐色逐漸變成黃褐色,葉綠素逐漸減少,故反射率呈增大趨勢,見圖2(a)。隨著黃花梨的成熟,果汁不斷增加,故反射率呈減小趨勢,見圖2(b)、(c)和(d)。為了探究不同成熟度對上述4個波長點處樣品反射率的影響,試驗采用統(tǒng)計產(chǎn)品與服務(wù)解決方案(SPSS)數(shù)據(jù)分析軟件中的方差分析(ANOVA)對不同成熟度下4個波長點處所有樣品的反射率進行了方差分析,結(jié)果表明不同成熟度下上述4個波長點處的反射率差異顯著(P≤0.01)。說明對不同成熟度黃花梨的光譜進行區(qū)分有意義。
2.2 主成分聚類分析
對不同成熟度的240個黃花梨光譜數(shù)據(jù)經(jīng)小波去噪、二階導(dǎo)數(shù)和歸一化后,進行主成分分析,可以得到不同成熟度黃花梨的主成分聚類效果圖,見圖3。
由圖3可知:未成熟黃花梨與過熟黃花梨區(qū)分顯著,部分成熟黃花梨與過熟黃花梨區(qū)分也顯著,但由于黃花梨果實中各成分含量分布的連續(xù)性,相鄰成熟度間的樣品聚集緊密,難以采用聚類的方法進行區(qū)分。
2.3 光譜特征提取與解析
對黃花梨光譜進行小波去噪、二階導(dǎo)數(shù)和歸一化處理后,再利用PCA和SPCA進行特征提取。主成分分析和稀疏主成分分析的載荷向量圖見圖4。
由圖4可知:主成分分析的載荷向量圖復(fù)雜,稀疏主成分分析的載荷向量圖簡單明了,能清楚地表達每個稀疏主成分所反映的信息,增強稀疏主成分的可解釋性。其中,第一稀疏主成分載荷向量對應(yīng)的波長為1 360~1 378 nm和1 454~1 456 nm,主要反映黃花梨中糖類物質(zhì)和水分的信息[15];第二稀疏主成分載荷向量對應(yīng)的波長為1 189~1 192 nm、1 265 nm和1 289~1307 nm,主要反映黃花梨中糖類物質(zhì)的信息[16];第三稀疏主成分載荷向量對應(yīng)的波長為544~568 nm和873~879 nm,主要反映黃花梨中色素和硬度的信息[6,17];第四稀疏主成分載荷向量對應(yīng)的波長為839~856 nm,主要反映黃花梨中硬度的信息[6];第五稀疏主成分載荷向量對應(yīng)的波長為1 221~1 237 nm和1 448 nm,主要反映黃花梨中糖類物質(zhì)和水分的信息[15-16];第六稀疏主成分載荷向量對應(yīng)的波長為915~935 nm,主要反映黃花梨中硬度的信息[6];第七稀疏主成分載荷向量對應(yīng)的波長為662~682 nm和703~706 nm,主要反映黃花梨中色素的信息[17]??梢?稀疏主成分分析能夠提取并解析黃花梨光譜中與成熟度相關(guān)的特征,包括水分、含糖量、色素及硬度等,體現(xiàn)了稀疏主成分分析在光譜解析中的優(yōu)勢,對黃花梨成熟度的鑒別具有指導(dǎo)意義。
(a) 640~720 nm (b) 940~1 040 nm
(c) 1 140~1 220 nm (d) 1 400~1 480 nm1-未成熟;2-部分成熟;3-成熟;4-過熟圖2 不同波長處黃花梨的漫反射平均光譜圖Fig. 2 Average reflection spectra of Huanghua pears at different wavelengths
圖3 主成分得分聚類圖Fig. 3 Scores scatter plot of PCA
2.4 基于BP神經(jīng)網(wǎng)絡(luò)的判別分析模型
為減小神經(jīng)網(wǎng)絡(luò)規(guī)模以縮短訓(xùn)練時間,分別以前7個稀疏主成分的得分和前7個主成分的得分作為輸入變量,輸出采用Compet函數(shù),即將具有最大輸出值的節(jié)點置1,剩余3個節(jié)點置0,分別定義輸出[1000]為未成熟、[0100]為部分成熟、[0010]為成熟和[0001]為過熟。為防止過度擬合現(xiàn)象,在模型的預(yù)測過程中,首先用驗證集對訓(xùn)練集的參數(shù)進行優(yōu)化,然后對預(yù)測集進行預(yù)測。不同鑒別模型下4組黃花梨樣品(每組15個)成熟度的預(yù)測結(jié)果見表3。
(a) 第一 (b) 第二
(c) 第三 (d) 第四
(e) 第五 (f) 第六 (g) 第七圖4 主成分分析和稀疏主成分分析的載荷向量圖Fig. 4 Loading vector diagrams of PCA and SPCA
模型不同成熟度的樣品數(shù)未成熟部分成熟成熟過熟識別率/%SPCA?ANN1320086.67015001000013286.6700015100PCA?ANN1410093.331140093.330113186.670101493.33
由表3可知:SPCA和PCA結(jié)合人工神經(jīng)網(wǎng)絡(luò)建立的黃花梨成熟度鑒別模型均具有較滿意的識別效果。其中,SPCA-ANN模型下不同成熟度黃花梨的預(yù)測總識別率(93.33%)優(yōu)于PCA-ANN模型下不同成熟度黃花梨的預(yù)測總識別率(91.67%)。在SPCA-ANN模型下,成熟與過熟的黃花梨更容易同未成熟與部分成熟的黃花梨區(qū)分開,其中部分成熟和過熟黃花梨的識別率均為100%,未成熟和成熟黃花梨的識別率均為86.67%,這可能是由于種子轉(zhuǎn)色指數(shù)與黃花梨的成熟度相關(guān),但單一參照種子轉(zhuǎn)色指數(shù)定義黃花梨成熟度與實際成熟度之間存在一定差異。
本工作利用SPCA和PCA結(jié)合ANN建立了黃花梨成熟度的快速無損鑒別模型。采用SPCA對近紅外光譜進行特征提取,能有效提取光譜中與成熟度相關(guān)的特征,其中第一、第二和第五稀疏主成分主要反映黃花梨中糖類物質(zhì)和水分的信息,第三、第四、第六和第七稀疏主成分主要反映黃花梨中色素和硬度的信息,這為近紅外光譜解析提供了新的方法;SPCA結(jié)合ANN建立的黃花梨成熟度鑒別模型優(yōu)于傳統(tǒng)的PCA結(jié)合ANN建立的黃花梨成熟度鑒別模型,其預(yù)測總識別率為93.33%,結(jié)果表明所建模型具有較好的精度。
[1] KADER A A. Fruit maturity, ripening and quality relationships[J]. Acta Horticulturae, 1999,485(27):203-208.
[2] 趙京獻,李聯(lián)地,杜子春,等.梨果采收期與果實品質(zhì)及耐貯性關(guān)系[J].林業(yè)科技開發(fā), 2014,28(2):25-29.
[3] 郝勇,孫旭東,潘圓媛,等.蒙特卡羅無信息變量消除方法用于近紅外光譜預(yù)測果品硬度和表面色澤的研究[J].光譜學(xué)與光譜分析, 2011,31(5):1225-1229.
[4] JIANG H, ZHU W X. Determination of pear internal quality attributes by Fourier transform near infrared (FT-NIR) spectroscopy and multivariate analysis[J]. Food Analytical Methods, 2013,6(2):569-577.
[5] 李東華,紀(jì)淑娟,重滕和明.南果梨糖、酸度近紅外光譜模型適用的貯藏期研究[J].農(nóng)業(yè)工程學(xué)報, 2009,25(4):270-275.
[6] 王加華,陳卓,李振茹,等.洋梨硬度的便攜式可見/近紅外漫透射檢測技術(shù)[J].農(nóng)業(yè)機械學(xué)報, 2010,41(11):129-133.
[7] BERARDINELLI A, CEVOLI C, SILAGHI F A, et al. FT-NIR spectroscopy for the quality characterization of apricots (Prunus armeniaca L.)[J]. Journal of Food Science, 2010,75(7):462-468.
[8] GUIDETTI R, BEGHI R, BO L. Evaluation of grape quality parameters by a simple Vis/NIR system[J]. Transactions of the Asabe, 2010,53(2):477-484.
[9] 牛曉穎,貢東軍,王艷偉,等.基于近紅外光譜和化學(xué)計量學(xué)的李果實成熟度鑒別方法研究[J].現(xiàn)代食品科技, 2014,30(12):230-234.
[10] 紀(jì)淑娟,李江闊,張鵬,等.不同采收期對南果梨常溫貨架貯藏品質(zhì)的影響[J].食品科學(xué), 2009,30(2):260-263.
[11] KENNARD R W, STONE L A . Computer aided design of experiments[J]. Technometrics, 1969,11(1):137-148.
[12] ZOU H, HASTIE T, TIBSHIRANI R. Sparse principal component analysis[J]. Journal of Computational and Graphical Statistics, 2004,15(2):2006-2025.
[13] 張初,劉飛,孔汶汶,等.利用近紅外高光譜圖像技術(shù)快速鑒別西瓜種子品種[J].農(nóng)業(yè)工程學(xué)報, 2013,29(20):270-277.
[14] 郭文川,王銘海,岳絨.基于近紅外漫反射光譜的損傷獼猴桃早期識別[J].農(nóng)業(yè)機械學(xué)報, 2013,44(2):142-146.
[16] LI J, HUANG W, CHEN L, et al. Variable selection in visible and near-infrared spectral analysis for noninvasive determination of soluble solids content of 'Ya' pear[J]. Food Analytical Methods, 2014,7(9):1891-1902.
[17] JAMSHIDI B, MINAEI S, MOHAJERANI E, et al. Reflectance Vis/NIR spectroscopy for nondestructive taste characterization of valencia oranges[J]. Computers and Electronics in Agriculture, 2012,85(5):64-69.
NIRS Identification of Maturity of Huanghua Pears with Sparse Principal Component Analysis
FU Jian-hua1, ZHOU Xin-qi2, LIU Hui-jun1, LIN Min1*
(1.CollegeofMetrologyandMeasurementEngineering,ChinaJiliangUniversity,Hangzhou310018,China;2.FocusedPhotonics(Hangzhou)Inc.,Hangzhou310052,China)
Five Huanghua pears were collected from each of 12 pear trees in a same fruit yard in each of 4 definite dates in August, giving totally 240 pear samples. Spectral data was collected with each sample. Characteristic informations related to maturity in spectra were extracted by SPCA and PCA, and explanations were made. Discriminant models for maturity of the Huanghua pears were built by SPCA and PCA in combination with artificial neural network (ANN). As shown in the loading vector diagrams, it was found that: ① SPCA was effective to extract specific characteristics related to maturity from the spectra. The seven sparse principle components were found to reflect separately informations about saccharides content, moisture content, pigmentation, hardness and so on of pears; ② Total recognition in prediction of maturity by models built by SPCA-ANN were attained to 93.33%, which is higher than 91.67% the total recognition attained by PCA-ANN.
NIRS; Sparse principal component analysis; Huanghua pears; Maturity
O657.33
A
1001-4020(2017)02-0146-06