王彥群,賈浩坤,范振岐
(1.華中農(nóng)業(yè)大學(xué)信息學(xué)院,武漢 430070;2.塔里木大學(xué)信息工程學(xué)院,阿拉爾 843300)
庫爾勒香梨在中國具有較好的聲譽,是新疆特色水果和地理標(biāo)志產(chǎn)品,已成為當(dāng)?shù)刂еa(chǎn)業(yè)之一[1-2]。
糖度,即含糖量,是庫爾勒香梨的主要內(nèi)部品質(zhì),因可溶性固形物含量中80%以上的成份是糖度,因此常以可溶性固形物含量反映糖度。傳統(tǒng)的糖度檢測方法是采用數(shù)字式糖度計[3-4]測量可溶性固形物含量,以此作為糖度值。但此方法是有損檢測,很難用于無損檢測儀及分級設(shè)備的研發(fā)中。因此,急需尋找糖度檢測的無損、簡捷方法,光譜分析技術(shù)便成為研究的熱點。
近紅外光譜分析技術(shù)是通過研究物質(zhì)對光的透射、反射、吸收的能力來確定特定成分含量的一種方法,是一種低成本、快速、高效的技術(shù),已廣泛用于農(nóng)產(chǎn)品品質(zhì)無損檢測。在蜜柑的糖度[5],鳳梨的水分、纖維素和糖度[6],甜瓜、蜜瓜、土豆、洋蔥等可溶性固形物含量(SSC)及干物質(zhì)含量(DMC)[7],獼猴桃可溶性固形物和酸度[8],蘋果糖度[9],草莓中維生素C[10],臍橙可溶性固形物[11],芒果的糖度[12]等檢測方面得到較好應(yīng)用。關(guān)于梨的品質(zhì)研究方面,有梨表面色澤[13]、梨酸度[14]、砂梨的糖度[15]、南國梨的可溶性固形物[16]、翠冠梨可溶性固形物含量[17]以及梨堅實度[18]等方面的研究。
庫爾勒香梨皮薄多汁的屬性為無損檢測技術(shù)的應(yīng)用提供了很好的條件。將振動頻譜技術(shù)[2]、介電譜技術(shù)[3,19-20]、可見/近紅外光譜技術(shù)[4]、高光譜技術(shù)[21]分別用于無損檢測庫爾勒香梨的可溶性固形物含量和硬度,并取得了較好的預(yù)測效果。
總之,有關(guān)庫爾勒香梨果實品質(zhì)的研究相對較少。利用近紅外光譜技術(shù)進(jìn)行庫爾勒香梨糖度的檢測更是少見??紤]水果品種的差異性,糖分在不同水果中的光譜響應(yīng)不盡相同。需要綜合系統(tǒng)地比較各種近紅外光譜變量篩選方法和建模理論在庫爾勒香梨糖度預(yù)測中的性能,從而獲取適用于庫爾勒香梨糖分定量分析的近紅外光譜的最佳建模理論。
本研究以成熟庫爾勒香梨含糖量為研究指標(biāo),采集波段范圍介于900~1700 nm之間的樣本數(shù)據(jù),對原始光譜選擇合適的預(yù)處理方法,篩選特征波段,通過偏最小二乘法和支持向量機等方法分別建立香梨含糖量的檢測模型,并針對模型的優(yōu)劣進(jìn)行比較,從而建立適用于庫爾勒香梨含糖量檢測的近紅外光譜模型。
選取350個品質(zhì)優(yōu)良的庫爾勒香梨作為實驗樣本。對樣本清洗并依次編號后放在室溫中24小時以消除溫度對建模的影響。采集光譜數(shù)據(jù)前,在樣本赤道部位每隔120o進(jìn)行標(biāo)記,每個樣本標(biāo)記3個采樣區(qū)。
采用Micro NIR 1700便攜式光譜儀,掃描獲得樣本吸光度的原始光譜,采集每個樣本的3次近紅外光譜數(shù)據(jù),取平均值作為實驗數(shù)據(jù)。重復(fù)此操作,直到采集完全部樣品的光譜圖像,掃描的光譜數(shù)據(jù)以Excel表格的形式導(dǎo)出。
然后,在樣品的3個標(biāo)記區(qū)各切取一塊帶皮的果肉,壓汁并過濾后,用糖度計進(jìn)行測量,記錄3個糖度值,取平均值作為糖度參考值。依次獲取350個樣本的糖度值。
通過四種方法對原始光譜數(shù)據(jù)進(jìn)行處理與分析,分別采用標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate transformation,SNV)、多元散射校正(multiplicative scatter correction,MSC)、一階差分、二階差分方法對光譜數(shù)據(jù)進(jìn)行處理。
從復(fù)雜信息中提取具有代表性的信息建模,需對樣本進(jìn)行選擇,最常用的方法是基于歐式距離和濃度的樣本選擇方法(sample set partitioning based on joint x-y distance,簡稱SPXY)。本實驗使用SPXY算法將樣本按4∶1進(jìn)行劃分,80%構(gòu)成定標(biāo)集,20%構(gòu)成預(yù)測集。將樣本的光譜數(shù)據(jù)建模為數(shù)據(jù)向量,吸光度作為特征值。
原始光譜數(shù)據(jù)中存在大量的噪聲及冗余信息,不利于數(shù)據(jù)的建模。需要選取具有一定代表性的特征波長,使模型簡化且具有較強的預(yù)測能力和穩(wěn)健性。本研究利用相關(guān)系數(shù)法對光譜數(shù)據(jù)進(jìn)行降維,篩選出相關(guān)性異常顯著的特征波長用于建模。
使用多元線性回歸、偏最小二乘法(partial least squares,PLS)、支持向量機(support vector machine,SVM)等方法建立模型,采用相關(guān)系數(shù)r、精度(precision)、均方根誤差(root mean square error,RMSE)等參數(shù)來評價模型的優(yōu)劣。相關(guān)系數(shù)越接近1,說明預(yù)測結(jié)果越好;均方根誤差越小,說明預(yù)測結(jié)果越準(zhǔn)確;預(yù)測精度越接近1,說明精確度越高。
綜上所述,基于近紅外光譜的庫爾勒香梨含糖量檢測技術(shù)的主要流程如圖1所示。
由香梨糖度測定結(jié)果可知,糖度最大值為16.58,最小值為11.02,平均值為13.60,標(biāo)準(zhǔn)偏差為1.14。
圖2為原始光譜數(shù)據(jù),從圖2可以看出存在大量噪聲和散射基線漂移,因此需要對原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。利用一階差分、二階差分、SNV、MSC四種方法處理,并進(jìn)行比較分析,得出最優(yōu)處理方法。如圖3所示,經(jīng)過MSC預(yù)處理后的光譜有效地去除了噪聲、散射等影響,光譜特征增強。
糖類物質(zhì)主要含O-H、C-H基團(tuán),游離O-H基團(tuán)對應(yīng)的近紅外光譜吸收波段為960~980 nm、1360~1390 nm、1400~1420 nm;結(jié)合O-H基團(tuán)對應(yīng)波段為1000~1130 nm;CH2及CH3基團(tuán)對應(yīng)波段為1150~1220 nm、1410~1450 nm。利用相關(guān)系數(shù)法對光譜數(shù)據(jù)進(jìn)行處理,根據(jù)圖4的極值點選取出十二個特征波長,分別為914 nm、933 nm、951 nm、970 nm、976 nm、1001 nm、1131 nm、1150 nm、1397 nm、1404 nm、1416 nm和1540 nm,這些特征波長幾乎都與糖類物質(zhì)近紅外光譜敏感基團(tuán)對應(yīng),可用于后續(xù)模型的建立。
采用三種方法對特征譜段進(jìn)行建模,預(yù)測結(jié)果如表1所示。
表1 不同模型下的預(yù)測結(jié)果
從表1可以看出,PLS模型均方根誤差最小,相關(guān)系數(shù)最大,預(yù)測準(zhǔn)確度也最高(達(dá)到0.9887),而線性回歸模型次之。SVM建模方法的效果不太理想,可能受樣本數(shù)量的影響??傊琍LS模型各方面均優(yōu)于其它兩種預(yù)測模型,可用于構(gòu)建香梨糖分含量的預(yù)測模型。
通過一階差分、二階差分、SNV、MSC預(yù)處理方法對原始光譜進(jìn)行預(yù)處理分析,結(jié)果表明,MSC方法更適合于香梨近紅外光譜數(shù)據(jù)的預(yù)處理。
使用相關(guān)系數(shù)法提取12個特征波長變量,通過線性回歸、PLS和SVM方法分別建立香梨含糖量的檢測模型,預(yù)測結(jié)果表明,PLS模型均方根誤差為0.5457,預(yù)測精度為0.9918,相關(guān)系數(shù)為0.5802,均優(yōu)于另外兩種預(yù)測模型。MSC+PLS處理方法可用于庫爾勒香梨含糖量快速無損檢測,這可為進(jìn)一步研究庫爾勒香梨含糖量的便攜式檢測裝置提供理論參考。