陳爭光, 李 鑫, 范學佳
黑龍江八一農(nóng)墾大學信息技術(shù)學院, 黑龍江 大慶 163319
基于可見近紅外光譜分析技術(shù)的馬鈴薯品種鑒別方法
陳爭光, 李 鑫, 范學佳
黑龍江八一農(nóng)墾大學信息技術(shù)學院, 黑龍江 大慶 163319
基于可見-近紅外光譜分析技術(shù), 提出了一種快速鑒別馬鈴薯品種的方法。 以三種不同品種共計352個樣本的馬鈴薯作為主要研究對象, 隨機將其分為建模集(307個樣本)和預(yù)測集(45個樣本)。 對其中的建模集樣品進行可見-近紅外光譜分析, 將獲取的光譜圖像通過多元散射校正(MSC)和窗口大小為9的Savitzky-Golay(S-G)一階卷積求導方法預(yù)處理, 消除顆粒大小、 表面散射及光程變化對漫反射光譜影響, 降低原始光譜曲線的隨機噪聲影響。 然后用偏最小二乘法(PLS)對數(shù)據(jù)進行降維、 壓縮, 使用主成分分析方法(PCA)獲得的前4個主成分累計貢獻率達到96%以上, 并從前4個主成分圖譜中提取20個吸收峰作為輸入變量, 經(jīng)過試驗, 得到一個20(輸入)-12(隱含)-3(輸出)結(jié)構(gòu)的3層BP神經(jīng)網(wǎng)絡(luò)。 最后利用該模型對預(yù)測集樣本進行品種鑒別, 識別正確率達到100%。 此方法能較為快速、 準確地鑒別馬鈴薯的品種, 為馬鈴薯品質(zhì)檢測與鑒別提供了新思路。
可見-近紅外光譜; 馬鈴薯; BP神經(jīng)網(wǎng)絡(luò); 偏最小二乘; 品種鑒別
作為我國四大農(nóng)作物之一的馬鈴薯, 年產(chǎn)量近9 000萬噸, 僅黑龍江省馬鈴薯年產(chǎn)量達到700多萬噸。 從2015年起, 中國將啟動馬鈴薯主糧化戰(zhàn)略, 推進把馬鈴薯加工為主食, 因此馬鈴薯將成水稻、 小麥、 玉米外的又一主糧。 隨著雜交技術(shù)的不斷發(fā)展, 馬鈴薯的新品種也逐漸增多, 單從外表通過肉眼很難區(qū)分馬鈴薯的類別。 使用傳統(tǒng)的生化鑒別方法存在費時、 費力、 破壞樣本并存在化學污染等不足。 因此, 研究一種高效, 無損的鑒別方法顯得尤為重要。
人類發(fā)現(xiàn)近紅外光譜區(qū)已經(jīng)有200多年的歷史, 但是真正將近紅外光譜分析技術(shù)應(yīng)用于工農(nóng)業(yè)生產(chǎn)則是近幾十年的事。 光譜分析技術(shù)具有效率高、 速度快、 無損、 無污染等特點, 能夠利用測量所得的波段對物質(zhì)進行定性或定量分析, 已在食品、 藥品、 石油化工等諸多領(lǐng)域被廣泛應(yīng)用。 將光譜技術(shù)應(yīng)用于農(nóng)產(chǎn)品檢測方面, 國內(nèi)外學者利用近紅外光譜技術(shù)在農(nóng)產(chǎn)品(玉米、 谷物)品質(zhì)檢測方面進行了大量的研究, 將光譜技術(shù)應(yīng)用于馬鈴薯研究方面, 國內(nèi)外學者的研究興趣主要集中在使用光譜技術(shù)對某一品種單一組分(如淀粉[1]、 蛋白質(zhì)[2]、 還原糖等)或病理[3]的檢測。 將光譜技術(shù)應(yīng)用于農(nóng)產(chǎn)品類別識別方面, 國內(nèi)外研究較少, 周子立等[4]提出一種基于近紅外光譜技術(shù)的大米品種快速鑒別方法, 用可見光-近紅外光譜技術(shù)結(jié)合小波變換數(shù)據(jù)壓縮技術(shù)對來自三個不同地區(qū)的大米進行了分類研究, 取得了較好的效果。 牛曉穎等使用近紅外漫反射光譜對不同品種草莓進行無損鑒別的方法, 并分析了各品種草莓品質(zhì)指標的差異性。 將光譜技術(shù)應(yīng)用于馬鈴薯品種鑒別方面的報道尚不多見, 代芬等以近紅外熒光光譜和近紅外拉曼光譜作為檢測手段鑒別馬鈴薯品種, 比較兩種光譜的鑒別效果, 但研究中沒有考慮光譜散射對數(shù)據(jù)處理的影響。 因為即便是相同品種的馬鈴薯, 其物理性質(zhì)(大小、 形狀、 表面粗糙程度)仍有很大差異, 由此產(chǎn)生的散射光極易干擾到熒光光譜的效果, 從而導致靈敏度較低, 鑒別效果不明顯。 由于近紅外光譜波段信息量大、 光譜重疊, 馬鈴薯表皮情況復(fù)雜很難直接從原始光譜中提取有效信息, 若直接利用原始光譜進行分析建模, 所得模型的穩(wěn)定性差、 精度低, 影響分析結(jié)果。 本文利用光譜儀獲取馬鈴薯的可見-近紅外光譜數(shù)據(jù), 在對光譜曲線進行預(yù)處理基礎(chǔ)上采用偏最小二乘法對光譜進行降維、 數(shù)據(jù)壓縮和主成分提取, 用所得的主成分結(jié)合BP神經(jīng)網(wǎng)絡(luò)建模, 實現(xiàn)對馬鈴薯的品種鑒別。
1.1 儀器與軟件
使用的是美國ASD公司制造的FieldSpec UV/VNIR手持式可見-近紅外光譜儀, 光譜測定范圍為325~1 075 nm, 采樣間隔3 nm。 光源為兩個100 W白熾燈泡。 數(shù)據(jù)處理軟件為ViewSpecPro, The Unscrambler X 10.3和MATLAB R2013b。
1.2 樣品
從當?shù)剞r(nóng)貿(mào)市場購買三種常見的馬鈴薯各一袋, 分別為訥河馬鈴薯、 內(nèi)蒙黃瓤、 內(nèi)蒙白瓤(分別用A, B, C表示)。 選取的樣本數(shù)A為142, B為84, C為126, 共計352個樣本。 樣本隨機分成建模集和預(yù)測集, 建模集樣品數(shù)為307個, 預(yù)測集為45個(每個品種各隨機選擇15個樣本)。
1.3 光譜的獲取
儀器預(yù)熱30 min并進行優(yōu)化和白平衡后開始測量, 光源置于儀器兩側(cè), 儀器探頭與樣本垂直, 距離約2~3 cm, 如圖1所示。 實驗時, 每個樣本掃描32次取平均值作為樣本實驗數(shù)據(jù)。
圖1 實驗平臺
1.4 光譜預(yù)處理
光譜圖像主要反應(yīng)物質(zhì)的組成成分和成分含量, 因為受環(huán)境中多種因素(光照、 粒度、 密度、 表面紋理等)的干擾, 原始光譜曲線會產(chǎn)生基線漂移[5]并且含有噪聲, 由于光譜曲線中325~400 nm之間受噪聲影響嚴重, 因此研究范圍以400~1 075 nm為主。 為了消除光譜曲線中基線平移和偏移的影響, 采用多元散射校正(MSC)方法分別處理三個品種的馬鈴薯光譜, 增強光譜曲線與成分含量的相關(guān)性。 再用Savitzky-Golay一階卷積求導, 窗口尺寸為9[6]。 該處理流程避免了直接使用求導方法造成噪聲放大的弊端, 并且可以得到比原始光譜更高的分辨率和更清晰的波形變化, 有助于后期模型的建立, 提高模型的穩(wěn)定性和可靠性。
1.5 偏最小二乘與人工神經(jīng)網(wǎng)絡(luò)
使用偏最小二乘(partial least squares, PLS)對光譜進行降維時[7-8], 同時分解光譜矩陣(自變量矩陣X)和濃度矩陣(因變量矩陣Y), 并將濃度信息引入到光譜矩陣分解過程中, 在計算主成分之前, 交換光譜矩陣與濃度矩陣的得分, 從而使光譜主成分和該組分含量直接進行關(guān)聯(lián)。
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)具有很強的學習能力、 魯棒性、 自適應(yīng)性及高度非線性表達能力[9]。 ANN中最常用到的是BP(Back Propagation)神經(jīng)網(wǎng)絡(luò), 它是一種信息正傳遞, 誤差反向傳播的多層前饋網(wǎng)絡(luò), 信息通過輸入層、 隱含層到達輸出層, 如果輸出層沒有輸出期望值, 則計算誤差變化值并反向傳播, 網(wǎng)絡(luò)通過誤差信號自行更正各層神經(jīng)元的權(quán)值, 使輸出不斷逼近期望值。 利用訓練數(shù)據(jù)對構(gòu)建的網(wǎng)絡(luò)進行訓練, 通過網(wǎng)絡(luò)的自學習而產(chǎn)生預(yù)測能力, 從而實現(xiàn)預(yù)測集中的樣本分類。
2.1 馬鈴薯的可見-近紅外反射光譜
圖2所示為截取后的400~1 075 nm范圍內(nèi)三種馬鈴薯的典型可見-近紅外反射光譜曲線, 波譜的趨勢大致相同, 說明不同品種馬鈴薯組分基本相同, 曲線的差異主要是由于不同品種馬鈴薯主要成分含量差異所致, 各自的特征較為明顯。 利用PLS對預(yù)處理后的光譜進行分析, 對不同種類的馬鈴薯進行分類。
圖2 三種馬鈴薯的可見-近紅外光譜反射圖
2.2 偏最小二乘對馬鈴薯品種的聚類分析
圖3所示為通過對光譜進行多元散射校正和窗口寬度為9的S-G一階卷積求導預(yù)處理后的效果圖, 從圖中可以看出預(yù)處理之后的譜線有了明顯的變化, 不同品種之間的差異較圖2更加明顯, 為接下來的品種鑒別工作奠定了基礎(chǔ)。 用PLS對處理后的光譜數(shù)據(jù)進行分析, 在計算主成分時盡可能地保證方差最大, 更多地提取數(shù)據(jù)內(nèi)有效信息, 并且盡量利用光譜變量與濃度之間的線性關(guān)系與濃度最大程度地相關(guān)聯(lián)。 圖4所示為使用PLS處理之后, 以前3個主成分PC1, PC2, PC3作為坐標軸, 對建模集中的樣品進行聚類之后的效果, 聚類效果非常明顯。 通過觀察, 三個樣本分布在坐標的不同區(qū)域。 樣本B在三維坐標系的中心帶, 而樣本A和樣本C分居兩側(cè), 并且樣本各自的聚合度非常好, 沒有大幅度跨象限的現(xiàn)象。
圖3 預(yù)處理后的三種馬鈴薯光譜圖
圖4 馬鈴薯主成分(PC1, PC2, PC3)得分圖
2.3 基于BP神經(jīng)網(wǎng)絡(luò)馬鈴薯品種鑒別模型的建立
全譜數(shù)據(jù)中混雜著一些無效或干擾信息, 用全波段數(shù)據(jù)進行建模會影響模型的穩(wěn)定性、 精確度和運算速率。 挑選出有代表性的光譜特征數(shù)據(jù)進行模型建立能大大提高運算效率。 如圖5所示為全譜范圍的前4個主成分圖譜, 其累計貢獻率達到96%以上, 選取20處最能反應(yīng)光譜信息的吸收峰所對應(yīng)的波長作為光譜特征數(shù)據(jù)。 由于PC1和PC2累積貢獻率達86%, 包含了樣品中大部分特征信息, 因此選取這兩個主成分的全部吸收峰, 共計13個; 而PC3和PC4累積貢獻率為10%, 貢獻率相對較低, 其主成分會摻雜有噪聲, 因此選取這兩個主成分的顯著吸收峰, 共7個。 對選取的20個特征峰數(shù)據(jù)進行歸一化處理作為BP神經(jīng)網(wǎng)絡(luò)的輸入, 神經(jīng)網(wǎng)絡(luò)各層傳遞函數(shù)選用S型(Sigmoid)函數(shù), 學習速率設(shè)為0.1, 最大迭代次數(shù)為2 000, 通過調(diào)整隱含層節(jié)點數(shù)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu), 用試湊法反復(fù)測試, 最終得到的最佳網(wǎng)絡(luò)結(jié)構(gòu)為20(輸入)-12(隱含)-3(輸出)的3層BP神經(jīng)網(wǎng)絡(luò)模型, 通過訓練得出樣本正確分類百分比為99.15%, 平均絕對誤差為0.012。 對預(yù)測集的45個樣本進行分類, 預(yù)測準確率達到100%, 如表1所示。
圖5 全譜范圍的前四個主成分圖譜
序號真實值預(yù)測值序號真實值預(yù)測值序號真實值預(yù)測值1AA(99 78%)16BB(99 98%)31CC(99 91%)2AA(98 74%)17BB(98 68%)32CC(97 97%)3AA(99 97%)18BB(99 72%)33CC(98 91%)4AA(97 63%)19BB(96 98%)34CC(98 78%)5AA(99 96%)20BB(97 41%)35CC(99 90%)6AA(98 77%)21BB(98 93%)36CC(99 96%)7AA(99 73%)22BB(99 98%)37CC(98 13%)8AA(99 99%)23BB(99 94%)38CC(97 72%)9AA(99 58%)24BB(97 23%)39CC(98 64%)10AA(98 51%)25BB(97 82%)40CC(96 86%)11AA(97 26%)26BB(98 53%)41CC(98 89%)12AA(99 95%)27BB(99 51%)42CC(99 11%)13AA(99 99%)28BB(99 98%)43CC(97 81%)14AA(98 98%)29BB(99 98%)44CC(99 61%)15AA(99 79%)30BB(98 59%)45CC(99 58%)
運用可見-近紅外光譜分析技術(shù)結(jié)合BP神經(jīng)網(wǎng)絡(luò)建模對三種馬鈴薯樣本進行了品種鑒別。 采集三種馬鈴薯的反射光譜作為研究樣本, 經(jīng)過多元散射校正和S-G一階卷積求導后, 用PLS進行數(shù)據(jù)壓縮, 將前4個主成分的吸收峰作為輸入變量, 建立了20-12-3結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)模型, 對預(yù)測集樣本分類的正確率達到100%, 能夠高效、 準確地對馬鈴薯品種進行鑒別, 并且不損壞樣本結(jié)構(gòu), 克服了傳統(tǒng)方法檢測的弊端。 研究表明該方法可以用于馬鈴薯品種鑒別和分類, 可以作為有效手段加以推廣、 應(yīng)用。
[1] WU Chen, HE Jian-guo, LIU Gui-shan, et al(吳 晨, 何建國, 劉貴珊, 等). Food and Machinery(食品與機械), 2014, 30(4): 133.
[2] López, A, Arazuri S, Jarén C, et al. Procedia Technology, 2013, 8: 488.
[3] HUANG Tao, LI Xiao-yu, XU Meng-ling, et al(黃 濤, 李小昱, 徐夢玲, 等). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2015, 35(1): 198.
[4] ZHOU Zi-li, ZHANG Yu, HE Yong, et al(周子立, 張 瑜, 何 勇, 等). Transactions of the Chinese Society of Agricultural Engineering(農(nóng)業(yè)工程學報), 2009, 25(8): 131.
[5] NI Zhen, HU Chang-qin, FENG Fang(尼 珍, 胡昌勤, 馮 芳). Chinese Journal of Pharmaceutical Analysis(藥物分析雜志), 2008, 28(5): 824.
[6] LI Xin, CHEN Zheng-guang(李 鑫, 陳爭光). Heilongjiang Agricultural Sciences(黑龍江農(nóng)業(yè)科學), 2015, 2: 132.
[7] Alvarez Sánchez B, Priego Capote F, García Olmo J, et al. Journal of Chemometrics, 2013, 27(9): 221.
[8] Peerapattana J, Shinzawa H, Otsuka K, et al. Journal of Near Infrared Spectroscopy, 2013, 21(3): 195.
[9] Wang S, Zhang Z, Ning J, et al. Analytical Letters, 2013, 46(1): 184.
Method for the Discrimination of the Variety of Potatoes with Vis/NIR Spectroscopy
CHEN Zheng-guang, LI Xin, FAN Xue-jia
College of Information Technology, Heilongjiang Bayi Agricultural University, Daqing 163319, China
Potato (Solanum tuberosum L.) , as one of the most important carbohydrate food crops in the China ranking thefourth after rice, wheat and maize, plays a significant role in national economy. Since there are many varieties of potato, the quality such as physical sensory property and chemical components, differ drastically with the variety of potato. Different potato varieties are suitable for different utilization. Thus, the rapid and nondestructive identification of potato cultivars plays an important role in the better use of varieties. Near infrared (NIR) spectroscopy has raised a lot of interest in the classification and identification of agricultural products because it is a rapid and non-invasive analytical technique. In this study, a rapid visible (VIS) and near infrared (NIR) spectroscopic system was explored as a tool to measure the diffuse spectroscopy of three different species of potatoes. 352 potato samples (Sample A 142, Sample B 84, Sample C 126) from different sites in Heilongjiang province of China, obtained from peddlers market, were randomly divided into two sets at random: calibration set and prediction set, with 307 samples and 45 samples respectively for each set. The potatoes in the calibration set were tested with visible-near infrared spectroscopy method. The spectral data obtained from this test were analyzed with near infrared spectral technology, along with data processing algorithm, i.e., Savitzky-Golay (S-G) smoothing and multiplicative scatter correction (MSC). The spectra data was firstly transformed by multiplicative scatter correction (MSC) to compensate for additive and/or multiplicative effects. In order to reduce the noise components from a raw spectroscopic data set, Savitzky-Golay smoothing and differentiation filter method were introduced. It was proved that, with the soothing segment size of 9, many high frequency noises components can be eliminated. Based on the following analysis with principal component analysis (PCA), partial least square (PLS) regression and back propagation artificial neural network (BP-ANN), a near infrared discrimination model was established. The results obtained from the partial least squares (PLS) analysis showed a positive cumulate reliability of more than 96% for the first four components. The clustering effect was also getting better. After that, twenty absorption peaks extracted from the first four principal components were applied as BP neural network inputswhile a three layers BP neural network [20(input) - 12(implicit) - 3 (output)] was constructed, upon which the recognition accuracy of potato varieties for those Prediction Set samples reaches 100%. As a result, the model established in this study can rapidly and accurately identify potato varieties without any destruction, which provides a new way for potato quality detection and variety identification.
Vis-NIRS; Potato; BP neural network; Partial least squares (PLS); Discrimination
Jun. 1, 2015; accepted Nov. 28, 2015)
2015-06-01,
2015-11-28
高等學校博士學科點專項科研基金項目(20124105110004), 黑龍江省科技計劃項目(GA09B501-2)和黑龍江省教育廳科研項目(12521370)資助
陳爭光, 1973年生, 黑龍江八一農(nóng)墾大學信息技術(shù)學院副教授 e-mail: ruzee@sina.com
O433.4; S532
A
10.3964/j.issn.1000-0593(2016)08-2474-05