李興鵬,姜洪喆,蔣雪松,顧海洋,周宏平
(南京林業(yè)大學 機械電子工程學院,江蘇 南京,210037)
近年來,我國林業(yè)產業(yè)發(fā)展迅速,2019年行業(yè)產值達7.56萬億,其中,全國經濟林面積超過4億公頃、產能達2億t、產值在2萬億元以上[1],其產生的經濟效益在打贏脫貧攻堅戰(zhàn)、促進鄉(xiāng)村振興等方面起到了積極的作用。其中木本糧油類經濟林果具有營養(yǎng)價值高、多樣化特色明顯等特點,未來市場前景廣闊。當前,果農過分追求退耕還林的規(guī)模及林果產量,忽視了林果品質把控,相應的品質檢測標準與方法也有待完善,這既不利于同類產品的國內競爭,也不利于出口貿易。常見的木本糧油類林果主要包括板栗、核桃、油茶、油桐、榛子、腰果等,此類林果果殼厚而硬,如果選擇傳統(tǒng)的人工感官品質評價和化學試驗測定,需逐一去除果殼,去殼對林果造成破壞的同時也增加了檢測的勞動強度。此外,人工品質評價受主觀經驗影響,導致效率低、精度差;化學試驗檢測步驟繁瑣、耗時長,同時需要大量揮發(fā)性溶劑,危害檢測人員健康[2]。相較于傳統(tǒng)檢測,近紅外光譜及高光譜成像技術在糧油類林果品質檢測領域具有快速、無損、安全和便于實現在線檢測的優(yōu)點,在品質快檢中具有優(yōu)勢。
近紅外光譜區(qū)介于可見光區(qū)與中紅外光區(qū)之間,波長范圍為780~2 526 nm,為人們最早認識的非可見光區(qū)域,該譜區(qū)包含的光譜信息主要是含氫基團振動的倍頻與合頻特征信息。有機分子一般都包含C—H、O—H、N—H、S—H等化學鍵,通過合頻與倍頻振動的不同組合形成的振動信息構成了有機分子含氫基團的主要結構信息[3]。同時,不同譜區(qū)近紅外光的反射與透射特性不同,這使近紅外光譜技術可以采用透射、漫透射、漫反射等多種測量方式獲取光譜,通過這些方式的結合使近紅外光譜承載被測樣本的有機化合物結構和組成等相關信息,再結合化學計量學和機器學習建模等分析方法,可以實現品質安全指標的定性分類和定量預測。從20世紀50年代末誕生至今,近紅外光譜技術日趨成熟,現階段已被廣泛應用于農業(yè)、食品、石化和制藥等領域[4]。
高光譜成像技術是20世紀80年代從遙感圖像技術發(fā)展而來,它將光學、電子學、圖像處理、計算機等學科的技術融合在一起,是將傳統(tǒng)的二維圖像信息和光譜信息有機融合的一項新興技術[5]。高光譜圖像數據是三維的,由連續(xù)光譜波段處的光學圖像數據組成數據塊。因此,高光譜圖像數據不僅包括樣品的二維空間信息(x,y),還具有隨波長分布的每個像素點的光譜信息(λ),最終由光譜技術與成像技術二者融合形成立方體數據(x,y,λ),如圖1所示。
圖1 高光譜成像技術立方體示意圖Fig.1 Schematic diagram of hyperspectral imaging technology
林果的品質包括外部品質、內部品質和安全品質[6]。外部品質主要依據顏色、形狀、尺寸、紋理等物理特征和外部缺陷進行評估[7],內部品質主要取決于營養(yǎng)組分和成熟度,安全品質主要通過對各種病害、品質劣變、細菌感染和農藥殘留進行檢測評估[8]。目前我國木本糧油類林果處于高產期,果農過分追求退耕還林的規(guī)模效應,商人追求利益最大化,導致市場品質良莠不齊,區(qū)域品質參差不一,如核桃生產中出現“采青”現象,在核桃未充分成熟時青采,癟仁、果仁風味變淡現象突出;2014年經多家衛(wèi)視報道的“堅果漂白”事件,黑商販用二氧化硫漂白加香,霉變林果光鮮上市;2019年的“堅果走私案”,走私團伙從世界各地甚至疫區(qū)國家收購廉價糧油林果,在銷售環(huán)節(jié)將發(fā)霉林果簡單處理后繼續(xù)售賣。這些不法行為嚴重危害消費者的健康和利益,阻礙行業(yè)的良性發(fā)展。面對如此嚴峻的食品安全形勢,加大宣傳力度、完善法律法規(guī)的同時,研究新型檢測方法是從源頭上控制林果品質的當務之急。
目前已有NICOLA等[9]、于宏威等[2]、彭彥昆等[10]等綜述了近紅外和高光譜技術在漿果、蔬菜、肉、谷物方面品質檢測的應用進展,但對木本糧油類林果品質快檢缺乏全面的認識。本文以木本糧油林果為對象,從營養(yǎng)物質含量預測、產地溯源與品種鑒別、霉變與缺陷判別三類林果品質檢測常見指標進行論述。
木本糧油類林果富含水、粗脂肪、蛋白質、總糖、膳食纖維等營養(yǎng)物質,為滿足國民營養(yǎng)精細化、標準化的品質需求,需對其營養(yǎng)含量進行檢測。傳統(tǒng)的營養(yǎng)物質檢測以化學分析測定居多,但實驗具有破壞性、步驟繁瑣、耗時長的劣勢,并且用到的試劑危害檢測人員健康,如索式提取法測定粗脂肪的抽提試劑無水乙醚,酶水解法測定淀粉的防腐試劑甲苯等;而近紅外和高光譜成像技術具有綠色、安全等優(yōu)勢,已經在林果檢測中得到廣泛應用。YI等[11]選擇范圍在570~1 840 nm波段內的可見近紅外反射光譜對核桃營養(yǎng)成分進行了預測,其中水、蛋白質、脂肪的決定系數(R2)分別為0.952、0.977和0.990,預測均方根誤差(root mean square error of prediction, RMSEP)分別為0.058、0.182和0.191,相對分析誤差(relative percent deviation,RPD)分別為4.14、5.55 和8.64。雖然NICOLA等[9]、RITTHIRUANGDEJ等[12]對RPD的評判標準有爭議,但學術界的共識是若R2>0.95、RPD>4,可以認為校正模型建模非常成功[13]。蔣大鵬等[14]用凱氏定氮法測出松子樣品中的蛋白質含量,并根據蛋白質含量水平將松子劃分為四等,基于近紅外光譜與支持向量機進行分類建模,運用Grid Search搜索徑向基函數中最優(yōu)徑向基gamma和懲罰系數c,獲得支持向量機模型的精確率和召回率分別為82.3%、85.2%,相關研究結果總結見表1。
表1 近紅外光譜用于木本糧油類林果營養(yǎng)組分預測的相關研究Table 1 Study on prediction of nutritional components of woody grain and oil fruits by near infrared spectroscopy
當林果的其他品質指標與營養(yǎng)含量有相關性時,也可利用近紅外光譜進行間接檢測,如成熟度高的板栗淀粉含量高,水分較少;成熟度低的板栗養(yǎng)分積累少,水分含量高[23-24]。周軒明[25]利用近紅外光譜技術,對不同成熟度板栗的水分、淀粉和脂肪進行定量分析,最終得出以水和淀粉為指標用近紅外技術檢測板栗成熟度是可行的。
在進行營養(yǎng)含量的預測時,多數情況下樣品的營養(yǎng)物質在空間上表現為不均勻的分布特性,使用近紅外的光譜儀僅僅能夠以聚焦的鏡頭掃描樣品或者獲得整個樣品的平均特性,這種光譜和空間信息不可兼得的局限性促使高光譜成像技術應運而生。章林忠等[26]和丁玲玲[27]采集了波段為908~1 735 nm的板栗高光譜圖像,選取6個分辨率高且大小為50×50=2 500 像素的區(qū)域作為感興趣區(qū)域(region of interest,ROI),采用MSC+二階導數+SG平滑校正方法處理,預測總糖和淀粉含量相關系數在0.9以上,且RMSEP在0~0.3,預測結果的可信度較高。但相關學者在林果檢測方面并沒有充分發(fā)揮高光譜成像技術高分辨、多維度的優(yōu)勢,鮮有利用偽色彩圖像技術進行含量空間分布可視化的嘗試,僅有油茶籽含油率預測值的可視化研究(圖2)[28],而在肥桃成熟度[29]、紅棗水分[30]、大米蛋白質[31]等檢測領域已經實現分布可視化的應用。
圖2 油茶籽含油率分布可視化[28]Fig.2 Visualization of oil content distribution of camellia oleifera seed[28]
木本糧油類林果產地或品種不同,組分含量也不同,如南方板栗果肉偏粳富含淀粉,北方板栗果肉偏糯富含糖和蛋白質,只有加以區(qū)分才能“因材施教”,實現物盡其用。此外林果品種或產地不同,價格也高低不等,這為摻雜提供了經濟誘因。目前應用的溯源和鑒別技術主要有穩(wěn)定同位素比率質譜[32]、電感耦合等離子質譜[33]、原子光譜、核磁共振、毛細管電泳、電子鼻等。近紅外和高光譜成像技術憑借其快速、無損、便捷等優(yōu)勢成為產地溯源和品種鑒別中一個重要的分支。
MANFREDI等[34]利用便攜式紅外光譜儀結合多元統(tǒng)計分析對榛子品種進行分類,比較了偏最小二乘和向后消去偏最小二乘(backward elimination partial least square,BE-PLS)2種不同的光譜降維方法,其中向后消去偏最小二乘線性判別(backward elimination partial least square discriminant analysis, BE-PLS-DA)分類模型的交叉驗證準確率最高,達98.18%。MOSCETTI等[35]利用k-最近鄰、簇類獨立軟模式(soft independent modeling of class analogy,SIMCA)、偏最小二乘判別分析(partial least square discriminant analysis,PLS-DA)和支持向量機判別分析(support vector machine discriminant analysis,SVM-DA)來鑒別意大利榛子,其中SVM-DA和PLS-DA的識別效果較好,分類準確率大于95%。CARVALHO等[36]將遺傳算法(genetic algorithm,GA)與線性判別分析(linear discriminant analysis,LDA)結合對不同品種夏威夷果進行分類,其中Keaudo品種在平滑和多元散射校正預處理下所建模型的敏感性和特異性分別為91.67%和95.56%,說明該模型可以正確分類夏威夷果。ARNDT等[37]收集了17年到19年的212份核桃樣本,采用50 545種不同的預處理組合對數據進行優(yōu)化,然后利用LDA進行嵌套交叉驗證,獲得的7種核桃總識別精度為(77%±1.60)%的結果。丁玲玲[27]利用高光譜成像技術對泰栗一號、沂蒙短枝和舒城小栗3種板栗進行定性分析,判別分析的識別正確率為96.7%。
綜上所述,近紅外和高光譜成像技術分類準確率較高,可用于產地的溯源和品種的鑒別。為提高分類模型的準確性和魯棒性,上述學者研究重點集中于模式識別方法的選取,但林果屬于天然樣品,樣品大小不一,表面凹凸不平,需考慮其顆粒度、粗糙度、厚度、松緊度等對準確性的影響。ARNDT等[38]指出研磨后的杏仁樣品產地分類準確性更好,但林果的終端產品在保證分類準確的前提下還需保證其完整度,因此,樣本制備方式的優(yōu)劣尤為關鍵,這決定了近紅外或高光譜定性分析技術能否實際應用于林果品質的在線檢測,有望成為下一階段的研究重點。
林果在采收、運輸、加工、貯存、銷售等環(huán)節(jié)均易受到霉菌侵染,而木本糧油林果屬于高脂肪類食物,如果發(fā)生霉變和酸敗,還會產生不良的氣味和味道,降低營養(yǎng)價值的同時還帶來了生物毒素風險,如黃曲霉素致癌、赫曲霉素致畸等。目前,已有學者運用機器視覺對核桃[39-41]、板栗[42]等表面霉變缺陷進行識別,但對霉變引起的內部成分變化進行準確識別還需利用近紅外或高光譜技術。
蔣大鵬[43]利用高斯核函數模型進行霉變松子的分類,同時提高了近紅外漫反射模型與化學成分間的相關性,分類準確率已經達到了95.8%。馬曉晨[44]比較主成分判別分析、SIMCA和LDA對霉變板栗分類建模精度的影響;HU等[45]同樣比較了3種分類方法的精度,得出LDA的分類精度最優(yōu),校正集和驗證集預測準確度分別為100%和96.37%。周竹等[46]將GA與最小二乘支持向量機相結合對霉變板栗進行分類,優(yōu)選后的模型分類精度達93.56%。FENG等[47]和袁康培等[48]通過設置合理的閾值提取整個板栗為ROI,結合人工神經網絡,分類精度高達99.43%。KALKAN等[49]利用局部判別基提取12個光譜特征,對感染黃曲霉素的榛子進行剔除,分類后的黃曲霉毒素水平從608 ppb下降到0.84 ppb。
在進行霉變定性分類時,大部分學者通過有監(jiān)督的模式識別進行定性分析,因為林果屬于自然產物,生物構成復雜,組間差異不明顯,導致近紅外光譜特征復雜、重疊,只有通過有監(jiān)督方式的特征提取才能得到更有針對和有效的信息。
此外蟲蛀果和脂質氧化果等均屬缺陷果,為保證林果品質的一致性均需借助近紅外或高光譜成像技術予以剔除。MOSCETTI等[50]采用InGaAs陣列的“手持式”光譜儀采集蟲蛀板栗果尖、果徑及果殼凸側部位的光譜,利用受試者工作特征曲線下方的面積值評估出的特征波長為1 582、1 900和1 964 nm,分類的假陰性率、假陽性率和總錯誤率分別為16.81%、0%和8.41%,滿足蟲蛀果剔除的邊界值。
糧油類林果中的不飽和脂肪酸受到氧氣、溫度和光等因素影響生成脂肪酸和甘油,游離脂肪酸再經過斷裂、分解和氧化過程形成初級氧化產物過氧化物,過氧化氫可分解為醛類、醇類、酮類等次生產物,這些次生代謝物通常是揮發(fā)性物質[51],會導致糧油類林果產生異味,影響林果貯藏期與貨架期的品質,因此,需對脂質氧化程度進行檢測。PANNICO等[52]選取k232(232 nm處的比消光系數)作為評價榛子脂質氧化程度的變量,采集的近紅外光譜預測k232的決定系數為0.85。CANNEDDU等[53]采用近紅外光譜成功預測澳洲堅果脂質氧化的過氧化值和酸度指數,其R2分別為0.72、0.8,RMSEP分別為3.45 meq/kg、0.14%。以上研究數據表明近紅外光譜技術在評估林果脂質氧化方面具有良好的潛力。相比之下,國內以林果為對象,利用光譜技術檢測其脂質氧化的研究尚屬空白,檢測對象多集中于肉制品[54]和食用油[55],將近紅外或高光譜技術應用于林果的脂質氧化評估有望成為未來的研究熱點。
近紅外和高光譜技術在林果方面的研究主要集中在漿果,已經形成了相應的體系并建成了便捷光譜儀以及在線檢測裝置,而糧油類林果的相關研究較少,多數研究集中于板栗與核桃,拓寬糧油類林果的研究類目并完善其近紅外光譜數據庫是未來的研究趨勢。
現有的大部分研究仍然集中于近紅外光譜,高光譜成像技術的應用較少。一方面高光譜成像設備費用高昂,門檻較高,另一方面高光譜成像采集的數據量大,圖譜解析時間較長。今后研究重點可以集中在特征波段的選取、建模算法效率的考量以及低成本高光譜檢測設備的研發(fā)。
當前有部分學者結合高光譜成像技術來研究木本糧油類林果,但沒有充分利用高光譜成像技術,僅利用閾值分割裁剪出樣品光譜區(qū)域取其平均光譜,沒有利用空間像素坐標實現可視化。未來需擴大林果樣本測試空間的廣度,減小樣本組織分布不均勻的影響,并利用偽圖像編碼技術實現品質分布可視化,以期提高品質檢測的可靠性和直觀性。
目前研究所建的定性或定量校正模型缺乏傳遞性,如環(huán)境溫度變化、樣品形態(tài)改變、儀器老化、附件更換等均會導致模型預測出現偏差,不利于模型重復利用和共享。解決以上模型通用性的問題,在建模時首先需要考慮樣品的代表性,其次,選取一些基于模型的新遷移學習算法或基于特征的新學習算法等,通過同型號儀器的不同批次樣品或同批次樣品的不同型號儀器之間的比較研究,評估模型傳遞的效果。