俞儲(chǔ)澤,翁定康,曹爍森,孫 通
(浙江農(nóng)林大學(xué)光機(jī)電工程學(xué)院 杭州 311300)
山核桃(Carya cathayensis Sarg)是胡桃科山核桃屬喬木植物,有18 個(gè)種、3 個(gè)變種,廣泛分布在亞洲、歐洲和美洲,其果實(shí)是我國(guó)著名干果[1-2]。在我國(guó),浙江臨安和安徽寧國(guó)是山核桃主產(chǎn)區(qū),年產(chǎn)量接近全國(guó)的90%[2-3]。山核桃品質(zhì)優(yōu)良,果仁中含有豐富的蛋白質(zhì)、脂肪和多種微量元素,營(yíng)養(yǎng)價(jià)值高,深受人們的喜愛[4]。在山核桃生長(zhǎng)過程中,有部分果實(shí)沒有果仁或者果仁發(fā)育受阻,這種現(xiàn)象被稱為“空苞現(xiàn)象”,引起“空苞”的原因包括環(huán)境不適、授粉不良、營(yíng)養(yǎng)缺乏和結(jié)果過多等[5]。根據(jù)GB/T 24307-2009《山核桃產(chǎn)品質(zhì)量等級(jí)》,癟籽率和半籽粒率≤1%且無空籽為特級(jí)山核桃,癟籽率和半籽粒率≤2%且無空籽為一級(jí)山核桃,癟籽率和半籽粒率≤3%且無空籽為二級(jí)山核桃。"空苞"現(xiàn)象的發(fā)生嚴(yán)重影響山核桃產(chǎn)品的品質(zhì)。有效剔除空苞山核桃,將有利于提升山核桃的整體品質(zhì)和提高其市場(chǎng)售價(jià),保障種植戶的收益,最終促進(jìn)山核桃產(chǎn)業(yè)的健康發(fā)展。因此,非常有必要對(duì)空苞山核桃進(jìn)行快速、無損、準(zhǔn)確識(shí)別。
近紅外光是波長(zhǎng)在780~2 526 nm 范圍的電磁波,當(dāng)近紅外光照射有機(jī)物樣品時(shí),會(huì)使樣品分子從基態(tài)躍遷到激發(fā)態(tài),從而產(chǎn)生近紅外光譜[6]。近紅外光譜主要反映有機(jī)物含氫基團(tuán)(C-H、NH、O-H 等)的倍頻與合頻吸收信息[7]。在不同的分子結(jié)構(gòu)中,同一基團(tuán)或不同基團(tuán)的近紅外吸收峰位置與強(qiáng)度均有所差別,因此近紅外光譜可以反映有機(jī)物分子結(jié)構(gòu)與含量等信息[8]。因快速、無損、穩(wěn)定等優(yōu)點(diǎn),近紅外光譜廣泛應(yīng)用于蔬菜、水果、肉類等農(nóng)產(chǎn)品的品質(zhì)檢測(cè)與分級(jí)[9-12]。近年來,近紅外光譜分析技術(shù)也被應(yīng)用在堅(jiān)果內(nèi)部缺陷檢測(cè)方面。蔣大鵬等[13]采用近紅外光譜技術(shù)對(duì)正常和霉變松子進(jìn)行檢測(cè),所建立的分類模型的準(zhǔn)確率為100%。Hu 等[14]利用近紅外光譜技術(shù)對(duì)新鮮板栗的品質(zhì)進(jìn)行研究,發(fā)現(xiàn)線性判別分析(Linear discriminant analysis,LDA)模型對(duì)正常板栗和霉變板栗的識(shí)別效果最佳,分類模型的驗(yàn)證集準(zhǔn)確率為96.37%。鄭劍等[15]對(duì)褐變和正常板栗進(jìn)行近紅外光譜檢測(cè),采用變量選擇方法篩選特征波長(zhǎng)變量,并建立板栗褐變的分類模型,其模型正確率可達(dá)0.88。Rogel-Castillo 等[16]應(yīng)用PLS-DA 模型對(duì)隱性損傷和正常杏仁進(jìn)行分類,結(jié)果表明其識(shí)別錯(cuò)誤率在8.2%~9.2%之間。Pannico 等[17]利用近紅外光譜技術(shù)對(duì)缺陷和正常榛子進(jìn)行識(shí)別,分類模型的決定系數(shù)為0.89,交互驗(yàn)證均方根誤差為0.88。Moscetti 等[18]通過近紅外光譜技術(shù)對(duì)蟲害板栗和正常板栗進(jìn)行分類,結(jié)果表明分類錯(cuò)誤率為8.41%,AUC 值為0.952。由上可知,國(guó)內(nèi)外研究者大多將近紅外光譜技術(shù)應(yīng)用于杏仁、板栗、松子等堅(jiān)果的缺陷和病害檢測(cè),而對(duì)山核桃內(nèi)部缺陷的檢測(cè)尚未見研究報(bào)道。
本研究以完整帶殼山核桃為對(duì)象,利用兩種近紅外光譜檢測(cè)裝置采集山核桃的光譜,采用8種預(yù)處理方法進(jìn)行光譜預(yù)處理,利用CARS 方法篩選特征波長(zhǎng)變量,采用3 種判別分析方法空苞山核桃識(shí)別模型,并比較不同預(yù)處理、近紅外檢測(cè)方式及判別方法等所建立的識(shí)別模型性能,以確定較優(yōu)的空苞山核桃識(shí)別模型,為空苞山核桃的快速、無損識(shí)別提供方法與技術(shù)支持。
山核桃樣本采購(gòu)于杭州臨安,隨機(jī)選擇大小均勻、外觀正常的469 個(gè)山核桃作為試驗(yàn)樣本,依次標(biāo)號(hào)并保存于4~6 ℃冷庫中直到試驗(yàn)使用。光譜采集前,將山核桃樣本從冷庫中取出并在室溫環(huán)境中放置12 h,以保證山核桃溫度與室溫一致。光譜采集完成后,將全部山核桃樣本進(jìn)行手工破殼,破殼后的山核桃殼和山核桃仁分別置于A4 打印紙上觀察是否存在空苞,將空苞山核桃樣本記為類別A,正常山核桃樣本記為類別B。
樣本劃分的方法有隨機(jī)抽樣法、kennardstone 法、光譜-理化值共生距離法等[19]。本試驗(yàn)采用kennard-stone 分類法對(duì)469 個(gè)山核桃樣本按照2∶1 劃分為校正集和預(yù)測(cè)集,校正集有30 個(gè)空苞山核桃樣本和277 個(gè)正常山核桃樣本,用于建立分類模型;預(yù)測(cè)集有18 個(gè)空苞山核桃樣本和144 個(gè)正常山核桃樣本,用于驗(yàn)證分類模型。
AvaSpec-HS1024×122TEC 型微型光纖光譜儀,荷蘭Avantes 公司;FC-UV600-2-ME 型光纖,荷蘭Avantes 公司;FA2004 電子分析天平,上海舜宇恒平科學(xué)儀器有限公司;游標(biāo)卡尺,德國(guó)美耐特公司。
試驗(yàn)采用兩種近紅外光譜檢測(cè)裝置采集山核桃樣本的光譜,兩種檢測(cè)裝置的原理示意圖如圖1 所示。檢測(cè)裝置1 中,2 盞鹵素?zé)舴謩e位于山核桃樣本的兩側(cè),三者中心位于同一水平線,光源總功率為300 W。檢測(cè)裝置2 中,4 盞鹵素?zé)糸g隔90℃環(huán)繞于山核桃樣本四周,五者中心處于同一水平面,光源總功率為600 W。
圖1 山核桃近紅外光譜檢測(cè)裝置示意圖Fig. 1 Schematic diagram of Carya cathayensis near-infrared spectroscopy detection device
光譜采集前,將山核桃樣本從冷庫中取出放置在通風(fēng)干燥處12 h,使樣品的溫濕度與實(shí)驗(yàn)室環(huán)境保持一致,以減少試驗(yàn)誤差。此外,為保證所測(cè)光譜的穩(wěn)定性,近紅外光譜儀需要預(yù)熱30 min。本研究采用2 種山核桃近紅外光譜檢測(cè)裝置以漫透射方式采集山核桃樣本的光譜,并以直徑30 mm 的聚四氟乙烯球作為參比。在檢測(cè)裝置1中,將山核桃頂端和底部與光源垂直放置,采集1次光譜記為位置1,順時(shí)針旋轉(zhuǎn)90°再采集1 次光譜記為位置2,然后將山核桃頂端和底部與光源平行放置,采集1 次光譜記為位置3,取3 次光譜平均值作為山核桃樣本的近紅外光譜。在檢測(cè)裝置2 中,將山核桃頂端和底部與光源呈45°放置,采集1 次光譜記為位置1’,順時(shí)針旋轉(zhuǎn)90°再采集1 次光譜記為位置2’,取2 次光譜平均值作為山核桃樣本的近紅外光譜。對(duì)整個(gè)帶殼山核桃樣本的近紅外光譜采集,檢測(cè)裝置1 積分時(shí)間為80 ms,檢測(cè)裝置2 積分時(shí)間為50 ms,掃描次數(shù)和平滑點(diǎn)數(shù)均為1 次和1。
光譜預(yù)處理可以消除或降低由光譜儀器、采集環(huán)境等因素造成的光譜噪聲、基線漂移等影響。預(yù)處理方法中,SG 平滑(Savitzky-golay smoothing)是消除光譜噪聲的一種最常用的方法[20];導(dǎo)數(shù)(Derivative)可以用來校正光譜的基線偏移和漂移,消除基線和其它背景的干擾[21];多元散射校正(Multiplicative scatter correction,MSC)可以有效消除樣品光譜中由光散射引起的干擾[22];標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variate transformation,SNV)可以用來消除光程變化、顆粒大小及其散射產(chǎn)生的干擾[23];歸一化(Normalize)是將數(shù)據(jù)按比例縮放以減少分布差異、特征、規(guī)模等的影響[24];去趨勢(shì)(Detrend)可減少光譜數(shù)據(jù)采集過程中產(chǎn)生的偏移影響[25];基線校正是一種用來減少偏差的方法[26]。本研究采用上述8 種方法對(duì)光譜進(jìn)行預(yù)處理,以盡可能消除光譜噪聲。
由于近紅外光譜數(shù)據(jù)的變量數(shù)目繁多,會(huì)存在較多的冗余和無用信息,需要進(jìn)行特征波長(zhǎng)選擇,以獲取有用信息變量,減少建模時(shí)間,提升模型的穩(wěn)定性。本研究采用CARS 方法[27]篩選空苞山核桃的特征波長(zhǎng),以剔除與空苞山核桃無關(guān)的信息變量,簡(jiǎn)化山核桃空苞的識(shí)別模型,并提高模型的穩(wěn)定性和精度。在CARS 變量選擇過程中,蒙特卡羅采樣次數(shù)為50,采用PLS 交叉驗(yàn)證建模,并根據(jù)最低錯(cuò)分率確定最優(yōu)變量子集。
LDA 是一種常用的模式識(shí)別方法,其基本原理是將高維光譜數(shù)據(jù)投射到低維的向量空間,以實(shí)現(xiàn)光譜數(shù)據(jù)壓縮,并使同類樣本投影點(diǎn)接近[28]。二次判別分析(Quadratic discriminant analysis,QDA)和線性判別分析均基于貝葉斯規(guī)則,區(qū)別在于線性判別分析假設(shè)每一種分類的協(xié)方差矩陣相同,而二次判別分析中每一種分類的協(xié)方差矩陣不同。馬氏距離判別分析(Mahalanobis distance discriminant analysis,MDA)使用馬氏距離作為相似性度量。本研究采用上述3 種判別分析方法建立空苞與正常山核桃的分類模型,分類模型性能由敏感性、特異性以及總正確率指標(biāo)進(jìn)行評(píng)價(jià)。模型性能評(píng)價(jià)指標(biāo)定義如式(1)~(3)。
式中,TP——真陽性,表示空苞山核桃被正確判別為空苞山核桃;FN——假陰性,表示空苞山核桃被錯(cuò)誤判別為正常山核桃;TN——真陰性,表示正常山核桃被正確判別為正常山核桃;FP——假陽性,表示正常山核桃被錯(cuò)誤判別為空苞山核桃。
469 個(gè)山核桃樣本的物理參數(shù)如表1 所示。由表1 可知,根據(jù)GB/T 24307-2009《山核桃產(chǎn)品質(zhì)量等級(jí)》,試驗(yàn)所用的山核桃樣本的質(zhì)量、直徑等參數(shù)均在合理范圍內(nèi),具有一定的代表性。
表1 山核桃物理參數(shù)Table 1 Carya cathayensis physical parameters
從本質(zhì)來說,可以采用近紅外光譜分析技術(shù)對(duì)正常和空苞山核桃進(jìn)行分類是由于兩類山核桃內(nèi)部組成成分存在差異,其差異體現(xiàn)在近紅外光譜信息中,通過對(duì)近紅外光譜信息的處理從而實(shí)現(xiàn)對(duì)兩者分類。圖2 是200~1 160 nm 波長(zhǎng)范圍2種檢測(cè)裝置采集的山核桃原始光譜。由圖2 可知,山核桃近紅外光譜在200~520 nm 波長(zhǎng)范圍的噪聲比較大,因此選用530~1 100 nm 波長(zhǎng)范圍的山核桃近紅外光譜用來分析。山核桃樣本的近紅外光譜在800~1 000 nm 波長(zhǎng)范圍存在明顯的波峰和波谷,其中光譜波峰分別位于930 nm 和1 000 nm 處,光譜波谷分別位于880 nm 和959 nm 左右處;在530~800 nm 波長(zhǎng)范圍存在較為微弱的波峰,分別位于590 nm 及780 nm 左右處。從圖2 中還能看出,正常山核桃的吸光度雖普遍高于空苞山核桃,但兩者光譜相互重疊,很難直接從形態(tài)上加以區(qū)分。因此,需要采用化學(xué)計(jì)量學(xué)方法進(jìn)行分析處理,以提取有用的光譜差異信息,建立山核桃空苞的分類模型。此外,檢測(cè)裝置1 與檢測(cè)裝置2的山核桃近紅外光譜相比,采用檢測(cè)裝置2 采集的近紅外光譜吸光度值比檢測(cè)裝置1 的略高。
圖2 200~1 100 nm 波長(zhǎng)范圍的山核桃近紅外光譜Fig. 2 Near-infrared spectra of Carya cathayensis in the wave length range of 200-1 100 nm
對(duì)山核桃原始光譜信息進(jìn)行主成分分析,其結(jié)果如表2 所示。山核桃光譜的第1,2,3,4 主成分方差貢獻(xiàn)率分別為84.08%,12.21%,2.65%,0.87%,累計(jì)貢獻(xiàn)率可達(dá)99.82%,可以代表山核桃的原有光譜信息。
表2 山核桃光譜的主成分貢獻(xiàn)率Table 2 Principal component contribution rates of Carya cathayensis spectra
第1 主成分和第2 主成分的方差貢獻(xiàn)率達(dá)到96.30%,遠(yuǎn)大于其它主成分,主成分分析不僅可以進(jìn)行數(shù)據(jù)降維,同樣也能對(duì)兩類樣本間的差距進(jìn)行初步分析。因此,以第1 主成分和第2 主成分為變量繪制散點(diǎn)分布圖,結(jié)果如圖3 所示。
圖3 第1 和第2 主成分散點(diǎn)分布圖Fig. 3 1st and 2nd principal component scatter plots
由圖3 可以看出,正常山核桃和空苞山核桃的主成分散點(diǎn)分布聚集在一起,沒有明顯的簇?fù)憩F(xiàn)象,說明兩者之間的主成分散點(diǎn)分布沒有明顯的差異。用前2 個(gè)主成分不能對(duì)正常和空苞山核桃進(jìn)行正確的分類,因此需要采用模式識(shí)別方法對(duì)山核桃光譜作進(jìn)一步分析。
2.3.1 全波長(zhǎng)分類模型 對(duì)山核桃樣本光譜,采用歸一化等8 種方法進(jìn)行光譜預(yù)處理,然后應(yīng)用LDA、QDA 和MDA3 種方法建立空苞和正常山核桃的分類模型建,并利用預(yù)測(cè)集樣本對(duì)分類模型精度進(jìn)行驗(yàn)證,其結(jié)果如表3 和表4 所示。經(jīng)MSC預(yù)處理后的山核桃近紅外光譜如圖4 所示。
表3 不同預(yù)處理和建模方法下山核桃空苞的分類模型結(jié)果(檢測(cè)裝置1)Table 3 Classification model results of Carya cathayensis with empty bud under different preprocessing and modeling methods(Detection device 1)
表4 不同預(yù)處理和建模方法下山核桃空苞的分類模型結(jié)果(檢測(cè)裝置2)Table 4 Classification model results of Carya cathayensis with empty bud under different preprocessing and modeling methods(Detection device 2)
圖4 MSC 預(yù)處理后530~1100 nm 波長(zhǎng)范圍的山核桃近紅外光譜Fig. 4 Near-infrared spectra of Carya cathayensis after MSC pretreatment in wave length range of 530-1 100 nm
從表3 和表4 可以看出,相較于原始光譜建立的模型,經(jīng)歸一化、一階導(dǎo)數(shù)、標(biāo)準(zhǔn)正態(tài)變量和多元散射校正預(yù)處理后的光譜建立的模型能提高對(duì)空苞山核桃的識(shí)別率,而對(duì)正常山核桃的識(shí)別率略微降低;經(jīng)SG 平滑和二階導(dǎo)數(shù)預(yù)處理后的光譜建立的模型對(duì)空苞和正常山核桃的識(shí)別率都降低;經(jīng)去趨勢(shì)和基線校正預(yù)處理后的光譜建立的模型對(duì)空苞山核桃和正常山核桃的識(shí)別結(jié)果影響不明顯;經(jīng)過MSC 處理后的光譜建立的模型對(duì)空苞和正常山核桃的識(shí)別率都大幅上升,3 種建模方法所建立的分類模型性能均為最優(yōu),其模型的敏感性、特異性和總正確率均為1。3 種建模方法相比而言,對(duì)空苞山核桃識(shí)別結(jié)果最佳的是MDA模型,QDA 模型次之;對(duì)正常山核桃識(shí)別結(jié)果最佳的是LDA 模型,QDA 模型次之。對(duì)兩種光譜檢測(cè)裝置而言,使用檢測(cè)裝置1 的光譜建立的3 種模型精度都高于檢測(cè)裝置2。
為了探究MSC 處理對(duì)建立的分類模型精度的影響,將經(jīng)MSC 處理后的光譜進(jìn)行可視化,兩種檢測(cè)裝置經(jīng)MSC 處理后的光譜如圖4 所示。從圖4 中可以看出,相較于原始光譜,經(jīng)MSC 處理后的兩種山核桃的光譜曲線更加集中于同種類別,空苞山核桃吸光度值在900~1 000 nm 波長(zhǎng)范圍內(nèi)低于正常山核桃,可以基本區(qū)分兩者。由此可見,MSC 預(yù)處理能夠有效消除散射的影響,使光譜中與空苞變化相關(guān)的有用信息凸顯出來。因此,經(jīng)MSC 方法預(yù)處理后所建立的山核桃空苞分類模型的性能較優(yōu)。
2.3.2 基于特征波長(zhǎng)的分類模型 特征波長(zhǎng)的選取可以有效減少無關(guān)變量的數(shù)目,從而起到減少變量數(shù)、提高模型精度的作用。對(duì)于全波長(zhǎng)建模結(jié)果,由于檢測(cè)裝置1 中建立的山核桃分類模型優(yōu)于檢測(cè)裝置2,因此采用CARS 方法僅對(duì)檢測(cè)裝置1 中的光譜數(shù)據(jù)進(jìn)行特征波長(zhǎng)選擇。圖5 為經(jīng)MSC 預(yù)處理后的山核桃光譜的CARS 變量篩選結(jié)果。由圖5a 可知,在1~5 次MC 采樣過程中,被選擇的山核桃空苞的波長(zhǎng)變量數(shù)快速下降;在5~25次MC 采樣過程中,被選擇的波長(zhǎng)變量數(shù)緩慢下降,對(duì)應(yīng)山核桃空苞特征波長(zhǎng)變量的粗選與精選兩個(gè)過程。圖5b 為山核桃空苞分類模型的錯(cuò)分率隨采樣次數(shù)的變化情況。在26 次MC 采樣時(shí),分類模型的錯(cuò)誤率最小,此時(shí)選取的特征波長(zhǎng)建模效果最佳。圖5c 為MC 采樣過程中山核桃光譜各波長(zhǎng)變量的回歸系數(shù)變化情況,“*”對(duì)應(yīng)的位置為分類模型錯(cuò)分率最低的MC 采樣次數(shù)。最終,共獲得34 個(gè)山核桃空苞的特征波長(zhǎng)變量。對(duì)于原始光譜及其它預(yù)處理光譜,利用CARS 方法在相同參數(shù)下進(jìn)行變量篩選,分別獲得27,13,27,27,48,54,43和24個(gè)特征波長(zhǎng)變量。
圖5 MSC 預(yù)處理后光譜的CARS 變量篩選過程Fig. 5 CARS variable screening process of spectra after MSC preprocessing
經(jīng)CARS 變量篩選后,采用LDA、QDA 和MDA 方法分別建立空苞和正常山核桃的分類模型,其結(jié)果見表5。相比于全波長(zhǎng)分類模型,采用CARS 篩選的特征波長(zhǎng)建立的分類模型的變量數(shù)和計(jì)算時(shí)間大大減少,各種分類模型的敏感性基本不變,特異性略有降低,總正確率基本持平。由此可見,CARS 方法可以較為有效地篩選出空苞山核桃的特征波長(zhǎng)變量。與全波長(zhǎng)分類模型結(jié)果類 似,MSC-CARS-LDA、MSC-CARS-MDA 和MSC-CARS-QDA 模型的識(shí)別結(jié)果最優(yōu),其特異性、敏感性和正確率均為1,說明可以很好地識(shí)別兩類山核桃。
表5 基于CARS 特征波長(zhǎng)的山核桃空苞的分類模型結(jié)果(檢測(cè)裝置1)Table 5 Classification model results of Carya cathayensis with empty bud based on CARS sensitive wavelengths(Detection device 1)
本研究利用近紅外光譜分析技術(shù)和模式識(shí)別方法對(duì)空苞山核桃進(jìn)行快速無損識(shí)別。采用兩種近紅外檢測(cè)裝置采集山核桃的光譜,比較了8 種不同預(yù)處理方法及CARS 變量篩選后所建立的LDA、QDA 和MDA 分類模型的性能。結(jié)果表明,檢測(cè)裝置1 的空苞山核桃分類模型性能優(yōu)于檢測(cè)裝置2 的分類模型,MSC 為較優(yōu)的預(yù)處理方法,建立的山核桃空苞分類模型的性能最優(yōu),LDA、QDA和MDA 模型的特異性、敏感性和正確率均為100%。經(jīng)CARS 特征波長(zhǎng)篩選后,建模所用變量數(shù)大幅減少,分類模型得到有效簡(jiǎn)化,而精度與全波長(zhǎng)模型持平。本文為空苞山核桃的快速無損識(shí)別提供一種可行的方法,也為其它堅(jiān)果類的內(nèi)部缺陷識(shí)別研究提供新思路。