張付杰,史 磊,李麗霞,趙浩然,朱銀龍
昆明理工大學(xué)現(xiàn)代農(nóng)業(yè)工程學(xué)院,云南 昆明 650500
三七為五加科植物三七Panaxnotoginseng(Burk.)F.H.Chen的干燥根和根莖,含有許多營(yíng)養(yǎng)成分,如皂苷、 黃酮、 氨基酸、 多糖和許多其他微量元素[1]。 三七粉是三七的主要消費(fèi)和商品形式,不同質(zhì)量等級(jí)的三七粉用肉眼很難分辨,外加市場(chǎng)上不同質(zhì)量等級(jí)的三七粉價(jià)格差異較大,因此對(duì)三七粉進(jìn)行質(zhì)量等級(jí)鑒別具有十分重要的意義。
現(xiàn)在常用的三七粉質(zhì)量等級(jí)鑒別方法為人工檢測(cè)。 但人工檢測(cè)需要檢測(cè)人員有過(guò)硬的技術(shù)和豐富的經(jīng)驗(yàn),不具備普適性。 隨著檢測(cè)技術(shù)的進(jìn)步,高效液相色譜、 近紅外光譜等技術(shù)能夠用于三七粉質(zhì)量等級(jí)鑒定。 Meng[2]等利用高效液相色譜與化學(xué)模式識(shí)別相結(jié)合的方法對(duì)三七進(jìn)行分類(lèi),可以清晰地區(qū)分“春七”和“冬七”。 Li[3]等利用高效液相色譜法結(jié)合PCA-MD成功鑒別了三七粉的真?zhèn)涡浴?Yang[4]等將近紅外光譜和紅外光譜數(shù)據(jù)融合并建立PSO-SVM模型對(duì)摻假物比例不同的三七粉進(jìn)行分類(lèi),分類(lèi)正確率分別達(dá)到了96.65%和96.97%。 Zhou[5]等人利用多傳感器紅外光譜結(jié)合高層次多傳感器信息融合策略的RF-Bo模型對(duì)不同產(chǎn)地的三七進(jìn)行分類(lèi),分類(lèi)正確率達(dá)到了95.6%。 但高效液相色譜檢測(cè)試驗(yàn)成本高、 周期長(zhǎng),而且具有破壞性。 近紅外光譜技術(shù)不能提供目標(biāo)圖像上每個(gè)像素的光譜細(xì)節(jié),檢測(cè)精度不夠高。 因此需要尋找一種更高準(zhǔn)確率、 更高效率的無(wú)損檢測(cè)方法來(lái)實(shí)現(xiàn)三七粉質(zhì)量等級(jí)的鑒別。
高光譜成像將光譜技術(shù)和成像技術(shù)相結(jié)合,不僅可以反映樣本的外部特征,還可以反映樣本內(nèi)部生化信息[6],已經(jīng)廣泛應(yīng)用于農(nóng)產(chǎn)品檢測(cè)領(lǐng)域。 孫婷[7]等利用高光譜成像將光譜和圖像信息結(jié)合并構(gòu)建SVM模型對(duì)11類(lèi)釀酒高粱進(jìn)行分類(lèi),準(zhǔn)確率達(dá)到了91.8%; 孫俊[8]等利用高光譜成像結(jié)合GA-PNN神經(jīng)網(wǎng)絡(luò)對(duì)江蘇、 安徽、 山東三個(gè)品種的紅豆進(jìn)行鑒別,識(shí)別準(zhǔn)確率達(dá)到了97.5%; Wang[9]利用高光譜圖像對(duì)不同成熟的玉米種子進(jìn)行分類(lèi),從胚乳側(cè)選擇特征波長(zhǎng)結(jié)合PLS-DA,準(zhǔn)確率達(dá)到了100%; Weng[10]等利用高光譜成像結(jié)合主成分分析網(wǎng)絡(luò)對(duì)水稻品種進(jìn)行分類(lèi),準(zhǔn)確率達(dá)到了98.57%; Jennifer Dumont[11]利用高光譜圖像結(jié)合SVM模型成功鑒別了正常的挪威云杉種子、 被Megastigmussp侵染的挪威云杉種子和空殼的挪威云杉種子,準(zhǔn)確率達(dá)到了93.8%。 但是目前利用高光譜圖像技術(shù)實(shí)現(xiàn)三七粉質(zhì)量等級(jí)鑒別的研究還鮮有報(bào)道。
三七作為中藥材,內(nèi)部藥用成分眾多,而不同成分在光譜中的吸收波段不同。 相關(guān)研究表明,多糖在可見(jiàn)光光譜范圍內(nèi)存在吸收波段,皂苷和水分在近紅外光譜范圍內(nèi)存在吸收波段。 不同質(zhì)量等級(jí)的三七粉內(nèi)在成分含量比例不同[12],在可見(jiàn)光光譜和近紅外光譜范圍內(nèi)具有不同的光譜特征,因此本研究基于高光譜成像技術(shù)對(duì)三七粉進(jìn)行質(zhì)量等級(jí)鑒別研究。 本研究以四種不同質(zhì)量等級(jí)的三七粉作為研究對(duì)象,基于不同預(yù)處理算法、 特征選擇算法對(duì)三七粉的高光譜數(shù)據(jù)進(jìn)行處理,并建立分類(lèi)模型,以實(shí)現(xiàn)三七粉質(zhì)量等級(jí)的無(wú)損鑒別。
選擇來(lái)自云南文山的30頭、 40頭、 60頭、 80頭的三七,將不同頭數(shù)的三七主根研磨成粉,制備樣本,根據(jù)三七主根的頭數(shù)把三七粉分為4個(gè)質(zhì)量等級(jí)。 每個(gè)樣本稱(chēng)量20 g,總共制備了384個(gè)三七粉試驗(yàn)樣本(每個(gè)質(zhì)量等級(jí)96個(gè))。 將所有樣本按2∶1的比例劃分訓(xùn)練集和測(cè)試集,其中訓(xùn)練集256個(gè)樣品,測(cè)試集有128樣品。 4個(gè)質(zhì)量等級(jí)的三七粉如圖1所示,不同質(zhì)量等級(jí)的三七粉存在一定的差異,但難以用肉眼判別。

圖1 四種質(zhì)量等級(jí)的三七粉Fig.1 Four quality grades of panax notoginseng powder
高光譜成像系統(tǒng)是由高光譜圖像攝影儀(VNIP-HIS-s MOS)、 鹵素?zé)艄庠?UBer LED100型,IT,USA)、 分光模具(V10E型,SPECIM,F(xiàn)inland)、 光纖和電控平移臺(tái)等組成。 高光譜圖像攝影儀是由CCD相機(jī)(Zyla4.2型,Andor,UTKL)、 光譜儀等組成,光譜范圍為400.68~1 001.61 nm,光譜分辨率為2.8 nm,圖像分辨率為1 024×478像素。 使用的高光譜圖像采集系統(tǒng)的主要結(jié)構(gòu)如圖2所示。

圖2 高光譜成像系統(tǒng)結(jié)構(gòu)圖Fig.2 Diagram of hyperspectral imaging system
在試驗(yàn)前對(duì)高光譜成像系統(tǒng)進(jìn)行20 min的預(yù)熱和黑白板標(biāo)定。 黑白板標(biāo)定可以減小暗電流噪聲和光源強(qiáng)度分布不均勻?qū)υ囼?yàn)造成的影響,白板的反射率100%,蓋上CCD相機(jī)鏡頭獲得反射率為0%的黑板環(huán)境。 白板環(huán)境下,設(shè)定高光譜圖像相機(jī)的曝光時(shí)間為7 ms; 黑板環(huán)境下,設(shè)定高光譜圖像相機(jī)的曝光時(shí)間為17 ms; 設(shè)定平移臺(tái)的速度為1.99 mm·s-1。 依次采集四種不同質(zhì)量等級(jí)的三七粉樣本的高光譜圖像。
采用“矩形區(qū)域法”在每個(gè)高光譜圖像中手動(dòng)選擇60×60像素的正方形作為感興趣區(qū)域(region of interest,ROI),然后將ROI中像素的平均值作為每個(gè)樣本的光譜值。
在客觀(guān)環(huán)境下難以避免噪聲的干擾,高光譜成像器械難以避免發(fā)生基線(xiàn)漂移[13]。 為了減少它們對(duì)試驗(yàn)結(jié)果的影響,需要對(duì)高光譜數(shù)據(jù)進(jìn)行預(yù)處理。 采用卷積平滑(savitzky-golay,SG)、 多元散射校正(multiplication scatter correction,MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(standard normalized variable,SNV)[14]這3種方法分別對(duì)高光譜數(shù)據(jù)進(jìn)行預(yù)處理,并對(duì)比其效果,選出最優(yōu)的預(yù)處理方法。
預(yù)處理后的光譜數(shù)據(jù)分布在高維空間,但有些維度與建模無(wú)關(guān)。 為了減少光譜數(shù)據(jù)中一些無(wú)用的維數(shù),采用特征選擇的方法對(duì)光譜數(shù)據(jù)進(jìn)行降維。 采用迭代保留信息變量(iteratively retains informative variables,IRIV)[15]、 變量組合集群分析(variable combination population analysis,VCPA)[16]和變量組合集群分析混合迭代保留信息變量(variables combination population analysis and iterative retained information variable,VCPA-IRIV)[17]分別從全光譜數(shù)據(jù)中提取特征波長(zhǎng)變量。
1.6.1 支持向量機(jī)
支持向量機(jī)(support vector machine,SVM)是一種高維信息處理的重要工具。 SVM以其良好的泛化能力在光譜數(shù)據(jù)的分類(lèi)中得到了廣泛的應(yīng)用。 相關(guān)研究表明,懲罰因子c和核參數(shù)g的選擇對(duì)SVM的性能起著至關(guān)重要的作用。 因此,有必要對(duì)SVM的參數(shù)進(jìn)行優(yōu)化來(lái)提升分類(lèi)效果[18]。
1.6.2 引力搜索算法優(yōu)化支持向量機(jī)
引力搜索算法(gravitational search algorithm,GSA)是一種種群優(yōu)化算法。 用GSA對(duì)SVM的參數(shù)c和g進(jìn)行尋優(yōu),具體流程如下[19]:
(1)對(duì)參數(shù)進(jìn)行初始化: 隨機(jī)產(chǎn)生質(zhì)點(diǎn)位置的數(shù)目(群體規(guī)模)和最大迭代次數(shù);
(2)設(shè)置質(zhì)點(diǎn)的移動(dòng)范圍(參數(shù)c和g的搜索范圍);
(3)設(shè)置樣品訓(xùn)練集的交叉驗(yàn)證數(shù),并通過(guò)計(jì)算粒子的適應(yīng)度值確定最優(yōu)質(zhì)點(diǎn);
(4)計(jì)算質(zhì)點(diǎn)質(zhì)量、 質(zhì)點(diǎn)在各維數(shù)上的加速度,對(duì)質(zhì)點(diǎn)進(jìn)行位置更新;
(5)重復(fù)步驟(3)—(4),當(dāng)達(dá)到最大迭代次數(shù)時(shí),迭代停止,獲得最佳的(c,g);
(6)將參數(shù)的最優(yōu)值代入SVM模型中進(jìn)行預(yù)測(cè)。
使用五鈴光學(xué)公司高光譜成像系統(tǒng)HSI Analyzer軟件進(jìn)行圖像校正和感興趣區(qū)域提取,使用The Unscrambler X 10.4軟件進(jìn)行預(yù)處理,使用Matlab 2016a軟件進(jìn)行特征選擇和數(shù)據(jù)建模。
高光譜數(shù)據(jù)容易受噪聲和儀器的干擾,可能會(huì)影響后續(xù)建模的精度,因此對(duì)高光譜數(shù)據(jù)進(jìn)行預(yù)處理。 原始光譜與SG,MSC和SNV預(yù)處理后的光譜如圖3所示。 觀(guān)察圖3(a)可以發(fā)現(xiàn),在采集開(kāi)始時(shí)樣本數(shù)據(jù)受噪聲的影響較大。 對(duì)比圖3(a)和圖3(b)可以發(fā)現(xiàn),SG預(yù)處理后的光譜曲線(xiàn)比原始光譜曲線(xiàn)更平滑。 對(duì)比圖3(a)和圖3(c)可以發(fā)現(xiàn),MSC預(yù)處理使各高光譜曲線(xiàn)間差距變小,表明MSC預(yù)處理對(duì)光譜采

圖3 (a)原始光譜; (b)SG預(yù)處理后光譜; (c)MSC預(yù)處理后光譜; (d)SNV預(yù)處理后光譜Fig.3 (a) Original spectra; (b) Spectra after SG pretreatment; (c) Spectra after MSC pretreatment;(d) Spectra after SNV pretreatment
集過(guò)程中因散射現(xiàn)象等引起的光譜誤差起到了校正作用。 觀(guān)察圖3(d)可以發(fā)現(xiàn),SNV預(yù)處理效果與MSC相似,對(duì)光譜采集過(guò)程中因散射現(xiàn)象等引起的光譜誤差起到了校正作用,但SNV預(yù)處理的實(shí)質(zhì)是對(duì)高光譜數(shù)據(jù)的標(biāo)準(zhǔn)正態(tài)化。
為了選擇最優(yōu)的預(yù)處理方法,采用SVM對(duì)預(yù)處理后的高光譜數(shù)據(jù)進(jìn)行建模,核函數(shù)選擇徑向基核函數(shù),設(shè)置參數(shù)c和g為默認(rèn)值,SVM建模結(jié)果如表1所示。 通過(guò)三種預(yù)處理方法對(duì)三七粉原始光譜的處理對(duì)比分析,發(fā)現(xiàn)SNV預(yù)處理后的光譜具有最優(yōu)的三七粉質(zhì)量等級(jí)的預(yù)測(cè)能力。

表1 不同預(yù)處理方法SVM建模結(jié)果Table 1 SVM modeling results of differentpretreatment methods
2.2.1 迭代保留信息變量
在IRIV特征選擇的過(guò)程中,采用5折交叉驗(yàn)證的方法建立了偏最小二乘(PLS)模型。 然后以交互驗(yàn)證均方根誤差(RMSECV)作為評(píng)價(jià)指標(biāo)來(lái)選擇特征波長(zhǎng)。 在每次迭代中,剔除一些不相關(guān)和干擾的波長(zhǎng)變量,保留特征波長(zhǎng)變量。 從圖4中可以看出,在第6次迭代之前,變量數(shù)量迅速減少,從478個(gè)減少到69個(gè)。 第10次迭代后,完全剔除了無(wú)信息變量和干擾信息變量。 最終,反向消除后保留了30個(gè)有效波長(zhǎng),分布在圖5的平均光譜上。

圖4 IRIV選擇的過(guò)程Fig.4 Process of IRIV selection
2.2.2 變量組合集群分析
在VCPA特征選擇的過(guò)程中,指數(shù)遞減函數(shù)(EDF)和二進(jìn)制矩陣采樣(BMS)運(yùn)行次數(shù)分別設(shè)置為50次和1 000次,BMS初始采樣權(quán)值設(shè)置為0.5,最優(yōu)子集的比例設(shè)置為10%,EDF運(yùn)行后剩余變量數(shù)設(shè)置為14,采用5折交叉驗(yàn)證的方法建立PLS模型,計(jì)算所有子集的RMSECV,以RMSECV作為評(píng)價(jià)指標(biāo)篩選出最優(yōu)子集; 利用EDF剔除子集中貢獻(xiàn)率較低的變量。 迭代50次,剩余14個(gè)變量。 最后,計(jì)算這14個(gè)變量之間所有變量組合的RMSECV,提取RMSECV最小的變量組合。 最終選擇了11個(gè)特征波長(zhǎng),分布在圖6的平均光譜上。

圖5 IRIV所選擇的波長(zhǎng)Fig.5 Wavelength selected by IRIV

圖6 VCPA所選擇的波長(zhǎng)Fig.6 Wavelength selected by VCPA
2.2.3 變量組合集群分析混合迭代保留信息變量
VCPA-IRIV將VCPA與IRIV相結(jié)合,先通過(guò)VCPA縮小變量空間,再通過(guò)IRIV進(jìn)一步優(yōu)化剩余的變量。 與VCPA和IRIV相比,VCPA-IRIV消除了VCPA中最差子集對(duì)特征選擇的不利影響; VCPA-IRIV通過(guò)EDF消除貢獻(xiàn)小的變量,剩余的變量相對(duì)集中且優(yōu)化,使得IRIV更容易、 更好的選擇最優(yōu)變量子集。 在VCPA-IRIV特征選擇過(guò)程中,設(shè)置EDF運(yùn)行后剩余變量數(shù)為100,其余參數(shù)與2.2.2節(jié)中相同。 首先進(jìn)行VCPA,利用PLS計(jì)算所有子集的RMSECV,篩選出100個(gè)最優(yōu)子集,再利用EDF剔除100個(gè)子集中貢獻(xiàn)較低的變量,迭代50次,剩下100個(gè)變量。 再對(duì)這100個(gè)變量進(jìn)行IRIV,剔除不相關(guān)和干擾的波長(zhǎng)變量,經(jīng)多次迭代直至完全剔除了無(wú)信息變量和干擾信息變量。 最終選擇了18個(gè)特征波長(zhǎng),分布在圖7的平均光譜上。

圖7 VCPA-IRIV所選擇的波長(zhǎng)Fig.7 Wavelength selected by VCPA-IRIV
建模試驗(yàn)由2個(gè)部分組成,第一,基于全光譜數(shù)據(jù)建立SVM模型。 第二,基于3種特征波長(zhǎng)數(shù)據(jù)建立SVM模型。 SVM模型參數(shù)同2.1節(jié)中相同,試驗(yàn)結(jié)果如表2所示。

表2 基于全光譜和特征光譜的SVM建模結(jié)果Table 2 SVM modeling results based on fullspectral data and feature wavelengths
觀(guān)察表2可以發(fā)現(xiàn),基于全光譜和特征光譜建立的SVM分類(lèi)模型均取得了較好的效果,這3種特征選擇方法均保存了三七粉的有效信息。 對(duì)圖5、 圖6和圖7進(jìn)行對(duì)比分析,IRIV提取的特征波長(zhǎng)集中在415.985~986.13 nm范圍內(nèi),部分波長(zhǎng)在受噪聲影響區(qū)域內(nèi); VCPA提取的特征波長(zhǎng)集中在510.85~689.636 nm范圍內(nèi),忽視了近紅外光譜區(qū)域的有效信息; VCPA-IRIV提取的特征波長(zhǎng)分布在476.838~995.163 nm范圍內(nèi),保存了三七粉在可見(jiàn)光光譜和近紅外光譜區(qū)域內(nèi)的有效信息,也沒(méi)有受到噪聲的影響,SVM模型的分類(lèi)準(zhǔn)確率最高。 因此認(rèn)為VCPA-IRIV是最優(yōu)的特征選擇方法。 在模型復(fù)雜度方面,VCPA-IRIV算法簡(jiǎn)化了模型,降低了計(jì)算復(fù)雜度。 在建模精度方面,VCPA-IRIV-SVM模型的測(cè)試集分類(lèi)準(zhǔn)確率與全光譜SVM模型測(cè)試集分類(lèi)準(zhǔn)確率相同。 由于參數(shù)c和g的選擇對(duì)SVM的分類(lèi)精度起著重要的作用,因此引入智能優(yōu)化算法GSA對(duì)SVM中參數(shù)c和g進(jìn)行尋優(yōu),并與網(wǎng)格搜索(grid search,GS)的結(jié)果進(jìn)行比較。
在GSA中,參數(shù)c和g的搜索范圍分別設(shè)置為[0.01, 100]和[0. 1, 10],最大迭代次數(shù)設(shè)置為100,群體規(guī)模設(shè)置為20。 在GS中,參數(shù)c和g的搜索范圍均設(shè)置為[2-8, 28],兩種優(yōu)化算法均采用5折交叉驗(yàn)證方式。 建模結(jié)果如表3所示。

表3 基于VCPA-IRIV特征選擇方法的GSA-SVM 和GS-SVM建模結(jié)果Table 3 GSA-SVM and GS-SVM modeling resultsbased on VCPA-IRIV
GS具有更快的收斂速度,但由于搜索點(diǎn)固定,也錯(cuò)過(guò)了最優(yōu)解,因此分類(lèi)準(zhǔn)確率低于GSA。 相比之下,VCPA-IRIV-GSA-SVM模型性能最好,訓(xùn)練集和測(cè)試集的分類(lèi)準(zhǔn)確率均達(dá)到了100%,最終選擇VCPA-IRIV-GSA-SVM模型作為三七粉質(zhì)量等級(jí)的分級(jí)模型。
市場(chǎng)上三七粉以次充好現(xiàn)象嚴(yán)重,為了保證三七粉質(zhì)量,基于高光譜成像技術(shù)對(duì)不同質(zhì)量等級(jí)的三七粉進(jìn)行無(wú)損鑒別。 首先,采集樣本的高光譜圖像,通過(guò)選擇ROI得到60×60像素的光譜信息,然后分別用SG,MSC和SNV對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理,反映三七粉質(zhì)量等級(jí)有效信息的特征波長(zhǎng)分別由IRIV,VCPA和VCPA-IRIV提取。 然后分別建立基于全光譜和特征光譜的SVM模型,并引入GSA和GS對(duì)SVM模型中的c和g進(jìn)行優(yōu)化。 結(jié)果表明:
(1)分別建立基于SG,MSC和SNV的分類(lèi)模型并進(jìn)行比較。 結(jié)果表明,適當(dāng)?shù)念A(yù)處理方法(SNV)可以使模型具有良好的性能。
(2)分別建立IRIV-SVM,VCPA-SVM,VCPA-IRIV-SVM和全光譜的SVM模型,并進(jìn)行比較。 結(jié)果表明,適當(dāng)?shù)奶卣鬟x擇方法(VCPA-IRIV)可以在降低模型復(fù)雜度的情況下保持模型的性能。
(3)引入GSA和GS對(duì)SVM模型中的c和g進(jìn)行優(yōu)化,以模型的測(cè)試集分類(lèi)準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。 VCPA-IRIV-GSA-SVM分類(lèi)模型性能最優(yōu),訓(xùn)練集和測(cè)試集分類(lèi)準(zhǔn)確率均達(dá)到了100%,因此將GSA作為優(yōu)化原模型的智能算法。
綜上,利用可見(jiàn)近紅外高光譜成像技術(shù)對(duì)三七粉進(jìn)行質(zhì)量等級(jí)鑒別是可行的,該方法為市場(chǎng)上三七粉的質(zhì)量等級(jí)鑒別提供了參考。