張立秀,張淑娟,孫海霞,薛建新,任銳,劉文俊
(山西農(nóng)業(yè)大學(xué) 農(nóng)業(yè)工程學(xué)院,山西 晉中,030801)
“久保桃”是水蜜桃的一種早熟品種,營養(yǎng)豐富,深受消費(fèi)者喜愛[1]。在久保桃的生長過程中,由于自然因素造成的果面損傷即果面缺陷。根據(jù)NY/T 586—2002,常見的果面缺陷有瘡痂桃、蟲咬桃和鳥啄桃。這些缺陷的存在降低了桃的品質(zhì),影響了我國桃果實(shí)的出口。目前,市場上主要依靠人工進(jìn)行分揀缺陷桃,存在效率低下[2]的問題,因此研究一種快速、高效、批量檢測桃果實(shí)外部缺陷的方法具有實(shí)際意義。
高光譜技術(shù)具有分辨率清晰、波段數(shù)多的特點(diǎn),被廣泛應(yīng)用于水果缺陷的無損檢測[3]。BARANOWSKI等[4]將高光譜圖像與主成分分析法進(jìn)行結(jié)合,研究蘋果損傷后的生理指標(biāo)變化,檢測精度達(dá)到97%。WANG等[5]將高光譜成像技術(shù)結(jié)合逐步判別法判別蟲害棗和完好棗,判別率為94.8%。LORENTE等[6]利用高光譜成像技術(shù)結(jié)合化學(xué)計量法,檢測柑橘的腐爛,檢測率達(dá)到了85%。許建東等[7]采用高光譜技術(shù)結(jié)合變量選擇方法判別完好與凍害甘薯,判別率為98.05%。池江濤等[8]采用高光譜技術(shù)結(jié)合多元線性回歸模型對茄子外部缺陷進(jìn)行識別研究,判別率為96.82%。吉亞敏[9]采用高光譜成像技術(shù)和機(jī)器學(xué)習(xí)相結(jié)合的方法對馬鈴薯的外部缺陷進(jìn)行了分類,模型的平均判別率為92.08%。章海亮等[10]利用高光譜成像技術(shù)檢測柑橘的結(jié)痂、黑斑、蒂腐、褐腐病的4種缺陷,最終的判別率為94%。LI等[11]采用高光譜成像技術(shù)結(jié)合多元線性回歸模型,預(yù)測哈密干棗的可溶性固形物含量,最終其預(yù)測集的準(zhǔn)確率為85.7%。
支持向量機(jī)(support vector machines, SVM)是一種機(jī)器學(xué)習(xí)算法,常用于解決小樣本、非線性及高維的數(shù)據(jù)模型問題[12],SVM模型分類性能的好壞取決于模型參數(shù)的選擇,因此出現(xiàn)了許多SVM的優(yōu)化算法。國內(nèi)外許多學(xué)者采用高光譜結(jié)合SVM及其優(yōu)化算法對果蔬的品質(zhì)進(jìn)行了研究。SIRINNAPA等[13]將高光譜成像技術(shù)與偏最小二乘法(partial least squares, PLS)、SVM等方法結(jié)合,檢測芒果和黃瓜的蟲害,芒果蟲害判別率為93.4%,黃瓜蟲害判別率為82%。WANG等[14]采用高光譜成像技術(shù)結(jié)合最小二乘支持向量機(jī),研究了不同預(yù)處理方法對柑橘黃龍病葉上、葉下表面光譜模型的影響,結(jié)果表明,在二階導(dǎo)數(shù)預(yù)處理下,識別率分別為100%和92.5%。王梓萌[15]將近紅外光譜與粒子群優(yōu)化支持向量機(jī)(particle swarm optimization support vector machines, PSO-SVM)結(jié)合檢測霉心病蘋果,檢測效率達(dá)到了93.33%。黃林生等[16]將高光譜技術(shù)與遺傳算法優(yōu)化支持向量機(jī)(genetic algorithm optimization support vector machines, GA-SVM)模型結(jié)合檢測小麥赤霉病,檢測精度為75%。羅強(qiáng)[17]基于高光譜技術(shù)與網(wǎng)格搜索優(yōu)化支持向量機(jī)(grid search optimization support vector machines, GS-SVM)相結(jié)合,檢測茶鮮葉含水量,檢測精度為87.64%。談文藝[18]將高光譜成像技術(shù)與GS-SVM模型相結(jié)合,判別蘋果外部損傷,判別準(zhǔn)確率為97.5%。
上述研究均采用單一優(yōu)化算法進(jìn)行建模分析,檢測精度低。將高光譜信息與多種優(yōu)化模型相結(jié)合,通過對比不同優(yōu)化模型在參數(shù)相同的情況下的建模效果與模型運(yùn)行時間,進(jìn)而尋找出一種運(yùn)行時間短、判別率高的最優(yōu)模型,實(shí)現(xiàn)久保桃外部缺陷的快速檢測。因此本文基于高光譜技術(shù)結(jié)合GS-SVM、GA-SVM、PSO-SVM三種優(yōu)化方法建立判別久保桃外部缺陷的3種模型,綜合比較各模型的性能,選出最優(yōu)判別模型,以實(shí)現(xiàn)久保桃外部缺陷的定性判別。
由于傳統(tǒng)SVM模型隨機(jī)生成參數(shù)值,導(dǎo)致分類精度不穩(wěn)定[19],因此需要對SVM模型進(jìn)行優(yōu)化。訓(xùn)練模型的核函數(shù)(radial basis function,RBF)徑向基函數(shù)的參數(shù)優(yōu)化決定整個模型的效率,徑向基函數(shù)的參數(shù)包括核參數(shù)g與懲罰參數(shù)C,文章采用遺傳算法(genetic algorithm,GA)、粒子群算法(particle swarm optimization,PSO)、網(wǎng)格搜索算法(grid search,GS)3種優(yōu)化方法對C和g值進(jìn)行優(yōu)化。
GA作為一種經(jīng)典的尋優(yōu)算法,具有適用性好、搜索速度快、效率高的特點(diǎn)。其核心步驟是:參數(shù)編碼、設(shè)定初始群體、設(shè)計適應(yīng)度函數(shù)、設(shè)計遺傳操作、設(shè)定控制參數(shù)、篩選出適應(yīng)度高的個體[20]。文章設(shè)置種群初始數(shù)量為20,最大進(jìn)化迭代次數(shù)為200,5折交叉驗(yàn)證,懲罰參數(shù)C與核參數(shù)g的取值范圍為[0,100],將參數(shù)對輸入SVM模型中,對樣本訓(xùn)練,計算個體的適應(yīng)度值,直到達(dá)到最大迭代次數(shù),停止搜索,輸出(C,g)值,實(shí)現(xiàn)GA對SVM的參數(shù)優(yōu)化。
PSO具有收斂速度快且收斂于全局的特點(diǎn),它從隨機(jī)解出發(fā),通過迭代粒子的位置與速度尋找最優(yōu)解,并用適應(yīng)度評價最優(yōu)解[21]。文中設(shè)置PSO參數(shù)局部搜索能力C1為1.5,PSO參數(shù)全局搜索能力C2為1.7,種群初始數(shù)量為20,最大進(jìn)化迭代次數(shù)為200,5折交叉驗(yàn)證,懲罰參數(shù)C與核參數(shù)g的取值范圍為[0,100],通過更新粒子的位置與速度,計算粒子的適應(yīng)度值,直到達(dá)到最大迭代次數(shù),輸出(C,g)值,實(shí)現(xiàn)PSO對SVM的參數(shù)優(yōu)化。
GS是一種最基本的參數(shù)優(yōu)化算法,它將C和g參數(shù)放在一個規(guī)定的空間內(nèi),依據(jù)擬定的坐標(biāo)系劃分成等大的網(wǎng)格,坐標(biāo)系中每一組向量代表一組(C,g)值,通過將區(qū)間內(nèi)的每一組(C,g)值帶入SVM中驗(yàn)證預(yù)測性能,直到找到最優(yōu)(C,g)值[22],確定SVM的最優(yōu)參數(shù)。GS-SVM模型建立流程如圖1所示。
圖1 網(wǎng)格搜索法優(yōu)化流程
實(shí)驗(yàn)樣本選用2個批次,共302個久保桃樣本,均采自于山西省晉中市太谷區(qū)西山底村桃園,其中第一批242個樣本用于建模集和測試集,第二批62個樣本用于驗(yàn)證集。將242個樣本[120個完好桃,122個缺陷桃(50個瘡痂桃和72個腐爛桃)]利用Kennard-Stone算法將三類樣本按照3∶1的比例隨機(jī)分為180個校正集和62個預(yù)測集。圖2為三類樣本圖。
圖2 完好桃與缺陷桃樣本圖
文章采用的高光譜分選儀是來自北京卓立漢光公司,型號為:ZOLIX Gaia Sorter型的“蓋亞”高光譜分選儀。設(shè)定樣本的曝光時間為20 ms,樣本到鏡頭高度為22 cm,電控移動平臺前進(jìn)的速度為2 cm/s,采集樣本后需要進(jìn)行黑白校正,具體校正方法見參考文獻(xiàn)[23]。
高光譜圖像采集與樣本的黑白校正在軟件Specview中完成,采用ENVI4.7軟件(ITT Visual in formagtion Solutions, Boudler,美國)提取樣本的光譜信息,采用The Unscrambler X10.1(CAMO AS, Oslo,挪威)軟件、Matlab R2016a(The Maths Works,Natick,美國)軟件進(jìn)行光譜預(yù)處理、特征波長的提取及模型的建立與分析。采用Origin8.5(Origin Lab,美國)繪制原始光譜圖、平均光譜圖。
感興趣區(qū)域(region of interest, ROI)的選擇應(yīng)是最能代表圖像內(nèi)容特征的部分,該部分區(qū)域的選擇能極大地提高圖像處理和光譜數(shù)據(jù)分析的準(zhǔn)確率和精度[24]。文章選擇三類桃樣本的表面80像素×80像素的ROI,經(jīng)處理得到三類樣本的原始光譜和平均光譜如圖3所示。
a-原始光譜曲線;b-平均光譜曲線
由圖3可知,三類久保桃樣本的平均光譜曲線存在著較大差異。三類樣本均在1 211 nm和1 462 nm處出現(xiàn)明顯吸收峰,其中900~1 211 nm處的吸收峰與久保桃表皮及桃果實(shí)細(xì)胞中葉綠素和類胡蘿卜素的吸收有關(guān),1 462 nm處的吸收峰與久保桃的內(nèi)部水分和糖分吸收有關(guān),分別為O—H三級和二級倍頻特征吸收峰[25],三類樣本的總體反射率呈現(xiàn)下降趨勢。
對采集到的光譜數(shù)據(jù)進(jìn)行預(yù)處理可有效優(yōu)化原始光譜數(shù)據(jù),提高模型的精度[26]。PLS模型是一種經(jīng)典的線性擬合模型,可用來解決變量之間的相關(guān)性及小樣本問題[27]。文章采用導(dǎo)數(shù)間隙段(derivative-gap-segment)、基線校正(baseline)、中值濾波(median filter,MF)、導(dǎo)數(shù)卷積平滑(derivative-savitzky-golay)、光譜學(xué)(spectroscopic)等5種預(yù)處理方法來對原始光譜數(shù)據(jù)進(jìn)行處理,對比原始光譜與經(jīng)預(yù)處理后的光譜數(shù)據(jù)所建立的PLS模型的相關(guān)系數(shù)R2和交叉驗(yàn)證均方根誤差(root-mean-square error,RMSE)來確定最佳光譜預(yù)處理方法(注:所建立的模型相關(guān)系數(shù)越大,均方根誤差越小,所建模型精度越高)。光譜預(yù)處理結(jié)果見表1。
表1 不同預(yù)處理方法建立PLS模型
由表1可知,經(jīng)MF預(yù)處理后的模型精度相對較高,標(biāo)準(zhǔn)偏差相對較低。其校正集決定系數(shù)為0.87,均方根誤差為0.32。預(yù)測集決定系數(shù)為0.89,均方根誤差為0.29。因此選擇經(jīng)MF預(yù)處理后的數(shù)據(jù)進(jìn)行后續(xù)研究。
特征波長的提取是指通過從全波段中挑選一些有代表性的波長,冗余程度最少,共線性最小的,可以代表樣本主要信息的優(yōu)選值[28],這樣做可以極大地提高運(yùn)行速度,減少運(yùn)行時間。本文采用回歸系數(shù)法(regression coefficient, RC)和競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling,CARS)提取特征波長。
3.3.1 RC回歸系數(shù)法
RC回歸系數(shù)法是在采用PLS的預(yù)測模型中得到的,應(yīng)用每個局部光譜信息的波長信息對應(yīng)的RC系數(shù)來判斷所構(gòu)建的模型的預(yù)測能力的強(qiáng)弱的一種方法[29]。所以可根據(jù)RC系數(shù)絕對值的大小選擇特征波長從而確定所需要的提取值,RC回歸系數(shù)法提取過程如圖4所示。
圖4 RC提取特征波長
綜上所述,根據(jù)RC系數(shù)極值絕對值的大小選擇所需特征波長提取,文章從小到大依次選取了12個特征波長,分別為:908、940、985、1 128、1 221、1 313、1 339、1 373、1 421、1 589、1 656、1 685 nm。
3.3.2 CARS競爭性自適應(yīng)重加權(quán)算法
CARS競爭性自適應(yīng)重加權(quán)算法的原理是將蒙特卡羅采樣與偏最小二乘回歸系數(shù)法相結(jié)合來實(shí)現(xiàn)變量優(yōu)選,本質(zhì)是依據(jù)達(dá)爾文的生物進(jìn)化論中的“適者生存”的原理,在進(jìn)行變量優(yōu)選的過程中,首先根據(jù)指數(shù)衰減函數(shù)進(jìn)行無用變量的剔除,再將剩余的光譜數(shù)據(jù)利用自適應(yīng)重加權(quán)算法建立模型[30]。CARS提取特征波長過程如圖5所示。
圖5 CARS提取特征波長
由圖5-a可以看出,隨著蒙特卡羅采樣次數(shù)從1次增加到50次,所采集的變量在逐漸變少;從圖5-b可以看出,RMSE值在第24次采樣時均方根誤差最小,最小值為0.323 4;從圖5-c可以看出,第24次采樣時均方根誤差值最小,運(yùn)行次數(shù)為24時,選取了25個特征波長,分別為:966、1 131、1 217、1 227、1 310、1 316、1 319、1 418、1 421、1 424、1 427、1 558、1 567、1 577、1580、1 583、1 596、1 599、1 605、1 643、1 650、1 653、1 656、1 659、1 685 nm。
對久保桃的外部缺陷進(jìn)行分類時,設(shè)定完好桃類別為1,瘡痂桃類別為2,腐爛桃類別為3。運(yùn)用GS-SVM模型,設(shè)置C與g的取值范圍為[0,100],最終得到最佳參數(shù)對為;C=48.50,g=0.11。將此最佳參數(shù)對輸入到SVM模型中,對SVM參數(shù)進(jìn)行優(yōu)化。
為了檢測GS-SVM模型的性能,選取GA-SVM模型,PS0-SVM模型進(jìn)行比較,將經(jīng)過MF預(yù)處理后RC和CARS提取的特征波長值和類別值作為輸入,得到GA-SVM模型的最佳參數(shù)為:C=6.38,g=0.61;PS0-SVM模型的最佳參數(shù)為C=35.63,g=0.10,將各個模型的最佳參數(shù)對帶到模型中,對久保桃的外部缺陷進(jìn)行分類,通過綜合考慮模型的訓(xùn)練效果與預(yù)測效果,選擇出最優(yōu)的分類模型,結(jié)果如表2所示。
表2 三種模型精度對比
由表2可知,3種優(yōu)化模型的判別準(zhǔn)確率均達(dá)到了95%以上,其中基于CARS算法提取的特征波長所建模型的準(zhǔn)確率較高。說明CARS為有效的波長提取方法?;贑ARS所建的GS-SVM模型預(yù)測集的判別準(zhǔn)確率最高,為96.77%,運(yùn)行時間為11.5 s;GA-SVM模型、PSO-SVM模型預(yù)測集的判別準(zhǔn)確率均為95.16%,但GA-SVM模型訓(xùn)練集的判別率為93.88%,且運(yùn)行時間較短,為8.95 s;PSO-SVM模型訓(xùn)練集的判別率為93.33%運(yùn)行時間為22.26 s,所以GA-SVM模型優(yōu)于PSO-SVM模型。綜合比較來看,CARS-GS-SVM判別模型最優(yōu),CARS-GA-SVM模型次之,CARS-PSO-SVM判別模型相對來說最差。因此選擇CARS-GS-SVM模型為最優(yōu)判別模型,其訓(xùn)練集的判別率為93.33%,預(yù)測集的判別率為96.77%,運(yùn)行時間為11.5 s。
圖6、圖7、圖8分別是CARS-GS-SVM模型、CARS-GA-SVM模型、CARS-PSO-SVM模型的尋優(yōu)過程和預(yù)測結(jié)果。圖6-a是GS對SVM參數(shù)的尋優(yōu)結(jié)果三維圖,圖中三維坐標(biāo)中的縱坐標(biāo)代表分類準(zhǔn)確率,橫坐標(biāo)代表參數(shù)(C,g)的值。由圖可知,優(yōu)化后的參數(shù)BestC為48.50,Bestg為0.11,圖6-b是訓(xùn)練集與測試集的判別結(jié)果。由圖6-b可以看出,測試集的2個誤判數(shù)是將1個瘡痂桃識別為完好桃,這是由于瘡痂面積過小容易造成誤判,1個瘡痂桃識別為腐爛桃,則是由于瘡痂桃表皮部位下面損傷造成的誤判。完好桃與腐爛桃的判別率為100%。
a-尋優(yōu)過程;b-訓(xùn)練集預(yù)測結(jié)果;c-測試集預(yù)測結(jié)果
a-尋優(yōu)過程;b-訓(xùn)練集預(yù)測結(jié)果;c-測試集預(yù)測結(jié)果
a-尋優(yōu)過程;b-訓(xùn)練集預(yù)測結(jié)果;c-測試集預(yù)測結(jié)果
為了驗(yàn)證以上模型的準(zhǔn)確性和穩(wěn)定性,提升實(shí)驗(yàn)結(jié)果的可信度,利用第二批采集的久保桃樣本進(jìn)行模型的外部驗(yàn)證。挑選完好桃、瘡痂桃、腐爛桃共計62個桃樣本組成驗(yàn)證集,采用CARS算法提取特征波長后,將特征波長代入上述3種優(yōu)化模型中進(jìn)行預(yù)測,模型的參數(shù)與上述模型保持一致。模型外部驗(yàn)證的判別準(zhǔn)確率如表3所示。
表3 各模型驗(yàn)證集分類結(jié)果
綜合比較可知,GS-SVM模型判別準(zhǔn)確率最高為91.94%,用時5.0 s;GA-SVM模型與PSO-SVM模型判別準(zhǔn)確率相同,為90.32%,GA-SVM模型用時6.4 s,PSO-SVM模型用時19.5 s。GA-SVM模型所用時間低于PSO-SVM模型,因此GS-SVM判別模型最好,GA-SVM模型次之,PSO-SVM模型相對來說較差。與上述結(jié)論一致,說明CARS-GS-SVM模型穩(wěn)定性好。
為了快速檢測久保桃的外部缺陷,實(shí)現(xiàn)優(yōu)果優(yōu)價。文章采用高光譜成像技術(shù)對久保桃的外部缺陷進(jìn)行了研究,將高光譜技術(shù)的光譜信息結(jié)合不同的光譜預(yù)處理方法,分別建立GS-SVM、GA-SVM、PSO-SVM模型進(jìn)行對比分析。結(jié)果如下:
b)基于RC、CARS兩種方法提取的特征波長分別建立GS-SVM、GA-SVM、PSO-SVM模型,比較多種模型可知,CARS-GS-SVM模型效果最優(yōu),其訓(xùn)練集的判別率為93.33%,預(yù)測集的判別率為96.77%,驗(yàn)證集的判別準(zhǔn)確率達(dá)到了91.94%,運(yùn)行時間為11.5 s。較好地實(shí)現(xiàn)了久保桃外部缺陷的檢測。研究結(jié)果表明,高光譜成像技術(shù)可以用來實(shí)現(xiàn)久保桃的外部缺陷檢測,為開發(fā)久保桃的分級分選設(shè)備提供理論基礎(chǔ)。