王新龍 李 翔
(1. 長(zhǎng)治學(xué)院,山西 長(zhǎng)治 046011;2. 陜西科技大學(xué),陜西 西安 710021)
受屠宰方式、儲(chǔ)存手段等因素影響,牛肉品質(zhì)可以劃分為正常肉、白肌肉、黑干肉和摻假肉等類型[1-5],人工感官識(shí)別是目前常見的識(shí)別手段,其主觀性強(qiáng)、勞動(dòng)強(qiáng)度大、結(jié)果可信度低[6]。隨著近紅外光譜技術(shù)的快速發(fā)展,光譜技術(shù)應(yīng)用于品質(zhì)識(shí)別與鑒定已成為熱點(diǎn)研究領(lǐng)域之一。由于光譜中包含了大量被測(cè)物品信息,如何高效地對(duì)光譜特征進(jìn)行提取篩選以實(shí)現(xiàn)高精度識(shí)別是當(dāng)前亟需解決的難題。張保霞[7]利用主成分分析法對(duì)豬肉光譜進(jìn)行降維處理,提取出豬肉光譜特征,并采用支持向量機(jī)進(jìn)行品質(zhì)辨識(shí),該方法識(shí)別精度可以達(dá)到92.31%以上,但是,該方法提取的特征能否保持原始數(shù)據(jù)分類能力有待進(jìn)一步研究。吳葉蘭等[8]采用主成分分析法對(duì)高光譜成像特征進(jìn)行篩選,并利用隨機(jī)森林模型進(jìn)行識(shí)別,有效分辨出了柑橘病蟲害葉,但是主成分分析法對(duì)噪聲魯棒性不強(qiáng),誤差較大。孔德明等[9]面對(duì)海量光譜數(shù)據(jù),采用稀疏主成分分析法進(jìn)行特征提取,得到的分類準(zhǔn)確率比主成分分析法提高了5%,但是該方法采用網(wǎng)格搜索法配置支持向量機(jī)模型參數(shù),容易陷入局部最優(yōu),影響了識(shí)別精度。
牛肉品質(zhì)識(shí)別過程需要進(jìn)行大量數(shù)據(jù)樣本訓(xùn)練,而以往研究往往忽略了數(shù)據(jù)差異性對(duì)識(shí)別精度的影響,尤其是當(dāng)訓(xùn)練樣本存在較多異常點(diǎn)時(shí),得到的識(shí)別結(jié)果是不可靠的。為了降低數(shù)據(jù)差異性以及光譜特征冗余度對(duì)牛肉品質(zhì)識(shí)別的影響,研究擬采用DPeak[10]對(duì)牛肉光譜進(jìn)行分類,使得同類內(nèi)數(shù)據(jù)有更多的相似性,不同類數(shù)據(jù)具有更多的差異性;設(shè)計(jì)分類光譜特征提取機(jī)制,盡可能降低數(shù)據(jù)維度,并最大限度保持原始數(shù)據(jù)辨識(shí)能力;運(yùn)用獅群算法[11-12]對(duì)分類支持向量機(jī)(SVM)模型參數(shù)進(jìn)行優(yōu)化,得到最優(yōu)模型參數(shù)配置;并建立融合分類特征提取和SVM的牛肉品質(zhì)識(shí)別模型,以提高牛肉品質(zhì)分類識(shí)別精度。
正常肉、白肌肉、黑干肉試驗(yàn)樣本:取生鮮牛肉股二頭肌、左右側(cè)背最長(zhǎng)肌,每塊樣品去除結(jié)締組織,切割厚度30 mm,并取每塊樣品的局部進(jìn)行化學(xué)分析以確定所屬品質(zhì),市售;
摻假牛肉樣本:指定合成牛肉生產(chǎn)商,按5%,10%,15%,20%,25%比例在牛肉中摻加鴨肉,并于-30 ℃冷凍,冷藏解凍24 h后制成摻假牛肉樣品。
所有樣品統(tǒng)一標(biāo)簽備注,按正常肉∶白肌肉∶黑干肉∶摻假肉為1∶1∶1∶1的比例選取300個(gè)樣本組成訓(xùn)練樣本集,隨機(jī)選取4類牛肉80個(gè)組成測(cè)試集。結(jié)合化學(xué)分析的pH值、乳酸含量、肌糖原、摻假比例等指標(biāo)[13],建立牛肉品質(zhì)指數(shù)與品質(zhì)類別對(duì)應(yīng)表,并采用專家判定法[14]按表1對(duì)每個(gè)訓(xùn)練樣本、測(cè)試樣本品質(zhì)指數(shù)進(jìn)行賦值。
表1 牛肉品質(zhì)指標(biāo)與品質(zhì)類別對(duì)應(yīng)表Table 1 Corresponding table of beef quality index and quality category
利用近紅外光譜儀采集樣本全波段(FS)數(shù)據(jù),得到訓(xùn)練樣本FS數(shù)據(jù)集合和測(cè)試樣本FS數(shù)據(jù)集合。對(duì)于訓(xùn)練樣本FS數(shù)據(jù)集合,設(shè)計(jì)改進(jìn)的DPeak算法(IDPeak)進(jìn)行聚類分析,得到多個(gè)FS分類;定義分類牛肉光譜特征提取目標(biāo)函數(shù),采用改進(jìn)LSO(ILSO)進(jìn)行求解,提取到每個(gè)分類最佳光譜特征子集;利用改進(jìn)ILSO對(duì)分類SVM參數(shù)進(jìn)行優(yōu)化,建立融合分類特征提取和SVM的牛肉品質(zhì)識(shí)別模型。對(duì)于測(cè)試樣本FS數(shù)據(jù)集合,找到每個(gè)待測(cè)試樣本光譜數(shù)據(jù)對(duì)應(yīng)的分類,利用該分類識(shí)別模型提取特征參數(shù),并進(jìn)行牛肉品質(zhì)識(shí)別,最終得到識(shí)別結(jié)果,牛肉品質(zhì)識(shí)別方法示意圖見圖1。
圖1 牛肉品質(zhì)識(shí)別方法示意圖Figure 1 Schematic diagram of beef quality identification method
獅群算法(LSO)設(shè)置獅王、母獅、幼獅3種類型個(gè)體,分別執(zhí)行不同的更新進(jìn)化策略,其算法核心在于平衡局部搜索與全局搜索,具有較好的收斂能力[15-16]。LSO缺陷主要有:幼獅等概率選取獅王、母獅、反向?qū)W習(xí)進(jìn)行進(jìn)化,導(dǎo)致算法初期不利于大范圍搜索,算法后期影響了收斂速度;公獅、母獅只選擇向自身歷史最優(yōu)解和當(dāng)前公獅、母獅群體最優(yōu)解進(jìn)行學(xué)習(xí),容易陷入局部最優(yōu);個(gè)體進(jìn)化控制系數(shù)隨機(jī)選取,不利于保持種群多樣性。為此提出ILSO,自適應(yīng)調(diào)整幼獅不同學(xué)習(xí)進(jìn)化的個(gè)體規(guī)模,增加獅王、母獅學(xué)習(xí)對(duì)象種類,設(shè)計(jì)改進(jìn)的進(jìn)化控制系數(shù),并以概率的形式接受不好的解。
2.1.1 自適應(yīng)學(xué)習(xí) 以最小值優(yōu)化問題為例(目標(biāo)優(yōu)化函數(shù)為f),LSO種群規(guī)模為Q、最大迭代次數(shù)Tmax、幼獅個(gè)體數(shù)量為Nc。t時(shí)刻,種群最優(yōu)解、最差解為Xb(t)、Xw(t),采取向獅王、母獅和反向進(jìn)化學(xué)習(xí)的幼獅個(gè)體數(shù)量分別為Nc,1、Nc,2、Nc,3。
(1)
(2)
Nc,2=Nc-Nc,1-Nc,2,
(3)
式中:
γ1、γ2——個(gè)體數(shù)量控制系數(shù);
ε——極小常數(shù)。
由式(1)~式(3)可知,算法初期,幼獅更多的個(gè)體向具有更優(yōu)目標(biāo)函數(shù)值的獅王位置進(jìn)行移動(dòng),加速了算法收斂速度;隨著迭代次數(shù)的增加,種群整體趨向全局最優(yōu)解,此時(shí),幼獅更多的個(gè)體執(zhí)行反向進(jìn)化操作,提高了算法跳出局部極值的概率和收斂精度。
2.1.2 學(xué)習(xí)對(duì)象擴(kuò)展與進(jìn)化控制t時(shí)刻,對(duì)于XL,i(t)、母獅XM,j(t),引入種群其他個(gè)體信息以擴(kuò)展搜索空間:
XL,i(t)=ωXb(t)+rand(-1,1)[pL,i-XL,i(t)]+rand(-1,1)[XL,i(t)-XL,a(t)],
(4)
XM,j(t)=ωXb(t)+rand(-1,1)[XM,j(t)-XM,b(t)]+rand(-1,1)[XM,j(t)-XM,c(t)],
(5)
(6)
式中:
ω(ωmin、ωmax)——進(jìn)化控制系數(shù)(邊界);
pL,i-XL,i(t)——?dú)v史最優(yōu)解;
XL,a(t)[XM,b(t)、XM,c(t)]——公獅(母獅)其他個(gè)體;
f、favg——LSO當(dāng)前個(gè)體目標(biāo)函數(shù)值、種群目標(biāo)函數(shù)平均值。
由式(4)~式(6)可知,獅王(母獅)迭代進(jìn)化中引入種群最優(yōu)解和其他公獅(母獅)個(gè)體信息,并根據(jù)自身目標(biāo)函數(shù)值動(dòng)態(tài)調(diào)整向種群最優(yōu)解學(xué)習(xí)進(jìn)化程度,有效擴(kuò)展了種群搜索空間,提高了算法收斂精度。
2.1.3 概率進(jìn)化 當(dāng)獅群內(nèi)個(gè)體Xi(t)執(zhí)行完設(shè)定的更新策略后得到新的個(gè)體Xi,new(t),若Xi,new(t)目標(biāo)函數(shù)值優(yōu)于Xi(t),則用Xi,new(t)替代Xi(t);否則,以概率p接受Xi,new(t):
(7)
式中:
α——比例系數(shù)。
根據(jù)馬爾科夫鏈理論[17],采用概率的形式接受不好的解,使得ILSO算法能夠以概率1收斂于全局最優(yōu)解。從ILSO算法實(shí)現(xiàn)可知,對(duì)于D維優(yōu)化問題,算法種群初始化復(fù)雜度O(Q),算法迭代一次復(fù)雜度為O(QlgD),總計(jì)算復(fù)雜度為TmaxO(QlgD)+O(Q)≈TmaxO(QlgD)。
增加訓(xùn)練樣本規(guī)模能改善模型訓(xùn)練效果,有利于提高識(shí)別精度,但是,訓(xùn)練樣本規(guī)模增加的同時(shí),也帶入了大量噪聲、孤立點(diǎn)等信息,若不妥善處理數(shù)據(jù)樣本差異性,得到的識(shí)別結(jié)果往往是不可靠的。為此,引入改進(jìn)DPeak算法(IDPeak)對(duì)訓(xùn)練樣本進(jìn)行聚類分析,降低數(shù)據(jù)差異性對(duì)識(shí)別精度的影響。DPeak算法作為一種粒度計(jì)算模型,具有參數(shù)簡(jiǎn)單、魯棒性強(qiáng)等特點(diǎn),對(duì)于大部分?jǐn)?shù)據(jù)類型都有著很好的適應(yīng)性[18]。對(duì)于牛肉光譜訓(xùn)練樣本數(shù)據(jù)集合Θ={Si}i=1,…,N,每個(gè)樣本Xi由n個(gè)波段組成Si=(si1,…,sin),設(shè)Si到Sj的歐式距離為dij,DPeak定義局部密度ρi、最近點(diǎn)距離δi、分類判定參數(shù)γi:
(8)
式中:
dc——截?cái)嗑嚯x(DPeak算法唯一設(shè)定參數(shù)),m。
DPeak基于ρi、δi、γi建立決策圖,將數(shù)據(jù)點(diǎn)劃分為離群點(diǎn)、密度峰值點(diǎn)和正常點(diǎn),并選取決策圖右上方的點(diǎn)為聚類(分類)中心。對(duì)于多孤立點(diǎn)復(fù)雜聚類問題,DPeak聚類效果不佳,且dc的取值大小直接影響了ρi、δi、γi,為此,設(shè)計(jì)改進(jìn)DPeak(IDPeak)算法,采用核距離Dij對(duì)Si到Sj的距離進(jìn)行描述,并利用ILSO求解最佳截?cái)嗑嚯x:
Dij=‖Φ(Sj)-Φ(Si)‖2,
(9)
式中:
Φ(·)——核函數(shù)(文中選取高斯函數(shù))。
參照文獻(xiàn)[19]提出的邦費(fèi)羅尼指數(shù),定義聚類效果評(píng)價(jià)指標(biāo)(CEEI):
(10)
式中:
CEEI——聚類效果評(píng)價(jià)指標(biāo)。
CEEI取值越小,聚類效果越優(yōu)[19]。CEEI涉及σ、dc兩個(gè)參數(shù),采用ILSO對(duì)CEEI優(yōu)化,將個(gè)體編碼Xi等效為Xi=(σi,dc,i),目標(biāo)函數(shù)為f(X)=minCEEI。通過ILSO迭代進(jìn)化,最終得到最佳截?cái)嗑嚯xdc,max。圖2為IDPeak對(duì)4個(gè)典型數(shù)據(jù)集的聚類結(jié)果,其與FCM、DPeak聚類正確率對(duì)比見表2。由圖2和表2可知,IDPeak聚類結(jié)果更優(yōu)。
表2 評(píng)價(jià)指標(biāo)對(duì)比結(jié)果Table 2 Comparison results of evaluation indexes %
圖2 IDPeak典型數(shù)據(jù)集聚類結(jié)果Figure 2 Clustering results of typical IDPeak data sets
(11)
(12)
(13)
式中:
Η——類間相似度矩陣且為常數(shù)矩陣;
U——相關(guān)性矩陣。
分類特征提取的目的是通過確定V表達(dá)形式,使得提取到的特征波段盡可能保持原始數(shù)據(jù)的分類能力,為此,利用IDPeak對(duì)CL,i進(jìn)行聚類分析,以驗(yàn)證提取后波段特征的分類能力。式(13)中Η反映了IDPeak分類后的類間相似程度,U反映了Sij與類的相關(guān)性,可以采用最大信息系數(shù)法[20]求解。
當(dāng)TZT取最小值時(shí)對(duì)應(yīng)的V即為最佳特征波段提取向量Vbest,為此,采用ILSO對(duì)TZT最小值問題進(jìn)行優(yōu)化,將個(gè)體編碼Xi等效為Xi=V,目標(biāo)函數(shù)為f(X)=minTZT。由于TZT最小值問題屬于離散問題,對(duì)ILSO對(duì)應(yīng)的式(4)、式(5)進(jìn)化方式進(jìn)行離散化理解,即ωXb(t)理解為隨機(jī)選取Xb(t)內(nèi)ω個(gè)編碼位進(jìn)行替代操作,rand(-1,1)[XM,j(t)-XM,b(t)]理解為隨機(jī)選取[rand(-1,1)×m]個(gè)編碼位進(jìn)行替代操作[m為XM,j(t)、XM,b(t)不同編碼位的個(gè)數(shù)]。
(14)
式中:
y——模型輸出;
K(·)——核函數(shù),參數(shù)為θ;
λ——懲罰參數(shù);
b——超平面偏差。
(15)
式中:
W——訓(xùn)練次數(shù);
ILSO循環(huán)迭代進(jìn)化,最終得到分類CL,i的SVM模型最佳參數(shù)組合(λ,θ)best,i。對(duì)于測(cè)試樣本FS數(shù)據(jù)集合Θs={Zi},牛肉品質(zhì)識(shí)別實(shí)現(xiàn)過程為:根據(jù)Zi與Θ={Si}i=1,…,N每個(gè)分類中心的距離判定其所屬分類,采用1stDer等方法數(shù)據(jù)預(yù)處理后,利用該分類對(duì)應(yīng)的最佳特征波段提取向量特征波段,將其作為分類SVM模型輸入,通過SVM模型識(shí)別預(yù)測(cè),最終完成Zi牛肉品質(zhì)識(shí)別。
采用Thermo公司生產(chǎn)的AntarisⅡ型近紅外光譜儀進(jìn)行全波段掃描,光譜采集軟件為Avasoft7.4版本,數(shù)據(jù)處理軟件為MATLAB2017a,圖3為試驗(yàn)方法示意圖。
圖3 試驗(yàn)方法示意圖Figure 3 Schematic diagram of test method
由表3可知,IDPeak算法將訓(xùn)練數(shù)據(jù)集劃分為7個(gè)分類,對(duì)于每個(gè)分類,無論是直接進(jìn)行特征提取,還是先經(jīng)過1stDer預(yù)處理再進(jìn)行特征提取,每個(gè)分類提取到的特征波段是不同的,表明不同類數(shù)據(jù)具有較大的差異性,且數(shù)據(jù)經(jīng)過預(yù)處理后,特征波段也發(fā)生了變化,這種差異性和特征變化會(huì)影響最后識(shí)別精度。由圖4可知,相比于LSO、PSO算法,ILSO收斂速度更快,收斂精度更高。由表4可知,不同分類中同時(shí)包含了多種品質(zhì)類型的牛肉樣本,例如,對(duì)于“分類7”,同時(shí)包含了正常肉、黑干肉和摻假肉3種牛肉品質(zhì)類型,表明不同牛肉品質(zhì)的樣本在光譜特性上有相似性,進(jìn)一步驗(yàn)證了采用分類進(jìn)行牛肉品質(zhì)識(shí)別的重要性。
表3 分類結(jié)果與分類特征波段提取結(jié)果Table 3 Classification results and classification feature band extraction results
表4 每個(gè)分類樣本對(duì)應(yīng)牛肉品質(zhì)類型及個(gè)數(shù)Table 4 Number of samples and beef quality type of each classification
圖4 ILSO優(yōu)化CEEI、TZT收斂曲線Figure 4 ILSO optimization and convergence curve
利用測(cè)試樣本數(shù)據(jù)集合驗(yàn)證文中所提融合分類特征提取和ILSO優(yōu)化SVM識(shí)別模型(IDPeak-ILSO-SVM)精度,表5給出了識(shí)別精度結(jié)果。
設(shè)置對(duì)比試驗(yàn)場(chǎng)景1:不對(duì)訓(xùn)練樣本進(jìn)行聚類,采用主成分分析法(PCA)和文中提出的最佳特征提取方法(CEEI)對(duì)訓(xùn)練樣本進(jìn)行特征提取,采用文中提出的ILSO優(yōu)化SVM模型(ILSO-SVM)進(jìn)行識(shí)別,表6給出了識(shí)別精度對(duì)比結(jié)果。
設(shè)置試驗(yàn)場(chǎng)景2:利用DPeak、IDPeak對(duì)訓(xùn)練樣本進(jìn)行聚類,采用CEEI提取特征波段,并運(yùn)用RF、ILSO-SVM進(jìn)行識(shí)別,表6給出了識(shí)別精度對(duì)比結(jié)果。
由表5~表7可知,不同數(shù)據(jù)預(yù)處理方法對(duì)識(shí)別精度影響不同,相比于多元散射校正(MSC)、標(biāo)準(zhǔn)正態(tài)變換(SNV)預(yù)處理方法以及原始數(shù)據(jù),經(jīng)1stDer預(yù)處理后的識(shí)別精度更高,而MSC表現(xiàn)最差。未進(jìn)行聚類分析時(shí),經(jīng)1stDer預(yù)處理后,ILSO-SVM對(duì)4種牛肉品質(zhì)的識(shí)別精度分別為92.4%,91.7%,92.8%,91.1%;采用DPeak算法進(jìn)行聚類分析時(shí),ILSO-SVM的識(shí)別精度分別為93.1%,92.8%,93.4%,93.5%;采用IDPeak算法進(jìn)行聚類分析時(shí),ILSO-SVM的識(shí)別精度分別為99.6%,99.1%,99.9%,99.5%,表明利用IDPeak算法進(jìn)行聚類分析,降低了數(shù)據(jù)差異性對(duì)識(shí)別精度的影響。
表5 IDPeak-ILSO-SVM模型識(shí)別精度Table 5 IDPeak-ILSO-SVM recognition accuracy %
由表6可知(以1stDer預(yù)處理數(shù)據(jù)為例),未提取特征波段,ILSO-SVM的識(shí)別精度分別為82.6%,81.5%,79.6%,80.5%;采用PCA提取特征波段時(shí),ILSO-SVM的識(shí)別精度分別為88.4%,89.3%,86.2%,87.5%;采用CEEI進(jìn)行特征提取時(shí),ILSO-SVM的識(shí)別精度分別為92.4%,91.7%,92.8%,91.1%(未進(jìn)行聚類分析的情況下),表明利用CEEI提取到的特征波段的識(shí)別能力優(yōu)于PCA算法,識(shí)別精度更高。由表7可知,采用IDPeak算法聚類分析、CEEI分類特征提取,RF的識(shí)別精度分別為94.2%,93.6%,92.7%,94.6%,低于ILSO-SVM識(shí)別精度,表明采用ILSO對(duì)SVM進(jìn)行參數(shù)配置,提高了模型的識(shí)別精度。
表6 試驗(yàn)場(chǎng)景1下ILSO-SVM模型識(shí)別精度對(duì)比Table 6 Comparison of recognition accuracy under comparative test scenario 1 %
表7 試驗(yàn)場(chǎng)景2下模型算法識(shí)別精度對(duì)比Table 7 Comparison of recognition accuracy under comparative test scenario 2 %
為進(jìn)一步驗(yàn)證所提IDPeak-ILSO-SVM性能,與SSA-SVM[7]、1stDer-PCA-SVM[8]進(jìn)行對(duì)比,每種方法獨(dú)立運(yùn)行30次,選取識(shí)別精度均值、均方根誤差均值為評(píng)價(jià)指標(biāo),對(duì)比結(jié)果見表8。由表8可知,相比于其他2種識(shí)別模型,IDPeak-ILSO-SVM的識(shí)別精度均值、均方根誤差均值更優(yōu),識(shí)別精度提高了約5.02%~8.30%,更適用于牛肉品質(zhì)識(shí)別。
表8 不同識(shí)別方法評(píng)價(jià)指標(biāo)對(duì)比Table 8 Comparison of evaluation indexes of different identification methods
對(duì)正常肉、白肌肉、黑干肉、摻假肉4種牛肉品質(zhì)類型識(shí)別問題進(jìn)行研究,提出了基于分類特征提取和深度學(xué)習(xí)的牛肉品質(zhì)識(shí)別方法。結(jié)果表明,通過設(shè)計(jì)改進(jìn)DPeak算法、最佳分類特征波段提取策略和ILSO優(yōu)化SVM模型,降低了數(shù)據(jù)差異性以及特征冗余度對(duì)識(shí)別精度的影響,識(shí)別精度更高。下一步,將圍繞提高在線牛肉品質(zhì)識(shí)別精度問題進(jìn)行研究。