李 萍,潘 杰
LI Ping, PAN Jie
(鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院 信息工程系,鄭州 451191)
河南是煙葉種植大省,烤煙葉的顏色、形狀、香氣、燃吸勁頭等幾大因素影響煙葉的品質(zhì)做好煙葉的分級和收購工作十分重要,分級的好壞直接影響煙農(nóng)的經(jīng)濟(jì)利益和后期生產(chǎn)出的卷煙質(zhì)量。傳統(tǒng)的人工分級主要從煙葉的色、味、型等因素著手分級,人工方法的分級準(zhǔn)確率高低依賴于技術(shù)人員的工作經(jīng)驗的多寡和收購現(xiàn)場的環(huán)境。隨著計算機(jī)和圖像處理技術(shù)的發(fā)展,人們開始研究怎么從烤煙葉圖像的特征實現(xiàn)煙葉的等級劃分,如1988年Thomas C.E就將圖像處理技術(shù)引入煙葉和成品卷煙測量領(lǐng)域[1];J.K.M.MacCormac運(yùn)用圖像分析處理方法對津巴布韋境內(nèi)的煙葉做了識別[2];張建平等人通過研究煙草外觀品質(zhì)特征,提出了較為合理的定量檢測方法,為研究烤煙葉分級測定儀器打下基礎(chǔ)[3];韓力群教授提出結(jié)合神經(jīng)網(wǎng)絡(luò)的煙葉智能分級有很高的分級準(zhǔn)確率[4]等,但是這些圖像處理技術(shù)不能反映煙葉的內(nèi)部化學(xué)特征。為解決這一缺陷可采用光譜分析的方法來對烤煙葉進(jìn)行分級,光譜分析的方法主要依據(jù)烤煙葉的內(nèi)部的化學(xué)成分的含量確定煙葉級別。譚仲夏等運(yùn)用關(guān)聯(lián)度的分析方法對煙葉的主要化學(xué)成分與其感官的質(zhì)量進(jìn)行了關(guān)聯(lián)分析[5];張學(xué)平等對煙葉樣本的化學(xué)成分進(jìn)行特征差異分析,發(fā)現(xiàn)不同類別的煙葉的主要化學(xué)成分存在較為明顯的差異[6],像成熟度、油分、厚度等這些特征主要表現(xiàn)在煙葉的內(nèi)在化學(xué)成分的含量不同,在烤煙葉的光譜中表現(xiàn)為吸收峰強(qiáng)度和位置的差異。所以本文采用烤煙葉近紅外光譜數(shù)據(jù)結(jié)合SVM的方法來進(jìn)行烤煙葉的智能分級。
支持向量機(jī)(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,支持向量機(jī)方法是建立在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力。設(shè)訓(xùn)練樣本輸入為xi,i=1,2,…,I,對應(yīng)的期望輸出為yi={+1,-1}。
圖1 兩類待分類的樣本
圖1表示對給定訓(xùn)練數(shù)據(jù)集做二值分類的問題,其中方塊和圓圈分別代表空間中的+1類樣本和-1類樣本,在這里利用特征空間上的超平面對其進(jìn)行分類,為了將兩類樣本分開,設(shè)用于分離的超平面方程為:
其中w是超平面的方向向量,b是超平面的常數(shù)項。最優(yōu)分類線是指在將兩類樣本正確分開的基礎(chǔ)上,使它們的間隔最大。在圖1中,L1、L2分別為各類中離分類線L最近的樣本,它們之間的距離叫做分類間隔。SVM的思想就是建立一個超平面來作為決策曲面,從而使兩類樣本之間的分類間隔最大,即相當(dāng)于求其最大間隔。若定義滿足式(2)或式(3)的特殊數(shù)據(jù)點(diǎn)(ui,vi)稱為支持向量:
支持向量是哪些最接近最優(yōu)分類超平面的點(diǎn),這些數(shù)據(jù)點(diǎn)是最難分類的,在圖1中的L1和L2上的點(diǎn)就叫支持向量。這樣最優(yōu)分類超平面就轉(zhuǎn)化為求L1和L2之間的最大間隔。設(shè)L1的直線方程為式(2),L2的直線方程為式(3),u1,u2分別是L1和L2上的一點(diǎn),則L1和L2之間的間隔為
將x1,x2帶入式(2)和式(3)得:
最大間隔問題,最終歸結(jié)為二次規(guī)劃問題,即求式(7)的解:
對于一些線性不可分的樣本數(shù)據(jù),由于不能滿足式(6),所以加入松弛因子來實現(xiàn),即式(7)轉(zhuǎn)化為:
本文的烤煙葉樣本數(shù)據(jù)來自河南省煙草公司鄭州市公司提供的2014年標(biāo)準(zhǔn)樣本,有B2F、B3F、B4F、X2F、X3F、X4F、X2L、X3L、X4L、C2F、C3F、C2L、C3L共13組烤煙葉樣本。光譜采集儀器采用的是島津公司的分光光度計UV-3600,采集的光譜波長范圍為300nm~2600nm,波長間隔為2nm,光譜類型包括:反射光譜和透射光譜。由于光譜數(shù)據(jù)存在一定的機(jī)器噪聲,本文采取對原始光譜數(shù)據(jù)如下的預(yù)處理:
其中x為原始的煙葉樣本波長吸收值向量,xi為預(yù)處理前的每個波長處吸收強(qiáng)度值,yi為對應(yīng)的預(yù)處理后的每個波長處吸收強(qiáng)度值。通過預(yù)處理可以降低機(jī)器噪聲對光譜數(shù)據(jù)的影響和除去光譜儀器采集時可能出現(xiàn)的基線漂移的影響。圖2為B2F組烤煙葉的反射光譜和透射光譜。圖3為B2F組烤煙葉的反射光譜和透射光譜的預(yù)處理后的效果。
圖2 B2F反射光譜和透射光譜
圖3 B2F反射光譜和透射光譜預(yù)處理后效果
本文是所用到的仿真環(huán)境是matlab R2009a,SVM軟件包為frauto的libsvm-mat-2.89-3。選用反射光譜和透射光譜分別進(jìn)行分部位、分等級實驗。分類器選擇SVM的RBF核函數(shù)和線性核函數(shù)兩種,其中分類器的參數(shù)優(yōu)化選擇及由此所帶來了的時間代價不在本文的研究范圍之內(nèi),故未列出對比。但是,由于選擇RBF核函數(shù)時需要優(yōu)化懲罰因子C和參數(shù),而線性核函數(shù)時只需要優(yōu)化選擇懲罰因子C,所以理論上選擇線性核函數(shù)整體時間代價肯定小于RBF核函數(shù)的情況。
下面分別利用兩種不同的核函數(shù)對相同等級相同顏色烤煙葉的不同部位進(jìn)行測試,波長范圍為1660nm~3000nm,測試數(shù)據(jù)如表1所示。
表1中組別:代表訓(xùn)練和測試的樣本所屬組別,例如C2L(54)表示C(中部)2等級L(檸檬黃)類煙葉樣本的總數(shù)目為54片,Acc(RBF反)表示SVM選擇RBF核函數(shù)時反射光譜訓(xùn)練和測試的準(zhǔn)確率,同理Acc(線性反)表示選擇線性核函數(shù)時反射光譜訓(xùn)練和測試的準(zhǔn)確率,Acc(RBF透)表示選擇RBF核函數(shù)時透射光譜訓(xùn)練和測試的準(zhǔn)確率Acc(線性透)表示選擇線性核函數(shù)時透射光譜訓(xùn)練和測試的準(zhǔn)確率。
從以上表中數(shù)據(jù)可以看出:烤煙葉的反射光譜在分部位的準(zhǔn)確率都比透射光譜的準(zhǔn)確率高,測試樣本分類準(zhǔn)確率可達(dá)到85%以上。另外,在核函數(shù)的選擇上,線性核函數(shù)的分類準(zhǔn)確率高于RBF核函數(shù)。以上結(jié)論不僅僅適用于分部位測試,同樣也適用于其他分類,并且能夠滿足工業(yè)生產(chǎn)的耗時需求。采用線性核函數(shù),波長范圍同樣為1660nm~3000nm的近紅外光對相同部位相同顏色不同等級的烤煙葉進(jìn)行測試,表2為分等級的反射光譜訓(xùn)練和測試樣本數(shù)和正確率:
從表2中的數(shù)據(jù)可以看出,采用線性核函數(shù)的烤煙葉反射光譜在分等級測試時依然有效,測試樣本的識別率也都在85%以上;波長范圍1660nm~3000nm,波長間隔10nm的烤煙葉的吸收光譜數(shù)據(jù)可以作為煙葉分級的數(shù)據(jù)選取有效波長范圍和間隔,能夠滿足工業(yè)生產(chǎn)的耗時需求。從SVM支持向量機(jī)的理論基礎(chǔ)和表中的訓(xùn)練樣本數(shù)目的數(shù)據(jù)可以看出,SVM的分類方法對小樣本、高維、非線性模式分類有很大優(yōu)勢,很適合煙葉光譜這種高維度、非線性的數(shù)據(jù)的分類。
表1 反射及透射光譜數(shù)據(jù)分部位準(zhǔn)確率(RBF和線性兩種核函數(shù))
表2 反射光譜分等級訓(xùn)練和測試結(jié)果(波長間隔10nm)
通過本文仿真結(jié)果可以得出,烤煙葉的反射光譜在分部位和分等級的準(zhǔn)確率都比透射光譜的準(zhǔn)確率高,在核函數(shù)的選擇上,線性核函數(shù)的分類準(zhǔn)確率高于RBF核函數(shù),選定1660nm~3000nm的波長范圍和10nm的間隔作為烤煙葉的主組內(nèi)分級數(shù)據(jù)的有效波長范圍和間隔。通過仿真驗證是有效且可靠的,這為以后煙葉分級的進(jìn)一步研究奠定了基礎(chǔ);選用SVM支持向量機(jī)作為智能分級的算法核心并且選用線性核函數(shù)作為訓(xùn)練網(wǎng)絡(luò)和分級的核心算法組成部分,為煙葉分級這種高維度、分線性數(shù)據(jù)樣本的分類方法做了一定的探討,仿真結(jié)果驗證是可行的;最后,若將SVM支持向量機(jī)方法引進(jìn)到煙葉的光譜數(shù)據(jù)分級中,其時間花費(fèi)完全可以滿足煙葉實時分級的工業(yè)級要求。
[1]Thomas C.E.Techniques of image analysis applied to the measurement of tobacco and related products[R].42nd Tobacco Chemists ’Research Conference,1988.
[2]J.K.M.MacCormac.On-line image processing for tobacco grading in Zimbabwe[R],1993,IEEE:327-371.
[3]張建平,吳守一,方如明.農(nóng)產(chǎn)品質(zhì)量的計算機(jī)輔助檢驗與分級(第Ⅰ報)煙葉外觀品質(zhì)特征的定量檢驗[J].農(nóng)業(yè)工程學(xué)報,1996,12(3):158-162.
[4]韓力群,何為,段振剛,等.烤煙煙葉自動分級的智能技術(shù)[J].農(nóng)業(yè)工程學(xué)報.2002,18(6):173-175.
[5]譚仲夏,秦西云.煙葉主要化學(xué)指標(biāo)與其感官質(zhì)量的灰色關(guān)聯(lián)分析[J].廣西民族大學(xué)學(xué)報(自然科學(xué)版).2008,11:67-72.
[6]陳學(xué)平,張良,郭家明,等.多個化學(xué)成分指標(biāo)煙葉樣品的聚類分析研究[J].中國煙草學(xué)報,2002,8(4):21-26.
[7]Vladimir Vapnik.統(tǒng)計學(xué)理論的本質(zhì)[M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000.