于仁師,孫華麗,宋欣欣,韓仲志*(.青島農(nóng)業(yè)大學(xué) 理學(xué)與信息科學(xué)學(xué)院,山東 青島 6609; .青島出入境檢驗檢疫局,山東 青島 6600)
基于支持向量機的花生莢果品種識別模型優(yōu)化研究
于仁師1,孫華麗1,宋欣欣2,韓仲志1*
(1.青島農(nóng)業(yè)大學(xué) 理學(xué)與信息科學(xué)學(xué)院,山東 青島 266109; 2.青島出入境檢驗檢疫局,山東 青島 266001)
為實現(xiàn)通過自動化手段進行花生品種真?zhèn)蔚蔫b定,通過掃描儀采集了花生莢果側(cè)面的圖像,花生共20個品種,每個品種50個花生莢果,對采集的每幅圖像提取形態(tài)、顏色、紋理方面的50個特征,首先通過主分量分析(PCA)對這些特征進行組合優(yōu)化,然后采用RBF核函數(shù)搭建了支持向量機模型,最后通過網(wǎng)格搜索法、基因算法和粒子群方法優(yōu)化支持向量機模型的懲罰參數(shù)c與gamma參數(shù)。優(yōu)化結(jié)果表明,在主成分累積貢獻率為95%時,PCA是10個主分量,3種參數(shù)優(yōu)化方案中20個品種的5折交叉驗證識別率分別為78.6%、77.6%、78.0%,識別效果相當,花生品種真?zhèn)蔚亩诸愖R別率最高達到95%。優(yōu)化后該模型對品種真?zhèn)蔚淖R別已經(jīng)基本可以推廣到實際生產(chǎn)中使用。
花生莢果; 品種識別; 支持向量機; 模型優(yōu)化
我國花生產(chǎn)量居世界第一,花生品種識別是花生品種流通、種植和選育的關(guān)鍵。花生莢果形態(tài)特征[1]是花生DUS測試的主要性狀,目前數(shù)據(jù)采集主要依靠目測和手工測量。圖像處理技術(shù)通過采集種子外觀特征數(shù)據(jù),進而建立識別模型來鑒別不同品種。采用圖像處理技術(shù)對花生品種進行識別,有助于提高品種識別自動化和精確度。
近年來,圖像處理技術(shù)廣泛應(yīng)用于農(nóng)產(chǎn)品的品種鑒別,主要應(yīng)用于小麥[2]、水稻[3]和玉米[4-5]等糧食作物上,筆者前期將圖像處理技術(shù)應(yīng)用于花生仁的品質(zhì)檢測中[6],并在花生莢果圖像品種識別與DUS測試研究方面做了有意義的探索[7]。然而在花生莢果種子品種識別檢驗過程中對模型的優(yōu)化問題,鮮有文獻提及。在前期工作[7]的基礎(chǔ)上,本研究主要探討了花生莢果識別過程中特征優(yōu)化、參數(shù)優(yōu)化、樣本選擇等問題對花生品種識別模型的影響,以期獲得最優(yōu)的花生莢果識別模型。
1.1 試驗材料
供試花生品種共20個,均是農(nóng)民自留種,品種采集區(qū)域為河北(冀花2號、冀花4號、冀花5號、中農(nóng)108、天府3號),山東萊陽(濰花8號、花育22、矮2、萊農(nóng)13號)、日照(101花生、小白沙、魯花9號)、濰坊(p12、未知名3個品種)和青島農(nóng)業(yè)大學(xué)試驗站(花育25、青花6號、魯花11、16-2)。上述品種依次編號為1~20,這些品種主要為北方大果花生品種。每個品種選取正常無破損的帶殼雙粒莢果100個。
按固定次序?qū)⒒ㄉv果擺放于掃描儀上,為使背景為黑色,掃描時打開掃描儀蓋板,用掃描儀(佳能 CanoScan 8800F)進行圖像掃描。圖1為青島農(nóng)業(yè)大學(xué)選育的花生新品種青花6號的掃描圖像。數(shù)據(jù)處理使用的計算機為聯(lián)想ideaCentre Kx 8160,Winows XP操作系統(tǒng)。處理過程基于Matlab R2008a和LibSVM軟件編程實現(xiàn)。
1.2 方法
提取的外觀特征共分三大類50個特征(并對下面的特征進行編號1~50),其中形態(tài)類特征包括反映大小的特征(8個)和反映形狀的特征(5個),共13個;反映顏色的特征24個;反映紋理的特征13個。 對這些特征的定義參見相關(guān)文獻[7]。本研究所涉及的識別模型為支持向量機(SVM)模型[8],鑒于本研究需對多個品種進行識別,所以構(gòu)建一個多類SVM分類模型,類別數(shù)為20。
圖1 掃描圖像樣片(青花6號)
2.1 識別模型與結(jié)果
20個品種,每個品種50個莢果,每個莢果50個特征,共得到20×50×50的統(tǒng)計特征矩陣。基于這些統(tǒng)計特征分別使用SVM算法進行特征識別,由于特征數(shù)據(jù)量大,特征間會存在大量的信息冗余,所以在構(gòu)建識別模型之前有必要進行數(shù)據(jù)降維和特征優(yōu)化。在此選擇了主分量分析(PCA)的特征優(yōu)化方法,優(yōu)化后主分量的個數(shù)作為二次特征,然后構(gòu)建SVM算法進行品種識別。主分量個數(shù)的多少影響識別率,前10個主分量的貢獻率和累積貢獻率如圖2(a)所示,此時測得累積貢獻率接近95%,說明原始統(tǒng)計特征的主要信息集中在前面的主分量上。實際應(yīng)用中,涉及的品種數(shù)目往往較少,采用更少的PCA特征如3~5個主分量即可得到較為滿意的識別結(jié)果。圖2(b)是基于PCA特征的SVM模型識別的結(jié)果,其中縱坐標是類別標簽,當真實值和預(yù)測值重合時表示識別正確,非重合時表示識別錯誤。
圖2 主分量貢獻率和識別結(jié)果
SVM模型采用RBF核函數(shù)。其中核函數(shù)的懲罰參數(shù)c默認為1,參數(shù)gamma(g)默認為特征數(shù)的倒數(shù),1/20=0.05。采用5折交叉驗證法進行試驗,即在每個品種50個樣本中隨機選擇40個作為訓(xùn)練集,剩余10個作為測試集,由于每次選擇的訓(xùn)練樣本和測試樣本都是隨機產(chǎn)生的,所以每次識別的結(jié)果都不同。通過5個指標衡量模型參數(shù)的優(yōu)化性能,其中c和g默認分別取1和0.05,采用網(wǎng)格法優(yōu)化得到的最佳參數(shù)分別為724.077 3和0.022 1,由表1可以看出,采用優(yōu)化后的最佳參數(shù),5個指標都得到了不同程度的提高,可見,通過優(yōu)化可以得到最佳的識別模型,識別模型的參數(shù)嚴重影響識別模型的準確性能,合理優(yōu)化參數(shù)是必要的。
表1 平均10次5折交叉驗證的平均結(jié)果
指標參數(shù)取值c=1,g=0.05c=724.0773,g=0.0221分類準確率/%28.6061.65精確率/%30.1349243.07896召回率/%1545F-份數(shù)19.2063143.22215平衡準確率/%7.522.5
2.2 參數(shù)優(yōu)化方法對識別率的影響
SVM模型中選擇使用C-SVC模型和RBF核函數(shù)時,模型的參數(shù)嚴重影響識別模型的效果,需要對識別模型的參數(shù)c和g進行優(yōu)化,本研究選擇3種方法進行參數(shù)優(yōu)化。從表2可以看出,通過3種參數(shù)尋優(yōu)方法,均可有效提高識別率,對20個品種的總體識別率都達到了70%以上??梢姡?種優(yōu)化方法得到的識別效果相當。
表2 3種優(yōu)化算法的識別結(jié)果
方法網(wǎng)格搜索法基因算法粒子群方法最佳c值724.077343.811879.6759最佳g值0.02210.12280.10訓(xùn)練集識別率/%86.3885.6382.13測試集識別率/%75.5074.5076.00交叉驗證識別率/%78.677.678.0
注:表中數(shù)據(jù)為2次試驗的平均結(jié)果。
2.3 樣本和特征分析
試驗發(fā)現(xiàn),樣本數(shù)的增加會帶來識別率的下降,在類別較少時,如2個品種的二分類,PCA特征優(yōu)化后識別率達到90%以上[圖3(b)];當品種數(shù)量增加到20個時,識別率只有70%~80%(表2)。圖3(a)是對2個類別采用交叉驗證法測得的結(jié)果,其中顏色越深表示識別率越高;如品種編號5和19的識別率達到95%;圖3(b)表示前2個主分量對這2個品種(編號5和19)的散點分布圖,可以看出已經(jīng)基本上做到線性可分。但必須說明,特征的增加并不能進一步提高識別率,所以有必要對特征參數(shù)進行適當優(yōu)化。
圖3 兩類識別結(jié)果
一種極端情況,特征的數(shù)量為1個或2個,當特征為1個,則可以從中找出一些優(yōu)秀的特征,這些特征在進行花生品種DUS測試時十分有用,圖4(a)為特征數(shù)量為1即進行單特征識別時,采用默認參數(shù)的SVM模型對20個品種五折交叉驗證得到識別率的直方圖,可見有3個特征的識別率達到了20%左右(第11、14、45個特征),有1個特征識別率最高,為25%(第27個特征),平均識別率為12.7%。特征增加時,如2個特征組合時,識別率分布圖如圖4(b)所示,可以看出,當有2個特征時,兩兩組合特征識別率有所增加,但提高幅度不明顯,并且可以發(fā)現(xiàn)特征組合存在明顯的條帶特性,3個明顯的條帶出現(xiàn)在11、27、45左右,這與單特征識別率的趨勢相同,說明提取優(yōu)秀的特征仍是未來模式識別的核心內(nèi)容。
圖4 特征數(shù)量對識別率的影響(數(shù)量為1和2)
植物器官外觀表現(xiàn)是細胞分裂、生長、分化與代謝相互作用的最終形態(tài)體現(xiàn)[4]。這是本研究基于外觀圖像進行花生莢果品種識別的理論基礎(chǔ)。本研究表明,通過圖像處理的方法,采用合適的識別模型能夠?qū)δ骋换ㄉ贩N莢果的真?zhèn)芜M行有效鑒別。
特征的選擇和優(yōu)化方面,本研究基于PCA優(yōu)化了特征參數(shù),并得到了很好的效果,提高了模型識別的效率;模型的參數(shù)在很大程度上影響識別效果,在模型參數(shù)c和gamma的優(yōu)化問題上,比較了3種參數(shù)尋優(yōu)方法,結(jié)果表現(xiàn)出了大致相同的優(yōu)化性能,然而,如果需要在優(yōu)化算法中作出抉擇,選擇的依據(jù)是測試集識別率高的優(yōu)化方案,這種方案的泛化能力要強一些,另外選擇的依據(jù)是程序優(yōu)化時間。
特征和樣本數(shù)目多少在很大程度上影響著SVM模型的識別能力,本試驗研究了單、雙特征和兩類分類的極限情況,對單個特征的考察可以發(fā)現(xiàn)花生莢果圖像特征中有價值的品種性狀,將其作為DUS候選性狀[3],供遺傳育種家參考。在現(xiàn)今市場上往往需要鑒別的是種子的真?zhèn)危詢深悊栴}的識別更具有現(xiàn)實意義。
本研究詳細討論了基于支持向量機的花生莢果識別過程中的模型優(yōu)化問題,基于PCA的特征優(yōu)化使得原來的50個特征降低到10個,提高了模型的效率,對C-SVC模型懲罰函數(shù)和RBF核函數(shù)的優(yōu)化,使得識別率得到大幅提高,對特征的選擇和識別樣本的簡化使得模型更符合生產(chǎn)實際需要。實現(xiàn)了花生品種鑒定與真?zhèn)巫R別的自動化,可將相關(guān)成果推廣到實際生產(chǎn)中使用。
[1] 農(nóng)業(yè)部植物新品種測試(廣州)分中心.花生新品種DUS測試性狀照片拍攝規(guī)范[S].北京:中國農(nóng)業(yè)出版社,2010.
[2] Sakai N,Yonekawa S,Matsuzaki A,etal.Two-dimensional image analysis of the shape of rice and its application to separating varieties[J].Journal of Food Engineering,1996,27(4):397-407.
[3] Dubey B P,Bhagwat S G,Shouche S P,etal.Potential of artificial neural networks in varietal identification using morphometry of wheat grains[J].Biosystems Engineering,2006,95(1):61-67.
[4] 趙春明,韓仲志,楊錦忠,等.玉米果穗DUS性狀測試的圖像處理應(yīng)用研究[J].中國農(nóng)業(yè)科學(xué),2009,42(11):4100-4105.
[5] 韓仲志,趙友剛,楊錦忠.基于籽粒RGB圖像獨立分量的玉米胚部特征檢測[J].農(nóng)業(yè)工程學(xué)報,2010,26(3):222-226.
[6] 韓仲志,趙友剛.基于計算機視覺的花生品質(zhì)分級檢測研究[J].中國農(nóng)業(yè)科學(xué),2010,43(18):3882-3891.
[7] 韓仲志,趙友剛.利用花生莢果圖像特征識別品種與檢驗種子[J].作物學(xué)報,2012,38(3):535-540.
[8] Chang C C,Lin C J.LIBSVM:A library for support vector machines[DB/OL].[2015-03-01].http://wenku.baidu.com/view/b50dec6cb84ae45c3b358c18.html from=related.
Model Optimization of Peanut Varieties Recognition Based on Support Vector Machine
YU Renshi1,SUN Huali1,SONG Xinxin2,HAN Zhongzhi1*
(1.Science and Information College,Qingdao Agricultural University,Qingdao 266109,China; 2.Qingdao Entry Exit Inspection and Quarantine Bureau,Qingdao 266001,China)
In order to realize the identification of peanut varieties automatically,using scanner we collected the side images of peanut pods.Here were 20 varieties and each variety had 50 pods.For each image we extracted 50 characters of shape,color,and texture.First by principal component analysis (PCA) we did the combinatorial optimization on these characteristics,then using the RBF kernel function built a recognition model based on support vector machine,and finally,using the grid search,genetic algorithm and particle swarm methods optimized the penalty parameter C and gamma parameters of the support vector machine model.Optimization results showed that,when the principal component percentage was 95%,the number of principal components was 10.By the three parameter optimization methods,the recognition rates of five-fold cross validation were 78.6%,77.6%,78.0% separately for 20 varieties.If there were only 2 kinds of peanut cultivars,the highest classification recognition rate reached 95%.The method of identifying the authenticity of peanut varieties can be used in actual production.
peanut pods; varieties recognition; support vector machine; model optimization
2015-11-23
國家自然科學(xué)基金項目(31201133);青島市科技發(fā)展計劃項目(14-2-3-52-nsh);青島市民生計劃項目(13-1-3-107-nsh)
于仁師(1963-),男,山東萊陽人,副教授,本科,主要從事計算機應(yīng)用研究。E-mail:yurenshi@163.com
*通訊作者:韓仲志(1981-),男,山東莒南人,副教授,博士,主要從事計算機視覺研究。E-mail:hanzhongzhi@qau.edu.cn
S126;S565.2
A
1004-3268(2016)06-0157-04