萬路瑤 葉安勝
摘 要:為促進(jìn)農(nóng)業(yè)向精準(zhǔn)農(nóng)業(yè)、智慧農(nóng)業(yè)方向發(fā)展,針對種業(yè)中衡量種子質(zhì)量的重要指標(biāo)千粒重,為提高其精確度,提出基于非負(fù)矩陣分解與支持向量機(jī)的粘連種子分類算法,在利用機(jī)器視覺與圖像識別等技術(shù)進(jìn)行種子顆粒計數(shù)時,解決種子因嚴(yán)重粘連(經(jīng)圖像預(yù)處理、形態(tài)學(xué)操作等仍粘連)使系統(tǒng)出現(xiàn)誤判,導(dǎo)致計數(shù)結(jié)果誤差較大的問題。實(shí)驗以玉米種子為研究對象,研究3種常見粘連類型。采用基于NMF的方法實(shí)現(xiàn)種子粘連圖像有效特征的提取,再運(yùn)用SVM構(gòu)建多分類器,解決種子粘連類型的三分類問題,最后通過實(shí)驗驗證,該方法的分類準(zhǔn)確率為98%。
關(guān)鍵詞:非負(fù)矩陣分解;支持向量機(jī);種子粘連;種子分類
DOI:10. 11907/rjdk. 191464 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP317.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)002-0153-04
英標(biāo):Classification of Adhesive Seeds Based on NMF and SVM
英作:WAN Lu-yao, YE An-sheng
英單:(School of Information Science & Engineering, Chengdu University, Chengdu 610106, China)
Abstract: In order to respond to the national call to develop agriculture in a precise and smart way, and to measure the importance of seed quality in the seed industry and improve its accuracy, this paper proposes a classification of adhesion seeds based on non-negative matrix factorization and support vector machine. The algorithm solves the problem that the seeds are seriously adhered (image pre-processing, morphological operation, etc. still adheres) when using the techniques of machine vision and image recognition to count the seed particles, so that the error of the counting result caused by the misjudgment of the system is large. The experiment used corn seeds as the research object to study three common types of adhesions. The NMF-based method is used to extract the effective features of seed adhesion images, and then use SVM to construct multi-classifiers to solve the three-class problem of seed adhesion types. The accuracy of the classification was verified to be 98% by experimenting with 90 images.
Key Words: non-negative matrix factorization; support vector machine; seed adhesion; seed classification
0 引言
如今鄉(xiāng)村振興已上升至國家戰(zhàn)略,隨著信息技術(shù)的發(fā)展,農(nóng)業(yè)信息化也加速推進(jìn),農(nóng)業(yè)開始朝著精準(zhǔn)農(nóng)業(yè)與高效農(nóng)業(yè)方向發(fā)展。種業(yè)是農(nóng)業(yè)發(fā)展的決定性因素,育種創(chuàng)新是農(nóng)業(yè)轉(zhuǎn)變發(fā)展方式的前提。種子質(zhì)量的提升與育種技術(shù)的發(fā)展,有利于保障國家糧食安全,促進(jìn)農(nóng)業(yè)增效、農(nóng)民增收等。種子千粒重與種子質(zhì)量有著直接關(guān)系,在千粒重指標(biāo)獲取與育種工作中,種子的準(zhǔn)確計數(shù)十分關(guān)鍵[1]。
傳統(tǒng)人工計數(shù)方法效率與精確度低,之后出現(xiàn)了光電管計數(shù)方法如宋礽蘇等[2]設(shè)計的自動光電數(shù)粒儀等,但若種子在通過光電管時存在部分交疊,很可能產(chǎn)生少計、漏計等情況,且成本高、過程繁瑣。近年來,隨著機(jī)器視覺、圖像識別等技術(shù)的迅猛發(fā)展,人們也將其運(yùn)用于種子顆粒計數(shù)研究中,以提高種子計數(shù)的效率、精確度與便利性,并降低成本,但對嚴(yán)重粘連的種子進(jìn)行識別計數(shù)時依然誤差較大。如Van [3]利用分水嶺分割算法對嚴(yán)重粘連的谷物顆粒進(jìn)行分割并計數(shù),但分水嶺算法易產(chǎn)生過分割現(xiàn)象,從而使結(jié)果誤差較大。
為實(shí)現(xiàn)種子嚴(yán)重粘連時的精確計數(shù),可將機(jī)器視覺等技術(shù)與機(jī)器學(xué)習(xí)算法相結(jié)合提取種子的有效特征,實(shí)現(xiàn)對不同品種種子的識別分類。如李冬[4]利用主成分分析方法PCA(Principal Components Analysis)[5]對稻花香種子進(jìn)行有效特征提取,并利用支持向量機(jī)SVM(Support Vector Machine)[6-8]對其進(jìn)行分類識別,實(shí)驗結(jié)果較為理想。
種子粘連存在不同類型,類似于不同品種,因此本文提出利用非負(fù)矩陣分解NMF(Nonnegative Matrix Factor)[9-11]對種子粘連圖像特征數(shù)據(jù)進(jìn)行降維,實(shí)現(xiàn)基于NMF的有效特征提取,并采用SVM分類方法構(gòu)建多分類器進(jìn)行種子粘連類型分類,為實(shí)現(xiàn)種子精確計數(shù)提供技術(shù)支持。本文以玉米種子為例,研究其常見的3類粘連類型并實(shí)現(xiàn)分類。
1 種子粘連模型
種子粘連模型分類步驟大致分為3個階段:樣本獲取、特征提取與模型分類。樣本獲取階段即獲得充足的種子粘連模型圖像;特征提取階段則通過分析圖像,提取各圖像中粘連種子具有的特征,并篩選出對分類有效的主要特征;模型分類階段是將待分類的種子粘連模型進(jìn)行識別分類。整個過程中,特征提取與模型分類兩個階段最為關(guān)鍵,決定著最終分類結(jié)果。圖1為玉米種子粘連的3種模型:兩粒種子粘連、三粒種子成線粘連,以及三粒種子成閉區(qū)域粘連。對不同粘連類型的種子特征進(jìn)行分析,可獲得粘連種子圖像凹點(diǎn)數(shù)目、面積、周長、拓?fù)湫螤?、長短軸長等12類特征[12]。由于特征多、數(shù)據(jù)量大,進(jìn)行降維操作很關(guān)鍵,以去除與分類無關(guān)聯(lián)及關(guān)聯(lián)小的特征數(shù)據(jù),減小系統(tǒng)運(yùn)算量,實(shí)現(xiàn)快速分類。NMF是繼PCA之后提出的一種能解決矩陣分解與降維問題的有效方法,已在人臉識別[13]、語音處理[14]等領(lǐng)域得到廣泛運(yùn)用。
分類方法主要分為非監(jiān)督和監(jiān)督分類兩種。非監(jiān)督分類不用事先知道待分類樣本類別,分類決策規(guī)則是依據(jù)樣本特征參數(shù)的統(tǒng)計特征建立的,如聚類分析[15]、高斯混合模型[16]等;有監(jiān)督分類是指首先使用已知類別的樣本進(jìn)行訓(xùn)練,使訓(xùn)練好的分類器能對未知類別的目標(biāo)進(jìn)行分類,如神經(jīng)網(wǎng)絡(luò)[17]、SVM等。SVM能用較少的樣本數(shù)量,獲取良好的分類結(jié)果,并克服傳統(tǒng)方法中經(jīng)驗風(fēng)險最小化的不足。
2 相關(guān)算法
2.1 非負(fù)矩陣分解(NMF)
矩陣分解一般是將一個大矩陣分解為幾個較小矩陣,而分解后的矩陣元素可能會有正負(fù)之分,如主成分分析PCA、獨(dú)立成分分析ICA(Independent Component Correlation Algorithm)[18]等降維分解方法。但在常見的如圖像、文本等形成的矩陣中,負(fù)數(shù)是沒有意義的,所以處理類似對象時,尋求一種使分解后的矩陣元素均為非負(fù)的方法會更有現(xiàn)實(shí)意義。Lee&Seung[19]于1999年在《自然》雜志上提出非負(fù)矩陣分解NMF,在NMF中要求原始矩陣V的所有元素均為非負(fù),則矩陣可以分解為兩個更小非負(fù)矩陣(W,H)的乘積。該矩陣有且僅有一個此類分解,即滿足存在性與唯一性。
其中,V為原始矩陣,W為基矩陣,H為系數(shù)矩陣,n為樣本數(shù),m為特征個數(shù),通常情況下規(guī)定k NMF矩陣分解優(yōu)化目標(biāo)是最小化W矩陣、H矩陣乘積與原始矩陣之間的差別,利用乘性迭代方法求解W和H。在NMF問題目標(biāo)函數(shù)中應(yīng)用最廣泛的是歐幾里得距離與KL散度。本文以歐幾里得距離為例,假設(shè)噪聲矩陣為[E∈Rm×n],則有: 如果噪聲服從不同概率分布,則通過最大似然函數(shù)會得到不同類型的目標(biāo)函數(shù)。本文以噪聲服從高斯分布進(jìn)行說明,得到最大似然函數(shù)為: 要使對數(shù)似然函數(shù)[L(W,H)]取值最大,則要使目標(biāo)函數(shù)[J(W,H)]最小。 最終,可以任意初始化W和H,通過以下迭代過程使誤差減小到穩(wěn)定值。 2.2 支持向量機(jī)(SVM) SVM尋求的是一個最優(yōu)分界面,以將兩類樣本點(diǎn)最大程度地分開,最大間隔準(zhǔn)則是支持向量機(jī)的最佳準(zhǔn)則。 設(shè)有N個2類線性可分樣本為:(x1,y1),(x2,y2)…(xn,yn),其中[xi∈Rn],[yi∈{+1,-1}],線性判別函數(shù)為:[gx=wTx+b]。由于樣本線性可分,改變權(quán)向量的模,有如下分類規(guī)則: 將其歸一化則有: 此時,支持向量樣本點(diǎn)到最優(yōu)分界面的距離[d=1w],分類間隔則為[2d]。為使分類間隔最大化,可轉(zhuǎn)化成求最小的[w],等同于求解[12w2]最小化問題。用條件極值求解最優(yōu)分界面,構(gòu)造拉格朗日函數(shù)。 對于低維輸入空間中的非線性可分訓(xùn)練樣本,可通過核函數(shù)[20]將其映射到高維空間中,從而使其線性可分。引入核函數(shù)[K(xi,xj)=φ(xi)?φ(xj)]。 若映射后仍不能保證線性可分,可增加松弛項,以減小分界面在訓(xùn)練樣本上的平均誤差。 3 基于NMF與SVM的種子粘連類型分類 SVM分類器生成流程見圖2。種子粘連類型分類流程見圖3。 具體流程如下: (1)粘連種子圖像訓(xùn)練樣本集。通過相機(jī)拍攝60張如圖1所示的3類種子粘連類型圖像(每類20張),經(jīng)過圖像預(yù)處理等操作,提取各種粘連圖像特征作為初始高維特征向量。 (2)有效特征提取。通過NMF對初始高維特征向量進(jìn)行降維操作,得到四維的系數(shù)矩陣,最終形成一個四維特征向量。 (3)SVM多分類器構(gòu)建[21]。本文需要解決一個三分類問題,SVM主要用于二分類。利用SVM構(gòu)造多分類器,采用“一類對其余”與“一對一”兩種方法,但前一種方法容易造成數(shù)據(jù)集偏斜,因此本文采用第二種方法。“一對一”方法即每兩類之間就要構(gòu)造一個SVM分類器,本文分為三類則需要[3×(3-1)2=3]個SVM分類器,若為N分類,則需要[N(N-1)2]個SVM分類器。最后采用“投票”方式,獲得投票數(shù)最多的類別則為最終分類結(jié)果。 4 種子粘連類型分類實(shí)驗 本文主要研究如何對如圖1所示的3種常見種子粘連類型進(jìn)行有效分類,為得到精確的種子顆粒計數(shù)結(jié)果奠定基礎(chǔ)。將3種粘連類型依次重命名為I型、II型、III型粘連。實(shí)驗所需圖像均通過相機(jī)拍攝,樣本數(shù)據(jù)為150。其中,將60張不同的種子粘連圖像作為訓(xùn)練樣本,90張作為測試樣本(每種粘連類型各30張),對本文提出的分類算法進(jìn)行驗證,并與常用的基于PCA的SVM等方法進(jìn)行比較。 在本實(shí)驗中,分類準(zhǔn)確率P是需要獲得的重要參數(shù)。 [P=正確分類的樣本數(shù)分類的樣本總數(shù)×100%]? ? (12) 實(shí)驗運(yùn)行結(jié)果示例見圖4。 本實(shí)驗SVM的核函數(shù)選擇徑向基核函數(shù)(RBF),參數(shù)為C=180,γ=0.003,利用NMF對12類粘連種子特征進(jìn)行降維,得到4維系數(shù)矩陣。 根據(jù)表1結(jié)果可以明顯看出,對于粘連類型最簡單的I型粘連,本文算法有很好的分類效果,分類準(zhǔn)確率達(dá)到了100%,而對于II型與III型種子粘連類型的分類結(jié)果相差不大,在30張圖像樣本中,分類錯誤的都僅為1張。綜上所述,本文算法在各種種子粘連類型分類中都取得了不錯的分類效果,總分類準(zhǔn)確率為98%。 基于PCA的SVM分類結(jié)果見表2。 由表2可得出基于PCA的SVM分類方法對3種不同粘連類型的平均(總)分類準(zhǔn)確率為: 本實(shí)驗SVM的核函數(shù)選擇徑向基核函數(shù)(RBF),參數(shù)為C=120,γ=0.006,利用PCA對12類粘連種子特征進(jìn)行降維,得到5個主成分,累積方差貢獻(xiàn)率為90.682%。 根據(jù)表2結(jié)果可以看出,在本次實(shí)驗中,基于PCA的SVM分類算法對I型粘連的分類準(zhǔn)確率也是最高的,而對III型粘連的分類準(zhǔn)確率最低,可能是該粘連類型相對最為復(fù)雜,導(dǎo)致基于PCA的特征提取效果欠佳。最終,本次實(shí)驗總分類準(zhǔn)確率為91%。 5 結(jié)語 通過實(shí)驗,對比基于NMF的分類算法與傳統(tǒng)基于PCA的分類算法,在同等條件下對3種不同類型種子粘連類型分類的綜合準(zhǔn)確率,前者為98%,后者為91%。顯然,本文提出的基于NMF的SVM算法對種子粘連類型的分類效果更好。在兩種分類算法下,由于I型粘連情況相對簡單,分類準(zhǔn)確率都是最高的,在本文算法的分類實(shí)驗中達(dá)到了100%。對于III型粘連情況,由于粘連類型最為復(fù)雜,分類準(zhǔn)確率在3種類型中相對較低。因為使用NMF時要求數(shù)據(jù)都為正數(shù),而圖像中包含的數(shù)據(jù)也均為正數(shù),所以當(dāng)NMF算法出現(xiàn)后常被用于圖像數(shù)據(jù)處理中,相比于傳統(tǒng)PCA在使用過程中會出現(xiàn)負(fù)數(shù)等情況,NMF更具有實(shí)際意義。在本文實(shí)驗中,由于樣本數(shù)量不是很大,可能會存在一些誤差,但由于實(shí)驗條件相同,在對算法優(yōu)劣比較方面影響不大。 參考文獻(xiàn): [1] 高和平,江鳳瓊. 大豆、玉米種子的千粒重與發(fā)芽成苗關(guān)系的研究[J]. 孝感學(xué)院學(xué)報,2001(3):68-70. [2] 宋礽蘇,藍(lán)景針,夏世峰,等. ZPXG-18型轉(zhuǎn)盤斜刮式自動光電數(shù)粒儀和千粒重儀的設(shè)計[J]. 浙江農(nóng)業(yè)學(xué)報,2011,23(5):1023-1028. [3] VAN DEN BERG E H, MEESTERS AGCA.Automated separation of touching grains in digital? images of thin sections[J]. Computers&Geosciences,2002,28(2):179-190. [4] 李冬. 基于圖像的稻花香水稻種子鑒別方法的研究[D]. 大慶:黑龍江八一農(nóng)墾大學(xué),2018. [5] 于秀林,任雪松. 多元統(tǒng)計分析[M]. 北京:中國統(tǒng)計出版社, 1999. [6] 林香亮,袁瑞,孫玉秋,等. 支持向量機(jī)的基本理論和研究進(jìn)展[J]. 長江大學(xué)學(xué)報:自科版,2018,15(17):48-53. [7] 陸波,尉詢楷,畢篤彥. 支持向量機(jī)在分類中的應(yīng)用[J]. 中國圖象圖形學(xué)報,2005(8):94-100. [8] 張策,臧淑英,金竺,等. 基于支持向量機(jī)的扎龍濕地遙感分類研究[J]. 濕地科學(xué),2011,9(3):263-269. [9] 劉志揚(yáng). 非負(fù)矩陣分解及其改進(jìn)方法[J]. 華僑大學(xué)學(xué)報:自然科學(xué)版,2016,37(6):782-785. [10] 王科俊,左春婷. 非負(fù)矩陣分解特征提取技術(shù)的研究進(jìn)展[J]. 計算機(jī)應(yīng)用研究,2014,31(4):970-975. [11] 徐泰燕,郝玉龍. 非負(fù)矩陣分解及其應(yīng)用現(xiàn)狀分析[J]. 武漢工業(yè)學(xué)院學(xué)報,2010,29(1):109-114. [12] 史中輝,趙秀艷,于廣洋,等. 基于圖像處理的玉米種子特征參數(shù)提取系統(tǒng)[J]. 農(nóng)機(jī)化研究,2011,33(10):166-170. [13] 周昌軍,張強(qiáng),魏小鵬. 基于NMF圖像重構(gòu)的人臉識別[J]. 計算機(jī)工程,2008(3):217-219. [14] 胡永剛,張雄偉,鄒霞,等. 改進(jìn)的非負(fù)矩陣分解語音增強(qiáng)算法[J]. 信號處理,2015,31(9):1117-1123. [15] 孫吉貴,劉杰,趙連宇. 聚類算法研究[J]. 軟件學(xué)報,2008(1):48-61. [16] MARTIS R J,CHAKRABORTY C,RAY A K. A two-stage mechanism for registration and classification of ECG using Gaussian mixture model[J]. Pattern Recognition,2009,42(11):2979-2988. [17] 盧柳葉,張青峰,李光錄. 基于BP神經(jīng)網(wǎng)絡(luò)的遙感影像分類研究[J]. 測繪科學(xué),2012,37(6):140-143. [18] 楊竹青,李勇,胡德文. 獨(dú)立成分分析方法綜述[J]. 自動化學(xué)報,2002(5):762-772. [19] DANIEL D L, SEUNG H S. Learning the parts of objects by nonnegative matrix factorization[J]. Nature, 1999, 401: 788-791. [20] AIZERMAN M,BRAVERMAN E,ROZONOER L.Theoretical foundations of the potential function method in pattern recognition learning [J]. Automation and Remote Control,1964,25:821-837. [21] 余輝,趙暉. 支持向量機(jī)多類分類算法新研究[J]. 計算機(jī)工程與應(yīng)用,2008(7):185-189,212. (責(zé)任編輯:黃 ?。?/p>