曹婷翠,何小海,董德良,石恒,熊淑華
(1.四川大學(xué)電子信息學(xué)院,成都 610065;2.中儲糧成都糧食儲藏科學(xué)研究所,成都 610091)
我國是世界上小麥產(chǎn)量大國和消費(fèi)大國,小麥的質(zhì)檢分級,對糧食儲備、糧食安全、糧食流通具有重要作用。小麥不完善粒的數(shù)量是衡量小麥品級的關(guān)鍵指標(biāo),目前在不完善粒的檢測識別中采用的是人工感官檢測的方法,該方法具有費(fèi)時費(fèi)力、可重復(fù)性差、主觀性強(qiáng)和不同質(zhì)檢員檢測結(jié)果不一等缺點(diǎn),已不能滿足大規(guī)模麥??焖贉?zhǔn)確檢測的需求,實(shí)現(xiàn)麥粒的智能化識別成為必然。隨著科技的發(fā)展,利用圖像處理技術(shù)來實(shí)現(xiàn)麥??焖贉?zhǔn)確識別的方法受到了普遍關(guān)注,現(xiàn)在已有許多研究成果[1-5],這些研究大多采用了特征提取算法,但人為提取的特征需要通過實(shí)驗不斷地進(jìn)行擇優(yōu),過程比較繁雜,而且麥粒品種混合、不完善粒間存在交錯現(xiàn)象(如某單顆破碎麥粒在某個部位有病斑)、圖像采集時難以避免的移位和光照不均等因素導(dǎo)致在實(shí)際應(yīng)用中難以找到準(zhǔn)確、穩(wěn)定的特征,這種方法已經(jīng)不能滿足需求。
近幾年來,深度學(xué)習(xí)已成為人工智能研究的熱點(diǎn)方向,作為深度學(xué)習(xí)中的一項關(guān)鍵技術(shù),CNN深度模型已成功應(yīng)用于人臉識別,手寫漢字識別、車型識別等領(lǐng)域,并取得了優(yōu)秀的成績。在2013年的ICDAR手寫漢識別競賽中[6],英國華威大學(xué)的Graham采用深度稀疏卷積神經(jīng)網(wǎng)絡(luò)的方法[7],獲得了聯(lián)機(jī)手寫漢字識別的第一名,Ijjina等[8]將遺傳算法和深度卷積神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于人體行為識別,并且取得了很好的效果,Yu等[9]提出了一種級聯(lián)的CNN網(wǎng)絡(luò)結(jié)構(gòu)用于人臉識別,在FDDB上達(dá)到了當(dāng)時最高的分?jǐn)?shù)。不同于傳統(tǒng)的圖像識別方法,CNN深度模型的方法避免了依賴于先驗知識的特征提取算法,它具備自主特征學(xué)習(xí)、自我完善等優(yōu)點(diǎn)。
本文將CNN深度模型引入到小麥不完善粒識別中,解決傳統(tǒng)圖像處理方法人為提取特征的繁瑣及不準(zhǔn)確問題,結(jié)合CNN深度模型的理論構(gòu)建常規(guī)的CNN網(wǎng)絡(luò)模型,再加入金字塔池化層改進(jìn)了網(wǎng)絡(luò)模型,然后通過擴(kuò)展樣本集訓(xùn)練的方法以提高模型泛化能力,最后采用雙面識別方案降低實(shí)際應(yīng)用中麥粒的識別錯誤率。最后驗證該方法的準(zhǔn)確性,為小麥不完善粒的快速、智能自動化識別以及小麥品級判定提供重要依據(jù)。
因為數(shù)據(jù)庫也是造成麥粒不完善粒識別研究比較困難的原因之一,所以本文首先初步建立一個小麥不完善粒數(shù)據(jù)庫并不斷地進(jìn)行完善以便于后面的研究學(xué)習(xí)。
研究中的小麥樣本(含有白小麥、紅小麥)由中儲糧成都糧食儲藏科學(xué)研究所提供,收集了不同批次不同樣本號的小麥樣本,由專業(yè)質(zhì)檢員挑選出完善粒、病斑粒和破碎粒。為了獲取全面的小麥圖像數(shù)據(jù),進(jìn)行小麥圖像雙面采集。將麥粒以無粘連的方式放置在透明的載物板上,進(jìn)行上下兩面圖像采集,采集的分辨率設(shè)置為800dip,背景板為藍(lán)色。小麥有可能只有單面呈現(xiàn)特征(如某單顆病斑粒只有上圖有病斑特征),這種情況下就只保留有特征的一面。
采集后的三類小麥原始圖像需經(jīng)過分割,分割為每張圖像僅有單粒小麥如圖1所示。分割方法為,首先使用輪廓檢測算法檢測出小麥原始圖像的輪廓,然后以輪廓的大小向外擴(kuò)展30個像素的尺寸進(jìn)行裁剪,最后得到圖1所示的分割圖像。從圖中可以看到圖像采集時小麥的擺放是隨機(jī)的,且光照不均勻,這樣的采集環(huán)境更接近實(shí)際應(yīng)用場景。
圖1 小麥分割圖像
用分割后的圖像建立麥粒圖像數(shù)據(jù)庫,命名為WheatImage。該數(shù)據(jù)庫包含5729張完善粒圖像、5000張破碎粒圖像和5999張病斑粒圖像。
深度學(xué)習(xí)中的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),是一種多層堆疊的神經(jīng)網(wǎng)絡(luò),如圖2所示,一個卷積神經(jīng)網(wǎng)絡(luò)由若干卷積層、池化層和全連接層組成。
圖2 簡易卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2為一個包含兩個卷積層兩個池化層和一個全連接層的卷積神經(jīng)網(wǎng)絡(luò),按照不同的需求可以設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu)。在圖2的每一個卷積層中,將卷積核和上一層的輸出進(jìn)行卷積,得到局部特征數(shù)據(jù),然后通過激活函數(shù)進(jìn)行激活,即可得到該層的特征圖,如式(1)所示。
其中為 f激活函數(shù),本研究選用ReLU函數(shù),l為層數(shù),MjMj表示選擇的輸入特征圖的集合,為卷積核,*表示二維卷積,表示偏置。然后將得到的特征進(jìn)行池化降維。一般深度卷積網(wǎng)絡(luò)有多個卷積層,通過逐層遞增的方式,從底層最基礎(chǔ)的邊緣特征,不斷到高層最復(fù)雜的全局特征。最后經(jīng)過全連接層進(jìn)行特征融合后再通過Softmax回歸分類器實(shí)現(xiàn)物體多分類。CNN還采用局部連接和權(quán)值共享技術(shù),大大減少了卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)數(shù)量。CNN還對二維數(shù)據(jù)的輸入做了特別的設(shè)計,這使得卷積網(wǎng)絡(luò)對于圖片的移動、旋轉(zhuǎn)、形變以及縮放等具有較高的魯棒性。
(1)建立網(wǎng)絡(luò)結(jié)構(gòu)模型
對于深度學(xué)習(xí)的研究,目前已有很多的開源框架例如Theano和TensorFlow等,由于Caffe的上手快、模塊化和速度快等優(yōu)點(diǎn),且實(shí)驗室條件能運(yùn)行,所以本文采用Caffe作為研究工具。
根據(jù)CNN理論和麥粒圖像數(shù)據(jù),通過多次實(shí)驗,構(gòu)建了常規(guī)CNN網(wǎng)絡(luò)模型??臻g金字塔池化(Space Pyramid Pooling,SPP)[10]跟普通池化相比,采用了多個不同尺寸的池化窗,它提取了更多不同的特征,這使得加入了SPP的網(wǎng)絡(luò)模型具有更強(qiáng)的表征目標(biāo)對象的能力,因此本文將SPP引入到構(gòu)建的常規(guī)CNN網(wǎng)絡(luò)層中得到WheatNet網(wǎng)絡(luò)模型。網(wǎng)絡(luò)中SPP算法所采用的尺度為(4×4,2×2,1×1),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 WheatNet網(wǎng)絡(luò)結(jié)構(gòu)圖
圖3所示的WheatNet網(wǎng)絡(luò),每層卷積層卷積后都使用了ReLU激活函數(shù)進(jìn)行激活,激活后進(jìn)行最大池化。不同的是第五層卷積層在激活函數(shù)激活后,采用的是SPP算法。每一個卷積層都采用了不同的卷積核,和大小不同的滑動窗,第一層采用了96個卷積核,滑動窗大小為11×11,步長為4,第二個卷積層采用了126個卷積核,滑動窗為5×5,步長為1,第三個和第四個卷積層卷積核都為192,滑動窗大小為3×3,步長為1,第五個卷積層卷積核大小為126,滑動窗大小為3×3,步長為1,經(jīng)過這些卷積層,機(jī)器逐層學(xué)習(xí)到能夠表征目標(biāo)物體的全局豐富特征。全連接層1和全連接層2都使用了激活函數(shù)進(jìn)行激活,并使用Dropout技術(shù)來減小過擬合的風(fēng)險,而全連接層3采用Softmax回歸作為分類器。
(2)樣本集擴(kuò)展
將數(shù)據(jù)庫中每類4000張圖像作為訓(xùn)練集,每類1000張作為交叉驗證集,得到原圖樣本集。實(shí)際應(yīng)用中,采集圖像時光照條件無法保證絕對均勻,而且難免會引入噪聲,因此,本文采用改變亮度和引入適量噪聲的方法擴(kuò)展原圖樣本集,以提高模型泛化能力。
RGB圖像亮度的本質(zhì)為像素點(diǎn)的亮度,每個像素的亮度本質(zhì)上為RGB值的大小,RGB值為0時,像素點(diǎn)最暗為黑色,RGB值為255時像素點(diǎn)最亮為白色。因此,文本把圖像的每個像素點(diǎn)的RGB各分量的值加上或者減去一定的值,得到改變亮度的圖像。圖像引入的噪聲為均勻分布的噪聲和高斯分布的噪聲。
將原圖樣本集的訓(xùn)練樣本采用上述的方法擴(kuò)展到每類8000張圖像,測試集不變,得到擴(kuò)展樣本集。
(3)雙面識別方案
為了在實(shí)際應(yīng)用中有更好的識別效果,本文設(shè)計了小麥不完善粒識別的方案,如圖4所示,主要分為小麥圖像預(yù)處理、WheatNet網(wǎng)絡(luò)模型訓(xùn)練和分類識別三部分。
圖4 小麥不完善粒雙面識別方案
如圖4所示,采用該方案識別需要采集小麥上下兩面的圖像,進(jìn)行分割,再輸入模型進(jìn)行識別,最后綜合上下分類識別的結(jié)果得到小麥最終所屬類別。雙面識別的準(zhǔn)則如下:①上下同時為完善識別結(jié)果為完善粒;②若得到某一面識別為完善,另一面識別為病斑或破碎,那么識別結(jié)果為病斑粒或破碎粒;③若某一面識別為病斑粒另一面識別為破碎粒,那么識別結(jié)果為病斑粒。
首先設(shè)置網(wǎng)絡(luò)訓(xùn)練的參數(shù),將batch_size設(shè)置為90,初始學(xué)習(xí)率 base_lr設(shè)置為 0.0001,stepsize為100000,即每隔10萬次調(diào)整一次學(xué)習(xí)率,動量系數(shù)設(shè)置為0.9。為了加快訓(xùn)練模型的收斂速度,訓(xùn)練時使用GPU加速。
首先采用原圖數(shù)據(jù)集進(jìn)行實(shí)驗,實(shí)現(xiàn)目前小麥不完善粒識別中傳統(tǒng)的圖像處理方法,因為麥粒在顏色、形狀、和紋理三方面存在著差異,所以提取麥粒這三方面的特征。形狀特征有長、寬、面積、周長、矩形度、圓形度[1]、直徑、等面積圓直徑、最小凸多邊形面積、緊密度、橢圓離心率[2]。顏色特征有RGB、HSV、lab三種顏色空間分量的均值和方差。紋理特征有RGB和HSV各分量的平滑度、三階矩、熵和一致性[2]。共提取了53維特征,將提取的特征輸入經(jīng)典的SVM、ANN和Ada?Boost分類器,訓(xùn)練得到3個模型。同時將原圖數(shù)據(jù)集輸入常規(guī)的8層CNN網(wǎng)絡(luò)和本文的WheatNet網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到常規(guī)CNN模型和WheatNet原圖模型。采用原圖測試集驗證模型的精確度,得到表1所示的結(jié)果。
表1 不同方法的識別結(jié)果
由表1可知常規(guī)CNN方法平均識別率比傳統(tǒng)圖像識別方法提高了10%左右,由此可見CNN深度模型應(yīng)用于麥粒不完善粒的識別,能夠很大地提升識別正確率,而融入了SPP的WheatNet模型的識別率比常規(guī)CNN方法提高了5%左右,相對于傳統(tǒng)的方法提高了15%左右。結(jié)果表明,對于小麥不完善粒的識別,WheatNet模型具有最佳的識別效果。
特征是影響識別率的重要因素,在傳統(tǒng)圖像處理方法中,特征是靠人為提取設(shè)計的,人為難以提取能刻畫麥粒本質(zhì)的穩(wěn)定特征,而且特征提取需經(jīng)過觀察麥粒圖像在顏色形態(tài)紋理等這些方面的差異,然后嘗試提取能刻畫這些差異的特征,再驗證特征的有效性優(yōu)化特征,過程比較繁瑣。然而采用了CNN深度模型的麥粒識別方法,可以自主的進(jìn)行特征提取和選擇,避免了傳統(tǒng)方法繁瑣的特征設(shè)計過程,而且從實(shí)驗結(jié)果來看,CNN深度模型的方法對麥粒的識別效果優(yōu)于傳統(tǒng)圖像處理方法,證明了CNN深度模型自主學(xué)習(xí)的特征比人為提取的特征具有更強(qiáng)的刻畫麥粒本質(zhì)特征的能力,將CNN深度模型引入到麥粒不完善粒識別中是有效的。在常規(guī)CNN的基礎(chǔ)上,本文引入了金字塔池化層,金字塔池化層不同于普通的池化層,它采用了多個不同尺寸的池化窗,提取了多個不同的特征,因此融入了SPP的WheatNet模型具有比常規(guī)CNN模型更強(qiáng)的表征特征的能力,它的識別效果最佳。
將擴(kuò)展數(shù)據(jù)集輸入WheatNet網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到WheatNet擴(kuò)展數(shù)據(jù)模型。使用不同質(zhì)量的6組圖像對該模型和上一步實(shí)驗得到的WheatNet原圖模型進(jìn)行測試,得到表2所示的結(jié)果,表中第1組數(shù)據(jù)為不經(jīng)過任何處理的圖像數(shù)據(jù),第2組和第3組數(shù)據(jù)為經(jīng)過不同程度改變亮度處理的圖像數(shù)據(jù),第4組為引入高斯分布噪聲的圖像,第5組為引入均勻分布噪聲的圖像,第6組為同時改變亮度和引入高斯分布噪聲的圖像。
表2 兩個不同模型對6組不同質(zhì)量圖像的識別結(jié)果
由表2結(jié)果可知,對于改變亮度的圖像,原圖模型識別效果有所下降,而擴(kuò)展數(shù)據(jù)模型下降并不大,仍能夠有效地識別。對于引入了噪聲的圖像,原圖模型的識別效果急劇下降,而經(jīng)過擴(kuò)展數(shù)據(jù)訓(xùn)練后的模型,雖然識別率有所下降,但是識別率仍能夠達(dá)到90%,而且對同時改變了亮度和引入噪聲的圖像都能有效地識別,識別效果遠(yuǎn)遠(yuǎn)優(yōu)于原圖模型,由此可見本文的數(shù)據(jù)擴(kuò)展方法有效地提高了模型的泛化能力。
使用本文識別方案對100粒完善粒、100粒病斑粒和100粒破碎粒進(jìn)行識別,首先采集小麥圖像(包含上下圖像),經(jīng)過分割得到上下分割圖像。然后輸入網(wǎng)絡(luò)進(jìn)行識別,得到雙面識別結(jié)果,根據(jù)雙面識別準(zhǔn)則得出最終結(jié)果。本文采用的是雙面識別,而一般多采用單面識別,因此本文也實(shí)現(xiàn)僅用上圖或者下圖來進(jìn)行識別的方法,得到表3的結(jié)果。
表3 雙面識別和單面識別的識別結(jié)果
表3中的結(jié)果可知,雖然對完善粒的識別,本文方案沒有絕對的優(yōu)勢,但對于破碎粒若僅采用上圖識別,那么識別正確粒數(shù)為81粒,僅采用下圖識別,識別正確粒數(shù)為83粒,而上下綜合判斷識別正確粒數(shù)為95粒,這是因為其中部分的小麥破碎面僅在某一面,病斑粒中也有相同的情況。如果僅僅采用上圖識別,那么破碎粒的錯誤率為0.19,病斑粒為0.2,而采用雙面識別的方法,破碎粒的識別錯誤率為0.05,病斑粒為0.06,可以看到雙面識別的方法可以大大降低識別的錯誤率。小麥不完善粒中存在部分小麥破碎面或者病斑面僅存在于某一面,另一面呈現(xiàn)為完善,對于這部分小麥,僅靠某一面識別,往往會錯誤地識別為完善粒,而雙面識別方案能很好的將這一部分小麥正確的識別出來,從而降低識別錯誤率,這種方案更適用于小麥不完善粒的實(shí)時檢測識別。
在麥粒的圖像識別研究中,沒有準(zhǔn)確的圖像數(shù)據(jù)庫也是造成研究困難的原因之一,而本文初步建立的小麥完善粒、破碎粒和病斑粒的圖像數(shù)據(jù)庫WheatIm?age,將有利于麥粒不完善粒的學(xué)習(xí)和研究。針對目前已有的麥粒不完善粒圖像識別方法需要進(jìn)行特征提取并且所提特征不能很好的表征麥粒的特性從而導(dǎo)致的識別效果不佳的問題,本文將CNN深度模型的方法引入到麥粒不完善粒識別中,構(gòu)建了常規(guī)的CNN網(wǎng)絡(luò)模型并取得了優(yōu)于傳統(tǒng)圖像處理方法的識別效果,然后在常規(guī)CNN的基礎(chǔ)上加入了金字塔池化層得到WheatNet網(wǎng)絡(luò)模型,進(jìn)一步提高了識別率。在研究中,發(fā)現(xiàn)通過原圖訓(xùn)練集訓(xùn)練得到的網(wǎng)絡(luò)對于亮度變化和引入噪聲的圖像不能很好地識別,然而實(shí)際應(yīng)用情景中,是無法保證絕對均勻的光照條件和杜絕噪聲的引入,因此本文通過改變亮度和引入部分噪聲的方式擴(kuò)展樣本集進(jìn)行訓(xùn)練的方法來提高模型泛化能力,實(shí)驗證明該方法很好地提高了模型的泛化能力,使得模型對亮度變化和引入噪聲的圖像都能很好的識別??紤]到部分麥粒只有某一面呈現(xiàn)特征的特殊情況,設(shè)計了小麥不完善粒雙面識別的方案,有效降低了識別的錯誤率,有利于麥粒的實(shí)際場景檢測識別。
[1]陳豐農(nóng).基于機(jī)器視覺的小麥并肩雜與不完善粒動態(tài)實(shí)時監(jiān)測研究[D].杭州:浙江大學(xué),2012:1-121
[2]張玉榮,陳賽賽,周顯青,等.基于圖像處理和神經(jīng)網(wǎng)絡(luò)的小麥不完善粒識別方法研究[J].糧油食品科技,2014,22(3):59-63.
[3]付玲.小麥質(zhì)量快速測定與評價技術(shù)的研究[D].鄭州:河南工業(yè)大學(xué),2013:8-51
[4]陳賽賽.小麥質(zhì)量指標(biāo)機(jī)器視覺技術(shù)研究[D].鄭州:河南工業(yè)大學(xué),2014:14-50.
[5]Manley M,Toit G D,Geladi P.Tracking Diffusion of Conditioning Water in Single Wheat Kernels of Different Hardnesses by Near Infrared Hyperspectral Imaging[J].Analytica Chimica Acta,2011,686(1-2):64-75.
[6]Yin F,Wang Q F,Zhang X Y,et al.ICDAR 2013 Chinese Handwriting Recognition Competition[C].Document Analysis and Recognition(ICDAR),2013 12th International Conference on.IEEE,2013:1464-1470.
[7]Graham B.Spatially-Sparse Convolutional Neural Networks[J].Computer Science,2014,34(6):864-867.
[8]Ijjina E P,Chalavadi K M.Human Action Recognition Using Genetic Algorithms and Convolutional Neural Networks[J].Pattern Recognition,2016,59(11):199-212.
[9]Yu J H,Sim K B.Face Classification Using Cascade Facial Detection and Convolutional Neural Network[J].2016,26(1):70-75.
[10]He K,Zhang X,Ren S,et al.Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2015,37(9):1904-1916.
[11]Gatys L A,Ecker A S,Bethge M.Image Style Transfer Using Convolutional Neural Networks[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:2414-2423.
[12]Maggiori E,Tarabalka Y,Charpiat G,et al.Convolutional Neural Networks for Large-Scale Remote-Sensing Image Classification[J].IEEE Transactions on Geoscience and Remote Sensing,2017,55(2):645-657.
[13]鄧柳,汪子杰.基于深度卷積神經(jīng)網(wǎng)絡(luò)的車型識別研究[J].計算機(jī)應(yīng)用研究,2016,33(3):930-932.
[14]Zhu J,Yu J,Wang C,et al.Object Recognition Via Contextual Color Attention[J].Journal of Visual Communication&Image Representation,2015,27(C):44-56.
[15]Russakovsky O,Deng J,Su H,et al.ImageNet Large Scale Visual Recognition Challenge[J].International Journal of Computer Vision,2015,115(3):211-252.
[16]馬彧廷,郭敏.基于極限學(xué)習(xí)與蜻蜓算法的小麥碰撞聲信號檢測與識別[J].電子設(shè)計工程,2016,24(5):8-11.
[17]楊楠.基于Caffe深度學(xué)習(xí)框架的卷積神經(jīng)網(wǎng)絡(luò)究[D].石家莊:河北師范大學(xué),2016:6-48.
[18]湯一平,韓國棟,魯少輝,等.基于CNN的火炮身管全景圖像疵病識別方法[J].儀器儀表學(xué)報,2016,37(4):871-878.