董秋成,吳愛國,董娜,馮偉
?
用于卷積神經(jīng)網(wǎng)絡圖像預處理的目標中心化算法
董秋成1,吳愛國1,董娜1,馮偉2
(1. 天津大學 電氣自動化與信息工程學院,天津,300072;2. 中國科學院自動化所 模式識別國家重點實驗室,北京,100000)
為解決工業(yè)生產(chǎn)中對不同零件進行自動分類的問題,提出一種基于卷積神經(jīng)網(wǎng)絡的模式識別算法,對29種不同尺寸的螺絲、螺母和墊片進行分類。首先采集待分類零件的圖像數(shù)據(jù),通過數(shù)據(jù)增強得到數(shù)據(jù)集,然后設計一種簡化的卷積神經(jīng)網(wǎng)絡。提出一種對圖像中的目標位置進行中心化的圖像預處理算法,它能夠提取圖像中目標所在的區(qū)域并將其移動到圖像中心位置。研究結(jié)果表明,與不采用目標中心化算法的傳統(tǒng)方法相比,總體準確率從97.59%提升至99.96%,具有最低準確率的零件的準確率從85.83%提升至99.67%。使用卷積神經(jīng)網(wǎng)絡對背景純凈且目標明顯的圖像進行分類時,使用本文提出的目標中心化算法進行圖像預處理能夠顯著提高網(wǎng)絡的識別準確率。
零件;識別;卷積神經(jīng)網(wǎng)絡;數(shù)據(jù)增強;中心化;目標提取
隨著工業(yè)4.0時代的到來,圖像識別技術(shù)在工業(yè)生產(chǎn)中的應用越來越廣泛,已被用于產(chǎn)品檢測、計數(shù)、尺寸測量等許多方面。零件識別是許多工業(yè)生產(chǎn)流程中常見且必要的工作任務,它可以把不同種類的目標物體進行正確的分類處理,也可以用于分揀出質(zhì)量不達標的工件。依靠人工進行零件識別,分類效率低、可靠性差、成本高。為了提高工業(yè)生產(chǎn)線自動化、智能化的程度,利用機器視覺設計出能夠應用于實際生產(chǎn)的零件自動識別系統(tǒng)成為當前工業(yè)自動化領(lǐng)域的重要課題,具有重要的理論意義和實用價值[1?2]?,F(xiàn)有的零件識別算法基本都是依賴傳統(tǒng)機器學習的基本方式:先提取一個合適的特征集,再將這些特征提供給簡單的機器學習算法[3?8]。這些算法的共同特點在于零件的特征均是人工選取的,或是由人工設計的算法進行提取的。然而,特征的選取不僅需要依靠經(jīng)驗,而且適用性往往受到抑制,可擴展性不佳。當需要識別的零件種類較多時,人工提取特征不僅工作量巨大,而且選取的特征不一定是最優(yōu)的。HINTON等[9]提出了深度學習模型。與手工規(guī)則構(gòu)造特征的方法相比,利用深度學習模型直接從大數(shù)據(jù)中學習特征,更有利于描述數(shù)據(jù)本身的豐富內(nèi)涵信息[10]。最近,深度學習方法在計算機視覺領(lǐng)域表現(xiàn)出巨大的潛力,卷積神經(jīng)網(wǎng)絡[11]作為一種特殊的深度學習架構(gòu),憑借其優(yōu)秀的表現(xiàn)受到廣泛的關(guān)注,在一系列大規(guī)模、細粒度的圖像識別任務中取得巨大成功[12]。卷積神經(jīng)網(wǎng)絡是一種新的目標分類識別方法,該方法能夠?qū)崿F(xiàn)自動化的圖像特征提取,與分類識別過程融為一體,并通過數(shù)據(jù)實現(xiàn)自我學習[13?14]。制造業(yè)信息化程度高、勞動力密集、成本范圍廣大,是非常適合人工智能技術(shù)發(fā)揮的領(lǐng)域。同時,人工智能技術(shù)也非常適合解決制造業(yè)面臨的挑戰(zhàn),如不穩(wěn)定的質(zhì)量及良率、生產(chǎn)線設計缺乏靈活性、產(chǎn)能管理困難以及生產(chǎn)成本上升等。人工智能技術(shù)可以幫助解決這些問題,改善質(zhì)檢流程,縮短設計周期,消除供應鏈瓶頸,減少材料和能源浪費,并且提高產(chǎn)量。為了能夠?qū)⒃居糜谧R別自然圖像的卷積神經(jīng)網(wǎng)絡用來識別工業(yè)圖像,需要注意到自然圖像與工業(yè)圖像的不同之處,并對網(wǎng)絡結(jié)構(gòu)與算法做出相應的調(diào)整與改進。自然圖像(例如ImageNet數(shù)據(jù)集)普遍色彩豐富、種類繁多,形狀、紋理、背景都極為復雜,而工業(yè)現(xiàn)場進行圖像采集時環(huán)境相對穩(wěn)定,同種零件每次采集到的圖像差別不大,且目標突出,背景較為純凈?;诖?,本文作者利用深度卷積神經(jīng)網(wǎng)絡的優(yōu)勢,并結(jié)合零件識別問題的特點,設計一種簡化的卷積神經(jīng)網(wǎng)絡,對29種不同尺寸的螺絲、螺母、墊片進行分類,并且在圖像預處理中添加一種基于邊緣檢測的目標中心化算法,同時驗證卷積神經(jīng)網(wǎng)絡對于識別相同種類、不同尺寸的圖像的準確率,對于卷積神經(jīng)網(wǎng)絡在尺寸測量方面的應用具有一定的參考價值。
1.1.1 零件種類
待測的零件分為螺絲、螺母、墊片3類,每種零件又分為不同的尺寸,一有共29種零件。其中螺絲18種,墊片8種;螺母為M3,M4和M5共3種。
29種零件的編號及尺寸如表1所示。
表1 零件編號及尺寸
注:墊片*后的數(shù)字表示外徑,單位為mm;螺絲*后的數(shù)字表示桿長,單位為mm。
1.1.2 圖像采集方法
圖像采集時,攝像頭拍攝方向垂直零件所處平面,且攝像頭與零件的相對位置保持不變,如圖1所示。這樣既能模擬實際工況中位置固定的攝像頭垂直拍攝傳送帶上運動的零件的情形,同時又能使零件在圖像中的大小能夠反映圖像的實際大小。每種零件變換不同的角度、位置拍攝40次,以模擬實際工況中零件位置和擺放角度都是隨機的。
圖1 圖像采集示意圖
為防止網(wǎng)絡過擬合,用于訓練的數(shù)據(jù)量應盡可能大,但是,通過人工進行圖像采集的方式獲取數(shù)據(jù)的效率很低,想獲得足夠多的數(shù)據(jù)需要很長時間。對于圖像識別問題來說,使用數(shù)據(jù)增強來擴大數(shù)據(jù)量是一種效率很高且行之有效的辦法。圖像識別問題中常用的數(shù)據(jù)增強方法有:平移、旋轉(zhuǎn)、翻轉(zhuǎn)、縮放、色彩偏移等。針對生產(chǎn)過程中的實際情況,選取了平移、旋轉(zhuǎn)、亮度偏移、對比度偏移4種數(shù)據(jù)增強方法,未采用翻轉(zhuǎn)的原因是待分類零件均為左右對稱,旋轉(zhuǎn)操作已經(jīng)可以模擬零件所有角度的情況,沒有必要再進行翻轉(zhuǎn)操作;未采用翻轉(zhuǎn)和縮放的原因是在該問題中,圖像的大小代表零件的尺寸,縮放相當于改變零件尺寸,從而改變圖像類別。
圖2所示為29種零件對應的原始圖片。原始圖像為3 120像素×3 120像素的灰度圖像,對應零件所處平面的實際長×寬為90 mm×90 mm,首先對圖像進行0°~360°范圍隨機角度的旋轉(zhuǎn)。如圖3所示,中間白色圓形區(qū)域為始終會被原圖覆蓋的區(qū)域。然后從圖像中心裁切2 048像素×2 048像素的圖像,左上角坐標為[460, 610]中的隨機整數(shù)。這樣裁剪既能保證圖像外面的黑邊會被完全切去,又能使圖像中間的零件得到完整保留,同時具有位移上的隨機性。再將裁剪后的圖像縮放至128像素×128像素,此時,每個像素對應的實際長度為0.46 mm。最后,對該圖像進行隨機亮度偏移與對比度偏移,偏移比率均為0.9~1.1。每張圖片重復100次,得到100張不同的圖像。圖4所示為其中3張原始圖片進行數(shù)據(jù)增強后得到的部分結(jié)果。最終的數(shù)據(jù)包括29種零件,每張零件對應4 000張圖片,共116 000張圖片。
卷積神經(jīng)網(wǎng)絡是由LeCun等提出的一種專門用來處理具有類似網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡,例如時間序列數(shù)據(jù)和圖像數(shù)據(jù)。卷積神經(jīng)網(wǎng)絡在諸多應用領(lǐng)域都表現(xiàn)優(yōu)異[3]。卷積神經(jīng)網(wǎng)絡通過權(quán)值共享和卷積運算直接處理二維圖像,避免了傳統(tǒng)模式識別算法中復雜的特征提取和數(shù)據(jù)重建過程[15?18]。
卷積神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)包括卷積層和池化層。卷積層由一組待訓練的卷積核構(gòu)成。根據(jù)需要提取特征的密度,卷積核通過固定的步長與輸入圖像作卷積運算,經(jīng)由激活函數(shù)變換后輸出特征圖。池化層通常在卷積層后面出現(xiàn),通過對特征圖進行下采樣,減少特征維度并抑制干擾。
圖2 原始零件圖片
圖3 隨機裁切示意圖(單位:像素)
(a) 墊片;(b) 螺母;(c) 螺絲
根據(jù)卷積神經(jīng)網(wǎng)絡的基本結(jié)構(gòu)并結(jié)合待分類數(shù)據(jù)集的特征,構(gòu)建了如圖5所示的卷積神經(jīng)網(wǎng)絡模型。卷積神經(jīng)網(wǎng)絡的搭建參考了AlexNet[19]和VGGNet[20]的結(jié)構(gòu)。因待識別的零件形狀較簡單,所以,對網(wǎng)絡結(jié)構(gòu)進行了較大簡化。
SIMONYAN等[20]指出,多個較小卷積核的層層疊加與一個較大卷積核具有相同大小的感受野,且參數(shù)更少,非線性更強。因此,在前2個卷積層中采用了2層3×3的卷積核,相當于對輸入提供了5×5的感受野。
卷積網(wǎng)絡的輸入為1×128×128的經(jīng)過數(shù)據(jù)增強后的圖像;第1個卷積層包含32個3×3的卷積核,輸出維度為32×126×126;第2個卷積層同樣包含32個3×3的卷積核,輸出維度為32×124×124;然后經(jīng)過一個采樣核大小為2×2的最大池化層,輸出維度為32×62×62;第3個卷積層包含64個3×3的卷積核,輸出維度為64×60×60;然后再經(jīng)過一個采樣核大小為3×3的最大池化層,輸出維度為64×20×20;第4個卷積層包含128個3×3的卷積核,輸出維度為128×18×18;然后再經(jīng)過一個采樣核大小為2×2的最大池化層,輸出維度為128×9×9;再將這個三維向量展開成長度為10 368的一維向量,經(jīng)過一個輸出為256的全連接層,最后經(jīng)過一個輸出為29的全連接層,得到網(wǎng)絡的輸出。
所有卷積層的步長均為1,無填充;所有最大池化層的步長都與采樣核的邊長相同,無填充;除輸出層的激活函數(shù)使用Softmax外,其余所有的激活函數(shù)均為整流線性單元。
在第1個卷積層后面和每個最大池化層后面都添加了0.25的Dropout[21],在第2個全連接層后面添加了0.5的Dropout。
圖5 卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)
每種零件的圖片由40張原始圖片經(jīng)過100次數(shù)據(jù)增強得到,即每個種類擁有4 000張圖像數(shù)據(jù)。將前28張原始圖片數(shù)據(jù)增強后得到的2 800個圖像作為訓練集,后12張原始圖片數(shù)據(jù)增強后得到1 200個圖像作為測試集。因為測試集的原始圖片與訓練集的不同,所以,即使遇到全新的圖片,網(wǎng)絡的準確率也會與測試集的相同,并不會受到數(shù)據(jù)增強的影響。
本文訓練網(wǎng)絡采用的自適應學習率算法為Adam[22],學習率為1×10?4。訓練時,每次輸入32張圖片,并對輸入添加批標準化[23]。
在絕大多數(shù)機器學習算法以及訓練神經(jīng)網(wǎng)絡的過程中,都需要對原始數(shù)據(jù)進行中心化和標準化處理。數(shù)據(jù)經(jīng)過中心化和標準化處理后,會成為均值為0、標準差為1的服從標準正態(tài)分布的數(shù)據(jù)。中心化和標準化的意義是能夠消除數(shù)據(jù)所包含的特征之間的差異性,使它們具有相同的尺度。在回歸問題中,它能夠取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差;在神經(jīng)網(wǎng)絡的訓練過程中,它能加速權(quán)重參數(shù)的收斂。
在神經(jīng)網(wǎng)絡訓練的過程中,對輸入添加了批標準化,這是一種針對圖像的像素進行中心化和標準化的處理。但是,每張圖像中零件的位置是隨機出現(xiàn)的。雖然傳統(tǒng)觀念認為卷積神經(jīng)網(wǎng)絡對圖像類別的判斷與目標在圖像中的位置無關(guān),但是在零件識別問題中,零件所處背景較為純凈,而且相同種類不同大小的零件圖像中目標的形狀相似甚至相同,僅在大小上存在差別,即不同類別圖像間的差距較小,且目標位置的隨機性模糊了這種差距。在實際運行結(jié)果中也發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡對于零件在整幅圖像中占比較小,且種類相同、尺寸相近零件之間的區(qū)分準確率較低,對于某些尺寸較小且形狀相似的零件,卷積神經(jīng)網(wǎng)絡的準確率甚至不如傳統(tǒng)算法。
為了解決卷積神經(jīng)網(wǎng)絡對于形狀、大小相似的目標不敏感的問題,本文提出了將圖像中的目標進行中心化的方法。目標中心化算法的思路是:通過將圖像中的待識別目標的位置移動到圖像的中心處,使相同類別的不同圖像間的差距盡可能縮小,從而突出不同類別圖像之間的差距。該方法不僅有一定的理論依據(jù)作為支撐,在實際運行結(jié)果中,該方法也使神經(jīng)網(wǎng)絡的識別準確率得到了顯著提升。
通過上下左右4個方向的Sobel算子提取邊緣,這4個算子的形式如下:
與卷積運算類似,這4個算子分別從左到右、從上到下移動,每次移動的步長為1。設算子F覆蓋到的原圖像素組成的矩陣為,則輸出為
(a) 原始圖片;(b) 邊緣提取結(jié)果
由圖6可見,圖像中有許多噪聲干擾。為了正確判斷零件位置,采用提取圖像中的最大連通域的方法。這樣防止了傳統(tǒng)的濾波操作可能導致的噪聲濾除不完全的問題,從而完全避免了噪聲的干擾。
找出最大連通域后,得到它的矩形包圍邊框,提取原始圖像邊框內(nèi)的圖像,即為原始圖像中零件部分的圖像。
為了驗證目標中心化算法的正確性,分別制作了3種數(shù)據(jù)集:第1種數(shù)據(jù)集僅提取矩形包圍框內(nèi)的圖像,不改變圖像位置;第2種數(shù)據(jù)集將提取到的目標置于圖像左上角;第3種數(shù)據(jù)集將提取到的目標置于圖像中心。這3種方法得到的數(shù)據(jù)集的部分圖像如圖7所示。
(a) 目標在原始位置;(b) 目標在左上角;(c) 目標在中心
根據(jù)前面的理論分析,第1種數(shù)據(jù)集未改變目標位置,僅去掉大部分背景,相當于突出了目標所在位置,但因為并未改變目標位置,猜測該種數(shù)據(jù)集的準確率與原始數(shù)據(jù)集相似或稍有改善;第2種數(shù)據(jù)集將目標置于圖像左上角處,統(tǒng)一了目標位置但并未統(tǒng)一至中心處,相當于一種略微弱化的中心化,與原始數(shù)據(jù)集的準確率相比應得到較明顯的提升,但仍不如第3種數(shù)據(jù)集,即完全地將目標置于圖像中心。
分別使用原始數(shù)據(jù)集和目標在原位置、左上角、中心的數(shù)據(jù)集訓練網(wǎng)絡,將訓練集的全部數(shù)據(jù)在神經(jīng)網(wǎng)絡上訓練80次。將每種數(shù)據(jù)集中的測試集的損失函數(shù)值變化曲線進行比較,結(jié)果如圖8所示。
1—原始圖像;2—目標在原位置;3—目標在左上角;4—目標在中心。
由圖8可見,在訓練過程中,原始圖像和目標在原位置的數(shù)據(jù)集訓練速度幾乎相同,而目標在左上角和目標在中心的數(shù)據(jù)集訓練速度遠大于原始數(shù)據(jù)集的訓練速度,且目標在中心的數(shù)據(jù)集的訓練速度略大于目標在左上角數(shù)據(jù)集的訓練速度,說明目標中心化能夠強化數(shù)據(jù)的特征,加快網(wǎng)絡收斂,在相同訓練次數(shù)下,損失函數(shù)更小,從而達到減少訓練時間的目的,且中心化程度越強,訓練速度越快。
原始數(shù)據(jù)測試集綜合準確率為97.59%,目標在原位置的測試集綜合準確率為98.57%,說明僅去掉背景也能提升一定的準確率;而目標在左上角的測試集綜合準確率為99.88%,目標在中心的測試集綜合準確率為99.96%,說明目標中心化能夠大幅提高網(wǎng)絡的準確性,且準確率隨中心化程度的增加而升高。
各測試集中每種零件的準確率如表2所示。
表2 每種零件的準確率
由表2可知:對原始圖像進行分類,準確率最低的零件為10號,準確率為85.83%;29種零件中僅有15種零件的準確率大于99.9%;使用目標中心化算法后,每類零件的準確率都在99.5%以上,且26種零件的準確率均大于99.9%,10號零件的準確率也提升至99.67%,說明目標中心化算法能夠十分顯著地提高網(wǎng)絡的準確率。
1) 提出了一種基于邊緣提取和最大連通域的目標中心化算法。在對29種不同尺寸的螺絲、螺母和墊片的分類問題中,系統(tǒng)的總體準確率從97.59%提升至99.96%。
2) 本文提出的算法能夠?qū)Ρ尘凹儍舻墓I(yè)圖像進行準確分類,當目標占圖像區(qū)域較小且不同種類圖像差距不大時,使用目標中心化算法對圖像進行預處理能夠顯著提高網(wǎng)絡的準確率。同時,對于識別相同形狀、不同尺寸的圖像,卷積神經(jīng)網(wǎng)絡也有很高的準確率。
[1] 何曉陽, 徐惠鋼, 謝啟. 基于LabVIEW與BP神經(jīng)網(wǎng)絡的零件識別系統(tǒng)[J]. 儀表技術(shù)與傳感器, 2017(1): 119?122. HE Xiaoyang, XU Huigang, XIE Qi. Recognition system of parts based on LabVIEW and BP neural network[J]. Instrument Technique and Sensor, 2017(1): 119?122.
[2] 何澤強. 基于機器視覺的工業(yè)機器人分揀系統(tǒng)設計[D]. 哈爾濱: 哈爾濱工業(yè)大學信息與電氣工程學院, 2016: 1. HE Zeqiang. Design of industrial robot sorting system based on machine vision[D]. Harbin: Harbin Institute of Technology. School of Information and Electrical Engineering, 2016: 1.
[3] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning[M]. Cambridge, MA: The MIT Press, 2016: 3.
[4] 司小婷, 吳文江, 孫一蘭. 基于視覺的零件識別和定位[J]. 組合機床與自動化加工技術(shù), 2016(10): 70?73. SI Xiaoting, WU Wenjiang, SUN Yilan. The identification and positioning of parts based on machine vision[J]. Modular Machine Tool & Automatic Manufacturing Technique, 2016(10): 70?73.
[5] 劉振宇, 李中生, 趙雪, 等. 基于機器視覺的工業(yè)機器人分揀技術(shù)研究[J]. 制造業(yè)自動化, 2013(17): 25?30. LIU Zhenyu, LI Zhongsheng, ZHAO Xue, et al. Research of sorting technology based on industrial robot of machine vision[J]. Manufacturing Automation, 2013(17): 25?30.
[6] 吳益紅, 許鋼, 江娟娟, 等. 基于LBP和SVM的工件圖像特征識別研究[J]. 重慶理工大學學報, 2016, 30(1): 77?84. WU Yihong, XU Gang, JIANG Juanjuan, et al. Research on workpiece image feature recognition based on LBP and SVM[J]. Journal of Chongqing University of Technology (Natural Science), 2016, 30(1): 77?84.
[7] 馮長建, 吳斌, 羅躍綱. 混合KPCA和SVM的機械零件形狀識別方法研究[J]. 機械制造與自動化, 2016(4): 132?134. FENG Changjian, WU Bin, LUO Yuegang. Research on shape recognition of mechanical parts based on hybrid KPCA and SVM[J]. Machine Building & Automation, 2016(4): 132?134.
[8] 李春, 李琳, 鄒焱飚, 等. 基于視覺的焊接工件在線識別與分類算法研究[J]. 價值工程, 2016, 35(4): 97?101. LI Chun, LI Lin, ZOU Yanbiao, et al. Research on on-line recognition and classification of weldment based on machine vision[J]. Value Engineering, 2016, 35(4): 97?101.
[9] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504.
[10] 趙鵬, 王斐, 劉慧婷, 等. 基于深度學習的手繪草圖識別[J]. 四川大學學報(工程科學版), 2016, 48(3): 94?99. ZHAO Peng, WANG Fei, LIU Huiting, et al. Sketch recognition using deep learning[J]. Journal of Sichuan University (Engineering Science Edition), 2016, 48(3): 94?99.
[11] LéCUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 2001, 86(11): 2278?2324.
[12] 楊國國, 鮑一丹, 劉子毅. 基于圖像顯著性分析與卷積神經(jīng)網(wǎng)絡的茶園害蟲定位與識別[J]. 農(nóng)業(yè)工程學報, 2017, 33(6): 156?162. YANG Guoguo, BAO Yidan, LIU Ziyi. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 156?162.
[13] 周云成, 許童羽, 鄭偉, 等. 基于深度卷積神經(jīng)網(wǎng)絡的番茄主要器官分類識別方法[J]. 農(nóng)業(yè)工程學報, 2017, 33(15): 219?226. ZHOU Yuncheng, XU Tongyu, ZHENG Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(15): 219?226.
[14] SERMANET P, EIGEN D, ZHANG X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[EB/OL]. [2013?12?21]. https://arxiv.org/ abs/1312.6229.
[15] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]// Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770?778.
[16] 高學, 王有旺. 基于CNN和隨機彈性形變的相似手寫漢字識別[J]. 華南理工大學學報 (自然科學版), 2014, 42(1): 72?76. GAO Xue, WANG Youwang. Recognition of similar handwritten Chinese characters based on CNN and random elastic deformation[J]. Journal of South China University of Technology(Natural Science), 2014, 42(1): 72?76.
[17] GLOROT X, BORDES A, BENGIO Y, et al. Deep sparse rectifier neural networks[C]// International Conference on Artificial Intelligence and Statistics. Cambridge, MA: The MIT Press, 2012: 315?323.
[18] ZHOU Y T, CHELLAPPA R. Computation of optical flow using a neural network[C]// IEEE International Conference on Neural Networks. Piscataway, NJ: IEEE, 1988: 71?78.
[19] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(2): 2012.
[20] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional networks for large-scale image recognition[EB/OL]. [2014?10?15]. https://arxiv.org/abs/1409.1556.
[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929?1958.
[22] KINGMA D P, BA J. Adam: A method for stochastic optimization[EB/OL]. [2014?12?22]. https://arxiv.org/abs/ 1412.6980.
[23] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift[EB/OL]. [2015?01?11]. https://arxiv.org/abs/1502.0316.
Target-centralization algorithm used for image preprocessing of CNN
DONG Qiucheng1, WU Aiguo1, DONG Na1, FENG Wei2
(1. School of Electrical and Information Engineering, Tianjin University, Tianjin 300072, China;2. National Laboratory of Pattern Recognition Institute of Automation, Chinese Academy of Sciences, Beijing 100000, China)
To solve the problem of classifying different parts automatically in industrial production, a pattern recognition algorithm based on convolutional neural network was raised and 29 different sizes of screws, nuts and washers were classified. Firstly, image data of the parts that were going to be classified were collected, and the dataset was created by data augmentation. Then, a simplified convolutional neural network was designed. An image preprocessing algorithm to centralize the position of the target in the image was raised, which can extract the target area in the image and move it to the center of the image. The results show that compared with traditional method without target-centralization algorithm, the total error is raised from 97.69% to 99.96, and the accuracy of the part which has the lowest accuracy is raised from 85.83% to 99.67%. When convolutional neural network is used to classify images which has pure background and obvious object, using the target-centralization algorithm raised in this paper to preprocess the images can improve the accuracy of the network significantly.
parts; recognition; convolutional neural network; data augmentation; centralization; object extraction
TP 391.4
A
1672?7207(2019)03?0579?08
10.11817/j.issn.1672-7207.2019.03.011
2018?03?12;
2018?04?26
國家自然科學基金資助項目(61402374) (Project(61402374) supported by the National Natural Science Foundation of China)
吳愛國,教授,博士生導師,從事智能化工藝集成系統(tǒng)開發(fā)研究;E-mail:agwu@tju.edu.cn
(編輯 趙俊)