蘇靜
摘 要:針對專利圖像檢索系統(tǒng)中的圖像分類問題,研究并實現(xiàn)了深度學習中的卷積神經(jīng)網(wǎng)絡方法。所設計的卷積神經(jīng)網(wǎng)絡由4個卷積層、2個池化層及2個完全連接層組成,其中每個特征映射層只由上一層的部分特征映射層線性組合而得,整個神經(jīng)網(wǎng)絡由反向傳播算法調(diào)整權(quán)重參數(shù)和偏置項并自動完成學習任務。通過外觀專利圖像的分類實驗表明,該方法分類準確率可達90%。
關鍵詞: 深度學習;卷積神經(jīng)網(wǎng)絡;外觀專利;圖像分類
【Abstract】 For patent image classification problems of Guangdong province in image retrieval system, A convolution neural network method in the deep learning is researched and implemented. The designed convolution neural network is made of four convolution layers, two pooling layers and two complete connection layers. In the convolution neural network, each feature mapping layer is the linear combination of the last part feature mapping layers. And the whole neural network adjusts the weight parameters and the bias by the back propagation algorithm and automatically completes the study task. The patent image classification experiment shows that the average classification accuracy can reach 90% by this method.
【Key words】 ?deep learning; convolution neural network; design patent; image classification
0 引 言
在互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展的今天,專利圖像的規(guī)模不斷擴大,專利圖像數(shù)據(jù)庫都是海量的,這無疑給面向大規(guī)模圖像數(shù)據(jù)的分析和理解帶來了重大挑戰(zhàn)。現(xiàn)有基于內(nèi)容的圖像檢索技術(shù)[1-2]用來提取特征的訓練數(shù)據(jù)大多來自人工標注樣本和人工調(diào)參,需要依靠設計者的先驗知識,很難利用大數(shù)據(jù)的優(yōu)勢,極大地限制了圖像檢索的性能。
近年來,深度學習 [3-4]在計算機視覺與圖像檢索等領域表現(xiàn)出強大優(yōu)勢。與傳統(tǒng)模式識別方法不同的是,深度學習無需手工設計特征,可以直接從大量數(shù)據(jù)集中自動學習特征,學習到成千上萬的參數(shù),在圖像檢索領域應用廣泛。
本文提出了一種基于 CNN 模型的家具類外觀專利圖像分類方法,并對本文方法與支持向量機方法(SVM)及傳統(tǒng)神經(jīng)網(wǎng)絡(NN) 方法加以對比,對家具類外觀專利圖像進行了交叉驗證實驗。實驗結(jié)果表明,基于 CNN 模型的方法取得了更好的分類效果。
1 CNN模型與算法
1.1 CNN模型簡介
卷積神經(jīng)網(wǎng)絡由 Hinton等人于2006年提出,作為一種深度學習模型受到了廣泛關注,并已成功應用在人臉識別、圖像分類與檢索等領域。結(jié)構(gòu)上, CNN是由多層神經(jīng)網(wǎng)絡構(gòu)成,主要包括卷積層、激勵層、池化層及全相連層[5-6]。在每一個卷積層,上一層的特征Maps被一個可以學習的卷積核進行卷積,再通過激活函數(shù)(Relu),就可以得到輸出特征Map。池化層往往在卷積層后面,計算Map一個區(qū)域上的某個特定特征的平均值來代表這個區(qū)域的特征,從而降低卷積層輸出的特征向量。在本實驗中,前面兩層是卷積和池化的交替,接著兩層是單卷積操作,在最后一兩層(靠近輸出層)是全連接的一維網(wǎng)絡。網(wǎng)絡結(jié)構(gòu)如圖1所示。
2 實驗與結(jié)果分析
2.1 實驗設備與數(shù)據(jù)
本實驗在Ubuntu14.04操作系統(tǒng),caffe框架環(huán)境下完成,使用的是改進后的Alexnet模型。關于實驗數(shù)據(jù),使用了家具外觀專利圖像,其中5 000張為訓練圖像,1 000張為測試圖像。在分類方案中,根據(jù)家具種類的不同,訓練圖像與測試圖像都被細分為10個類。在訓練過程中,每個類都有500個訓練樣本;在測試過程中,每個類都有100個測試樣本。每個圖像的輸入大小為224*224,格式為PNG。部分圖像樣本如圖2所示。為保證實驗的客觀性,實驗圖像為隨機選取,采用交叉驗證法得到實驗結(jié)果的平均準確率。
2.2 實驗結(jié)果分析
(1)訓練模型對分類結(jié)果的影響。不同的訓練模型因網(wǎng)絡層數(shù)和參數(shù)不同對分類結(jié)果有較大影響。對于同樣的數(shù)據(jù)集,采用AlexNet原模型識別準確率為85%,采用改進后的AlexNet模型識別準確率可達90%,仿真結(jié)果對比如圖3所示。本設計考慮到了外觀專利圖像的特殊性,對輸入圖像的大小、網(wǎng)絡層數(shù)、濾波器大小都做了重新設計。實驗中,當訓練次數(shù)達到15 000次時,網(wǎng)絡參數(shù)變化不大,表示卷積網(wǎng)絡已呈收斂狀態(tài),分類性能達到最優(yōu)。
(2)與SVM 、NN方法的比較。本文將CNN模型的方法與SVM及NN兩種分類方法進行了對比,實驗結(jié)果見表1。可以看出,和SVM方法相比,CNN在各個類別和總體分類精度上略有提升。和NN方法相比,CNN方法在Mirror和Stool兩個類別分類精度相當,而在Swivelchair、Table、Messagechair這3個類別上精度有較大提高??偟貋砜?,CNN方法的分類效果在三者中為最優(yōu)。
3 結(jié)束語
本文研究了卷積神經(jīng)網(wǎng)絡在外觀專利圖像分類中的應用,所設計的卷積神經(jīng)網(wǎng)絡由4個卷積層、2個池化層和2個全連接層組成,在外觀專利圖像分類實驗中達到90%的準確率,優(yōu)于SVM及NN分類方法。但是本文只是對Alexnet的網(wǎng)絡結(jié)構(gòu)進行了簡單的改進,采用了均值池化方法,針對外觀專利圖像的更優(yōu)卷積網(wǎng)絡模型仍有待進一步的深入研究。
參考文獻
[1]Edkins J, Graham M. Content-based image retrieval [R]. Newcastle:University of Northumbria,1999.
[2]DATTA R, JOSHI D, LI Jia, et al. Image retrieval: Ideas, influences, and trends of the new age [J]. ACM Computing Surveys (CSUB) , 2008, 40(2) : 5.
[3]余凱, 賈磊, 陳雨強, 等. 深度學習的昨天、今天和明天[J]. 計算機研究與發(fā)展, 2013, 50(9):1799-1804.
[4]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[5]DAHL G E, SAINATH T N, HINTON G E . Improving deep neural networks for LVCSR using rectified linear units and dropout[C]//2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Vancouver, BC, Canada:IEEE, 2013:8609-8613.
[6]FUKUSHIMA K. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position[J]. Biological Cybernetics, 1980, 36(4):193-202.
[7]LECUN Y, BOSER B E, DENKER J, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989,1(4): 541-551.