• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于卷積神經(jīng)網(wǎng)絡的圖像分類研究

      2016-09-24 01:31:38楊瑩張海仙四川大學軟件學院成都610065
      現(xiàn)代計算機 2016年5期
      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡分類

      楊瑩,張海仙(四川大學軟件學院,成都 610065)

      基于卷積神經(jīng)網(wǎng)絡的圖像分類研究

      楊瑩,張海仙
      (四川大學軟件學院,成都610065)

      0 引言

      圖像識別技術(shù)的基礎是分析圖像的主要特征,正如人類的圖像識別過程,復雜圖像的識別需要經(jīng)過多個層次信息的整合以及加工,才能夠?qū)⒎稚⒌膶D像單個特征的認知識別進行整合,形成對圖像的最終識別分類。相類似的,如何讓計算機在進行數(shù)字圖像處理時使用類似的特征提取機制,對于圖像的關(guān)鍵特征進行提取之后再進行整合,從而達到最終的認知分類目的成為近年來圖像識別研究的熱點。

      卷積神經(jīng)網(wǎng)絡(CNN)在諸如手寫數(shù)字識別以及人臉識別方面都被證明有著非常出色的表現(xiàn)。如Ciresan 的Deep Neural Networks for Image Classification[1]證明了在NORB和CIFAR-10數(shù)據(jù)集上采用卷積神經(jīng)網(wǎng)絡進行分類的效果非常好,同時,Krizhevsky等人在2012 年ImageNet的卷積網(wǎng)絡模型應用中取得16.4%的錯誤率更是吸引了全世界的矚目??偟膩碚f,卷積神經(jīng)網(wǎng)絡是深度神經(jīng)網(wǎng)絡的一種,它主要的訓練方式同傳統(tǒng)的深度神經(jīng)網(wǎng)絡(DNN)一樣,都是通過前向計算輸入與權(quán)值的內(nèi)積得到輸出,之后通過反向傳播(Back Propagation,BP)算法不斷迭代更新權(quán)值,結(jié)合梯度下降方法,最后得到能使整個網(wǎng)絡最優(yōu)的權(quán)值。除此之外,相比傳統(tǒng)的DNN,卷積神經(jīng)網(wǎng)絡的局部感受野方法、權(quán)值共享以及下采樣等手段,對圖像的位移不變性、旋轉(zhuǎn)不變性都有很大優(yōu)勢。首先,局部感受野方法很大程度上模擬了人的視覺神經(jīng)系統(tǒng),通過局部印象來形成最終對事物辨識認知的過程;權(quán)值共享讓同一特征圖下的連接邊共享龐大的參數(shù)集合;而最具代表性的卷積和池化方法也使得提取的特征更加穩(wěn)定,從而,最終的識別效果得到提升。本文將針對不同的數(shù)據(jù)集,通過建立三個卷積神經(jīng)網(wǎng)絡模型對數(shù)據(jù)集進行訓練和識別,通過微調(diào)參數(shù)達到更好的識別效果。

      1 實驗設計

      1.1模型設計

      (1)LeNet-5

      LeNet-5是Yann LeCun在1998年針對手寫數(shù)字識別問題的解決時提出的一個深度卷積網(wǎng)絡模型[2]。LeNet-5同其他的深度神經(jīng)網(wǎng)絡一樣采用BP算法進行權(quán)值訓練。

      通常在LeNet中使用的激活函數(shù)為sigmoid函數(shù),但是在本文使用的Caffe框架下,實驗使用的是線性修正單元(Rectified Linear Units,ReLU)作為激活函數(shù)。在神經(jīng)元的連接方式上,LeNet采用了CNN網(wǎng)絡中所特有的局部連接、權(quán)值共享的網(wǎng)絡構(gòu)造方式。為了模仿生物視覺神經(jīng)網(wǎng)絡中先進行局部的物體感受分析,最后匯總形成認知的方式,LeNet采用了局部連接的方式,即一個隱層神經(jīng)元并不連接全部輸入層神經(jīng)元而是連接部分輸入層神經(jīng)元,從而減少網(wǎng)絡連接個數(shù),具體連接方式如圖1所示。

      圖1 局部連接圖解

      并且,在實驗中卷積時需要提取多個特征,所以有多個特征維度(Feature Map),本文中因為采用了維度共享方式,所以每一個特征維度共享一組權(quán)值。

      (2)AlexNet

      AlexNet是多 倫多 大學 Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton在2012年參加ImageNet LSVRC比賽上提出的神經(jīng)網(wǎng)絡模型[3]。在結(jié)構(gòu)上,AlexNet由5個卷積層、3個全連接層之后,再加上一個softmax分類器。相比于其他網(wǎng)絡模型,AlexNet特點在于,首先,對于神經(jīng)元的激活函數(shù)拋棄了tanh函數(shù),采用了ReLU函數(shù)進行激活;其次,在部分神經(jīng)網(wǎng)絡層采用了局部響應歸一化 (Local Response Normalization)、隨機刪除(dropout),還有重疊池化(Overlapping Pooling)的手段進行過擬合(over-fitting)問題的優(yōu)化;在數(shù)據(jù)集方面,該網(wǎng)絡采用了擴充(Augmentation)方式,在運行訓練網(wǎng)絡時采用了兩個GPU并行訓練策略,加快大圖片集合下的訓練速度,幫助提高最終的識別正確率。

      本文中實驗所使用的網(wǎng)絡模型與原論文提出的AlexNet網(wǎng)絡模型結(jié)構(gòu)上大致一致,主要的不同點在于網(wǎng)絡的歸一化和池化順序不同,附加的偏差值(bias)也與原論文不同,具體如下:

      ①采用ReLU函數(shù)進行激活:

      一般網(wǎng)絡中神經(jīng)元的輸出激活函數(shù)通常為sigmoid函數(shù),或者是LeNet等網(wǎng)絡中常見的tanh函數(shù),但是出于訓練時間的考慮,在AlexNet中采取非飽和非線性的函數(shù)ReLU,這種方法是由Nair與Hinton提出來的[4],它是一種線性修正的方式,通過強制某些數(shù)據(jù)為零,引導網(wǎng)絡模型具有適度的稀疏性,在訓練過程中更快的到達收斂點。

      ②局部響應歸一化:通過對比實驗能夠證明,使用局部響應歸一化函數(shù)可以提高準確率。

      ③重疊池化:卷積網(wǎng)絡模型通常都會在卷積操作過后對圖像進行池化(Pooling)操作,使圖像在平移、旋轉(zhuǎn)后特征有更好的穩(wěn)定性。池化操作一般都不進行兩個池化算子矩陣的交叉重疊,跨越的步長和算子大小通常是一致的。但是,在AlexNet中,設置跨越步長參數(shù)小于算子,通過重疊池化的方式能夠避免過擬合。

      1.2實驗數(shù)據(jù)集

      ①MNIST數(shù)據(jù)集:經(jīng)典的開源手寫數(shù)字圖片集合,共有0-9一共十個數(shù)字的手寫圖片分類,每個分類下有屬于該分類的平均約1000張單個手寫數(shù)字的圖片,圖片格式為jpeg格式、8位灰度圖片,像素大小統(tǒng)一為28×28。

      ②Julia數(shù)據(jù)集:數(shù)據(jù)挖掘競賽Kaggle的經(jīng)典開源數(shù)據(jù)集之一,有EnglishImg和EndglishHnd兩個大分類,EnglishImg分類的圖片是截取自各個場景圖片下的單個數(shù)字或者字母,包含了A-Z,a-z,0-9字母和數(shù)字的62個子分類圖片,每個分類下有30-120張不等的字母或是數(shù)字圖片,屬于該分類的圖片均為彩色png格式圖像,圖片大小的變化范圍比較大,沒有經(jīng)過格式規(guī)范化處理,每張圖片所呈現(xiàn)的字符或者數(shù)字都是其原有圖片的分辨率。EnglishHnd圖片集分類下的圖片是背景均為白色的手寫數(shù)字或是字母圖片,包含了AZ,a-z,0-9字母和數(shù)字的62個子分類,每個子分類下均有55個手寫數(shù)字、或字母樣本圖片,格式為png格式,圖片大小為1200×900。

      ③Leaves數(shù)據(jù)集:Leaves數(shù)據(jù)集是來自于加州理工的一個開源樹葉圖片集,由Markus Weber在加州理工校園內(nèi)和校園附近拍攝采集,共186張圖片。圖片集下一共三個子分類,每個子分類60張圖片,格式為jpeg格式,大小896×592,圖片背景不同。

      ④CalTech101數(shù)據(jù)集:來自加州理工的經(jīng)典圖片分類數(shù)據(jù)集,該數(shù)據(jù)集包含有101種不同的實物,有動物、植物、樂器、電子產(chǎn)品等子分類,每個子分類的圖片數(shù)目從40-800張不等,圖片格式均為jpeg格式,圖片大小不固定,大致在300×200像素。

      2 實驗

      實驗環(huán)境為Caffe的Digits平臺,實驗過程通過將搜集的數(shù)據(jù)集分別輸入網(wǎng)絡模型訓練,根據(jù)實驗結(jié)果迭代調(diào)整相應的網(wǎng)絡參數(shù),并加入GoogleNet作為網(wǎng)絡實驗效果對比,得到不同網(wǎng)絡針對不同數(shù)據(jù)集的識別效果橫向比較結(jié)果。

      表1  Leaves分類實驗結(jié)果

      如圖2所示,三個網(wǎng)絡相比較之下,AlexNet網(wǎng)絡模型相對適合Leaves數(shù)據(jù)集分類,而從數(shù)據(jù)集來說,Leaves樹葉圖片集中樹葉形狀輪廓分明,邊界特征比較明顯容易提取,待識別的樹葉物體也多集中于圖片的中央位置,且圖片背景變化很小,大概一致,所以實驗后期在已有AlexNet網(wǎng)絡架構(gòu)的基礎上對原始圖片進行了截取操作,讓圖片中心的樹葉形狀得到放大,減少背景部分的干擾噪聲作用,而網(wǎng)絡結(jié)構(gòu)參數(shù)方面,同時處理的圖片數(shù)據(jù)量(Batch size)適當減小,對第一層卷積的步長也進行減小,Batch size大小固定在25的時候,網(wǎng)絡識別精確度保持在一個比較好的范圍內(nèi),得到了最終98%的識別準確率。

      圖2  Leaves數(shù)據(jù)集在三個網(wǎng)絡模型上識別效果對比

      表2  CalTech分類實驗結(jié)果

      CalTech101在識別難度上具有很高的區(qū)分,首先,CalTech101下面有101個目錄種類,并且種類之間的相關(guān)性并不強,這就對網(wǎng)絡模型能夠?qū)W習多個相關(guān)度不高的種類有很高要求。另外,每個子分類下面的訓練圖片尺寸和方向都不一致,圖片背景多變,待識別物體的所處位置也很靈活,不集中于圖片中心,這就加大了網(wǎng)絡抽取圖片特征的難度,通過實驗分析也發(fā)現(xiàn),原因主要在于處理背景單一。如圖3所示,輪廓特征比較明顯的字母識別上效率很高的LeNet對于CalTech101的識別效果并不明顯,識別準確度 Accuracy只有55.34%,同時存在過擬合的狀況。同樣的,AlexNet表現(xiàn)也與LeNet近似,在調(diào)整batch size之后雖然AlexNet效果有改善,但是準確度仍然較低。但是,采用網(wǎng)絡結(jié)構(gòu)比較復雜的GoogleNet進行分類后,所得到的準確度有了比較明顯的提升。通過實驗結(jié)果可以看出GoogleNet對于特征復雜的CalTech101分類效果要好的多,相比LeNet準確率提高了近20%。

      圖3  CalTech數(shù)據(jù)集在GoogleNet網(wǎng)絡模型上識別效果

      表3  Julia分類實驗結(jié)果

      Julia的EnglishImg數(shù)據(jù)集中,圖片主要是針對單個的字母數(shù)字的,且沒有經(jīng)過統(tǒng)一的圖片大小規(guī)范化,并且考慮到原始圖片長寬比相差略大的情況,所以,在輸入之前,對圖片集統(tǒng)一進行了左右兩側(cè)填充噪聲(fill)的處理,便于圖片平衡長寬比,在輸入網(wǎng)絡時對圖片矩陣處理過程中利于特征計算。如圖4所示,LeNet 和AlexNet執(zhí)行效果與GoogleNet相比較仍然差距比較大,GoogleNet通過實驗在batch size為25的情況下,能夠達到準確率93.62%的效果。

      如圖5所示,Mnist中的圖片均是統(tǒng)一大小的8位灰度圖像,分別用LeNet-5和AlexNet進行了實驗,準確率都在99%左右。由于Mnist圖片集中的圖片特征與其他圖片集相比起來較簡單,需要的卷積提取過程不復雜;另一方面LeNet-5是針對于手寫數(shù)字集設計的識別分類設計的網(wǎng)絡,所以能夠很好地提取圖片特征達到較好的分類效果。

      圖4  Julia數(shù)據(jù)集在GoogleNet網(wǎng)絡模型上識別效果

      圖5  MNIST數(shù)據(jù)集在LeNet網(wǎng)絡模型上識別效果

      3 結(jié)語

      卷積神經(jīng)網(wǎng)絡是目前進行圖像模式識別研究最有效的手段之一,隨著近年來大數(shù)據(jù)概念的提出,以及硬件計算能力的不斷增長,卷積神經(jīng)網(wǎng)絡的應用范圍更加廣泛,模型本身的強大特征識別能力也得到充分體現(xiàn),而卷積神經(jīng)網(wǎng)絡的模型也更加復雜,卷積層數(shù)也不斷疊加,以此來進行更復雜的圖像特征抽取,完成更困難的分類任務。本文針對不同數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡進行圖像分類實驗的設計。實驗結(jié)果顯示了不同網(wǎng)絡在不同數(shù)據(jù)集上分類性能的差異,以及實驗參數(shù)的調(diào)整在提高分類正確率上的作用,對具體圖像分類的研究及實驗提供了理論與實踐方面的參考。

      [1]Ciresan,D.C.,Meier,J.,and Schmidhuber,J.Multicolumn.Deep Neural Networks for Image Classification[N].CVPR,2012.

      [2]Y.LeCun,L.Bottou,Y.Bengio,P.Haffner.Gradient-based Learning Applied to Document Recognition[N].Proceedings of the IEEE, November,1998.

      [3]Alex Krizhevsky Ilya Sutskever Geoffrey E.Hinton.ImageNet Classification with Deep Convolutional Neural Networks[N],2012.

      [4]V.Nair,G.E.Hinton.Rectified Linear Units Improve Restricted Boltzmann Machines[N].In Proc.27th International Conference on Machine Learning,2010.

      Deep Neural Network;Image Recognition;Convolutional Neural Network

      Research on Image Classification Based on Convolutional Neural Networks

      YANG Ying,ZHANG Hai-xian

      (College of Software Engineering,Sichuan University,Chengdu 610065)

      國家自然科學基金資助項目(61303015)、四川省科技計劃項目(No.2014GZ0005-5)

      1007-1423(2016)05-0067-05

      10.3969/j.issn.1007-1423.2016.05.015

      楊瑩(1993-),女,云南大理人,本科,研究方向為機器智能

      張海仙(1980-),女,河南鄧州人,博士,副教授,研究方向為機器智能

      2015-12-22

      2016-01-15

      利用卷積神經(jīng)網(wǎng)絡進行實驗的分析設計,實現(xiàn)一類圖像數(shù)據(jù)的分類研究。實驗過程選取參考性較高的幾個開源數(shù)據(jù)集,分別應用到具體的網(wǎng)絡模型中進行識別和準確性對比,針對得到的實驗結(jié)果,進行分析和改進,并給出具體的改進說明。

      深度神經(jīng)網(wǎng)絡;圖像模式識別;卷積神經(jīng)網(wǎng)絡

      Focuses on image classification of certain datasets by using a convolutional neural network,analyzes the mathematical model on how to design the experiments,chooses several open source datasets,gives the experimental results and an accuracy comparison between models followed with some analysis.

      猜你喜歡
      卷積神經(jīng)網(wǎng)絡分類
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      分類算一算
      神經(jīng)網(wǎng)絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      基于傅里葉域卷積表示的目標跟蹤算法
      教你一招:數(shù)的分類
      基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
      安多县| 闸北区| 仙居县| 宁远县| 阳曲县| 温州市| 怀集县| 湟源县| 应城市| 西乌| 建昌县| 曲阜市| 绥阳县| 潜山县| 恩施市| 永登县| 漾濞| 青海省| 镇宁| 喀喇| 称多县| 肥乡县| 包头市| 翁牛特旗| 南陵县| 邵武市| 平邑县| 扎囊县| 大竹县| 商丘市| 句容市| 肇源县| 故城县| 清水县| 平舆县| 九台市| 盖州市| 塔城市| 会同县| 山阴县| 上思县|