劉瀚駿 楊勇(通訊作者) 長(zhǎng)春理工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院
本文參考GoogLeNet的Inception思想,針對(duì)手寫(xiě)體數(shù)字圖像數(shù)據(jù)的特點(diǎn),對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化調(diào)整,設(shè)計(jì)了一種輕量的卷積神經(jīng)網(wǎng)絡(luò)模型。并在MNIST數(shù)據(jù)集上對(duì)算法效果進(jìn)行了實(shí)驗(yàn)。
早期,手寫(xiě)數(shù)字的識(shí)別過(guò)程是使用統(tǒng)計(jì)方法來(lái)對(duì)手寫(xiě)數(shù)字的圖像進(jìn)行分類(lèi),如提取數(shù)字圖像的特征之后,使用基于SVM的進(jìn)行分類(lèi)。LeNet在出現(xiàn)后,迅速成為手寫(xiě)數(shù)字識(shí)別的典型算法。出現(xiàn)了眾多對(duì)這一算法的優(yōu)化模型。例如,在[2]中,作者使用九層的多層感知機(jī)模型,通過(guò)對(duì)MNIST數(shù)據(jù)的隨機(jī)位置變換和旋轉(zhuǎn)達(dá)到了99.55%的準(zhǔn)確率。
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò)模型,近年來(lái)在圖像領(lǐng)域取得了驚人的成績(jī)。其獨(dú)特的卷積層結(jié)構(gòu)可以自動(dòng)地對(duì)目標(biāo)進(jìn)行特征提取和學(xué)習(xí),無(wú)需進(jìn)行手工特征選擇。GoogLeNet是2014年提出的一種優(yōu)秀的卷積神經(jīng)網(wǎng)絡(luò)模型。GoogLeNet中引入一種新結(jié)構(gòu)Inception塊來(lái)增加網(wǎng)絡(luò)的寬度。這樣的橫向連接結(jié)構(gòu)并不會(huì)過(guò)高地增加網(wǎng)絡(luò)的參數(shù)數(shù)量,可以使網(wǎng)絡(luò)的訓(xùn)練變得相對(duì)更加容易。一個(gè)Inception塊的示意圖如圖1所示:
圖1 GoogLeNet中的Inecption結(jié)構(gòu)
但是,GoogLeNet22層的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于手寫(xiě)體數(shù)字識(shí)別來(lái)說(shuō)仍然過(guò)于復(fù)雜。MNIST數(shù)據(jù)集僅有60,000張左右的數(shù)字圖像,并不足以訓(xùn)練如此深的網(wǎng)絡(luò)。因此本文僅借用Inception這一思想,設(shè)計(jì)了一個(gè)淺層網(wǎng)絡(luò)模型。
在GoogLeNet中,Inception分為四個(gè)部分,且每個(gè)部分都有一個(gè)1*1卷積。這個(gè)1*1卷積是在處理ImageNet圖像時(shí)為了降低網(wǎng)絡(luò)計(jì)算量而存在的。但對(duì)于MNIST來(lái)說(shuō),其計(jì)算量較小,即使不進(jìn)行降維,運(yùn)算也十分迅速。GoogLeNet的Inception的第四部分包括一個(gè)3*3池化,由于MNIST的圖像大小只有28*28,經(jīng)過(guò)池化后圖像大小過(guò)小,不利于特征表達(dá)。最終,本文簡(jiǎn)化的Incetpion塊僅包含三個(gè)部分:其整體結(jié)構(gòu)僅有五層,如圖2所示:
圖2 本文網(wǎng)絡(luò)模型示意圖
在深度學(xué)習(xí)領(lǐng)域的諸多研究已經(jīng)證明了數(shù)據(jù)量對(duì)于深度學(xué)習(xí)任務(wù)的重要性。但MNIST數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)總量較少??梢酝ㄟ^(guò)對(duì)MNIST數(shù)據(jù)進(jìn)行增強(qiáng)來(lái)增加數(shù)據(jù)集中的數(shù)據(jù)數(shù)量。本文選取-30°~30°的隨機(jī)角度作為旋轉(zhuǎn)角,每張圖片隨機(jī)旋轉(zhuǎn)1~2次。并向隨機(jī)方向平移不超過(guò)5個(gè)像素。
本文使用tensorflow環(huán)境進(jìn)行實(shí)驗(yàn)。對(duì)于MNIST數(shù)據(jù)集,本文選用的batch大小為256,訓(xùn)練次數(shù)為20000次,學(xué)習(xí)率為0.002。
在訓(xùn)練完成后,將本文的模型與LeNet網(wǎng)絡(luò)、GoogLeNet進(jìn)行對(duì)比。
對(duì)比測(cè)試的結(jié)果如下:
表1 模型準(zhǔn)確率對(duì)比
可以看出,相較于另兩種方法,本文所述的基于Inception思想的方法具有較高的準(zhǔn)確率。
本文還對(duì)比了三種算法在訓(xùn)練時(shí)所需的時(shí)間,本文的訓(xùn)練時(shí)間與LeNet相差不大,可以快速訓(xùn)練完成,在測(cè)試時(shí),其響應(yīng)速度也明顯優(yōu)于GoogLeNet。
本文將GoogLeNet這一網(wǎng)絡(luò)中的Inception思想引入手寫(xiě)數(shù)字識(shí)別算法中,并對(duì)數(shù)據(jù)集進(jìn)行增廣,來(lái)實(shí)現(xiàn)了一種高效、準(zhǔn)確的手寫(xiě)數(shù)字識(shí)別方法。簡(jiǎn)化過(guò)的Inception結(jié)構(gòu)在有效增加網(wǎng)絡(luò)寬度的同時(shí),沒(méi)有很顯著地增加網(wǎng)絡(luò)的參數(shù)數(shù)量,這樣使得網(wǎng)絡(luò)可以提取更多特征,卻又不會(huì)難以訓(xùn)練。通過(guò)實(shí)驗(yàn)結(jié)果可知,這樣的思路具有良好的可行性,可以達(dá)到預(yù)期效果。