殷瑞,蘇松志,李紹滋
(1.廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建 廈門 361005; 2. 廈門大學(xué) 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361005)
一種卷積神經(jīng)網(wǎng)絡(luò)的圖像矩正則化策略
殷瑞1,2,蘇松志1,2,李紹滋1,2
(1.廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建 廈門 361005; 2. 廈門大學(xué) 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361005)
摘要:卷積神經(jīng)網(wǎng)絡(luò)的池化策略包含極大池化和平均池化,極大池化選擇池化區(qū)域中的最大值,極易出現(xiàn)過抑合現(xiàn)象;平均池化對池化區(qū)域中所有元素賦予相同權(quán)重,降低了高頻分量的權(quán)重。本文提出將矩池化作為卷積神經(jīng)網(wǎng)絡(luò)的正則化策略,矩池化將幾何矩概念引入到卷積神經(jīng)網(wǎng)絡(luò)的池化過程中,首先計(jì)算池化區(qū)域的中心矩,然后根據(jù)類插值法依概率隨機(jī)地從中心矩的4個(gè)鄰域中選擇響應(yīng)值。在數(shù)據(jù)集MNIST、CIFAR10、CIFAR100上的實(shí)驗(yàn)結(jié)果表明隨著訓(xùn)練迭代次數(shù)的增加,矩池化的訓(xùn)練誤差和測試誤差最低,矩池化的高差別性和強(qiáng)魯棒性使其獲得了比極大池化和平均池化更好的泛化能力。
關(guān)鍵詞:中心矩;隨機(jī)選擇;池化;卷積神經(jīng)網(wǎng)絡(luò);過抑合
中文引用格式:殷瑞,蘇松志,李紹滋.一種卷積神經(jīng)網(wǎng)絡(luò)的圖像矩正則化策略[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(1): 43-48.
英文引用格式:YIN Rui, SU Songzhi, LI Shaozi. Convolutional neural network’s image moment regularizing strategy[J]. CAAI Transactions on Intelligent Systems, 2016, 11(1): 43-48.
卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過程中存在一個(gè)共同的問題,即當(dāng)模型復(fù)雜度比較高時(shí),由于訓(xùn)練數(shù)據(jù)相對不足而產(chǎn)生過抑合現(xiàn)象,導(dǎo)致模型泛化能力比較差。一系列正則化技術(shù)被用來解決該問題,如L1正則化,L2正則化,即對損失函數(shù)增加L1范數(shù)或L2范數(shù),根據(jù)圖像變換擴(kuò)增訓(xùn)練數(shù)據(jù)等。雖然上述方法可以在一定程度上抑制過擬合,訓(xùn)練出比未正則化模型泛化性更強(qiáng)的模型,但是由于以上方法是基于參數(shù)的方法,在解決過抑合問題的同時(shí)卻增加了模型訓(xùn)練復(fù)雜度,在一定程度上弱化了其效果。
Hinton 等[2]提出的dropout是另外一種正則化方法,它在訓(xùn)練過程中以0.5的概率隨機(jī)將網(wǎng)絡(luò)中神經(jīng)元的響應(yīng)值置為0。該方法在計(jì)算機(jī)視覺的多個(gè)問題中都取得了不錯(cuò)的成績,然而目前仍不能完全解釋它的有效性。Dropout并不能在神經(jīng)網(wǎng)絡(luò)的每一層都提高模型的泛化能力,甚至?xí)鸱醋饔?,因此dropout在網(wǎng)絡(luò)中的位置選擇非常重要,然而目前并沒有特定的標(biāo)準(zhǔn),依賴于個(gè)人經(jīng)驗(yàn)。
池化方法是一種無參的正則化方法。極大池化(max pooling)簡單地從池化區(qū)域中選擇最大值作為最終響應(yīng)值,雖然保留了高頻分量,如圖像的邊緣等信息,但它對噪聲信息非常敏感,并且在訓(xùn)練中極易出現(xiàn)過抑合。平均池化(average pooling) 對池化區(qū)域的所有值取平均,該方法雖然考慮了區(qū)域中所有信息,有效地降低了噪聲信息的影響,然而它平滑了圖像,從而導(dǎo)致非常重要的高頻信息丟失。
為確保模型的判別性及魯棒性,池化策略必須保留高頻分量以提高判別性,同時(shí)通過一定的隨機(jī)性以增強(qiáng)魯棒性。本文從全新的角度提出了一項(xiàng)卷積神經(jīng)網(wǎng)絡(luò)池化策略:矩池化。首先,計(jì)算池化區(qū)域的中心矩(即圖像灰度重心),一般情況下中心矩是一個(gè)浮點(diǎn)值,并不指向圖像中一個(gè)確定的像素位置,本文根據(jù)概率隨機(jī)地從中心矩的4個(gè)鄰域中選擇一個(gè)作為最終的響應(yīng)值。該策略應(yīng)用中心矩方法在保留高響應(yīng)值的同時(shí)弱化了噪聲信息的影響,隨機(jī)性避免了訓(xùn)練過程中的過抑合現(xiàn)象。
1卷積神經(jīng)網(wǎng)絡(luò)
人類的視覺系統(tǒng)對外界的認(rèn)識是從局部到全局的過程,因而卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network CNN)認(rèn)為圖像的局部像素聯(lián)系比較遠(yuǎn)距離的像素聯(lián)系更緊密。因此卷積神經(jīng)網(wǎng)絡(luò)在高分辨率提取局部特征,然后在低分辨率將局部特征組合形成更加復(fù)雜的特征。CNN通過增加較高層特征圖的數(shù)量來補(bǔ)償空間信息的丟失。CNN的基礎(chǔ)框架由卷積層和池化層組成,卷積層類似于簡單細(xì)胞,池化層使圖像特征具有平移不變性。
1.1卷積層
卷積層是實(shí)現(xiàn)圖像局部聯(lián)系的一種途徑,它通過參數(shù)共享學(xué)習(xí)適用于所有數(shù)據(jù)的底層特征。圖1是第一個(gè)卷積層學(xué)習(xí)到通用的邊緣特征,更高的卷積層可以提取更加具體的特征如輪廓。卷積層將整個(gè)圖片與卷積核卷積,然后計(jì)算卷積核在圖片每個(gè)位置的內(nèi)積,將輸出作為特征圖c,c可以用來評價(jià)圖像的每一個(gè)部分與卷積核的匹配度。
然后將非線性變換函數(shù)應(yīng)用于特征圖c,即:a=f(c)。非線性變換函數(shù)f有很多種選擇,最常用的是tanh 和logistic 函數(shù)。本文選擇受限線性單元(ReLU)f(c) =max(0,c),V.Nair[3]證明ReLU比tanh和logistic泛化能力更強(qiáng)。
圖1 CNN網(wǎng)絡(luò)第一卷積層學(xué)習(xí)到的部分邊緣特征Fig.1 The part of edge features learned by the first convolution layer of CNN
1.2池化層
池化層通過池化函數(shù)pool(·)將圖像中一個(gè)較小的子區(qū)域R的信息集合起來,其作用是通過降低分辨率獲得模型對圖像平移及旋轉(zhuǎn)變換的不變性。
(1)
式中:Ri表示特征圖c中池化區(qū)域,i、j是該區(qū)域每個(gè)元素的索引。
Pool有2種常用函數(shù):max[4]和ave[5]。前者取池化區(qū)域的最大值:
(2)
后者取池化區(qū)域的平均值:
(3)
在深度卷積神經(jīng)網(wǎng)絡(luò)中,上述2種池化方法都有其不可避免的缺點(diǎn)。由于max 僅簡單地選擇最大值,因此對噪聲非常敏感,并且實(shí)驗(yàn)發(fā)現(xiàn)該方法極易過抑合。ave考慮了池化區(qū)域中所有元素,避免了噪聲的影響,然而在CNN中我們期望池化層盡可能保留強(qiáng)響應(yīng)值,但ave考慮了池化區(qū)域中的所有元素,并且賦予了相同權(quán)重。當(dāng)選擇ReLU 函數(shù)作為非線性變換函數(shù)時(shí),ave考慮了大量的0 值,間接地降低了強(qiáng)響應(yīng)值的權(quán)重。假如非線性變換函數(shù)選擇tanh,ave會抵消掉正負(fù)強(qiáng)響應(yīng)值(梯度方向相反),返回一個(gè)完全不具代表性的響應(yīng)值。
1.3全連接層
全連接層一般在網(wǎng)絡(luò)的最后幾層,與卷積層不同,它感知全局信息,將卷積層學(xué)習(xí)到的局部特征聚集起來形成全局特征用于特定的圖像處理任務(wù),如分類、檢測、識別等。
2矩池化
矩不變性是圖像處理中一個(gè)經(jīng)典問題,自1962年H.Ming et.al[6]將矩特征應(yīng)用于模式識別中后,該方法被廣泛應(yīng)用到計(jì)算機(jī)視覺中的多個(gè)鄰域。由于矩特征具有平移不變性、相似變換不變性、旋轉(zhuǎn)不變性以及正交變換不變性,因此它被成功地應(yīng)用于圖像分類中。P.Rosin[7]認(rèn)為局部區(qū)域的灰度值分布相對于其中心具有偏移性,因此他利用圖像中心到中心矩的向量來表示局部區(qū)域的主方向。E. Rublee[8]在提取二值特征時(shí),將矩特征應(yīng)用于估計(jì)主方向以提高特征的魯棒性。本文將中心矩與隨機(jī)選擇結(jié)合起來,將其應(yīng)用于CNN的池化操作中,為了不增加CNN模型的計(jì)算復(fù)雜性,本文采用一階矩。
灰度矩定義如下:
(4)
式中:I(x,y)表示圖像位置(x,y)處的灰度值,p、q取值為1.
中心矩定義如下:
(5)
根據(jù)式(4)、(5)計(jì)算池化區(qū)域的中心矩c(x,y),一般情況下c為浮點(diǎn)值,不指向任何一個(gè)確定的離散值,如圖2所示,其上下邊界具有4個(gè)確定位置(Q11,Q12,Q22,Q21),稱其為c的四鄰域。在圖像放大中采用插值法計(jì)算插入點(diǎn)的像素值,本文借鑒該思想通過中心矩的四鄰域計(jì)算其響應(yīng)值。
圖2 矩池化選擇方法Fig.2 The moment pooling’s selection strategy
x1=(int)xy1=(int)y
x2=x1+1y2=y1+1
(6)
式中x1、x2分別表示x、y向下取整。
最近鄰插值法[9]選擇與插入點(diǎn)最近的像素作為中心矩的像素值,雖然該方法插值速度快,但它容易出現(xiàn)棋盤格效應(yīng)。且在池化操作中,中心矩與最大值像素位置非常接近,最近鄰插值法幾乎等價(jià)于極大池化法。
雙線性插值法[10]用待插入點(diǎn)的2×2區(qū)域的4個(gè)鄰近像素的值通過加權(quán)平均計(jì)算得到。其核心思想是在x、y方向上分別進(jìn)行一次線性插值,距離待插入點(diǎn)越近,權(quán)值越高。在池化操作中雙線性內(nèi)插算法不會出現(xiàn)像素值不連續(xù)的情況,然而此算法和平均池化類似,具有低通濾波器的性質(zhì),使高頻分量受損,所以可能會使輪廓信息在一定程度上變得模糊。除此之外,雙線性插值法要分別在2個(gè)方向上插值,增加了模型的計(jì)算復(fù)雜度。
本文在2個(gè)方向上以概率px、py隨機(jī)選擇x、y,式(7)、(8)所示距離中心矩越近,被選擇的可能性越大。最后根據(jù)選擇的(x,y) 坐標(biāo)從四鄰域中選擇池化區(qū)域的響應(yīng)值。矩池化的隨機(jī)性使每次選擇都不相同,因此可以有效地達(dá)到預(yù)防過抑合的效果。在計(jì)算復(fù)雜度上,該策略只需要隨機(jī)生成2個(gè)概率,遠(yuǎn)小于雙線性插值法,與最近鄰插值法接近。
(7)
(8)
3實(shí)驗(yàn)
實(shí)驗(yàn)部分將矩池化、極大池化、平均池化分別在MNIST,CIFAR-10,CIFAR-100數(shù)據(jù)集上進(jìn)行比較,圖3 代表3個(gè)數(shù)據(jù)集的部分?jǐn)?shù)據(jù)。實(shí)驗(yàn)采用深度學(xué)習(xí)框架caffe[11],caffe是一個(gè)清晰而高效的深度學(xué)習(xí)框架,它具有上手快、速度快、模塊化、開放性及社區(qū)好的特點(diǎn),并且支持命令行、python和matlab接口,可以在CPU和GPU 間無縫切換,大大提高了模型的學(xué)習(xí)效率。
(a)mnist (b)cifar10 (c)cifar100圖3 實(shí)驗(yàn)中用到的部分?jǐn)?shù)據(jù)Fig.3 The part experiments data
模型優(yōu)化采用隨機(jī)梯度下降法(stochastic gradient descent),通過損失函數(shù)的負(fù)梯度L(Wt)與t時(shí)刻權(quán)重更新值vt的線性組合來更新權(quán)重。 學(xué)習(xí)率α代表負(fù)梯度的權(quán)重,勢μ代表vt的權(quán)重。形式上,在給定t時(shí)刻的vt、wt時(shí),通過式(9)更新t+1時(shí)刻的權(quán)重。這兩個(gè)參數(shù)需要通過調(diào)整來得到最好的結(jié)果[12],一般經(jīng)過stepsize 個(gè)訓(xùn)練回合,將α更新為原來的γth。
訓(xùn)練中需要優(yōu)化的參數(shù)有訓(xùn)練的回合數(shù)(epcho),學(xué)習(xí)率α,勢μ,權(quán)重衰減λ,α的變化步長stepsize和變化率γ,本文中μ=0.9 ,γ=0.01,其他參數(shù)設(shè)置與具體任務(wù)有關(guān)。
(9)
3.1訓(xùn)練集CIFAR-10
CIFAR-10[13]包含6萬個(gè)32×32的RGB圖片,共分為10 種類型。訓(xùn)練數(shù)據(jù)50 000 張圖片,測試數(shù)據(jù)10 000 張圖片。實(shí)驗(yàn)采用Hinton等提出的dropout模型2,該模型包含3個(gè)卷積層,每個(gè)卷積層由64個(gè)5×5的卷積核構(gòu)成,卷積層將非線性變換函數(shù)ReLU的結(jié)果作為它的輸出。池化層選擇大小為3的池化區(qū)域,以步長為2實(shí)施池化操作,然后通過局部響應(yīng)歸一化層(LRN:local response normalization)對池化結(jié)果進(jìn)行局部歸一化以抑止非常大的ReLU的輸出值。最后一層是全連接層,它的softmax輸出是整個(gè)網(wǎng)絡(luò)的分類預(yù)測結(jié)果。
實(shí)驗(yàn)中α的調(diào)整步長stepsize的大小非常重要,其太小將會導(dǎo)致模型遲遲不能跳出局部最優(yōu);反之由于學(xué)習(xí)率太大,模型一直在全局最優(yōu)附近徘徊,前者會降低模型泛化能力,后者延緩了模型的訓(xùn)練速度。圖4是stepsize=20 、100 時(shí)矩池化的誤差曲線,第一次學(xué)習(xí)率調(diào)整后,誤差曲線都會加速下降。后續(xù)調(diào)整僅降低訓(xùn)練誤差,對測試誤差影響甚微,因此最大迭代次數(shù)不超過2×stepsize。由圖4可看出選1.2~1.5倍即可。當(dāng)stepsize =20時(shí),曲線仍保持比較大的下降趨勢,即模型還未達(dá)到全局最優(yōu)附近,此時(shí)降低學(xué)習(xí)率,使模型在后面的迭代過程中極易陷入局部最優(yōu),測試誤差為20.57%;當(dāng)stepsize=100時(shí),曲線變化已趨平緩,此時(shí)降低學(xué)習(xí)率可使模型趨于全局最優(yōu),測試誤差降低至17.24%,后續(xù)實(shí)驗(yàn)參數(shù)設(shè)置如表1所示。
圖4 學(xué)習(xí)率α的迭代步長對實(shí)驗(yàn)結(jié)果的影響Fig.4 The effect of learning rate to α’s iteration stepsize
圖5 數(shù)據(jù)集CIFAR-10上的實(shí)驗(yàn)結(jié)果Fig.5 Experiments result on dataset CIFAR-10
epochαstepsizeγλ1200.0011000.010.004
使用上述CNN模型,在池化層分別采用極大池化,平均池化以及本文提出的矩池化方法,并比較它們的分類結(jié)果。如圖5所示,最大池化曲線訓(xùn)練過程中快速下降到0,平均池化的訓(xùn)練誤差及測試誤差都比較高。矩池化在有效避免過抑合的同時(shí),又能保證最低的預(yù)測誤差,這與矩特征的2個(gè)特性息息相關(guān)。表2比較3種池化方法在CIFAR-10數(shù)據(jù)集上的訓(xùn)練誤差及預(yù)測誤差,矩池化預(yù)測誤差最低。
表2不同池化方法在CIFAR-10數(shù)據(jù)集上的訓(xùn)練誤差與測試誤差
Table 2Pooling methods’ training errors and test errors on dataset CIFAR-10
方法訓(xùn)練誤差/%預(yù)測誤差/%平均池化10.4019.11最大池化0.0019.38矩池化6.0017.24
3.2訓(xùn)練集MNIST
MNIST[14]由大小為28×28的手寫體0~9組成,數(shù)據(jù)集中包含60 000張訓(xùn)練圖片和10 000張測試數(shù)據(jù),實(shí)驗(yàn)中預(yù)處理時(shí)將圖片歸一化到[0,1]。
Lecun Y[15]提出的LeNet-5模型在數(shù)字分類任務(wù)中取得了非常好的效果,本文采用的模型與LeNet-5略有不同,將原來的非線性變換函數(shù)sigmoid替換為ReLU。實(shí)驗(yàn)中參數(shù)設(shè)置如表3所示,stepsize=fixed 表示學(xué)習(xí)率在學(xué)習(xí)過程中不變,實(shí)驗(yàn)中為20。
表3 MNIST數(shù)據(jù)集上的參數(shù)設(shè)置
訓(xùn)練過程中,3種池化方法幾乎都完全過度抑合訓(xùn)練數(shù)據(jù),權(quán)重衰減雖然可以預(yù)防過抑合,但在該數(shù)據(jù)集上效果甚微,表4比較各個(gè)池化方法在MNIST數(shù)據(jù)集上的結(jié)果。矩池化方法只是一種正則化方法,因此可以與其他方法結(jié)合提高模型泛化能力。
表4不同池化方法在MNIST數(shù)據(jù)集上的訓(xùn)練誤差與測試誤差
Table 4Pooling methods’ training errors and test errors on dataset MNIST
%
3.3訓(xùn)練集CIFAR-100
CIFAR-100[8]數(shù)據(jù)集與CIFAR-10類似,不同之處在于它增加了圖片類別數(shù)到100,包含50 000張訓(xùn)練數(shù)據(jù)(每類500張)及10 000張測試數(shù)據(jù)。CIFAR-100的訓(xùn)練模型以及參數(shù)設(shè)置如表5所示,與CIFAR-100的基本一致,為提高準(zhǔn)確率將第3個(gè)卷積層數(shù)增加到128。相較于CIFAR-10,CIFAR-100的訓(xùn)練數(shù)據(jù)相當(dāng)有限,而模型卻更加復(fù)雜。如表6所示有限的訓(xùn)練數(shù)據(jù)下傳統(tǒng)的池化方法并沒有很好的泛化能力,而矩池化方法有效地降低了分類誤差。
數(shù)據(jù)集CIFAR-100上的實(shí)驗(yàn)結(jié)果如圖6所示,可以看出,第1次調(diào)整學(xué)習(xí)率前,曲線已趨平緩,調(diào)整后曲線迅速下降,與CIFAR-10 實(shí)驗(yàn)結(jié)果一致。
表5 CIFAR-100數(shù)據(jù)集上的參數(shù)設(shè)置
表6不同池化方法在CIFAR-100數(shù)據(jù)集上的訓(xùn)練誤差與測試誤差
Table 6Pooling methods’ training errors and test errors on dataset CIFAR-100
%
圖6 數(shù)據(jù)集CIFAR-100上的實(shí)驗(yàn)結(jié)果Fig.6 Experiments result on dataset CIFAR-100
4結(jié)束語
本文在卷積神經(jīng)網(wǎng)絡(luò)的框架上提出了一種可以與其他正則化方法結(jié)合使用的池化策略,如dropout、權(quán)重衰減、數(shù)據(jù)擴(kuò)增等。矩池化將中心矩與隨機(jī)選擇應(yīng)用于CNN的池化層中,中心矩選擇池化區(qū)域的灰度重心而非最大值,在保持模型判別性的同時(shí)有效地消除噪聲的影響;而選擇的隨機(jī)性,使每次選擇具有一定的不確定性,從而更好地避免過抑合,提高模型魯棒性。除此之外,矩池化是一種無參的正則化方法,不會影響模型復(fù)雜度,可以與任何已有的CNN模型相結(jié)合。實(shí)驗(yàn)表明該方法可以有效地預(yù)防過抑合,提高模型的泛化能力。
參考文獻(xiàn):
[1]MONTAVON G, ORR G, MüLLER K R. Neural networks: tricks of the trade[M]. 2nd ed. Berlin Heidelberg: Springer, 2012.
[2]HINTON G E, SRIVASTAVE N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[EB/OL]. [2012-07-03]. http://arxiv.org/pdf/1207.0580.pdf.
[3]NAIR V, HINTON G E. Rectified linear units improve restricted boltzmann machines[C]//Proceedings of the 27th International Conference on Machine Learning. Haifa, Israel, 2010.
[4]RANZATO M, BOUREAU Y L, LECUN Y. Sparse feature learning for deep belief networks[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS). Cambridge, MA, 2007.
[5]LECUN Y, BOSER B E, DENKER J S, et al. Handwritten digit Recognition with a back-propagation network[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS). Cambridge, MA, 1989.
[6]HU M K. Visual pattern recognition by moment invariants[J]. IRE Transactions on Information Theory, 1962, 8(2): 179-187.
[7]ROSIN P L. Measuring corner properties[J]. Computer vision and image understanding, 1999, 73(2): 291-307.
[8]RUBLEE E, RABAUD V, KONOLIGE K, et al. ORB: an efficient alternative to SIFT or SURF[C]//Proceedings of IEEE International Conference on Computer Vision (ICCV). Barcelona, 2011: 2564-2571.
[9]EVANS O D, KIM Y. Efficientimplementation of image warping on a multimedia processor[J]. Real-time imaging, 1998, 4(6): 417-428.
[10]GONZALEZ R C, WOODS R E. Digital image processing[M]. 2nd ed.New Jersey: Prentice-Hall, 2002.
[11]JIA Y, SHEHAMER E, DONAHUE J,et al.Caffe:convolutional architecture for fast feature emibedding[C]// Proceedings of the ACM International conference on Multimedia. ACM, 2014:625-678.
[12]BOTTOU L. Stochastic gradient descent tricks[M]// MONTAVON G, ORR G B, MüLLER K R. Neural Networks: Tricks of the Trade. 2nd ed. Berlin Heidelberg: Springer, 2012: 421-436.
[13]KRIZHEVSKY A. The CIFAR-10, CIFAR-100 database[EB/OL]. http://www.cs.toronto.edu/~kriz/cifar.html. LECUN Y, CORTES C, BURGES C J C. The MNIST database of handwritten digits[EB/OL]. http://yann.lecun.com/exdb/mnist/.
[14]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
Convolutional neural network’s image moment regularizing strategy
YIN Rui1,2, SU Songzhi1,2, LI Shaozi1,2
(1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain-Like Intelligent System, Xiamen University, Xiamen 361005, China)
Abstract:There are two kinds of pooling strategies for convolutional neural network (CNN) as follows: max pooling and average pooling. Max pooling simply chooses the maximum element, which makes this strategy extremely prone to overfitting. Average pooling endows all elements with the same weight, which lowers the weight of the high-frequency components. In this study, we propose moment pooling as a regularization strategy for CNN. First, we introduce the geometric moment to CNN pooling and calculate the central moment of the pooling region. Then, we randomly select the response values based on the probability-like interpolation method from the four neighbors of the moment as per their probability. Experiments on the MNIST, CIFAR10, and CIFAR100 datasets show that moment pooling obtains the fewest training and test errors with training iteration increments. This strategy’s robustness and strong discrimination capability yield better generalization results than those from the max and average pooling methods.
Keywords:central moment; random selection; pooling; convolutional neural network; overfitting
DOI:10.11992/tis.201509018
收稿日期:2015-09-16. 網(wǎng)絡(luò)出版日期:2016-01-05.
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61202143, 61572409);福建省自然科學(xué)基金資助項(xiàng)目(2013J05100).
通信作者:李紹滋. E-mail: szlig@xmu.edu.cn.
中圖分類號:TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號:1673-4785(2016)01-0043-06
作者簡介:
殷瑞,女,1993年生,碩士研究生,主要研究方向?yàn)閳D像特征表示、計(jì)算機(jī)視覺、深度學(xué)習(xí)。
蘇松志, 男,1982年生,講師,博士。主要研究方向?yàn)樾腥藱z測和人體行為分析。
李紹滋,男,1963年生,教授,博士生導(dǎo)師,福建省人工智能學(xué)會副理事長。主要研究方向?yàn)槿斯ぶ悄芗捌鋺?yīng)用、計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)、運(yùn)動(dòng)目標(biāo)檢測與識別等。主持過多項(xiàng)國家、省市級項(xiàng)目研究,獲得省科學(xué)技術(shù)三等獎(jiǎng)2項(xiàng),發(fā)表學(xué)術(shù)論文200 余篇,其中SCI檢索27篇、EI檢索171篇。
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160105.1532.004.html