• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于矩陣2-范數(shù)池化的卷積神經(jīng)網(wǎng)絡圖像識別算法

    2016-12-02 01:33:32趙繼生
    圖學學報 2016年5期
    關(guān)鍵詞:池化范數(shù)殘差

    余 萍, 趙繼生

    (華北電力大學電子與通信工程系,河北 保定 071003)

    基于矩陣2-范數(shù)池化的卷積神經(jīng)網(wǎng)絡圖像識別算法

    余 萍, 趙繼生

    (華北電力大學電子與通信工程系,河北 保定 071003)

    卷積神經(jīng)網(wǎng)絡中的池化操作可以實現(xiàn)圖像變換的縮放不變性,并且對噪聲和雜波有很好的魯棒性。針對圖像識別中池化操作提取局部特征時忽略了隱藏在圖像中的能量信息的問題,根據(jù)圖像的能量與矩陣的奇異值之間的關(guān)系,并且考慮到圖像信息的主要能量集中于奇異值中數(shù)值較大的幾個,提出一種矩陣2-范數(shù)池化方法。首先將前一卷積層特征圖劃分為若干個互不重疊的子塊圖像,然后分別計算子塊圖像矩陣的奇異值,將最大奇異值作為每個池化區(qū)域的統(tǒng)計結(jié)果。利用5種不同的池化方法在Cohn-Kanade、Caltech-101、MNIST和CIFAR-10數(shù)據(jù)集上進行了大量實驗,實驗結(jié)果表明,相比較于其他方法,該方法具有更好地識別效果和穩(wěn)健性。

    深度學習;卷積神經(jīng)網(wǎng)絡;矩陣2-范數(shù);池化;奇異值

    近年來興起的卷積神經(jīng)網(wǎng)絡技術(shù)已經(jīng)成為計算機科學領(lǐng)域的研究熱點,其通過多個階段的變換,深度挖掘隱含信息的本質(zhì)特征,由于可以直接將原始圖像作為網(wǎng)絡的輸入,避免了復雜特征

    提取和數(shù)據(jù)重建,因此被廣泛應用在文本、語音、圖像識別等領(lǐng)域[1-5]。池化是卷積神經(jīng)網(wǎng)絡架構(gòu)中的重要組成部分,其核心思想源于 Hubel和Wiesel[6]有關(guān)哺乳動物視覺皮層模型結(jié)構(gòu)的開創(chuàng)性研究工作以及Koenderink和Van Doorn[7]提出的圖像局部相關(guān)性原理,是將某些固定區(qū)域的聯(lián)合分布統(tǒng)計結(jié)果作為特征檢測器的響應,用于實現(xiàn)圖像變換的縮放不變性,以使得網(wǎng)絡對噪聲和雜波有很好的魯棒性。通過池化操作,可以減少數(shù)據(jù)處理量并保留有用信息[8-9]。池化操作在卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)中非常重要,可對網(wǎng)絡性能產(chǎn)生很大的影響,因此研究行之有效的池化方法是必要的。

    1982年,F(xiàn)ukushima和Miyake[10]在神經(jīng)認知機中采取特征池化的方法用于圖像識別,為其后計算機視覺識別模型中運用池化操作奠定了基礎(chǔ);Lecun等[11-12]使用均值池化的方法成功訓練出第一個基于誤差梯度的卷積神經(jīng)網(wǎng)絡;Ranzato等[13]、Jarrett等[14]使用最大池化方法在 Caltech-101、MNIST和NORB數(shù)據(jù)集上取得了當時最好的測試效果;Sermanet等[15]使用向量范數(shù)池化方法將SVHN數(shù)據(jù)集的正確識別率提升到94.85%;Zeiler 和 Fergus[16]將一種簡單而有效的隨機池化方法用于防止卷積神經(jīng)網(wǎng)絡訓練過程中產(chǎn)生的過擬合,并且取得了很好的效果。

    均值池化方法考慮了池化區(qū)域里的所有元素,當使用 f(x) = max(0,x)線性修正函數(shù)(rectified linear units, ReLUs)對神經(jīng)元進行激勵時,在均值計算過程中有很多零元素會削弱較大激活值的貢獻,不能很好地反映池化區(qū)域的特征,同時將會對權(quán)值的調(diào)整產(chǎn)生很大影響;尤其是使用雙曲正切函數(shù)(tanh)時,由于tanh函數(shù)關(guān)于零點反對稱,正負激活部分可能會相互抵消,導致很微弱的池化反應。最大池化很好地解決了上述問題,但是由于其只選取了每個池化區(qū)域的最大值,使得較小的激活值無法向下一層傳遞信息,在實際應用中容易產(chǎn)生過擬合,網(wǎng)絡的泛化能力較差,很難將其推廣到測試集上。隨機池化方法因為是根據(jù)多項式分布按照概率隨機選取激活值,在采樣層測試階段采取概率加權(quán)池化的方法下,使用tanh函數(shù)作為激勵時,由于負數(shù)的存在,使得測試階段計算出來的加權(quán)激活值與訓練階段隨機選取的激活值差別很大,測試分類效果很差[16]。向量范數(shù)池化方法在進行特征提取時,需要選取多種形式的向量范數(shù)池化方法進行比較才能選擇出表現(xiàn)良好性能的策略,降低了算法性能,使其并沒有得到大規(guī)模運用。本文提出一種基于矩陣 2-范數(shù)的池化方法,將矩陣的最大奇異值作為池化區(qū)域統(tǒng)計結(jié)果,在常用的Cohn-Kanade、Caltech-101、MNIST和CIFAR-10數(shù)據(jù)集上的測試結(jié)果表明,該池化方法相比較于其他方法具有更好的識別效果。

    1 卷積神經(jīng)網(wǎng)絡

    卷積神經(jīng)網(wǎng)絡是一個多層的非全連接的神經(jīng)網(wǎng)絡,融合局部感受野、權(quán)值共享和子采樣這 3種結(jié)構(gòu)特性使其自適應實現(xiàn)圖像的旋轉(zhuǎn)、平移和縮放等形式變換[12,17]。局部感受野是指每一層網(wǎng)絡的神經(jīng)元只與上一層某個固定大小的相鄰矩形區(qū)域內(nèi)的神經(jīng)元相連接,通過局部感受野,神經(jīng)元可以提取到方向線段、端點和角點等初級視覺特征。權(quán)值共享極大地減少了網(wǎng)絡模型需要訓練的參數(shù)個數(shù),降低了模型復雜度。子采樣降低了特征圖的空間分辨率,提高了模型抗噪能力。圖 1為本文所用到的一個 Cohn-Kanade實驗的卷積神經(jīng)網(wǎng)絡模型結(jié)構(gòu),包括輸入層、卷積層(由C標識)、采樣層(由S標識)、全連接層(由F標識)和輸出層。

    圖1 Cohn-Kanade實驗的卷積神經(jīng)網(wǎng)絡模型結(jié)構(gòu)

    1.1 卷積層

    卷積層負責從輸入圖像的不同局部區(qū)域提取特征,可通過若干個可以學習的 × K K大小的卷積核與前一層的局部感受野進行卷積運算,并經(jīng)過激活函數(shù)的非線性作用得以實現(xiàn)。每個卷積層由多個特征圖組成,而每個特征圖又可與前一層的多個特征圖建立關(guān)系。卷積層的輸入與輸出形式分別為

    其中,Rj表示輸入特征圖的一個選擇;是第(l- 1)層的第i個特征圖的激活值;是第l層的第j個特征圖與第( l-1)層的第i個特征圖相連的卷積核;是第l層的第j個特征圖的偏置;f(·)表示神經(jīng)元的激活函數(shù),常采用的有飽和非線性函數(shù)(例如:sigmoid,表達式為 f(x) = (1 + e-x)-1;tanh等函數(shù))和不飽和非線性函數(shù)(例如:softplus,表達式為 f(x) = ln(1+ex);ReLUs等函數(shù))。

    1.2 采樣層

    采樣層是將卷積層的特征圖進行抽樣以提取用于分類的重要特征,即把輸入的特征圖劃分為多個不重疊的子塊,然后對每個子塊進行池化操作。采樣層只是做簡單的縮放映射,采樣層的特征圖與前一層的特征圖是一一對應的關(guān)系,假設前一個卷積層的特征圖大小為N×N,第j個特征圖矩陣記為,其中表示卷積層第j個特征圖矩陣元素,s和t為對應的序號。采樣窗口大小為n×n,采樣層的輸出為,其中。采樣層主要有均值池化、最大池化、向量范數(shù)池化和隨機池化4種構(gòu)建方式,其計算公式如下:

    (1) 均值池化的每個池化區(qū)域矩陣元素輸出形式為

    (2) 最大池化的每個池化區(qū)域矩陣元素輸出形式為

    (3) 向量范數(shù)池化的每個池化區(qū)域矩陣元素輸出形式為

    其中,P的取值不同代表了不同形式的向量范數(shù)。

    (4) 隨機池化的每個池化區(qū)域矩陣元素輸出形式為

    其中,“??”為向上取整符號。

    卷積神經(jīng)網(wǎng)絡通過卷積層和采樣層的交替作用來學習原始圖像的隱含特征,一般再經(jīng)過若干個普通神經(jīng)網(wǎng)絡里的全連接層,其輸入和輸出形式為

    按照梯度下降的原則,基于反向傳播算法(back propagation, BP)來調(diào)整相應的權(quán)重和偏置值。其中,全連接層權(quán)重值的更新公式為[18]

    其中, x (t )表示該神經(jīng)元的輸出; δ (t)表示該神經(jīng)元的殘差項;η表示學習率。

    2 基于矩陣2-范數(shù)的池化方法

    (3) 三角不等式:對于 ?B∈Rn×n,有;

    (4) 相 容 性 : 對 于 ?B∈Rn×n, 有

    根據(jù)以上矩陣范數(shù)的定義,介紹 2種常見的矩陣范數(shù):

    ① Frobenius范數(shù)(F-范數(shù),是向量 2-范數(shù)的推廣)

    ② 譜范數(shù)(矩陣2-范數(shù))

    其中, AT為A的轉(zhuǎn)置矩陣, λmax(ATA)為ATA的最大特征值。

    對方陣A進行奇異值分解有 A =UDVT,其中U和V都是正交矩陣, D=diag(d1,d2,···,dr)為對角矩陣,并且滿足d1≥ d2≥··· ≥ dr>0是矩陣A 的r個奇異值,r為矩陣A的秩。矩陣A的 F-范數(shù)和2-范數(shù)又可以表示為

    由式(14)、(15)可知,圖像的能量信息可以用矩陣的奇異值來表征,當圖像發(fā)生旋轉(zhuǎn)、平移、縮放等幾何失真時,根據(jù)奇異值分解理論,圖像矩陣的奇異值只發(fā)生很微小的變化,即圖像的能量信息具有較高的穩(wěn)定性[19-21]。因此,可將圖像的能量作為向下一層網(wǎng)絡傳遞的信息,以使得圖像的幾何失真具有高度不變性。考慮到圖像信息的主要能量集中于奇異值中數(shù)值較大的幾個,本文提出一種基于矩陣2-范數(shù)的池化方法,將矩陣的最大奇異值作為池化區(qū)域統(tǒng)計結(jié)果。相比較于F-范數(shù)方法,不僅計算簡單,且具有更好的穩(wěn)健性。

    以圖 2所示的一個池化過程為例,描述本文提出的矩陣2-范數(shù)的池化方法:

    步驟 1. 將N×N大小的卷積層特征圖劃分為若干個互不重疊的子塊矩陣,每個子塊矩陣的大小為n×n(圖2的卷積層特征圖中數(shù)字區(qū)域為其中一個子塊矩陣);

    涉及到反向傳播過程中,由式(11)可知,主要是計算殘差項 δ( t)。

    (1) 當l層是卷積神經(jīng)網(wǎng)絡中的輸出層時,第i個神經(jīng)元節(jié)點的殘差為

    其中,Yi表示理想狀態(tài)下的第i維標簽,為非線性映射函數(shù)的導數(shù),由于輸出層用于分類使用的是sigmoid函數(shù),因此,式(17)可以記為

    (2) 當l層是全連接層時,第i個神經(jīng)元節(jié)點的殘差為

    (3) 雖然采樣層沒有訓練的參數(shù),不需要進行參數(shù)更新,但是后面與之連接的卷積層和全連接層在計算殘差項時需要對其進行相應的操作。因此,仍然需要計算采樣層的殘差。

    ①當采樣層的下一層是卷積層時,第i個特征圖的殘差為

    ②當采樣層的下一層是全連接層時,需要將最后一個采樣層的二維特征圖拉伸為特征列向量,這里計算的是特征向量中第 i個神經(jīng)元節(jié)點的殘差

    (4) 當l層是卷積層時,需要將圖2采樣層中的一個元素對應的殘差項進行上采樣,本文的策略類似于均值采樣,將一個元素對應的殘差上采樣成具有相同元素的n×n大小的矩陣,第i個特征圖的殘差為

    其中, up(·)為一個上采樣函數(shù),就是計算下一個采樣層的殘差與一個n×n大小的全 1矩陣的克羅內(nèi)克積。

    圖2 矩陣2-范數(shù)的池化過程舉例

    3 實驗及結(jié)果分析

    為了驗證矩陣 2-范數(shù)池化方法的有效性,并且考慮到矩陣 2-范數(shù)的定義條件,本文探討在不同池化方法下,卷積層采取目前廣泛使用的ReLUs函數(shù),而全連接層使用sigmoid函數(shù)作為激活函數(shù)的圖像識別效果。實驗在 Matlab2013a環(huán)境下完成,采用的操作系統(tǒng)為Windows 8.1,CPU為Intel i5-4210m,主頻為2.6 GHz,內(nèi)存為8 G。實驗中的訓練次數(shù)最大設置為50次。

    3.1 Cohn-Kanade數(shù)據(jù)集實驗結(jié)果

    Cohn-Kanade(CK)數(shù)據(jù)集是美國卡內(nèi)基梅隆大學機器人研究所和心理學系共同建立的人臉表情庫,本文首先將 CK數(shù)據(jù)庫中的圖片裁剪成64×64大小的表情圖片,分為憤怒、厭惡、高興、恐懼、驚訝和悲傷等6種不同的表情,包含1 839張圖像,圖3為Cohn-Kanade實驗中用到的部分圖像。實驗中,每種表情都是隨機選取大約 90%的圖片作為訓練樣本,其余的作為測試樣本。

    圖3 Cohn-Kanade實驗中用到的部分圖像

    在圖1所示的Cohn-Kanade實驗的卷積神經(jīng)網(wǎng)絡模型結(jié)構(gòu)中,第一個卷積層C1通過5×5大小的卷積核獲得 4個 60×60大小的特征圖,共有4×(5×5+1)=104個需要訓練的未知參數(shù);接下來的采樣層S1對C1中所有互不重疊的2×2大小的子塊進行池化操作,得到4個30×30大小的特征圖,不含有未知參數(shù);余下的C2和S2層與此相類似;F3是一個與 S2全連接的網(wǎng)絡層,神經(jīng)元個數(shù)為100,總共有100×8×(13×13)+100=135300個連接;輸出層包含6個節(jié)點,使用全連接層的100維向量進行分類。圖4顯示了一張輸入圖像在矩陣2-范數(shù)池化網(wǎng)絡模型的卷積層和采樣層中的特征圖,各特征的數(shù)值分布于0到1之間,黑色為0,白色為 1。在采樣層使用不同池化方法下,Cohn-Kanade數(shù)據(jù)集的分類正確率如表1所示。從表1可看出,對于憤怒表情,最大和向量2-范數(shù)池化均能正確識別,而矩陣2-范數(shù)池化有1張錯誤識別;對于厭惡和高興表情,只有均值和隨機池化方法有 1張錯誤識別,其他池化方法均能正確識別;對于恐懼表情,5種池化方法都能正確識別;對于驚訝和悲傷表情,只有矩陣 2-范數(shù)池化方法識別效率好。矩陣2-范數(shù)池化方法在CK數(shù)據(jù)集上的正確識別率為97.77%。

    圖4 矩陣2-范數(shù)池化網(wǎng)絡模型的卷積層和采樣層中的特征圖

    表1 Cohn-Kanade數(shù)據(jù)集在不同池化方法下的分類正確率

    3.2 Caltech-101數(shù)據(jù)集實驗結(jié)果

    Caltech-101數(shù)據(jù)集包含101類物體和一類背景圖像,總共有9 144張大約300×300分辨率的圖像,每類的圖片數(shù)目從31到800張不等。考慮到特征維數(shù)較高會帶來內(nèi)存溢出問題,本文選取類別圖像中數(shù)目大于 400張的作為實驗對象,包括background、faces、faces_easy、motorbikes和airplanes 5類共計2 935張圖像,每類隨機選取M張圖像做訓練,訓練樣本共 5×M 張,其余的2935–5×M張為測試樣本。為了滿足輸入圖片的要求,使用雙線性插值算法將其歸一化為 140×140的灰度圖像,圖5為Caltech-101實驗中用到的部分圖像。

    圖5 Caltech-101實驗中用到的部分圖像

    本研究設計的Caltech-101實驗的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)如圖6所示的2個卷積層、2個采樣層和1個全連接層,第一個卷積層的特征圖個數(shù)為9,卷積核的大小為16×16;第二個卷積層的特征圖個數(shù)為 18,卷積核的大小為 6×6;采樣窗口大小都為5×5;全連接層的神經(jīng)元個數(shù)為200。

    圖6 Caltech-101實驗的卷積神經(jīng)網(wǎng)絡模型結(jié)構(gòu)

    采樣層使用不同池化方法,在訓練樣本不同時分類正確率如表2所示。從表2可以看出,本文提出的矩陣 2-范數(shù)池化方法比其他池化方法具有較高的識別率,而且訓練樣本的個數(shù)直接影響到識別率。當每類訓練樣本個數(shù)為 300時,本文提出的池化方法在測試樣本集上的識別率為93.24%。

    表2 Caltech-101數(shù)據(jù)集中訓練樣本不同時,不同池化方法下的網(wǎng)絡分類正確率(%)

    3.3 MNIST數(shù)據(jù)集實驗結(jié)果

    MNIST手寫字體(0~9數(shù)字)數(shù)據(jù)集共計60 000張訓練圖片和10 000張測試圖片,每張圖片均為28×28的灰度圖像,實驗中只需要將其歸一化為[0,1]。采用經(jīng)典的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)包括2個卷積層、2個采樣層和1個全連接層,卷積核的大小為5×5,采樣窗口大小都為2×2;第一個卷積層的特征圖個數(shù)為 6,第二個卷積層的特征圖個數(shù)為12,全連接層的神經(jīng)元個數(shù)為200。在采樣層采取不同池化方法下,網(wǎng)絡分類正確率隨著訓練次數(shù)變化曲線如圖7所示。

    圖7 MNIST數(shù)據(jù)集中不同池化方法的網(wǎng)絡分類正確率隨著訓練次數(shù)變化曲線

    MNIST數(shù)據(jù)集中的數(shù)字特征比較簡單,從圖7可以看出,5種池化方法都取得了不錯的識別效果,在訓練35次之后,使用矩陣2-范數(shù)池化方法的網(wǎng)絡分類正確率要高于其他方法。表 3的結(jié)果為 5種池化方法的最好識別結(jié)果,本文提出的方法在經(jīng)典卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)下的正確率最高為99.10%。

    表3 MNIST數(shù)據(jù)集在不同池化方法下的網(wǎng)絡分類正確率(%)

    3.4 CIFAR-10數(shù)據(jù)集實驗結(jié)果

    CIFAR-10數(shù)據(jù)集包含10類50 000張訓練圖片和10 000張測試圖片,每張圖片均為32×32的彩色自然圖像,實驗中先將圖像轉(zhuǎn)換成灰度,再進行均值和方差歸一化,最后進行ZCA白化操作。采用的網(wǎng)絡結(jié)構(gòu)設置為:8C1-4S1-16C2-4S2-240F3,卷積核大小為5×5。網(wǎng)絡結(jié)構(gòu)設置中的 C表示卷積層,前面對應的數(shù)字表示相應層的特征映射圖個數(shù);S表示采樣層,前面對應的數(shù)字表示采樣窗口的大小;F表示全連接層,對應的數(shù)字表示神經(jīng)元的個數(shù)。在采樣層使用不同池化方法下,CIFAR-10數(shù)據(jù)集的分類錯誤率如表4所示。從CIFAR-10數(shù)據(jù)集實驗結(jié)果可以看出,使用矩陣2-范數(shù)池化方法提高了識別準確率。

    表4 CIFAR-10數(shù)據(jù)集在不同池化方法下的網(wǎng)絡分類錯誤率(%)

    以上的實驗結(jié)果說明,MNIST樣本空間變化比較小,5種池化方法的識別率相差不大,但是使用矩陣 2-范數(shù)池化方法的識別率還是最高的,而在Cohn-Kanade、Caltech-101和CIFAR-10數(shù)據(jù)集上,識別率提升效果比較明顯,體現(xiàn)了本文方法在復雜特征樣本上具有較大的優(yōu)勢。進一步說明,采樣層使用矩陣 2-范數(shù)池化方法在降低特征圖分辨率的同時,保留了主要能量信息。

    4 結(jié)束語

    本文根據(jù)矩陣的奇異值分解對于圖像的幾何失真具有高度不變性的原理,考慮到圖像信息的主要能量集中于奇異值中較大的幾個,提出一種基于矩陣 2-范數(shù)的卷積神經(jīng)網(wǎng)絡池化方法,首先將卷積層特征圖劃分為若干個互不重疊的子塊圖像,然后分別計算子塊圖像矩陣的奇異值,將矩陣的最大奇異值作為池化區(qū)域統(tǒng)計結(jié)果。該方法將圖像的能量信息作為下一層網(wǎng)絡傳播的特征,同時也不至于使得信息特征過于復雜化。在Cohn-Kanade、Caltech-101、MNIST和CIFAR-10公開數(shù)據(jù)集上的對比測試表明:本文方法具有更高的識別率和很好的穩(wěn)健性,可以反映隱含在圖像中的能量信息特征。

    [1] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks [J]. Advance in Neural Information Processing Systems, 2012, 25(2): 1097-1105.

    [2] Ji S W, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.

    [3] Dahl G E, Sainath T N, Hinton G E. Improving deep neural networks for LVCSR using rectified linear units and dropout [C]//Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE Press, 2013: 8609-8613.

    [4] Jin J Q, Fu K, Zhang C S. Traffic sign recognition with hinge loss trained convolutional neural networks [J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(5): 1991-2000.

    [5] Kim I J, Xie X H. Handwritten Hangul recognition using deep convolutional neural networks [J]. International Journal on Document Analysis and Recognition, 2014, 18(1): 1-13.

    [6] Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex [J]. The Journal of Physiology, 1962, 160(1): 106-154.

    [7] Koenderink J, Van Doorn A. The structure of locally orderless images [J]. International Journal of Computer Vision, 1999, 31(2/3): 159-168.

    [8] Boureau Y L, Ponce J, Lecun Y. A theoretical analysis of feature pooling in visual recognition [C]//Proceeding of the 27th International Conference on Machine Learning. Haifa, Israel: ICML, 2010: 111-118.

    [9] Scherer D, Müller A, Behnke S. Evaluation of pooling operations in convolutional architectures for object recognition [C]//20th International Conference on Artificial Neural Networks. Berlin: Springer, 2010: 92-101.

    [10] Fukushima K, Miyake S. Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position [J]. Pattern Recognition, 1982, 15(6): 455-469.

    [11] Lecun Y, Boser B, Denker J S, et al. Handwritten digit recognition with a back-propagation network [C]// Advances in Neural Information Processing Systems. San Francisco, CA: Morgan Kaufmann Publishers, 1990: 396-404.

    [12] Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition [J]. Proceeding of the IEEE, 1998, 86(11): 2278-2324.

    [13] Ranzato M, Boureau Y L, Lecun Y. Sparse feature learning for deep belief networks [C]//Neural Information Processing Systerms. Cambridge: MIT Press, 2007: 1185-1192.

    [14] Jarrett K, Kavukcuoglu K, Ranzato M, et al. What is the best multi-stage architecture for object recognition [C]// 2009 IEEE 12th International Conference on Computer Vision. New York: IEEE Press, 2009: 2146-2153.

    [15] Sermanet P, Chintala S, Lecun Y. Convolutional neural networks applied to house numbers digit classification [C]// 21st International Conference on Pattern Recognition. New York: IEEE Press, 2012: 11-15.

    [16] Zeiler M D, Fergus R. Stochastic pooling for regularization of deep convolutional neural networks [C]// International Conference on Learning Representations. Arizona, USA: ICLR, 2013: 1-9.

    [17] Lecun Y, Kavukcuiglu K, Farabet C. Convolution networks and applications in vision [C]//Proceedings of 2010 IEEE International Symposium on Circuits and Systems. New York: IEEE Press, 2010: 253-256.

    [18] Hinton G E. How neural networks learn from experience [J]. Scientific American, 1992, 267(3): 145-151.

    [19] Wall M E, Rechtsteiner A, Rocha L M. Singular value decomposition and principle component analysis [J]. A Practical Approach to Microarray Data Analysis, 2002, 5: 91-109.

    [20] 周 波, 陳 健. 基于奇異值分解的、抗幾何失真的數(shù)字水印算法[J]. 中國圖象圖形學報, 2004, 9(4): 506-512.

    [21] 朱曉臨, 李雪艷, 邢燕, 等. 基于小波和奇異值分解的圖像邊緣檢測[J]. 圖學學報, 2014, 35(4): 563-570.

    Image Recognition Algorithm of Convolutional Neural Networks Based on Matrix 2-Norm Pooling

    Yu Ping, Zhao Jisheng

    (Department of Electronics and Communication Engineering, North China Electric Power University, Baoding Hebei 071003, China)

    The pooling operation in convolutional neural networks can achieve the scale invariance of image transformations, and has better robustness to noise and clutter. In view of the problem that pooling operation ignores the energy information hidden in the image when it extracts local features for image recognition, according to the relationship between energy of the image and singular value of the matrix, and taking into account the image information of the energy mainly concentrates on the larger singular value, a pooling method based on matrix 2-norm was proposed. The former feature map of convolutional layer is divided into several non-overlapping sub blocks, and then singular value of the matrix is calculated. The maximum value is used as the statistical results of each pooling region. Various numerical experiments has been carried out based on Cohn-Kanade, Caltech-101, MNIST and CIFAR-10 database using different kinds of pooling method. Experimental results show that the proposed method is superior in both recognition rate and robustness compared with other methods.

    deep learning; convolutional neural networks; matrix 2-norm; pooling; singular value

    TP 391

    10.11996/JG.j.2095-302X.2016050694

    A

    2095-302X(2016)05-0694-08

    2015-07-20;定稿日期:2016-04-25

    余 萍(1963–),女,浙江富陽人,副教授,學士。主要研究方向為圖像處理、模式識別。E-mail:well_yp@yeah.net

    猜你喜歡
    池化范數(shù)殘差
    基于緊湊型雙線性網(wǎng)絡的野生茵識別方法研究
    無線電工程(2024年8期)2024-09-16 00:00:00
    基于Sobel算子的池化算法設計
    基于雙向GRU與殘差擬合的車輛跟馳建模
    卷積神經(jīng)網(wǎng)絡中的自適應加權(quán)池化
    軟件導刊(2022年3期)2022-03-25 04:45:04
    基于殘差學習的自適應無人機目標跟蹤算法
    基于遞歸殘差網(wǎng)絡的圖像超分辨率重建
    自動化學報(2019年6期)2019-07-23 01:18:32
    基于卷積神經(jīng)網(wǎng)絡和池化算法的表情識別研究
    基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
    矩陣酉不變范數(shù)H?lder不等式及其應用
    平穩(wěn)自相關(guān)過程的殘差累積和控制圖
    河南科技(2015年8期)2015-03-11 16:23:52
    封开县| 贺兰县| 图们市| 工布江达县| 梅河口市| 垦利县| 长顺县| 鄂尔多斯市| 荥阳市| 阿克| 英超| 玛纳斯县| 高阳县| 高清| 周至县| 塘沽区| 颍上县| 焦作市| 江达县| 札达县| 北辰区| 龙门县| 那曲县| 咸宁市| 东兰县| 曲松县| 武汉市| 开平市| 安宁市| 苏尼特左旗| 洛浦县| 普安县| 古田县| 石柱| 新田县| 海口市| 阿鲁科尔沁旗| 台安县| 礼泉县| 鲁山县| 阳谷县|