羅富貴,李明珍,2
(1. 河池學院計算機與信息工程學院,廣西,宜州 546300;2. 北京郵電大學網絡空間安全學院,北京100876)
小圖像識別是計算機視覺中的重要任務之一,在遙感圖像分析、小物體檢測及低質量圖像理解等方面具有重要應用。但小圖像具有象素少、分辨率低的特點,包含有效信息有限,其分類與識別難度較大。傳統(tǒng)基于手工特征的方法設計復雜,特征可辨別能力有限,尤其在小圖像分類與識別任務上,難以取得較高的性能,不能滿足人們的需求。深度CNN(Convolutional Neural Networks,卷積神經網絡)技術采用“端到端”的訓練機制,將特征提取和模型訓練融為一體,通過多次使用前向和反向傳播算法,對參數進行優(yōu)化,中間無需人工干涉;它將傳統(tǒng)特征設計變成模型設計,簡化了特征設計過程。深度 CNN技術已在多種視覺任務上取得了驚人的突破,在圖像分類與識別[1-4]、目標檢測[5-6]、圖像分割[7-8]及視頻人體動作識別[9-10]等領域均取得了當前最優(yōu)的結果,其性能遠遠高于傳統(tǒng)方法。
在小圖像識別領域,深度CNN技術也取得了重要進展,在多個數據集上已達到或超過人眼水平。但目前使用深度CNN技術對小圖像進行識別時,其模型深度一般較淺,特征變換層次不夠,特征抽象程度和表達能力不強;但眾多研究已經證明,特征變換的深度是提高特征可辨別能力的關鍵因素,是提升性能的重要保證[1-4,11];而大多數較深的模型卻是針對大圖像的視覺任務而設計,難以直接應用到小圖像識別上,且較深的模型往往會帶來神經元個數及參數個數較多,模型運算復雜度較高的弊端。本文應用卷積核分解的原理,在當前流行的超深度模型VGG19的基礎上,對其中的大多數卷積核進行分解,調整多個階段的卷積層個數,減少多個層次的輸出通道數,設計了 KDS-DCNN(Kernel Decomposition Super Deep CNN)模型。該模型不但進一步增加了線性和非線性變換層次,同時進一步減少了模型中神經元個數和參數規(guī)模,降低了運算復雜度。在 CIFAR-10[12]和 CIFAR-100[12]兩個數據集上均達到了當前最優(yōu)水平,在 SVHN(Street View House Number,街景數字)數據集[13]上也取得了較高的識別率。
圖像的分類與識別工作,在傳統(tǒng)方法中,一般使用基于局部特征描述子的方式提取圖像特征,如HOG(Histogram of Oriented Gradients,梯度方向直方圖)[14]、SIFT(Scale Invariant Feature Transform,尺度不變特征變化)[15]等;接著使用K-means或 GMM(Gaussian Mixture Model,混合高斯模型)等聚類算法生成視覺單詞碼本;然后使用碼本對圖像特征描述子進行量化,每張圖像生成一個維度較低的特征向量并作為該圖像的最終表示;最后使用各種分類工具對特征向量進行訓練和分類(如:SVM(Support Vector Machine,支持向量機)等)。這些方法具有堅實的理論基礎,能夠針對具體問題對算法進行有效調整;但這些模型所使用的特征缺少圖像整體空間結構信息,識別性能較差。為克服此問題,此后出現(xiàn)了SPM(Spatial Pyramid Match,空間金字塔匹配)模型[16],這種方法充分考慮了圖像中的空間信息,將不同尺度下的特征融合在一起,作為圖像的表達,顯著提高了識別性能。但這些傳統(tǒng)方法,其特征均基于手工設計,設計過程復雜,特征變換層次不夠,抽象及表達能力不強;尤其是在小圖像識別方面,由于圖像較小,圖像內物體及場景邊界較為模糊,其能夠提取的特征描述子有限,最終生成的特征向量可辨別能力差,性能難以大幅提升。
深度CNN技術自出現(xiàn)以來,已在多個視覺任務上取得重大突破。CNN技術起源于 LeCun等人,其研究組設計的 LeNet5模型[17]通過多次卷積、降采樣和激活操作,在手寫體數字識別上獲得了較高的識別率,達到了商用級別;但限于當時的軟硬件條件限制,難以使用更多的層次對特征進行變換,在場景較為復雜的圖像識別上,難以取得很好的效果。Krizhevsky等人結合了深度學習的思想和CNN技術,設計了Alex-Net模型[1],在Imagenet數據集上大幅提升了分類識別性能,效果達到了當時最優(yōu)。該模型深度達到了8層,特征變換層次明顯增加,并創(chuàng)造性地使用了LRN(Local Response Normalization,局部響應歸一化)歸一化技術和 Dropout技術,防止過擬合的發(fā)生。此后,在Alex-Net模型的基礎上,又出現(xiàn)了 ZF-Net[18]、Chatfied-Net[19]等深度模型,對Alex-Net中的部分層次做了優(yōu)化,進一步改善了識別效果。以上幾個模型深度有限,特征抽象程度有待于進一步增強。Szegedy等人設計了Inception組件,并在其基礎上設計了GoogLeNet模型[2],其卷積層個數達到了59個,性能優(yōu)越,且其比 Alex-Net模型參數更少,復雜度更低。Zisserman領導的VGG工作組設計了VGG16/19模型[3],它的結構較為簡單,所有下層變換均只依賴于來自于上層的特征圖,且其所有卷積層使用相同大小的卷積核,其特征圖降采樣只使用最大值池化變換;VGG模型變換層次較多,性能與GoogLeNet相近,但該模型由于在頂層池化層和全連接層對接時,池化層所生成的特征圖過大,導致參數及模型復雜度急劇增加,其參數規(guī)模比GoogLeNet模型高近25倍。
以上模型均為針對大圖像的識別而設計,在小圖像上無法使用。Lin等人根據小圖像的特點設計了NIN(Network In Network,網中網)模型[20],它通過在兩個使用不同大小特征圖的卷積層之間增加更多的非線性變換,進一步增強特征的抽象能力;但NIN模型由于使用了較大的卷積核,使得參數規(guī)模和模型復雜度較高。Springenberg等人提出All-CNN模型[21],它使用全卷積的方式以消除傳統(tǒng)CNN網絡中使用降采樣層和全連接層的情況,通過增大卷積步長對特征圖進行降采樣,通過多次使用大于1的步長,最終使得特征圖退化為1×1大小,將所有特征圖連接起來,形成特征向量。其他還有針對小圖像分類與識別的技術如DropConnect[22]和Maxout[23]等,兩者均為防止網絡過擬合而設計,功能與Dropout技術類似,其驗證模型前者只使用3個卷積變換,后者雖然變換層次稍多,但參數規(guī)模巨大,模型復雜度過高。因此以上模型也存在著或特征變換層次不夠、特征表達能力不強,或參數較多、復雜度高的缺點。為克服此問題,一方面需要進一步增加網絡的深度,另一方面需要對模型參數和復雜度進行限制。我們根據卷積核分解的原理,在VGG19模型的基礎上,設計了KDS-DCNN模型。
如圖1所示,(a)中使用3×3大小的卷積核對特征圖進行卷積后,得到神經元{5};而在(b)中,第一次使用2×2大小的卷積核對特征圖進行卷積后,得到神經元{a,b,c,d},再次使用2×2大小卷積核對特征圖進行卷積,同樣得到神經元{5}。但在使用2×2卷積核時,比使用3×3卷積核多了一次非線性變換,加深了網絡的層次和深度。
圖1 模型原理圖Fig.1 Fundamental of the model
在加深網絡深度的同時,也減少了網絡參數的個數和模型復雜度。設表示參數個數,.表示模型運算復雜度。在深度CNN中,其參數規(guī)模主要集中于卷積層和全連階層,而模型復雜度也主要取決于卷積運算和全連接運算??梢允褂檬?1)、式(2)對其進行計算[11]。
上式中,d表示網絡深度(此處指卷積層個數),和kw分別表示第l層中卷積核的高和寬(一般有:l),和分別表示本層所生成特征圖的高和寬,當l=1時,若輸入為3通道彩色圖像,則= 3 ;當l>1時,若橫向和縱向卷積步長為和,橫向和縱向特征圖補位欄數為和,則有:
由(1)式和(2)式可知,模型參數主要與卷積核大小、上層通道數和下層通道數有關;模型復雜度除與卷積核大小、上下層通道數有關外,還與本層所生成特征圖大小有關。
考慮兩種情況,首先假設上層通道與下層通道數相同,設為;特征圖大小設置為,則對于第l層來說,其參數個數為:,模型運算復雜度為:;分解后的小卷積核大小設置為,則原卷積核可分解為=個小卷積核的疊加,此時,使用小卷積核疊加后的參數個數及模型復雜度為:==m;其卷積核大小設置為:
由于,則有:
其次,當上層通道數與下層通道數不同時,一般有,此時對于第l個卷積層,其卷積核分解后,若為奇數,可設堆疊的第一個和最后一個小卷積核輸入通道數為,輸出通道數為,其中小卷積核的輸入輸出可交替使用和,則參數規(guī)模和復雜度為:
此時,仍有(7)式成立。
為偶數,各小卷積核的輸入和輸出通道數不能交替使用,否則下層卷積輸入通道數與原未分解時的下層卷積輸入通道數不能匹配,導致后續(xù)輸入和輸出通道數的連鎖反應,可能會使分解失去意義。此時為限制參數個數和復雜度,我們使用了兩種方式。其一是在模型較低層,可在輸入輸出通道數變化的層次,不對卷積核進行分解;由于較低層輸入輸出通道數較少,此時參數規(guī)模和復雜度對整個模型影響不大。其二,在模型較高層,保持輸入和輸出通道數不變,便于卷積核分解。
我們采用VGG19模型作為卷積核分解的基礎模型。VGG19模型是為較大圖像的分類與識別而設計,共包含 16個卷積層和兩個全連接層,其卷積核統(tǒng)一使用 3×3大小。VGG19模型參數達到了145M 以上,且復雜度極高;同時由于較高層降采樣之后,特征圖較小,如果輸入圖像較小,其3×3大小的卷積核可能會超出特征圖大小,使得卷積操作無法進行。我們在VGG19的基礎上對大部分3×3大小的卷積核進行了分解,將其卷積層分解為兩個疊加的帶2×2大小的卷積核的卷積層;同時,由于輸入圖像較小,在模型高層,其特征圖更小,更多的卷積和非線性變換對提升最終特征的表達能力作用有限。因此,我們將在模型高層中的部分卷積和非線性變換操作放入模型較低層中,以保證變換的深度。
如表1所示,為限制參數規(guī)模和模型復雜度,本文大幅減少了輸出通道的個數,在卷積層僅使用64和128。在頂層兩個全連接層,VGG19模型中每個全連接層輸出通道均為4096,而本文則使用512。由于第一個卷積層Conv1_1的輸入通道為3,輸出通道為64,不宜將其卷積核分解為兩個2×2的小卷積核,否則,分解后的卷積層輸出通道難以確定,若直接使用64,則其復雜度將會增加。因此將卷積核大小保持不變。同理,Conv2_1卷積層,由于輸入通道為64,輸出通道為128,同樣不適宜做卷積核分解。在Stage3、Stage4和Stage5中,每個階段比VGG19少用了一個卷積變換,但在Stage2中,連續(xù)使用6個帶2×2卷積核的卷積層以做補償。本文的模型共有 28個卷積層,加上三個全連接層,共有31個權重層,其深度遠大于VGG19模型。
表1 VGG19結構和KDS-DCNN模型主要結構Table 1 Configuration of VGG19 and the proposed KDS-DCNN model
深度CNN模型的復雜度可從三個方面進行分析,首先是參數規(guī)模,其次是模型運算時間復雜度,最后是神經元個數。其參數規(guī)模和模型運算復雜度可由(1)式和(2)式得出,神經元個數可由下式計算得出:
設數據集中小圖像大小為32×32,使用圖像剪切數據擴增技術,剪切的圖像塊大小為28×28,即= 2 8;每層卷積核高和寬相同,即;所有圖像均為 3通道彩色圖,即= 3 ,則KDS-DCNN模型的復雜度如表2所示。
表2 KDS-DCNN模型復雜度Table 2 The model complexity of KDS-DCNN
本文使用了當前流行的小圖像公開數據集CIFAR-10、CIFAR-100和SVHN來驗證模型效果。CIFAR-10和CIFAR-100數據集中各包含60000張32×32的彩色圖像,其中50000張用于訓練,10000張用于測試;CIFAR-10中所有樣本共分為10類,CIFAR-100則分為100類。SVHN數據集共包含近99289張32×32的彩色街景數字圖像,其中73257張用于訓練,26032張用于測試,此外,還有53萬多張額外訓練圖像。如圖2、圖3和圖4所示,其為放大后的圖像示例??梢钥闯?,各數據集圖像較為模糊,分辨率較低,且很多圖像背景較為復雜,干擾較多,識別困難。
圖2 CIFAR-10數據集部分圖像Fig.2 Examples from CIFAR-10 dataset
圖3 CIFAR-100數據集部分圖像Fig.3 Examples from CIFAR-100 dataset
圖4 SVHN數據集部分圖像Fig.4 Examples from SVHN dataset
按照上述數據集的一般使用規(guī)則,在CIFAR-10和 CIFAR-100數據集中,首先使用訓練集中的40000張圖像進行訓練,剩余的10000張圖像用于驗證,以尋找最佳迭代次數,防止過擬合;然后將驗證集中的圖像重新合并到訓練集中再次訓練,一直迭代到最佳迭代次數,停止訓練。在SVHN數據集上,將訓練集和擴展訓練集進行合并,首先從原訓練集中選擇4000張,并從擴展訓練集中選擇2000張圖像作為驗證集,其余作為訓練集,尋找最佳迭代次數;然后將驗證集和訓練集合并重新訓練,一直訓練到最佳迭代次數為止。
首先使用了數據擴增技術,保持原圖像大小不變,按照28×scale大小截取圖像左上角、右上角、左下角、右下角和中間部分圖像塊,scale=[1.0,0.85,0.75,0.66],然后將截取后的圖像塊進行水平翻轉,并將所有圖像塊縮放到28×28大??;因此,每張圖像共得到 40個圖像塊,整個訓練集擴增為原來的 40倍[24]。在測試時,不對測試圖像進行縮放,直接取其左上角、右上角、左下角、右下角和中間部分28×28大小圖像塊及其水平翻轉圖像塊進行測試,然后計算所有圖像塊的概率均值,最終得到預測分數,分值最高者所對應的類別標號即為預測標簽。我們使用 GPU加速訓練過程,并使用最小batch_size機制和隨機梯度下降算法加快收斂速度。為保證內存不溢出,將batch_size設置為20;初始學習率設置為0.01,使用多項式下降策略在每次迭代之后對學習率進行調整,經過實驗發(fā)現(xiàn),在三個數據集上,迭代 30萬次時,模型已收斂到最優(yōu),此時學習率將下降到0.0001左右。同時為了防止模型陷入局部最優(yōu),在參數更新時,添加了動量因子,其值設置為 0.9;為了防止過擬合,還采用了兩種機制,其一是使用了Dropout機制,將其添加在兩個全連接層之后,其值設置為 0.7;其二是添加權值衰減因子,其值設置為0.0005。模型開發(fā)配置環(huán)境為 Ubuntu14.0、Caffe[25]、LIBSVM3.17[26]和 Matlab2013a。
本文使用了兩種分類工具對提取的特征進行分類,首先采用SVM分類器。為降低復雜度,我們放棄了傳統(tǒng)方法中使用全連接層 FC2層特征的做法,而是只提取全連接層 FC3層的特征,對于CIFAR-10和SVHN數據集來說,其特征維度為10,對于CIFAR-100來說,其特征維度為100;我們使用了訓練迭代 30萬次的模型分別對訓練圖像和測試圖像提取特征,然后將其送入SVM分類器。其次使用Softmax函數直接對測試樣本的特征進行分類,省去了重新提取訓練樣本特征的步驟。
表3 各模型在CIFAR-100上的實驗結果及性能對比Table 3 Performance comparison with the state-of-the-art methods on CIFAR-100
表4 各模型在CIFAR-10上的實驗結果及性能對比Table 4 Performance comparison with the state-of-the-art methods on CIFAR-10
表5 各模型在SVHN上的實驗結果及性能對比Table 5 Performance comparison with the state-of-the-art methods on SVHN
如表3和表4所示,無論是使用SVM,還是使用Softmax,我們的模型在CIFAR-10和CIFAR-100數據集上均超過了當前最優(yōu)的結果,尤其是使用Softmax,在 CIFAR-100數據集上其識別錯誤率比當前最優(yōu)的All-CNN模型降低4個百分點以上,在CIFAR-10數據集上識別錯誤率也比All-CNN低了1個百分點以上。在SVHN數據集上,我們的結果僅比文獻[22]高了0.23個百分點(如表5所示),但均低于其他方法。該實驗結果充分證明了KDS-DCNN模型的有效性。
在模型運算復雜度方面,KDS-DCNN模型訓練和測試占用內存更少,訓練好的模型更小,測試速度更快。如表6所示,模型在訓練時,只需234M左右的內存空間,絕大部分 GPU顯卡都能滿足,因此其硬件要求配置低;其訓練好的模型大小只有12M左右,是Alex-Net模型的1/20,是VGG19原模型的1/40;在測試時,給定一副圖像,只需大概2.87 ms即可識別出圖像內容。
表6 KDS-DCNN模型訓練內存需求、模型大小及每張圖像測試運行時間Table 6 The required memory, model size and comsuming time for each test image during training in KDS-DCNN model
從理論上將模型神經元個數、參數規(guī)模和運算復雜度三個方面與其他模型進行了對比,結果如圖5所示。在神經元個數方面,KDS-DCNN模型要高于Maxout、All-CNN等模型,但低于NIN模型;在參數規(guī)模方面,與NIN和All-CNN模型相比也相對較高,但遠低于文獻[23]中Maxout所用模型。在運算復雜度方面,我們的模型只有1.45,低于所有已列出的其他模型。
圖5 模型復雜度對比(神經元、參數及時間復雜度)Fig.5 Comparison of model complexity (number of neuron,parameter scale and time complexity)
小圖像的識別在多個科研及工業(yè)領域具有重要研究和應用價值,但由于其圖像中所含像素少,分辨率低,用于識別的信息有限,因此識別較為困難。傳統(tǒng)方法一般基于手工設計特征,設計過程復雜,且由于特征變換次數少,層次不深,表達能力弱,難以大幅改善識別效果。深度CNN技術通過一系列的卷積、降采樣和激活等線性及非線性變換,特征魯棒性更好,可辨別能力更強。本工作根據小圖像的特點,為克服當前用于小圖像識別的主流 CNN模型中深度不夠的缺點,依據卷積核分解原理,提出并設計了KDS-DCNN模型。該模型在VGG19模型的基礎上,將大部分帶 3×3卷積核的卷積層分解為兩個堆疊的帶2×2卷積核的卷積層,其權重層個數達 41個。為限制模型參數規(guī)模及運算復雜度,本工作首先在輸出通道數有變化的層次保持卷積核不變,其次在網絡高層降低了每層的輸出通道數,極大地降低了參數個數和模型的運算復雜度。實驗證明,該模型效果顯著,在 CIFAR-10和 CIFAR-100數據集上其識別率均超過了當前幾個主流模型。這表明,CNN模型的深度仍然是提高識別率的關鍵,模型越深,特征變換層次越多,其特征抽象越充分,表達能力越強;同時基于卷積核分解的技術能夠在增加模型深度的同時,進一步降低參數規(guī)模和運算復雜度。因此該工作對于深度CNN模型的設計和在小圖像識別上的應用具有很大的啟發(fā)和借鑒意義。
但本文所設計的 KDS-DCNN模型只是依據VGG19模型而設計,層次仍然不夠多,且VGG19模型結構較為單一,沒有考慮其不同尺度下的特征情況;而在GoogLeNet中,其Inception結構充分考慮了多尺度特征圖的情況,且其卷積層數更多。因此我們下一步工作將在 GoogLeNet模型的基礎上對卷積核進行分解,設計出性能更優(yōu)的深度模型。同時,復雜度是限制深度CNN模型進一步走向應用的主要障礙,KDS-DCNN模型雖然較其他模型在運算復雜度方面有所降低,但在限制參數規(guī)模方面仍沒有突破性進展。因此我們的另一項工作是繼續(xù)在卷積核分解基礎上,研究進一步降低模型復雜度的算法,以設計出更優(yōu)化的模型。
[1]Krizhevsky A, Sutskever I, Hinton G E. ImageNet Classification with Deep Convolutional Neural Networks[C]. Proceedings of Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2012, 25(2):2012.
[2]Szegedy C, Liu W, Jia Y, et al. Going Deeper with Convolutions[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2014:1-9.
[3]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C].Proceedings of International Conference on Learning Representations(ICLR), 2015.
[4]He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[OL]. [2016-01-19]. http://arxiv.org/pdf/1512.03385v1. pdf, 2015.
[5]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C].Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2014:580-587.
[6]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C].Proceedings of Advances in Neural Information Processing Systems. Massachusetts: MIT Press, 2015.
[7]Long J, Shelhamer E, Darrell T. Fully Convolutional Networks for Semantic Segmentation[C].Proceedings of Conference on Computer Vision and Pattern Recognition .Los Alamitos: IEEE Computer Society,2015: 3431-3440.
[8]Chen L C, Papandreou G, Kokkinos I, et al, Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[C]. Proceedings of International Conference on Learning Representations(ICLR), 2015.
[9]Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]. Proceedings of Advances in Neural Information Processing Systems.Massachusetts: MIT Press, 2014: 568–576.
[10]Wang L, Qiao Y, Tang X. Action recognition with trajectory-pooled deep-convolutional descriptors[C].Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2015: 4305-4314.
[11]He K, Sun J. Convolutional neural networks at constrained time cost[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2015: 5353–5360.
[12]Krizhevsky A. Learning multiple layers of features from tiny images[D].Troonto: University of Toronto,Department of Computer Science, 2009.
[13]Netzer Y, Wang T, Coates A, et al. Reading digits in natural images with unsupervised feature learning[C].Proceedings of Advances in Neural Information Processing Systems: Workshop on Deep Learning and Unsupervised Feature Learning.Massachusetts: MIT Press, 2011.
[14]Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos:IEEE Computer Society, 2005:886-893.
[15]Lowe D. Distinctive Image Features from Scale-Invariant Key points[J]. International Journal of Computer Vision,2004, 60(2):91-110.
[16]Lazebnik S, Schmid C, Ponce J. Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]. Proceedings of Conference on Computer Vision and Pattern Recognition. Los Alamitos: IEEE Computer Society, 2006: 2169-2178.
[17]Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[C]. Proceedings of the IEEE. Los Alamitos: IEEE Computer Society,1998: 2278–2324.
[18]Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[C].Proceeings of European Conference on Computer Vision. Heidelberg: Springer,2014:818-833.
[19]Chatfield K, Simonyan K, Vedaldi A, et al. Return of the devil in the details: Delving deep into convolutional nets[C].Proceedings of British Machine Vision Conference. Durham : British Machine Vision Association, 2014.
[20]Lin M, Chen Q, Yan S C. Network In Network[C].Proceedings of International Conference on Learning Representation, 2014.
[21]Springenberg J T, Dosovitskiy A, Brox T, et al. Striving for Simplicity: The All Convolutional Net[C].Proceedings of International Conference on Learning Representation, 2015.
[22]Li W, Zeiler M D, Zhang S, et al. Regularization of neural networks using dropconnect[C].Proceedings of International Conference on Machine Learning. New York: ACM Press, 2013:1058–1066.
[23]Goodfellow I J,Warde-Farley D, Mirza M, et al.Maxout networks[C].Proceedings of International Conference on Machine Learning. New York: ACM Press,2013:1319–1327.
[24]Wang L, Xiong Y, Wang Z. Towards Good Practices for Very Deep Two-Stream ConvNets[OL]. [2016-01-19].http://arxiv.org/pdf/ 1507.02159v1.pdf, 2015.
[25]Jia Y, Donahue J. Caffe: Convolutional Architecture for Fast Feature Embedding[C]./Proceedings of ACM Multimedia. New York: ACM Press, 2014.
[26]Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems & Technology, 2011, 2(3):389-396.
[27]Zeiler M D, Fergus R. Stochastic Pooling for Regularization of Deep Convolutional Neural Networks[C].Proceedings of International Conference on Learning Representations, 2013.