索琰琰 吳昊 李嬈 馮成 孟令凱 苑海朝*(通訊作者) 河北農(nóng)業(yè)大學(xué)理工學(xué)院
卷積神經(jīng)網(wǎng)絡(luò)是一種新型的由深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)相結(jié)合的學(xué)習(xí)方法,有較強(qiáng)的自學(xué)習(xí)能力以及較好的自適應(yīng)性、容錯(cuò)性、權(quán)值共享等優(yōu)點(diǎn)。
在前期,大多數(shù)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是相對(duì)簡(jiǎn)單的。但隨著技術(shù)的進(jìn)步,出現(xiàn)了一些典型的模型,比如:應(yīng)用在圖像分類(lèi)、手寫(xiě)識(shí)別等相對(duì)于簡(jiǎn)單計(jì)算機(jī)應(yīng)用領(lǐng)域的LeNet-5模型[1];應(yīng)用最新技術(shù)人臉識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)與深信度網(wǎng)絡(luò)(Deep Belief Network,DBN)[2]結(jié)合出的卷積深信度網(wǎng)絡(luò) (Convolutional Deep Belief Network);在大量圖像分類(lèi)領(lǐng)域取得顯著成就的AlexNet模型等等,它們都推動(dòng)了卷積神經(jīng)網(wǎng)絡(luò)的研究進(jìn)程。
近幾年,卷積神經(jīng)網(wǎng)絡(luò)仍處于火熱的研究中,一些優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)也在不斷的被提出,使得卷積神經(jīng)網(wǎng)絡(luò)得到更深層次的研究。
卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、池化層、卷積層、全連接層和輸出層五部分組成。將原始圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)的輸入層中,然后對(duì)圖像的特征圖層進(jìn)行卷積操作,再通過(guò)非線性激勵(lì)函數(shù)計(jì)算得到特征圖。將特征圖經(jīng)過(guò)下采樣層和卷積層的不斷相互傳遞處理后傳送到全連接層進(jìn)行特征圖像的分辨,從而映射到數(shù)學(xué)特征模型上,如式1:
最后,通過(guò)對(duì)過(guò)擬合問(wèn)題和損失函數(shù)的計(jì)算,得到輸出層的圖像。
局部感知法是卷積神經(jīng)網(wǎng)絡(luò)減少數(shù)據(jù)參數(shù)數(shù)量的一種方法。從局部認(rèn)知到全局認(rèn)知是一般人對(duì)外界的認(rèn)識(shí)的一種方法,在圖像處理領(lǐng)域也同樣適用,圖像的空間聯(lián)系也是和局部像素的聯(lián)系較為緊密相關(guān)的,但是如果間隔相距較遠(yuǎn),則和空間像素的聯(lián)系較弱。
所以,卷積神經(jīng)網(wǎng)絡(luò)上的每個(gè)神經(jīng)元只要對(duì)其進(jìn)行局部感知就可以,之后全連接層將局部感知的參數(shù)信息進(jìn)行綜合分析匯總,從而得到全局的信息參數(shù)。
相比較于局部感知方法,權(quán)值共享就有了較大的優(yōu)勢(shì)。權(quán)值共享網(wǎng)絡(luò)是由LeNet5模型提出來(lái),原因是由于參數(shù)數(shù)量過(guò)多。
權(quán)值共享網(wǎng)絡(luò)首先將網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了簡(jiǎn)化,進(jìn)而降低了訓(xùn)練參數(shù)的數(shù)目,從而有了更多應(yīng)用空間。例如:一個(gè)神經(jīng)有一個(gè)神經(jīng)元需要100個(gè)信息參數(shù),那么這100個(gè)信息參數(shù)就相當(dāng)于是一種提取方式,并且和位置無(wú)關(guān)。卷積神經(jīng)網(wǎng)絡(luò)便可以在這100個(gè)參數(shù)中提取相應(yīng)的特征,進(jìn)而應(yīng)用到圖像的其他部分。通俗的講,就是從大尺寸圖像中隨機(jī)提取一小部分,然后提取的這一小部分便可以通過(guò)學(xué)習(xí),成為一個(gè)特征探測(cè)器,進(jìn)而將其應(yīng)用到圖像的任意地方,再通過(guò)和原始的圖像作卷積學(xué)習(xí)處理,從而獲得原始圖像的不同位置的不同特性值,大大提升了圖像的辨別率。
權(quán)值共享網(wǎng)絡(luò)中,通過(guò)觀察提取到的局部特征是不能滿足圖像處理要求的,所以還需要卷積核的幫助。每一個(gè)共享權(quán)值參數(shù)就是一個(gè)卷積核,多個(gè)卷積核協(xié)同處理便可以解決這一問(wèn)題。
每一個(gè)卷積核在局部特征提取和權(quán)值共享后都會(huì)生成一幅圖像,多個(gè)卷積核就會(huì)形成多幅圖像,多幅圖像又可以看作是多個(gè)不同的通道[3]。如圖一所示,展示了4個(gè)卷積核也就是四個(gè)通道進(jìn)行卷積操作的過(guò)程。在該過(guò)程中,4個(gè)通道上(i,j)處的卷積結(jié)果先進(jìn)行相加,隨后再取函數(shù)值得到的值便是W1和W2位置(i,j)處的值。
圖一 4個(gè)卷積核的操作過(guò)程
簡(jiǎn)單來(lái)說(shuō),遷移學(xué)習(xí)就是卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)來(lái)提取特征,再經(jīng)過(guò)卷積核的卷積學(xué)習(xí)訓(xùn)練,把訓(xùn)練好的特定數(shù)據(jù)成功運(yùn)用其他領(lǐng)域上[4]。
其大致過(guò)程為先對(duì)收集好的實(shí)驗(yàn)數(shù)據(jù)集合進(jìn)行初始化,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和其他領(lǐng)域相關(guān)數(shù)據(jù)或者圖像特征進(jìn)行提取,從而訓(xùn)練成特定的卷積神經(jīng)網(wǎng)絡(luò)或者分類(lèi)器。
復(fù)用層訓(xùn)練中卷積神經(jīng)網(wǎng)絡(luò)利用BP算法進(jìn)行監(jiān)督學(xué)習(xí)[5]。在訓(xùn)練前,一般使用隨機(jī)的“小隨機(jī)數(shù)”對(duì)權(quán)值進(jìn)行初始化,然后通過(guò)信息的正向傳播和反向傳播2個(gè)階段,從而完成整個(gè)復(fù)用層訓(xùn)練過(guò)程。
在現(xiàn)實(shí)應(yīng)用中,通常先使用多層卷積,隨后再使用全連接層進(jìn)行多次訓(xùn)練。通過(guò)一層層的卷積便可以讓卷積層數(shù)越來(lái)越大,進(jìn)而學(xué)到的特征也會(huì)增多,從而使局部問(wèn)題全局化,提高處理結(jié)果的真實(shí)性以及準(zhǔn)確性。
新的學(xué)習(xí)模型、訓(xùn)練方式以及學(xué)習(xí)理論的提出,使卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用更為廣闊[6]。比如,在圖像處理上,準(zhǔn)確的提高了圖像分類(lèi)的準(zhǔn)確度(GoogLeNet);在連續(xù)的語(yǔ)音識(shí)別上,可以運(yùn)用馬爾切夫模型,來(lái)壓縮模型的尺寸,深入透徹的分析卷積神經(jīng)網(wǎng)絡(luò)的性能和體系結(jié)構(gòu),使其識(shí)別能力得到進(jìn)一步的加強(qiáng)。
本文對(duì)卷積神經(jīng)網(wǎng)絡(luò)的概念、特點(diǎn)、復(fù)用層訓(xùn)練和應(yīng)用領(lǐng)域進(jìn)行了簡(jiǎn)介,可以看出卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、圖像處理、人臉識(shí)別等方面擁有廣闊的發(fā)展?jié)摿Α?/p>
當(dāng)然,在本文的研究基礎(chǔ)之上仍存在一些問(wèn)題需要進(jìn)一步探究,例如如何實(shí)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)系統(tǒng)結(jié)構(gòu)的最佳優(yōu)化以及最優(yōu)樣本數(shù)量的選取,是進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)更深入研究過(guò)程中無(wú)法避免的難題。這些問(wèn)題在今后研究中將進(jìn)行繼續(xù)探索。
[1] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[2] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006,18(7): 1527-1554.
[3] 劉海龍,李寶安,呂學(xué)強(qiáng).等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像檢索算法研究[J]. 計(jì)算機(jī)應(yīng)用研究. 2017, 34(12):3816-3819.
[4] 莊福振,羅平,何清,等. 遷移學(xué)習(xí)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2015,26(1): 26-39.
[5] 常亮,鄧小明,周明全,等. 圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J]. 自動(dòng)化學(xué)報(bào), 2016, 42(9):1300-1312.
[6] 李彥冬,郝宗波,雷航. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)應(yīng)用,2016, 36(9):2508-2515+2565.