任萌
摘 要:隨著人工智能的快速發(fā)展,人們現(xiàn)在的生活也越來(lái)越智能化,各類人臉識(shí)別打卡,指紋檢測(cè)技術(shù)越來(lái)越廣泛地應(yīng)用到人們的日常生活當(dāng)中,這離不開(kāi)圖像視覺(jué)識(shí)別算法和相關(guān)技術(shù)的發(fā)展。其中,卷積神經(jīng)網(wǎng)絡(luò)對(duì)于視覺(jué)識(shí)別技術(shù)和方法的研究中已經(jīng)占有絕對(duì)的優(yōu)勢(shì)。目前,許多研究學(xué)者嘗試通過(guò)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)算法的結(jié)構(gòu)和性能來(lái)提高圖像識(shí)別的精確度和識(shí)別速度,從而使得其可以廣泛應(yīng)用于數(shù)據(jù)挖掘的各個(gè)領(lǐng)域,并對(duì)其在實(shí)際生活的應(yīng)用做出更大的貢獻(xiàn),本文將對(duì)The Residual Network, DenseNet, GoogLeNet 三種圖像視覺(jué)識(shí)別模型的訓(xùn)練過(guò)程、應(yīng)用和特點(diǎn)進(jìn)行研究,同時(shí)對(duì)圖像視覺(jué)識(shí)別算法和技術(shù)在實(shí)際生活中的應(yīng)用進(jìn)行簡(jiǎn)要論述與展望,特別是在數(shù)據(jù)挖掘方面的應(yīng)用。圖像視覺(jué)識(shí)別技術(shù)是一種可以應(yīng)用于各個(gè)領(lǐng)域,也可以剖析人類行為的熱點(diǎn)研究課題。
關(guān)鍵詞: 圖像視覺(jué)識(shí)別; Residual Network; DenseNet; GoogLeNet; 卷積神經(jīng)網(wǎng)絡(luò); 對(duì)比分析; 數(shù)據(jù)挖掘
文章編號(hào): 2095-2163(2019)03-0294-04 中圖分類號(hào): TP183 文獻(xiàn)標(biāo)志碼: A
0 引 言
圖像視覺(jué)識(shí)別(Image Visual Recognition)作為一種已經(jīng)在現(xiàn)實(shí)生活中廣泛應(yīng)用的技術(shù),近幾年來(lái),更是發(fā)展迅速。2014年,Szegedy等人[1]提出了GloogLeNet,這是一種全新的深度學(xué)習(xí)結(jié)構(gòu),主要解決計(jì)算機(jī)硬件和稀疏結(jié)構(gòu)之間的矛盾問(wèn)題?;诰矸e神經(jīng)網(wǎng)絡(luò)[2](CNN)中類似于LeNet-5的標(biāo)準(zhǔn)結(jié)構(gòu)而提出的。既引入稀疏性,又利用現(xiàn)有硬件針對(duì)密集矩陣的計(jì)算能力,設(shè)計(jì)了Inception[3-4]結(jié)構(gòu)用于機(jī)器學(xué)習(xí)的分類任務(wù)中[5],但參數(shù)太多,容易發(fā)生過(guò)擬合。2015年,微軟的 He等4名華人提出了ResNet[6-8] (Residual Neural Network),使用ResNet Unit成功訓(xùn)練出了152層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,模型的精度也有大幅提升。ResNet[9]在圖像識(shí)別[10]、定位和檢測(cè)任務(wù)中也都取得了非常不錯(cuò)的效果。2017年,Huang等人提出DenseNet[11],避開(kāi)了ResNet的加深神經(jīng)網(wǎng)絡(luò)和Inception的加寬網(wǎng)絡(luò)結(jié)構(gòu)的方式,利用每一個(gè)輸入層都會(huì)直接影響到后面所有輸出層的思想,提升模型精度。
目前,圖像視覺(jué)識(shí)別技術(shù)的應(yīng)用已可見(jiàn)到很多,包括人臉檢測(cè)[12-13]、目標(biāo)檢測(cè)[14-15]、以及百度、IBM和Google推出的很多圖像檢測(cè)模塊的產(chǎn)品都已經(jīng)得到了廣泛使用。通過(guò)辨識(shí)圖片中的物體類別,都已經(jīng)陸續(xù)應(yīng)用到醫(yī)學(xué)[16]、車輛定損[14,17]、農(nóng)作物識(shí)別[18]等等社會(huì)實(shí)際生活中,提高人們的生活品質(zhì)。
但是,從數(shù)據(jù)挖掘[19-21]的角度來(lái)看,圖像識(shí)別技術(shù)使得不僅僅可以從單一的文字來(lái)挖掘人們的行為和喜好,同樣可以通過(guò)在線社交評(píng)論網(wǎng)站的圖片來(lái)挖掘不同人的行為和喜好。這也是目前學(xué)界廣受研究者關(guān)注的一個(gè)研究課題。
1 圖像視覺(jué)識(shí)別算法
1.1 GoogLeNet
GoogLeNet是Google研究出來(lái)的深度網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)提出Inception的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)引出2個(gè)問(wèn)題,對(duì)此可描述為:
(1)增加網(wǎng)絡(luò)深度可以提高模型精確度。
(2)降維可以減少計(jì)算量。
其核心思想便是通過(guò)增加模型深度(層數(shù))或者其寬度(神經(jīng)元)來(lái)保證高質(zhì)量的模型。如圖1所示,整個(gè)GoogLeNet就是由多個(gè)Inception結(jié)構(gòu)串聯(lián)起來(lái),其中利用1×1的卷積來(lái)進(jìn)行升降維,并在多個(gè)尺寸上同時(shí)進(jìn)行卷積再聚合。該圖引自Szegedy等人的論文中。
1.2 ResNet
ResNet 殘差網(wǎng)絡(luò)最初是由He等人[7,22]提出來(lái)的,并由其進(jìn)行擴(kuò)展。通過(guò)采用了一種原則性方法,對(duì)每一層的輸入做了一個(gè)參考,這種殘差函數(shù)更容易優(yōu)化,能使網(wǎng)絡(luò)層數(shù)大大加深。研究中給出一個(gè)實(shí)例如圖2所示。圖2(a)中,映射后可以擬合出任意目標(biāo)映射H(x),其中x表示網(wǎng)絡(luò)層數(shù),引出了一個(gè)Residual net。圖2(b)擬合出F(x),而且H(x)=F(x)+x,其中F(x)表示殘差映射,當(dāng)H(x)最優(yōu)映射接近identity時(shí),很容易捕捉到小的擾動(dòng)。在計(jì)算機(jī)視覺(jué)里,隨著網(wǎng)絡(luò)深度的加深,特征的等級(jí)就會(huì)增高。有相關(guān)研究表明,網(wǎng)絡(luò)的深度是取得良好成效的重要因素,然而梯度彌散則成為訓(xùn)練深層次網(wǎng)絡(luò)的障礙,使其無(wú)法收斂。目前,已經(jīng)相繼推出了一些方法可以彌補(bǔ)這一缺陷,通過(guò)實(shí)現(xiàn)各層輸入歸一化,使得可以收斂的網(wǎng)絡(luò)的深度提升為原來(lái)的10倍。只是,雖然達(dá)到了收斂的目的,但隨著網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致更大的誤差,使得網(wǎng)絡(luò)開(kāi)始退化。
若要獲得更好的需要網(wǎng)絡(luò)性能,F(xiàn)(x)=H(x)-x是ResNet學(xué)習(xí)的殘差函數(shù),如果F(x)=0,那么此時(shí)的H(x)=x 為恒等映射,即沒(méi)有引入額外的參數(shù)和計(jì)算復(fù)雜度,由此通過(guò)學(xué)習(xí)來(lái)找到對(duì)恒等映射的擾動(dòng)會(huì)比重新學(xué)習(xí)一個(gè)映射函數(shù)要容易?;谇笆鎏幚?,研究得到的就叫做殘差塊(Residual Block), 而把這些殘差塊堆積起來(lái)就是殘差網(wǎng)絡(luò)了。這就是ResNet最主要的優(yōu)點(diǎn),直接將深層轉(zhuǎn)化為前層,ShortCut(捷徑)。研究可知,每個(gè)殘差塊可以表示為:
在式(1)、式(2)基礎(chǔ)上,研究求得從前層l到深層L的學(xué)習(xí)特征,可寫(xiě)作如下數(shù)學(xué)形式:
然后通過(guò)計(jì)算梯度來(lái)消除殘差塊。
1.3 DenseNet
DenseNet 是以前饋的方式將各分層鏈接到每一層。主要由DenseBlock和Transition組成,可以緩解梯度消失問(wèn)題,提高模型精度,并大幅減少參數(shù)數(shù)量。如此設(shè)計(jì)使得網(wǎng)絡(luò)訓(xùn)練更加容易,每一層都可以利用原始的輸入信息和損失函數(shù)的梯度,其設(shè)計(jì)結(jié)構(gòu)如圖3所示。這也更加有利于訓(xùn)練更深的網(wǎng)絡(luò)。并且其稠密鏈接的正則化作用在少量的訓(xùn)練集中可以有效降低過(guò)擬合。同時(shí),為了改善層之間的信息流,其設(shè)計(jì)研發(fā)是基于ResNet之上,相應(yīng)的公式具體如下:
其中,H[x0,x1,x2,…,xl]表示層中串聯(lián)生成的特征和。這里仍需指出,如果將該模型應(yīng)用于大的數(shù)據(jù)集上時(shí)會(huì)損耗很大的硬件內(nèi)存。因此建議將其應(yīng)用于小數(shù)據(jù)集中。
2 應(yīng)用
2.1 圖像視覺(jué)識(shí)別算法的應(yīng)用
自從圖像視覺(jué)識(shí)別算法面世以來(lái),便引發(fā)了研究熱潮,無(wú)論在理論或是技術(shù)上均取得了長(zhǎng)足進(jìn)步,其成果應(yīng)用也已逐漸拓展至生活的方方面面。例如,通用物體及場(chǎng)景識(shí)別和圖像主體檢測(cè),代替了人眼的辨識(shí)功能;細(xì)粒度圖像識(shí)別,對(duì)圖片中的動(dòng)物、植物、菜品、logo商標(biāo)、車型等進(jìn)行識(shí)別;實(shí)現(xiàn)圖片中的人流統(tǒng)計(jì),人體分析;識(shí)別車輛外觀受損部件及受損類型應(yīng)用與車損檢測(cè)中,減少了人力勞動(dòng);相冊(cè)圖片分類,安裝在手機(jī)端,可以幫助人們整理相冊(cè),節(jié)省手機(jī)內(nèi)存等等。
特別地,在數(shù)據(jù)挖掘推薦系統(tǒng)(Recommendation System)的有關(guān)研究、成果推廣中,比如,像大眾點(diǎn)評(píng),貓途鷹(TripAdvisor)等旅游或其它在線社交網(wǎng)絡(luò)中,若立足于消費(fèi)者層面,當(dāng)其擬欲進(jìn)行消費(fèi)選擇時(shí),如果想要根據(jù)自己的喜好,屏蔽不想接觸到的垃圾圖片,便可以通過(guò)圖像視覺(jué)識(shí)別技術(shù)來(lái)過(guò)濾掉相關(guān)圖片,從而提高消費(fèi)者的旅游和用餐體驗(yàn)。而立足于酒店或者相關(guān)管理人員的層面,在推薦系統(tǒng)中,不僅可以利用用戶的評(píng)論和評(píng)分來(lái)幫助消費(fèi)者進(jìn)行推薦選擇,還可以根據(jù)用戶以往在評(píng)論中發(fā)表的圖片來(lái)匹配其在意向中最為青睞的酒店類型和消費(fèi)體驗(yàn)。同樣地,用戶出門(mén)在外通常會(huì)通過(guò)圖片的方式來(lái)記錄自己的生活,那么,還可以通過(guò)圖像視覺(jué)識(shí)別技術(shù)來(lái)發(fā)現(xiàn)消費(fèi)者的旅游軌跡,從而在以后的旅游中更好地為消費(fèi)者量身定制相關(guān)服務(wù)或產(chǎn)品,使得消費(fèi)者的生活更加便利與智能化。
有了圖像視覺(jué)識(shí)別算法,前文的圖像視覺(jué)識(shí)別內(nèi)容在社交網(wǎng)站的相關(guān)研究中實(shí)現(xiàn)起來(lái)就更加方便了。通過(guò)爬取在線社交網(wǎng)站的圖片,并識(shí)別其圖像實(shí)體內(nèi)容,利用推薦系統(tǒng)和自然語(yǔ)言處理(Natural Language Processing)相關(guān)算法對(duì)文本信息進(jìn)行處理,來(lái)提取得到不同圖片組的側(cè)重點(diǎn),從而設(shè)計(jì)推出更有利于消費(fèi)者和相關(guān)管理人員的網(wǎng)站,這無(wú)論是對(duì)于消費(fèi)者、網(wǎng)站管理員、或者酒店管理員來(lái)說(shuō),均可從中得到好處。
2.2 算法對(duì)比
在前文中,研究已經(jīng)綜合探討了3種圖像視覺(jué)識(shí)別算法。其中,DenseNet是基于GoogLeNet和ResNet兩個(gè)模型提出的。3種圖像視覺(jué)識(shí)別模型對(duì)比見(jiàn)表1。由表1可以看出,GoogLeNet[23]最早進(jìn)入公眾視野,但是其性能卻遜色于后來(lái)的2個(gè)模型,其參數(shù)較多,并且容易產(chǎn)生過(guò)擬合,若訓(xùn)練集有限,這一特征將更加明顯;一旦訓(xùn)練的網(wǎng)絡(luò)越大,那么該模型的計(jì)算復(fù)雜度就會(huì)越大,難以應(yīng)用到實(shí)際場(chǎng)景中。針對(duì)不同的應(yīng)用場(chǎng)景,3個(gè)模型的優(yōu)勢(shì)領(lǐng)域也不一樣。其中,ResNet和DenseNet更能受到廣大研究學(xué)者的推崇與青睞,其核心思想均是適用于Highway Nets小數(shù)據(jù)集的時(shí)候。因?yàn)閿?shù)據(jù)集小,就容易產(chǎn)生過(guò)擬合,而DenseNet能更好地解決過(guò)擬合問(wèn)題,其泛化性能也更好。但是,對(duì)于較大的數(shù)據(jù)集,ResNet的性能要更勝一籌,并且速度相對(duì)于DenseNet算法來(lái)說(shuō)也更快。究其原因就在于,DenseNet每一層都需要用到前面所有層的特征。這樣看來(lái),DenseNet即便改善了算法精度,解決了過(guò)擬合問(wèn)題,而且泛化性能有所提高,但是該算法對(duì)硬件內(nèi)存占用卻會(huì)隨著數(shù)據(jù)集增大而逐步提高,對(duì)于硬件環(huán)境是非常不友好的。因此在設(shè)計(jì)中就需要根據(jù)不同的應(yīng)用場(chǎng)景已知的既有條件來(lái)選擇研究使用的模型。
3 結(jié)束語(yǔ)
論文中綜合探討了GoogLeNet、 ResNet、 DenseNet三個(gè)模型的基本原理,同時(shí)也對(duì)比了3個(gè)模型的性能。從中不難發(fā)現(xiàn),圖像視覺(jué)識(shí)別算法正呈現(xiàn)出智能化態(tài)勢(shì),但是其中也存在著一定的缺陷與不足。盡管DenseNet參數(shù)、精度和結(jié)構(gòu)以及調(diào)節(jié)方面有出色表現(xiàn),但是其在大數(shù)據(jù)集的內(nèi)存占用情況上卻仍有待改善。而ResNet雖然贏得了業(yè)界的廣泛認(rèn)可,但在精度上卻比不上DenseNet的訓(xùn)練精度。這也是后續(xù)工作中的一個(gè)重點(diǎn)研究方向。
目前,已有相當(dāng)數(shù)量的研究人員正在嘗試將圖像視覺(jué)識(shí)別技術(shù)更廣泛地應(yīng)用在數(shù)據(jù)挖掘中,利用在線社交網(wǎng)站上的圖片來(lái)發(fā)掘消費(fèi)者的運(yùn)行軌跡和其它社交習(xí)慣也不失為一個(gè)值得深入探索的項(xiàng)目研究課題。更多的研究實(shí)踐均會(huì)證明,圖像視覺(jué)識(shí)別技術(shù)在未來(lái)的科技進(jìn)步中必將展示出較高的實(shí)用價(jià)值。
參考文獻(xiàn)
[1] SZEGEDY C , LIU Wei , JIA Yangqing , et al. Going deeper with convolutions[J]. arXiv preprint arXiv:1409.4842,2014.
[2] DONAHUE J , HENDRICKS L A , GUADARRAMA S , et al. Long-term recurrent convolutional networks for visual recognition and description[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston, MA, USA:IEEE, 2015:2625-2634.
[3] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional Residual networks[C]// IEEE International Conference on 3D Vision(3DV). Stanford, CA, USA :IEEE,2016:1-13.
[4] IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[J]. arXiv preprint arXiv:1502.03167v2,2015.
[5] 張宏偉, 張凌婕, 李鵬飛,等. 基于GoogLeNet的色織物花型分類[J]. 紡織科技進(jìn)展, 2017(7):33-35,52.
[6] LI Sihan, JIAO Jiantao, HAN Yanjun, et al. Demystifying ResNet[J]. arXiv preprint arXiv:1611.01186,2014.
[7] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[J]. arXiv preprint arXiv: 1512.03385, 2015.
[8] XIE Saining, GIRSHICK R, DOLLR P. Aggregated residual transformations for deep neural networks[J]. arXiv preprint arXiv:1611.05431,2016.
[9] TARG S, ALMEIDA D , LYMAN K. Resnet in Resnet: Generalizing residual architectures[J]. arXiv preprint arXiv:1603.08029,2016.
[10]WU Zifeng , SHEN Chunhua , HENGEL A V D . Wider or deeper: Revisiting the ResNet model for visual recognition[J]. Pattern Recognition, 2019,90:119-133.
[11]HUANG Gao, LIU Zhuang, van der MAATEN L, et al. Densely connected convolutional networks[J]. arXiv preprint arXiv:1608.06993,2016.
[12]付學(xué)桐. 基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)研究[J]. 通訊世界,2019,26(2):299-300.
[13]張?jiān)F?,龔曉峰,雒瑞? 稀疏化的雙向二維主成分人臉圖像識(shí)別[J/OL]. 計(jì)算機(jī)工程:1-7[2019-02-28]. http://kns.cnki.net/kcms/detail/31.1289.TP.20190122.1629.005.html.
[14]張長(zhǎng)青,楊楠. 一種面向交通標(biāo)志識(shí)別系統(tǒng)的圖像識(shí)別算法[J/OL]. 電子科技: 1-5[2018-12-20] . http://kns.cnki.net/kcms/detail/61.1291.TN.20181220.0913.044.html.
[15]RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3):211-252.
[16]賴杰偉,陳韻岱,韓寶石,等. 基于DenseNet的心電數(shù)據(jù)自動(dòng)診斷算法[J]. 南方醫(yī)科大學(xué)學(xué)報(bào),2019,39(1):69-75.
[17]李曉飛. 基于深度學(xué)習(xí)的行人及騎車人車載圖像識(shí)別方法[D]. 北京:清華大學(xué),2016.
[18]宋麗娟. 基于圖像的農(nóng)作物病害識(shí)別關(guān)鍵算法研究[D]. 西安:西北大學(xué),2018.
[19]鳳祥云,盧輝斌. 基于數(shù)據(jù)挖掘的水下激光圖像識(shí)別技術(shù)[J]. 激光雜志,2016,37(1):55-58.
[20]楊帆,周華,王嫣. 基于數(shù)據(jù)挖掘的激光雷達(dá)圖像識(shí)別技術(shù)[J]. 激光雜志,2016,37(7):39-42.
[21]周誠(chéng)誠(chéng),張代遠(yuǎn). 利用圖像識(shí)別技術(shù)過(guò)濾海量可疑釣魚(yú)網(wǎng)站[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(11):246-249.
[22]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Identity mappings in deep residual networks[J]. arXiv preprint arXiv:1603.05027, 2016.
[23]KHAN R U, ZHANG Xiaosong , KUMAR R. Analysis of ResNet and GoogleNet models for malware detection[EB/OL].[2018-08-28]. https://DOI.ORG/10.1007/S11416-018-0324-Z.
[24] 黃奕暉,馮前進(jìn). 基于三維全卷積DenseNet的腦膠質(zhì)瘤MRI分割[J]. 南方醫(yī)科大學(xué)學(xué)報(bào),2018,38(6):661-668.