李春曉 尹振紅
【摘要】深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)嶄新的領(lǐng)域,它是通過(guò)模擬人類大腦的認(rèn)知環(huán)節(jié),構(gòu)造結(jié)構(gòu)化模型來(lái)提取特征的。整個(gè)訓(xùn)練過(guò)程只需要計(jì)算機(jī)的配合工作,無(wú)需人工參與就能夠得到我們想要的圖像識(shí)別效果。本文的主要研究方向是探究深度學(xué)習(xí)在圖像識(shí)別方面的應(yīng)用。
【關(guān)鍵詞】深度學(xué)習(xí);圖像識(shí)別;卷積神經(jīng)網(wǎng)絡(luò);深度信念網(wǎng)絡(luò)
近年來(lái),隨著社會(huì)的進(jìn)步和科學(xué)技術(shù)的發(fā)展,深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)和人工智能研究的最新趨勢(shì)之一,并已成為當(dāng)今社會(huì)最熱門的研究方向之一。深度學(xué)習(xí)的發(fā)展無(wú)論對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域還是對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的研究都產(chǎn)生了巨大的影響。如今,新的深度學(xué)習(xí)技術(shù)正在不斷誕生。其對(duì)大眾的生活已經(jīng)產(chǎn)生了深遠(yuǎn)的影響。本論文將通過(guò)研究深度學(xué)習(xí)在圖像識(shí)別方面的應(yīng)用,探索其發(fā)展的內(nèi)涵。
1. 深度學(xué)習(xí)
1.1 深度學(xué)習(xí)原理
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的方法之一。其概念是由Hinton等人于2006年提出的,它起源于人類對(duì)于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)的原理簡(jiǎn)單來(lái)說(shuō)就是通過(guò)組合簡(jiǎn)單的特征,形成其它更加復(fù)雜、抽象、無(wú)法明確限定的特征。它是一種基于對(duì)數(shù)據(jù)進(jìn)行表征的學(xué)習(xí)方法。深度學(xué)習(xí)的具體學(xué)習(xí)過(guò)程可以理解為,計(jì)算機(jī)通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)層級(jí)之間的參數(shù)迭代更新,使訓(xùn)練結(jié)果無(wú)限逼近真實(shí)值,從而達(dá)到訓(xùn)練目標(biāo)。學(xué)習(xí)的主要途徑就是通過(guò)梯度下降,在學(xué)習(xí)的過(guò)程中使用統(tǒng)計(jì)學(xué)知識(shí)進(jìn)行算法優(yōu)化。目前,深度學(xué)習(xí)已在計(jì)算機(jī)視覺(jué),自動(dòng)控制,自然語(yǔ)言處理和自動(dòng)駕駛等領(lǐng)域得到廣泛應(yīng)用。
1.2 深度學(xué)習(xí)的發(fā)展
我們將機(jī)器學(xué)習(xí)的發(fā)展歷程大致分為兩個(gè)階段,一個(gè)是淺層學(xué)習(xí)階段另一個(gè)就是深度學(xué)習(xí)階段。由于淺層學(xué)習(xí)無(wú)法解決那些結(jié)構(gòu)更加抽象、無(wú)法形式化描述的問(wèn)題。因此,促進(jìn)了我們對(duì)深度學(xué)習(xí)算法的探究。
深度學(xué)習(xí)的蓬勃發(fā)展,給很多領(lǐng)域諸帶來(lái)了積極影響。例如,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,就對(duì)圖像識(shí)別技術(shù)的發(fā)展起到了促進(jìn)的作用。此外,深度學(xué)習(xí)的引入也對(duì)提升語(yǔ)音識(shí)別的正確率做出巨大的貢獻(xiàn)。同時(shí),它在車輛檢測(cè)、交通標(biāo)志識(shí)別上也取得了重大成就,甚至在交通標(biāo)志分類上超越了人類。
1.3 深度學(xué)習(xí)的展望
現(xiàn)如今深度學(xué)習(xí)飛速發(fā)展并被廣泛應(yīng)用于各個(gè)領(lǐng)域,但是我們對(duì)于深度學(xué)習(xí)的研究仍處于發(fā)展階段,還存在許多問(wèn)題需要我們進(jìn)一步解決。比如在模型結(jié)構(gòu)上,人腦是一個(gè)立體結(jié)構(gòu),它同時(shí)兼顧著平面層的分布以及縱向的排列,但是當(dāng)前我們運(yùn)用的網(wǎng)絡(luò)結(jié)構(gòu)只有平面結(jié)構(gòu)。因此為了進(jìn)一步研究深度學(xué)習(xí),我們勢(shì)必要找到一種更加空間化的模型結(jié)構(gòu)。另外,我們希望能在提升訓(xùn)練精度的情況下保持速度,但是由于深度學(xué)習(xí)的結(jié)構(gòu)網(wǎng)絡(luò)復(fù)雜,模型結(jié)構(gòu)層次多,在海量數(shù)據(jù)的影響下,訓(xùn)練速度很容易受到影響。所以如何在保證訓(xùn)練精度的前提下仍能提高速度,仍需要我們更深層的研究。
2. 圖像識(shí)別
2.1 圖像識(shí)別技術(shù)的發(fā)展
隨著科技的不斷進(jìn)步以及人類社會(huì)活動(dòng)的多元化發(fā)展,圖像識(shí)別技術(shù)的應(yīng)用在我們的日常生活中愈加廣泛。例如,用于醫(yī)療上的細(xì)胞病理圖像識(shí)別;用于農(nóng)業(yè)上的農(nóng)作物病害圖像識(shí)別;用于交通管制上的交通標(biāo)志圖像識(shí)別等等??傮w來(lái)說(shuō),我們的日常生活已經(jīng)離不開(kāi)圖像識(shí)別技術(shù)的應(yīng)用及發(fā)展。從現(xiàn)代科技發(fā)展角度來(lái)看,科技的飛速革新必然會(huì)給圖像識(shí)別技術(shù)提供更加全面的應(yīng)用平臺(tái),同樣的這也將給圖像識(shí)別技術(shù)提出更高、更嚴(yán)格的要求。
2.2 圖像識(shí)別技術(shù)
在我們的日常生活中,從外界獲取信息的方式多種多樣。例如,感知?dú)馕兜男嵊X(jué)、聆聽(tīng)聲音的聽(tīng)覺(jué)、品嘗味道的味覺(jué)等等,但是在所有途徑中我們最常用到、最不能缺少的莫過(guò)于視覺(jué)。正常人的生活離不開(kāi)行走、吃飯、閱讀等等,這些都要用到視覺(jué)。我們總說(shuō)眼睛是“心靈之窗”,由此可以看出視覺(jué)對(duì)于我們的生活是多么的重要,它使我們的生命增添了色彩。而圖像則是記錄人類視覺(jué)信息的主要途徑,其在我們的發(fā)展中扮演了重要的角色。
圖像識(shí)別技術(shù)也就是圖像的模式識(shí)別技術(shù),它的工作模式是對(duì)圖像信息進(jìn)行模式化處理,建立模型、提取特征進(jìn)而對(duì)圖像進(jìn)行分析處理,根據(jù)圖像的特征信息進(jìn)行識(shí)別和分類,最終達(dá)到我們想要的理想效果。
3. 基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)實(shí)驗(yàn)探究
3.1 AlexNet深度學(xué)習(xí)網(wǎng)絡(luò)
AlexNet深度學(xué)習(xí)網(wǎng)絡(luò)在整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)中使用了5個(gè)卷積層和3個(gè)全連接層,其可以進(jìn)行1000類別的識(shí)別。不同于其它深度學(xué)習(xí)網(wǎng)絡(luò),該深度學(xué)習(xí)網(wǎng)絡(luò)同時(shí)使用了深度學(xué)習(xí)網(wǎng)絡(luò)并行,將整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)劃分了兩路,分別在不同的GPU上面進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,然后進(jìn)行梯度的匯總和更新操作,由于深度學(xué)習(xí)網(wǎng)絡(luò)的加深,該深度學(xué)習(xí)網(wǎng)絡(luò)在圖像識(shí)別任務(wù)中獲得了更高的識(shí)別精度。AlexNet深度學(xué)習(xí)網(wǎng)絡(luò)如圖所示:
3.2 實(shí)驗(yàn)分析
3.2.1 實(shí)驗(yàn)平臺(tái)介紹
電腦配置如下,處理器:Intel Core i5-3317,CPU主頻:1.70GHz,系統(tǒng)內(nèi)存:10GB,4核處理器。通過(guò)利用Python語(yǔ)言編程并使用TensorFlow作為研究的深度學(xué)習(xí)框架,在CPU上進(jìn)行訓(xùn)練和測(cè)試。
3.2.2 實(shí)驗(yàn)過(guò)程及結(jié)果
該實(shí)驗(yàn)對(duì)12500張包含貓狗的圖像進(jìn)行圖像識(shí)別,這里的12500張圖像中10000張為訓(xùn)練集,2500張為測(cè)試集,每張圖像進(jìn)行相應(yīng)的標(biāo)注,0代表貓,1代表狗。利用Python語(yǔ)言,基于TensorFlow編程實(shí)現(xiàn)AlexNet深度學(xué)習(xí)網(wǎng)絡(luò),先利用10000張圖像進(jìn)行訓(xùn)練,訓(xùn)練完成后利用2500張圖像進(jìn)行測(cè)試。
再用訓(xùn)練出來(lái)的深度學(xué)習(xí)參數(shù)對(duì)2500張圖像進(jìn)行識(shí)別,這2500張圖中有1250張貓和1250張狗的圖像,下表給出測(cè)試集的識(shí)別結(jié)果。
利用訓(xùn)練后的深度學(xué)習(xí)數(shù)據(jù)對(duì)2500張圖像進(jìn)行貓狗識(shí)別,2071張圖像被正確識(shí)別,識(shí)別率為82.84%。
3.2.3 實(shí)驗(yàn)結(jié)果分析
利用深度學(xué)習(xí)方法對(duì)包含貓狗的圖像進(jìn)行學(xué)習(xí),之后對(duì)測(cè)試集圖像進(jìn)行識(shí)別,識(shí)別率可以達(dá)到82.84%,說(shuō)明本文使用的AlexNet深度學(xué)習(xí)網(wǎng)絡(luò)可以較好的對(duì)貓狗圖像進(jìn)行識(shí)別。但是識(shí)別率不是很高,主要原因是訓(xùn)練數(shù)據(jù)太少,可以通過(guò)擴(kuò)大訓(xùn)練集數(shù)據(jù)量,或者進(jìn)一步改進(jìn)深度學(xué)習(xí)算法提高識(shí)別的準(zhǔn)確率。
4. 結(jié)語(yǔ)
同其它識(shí)別技術(shù)相比,文本識(shí)別技術(shù)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)需求相對(duì)較少,網(wǎng)絡(luò)所需要的計(jì)算資源也比較少,因此模型訓(xùn)練的時(shí)間就會(huì)相對(duì)較短。當(dāng)前,深度學(xué)習(xí)技術(shù)的發(fā)展將人工智能向前推進(jìn)一大步,目前基于深度學(xué)習(xí)的應(yīng)用已經(jīng)逐漸的在人們生活中嶄露頭角,各種智能化產(chǎn)品的出現(xiàn),極大的促進(jìn)人類獲得更加優(yōu)質(zhì)的生活。但是目前的智能化技術(shù)仍然處在初級(jí)的智能化,我們?nèi)杂泻荛L(zhǎng)的路要走,因此還需要繼續(xù)對(duì)深度學(xué)習(xí)技術(shù)進(jìn)行研究,努力使得深度學(xué)習(xí)技術(shù)可以像人類一樣去識(shí)別判斷。如果真的有那么一天,人類才算真正的邁進(jìn)了智能化時(shí)代。
參考文獻(xiàn):
[1]周子焜.機(jī)器學(xué)習(xí)在圖像處理中的應(yīng)用[J].電子制作,2018(18).
[2]李軼軒.基于深度學(xué)習(xí)的青光眼形態(tài)特征自動(dòng)識(shí)別方法研究[D].北京工業(yè)大學(xué),2018:1-75.
[3]王雨辰.基于深度學(xué)習(xí)的圖像識(shí)別與文字推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2017:1-73.
[4]楊金鑫.基于深度學(xué)習(xí)的細(xì)胞圖像分割與識(shí)別算法研究[D].北京郵電大學(xué),2017:1-45.
[5]Redom J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[J].Computer Science,2016.
[6]Szegedy C,Reed S,Erhan D,e tal.Scalable,High-Quality Object Detection[J].Computer Science,2015