摘要:本文從深度學(xué)習(xí)的歷史發(fā)展進(jìn)行分析,由此研究深度學(xué)習(xí)是如何促進(jìn)對大量數(shù)據(jù)精準(zhǔn)識別計算與預(yù)測準(zhǔn)確率,從而能實(shí)現(xiàn)真正的圖像智能識別。
關(guān)鍵詞:深度學(xué)習(xí);物體的識別;人臉識別;物體的檢測
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-9129(2019)13-0021-01
Abstract: based on the analysis of the historical development of deep learning, this paper studies how deep learning can promote accurate recognition, calculation and prediction accuracy of a large number of data, so as to realize real intelligent image recognition.
Key words:deep learning; Object recognition; Face recognition; Object detection
引言:計算機(jī)的理論和技術(shù)的應(yīng)用在近年來飛速發(fā)展,使得視頻、圖像處理和計算的能力得到顯著提高。當(dāng)前,以深度學(xué)習(xí)為基礎(chǔ)的計算機(jī)視覺研究已逐步成為人工智能研究領(lǐng)域的重點(diǎn)內(nèi)容。一般而言,所說的計算機(jī)視覺其實(shí)是一門研究用機(jī)器學(xué)會“看”的學(xué)科,之后緊接著進(jìn)一步進(jìn)行圖形處理。下文就來探討,深度學(xué)習(xí)領(lǐng)域的圖像識別應(yīng)用。
1 深度學(xué)習(xí)的發(fā)展
深度學(xué)習(xí)在近十年來,在許多領(lǐng)域都取得了驚人的成功,已經(jīng)成為人工智能所在領(lǐng)域的重大進(jìn)步。例如:輔助的自然語言處理、圖像和視頻分析、語音識別等方面。我們現(xiàn)在所說的“深度學(xué)習(xí)”,概念屬于神經(jīng)網(wǎng)絡(luò)。上世紀(jì)在80年代和90年代頗為盛行,這一概念的提出目的在于,通過模擬人腦的認(rèn)知機(jī)制,用以解決計算機(jī)研究中的各類難題。1986年,rumehart,Hinton和Williams在《自然》雜志上發(fā)表了《神經(jīng)網(wǎng)絡(luò)訓(xùn)練的反向傳播算法》
神經(jīng)網(wǎng)絡(luò)是含有大量參數(shù)的,在作用過程常發(fā)生“過擬合問題”,在識別準(zhǔn)確率高的同時,測試集的效果卻差強(qiáng)人意。因?yàn)樵诋?dāng)時的水平下,訓(xùn)練數(shù)據(jù)集的規(guī)模都比較小,其次計算資源稀缺,達(dá)到一個較小的網(wǎng)絡(luò)的訓(xùn)練也需要大量的時間投入。因此,和其它的模型相比,神經(jīng)網(wǎng)絡(luò)并沒有在識別準(zhǔn)確率上有明顯的優(yōu)勢。
許多人經(jīng)常會有一個問題:深度學(xué)習(xí)和其它機(jī)器學(xué)習(xí)方法有什么區(qū)別?為什么它能在許多領(lǐng)域取得成功?事實(shí)上,與傳統(tǒng)模式識別的最大區(qū)別在于,在深度學(xué)習(xí)中所用的所有特征均是通過大數(shù)據(jù)實(shí)現(xiàn)自動的學(xué)習(xí)行為。手工設(shè)計在過去的數(shù)年中一直處于領(lǐng)先地位,依靠事先的知識是來自設(shè)計師個人靈感,很難借助大數(shù)據(jù)的影響來實(shí)現(xiàn),數(shù)量非常有限。不同之處在于,大數(shù)據(jù)的自動學(xué)習(xí)特征由深度學(xué)習(xí)表示中獲得數(shù)萬個不同的數(shù)據(jù)參數(shù)。有效特征的顯現(xiàn),通常通過手工設(shè)計需要5到10年的時間才可以做到,而通過深度學(xué)習(xí)可以快速的學(xué)習(xí)新型、有效的特征表示方法,以用于新的應(yīng)用。
2 基于深度學(xué)習(xí)的圖像識別
在2012年,計算機(jī)視覺領(lǐng)域的深度學(xué)得到歷史性的突破。Hinton的團(tuán)隊,憑著深度學(xué)習(xí)的算法,在“Imagenet圖像分類”比賽中獲勝。與第二至第四位使用傳統(tǒng)手工設(shè)計特征的其它組相比,其最大精度差異不大于1%。然而,singtondi研究組的準(zhǔn)確率高于第二組,甚至超過10%。這一結(jié)果在學(xué)術(shù)界引起了極大的震動。
2.1深度學(xué)習(xí)在物體檢測中的作用。目標(biāo)檢測比目標(biāo)識別困難。由于一幅圖像包含許多屬于不同類別的對象,因此于對象的檢測需要確定每個對象在這里的具體位置和類別。2013年,Image netilsvrc大賽主辦方增加了這個目標(biāo)檢測功能。在40000張來自網(wǎng)絡(luò)的圖片中,他們希望識別出超過200種的物體種類,贏得比賽的人在最后一次使用的是手動設(shè)計的性能,平均的精密度(map)只有大概的22.6%,而在2014,平均檢測率被深度學(xué)習(xí)提高了43.9%。RCNN首次提出了基于深度學(xué)習(xí)的目標(biāo)檢測方法,并得到了廣泛的應(yīng)用。
2.2人臉識別。深度學(xué)習(xí),其在物體地識別上,第二個重點(diǎn)應(yīng)用是人臉識別。人臉識別的強(qiáng)大功能不僅體現(xiàn)在信息安全、移動支付,在刑偵和破案中也有著重要的使用效果。姿態(tài)、光線、表情等因素,使識別人臉變得困難,是人臉識別的最大難題。和其所引起的類內(nèi)地變化以及,身份不同,產(chǎn)生的類間地變化。這些變化是非線性分布的,并且分布非常復(fù)雜復(fù)雜,傳統(tǒng)手工設(shè)計地類型線性模型無法將它們精確區(qū)分。利用深度學(xué)習(xí),新的特征由多層非線變換得出。這些新特征應(yīng)該盡可能使保類間的變化被保留,多地去掉類內(nèi)變化。
人臉識別包括兩個任務(wù):人臉識別和人臉識別。確認(rèn)是指判斷兩張人臉照片是否屬于同一個人,屬于兩類問題。所以隨機(jī)猜測的準(zhǔn)確率是一半。識別就是將人臉圖像分成n類,n類由人臉的身份來定義。它被定義為一個多分類問題,具有很強(qiáng)的挑戰(zhàn)性。隨著類別數(shù)的增加,難度增加,隨機(jī)猜測的準(zhǔn)確率僅為1/n,需要注意的是,這兩種任務(wù)都可以利用深度夫人模型來學(xué)習(xí)人臉的表情特征。
與圖像識別不同的是,運(yùn)用深度學(xué)習(xí)的領(lǐng)域,還包括在視頻分類中的應(yīng)用,但其應(yīng)用和理論準(zhǔn)備并不夠充分。從Image Net的訓(xùn)練得出的圖像特征,可以直接被用在識別物體的任務(wù)中,同時在和圖像有關(guān)的識別任務(wù)中出現(xiàn)。如:圖像分類、圖像的分割、檢索和物體檢測等方面)和很多不同的圖像測試集里面,具有極其優(yōu)良的泛化性和普及性。
3 結(jié)語
毫無疑問,深度學(xué)習(xí)因已經(jīng)在實(shí)踐中取得了巨大飛躍,通過大數(shù)據(jù)的訓(xùn)練的深度模型,其能體現(xiàn)出的特性引人入勝,但是,諸多理論分析工作有待完成。如:怎么使得局部極小點(diǎn)得以實(shí)現(xiàn)?各層的不斷變換,得到了哪些對識別由好處的方面,又損失了什么關(guān)鍵信息呢?和圖像識別相關(guān)的其他具體實(shí)踐不斷推進(jìn)深度學(xué)習(xí)的發(fā)展——體現(xiàn)在各個方面。相信在未來將取得更深遠(yuǎn)的進(jìn)步和發(fā)展。
參考文獻(xiàn):
[1]王家.基于深度學(xué)習(xí)的圖像識別問題中對抗樣本的研究[J].電腦知識與技術(shù),2019,15(28):222-223.
[2]屈薇.基于深度學(xué)習(xí)的圖像識別算法研究[J].數(shù)字技術(shù)與應(yīng)用,2019,37(09):121-122.
[3]張琦,張榮梅,陳彬.基于深度學(xué)習(xí)的圖像識別技術(shù)研究綜述[J].河北省科學(xué)院學(xué)報,2019,36(03):28-36.
[4]張曰花,王紅,馬廣明.基于深度學(xué)習(xí)的圖像識別研究[J].現(xiàn)代信息科技,2019,3(11):111-112+114.
作者簡介:侯銳(1980.8-)女,漢,陜西寶雞人,西安石油大學(xué)碩士,西安石油大學(xué)講師,計算機(jī)應(yīng)用。