武煜博
摘 要 圖像識(shí)別技術(shù)是人工智能研究的一個(gè)重要分支,也是人們?nèi)粘I钪惺褂米顝V泛的人工智能技術(shù)之一。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像識(shí)別準(zhǔn)確率顯著提高。本論文研究了圖像識(shí)別的傳統(tǒng)技術(shù)和深度學(xué)習(xí)技術(shù),分析了深度學(xué)習(xí)技術(shù)的幾點(diǎn)不足,并給出未來可行的解決方案。
【關(guān)鍵詞】人工智能 圖像識(shí)別 深度學(xué)習(xí)
1 概述
圖像識(shí)別技術(shù)是人工智能研究的一個(gè)重要分支,其是以圖像為基礎(chǔ),利用計(jì)算機(jī)對(duì)圖像進(jìn)行處理、分析和理解,以識(shí)別不同模式的對(duì)象的技術(shù)。目前圖像識(shí)別技術(shù)的應(yīng)用十分廣泛,在安全領(lǐng)域,有人臉識(shí)別,指紋識(shí)別等;在軍事領(lǐng)域,有地形勘察,飛行物識(shí)別等;在交通領(lǐng)域,有交通標(biāo)志識(shí)別、車牌號(hào)識(shí)別等。圖像識(shí)別技術(shù)的研究是更高級(jí)的圖像理解、機(jī)器人、無人駕駛等技術(shù)的重要基礎(chǔ)。
傳統(tǒng)圖像識(shí)別技術(shù)主要由圖像處理、特征提取、分類器設(shè)計(jì)等步驟構(gòu)成。通過專家設(shè)計(jì)、提取出圖像特征,對(duì)圖像進(jìn)行識(shí)別、分類。近年來深度學(xué)習(xí)的發(fā)展,大大提高了圖像識(shí)別的準(zhǔn)確率。深度學(xué)習(xí)從大量數(shù)據(jù)中學(xué)習(xí)知識(shí)(特征),自動(dòng)完成特征提取與分類任務(wù)。但是目前的深度學(xué)習(xí)技術(shù)過于依賴大數(shù)據(jù),只有在擁有大量標(biāo)記訓(xùn)練樣本的情況下才能夠取得較好的識(shí)別效果。本文認(rèn)為研究如何在標(biāo)記數(shù)據(jù)有限的情況下繼續(xù)利用深度學(xué)習(xí)完成物體識(shí)別任務(wù)具有重要意義。這也是未來人工智能研究的重要方向之一。
2 傳統(tǒng)圖像識(shí)別技術(shù)
傳統(tǒng)的圖像識(shí)別技術(shù)包括:圖像獲取、預(yù)處理、特征提取、分類。在圖像輸入后,需要先對(duì)圖像進(jìn)行預(yù)處理。一幅標(biāo)準(zhǔn)灰度圖像,如果每個(gè)像素的像素值用一個(gè)字節(jié)表示,灰度值級(jí)數(shù)就等于256級(jí),每個(gè)像素可以是0~255之間的任何一個(gè)整數(shù)值。一幅沒有經(jīng)過壓縮處理的640×480分辨率的灰度圖像就需要占據(jù)300KB的存儲(chǔ)空間。通常我們需要將圖片的亮度及對(duì)比度調(diào)整合適,才能使圖片更加清晰、便于觀察。
許多采集到的圖片帶有或多或少的噪聲,需要對(duì)圖片的噪聲進(jìn)行消除。對(duì)圖片噪聲的消除可以使用不同的去噪方法,如中值濾波、算數(shù)平均濾波、平滑線性濾波和高斯濾波等。不同濾波器分別適用于不同情況的噪聲。如椒鹽噪聲便適合使用中值濾波器,高斯噪聲便適合使用平滑線性濾波和高斯濾波。有時(shí)候,我們需要對(duì)圖像細(xì)化處理(如指紋細(xì)化,字符細(xì)化等),以便獲取主要信息,減少無關(guān)信息。細(xì)化操作,可以得到由單像素點(diǎn)組成的圖像輪廓,便于后續(xù)特征提取操作。
基本的圖像特征提取包括邊緣、角點(diǎn)等提取。一般使用不同的特征提取算子結(jié)合相應(yīng)的閾值得到這些關(guān)鍵點(diǎn)。另一類在頻域中進(jìn)行特征提取的方法主要是通過傅里葉變換,將圖像基于頻率分為不同的部分,從而可以在頻譜中反映出原始圖像的灰度級(jí)變化,便可得到圖像的輪廓、邊緣。
在完成圖像的預(yù)處理和特征提取之后,我們便能夠?qū)D像進(jìn)行識(shí)別、分類。常用的分類器有K-近鄰(KNN),支持向量機(jī)(SVM),人工神經(jīng)網(wǎng)絡(luò)(ANN)等等。K-近鄰算法原理是,當(dāng)一個(gè)樣本的k個(gè)最相鄰的樣本中大部分屬于某一類別時(shí),該樣本也應(yīng)當(dāng)屬于同一類別。支持向量機(jī)是通過尋找支持向量,在特征空間確定最優(yōu)分類超平面,將兩類樣本分開。人工神經(jīng)網(wǎng)絡(luò)模仿生物大腦中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過誤差反向傳播不斷優(yōu)化參數(shù),從而得到較好的分類效果。
3 基于深度學(xué)習(xí)的圖像識(shí)別技術(shù)
一般認(rèn)為深度學(xué)習(xí)技術(shù)是由Hinton及其學(xué)生于2006年提出的,其屬于人工神經(jīng)網(wǎng)絡(luò)分支。深度神經(jīng)網(wǎng)絡(luò)模仿人腦的神經(jīng)機(jī)制來分析樣本,并盡可能地對(duì)樣本的特征進(jìn)行更深度的學(xué)習(xí)。以圖片為例,利用深度學(xué)習(xí)技術(shù)對(duì)樣本的特征進(jìn)行學(xué)習(xí)時(shí),由低層特征到高層特征越來越抽象,越來越能表達(dá)語義概念。當(dāng)樣本輸入后,首先對(duì)圖像進(jìn)行卷積與下采樣操作,卷積和下采樣操作是為了進(jìn)行特征提取和選擇。以原始像素作為輸入,深度學(xué)習(xí)技術(shù)可以自動(dòng)學(xué)習(xí)得到較好的特征提取器(卷積參數(shù))。深度學(xué)習(xí)的訓(xùn)練過程,首先將當(dāng)前層的輸出作為下一層的輸入,進(jìn)行逐層分析,使得每一層的輸入與輸出差別盡可能小。其后,再聯(lián)合優(yōu)化,即同時(shí)優(yōu)化所有層,目標(biāo)是分類誤差最小化。
傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)往往網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)太過龐大,難以訓(xùn)練。人們構(gòu)造出卷積神經(jīng)網(wǎng)絡(luò),以權(quán)值共享的方式減少了節(jié)點(diǎn)數(shù)量,從而能夠加深學(xué)習(xí)的深度,使系統(tǒng)能學(xué)習(xí)到更抽象、更深層的特征,從而提高識(shí)別正確率。目前較成功的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)有AlexNet、GoogLeNet、ResNet等。
與傳統(tǒng)識(shí)別技術(shù)相比,深度學(xué)習(xí)技術(shù)具有以下優(yōu)勢(shì):
(1)無需人工設(shè)計(jì)特征,系統(tǒng)可以自行學(xué)習(xí)歸納出特征。
(2)識(shí)別準(zhǔn)確度高,深度學(xué)習(xí)在圖像識(shí)別方面的錯(cuò)誤率已經(jīng)低于人類平均水平,在可預(yù)見的將來,計(jì)算機(jī)將大量代替人力進(jìn)行與圖像識(shí)別技術(shù)有關(guān)的活動(dòng)。
(3)使用簡(jiǎn)單,易于工業(yè)化,深度學(xué)習(xí)由于不需要領(lǐng)域的專家知識(shí),能夠快速實(shí)現(xiàn)并商業(yè)化,國(guó)內(nèi)較知名的深度學(xué)習(xí)創(chuàng)業(yè)公司有專注人臉識(shí)別的Face++、研究無人車的馭勢(shì)科技等。
4 存在問題與未來展望
雖然深度學(xué)習(xí)具備諸多優(yōu)點(diǎn),但目前來看深度學(xué)習(xí)仍有許多不足之處。首先,由于深度學(xué)習(xí)模型為非凸函數(shù),對(duì)其的理論研究十分困難,缺乏理論保證。在對(duì)數(shù)據(jù)進(jìn)行調(diào)整時(shí),仍是簡(jiǎn)單的“試錯(cuò)”,缺少理論支撐。
同時(shí),由于深度學(xué)習(xí)過于依賴數(shù)據(jù)量和計(jì)算資源。對(duì)一個(gè)新概念的學(xué)習(xí),往往需要數(shù)百個(gè)甚至更多有標(biāo)記的樣本。當(dāng)遇到有標(biāo)記的樣本難以獲取或者代價(jià)太大時(shí),深度學(xué)習(xí)就無法取得好的學(xué)習(xí)效果。并且深度學(xué)習(xí)需要十分昂貴的高性能GPU,這使得深度學(xué)習(xí)難以平民化。目前深度學(xué)習(xí)訓(xùn)練速度較慢,往往需要幾天甚至一個(gè)月。其模型擴(kuò)展性差,缺少“舉一反三”的能力,樣本稍加變化,系統(tǒng)性能便會(huì)迅速下降。目前的深度學(xué)習(xí)屬于靜態(tài)過程,與環(huán)境缺乏交互。
對(duì)其的解決方案目前主要有兩點(diǎn):
(1)針對(duì)于模型擴(kuò)展性差的問題,通過引入遷移學(xué)習(xí),研究不同任務(wù)或數(shù)據(jù)之間的知識(shí)遷移,提高模型的擴(kuò)展能力、學(xué)習(xí)速度,同時(shí)降低學(xué)習(xí)成本,便于冷啟動(dòng)。
(2)與強(qiáng)化學(xué)習(xí)結(jié)合,研究在動(dòng)態(tài)環(huán)境下進(jìn)行深度學(xué)習(xí),提高深度學(xué)習(xí)與環(huán)境交互的能力。
參考文獻(xiàn)
[1]蔣樹強(qiáng),閔巍慶,王樹徽.面向智能交互的圖像識(shí)別技術(shù)綜述與展望[J].計(jì)算機(jī)研究與發(fā)展,2016:113-122.
[2]張翠平,蘇光大.人臉識(shí)別技術(shù)綜述[J].中國(guó)圖象圖形學(xué)報(bào),2000:885-894.
[3]梅園,趙波,朱之丹.基于直線曲線混合Gabor濾波器的指紋增強(qiáng)算法[J].計(jì)算機(jī)科學(xué),2016.
[4]孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2012:2806-2810.
[5]莊福振,羅平,何清,史忠植.遷移學(xué)習(xí)研究進(jìn)展[J].軟件學(xué)報(bào),2015:26-39.
[6]高陽,陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),2004:86-100.
作者單位
山西省榆次第一中學(xué)校 山西省晉中市 030600