王 顥
隨著信息技術(shù)的快速發(fā)展,圖像的數(shù)量呈指數(shù)型增長,圖像識別技術(shù)可以智能、高效地完成海量圖像的分類與識別,因此,圖像識別一直是計算機視覺領(lǐng)域的研究熱點。近年來,深度學習技術(shù)的應用范圍日益擴大,將深度學習應用到圖像識別領(lǐng)域已成為新的研究方向。
隨著網(wǎng)絡信息技術(shù)的發(fā)展,各類社交軟件正逐漸成為人們獲取信息、保持與他人聯(lián)絡的必備手段。在這些社交軟件中,圖片由于不會受到語言和文字等地域文化的約束,正在逐漸取代傳統(tǒng)的文字信息表達方式。
圖像識別技術(shù)能夠智能的提取圖像特征、完成圖像分類,現(xiàn)已應用到醫(yī)療、交通、安防等各類生活場景中。圖像識別一般包括圖像預處理、圖像特征提取和圖像分類三個步驟。圖像預處理是通過去除圖像中的噪聲和干擾,增強有用信息,來提高圖像識別的準確率。圖像的特征提取是將圖像轉(zhuǎn)化為“非圖像”的描述,比如數(shù)值表示或向量描述等,其基本思想是將高維空間中的原始圖像映射或變換為低維特征描述。圖像識別是以提取到的圖像特征為基礎,根據(jù)分類決策,得到待識別圖像所屬的類別。
深度學習是機器學習的一種,其概念源自人工神經(jīng)網(wǎng)絡(ANN),人工神經(jīng)網(wǎng)絡從信息處理角度模擬了人腦的神經(jīng)元之間傳遞和處理信息的模式。2006年,Hinton[1]等人提出深度學習的概念,它是一種包含多隱藏層的神經(jīng)網(wǎng)絡結(jié)構(gòu),能夠更加抽象、更深層次地描述目標對象的特征。
深度學習一般可以分成有監(jiān)督學習和無監(jiān)督學習,分類的依據(jù)是數(shù)據(jù)是否含有標記。有監(jiān)督學習過程中會找出訓練數(shù)據(jù)的特征與標記之間的映射關(guān)系,并且通過標記不斷糾正學習過程中的偏差,不斷提高學習的預測率。有監(jiān)督學習主要有卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)和深度堆疊網(wǎng)絡(DSN)。無監(jiān)督學習的訓練數(shù)據(jù)沒有標記,常用的算法有受限玻爾茲曼機(RBM)、深度置信網(wǎng)絡(DBN)等。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)是深度學習的重要組成部分,也是圖像識別領(lǐng)域中應用較為廣泛的模型之一,CNN模型的優(yōu)點主要在于避免了對圖像處理前期過程中大量的特征提取工作,簡化了圖像預處理的步驟。CNN模型是以圖像的局部關(guān)聯(lián)性和特征重復性為假設條件,即假設圖像某一點的像素一般與其相鄰像素的關(guān)聯(lián)性較大,與其他像素的關(guān)聯(lián)性較小,避免了全連接所必需的大量參數(shù),這就是CNN的局部連接特性。
循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)是針對序列數(shù)據(jù)問題而設計的,RNN在網(wǎng)絡模型中引入了定性循環(huán)的概念,信號在兩個神經(jīng)元之間傳遞之后并不會立刻消失。與卷積神經(jīng)網(wǎng)絡不同的是,循環(huán)神經(jīng)網(wǎng)絡中隱藏層神經(jīng)元的輸入不僅包含了上一層神經(jīng)元的輸出,也包含了前一時刻該隱藏層神經(jīng)元的輸出。RNN是具有記憶功能的網(wǎng)絡模型,適合處理序列數(shù)據(jù),因為序列數(shù)據(jù)具有很強的關(guān)聯(lián)性,前面的數(shù)據(jù)對后面的數(shù)據(jù)有很大的影響[3]。
生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)是由Ian Goodfellow等人于2014年提出的一種無監(jiān)督模型,GAN在對抗過程中估計并生成模型[4]。GAN打破了傳統(tǒng)生成算法的模式,采用博弈方式來優(yōu)化兩個模型,即生成模型G和判別模型D。生成模型G捕捉真實樣本數(shù)據(jù)的分布,并生成新的數(shù)據(jù)樣本。判別模型D是一個二分類器,估計一個輸入樣本來自訓練樣本的概率。與傳統(tǒng)的生成算法相比,GAN只用到反向傳播,與之前的馬爾可夫鏈模式相比效率更高。而且,GAN的損失函數(shù)與傳統(tǒng)的均方誤差相比更加嚴謹,因此GAN在圖像處理和計算機視覺領(lǐng)域取得了廣泛的應用。
深度學習具有特征提取能力強、實時性快、識別精度高的優(yōu)點。目前,深度學習已經(jīng)廣泛應用于圖像識別領(lǐng)域的各個方面。
人臉識別技術(shù)是根據(jù)人臉的特征信息完成身份識別的一種生物智能識別技術(shù)。隨著深度學習技術(shù)的快速發(fā)展,基于深度學習的人臉識別技術(shù)已成為學者們研究的熱點[5]?;谏疃葘W習的人臉識別技術(shù)是由多層非線性感知器構(gòu)成的學習模型,通過大規(guī)模的樣本圖像訓練得到識別模型,不需要進行人工特征提取,在樣本的訓練過程中自主的逐層學習多層信息,識別準確率極高。
隨著人臉識別技術(shù)的日益成熟,人臉表情識別成為近年來人臉識別領(lǐng)域研究的熱點。表情是人類內(nèi)心世界的外在流露,也是人機交互過程中的關(guān)鍵信息。人臉表情識別可以廣泛應用于智能駕駛、醫(yī)療護理、客戶分析等領(lǐng)域,不僅在學術(shù)研究領(lǐng)域具有重要的學術(shù)價值,在工業(yè)界也具有至關(guān)重要的應用價值。
醫(yī)學圖像識別的主要目標是從海量的醫(yī)學圖像中高效、準確的提取出有用的病理信息,為醫(yī)學研究、臨床診斷以及疾病治療提供堅實的基礎。目前,卷積神經(jīng)網(wǎng)絡已成為醫(yī)學圖像識別的首選算法,卷積神經(jīng)網(wǎng)絡以卷積算法、池化算法為基礎,逐步提取目標圖像中的病理信息,將提取到的圖像特征集合成高階特征,從而完成醫(yī)學圖像的識別與診斷[6]。
在學習大量的樣本圖像后,深度學習算法獲取的特征信息完全有可能超過醫(yī)生的實踐經(jīng)驗,可以站在專家的高度做出高效的判斷,既減輕了醫(yī)生的負擔,又提高了診療的效率與準確性,對現(xiàn)代醫(yī)學的發(fā)展具有重要的意義。
隨著遙感圖像分辨率的日益增大,傳統(tǒng)的識別算法已無法滿足遙感圖像的識別要求,因為傳統(tǒng)算法對人工特征提取的依賴性較高。深度學習技術(shù)具有強大的學習能力,可以自動組合低級特征、自動的提取高級特征,還可以采用深層結(jié)構(gòu)的模型完成高分辨率遙感圖像的識別與分類,而且能夠充分利用遙感圖像的空間結(jié)構(gòu)信息。遙感圖像與深度學習技術(shù)相結(jié)合能夠有效地提取遙感圖像的有用特征,在數(shù)據(jù)降維方面的表現(xiàn)尤其突出[7]。許多學者把深度學習應用于遙感圖像識別領(lǐng)域中,在識別建筑、道路、植被、林地、水利等地物時取得了較好的效果。
近年來,深度學習技術(shù)的應用范圍日益廣泛,已成為圖像識別領(lǐng)域的主流應用技術(shù)之一。但是,深度學習模型仍具有待完善的問題,比如訓練數(shù)據(jù)的優(yōu)化問題,這是因為深度學習對訓練數(shù)據(jù)具有很強的依賴性。因此在以后的研究中要考慮如何優(yōu)化訓練數(shù)據(jù),進一步提高識別準確率。