葉建丞
(福建農(nóng)林大學(xué) 機(jī)電工程學(xué)院 福建福州 350000)
隨著計算機(jī)技術(shù)高速發(fā)展,各種應(yīng)用計算機(jī)的智能化技術(shù)層次不窮。然而圖像識別技術(shù)是運用最廣泛的技術(shù)之一[1]。由于圖像所能給出信息比文字多,所以對圖像識別技術(shù)進(jìn)行綜合概括和優(yōu)化是大勢所需。在此前提上就要必須對圖像識別技術(shù)定義、圖像處理、所用數(shù)據(jù)集等進(jìn)行了解,以及對其中應(yīng)用的識別技術(shù)如統(tǒng)計模式識別、神經(jīng)網(wǎng)絡(luò)模式識別、非線性降維等進(jìn)行掌握。圖像識別技術(shù)所能使用的領(lǐng)域十分廣泛如機(jī)器視覺、監(jiān)控系統(tǒng)、醫(yī)學(xué)領(lǐng)域等。并且隨著5G技術(shù)的盛行,可以進(jìn)行智能化、高速化技術(shù)的交叉[2],進(jìn)而優(yōu)化圖像識別技術(shù)。
圖像識別技術(shù)早在20世紀(jì)60年代開始進(jìn)行研究[3],隨著計算機(jī)設(shè)備發(fā)展迅速,計算機(jī)處理信息能力變得越來越快。因此圖像識別技術(shù)取得了很大的突破性進(jìn)展。從最早的數(shù)字識別、文字識別發(fā)展到現(xiàn)如今的物體識別、精細(xì)識別、多維度識別等,識別技術(shù)從原來的模式識別與格式塔心理學(xué)家所提出的原型匹配識別[4]到現(xiàn)今統(tǒng)計模式識別、神經(jīng)網(wǎng)絡(luò)模式識別、非線性降維等高超識別方法。無一不體現(xiàn)智能化圖像識別進(jìn)步迅速。到目前為止,數(shù)據(jù)資源越來越豐富,各種算法層次不窮,例如SAR圖像目標(biāo)識別算法[5]、CNN和FCN[6]等算法,由此計算機(jī)圖像識別不管在識別方法上還是應(yīng)用領(lǐng)域上都呈現(xiàn)出新的變化趨勢。在數(shù)據(jù)信息采集上,由于大規(guī)模圖像數(shù)據(jù)集的發(fā)展如Flickr1024[7]、Places[8]、SUN[9],促進(jìn)了圖像更精確分類。
圖像識別是利用計算機(jī)對輸入進(jìn)來的圖像進(jìn)行預(yù)處理、細(xì)化分析和理解,以識別各種不同模式的目標(biāo)和對像的技術(shù),更好的使人獲取到有用信息。圖像識別時要經(jīng)過預(yù)處理、特征提取、匹配分類。其中預(yù)處理過程使用到了二值化的方法[10],把圖像進(jìn)行細(xì)化,提高清晰度。除了二值化外,還可以結(jié)合神經(jīng)網(wǎng)絡(luò)作為預(yù)處理技術(shù)[11],將特征從高維空間提取到低維的空間進(jìn)行了減維,達(dá)到更好識別的效果。特征提取是使用計算機(jī)提取圖像信息,決定每個圖像的點是否屬于一個圖像特征。特征提取是把圖像上的點分為不同的子集,這些子集往往屬于孤立的點、連續(xù)的曲線或者連續(xù)的區(qū)域[12]。特征的好壞對泛化性能有至關(guān)重要的影響。匹配分類則就是運用了大規(guī)模的數(shù)據(jù)集進(jìn)行系統(tǒng)化歸類。在這3個方面中使用計算機(jī)圖像識別技術(shù)可以確保圖像質(zhì)量和實際結(jié)果,顯示圖像信息內(nèi)容,通過提取特征來集成圖像信息內(nèi)容并對其特征進(jìn)行分類。
數(shù)據(jù)集是由各種資料、數(shù)據(jù)結(jié)合在一起所形成的整體,其中的數(shù)據(jù)資料可以是圖像特征、屬性特征、統(tǒng)計數(shù)據(jù)等[13]。以下我們介紹下其中圖像識別技術(shù)利用廣泛的3種數(shù)據(jù)集。
Flickr1024數(shù)據(jù)集是一個大型的視覺數(shù)據(jù)庫,通常被利用在圖像識別技術(shù)中。該數(shù)據(jù)庫包含了多達(dá)1024對的高質(zhì)量清晰圖,涵蓋了各種各樣的場景視角,其數(shù)據(jù)集可以幫助處理圖像識別中對各個特征的分類。
Places數(shù)據(jù)集包含了多達(dá)1000萬場景的儲存庫,該數(shù)據(jù)集是結(jié)合了場景語言分類的方法進(jìn)行標(biāo)記。其具有高覆蓋率和多樣本性的典型特點。智能化圖像識別技術(shù)提供了一個大的場景數(shù)據(jù)庫,對未來的場景識別有促進(jìn)作用[14]。
SUN數(shù)據(jù)集是一個含括了899個類別和130519張圖像的數(shù)據(jù)庫,由此通常使用員會用采集好了的類別結(jié)合特殊的算法來實現(xiàn)場景的識別和建立新的界限的作用。
隨著計算機(jī)的發(fā)展,各種智能化技術(shù)更新快速,智能化圖像識別技術(shù)也不例外。其中更新較為顯著的是圖像識別中的識別方法。以下三種是現(xiàn)階段使用最多也是最廣泛的高新技術(shù),本節(jié)將一一介紹。
統(tǒng)計模式識別方法就是用給定的有限數(shù)量樣本集,在已知研究對象統(tǒng)計模型或已知判別函數(shù)類條件下根據(jù)一定的準(zhǔn)則通過學(xué)習(xí)算法把d維特征空間劃分為c個區(qū)域,每一個區(qū)域與每一類別相對應(yīng)。假如分類的樣本條件密度可知,那么就可以根據(jù)貝葉斯決策理論來進(jìn)行對樣本歸類[16]。
非線性降維識別是線性降維識別技術(shù)一次優(yōu)化升級,由于線性識別技術(shù)在過去的生活中被人們找出了一些缺點如:在復(fù)雜的圖像識別的時候計算量也隨之增多,導(dǎo)致識別時候花費大量的時間和空間特性。所以線性降維識別無法在大范圍使用。而對于非線性降維識別技術(shù)來說,它能在不改變圖像屬性、特征的前提下把高維進(jìn)行降維。并且其識別的精度高識別的速度快。例如在一些運用在圖像維度高識別的系統(tǒng),如人臉識別系統(tǒng)、指紋識別系統(tǒng)等,利用了非線性識別可以使系統(tǒng)的工作效率變快、成果變得更好[17]。
神經(jīng)網(wǎng)絡(luò)是借助了人類的神經(jīng)系統(tǒng),把計算機(jī)進(jìn)行改造模擬人神經(jīng)系統(tǒng)的一個技術(shù)。該識別技術(shù)具有很強(qiáng)的學(xué)習(xí)能力和識別能力,由此能完成圖像的分類和識別[18]。并且神經(jīng)網(wǎng)絡(luò)模式識別類型多,分為深度神經(jīng)網(wǎng)絡(luò)識別、卷積神經(jīng)網(wǎng)絡(luò)識別、BP神經(jīng)網(wǎng)絡(luò)識別等。
3.3.1 深度神經(jīng)網(wǎng)絡(luò)識別
深度神經(jīng)網(wǎng)絡(luò)被認(rèn)為是一種智能特征提取模塊,在圖像識別中的特征提取時具有很大的靈活性。深度神經(jīng)網(wǎng)絡(luò)的典型特點是它具有多重隱藏層,可以捕獲數(shù)據(jù)復(fù)雜的線性表示。在深度神經(jīng)網(wǎng)絡(luò)中提出一種將高維圖像投影到低維的空間中,對智能化圖像識別技術(shù)來說具有較大用處[19]。
3.3.2 卷積神經(jīng)網(wǎng)絡(luò)識別
卷積神經(jīng)網(wǎng)絡(luò)識別是前饋神經(jīng)網(wǎng)絡(luò),由于它具有可以響應(yīng)覆蓋范圍內(nèi)的周圍單元的功能,且對圖像處理、識別有出眾的表現(xiàn)。該識別技術(shù)Hubel和Wiesel在研究貓腦皮層[20]中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks-簡稱CNN)[21]。該技術(shù)避免了圖像識別中復(fù)雜的預(yù)處理,可以直接輸入圖像減少誤差。是目前圖像識別技術(shù)中使用最廣泛的技術(shù)之一。
3.3.3 BP神經(jīng)網(wǎng)絡(luò)識別
BP(back propagation)神經(jīng)網(wǎng)絡(luò)是由Rumelhart和McClelland為首的科學(xué)家提出的概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)[22]。
對于BP神經(jīng)網(wǎng)絡(luò)識別來說,算法十分的重要,它是一種按誤差反向傳播的多層前饋網(wǎng)絡(luò)。它在人臉識別系統(tǒng)中廣泛運用[23]。
計算機(jī)智能化圖像識別技術(shù)由上述的部分結(jié)合起來,技術(shù)變得越來越成熟,所用的地方很多,例如上述講到的人臉識別其中運用的核心技術(shù)就是圖像識別技術(shù)。當(dāng)然,在機(jī)器視覺領(lǐng)域中運用該技術(shù)進(jìn)行3D圖像的識別,可以提高機(jī)器識別場景的能力,為智能機(jī)器人打下堅實的基礎(chǔ)。還有在醫(yī)學(xué)領(lǐng)域,計算機(jī)圖像識別在進(jìn)行CT等類似檢查時都需要采用圖像識別。通過圖像識別醫(yī)生能更好的了解病人體內(nèi)的情況,使得更好的提出治療方案。還有農(nóng)業(yè)發(fā)展、安防系統(tǒng)、交通運輸?shù)阮I(lǐng)域也能見到圖像識別技術(shù)的身影[24]。
5G時代已然到達(dá),5G下的人工智能技術(shù)將迎來進(jìn)一步的優(yōu)化[25],智能化圖像識別技術(shù)也不例外。由于計算機(jī)智能化圖像識別的過程中會受到數(shù)據(jù)信息輸出輸入速度慢的影響,以及在處理圖像特征信息時會遇到信息量大導(dǎo)致時長變長等不足之處。因此,提出把5G技術(shù)與計算機(jī)、數(shù)據(jù)集相結(jié)合。能提高算法的計算速率,達(dá)到優(yōu)化計算機(jī)識別技術(shù)的目的,
智能化圖像識別技術(shù)是現(xiàn)今運用廣技術(shù)先進(jìn)的技術(shù)之一,它已經(jīng)融入到我們的生活當(dāng)中。但是時代不斷革新,技術(shù)不斷更新,為了保證該技術(shù)能走在前沿端,就應(yīng)該與時俱進(jìn)更上新時代新技術(shù)的步伐,推進(jìn)智能技術(shù)的優(yōu)化升級。這對我們國家、生活的發(fā)展將會起到促進(jìn)的作用。