聶莉娟
(金肯職業(yè)技術(shù)學(xué)院,江蘇 南京 210000)
伴隨著現(xiàn)代計(jì)算機(jī)技術(shù)及信息化技術(shù)的快速發(fā)展,圖像識別技術(shù)受到了更多領(lǐng)域的關(guān)注。圖像識別技術(shù)的產(chǎn)生以及更新成為當(dāng)下十分重要的發(fā)展方向,同時(shí)表現(xiàn)出了良好的發(fā)展前景,在信息收集、醫(yī)療以及產(chǎn)品安全等方面,都已經(jīng)開始廣泛運(yùn)用圖像識別技術(shù),發(fā)揮了非常大的作用。簡單來說,圖像識別技術(shù)即是依托于計(jì)算機(jī)結(jié)合對象目標(biāo)處理系統(tǒng)前端捕獲圖片,在現(xiàn)代人們?nèi)粘I钪幸灿兄毡榈倪\(yùn)用,比如說條形碼識別、指紋識別等。另外,隨著我國全面進(jìn)入到信息化時(shí)代,圖像識別技術(shù)成為了一項(xiàng)十分重要的技術(shù)手段,作為時(shí)代發(fā)展下的產(chǎn)物,圖像識別技術(shù)運(yùn)用的主要價(jià)值是依托于計(jì)算機(jī)取代傳統(tǒng)人工勞作,進(jìn)而完成對龐大物理信息的處理。在現(xiàn)代計(jì)算機(jī)技術(shù)水平不斷提升的背景下,圖像識別技術(shù)的運(yùn)用價(jià)值也越來越大。為此,從人工智能視域出發(fā)探究圖像識別技術(shù)十分有必要。圖像識別技術(shù)在實(shí)際運(yùn)用過程中,首先獲取相關(guān)信息,之后對獲取的信息進(jìn)行預(yù)處理,緊接著提取信息特征并進(jìn)行選擇,最后實(shí)現(xiàn)分類決策及分類器設(shè)計(jì)功能。本文重點(diǎn)對圖像識別技術(shù)的流程進(jìn)行分析和探究。
圖像識別主要指依托于計(jì)算機(jī)對目標(biāo)圖像進(jìn)行處理,之后準(zhǔn)確識別相關(guān)圖像信息的計(jì)算機(jī)技術(shù)[1]。一般來說,在進(jìn)行圖像識別時(shí),主要分為以下幾個(gè)步驟:即圖像采集、圖像預(yù)處理、特征提取以及圖像識別[2]。
通俗來說,圖像采集即針對識別目標(biāo)建立數(shù)字化圖像,要保證圖像采集工作的順利完成,通常需要利用多個(gè)采集設(shè)備進(jìn)行協(xié)作?,F(xiàn)階段,在進(jìn)行圖像采集時(shí),一般使用的圖像采集設(shè)備為CCD,CMOS攝像機(jī)等,攝像機(jī)通過鏡頭中的光感部件得到目標(biāo)物體圖像的模擬信號,緊接著利用A/D轉(zhuǎn)化實(shí)現(xiàn)模擬圖像向數(shù)字圖像的轉(zhuǎn)變,最后通過相應(yīng)的解編碼將數(shù)據(jù)信息傳輸?shù)接?jì)算機(jī)中完成圖像處理[3]。在進(jìn)行圖像識別中,圖像采集品質(zhì)直接關(guān)系到最終的識別效果,所以在完成圖像的采集之后,需要對圖像品質(zhì)進(jìn)行評估,重點(diǎn)衡量圖像的清晰度、對比度以及噪點(diǎn)等多個(gè)因素,而圖像的這些因素往往受到CCD,CMOS攝像機(jī)傳感器精密性的影響。相比較于其它圖像采集方式,通過CCD,CMOS攝像機(jī)開展的圖像采集擁有像素密集性好、噪點(diǎn)低等優(yōu)勢,同時(shí)還能夠支持動態(tài)對比度調(diào)整,也能夠有效簡化后期的圖像處理流程,因此在現(xiàn)階段圖形處理中有著非常廣泛的應(yīng)用。圖1為CCD攝像機(jī),該攝像機(jī)一般適用于規(guī)模較大、穩(wěn)定性高的攝像環(huán)境中,相應(yīng)的CMOS攝像機(jī)通常使用在規(guī)模較小的設(shè)備中,比如說智能手機(jī)、筆記本電腦等。
圖1 CCD攝像機(jī)
圖像預(yù)處理是獲取圖像特種的重要組成部分。因?yàn)樵趯?shí)際圖像采集過程中,會受到外界環(huán)境以及圖像采集設(shè)備等因素的影響,使得導(dǎo)入到計(jì)算機(jī)中的圖像會產(chǎn)生較大的偏差,常見問題有圖像亮度較低、對比度較差以及噪點(diǎn)多等[4]。圖像預(yù)處理能夠有效解決這樣的問題,可以實(shí)現(xiàn)對采集數(shù)字圖像的不同轉(zhuǎn)化,對圖像進(jìn)行相關(guān)處理,為改善后期圖像算法速度奠定基礎(chǔ)。第一步降低采集圖像的噪聲,圖像噪聲的降低主要是通過不同的濾波來實(shí)現(xiàn)的,比如說常見的線性濾波、中值濾波等,該環(huán)節(jié)的工作原理是借助圖像的灰度連續(xù)性特征,將圖像中的任意一個(gè)像素當(dāng)作是由多個(gè)像素平均合成的,從而使得圖像中的各個(gè)噪聲被平均,完成噪聲處理工作。第二步,開展圖像分割工作。圖像分割的主要目的是將圖像中可識別區(qū)域與不可識別區(qū)域分離開來,在多數(shù)情況下,要求識別的圖像僅僅是整個(gè)圖像中的局部,因此為了提高圖像識別的準(zhǔn)確度與效率,要提前對圖像進(jìn)行分割處理,圖2為分割圖像示意圖。通常情況下圖像分割能夠通過多種途徑實(shí)現(xiàn),如一般分割、語義分割以及Kmeans分割等,其中Kmeans分割擁有較高的智能性,能夠自主完成分類[5]。
圖2 分割圖像示意
特征提取表示為將圖像中涵蓋的所有信息轉(zhuǎn)變成相應(yīng)的計(jì)算機(jī)向量特征,通常情況下,特征能夠準(zhǔn)確反映圖像的各項(xiàng)信息,是圖像識別中至關(guān)重要的一部分。根據(jù)圖像的不同,其表現(xiàn)出的特征也有較大差異,從圖像粒度層面來劃分,可以將圖像特征劃分成結(jié)構(gòu)性特征與淺層特征[6],其中,淺層特征通常表示為靠近圖像邊緣的像素特征;而結(jié)構(gòu)性特征通常較為復(fù)雜,同時(shí)相互之間的關(guān)聯(lián)性也非常強(qiáng),可以更好地識別出圖像中的目標(biāo)。淺層特征主要涵蓋了識別目標(biāo)的外形、顏色、紋理以及大小等信息,該部分特征信息相互獨(dú)立,同時(shí)較為簡單,一方面可以通過淺層特征來確定圖像,另一方面也可以基于淺層特征形成結(jié)構(gòu)性特征。在實(shí)際開展特征提取時(shí),應(yīng)當(dāng)要先進(jìn)行特征的過濾,依托于相應(yīng)算法挖掘出真實(shí)特征,并且刪減掉無意義的特征。
完成特征提取工作之后,目標(biāo)圖像的全部信息都有與之相對應(yīng)的特征向量,圖像識別的最終目的便是完成對未識別目標(biāo)圖像特征向量的識別[7]。通常來說,計(jì)算機(jī)視覺系統(tǒng)要在非常有限的時(shí)間內(nèi)完成對圖像的反饋,同時(shí)要將目標(biāo)圖像與數(shù)據(jù)庫中龐大的圖像信息進(jìn)行比對,當(dāng)未識別圖像特征較為繁瑣時(shí),不僅會消耗較長的時(shí)間,同時(shí)對計(jì)算機(jī)軟件與硬件配置要求都非常高?,F(xiàn)階段,主流圖像識別技術(shù)有模板匹配法、神經(jīng)網(wǎng)絡(luò)法、貝葉斯法等,在這些方法中絕大部分均是以人工智能技術(shù)為載體,在選取圖像識別方法時(shí),需要依照具體圖像特征進(jìn)行確定,當(dāng)下還沒有一種能夠全面滿足各種圖像特征的圖像識別方法。
基于人工智能開展的圖像識別技術(shù),其顯著優(yōu)勢便是能夠提高圖像處理過程的智能化水平,與傳統(tǒng)圖像處理方式不同的是,基于人工智能的圖像處理技術(shù)可以實(shí)現(xiàn)圖像的智能化選取及分析[8]。在現(xiàn)代人們生活當(dāng)中,基于人工智能的圖像識別技術(shù)也有著廣泛的運(yùn)用,比如說人臉識別解鎖系統(tǒng),該系統(tǒng)功能的實(shí)現(xiàn)主要是依托于人工智能識別系統(tǒng)中的智能識別功能,利用人臉識別技術(shù)識別各種人臉信息并進(jìn)行儲存,緊接著將不同人臉特征信息挖掘出來,并將其視為安全密碼,當(dāng)人們運(yùn)用人臉進(jìn)行解鎖時(shí),通過與數(shù)據(jù)庫中的人臉特征信息進(jìn)行比對,即可完成自動解鎖,這種功能的實(shí)現(xiàn)也是建立子人工智能中的圖像識別技術(shù)基礎(chǔ)上。通過將人工智能運(yùn)用到圖像識別中,一方面可以實(shí)現(xiàn)簡單的圖像識別,另一方面也可以實(shí)現(xiàn)圖像信息的自動處理、存儲以及特征提取等,這些圖像處理操作在以往圖像識別中幾乎不可能完成。
圖像識別技術(shù)的運(yùn)用不單單擁有智能化優(yōu)勢,同時(shí)也表現(xiàn)出了較高的便捷化,依托于對圖像識別技術(shù)的廣泛運(yùn)用,給人們?nèi)粘I钆c工作帶來了極大的便利。通過圖像識別技術(shù)的運(yùn)用,在以往十分困難的圖像處理過程都可以變得十分簡單,比如說現(xiàn)代十分流行的智能手機(jī)人臉解鎖、刷臉支付等,使用者不再需要記憶各種密碼,同時(shí)雙手也不需要進(jìn)行任何操作,就能夠完成手機(jī)的解鎖、線上支付以及刷臉開門等。換言之,依托于基于人工智能的圖像識別技術(shù),可以為人們生活與工作帶來較大的方便,很好的解決了一些傳統(tǒng)人們生活中不好解決的問題,為此從圖像識別技術(shù)的功能性層面來審視,基于人工智能的圖像識別技術(shù)表現(xiàn)出了非常高的實(shí)用性,同時(shí)該技術(shù)慢慢變得大眾化、普遍化,所能夠?qū)崿F(xiàn)的功能也趨向于簡便與實(shí)用。
模式識別是基于人工智能的圖像識別技術(shù)中的關(guān)鍵性模型,這種模型的創(chuàng)設(shè)是以海量數(shù)據(jù)信息為載體的[9],換言之模式識別的產(chǎn)生是建立在人們已經(jīng)掌握的圖像識別技術(shù)與大量實(shí)踐研究經(jīng)驗(yàn)的基礎(chǔ)上,緊接著利用計(jì)算機(jī)電腦的一系列計(jì)算過程來達(dá)成和數(shù)學(xué)原理的緊密融合,進(jìn)而可以自主的進(jìn)行目標(biāo)圖像特征識別,并在識別的同時(shí)產(chǎn)生客觀、公正的評價(jià)。正常情況下,模式識別能夠劃分為兩個(gè)過程,分別是實(shí)現(xiàn)過程與學(xué)習(xí)過程,其中學(xué)習(xí)過程主要表現(xiàn)為將圖像數(shù)據(jù)信息存儲到相應(yīng)的數(shù)據(jù)庫中,該過程的實(shí)現(xiàn)需要建立在圖像信息采集的基礎(chǔ)上,之后按照計(jì)算機(jī)存儲水平與識別特性完成對獲取圖像信息的分類與識別工作,最后產(chǎn)生可以進(jìn)行圖像識別的計(jì)算機(jī)程序。而實(shí)現(xiàn)過程一般表示為圖像和模板之間的匹配程度,識別過程也是建立在該過程之上。在進(jìn)行實(shí)際運(yùn)用時(shí),計(jì)算機(jī)識別與人腦識別有著非常大的區(qū)別,然而計(jì)算機(jī)能夠依托于已有的數(shù)據(jù)來完成圖像信息的識別與匹配,假如可以依照某種規(guī)律順利實(shí)現(xiàn)匹配,則表明圖像識別可以成功完成,然而該識別過程表現(xiàn)出了較強(qiáng)的限制性,難以有效辨別特征相似的情況,極易產(chǎn)生誤差。
為了更好地探究基于非線性降維的圖像識別技術(shù),首先應(yīng)當(dāng)要掌握什么是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)技術(shù)一般表示為將傳統(tǒng)圖像識別技術(shù)和現(xiàn)代神經(jīng)網(wǎng)絡(luò)算法聯(lián)系起來的一種新型圖像識別技術(shù),神經(jīng)網(wǎng)絡(luò)的計(jì)算過程主要是模仿人腦中的某項(xiàng)特征開展的,實(shí)際上神經(jīng)網(wǎng)絡(luò)并不是原原本本的依照人類的神經(jīng)網(wǎng)絡(luò)進(jìn)行的,更多的是依托于對人類神經(jīng)網(wǎng)絡(luò)的抽象、簡化以及模擬來優(yōu)化計(jì)算結(jié)構(gòu),從而改善計(jì)算速度。
基于神經(jīng)網(wǎng)絡(luò)的圖像識別計(jì)算,其實(shí)現(xiàn)原理主要是依托于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,在使用神經(jīng)網(wǎng)絡(luò)實(shí)施圖像識別過程中,先要對圖像的色彩等進(jìn)行預(yù)處理。為了有效提高基于神經(jīng)網(wǎng)絡(luò)的圖像識別效率與準(zhǔn)確率,還應(yīng)當(dāng)要面向圖像識別的領(lǐng)域及目標(biāo)開展相應(yīng)的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),重點(diǎn)涵蓋了輸入與輸出層設(shè)計(jì)、隱含層設(shè)計(jì)、初始權(quán)值的確定以及期望誤差的確定等部分[10]。各個(gè)部分設(shè)計(jì)完成之后,還應(yīng)當(dāng)要對設(shè)計(jì)完成的神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)踐訓(xùn)練,從而確保其能夠很好的滿足圖像識別需求。筆者以MATLAB 9.3軟件為平臺,通過函數(shù)newff構(gòu)建一個(gè)雙層網(wǎng)絡(luò),涵蓋了1個(gè)輸出神經(jīng)元、9x9個(gè)輸入以及18個(gè)單元的隱含層,學(xué)習(xí)函數(shù)選擇learngdm,設(shè)定學(xué)習(xí)速率為0.009~0.5。緊接著開展實(shí)驗(yàn),筆者書寫26個(gè)英文大寫字母進(jìn)行實(shí)踐識別,如表1所示為識別結(jié)果,圖3為隱含層為18時(shí)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差指標(biāo)與時(shí)間曲線圖??梢?基于神經(jīng)網(wǎng)絡(luò)的圖像識別技術(shù)能夠很好的完成字母識別,并能夠延伸到相關(guān)應(yīng)用中。
表1 隱含層不同節(jié)點(diǎn)數(shù)下的識別結(jié)果
圖3 隱含層為18時(shí)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練誤差指標(biāo)與時(shí)間曲線圖
基于神經(jīng)網(wǎng)絡(luò)的圖像識別技術(shù)與非線性降維圖像識別技術(shù)都是當(dāng)下常用的技術(shù)方式。對以往計(jì)算機(jī)開展的圖像識別技術(shù)進(jìn)行分析可以看出,傳統(tǒng)圖像識別技術(shù)一般是高維識別技術(shù),正因?yàn)閾碛懈呔S特性,使得計(jì)算機(jī)在進(jìn)行圖像識別過程中面臨著較大的負(fù)擔(dān),會降低圖像識別的效率與品質(zhì),通過非線性降維圖像識別技術(shù)的運(yùn)用就可以很好的完成圖像識別的降維,解決傳統(tǒng)圖像識別中的問題。
在以往非線性降維圖像識別技術(shù)還未研制出來時(shí),使用較為普遍的是線性降維圖像識別技術(shù),該技術(shù)擁有使用簡單、操作便捷的優(yōu)勢,然而在具體運(yùn)用時(shí),基于線性降維的圖像識別技術(shù)會導(dǎo)致計(jì)算十分復(fù)雜,不僅消耗時(shí)間較長同時(shí)也消耗了大量的空間資源,無法滿足現(xiàn)代圖像識別領(lǐng)域應(yīng)用需求。而基于非線性降維的圖像識別技術(shù)可以在維持圖像原本架構(gòu)的基礎(chǔ)上完成降維工作,從而有效推動了圖像識別效率與精度的提升。比如說人臉識別系統(tǒng)中,在以往該系統(tǒng)識別速度較慢、成功率較低,這是因?yàn)樵搱D像識別是在高維環(huán)境下進(jìn)行的,而通過非線性降維圖像識別技術(shù)的運(yùn)用,可以很好的提高自身的緊湊性,極大改善了人臉識別系統(tǒng)的工作速度。
圖像識別技術(shù)在我國許多行業(yè)領(lǐng)域中有著非常廣泛的運(yùn)用,并發(fā)揮了十分重要的價(jià)值,擁有良好的發(fā)展前景。在將來圖像識別技術(shù)將會獲得進(jìn)一步的發(fā)展,可以更加智能化的融入到人們的平時(shí)生活中,從社會發(fā)展層面來看,加強(qiáng)對圖像識別技術(shù)的研究有助于提高其社會和經(jīng)濟(jì)價(jià)值,基于人工智能的圖像識別技術(shù)也將成為未來必備的關(guān)鍵性技術(shù)之一。