長(zhǎng)陽(yáng)土家族自治縣第一高級(jí)中學(xué) 覃天足
近年來(lái),圖像識(shí)別已經(jīng)成為人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)和難點(diǎn),其中,景物識(shí)別是指對(duì)場(chǎng)景圖像的各類景物進(jìn)行識(shí)別分類,在許多領(lǐng)域例如無(wú)人駕駛、圖像檢索、機(jī)器人視覺(jué)導(dǎo)航等都得到了很好的應(yīng)用。圖像的視覺(jué)特征有顏色,紋理,形狀等,顏色是用于描述物體表面特性的一種屬性,也是應(yīng)用最為廣泛的視覺(jué)特征,主要原因在于顏色往往和圖像中所包含的物體或場(chǎng)景十分相關(guān);而紋理特征紋理指的是圖像灰度級(jí)或顏色的某種變化,是用于描述物體表面結(jié)構(gòu)的一種模式,體現(xiàn)了物體表面共有的內(nèi)在屬性,包含了物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系,利用這兩種特征可以便于對(duì)圖像進(jìn)行分割、分析和理解。由于室外景物的復(fù)雜及可變性,使用單一特征常常難以描述圖像中的各類景物,因此在本文中,將顏色和紋理兩種信息進(jìn)行結(jié)合,用于同時(shí)提出圖像的光譜和結(jié)構(gòu)特性,以此表達(dá)更多的圖像信息,可以取得更好的分類結(jié)果。
同時(shí),神經(jīng)網(wǎng)絡(luò)在解決非線性、以及擁有大數(shù)據(jù)前提條件下的模式識(shí)別問(wèn)題中具有較好的性能[1]。因此,選取神經(jīng)網(wǎng)絡(luò)作為景物識(shí)別的分類器是一種合理的選擇。本文在基于顏色和紋理特征提取的基礎(chǔ)上,采用神經(jīng)網(wǎng)絡(luò)進(jìn)行景物識(shí)別,提高了圖像識(shí)別的準(zhǔn)確率,具有良好的分類性能。
對(duì)于待識(shí)別的景物圖像,顏色是其十分重要的視覺(jué)特征。因此,利用顏色特征進(jìn)行圖像分類受到重視,也最早得到實(shí)際應(yīng)用。顏色特征是一種全局特征,描述了圖像或圖像區(qū)域所對(duì)應(yīng)的景物的表面性質(zhì)。進(jìn)行顏色特征的提取必須選取合適的顏色空間。對(duì)于景物識(shí)別,常用的顏色空間有RGB空間、HSV空間等。其中,RGB空間模型是迄今應(yīng)用最廣泛的彩色模型。其具有描述簡(jiǎn)單,便于使用標(biāo)準(zhǔn)硬件實(shí)現(xiàn)應(yīng)用等優(yōu)點(diǎn)。本文選取RGB顏色空間,根據(jù)RGB三個(gè)分量提取待識(shí)別圖像的顏色特征[2]。
顏色直方圖直觀的顯示了圖像在色彩空間的分布狀況,其優(yōu)點(diǎn)在于能簡(jiǎn)單描述一幅圖像中顏色的全局分布,即不同色彩在整幅圖像中所占的比例,具有良好的尺度和旋轉(zhuǎn)不變性,特征魯棒性好等特點(diǎn),特別適用于描述那些難以自動(dòng)分割的圖像和不需要考慮物體空間位置的圖像。而對(duì)于本文選用的以RGB顏色空間表示的圖像。其中,R,G,B所表示的任何一個(gè)分量都可以構(gòu)成對(duì)應(yīng)的直方圖,此直方圖仍然描述了圖像顏色的統(tǒng)計(jì)特征。但是一幅圖像的R,G,B 值范圍在[0,255]之間,因此顏色直方圖矢量的維數(shù)也會(huì)非常多。若直接進(jìn)行特征計(jì)算,運(yùn)算量將會(huì)很大,難以保證算法的快速性。而且人的眼睛對(duì)顏色的分辨能力有限,并無(wú)必要將這些量全部細(xì)分計(jì)算。因此在計(jì)算特征量之前,可以對(duì)RGB 空間進(jìn)行量化,將0-255范圍內(nèi)的值映射到0-7區(qū)間內(nèi),以減少特征矢量的維數(shù)。映射關(guān)系表示如下:
紋理特征也是一種全局特征,是指人們觀察到的圖像子區(qū)域的某種灰度變化規(guī)律。它也描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì),即在圖像中反復(fù)出現(xiàn)的局部模式和它們的排列規(guī)則[3]。作為一種統(tǒng)計(jì)特征,紋理特征常具有旋轉(zhuǎn)不變性,較強(qiáng)的抵抗噪聲能力等優(yōu)點(diǎn)。目前紋理特征的提取主要有4 種方法:統(tǒng)計(jì)法、結(jié)構(gòu)法、基于模型的方法以及信號(hào)處理的方法。灰度共生矩陣是統(tǒng)計(jì)法的一個(gè)典型代表,是應(yīng)用效果較好的一種紋理特征分析方法。
灰度共生矩陣是像素距離和角度的矩陣函數(shù),亦即一種通過(guò)研究灰度的空間相關(guān)特性來(lái)描述紋理的方法。由于紋理特征是由灰度分布在空間位置上反復(fù)出現(xiàn)而形成的,因而在圖像空間中相隔某距離的兩象素之間會(huì)存在一定的灰度關(guān)系,即圖像中灰度的空間相關(guān)特性?;叶裙采仃囃ㄟ^(guò)計(jì)算圖像中一定距離和一定方向的兩點(diǎn)灰度之間的相關(guān)性,來(lái)反映圖像在方向、間隔、變化幅度及快慢上的綜合信息。
圖像上保持某一距離的兩個(gè)像素分別具有某灰度,對(duì)其進(jìn)行統(tǒng)計(jì)得到灰度共生矩陣?;叶裙采仃嚸枋隽顺蓪?duì)像素的灰度組合分布。本文將灰度共生矩用Pδ表示,矩陣元素則用Pδ(i,j)(i,j=0,1,2,…,L-1)表示。式中:i,j分別為兩個(gè)像素的灰度;L為圖像的灰度級(jí)數(shù);δ為兩個(gè)像素間的位置關(guān)系,用δ=(Δx,Δy)表示,即兩個(gè)像素在x方向和y方向上的距離分別為Δx,Δy。不同的δ決定了兩像素間距離和方向,一般在0°、45°、90°和135°這4個(gè)方向上[4]。當(dāng)兩個(gè)像素間位置關(guān)系δ選定后,就生成一定δ下的灰度共生矩陣Pδ,即:
共生矩陣中一個(gè)元素表示了一種灰度組合下出現(xiàn)的次數(shù).如元素Pδ(1,0)表示了圖像上位置關(guān)系為δ的兩像素灰度分別為1和0的情況出現(xiàn)的次數(shù)。顯然位置關(guān)系不同,元素值就不同[5]。
基于上述的顏色/紋理組合特征,本文針對(duì)景物識(shí)別問(wèn)題提出一種基于BP神經(jīng)網(wǎng)絡(luò)的分類器,通過(guò)輸入組合特征向量,對(duì)分類器進(jìn)行學(xué)習(xí)訓(xùn)練,得到滿足分類精度的BP神經(jīng)網(wǎng)絡(luò)分類結(jié)果。BP神經(jīng)網(wǎng)絡(luò)能夠?qū)Χ鄬拥木W(wǎng)絡(luò)權(quán)值進(jìn)行修改,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法之一。
BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過(guò)程,可以分為正向傳播和反向傳播兩個(gè)階段。其中正向傳播的思想是將輸入的特征向量從輸入層經(jīng)過(guò)隱含層,逐步進(jìn)行處理,進(jìn)行權(quán)值計(jì)算,最后輸送到輸出層,在每一層的處理中,前一層相當(dāng)于后一層的輸入層,而當(dāng)前層的下一層可被視作該層的輸出層。在輸出層中,把實(shí)際的輸出信號(hào)與期望的輸出信號(hào)進(jìn)行比較,如果誤差為零或小于滿足精度的某個(gè)閾值,結(jié)束學(xué)習(xí)訓(xùn)練過(guò)程,否則進(jìn)入反向傳播過(guò)程。在反向傳播過(guò)程中,將實(shí)際輸出和期望信號(hào)計(jì)算得到的誤差逐層返回,對(duì)每一層的權(quán)值進(jìn)行自動(dòng)調(diào)整,直至某一次的實(shí)際輸出信號(hào)與期望信號(hào)的誤差滿足收斂條件,完成整個(gè)學(xué)習(xí)訓(xùn)練過(guò)程。
在進(jìn)行BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練的過(guò)程中,要確定誤差函數(shù),這里選擇實(shí)際輸出與期望輸出的誤差平方和作為誤差函數(shù)。表達(dá)式如下:
BP神經(jīng)網(wǎng)絡(luò)能夠根據(jù)如上所示的誤差函數(shù)來(lái)逐步調(diào)整權(quán)值,這需要依靠大量的樣本數(shù)據(jù),從而得到更加智能和高精度的分類器。其中輸入為上面得到的組合特征向量,輸出為識(shí)別結(jié)果,這里,選擇北京市最為著名的10個(gè)景點(diǎn),并用4位的二進(jìn)制進(jìn)行編碼,分別為0000-1001,而其余不屬于識(shí)別范圍內(nèi)的景點(diǎn)統(tǒng)一編碼為1010。為了保證BP神經(jīng)網(wǎng)絡(luò)的性能,本文使用標(biāo)準(zhǔn)的3層神經(jīng)網(wǎng)絡(luò)。其中,輸入層可以設(shè)置10個(gè)節(jié)點(diǎn),對(duì)應(yīng)量化的輸入特征向量;輸出為表示分類結(jié)果的一個(gè)編碼向量;隱含層設(shè)置15個(gè)節(jié)點(diǎn)。
通過(guò)將輸入的圖片樣本進(jìn)行預(yù)處理之后,并采用特征提取得到對(duì)應(yīng)的特征向量,選擇500幅圖片作為訓(xùn)練集,再選擇500幅圖片作為測(cè)試集,通過(guò)不斷訓(xùn)練并根據(jù)訓(xùn)練結(jié)果的優(yōu)劣調(diào)整隱含層節(jié)點(diǎn)數(shù),直到達(dá)到預(yù)定的訓(xùn)練次數(shù),或滿足預(yù)先設(shè)定的收斂閾值,完成訓(xùn)練過(guò)程。最后將訓(xùn)練學(xué)習(xí)好后的分類器,使用測(cè)試集評(píng)價(jià)分類器的識(shí)別效果。整個(gè)學(xué)習(xí)訓(xùn)練的流程圖如圖1所示:
圖1 BP神經(jīng)網(wǎng)絡(luò)分類器學(xué)習(xí)訓(xùn)練的過(guò)程
對(duì)于室外景物識(shí)別問(wèn)題,本文提出了顏色紋理特征相結(jié)合的特征提取方法。采用顏色直方圖提取顏色特征,采用灰度共生矩陣提取紋理特征,最后將兩種特征組合,解決了采用單一特征不能有效識(shí)別的問(wèn)題。并采用基于BP神經(jīng)網(wǎng)絡(luò)的分類器,能夠有效地進(jìn)行室外復(fù)雜場(chǎng)景的景物識(shí)別。該算法具有廣闊的研究?jī)r(jià)值和應(yīng)用前景。
[1]邊肇棋,張學(xué)工.模式識(shí)別[M].北京:清華大學(xué)出版社,2000.
[2]雷寶權(quán),楊麗華,等.基于SVM與顏色/紋理組合特征的景物識(shí)別算法[J].計(jì)算機(jī)科學(xué),2009,36(10):274-283.
[3]譚菊,張友鐘.基于灰度共生矩陣的紋理特征景物識(shí)別[J].重慶文理學(xué)院學(xué)報(bào),2009,29(1):66-68.
[4]蘇杰,王丙勤,郭立.數(shù)字圖像的紋理特征提取與分類研究[J].電子測(cè)量技術(shù),2008,31(5):52-55.
[5]高程程,惠曉威.基于灰度共生矩陣的紋理特征提取[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(6):195-198.