宋 皓, 徐小紅
(1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2.中國電子科技集團(tuán)公司 第三十八研究所,安徽 合肥 230088)
基于生物視覺通路的目標(biāo)識(shí)別算法
宋 皓1,2, 徐小紅1
(1.合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009;2.中國電子科技集團(tuán)公司 第三十八研究所,安徽 合肥 230088)
研究哺乳動(dòng)物視覺通路的結(jié)構(gòu)和功能,為機(jī)器學(xué)習(xí)提供了廣泛的思路。文章對經(jīng)典稀疏編碼和HMAX模型進(jìn)行改進(jìn),建立一種模擬完整視覺通路的算法。用4DGabor金字塔模擬了視覺信息從視網(wǎng)膜到腹側(cè)通路V1區(qū)的處理過程;設(shè)計(jì)一種帶稀疏編碼性質(zhì)的非線性濾波器,模擬了信息在V1區(qū)到PFC區(qū)的多層次處理步驟。實(shí)驗(yàn)表明該算法能夠符合已知生物模型,達(dá)到現(xiàn)有同類先進(jìn)算法的效果。
皮層;HMAX模型;目標(biāo)識(shí)別
隨著神經(jīng)系統(tǒng)學(xué)、生物物理學(xué)、解剖學(xué)、電生理學(xué)及心理學(xué)等學(xué)科的發(fā)展,基于生物視覺模式的計(jì)算機(jī)識(shí)別越來越廣泛地被人們所接受。1952年,Paul McLean提出人類大腦是由“爬蟲類腦”(腦干)、“哺乳動(dòng)物類腦”(邊緣系統(tǒng))和“人類大腦”(新皮質(zhì))組成的三位一體(triune brain),其中新皮層(Neopallium)負(fù)責(zé)高級(jí)認(rèn)知和記憶。1981年美國科學(xué)家Roger Sperry因?yàn)檠芯看竽X半球的功能、瑞典科學(xué)家Torsten Nils Wiesel和美國科學(xué)家David Hunter Hubel因?yàn)檠芯看竽X視神經(jīng)皮層(Visual Cortex)的功能結(jié)構(gòu)而共同獲得諾貝爾生理學(xué)或醫(yī)學(xué)獎(jiǎng)。文獻(xiàn)[1]論述了有關(guān)拓?fù)渲X理論生物學(xué)的證據(jù)。同步地,以生物實(shí)驗(yàn)為基礎(chǔ),計(jì)算機(jī)識(shí)別模型的建立也在不斷地更新。本文將一個(gè)完整的圖像表達(dá)分為編碼(Coding)和匯聚(Pooling)2個(gè)部分。
近年來,局域特征(例如SIFT和HOG)催化了識(shí)別的發(fā)展。由低級(jí)特征(low-level descriptors)融合的全局特征不同于表達(dá)圖像語義結(jié)構(gòu)的高級(jí)特征,所以稱之為中級(jí)特征(mid-level features)。流行的中級(jí)特征有bags of features、spatial pyramids和deep belief networks。建立高階的能捕捉角、結(jié)點(diǎn)的局域特征,并能廣泛用于自然圖像的表達(dá)是提高目標(biāo)識(shí)別的一種方法。
Pooling分為最大匯聚(max pooling)和平均匯聚(average pooling)2種方式。
多層最大匯聚的目標(biāo)表達(dá)中,其多層的運(yùn)用取決于它們所捕獲的相鄰像素[2]。然而,這種模型的參數(shù)間的線性關(guān)系限制了目標(biāo)的表達(dá)。
平均匯聚最顯著的例子是卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network),其多層非線性模型識(shí)別能力很強(qiáng),但是訓(xùn)練困難。這是由于:① 其仍受消失梯度的影響,會(huì)阻止深層次的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí);② 必須有監(jiān)督的學(xué)習(xí)、眾多的參數(shù),需要大量標(biāo)記過的數(shù)據(jù)。
本文在經(jīng)典稀疏編碼和HMAX模型的基礎(chǔ)上,依據(jù)生物學(xué)實(shí)驗(yàn)基礎(chǔ),利用卷積神經(jīng)網(wǎng)絡(luò)對模擬視覺通路的濾波器進(jìn)行了改進(jìn)。改進(jìn)后的算法使用稀疏模式與加權(quán)線性模式相迭代,從而產(chǎn)生非線性效果。
本文的模型具有的優(yōu)勢有:
(1)訓(xùn)練每層輸入的丟失函數(shù),而與層數(shù)無關(guān),從而降低算法復(fù)雜度。
(2)去除圖像高階統(tǒng)計(jì)特性,具有高度的非線性,從而提高分類精度。
(3)有神經(jīng)生物學(xué)理論支持。
本文分解模型分為4層,每層分為3個(gè)步驟:預(yù)處理將原始圖像轉(zhuǎn)化為灰度金字塔,便于稀疏非線性濾波器輸入;Coding提取原始的局域信息;Pooling得到完整的全局信息,作為分類器的輸入向量。
視網(wǎng)膜和晶狀體的功能和CCD感光板功能相似。約90%的視網(wǎng)膜神經(jīng)節(jié)細(xì)胞軸突將到達(dá)外側(cè)膝狀體交換神經(jīng)元[3]。為了模擬該部分功能,先將圖像轉(zhuǎn)化為灰度圖像,并中心化和預(yù)白化,再將圖像按照原先比例將短邊定為140像素。最后用Gabor濾波器創(chuàng)造一個(gè)16層(16個(gè)尺度7、9、11、13、15、17、19、21、23、25、27、29、31、33、35、37個(gè)像素,對應(yīng)于動(dòng)物的視角從0.19°到1.07°變化)的3D多尺度圖像金字塔。
選取Gabor濾波器的原因是其奇偶分量與哺乳動(dòng)物視覺皮層簡單細(xì)胞感受野模型有良好近似[4]。
函數(shù)公式為:其中,X=xcosθ+ysinθ;Y=-xcosθ+ysinθ??烧{(diào)參數(shù)為:方向參數(shù)θ,高斯包絡(luò)面參數(shù)σ,紋線波長參數(shù)λ。
θ取4個(gè)方向(0°、45°、90°和135°),與3D 圖像金字塔組成一個(gè)4D的圖像結(jié)構(gòu)體。結(jié)構(gòu)體內(nèi)每個(gè)圖像塊為不同方向的2DGabor濾波器對輸入圖像的所有位置進(jìn)行遍歷的濾波。其他參數(shù)設(shè)置詳見實(shí)驗(yàn)。
視覺皮層中V1、V2區(qū)簡單細(xì)胞(simple units)能夠辨認(rèn)出在視覺方向和空間頻率上的微妙變化。而復(fù)雜細(xì)胞(complex units)能對其感受眼內(nèi)的同朝向邊緣的位置和尺度不變性,得到具有平移和尺度不變性的圖像塊。V4區(qū)能夠調(diào)節(jié)物體中等復(fù)雜的特性(例如物體的簡單幾何形狀)[5]。同時(shí)考慮到自然圖像的統(tǒng)計(jì)特性,能量譜只能去除二階統(tǒng)計(jì)特性,然而對于高級(jí)統(tǒng)計(jì)特性,稀疏編碼是一種有效的獨(dú)立特征的提取方法。
本文的模型生成完整的圖像表達(dá),能被用于如SVM和BOOSTING的標(biāo)準(zhǔn)分類器的輸入。不同于其他圖像表示,該方法需要事先訓(xùn)練一個(gè)濾波器。本模型先用稀疏編碼形成多個(gè)變換的層,然后利用最大匯聚運(yùn)算。每個(gè)解卷積層直接減少了輸入圖像受稀疏編碼重構(gòu)的錯(cuò)誤。該模型為:
其中,Cl(y)為代價(jià)函數(shù);l為層;為重建圖像;y為原始圖像;zk,l為2D特征圖;λl為權(quán)重。與現(xiàn)存的算法相比,本文的卷積稀疏編碼嘗試直接減小重建的錯(cuò)誤,而不是輸出下層圖像。
對于給定的輸入圖像y濾波器f和層l,本文的目的是找到特征圖zk,l和最小化丟失函數(shù)Cl(y)。在每層中,為了解決大量卷積稀疏編碼的問題,本文采用文獻(xiàn)[6]的方法,用輔助變量w(z中的1個(gè)單元)來區(qū)分可能性(likelihood)和正則項(xiàng)(regularization term),從而可得:
其中,βl為附加參數(shù);Cl(y)為被最小化的代價(jià)函數(shù)。
(1)修復(fù)2Dzk,l生成一個(gè)可分離的wk,l的1D問題。W-subproblem 給定zk,l,最佳的wk,l為:
(2)用一個(gè)二次方程,通過wk,l解決zk,l(Z-subproblem)。從βl開始,交替解決2個(gè)subproblem,直到βl足夠聯(lián)系zk,l和wk,l,最終網(wǎng)絡(luò)收斂。
Z-subproblem:給 定wk,l,用 (5)式 最 小 化zk,l:
本文的模型未表現(xiàn)出明顯的非線性。但是下述步驟體現(xiàn)了本算法的非線性,由zl所生成的是線性的,對于確定的向量s1,…,sl-1等同于:
作為輸入在l層進(jìn)行濾波FT和匯聚Ps運(yùn)算。由(5)式求極值,得到zl的線性系統(tǒng)為:
相應(yīng)地,用zl通過Rl計(jì)算矩陣向量,然后通過獲得層l,最終將βl加到所有單元上。(7)式右邊除了有輸入圖像還有平均權(quán)重βlwl。重建R和傳播RT操作非???,只包含卷積、求和、s1作為閾值的匯聚或非匯聚運(yùn)算,所有這些運(yùn)算都包含丟失懲罰。所有上述運(yùn)算可以有效地用線性共軛梯度算法解決(7)式,即使是特征圖多達(dá)105。
在模型的每層中,重建圖像由2D特征圖zk,l和濾波器組成,即
其中,*為2D卷積操作。濾波器f中所有參數(shù)經(jīng)訓(xùn)練后確定。特征圖zk,l對于每幅輸入圖像是可變的。當(dāng)K>1時(shí),模型具有過完備性(overcomplete),但是正則化參數(shù)確定只有唯一一種解決方法。本文合并l層的卷積和最大匯聚運(yùn)算到一個(gè)矩陣Fl,將2D特征圖zk,l簡化到zl:
在每一個(gè)解卷積層,在特征圖zk,l上做一個(gè)最大匯聚(max pooling)運(yùn)算,此運(yùn)算不僅在同層之間進(jìn)行,而且在相鄰層之間運(yùn)算,起到稀疏作用。在第1層特征圖中的每個(gè)特征pj,1(x,y)是由在特征圖z1中的相鄰像素N(x,y,j)執(zhí)行最大運(yùn)算生成的。Pooling運(yùn)算也稱為池運(yùn)算。一個(gè)典型的3×3窗口(無疊加)二維的最大池運(yùn)算公式為:
開關(guān)變量s1用以表示池運(yùn)算的最大值。為了描述簡單,用矩陣表示池運(yùn)算。p1=1,Ps1為二值矩陣。其相應(yīng)的非最大池運(yùn)算=,將單元p1在s1位置上賦值為z1,其余賦值為0,=1。池運(yùn)算的目的是進(jìn)行模型運(yùn)算時(shí),特征圖內(nèi)每個(gè)單元能最大地表示原輸入圖像。
本算法與其他算法相比,層數(shù)均為4層,但是特征圖Kl卻大大增加了,每層都用濾波器重建輸入圖像,定義重建操作Rl為:把特征圖zl從l層中交替地卷積并且不做池運(yùn)算直接輸入下一層:
本文的模型從底層開始執(zhí)行,當(dāng)層上升時(shí),濾波器和開關(guān)變量選定,當(dāng)?shù)竭_(dá)推論時(shí),用(7)式完成Z-subproblem,用(4)式完成開關(guān)變量。對于輸入圖像Y={y1,…,yi,…,yN},學(xué)習(xí)的目的是用不同的圖像訓(xùn)練濾波器f,并且在給定層中計(jì)算。由(1)式求極值得到fl的線性系統(tǒng)為:
整個(gè)算法如圖1所示,實(shí)際中,本文發(fā)現(xiàn)2次CG重復(fù),zl和fl就能有效地收斂。
圖1 算法結(jié)構(gòu)及其結(jié)果
Caltech 101由Feifei Li,Marco Andreeto及Marcelio Ranzato于2003年9月整理。其中有效物體共101類,再加上背景,共102類。其中有40~800張彩色圖片,大部分類中有50張圖片,每張圖片的大小為300×200。本文從中選取3 060幅圖像(每種30幅)作為訓(xùn)練樣本。
(1)輸入圖像轉(zhuǎn)化為灰度。
(2)利用Gabor濾波器對3D金字塔濾波。Gabor參數(shù)設(shè)置為:x,y∈(-5,5),γ=0.3,σ=4.5,λ=5.6。即濾波器歸一化,均值為0,模為1。
(3)對所得到的圖像塊(Patch)進(jìn)行處理(白化和中心化),f中稀疏字典庫大小為512。參數(shù)設(shè)置為:e≤0.01,λSC=0.2,σSC=0.14。
(4)利用f比較相同方向、不同尺度的Patch,得到局域不變特征。
(5)對得到的特征圖z1,1進(jìn)行類感受野抑制操作。參數(shù)設(shè)置為:s1,1=0.5。
(6)得到匯聚圖p1,1,并反復(fù)迭代4次,最終得到全局特征。從待分類圖中建立特征,最終測試分類結(jié)果。
實(shí)驗(yàn)中,比較pooling部分,采用本文算法、Average pooling (convolutional nets)[7]、Max pooling;比較分類器,采用線性 SVM[8]、Spatial Pyramid Match(SPM)[6]。分類結(jié)果及耗時(shí)見表1所列。
表1 分類結(jié)果及耗時(shí)
數(shù)據(jù)庫中其余圖片作為測試樣本。算法分類正確率69.58%。如果在第4層再用一次 Max Pooling,本文能再提升6%,超過了很多其他層次結(jié)構(gòu)與SPM分類組合算法;若使用SVM的RBF核,可達(dá)到79.11%。
算法訓(xùn)練耗時(shí)約48h。對于單幅圖像分類時(shí)間平均為16.6s,其中耗時(shí)最長是最后提取全局不變特征,約為10.3s。上述時(shí)間是由Matlab在單個(gè)4核CPU完成的。
用4D結(jié)構(gòu)的Gabor濾波器模擬了視網(wǎng)膜對輸入視覺信息的模擬,從而完成了計(jì)算機(jī)視覺中的Coding部分。設(shè)計(jì)一種高階濾波器模型,模擬了視覺信息在大腦皮層中的處理過程,從而完成了計(jì)算機(jī)視覺中的Pooling部分。實(shí)驗(yàn)表明,本文算法能夠有效地減小復(fù)雜度和提高精度。在模型中加入了感受野模型,并簡化了最后的全局特征,從而使整個(gè)耗時(shí)接近人類真實(shí)處理視覺信息的時(shí)間,但仍遠(yuǎn)大于人類識(shí)別單幅圖像的時(shí)間,其原因可能在于訓(xùn)練時(shí)間不能與人類真實(shí)訓(xùn)練時(shí)間相比。但隨著硬件的提高以及大腦皮層更深的理解,可以更真實(shí)地模擬人類處理視覺的過程。
[1]Zhuo Y,Zhou T G,Rao H Y,et al.Contributions of the visual ventral pathway to long-range apparent motion[J].Science,2003,299:417-420.
[2]Felzenszwalb P,Mcallester D,Ramanan D.A discriminatively trained,multiscale,deformable part model[C]//CVPR,2008,11:122-125.
[3]Hubel D H.Single unit activity in lateral geniculate body and optic tract of unrestrained cats[J].Hysiol,1960,150:91-104.
[4]Hayashi I,Maeda HOillianmson J R.A formulation of receptive field type input layer for TAM network using Gabor function[C]//Budapest,Hungary,2004,29:25-29.
[5]Serre T,Wolf T.Robust object recognition with cortex like mechanisms[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29:411-426.
[6]Lazebnik S,Schmid C,Ponce J.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]//CVPR,2006,11:211—223.
[7]LeCun Y,Bottou L,Bengio Y.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[8]華德梅,葉 震.一個(gè)基于改進(jìn)遺傳算法的RBF網(wǎng)絡(luò)入侵檢測模型[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2010,33(3):368-371,375.
Object recognition algorithm based on biological visual pathway
SONG Hao1,2, XU Xiao-h(huán)ong1
(1.School of Computer and Information,Hefei University of Technology,Hefei 230009,China;2.No.38Research Institute,China Electronics Technology Group Corporation,Hefei 230088,China)
The research on the anatomical and functional connectivity of visual pathway affords a broad way of machine learning.An algorithm to simulate the whole visual pathway is presented based on the improved classic SC and HMAX models.This process can be broken down into two steps:the first is a coding step,which utilizes 4DGabor pyramid to simulate visual information processing from the retina to the ventral pathway V1 area,and the second is a pooling step,which utilizes a sparse nonlinear filter to simulate multi-level visual information processing from V1area to PFC area.The experimental results show that this approach tallies with the living model and achieves the result of the state-of-the-art model.
cortex;HMAX model;object recognition
TP389.1
A
1003-5060(2012)04-0481-04
10.3969/j.issn.1003-5060.2012.04.011
2011-04-17;
2011-05-04
宋 皓(1982-),男,安徽合肥人,合肥工業(yè)大學(xué)碩士生;
徐小紅(1976-),男,安徽合肥人,博士,合肥工業(yè)大學(xué)講師,碩士生導(dǎo)師.
(責(zé)任編輯 閆杏麗)
合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版)2012年4期