許躍穎 郎 波 黃 靜
(北京師范大學(xué)珠海分校信息技術(shù)學(xué)院 珠海 519087)
利用非經(jīng)典感受野競爭機(jī)制實(shí)現(xiàn)有效圖像表征的方法?
許躍穎 郎 波 黃 靜
(北京師范大學(xué)珠海分校信息技術(shù)學(xué)院 珠海 519087)
論文是在人類視覺的基礎(chǔ)上,利用神經(jīng)節(jié)細(xì)胞非經(jīng)典感受野的神經(jīng)機(jī)制原型對圖像實(shí)現(xiàn)通用表征。該模型利用生物視覺處理中的反饋機(jī)制設(shè)計(jì)了一種神經(jīng)計(jì)算回路,模擬了非經(jīng)典感受野在不同的刺激狀態(tài)下能夠動(dòng)態(tài)調(diào)節(jié)的生理特性來對圖像進(jìn)行基于鄰域相似度的圖像局部分割與壓縮表征,從而在神經(jīng)表征層面實(shí)現(xiàn)了圖像的內(nèi)在表征,以便于進(jìn)一步提取圖像的語義,實(shí)現(xiàn)圖像的理解。為更加有效、充分地表征圖像提供了一種新的研究思路。
非經(jīng)典感受野;神經(jīng)節(jié)細(xì)胞;圖像表征
提取圖像的語義、實(shí)現(xiàn)圖像理解是一項(xiàng)對人工智能而言非常具有挑戰(zhàn)性的任務(wù)。就目前所知,高等哺乳動(dòng)物的視覺系統(tǒng)也是經(jīng)過了長期的生物進(jìn)化過程才得到了這種能力。在視覺信息加工的多個(gè)環(huán)節(jié)中,對刺激進(jìn)行客觀、全面的表征是一個(gè)關(guān)鍵的環(huán)節(jié)。圖像處理和計(jì)算機(jī)視覺有著很多不同層次的任務(wù),對于簡單任務(wù)(如邊緣銳化)和復(fù)雜的任務(wù)(如場景理解)來說,它們的本質(zhì)區(qū)別在于語義的復(fù)雜程度和介入程度,前者比較低,而后者比較高。場景理解等高層次視覺任務(wù)的最終目標(biāo)是形成圖像的整體性語義和掌握內(nèi)容的總體框架,而這是圖像像素及其陣列本身不可能提供的,只能由主動(dòng)加工過程來實(shí)現(xiàn)。這種加工過程把物理層面上的數(shù)百萬個(gè)像素點(diǎn)變成了意義層面的數(shù)十個(gè)對象,這種抽取過程的中心操作便是聚合。大腦通過建立關(guān)于外部世界刺激的內(nèi)在表征,形成一個(gè)待加工的近似物,使得圖像的不同局部能夠被能動(dòng)地操縱(選擇、分解、組合),以便與記憶進(jìn)行對比從而得到對近似物的合理解釋。
目前對視覺的神經(jīng)機(jī)制已經(jīng)做了很深入的研究,對于非經(jīng)典感受野在視覺處理中所具備的作用也做了詳細(xì)的闡述,證據(jù)表明[10],在視皮層V2區(qū)細(xì)胞感受野的非經(jīng)典感受野區(qū)域有非局部性的長程連接,可以接受來自更高層次的神經(jīng)元的反饋輸入,從而形成視覺處理中的反饋通路。這為設(shè)計(jì)非經(jīng)典感受野計(jì)算模型提供了解剖學(xué)的證據(jù)。神經(jīng)生物學(xué)研究表明,根據(jù)不同亮度、不同刺激、不同背景圖像、不同的運(yùn)動(dòng)速度,感受野的大小會(huì)進(jìn)行動(dòng)態(tài)的調(diào)整變化?;谶@個(gè)特點(diǎn),可以設(shè)計(jì)這樣一種基于非經(jīng)典感受野的圖像表征算法。它能夠根據(jù)刺激的性質(zhì)進(jìn)行調(diào)節(jié)。
非經(jīng)典感受野動(dòng)態(tài)調(diào)整的算法如圖1所示。
圖1 非經(jīng)典感受野示意圖
在圖1中,除CRF之外,外面的圓環(huán)代表非經(jīng)典感受野,分別設(shè)為 n1,n2,n3… ,由于非經(jīng)典感受野并不是無限擴(kuò)張的,它的大小約為經(jīng)典感受野的3~6倍。在算法中設(shè)定了非經(jīng)典感受野的最大擴(kuò)張范圍。每個(gè)圓環(huán)又是由若干個(gè)亞區(qū)組成,每個(gè)亞區(qū)覆蓋一部分像素點(diǎn)。首先計(jì)算亞區(qū)內(nèi)像素點(diǎn)的波長的平均值,然后利用式(1)計(jì)算出圓環(huán)內(nèi)所有亞區(qū)的方差。
其中n表示單個(gè)圓環(huán)中亞區(qū)的個(gè)數(shù);ki表示第i個(gè)亞區(qū)的波長值;K表示所有亞區(qū)波長的平均值。
首先確定經(jīng)典感受野的尺寸,外面的環(huán)帶表示非經(jīng)典感受野的擴(kuò)張。每一個(gè)環(huán)帶被分為若干個(gè)亞區(qū),計(jì)算每一個(gè)亞區(qū)所覆蓋的波長的平均值后并求方差。如果波長方差的平均值小于給定的閾值,表示該區(qū)域顏色變化平緩,感受野會(huì)擴(kuò)張。如果波長方差大于給定的閾值,表示該區(qū)域顏色變化劇烈,感受野將停止擴(kuò)張。圓環(huán)的擴(kuò)大和縮小表明了它所覆蓋的區(qū)域是否是相似的。通過非經(jīng)典感受野的這種動(dòng)態(tài)變化關(guān)系可以將圖像分割成若干個(gè)區(qū)域,這樣在表征圖像的時(shí)候就從數(shù)以萬計(jì)的像素點(diǎn)過渡到若干個(gè)“塊”的表示。
神經(jīng)節(jié)細(xì)胞的輸出可以表示為
其中
式(2)中GC表示神經(jīng)節(jié)細(xì)胞的響應(yīng),I(x,y)表示輸入的圖像。(x ,y)表示光感受器細(xì)胞的位置,(x0,y0)表示感受野的中心坐標(biāo),Wcenter,Wsurround,Wextend表示的是權(quán)值函數(shù),A1,A2,A3表示的是感受野的最大范圍,σ1,σ2,σ3表示的是權(quán)值函數(shù)的標(biāo)準(zhǔn)差值,在本實(shí)驗(yàn)中,設(shè)定 σ3=4σ2,σ2=5σ1,A1=1,A2=0.18,A3=0.05。
去除冗余感受野,最大程度的保留能夠表征圖像的“有效感受野”。在實(shí)現(xiàn)感受野競爭的時(shí)候,要遵循以下基本原則:1)輸出內(nèi)容不同的GC不形成競爭;2)覆蓋范圍相差比較大的感受野不形成競爭;3)輸出高度相似、空間位置鄰近、感受野又存在大面積交疊的GC存在競爭。
圖2 用于形成表征的感受野競爭網(wǎng)絡(luò)示意圖
如何實(shí)現(xiàn)感受野競爭機(jī)制呢?在圖2中,四個(gè)神經(jīng)節(jié)細(xì)胞分別在圖像上投射了四個(gè)感受野A,B,C和D,分別是獨(dú)立、重疊和交叉的位置關(guān)系。從圖4中可以看到,由于C包含在B中,C感受野所能表征的范圍同樣包含在B感受野的表征范圍內(nèi),所以C就被抵消了,最后的輸出應(yīng)該是A,B,D。在模型里設(shè)計(jì)了兩個(gè)控制層:分別是反饋控制層(FCL)和輸出控制層(OCL)。FCL發(fā)送信號給OCL,OCL打開相應(yīng)的輸出開關(guān),則感受野所表征的范圍也被輸出。反之,F(xiàn)CL將發(fā)送相反的信號給OCL,OCL會(huì)關(guān)閉輸出,則感受野表征的范圍也不會(huì)被輸出,相當(dāng)于感受野被屏蔽了。感受野的競爭機(jī)制使得用戶可以花費(fèi)最小的代價(jià)去表征圖像。
從圖3的實(shí)驗(yàn)結(jié)果可以看到,在顏色相近的區(qū)域,感受野連續(xù)的擴(kuò)張,在邊界或者是顏色對比度比較大的區(qū)域,感受野急劇縮小。通過非經(jīng)典感受野的這種動(dòng)態(tài)調(diào)節(jié),原來由成千上萬的像素點(diǎn)組成的圖像就被感受野理解為若干個(gè)“塊”。在競爭之前有很多感受野,相當(dāng)于每一個(gè)神經(jīng)節(jié)細(xì)胞都有自己的感受野投射到圖像上,每一個(gè)感受野覆蓋的區(qū)域稱之為“塊”。但其中有許多是重疊的,也就是說它們表征的范圍和內(nèi)容是相同的。引入競爭機(jī)制以后,一些重疊的感受野就被消除了,只保留了最能表征圖像特征的感受野。
圖3 引入競爭機(jī)制后的非經(jīng)典感受野在自然圖像中的變化情況
圖3 (a)是沒有引入競爭機(jī)制前感受野在圖像上的分布情況。圖3(b)是引入競爭機(jī)制以后感受野的變化情況,其中圖中的圓點(diǎn)表示被消除掉的感受野的圓心坐標(biāo)點(diǎn)。圓圈經(jīng)表示經(jīng)過競爭以后保留下來的感受野。圖3(c)競爭完成以后最終保留下來的感受野分布情況。
3.2.1 圖像“連續(xù)塊”與感受野變化的關(guān)系
統(tǒng)計(jì)圖像中“連續(xù)塊”的數(shù)量、尺寸和分布,所謂的“連續(xù)塊”,是指圖像中某一區(qū)域的像素值是相等或相近的。顏色塊數(shù)量與感受野的數(shù)量成正比關(guān)系。當(dāng)顏色連通塊的數(shù)量比較多時(shí),表示圖像中的色彩變化劇烈,則該圖像的復(fù)雜程度較高,表征所需要的感受野個(gè)數(shù)也比較多;當(dāng)顏色連通塊的數(shù)量比較少時(shí),表示圖像中的色彩變化平緩,則該圖像的復(fù)雜程度較低,表征所需要的感受野的個(gè)數(shù)也比較少。結(jié)果如圖4所示。
圖4 引入競爭之后感受野個(gè)數(shù)的變化與自然圖像顏色塊的關(guān)系
3.2.2 圖像頻率與感受野變化的關(guān)系
圖像頻率是用來表征圖像灰度變化的重要指標(biāo)。對所測試圖像進(jìn)行傅里葉變換,分析圖像中高頻信息和低頻信息與表征該圖像所需感受野個(gè)數(shù)之間的關(guān)系。圖像中包含的高頻分量越多,表明圖像復(fù)雜度越高,表征圖像所需的感受野個(gè)數(shù)也較多。如圖5所示。
圖5 圖像頻率與感受野個(gè)數(shù)變化之間的關(guān)系
眾所周知,一幅數(shù)字圖像就是由若干個(gè)像素點(diǎn)組成的陣列,但是分散的、單獨(dú)的像素點(diǎn)只是單純的物理元素,它不能表示深層的語義信息。我們需要把像素組織成為一些有意義的集合或者區(qū)域。被組合的像素點(diǎn)比起單獨(dú)的像素點(diǎn)具有更深層次的意義,可以幫助我們進(jìn)一步提取圖像的語義。這就需要設(shè)計(jì)一種行之有效的表征方式。這種表征方法能夠完整地提取圖像中最具有本質(zhì)的特征信息,并且這些特征能夠在更高的層次上被操作,它應(yīng)該具有更好的表現(xiàn)形式和更高的執(zhí)行效率,能夠完整而快速的表征不同的圖像,并且表征的結(jié)果能夠進(jìn)行后續(xù)處理。幸運(yùn)的是,人類的視覺系統(tǒng)經(jīng)過億萬年的演化,已經(jīng)具備了強(qiáng)大的表征功能,由此,我們利用神經(jīng)節(jié)細(xì)胞及其非經(jīng)典感受野模型的特點(diǎn),來設(shè)計(jì)這樣一種滿足上述特點(diǎn)的圖像表征算法,為數(shù)字圖像處理技術(shù)提供一種新的解決途徑。
[1]Willson H R,Humanski R.Spatial frequency adaptation and gain control[J].Vision Res 33,1993,234(6):1133-1149.
[2]Gilbert CD,Wiesel TN.The influence of contextual stim?uli on the orientation selectivity of cells in primary visual cortex of the cat[J].Vision Research,1990,30(1):1689-1701.
[3]Sillito AM,Grieve KL,Jones H E,Cudeiro J,Davis J.Vi?sual cortical mechanisms detecting local focal orientation discontinuities[J].Nature,1995,378(6):492-496.
[4]Wilson HR,Richards WA.Curvature and separation dis?crimination attextureboundaries[J].Neuroscience,1992,9(1):1653-1662.
[5]Knierim J,Van Essen DC.Neural responses to static tex?ture patterns in area V1 of the alert macaque monkey[J].Journal of Neurophysiology,1992,67(3):961-980.
[6]Li Wu,Li,C.Y.Integration Field Beyond The Classical Visual Receptive Field[J].Chinese Journal of Neurosci?ence,1994,634(6):123-136.
[7]Jones JP,Stepnoski A,Palmer LA.The two-dimensional spectral structure of simple receptive fields in cat striate cortex[J].Journal of Neurophysiology,1987,58(4):1212-32.
[8]李冠彬,吳賀豐.基于顏色紋理直方圖的帶權(quán)分塊均值漂移目標(biāo)跟蹤算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2011,23(12):2059-2066.LI Guanbin,WU Hefeng.Weighted fragments-based meanshift tracking using color-texture histogram[J].Jour?nal of Computer-Aided Design&Computer Graphics,2011,23(12):2059-2066.
[9]Yang,X.L.,Gao,F(xiàn).,Wu,Samuel M.,Modulation of horizontal cell function by GABA(A)and GABA(C)re?ceptors in dark-and light-adapted tiger salamander retina[J].Vision Neuroscience,16(3):967-979.
[10]邱芳土,李朝義.視網(wǎng)膜神經(jīng)節(jié)細(xì)胞空間傳輸特性的模擬[J].生物生理學(xué)報(bào),1995,11(2):214-220.QIU Fangtu,LI Chaoyi.Mathematical simulation of disin?hibitory properties of concentric receptive field[J].Acta Biophysica Sinica,1995,11(2):214-220.
[11]姜求平,邵楓,蔣剛毅,等.基于視覺重要區(qū)域的立體圖像視覺舒適度客觀評價(jià)方法[J].電子與信息學(xué)報(bào),2014,36(4):875-881.JIAN Qiuping,SHAO Feng,JIAN Gangyi,et al.An ob?jective stereoscopic image visual comfort assessment met?ric based on visual important regions[J].Journal of Elec?tronics& Information Technology,2014,36(4):875-881.
A Model of Image Representation Based on Non-Classical Receptive Fields
XU YueyingLANG BoHUANG Jing
(School of Information Technology,Beijing Normal University,Zhuhai 519087)
In this paper,the physiological mechanism of non-classical receptive field is utilized and a hierarchical network model for image representation is designed based on neurobiology.It is different from the contour detection,edge detection,and oth?er practices using the classical receptive fields,it simulates the non-classical receptive field's physiological mechanism which can be dynamically adjusted according to stimulation for image local segmentation and compression based on image neighborhood region similarity,thus to realize the inner image representation in neural representation level and convenient for extract the semantic fur?ther.
non-classical receptive field,ganglion cell,image representation
Class Number TP391
TP391
10.3969/j.issn.1672-9722.2017.12.034
2017年6月7日,
2017年7月30日
國家自然科學(xué)基金項(xiàng)目(編號:61272364)資助。
許躍穎,男,碩士,助教,研究方向:數(shù)字圖像處理。郎波,男,博士,教授,研究方向:模式識別與人工智能。黃靜,女,博士,教授,研究方向:計(jì)算機(jī)圖形圖像。