武 薇 韓顯修 范影樂
(杭州電子科技大學(xué)模式識(shí)別與圖像處理實(shí)驗(yàn)室 杭州 310018)
以輪廓為勾勒的物體邊界是視覺感知的重要線索,為場(chǎng)景理解和物體識(shí)別等高級(jí)視覺行為提供關(guān)鍵的信息。以Sobel算子[1]為代表的傳統(tǒng)輪廓檢測(cè)算法大多基于梯度模板為基礎(chǔ)的數(shù)字模型,通過計(jì)算局部亮度的突變來直接提取邊緣。但在復(fù)雜的自然場(chǎng)景中,紋理邊緣和輪廓的像素亮度突變?cè)跀?shù)學(xué)特性上相似,傳統(tǒng)的方法缺乏生物視覺的感知機(jī)制,通常難以有效識(shí)別出輪廓。
當(dāng)前,隨著對(duì)視覺機(jī)制不斷深入研究,以生物視覺機(jī)制為基礎(chǔ)的輪廓感知研究受到了廣泛關(guān)注。例如有研究感受野(Receptive Field, RF)的作用,利用經(jīng)典感受野(Classical Receptive Field, CRF)邊緣位置的方向選擇,非經(jīng)典感受野(Non-Classical Receptive Field, NCRF)側(cè)抑制機(jī)制實(shí)現(xiàn)了圖像紋理抑制[2];還有利用融合調(diào)制方向、亮度、對(duì)比度3種視覺特征,實(shí)現(xiàn)非經(jīng)典感受野的多特征環(huán)繞抑制,進(jìn)一步提高了輪廓感知算法的紋理抑制能力[3]。上述方法僅關(guān)注于感受野的視覺特性,對(duì)細(xì)輪廓與紋理噪聲的辨別能力不足。因此有些研究者進(jìn)一步關(guān)注于視通路的層級(jí)傳遞機(jī)制,有依據(jù)V1皮層的紋理抑制模型,分別構(gòu)建推拉抑制模型和環(huán)繞抑制模型,并將兩者抑制模型相互調(diào)制,該方法紋理抑制效果更佳[4]。此外,還有側(cè)重于研究初級(jí)視皮層到高級(jí)視皮層的信息流層級(jí)處理機(jī)制,在V1皮層中利用簡(jiǎn)單細(xì)胞和復(fù)雜細(xì)胞建立稀疏編碼模型,在V2, V4皮層中利用末端停止細(xì)胞提取輪廓的顯著性,提高輪廓檢測(cè)準(zhǔn)確性[5]。上述輪廓提取方法對(duì)視覺刺激進(jìn)行層級(jí)遞進(jìn)處理,檢測(cè)效果進(jìn)一步提升。但必須要指出的是,上述方法僅考慮了位于皮層上側(cè)的經(jīng)典視覺通路(后文統(tǒng)稱為上通路)的編碼方式,忽略了生理中還存在皮層下側(cè)的視覺通路(Subcortical Visual Pathway, Sub VP)[6],以及兩條視通路之間的信息流分流處理和交互感知作用。從而上述方法在整體輪廓和顯著特征的提取上存在交叉冗余,視覺刺激編碼的執(zhí)行效率較低。
神經(jīng)生理實(shí)驗(yàn)結(jié)果表明,在視覺系統(tǒng)中存在一條起自視網(wǎng)膜流經(jīng)上丘(Superior Colliculus, SC),再經(jīng)丘腦枕結(jié)節(jié)(Pulvinar, Pulv)至杏仁核(Amygdala, Amg)的皮層下視通路(后文統(tǒng)稱為下通路)[7]。上通路主要負(fù)責(zé)對(duì)外界視覺刺激的細(xì)節(jié)特征精細(xì)加工[8],下通路則傾向于快速提取粗略特征[9],且雙視通路之間存在信息交互和協(xié)同編碼,將有效提升視覺感知的效率,有利于圖像輪廓從主體細(xì)節(jié)到顯著特征的有效表達(dá)。所以在圖像感知研究中考慮兩條視通路的分流處理方式,以及探討兩條視通路的信息交互感知作用,將有助于對(duì)視覺系統(tǒng)內(nèi)在機(jī)制的理解。因此本文提出一種基于雙視通路交互感知的輪廓檢測(cè)新方法。
位于皮層上的經(jīng)典視覺通路和位于皮層下的第2視通路都是視覺系統(tǒng)的重要組成部分。在輪廓感知中,上通路與下通路分別著重于不同視覺特征的提取,而更高級(jí)的視覺感知,如抑制紋理背景、提取顯著性輪廓信息則需要雙視通路的協(xié)同參與。因此本文模擬兩條視通路分流處理和交互感知作用獲取輪廓響應(yīng)的機(jī)理,嘗試構(gòu)建雙視通路計(jì)算模型。首先,將視覺信號(hào)進(jìn)行分流處理,在上通路中提取顯著性特征,在下通路中得到初級(jí)輪廓響應(yīng);接著利用交互感知作用,分別在上通路構(gòu)建引導(dǎo)性編碼模型,提取顯著性輪廓;在下通路構(gòu)建特征調(diào)制的側(cè)抑制模型,得到抑制性輪廓;最后融合兩條視通路的結(jié)果,得到最終輪廓響應(yīng),整體檢測(cè)算法框架如圖1所示。
圖1 輪廓檢測(cè)算法框架
視網(wǎng)膜(retina)上分布著大量感光細(xì)胞,在受到光信號(hào)刺激后,進(jìn)行光電信號(hào)轉(zhuǎn)換工作[10]。本文使用正弦加權(quán)的局部窗口計(jì)算亮度信息,模擬視網(wǎng)膜對(duì)視覺刺激的初步處理,得到亮度特征L(x,y),如式(1)所示
其中,假定輸入圖像為I(x,y),其寬和高分別為m 和n, (x,y) 表示 圖 像 的2 維 坐 標(biāo);Sx,y表 示I(x,y)中 ,以(x,y) 為 中心原點(diǎn),窗長(zhǎng)為d的方形局部窗口,設(shè)置為7;r=(d-1)/2 為Sx,y的半窗長(zhǎng);(xi,yi)表示局部窗口中自左而右、自上而下排列的第i個(gè)像素坐標(biāo),i∈[1,d2];ω(xi,yi)為余弦加權(quán)函數(shù)。
信號(hào)在視網(wǎng)膜加工處理后經(jīng)過視交叉,部分信號(hào)經(jīng)上丘臂傳入SC。研究證實(shí),位于下通路的SC具有同心圓拮抗式感受野功能,由于其具有感受野較大[11]、神經(jīng)元反應(yīng)潛伏期短[12]等特點(diǎn),在信息處理上表現(xiàn)出粗略且快速的特性。本文引入2維高斯導(dǎo)函數(shù)來模擬SC中經(jīng)典感受野的邊界響應(yīng)特性,如式(2)所示
最后,對(duì)響應(yīng)結(jié)果E(x,y)進(jìn)行歸一化,得到初級(jí)輪廓響應(yīng)。
上通路接受來自視網(wǎng)膜的大部分信息,其對(duì)特征信息的加工處理相對(duì)于下通路更為復(fù)雜精細(xì)。上通路中,V1皮層的簡(jiǎn)單細(xì)胞存在對(duì)比度自適應(yīng)的主動(dòng)調(diào)節(jié),且感受野對(duì)視覺刺激具有特定方向的敏感特性[13]。因此本文模擬上通路的對(duì)比度自適應(yīng)機(jī)制和方向敏感特性,提出一種顯著性視覺特征提取方法。
首先,根據(jù)視網(wǎng)膜傳遞的亮度特征,構(gòu)建亮度對(duì)比度計(jì)算模型,如式(6)所示
上通路在視覺信息的加工處理中不單取決于自身通路的特性,還會(huì)與下通路進(jìn)行信息交互。有研究發(fā)現(xiàn),部分V1皮層神經(jīng)元與SC淺層之間存在信息交互,其中SC淺層投射的信息流對(duì)V1皮層的神經(jīng)元放電情況有一定導(dǎo)向作用[14]。考慮到當(dāng)前神經(jīng)元編碼研究中,大部分方法僅考慮前級(jí)神經(jīng)結(jié)構(gòu)輸入的信息流,無法體現(xiàn)多神經(jīng)環(huán)節(jié)的信息交互性和視覺刺激深層次的感知機(jī)理。基于雙視通路的交互性,本文提出一種體現(xiàn)信息流交互引導(dǎo)的脈沖編碼方法,有效發(fā)揮下通路信息流對(duì)上通路神經(jīng)編碼的導(dǎo)向作用,提高神經(jīng)元的編碼效率,編碼模型如圖2所示。
圖2 信息流交互引導(dǎo)的神經(jīng)編碼示意圖
首先,選擇具備電生理特性的漏積分放電(Leaky Integrate-and-Fire, LIF)模型[15],構(gòu)建改進(jìn)的漏放電積分模型作為脈沖編碼的神經(jīng)元模型,神經(jīng)元模型的具體形式如式(9)所示
其次,初級(jí)輪廓響應(yīng)中還包含一定的紋理冗余。從信息稀疏性角度考慮,輪廓區(qū)域往往線條稀少且朝向單一,故其稀疏度較高;而紋理區(qū)域一般線條較多且朝向雜亂,稀疏度偏低。為了使輪廓區(qū)域的神經(jīng)元快速達(dá)到脈沖發(fā)放閾值,對(duì)強(qiáng)稀疏性區(qū)域降低其漏電導(dǎo),反之則提高漏電導(dǎo),從而有效提高編碼的準(zhǔn)確性。
因此本文利用稀疏編碼方法,以局部窗口的窗長(zhǎng)作為移動(dòng)步長(zhǎng),輸出窗口內(nèi)響應(yīng)的均值,得到稀疏性圖像s(x,y);再參考稀疏度量方法[16],得到稀疏度s′(x,y),如式(11)所示
其中, mean 為均值運(yùn)算函數(shù);Ux,y表示s (x,y)中,以(x,y) 為 中心原點(diǎn),窗長(zhǎng)為s tep的方形局部窗口,step 設(shè)置為5;w和h分別表示局部窗口Ux,y內(nèi)像素的橫坐標(biāo)和縱坐標(biāo)。
然后,將稀疏度s′(x,y)放大到原圖像的尺寸,修正漏放電積分模型的漏電導(dǎo)g1,如式(12)所示
其中, r esize 表示雙線性插值放大運(yùn)算,g1為神經(jīng)元模型的原始漏電導(dǎo),g1設(shè)置為0.02。
最后,將顯著性特征P(x,y)輸入對(duì)應(yīng)的神經(jīng)元模型,統(tǒng)計(jì)單位時(shí)間內(nèi)神經(jīng)元脈沖發(fā)放個(gè)數(shù)作為脈沖編碼的輸出并歸一化,得到顯著性輪廓R1(x,y)。
最后,若局部均方差m se(x,y)大于整體均方差MSE,則認(rèn)為該處可能為紋理冗余,選擇兩者的最小值;反之,則認(rèn)為該處可能是輪廓或背景,選擇兩者的最大值。計(jì)算得到最終輪廓響應(yīng)R(x,y),如式(17)
為驗(yàn)證本文方法的檢測(cè)效果,使用RuG40圖像庫測(cè)試。實(shí)驗(yàn)分析中,利用Grigorescu等人[2]提出的輪廓檢測(cè)評(píng)價(jià)指標(biāo),定義ED和EGT分別為實(shí)驗(yàn)方法得到的輪廓像素集和基準(zhǔn)輪廓像素集,算法檢測(cè)正確的像素集為E=ED∩(EGT⊕T)(⊕為膨脹操作,T為5 ×5的 結(jié)構(gòu)元);誤檢的像素集為EFP=ED-E;漏檢的像素集為EFN=EGT-(EGT∩(ED⊕T))。當(dāng)輪廓像素出現(xiàn)在基準(zhǔn)輪廓像素的T鄰域內(nèi),則認(rèn)定該像素檢測(cè)正確。算法性能評(píng)價(jià)指標(biāo)誤檢率eFP、漏檢率eFN和整體性能指標(biāo)P計(jì)算方法,如式(18)所示
定性實(shí)驗(yàn)中,選用4種輪廓檢測(cè)方法和本文方法進(jìn)行對(duì)比。基于非經(jīng)典感受野抑制的輪廓檢測(cè)方法(Contour Detection Based On Nonclassical Receptive Field Inhibition, ISO)[2]采用各向同性和各向異性方式構(gòu)建了紋理抑制模型; 多特征環(huán)繞抑制的輪廓檢測(cè)方法(Multifeature-Based Surround Inhibition Improves Contour Detection, MCI)[3]結(jié)合多特征的方式進(jìn)行紋理抑制;基于主視通路結(jié)構(gòu)分級(jí)響應(yīng)模型的輪廓檢測(cè)方法(A Contour Detection Method Based On Hierarchical Structure Response Model In Primary Visual Pathway, HDC)[19]則側(cè)重于主視通路的層級(jí)效應(yīng)以及單一節(jié)點(diǎn)的多級(jí)處理能力提取輪廓響應(yīng);最后以本文方法為基礎(chǔ),設(shè)置去除信息流交互引導(dǎo)編碼的模型,基于單視通路感知的輪廓檢測(cè)方法(Contour Detection Method Based On Single Visual Pathways, SNC),與其進(jìn)行比較。通過與前面3種方法比較來體現(xiàn)本文方法的效果性能,通過與SNC的對(duì)比來說明引入雙視通路交互感知機(jī)制后對(duì)模型的性能提升效果。
為得到測(cè)評(píng)所需的二值化輪廓圖,對(duì)各方法的輪廓檢測(cè)結(jié)果進(jìn)行非極大值抑制處理和滯后閾值處理。滯后閾值處理中的上限閾值t設(shè)置為[ 0.1:0.1:1.0],參數(shù)α設(shè)置為α= [0.1:0.1:1.0]?;谏鲜鰠?shù)的選取方法,本文方法基于每幅圖像選取最優(yōu)參數(shù)的情況下,取得最好的結(jié)果,結(jié)果展示如圖3所示。從圖3可知,3種方法無法良好的協(xié)調(diào)突出主體輪廓與紋理抑制的平衡關(guān)系,導(dǎo)致部分重要輪廓丟失或者殘留大量紋理;SNC方法由于刪除下通路對(duì)上通路的信息投射部分,缺乏雙視通路的關(guān)聯(lián)性,在紋理抑制和輪廓增強(qiáng)之間無法有效結(jié)合,造成輪廓表征能力不足;本文方法結(jié)合雙視通路分別提取顯著性輪廓特征和快速輪廓感知,能更加合理地權(quán)衡突顯主體輪廓和抑制紋理背景之間的作用關(guān)系,最終的輪廓圖像更接近于基準(zhǔn)輪廓圖。
圖3 RuG40圖像庫的輪廓檢測(cè)結(jié)果
以上3張圖像的定量性能評(píng)價(jià)結(jié)果如表1所示。據(jù)表1可數(shù)值化分析不同方法在RUG40圖像庫中的最佳結(jié)果,定量計(jì)算結(jié)果與上述定性分析結(jié)果相似,體現(xiàn)出本文方法在綜合性能上表現(xiàn)更加優(yōu)異,證明了雙視通路模型的有效性。
表1 圖3中不同算法的參數(shù)設(shè)置與性能評(píng)價(jià)指標(biāo)
在對(duì)比實(shí)驗(yàn)中,為驗(yàn)證多組參數(shù)下本文方法的性能表現(xiàn),參數(shù)α=[0.1:0.1:1.0],取10組,參數(shù)t=[0.1:0.1:1.0],取10組,總計(jì)100 組測(cè)試參數(shù)。以RUG40中的rino圖像為例,利用100組參數(shù)對(duì)模型效果進(jìn)行系統(tǒng)的分析,參數(shù)α和t對(duì)本文方法的影響如圖4(a)所示。另外,在整個(gè)RUG40圖像庫上對(duì)比驗(yàn)證本文方法的有效性,統(tǒng)計(jì)各方法模型在整個(gè)圖像庫中的最優(yōu)平均P值和單張圖片的最優(yōu)平均P值。對(duì)于本文方法,SNC, HDC, MCI和 ISO 5種方法都采取上述的100 組測(cè)試參數(shù)進(jìn)行測(cè)試,如圖4(b)所示。圖中,藍(lán)色柱代表在整個(gè)圖像庫中的最優(yōu)平均P值,黃色柱代表每張圖片的最優(yōu)平均P值。由圖4(a)和圖4(b)可知,本文方法在魯棒性和準(zhǔn)確性上整體表現(xiàn)更優(yōu)。
圖4 在RUG40中的定量實(shí)驗(yàn)測(cè)評(píng)結(jié)果
為了進(jìn)一步驗(yàn)證本文方法的有效性,在BSDS500的圖像庫的測(cè)試集上測(cè)試了本文方法的實(shí)驗(yàn)效果??紤]到本文方法沒有使用到測(cè)試圖片的顏色特征,在實(shí)驗(yàn)過程中,使用了該圖像庫中圖像的灰度版本,并使用與RuG40圖像庫實(shí)驗(yàn)時(shí)同樣的參數(shù)設(shè)置,將各方法檢測(cè)得到的輪廓,再通過非極大值抑制處理和滯后閾值處理。從BSDS500圖像庫隨機(jī)選取3幅圖片展示不同方法選取最優(yōu)參數(shù)情況下的最佳結(jié)果,如圖5所示。
圖5中顯示的結(jié)果和RUG40圖像庫測(cè)評(píng)結(jié)果相似,圖中可以看出本文方法得到的結(jié)果輪廓更加完整,紋理噪聲抑制更有效,在整體輪廓檢測(cè)上表現(xiàn)更為優(yōu)秀。
圖5 BSDS500圖像數(shù)據(jù)集部分圖像的輪廓檢測(cè)結(jié)果
此外,本文在整個(gè)BSDS500圖像庫中使用數(shù)據(jù)集尺度上最優(yōu)(Optimal Dataset Scale, ODS)的F測(cè)評(píng)標(biāo)準(zhǔn)測(cè)量來評(píng)估輪廓檢測(cè)的精度,同時(shí)繪制了準(zhǔn)確率(Precision)和召回率(Recall)的數(shù)據(jù)曲線圖。實(shí)驗(yàn)中使用定量評(píng)價(jià)指標(biāo)F作為均衡評(píng)價(jià)指標(biāo)[20],如式 (19) 所示
從圖6(b)可以總結(jié)出,本文提出的方法雖然在性能上比一些基于機(jī)器學(xué)習(xí)的方法(比如RCF[21]和HED[22])要差,但是這些方法往往需要加入更多的視覺特征,還需要額外的訓(xùn)練過程。另外,相對(duì)于基于生物視覺的相似方法(如SSC[23], MCI[3]等方法),本文方法的P-R曲線包含下方面積相對(duì)更多,在ODS指標(biāo)上也均高于其他生物視覺方法。綜上所述,本文提出的方法相對(duì)取得了更為不錯(cuò)的效果。
圖6 在BSDS500中的定量實(shí)驗(yàn)測(cè)評(píng)結(jié)果
本文研究重點(diǎn)探討生物視覺系統(tǒng)中,雙視通路分流與交互處理信息流的機(jī)制,提出了多種視覺信息傳遞和處理方法。首先利用下通路中多級(jí)感受野尺度差異特性,得到輪廓增強(qiáng)的感知結(jié)果;接著基于上通路VI皮層的對(duì)比度適應(yīng)機(jī)制和方向敏感特性,獲取顯著性視覺特征;然后在V1皮層中,模擬雙視通路信息流的交互感知機(jī)制,構(gòu)建一種信息流交互引導(dǎo)的脈沖編碼模型,提升神經(jīng)元編碼的效率和準(zhǔn)確性,實(shí)現(xiàn)了顯著性輪廓的提??;其次在SC淺層提出一種特征調(diào)制的非經(jīng)典感受野側(cè)抑制模型,強(qiáng)化紋理抑制效果;最后根據(jù)雙視通路的輪廓響應(yīng)的優(yōu)勢(shì)和差異,進(jìn)行像素級(jí)修正融合,提高輪廓的準(zhǔn)確度和完整性。在針對(duì)RuG40, BSDS500圖像數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)中,驗(yàn)證了本文所提輪廓檢測(cè)模型在綜合性能上更加優(yōu)異,為后續(xù)輪廓檢測(cè)方法提供了新思路。