徐小偉 邢 凱 趙浩蘇 梁 科
1(中國科學(xué)技術(shù)大學(xué)軟件學(xué)院 江蘇 蘇州 215123)2(中國科學(xué)技術(shù)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 安徽 合肥 230026)3(西安鐵路信號有限責(zé)任公司 陜西 西安 710054)
隨著物聯(lián)網(wǎng)和人工智能的快速發(fā)展,各類智能設(shè)備在生產(chǎn)生活中開始扮演重要角色,如自動駕駛汽車、服務(wù)機(jī)器人、工業(yè)機(jī)器人等。這些智能設(shè)備的視覺感知尤其是物體識別能力,在其對周圍環(huán)境感知學(xué)習(xí)的過程中往往會起到關(guān)鍵作用。這促使機(jī)器視覺尤其是物體識別研究成為當(dāng)前重要研究方向之一。
基于機(jī)器視覺的物體識別是指利用計算機(jī)視覺、模式識別等技術(shù),自動識別視覺中存在的一個或多個物體,廣義擴(kuò)展的話還包括對物體進(jìn)行圖像區(qū)域和空間定位等?;跈C(jī)器視覺的物體識別研究從最早的模板匹配[1]、Booting算法[2-4]、支持向量機(jī)[5]發(fā)展到現(xiàn)在所廣泛使用的深層神經(jīng)網(wǎng)絡(luò)方法[6],其圖像特征抽取方式也從傳統(tǒng)的手工設(shè)定到基于模型的半自動化提取[7-13],演變?yōu)槿缃竦淖詣訉W(xué)習(xí)方法[14-20]。
隨著計算機(jī)算力的大幅度提升和大規(guī)模數(shù)據(jù)資源的成熟可用,基于深度學(xué)習(xí)的機(jī)器視覺物體識別技術(shù)發(fā)展迅速,其在現(xiàn)有的大規(guī)模數(shù)據(jù)集上,如ImageNet[21]、PASCAL VOC[22]、Microsoft COCO[23],均取得了較好的識別效果。深度學(xué)習(xí)網(wǎng)絡(luò)按使用途徑一般可分為:(1) 直接訓(xùn)練并識別,在待分類的數(shù)據(jù)集上直接訓(xùn)練一個深層神經(jīng)網(wǎng)絡(luò),例如VGG-16[24],GoogleNet[25]等;(2) 特征抽取+組合模型,深度學(xué)習(xí)網(wǎng)絡(luò)用作特征提取器,在已訓(xùn)練好的網(wǎng)絡(luò)上提取特征,提取的特征可以用做其他的后續(xù)操作。
近年來隨著物體識別領(lǐng)域的新技術(shù)不斷涌現(xiàn),新的研究問題也不斷被提出。其中一個吸引了眾多研究者注意的問題是,生產(chǎn)生活環(huán)境中各種光線干擾和復(fù)雜背景干擾,如自動駕駛中來往汽車遠(yuǎn)光燈干擾等,會對物體識別的準(zhǔn)確性和健壯性帶來極大挑戰(zhàn)。如果要讓智能設(shè)備參與到人們生產(chǎn)生活中的各種場景,其必須擁有認(rèn)識所處環(huán)境的能力。那么如何解決各種光線干擾/復(fù)雜背景干擾下物體識別的準(zhǔn)確性和健壯性,是當(dāng)前基于機(jī)器視覺的物體識別領(lǐng)域亟需解決的問題。
同時,考慮到視覺/光線干擾和復(fù)雜背景干擾的場景紛繁復(fù)雜,建立這樣一個數(shù)據(jù)集所需要的數(shù)據(jù)量會大大超過ImageNet,從成本、時間和可行性上都具有極大挑戰(zhàn)。本文的研究目標(biāo)是,如何在強(qiáng)光干擾/復(fù)雜背景干擾環(huán)境下,在不額外增加海量干擾環(huán)境訓(xùn)練數(shù)據(jù)的前提下,實現(xiàn)健壯的、高準(zhǔn)確率的物體識別。
目前在強(qiáng)光干擾/復(fù)雜背景干擾下的物體識別研究工作主要是基于注意力的細(xì)微特征區(qū)分和基于多視角的目標(biāo)檢測。注意力機(jī)制[26-27]往往用來區(qū)分細(xì)微特征,這在解決背景干擾問題中具有重要意義,但是并沒有證據(jù)表明其適用于強(qiáng)光干擾環(huán)境。多視角技術(shù)[28-29]一定程度上可以解決強(qiáng)光干擾、視角變化、背景淹沒導(dǎo)致物體識別準(zhǔn)確率下降的問題,但目前這個方向的研究多聚焦于特定目標(biāo)檢測,不適用于通用物體識別。理論上通過擴(kuò)展目標(biāo)種類的訓(xùn)練數(shù)據(jù)集可以解決干擾問題。然而,考慮到物體種類、背景干擾場景和強(qiáng)光干擾場景的多樣、復(fù)雜性,制備一個完備的用于訓(xùn)練和測試各類干擾場景下各類物體識別的數(shù)據(jù)集是極其困難的。
本文根據(jù)仿生學(xué)的進(jìn)展[30-33],借鑒了生物復(fù)眼視覺系統(tǒng)具有多子眼、子眼結(jié)構(gòu)簡單、三維信息豐富的特點,提出了一種基于多目視覺交叉注意的物體識別方法。該方法基于子眼間的交叉注意提高物體識別準(zhǔn)確率,并對識別結(jié)果存在潛在沖突的多目數(shù)據(jù)進(jìn)行全局融合,有效解決了強(qiáng)光、背景等干擾問題。
本文貢獻(xiàn)如下:
(1) 提出了一種不需要構(gòu)建海量強(qiáng)光/復(fù)雜背景干擾訓(xùn)練/測試數(shù)據(jù)集,能夠融合現(xiàn)有物體識別算法和多目視覺優(yōu)點的物體識別系統(tǒng),為當(dāng)前強(qiáng)光干擾和復(fù)雜背景干擾場景下的研究推進(jìn),特別是從特定目標(biāo)檢測到通用物體識別的研究提供了新的思路;
(2) 提出了一種多目視覺交叉注意方法,通過子眼間交叉注意來提高物體識別準(zhǔn)確率,提高了在強(qiáng)光、復(fù)雜背景等干擾下物體識別的準(zhǔn)確率;
(3) 基于證據(jù)融合理論,提出了一種針對子眼間識別結(jié)果存在潛在沖突的多目數(shù)據(jù)融合方法,提高了在強(qiáng)光、復(fù)雜背景等干擾下物體識別的查全率和準(zhǔn)確率;
(4) 實驗結(jié)果表明,與現(xiàn)有物體識別算法Faster R-CNN,SSD512,YOLOv2相比,本系統(tǒng)能顯著提高在強(qiáng)光、復(fù)雜背景干擾下物體識別的查全率、準(zhǔn)確率和可信度。
面向強(qiáng)光干擾環(huán)境的多目視覺的物體識別的相關(guān)工作劃分為兩個部分:物體識別和復(fù)眼系統(tǒng)。
物體類別檢測一直是計算機(jī)視覺的研究熱點。隨著深度學(xué)習(xí)的發(fā)展,傳統(tǒng)的物體識別算法慢慢退出歷史舞臺。文獻(xiàn)[34]提出了OverFeat特征提取器,綜合了識別、定位和檢測任務(wù),訓(xùn)練了兩個CNN模型,一個用于分類,一個用于定位。OverFeat在輸入圖像上使用滑動窗口策略,通過使用分類CNN模型確定每個窗口中物體的類別,然后使用相應(yīng)類別的定位CNN模型預(yù)測物體的候選區(qū)域,并根據(jù)分類得分合并每個類別的候選區(qū)域獲得最終的檢測結(jié)果。Ross Girshick提出的R-CNN[35]使用選擇性搜索策略代替滑動窗口機(jī)制提高了檢測效率。R-CNN使用選擇性搜索策略在輸入圖片上選擇若干個候選區(qū)域,使用CNN對每個候選區(qū)域提取特征并輸入到訓(xùn)練好的SVM物體分類器中,以獲得候選區(qū)域?qū)儆诿總€類別的分?jǐn)?shù),最后通過非最大抑制方法丟棄部分候選區(qū)域,得到檢測結(jié)果。受到R-CNN目標(biāo)識別框架的啟發(fā),Kaiming He提出的SSP-net[26]對整幅圖像進(jìn)行卷積運算,得到整幅圖像的卷積特征,然后根據(jù)原始圖像中每個候選區(qū)域的位置,提取卷積特征圖中的卷積特征送入分類器。SSP-net解決RCNN需要對每個候選區(qū)經(jīng)行卷積的問題。在fast-RCNN[27]中,Ross Girshick僅對候選區(qū)域進(jìn)行標(biāo)準(zhǔn)分割,然后直接降采樣得到特征向圖,將邊框回歸和分類任務(wù)統(tǒng)一到一個框架中,解決了SSP-net和RCNN網(wǎng)絡(luò)復(fù)雜的訓(xùn)練訓(xùn)過程同時提高了識別精度。Ross Girshick針對選擇性搜索策略計算速度慢等問題,創(chuàng)建了區(qū)域推薦網(wǎng)絡(luò)替代選擇性搜索算法來選擇候選區(qū)域,實現(xiàn)了端到端的計算,把所有的任務(wù)都統(tǒng)一到深度學(xué)習(xí)的框架下,大大提高了計算速度和精度,這就有了著名的faster-RCNN[28]物體識別網(wǎng)絡(luò),其平均識別精度MAP(mean average precision)高達(dá)73.2%。盡管faster-RCNN物體識別網(wǎng)絡(luò)在計算速度方面取得了長足的進(jìn)步,但仍不能滿足實時檢測的要求。因此,基于回歸的方法直接從圖片中回歸物體的位置和類型被提出。具有代表性的兩種物體識別網(wǎng)絡(luò)是SSD[18]和YOLO[19]。YOLO暴力的將輸入圖片劃分為7×7個網(wǎng)格代替區(qū)域推薦網(wǎng)絡(luò),將物體檢測視為回歸問題,使得系統(tǒng)處理時間得到大幅提升,在GPU上每秒處理45張圖片。SSD使用回歸方法來檢測物體,同時引入Faster R-CNN的archor機(jī)制使物體的分類精度和定位有了很大的提高。
自然界中大多數(shù)昆蟲都有一個或多個復(fù)眼作為其視覺器官。復(fù)眼由不定數(shù)量的子眼構(gòu)成,通常位于昆蟲的頭部突出位置。不同昆蟲的復(fù)眼子眼數(shù)量差別很大,從最少幾個到最多數(shù)萬個不等。昆蟲的敏捷性離不開復(fù)眼對環(huán)境的感知,有些昆蟲的視覺范圍可達(dá)到360度,具有廣闊的視野。成千上萬的子眼同時工作,使其可以快速察覺周圍環(huán)境的細(xì)微變化,并作出反應(yīng)。學(xué)術(shù)界、工業(yè)界的放聲復(fù)眼分為二維(2D)平面結(jié)構(gòu)和三維(3D)曲面結(jié)構(gòu)[32-33]。在2D平面結(jié)構(gòu)復(fù)眼系統(tǒng)方面,文獻(xiàn)[36]提出的TOMBO復(fù)眼成像系統(tǒng),具有易于組裝、結(jié)構(gòu)緊湊等特點。經(jīng)過多年的發(fā)展,文獻(xiàn)[37]使用光刻膠技術(shù)制作的微透鏡陣列成功搭建了仿生復(fù)眼成像系統(tǒng)。張洪鑫等[38]提出了單層和三層兩種曲面復(fù)眼成像系統(tǒng),采用三層曲面復(fù)眼成像系統(tǒng)有效提高了邊緣成像質(zhì)量差、視野小等問題。Floreano等[39]研究并生產(chǎn)了一種新型仿生復(fù)眼成像系統(tǒng)CurvACE,該系統(tǒng)創(chuàng)造性地利用平面微透鏡陣列來構(gòu)建曲面復(fù)眼,從而實現(xiàn)大角度成像,視場角度能夠達(dá)到180°×60°。復(fù)眼在獲取準(zhǔn)確的三維信息問題上有著優(yōu)異的表現(xiàn)[32],文獻(xiàn)[40]模擬復(fù)眼功能,使導(dǎo)彈獲得目標(biāo)的三維空間位置信息。復(fù)眼在智能機(jī)器人的視覺導(dǎo)航中扮演者重要的角色[41]。智能機(jī)器人的視覺系統(tǒng)可以準(zhǔn)確地感知周圍環(huán)境中物體的位置,因此可順利穿行于有障礙物的環(huán)境中。
當(dāng)前物體識別研究所用的數(shù)據(jù)集,往往是具有較少干擾的圖像數(shù)據(jù),這就導(dǎo)致了其上訓(xùn)練的物體識別算法在強(qiáng)光干擾或者復(fù)雜背景干擾下的識別準(zhǔn)確率會明顯下降。
本文原理設(shè)計的出發(fā)點是從生產(chǎn)生活環(huán)境中各種光線干擾和復(fù)雜背景干擾出發(fā),基于多目間豐富的幾何三維信息和各子眼視覺結(jié)果互為冗余的特點,在強(qiáng)光干擾、視角變化、背景淹沒等情況下提高物體識別的準(zhǔn)確率和查全率。
本文通過各子眼的空間幾何關(guān)聯(lián)和立體視覺來計算指定區(qū)域中特征點的空間三維坐標(biāo)和其在不同子眼圖像上的投影。
2.1.1 子眼模型
子眼相機(jī)將三維空間中的坐標(biāo)點(單位mm)映射到二維圖像平面(單位像素),用子眼相機(jī)模型可以對其建模,子眼相機(jī)投影模型如圖1所示。
圖1 子眼相機(jī)投影模型
空間點P在相機(jī)坐標(biāo)系o-x-y-z中坐標(biāo)設(shè)為[x,y,z],經(jīng)過小孔投影后落到物理成像平面Z=1上,在像素坐標(biāo)系上的坐標(biāo)為Puv=[u,v],坐標(biāo)關(guān)系為式:
(1)
式中:K為相機(jī)內(nèi)參數(shù)矩陣,為固定值,通過相機(jī)標(biāo)定可以獲得其值。在歸一化平面Z=1上,點P歸一化的相機(jī)坐標(biāo)為Pc=[X/Z,Y/Z,1]T。
2.1.2 交叉注意機(jī)制
視覺注意是人類信息加工過程中的一項重要的信息感知機(jī)制,它能夠?qū)τ邢薜男畔⒓庸べY源進(jìn)行分配,使感知具備選擇能力[42]。人眼的注意力機(jī)制保證了人眼信息獲取的高效性。人眼在從寬視野聚焦到感興趣區(qū)域時,可以觀察到更多的細(xì)節(jié)。
本文通過各個子眼在不同視角下的圖像特征提取與匹配,得到各子眼可能的交叉注意區(qū)域,交叉注意系統(tǒng)模型如圖2所示。
圖2 交叉注意系統(tǒng)模型
其具體流程如下:對同一場景下不同子眼采集的圖像,各子眼對其進(jìn)行特征提取,對同一特征,通過驗證其空間一致性可以增強(qiáng)檢測的置信度。當(dāng)某一子眼或部分子眼受光照或背景干擾強(qiáng)烈時,通過其他子眼的特征提取結(jié)果和當(dāng)前視角,集中注意力到指定區(qū)域進(jìn)行特征提取,以提高物體識別準(zhǔn)確率和查全率。
給定子眼1在其圖像1中獲取該圖像中的特征點,基于子眼1和其他子眼的空間3D位置關(guān)系,可以計算其他子眼在子眼1的視角下的投影,并與子眼1圖像中的特征點做匹配。對未匹配的特征點所在區(qū)域進(jìn)行圖像增強(qiáng)后進(jìn)行特征抽取?;谝哑ヅ涞奶卣鼽c和交叉注意后提取出的特征點,子眼1可以利用現(xiàn)有物體識別的深度網(wǎng)絡(luò)模型進(jìn)行識別。
本文的多目視覺系統(tǒng)由四個子眼模塊組成,每個子眼負(fù)責(zé)一個視角下的圖像數(shù)據(jù)采集。其具體工作原理設(shè)計如下:基于特征抽取+組合模型的方式,利用已有的深度學(xué)習(xí)網(wǎng)絡(luò)作為單子眼的特征提取器,基于四目間的幾何三維關(guān)聯(lián)信息和各子眼的部分視覺數(shù)據(jù)互為冗余的特點,利用子眼間的交叉注意來提高物體識別準(zhǔn)確率,然后對識別結(jié)果存在潛在沖突的多目數(shù)據(jù)進(jìn)行全局融合,多目視覺物體識別系統(tǒng)設(shè)計如圖3所示。
圖3 多目視覺物體識別系統(tǒng)設(shè)計
本文以SSD512為示例,取其全連接層的第一層及之前的卷積結(jié)構(gòu)作為特征提取器,如圖4所示。給定某一時刻子眼ei采集的圖片記做pici,特征提取結(jié)果記做rlti,rlti=feature(pici)。假設(shè)rlti包含m個特征,記做rlti={fi1,fi2,…,fim},然后得到所有子眼的特征全集U=U{rlti},找出各子眼與U的差集{fij}=diff{U,rlti},以及該特征fij在pici中對應(yīng)一個區(qū)域Region(fij)。子眼模塊將注意力集中到Region(fij),對區(qū)域Region(fij)圖像增強(qiáng)后進(jìn)行物體識別,這樣每個子眼識別后得到一個識別結(jié)果子集di。對所有di進(jìn)行置信度和不確定性計算,對所有數(shù)據(jù)包括有潛在沖突的子眼間數(shù)據(jù)進(jìn)行數(shù)據(jù)融合得到最終結(jié)果R=Weighted{di}。
本文的交叉注意機(jī)制由聚焦到目標(biāo)區(qū)域和目標(biāo)區(qū)域細(xì)節(jié)增強(qiáng)兩個部分組成。這和人眼的注意力機(jī)制相契合。首先,各子眼通過預(yù)注意來提取各自視角下的圖像特征,獲取其與特征全集的差集{fij},通過子眼的坐標(biāo)變換聚焦到區(qū)域Region(fij);然后,通過圖像增強(qiáng),弱化該區(qū)域的光線干擾,增強(qiáng)物體細(xì)節(jié)特征,進(jìn)行物體識別。
3.1.1 子眼預(yù)注意
子眼在預(yù)注意階段需要為子眼交叉注意階段提供場景中的可能存在的特征及其位置分布。我們通過現(xiàn)有的深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行前期視覺特征提取。本文中以SSD512為示例,取其全連接層的第一層及之前的卷積結(jié)構(gòu)作為特征提取器來獲取其特征及其位置分布。直觀起見,我們用SSD512自有的物體分類器作為其特征描述。
在這一特征提取階段,我們首先基于物體識別網(wǎng)絡(luò)對子眼采集圖片進(jìn)行預(yù)處理,將輸出值高于0.8的物體標(biāo)注為可信物體,無需進(jìn)行交叉注意,輸出值高于0.5但小于0.8的物體,標(biāo)注為疑似物體,需要進(jìn)行交叉注意來識別。各子眼識別結(jié)果如圖5所示,圖5中四張圖片分別是四個子眼采集的實景圖,紅色框表示識別出的特征物體fij。實驗表明在強(qiáng)光干擾及背景干擾下,預(yù)注意階段各子眼只能識別出視野中的極少部分物體rlti,不足10%。
圖5 子眼預(yù)注意識別結(jié)果
這是因為某些子眼受強(qiáng)光干擾下,其采集的圖片中的大部分物體不能被現(xiàn)有的物體識別網(wǎng)絡(luò)識別。因此需要對該區(qū)域進(jìn)行交叉注意識別。
3.1.2 子眼交叉注意
在交叉注意階段,首先將所有子眼識別結(jié)果合并得到U。將各子眼識別結(jié)果rlti按照式(3)在物體集合U中取差集di就是子眼未識別到的物體。利用標(biāo)定好的子眼陣列計算出物體在各個子眼中的區(qū)域位置Region(fij)。
為了得到大量、準(zhǔn)確的匹配關(guān)系,我們采用基于Grid的運動平滑估計來進(jìn)行指定局部區(qū)域的特征匹配估計[43]得到交叉注意區(qū)域,至此完成子眼間的交叉注意區(qū)域匹配,獲得物體在各個子眼中的區(qū)域位置Region(fij)。
在子眼交叉注意階段得到的區(qū)域Region(fij)即是子眼ei需要聚焦的目標(biāo)區(qū)域。然后對目標(biāo)區(qū)域進(jìn)行圖像增強(qiáng),弱化該區(qū)域的光線干擾,增強(qiáng)物體細(xì)節(jié)特征??紤]到Retinex方法[44]將成像分成光照分量(環(huán)境的入射光)和物體反射分量(物體的反射性質(zhì)),較為適合處理強(qiáng)光干擾情況。因此我們選用Retinex算法進(jìn)行圖像增強(qiáng)處理。本文使用單尺寸Retinex算法,高斯核半徑sigma設(shè)定為250,對圖像的R、G、B三個通道下分別進(jìn)行Retinex算法增強(qiáng)。
當(dāng)子眼完成交叉注意后,使用深度識別網(wǎng)絡(luò)如SSD512對新處理的交叉注意區(qū)域及其疑似物體進(jìn)行識別得到結(jié)果rdi,每個子眼的識別結(jié)果為r_rlti=rlti∪rdi。多目視覺系統(tǒng)的各個子眼預(yù)注意提取特征情況如圖5所示。
由于每個子眼的觀測角度不同,受干擾程度不一,對物體的識別結(jié)果可能存在沖突。怎樣解決不同子眼間識別結(jié)果的潛在沖突,是準(zhǔn)確識別物體的關(guān)鍵。
針對子眼間識別結(jié)果存在潛在沖突的情況,本文進(jìn)行多目數(shù)據(jù)融合的基本思路是:利用證據(jù)融合理論,首先對來自各個子眼的物體識別結(jié)果(即證據(jù))進(jìn)行預(yù)處理;然后構(gòu)建出物體識別場景下各個證據(jù)的基本可信度分配函數(shù),并據(jù)此計算出各個證據(jù)的可信度和似然度;再根據(jù)Dempster合成規(guī)則[45-46]來計算所有子眼物體識別結(jié)果聯(lián)合作用下的基本可信度分配函數(shù)、可信度和似然度。
物體識別場景下識別框架Θ可由PASCAL VOC數(shù)據(jù)集中20類物體類別和背景組成的集合表示。證據(jù)的基本可信度分配函數(shù)和計算規(guī)則如下:
m(A)=m1(A)⊕m2(A)⊕…⊕mn(A)=
(2)
表1 4個子眼的基本信任分配
由表1的4個子眼的基本信任賦值,根據(jù)Dempster合并法則式(2)的計算,可以得到由兩個子眼、三個子眼、四個子眼的數(shù)據(jù)組合后的基本概率賦值,結(jié)果如表2所示,其中m12、m123、m1234分別表示1~2號子眼的融合結(jié)果、1~3號子眼的融合結(jié)果和1~4號子眼的融合結(jié)果。
表2 不同子眼組合后的基本信任分配
從表2的D-S的融合結(jié)果可以看出參與融合的子眼越多各個證據(jù)的可信度分化越明顯,更利于決策。本文采用基于基本信任分配的決策方法,即物體類別應(yīng)具有最大的可信度,物體類別的可信度和其他類別的可信度的差值必須大于某一閾值ε1,不確定區(qū)間的長度小于某一閾值ε2,且目標(biāo)物體的可信度必須大于不確定區(qū)間的長度。本文閾值選擇ε1=ε2=0.1,最終的決策結(jié)果為Sub1。
本節(jié)分析了交叉注意機(jī)制對提高物體識別的準(zhǔn)確率和查全率的影響。實驗圖片樣本選取自google圖片庫和baidu圖片庫中圖片背景以街道為主的cat類、dog類和person類。從中取出100張在使用物體識別網(wǎng)絡(luò)一次識別未識別出全部物體的圖片作為交叉注意實驗分析的圖片樣本,部分樣本圖片如圖6所示。
圖6 交叉注意實驗分析的部分圖片樣本
采取本文的交叉注意機(jī)制之前和之后,物體識別網(wǎng)絡(luò)框架的物體識別查全率R(Recall)和準(zhǔn)確率P(Precision)對比分析如表3所示??梢钥闯霾扇〗徊孀⒁鈾C(jī)制后查全率顯著提高,從不到10%提高到90%以上,其中70%以上的物體在背景環(huán)境淹沒時通過交叉注意機(jī)制可以被正確識別,平均識別準(zhǔn)確率達(dá)到90.3%。該結(jié)果表明當(dāng)多目視覺系統(tǒng)中部分子眼被干擾或由于角度問題無法識別目標(biāo)物體時,可以通過未被干擾的子眼的識別結(jié)果將注意力聚焦到目標(biāo)物體區(qū)域,進(jìn)而通過背景增強(qiáng)來減少背景環(huán)境對其的干擾和提高識別的準(zhǔn)確率。
表3 背景干擾下的交叉注意識別結(jié)果
4.2.1 實驗設(shè)置
本文借鑒2D平面結(jié)構(gòu)復(fù)眼系統(tǒng),在部分子眼受強(qiáng)光干擾情況下的目標(biāo)檢測及獲取3D信息,采用布置在2D平面上的4個相機(jī)構(gòu)成的相機(jī)陣列。相機(jī)間的位置關(guān)系通過棋盤法[47]標(biāo)定好。
本文多目視覺由四個索尼IMX179性攝像頭組成,如圖7所示。攝像頭分辨率1 920×1 080,上下間距40 cm,本文通過調(diào)節(jié)子眼間水平距離測試在強(qiáng)光干擾和復(fù)雜背景干擾下不同子眼的視角差變化對識別結(jié)果的影響。我們以左右子眼的的中線為基準(zhǔn)線實驗數(shù)據(jù)采集了與多目視覺系統(tǒng)平面不同距離,與基準(zhǔn)線不同夾角的多組圖像。本文實驗設(shè)置分為室內(nèi)場景實驗設(shè)置和室外場景實驗設(shè)置。
圖7 二維平面結(jié)構(gòu)簡易多目視覺模型
本實驗使用額定功率24 W,流明值為105 lm的一對汽車遠(yuǎn)光燈做干擾源,遠(yuǎn)光燈與多目視覺系統(tǒng)相距5~30米不等。待測物體與多目視覺系統(tǒng)水平相距1~20米不等。室內(nèi)場景如圖8所示,室外道路場景如圖9所示。
圖8 室內(nèi)場景采集圖像
圖9 道路場景采集圖
4.2.2 多目視覺系統(tǒng)物體識別性能分析
在強(qiáng)光干擾下,各子眼進(jìn)行快速的預(yù)注意處理,利用未被干擾的子眼識別出物體,將目標(biāo)物體信息傳遞給被干擾眼,從被干擾子眼采集的圖像中提取目標(biāo)區(qū)域,進(jìn)行增強(qiáng)處理后,進(jìn)行交叉注意的物體識別。本文通過實驗評估了當(dāng)前表現(xiàn)最為優(yōu)異的三種物體識別網(wǎng)絡(luò):Faster R-CNN、SSD512和YOLOv2在強(qiáng)光干擾下的物體識別能力。
室內(nèi)場景,不同強(qiáng)度光照干擾下的多目視覺系統(tǒng)的物體準(zhǔn)確率如圖10所示,不同強(qiáng)度光照干擾下多目視覺系統(tǒng)的物體查全率如圖11所示。由圖10和圖11可以看出隨著光照增強(qiáng),單眼的識別準(zhǔn)確率和查全率都在急劇下降,當(dāng)光通量達(dá)到2 100 lm時單眼完全被干擾失去識別能力,但是此時多目視覺系統(tǒng)仍具有很高的識別準(zhǔn)確率和查全率。此結(jié)果說明在強(qiáng)光干擾下,由于多目視覺系統(tǒng)的不同子眼間存在視角差,部分子眼受到較小的光干擾甚至沒有干擾,故多目視覺系統(tǒng)利用可以識別的圖像或區(qū)域,再經(jīng)過多目坐標(biāo)變換得到被干擾子眼中對應(yīng)的區(qū)域,子眼進(jìn)行交叉注意。由圖11可以看出,子眼交叉注意可以提高子眼的抗干擾能力。
圖10 不同強(qiáng)度光照干擾下的多目視覺系統(tǒng)的物體準(zhǔn)確率
圖11 不同強(qiáng)度光照干擾下多目視覺系統(tǒng)的物體查全率
室外道路場景,對采集的圖像進(jìn)行以下兩種處理進(jìn)行實驗分析:
(1) 使用物體識別網(wǎng)絡(luò)處理采集的圖像數(shù)據(jù),物體識別網(wǎng)絡(luò)識別結(jié)果的準(zhǔn)確率(precision)和查全率(recall)曲線圖(P-R曲線圖)如圖12第一行圖所示,各物體識別網(wǎng)絡(luò)的平均識別精度MAP如表4所示。
表4 物體識別網(wǎng)絡(luò)的平均識別精度MAP
(2) 使用多目視覺系統(tǒng)進(jìn)行處理,物體識別的P-R曲線圖如圖12第二行圖所示,平均識別精度MAP如表5所示。
表5 多目視覺物體識別網(wǎng)絡(luò)的平均識別精度MAP
三種物體識別網(wǎng)絡(luò)都使用VOC2007和VOC2012數(shù)據(jù)集訓(xùn)練,表4和表5中data項表示用于測試的數(shù)據(jù)集,此列中Voc測試數(shù)據(jù)集為VOC2012,L_d表示測試數(shù)據(jù)集是強(qiáng)光干擾下的道路場景圖片集;MAP列表示該網(wǎng)絡(luò)框架的識別能力,以百分比計量;person到mbike列表示各網(wǎng)絡(luò)對此類別的平均識別精度。
從表4中容易看出在無干擾情況下,三種物體識別網(wǎng)絡(luò)都有優(yōu)異的識別效果,然而,在強(qiáng)光干擾好和復(fù)雜的背景干擾下,三種物體識別網(wǎng)絡(luò)的識別精度都急劇下降。在有干擾時,F(xiàn)aster R-CNN網(wǎng)絡(luò)架構(gòu)的識別精度相對較高為55.9%,但處理速度慢[19],綜合考慮處理速度與識別精度,SDD512性能優(yōu)于Faster R-CNN和YOLOv2,但仍然達(dá)不到實際使用的要求。
從表4和表5可以看出,在強(qiáng)光干擾的道路場景中,多目視覺系統(tǒng)的物體識別的平均識別精度MAP比單目的提高了15%左右,其中基于SSD512物體識別框架的多目視覺系統(tǒng)的MAP提高最為顯著,提高了19.1%?;贔aster R-CNN物體識別網(wǎng)絡(luò)框架的多目視覺系統(tǒng)的在person類上的識別精度MAP提高最顯著,提高了24.9%。在car、bus、mbike三類物體上,基于SSD512物體識別框架的多目視覺系統(tǒng)的識別精度MAP提高較為顯著,分別提高了4.3%、25.0%和30.8%。就多目視覺系統(tǒng)而言,基于SSD512物體識別網(wǎng)絡(luò)框架的平均識別精度MAP最高,為72.4%。
圖12 物體識別P-R曲線圖
本文提出的基于交叉注意機(jī)制的多目視覺系統(tǒng)具有更強(qiáng)的光干擾能力。本文對交叉注意機(jī)制和多目視覺系統(tǒng)的性能進(jìn)行了實驗分析,可以看出交叉注意機(jī)制在復(fù)雜背景下的物體識別有著優(yōu)異的表現(xiàn),其中在不損失物體識別網(wǎng)絡(luò)精度的前提下,將物體識別網(wǎng)絡(luò)的查全率從平均6.3%提高到84.6%。在強(qiáng)光干擾下的場景基于交叉注意機(jī)制的多目視覺系統(tǒng)物體識別的MAP(64.8%)相比于單目的物體識別的mAP(50.2%)提高了14.6個百分點。實驗結(jié)果表明基于交叉注意機(jī)制的多目視覺系統(tǒng)可以在一定程度上降低復(fù)雜背景和強(qiáng)光照射對物體識別的干擾。并且,基于交叉注意機(jī)制的多目視覺系統(tǒng)物體識別系統(tǒng)使用現(xiàn)有的物體識別網(wǎng)絡(luò)框架不需要增加額外的訓(xùn)練數(shù)據(jù)。