高 磊,劉宸昊,馬惠敏
?
TUOD遮擋圖像庫的設計與實現(xiàn)
高 磊,劉宸昊,馬惠敏
(清華大學電子工程系,北京 100084)
遮擋問題是復雜場景圖像中一個普遍存在的現(xiàn)象,探索遮擋對圖像認知的影響規(guī)律、建立具有抗遮擋能力的認知模型直接關系到計算機視覺技術的實際應用,是一個迫切需要解決的科學問題。通過研究復雜場景圖像中的遮擋問題,探索遮擋對圖像認知的影響規(guī)律,建立一個評估檢測識別算法的抗遮擋能力、研究圖像認知模型及抗遮擋規(guī)律的TUOD (Tsinghua University Occlusion Database)遮擋圖像庫。首先,根據(jù)遮擋對圖像識別的影響,提出遮擋部件、遮擋面積、遮擋關系、遮擋復雜度4個維度的圖像遮擋屬性,建立了圖像遮擋程度量化標準;其次,基于遮擋維度提出一個新的層次化圖像庫組織結構,以此為基礎進行數(shù)據(jù)庫構建。從PASCAL VOC和ImageNet中進行圖像篩選和處理,構建了一個包括飛機、車輛、人、動物4大類,共2 100張圖片的TUOD遮擋圖像庫。利用TUOD圖像庫,結合機器學習理論,通過實驗比較分析不同遮擋維度對Faster R-CNN算法的影響。實驗表明,TUOD遮擋圖像庫能夠為算法的抗遮擋能力提供量化評估標準。TUOD遮擋圖像庫的建立為提高抗遮擋算法的性能奠定了基礎,具有實用性。
遮擋維度;遮擋規(guī)律;抗遮擋能力評估;遮擋圖像庫
遮擋作為復雜場景圖像中一個普遍存在的現(xiàn)象,對圖像識別率影響很大,是面對各種復雜情況的自動駕駛視覺導航、公共安全視頻監(jiān)控等實際應用無法回避的核心問題,是計算機視覺、模式識別、目標識別與跟蹤等研究領域的重點和難點[1-2]。但因圖像中的遮擋具有復雜語義,缺少對遮擋元素進行量化分析的相關研究,本文通過遮擋認知理論分析,建立一個能夠量化評估圖像認知模型及算法抗遮擋性能的遮擋圖像庫,提供有效的數(shù)據(jù)和評價標準,在視覺導航、視頻監(jiān)控、醫(yī)療診斷、工業(yè)產(chǎn)品檢測等方面有著重要的實用價值和廣闊的發(fā)展前景。
在實際場景中遮擋現(xiàn)象不可避免,情況也千差萬別,隨著深度學習等檢測、識別方法的提出,計算機視覺在簡單圖像、理想測試場景中的目標檢測與識別上得到了很大的突破,國際上研究工作也開始轉(zhuǎn)向復雜圖像等更難的實際應用場景。為了滿足計算機視覺的發(fā)展,尤其是圖像分割、目標檢測識別方法的研究需要,先后出現(xiàn)了一些國際評測平臺:2005年歐盟建立了PASCAL (pattern analysis,statistical modelling and computational learning)數(shù)據(jù)集[3],開啟了VOC(visual object classes)挑戰(zhàn);2010年斯坦福大學建立了當時世界上最大的ImageNet圖像庫[4],為相關圖像研究提供數(shù)據(jù)源和國際評測平臺,其中的圖像基本上都是辨識度很高的簡單圖像;2014年微軟推出了圖像復雜度很高的COCO (common objects in context)圖像數(shù)據(jù)集[5],其中大量場景非常復雜,存在嚴重的目標聚集和遮擋現(xiàn)象;另外還有自動駕駛KITTI庫[6]、加州理工學院的Caltech行人數(shù)據(jù)庫[7],雖有涉及到物體識別和遮擋圖像,但僅將數(shù)據(jù)庫根據(jù)遮擋情況簡單分為無遮擋、部分遮擋、嚴重遮擋,未能對遮擋現(xiàn)象給出量化評估標準,缺乏對抗遮擋檢測、識別方法的支撐。
圖像庫的建設是很多研究中非常重要的一個環(huán)節(jié),但是現(xiàn)有的圖像庫缺乏對遮擋的量化描述,通常僅以類似圖1的形式根據(jù)遮擋面積對圖像物體的復雜度進行分級(例如:簡單、中等、困難)。然而,遮擋對圖像識別的影響的要素很多,僅以遮擋面積進行衡量是不完備的。例如,被遮擋的部件、自遮擋或互遮擋關系、是否相似遮擋等要素對物體識別都會帶來不同程度的影響。已有一些研究通常對某種特定的遮擋要素進行分析,但缺乏全面的系統(tǒng)的規(guī)律挖掘。
圖1 飛機的幾種簡單遮擋類型
研究發(fā)現(xiàn),遮擋區(qū)域的大小以及物體關鍵部件是否被遮擋是影響識別的重要因素,現(xiàn)有研究針對特定種類的識別對象進行了討論,研究了遮擋不同部件對識別性能的影響。例如,WRIGHT等[8]發(fā)現(xiàn),在對人臉器官如鼻子、嘴、眼睛的人工遮擋時,人臉的識別率不同,其重要性排序為:眼睛>嘴>鼻子。EKENEL和STIEFELHAGEN[9]從關鍵特征遮擋方面介紹了一種基于局部紋理識別的人臉識別算法,對預先存在遮擋的一組圖片進行對比測試,發(fā)現(xiàn)戴墨鏡人臉的識別率遠低于圍圍巾人臉的識別率。然而,這些研究大都針對結構規(guī)則的特定類別,難以推廣到一般物體。
從以上特定類別的規(guī)則物體的研究可以看出,影響物體識別的遮擋要素非常多,且耦合性很強。具體而言,有以下幾點關鍵要素:
(1) 遮擋不同部件對物體識別的影響通常不同;
(2) 同一部件被遮擋面積大小對物體識別的影響也不同;
(3) 遮擋物與被遮擋物之間的關系(是否自遮擋、是否相似)會對物體識別帶來影響;
(4) 圖像信息復雜難度會對識別跟蹤帶來影響。
此外,不同識別算法對同一遮擋情況的敏感度也不同?,F(xiàn)有的遮擋識別研究缺乏規(guī)則的、一致的和系統(tǒng)的分析。很多已有研究對遮擋的關鍵部件的選擇很大程度上依賴于人的主觀決定,容易出現(xiàn)遺漏。另外,已有研究通常只針對特定算法進行遮擋評估,缺乏一般性的對比分析。
因此,為了優(yōu)化抗遮擋算法,需要對遮擋影響物體識別性能的規(guī)律進行系統(tǒng)的研究。本文建立了一個用于評估檢測識別算法抗遮擋能力、研究圖像認知抗遮擋規(guī)律及模型的遮擋圖像庫。此圖像庫可以通過仿真平臺完成對算法性能的分析和評估。在建庫時,采用層次模型系統(tǒng),以遮擋的分類為依據(jù),既覆蓋了典型遮擋,又保證了圖像庫的結構化和可擴展性。
對于采集到的圖像需要經(jīng)過嚴格的評定標準,以保證其適用于仿真平臺上對追蹤算法的驗證,主要有以下幾個方面的要求:
(1) 對應單一遮擋,由于圖像庫的作用是分析檢測識別算法的抗遮擋性能,提出遮擋圖像認知模型評估方法,因此圖像應明確和突出所存在的遮擋,不宜包含多種遮擋,以避免對評估結果造成不良影響;
(2) 保證圖像庫的適用性,所采集得到的圖像應當可以應用于對任何的算法的評估,同時應保證加入的遮擋相對典型和具有說服力;
(3) 應保證遮擋圖片數(shù)量,有足夠的圖像包含遮擋,以減小對算法的評估結果的隨機性,增強結果的有效性。
符合標準的圖像即可入庫,可以用來檢測算法對相應遮擋的抗干擾性能。
建庫體系流程主要部分為圖像分類、采集圖片、遮擋屬性定義、遮擋圖片標注和圖像入庫5個部分,整個的圖像建庫流程如圖2所示。
圖2 圖像建庫流程
依據(jù)上述原則,本文選取帶有遮擋的目標圖像,采用Labelme[10]工具對圖像分別按照遮擋部件、遮擋面積、遮擋關系和遮擋復雜度4個遮擋描述維度進行標注,生成XML文件,建立遮擋圖像集合。其中,部件指目標元素具有的典型特征,如對于“車”這個類別,關鍵部件包含車頭、車燈、車輪、車窗等;遮擋面積根據(jù)在遮擋規(guī)律研究中學習得到的閾值劃分成若干級,如<20%、20%~50%、51%~70%、>70%;遮擋關系分為同類/不同類物體之間的遮擋、自遮擋/互遮擋等;遮擋復雜度描述了人在認知遮擋圖像時的眼動行為特征。最后,將集合映射到樹形分類結構中,在每個遮擋維度中添加對應的帶有遮擋的圖像,形成TUOD圖像庫,結構如圖3所示。本文構建的遮擋圖像庫與現(xiàn)有的圖像庫的對比見表1。
2.2.1 遮擋部件的標注
由于不同部件的遮擋情況對物體識別有著不同程度的影響,本文需要建立部件級別的數(shù)據(jù)標注,標出遮擋物體各個部件是否被遮擋以及部件被遮擋的比例,在物體部件標注中,需要對物體按部件進行劃分,并進行像素級的標注。在此基礎上本文根據(jù)部件的缺失程度、部件的遮擋類型對圖像進行分類,和已有的部件分割數(shù)據(jù)集相比,強調(diào)了被遮擋部件的標注。按照圖像內(nèi)容對遮擋物體與被遮擋物體進行分類,并將類別進行編號,以便入庫,之后再對入庫圖片進行粗分類和細分類:粗分類指將圖像中被遮擋物體與遮擋物體按種類分組;細分類指將被遮擋部分按照遮擋部位進行分組。如圖4所示:圖片中救護車被人群遮擋,標注“車輪”為遮擋部位。
圖3 圖像庫結構
表1 圖像庫特征比較
圖4 遮擋部件標注
2.2.2 遮擋面積的標注
遮擋面積的計算必須基于遮擋物體與被遮擋物體的輪廓的提取,本文在像素級部件標注的基礎上,研究中采用人工物體補全的方式,進行遮擋標注,從而計算出遮擋面積比例。物體補全方法是通過人工繪出遮擋物和被遮擋部分的輪廓,恢復物體整體形狀信息,計算遮擋面積,如圖5所示,對遮擋物(人群)和被遮擋物(救護車)進行標注,重合部分(藍色)為被遮擋物的遮擋面積。計算公式為
其中,1為遮擋物(人)面積;2為被遮擋物(車輛)面積;1U2為整體面積。計算得到不同遮擋面積比例的圖像實例如圖6所示。
圖5 物體補全方法
圖6 遮擋面積圖像示例
2.2.3 遮擋關系的標注
已有研究表明,物體間紋理相似性的差異對通用算法的抗遮擋能力有很大影響,根據(jù)遮擋物體與被遮擋物體是否為同一類物體分為同類物體遮擋與非同類物體遮擋;根據(jù)遮擋物體與被遮擋物體是否為同一物體分為自遮擋(目標物體自身的一部分遮擋了的另一部分)與互遮擋(兩個不同物體之間存在遮擋)。在此基礎上,本文研究標注了更細致的圖像中遮擋物體之間的關系。遮擋關系標注的實例如圖7所示。
圖7 遮擋關系標注
2.2.4 遮擋復雜度
眼動儀用于記錄人在處理視覺信息時的眼動軌跡特征,廣泛用于注意、視知覺、閱讀等領域的研究。本文利用眼動儀結合視線焦點檢測技術定義遮擋復雜度,通過對觀察者眼動軌跡的分析可得到觀察者注視點序列,描繪注視點軌跡的方法如下:
心理護理與健康教育可以讓患者的心理狀態(tài)得到有效的改善,不僅是提升手術治療效果的關鍵,同時也是疾病轉(zhuǎn)歸的關鍵[3-4]。根據(jù)患者的心理情緒給予心理疏導,每天和患者進行交流與溝通并及時為患者講解疾病相關的知識以及臨床治療措施、必要性以及療效等,從而有效的減輕心理顧慮,為患者預后健康生活提供有效的幫助和支持[5]。
圖8 駐留熱點圖和注視軌跡圖
本文建立的TUOD圖像庫旨在提供適用于研究圖像識別、圖像檢測[11-15]、圖像分割[16]等計算機視覺任務中的遮擋問題的平臺。為了進一步說明的TUOD的實用性,本文就物體識別與檢測任務進行了以下實驗:①采用不同物體檢測算法進行對比實驗分析;②采用控制變量的方法對不同遮擋條件下的物體識別性能進行評估分析。
本文選用了傳統(tǒng)的DPM anti occlusion capability[17]算法和深度學習中的基于Caffe[18]的VGG-16[19]網(wǎng)絡兩種不同的物體檢測算法對TUOD圖像庫進行了實驗。對實驗結果的物體檢測準確率進行了分析,結果見表2。根據(jù)數(shù)據(jù)標注,計算待檢測物體被遮擋的面積比例,作為描述圖像中存在遮擋情況的描述要素,按照遮擋比例<20%、20%~50%、>50%對圖像進行分類。
表2 不同物體檢測算法性能比較
由實驗結果可以看出,在本文TUOD圖像庫上可以實現(xiàn)對不同算法在不同遮擋程度條件下的檢測性能的比較。除本文依照遮擋比例上述劃定方法外,使用者還可以自行選取閾值進行劃分,或利用本文的像素級標注設計針對遮擋問題的劃分方式。
本文采用控制變量的方法對不同物體檢測模型在遮擋面積和幾何關系加權的遮擋面積兩種不同遮擋條件下的物體識別性能進行評估分析,以驗證本數(shù)據(jù)庫對于遮擋圖片分類量化的準確性。實驗步驟如下:
步驟1.利用主流算法,對庫中圖像進行目標識別,并判斷識別結果;
步驟2.對遮擋圖像進行相應的遮擋強度(如遮擋面積、遮擋復雜度等)計算;
本文采用基于Caffe的VGG-16網(wǎng)絡,利用網(wǎng)絡在PASCAL VOC2012數(shù)據(jù)集上的預訓練模型,對本數(shù)據(jù)庫中的圖像中的人、動物以及車輛目標進行識別,得到相應物體的檢測框(bounding box)。進一步將識別結果與物體框標注進行比較,計算其交并比,并設定交并比>0.7作為正確識別的閾值。
本文對圖像庫進行了物體識別算法實驗,得到約400個物體檢測框。在此檢測的基礎上,本文按照圖像中遮擋比例<20%、20%~50%、>50%劃分,統(tǒng)計物體檢測準確率,檢測準確率隨遮擋程度的變化如圖9所示。
圖9 VGG-16物體識別效果隨遮擋面積比例的變化情況
在此基礎上,本文研究進一步提出了基于幾何位置的遮擋特征描述方法,對圖片像素按照其在物體多邊形中的幾何位置進行加權,加權方法為:
進行加權;
(2) 利用邊緣和角點檢測子矩陣對標注多邊形邊緣的二值圖進行卷積,以強化物體邊緣。此外,絕大多數(shù)物體的上部都對物體識別具有相對更顯著的影響,因此,本文對上述兩個權值矩陣再按照從上到下的位置進行加權,然后求和得到按幾何位置加權的遮擋程度,加權圖像的示例如圖10所示。對于加權遮擋比例按照0.2、0.4分為不同子集,檢測分析的結果如圖11所示。
圖11 VGG-16物體識別效果隨加權遮擋面積比例的變化情況
由實驗分析驗證,被檢測的VGG-16算法的識別性能隨標注的遮擋程度呈現(xiàn)顯著變化,遮擋程度越強,算法的識別效果越差;此外,在不同的遮擋要素下,算法性能的變化趨勢存在明顯區(qū)別,例如,從圖12可觀察到,在相似遮擋面積下,引入幾何位置加權的遮擋面積計算可以有效地突出輪廓缺失及撕裂性遮擋對物體識別的影響。以上兩點表明,本文研究建立的遮擋圖像庫可以為算法抗遮擋性能的評估提供量化實驗的平臺。
圖12 相似遮擋面積下不同遮擋復雜度造成識別性能衰減
本文提出了基于遮擋維度描述的方法,對遮擋元素進行標注,建立了TUOD遮擋圖像庫。圖像庫采用層狀結構,以遮擋的分類為依據(jù),使圖像庫的結構嚴謹又不乏靈活性,便于探索遮擋因素影響物體識別檢測算法的規(guī)律。TUOD圖像庫體現(xiàn)出了針對性和完整性,克服了以往圖像庫中遮擋分類與標注不詳細、缺乏量化的不足,保證了圖像庫的彈性和容量,使得圖像庫的圖片易于處理和檢索,具有更普遍的適用意義。相比較之下,本遮擋圖像庫:①建立了針對遮擋的圖像難度函數(shù)模型和圖像遮擋程度量化標準;②創(chuàng)新性的定義了4個遮擋維度,提出遮擋圖像庫的組織結構,標注遮擋屬性;③對VGG-16算法的抗遮擋性能進行分析,為抗遮擋算法的優(yōu)化和改進奠定了基礎。
本文希望通過構建含有遮擋的圖像庫,以達到評估算法性能的目標,從而進一步針對性地優(yōu)化識別檢測算法,以克服目前目標識別檢測過程中所面臨的種種困難,研究遮擋對圖像認知的影響規(guī)律,為復雜場景中的目標檢測、識別應用提供抗遮擋圖像認知模型和算法,為計算機視覺提供新的理論和方法。
[1] 高艷霞. 基于Gabor+ PCA特征與粒子群算法的部分遮擋人耳識別研究[J]. 圖學學報, 2014, 35(1): 100-104.
[2] 羅月童, 朱會國, 韓娟, 等. 遮擋線索增強的最大密度投影算法[J]. 圖學學報, 2014 , 35(3): 343-349.
[3] EVERINGHAM M, ESLAMI S M A, VAN GOOL L, et al. The pascal visual object classes challenge: a retrospective [J]. International Journal of Computer Vision, 2015, 111(1): 98-136.
[4] DENG J, DONG W, SOCHER R, et al. Imagenet: a large-scale hierarchical image database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2009: 248-255.
[5] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: common objects in context [M]//Computer Vision–ECCV 2014. Berlin: Springer, 2014: 740-755.
[6] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset [J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
[7] WU T F, LI B, ZHU S C. Learning and-or model to represent context and occlusion for car detection and viewpoint estimation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(9): 1829-1843.
[8] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210-227.
[9] EKENEL H K, STIEFELHAGEN R. Why is facial occlusion a challenging problem? [M]//Advances in Biometrics. Berlin: Springer, 2009: 299-308.
[10] RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: a database and web-based tool for image annotation. International Journal of Computer Vision, 2008, 77(1-3): 157-173.
[11] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 580-587.
[12] GIIRSHIEK R. Fast r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 1440-1448.
[13] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[14] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]//European Conference on Computer Vision. Berlin: Springer, 2016: 21-37.
[15] WANG X, MA H, CHEN X. Geodesic weighted Bayesian model for saliency optimization [J]. Pattern Recognition Letters, 2016, 75(c): 1-8.
[16] WANG X, MA H M, CHEN X Z, et al. Edge preserving and multi-scale contextual neural network for salient object detection [J]. IEEE Transactions on Image Processing, 2018, 27(1): 121-134.
[17] FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition, New York: IEEE Press, 2008: 1-8.
[18] JIA Y Q, SHELHAMER E, DONAHUE J, et al. Caffe: convolutional architecture for fast feature embedding [C]//Proceedings of the 22nd ACM international conference on Multimedia. New York: ACM Press, 2014: 675-678.
[19] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2018-03-02]. https://x-algo. cn/wp-content/uploads/2017/01/VERY-DEEP-CONVOLUTIONAL-NETWORK-SFOR-LARGE-SCALE-IMAGE-RECOGNITION.pdf.
Design and Implementation of Tsinghua University Occlusion Image Database
GAO Lei, LIU Chenhao, MA Huimin
(Department of Electronic Engineering, Tsinghua University, Beijing 100084, China)
Occlusion is a common phenomenon in images characteristic of complex scenes. Discovering the pattern of how occlusion affects image cognition and establishing a cognition model insusceptible to occlusion is closely related to the utilization of computer vision technologies, and it is also an important and pressing scientific problem to be solved. By analyzing occlusion in complex scenes and how occlusion affects image cognition, this paper established the Tsinghua University Occlusion Image Database for evaluating the anti-occlusion performance of algorithms and studying image cognition model. Firstly, based on occlusion’s impact on image cognition, this paper proposed a 4-dimension occlusion attribute including occluded part, occluded area, occlusion relationship and occlusion complexity, as well as a quantification standard for the extent of occlusion. Then we proposed a novel hierarchical dataset structure, based on which the database could be constructed. This paper established TUOD database which consists of 2 100 images extracted from PASCAL VOC and Image Net databases. Those images covered 4 major object types: aeroplane, car, person and animal. An experiment was conducted to analyze the influence of each dimension of occlusion attribute on the performance of Faster R-CNN using images in TUOD. As is shown in the aforementioned experiment, TUOD database can provide quantitative criteria for the anti-occlusion performance of algorithms and thus it is highly practical and lays the foundation for improving the anti-occlusion performance of object recognition algorithms in complex scenes.
influence of occlusion classification; assessment of anti occlusion capability; assessment of anti occlusion capability; occlusion image database
TP391.4
10.11996/JG.j.2095-302X.2018061084
A
2095-302X(2018)06-1084-08
2017-05-04;
2017-05-09
國家重點研發(fā)計劃項目(2016YFB0100900);自然科學基金項目(61171113)
高 磊(1984-),男,河北邯鄲人,碩士研究生。主要研究方向為圖像識別。E-mail:leigaogl@126.com
馬惠敏(1972-),女,河南洛陽人,副教授,博士。主要研究方向為圖像識別。E-mail:mhmpub@tsinghua.edu.cn