張志柏,朱 敏,孫傳慶,牛 杰
(常州信息職業(yè)技術(shù)學(xué)院 電子與電氣工程學(xué)院,江蘇常州 213164)
?
基于類物體采樣方法的多類別物體識(shí)別
張志柏,朱 敏,孫傳慶,牛 杰
(常州信息職業(yè)技術(shù)學(xué)院 電子與電氣工程學(xué)院,江蘇常州 213164)
提出一種基于類物體區(qū)域檢測(cè)的BoW(Bag of Words)框架物體識(shí)別方法,采用改進(jìn)的BING(Binarized Normed Gradients)算子檢測(cè)分割出圖像中的可能物體區(qū)域后,利用RootSIFT算子提取特征,送入后續(xù)BoW框架進(jìn)行物體類別識(shí)別.將該方法應(yīng)用于PASCAL VOC2007圖像集,試驗(yàn)結(jié)果表明:相較于整幅圖像的特征計(jì)算,將特征提取與匹配限定在固定的可能物體區(qū)域的做法可以提高計(jì)算速度和識(shí)別效率.此外,該方法在VOC2007圖像集上達(dá)到了平均33.45%的識(shí)別準(zhǔn)確率,優(yōu)于相關(guān)文獻(xiàn)算法.
類物體采樣; BoW模型; BING算子; 物體識(shí)別
目標(biāo)物體識(shí)別一直是計(jì)算機(jī)視覺(jué)的重要課題.識(shí)別是跟蹤、計(jì)數(shù)、分類等應(yīng)用的基礎(chǔ),在諸如人臉識(shí)別[1]、智能交通監(jiān)控[2]等領(lǐng)域有著較大的發(fā)展前景.
通常的目標(biāo)識(shí)別方法都需要依賴圖像分割技術(shù),利用各種人工定義的分類器在一系列滑動(dòng)窗口上進(jìn)行特征匹配[3-5],此類方法往往計(jì)算量較大,因此出于實(shí)時(shí)性的考慮,后續(xù)的檢測(cè)系統(tǒng)一般會(huì)選擇弱特征及弱分類器以提升執(zhí)行效率.方法優(yōu)化的突破口主要集中在如何減少滑動(dòng)窗口數(shù)量及提供分類器性能兩個(gè)方面[6-7].生物學(xué)研究[8]表明:人類在觀察場(chǎng)景時(shí),第一步是檢測(cè)出視野中的所有可能物體,然后再去識(shí)別該物體的種類信息.受此啟發(fā),文獻(xiàn)[9]提出了類物體區(qū)域采樣的概念,它代表一個(gè)窗口包含物體可能性的大小.其算法設(shè)計(jì)思路主要是基于圖像中物體和背景各自的固有特征進(jìn)行.物體對(duì)象性思想由于其可以減少圖像的搜索空間、加快處理速度等優(yōu)勢(shì)受到了很多研究的關(guān)注[10-11].
本文將類物體的思想引入到復(fù)雜場(chǎng)景下的物體識(shí)別應(yīng)用中.首先利用類物體區(qū)域檢測(cè)算法標(biāo)識(shí)出圖像中所有可能的物體區(qū)域;然后僅在上述標(biāo)識(shí)區(qū)域中利用BoW模型進(jìn)行物體類別判別;最后在公開(kāi)圖像數(shù)據(jù)集上,與其他識(shí)別算法就執(zhí)行效率及準(zhǔn)確性進(jìn)行對(duì)比分析.試驗(yàn)結(jié)果驗(yàn)證了文中方法的有效性.
目標(biāo)識(shí)別的通用框架是特征表述加分類器,利用滑動(dòng)窗口技術(shù)設(shè)計(jì)固定或動(dòng)態(tài)大小的窗口進(jìn)行逐一匹配,這導(dǎo)致了識(shí)別算法的運(yùn)算量較大,難以滿足實(shí)時(shí)判別的需求.
本文受文獻(xiàn)啟發(fā),將類物體采樣方法引入到多物體識(shí)別應(yīng)用中.首先利用BING算法提取圖像中的可能物體區(qū)域;然后計(jì)算區(qū)域的SIFT類特征,并全部送入BoW模型進(jìn)行判別[11].具體的算法流程結(jié)構(gòu)如圖1所示.
圖1 算法整體結(jié)構(gòu)框圖Fig.1 Block diagram of the overall structure
類物體概念的提出對(duì)于提升物體的識(shí)別應(yīng)用有著積極意義.對(duì)于一幅N×N的圖像來(lái)說(shuō),傳統(tǒng)方法用到的滑動(dòng)窗口可達(dá)N4的數(shù)量級(jí)之多.這樣對(duì)于檢測(cè)系統(tǒng)來(lái)說(shuō),為保障運(yùn)行速度,只能選擇弱特征及弱分類器.若能快速識(shí)別出圖像中的可能物體區(qū)域,就可以在所有候選的窗口中過(guò)濾掉絕大部分,從而減少系統(tǒng)運(yùn)算時(shí)間,甚至也可以采用性能更好的分類器,從而提升識(shí)別準(zhǔn)確率.
文獻(xiàn)[11]提出一種BING算法來(lái)進(jìn)行類物體區(qū)域的提取,其核心思想是在梯度空間圖上,無(wú)論物體是長(zhǎng)的還是寬的,只要?dú)w一化到一個(gè)相同的尺度上(8×8),物體與背景的梯度模式會(huì)十分有共性.這時(shí)用SVM(Support Vector Machine)分類器就能把物體和背景區(qū)分出來(lái).算法最終在測(cè)試圖像集中達(dá)到了300 幀/s的速度,并且取得了良好的識(shí)別準(zhǔn)確率.
本文在BING算法基礎(chǔ)上,加入圖像局部熵思想進(jìn)行算法優(yōu)化.圖像熵是一種特征的統(tǒng)計(jì)形式,它反映了圖像中平均信息量的多少.一幅由直方圖表示圖片的內(nèi)容復(fù)雜度可以通過(guò)以下的熵值來(lái)進(jìn)行體現(xiàn):
(1)
式中:Pv,Ri代表像素亮度V在區(qū)域Ri中的概率密度.一幅圖像不同區(qū)域的歸一化熵圖如圖2所示,可以看出物體和背景直方圖較為明顯的不同,其中圖像右側(cè)XY圖是圖像的局部統(tǒng)計(jì)直方圖,橫坐標(biāo)是灰度值,縱坐標(biāo)是歸一化的統(tǒng)計(jì)數(shù)值.通常物體所在區(qū)域的熵值會(huì)比較大,而背景則具有一致性的特點(diǎn),因此可以引入圖像局部熵來(lái)優(yōu)化物體類別判別.文中修改了BING算法中對(duì)于窗口大小、分類器輸出分?jǐn)?shù)以及最終窗口是否含有目標(biāo)的模型.最終的類物體區(qū)域計(jì)算為
(2)
式中:01表示類物體區(qū)域的分?jǐn)?shù);vi,ti分別是學(xué)習(xí)系數(shù)和偏置項(xiàng);ΗRi是圖像熵值;α是圖像局部熵權(quán)重系數(shù),代表圖像局部熵所占權(quán)重大小,文中試驗(yàn)取α=1.
圖2 物體和背景圖片局部熵對(duì)比Fig.2 Contrast of local entropy between the background and foreground region
近年來(lái),BoW模型已被廣泛應(yīng)用到現(xiàn)實(shí)的圖像分類中,取得了非常不錯(cuò)的效果.模型的通常步驟可以分為特征提取、生成詞典、構(gòu)建歸一化直方圖三個(gè)步驟,其中特征算子常采用SIFT,SURF等尺度不變局部特征描述子.
常規(guī)的特征提取在整幅圖像上進(jìn)行,僅僅單純利用匹配算法就可以直接在不同圖像上對(duì)這些特征進(jìn)行匹配,以用于圖像的識(shí)別和分類.但是在整個(gè)圖像中提取特征進(jìn)行匹配會(huì)消耗大量的計(jì)算資源,同時(shí)由于是從整幅圖像上進(jìn)行考慮,因此對(duì)于真正需要識(shí)別的物體的特征的提取往往不夠細(xì)致.
本文在特征提取之前,首先利用BING方法進(jìn)行可能目標(biāo)區(qū)域的提取,然后直接在目標(biāo)區(qū)域上進(jìn)行特征提取,對(duì)于非目標(biāo)區(qū)域不作考慮.特征提取示意圖如圖3所示.其中圖3(A)是原圖提取尺度不變特征示例,圖3(B~D)是類物體采樣方法后,進(jìn)行特征提取的圖形.特征提取需要在不同尺度上進(jìn)行計(jì)算,如果可以在圖像上將無(wú)關(guān)物體的背景區(qū)域移除,那么將減少大量的特征提取時(shí)間.同樣,在匹配階段,僅僅需要對(duì)于可能區(qū)域范圍進(jìn)行識(shí)別,這將進(jìn)一步節(jié)省時(shí)間,提高準(zhǔn)確率.同時(shí),類物體區(qū)域提取之后,我們還引入了圖像邊緣平滑操作以克服提取出的圖像邊緣強(qiáng)對(duì)比性對(duì)于結(jié)果的影響.文獻(xiàn)[12]提出一種利用極小數(shù)據(jù)空間來(lái)構(gòu)建特征的BRIEF算子,然而當(dāng)圖像復(fù)雜時(shí),算子性能下降明顯.另外,考慮到由于類物體采樣方法的引入,在保證實(shí)時(shí)性前提下,可以適當(dāng)放寬圖像特征提取的運(yùn)算時(shí)間,因此綜合考慮,本文采用一種RootSIFT算子[13]提取圖像特征.該算子利用Hellinger距離替代歐式距離以提供動(dòng)態(tài)性能.
圖3 特征提取示意圖Fig.3 Block diagram of the feature extraction process
提取特征后,利用K-means方法進(jìn)行聚類,根據(jù)碼本生成各物體圖像的直方圖,然后利用RBF(Radial Basis Function)SVM進(jìn)行離線訓(xùn)練,構(gòu)建待識(shí)別物體的支持向量機(jī).
為了驗(yàn)證文中算法性能,選擇公開(kāi)的PASCAL VOC2007[14]數(shù)據(jù)庫(kù)圖像集進(jìn)行測(cè)試.在其訓(xùn)練集中共有9 963幅24 640個(gè)標(biāo)注物體.圖像集總共包含人物、鳥(niǎo)類、貓、飛機(jī)、自行車等20類圖像.部分示例圖像如圖4所示.為了全面測(cè)試算法,我們從算法識(shí)別準(zhǔn)確率、特征算子性能以及模型的泛化能力方面分別加以比較,所有試驗(yàn)均在Inter i72.2 GHz處理器、8 G內(nèi)存的PC電腦上進(jìn)行.
圖4 VOC2007圖像集示例Fig.4 VOC2007 example images
首先,對(duì)于BoW模型中特征算子的選擇,從快速性和準(zhǔn)確性的角度出發(fā),對(duì)比了RootSIFT,SIFT以及BRIEF三類算子對(duì)于模型的影響.人工隨機(jī)挑選300幅自行車類別目標(biāo)圖像進(jìn)行測(cè)試,圖像中的物體標(biāo)注圖像和隨機(jī)抽取的背景圖像用于模型訓(xùn)練.表1為不同特征算子的模型識(shí)別準(zhǔn)確率及特征運(yùn)算時(shí)間對(duì)比結(jié)果.可以看出:RootSIFT特征取得了最高的41.6%的準(zhǔn)確率;SIFT特征次之;BRIEF特征的準(zhǔn)確率下降最為明顯,原因是類物體區(qū)域分割后依然存留著復(fù)雜背景信息.另一方面,BRIEF由于自身特性,運(yùn)算時(shí)間僅為對(duì)比算子的1/40,因此對(duì)場(chǎng)景簡(jiǎn)單、實(shí)時(shí)性要求高的場(chǎng)合具有一定的實(shí)用價(jià)值.
表1 不同特征算子的對(duì)比結(jié)果
其次,文中分別選取深度學(xué)習(xí)方法[15]、分層結(jié)構(gòu)學(xué)習(xí)方法[16]及DPM(Deformable Parts Model)[5]方法進(jìn)行物體識(shí)別準(zhǔn)確率指標(biāo)比較.表2所示為這些方法的試驗(yàn)對(duì)比結(jié)果.根據(jù)結(jié)果,在20類圖像中,本文方法有7類拿到最高的識(shí)別精度結(jié)果,平均準(zhǔn)確率也達(dá)到了33.45%,處于領(lǐng)先水平.在所有方法中,本文方法使用常規(guī)的BoW模型框架,因此試驗(yàn)結(jié)果充分驗(yàn)證了引入類物體區(qū)域分割后對(duì)于識(shí)別結(jié)果性能提升的有效性.
表2 不同方法在VOC2007數(shù)據(jù)集上的準(zhǔn)確率結(jié)果
此外,我們還對(duì)文中模型的泛化能力進(jìn)行了測(cè)試.圖5所示BING_same和BING_different為訓(xùn)練物體種類和測(cè)試物體種類相同和不同的情況.可以看出,在訓(xùn)練好BING判別模型后,即使利用訓(xùn)練集中未包含的物體類別進(jìn)行測(cè)試,依然可以取得良好的識(shí)別效果.將該結(jié)果擴(kuò)展到物體的識(shí)別應(yīng)用中,當(dāng)在類物體區(qū)域中未找到匹配時(shí),可以認(rèn)為發(fā)現(xiàn)新類別物體,進(jìn)而利用特征點(diǎn)信息擴(kuò)展訓(xùn)練目標(biāo)模型,從而提升算法的通用識(shí)別能力.
針對(duì)常規(guī)物體識(shí)別框架算法存在的問(wèn)題,提出了一種基于類物體區(qū)域分割算法的BoW框架實(shí)時(shí)檢測(cè)方法.本文方法首先利用BING算子進(jìn)行快速的類物體區(qū)域檢測(cè),然后僅需要在可能的物體區(qū)域提取特征信息以供后續(xù)的BoW和SVM模型使用.將本文方法與同領(lǐng)域類似應(yīng)用的先進(jìn)算法在公開(kāi)數(shù)據(jù)集上進(jìn)行了算法比較,在保證實(shí)時(shí)性的前提下,本文算法的識(shí)別準(zhǔn)確率能夠取得最優(yōu)的平均準(zhǔn)確率.此外,文中框架的核心在于BING算法的準(zhǔn)確性,雖然BING算子在數(shù)據(jù)集上可以達(dá)到300幀/s速度以及96.2%的準(zhǔn)確率,但是其考量方式采用VOC的“檢測(cè)區(qū)域占真實(shí)面積比例大于50%”的標(biāo)準(zhǔn)顯得較為寬松,試驗(yàn)中發(fā)現(xiàn)會(huì)出現(xiàn)類物體區(qū)域沒(méi)有包含全部物體的情況,未來(lái)的工作可以考慮加入諸如GIST[17]、V1S+[18]、顏色直方圖等特征,以進(jìn)一步優(yōu)化BING算子及BoW模型性能.
圖5 BING2007圖像集示例Fig.5 BING2007 example images
[1] PARKHI O M,SIMONYAN K,VEDALDI A,et al.A compact and discriminative face track descriptor[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2014:1693-1700.
[2] HUANG S C,CHEN B H.Highly accurate moving object detection in variable bit rate video-based traffic monitoring systems[J].Neural Networks and Learning Systems,IEEE Transactions on,2013,24(12):1920-1931.
[3] FERNANDO B,FROMONT E,TUYTELAARS T.Effective use of frequent itemset mining for image classification[M].Berlin:Springer,2012:214-227.
[4] HEITZ G,KOLLER D.Learning spatial context:using stuff to find things[M].Berlin:Springer,2008:30-43.
[5] FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1627-1645.
[6] UIJLINGS J R,VAN DE SANDE K E,GEVERS T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7] DOLL R P,APPEL R,BELONGIE S,et al.Fast feature pyramids for object detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2014,36(8):1532-1545.
[8] DESIMONE R,DUNCAN J.Neural mechanisms of selective visual attention[J].Annual Review of Neuroscience,1995,18(1):193-222.
[9] ALEXE B,DESELAERS T,FERRARI V.What is an object?[C]// Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2010:73-80.
[10] ALEXE B,DESELAERS T,FERRARI V.Measuring the objectness of image windows[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2012,34(11):2189-2202.
[11] CHENG M M,ZHANG Z,LIN W Y,et al.bING:Binarized normed gradients for objectness estimation at 300 fps[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2014:3286-3293.
[12] CALONDER M,LEPETIT V,STRECHA C,et al.Brief:binary robust independent elementary features[M].Computer Vision-ECCV 2010,Berlin:Springer,2010:778-92.
[13] ARANDJELOVIC R,ZISSERMAN A.Three things everyone should know to improve object retrieval[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2012:2911-2918.
[14] EWERINGHAM M,ESLAMI S M A,GOOL L V,et al.The Pascal,visual object classes challenge:a retrospective[J].International Journal of Computer Vision,2015,111(1):98-136.
[15] SZEGEDY C,TOSHEV A,ERHAN D.Deep neural networks for object detection[J].Advances in Neural Information Processing Systems,2013,26:2553-2561.
[16] ZHU L,CHEN Y,YUILLE A,et al.Latent hierarchical structural learning for object detection[C]//Proceedings of the Computer Vision and Pattern Recognition,Piscataway:IEEE,2010:1062-1069.
[17] OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-75.
[18] PINTO N,COX D D,DICARLO J J.Why is real-world visual object recognition hard?[J].PLoS Computational Biology,2008,4(1):27.
Objectness sampling based multiple-object recognition
ZHANG Zhibai, ZHU Min, SUN Chuanqing, NIU Jie
(School of Electrical and Electronic Engineering , Changzhou College of Information Technology , Changzhou 213164, Jiangsu, China)
In this study,an object recognition method for bag of words (BoW) framework is proposed via objectness measurement. Firstly,the object areas are detected and segmented using the improved binarized normed gradient (BING) operator.Then, the features are extracted by RootSIFT operator for object recognition.Finally,this method is employed for PASCAL VOC2007 image-set. Therefore,it is found from experimental results that,compared with the whole image feature computation,the computational speed and recognition efficiency are enhanced by feature extraction and matching limitation to possible object areas.In addition,the algorithm in this approach is proven better than those in other literatures with average recognition accuracy of 33.45% for VOC2007 image-set.
objectness measurement; BoW model; BING feature; object recognition
張志柏(1970-),男,副教授.E-mail:zhluluzh@yeah.net
TP 391.41
A
1672-5581(2017)01-0001-05