於 敏, 于鳳芹, 陳 瑩
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122)
?
超像素詞包模型與SVM分類的圖像標(biāo)注
於 敏, 于鳳芹, 陳 瑩
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫 214122)
為了改善基于詞包模型與支持向量機(jī)(SVM)分類一幅圖對應(yīng)一個標(biāo)簽的單標(biāo)簽分類問題,提出了一種基于超像素詞包模型與SVM分類的圖像標(biāo)注算法。將超像素分割結(jié)果作為詞包模型的基本單元,用詞包模型生成的視覺詞匯表示超像素區(qū)域特征,保留了圖像中的同質(zhì)區(qū)域,很好地利用了圖像的區(qū)域特征。仿真結(jié)果表明,該方法能有效改善基于詞包模型與SVM分類的單標(biāo)簽分類問題,且分類的準(zhǔn)確性有所提高。
超像素分割; 詞包模型; 支持向量機(jī)分類; 視覺詞匯; 圖像分類; 圖像標(biāo)注
圖像標(biāo)注通過對圖像的底層特征進(jìn)行語義建模,用生成的語義模型來標(biāo)注圖像內(nèi)容。圖像標(biāo)注技術(shù)在醫(yī)學(xué)圖像標(biāo)注、數(shù)字圖書館、機(jī)器人視覺場景理解、數(shù)碼相片檢索等方面具有廣泛的應(yīng)用前景。按照語義學(xué)習(xí)方法不同,圖像標(biāo)注可分為基于傳統(tǒng)的分類方法[1~5]、基于概率統(tǒng)計模型方法、基于圖學(xué)習(xí)算法[3]等三種方法。最典型分類模型的就是1998年Chapelle O提出的模型,該模型對一個特定的概念訓(xùn)練支持向量機(jī)(SVM),屬于這個概念的訓(xùn)練圖像被認(rèn)為是正例。針對圖像分類標(biāo)簽較少的問題,文獻(xiàn)[1]提出SVM多分類組的方法,使用多級分類的方法對圖像先進(jìn)行多次分類,提高分類結(jié)果的準(zhǔn)確性。文獻(xiàn)[2]提出融合基于多示例學(xué)習(xí)和基于全局特征的SVM分類結(jié)果對圖像進(jìn)行分類,提高了SVM分類結(jié)果的準(zhǔn)確性。由于傳統(tǒng)的基于SVM分類方法,一幅圖使用一個固定維數(shù)的向量進(jìn)行描述,并沒有考慮圖像區(qū)域的特征和類別。文獻(xiàn)[4]第一次將詞包模型引入計算機(jī)視覺領(lǐng)域,通過對圖像特征聚類生成的視覺詞匯來描述表達(dá)圖像。文獻(xiàn)[5]提出空間金字塔匹配方法,對圖像進(jìn)行均勻分塊,并將所有分塊的特征拼接成圖像的最終特征形式,提高了分類效果。
本文采用超像素作為圖像分類的基本單元,不同的區(qū)域用不同的標(biāo)簽表示。該方法首先用詞包模型進(jìn)行建模構(gòu)建視覺詞匯;然后對測試圖像進(jìn)行超像素分割,用視覺詞匯表示區(qū)域特征;最后對區(qū)域分別進(jìn)行SVM分類,選擇圖像中出現(xiàn)頻率較多的類別作為該圖像分類的最終結(jié)果。
1.1 生成視覺單詞
Dense Sift[5]特征是Sift特征的改進(jìn),現(xiàn)已經(jīng)被廣泛的運用。DenseSift對圖像特征采用密集提取的方法,從左到右,從上到下依次遍歷整幅圖像,對固定網(wǎng)格中的特征點進(jìn)行Sift描述得到大量的局部描述特征,產(chǎn)生128維的特征向量。對特征向量采用k-means聚類算法生成視覺詞典,然后采用向量量化編碼對圖像底層特征進(jìn)行編碼,將每個局部特征只映射到與其距離最相近的視覺單詞,完成底層特征的編碼。
1.2 超像素區(qū)域生成
(1)
(2)
(3)
式中 K為聚類中心,i為聚類中心周圍的區(qū)域中的像素,dlab為像素與聚類中心的顏色距離,dxy為像素與聚類中心的空間距離,m為可變參數(shù),用來調(diào)節(jié)顏色距離和空間距離的權(quán)值。
如某個超像素區(qū)域i中有ni個像素點,每個像素點有128維的Sift特征x,最后用ni×128維向量表示區(qū)域特征Xi=[xi,x2,…,xni]T(其中i=1,…,K,ni為第i個超像素區(qū)域中像素點的個數(shù))。用訓(xùn)練圖像建立的詞包模型,生成個數(shù)為M的視覺單詞。每個視覺單詞由128維的Sift特征表示,用M×128維向量表示視覺詞典的特征Y=[y1,y2,…,yii]T(其中ii=1,…,M,yii為第ii個視覺詞匯的128維的Sift特征)。對每個區(qū)域特征采用向量量化編碼[7],用視覺單詞的集合來對圖像底層特征進(jìn)行描述,計算區(qū)域特征Xi與視覺詞典特征Y的歐幾里得距離,找到每個像素點特征與其距離最相近的視覺單詞。統(tǒng)計視覺單詞出現(xiàn)的頻率,得到區(qū)域中單詞ii出現(xiàn)頻率fii,用視覺單詞直方圖BOWi(其中i=1,2,…,K)來表示超像素的區(qū)域特征。具體地區(qū)域特征Xi與視覺詞典特征Y的歐幾里得距離di為
Xi=[x1,x2,…,xni]
(4)
Y=[y1,y2,…,yii]T
(5)
(6)
超像素的區(qū)域 特征計算公式
BOWi={fi1,fi2,…,fii,…,fit-1,fit}
(7)
式中 Xi為第i個區(qū)域特征,xni為第i個超像素區(qū)域中第ni個像素點的128維的Sift特征,Y為視覺詞典特征,ii為視覺詞匯的個數(shù),yii為第ii個視覺詞匯的128維的Sift特征,BOWi為視覺單詞直方圖,表示第i個超像素區(qū)域的特征,其中fii為區(qū)域中單詞ii出現(xiàn)的頻率。
將表示的K個超像素區(qū)域特征BOWi分別送入已知類的SVM分類器[9]中,得到每個區(qū)域的分類標(biāo)簽??梢岳鄯e區(qū)域分類結(jié)果的每個不同標(biāo)簽出現(xiàn)的個數(shù),選擇圖像中出現(xiàn)頻率較多的類別作為該圖像分類的最終結(jié)果。
本仿真實驗圖庫采用微軟劍橋研究院(MicrosoftResearchCambridge,MSRC)圖像分類測試庫[10],在Win7系統(tǒng)下用Matlab2010a版本進(jìn)行仿真實驗。MSRC有20類圖像樣本。為了使實驗具有說服性,從這個數(shù)據(jù)庫中隨機(jī)選取10類來進(jìn)行實驗。這十類圖像數(shù)據(jù)分別為:草、樹木、飛機(jī)、汽車、自行車、羊、標(biāo)簽、狗、水、船。圖1中列舉了一些本文算法在MSRC圖像庫的檢測結(jié)果,其中,前3行是多標(biāo)簽標(biāo)注的結(jié)果,包括草、樹木和飛機(jī)等復(fù)雜背景的圖像。第4行是單標(biāo)簽的圖像分類。圖2為本文算法與文獻(xiàn)[4]分類結(jié)果進(jìn)行比較,其中,第一列為原圖,第二列為文獻(xiàn)[4]的仿真結(jié)果圖,第三列是本文的標(biāo)注結(jié)果,由圖可知文獻(xiàn)[4]只能對圖像進(jìn)行單個類別的分類,如圖1、圖2所示該算法實現(xiàn)了圖像多標(biāo)簽預(yù)測,有效改善SVM的單標(biāo)簽分類問題。
圖1 MSRC圖像庫標(biāo)注的結(jié)果Fig 1 Annotation results of MSRC image libarary
本文采取準(zhǔn)確率來衡量算法性能,它的范圍是[0,1],取值越大說明識別效果越好。表1是仿真實驗的結(jié)果與算法文獻(xiàn)[4] 、文獻(xiàn)[11]與文獻(xiàn)[5]分別在MSRC圖像庫進(jìn)行結(jié)果比較,結(jié)果表明,本文算法充分利用了超像素的區(qū)域特征,所以在準(zhǔn)確率方面也有所提升。
圖2 本文算法與文獻(xiàn)[4]分類結(jié)果進(jìn)行比較Fig 2 Comparison of this algorithm with classification result of literature 8
算法BOF[4]PMK[11]SPM[5]PMK[11]+SPM[5]本文準(zhǔn)確率/%7677687981
仿真實驗結(jié)果表明:本文算法能有效改善分類算法的單標(biāo)簽分類問題,且分類效果也有所提高。但是該算法只是利用了圖像的Sift特征,并沒有利用圖像的其他特征,有待新的研究和改進(jìn)。
[1] Kingsky G,Edward Y C,Beitao L.Using one class and two class SVMs for multiclass image annotation[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(10):1333-1346.
[2] Qi X,Han Y.Incorporating multiple SVMs for automatic image annotation[J].Pattern Recognition,2007,40(2):728-741.
[3] Liu J,Li M,Liu Q.Image annotation via graph learning[J].Pattern Recognition,2009,9(31):218-228.
[4] Csurka G,Dance C R,Fan L X.Visual categorization with bags of keypoints[C]∥Processing of the 8th European Conference on Computer Vision,2004:1-22.
[5] Svetlana L,Cordelia S,Jean P.Beyond bags of features:Spatial pyramid matching for recognizing natural scene categories[C]∥Proceedings of IEEE Conference on Computer Visual and Pattern Recognition,2006:2169-2178.
[6] Lowe D G.Distinctive image features from scale-invariant keypionts[J].International Journal of Computer Vision,2004,60:91-110.
[7] Andrea Vedaldi ,Brian Fulkerson.Vlfeat:An open and portable library of computer vision algorithms[C]∥Proceedings of the 18th ACM International Conference on Multimedia,2010:1469-1472.
[8] Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].IEEE Transactions on Pattern and Machine Intelligence,2012,34(11):2274-2282.
[9] Chih C C,Chih J L.LIBSVM :A library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(27):1-27.
[10] Shotton J,Winn C R,Criminisi A.Textonboost:Joint appearance shape and context modeling for mulit-class object recognition and segmentation[C]∥European Conference on Computer Vision,2006:1-15.
[11] Grauman K,Darrell T.The pyramid match kernel:Discriminative classification with sets of image features[C]∥Proceeding of the Tenth IEEE International Conference on Computer Vision,2005:1458-1465.
Image annotation based on super-pixel bag of words model and SVM classification
YU Min, YU Feng-qin, CHEN Ying
(School of Internet of Things Engineering, Jiangnan University,Wuxi,214122,China)
In order to improve single label classification problem based on the bag of words model and SVM classification of a graph corresponding to a label,put forward an image annotation algorithm,which bases on super-pixel bag of words model and SVM classification.The algorithm uses super-pixel segmentation results as basic unit of bag of words model,super-pixel regional characteristics expressed by visual words generated by bag of words model,keeps homogeneous area in image,take well use of regional characteristics of image.Simulation results show that the algorithm can effectively improve the single label classification problem based on bag of words model and SVM classification,and classification accuracy improved.
super-pixel segmentation; bag of words model; SVM classification; visual words; image classification; image annotation
10.13873/J.1000—9787(2016)12—0063—03
2016—02—23
TP 212
A
1000—9787(2016)12—0063—03
於 敏(1988-),女,江蘇南通人,碩士研究生,主要研究方向為圖像信號與信息處理。