付賽男,朱 俊,張 瑞,鄒維嘉
(上海交通大學圖像通信與網絡工程研究所,上海200240)
在過去的十多年中,場景分類在計算機視覺領域受到了很大的重視。所謂場景分類,就是自動判別一個語義類別集中的一幅場景圖像屬于哪個場景類(如海岸、山脈和街道)[1]。目前已有很多用于場景分類的方法??傮w來說,場景分類共有兩步:第一步,提取圖像的描述子來表示圖像;第二步,在第一步的基礎上,通過使用分類器把輸入的場景圖像分為不同的場景類別。
簡單地,可以提取一種圖像特征來表示圖像,到目前為止,應用到場景分類的圖像特征有很多種,用于表示圖像的特征包括紋理特征、顏色特征等。尺度不變特征轉換SIFT(Scale Invariant Feature Transform)是一種在物體識別領域廣泛應用的圖像描述子[2],CENTRIST(Census Transform Histogram)是一種適用于場景分類的圖像特征。對于不同的圖像,會有很不同的視覺感受。Wu和Rehg[3]對不同的圖像特征用于圖像分類的結果進行了研究,發(fā)現一些圖像特征對于場景分類能得到很好的分類準確率,但對物體識別卻很難得到好的結果,而另外一些圖像特征恰恰得到相反的結果。所以,對一組圖像特征進行融合來表示圖像而不是只使用一種圖像特征,使用多線索的方法是目前圖像分類的一個趨勢。
對不同的圖像特征進行融合的最簡單方法就是直接把不同的幾種特征向量串接成一個特征向量來表示圖像。文獻[4]提出了一種使用詞袋模型(Bag-of-Words Model)和空間金字塔的多圖像特征通道來表示的圖像的框架。Varma和Ray[5]通過使用多核學習MKL(Multiple Kernel Learning)對多個不同的圖像特征進行融合,并且在幾個基準數據集上都得到了很好的分類結果。
如果使用多線索的方法,就很有可能得到一個高維的圖像特征描述子,在做實驗的時候需要更多的內存空間和更長的實驗時間。而且還存在另外一個不可忽視的問題,即這一組用來表示圖像的特征信息是否都必要。一般來說,融合的圖像描述子可能包含冗余信息或噪聲等,導致不好的實驗結果。
本文主要關注場景分類的第一步,即圖像的表示。使用SIFT、CENTRIST、基于梯度方向直方圖HOG(Histogram of Oriented Gradients)、GIST這4種圖像特征進行融合得到一個特征向量來表示圖像。提出了使用主成分分析PCA(Principal component Analysis)對融合的圖像特征進行降維。
在上面所提到的第二步中,使用線性核的支持向量機SVM(Support Vector Machine)[6]。首先使用所選取的數據集中的訓練樣本訓練模型,然后對數據集中的測試圖像進行測試,并對得到的實驗結果進行評價。
實驗流程圖如圖1所示,分別提取了圖像的4種圖像特征:SIFT,CENTRIST,HOG和GIST。SIFT用來偵測與描述影像中的局部性特征,它在空間尺度中尋找極值點,并提取出其位置、尺度、旋轉不變量,此算法由David Lowe在1999年發(fā)表[7],對于光線、噪聲、些微視角改變的容忍度也相當高。CENTRIST通過計算圖像中每個像素點的CT(Census Transform)值來得到圖像的局部結構信息,而大尺度的結構信息是由相鄰像素CT值的強相關性和統(tǒng)計各個像素CT值得到的CT直方圖得到[8]。這里的GIST模型計算加窗傅里葉變換的幅度譜,選取4×4等大、無重疊的區(qū)域作為窗[9]。HOG特征是在均勻分布的密集網格上計算梯度方向的個數,并使用局部對比歸一化以提高準確率。
圖1 實驗框架
把4種圖像特征直接串接到一起,得到了圖像的融合特征向量。接下來,使用PCA對融合的特征向量進行降維。PCA是一種基于特征向量的、最簡單的多元分析方法[10]。它可以從多元事物中解析出主要影響因素,揭示事物的本質,簡化復雜的問題,計算主成分的目的是將高維數據投影到較低維空間。對已知m×k維的矩陣X(X是1個共有m個樣本,特征維數為k的矩陣),首先對其進行中心化得到m×k維的矩陣X1(每列均值為0,方差為一確定值),即
式中:mean(X)是對矩陣X的每列求平均得到的1×k維的矩陣;std(X)是對矩陣X的每列求標準差得到的1×k維的矩陣。
計算矩陣X1的協(xié)方差矩陣V
可以得到m×m維的協(xié)方差矩陣V的特征值v和特征向量D(每1列為1個特征向量)。把v和D均按特征值大小降序排列,可以得到投影矩陣,n是想要降到的維數。
最后,得到投影后的矩陣Xpro,即
使用SVM對用特征表示的圖像進行訓練和測試。
提取特征之前首先對數據集做預處理,把彩色圖像轉換為灰度圖像,SIFT、GIST這兩種特征還需要把灰度圖像的大小調整一致,本文中提取SIFT特征時,圖像大小調整為300×300,而對于GIST特征,調整為256×256。
本文中使用了標準的SIFT(即選取詞典大小V為512,VQ編碼,sum pooling以及使用3層金字塔),并結合詞袋模型來表示圖像。所謂詞袋模型,就是通過量化視覺特征,用類似于單詞的視覺特征來表示圖像[11]。提取CENTRIST特征時,首先計算各個像素的CT值,然后統(tǒng)計CT值的直方圖,即得到圖像的CENTRIST特征表示。對于HOG特征,本文中使用不重疊的分塊分別提取HOG特征。
在提取上述4種特征之后,要把每幅圖片的每種特征都轉化為1個行向量表示,把該行向量作為后面分類器的輸入。在融合特征的時候,只需把1幅圖像的4種特征的行向量串接一起得到1個更高維的行向量,這就是所得到的融合之后的特征。
對于4種特征和融合特征,在加入PCA之后,有2個參數可供調整:1)想要降到的維數n;2)第二步中分類器可調參數C。
對于原始10 752維的SIFT特征,對于每次試驗,分別選擇了維數n=10 000,9 000,8 000,7 000,5 000,3 000,2 000,1 000,800,600,400,200,100,50和參數C=-5,-3,-1,1,3,5,7。
對于原始256維的CT特征,對于每次試驗,分別選擇了維數n=200,150,100,50和參數C=-5,-4,-3,-2,-1,0,1,3,5。
對于原始1 024維的HOG特征,對于每次試驗,分別選擇了維數n=950,800,600,400,200和參數C=-9,-7,-5,-3,-1,1。
對于原始312維的GIST特征,每次試驗分別選擇了維數n=300,250,200,150,100,50和參數C=-5,-3,-2,-1,1,3,5。
對于融合的特征,每次試驗分別選擇了維數n=12 000,11 000,10 000,9 000,8 000,7 000,5 000,4 000,3 000,2 000,1 000,700,400,200,100,50,30和參數C=-5,-3,-1,1,3,5,7。
本文使用15類場景數據集。該數據集共有4 485幅圖像,包括15個場景類別,分別為:bedroom(216),CALsuburb(241),industrial(311),kitchen(210),livingroom(289),MITcoast(360),MITforest(328),MIThighway(260),MITinsidecity(308),MITmountain(374),MITopencountry(410),MITstreet(292),MITtallbuilding(356),PARoffice(215),store(315)。所有的實驗均是在灰度圖像上進行,對數據集重復進行5輪隨機實驗,每一輪都是隨機劃分訓練集和測試集圖像(每輪實驗中,每類隨機選取100幅圖像作為訓練集,剩下的圖像作為測試集)。使用平均識別率ARR(Average Recognition Rate)來評價數據集中每類的最終實驗結果。
表1列出了未使用PCA時在5類場景數據集上所得出的實驗結果。使用PCA對各個特征向量進行降維,圖2和圖3分別顯示了4種特征和融合特征使用PCA后隨著選用降維參數n的不同實驗結果的變化曲線圖,其中橫軸為n,縱軸為平均識別率ARR,對于每個n值,調整分類器參數C的值,使得在該n值下ARR最高,并把最高的ARR值作為取該n值時的實驗結果。從圖2和圖3可知,隨著降維維數的不同,最終的結果變化很大,取每個特征的最高的ARR作為之后的比較。另外,圖3中可看出當維數降到50維時,ARR達到最高0.77,比之前未使用PCA的結果提升了很多,歸結于原來的特征向量里含有冗余信息和噪聲,降維之后,這些無關信息被濾除,從而提升了最終的結果。
表1 未使用PCA實驗結果
基于上述實驗結果得到表2。對于每種特征,隨著特征向量所降到的維數不同,分類的準確率也不同。對于單獨的特征向量,使用PCA之后得到的分類準確率一般都會降低,這是因為這些特征維數不高,特征向量里面冗余信息不多,降維后有可能去除了一些對圖像表示有用的信息。但對于SIFT,加入PCA對特征向量降維后,分類準確率得到了提高,這是因為SIFT特征具有很高的維數,里面包括冗余信息,在降維的過程中去除了冗余信息和噪聲,使得分類準確率得以提升。
表2 使用PCA實驗結果
本文中,考慮到在使用高維的特征向量來表示圖像時,可能會包含冗余信息,如果把幾種不同的特征向量融合到一起,不同的特征之間可能含有重疊的信息,融合的特征向量包含大量的冗余信息,所以提出了使用PCA對特征向量進行降維以達到去除冗余信息和噪聲的目的?;趯嶒灲Y果,得出結論:1)對于維數不高的單個特征向量,在降維后一般ARR都會下降,這是因為把一部分有用信息給去除了;2)但對于維數很高的單個特征向量和融合之后的特征向量,降維后可以把一些冗余信息去掉,從而提高了ARR。
[1]LI F F,PERONA P.A Bayesian Hierarchical Model for Learning Natural Scene Categories[C]//Proc.CVPR 2005.[S.l.]:IEEE Press,2005:524-531.
[2]LAZEBNIK S,SCHMID C,PONCE J.Beyond bag of features:Spatial pyramid matching for recognizing natural scene categories[C]//Proc.CVPR 2006.[S.l.]:IEEE Press,2006:2169-2178.
[3]WU J,REHG J M.CENTRIST:A visual descriptor for scene categorization[C]//Proc.IEEE Transactions on Pattern Analysis and Machine Intelligence 2009.[S.l.]:IEEE Press,2009:1489-1501.
[4]LU F,YANG X,LIN W,et al.Image classification with multiple feature channels[J].Optical Engine,2011,50(5):57-67.
[5]VARMA M,RAY D.Learning the discriminative power-invariance trade-off[C]//Proc.ICCV 2007.[S.l.]:IEEE Press,2007:1-8.
[6]CHRISTOPHER J C.A tutorial on support vector machines for pattern recognition[J].Data Mining and Knowledge Discovery,1998(2):121-167.
[7]LOWE D G.Object recognition from local scale-invariant features[C]//Proc.seventh the International Conference on Computer Vision.[S.l.]:IEEE Press,1999:1150-1157.
[8]OLIVA A,TORRALBA A.Modeling the shape of the scene:a holistic representation of the spatial envelope[J].International Journal of Computer Vision,2001,42(3):145-175.
[9]BOSCH A,MUNOZ X,Marti R.A review:which is the best way to organize/classify images by content?[J].Image and Vision Computing,2007,25(6):778-791.
[10]Principal component analysis:Wikipedia[EB/OL].[2012-10-13].http://en.wikipedia.org/wiki/Principal_component_analysis#cite_note-0.
[11]PEARSON K.On lines and planes of closest fit to systems of points in space[J].Philosophical Magazine,1901,2(6):559-572.
[12]WU J,REHG J M.Where am I:place instance and category recognition using spatial PACT[C]//Proc.CVPR 2008.[S.l.]:IEEE Press,2008:1-8.
[13]LI F F,FERGUS R,PERONA P.Learning generative visual models from few training examples:an incremental Bayesian approach tested on 101 object categories[C]//Proc.CVPR 2004.[S.l.]:IEEE Press,2004:178.