摘要:隨著多媒體技術(shù)的不斷發(fā)展,傳統(tǒng)的基于關(guān)鍵字匹配的圖像檢索方式已經(jīng)不能滿足圖像檢索的需求,基于內(nèi)容的圖像檢索方式成為研究的重點(diǎn)。為了實(shí)現(xiàn)圖像低層特征和高層語義的關(guān)聯(lián),文中采用提取圖像的底層特征,使用支持向量機(jī)(SVM)對圖像進(jìn)行分類的方法,實(shí)驗(yàn)中比較了不同圖像特征對分類結(jié)果的影響。結(jié)果表明,采用多種特征綜合對圖像進(jìn)行分類會(huì)取得比較好的結(jié)果。
關(guān)鍵詞:圖像檢索;圖像特征;支持向量機(jī);圖像分類
引言
隨著數(shù)字圖像的日益增多,圖像檢索技術(shù)在不斷的向前推進(jìn)。圖像檢索技術(shù)的發(fā)展經(jīng)過了基于關(guān)鍵字檢索的“以字找圖”方式和基于圖像底層特征相似性比較的“以圖找圖”方式。在理想的狀況下,用戶期望根據(jù)圖像的高層語義進(jìn)行檢索得到有用的圖像。在利用圖像高層語義進(jìn)行檢索之前,對圖像數(shù)據(jù)庫進(jìn)行語義分類是一個(gè)有效的方法,具有相同語義的圖像一般也都具有相似的視覺特征,使得將圖像按語義進(jìn)行分類成為可能。圖像分類僅僅試圖將圖像歸并到某一種語義類別中,從而實(shí)現(xiàn)圖像語義特征的提取。
圖像分類的難點(diǎn)在于如何根據(jù)圖像的底層視覺特征將圖像歸并到某種有意義的類別當(dāng)中。許多機(jī)器學(xué)習(xí)的方法由于可以很好的獲得圖像特征和文本描述的對應(yīng)關(guān)系,被引入到了這一領(lǐng)域。萬華林結(jié)合圖像的顏色、紋理和邊緣特征,用SVM實(shí)現(xiàn)了圖像的語義分類。Boutell采用貝葉斯網(wǎng)絡(luò),利用圖像的視覺特征,處理了室內(nèi)室外圖像的分類問題。SIMPLIcity系統(tǒng)將圖像分成紋理/非紋理類別,以及照片/非照片語義類。卷積神經(jīng)網(wǎng)絡(luò) 用在圖像分類和物體檢測中。
由于支持向量機(jī)(SVM)在優(yōu)越性能,在模式識(shí)別問題中得到了廣泛的應(yīng)用,本文采用SVM設(shè)計(jì)圖像分類器,將圖像歸并到某一語義類別當(dāng)中,實(shí)現(xiàn)圖像語義特征的提取。
1 圖像底層特征的提取
目前圖像的顏色和紋理特征的提取技術(shù)比較成熟,本文采用這兩種特征來作為圖像底層特征的表示。
1.1 顏色特征
描述了圖像的顏色統(tǒng)計(jì)特性,提取方便,速度快,缺點(diǎn)是不能表達(dá)圖像的空間信息以及圖像中的目標(biāo)物體。
1.1.1 HSV空間非均勻量化顏色直方圖
顏色直方圖是圖像的一種全局特征表示。每一幅圖像具有唯一的顏色直方圖,但是不同的圖像可能具有相同的顏色直方圖。由于HSV更符合人的視覺特征,這里考慮采用HSV空間顏色直方圖。在不降低檢索性能的前提下,同時(shí)節(jié)省存儲(chǔ)空間和計(jì)算時(shí)間,將HSV三個(gè)分量進(jìn)行非等間隔量化。
本文中將H,S,V分別劃分成7份,2份,2份,按照公式,式中Qs,Qv,Q分別取2,這樣得到一個(gè)36維的特征向量。
1.1.2 RGB空間顏色矩
顏色矩是一種簡單而且有效的顏色特征,是由Stricker和Oreng提出,這種方法的數(shù)學(xué)基礎(chǔ)是圖像中的任何顏色分布都可以用它的矩來表示,由于圖像的信息多集中在圖像的像素顏色的低階矩上,一般只提取一階中心矩(均值),二階中心距(方差),三階中心距(斜度)作為顏色特征的表示。本文采用RGB顏色空間,對R,G,B3個(gè)顏色分量分別計(jì)算上述3階矩,得到9維的顏色矩特征。
1.2 紋理特征
紋理是描述了圖像或者圖像區(qū)域所對應(yīng)景物的表面特征,與顏色特征不同,紋理特征需要在包含多個(gè)像素點(diǎn)的區(qū)域中進(jìn)行統(tǒng)計(jì)計(jì)算,不是基于單個(gè)像素點(diǎn)的特征。本文采用灰度共生矩陣的紋理特征分析方法。
灰度共生矩陣即表示圖像灰度及空間相關(guān)的矩陣,即圖像中相距(Δx,Δy)的兩個(gè)灰度像素同時(shí)出現(xiàn)的聯(lián)合概率分布。若將圖像的灰度級(jí)定位L,那么共生矩陣為L*L矩陣,可表示為M(Δx,Δy)(h,k),其中位于(h,k)的元素mhk的值表示一個(gè)灰度級(jí)為h,另一個(gè)灰度級(jí)為k的兩個(gè)相距為(Δx,Δy)的像素對出現(xiàn)的次數(shù)。
實(shí)驗(yàn)中采用反差、能量、熵和相關(guān)四個(gè)特征量來表示紋理特征。
反差(主對角線的慣性矩):
能量(角二階矩):ASM=ΣhΣk(mhk)2
熵:ENT=-ΣhΣkmhk logmhk
相關(guān):COR=其中μx、μy和σx、σy分別為mx、my的均值和方差。
構(gòu)造4個(gè)方向上的共生矩陣,對共生矩陣歸一化,取上述4個(gè)參數(shù)的均值和標(biāo)準(zhǔn)差作為紋理特征向量中的各個(gè)分量,得到一個(gè)8維的紋理特征向量。
2支持向量機(jī)的構(gòu)造
支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,以期獲得最好的推廣能力[5]。
相比起神經(jīng)網(wǎng)絡(luò)技術(shù),SVM使用起來簡單方便。它將待解決的問題轉(zhuǎn)化為一個(gè)二次規(guī)劃尋優(yōu)問題,從而避免了局部收斂現(xiàn)象,理論上保證了全局最優(yōu)解。
給定一組帶標(biāo)記的訓(xùn)練數(shù)據(jù)對(xi,yi),i=1,2,…,l,其中xi∈Rn,且yi∈{-1,1}1。SVM需要解決如下的最優(yōu)解問題:
訓(xùn)練向量xi被φ函數(shù)映射到高維空間。在特征空間中,分類器實(shí)現(xiàn)最有分類超平面的函數(shù)為:
f(x)=sign(ΣaiK(xi,xj)+b,其中K(xi,yi) =φ(x)φ(xi)為其核函數(shù)。采用不同的點(diǎn)積運(yùn)算將產(chǎn)生不同的支持向量機(jī)算法,常用的支持向量機(jī)核函數(shù)有多項(xiàng)式核函數(shù)、高斯核函數(shù)和Sigmoid核函數(shù)。
用SVM實(shí)現(xiàn)圖像分類,定義所有圖像為輸入空間中的點(diǎn),要從圖像中抽取圖像的特征向量作為原始空間的輸入向量,由于圖像內(nèi)容的多樣性,所以圖像為非線性可分,采用線性不可分的SVM分類器。采用SVM實(shí)現(xiàn)圖像分類通常需要結(jié)合多個(gè)二值分類器來解決,包括一對一和一對多兩種方法。
3 圖像分類實(shí)驗(yàn)
對于做實(shí)驗(yàn)的圖像類別不能過于抽象,像自然風(fēng)光類、季節(jié)類、某個(gè)國家或者地區(qū)類的圖像,這類圖像難于從顏色紋理特征上把握其共同點(diǎn)。實(shí)驗(yàn)中所用的圖像庫來源于Corel圖像庫,由賓夕法尼亞大學(xué)實(shí)驗(yàn)室整理用于SIMPLIcity[6]的測試圖像庫。該圖像庫包含了10個(gè)語義類別,分別是非洲人物、海灘、羅馬建筑、巴士車、恐龍、大象、花、馬、雪山、美食。每個(gè)語義類別各包含100幅圖像,圖像的大小為256*384或者384*256像素。
實(shí)驗(yàn)中所選取的圖像特征為36維的HSV空間非均勻量化顏色直方圖、9維的RGB空間顏色矩以及8維的灰度共生矩陣,將它們作為支持向量機(jī)的輸入向量對圖像類進(jìn)行學(xué)習(xí),建立圖像底層特征與高層語義的關(guān)聯(lián)。訓(xùn)練測試工具采用的SVM為林智仁的LIBSVM[7]庫,它提供了編譯好的可執(zhí)行文件,對SVM所涉及的參數(shù)調(diào)節(jié)相對較少,提供了很多的默認(rèn)參數(shù),并且提供了交互檢驗(yàn)的功能。在實(shí)驗(yàn)中選取高斯核函數(shù),參數(shù)為默認(rèn)參數(shù)。
3.1實(shí)驗(yàn)一
從每類圖像中抽取60幅圖像作為實(shí)驗(yàn)的訓(xùn)練集,剩余的40幅圖像作為測試集,得到的訓(xùn)練集大小為600幅,測試集大小為400幅。 共進(jìn)行5組實(shí)驗(yàn)分別采用不同的特征以及特征的組合作為支持向量機(jī)的輸入向量構(gòu)造分類器。
得到的實(shí)驗(yàn)結(jié)果如表1所示:
為了更好的說明每一類別的分類正確率,得到采用顏色直方圖、顏色矩和灰度共生矩陣作為綜合特征時(shí)的混淆矩陣如圖1所示
由表1和圖1結(jié)果可以看出:
(1)用綜合特征作為支持向量機(jī)輸入向量的分類性能要優(yōu)于采用單一特征作為輸入向量。
(2)恐龍、花這兩類由于由于背景單一,達(dá)到了很好的分類效果,由于歷史建筑、大象以及雪山這幾類圖像中的背景比較復(fù)雜,導(dǎo)致這幾類的分類正確率特別低,從而使總體的分類正確率不高。這幾類圖像難以從顏色紋理特征上把握其共同點(diǎn),所以僅從顏色紋理底層特征上進(jìn)行區(qū)分效果不好,需要選取新的圖像特征或者建立新的分類模型。
3.2實(shí)驗(yàn)二
選取其中的6個(gè)語義類別與文獻(xiàn)中提到的分類正確率進(jìn)行比較,本文采用三種特征綜合作為支持向量機(jī)的輸入向量。
從實(shí)驗(yàn)結(jié)果可以看出
(1)對于背景單一的花、馬、恐龍,取得了100%的分類正確率。
(2)對于背景稍顯復(fù)雜的大象和建筑物兩類,分類正確率不高。
4 結(jié)論
本文采用多特征結(jié)合的圖像分類方法,分別采用顏色直方圖和顏色矩表征顏色特征、灰度共生矩陣表征紋理特征,采用較少的特征維數(shù)較好的表示了圖像。對基于SVM的圖像分類方法進(jìn)行研究,采用libsvm實(shí)現(xiàn)圖像的多分類,對于背景不是很復(fù)雜的圖像取得了較為顯著的分類結(jié)果。但是對于背景復(fù)雜的圖像類別分類準(zhǔn)確率不高,在下一步的工作中考慮選取更加合適的圖像特征來進(jìn)行圖像分類。
參考文獻(xiàn)
[1]萬華林,Chowdhury MU.基于支持向量機(jī)的圖像語義分類[J].軟件學(xué)報(bào),2003,14(11):1891-l899.
[2]Bouteli.M,Luo Jie-bo.Bayesian fusion of camera metadata cues in semantic scene classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2004.
[3]James Z.Wang,Jia Li,Gio Wiederhold.SIMPLIcity: Semantics- Sensitive Integrated Matching for Picture Libraries[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(9):947-963, 2001.
[4]常亮,鄧小林等. 圖像理解中的卷積神經(jīng)網(wǎng)絡(luò)[J],自動(dòng)化學(xué)報(bào),2016,9(42):1300-1312.
[5]V.Vapnik.”The nature of statistical learning theory”Springer- Verlag, New York,1995.
[6]James Z.Wang,Jia Li,Gio Wiederhold.SIMPLIcity: Semantics- Sensitive Integrated Matching for Picture Libraries[J]. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(9):947-963, 2001.
[7]http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[8]劉盈盈,石躍祥. 一種基于SVMS的語義圖像分類方法[J].計(jì)算機(jī)應(yīng)用研究,2008,25(2):452-454.
[9]潘崇,朱紅斌. 基于自適應(yīng)特征選擇和SVM的圖像分類的研究[J].計(jì)算機(jī)應(yīng)用與軟件,2010,1:244-246.
作者簡介:蘇亮(1987.6-),漢族,山東萊蕪人,碩士,工程師,研究方向:人工智能、網(wǎng)絡(luò)安全。