張 永,楊 浩
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050)
(*通信作者電子郵箱kdyh123@163.com)
基于優(yōu)化視覺詞袋模型的圖像分類方法
張 永,楊 浩*
(蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050)
(*通信作者電子郵箱kdyh123@163.com)
針對(duì)視覺詞袋(BOV)模型中過大的視覺詞典會(huì)導(dǎo)致圖像分類時(shí)間代價(jià)過大的問題,提出一種加權(quán)最大相關(guān)最小相似(W-MR-MS)視覺詞典優(yōu)化準(zhǔn)則。首先,提取圖像的尺度不變特征轉(zhuǎn)換(SIFT)特征,并用K-Means算法對(duì)特征聚類生成原始視覺詞典;然后,分別計(jì)算視覺單詞與圖像類別間的相關(guān)性,以及各視覺單詞間的語義相似性,引入一個(gè)加權(quán)系數(shù)權(quán)衡兩者對(duì)圖像分類的重要程度;最后,基于權(quán)衡結(jié)果,刪除視覺詞典中與圖像類別相關(guān)性弱、與視覺單詞間語義相似性大的視覺單詞,從而達(dá)到優(yōu)化視覺詞典的目的。實(shí)驗(yàn)結(jié)果表明,在視覺詞典規(guī)模相同的情況下,所提方法的圖像分類精度比傳統(tǒng)基于K-Means算法的圖像分類精度提高了5.30%;當(dāng)圖像分類精度相同的情況下,所提方法的時(shí)間代價(jià)比傳統(tǒng)K-Means算法下的時(shí)間代價(jià)降低了32.18%,因此,所提方法具有較高的分類效率,適用于圖像分類。
圖像分類;視覺詞袋模型;特征提取;視覺詞典
近幾年來,人工智能領(lǐng)域呈現(xiàn)出飛速發(fā)展的勢(shì)頭,圖像分類技術(shù)[1-4]也得到了人們的普遍關(guān)注。早期的詞袋模型被用在文本分類中,通過統(tǒng)計(jì)文本詞典中與順序無關(guān)的單詞的頻率就可以對(duì)文本進(jìn)行精確的分類。然而文本分類中的文本詞典是可以被確定的,而基于詞袋模型下的圖像分類[5-7]中的視覺詞典則需要通過對(duì)圖像進(jìn)行特征的提取,并對(duì)特征進(jìn)行相應(yīng)處理才能獲得,不同的特征提取方法和特征處理方式會(huì)產(chǎn)生差異較大的視覺詞典,因此,如何得到適當(dāng)?shù)囊曈X詞典是現(xiàn)今研究的熱點(diǎn)。
傳統(tǒng)視覺詞袋(Bag-Of-Visual words, BOV)模型下的圖像分類性能低下,因此大量對(duì)BOV模型的優(yōu)化算法[8-9]被引入到圖像分類中。Kim等[10]利用信息熵的方法去除掉那些圖像類別與視覺單詞間信息熵較小的視覺單詞,減小了視覺詞典的規(guī)模;Epshtein等[11]用平均互信息的方法來計(jì)算視覺單詞與圖像類別間的相關(guān)性,并去除掉那些與圖像類別相關(guān)性較弱的視覺單詞,從而降低視覺詞典的規(guī)模;Lu等[12]應(yīng)用譜聚類的思想對(duì)詞袋模型中的視覺詞典進(jìn)行降維,提高了圖像分類的效率。然而以上研究對(duì)視覺詞典的優(yōu)化方法只考慮了視覺詞典與圖像類別之間的相關(guān)性,并沒有考慮單視覺詞之間的冗余關(guān)系。在基于BOV模型的圖像分類中,視覺詞典中的視覺單詞具有大小和空間分布信息,規(guī)模較大的視覺詞典中含有那些大小與空間分布信息相似的視覺單詞,稱這種關(guān)系為視覺單詞間的語義相似性,而大量這種語義相似性視覺單詞的出現(xiàn),導(dǎo)致了視覺單詞間的冗余性,因此去除掉那些與其他視覺單詞相似性較大的視覺單詞可以有效降低視覺詞典的規(guī)模,提高圖像分類的性能。
在優(yōu)化視覺詞典的過程中,不僅要考慮視覺詞典與圖像類別之間的相關(guān)性,還要考慮視覺詞典中視覺單詞之間的冗余關(guān)系,因此,本文提出了一種基于加權(quán)最大相關(guān)最小相似(Weighted-Maximal Relevance-Minimal Semantic similarity, W-MR-MS)準(zhǔn)則的圖像分類方法。首先分別計(jì)算視覺單詞與圖像類別間的相關(guān)性、視覺單詞與視覺單詞間的語義相似性;然后引入一個(gè)加權(quán)系數(shù)對(duì)兩者進(jìn)行加權(quán)計(jì)算,保留那些加權(quán)結(jié)果較大的視覺單詞組成本文圖像分類中最終的視覺詞典。該方法不僅去除掉了那些與圖像類別無關(guān)的噪聲單詞與冗余性較大的視覺單詞,而且減小了視覺詞典的規(guī)模。最后在兩類常見數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文方法的有效性。
BOV模型下視覺詞典的規(guī)模對(duì)圖像的分類性能具有較大影響,而基于BOV模型對(duì)圖像的表示就是將圖像特征一一量化到視覺詞典上,即用視覺單詞頻率直方圖來表示一幅圖像,視覺單詞頻率直方圖在這里被稱為視覺詞匯直方圖。圖1為BOV下的圖像表示示意圖,由圖1可知,視覺詞匯直方圖的好壞可以決定圖像分類的精度,而且視覺詞匯直方圖的維度大小直接影響了圖像分類中的時(shí)間復(fù)雜度,因此,適當(dāng)?shù)囊曈X詞典規(guī)模能夠提升圖像分類的性能。
圖1 BOV模型下對(duì)圖像的表示Fig. 1 Image representation of BOV model
2.1 視覺單詞與圖像類別間的相關(guān)性
本文采用信息論中平均互信息方法[13]來計(jì)算視覺單詞與圖像類別間的相似性。首先定義初始視覺詞典為D=[d1,d2,…,dN],D為N×K維矩陣,K=128為尺度不變特征轉(zhuǎn)換(Scale Invariant Feature Transform, SIFT)描述子[14]的維數(shù),N為視覺詞典的規(guī)模。如式(1)所示:AvI(dm,c)表示視覺單詞dm與圖像類別之間相關(guān)性的大小,其值越大表明該視覺單詞對(duì)分類越重要,所以該單詞在分類過程中是該被保留的;反之,那些與圖像類別相關(guān)性較小的視覺單詞應(yīng)該被去除掉。其中:c∈(1,2,…,C)為圖像的類別,C為圖像類別總數(shù);dm=0表示在分類過程中該視覺單詞沒有出現(xiàn)在對(duì)該類別分類的視覺詞典中,dm=1表示該視覺單詞出現(xiàn)在對(duì)該類別分類的視覺詞典中。
(1)
(2)
假設(shè)SIFT特征點(diǎn)pi={ri,ui,si,θi},其中:ri為128維特征描述子,ui為特征空間位置坐標(biāo),si為特征的尺度大小,θi為特征的主方向。為了計(jì)算視覺單詞之間的語義相似性,首先定義該特征點(diǎn)的空間語義區(qū)域?yàn)镾CRpi,而且本文認(rèn)為該區(qū)域包含了pi的空間語義信息,其半徑為rc×si,其中rc為語義尺度系數(shù),用來控制空間語義區(qū)域的大小,可設(shè)置為大于1的一個(gè)常數(shù)。然后定義空間語義區(qū)域中的特征點(diǎn)pj對(duì)pi的影響權(quán)重dij如式(3)所示:
(3)
其中:hij的計(jì)算如式(4)所示,‖·‖2為向量的2-范數(shù)。
hij=‖ui-uj‖2/(rc×si)
(4)
在BOV模型中,每個(gè)特征點(diǎn)都對(duì)應(yīng)著一個(gè)視覺單詞,定義pj對(duì)應(yīng)的視覺單詞為dk。對(duì)于空間語義區(qū)域中的所有對(duì)應(yīng)于視覺單詞dk的特征點(diǎn)定義一個(gè)集合,該集合為Hk={pj|pj→dk,1≤j≤K},其中,pj→dk指SIFT點(diǎn)pj對(duì)應(yīng)的視覺單詞為dk,K為對(duì)應(yīng)于視覺單詞dk的特征點(diǎn)數(shù)量。視覺單詞dk在空間語義區(qū)域中對(duì)特征點(diǎn)pi的影響權(quán)重如式(5)所示:
(5)
再計(jì)算視覺詞典中所有視覺單詞對(duì)特征點(diǎn)的影響權(quán)重,得到pi的空間語義信息對(duì)應(yīng)的直方圖如式(6)所示:
通過課題研究,教師對(duì)微課從陌生到熟悉,從制作到運(yùn)用,在傳統(tǒng)的教學(xué)中運(yùn)用嶄新的微課元素,提高了“Photoshop平面設(shè)計(jì)”課堂教學(xué)效益。課題組成員結(jié)合研究,勤于總結(jié),不斷反思,撰寫了許多有質(zhì)量的課題論文,微課作品也多次獲得省市一二等獎(jiǎng)。課題組成員王子昱老師微課作品《藍(lán)屏摳像技術(shù)》在2016年蘇州市教學(xué)大賽微課項(xiàng)目中獲得一等獎(jiǎng),同時(shí)獲得江蘇省二等獎(jiǎng)。陳李飛老師的微課獲得江蘇聯(lián)合職業(yè)技術(shù)學(xué)院微課制作比賽二等獎(jiǎng)。陳李飛老師開設(shè)市區(qū)級(jí)公開課《信息圖表簡(jiǎn)歷制作》,將微課等信息化教學(xué)手段靈活運(yùn)用課堂,呈現(xiàn)了一堂生動(dòng)活潑的信息化課堂,受到聽課領(lǐng)導(dǎo)和老師的好評(píng)[1]。
SC(pi)=[cd1(pi),cd2(pi),…,cdn(pi),…,cdN(pi)]
(6)
接下來,對(duì)于SIFT特征點(diǎn)pi所對(duì)應(yīng)的視覺單詞dm,定義所有對(duì)應(yīng)為視覺單詞dm的特征點(diǎn)集合為Rm={pi|pi→dm,1≤i≤L},將Rm中每個(gè)SIFT點(diǎn)的空間語義信息看作是視覺單詞dm的空間語義信息的一種表現(xiàn),則可定義視覺單詞dm的空間語義信息為所有Rm中SIFT點(diǎn)的空間語義信息的均值,如式(7)所示:
(7)
其中:|Rm|為集合Rm的規(guī)模;SC(dm)為綜合利用了所有量化到dm上的SIFT特征點(diǎn)的空間語義信息,能夠較好地表征視覺單詞dm的空間語義特性。
視覺單詞的空間語義信息是視覺單詞空間分布信息的重要體現(xiàn)。對(duì)于兩個(gè)視覺單詞dm與dn,通過式(8)來計(jì)算其語義相似性:
sim(dm,dn)=cos(SC(dm),SC(dn))=
SC(dm)/‖SC(dm)‖2·SC(dn)/‖SC(dn)‖2
(8)
通過以上思路,可以計(jì)算出視覺單詞在視覺詞典中的語義相似性大小,式(9)為視覺單詞dm在視覺詞典中的語義相似性的計(jì)算公式:
(9)
其中:N為視覺詞典規(guī)模的大小,I′(dm)為視覺單詞dm的語義相似性大小。
通過分別對(duì)視覺詞典中所有視覺單詞的語義相似性進(jìn)行計(jì)算,可以去除掉那些語義相似性較大的視覺單詞。
2.3 W-MR-MS準(zhǔn)則
結(jié)合上述內(nèi)容,本節(jié)給出W-MR-MS準(zhǔn)則的具體內(nèi)容如下:結(jié)合2.1節(jié)與2.2節(jié)中選擇視覺單詞的方法,首先分別計(jì)算視覺單詞與圖像類別之間的相關(guān)性和視覺單詞間的語義相似性;然后引入一個(gè)加權(quán)參數(shù)α對(duì)視覺單詞與圖像類別之間的相關(guān)性和視覺單詞間的語義相似性進(jìn)行權(quán)衡,如式(10)所示;最后去除掉使加權(quán)結(jié)果I(dm)值最小的那些視覺單詞,其中,dm為視覺單詞,1≤m≤N。
I(dm)=(1-α)×AvI(dm,c)-α×I′(dm)
(10)
其中0≤α≤1,α的值越小,表示視覺單詞與圖像類別間的相關(guān)性對(duì)優(yōu)化視覺詞典起到了主導(dǎo)作用;反之,視覺單詞間的語義相似性對(duì)優(yōu)化視覺詞典起到主導(dǎo)作用。
圖2為本文圖像分類的系統(tǒng)框圖,它首先提取圖像的局部SIFT特征點(diǎn),并對(duì)該局部特征采用K-Means聚類算法生成視覺詞典;然后利用W-MR-MS準(zhǔn)則對(duì)視覺詞典進(jìn)行優(yōu)化,具體優(yōu)化步驟如算法1所示;視覺詞典優(yōu)化后,基于該優(yōu)化后的視覺詞典對(duì)訓(xùn)練圖像進(jìn)行視覺詞匯直方圖的構(gòu)建;最后采用詞袋模型表示對(duì)每個(gè)圖像類別訓(xùn)練出分類模型,對(duì)每幅未分類的測(cè)試圖像,采用該模型可以得到其分類結(jié)果。
圖2 基于W-MR-MS準(zhǔn)則圖像分類的系統(tǒng)框圖Fig. 2 System diagram of image classification based on W-MR-MS criterion
算法1 視覺詞典優(yōu)化算法。
1)通過K-Means算法對(duì)局部特征聚類生成視覺詞典D,其大小為K,本文中K=1 200。
2)用視覺詞典D對(duì)訓(xùn)練圖像進(jìn)行表示與分類,得到分類精度為P。
3)用式(10)選出T個(gè)使I(dm)值最小的視覺單詞,并從視覺詞典中去掉這T個(gè)視覺單詞,得到一個(gè)大小為K-T的視覺詞典D,如果K-T大于閾值H,繼續(xù)步驟2);否則,停止循環(huán)。本文中T=10,H=400。
模型訓(xùn)練過程中,首先通過特征提取與特征聚類可以得到一個(gè)冗余性與規(guī)模較大的視覺詞典;然后利用W-MR-MS準(zhǔn)則優(yōu)化視覺詞典,可以達(dá)到去冗余與降低詞典規(guī)模的效果;最后基于優(yōu)化視覺詞典對(duì)每幅訓(xùn)練圖像建立視覺詞匯直方圖,并將其作為分類器的輸入。
模型測(cè)試過程中,對(duì)提取到的局部特征直接采用W-MR-MS準(zhǔn)則優(yōu)化后的視覺詞典建立視覺詞匯直方圖,將其作為模型的輸入,并得到分類結(jié)果。
4.1 實(shí)驗(yàn)設(shè)置
本文在Caltech- 101和COREL圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。在Caltech- 101數(shù)據(jù)集中,選取其中的12類圖像作實(shí)驗(yàn),分別為Airplanes、Face、Watch、Motorbikes、Car、Backpack、Ketch、Bonsai、Butterfly、Crab、Revolver和Sunflower,每個(gè)類別圖像數(shù)目從47到800不等;COREL數(shù)據(jù)集共有10類圖像,分別為African、Beach、Buildings、Buses、Dinosaurs、Elephants、Flowers、Food、Horses和Mountains,每一個(gè)類別含有100幅圖像,共有1 000幅圖像。實(shí)驗(yàn)中選取圖像庫(kù)中的一半圖像作為訓(xùn)練圖像,另一半作為測(cè)試圖像進(jìn)行實(shí)驗(yàn)。為了便于實(shí)驗(yàn),將數(shù)據(jù)集圖像大小調(diào)整到300×300像素;然后選擇一對(duì)多方式下的多類支持向量機(jī)(Support Vector Machine, SVM)[15]分類器對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,提取SIFT特征的圖像塊大小為16×16像素,步長(zhǎng)為8像素;接頭使用K-Means算法對(duì)圖像聚類生成視覺詞典,K=1 200;最后在每個(gè)數(shù)據(jù)集上獨(dú)立進(jìn)行10次隨機(jī)實(shí)驗(yàn),并將平均分類準(zhǔn)確率與分類時(shí)間代價(jià)作為最后判斷標(biāo)準(zhǔn)。
4.2 實(shí)驗(yàn)結(jié)果
4.2.1 參數(shù)α對(duì)圖像分類性能的影響
由于參數(shù)α對(duì)優(yōu)化視覺詞典具有較大影響,所以本節(jié)將討論參數(shù)α對(duì)圖像分類的影響。實(shí)驗(yàn)中α將在集合M={0,0.05,0.1,…,1}上取值,圖3即為不同參數(shù)α下圖像的平均分類精度。其中:在10類Caltech- 101數(shù)據(jù)集上,優(yōu)化視覺詞典規(guī)模取為910;在COREL數(shù)據(jù)集上,優(yōu)化視覺詞典規(guī)模取為850。由圖3可知,當(dāng)α=0.6時(shí)圖像的分類精度最高,所以在COREL與Caltech- 101數(shù)據(jù)集上視覺單詞間的語義相似性在優(yōu)化視覺詞典中占了主導(dǎo)地位。這是由于以上兩種數(shù)據(jù)集中的類別數(shù)較少,所以影響了圖像類別與視覺單詞間的相關(guān)性對(duì)優(yōu)化視覺詞典的作用,而此時(shí)原始視覺詞典中具有較多語義相似性較大的視覺單詞,因此,W-MR-MS準(zhǔn)則在優(yōu)化視覺單詞時(shí),視覺單詞間的語義相似性對(duì)優(yōu)化視覺詞典具有更大的作用。
圖3 參數(shù)α對(duì)圖像分類性能的影響Fig. 3 Influence of α on image classification
4.2.2 視覺詞典規(guī)模對(duì)圖像分類性能的影響
本節(jié)將分析優(yōu)化視覺詞典規(guī)模對(duì)圖像分類性能的影響。首先設(shè)置原始視覺詞典的規(guī)模為1 200,α=0.6;然后基于W-MR-MS準(zhǔn)則對(duì)該規(guī)模下的視覺詞典進(jìn)行優(yōu)化。圖4為在Caltech- 101與COREL數(shù)據(jù)集上視覺詞典的規(guī)模與圖像平均分類精度之間的關(guān)系示意圖。由圖4可以看出,在Caltech- 101數(shù)據(jù)集上,當(dāng)視覺詞典的規(guī)模被優(yōu)化到910之后,圖像平均分類精度會(huì)出現(xiàn)明顯下降;而在COREL數(shù)據(jù)集上,當(dāng)視覺詞典的規(guī)模優(yōu)化到850之后,圖像分平均分類精度會(huì)出現(xiàn)明顯下降。這是因?yàn)楫?dāng)視覺詞典規(guī)模被縮減到一定程度時(shí),那些對(duì)分類有用的視覺單詞也會(huì)被W-MR-MS準(zhǔn)則去除掉,這樣會(huì)導(dǎo)致訓(xùn)練時(shí)對(duì)圖像的表示不足,進(jìn)而圖像分類精度出現(xiàn)明顯下降。所以當(dāng)原始視覺詞典規(guī)模取為1 200時(shí),在Caltech- 101與COREL數(shù)據(jù)集上可優(yōu)化視覺詞典規(guī)模分別為910與850,而兩者大小不同,主要是由于本文所取Caltech- 101數(shù)據(jù)集上的圖像類別數(shù)比COREL數(shù)據(jù)集上要多,并且Caltech- 101數(shù)據(jù)集圖像結(jié)構(gòu)比較復(fù)雜。
圖4 優(yōu)化視覺詞典的規(guī)模對(duì)圖像分類性能的影響Fig. 4 Influence of scale of visual dictionary on image classification
4.2.3 本文方法與K-Means算法的比較
本節(jié)將比較本文方法與K-Means算法下的圖像分類性能,結(jié)果如表1所示。其中,K-Means算法下視覺詞典的大小直接由K值決定;而本文方法是在K-Means算法基礎(chǔ)上,K=1 200時(shí),用W-MR-MS準(zhǔn)則對(duì)視覺詞典進(jìn)行了優(yōu)化降維,最后的詞典規(guī)模為優(yōu)化后的大小。在Caltech- 101與COREL數(shù)據(jù)集上,本文方法的視覺詞典規(guī)模分別為910與850,α的值在兩類數(shù)據(jù)集上均為0.6。
表1 兩種算法在不同數(shù)據(jù)集上分類性能比較Tab. 1 Image classification performance comparison of two algorithms on different datasets
由表1可以看出,在Caltech- 101數(shù)據(jù)集上,本文方法與K-Means算法在K=1 200時(shí)的平均分類精度基本相同,但是本文方法的分類時(shí)間代價(jià)降低了32.18%;而與K-Means算法在K=910時(shí)的平均分類精度相比,本文方法的平均分類精度提高了5.30%,但是時(shí)間代價(jià)本文略高,這是由于本文優(yōu)化時(shí)需要優(yōu)化時(shí)間代價(jià)。在COREL數(shù)據(jù)集上的分類性能比較結(jié)果與Caltech- 101數(shù)據(jù)集的情況相似,這里不作過多的分析。
綜合以上分析可知,本文方法提高了圖像分類的性能。圖5為本文方法在10類COREL數(shù)據(jù)集上的分類混淆矩陣,由圖5可知本文方法在某些圖像類別上達(dá)到了較高的分類精度,所以本文方法具有較高的有效性。
圖5 本文方法在COREL數(shù)據(jù)集上的混淆矩陣Fig. 5 Confusion matrix of the proposed method on COREL dataset
為了降低傳統(tǒng)BOV模型下圖像分類的時(shí)間復(fù)雜度,本文提出了W-MR-MS準(zhǔn)則來優(yōu)化BOV模型中的視覺詞典。通過去除掉那些與圖像類別無關(guān)、具有冗余的視覺單詞,從而在不影響圖像分類精度的前提下,降低了視覺詞典的規(guī)模,提高了分類效率。在Caltech- 101和COREL圖像數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文方法比傳統(tǒng)K-Means算法具有更好的分類性能。在以后的研究中可以在此優(yōu)化視覺詞典的基礎(chǔ)上,對(duì)BOV模型作進(jìn)一步改進(jìn),比如加入圖像局部特征的空間分布信息、對(duì)圖像預(yù)處理等,從而實(shí)現(xiàn)更有效的圖像分類。
References)
[1] SIVIC J, ZISSERMAN A. Video Google: a text retrieval approach to object matching in videos [C]// ICCV 2003: Proceedings of the 2003 Ninth IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2003: 1470-1477.
[2] 王朔琛,汪西莉,馬君亮.基于均值漂移的半監(jiān)督支持向量機(jī)圖像分類[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2399-2403.(WANG S C, WANG X L, MA J L. Semi-supervised support vector machine for image classification based on mean shift [J]. Journal of Computer Applications, 2014, 34(8): 2399-2403.)
[3] 邵忻.基于跨領(lǐng)域主動(dòng)學(xué)習(xí)的圖像分類方法[J].計(jì)算機(jī)應(yīng)用,2014,34(4):1169-1171.(SHAO X. Cross-domain active learning algorithm for image classification [J]. Journal of Computer Applications, 2014, 34(4): 1169-1171.)
[4] TIMOFTE R, GOOL L V. Adaptive and weighted collaborative representations for image classification [J]. Pattern Recognition Letters, 2014, 43(1): 127-135.
[5] ALQASRAWI Y, NEAGU D, COWLING P I. Fusing integrated visual vocabularies-based bag of visual words and weighted colour moments on spatial pyramid layout for natural scene image classification [J]. Signal Image & Video Processing, 2013, 7(4): 759-775.
[6] LU Y, XIE F, LIU T, et al. No reference quality assessment for multiply-distorted images based on an improved bag-of-words model [J]. IEEE Signal Processing Letters, 2015, 22(10): 1811-1815.
[7] QU Y, WU S, LIU H, et al. Evaluation of local features and classifiers in BOW model for image classification [J]. Multimedia Tools and Applications, 2014, 70(2): 605-624.
[8] YANG X, ZHANG T, XU C. A new discriminative coding method for image classification [J]. Multimedia Systems, 2015, 21(2): 133-145.
[9] GAO S, TSANG W H, MA Y. Learning category-specific dictionary and shared dictionary for fine-grained image categorization [J]. IEEE Transactions on Image Processing, 2014, 23(2): 623-634.
[10] KIM S, KWEON I S, LEE C W. Visual categorization robust to large intra-class variations using entropy-guided codebook [C]// ICRA 2007: Proceedings of the 2007 IEEE International Conference on Robotics & Automation. Piscataway, NJ: IEEE, 2007: 3793-3798.
[11] EPSHTEIN B, ULLMAN S. Feature hierarchies for object classification [C]// ICCV 2005: Proceedings of the 2005 Tenth IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2005: 220-227.
[12] LU Z, WANG L, WEN J R. Image classification by visual bag-of-words refinement and reduction [J]. Neurocomputing, 2016, 173: 373-384.
[13] KELBERT M, SUHOV Y. Information Theory and Coding by Example [M]. Oxford: Cambridge University Press, 2013: 18-86.
[14] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(60): 91-110.
[15] TUIA D, VOLPI M, DALLA MURA M, et al. Automatic feature learning for spatio-spectral image classification with sparse SVM [J]. IEEE Transactions on Geoscience & Remote Sensing, 2014, 52(10): 6062-6074.
ZHANGYong, born in 1963, professor. His research interests include intelligent information processing, data mining.
YANGHao, born in 1991, M. S. candidate. His research interests include image classification, machine learning.
Imageclassificationmethodbasedonoptimizedbag-of-visualwordsmodel
ZHANG Yong, YANG Hao*
(SchoolofComputerandCommunication,LanzhouUniversityofTechnology,LanzhouGansu730050,China)
Concerning the problem that too large visual dictionary may increase the time cost of image classification in the Bag-Of-Visual words (BOV) model, a Weighted-Maximal Relevance-Minimal Semantic similarity (W-MR-MS) criterion was proposed to optimize visual dictionary. Firstly, the Scale Invariant Feature Transform (SIFT) features of images were extracted, and theK-Means algorithm was used to generate an original visual dictionary. Secondly, the correlation between visual words and image categories and semantic similarity among visual words were calculated, and a weighted parameter was introduced to measure the importance of the correlation and the semantic similarity in image classification. Finally, based on the weighing result, the visual word which correlation with image categories was weak and semantic similarity among visual words was high was removed, which achieved the purpose of optimizing the visual dictionary. The experimental results show that the classification precision of the proposed method is 5.30% higher than that of the traditionalK-Means algorithm under the same visual dictionary scale; the time cost of the proposed method is reduced by 32.18% compared with the traditionalK-Means algorithm under the same classification precision. Therefore, the proposed method has high classification efficiency and it is suitable for image classification.
image classification; Bag-Of-Visual words (BOV) model; feature extraction; visual dictionary
TP181
A
2016- 12- 13;
2017- 03- 11。
張永(1963—),男,甘肅蘭州人,教授,主要研究方向:智能信息處理、數(shù)據(jù)挖掘; 楊浩(1991—),男,甘肅隴南人,碩士研究生,主要研究方向:圖像分類、機(jī)器學(xué)習(xí)。
1001- 9081(2017)08- 2244- 04
10.11772/j.issn.1001- 9081.2017.08.2244