張軒+臧淼+李金泉
摘 要: 圖像自動(dòng)標(biāo)注在檢索大量數(shù)字圖像時(shí)起到關(guān)鍵作用,它能將圖像的視覺特征轉(zhuǎn)化為圖像的標(biāo)注字信息,為用戶的使用及檢索帶來極大的方便。研究了圖像自動(dòng)語(yǔ)義標(biāo)注方法,設(shè)計(jì)并實(shí)現(xiàn)了基于Matlab 圖像自動(dòng)標(biāo)注系統(tǒng),能夠提取圖像顏色特征和紋理特征,與已標(biāo)注圖像進(jìn)行相似性度量并標(biāo)注出圖像語(yǔ)義關(guān)鍵詞
關(guān)鍵字: Matlab; 自動(dòng)標(biāo)注; 視覺特征; 圖像檢索
中圖分類號(hào): TN711.73?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2014)03?0073?03
Image automatic annotation based on Matlab
ZHANG Xuan, ZANG Miao, LI Jin?quan
(North China University of Technology, Beijing 100041, China)
Abstract: Automatic image annotation plays a key role in retrieving large amounts of digital images, which can transform the visual characteristics of image into annotation word information and brings great convenience for users in retrieving. The automatic image semantic annotation method is researched, and the automatic image annotation system based on Matlab is designed and implemented, which can extract image color and texture features, and make similarity measure between labeled images and mark out the image semantic keywords.
Keywords: Matlab; automatic annotation; visual characteristics; image retrieval
0 引 言
近年來,隨著多媒體技術(shù)和互聯(lián)網(wǎng)的快速發(fā)展,世界范圍內(nèi)數(shù)字圖像的容量正以驚人的速度增長(zhǎng)。為了有效地組織、查詢與瀏覽如此大規(guī)模的圖像資源,圖像檢索技術(shù)應(yīng)運(yùn)而生, 已成為一個(gè)研究熱點(diǎn)。
在早期的基于內(nèi)容的圖像檢索中,人們利用傳統(tǒng)的文本檢索技術(shù),為圖像做出文字化的注釋,以詮釋圖像的內(nèi)容。主要做法是從內(nèi)容方面對(duì)圖像進(jìn)行手工標(biāo)注,然后根據(jù)標(biāo)注信息利用文本檢索技術(shù)對(duì)圖像進(jìn)行檢索。人工標(biāo)注雖然可以較為準(zhǔn)確的對(duì)圖像進(jìn)行檢索,但這項(xiàng)工作耗時(shí)費(fèi)力,尤其面對(duì)大規(guī)模的圖像時(shí),顯然它已經(jīng)無法勝任。因此,如何快速、有效地實(shí)現(xiàn)對(duì)圖像的自動(dòng)語(yǔ)義標(biāo)注,變得十分有意義。
目前,圖像自動(dòng)標(biāo)注技術(shù)已經(jīng)得到了廣泛研究,這些方法有著各自不同的出發(fā)點(diǎn)和解決方案。本文所實(shí)現(xiàn)的圖像語(yǔ)義自動(dòng)標(biāo)注,就是為了自動(dòng)獲取圖像的語(yǔ)義信息,并對(duì)待標(biāo)注圖像予以關(guān)鍵字標(biāo)注,對(duì)標(biāo)注的關(guān)鍵字進(jìn)行存儲(chǔ),從而對(duì)檢索做出支持。本文主要研究了圖像語(yǔ)義自動(dòng)標(biāo)注基本流程、基本原理,基于Matlab通過GUI界面實(shí)現(xiàn)了圖像標(biāo)注與簡(jiǎn)單檢索系統(tǒng),完成圖像底層特征的提取、特征匹配相似度測(cè)量、圖像標(biāo)注并研究對(duì)標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和管理的方法。
1 系統(tǒng)設(shè)計(jì)
本系統(tǒng)共有三個(gè)模塊,即圖像特征提取模塊、圖像特征匹配模塊、自動(dòng)標(biāo)注和相似圖像輸出模塊。系統(tǒng)設(shè)計(jì)方框圖如圖1所示。由圖可見,系統(tǒng)首先將標(biāo)準(zhǔn)圖像庫(kù)中的圖像進(jìn)行顏色、紋理特征的提取,存儲(chǔ)成圖像特征庫(kù)。其中已標(biāo)注圖像構(gòu)成訓(xùn)練集,利用其圖像特征和標(biāo)注關(guān)鍵詞的關(guān)系對(duì)待標(biāo)注圖像進(jìn)行自動(dòng)標(biāo)注。通過計(jì)算待標(biāo)注圖像與訓(xùn)練集中所有圖像對(duì)應(yīng)的特征矢量之間的歐氏距離,把歐氏距離最小、即相似度最高的圖像的關(guān)鍵字標(biāo)注給該待標(biāo)注圖像,同時(shí)排序輸出相似度最高的三幅圖像,并存儲(chǔ)關(guān)鍵詞。
圖1 系統(tǒng)概要設(shè)計(jì)方框圖
2 圖像特征提取
圖像的視覺特征主要包括顏色、紋理、形狀和空間關(guān)系等。顏色特征是被廣泛使用的視覺特征,主要原因在于顏色特征的定義比較明確,特征提取方法比較簡(jiǎn)單,并且顏色特征能較好地體現(xiàn)出圖像中所包含的物體或場(chǎng)景。紋理特征是一種不依賴于亮度或顏色的反映圖像中物質(zhì)現(xiàn)象的視覺特征。此特征包含了物體表面結(jié)構(gòu)組織排列的重要信息以及它們與周圍環(huán)境的聯(lián)系。
2.1 顏色特征提取
對(duì)顏色特征的研究,必須在圖像的特定色彩空間中進(jìn)行,常用的色彩空間有RGB、HSI、HSV等。其中HSI和HSV色彩空間很適合人眼的分辨,能較好地反映人對(duì)顏色的感知和鑒別能力。因此本文采用HSI顏色空間。通過式(1)~(3),圖像可以從RGB色彩空間轉(zhuǎn)換到HSI色彩空間[1]。
[H=arccosR-G+R-B2R-GR-G+R-BG-B, R≠G或R≠B2π-arccosR-G+R-B2R-GR-G+R-BG-B, B>G](1)
[S = MAX(R,G,B)-MIN(R,G,B)] (2)
[I= R+G+B3] (3)
為了使HSI顏色模型能夠更好地符合人眼的視覺特性,首先將圖像中每一像素的紅、綠、藍(lán)分量值R,G,B轉(zhuǎn)化為色調(diào)、飽和度和強(qiáng)度分量值H、S、I(h[0,360],[s [0,1],][v[0,1]]),然后根據(jù)HSI顏色空間中顏色特征進(jìn)行非等間隔量化,見公式(4)~(6)所示:
[H=0,h∈(315,20]1,h∈(20,40]2,h∈(40,75]3,h∈(75,155]4,h∈(155,190]5,h∈(190,270]6,h∈(270,295]7,h∈(295,315]] (4)
[S=0,s∈[0,0.2)1,s∈[0.2,0.7)2,s∈[0.7,1)] (5)
[I=0,i∈0,0.21,i∈0.2,0.72,i∈0.7,1] (6)
對(duì)HSI空間進(jìn)行量化后,[H]的取值范圍為[0,1,…,7],[S]的取值范圍為[0,1,2],[I]的取值范圍為[0,1,2]。通過公式(7)將 HSI 合成為一維特征矢量,則[B]的取值范圍為[0,71],是一個(gè)72柄的一維直方圖,再對(duì)特征矢量[B]構(gòu)造直方圖作為圖形的顏色特征。
[B=9H+3S+I] (7)
2.2 紋理特征提取
本文采用小波分解提取圖形的紋理特征,首先通過Daubechies4小波對(duì)圖像進(jìn)行分解,然后提取一層分解的4個(gè)頻帶小波系數(shù)的均值和方差作為圖像的紋理特征。一幅圖像的4個(gè)頻帶分布圖示如圖2所示。
[[ILL]\&[ILH]\&[IHL]\&[IHH]\&]
圖2 頻帶分布圖
進(jìn)行一層變換后,[(i,j)]點(diǎn)的小波系數(shù)為[Cij,]則任一頻帶的均值和方差計(jì)算公式分別為式(8),式(9):
[μ=1MNi=1Mj=1NCi,j] (8)
[D=i=1Mj=1N(Ci,j-μ)2MN] (9)
紋理特征向量表示為:[T=[μLL,DLL,μHL,DHL,μLH,DLH,][μHH,DHH],]小波分解提取紋理特征的方法適用于紋理特征比較復(fù)雜的圖像。
2.3 圖像特征相似性度量以及自動(dòng)標(biāo)注
圖像特征的相似性度量有很多方法,如歐氏距離法、絕對(duì)值距離、切比雪夫距離、馬氏距離、蘭氏距離等。本文采用的是歐氏距離法。計(jì)算公式如(10)所示,歐氏距離越小,兩幅圖像越匹配,歐氏距離越大,兩幅圖像越不匹配。因此選擇與已標(biāo)注圖像集中歐氏距離最小的圖像的標(biāo)注關(guān)鍵詞作為待標(biāo)注圖像的語(yǔ)義關(guān)鍵詞。兩個(gè)[n]維向量[a(x11,x12,…,x1n)]與[b(x21,x22,…,x2n)]間的歐氏距離:
[d12=k=1n(x1k-x2k)2] (10)
圖像自動(dòng)標(biāo)注與檢索的流程如下:首先計(jì)算待標(biāo)注圖像特征與訓(xùn)練集中所有圖像特征之間的歐氏距離;將所有距離按照從小到大的順序排列;把歐氏距離最小的圖像的關(guān)鍵字賦給待標(biāo)注的圖像;顯示與待標(biāo)注圖像最相近的三幅圖像。
2.4 數(shù)據(jù)存儲(chǔ)與管理
對(duì)圖像完成顏色特征和紋理特征提取,以及特征向量的計(jì)算后,所得到的數(shù)據(jù)需要進(jìn)行存儲(chǔ),以便進(jìn)行圖像特征匹配。自動(dòng)標(biāo)注的關(guān)鍵字也需要存儲(chǔ)。在Matlab中,數(shù)據(jù)一般都存儲(chǔ)在.mat格式的文件里,如有需要可以轉(zhuǎn)換成.txt格式文件。本系統(tǒng)使用結(jié)構(gòu)體存儲(chǔ)圖像特征和關(guān)鍵字。圖像顏色特征存儲(chǔ)的結(jié)構(gòu)體各字段見表1。
表1 圖像顏色特征存儲(chǔ)結(jié)構(gòu)體
[imgID\&1\&2\&……\&Filename\&1001.jpg\&1002.jpg\&……\&cfv_HSV\&顏色特征向量1\&顏色特征向量1\&……\&]
圖像關(guān)鍵字存儲(chǔ)的結(jié)構(gòu)體各字段見表2。
表2 圖像關(guān)鍵字存儲(chǔ)結(jié)構(gòu)體
[imgID\&1\&2\&……\&Filename\&1001.jpg\&1002.jpg\&……\&Keywords\&people,tree\&flower,bird\&……\&]
數(shù)據(jù)存儲(chǔ)在.mat文件中的形式如圖3所示,十分方便查詢和管理。
圖3 顏色特征在.mat文件中存儲(chǔ)形式
3 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)使用的訓(xùn)練集是Corel5K圖像庫(kù)[2]。該圖像集中有5 000張圖像,內(nèi)容涵蓋人物、動(dòng)物、植物、自然風(fēng)光等,共包含50個(gè)語(yǔ)義類,每個(gè)類包含100張圖像[3]。其中4 500張圖像進(jìn)行人工標(biāo)注,500張作為待測(cè)試圖像。訓(xùn)練集中有374個(gè)關(guān)鍵字,每個(gè)圖像一般有3~5個(gè)關(guān)鍵字。自動(dòng)標(biāo)注的性能使用查準(zhǔn)率和查全率來評(píng)價(jià)。查準(zhǔn)率和查全率的定義見式(11)(12):
[查全率(R)=相關(guān)的正確標(biāo)注結(jié)果所有相關(guān)的結(jié)果=AA+C] (11)
[查準(zhǔn)率(P)=相關(guān)的正確標(biāo)注結(jié)果所有標(biāo)注的結(jié)果=AA+B] (12)
其中A為正確標(biāo)注數(shù)目,B為誤標(biāo)注數(shù)目,C為漏標(biāo)注數(shù)目。系統(tǒng)測(cè)試結(jié)果見表3。
表3 標(biāo)注性能比較 %
[\&查準(zhǔn)率\&查全率\&紋理特征\&1.52\&2.24\&顏色特征\&15.4\&16.1\&兩種特征結(jié)合
(顏色權(quán)重0.85,紋理權(quán)重0.15)\&16.14\&17.51\&]
本文的圖像特征提取分別使用的三種方法中,實(shí)驗(yàn)發(fā)現(xiàn),顏色特征對(duì)圖像的影響較大,當(dāng)顏色特征向量設(shè)置權(quán)重為0.85,對(duì)紋理特征向量設(shè)置權(quán)重為0.15時(shí),標(biāo)注和檢索效果達(dá)到最優(yōu),標(biāo)注結(jié)果能夠反映原圖像的語(yǔ)義內(nèi)容。如圖4所示給出了系統(tǒng)使用第三種特征提取方法自動(dòng)標(biāo)注和查詢的結(jié)果示例。
圖4 基于GUI界面的實(shí)驗(yàn)結(jié)果
4 結(jié) 語(yǔ)
本文設(shè)計(jì)并實(shí)現(xiàn)了基于GUI的圖像自動(dòng)標(biāo)注和檢索系統(tǒng),完成對(duì)圖像底層特征的提取、特征匹配相似度測(cè)量、圖像自動(dòng)標(biāo)注,并研究了對(duì)標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和管理的方法。本系統(tǒng)標(biāo)注性能良好,文中只對(duì)顏色和紋理兩種圖像特征進(jìn)行了提取和匹配并且采用的自動(dòng)標(biāo)注算法較為簡(jiǎn)單,系統(tǒng)的標(biāo)注性能有待于進(jìn)一步提高。下一步研究方向是選擇更多的圖像特征并且改進(jìn)標(biāo)注算法。
本文受到2013年國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“圖像自動(dòng)標(biāo)注研究”的資助,在此表示感謝。
參考文獻(xiàn)
[1] 徐紅霞,鄭龍,王廳列,等.基于HSI顏色空間統(tǒng)計(jì)直方圖的圖像檢索[J].電腦知識(shí)與技術(shù),2009(31):8801?8804.
[2] University of California Berkeley. Corel dataset website [EB /OL]. [2006?02?04]. http: / / elib. cs. berkeley. edu /photos/ corel /.
[3] 伍宇花.BP神經(jīng)網(wǎng)絡(luò)在圖像語(yǔ)義自動(dòng)標(biāo)注的應(yīng)用[J].電腦知識(shí)與技術(shù),2011(14):25?28.
[4] 盧漢清,劉靜.基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1629?1632.
[5] 萬(wàn)華林,CHOWDHURY M U.基于支持向量機(jī)的圖像語(yǔ)義分類[J].軟件學(xué)報(bào),2003,14(11):1891?1899.
[6] 向日華,王潤(rùn)生.一種基于高斯混合模型的距離圖像分割算法[J].軟件學(xué)報(bào),2003,14(7):1250?1257.
[7] 張華,梁宇生.基于實(shí)例圖像自動(dòng)語(yǔ)義標(biāo)注方法的研究[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011(2):255?258.
[8] 朱文球,劉強(qiáng).一種新的圖像語(yǔ)義自動(dòng)標(biāo)注與檢索算法[J].計(jì)算機(jī)應(yīng)用研究,2007(7):318?320.
[9] 王妍寧,郭雷,方俊.一種新的圖像語(yǔ)義自動(dòng)標(biāo)注模型[J].計(jì)算機(jī)工程與應(yīng)用,2011(7):193?197.
[10] 韋布.統(tǒng)計(jì)模式識(shí)別[M].王萍,楊培龍,羅穎昕,等譯.2版.北京:電子工業(yè)出版社,2004.
[H=0,h∈(315,20]1,h∈(20,40]2,h∈(40,75]3,h∈(75,155]4,h∈(155,190]5,h∈(190,270]6,h∈(270,295]7,h∈(295,315]] (4)
[S=0,s∈[0,0.2)1,s∈[0.2,0.7)2,s∈[0.7,1)] (5)
[I=0,i∈0,0.21,i∈0.2,0.72,i∈0.7,1] (6)
對(duì)HSI空間進(jìn)行量化后,[H]的取值范圍為[0,1,…,7],[S]的取值范圍為[0,1,2],[I]的取值范圍為[0,1,2]。通過公式(7)將 HSI 合成為一維特征矢量,則[B]的取值范圍為[0,71],是一個(gè)72柄的一維直方圖,再對(duì)特征矢量[B]構(gòu)造直方圖作為圖形的顏色特征。
[B=9H+3S+I] (7)
2.2 紋理特征提取
本文采用小波分解提取圖形的紋理特征,首先通過Daubechies4小波對(duì)圖像進(jìn)行分解,然后提取一層分解的4個(gè)頻帶小波系數(shù)的均值和方差作為圖像的紋理特征。一幅圖像的4個(gè)頻帶分布圖示如圖2所示。
[[ILL]\&[ILH]\&[IHL]\&[IHH]\&]
圖2 頻帶分布圖
進(jìn)行一層變換后,[(i,j)]點(diǎn)的小波系數(shù)為[Cij,]則任一頻帶的均值和方差計(jì)算公式分別為式(8),式(9):
[μ=1MNi=1Mj=1NCi,j] (8)
[D=i=1Mj=1N(Ci,j-μ)2MN] (9)
紋理特征向量表示為:[T=[μLL,DLL,μHL,DHL,μLH,DLH,][μHH,DHH],]小波分解提取紋理特征的方法適用于紋理特征比較復(fù)雜的圖像。
2.3 圖像特征相似性度量以及自動(dòng)標(biāo)注
圖像特征的相似性度量有很多方法,如歐氏距離法、絕對(duì)值距離、切比雪夫距離、馬氏距離、蘭氏距離等。本文采用的是歐氏距離法。計(jì)算公式如(10)所示,歐氏距離越小,兩幅圖像越匹配,歐氏距離越大,兩幅圖像越不匹配。因此選擇與已標(biāo)注圖像集中歐氏距離最小的圖像的標(biāo)注關(guān)鍵詞作為待標(biāo)注圖像的語(yǔ)義關(guān)鍵詞。兩個(gè)[n]維向量[a(x11,x12,…,x1n)]與[b(x21,x22,…,x2n)]間的歐氏距離:
[d12=k=1n(x1k-x2k)2] (10)
圖像自動(dòng)標(biāo)注與檢索的流程如下:首先計(jì)算待標(biāo)注圖像特征與訓(xùn)練集中所有圖像特征之間的歐氏距離;將所有距離按照從小到大的順序排列;把歐氏距離最小的圖像的關(guān)鍵字賦給待標(biāo)注的圖像;顯示與待標(biāo)注圖像最相近的三幅圖像。
2.4 數(shù)據(jù)存儲(chǔ)與管理
對(duì)圖像完成顏色特征和紋理特征提取,以及特征向量的計(jì)算后,所得到的數(shù)據(jù)需要進(jìn)行存儲(chǔ),以便進(jìn)行圖像特征匹配。自動(dòng)標(biāo)注的關(guān)鍵字也需要存儲(chǔ)。在Matlab中,數(shù)據(jù)一般都存儲(chǔ)在.mat格式的文件里,如有需要可以轉(zhuǎn)換成.txt格式文件。本系統(tǒng)使用結(jié)構(gòu)體存儲(chǔ)圖像特征和關(guān)鍵字。圖像顏色特征存儲(chǔ)的結(jié)構(gòu)體各字段見表1。
表1 圖像顏色特征存儲(chǔ)結(jié)構(gòu)體
[imgID\&1\&2\&……\&Filename\&1001.jpg\&1002.jpg\&……\&cfv_HSV\&顏色特征向量1\&顏色特征向量1\&……\&]
圖像關(guān)鍵字存儲(chǔ)的結(jié)構(gòu)體各字段見表2。
表2 圖像關(guān)鍵字存儲(chǔ)結(jié)構(gòu)體
[imgID\&1\&2\&……\&Filename\&1001.jpg\&1002.jpg\&……\&Keywords\&people,tree\&flower,bird\&……\&]
數(shù)據(jù)存儲(chǔ)在.mat文件中的形式如圖3所示,十分方便查詢和管理。
圖3 顏色特征在.mat文件中存儲(chǔ)形式
3 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)使用的訓(xùn)練集是Corel5K圖像庫(kù)[2]。該圖像集中有5 000張圖像,內(nèi)容涵蓋人物、動(dòng)物、植物、自然風(fēng)光等,共包含50個(gè)語(yǔ)義類,每個(gè)類包含100張圖像[3]。其中4 500張圖像進(jìn)行人工標(biāo)注,500張作為待測(cè)試圖像。訓(xùn)練集中有374個(gè)關(guān)鍵字,每個(gè)圖像一般有3~5個(gè)關(guān)鍵字。自動(dòng)標(biāo)注的性能使用查準(zhǔn)率和查全率來評(píng)價(jià)。查準(zhǔn)率和查全率的定義見式(11)(12):
[查全率(R)=相關(guān)的正確標(biāo)注結(jié)果所有相關(guān)的結(jié)果=AA+C] (11)
[查準(zhǔn)率(P)=相關(guān)的正確標(biāo)注結(jié)果所有標(biāo)注的結(jié)果=AA+B] (12)
其中A為正確標(biāo)注數(shù)目,B為誤標(biāo)注數(shù)目,C為漏標(biāo)注數(shù)目。系統(tǒng)測(cè)試結(jié)果見表3。
表3 標(biāo)注性能比較 %
[\&查準(zhǔn)率\&查全率\&紋理特征\&1.52\&2.24\&顏色特征\&15.4\&16.1\&兩種特征結(jié)合
(顏色權(quán)重0.85,紋理權(quán)重0.15)\&16.14\&17.51\&]
本文的圖像特征提取分別使用的三種方法中,實(shí)驗(yàn)發(fā)現(xiàn),顏色特征對(duì)圖像的影響較大,當(dāng)顏色特征向量設(shè)置權(quán)重為0.85,對(duì)紋理特征向量設(shè)置權(quán)重為0.15時(shí),標(biāo)注和檢索效果達(dá)到最優(yōu),標(biāo)注結(jié)果能夠反映原圖像的語(yǔ)義內(nèi)容。如圖4所示給出了系統(tǒng)使用第三種特征提取方法自動(dòng)標(biāo)注和查詢的結(jié)果示例。
圖4 基于GUI界面的實(shí)驗(yàn)結(jié)果
4 結(jié) 語(yǔ)
本文設(shè)計(jì)并實(shí)現(xiàn)了基于GUI的圖像自動(dòng)標(biāo)注和檢索系統(tǒng),完成對(duì)圖像底層特征的提取、特征匹配相似度測(cè)量、圖像自動(dòng)標(biāo)注,并研究了對(duì)標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和管理的方法。本系統(tǒng)標(biāo)注性能良好,文中只對(duì)顏色和紋理兩種圖像特征進(jìn)行了提取和匹配并且采用的自動(dòng)標(biāo)注算法較為簡(jiǎn)單,系統(tǒng)的標(biāo)注性能有待于進(jìn)一步提高。下一步研究方向是選擇更多的圖像特征并且改進(jìn)標(biāo)注算法。
本文受到2013年國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“圖像自動(dòng)標(biāo)注研究”的資助,在此表示感謝。
參考文獻(xiàn)
[1] 徐紅霞,鄭龍,王廳列,等.基于HSI顏色空間統(tǒng)計(jì)直方圖的圖像檢索[J].電腦知識(shí)與技術(shù),2009(31):8801?8804.
[2] University of California Berkeley. Corel dataset website [EB /OL]. [2006?02?04]. http: / / elib. cs. berkeley. edu /photos/ corel /.
[3] 伍宇花.BP神經(jīng)網(wǎng)絡(luò)在圖像語(yǔ)義自動(dòng)標(biāo)注的應(yīng)用[J].電腦知識(shí)與技術(shù),2011(14):25?28.
[4] 盧漢清,劉靜.基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1629?1632.
[5] 萬(wàn)華林,CHOWDHURY M U.基于支持向量機(jī)的圖像語(yǔ)義分類[J].軟件學(xué)報(bào),2003,14(11):1891?1899.
[6] 向日華,王潤(rùn)生.一種基于高斯混合模型的距離圖像分割算法[J].軟件學(xué)報(bào),2003,14(7):1250?1257.
[7] 張華,梁宇生.基于實(shí)例圖像自動(dòng)語(yǔ)義標(biāo)注方法的研究[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011(2):255?258.
[8] 朱文球,劉強(qiáng).一種新的圖像語(yǔ)義自動(dòng)標(biāo)注與檢索算法[J].計(jì)算機(jī)應(yīng)用研究,2007(7):318?320.
[9] 王妍寧,郭雷,方俊.一種新的圖像語(yǔ)義自動(dòng)標(biāo)注模型[J].計(jì)算機(jī)工程與應(yīng)用,2011(7):193?197.
[10] 韋布.統(tǒng)計(jì)模式識(shí)別[M].王萍,楊培龍,羅穎昕,等譯.2版.北京:電子工業(yè)出版社,2004.
[H=0,h∈(315,20]1,h∈(20,40]2,h∈(40,75]3,h∈(75,155]4,h∈(155,190]5,h∈(190,270]6,h∈(270,295]7,h∈(295,315]] (4)
[S=0,s∈[0,0.2)1,s∈[0.2,0.7)2,s∈[0.7,1)] (5)
[I=0,i∈0,0.21,i∈0.2,0.72,i∈0.7,1] (6)
對(duì)HSI空間進(jìn)行量化后,[H]的取值范圍為[0,1,…,7],[S]的取值范圍為[0,1,2],[I]的取值范圍為[0,1,2]。通過公式(7)將 HSI 合成為一維特征矢量,則[B]的取值范圍為[0,71],是一個(gè)72柄的一維直方圖,再對(duì)特征矢量[B]構(gòu)造直方圖作為圖形的顏色特征。
[B=9H+3S+I] (7)
2.2 紋理特征提取
本文采用小波分解提取圖形的紋理特征,首先通過Daubechies4小波對(duì)圖像進(jìn)行分解,然后提取一層分解的4個(gè)頻帶小波系數(shù)的均值和方差作為圖像的紋理特征。一幅圖像的4個(gè)頻帶分布圖示如圖2所示。
[[ILL]\&[ILH]\&[IHL]\&[IHH]\&]
圖2 頻帶分布圖
進(jìn)行一層變換后,[(i,j)]點(diǎn)的小波系數(shù)為[Cij,]則任一頻帶的均值和方差計(jì)算公式分別為式(8),式(9):
[μ=1MNi=1Mj=1NCi,j] (8)
[D=i=1Mj=1N(Ci,j-μ)2MN] (9)
紋理特征向量表示為:[T=[μLL,DLL,μHL,DHL,μLH,DLH,][μHH,DHH],]小波分解提取紋理特征的方法適用于紋理特征比較復(fù)雜的圖像。
2.3 圖像特征相似性度量以及自動(dòng)標(biāo)注
圖像特征的相似性度量有很多方法,如歐氏距離法、絕對(duì)值距離、切比雪夫距離、馬氏距離、蘭氏距離等。本文采用的是歐氏距離法。計(jì)算公式如(10)所示,歐氏距離越小,兩幅圖像越匹配,歐氏距離越大,兩幅圖像越不匹配。因此選擇與已標(biāo)注圖像集中歐氏距離最小的圖像的標(biāo)注關(guān)鍵詞作為待標(biāo)注圖像的語(yǔ)義關(guān)鍵詞。兩個(gè)[n]維向量[a(x11,x12,…,x1n)]與[b(x21,x22,…,x2n)]間的歐氏距離:
[d12=k=1n(x1k-x2k)2] (10)
圖像自動(dòng)標(biāo)注與檢索的流程如下:首先計(jì)算待標(biāo)注圖像特征與訓(xùn)練集中所有圖像特征之間的歐氏距離;將所有距離按照從小到大的順序排列;把歐氏距離最小的圖像的關(guān)鍵字賦給待標(biāo)注的圖像;顯示與待標(biāo)注圖像最相近的三幅圖像。
2.4 數(shù)據(jù)存儲(chǔ)與管理
對(duì)圖像完成顏色特征和紋理特征提取,以及特征向量的計(jì)算后,所得到的數(shù)據(jù)需要進(jìn)行存儲(chǔ),以便進(jìn)行圖像特征匹配。自動(dòng)標(biāo)注的關(guān)鍵字也需要存儲(chǔ)。在Matlab中,數(shù)據(jù)一般都存儲(chǔ)在.mat格式的文件里,如有需要可以轉(zhuǎn)換成.txt格式文件。本系統(tǒng)使用結(jié)構(gòu)體存儲(chǔ)圖像特征和關(guān)鍵字。圖像顏色特征存儲(chǔ)的結(jié)構(gòu)體各字段見表1。
表1 圖像顏色特征存儲(chǔ)結(jié)構(gòu)體
[imgID\&1\&2\&……\&Filename\&1001.jpg\&1002.jpg\&……\&cfv_HSV\&顏色特征向量1\&顏色特征向量1\&……\&]
圖像關(guān)鍵字存儲(chǔ)的結(jié)構(gòu)體各字段見表2。
表2 圖像關(guān)鍵字存儲(chǔ)結(jié)構(gòu)體
[imgID\&1\&2\&……\&Filename\&1001.jpg\&1002.jpg\&……\&Keywords\&people,tree\&flower,bird\&……\&]
數(shù)據(jù)存儲(chǔ)在.mat文件中的形式如圖3所示,十分方便查詢和管理。
圖3 顏色特征在.mat文件中存儲(chǔ)形式
3 實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)使用的訓(xùn)練集是Corel5K圖像庫(kù)[2]。該圖像集中有5 000張圖像,內(nèi)容涵蓋人物、動(dòng)物、植物、自然風(fēng)光等,共包含50個(gè)語(yǔ)義類,每個(gè)類包含100張圖像[3]。其中4 500張圖像進(jìn)行人工標(biāo)注,500張作為待測(cè)試圖像。訓(xùn)練集中有374個(gè)關(guān)鍵字,每個(gè)圖像一般有3~5個(gè)關(guān)鍵字。自動(dòng)標(biāo)注的性能使用查準(zhǔn)率和查全率來評(píng)價(jià)。查準(zhǔn)率和查全率的定義見式(11)(12):
[查全率(R)=相關(guān)的正確標(biāo)注結(jié)果所有相關(guān)的結(jié)果=AA+C] (11)
[查準(zhǔn)率(P)=相關(guān)的正確標(biāo)注結(jié)果所有標(biāo)注的結(jié)果=AA+B] (12)
其中A為正確標(biāo)注數(shù)目,B為誤標(biāo)注數(shù)目,C為漏標(biāo)注數(shù)目。系統(tǒng)測(cè)試結(jié)果見表3。
表3 標(biāo)注性能比較 %
[\&查準(zhǔn)率\&查全率\&紋理特征\&1.52\&2.24\&顏色特征\&15.4\&16.1\&兩種特征結(jié)合
(顏色權(quán)重0.85,紋理權(quán)重0.15)\&16.14\&17.51\&]
本文的圖像特征提取分別使用的三種方法中,實(shí)驗(yàn)發(fā)現(xiàn),顏色特征對(duì)圖像的影響較大,當(dāng)顏色特征向量設(shè)置權(quán)重為0.85,對(duì)紋理特征向量設(shè)置權(quán)重為0.15時(shí),標(biāo)注和檢索效果達(dá)到最優(yōu),標(biāo)注結(jié)果能夠反映原圖像的語(yǔ)義內(nèi)容。如圖4所示給出了系統(tǒng)使用第三種特征提取方法自動(dòng)標(biāo)注和查詢的結(jié)果示例。
圖4 基于GUI界面的實(shí)驗(yàn)結(jié)果
4 結(jié) 語(yǔ)
本文設(shè)計(jì)并實(shí)現(xiàn)了基于GUI的圖像自動(dòng)標(biāo)注和檢索系統(tǒng),完成對(duì)圖像底層特征的提取、特征匹配相似度測(cè)量、圖像自動(dòng)標(biāo)注,并研究了對(duì)標(biāo)注結(jié)果進(jìn)行存儲(chǔ)和管理的方法。本系統(tǒng)標(biāo)注性能良好,文中只對(duì)顏色和紋理兩種圖像特征進(jìn)行了提取和匹配并且采用的自動(dòng)標(biāo)注算法較為簡(jiǎn)單,系統(tǒng)的標(biāo)注性能有待于進(jìn)一步提高。下一步研究方向是選擇更多的圖像特征并且改進(jìn)標(biāo)注算法。
本文受到2013年國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“圖像自動(dòng)標(biāo)注研究”的資助,在此表示感謝。
參考文獻(xiàn)
[1] 徐紅霞,鄭龍,王廳列,等.基于HSI顏色空間統(tǒng)計(jì)直方圖的圖像檢索[J].電腦知識(shí)與技術(shù),2009(31):8801?8804.
[2] University of California Berkeley. Corel dataset website [EB /OL]. [2006?02?04]. http: / / elib. cs. berkeley. edu /photos/ corel /.
[3] 伍宇花.BP神經(jīng)網(wǎng)絡(luò)在圖像語(yǔ)義自動(dòng)標(biāo)注的應(yīng)用[J].電腦知識(shí)與技術(shù),2011(14):25?28.
[4] 盧漢清,劉靜.基于圖學(xué)習(xí)的自動(dòng)圖像標(biāo)注[J].計(jì)算機(jī)學(xué)報(bào),2008,31(9):1629?1632.
[5] 萬(wàn)華林,CHOWDHURY M U.基于支持向量機(jī)的圖像語(yǔ)義分類[J].軟件學(xué)報(bào),2003,14(11):1891?1899.
[6] 向日華,王潤(rùn)生.一種基于高斯混合模型的距離圖像分割算法[J].軟件學(xué)報(bào),2003,14(7):1250?1257.
[7] 張華,梁宇生.基于實(shí)例圖像自動(dòng)語(yǔ)義標(biāo)注方法的研究[J].山東農(nóng)業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2011(2):255?258.
[8] 朱文球,劉強(qiáng).一種新的圖像語(yǔ)義自動(dòng)標(biāo)注與檢索算法[J].計(jì)算機(jī)應(yīng)用研究,2007(7):318?320.
[9] 王妍寧,郭雷,方俊.一種新的圖像語(yǔ)義自動(dòng)標(biāo)注模型[J].計(jì)算機(jī)工程與應(yīng)用,2011(7):193?197.
[10] 韋布.統(tǒng)計(jì)模式識(shí)別[M].王萍,楊培龍,羅穎昕,等譯.2版.北京:電子工業(yè)出版社,2004.