華艷秋
摘 要:視覺(jué)概念檢測(cè)技術(shù)是一種對(duì)圖像進(jìn)行檢測(cè)、管理及分類(lèi)的有效方法,而檢測(cè)算法需要有高質(zhì)量的圖像集作為訓(xùn)練集來(lái)測(cè)試算法的可行性及精確性。本文介紹了理想的圖像集應(yīng)具備的特性及常用的圖像集,為視覺(jué)概念檢測(cè)的研究提供有價(jià)值的參考。
關(guān)鍵詞:視覺(jué)概念圖像集檢測(cè)技術(shù)
中圖分類(lèi)號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2012)07(b)-0027-01
近年來(lái),隨著圖像檢索技術(shù)的快速發(fā)展,圖像視覺(jué)內(nèi)容信息作為一種直觀形象、完整復(fù)現(xiàn)場(chǎng)景的信息表達(dá)形式產(chǎn)生著越來(lái)越重要的影響,可以說(shuō)機(jī)器視覺(jué)的應(yīng)用范圍幾乎涵蓋了國(guó)民經(jīng)濟(jì)的各個(gè)行業(yè),主要包括:工業(yè)、農(nóng)業(yè)、醫(yī)藥、軍事、航天、氣象、天文、公安等。
面對(duì)如此大規(guī)模的圖像視覺(jué)內(nèi)容信息量,如何實(shí)現(xiàn)合理有效地組織、表達(dá)及搜索,已成為現(xiàn)階段信息檢索領(lǐng)域研究的熱點(diǎn)問(wèn)題。視覺(jué)概念檢測(cè)技術(shù)是一種對(duì)大量圖像進(jìn)行自動(dòng)檢測(cè)、管理及分類(lèi)的有效方法,它通過(guò)合理的算法對(duì)獲取的圖像進(jìn)行檢測(cè)、識(shí)別、分類(lèi),從而達(dá)到用機(jī)器代替人來(lái)做圖像測(cè)量和判斷的目的。若要使圖像檢測(cè)及分類(lèi)準(zhǔn)確性高,就需要使用高質(zhì)量的圖像集作為訓(xùn)練集,來(lái)驗(yàn)證算法的可行性及精確性。
1理想的圖像測(cè)試集應(yīng)具備的特性[1]
1.1 圖像集應(yīng)在圖像檢索領(lǐng)域具有代表性及整體性
過(guò)去,研究人員使用的圖像集常常是分散的,甚至可能自己的私人圖像收藏,這樣的測(cè)試集難免會(huì)具有片面性,理想情況是測(cè)試集包含許多不同的樣本點(diǎn),能夠涵蓋圖像源的整個(gè)頻譜,圖像足夠多到能夠代表整個(gè)領(lǐng)域。
1.2 圖像集應(yīng)具備標(biāo)準(zhǔn)化的測(cè)試基準(zhǔn),以便執(zhí)行客觀的評(píng)價(jià)
在目前的文獻(xiàn)中,經(jīng)常發(fā)生不同的研究人員在同一個(gè)圖像集下執(zhí)行不同的性能測(cè)試,這就使得無(wú)法執(zhí)行比較基準(zhǔn)。標(biāo)準(zhǔn)化的測(cè)試基準(zhǔn)應(yīng)該至少包括典型的搜索概念、統(tǒng)一的圖像信息,以及統(tǒng)一的績(jī)效測(cè)量和報(bào)告的詳細(xì)指引。
1.3 圖像集應(yīng)該便于用戶(hù)訪(fǎng)問(wèn)及使用,而不必?fù)?dān)心版權(quán)等問(wèn)題
有些圖像集,如MPEG7測(cè)試集,被科學(xué)界使用已經(jīng)有一些年了,但是現(xiàn)在卻基本找不到,并且也不能隨意的發(fā)布了。對(duì)使用者來(lái)說(shuō),能夠容易的訪(fǎng)問(wèn)并且在需要的時(shí)候可以再發(fā)表是必不可少的。
2MIR FLICKR圖像集[2]
在基于內(nèi)容的圖像檢索里,MIR Flickr提供的圖像集是一個(gè)被廣泛應(yīng)用,且評(píng)價(jià)較高的測(cè)試集。2008年,圖像集包含25000個(gè)圖像,到2010年,圖像集已經(jīng)擴(kuò)展到了1百萬(wàn)個(gè)圖像,這些圖像具有很高的品質(zhì),且在相應(yīng)領(lǐng)域上具有代表性和較高的關(guān)注度。如果僅是用于研究目的的話(huà),用戶(hù)可以自由使用這些圖片而無(wú)需顧慮版權(quán)的問(wèn)題。
Flickr還為用戶(hù)提供基于圖像標(biāo)記的搜索和共享照片,以及兩種形式的圖像標(biāo)簽:圖像的原始形式和由FLICKR清理了原始數(shù)據(jù)的處理形式,這個(gè)過(guò)程包括例如消除大寫(xiě),空間,和各種各樣的特殊字符等,每幅圖像的標(biāo)簽的平均數(shù)為8.94。這些標(biāo)簽有的是明確描述圖像的,能直接關(guān)系到圖像的視覺(jué)內(nèi)容,例如雪地、日落、建筑物、聚會(huì)等,有的標(biāo)簽表述的是一些抽象的概念,例如愛(ài)情、旅行、陳舊、可愛(ài)等。
此外,圖像集還提供了圖像的EXIF(可交換圖像文件格式)元數(shù)據(jù),并將其轉(zhuǎn)換成易于訪(fǎng)問(wèn)的文本文件。EXIF元數(shù)據(jù)代表的數(shù)碼相機(jī)在拍照時(shí)的屬性和設(shè)置,包括相機(jī)的品牌、相機(jī)的設(shè)置參數(shù)(曝光,光圈,焦距,ISO感光度等)和圖像的設(shè)置(方向,分辨率,日期等),Flickr從圖像中分離出來(lái)EXIF元數(shù)據(jù),而不再是嵌入在圖像文件的信息。最近的一些文獻(xiàn)已經(jīng)研究了這些用于圖像分類(lèi)和檢索的元數(shù)據(jù)的有用性,如文獻(xiàn)[3],[4]中所示,通過(guò)考慮一個(gè)圖片中所帶有的元數(shù)據(jù)信息,可以使圖像檢測(cè)性能有明顯的改善。
利用圖像集對(duì)檢測(cè)算法進(jìn)行訓(xùn)練之后,使用者可以得出算法的準(zhǔn)確性及可行性,達(dá)到對(duì)圖像進(jìn)行分類(lèi)及檢測(cè)的目的。
3結(jié)語(yǔ)
從目前的調(diào)查來(lái)看,在世界范圍內(nèi),雖然許多機(jī)構(gòu)提供了相對(duì)成熟的圖像集,但還沒(méi)有發(fā)現(xiàn)哪個(gè)是完全滿(mǎn)足理想圖像集的特性的,希望通過(guò)圖像提供者的無(wú)私幫助及組織機(jī)構(gòu)的不懈努力,能夠克服以前測(cè)試集的局限性,在圖像質(zhì)量、代表性、主題、標(biāo)簽信息等方面有進(jìn)一步的發(fā)展。
參考文獻(xiàn)
[1] The MIR Flickr Retrieval Evaluation.The MIRFLICKR Image Collection[EB/OL].http://press.liacs.nl/mirflickr,2011.
[2] M.J.Huiskes,M.S.Lew(2008).The MIR Flickr Retrieval Evaluation.ACM International Conference on Multimedia Information Retrieval(MIR''08),Vancouver,Canada.
[3] P.SINHA AND R.JAIN(2008).Classification and annotation of digital photos using optical context data.ACM International Conference on Content-Based Image and Video Retrieval(CIVR 08),Niagara Falls,Canada.309-318.
[4] J.YEN,P.WU,AND D.TRETTER(2007)Knowledge discovery for better photographs,Proc.SPIE6506,65060B.
[5] 馬玉真.計(jì)算機(jī)視覺(jué)檢測(cè)技術(shù)的發(fā)展及應(yīng)用研究[J].濟(jì)南大學(xué)學(xué)報(bào),18(3):222-227.