摘 要:基于內(nèi)容的圖像檢索技術(shù)產(chǎn)生時代背景、研究過程、目前研究程度及相關(guān)技術(shù),本文進(jìn)行了研究。論述了SVM的技術(shù)原理;并綜述了前人對SVM應(yīng)用在圖像標(biāo)注檢索上做相關(guān)工作,對這些工作的優(yōu)缺點通過分析比較,引出以后研究需要解決的問題和有益可行的方法。在前人的成功經(jīng)驗的基礎(chǔ)上,該文提出了一種新的算法:多個SVM與主動學(xué)習(xí)能夠增強(qiáng)檢索性能,每個SVM的分類結(jié)果可以通過不同的計算確信度方法來評估,以達(dá)到很好的效果。
關(guān)鍵詞:SVM 圖像檢索 圖像標(biāo)注
中圖分類號:TP391.41文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2013)05(a)-0016-01
1 圖像檢索綜述
隨著多媒體技術(shù)的快速發(fā)展以及網(wǎng)絡(luò)和生活中圖像數(shù)據(jù)的大量涌現(xiàn),在多媒體技術(shù)研究中,大家關(guān)心的熱點問題是如何從中快速、有效地找到有用的圖像,在這樣的背景下就產(chǎn)生了圖像檢索。圖像檢索發(fā)展階段劃分一般為基于文本、內(nèi)容、語義。
圖像檢索方法基于文本的大家都很熟悉了,需要每幅圖片都提前用關(guān)鍵字標(biāo)注,我們常用的google、yahoo、baidu都是這種用文本檢索的方式。它的優(yōu)點是檢索簡單方便人性化,但是缺點就是簡單的文本難以充分表達(dá)圖像豐富內(nèi)容、人為標(biāo)注主觀性比較大,另外對于大型的圖像數(shù)據(jù)集,手工標(biāo)注效率太低。因此,如何快速、有效地實現(xiàn)對圖像的自動語義標(biāo)注就變得很必要。于是基于內(nèi)容的圖像檢索技術(shù)就產(chǎn)生了,它首先提取圖像的低層特征,通過計算圖像庫中圖像低層特征與查詢圖像低層特征之間的相似度獲得最終的檢索結(jié)果。
CBIR的優(yōu)點是用低層特征取代了文本來表示圖像的內(nèi)容,能夠自動進(jìn)行圖像匹配,無需要求圖像庫中的圖像必須含有本文標(biāo)記。缺點也很明顯就是低層視覺特征與人類的視覺機(jī)制明顯不一致,高、低層語義特征之間存在很大的語義差異,比如語義特征和語義概念并非一一對應(yīng),比如草地樹葉都是相同的綠色,但語義不同。即使語義概念相同,其低層特征也不一定相同,如蘋果有紅色的也有綠色的。因此如何縮小“語義鴻溝”,建立低層特征與高層語義之間的關(guān)聯(lián)是目前需要迫切需要解決的問題。
2 SVM分類方法研究
SVM實際上是一種分類方法,其基本思想:對于相關(guān)分類問題,在高維空間里,利用其中一個最優(yōu)分類超平面做為分類平面,從而達(dá)到最小的分類錯誤率的效果。
對于線性可分的情況,最終目標(biāo)是找到這么一個分類超平面能夠把正負(fù)兩類樣本最大化地分開,最終的目標(biāo)函數(shù)既保證了兩類間隔最大,又保證了分類錯誤率最小,通過引入拉格朗日乘子得到最后的判別函數(shù)。
對于非線性可分的情況,特定函數(shù)也稱為核函數(shù),通過其非線性映射變換到高維特征空間的過程中尋找最優(yōu)線性分類面。
常用的核函數(shù)有這三種。對于多類分類問題,仍然可以采用SVM來解決。一般有一對一和一對多兩種策略。一對一策略:任取其中兩類訓(xùn)練一個SVM,從而就可以訓(xùn)練k(k-1)/2個SVM,這個數(shù)目是比較大的,因此常采用第2種方法一對多的,一對多,是取其中任一類作為正類,其他都作為負(fù)樣本訓(xùn)練一個SVM,這樣需要訓(xùn)練k個SVM。
圖像注釋雖然有多種方法,但基于分類的方法是比較好的一種方法,每個語義關(guān)鍵字或者語義概念能夠被做為獨立的類來對待,能夠為每個語義概念訓(xùn)練一個分類器從而實現(xiàn)將圖像分類進(jìn)而注釋的效果,而SVM由于它的優(yōu)點常被用來進(jìn)行圖像注釋。
2003年Cusano首先將SVM用在圖像注釋中將圖像區(qū)域分到七個具體的類。2005年King等人結(jié)合一類SVM和二類SVM來提高注釋的精度,隨后2006年Chang等人為了提高圖像注釋的性能,一是在不對稱損失函數(shù)引入了假相關(guān)實例、假不相關(guān)實例,二是把多實例學(xué)習(xí)和SVM充分結(jié)合起來,取得了較好的效果。
但是這些方法都沒有考慮到樣本不平衡問題,因為為了減少分類器的數(shù)目,大家都使用一對多的策略來運(yùn)用SVM,但是這樣一來,正類樣本數(shù)目會遠(yuǎn)遠(yuǎn)小于負(fù)例樣本,大規(guī)模不平衡數(shù)據(jù)會對SVM分類產(chǎn)生很大影響,被J.Yuan等人研究證實了。但是,對于現(xiàn)存的分類器,大型的圖像數(shù)據(jù)集中,存在語義類別豐富、訓(xùn)練學(xué)習(xí)時間過長等問題。
3 SVM在圖像檢索中的應(yīng)用
SVM常與相關(guān)反饋來結(jié)合來提高檢索性能。在P.Hong等人研究中,將SVM引入反饋算法,通過正樣本到最優(yōu)分類面的距離來計算其相關(guān)度。用戶只需標(biāo)明正負(fù)樣本,系統(tǒng)就可以通過這些反饋樣本學(xué)習(xí),哪一個樣本距最優(yōu)分類面最遠(yuǎn),其獲得的權(quán)重最大。在L.Zhang等人研究中,訓(xùn)練學(xué)習(xí)一種SVM分類器,可以把圖像分為相關(guān)與不相關(guān)兩類,直接通過SVM的輸出來進(jìn)行排序,把最大值的前n幅圖像進(jìn)行返回輸出。在Y.Chen等人的研究中,僅僅考慮正反饋樣本,利用一類SVM估計相關(guān)圖像特征的支持效果。
但是這些方法都存在著小樣本問題,標(biāo)記樣本數(shù)目遠(yuǎn)遠(yuǎn)少于未標(biāo)記樣本,從而導(dǎo)致SVM訓(xùn)練數(shù)據(jù)不足。另外用戶耐心有限,不可能標(biāo)記太多次,于是為了解決這兩個問題,一般有兩種方法:主動學(xué)習(xí)和充分利用未標(biāo)記數(shù)據(jù)。
而主動學(xué)習(xí)有兩種方法:不確定采樣和基于委員會的采樣。不確定采樣是通過訓(xùn)練一個學(xué)習(xí)器,詢問用戶進(jìn),用最沒把握確定標(biāo)記的樣本?;谖瘑T會的采樣是通過訓(xùn)練多個學(xué)習(xí)器,詢問用戶時,用多個學(xué)習(xí)器都不能夠達(dá)成一致的樣本。
近幾年提出的主動學(xué)習(xí)算法主要有:SVMactive算法:每次選出讓用戶標(biāo)記的圖像,最大化的減小了version space大小,離SVM分類邊界最近的樣本就能夠近似地達(dá)到這個目標(biāo)。mean version space概念:考慮version space的大小和后驗概率,每個具體的學(xué)習(xí)任務(wù)裁剪能夠最大化地縮小version space。主動學(xué)習(xí)算法:在Co-SVM中,把一幅圖的顏色、紋理等看作充分和無關(guān)聯(lián)的內(nèi)容。SVM分類器分別學(xué)習(xí)顏色和紋理特征,未標(biāo)記數(shù)據(jù)通過兩個分類器分類。最后選出不同的未標(biāo)記樣本,再計算其確信度,讓用戶標(biāo)記其中確信度低的。未標(biāo)記數(shù)據(jù)先通過一個不同于SVM的簡單學(xué)習(xí)器來分類,選出最不相關(guān)的,然后與標(biāo)記訓(xùn)練集結(jié)合起來作為SVM訓(xùn)練集,每次選出距離SVM分類邊界最近的圖像做聚類,讓用戶標(biāo)記從每個聚類中選出一幅最有代表性的圖像。
參考文獻(xiàn)
[1]李宗民,劉洋.Incorporating Multiple SVMs for Active Feedback in Image Retrieval Using Unlabeled Data[C]//第二屆數(shù)字圖像處理國際會議(ICDIP 2010).(EI、ISTP檢索).