謝文蘭
(廣東培正學院 計算機科學與工程系,廣州 510830)
目前人們主要是根據(jù)圖像的含義來判斷圖像是否符合自己的需要,這些圖像的含義即是圖像的高層語義.如何跨越底層視覺特征和高層語義特征的鴻溝是語義圖像檢索中一個難點.現(xiàn)實的圖像類別多種多樣,有的還同時屬于幾類語義圖像.為了解決這一問題,本文采用多輸出BP神經(jīng)網(wǎng)絡(luò)對自然圖像進行多種語義分類,對低層特征的選取做了實驗和比較,提出一種新的顏色提取方法.并且對如何選取圖像的語義閾值也做了實驗和比較,通過實驗發(fā)現(xiàn),當閾值的選取范圍在[0.55,0.65]時,檢索的查全率和準確率能達到一個比較好的平衡效果.
本文[1]是對風景圖像進行語義分類檢索.而風景圖像都具有比較明顯的顏色,根據(jù)風景圖像的這一特點,本文提出了一種新的提取顏色特征的方法.只對風景圖像的八種主要顏色進行提取,也就是對圖像的八種顏色進行聚類.這八種顏色分別為黑色、白色、紅色、黃色、綠色、青色、藍色和紫/品紅色.
(1)在RGB空間中提取顏色特征向量
在RGB空間中,這八種顏色分別對應(yīng)RGB模型的八個端點[2].圖像中每個像素點p的值r、g、b都處在這個空間中,根據(jù)下列公式分別計算p到8種顏色的距離,根據(jù)最短距離原則把像素歸到相應(yīng)的顏色中去.
圖像中的每個像素點對應(yīng)成這八種顏色中的一種.黑色c1、白色c2、紅色c3、黃色c4、綠色c5、青色c6、藍色c7、紫色c8.
本文用向量{c1/c,c2/c,…,c8/c}也就是這八種顏色在圖像中所占的比例作為風景圖像的顏色特征向量,其中c為相應(yīng)區(qū)域中總的像素點的個數(shù).
(2)在HSV空間中提取顏色特征向量
首先將每一個RGB空間像素的值R、G、B,轉(zhuǎn)換成HSV空間中的H、S、V.在HSV空間中,我們根據(jù)HSV顏色模型做如下的特須處理,當V<0.2時,顏色為黑色c,當S<0.15時,且V>0.8時,對應(yīng)顏色為白色c2.在其它情況,按照下列公式把色調(diào)H空間分成6份,分別代表紅c3、黃c4、綠c5、青c6、藍c7、紫色c8.
這樣在HSV空間,也得到一組8維顏色向量{c1/c,c2/c,…,c8/c}.
在RGB和HSV空間提取了顏色向量后,再取平均值.
圖5給出了目前最常用的顏色方法對顏色特征進行提?。?4維顏色直方圖)[3].從圖4和圖5我們可以看出,圖4中所代表的兩組顏色向量之間具有更大的相似性,而且更好的體現(xiàn)了風景圖像的顏色特點.本文提出的新方法不僅降低了顏色特征向量的維數(shù),減少了計算量,節(jié)省了時間,而且在描述了風景圖像的顏色內(nèi)容上更加準確.
本文對圖像進行均勻分割成5個區(qū)域,再對每個小區(qū)域分別提取主要顏色、灰度共生矩陣,以及對整個圖片提取形狀特征向量(七個不變矩).這樣一共得到一組87維的向量(其中顏色特征向量40維,紋理特征向量40維,形狀特征向量7維).
本文用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)底層特征到高層語義的映射[4].建立一個有87個輸入節(jié)點(每個節(jié)點對應(yīng)低層特征向量中的一個值),5個輸出節(jié)點(每個節(jié)點對應(yīng)一個語義類)的三層多輸出神經(jīng)網(wǎng)絡(luò).其中,初學習率為0.1,動量因子為0.9,隱層節(jié)點數(shù)為20.最大迭代次數(shù)(次)為10萬次.
每個語義類都選用30張圖片作為訓練樣本來訓練網(wǎng)絡(luò),共有150張訓練圖片.對于每一張訓練圖片都分為相關(guān)、一般相關(guān)和不相關(guān).當圖片與某類相關(guān)時,說明圖片只與該類有關(guān),與其它類無關(guān),則該類相對應(yīng)的輸出期望值為0.9,其它類的輸出期望期為0.1.當圖片與某類語義一般相關(guān)時,圖片不僅與該類有關(guān),還和其它的類有關(guān),凡是與之相關(guān)的類對應(yīng)的輸出期望值為0.7,其它為0.1.當圖片與某類不相關(guān)時,該類輸出值為0.1.假如圖片同時屬于藍天和花卉這兩個語義時,則該相應(yīng)的網(wǎng)絡(luò)期望輸出值為[0.7,0.1,0.1,0.7,0.1].神經(jīng)網(wǎng)絡(luò)輸入向量Xk[xk1,xk2,…,xk8],(k=1,2,…,N)(圖像的底層特征向量),N為訓練樣本的個數(shù),期望輸出向量為Tk=[tk1,tk2,tk3,tk4,tk5],(k=1,2,…,N).
通過訓練,得到一個已經(jīng)訓練好的BP神經(jīng)網(wǎng)絡(luò),可以對圖像同時進行5種語義(藍天、日落/日出、山、綠水、花卉)的分類.每幅圖像都能得到5個輸出結(jié)果,而每個輸出結(jié)果分別代表圖像與該類語義的相關(guān)程度.在這里,要做的工作是如何選定閾值,閾值的選取直接關(guān)系到檢索效果的好壞,一般說來,閾值越低,查全率越高,準確率越低.閾值越高,查全率越低,準確率越高.所以選取合適的閾值十分重要.通過實驗得出,閾值設(shè)定在[0.55,0.65]這個區(qū)間,查全率和準確率能達到一個比較好的平衡效果.一般來說,如果只要求檢索出與某一類語義相關(guān)的圖像,閾值可以稍微取高點.如果要求檢索出與多類語義相關(guān)的圖像,閾值可以稍微取低點.圖6給出了日落/日出的閾值與查全率/準確率的關(guān)系.
圖6 日落/日出的閾值與查全率/準確率的關(guān)系圖
本文是對corel圖像庫中的1000多張圖片進行語義分類.在本文中,對每個語義的單獨圖像檢索如圖7、圖8所示,取的閾值都是0.6.如果要檢索出多個語義組合的圖像,每類語義為0.55.表一給出了本文方法與SVM方法[5]的比較結(jié)果.
本文建立了一個語義圖像檢索模型,利用BP神經(jīng)網(wǎng)絡(luò)完成了圖像的底層視覺特征與高層語義特征之間的映射.同時本文還提出了一種新的顏色提取方法,不僅降低了顏色特征向量的維數(shù),減少了計算量,節(jié)省了時間,而且在描述了風景圖像的顏色內(nèi)容上更加準確.通過實驗確定閾值設(shè)定在[0.55,0.65]這個區(qū)間.實驗表明,該方法取得了較好的效果.由于圖像語義檢索技術(shù)本身涉及到計算機視覺、模式識別、圖像分析等多個研究領(lǐng)域.因此,還有很多問題需要解決和進一步完善.
[1]謝文蘭.基于BP神經(jīng)網(wǎng)絡(luò)的語義風景圖像檢索技術(shù)的研究[D].湖南:湘潭大學碩士學位論文,2009.
[2]周明全,耿國華,韋 娜.基于內(nèi)容圖像檢索技術(shù)[M].北京:清華大學出版社,2007.
[3]章毓晉.基于內(nèi)容的視覺信息檢索[M].北京:科學出版社,2003:58-69.
[4]高 雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實例[M].北京:機械工業(yè)出版社,2003:44-55.
[5]韓曉微,晏 磊,原忠虎,范立南.基于BP神經(jīng)網(wǎng)絡(luò)的顏色模糊量化方法[J].系統(tǒng)仿真學報,2006,18(10):3007-3010.