羅菊香
(江西服裝學(xué)院 大數(shù)據(jù)學(xué)院,江西 南昌 330000)
圖像自動(dòng)標(biāo)注是指針對圖像的視覺內(nèi)容,通過機(jī)器學(xué)習(xí)的方法自動(dòng)給圖像添加反映其內(nèi)容的文本特征信息的過程。基本思想是:利用已標(biāo)注圖像集或其他可獲得的信息,自動(dòng)學(xué)習(xí)語義概念空間與視覺特征空間的潛在關(guān)聯(lián)或映射關(guān)系,給未知圖像添加文本關(guān)鍵詞。經(jīng)過圖像自動(dòng)標(biāo)注技術(shù)的處理,圖像信息問題可以轉(zhuǎn)化為技術(shù)已經(jīng)相對較成熟的文本信息處理問題。傳統(tǒng)的圖像標(biāo)注是通過人工方式完成的,隨著圖像數(shù)據(jù)的爆發(fā)式增長,人工方式成本高而效率低,同時(shí)也存在一定的主觀性,使得效果不理想。為了能夠高效地從大量圖像數(shù)據(jù)中尋找到自己需要的圖像,對圖像自動(dòng)標(biāo)注研究就變得非常重要。
目前,各種標(biāo)注模型及方法層出不窮,其中,很多圖像標(biāo)注概率主題模型是基于Corr-LDA 模型的[1]。而 Corr-LDA-ITD 模型[2]是對 Corr-LDA 改進(jìn)之后的圖像標(biāo)注模型,具有更好的標(biāo)注效果。文獻(xiàn)[3]提出了基于Corr-LDA 模型,利用類別信息來促進(jìn)圖像標(biāo)注的方法?;诖耍疚睦肅orr-LDA-ITD 模型對不同類別的圖像進(jìn)行學(xué)習(xí),選取log 似然值最大的模型來對2 個(gè)數(shù)據(jù)集(Labelme 和Uiuc-sport)中的測試集圖像進(jìn)行標(biāo)注實(shí)驗(yàn)。
LDA 模型是單模態(tài)的主題模型,對LDA 模型進(jìn)行擴(kuò)展,形成文本和圖像的多模態(tài)概率主題模型Corr-LDA 模型,而 Corr-LDA-ITD 將 Corr-LDA 的文本主題的均勻分布抽取修改為在已抽取的圖像主題中按圖像主題分布抽取,這種生成方式更加符合真實(shí)圖像,均勻分布只是認(rèn)為的理想情況,從已抽取的圖像主題中按圖像主題分布抽取更能體現(xiàn)真實(shí)圖片的圖片主題情況。因此相較于Corr-LDA 模型,Corr-LDA-ITD 模型中文本和圖像的關(guān)系更緊密,文獻(xiàn)[2]中的實(shí)驗(yàn)驗(yàn)證了Corr-LDA-ITD模型的標(biāo)注性能要優(yōu)于Corr-LDA 模型。文獻(xiàn)[3]是基于Corr-LDA模型利用類別信息促進(jìn)標(biāo)注,因此,本文在Corr-LDA-ITD模型的基礎(chǔ)上進(jìn)行改進(jìn),利用類別信息來促進(jìn)圖像標(biāo)注,提出了一種基于Corr-LDA-ITD 模型利用類標(biāo)促進(jìn)標(biāo)注的方法,利用該模型可以對未標(biāo)注圖像集進(jìn)行自動(dòng)標(biāo)注。概率圖模型如圖1所示。
圖1 Corr-LDA-ITD的概率圖模型
模型的具體生成過程為:假設(shè)圖像集由D張照片經(jīng)過圖像處理之后構(gòu)成M個(gè)圖像詞匯和N個(gè)文本詞匯,首先按照狄利克雷分布抽取主題比例θ;對每一個(gè)圖像詞匯vm先按照多項(xiàng)式分布抽取圖像主題Zm|θ,再按照多項(xiàng)式分布抽取圖像詞vm|Zm;對每一個(gè)文本詞wn,先按照多項(xiàng)式分布抽取主題比例Tn|Z,再按照多項(xiàng)式分布抽取文本詞wn|Tn。模型的潛變量和觀測變量的聯(lián)合分布為:
本文基于文獻(xiàn)[2]和文獻(xiàn)[3],利用類標(biāo)信息結(jié)合Corr-LDA-ITD 模型進(jìn)行模型構(gòu)建,因?yàn)椴煌悇e的圖像之間,圖像呈現(xiàn)的事物差距較大,相同類別的圖像之間,圖像呈現(xiàn)的事物相近。標(biāo)注方法的構(gòu)建過程如圖2所示。
圖2 模型選擇
模型構(gòu)建首先利用Corr-LDA-ITD對各個(gè)類的圖像進(jìn)行學(xué)習(xí),然后用各個(gè)類圖像集學(xué)習(xí)出的模型對測試圖像集進(jìn)行測試,選出所有模型中l(wèi)og 似然值最大的標(biāo)注模型來對圖像進(jìn)行標(biāo)注,模型通過公式(2)確定log似然值。
模型具體標(biāo)注過程是首先使用訓(xùn)練好的模型參數(shù)計(jì)算圖像主題分布;再依據(jù)該分布選擇文本主題;最后按照這個(gè)選中的主題生成標(biāo)注詞,確定概率較大的前4個(gè)標(biāo)注詞作為圖像的標(biāo)注模型:
為比較本文方法的標(biāo)注效果,實(shí)驗(yàn)在2個(gè)真實(shí)圖像集(Labelme和Uiuc-sport)上進(jìn)行,模型選取6組主題(K=20,40,60,80,100,120)進(jìn)行標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)將本文方法與Corr-LDA模型、Corr-LDA-ITD 模型以及Mca-SLDA[4]模型進(jìn)行標(biāo)注比較,在 2 個(gè)真實(shí)圖像集(Labelme 和Uiuc-sport)的實(shí)驗(yàn)效果分別如圖3—4 所示。
圖3 Labelme數(shù)據(jù)集上F-mesaure值性能比較
圖4 Uiuc-sport數(shù)據(jù)集上F-mesaure值性能比較
從實(shí)驗(yàn)結(jié)果可知,本文方法在2 個(gè)真實(shí)圖像集(Labelme 和Uiuc-sport)上表現(xiàn)出了圖像標(biāo)注效果總體要高于相比較的3 個(gè)模型。Labelme 和Uiuc-sport數(shù)集都是在主題數(shù)為60 時(shí)表現(xiàn)出最好的標(biāo)注效果,在實(shí)驗(yàn)的幾組主題上標(biāo)注效果都優(yōu)于相比較的其他3個(gè)模型。
本文利用類標(biāo)信息結(jié)合Corr-LDA-ITD模型進(jìn)行模型構(gòu)建,通過在各個(gè)類圖像集中進(jìn)行模型學(xué)習(xí),利用所有模型中l(wèi)og似然值最大的標(biāo)注模型來對圖像進(jìn)行標(biāo)注。實(shí)驗(yàn)驗(yàn)證了本文方法相較于其他模型標(biāo)注效果有所優(yōu)化。
目前,自動(dòng)圖像標(biāo)注是計(jì)算機(jī)視覺和自然語言處理交叉研究領(lǐng)域的研究熱點(diǎn),近年來學(xué)術(shù)界和工業(yè)界都對其進(jìn)行了大量的研究。其中有一部分學(xué)者致力于卷積神經(jīng)網(wǎng)絡(luò)在圖像標(biāo)注中的應(yīng)用研究。卷積神經(jīng)網(wǎng)絡(luò)融合了人工神經(jīng)網(wǎng)絡(luò)及深度學(xué)習(xí)的理論基礎(chǔ),可以大幅度減少參數(shù)估計(jì)的數(shù)量。因此相比于其他網(wǎng)絡(luò)結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)會(huì)更容易得到訓(xùn)練,也可以有效避免傳統(tǒng)人為干預(yù)選擇特征提取方式時(shí)的預(yù)處理過程,筆者后續(xù)也將著力于這方面的研究。