羅菊香
(江西服裝學(xué)院 物聯(lián)網(wǎng)工程教研室,江西 南昌 330000)
隨著圖像數(shù)據(jù)的海量增長,圖像分類和標(biāo)注也伴隨著相應(yīng)的挑戰(zhàn)[1]。近年來,科研人員提出了各種各樣的方法[2-3],圖像分類與標(biāo)注的研究也越來越受到學(xué)術(shù)界關(guān)注。
Corr-LDA模型是圖像標(biāo)注的經(jīng)典模型,大量的研究工作都是基于此模型進(jìn)行改進(jìn)[4],有學(xué)者提出了標(biāo)注性能更好的Corr-LDA-ITD模型,本文在Corr-LDA-ITD模型的基礎(chǔ)上提出了一個(gè)同時(shí)做圖像分類和標(biāo)注的概率主題模型(Corr-LDA-ITD-P模型)。同時(shí)基于變分EM算法推導(dǎo)了模型參數(shù)以及給出了該模型分類和標(biāo)注圖像的方法,并在真實(shí)數(shù)據(jù)集上對模型的分類和標(biāo)注性能進(jìn)行了驗(yàn)證。
Corr-LDA-ITD-P模型的概率如圖1所示。
利用變分EM算法求解參數(shù)[5],在E步驟中算得后驗(yàn)Dirichlet參數(shù)γ,參數(shù)φ,參數(shù)ρ分別為:
(1)
(2)
(3)
經(jīng)過E步驟之后然后在M步驟中計(jì)算模型參數(shù)π,β,α,μ分別為:
(4)
(5)
本文沒有對α進(jìn)行優(yōu)化,多次實(shí)驗(yàn)發(fā)現(xiàn),將α設(shè)置成全為1的向量,模型性能較好。
(6)
由于這個(gè)解不是封閉的,本文用共輒梯度法來優(yōu)化μ[6]。重復(fù)執(zhí)行E,M步驟,直到收斂。
(7)
提出模型經(jīng)過訓(xùn)練集數(shù)據(jù)學(xué)習(xí)之后,確定模型的參數(shù),使用該模型對新圖像預(yù)測標(biāo)注詞。選取概率較大的前幾個(gè)標(biāo)注詞作為圖像的標(biāo)注,具體標(biāo)注公式如下:
(8)
為評估Corr-LDA-ITD-P模型的分類和標(biāo)注性能,本文在LabelMe真實(shí)數(shù)據(jù)集上進(jìn)行相關(guān)實(shí)驗(yàn)。
LabelMe數(shù)據(jù)集含8類圖像,包括“海岸”“森林”“高速公路”“城市”“高山”“鄉(xiāng)村”“街道”“高樓”。每類包含200幅圖像,共1 600幅圖像。圖像特征提取過程采用網(wǎng)格抽樣技術(shù),從每一個(gè)網(wǎng)格中心抽取一個(gè)大小為16×16的區(qū)塊,然后用128維的sift描述子進(jìn)行描述,利用k-means算法對所有的sift描述子進(jìn)行聚類,構(gòu)成240個(gè)圖像碼書。同時(shí)移除出現(xiàn)次數(shù)少于3次的標(biāo)注詞,構(gòu)成294文本碼書。
為評價(jià)Corr-LDA-ITD-P模型分類性能,本文將Corr-LDA-ITD-P模型與Mc-sLDA[6],Mca-sLDA模型進(jìn)行比較。實(shí)驗(yàn)過程中選擇主題數(shù)為20~120,6組主題進(jìn)行比較。隨機(jī)抽取每類圖像的一半作為訓(xùn)練集,剩下的作為測試集,隨機(jī)抽取5次,進(jìn)行5次實(shí)驗(yàn),計(jì)算5次實(shí)驗(yàn)分類和標(biāo)注的正確率平均值。實(shí)驗(yàn)根據(jù)公式(7)對圖像進(jìn)行分類,選取概率最大的標(biāo)簽作為類標(biāo)簽。實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 LabelMe數(shù)據(jù)集上分類性能比較
圖2是數(shù)據(jù)集上分類性能比較。從LabelMe數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果可知,提出模型在K=80的時(shí)候表現(xiàn)了76.9%的最好性能,在K=40,60,80,100,120的時(shí)候,表現(xiàn)了分類性能要優(yōu)于相比較模型。
為了評價(jià)P-Mca-sLDA模型的標(biāo)注性能,本文將P-Mca-sLDA模型與Corr-LDA 模型、Mca-sLDA模型進(jìn)行比較。實(shí)驗(yàn)過程中選擇主題數(shù)為10~110,11組主題進(jìn)行比較。隨機(jī)抽取每類圖像的一半作為訓(xùn)練集,剩下的作為測試數(shù)據(jù),隨機(jī)抽取5次,模型進(jìn)行5次實(shí)驗(yàn),計(jì)算了5次實(shí)驗(yàn)F-measure的平均值。實(shí)驗(yàn)根據(jù)公式(8)對圖像進(jìn)行標(biāo)注,選取概率大的前5個(gè)詞作為標(biāo)注詞。實(shí)驗(yàn)結(jié)果如圖3所示。
圖3 LabelMe數(shù)據(jù)集上標(biāo)注性能比較
圖3是數(shù)據(jù)集上值的比較。從LabelMe數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果可知,模型在K=50的時(shí)候表現(xiàn)出了40.5%的最好標(biāo)注性能。在K=10,20,30,40,60,70,80,90時(shí),表現(xiàn)出了模型的標(biāo)注性能要優(yōu)于相比較模型。