陳虹君, 羅福強 , 趙力衡, 張 杰, 李 瑤
(1.四川大學(xué)錦城學(xué)院 電子信息學(xué)院,四川 成都 611731;2.四川大學(xué) 圖像研究所,四川 成都 610207)
Farhadi等[1]采用三元組的檢測手段,通過模板將三元組生成一個語句;Kulkarni等[2]提出使用目標(biāo)檢測手段并引入隨機場(conditional random field,CRF)生成圖片對應(yīng)的描述語句.Li等[3]通過局限分析描述語句中短語之間的先后關(guān)系得出相應(yīng)規(guī)律,按照該規(guī)律組合短語形成描述.Fang等[4]提出基于三個步驟,使用標(biāo)注語言,并結(jié)合多實例學(xué)習(xí)(multiple instance learning,MIL)對圖片屬性進行探測,屬性詞匯利用語言統(tǒng)計模型生成最佳描述.以上方法都屬于傳統(tǒng)的基于模板的圖片描述方法,依賴于圖片詞匯結(jié)果的正確性,一般不能在描述中生成新的詞匯,且模板規(guī)則的有效性依賴于個人經(jīng)驗和先念知識.隨著圖片數(shù)據(jù)集和語言描述數(shù)據(jù)集越來越豐富,對任意圖片進行描述成為可能,因此提出基于檢索的圖片描述方法.Hodosh等[5]采用了內(nèi)核典型相關(guān)分析方法(kernel canonical correlation analysis,KCCA);Gong等[6]采用了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neual network,CNN);Socher等[7]采用了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN).這些方法都是基于檢索的圖片描述方法,依賴于檢索方法的設(shè)計和被檢索庫覆蓋的全面性.基于模板和基于圖片這兩種方法雖然在特定的情況下效果不錯,但是所得模型的泛化能力較差.隨著研究的發(fā)展,機器翻譯中的編解碼模型被引入圖片描述中,用于機器翻譯的循環(huán)神經(jīng)網(wǎng)絡(luò)采用了兩個RNN構(gòu)成RNN-RNN模型.第一個RNN被稱為編碼部分,這部分的作用是:通過學(xué)習(xí)將原始語言的語句編碼成一個固定長度的編碼向量.第二個RNN被稱為解碼部分,這部分的作用是通過學(xué)習(xí)將編碼向量解碼成另一種語言的語句.Li等人[8]借鑒該思路,首先使用兩個CNN模型來分別對圖片場景信息和圖片物體信息進行編碼,再將兩個編碼信息進行組合后送入解碼端進行解碼.
本文結(jié)合了CNN模型與RNN模型的優(yōu)勢,對圖片描述引入的編-解碼模型做了改進,并結(jié)合多實例學(xué)習(xí)模型MIL與深度循環(huán)神經(jīng)網(wǎng)絡(luò)(deep recurrent networks,DRN)進行了模型的優(yōu)化.
本文結(jié)合了CNN模型與RNN模型的優(yōu)勢,對編碼部分的RNN用圖片處理中效果較好的CNN代替,圖片經(jīng)過處理后大都能得到一個代表圖片全局特征的特征向量.這與機器翻譯的處理過程是相似的,而且又充分利用了CNN圖形處理相較RNN更強大的能力,解碼仍然采用RNN,因此這種模型稱為CNN-RNN模型.其優(yōu)勢體現(xiàn)在不僅能夠進行端到端的訓(xùn)練,免去模板方式的語言設(shè)計過程,而且CNN和RNN分別屬于視覺模型和語言模型,這兩個模型在當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)激增的情況下,都能夠進行充分的預(yù)訓(xùn)練處理,這能夠有效提升其泛化能力.
基于CNN-RNN模型的圖片描述待優(yōu)化模型如圖1所示,在使用RNN對CNN-RNN編碼部分進行鏈?zhǔn)角蠼鈺r,通過控制RNN的隱藏狀態(tài)存儲器的狀態(tài)來控制最終生成詞的個數(shù),而狀態(tài)存儲器的狀態(tài)更新機制與所選的RNN模型有很大關(guān)系,一般情況下,會選擇在機器翻譯中表現(xiàn)較好的LSTM網(wǎng)絡(luò).CNN-RNN模型的目標(biāo)是最大化給定圖片和描述語句的概率關(guān)系
式中:θ*代表整個待優(yōu)化模型,I代表給定的圖片,S代表對應(yīng)圖片給定的描述.由于在實際情況中,每張圖片的描述語句S的有效長度并不確定,因此
由于CNN在對圖片進行處理時,關(guān)注的是圖片的全局特征,因此這種方式和基于模板的圖片描述以及基于檢索的圖片描述兩種方式相比,一定程度上忽略了圖片的局部區(qū)域特征和圖片語義信息,使得其在編碼時損失了圖片局部信息,從而影響最終的圖片描述結(jié)果.而語義信息一直以來都被證明有助于圖片的理解,因此在CNN-RNN的模型上繼續(xù)做了改進,對圖片屬性設(shè)置概率,形成有屬性概率向量的CNN-RNN模型.
本文就CNN-RNN的改進模型對圖片屬性設(shè)置概率,形成有屬性概率向量的CNN-RNN模型.CNN-RNN改進模型,對CNN模型進行了調(diào)整,使其變成一個全卷積網(wǎng)絡(luò).由于針對圖片屬性探測需要同時關(guān)注圖片整體和局部的需求,因此將多實例學(xué)習(xí)(multiple instance learning,MIL)[9]結(jié)合進來.MIL模型關(guān)注每一個屬性出現(xiàn)在圖片中的概率,同時引入深度循環(huán)神經(jīng)網(wǎng)絡(luò),將多個節(jié)點堆疊在一個時刻的計算中,加深了非線性變換的復(fù)雜深度,同時考慮了當(dāng)前時刻t對多個時刻的依賴關(guān)系,從而形成改進的CNN-RNN模型,稱為CNN-MIL-DRN模型,如圖2所示.具體思路是:首先,將CNN中的全連接層改為m個,卷積核大小為1×1的卷積層,使得網(wǎng)絡(luò)變成一個全卷積網(wǎng)絡(luò).接著,將全卷積網(wǎng)絡(luò)最后一個卷積層的卷積核個數(shù)設(shè)為與上節(jié)經(jīng)過預(yù)處理之后的屬性集合W′大小相同.然后,在全卷積網(wǎng)絡(luò)最后接MIL算法層.最后,使用交叉熵?fù)p失函數(shù)和隨機梯度下降法來優(yōu)化這個模型.在該模型中,假設(shè)所有可能出現(xiàn)的屬性w構(gòu)成一個集合,表示為W{w1,w2,…,wn},n∈M,集合大小為M.為了計算圖片i中包含屬性w的概率,首先假設(shè)將圖片i分為k個區(qū)域,則piw的計算公式定義如下:
式中:pijw代表圖片i中第j塊區(qū)域包含屬性w的概率.
式中:φ(bij)代表圖片i中第j塊區(qū)域特征變換后的表示;Vw,uw是與屬性w相關(guān)的權(quán)重和偏置.
在該模型中,編碼部分使用了全卷積網(wǎng)絡(luò)與MIL模型,解碼部分使用了LSTM網(wǎng)絡(luò),其中隱藏節(jié)點為1 000,隱藏狀態(tài)存儲器最大長度為30.本文采用MS COCO C5[10](簡稱C5)進行測試.為了綜合且準(zhǔn)確評價一個分類結(jié)果的好壞,采用了AP(average precision)作為分類結(jié)果的指標(biāo),評價結(jié)果如表1所示.
表1 各屬性探測方法評價結(jié)果
在C5數(shù)據(jù)集上,實驗選取了0.0,0.1,0.2,0.3,0.4,0.5六個閾值進行測試,并選取了一些目前較新的模型用作對比,對比實驗結(jié)果如表2所示.
表2 不同閾值下的CNN-MIL-DRN模型與其他模型的評價指標(biāo)對比
BLEU(bilingual evaluation understudy)[11]是一種流行的機器翻譯評價指標(biāo),后來引用到對圖片描述結(jié)果的評價中,用于分析待評價語句和參考語句中n元組共同出現(xiàn)的程度.
METEOR標(biāo)準(zhǔn)[12]基于召回率,其計算基礎(chǔ)是單精度的加權(quán)調(diào)和平均數(shù)以及單字召回率,其目的是解決一些BLUE標(biāo)準(zhǔn)中固有的權(quán)限,并且還包含了其他指標(biāo)沒有的功能,如同義詞匹配.
CIDEr標(biāo)準(zhǔn)[13]是用來衡量圖片描述中每個n元組的術(shù)語頻率及逆向文件頻率(term frequency inverse document frequency,TF-IDF)權(quán)重的指標(biāo).
實驗結(jié)果顯示,CNN-MIL-DRN改進模型比CNN-RNN分類指標(biāo)AP更高,表明有更好的分類結(jié)果.通過閾值調(diào)整后,可以得到模型的最優(yōu)性能,實驗顯示在閾值a=0.2時,評價指標(biāo)除了BLUE1略低于Hard-ATT,其他指標(biāo)均高于其他模型.
參考文獻
[1] FARHADI A,HEJRATI M,SADEGHI M,et al.Every picture tells a story:generating sentences form images[J].Lecture Notes in Computer Science,2010,21(10):14-28.
[2] KULKARNI G,PREMRAJ V,ORDONEZ V,et al.Baby talk:understanding and generating simple image description[C].IEEE Conference on Computer Vision and Pattern Recognition,2011:1600-1609.
[3] LI S,KULKARNI G,BERG T,et al.Composing simple image description using web-scale N-grams[C].Proceedings of the Fifteenth Conference on Computational Natural Language Learning,2012:221-227.
[4] FANG H,GUPTA S,LANDOLA F,et al.From captions to visual concepts and back[C].IEEE Conference on Computer Vision and Pattern Recognition,2015:1472-1483.
[5] HODOSH M,YOUNG P,HOCKENMAIER J.Framing image description as a ranking task:data,models and evaluation metrics[J].Journal of Artificial Intelligence Research,2013,47(1);852-898.
[6] GONG Y,WANG L,HODOSH M,et al.Improving image-sentence embeddings using large weakly annotated photo collections[J].Lecture Notes in Computer Science,2014,8692:528-546.
[7] SOCHER R,KARPATHY A,LE Q V,et al.Grounded compositional semantics for finding and describing images with sentences[J].Translation of the Association for Computational Linguistics,2014:208-217.
[8] LI X,SONG X,HERRANZ L,et al.Image captioning with both object and scene information[C].ACM on Multimedia Conference,2016:1105-1115.
[9] VIOLA P,PLATT J,ZHANG C.Multiple instance boosting for object detection[J].Advances in Neural Information Processing Systems,2005,18:1419-1426.
[10] CHEN X,FANG H,AZIZPOUR H,el al.Microsoft COCO captions:data collection and evaluation server[DB].arXiv:1504.00325.
[11] PAPINENI K,ROUKOS S,WARD T,et al.BLUE:a method for automatic evaluation of machine translation[C].Meeting on Association for Computational Linguistics Association for Computational Linguistics,2002:312-318.
[12] DENKOWSKI M,LAVIE A.Meteor universal:language specific translation evaluation for any target language[C].The Workshop on Statistical Machine Translation,2014:375-380.
[13] VEDANTAM R,ZITNICK C,PARIKH D. CIDEr:consensus-based image description evalution[J].Computer Science,2014:4565-4575.