張姣 楊振宇
摘 要:隨著人工智能技術(shù)的興起,圖像特征提取技術(shù)和文本自動(dòng)生成技術(shù)都得到了長(zhǎng)足的進(jìn)步,將兩者結(jié)合的圖像描述生成技術(shù)也越來(lái)越受到學(xué)術(shù)界和工業(yè)界的重視。圖像到文本生成是一個(gè)綜合性問(wèn)題,涉及自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)等領(lǐng)域。本文介紹了圖像描述生成技術(shù)的研究背景及國(guó)內(nèi)外研究現(xiàn)狀,概述了目前研究者評(píng)估生成圖像描述質(zhì)量的圖像數(shù)據(jù)集,對(duì)現(xiàn)有模型進(jìn)行了詳細(xì)的分類概括:基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法、基于深度學(xué)習(xí)的圖像描述生成方法。與此同時(shí)一并總結(jié)闡述了該領(lǐng)域面臨的問(wèn)題和挑戰(zhàn)。
關(guān)鍵詞: 圖像描述;文本生成;特征提取;計(jì)算機(jī)視覺(jué)
【Abstract】 Image caption generation technology is used in many fields such as news communication, smart transportation, smart home and smart medical. Therefore, this technology has important academic and practical value. Image-to-text generation is a comprehensive problem involving areas such as natural language processing and computer vision. This paper introduces the research background of image caption generation technology and the research status at home and abroad, and summarizes the current image datasets that researchers evaluate to generate quality of the image caption. The existing models are classified and summarized in detail: template-based image caption generation method, retrieval-based image caption generation method and deep-learning-based image caption generation method. It also summarizes the problems and challenges which the field is facing.
【Key words】 ?image caption; text generation; feature extraction; computer vision
0 引 言
0.1 研究背景
大數(shù)據(jù)時(shí)代的到來(lái)使人工智能產(chǎn)品不斷進(jìn)入人們的視野。圖像描述生成技術(shù)的產(chǎn)生為計(jì)算機(jī)從圖像中快速獲取信息帶來(lái)了新的發(fā)展和應(yīng)用前景。
圖像描述生成技術(shù)與圖像語(yǔ)義分析、圖像標(biāo)注和圖像高級(jí)語(yǔ)義提取等技術(shù)緊密相關(guān)。圖像描述生成技術(shù)是計(jì)算機(jī)自動(dòng)為圖像生成一個(gè)完整、通順的描述語(yǔ)句。大數(shù)據(jù)背景下的圖像描述生成技術(shù)在商業(yè)領(lǐng)域有著廣泛的應(yīng)用。如購(gòu)物軟件中用戶輸入關(guān)鍵字快速地搜索出符合要求的商品;用戶在搜索引擎中進(jìn)行的圖片搜索;視頻中多事物目標(biāo)的識(shí)別、醫(yī)學(xué)圖像專業(yè)的自動(dòng)語(yǔ)義標(biāo)注以及自動(dòng)駕駛中目標(biāo)物體的識(shí)別等。如何在計(jì)算機(jī)中更有效、準(zhǔn)確、快速地實(shí)現(xiàn)這一過(guò)程即是本文的研發(fā)課題。
從圖像描述生成的發(fā)展過(guò)程[1]來(lái)看,可以分為3個(gè)主要發(fā)展階段:基于模板的圖像描述生成方法;基于檢索的圖像描述生成方法;基于深度學(xué)習(xí)的圖像描述生成方法。
0.2 國(guó)內(nèi)外研究現(xiàn)狀
結(jié)合國(guó)內(nèi)外研究人員對(duì)圖像描述生成方法的研究以及各個(gè)階段所采用的不同關(guān)鍵技術(shù),可將圖像描述的方法分為3類。對(duì)此可做分析闡述如下。
(1)基于模板的圖像描述生成方法。該方法[2]利用圖像標(biāo)注技術(shù)為物體、物體場(chǎng)景以及組成部分進(jìn)行標(biāo)注[3]。選擇與圖像內(nèi)容描述場(chǎng)景相關(guān)的句子作為表達(dá)模板,將提取的圖像特征填入模板,繼而得到圖像的描述句子。概率圖模型方法[4]對(duì)文本信息和圖像信息建立模型,可從文本數(shù)據(jù)集中挑選合適的關(guān)鍵詞,將其作為體現(xiàn)圖像描述內(nèi)容的關(guān)鍵詞,利用語(yǔ)言模型技術(shù)[5-7]將選取的內(nèi)容關(guān)鍵詞組合為合乎語(yǔ)法規(guī)則習(xí)慣的英文句子。該方法的研究雖然能夠描述圖像內(nèi)容,但是在一定程度上限制了描述語(yǔ)句的多樣性,使生成的描述不夠靈活、新穎。
(2)基于檢索的圖像描述生成方法。該方法探尋文本與圖像之間的關(guān)聯(lián)[8-9],把文本和圖像映射到一個(gè)共同語(yǔ)義空間。結(jié)合相似度[10-11]的計(jì)算方法,對(duì)圖像內(nèi)容和文本意義的關(guān)系程度進(jìn)行排名,檢索出和測(cè)試圖像關(guān)系最接近的文本作為測(cè)試圖像的最終文本描述。該方法把生成圖像描述看作是一種檢索任務(wù),但檢索前都需要調(diào)整和泛化過(guò)程,這無(wú)疑給描述任務(wù)又增加了處理過(guò)程和復(fù)雜度。
(3)基于深度學(xué)習(xí)的圖像描述生成方法。目前主流的深度學(xué)習(xí)模型是端到端的訓(xùn)練方法。一方面采用多層深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)圖像中的物體特征概念建立模型;另一方面采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)文本建立模型。運(yùn)用循環(huán)神經(jīng)網(wǎng)絡(luò)[12-15]進(jìn)行建模,將文本信息與圖像信息映射在同一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)中,利用圖像信息指導(dǎo)文本句子的生成。隨著深度學(xué)習(xí)的研究進(jìn)展,基于注意力機(jī)制和強(qiáng)化學(xué)習(xí)改進(jìn)的研究方法[16-20]相繼涌現(xiàn),并不斷推動(dòng)圖像描述生成模型的發(fā)展。該方法沒(méi)有任何模板、規(guī)則的約束,能自動(dòng)推斷出測(cè)試圖像和其相應(yīng)的文本,自動(dòng)地從大量的訓(xùn)練集中去學(xué)習(xí)圖像和文本信息,生成更靈活、更新穎的文本描述,還能描述從未見(jiàn)過(guò)的圖像內(nèi)容特征。
1 數(shù)據(jù)集
大量免費(fèi)公開(kāi)的數(shù)據(jù)集用于圖像描述研究,這些數(shù)據(jù)集中的圖像與文本描述相關(guān)聯(lián),某些方面彼此不同,例如大小、描述的格式和描述詞的長(zhǎng)短。多種數(shù)據(jù)集信息匯總見(jiàn)表1。
表1中,F(xiàn)lickr8K數(shù)據(jù)集及其擴(kuò)展版本Flickr30K數(shù)據(jù)集包含來(lái)自Flickr的圖像,分別包含約8 000和30 000幅圖像。這2個(gè)數(shù)據(jù)集中的圖像是針對(duì)特定對(duì)象和動(dòng)作的。這些數(shù)據(jù)集包含5個(gè)描述句子,每個(gè)圖像是工作人員采用類似于Pascal1K數(shù)據(jù)集的策略收集的。
MSCOCO數(shù)據(jù)集包括123 287幅圖像,每幅圖像均可給出5個(gè)不同的描述。此數(shù)據(jù)集中的圖像包括80個(gè)對(duì)象類別,所有圖像都可以使用這些類別中的所有實(shí)例。該數(shù)據(jù)集已被廣泛用于圖像描述,目前有研究者正在開(kāi)發(fā)MSCOCO的擴(kuò)展,包括增加問(wèn)題和答案。
Flickr30K和MSCOCO數(shù)據(jù)集舉例如圖1所示。
基于強(qiáng)化學(xué)習(xí)的研究方法是近期智能控制領(lǐng)域應(yīng)用最廣的方法。Liu等人提出的基于強(qiáng)化學(xué)習(xí)的策略梯度的圖像描述方法,根據(jù)值函數(shù)對(duì)策略進(jìn)行改進(jìn),選取最優(yōu)策略。經(jīng)過(guò)實(shí)驗(yàn)證明該方法生成的描述質(zhì)量?jī)?yōu)于傳統(tǒng)方法。深度強(qiáng)化學(xué)習(xí)[24-26]的融合極大地推動(dòng)了圖像描述生成的效果。將強(qiáng)化學(xué)習(xí)的獎(jiǎng)懲機(jī)制[27]引入圖像字幕任務(wù)中,可以通過(guò)抽取字幕來(lái)優(yōu)化句子級(jí)評(píng)價(jià)標(biāo)準(zhǔn),利用“策略網(wǎng)絡(luò)”和“價(jià)值網(wǎng)絡(luò)”[28]來(lái)共同預(yù)測(cè)每個(gè)時(shí)間步中的下一個(gè)單詞。
基于深度學(xué)習(xí)的圖像描述生成的主流是端到端的訓(xùn)練方法,生成的描述語(yǔ)句具有多樣性,不依賴于單一的語(yǔ)言模板。不僅結(jié)構(gòu)清晰明確、容易理解,而且訓(xùn)練速度和生成效果相當(dāng)突出。
3 圖像描述的挑戰(zhàn)與難點(diǎn)
圖像描述生成技術(shù)的研究經(jīng)歷了多個(gè)發(fā)展階段并漸趨成熟,而且也已取得突破性的進(jìn)步。深度學(xué)習(xí)技術(shù)的發(fā)展為圖像描述領(lǐng)域打開(kāi)一個(gè)新的局面。雖然圖像描述生成技術(shù)表現(xiàn)出了強(qiáng)大的研發(fā)能力,但仍存在一定問(wèn)題亟待解決,對(duì)此可做分述如下。
(1)描述文本信息的不完整。視覺(jué)特征的提取是生成圖像文本描述的重要基礎(chǔ),包括圖像類別、場(chǎng)景、對(duì)象及對(duì)象關(guān)系等。這些都依賴于目前還不成熟的計(jì)算機(jī)視覺(jué)技術(shù)。所以圖像的視覺(jué)特征提取關(guān)鍵技術(shù)的提高是有待解決的關(guān)鍵問(wèn)題和難點(diǎn)。
(2)復(fù)雜圖像關(guān)注點(diǎn)的選取。圖像中常存在多義和不確定的事物、隱式和顯式的信息,如何充分利用圖像特征和文本信息的融合特征,有效進(jìn)行圖像關(guān)注點(diǎn)的選取是圖像描述中仍待解決的關(guān)鍵問(wèn)題和難點(diǎn)。
(3)圖像描述的泛化能力較低。從以往的研究中可以看出,對(duì)于同一個(gè)圖像數(shù)據(jù)集中的圖片進(jìn)行測(cè)試時(shí),效果往往是令人滿意的。但是當(dāng)采用隨機(jī)的圖片進(jìn)行測(cè)試時(shí),效果并不盡如人意。所以圖像描述的泛化能力的提高是尚待解決的難題。
4 結(jié)束語(yǔ)
圖像描述生成技術(shù)已廣泛應(yīng)用于新聞傳播、智慧交通、智能家居、智能醫(yī)療等眾多領(lǐng)域,現(xiàn)已成為各大頂尖科研機(jī)構(gòu)綜合研究實(shí)力的較量方式之一。
本文簡(jiǎn)述了圖像描述生成任務(wù)的研究背景以及國(guó)內(nèi)外研究現(xiàn)狀;討論了基于模板的圖像描述生成方法、基于檢索的圖像描述生成方法和基于深度學(xué)習(xí)的圖像描述生成方法。綜前論述可以發(fā)現(xiàn),圖像描述生成技術(shù)正在向著更復(fù)雜、更靈活、更智能的方向發(fā)展。
針對(duì)圖像描述面臨的挑戰(zhàn)與問(wèn)題,未來(lái)可考慮結(jié)合更復(fù)雜的多任務(wù)或注意力機(jī)制,充分融合圖像特征和語(yǔ)言特征向量。在圖像描述文本信息不完整的問(wèn)題上可考慮3D建模的方式對(duì)原2D數(shù)據(jù)進(jìn)行映射處理,圖像描述技術(shù)還可融入深度強(qiáng)化學(xué)習(xí),使用無(wú)監(jiān)督自主學(xué)習(xí)模型,在減少耗費(fèi)資源的情況下,提升圖像描述的性能。
參考文獻(xiàn)
[1]HELMUT H. Building natural language generation systems[J]. Artificial Intelligence in Medicine,2001,22(3):277-280.
[2]YAO B Z, YANG Xiong, LIN Liang, et al. Image2text: Image parsing to text description[J]. Proceedings of the IEEE,2010,98(8): 1485-1508.
[3]郭喬進(jìn),丁軼,李寧. 基于關(guān)鍵詞的圖像標(biāo)注綜述[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(30):155-158.
[4]FENG Yansong, LAPATA M. How many words is a picture worth? Automatic caption generation for news images [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Uppsala, Sweden:ACL, 2010: 1239-1249.
[5]康瑩瑩.新聞圖像內(nèi)容與字幕文本協(xié)同識(shí)別與檢索方法研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.
[6]LIT L, PELICAN E. A low-rank tensor-based algorithm for face recognition[J]. Applied Mathematical Modelling, 2015, 39(3):1266-1274.
[7]KULKARNI G, PREMRAJ V, DHAR S, et al. Babytalk: Understanding and generating simple image descriptions[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Colorado Springs, Co, USA:IEEE,2011,35(12):1601-1608.
[8]MITCHELL M, HAN Xufeng, DODGE J, et al. Midge: Generating image descriptions from computer vision detections [C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon,F(xiàn)rance:ACL, 2012:747-756.
[9]ELLIOTT D, KELLER F. Image description using visual dependency representations [C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA:ACL, 2013:1292-1302.
[10]HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: Data, models and evaluation metrics [J]. Journal of Artificial Intelligence Research, 2013,47(1): 853-899.
[11]KARPATHY A, LI Feifei.Deep visual-semantic alignments for generating image descriptions [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA:IEEE,2015:3128-3137.
[12]SOCHER R, KARPATHY A, LE Q V,et al. Grounded compositional semantics for finding and describing images with sentences[J]. Transactions of the Association for Computational Linguistics (TACL) , 2014,2:207-218.
[13]CHEN X, ZITNICK C L. Minds eye: A recurrent visual representation for image caption generation [C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA, USA:IEEE, 2015:2422-2431.
[14]MAO Junhua, XU Wei, YANG Yi, et al. Deep captioning with multimodal recurrent neural networks (m-RNN)[J]. arXiv preprint arXiv:1412.6632, 2014.
[15]XU Hongteng, WANG Wenlin, LIU Wei, et al. Distilled Wasserstein learning for word embedding and topic modeling [C]// 32nd Conference on Neural Information Processing Systems (NIPS) 31. Montréal, Canada:[s.n.], 2018:1-10.
[16]XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//32nd International Conference on Machine Learning. Lille, France:dblp,2015:2048-2057.
[17]陳強(qiáng)普.面向圖像描述的深度神經(jīng)網(wǎng)絡(luò)模型研究[D].重慶:重慶大學(xué),2017.
[18]申永飛. 圖像描述文本自動(dòng)生成方法研究[D].重慶:重慶大學(xué),2017.
[19]陳龍杰,張鈺,張玉梅,等.基于多注意力多尺度特征融合的圖像描述生成算法[J].計(jì)算機(jī)應(yīng)用,2017,39(2):354-359.
[20]陳晨.基于深度學(xué)習(xí)及知識(shí)挖掘的零樣本圖像分類[D].北京:中國(guó)礦業(yè)大學(xué),2016.
[21]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J].Nature,2016,529(7587):484-489.
[22]XU K, BA J, COURVILLE R, et al. Show, attend and tell: Neural image caption generation with visual attention[J]. arXiv preprint arXiv:1502.03044v1,2015.
[23]VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: A neural image caption generator[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR),Boston, MA, USA:IEEE,2015,1: 3156-3164.
[24]LEIBFRIED F, TUTUNOV R, VRANCX P, et al. Model-based stabilisation of deep reinforcement learning[J]. arXiv preprint arXiv:1809.01906v1,2018.
[25]WANG Pin, CHAN C Y, LI Hanhan. Maneuver control based on reinforcement learning for automated vehicles in an interactive environment[J].arXiv preprint arXiv:1803.09200,2018.
[26]WANG Jing, FU Jianlong, TANG Jinhui, et al. Show, reward and tell: Automatic generation of narrative paragraph from photo stream by adversarial training[C]// Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans,Louisiana,USA:AAAI,2018:7396-7403.
[27]LIU Xihui, LI Hongsheng, SHAO Jing, et al. Show, tell and discriminate: Image captioning by self-retrieval with partially Labeled data[M]//FERRARI V, HEBERT M, SMININCHISESCU C, et al. Computer Vision-ECCV 2018. Lecture Notes in Computer Science. Cham:Springer, 2018,11219:353-369.
[28]REN Zhou, WANG Xiaoyu, ZHANG Ning, et al. Deep reinforcement learning-based image captioning with embedding reward[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI, USA:IEEE,2017:1151-1159.