袁啟旺 蘆健秋 戶傳真 涂小雅 周志文
淮陰工學(xué)院管理工程學(xué)院 江蘇淮安 223003
圖像字幕生成是繼圖像識別、目標(biāo)定位、圖像分割后又一新型計(jì)算機(jī)視覺任務(wù)。在計(jì)算機(jī)視覺發(fā)展的初期,研究者們嘗試?yán)糜?jì)算機(jī)程序來模擬人類視覺系統(tǒng),并讓其告訴我們它看到了什么,這也就是最基本的圖像識別。圖像字幕生成是按順序執(zhí)行以下關(guān)鍵任務(wù)。首先對圖像中不同物體的特征進(jìn)行適當(dāng)提取后提取特征,然后識別物體之間的關(guān)系(即如果物體是施工機(jī)械和土,則識別施工機(jī)械是否在土上)。一旦檢測到對象并識別出關(guān)系,現(xiàn)在就需要生成文本描述,即根據(jù)圖像對象之間的關(guān)系將單詞有序地排列成一個(gè)語句。圖像字幕是自動生成類似于人類圖像描述的過程,在應(yīng)用計(jì)算機(jī)視覺的眾多領(lǐng)域應(yīng)用廣泛。圖像字幕不僅識別物體,更要識別物體之間的交互活動及其場景,并據(jù)此生成圖像的語句描述。機(jī)器在圖像字幕生成中獲得與人類相當(dāng)?shù)慕Y(jié)果和精度,一直是非常具有挑戰(zhàn)性的任務(wù)。深度學(xué)習(xí)起源較早,是機(jī)器學(xué)習(xí)(Machine Learning,ML)領(lǐng)域中重要的研究方向,來源于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)研究,其實(shí)質(zhì)是通過構(gòu)建機(jī)器學(xué)習(xí)模型和利用海量訓(xùn)練數(shù)據(jù),逐層調(diào)整特征參數(shù),以提升分類或者預(yù)測精度。近年來,高性能顯卡以及集群服務(wù)的發(fā)展,推動了深度學(xué)習(xí)方法在各研究領(lǐng)域中的深度應(yīng)用,基于深度學(xué)習(xí)的圖像字幕技術(shù)也隨之獲得了跨越式的發(fā)展?;谏疃葘W(xué)習(xí)方法的關(guān)注重點(diǎn)則放在了語言模型的應(yīng)用與改進(jìn)中。
圖像字幕生成過首先對語言進(jìn)行建模。與圖像特征提取類似,語言建模是計(jì)算機(jī)視覺應(yīng)用研究的一項(xiàng)基礎(chǔ)性工作,廣泛應(yīng)用于各種自然語言處理問題,如語音識別、機(jī)器翻譯、詞性標(biāo)注等。一般而言,語言建模就對圖像進(jìn)行特征提取后得到的信息用來進(jìn)行確定某項(xiàng)信息與某一語句語義符合概率的模型。通過語言建模,可以確定可能性更大的詞匯序列,或在給定若干詞匯的條件下,預(yù)測下一個(gè)最可能出現(xiàn)的詞語。圖像字幕生成建模首先需要對圖像進(jìn)行特征提取、對象檢測、場景及其他屬性提取,然后利用統(tǒng)計(jì)模型將這些屬性與自然語言聯(lián)系起來。目前這一過程通過深度學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn),如為獲得圖像不同區(qū)域的視覺特征和對象CNN,可以使用RCNN、Faster-RCNN,按順序生成文本描述可以使用RNN或LSTM。不同領(lǐng)域多是基于利用這些常用神經(jīng)網(wǎng)絡(luò)方法及其組合開發(fā)出適用于不同行業(yè)、執(zhí)行不同領(lǐng)域特定任務(wù)的圖像字幕生成方法。
目前,在不同領(lǐng)域基于不同任務(wù)采用圖像字幕生成方法差異較大,其運(yùn)算效率和字幕描述效果也有顯著差異。為此,本文檢索國內(nèi)外知名數(shù)據(jù)庫從2019年至2022年所有相關(guān)研究文獻(xiàn),對比、分析不同研究領(lǐng)域所采用的圖像字幕生成的方法及數(shù)據(jù)集類型,并提煉各方法和評估矩陣等技術(shù)細(xì)節(jié)。
本文首先對文獻(xiàn)進(jìn)行系統(tǒng)分類,在設(shè)計(jì)檢索策略及設(shè)計(jì)質(zhì)量評估標(biāo)準(zhǔn)的基礎(chǔ)上,確定數(shù)據(jù)提取策略。
首先,本文提出兩組搜索關(guān)鍵詞,第一組為圖像字幕生成,第二組為深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)及長短期記憶理論。其次,運(yùn)用科學(xué)的方法從不同的學(xué)術(shù)數(shù)據(jù)庫中檢索結(jié)果。根據(jù)關(guān)鍵字組成在IEEE Xplore、Web of Sciences、Scopus及知網(wǎng)等著名學(xué)術(shù)數(shù)據(jù)庫上應(yīng)用了被引用的搜索查詢字符串來搜索文章。我們采用了2019—2022年期刊中最新發(fā)表文獻(xiàn),經(jīng)去除重復(fù)文獻(xiàn),并剔除了音頻字幕或視頻字幕等與本研究主題無關(guān)的文獻(xiàn)后,得到467篇文獻(xiàn)。
在對較為模糊、抽象篩選不充分的文獻(xiàn)進(jìn)行全文篩選之后,本研究提出質(zhì)量評價(jià)標(biāo)準(zhǔn),具體為文獻(xiàn)必須在期刊上發(fā)表;文獻(xiàn)提出了一個(gè)合適的方法來實(shí)現(xiàn)使用深度學(xué)習(xí)的圖像字幕生成;文獻(xiàn)必須有清晰和明確的結(jié)果;文獻(xiàn)必須討論圖像字幕生成技術(shù)的應(yīng)用與不足;必須討論模型的評價(jià)策略。然后根據(jù)上述質(zhì)量評估標(biāo)準(zhǔn)問題評估了467篇文獻(xiàn),并通過全文篩選,我們從所有數(shù)據(jù)庫中找到了86篇文獻(xiàn)。
本研究基于研究問題定義了數(shù)據(jù)提取策略,并據(jù)此進(jìn)一步對篩選后的86篇文獻(xiàn)提取數(shù)據(jù)并進(jìn)行最終匯總。為用于進(jìn)一步匯總,確定提取的主要參數(shù)為:發(fā)表年份、標(biāo)題、用于語言生成和對象檢測的模型、用于實(shí)現(xiàn)模型的方法、使用的數(shù)據(jù)集、用于評估目的的評估矩陣以及最終提出的模型的精度。進(jìn)而總結(jié)出從數(shù)據(jù)提取中得到的事實(shí),并為后續(xù)研究提供指導(dǎo)與參考。
以往研究表明,有許多數(shù)據(jù)集可用于執(zhí)行圖像字幕生成。文獻(xiàn)中最常用的數(shù)據(jù)集是MS COCO和Flicker 8k和30k,對于專業(yè)性很強(qiáng)的圖像字幕應(yīng)用領(lǐng)域的文本描述,如醫(yī)療或交通領(lǐng)域,一般會有自己創(chuàng)建的專用數(shù)據(jù)集。
2.1.1 MSCOCO
MSCOCO代表場景中的共同對象,因包含非標(biāo)志性圖像,非常適合用于圖像字幕。數(shù)據(jù)集的“Karathy”數(shù)據(jù)分割方式被廣泛采用,該分割包含113287個(gè)訓(xùn)練圖像,5000張驗(yàn)證圖像,以及5000張測試圖像,每個(gè)樣本圖像有5個(gè)長度不定的真實(shí)字幕文本。當(dāng)前,絕大多數(shù)的圖像字幕生成方法的研究在各自的實(shí)驗(yàn)中均使用該數(shù)據(jù)集。
2.1.2 深度學(xué)習(xí)網(wǎng)絡(luò)
用于圖像的深度學(xué)習(xí)網(wǎng)絡(luò)一般為卷積神經(jīng)網(wǎng)絡(luò)(CNN)。目前,CNN被認(rèn)為是將圖像數(shù)據(jù)映射為輸出變量的最佳方法。有各種各樣的預(yù)構(gòu)建模型利用CNN的這一特性,如常用于圖像中物體檢測和定位的循環(huán)神經(jīng)網(wǎng)絡(luò)(RCNN)、快速循環(huán)神經(jīng)網(wǎng)絡(luò)(RCNN)等。這些模型不僅用來分類任務(wù),而且被用于理解圖像內(nèi)容,理解圖像數(shù)據(jù)之后,就需要預(yù)測單個(gè)詞匯的順序來生成特定圖像的語言文本。在詞匯序列預(yù)測方面,RNN和長短期記憶(LSTM)最為被經(jīng)常采用。對于圖像字幕生成建模,CNN與RNN或LSTM一起使用,其中CNN多用于理解圖像內(nèi)容,RNN或LSTM多用于文本描述生成。在文本預(yù)測網(wǎng)絡(luò)的BLEU-1性能方面,LSTM方法的準(zhǔn)確性明顯優(yōu)于RNN。
2.1.3 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks)。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對輸入信息進(jìn)行平移不變分類。作為深度學(xué)習(xí)的一種數(shù)據(jù)提取與轉(zhuǎn)換算法,CNN的兩個(gè)主要功能是卷積和池化。CNN中的卷積用于檢測圖像的邊緣,池化則用于減小圖像的大小。通過基于濾過值將圖像方法,將一種稱為核矩陣或?yàn)V波器的一個(gè)小數(shù)量矩陣與圖片實(shí)現(xiàn)轉(zhuǎn)換與濾過。CNN通常用于處理圖像且處理效果優(yōu)于人工神經(jīng)網(wǎng)絡(luò)(ANN)。
2.1.4 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)
由于CNN在前一個(gè)輸入和下一個(gè)數(shù)據(jù)之間沒有任何形式的聯(lián)系,當(dāng)輸入數(shù)據(jù)相互關(guān)聯(lián)時(shí),CNN執(zhí)行效率較低。RNN對具有序列特性的數(shù)據(jù)非常有效,它能挖掘數(shù)據(jù)中的時(shí)序信息以及語義信息。從網(wǎng)絡(luò)結(jié)構(gòu)上,循環(huán)神經(jīng)網(wǎng)絡(luò)會記憶之前的信息,并利用之前的信息影響后面結(jié)點(diǎn)的輸出。RNN的記憶特性能夠提醒數(shù)據(jù)中先前發(fā)生的事情,這也就意味著建模時(shí)需要更為前置的輸入,進(jìn)而要求RNN在文本上是相互關(guān)聯(lián)的順序數(shù)據(jù),最終表現(xiàn)為RNN運(yùn)算效果最優(yōu)。
2.1.5 長短期記憶網(wǎng)絡(luò)(LSTM)
LSTM是RNN的一種變體,區(qū)別在于它在算法中加入了一個(gè)判斷信息有用與否的“處理器”。爆炸梯度、消失梯度和長期依賴是簡單RNN的兩個(gè)明顯不足。LSTM使用“門”這一核心概念來記憶過去的事件或活動。在LSTM中“門的”種類一般有輸入門、遺忘門和輸出門等三類,均是S型激活函數(shù),一個(gè)信息進(jìn)入LSTM的網(wǎng)絡(luò)當(dāng)中,可以根據(jù)規(guī)則來判斷是否有用。只有符合算法認(rèn)證的信息才會留下,不符的信息則通過遺忘門被遺忘。
文獻(xiàn)對比發(fā)現(xiàn),最常見的評價(jià)機(jī)制是BLEU、ROUGE-L、CIDEr、METEOR和SPICE,且BLEU評分方法是幾乎所有研究中最常用的評價(jià)方法。
2.2.1 BELU
BLEU是一個(gè)用來衡量機(jī)器文本生成質(zhì)量的指標(biāo),是文本生成中廣泛使用的一種評價(jià)機(jī)制。BLEU將機(jī)器生成的文本與一個(gè)或多個(gè)手動編寫的文本進(jìn)行比較,其值表征了生成的文本與預(yù)期文本的接近程度。BLEU評分主要用于自動機(jī)器翻譯、圖像字幕、文本摘要、語音識別等。在圖像字幕生成中,BLEU評分表示生成標(biāo)題與人工特定圖像標(biāo)題的接近程度。文獻(xiàn)研究表明,幾乎所有的研究都使用BLEU作為評估矩陣。
2.2.2 METEOR
METEOR主要基于生成單詞的精度與召回率,使用單元詞組精確度、單元詞組召回率、碎片懲罰三部分的組合來計(jì)算分?jǐn)?shù),是用于評估機(jī)器翻譯語言的另一種評估方法。METEOR引入了較為靈活的對齊機(jī)制,基于單元詞組(unigram)匹配,基于準(zhǔn)確率precision和召回率recall的調(diào)和均值計(jì)算(召回率的權(quán)重大于準(zhǔn)確率)。該指標(biāo)用WordNet等知識源擴(kuò)充同義詞集,同時(shí)考慮單詞的詞形,METEOR可以在句子或段落層次上計(jì)算相關(guān)性,在長文本的評價(jià)上具有較好性能。
2.2.3 ROUGE-l
ROUGE-1是一種基于召回率的評估方法,具有明確排序的評估和轉(zhuǎn)換評價(jià)。ROUGE通過將模型生成的摘要或者回答與參考答案(一般是人工生成的)進(jìn)行比較計(jì)算,得到對應(yīng)的得分。相比BLEU指標(biāo),它將單詞序列、單詞對、N-gram與一組參考文本進(jìn)行比較。ROUGE實(shí)質(zhì)是回憶導(dǎo)向的替補(bǔ),用于道具評價(jià)。
本文詳細(xì)分析了用于圖像字幕生成的不同深度學(xué)習(xí)模型?;谖墨I(xiàn)分析,利用數(shù)據(jù)提取機(jī)制對數(shù)據(jù)進(jìn)行了提取和深入分析,得到了用于圖像字幕生成的各種不同模型和技術(shù)。主要結(jié)論如下:
(1)對于圖像內(nèi)容提取,CNN是最適合的模型,對于語言生成,兩個(gè)常用的模型是RNN和LSTM。LSTM算法的性能優(yōu)于RNN算法。深度學(xué)習(xí)圖像字幕技術(shù)最有效方法是編碼—解碼器、注意機(jī)制及其組合方法,可有效提升運(yùn)算效率與解釋精準(zhǔn)度。
(2)最適合用于圖像字幕的數(shù)據(jù)集是MSCOCO,主要原因在于其包含非標(biāo)志性圖像。
(3)圖像字幕生成技術(shù)應(yīng)用日益廣泛。如施工現(xiàn)場圖像的智慧工地管理、基于醫(yī)學(xué)超聲或MRI圖像或血管造影視頻的自動報(bào)告文本、基于公司產(chǎn)品制造環(huán)境圖像的環(huán)境或產(chǎn)品異常警報(bào)、基于農(nóng)作物圖像的作物報(bào)告生成,以及基于閉路電視攝像圖像的交通分析報(bào)告等。