程換新,張志浩,劉文翰,郭占廣
(青島科技大學(xué) 自動(dòng)化學(xué)院,山東 青島 265200)
隨著自然語(yǔ)言處理[1]和圖像理解的進(jìn)步,更復(fù)雜和更苛刻的任務(wù)已經(jīng)觸手可及。該文的目標(biāo)是利用最新的發(fā)展來(lái)改變現(xiàn)實(shí)世界中回答自然語(yǔ)言問(wèn)題的現(xiàn)狀。這個(gè)任務(wù)結(jié)合了對(duì)問(wèn)題意圖的推斷和視覺(jué)場(chǎng)景理解與單詞序列預(yù)測(cè)任務(wù)相結(jié)合。最近,基于分層的、端到端可訓(xùn)練的人工神經(jīng)網(wǎng)絡(luò)架構(gòu),已經(jīng)在不同任務(wù)中改善了技術(shù)水平。最顯著的是生成對(duì)抗網(wǎng)絡(luò)提高了圖像識(shí)別的準(zhǔn)確率,而長(zhǎng)短期記憶網(wǎng)絡(luò)在一系列序列預(yù)測(cè)任務(wù)(如機(jī)器翻譯)中占主導(dǎo)地位。近年來(lái),這兩種神經(jīng)結(jié)構(gòu)已卓有成效地與方法相結(jié)合以生成圖像和視頻描述。兩者都是針對(duì)源自深度學(xué)習(xí)架構(gòu)的視覺(jué)特征,并使用遞歸神經(jīng)網(wǎng)絡(luò)方法來(lái)產(chǎn)生描述。
為了進(jìn)一步拓展深度學(xué)習(xí)架構(gòu)的邊界并探索其局限性,該文提出了一種解決圖像問(wèn)題的架構(gòu)。與之前的工作相比,這項(xiàng)任務(wù)需要語(yǔ)言和視覺(jué)輸入的訓(xùn)練。這兩種模式都必須被解釋,并共同表示為一個(gè)答案,這取決于問(wèn)題的推斷意義和圖像內(nèi)容。
生成對(duì)抗網(wǎng)絡(luò)如圖1所示,是由Ian Goodfellow等人于2014年首次提出的神經(jīng)網(wǎng)絡(luò)模型,是一種深度學(xué)習(xí)模型,也是近年來(lái)復(fù)雜分布上無(wú)監(jiān)督學(xué)習(xí)最具前景的方法之一。模型通過(guò)框架中(至少)兩個(gè)模塊—生成模型(generative model)和判別模型(discriminative model)的互相博弈學(xué)習(xí)產(chǎn)生相當(dāng)好的輸出。原始GAN理論中,并不要求G和D都是神經(jīng)網(wǎng)絡(luò),只需要能擬合相應(yīng)生成和判別的函數(shù)即可。但實(shí)用中一般均使用深度神經(jīng)網(wǎng)絡(luò)作為G和D。一個(gè)優(yōu)秀的GAN應(yīng)用需要有良好的訓(xùn)練方法,否則可能由于神經(jīng)網(wǎng)絡(luò)模型的自由性而導(dǎo)致輸出不理想。
圖1 生成對(duì)抗網(wǎng)絡(luò)模型
GAN的核心思想源于博弈論的納什均衡。設(shè)定參與游戲的雙方分別為一個(gè)生成器(generator)和一個(gè)判別器(discriminator),生成器捕捉真實(shí)數(shù)據(jù)樣本的潛在分布,并生成新的數(shù)據(jù)樣本;判別器是一個(gè)二分類器,判別輸入是真實(shí)數(shù)據(jù)還是生成的樣本。為了取得游戲勝利,這兩個(gè)游戲參與者需要不斷優(yōu)化,各自提高自己的生成能力和判別能力,這個(gè)學(xué)習(xí)優(yōu)化過(guò)程就是尋找二者之間的一個(gè)納什均衡。
同時(shí)需要注意的是生成模型與對(duì)抗模型是完全獨(dú)立的兩個(gè)模型,它們之間沒(méi)有什么聯(lián)系。那么訓(xùn)練采用的大原則是單獨(dú)交替迭代訓(xùn)練。因?yàn)槭莾蓚€(gè)網(wǎng)絡(luò),不方便一起訓(xùn)練,所以才交替迭代訓(xùn)練。
GAN的強(qiáng)大之處在于能自動(dòng)學(xué)習(xí)原始真實(shí)樣本集的數(shù)據(jù)分布,不管這個(gè)分布多么復(fù)雜,只要訓(xùn)練得足夠好就可以學(xué)出來(lái)。
傳統(tǒng)的機(jī)器學(xué)習(xí)方法,一般會(huì)先定義一個(gè)模型,再讓數(shù)據(jù)去學(xué)習(xí)。比如知道原始數(shù)據(jù)屬于高斯分布,但不知道高斯分布的參數(shù),這時(shí)定義高斯分布,然后利用數(shù)據(jù)去學(xué)習(xí)高斯分布的參數(shù),得到最終的模型。再比如定義一個(gè)分類器(如SVM),然后強(qiáng)行讓數(shù)據(jù)進(jìn)行各種高維映射,最后變成一個(gè)簡(jiǎn)單的分布,SVM可以很輕易地進(jìn)行二分類(雖然SVM放松了這種映射關(guān)系,但也給了一個(gè)模型,即核映射),其實(shí)也是事先知道讓數(shù)據(jù)該如何映射,只是映射的參數(shù)可以學(xué)習(xí)[2]。
以上這些方法都在直接或間接地告訴數(shù)據(jù)該如何映射,只是不同的映射方法能力不一樣。而GAN的生成模型最后可以通過(guò)噪聲生成一個(gè)完整的真實(shí)數(shù)據(jù)(比如人臉)[3],說(shuō)明生成模型掌握了從隨機(jī)噪聲到人臉數(shù)據(jù)的分布規(guī)律。GAN一開(kāi)始并不知道這個(gè)規(guī)律是什么樣,也就是說(shuō)GAN是通過(guò)一次次訓(xùn)練后學(xué)習(xí)到的真實(shí)樣本集的數(shù)據(jù)分布[4]。因此生成對(duì)抗網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)的圖像生成和NLP的生成式對(duì)話內(nèi)容等方面表現(xiàn)得非常好。簡(jiǎn)單說(shuō):就是機(jī)器可以根據(jù)需要生成新的圖像和對(duì)話內(nèi)容[5],生成對(duì)抗網(wǎng)絡(luò)(GAN)通過(guò)生成器和判別器的機(jī)制可以更好地通過(guò)圖像內(nèi)容和問(wèn)題來(lái)推斷含義[6]。有大量關(guān)于自然語(yǔ)言理解的工作已經(jīng)解決了基于語(yǔ)義解析、符號(hào)表示和演繹系統(tǒng)的文本問(wèn)答,使得將自然語(yǔ)言理解用在圖像問(wèn)答上成為了可能[7],因?yàn)樾枰ㄟ^(guò)工作來(lái)尋求端到端的架構(gòu),這些架構(gòu)學(xué)習(xí)在一個(gè)單一的整體和單一的模型中回答問(wèn)題。
該文提出了“生成對(duì)抗-圖像問(wèn)答”(generative adversarial-image-QA),一種解決圖像問(wèn)答問(wèn)題的神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。圖像通過(guò)生成對(duì)抗網(wǎng)絡(luò)(GAN)進(jìn)行分析,問(wèn)題和圖像表示一起輸入到長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)中。該系統(tǒng)經(jīng)過(guò)訓(xùn)練,能夠?qū)D像上的問(wèn)題給出正確的答案。GAN和LSTM是從單詞和像素開(kāi)始的端到端的聯(lián)合訓(xùn)練。
圖2 生成對(duì)抗-圖像問(wèn)答模型網(wǎng)絡(luò)結(jié)構(gòu)
由于該方法涉及機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的不同領(lǐng)域,所以通過(guò)以下方式組織了相關(guān)工作:生成對(duì)抗神經(jīng)網(wǎng)絡(luò)用于視覺(jué)識(shí)別。最近,生成對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)在視覺(jué)識(shí)別方面取得了成功,故而在此基礎(chǔ)上進(jìn)行了研究。生成對(duì)抗網(wǎng)絡(luò)通過(guò)不斷生成和原始數(shù)據(jù)相似的圖像,通過(guò)不斷訓(xùn)練、不斷逼近真實(shí)圖像,從而提高了圖像的識(shí)別準(zhǔn)確度。生成對(duì)抗網(wǎng)絡(luò)在過(guò)去兩年中取得了迅速進(jìn)展,因此圖像識(shí)別方面可以使用一組準(zhǔn)確的模型[8]。
遞歸神經(jīng)網(wǎng)絡(luò)(RNN)用于序列建模。遞歸神經(jīng)網(wǎng)絡(luò)允許神經(jīng)網(wǎng)絡(luò)處理靈活長(zhǎng)度的序列。一種稱為長(zhǎng)短期記憶(LSTM)的特殊變體在自然語(yǔ)言任務(wù)(例如機(jī)器翻譯)上顯示出近期的成功。
結(jié)合GAN和LSTM來(lái)描述視覺(jué)內(nèi)容。描述先前的兩個(gè)想法的任務(wù)已成功解決了描述靜態(tài)內(nèi)容以及視頻之類的視覺(jué)內(nèi)容的任務(wù)[9]。這是通過(guò)使用RNN類型的模型來(lái)實(shí)現(xiàn)的。該模型首先可以觀察視覺(jué)內(nèi)容,并經(jīng)過(guò)訓(xùn)練可以事后預(yù)測(cè)代表視覺(jué)內(nèi)容的單詞順序。文中的工作是將這一思想擴(kuò)展到問(wèn)題回答,在那里制定了一個(gè)經(jīng)過(guò)訓(xùn)練的模型來(lái)生成一個(gè)基于視覺(jué)和自然語(yǔ)言輸入的答案[10]。
在處理自然語(yǔ)言輸入時(shí),確實(shí)涉及到單詞與意義的聯(lián)系[11]。這通常被稱為接地問(wèn)題—特別是如果“意義”與感官輸入相關(guān)。遵循這樣的思想,即不強(qiáng)制或評(píng)估任何特定的“意義”在語(yǔ)言或圖像形態(tài)上的表現(xiàn),從而將其視為潛在的,并將其留給聯(lián)合訓(xùn)練方法來(lái)為問(wèn)題回答任務(wù)建立適當(dāng)?shù)膬?nèi)部表示。
文本問(wèn)題回答。對(duì)純文本問(wèn)題的回答已經(jīng)在NLP社區(qū)中進(jìn)行了研究[12],并且最先進(jìn)的技術(shù)通常使用語(yǔ)義解析來(lái)獲得捕獲預(yù)期含義并推斷相關(guān)答案的邏輯形式[13]。直到最近,前面提到的神經(jīng)序列模型才延續(xù)到這項(xiàng)任務(wù)中。更具體地說(shuō),使用依賴樹(shù)遞歸神經(jīng)網(wǎng)絡(luò)代替LSTM,將問(wèn)答問(wèn)題簡(jiǎn)化為分類任務(wù)。
視覺(jué)圖靈測(cè)試。最近有幾個(gè)方法被提出來(lái)接近視覺(jué)圖靈測(cè)試,即回答關(guān)于視覺(jué)內(nèi)容的問(wèn)題。例如,D. Geman、S. Geman在計(jì)算機(jī)視覺(jué)系統(tǒng)的視覺(jué)圖靈測(cè)試中提出了一個(gè)二進(jìn)制(是/否)版本的可視化圖靈測(cè)試合成數(shù)據(jù)。在M. Malinowski and M. Fritz的一種基于不確定輸入的關(guān)于真實(shí)世界場(chǎng)景的多世界問(wèn)題回答方法中[14],提出了一個(gè)基于語(yǔ)義解析器的問(wèn)題回答系統(tǒng)。該語(yǔ)義解析器基于一組更多樣化的人類問(wèn)題-答案對(duì)。
相比之下,在這項(xiàng)工作中,文中方法是基于神經(jīng)結(jié)構(gòu)的,是端到端的訓(xùn)練,直接通過(guò)圖像來(lái)進(jìn)行問(wèn)題回答,因此該方法將問(wèn)答系統(tǒng)從語(yǔ)義解析器中解放出來(lái)。
在圖像上回答問(wèn)題是根據(jù)參數(shù)概率測(cè)度預(yù)測(cè)給定圖像x和問(wèn)題q的問(wèn)題:
所有參數(shù)θ表示一個(gè)向量的學(xué)習(xí),是一組所有的答案。后面描述如何代表x,a,q和p(·|x,q;θ)更多的細(xì)節(jié)。語(yǔ)言問(wèn)答模型如圖3所示。
圖3 語(yǔ)言問(wèn)答模型
在文中場(chǎng)景,問(wèn)題可以有多個(gè)單詞答案,因此將問(wèn)題分解為預(yù)測(cè)一組答案單詞aq,x={a1,a2,…,aN(Q,X)},其中at是有限詞匯表中的單詞,V和N(Q,X)是給定問(wèn)題和圖像的答案詞數(shù)。要預(yù)測(cè)多個(gè)單詞,需要根據(jù)詞匯表v:=v'∪{$}來(lái)預(yù)測(cè)單詞的順序,其中額外的標(biāo)記$表示答案序列的結(jié)束,并指出問(wèn)題已經(jīng)完全回答完畢。因此,遞歸地建立了預(yù)測(cè)過(guò)程:
如圖1和圖2所示,通過(guò)向生成對(duì)抗-圖像問(wèn)答模型輸入一個(gè)由單詞組成的問(wèn)題,即i.e.q=[q1,…,qn-1,?],每個(gè)q是第t個(gè)單詞問(wèn)題,?:=qn是問(wèn)題的結(jié)尾。由于該問(wèn)題是一個(gè)變量輸入/輸出序列,可以用遞歸神經(jīng)網(wǎng)絡(luò)和softmax預(yù)測(cè)層對(duì)生成對(duì)抗—圖像問(wèn)答的參數(shù)分布p(·|x,q;θ)進(jìn)行建模。更準(zhǔn)確地說(shuō),生成對(duì)抗—圖像問(wèn)答模型是由GAN和LSTM構(gòu)建的深度網(wǎng)絡(luò)。最近,LSTM在學(xué)習(xí)可變長(zhǎng)度序列到序列映射方面被證明是有效的。
如圖4所示,LSTM單元在每個(gè)時(shí)間步長(zhǎng)t中取一個(gè)輸入向量vt,并預(yù)測(cè)一個(gè)輸出詞zt等于其潛在隱藏狀態(tài)ht。如上所述,zt是一個(gè)相應(yīng)的線性嵌入答案詞。與一個(gè)簡(jiǎn)單的RNN單元相比,LSTM單元額外維護(hù)了一個(gè)內(nèi)存單元c。這允許更容易地學(xué)習(xí)長(zhǎng)期動(dòng)態(tài),并顯著減少消失和爆炸梯度問(wèn)題。如圖2和圖3所示,所有出現(xiàn)在問(wèn)號(hào)之前的輸出預(yù)測(cè)都被排除在損失計(jì)算之外,因此模型僅根據(jù)預(yù)測(cè)的答案詞進(jìn)行懲罰。
圖4 LSTM網(wǎng)絡(luò)單元
通過(guò)設(shè)定LSTM和GAN的默認(rèn)超參數(shù),所有GAN模型首先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在任務(wù)上隨機(jī)初始化和訓(xùn)練最后一層和LSTM網(wǎng)絡(luò)。結(jié)果發(fā)現(xiàn)這一步對(duì)獲得良好的成績(jī)至關(guān)重要。盡管已經(jīng)探索了使用2層LSTM模型,但始終性能較差。
在本次實(shí)驗(yàn)中,將以回答關(guān)于圖像的問(wèn)題為任務(wù)對(duì)文中的模型方法進(jìn)行基準(zhǔn)測(cè)試。通過(guò)將該模型的不同變體與之前的工作進(jìn)行比較,從而觀測(cè)該模型的圖像問(wèn)答的準(zhǔn)確率。此外,作為對(duì)比分析了在不使用圖像的情況下如何很好地回答問(wèn)題,以先驗(yàn)知識(shí)和常識(shí)的形式來(lái)理解偏差。為這項(xiàng)任務(wù)提供了一個(gè)新的人類基線。同時(shí)將討論問(wèn)題回答任務(wù)中的歧義,并通過(guò)引入對(duì)這些現(xiàn)象敏感的度量來(lái)進(jìn)一步分析它們。特別是,WUPS評(píng)分被廣泛擴(kuò)展為考慮多種人類答案的共識(shí)度量。
文中實(shí)驗(yàn)和共識(shí)度量都基于WUPS得分。該度量是解釋答案單詞中單詞級(jí)歧義的準(zhǔn)確性度量的一般化。例如,“紙箱”和“盒子”可以和一個(gè)類似的概念聯(lián)系起來(lái),因此,模型不應(yīng)該因?yàn)檫@種類型的錯(cuò)誤而受到嚴(yán)厲的懲罰。正式:
為了包含上述的歧義,建議對(duì)μ使用基于閾值分類的Wu-Palmer相似度。門(mén)檻越小,衡量標(biāo)準(zhǔn)就越寬容。在本實(shí)驗(yàn)中,采用的WUPS處于兩個(gè)極端,0.0和0.9。
該文采用了DAQUQR數(shù)據(jù)集,它是VQA第一個(gè)重要的數(shù)據(jù)集。在DAQUAR數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集在室內(nèi)場(chǎng)景圖像上提供了12 468個(gè)人類問(wèn)題答案對(duì),并通過(guò)提供準(zhǔn)確性和WUPS得分為{0.9,0.0}的結(jié)果,遵循相同的評(píng)估協(xié)議。通過(guò)對(duì)整個(gè)數(shù)據(jù)集及其縮減集進(jìn)行實(shí)驗(yàn),該縮減集將輸出空間限制為僅35個(gè)對(duì)象類別和使用30個(gè)測(cè)試圖像。此外,還評(píng)估了僅存在1、2、3或4個(gè)單詞答案的DAQUAR的不同子集的方法。
表1顯示了整套(“多個(gè)單詞”)上的Generative adversarial-Image-QA方法的結(jié)果,其中包含645張圖像和5 200個(gè)問(wèn)答對(duì)。另外,評(píng)估一種經(jīng)過(guò)訓(xùn)練只能預(yù)測(cè)單個(gè)單詞(“單個(gè)單詞”)的變體以及不使用視覺(jué)功能的變體(“僅語(yǔ)言”)。與先前的工作(在表1中顯示)相比,發(fā)現(xiàn)該模型準(zhǔn)確性提高了9%以上,WUPS分?jǐn)?shù)提高了11%以上(表1中的第二行對(duì)應(yīng)“多個(gè)單詞”)。請(qǐng)注意,盡管事實(shí)是唯一可用于整套比較的已發(fā)布數(shù)字使用了真實(shí)對(duì)象注釋,但仍實(shí)現(xiàn)了這一改進(jìn)-使文中方法處于不利地位。當(dāng)僅對(duì)單個(gè)單詞的答案進(jìn)行訓(xùn)練時(shí),就會(huì)觀察到進(jìn)一步的改進(jìn),這會(huì)使先前工作中獲得的準(zhǔn)確性提高一倍。將此歸因于語(yǔ)言和視覺(jué)表示以及數(shù)據(jù)集偏差的聯(lián)合訓(xùn)練,其中約90%的答案僅包含一個(gè)單詞。
表1 生成對(duì)抗-圖像問(wèn)答模型不同的CMC比較
續(xù)表1
根據(jù)答案中的單詞數(shù)(由于性能下降而被截?cái)酁?個(gè)單詞),顯示了該模型方法的性能(“多個(gè)單詞”)。單字子集上“單個(gè)字”變體的性能顯示為水平線。盡管對(duì)于較長(zhǎng)的答案,準(zhǔn)確性會(huì)迅速下降,但是文中模型能夠產(chǎn)生大量正確的兩個(gè)單詞的答案?!皢蝹€(gè)單詞”變體在單個(gè)答案上有優(yōu)勢(shì),并受益于數(shù)據(jù)集對(duì)此類答案的偏見(jiàn)。
表2顯示了對(duì)DAQUAR的單詞答案子集的“單詞”模型的定量結(jié)果。盡管文中與先前的工作相比有了實(shí)質(zhì)性的進(jìn)步,但仍然可以提高30%的人類準(zhǔn)確度和25%的WUPS評(píng)分(表1中的“回答”)。
表2 單詞對(duì)生成對(duì)抗-圖像問(wèn)答模型的影響
同時(shí)為了與M. Malinowski中所提出的多世界方法相比較,還在縮減集上進(jìn)行了模型的測(cè)試,在測(cè)試時(shí),該縮減集包含35個(gè)對(duì)象類和僅包含298個(gè)問(wèn)題-答案對(duì)的30幅圖像。如表3所示,生成對(duì)抗圖像問(wèn)答模型在縮減的DAQUAR集上也有改進(jìn),準(zhǔn)確率達(dá)到了45.12%,在0.9的WUPS也達(dá)到了51.67%,大大優(yōu)于M. Malinowski的12.73%和18.10%。與之前的實(shí)驗(yàn)相似,使用“單字”變體獲得了最佳性能。
表3 生成對(duì)抗-圖像問(wèn)答模型在縮減數(shù)據(jù)集的表現(xiàn)
為了研究問(wèn)題中已經(jīng)包含了多少信息,訓(xùn)練了一個(gè)忽略視覺(jué)輸入的模型版本。結(jié)果顯示在表1和表3下的“僅語(yǔ)言輸入”。單個(gè)單詞的“僅語(yǔ)言輸入”的模型(27.24%和41.56%)在準(zhǔn)確性方面與包括視覺(jué)的最佳模型相比表現(xiàn)還是不錯(cuò)的。后者在完整數(shù)據(jù)集和縮減數(shù)據(jù)集上分別達(dá)到29.46%和45.12%。
該文提出了一種神經(jīng)結(jié)構(gòu),用于回答關(guān)于圖像的自然語(yǔ)言問(wèn)題,與之前基于語(yǔ)義分析的工作形成對(duì)比,并通過(guò)在這個(gè)具有挑戰(zhàn)性的任務(wù)中加倍的表現(xiàn),使之前的工作表現(xiàn)更好。在同樣的條件下,一個(gè)不使用圖像來(lái)回答問(wèn)題的模型只比文中提出的模型表現(xiàn)略差。從而得出的結(jié)論是,該模型已經(jīng)學(xué)會(huì)了偏見(jiàn)和模式,這些可以被看作是人類用來(lái)完成這項(xiàng)任務(wù)的常識(shí)和先驗(yàn)知識(shí)的形式。同時(shí)這個(gè)模型還有許多不足之處,可觀察到,室內(nèi)場(chǎng)景統(tǒng)計(jì)、空間推理和小物體并沒(méi)有被GAN的全局表示很好地捕捉到,這種表示的真正局限性只能在更大的數(shù)據(jù)集上探索。