莫凌飛,蔣紅亮,李煊鵬
(東南大學(xué) 儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)
“我們?nèi)狈Φ囊粋€關(guān)鍵要素是預(yù)測(或無監(jiān)督)學(xué)習(xí):機(jī)器具有模擬環(huán)境,預(yù)測未來的可能性,以及通過觀察和參與理解世界如何運(yùn)作的能力。”[1]
近年來,深度學(xué)習(xí)在學(xué)術(shù)界和工業(yè)界得到了廣泛的發(fā)展和應(yīng)用,其在計算機(jī)視覺[2-6]、語音識別[7]、自然語言處理[8-9]以及游戲策略[10-11]等眾多領(lǐng)域取得豐碩成果,在某些領(lǐng)域甚至取得了超越人類的表現(xiàn)。但當(dāng)前的深度學(xué)習(xí)算法模型大部分都是以有監(jiān)督的方式訓(xùn)練,模型嚴(yán)重依賴于大量的標(biāo)注數(shù)據(jù)和長時間的訓(xùn)練。以知名的ImageNet數(shù)據(jù)集[12]為例,其包含1 500萬張人工標(biāo)注的圖片,超過2.2萬個類別,創(chuàng)建和標(biāo)注一個如此大規(guī)模的數(shù)據(jù)集需要耗費(fèi)許多人數(shù)月的時間才能完成。另外,依賴大量的標(biāo)記數(shù)據(jù)來獲取概念和知識與人類的學(xué)習(xí)機(jī)制不符,人類依賴很少的樣本就可以獲取一個新的概念。當(dāng)兒童第一次觀察到“貓”并被告知這種動物是“貓”以后,兒童并不需要長期被重復(fù)告知這是“貓”,但監(jiān)督學(xué)習(xí)的方式需要大量的樣本以及多次重復(fù)訓(xùn)練,才能掌握“貓”的概念。以類似人類的方式,通過有限樣本或者無監(jiān)督的方式獲取知識和表征,成為當(dāng)前人工智能領(lǐng)域的熱點研究問題。
另外,人類與其他動物的一個重要區(qū)別是人類有很強(qiáng)的預(yù)測能力。盡管一些動物也有一些預(yù)測能力,例如在圍捕獵物、躲避天敵和預(yù)測天氣變化上等;但人類顯然有更強(qiáng)的推理和預(yù)測能力,例如,人類駕駛汽車時可以推理其他汽車的運(yùn)行軌跡,提前決策。當(dāng)前計算機(jī)視覺領(lǐng)域的研究,也逐漸開始借鑒人類這種“預(yù)測編碼”能力。
在這種背景下,視頻預(yù)測因其可以用海量的無標(biāo)注自然視頻數(shù)據(jù)來訓(xùn)練,而且具有廣泛的應(yīng)用場景,成為了當(dāng)前深度學(xué)習(xí)研究領(lǐng)域的一個熱點研究方向,并且已經(jīng)取得了一定的研究成果。
給出一個視頻序列,預(yù)測未來視頻,這需要構(gòu)建一個可以精準(zhǔn)建模視頻內(nèi)容和動態(tài)變化的內(nèi)部表征模型,這也是視頻預(yù)測被視為無監(jiān)督表征學(xué)習(xí)的一個很有前景的研究方向的原因。視頻預(yù)測模型學(xué)習(xí)到的表征可以遷移到監(jiān)督學(xué)習(xí)任務(wù)中。例如,文獻(xiàn)[13]通過實驗證明,通過無監(jiān)督視頻預(yù)測模型學(xué)習(xí)到的表征可以在動作識別數(shù)據(jù)集上提升分類結(jié)果,因此建模視頻動態(tài)是一種有效的無監(jiān)督表征學(xué)習(xí)方法。另外,在視頻中推斷未來的場景可以使機(jī)器人、自動駕駛汽車和無人機(jī)提前決策,因此有廣泛的應(yīng)用價值。
機(jī)器學(xué)習(xí)算法是一種可以自動從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,并利用此規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法,機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘、計算機(jī)視覺、自然語言處理、搜索、推薦系統(tǒng)以及策略游戲等眾多領(lǐng)域得到了廣泛的應(yīng)用,取得了突出的成果。然而,自然界的原始數(shù)據(jù),例如圖像、視頻和傳感器測量數(shù)據(jù)等一般具有高維度、高復(fù)雜性和高冗余性的特點,人工提取特征需要依賴專家知識,費(fèi)時費(fèi)力且提取到的特征通常不太好。而傳統(tǒng)機(jī)器學(xué)習(xí)算法往往依賴人工提取特征,導(dǎo)致實際的機(jī)器學(xué)習(xí)問題退化為數(shù)據(jù)預(yù)處理和特征工程[2],成為機(jī)器學(xué)習(xí)應(yīng)用和發(fā)展的一大障礙。
深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)的一個分支。最早的人工神經(jīng)網(wǎng)絡(luò)研究可以追溯到Mcculloch和Pitts[14]在1943年提出的閾值邏輯單元,他們從原理上證明了人工神經(jīng)網(wǎng)絡(luò)可以計算任何算術(shù)和邏輯函數(shù)。隨后Hebb學(xué)習(xí)規(guī)則[15]、感知機(jī)[16]、反向傳播算法[17]等概念先后被提出,并得到了一定的應(yīng)用,例如手寫數(shù)字識別[18]和語音識別[7]。然而,由于當(dāng)時人們對神經(jīng)網(wǎng)絡(luò)認(rèn)識有限,計算機(jī)的計算能力也有限,神經(jīng)網(wǎng)絡(luò)并未得到過多關(guān)注。2006年,Hinton等提出以無監(jiān)督限制玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)進(jìn)行逐層預(yù)訓(xùn)練的方法來高效地訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)[19],深度學(xué)習(xí)的概念開始進(jìn)入公眾視野。2012年Krizhevsky等使用深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[18]構(gòu)建的 AlexNet模型[3]以絕對優(yōu)勢贏得了ImageNet大規(guī)模圖像識別競賽(ILSVRC2012)的冠軍,AlexNet的成功成為了計算機(jī)視覺發(fā)展史上的轉(zhuǎn)折點,自此深度學(xué)習(xí)得到了飛速發(fā)展。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[20]、自編碼網(wǎng)絡(luò) (auto encoder)[21]和生成對抗網(wǎng)絡(luò)(generative adversarial networks, GANs)[22]及其各種變種得到了廣泛的發(fā)展和應(yīng)用。
表征學(xué)習(xí)(或特征學(xué)習(xí), representation learning)[23]旨在利用機(jī)器自動從原始高維數(shù)據(jù)中獲得可以被機(jī)器學(xué)習(xí)算法高效利用的特征[21]。深度學(xué)習(xí)可看作一種通過簡單、非線性映射方式獲取多層特征的表征學(xué)習(xí)方法,它把原始輸入數(shù)據(jù)通過逐層映射,轉(zhuǎn)變?yōu)楦唠A的、更為抽象的特征。以分類問題為例,高層的表征放大了那些更有區(qū)分度的特征,而抑制了那些無關(guān)變量。深度學(xué)習(xí)被證明非常擅長發(fā)現(xiàn)高維度數(shù)據(jù)中的復(fù)雜特征,因此在科學(xué)界和工業(yè)界得到廣泛應(yīng)用,并打破了圖像識別、語音識別和機(jī)器翻譯的記錄。
近些年來,有越來越多的深度學(xué)習(xí)模型被提出,其中最基礎(chǔ)、最重要的模型主要有卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)、自編碼器以及生成對抗網(wǎng)絡(luò),這幾種模型構(gòu)成了視頻預(yù)測模型的基礎(chǔ),下面我們簡要介紹這4種主流模型。
卷積神經(jīng)網(wǎng)絡(luò)是前饋神經(jīng)網(wǎng)絡(luò)的一種,這種神經(jīng)元連接模式受動物視覺皮層檢測光學(xué)信號原理的啟發(fā)[24]。1980年Fukushima等[25]提出了CNN的前身——NeoCognitron,20世紀(jì)90年代,Lecun等[18]發(fā)表論文,確立了CNN的現(xiàn)代結(jié)構(gòu),這是一種多層的人工神經(jīng)網(wǎng)絡(luò),取名為LeNet-5。自2012年起,研究人員又不斷提出更深、性能更強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)模型:AlexNet[3]、VGGNet[5]和 ResNet[6]等。卷積神經(jīng)網(wǎng)絡(luò)一般是由多個卷積層和全連接層組成,卷積操作、局部連接性和權(quán)值共享是卷積神經(jīng)網(wǎng)絡(luò)最顯著的特點。卷積神經(jīng)網(wǎng)絡(luò)通常用來處理2-D結(jié)構(gòu)的數(shù)據(jù),其在圖像領(lǐng)域和語音識別上都得到了廣泛的應(yīng)用。
2010年,Zeiler等[26]首次提出了反卷積(卷積轉(zhuǎn)置或小數(shù)步進(jìn)卷積,Deconvolution)的概念,用于卷積神經(jīng)網(wǎng)絡(luò)的特征可視化以及圖像無監(jiān)督特征學(xué)習(xí)。反卷積網(wǎng)絡(luò)被越來越多的模型所采用,例如圖像語義分割[27]、生成模型[28]等。另外,為處理序列圖像,Ji等[29]使用3-D卷積去提取數(shù)據(jù)的空間和時間特征,從而可以使卷積神經(jīng)網(wǎng)絡(luò)能很好地處理序列信息,3-D卷積在人體動作識別等領(lǐng)域取得了顯著的結(jié)果。
遞歸神經(jīng)網(wǎng)絡(luò)[20]是一種處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它把狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,能夠處理任意長度的序列,遞歸神經(jīng)網(wǎng)絡(luò)比前饋神經(jīng)網(wǎng)絡(luò)更加符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。
因為RNN容易受到梯度消失或者梯度爆炸的影響,Schmidhuber等[30]在1997年提出了長短期記憶(long short term memory, LSTM)神經(jīng)網(wǎng)絡(luò),該模型增加了“遺忘門”和“更新門”。實驗表明,LSTM模型能有效避免梯度消失或者梯度爆炸的問題,很好地解決了長期依賴問題。隨后學(xué)者提出了很多LSTM模型的變體。Gers等[31]于2001年提出了窺視孔LSTM(peephole LSTM),該模型增加了一個窺視孔連接,意味著可以讓門限層監(jiān)視神經(jīng)元狀態(tài)。Cho等[32]于2014年提出了門遞歸單元(gated recurrent unit, GRU),它組合遺忘門和輸入門為一個“更新門”,合并了神經(jīng)元狀態(tài)和隱層狀態(tài),這個模型比標(biāo)準(zhǔn)的LSTM模型更簡單。Shi等[33]在2015年提出了卷積LSTM(convolutional LSTM),把卷積層和遞歸層做了很好的結(jié)合,卷積LSTM與常規(guī)LSTM的區(qū)別是把部分矩陣乘積操作換成了卷積操作。因為卷積LSTM可以很好地處理圖像的空間信息和時間動態(tài)信息,它在圖像生成模型和視頻處理等領(lǐng)域得到了廣泛應(yīng)用。
自編碼器是一種以無監(jiān)督的方式來學(xué)習(xí)數(shù)據(jù)表征的神經(jīng)網(wǎng)絡(luò),通常用來做數(shù)據(jù)降維[21]。自編碼器通常分為編碼器和解碼器兩部分,編碼器將數(shù)據(jù)編碼為潛在變量,解碼器將潛在變量重建為原數(shù)據(jù)。
自編碼器有很多變體,例如降噪自編碼器[34]、稀疏自編碼器[35]、變分自編碼器(VAE)[36-37]。因為自編碼器可以高效地進(jìn)行數(shù)據(jù)降維,相當(dāng)一部分視頻預(yù)測模型采用了自編碼器架構(gòu)。
Goodfellow等[22]在2014年提出了生成對抗網(wǎng)絡(luò)的概念,其為生成模型提供了一種全新的高效訓(xùn)練模式,近兩年來生成對抗網(wǎng)絡(luò)成為了機(jī)器學(xué)習(xí)領(lǐng)域最熱門的研究方向之一。LeCun認(rèn)為“生成對抗網(wǎng)絡(luò)是過去十年來機(jī)器學(xué)習(xí)領(lǐng)域最有趣的想法”,很多GAN的衍生模型,如條件GAN(condition GAN)[38]、InfoGAN[39]、DCGAN[28]相繼被提出。
生成對抗網(wǎng)絡(luò)由一個生成器(generator, G)和一個判別器(discriminator,D)組成。生成器輸入一個潛在編碼,其輸出需無限逼近真實樣本;判別器的輸入為真實樣本和生成器的輸出,并識別出真實樣本和生成樣本。兩個網(wǎng)絡(luò)以零和博弈的方式交替訓(xùn)練,訓(xùn)練鑒別器時最小化鑒別誤差,訓(xùn)練生成器時最大化鑒別誤差,最終目的是使鑒別器無法鑒別出生成樣本和真實樣本,生成器的輸出與真實樣本分布一致。生成對抗網(wǎng)絡(luò)的架構(gòu)如圖1所示。
圖 1 生成對抗網(wǎng)絡(luò)架構(gòu)Fig. 1 Architecture of generative adversarial nets
生成對抗網(wǎng)絡(luò)的目標(biāo)函數(shù)可以用式(1)描述:
生成對抗網(wǎng)絡(luò)在生成逼真的自然樣本[28]、圖像超分辨率[40]、三維建模[41]、圖像風(fēng)格遷移[42]和視頻預(yù)測領(lǐng)域[43]得到了廣泛應(yīng)用。
給出一張靜態(tài)圖片或者一段場景視頻,人類不僅可以迅速地獲取圖像中的即時內(nèi)容,還可以推斷出圖像中的場景動態(tài)。然而,對于計算機(jī)來說,推演出圖像中的場景動態(tài)是一個比較困難的任務(wù),因為它依賴計算機(jī)利用自然界大量難以參數(shù)化的知識來建模[44]。
在視頻預(yù)測研究興起之前,學(xué)術(shù)界比較關(guān)注的是運(yùn)動預(yù)測。運(yùn)動預(yù)測一般是指從靜態(tài)圖像或視頻前幾幀中推斷出人體動作、物體移動軌跡等動態(tài)信息;而視頻預(yù)測是從靜態(tài)圖片或視頻前幾幀中直接預(yù)測未來圖像。本節(jié)我們對動作、運(yùn)動和物體移動軌跡預(yù)測算法進(jìn)行簡要回顧。
從靜態(tài)圖像或有限幀視頻中預(yù)測人類動作和行為是一個比較基礎(chǔ)也比較重要的任務(wù)。在動作預(yù)測方面,研究人員主要使用統(tǒng)計學(xué)習(xí)方法和傳統(tǒng)的機(jī)器學(xué)習(xí)方法來建模。Lan等[45]和Hoai等[46]使用最大化邊界框架來推測動作場景;Ryoo[47]把動作預(yù)測問題概率化,使用時空特征積分直方圖來建模特征分布如何隨時間變化;Vu等[48]提出了一種使用動作和場景之間的關(guān)聯(lián)信息,從靜態(tài)場景中預(yù)測人類動作的方法;Pei等[49]提出了一種基于隨機(jī)場景感知語法的事件解析、推斷事件目標(biāo)和預(yù)測可信動作的算法,與Vu的方法類似,該方法使用事件的層次組成和子事件間的時態(tài)關(guān)系來鑒別不同事件以及預(yù)測動作;Fouhey等[50]和Koppula等[51]通過使用條件隨機(jī)場來建模人的可能動作從而來做未來場景的預(yù)測。
Huang等[52]提出了一種基于雙實體交互的方式來理解一個實體的動作如何影響另外一個實體的動作。本文把雙實體交互模型看作一種最優(yōu)控制問題,該模型使用一種基于核以及增強(qiáng)學(xué)習(xí)的近似軟最大值函數(shù)去處理高維度的自然人體運(yùn)動,另外還使用了連續(xù)代價函數(shù)的均值轉(zhuǎn)移方法來平滑動作序列。
Pickup 等[53]、Lampert等[54]和 Pintea 等[55]分別用統(tǒng)計流方法、向量值回歸和隨機(jī)森林回歸算法回歸物體移動方向;Pintea等還論證了運(yùn)動預(yù)測在動作識別、運(yùn)動顯著性檢測等方面有很大的應(yīng)用價值。也有學(xué)者使用深度學(xué)習(xí)進(jìn)行動作預(yù)測。Vondrick等[44]提出一種用深度回歸網(wǎng)絡(luò)的方法來學(xué)習(xí)視頻表征,結(jié)合動作識別模型,能夠很好地根據(jù)靜態(tài)圖像來推測未來動作。
除人體動作和運(yùn)動預(yù)測外,物體軌跡預(yù)測也具有廣泛的應(yīng)用價值。Kitani等[56]提出了一種基于馬爾可夫決策過程和反轉(zhuǎn)最優(yōu)控制的動作理解和軌跡預(yù)測方法,并在運(yùn)動分析(包括運(yùn)動平滑、路徑和目的地預(yù)測)以及場景遷移學(xué)習(xí)上做了定量和定性的評估。Kitani等[56]和Gong等[57]都提出用行人軌跡預(yù)測來輔助多目標(biāo)追蹤,并取得了高效的結(jié)果。
Kooij等[58]提出了一種動態(tài)貝葉斯網(wǎng)絡(luò)來做行人路徑預(yù)測;Walker等[59]使用條件變分自編碼器來預(yù)測靜態(tài)圖像中每個像素的運(yùn)動軌跡;Walker等[60]使用光流算法來標(biāo)記視頻,進(jìn)而訓(xùn)練一個光流預(yù)測模型,該模型可以預(yù)測每個像素的運(yùn)動;Walker等[61]還嘗試了通過獎賞函數(shù)選擇最優(yōu)目標(biāo)的方式建模汽車運(yùn)動的軌跡。
Yuen等[62]提出一種基于大數(shù)據(jù)的方法,通過檢索大數(shù)據(jù)中與被檢索圖片或視頻相似場景的方式來預(yù)測物體可能的位置,該方法類似于k近鄰算法,不需要訓(xùn)練模型,在數(shù)據(jù)量足夠大的情況下可以取得比較好的效果;Mottaghi等[63]使用兩個CNN和一個RNN來建模物體移動動態(tài),從而預(yù)測可能移動的物體。
運(yùn)動預(yù)測模型一般從建模移動物體的運(yùn)動軌跡出發(fā),能較好地預(yù)測前景物體的瞬時運(yùn)動軌跡,其處理的數(shù)據(jù)維度低于視頻預(yù)測,但不能預(yù)測圖像的結(jié)構(gòu)信息,且其學(xué)習(xí)到的特征無法遷移到有監(jiān)督學(xué)習(xí)領(lǐng)域,因而其應(yīng)用范圍和價值有限。
“不是我創(chuàng)造的,我就不能理解。”著名物理學(xué)家Feynman這句話背后的內(nèi)涵是:通過構(gòu)建驗證過的概念來理解事物。在人工智能領(lǐng)域,可以理解為:如果一個機(jī)器能夠生成高度真實的數(shù)據(jù),那么它就發(fā)展出了對自然數(shù)據(jù)的理解能力。
視頻預(yù)測是指給出一段連續(xù)視頻幀X1,X2,···,Xn,構(gòu)造一個模型可以精準(zhǔn)地生成隨后的幀Xn+1,Xn+2,···,Xn+t(t是需要預(yù)測的幀的數(shù)量)?;蛘?,給出一段序列 X1,X2,···,XN,其中是缺失的,模型可以推斷缺失的幀(插值)。視頻預(yù)測不需要額外的標(biāo)注信息,因此屬于無監(jiān)督學(xué)習(xí)的范疇。
一般常用于評估視頻質(zhì)量的指標(biāo)有均方誤差(mean square error, MSE)、峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity index,SSIM)。用Y來表示真實幀,表示預(yù)測幀,MSE、PSNR和SSIM的定義如式(2)~(4):
視頻預(yù)測為一個較新的研究領(lǐng)域,目前尚未有專用于視頻預(yù)測的數(shù)據(jù)集,學(xué)者一般使用視頻動作數(shù)據(jù)集進(jìn)行訓(xùn)練和測試。表1給出了部分常用數(shù)據(jù)集和使用該數(shù)據(jù)集的部分文獻(xiàn)。
視頻預(yù)測模型一般基于自編碼器架構(gòu)、遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)和生成對抗網(wǎng)絡(luò)架構(gòu),表2為部分基于以上3類架構(gòu)的視頻預(yù)測文獻(xiàn)概覽。下面我們按照這3類進(jìn)行介紹。
表 1 視頻預(yù)測算法常用數(shù)據(jù)集Table 1 Common datasets used by video prediction algorithms
自編碼器因其可以進(jìn)行高效的壓縮編碼,因而很多視頻預(yù)測模型采用自編碼器來進(jìn)行視頻的降維和生成?;谧跃幋a器的視頻預(yù)測常用架構(gòu)如圖2所示。
表 2 視頻預(yù)測算法概覽Table 2 Overview of video prediction algorithms
圖 2 基于自編碼器的視頻預(yù)測模型架構(gòu)Fig. 2 Architecture of video prediction based on auto encoder
Yan等[81]提出了一種深度動態(tài)編碼器模型(deep DynEncoder),該模型輸入原始像素圖像,經(jīng)編碼器編碼成隱狀態(tài)變量,然后使用動態(tài)預(yù)測器(DynPredictor)將時序動態(tài)編碼。使用合適的堆疊策略、逐層預(yù)訓(xùn)練和聯(lián)合微調(diào),可以構(gòu)建多層深度動態(tài)編碼器。實驗表明,文獻(xiàn)[81]提到的方法可以描繪復(fù)雜的視頻動態(tài),合成高質(zhì)量的紋理序列視頻。作者還構(gòu)造了基于深度動態(tài)編碼器模型的分類和聚類方法,在交通場景分類和運(yùn)動分割上取得了接近甚至優(yōu)于之前最好的模型的效果。
Vukoti等[65]提出基于時間差的卷積自編碼器模型。編碼器有兩個分支,一個接收輸入圖像,另外一個接收期望預(yù)測的時間差,解碼器根據(jù)編碼器輸出的潛在變量生成可信的圖像。以沒有時間差輸入的常規(guī)卷積自編碼器模型為基準(zhǔn),作者提出的方法在KTH數(shù)據(jù)集上生成的圖像有更高的語義性,均方誤差也更低。然而,該模型存在諸多不足,例如生成的人體動作具有歧義,不能很好地建??焖僖苿拥奈矬w,不能充分地處理前景和背景信息等。
Liu等[73]提出一種深度體元流模型,該模型是一種全卷積自編碼器架構(gòu),由3個卷積層、3個反卷積層和一個瓶頸層組成。為更好地保留空間信息,在每個卷積層和反卷積層之間有跳躍連接。在UCF-101和THUMOS-15數(shù)據(jù)集上的內(nèi)插和外推視頻實驗上的結(jié)果表明,該模型比文獻(xiàn)[70]中提到的多尺度對抗訓(xùn)練架構(gòu)和光流法的結(jié)果要更優(yōu)。
Xue等[87]提出一種基于變分自編碼器和交叉卷積網(wǎng)絡(luò)的模型,該模型可以從一張圖片生成可能的未來幀。該模型通過條件變分自編碼器來建模未來幀的復(fù)雜條件分布。另外,該模型利用了圖像差分(歐拉運(yùn)動)原理,因為圖像差分是稀疏的,并且比原始圖像更容易建模。Xue等還在合成數(shù)據(jù)集與自然圖像上驗證了模型的有效性,另外,作者還通過實驗證明了該模型在無監(jiān)督、零樣本類比學(xué)習(xí)上取得了很好的結(jié)果。
遞歸神經(jīng)網(wǎng)絡(luò)可以很好地進(jìn)行序列數(shù)據(jù)建模,視頻預(yù)測本身也是一種序列學(xué)習(xí)問題,很多研究人員采用遞歸神經(jīng)網(wǎng)絡(luò)來解決視頻預(yù)測問題?;诰幗獯a的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3(a)所示。
圖 3 視頻預(yù)測模型的抽象結(jié)構(gòu)Fig. 3 Abstract architecture of video prediction model
Ranzato等[82]從自然語言處理領(lǐng)域借鑒了經(jīng)典的n-grams算法,將之與CNN和RNN結(jié)合起來,給出了一個視頻預(yù)測和視頻插值的基準(zhǔn)。Ranzato還在RNN架構(gòu)基礎(chǔ)上提出了遞歸卷積神經(jīng)網(wǎng)絡(luò)(recurrent convolution neural network, RCNN)架構(gòu),RCNN是在RNN輸入和輸出端連接卷積層,使其能夠更好地處理圖像結(jié)構(gòu)信息。
Srivastava等[13]提出了一種使用LSTM架構(gòu)的無監(jiān)督視頻表征學(xué)習(xí)模型。該模型將圖像經(jīng)過編碼器編碼后送入LSTM網(wǎng)絡(luò),解碼器可以重建原視頻,或者預(yù)測未來視頻。然而,一個高容量的自編碼器網(wǎng)絡(luò)傾向于記憶輸入數(shù)據(jù),預(yù)測模型傾向于僅僅存儲最近幾幀,因此本文提出了一個復(fù)合模型,復(fù)合模型可以同時重構(gòu)原圖像、預(yù)測未來圖像,強(qiáng)迫模型來更好地學(xué)習(xí)視頻表征。Srivastava最后把無監(jiān)督學(xué)習(xí)過程學(xué)習(xí)到的表征應(yīng)用到有監(jiān)督學(xué)習(xí)——動作分類中,實驗結(jié)果表明,在訓(xùn)練樣本很少的情況下,無監(jiān)督視頻預(yù)測學(xué)習(xí)到的特征顯著提升了分類結(jié)果。
Lotter等[76]從神經(jīng)科學(xué)的“預(yù)測編碼”概念獲得啟發(fā),提出了一種視頻預(yù)測架構(gòu)——PredNet,該架構(gòu)的每一層只做局部預(yù)測,向后面的層傳遞殘差。PredNet在KITTI數(shù)據(jù)集上的結(jié)果表明其可以統(tǒng)一建模背景和移動物體(車輛、行人)的運(yùn)動。
Oh等[83]受DeepMind使用雅利達(dá)(Atari)游戲進(jìn)行增強(qiáng)學(xué)習(xí)研究的啟發(fā),提出未來圖像不僅與過去的圖像有關(guān),還與當(dāng)前的操作行為有關(guān)。Oh因此提出一種由編碼器、操作變換和基于CNN和RNN的解碼器組成的模型。實驗結(jié)果表明,基于操作信息的條件模型可以生成視覺上較真實的、可用于游戲控制的大約100幀預(yù)測視頻。Finn等[84]隨后也提出了基于動作的視頻預(yù)測模型,該模型可以根據(jù)不同的動作預(yù)測不同的視頻,該模型主要由卷積LSTM構(gòu)成,通過跳躍連接(skip connection)保存圖形背景信息,最后通過掩膜(mask)把背景和轉(zhuǎn)變圖像拼接起來。作者提出3個不同的架構(gòu):動態(tài)神經(jīng)平流、卷積動態(tài)神經(jīng)平流和空間變換預(yù)測器。這3個模型在視頻預(yù)測上都取得了不錯的結(jié)果。
以上提到的方法都是直接預(yù)測高階的視頻,由于誤差累積和放大,預(yù)測多幀視頻是一個非常困難的任務(wù)。Villegas等[68]用高階結(jié)構(gòu)信息輔助進(jìn)行視頻預(yù)測。他們提出的算法先從輸入圖像中提取人體骨架結(jié)構(gòu),然后預(yù)測骨架結(jié)構(gòu)的變化,與參考圖片聯(lián)結(jié)在一起生成動作視頻。實驗表明,這種以高階結(jié)構(gòu)信息為條件的視頻生成策略有效減小了誤差傳播和累積,在Human3.6M等數(shù)據(jù)集上取得了較好的效果,且可以預(yù)測多達(dá)128幀的視頻。但是該方法僅能預(yù)測一種可能的運(yùn)動,而且背景信息保持不變,不能建模背景的變化,因此有一定的局限性。
有些研究人員試圖將背景和運(yùn)動分開建模。Villegas等[72]提出一種基于自編碼器、CNN和卷積LSTM架構(gòu)的模型,該模型有兩個編碼器輸入,其中一個編碼器接收圖像序列差分作為運(yùn)動輸入,使用LSTM建模運(yùn)動動態(tài),另一個編碼器接收最后一幀靜態(tài)圖像,然后將LSTM的輸出與靜態(tài)圖像的編碼輸出組合起來,經(jīng)由解碼器解碼為預(yù)測圖像。作者還提出多尺度殘差版本,將編碼器各個池化層的輸出通過快捷連接接入到解碼器,以更好地保存圖像的結(jié)構(gòu)信息。
生成對抗網(wǎng)絡(luò)為機(jī)器學(xué)習(xí)領(lǐng)域引入了一種新的訓(xùn)練模式,其優(yōu)越的性能引起了眾多學(xué)者的關(guān)注,也有很多學(xué)者采用對抗訓(xùn)練的方式來進(jìn)行視頻預(yù)測。一種常用的基于編解碼與生成對抗網(wǎng)絡(luò)的視頻預(yù)測架構(gòu)如圖3(b)所示。
Lotter等[80]提出了基于編碼器、LSTM和解碼器的預(yù)測生成模型,通過對抗訓(xùn)練的方式,在“彈球”數(shù)據(jù)集和計算機(jī)生成的旋轉(zhuǎn)人臉數(shù)據(jù)集上取得了很好的結(jié)果,作者還論證了無監(jiān)督預(yù)測學(xué)習(xí)是一種有力的表征學(xué)習(xí)方法。
在度量生成樣本和真實樣本的距離上,學(xué)者通常使用l1或者l2距離,然而,實驗表明,僅使用l1或者l2距離作為損失函數(shù)會導(dǎo)致生成圖像較為模糊,當(dāng)向前預(yù)測更多幀的時候,該問題更為嚴(yán)重。Mathieu等[70]為解決預(yù)測圖像模糊的問題,提出3個互補(bǔ)的解決策略:多尺度架構(gòu)、對抗訓(xùn)練方法和圖像梯度差分損失函數(shù)。
受限于卷積核的大小問題,卷積操作僅能處理短范圍的依賴;另外,使用池化還會導(dǎo)致分辨率降低,文獻(xiàn)[70]使用多尺度網(wǎng)絡(luò),通過在多個不同尺度的圖像進(jìn)行上采樣和線性組合操作來更好的保持高分辨率。
為解決使用l1或者l2損失函數(shù)導(dǎo)致的圖像模糊問題,文獻(xiàn)[70]使用對抗訓(xùn)練方法。使用對抗訓(xùn)練方法,模型生成的圖像更銳利。然而僅優(yōu)化對抗損失函數(shù)會產(chǎn)生訓(xùn)練不穩(wěn)定問題,生成器生成的圖像通??梢陨伞懊曰蟆辫b別器的樣本,然而卻與真實樣本Y并不相似。為解決這個問題,作者使生成器采用對抗損失和lp組合損失函數(shù)。通過加入損失函數(shù)迫使預(yù)測圖像的分布與真實圖像的分布保持一致。
Mathieu等[70]還提出一種圖像梯度差分損失,通過引入近鄰圖像強(qiáng)度差異來懲罰預(yù)測樣本和真實樣本之間的梯度不一致性。最終生成器損失函數(shù)為對抗損失、l2損失和圖像梯度差分損失的加權(quán)和。Mathieu的實驗結(jié)果表明,使用對抗損失函數(shù)和梯度差分損失函數(shù),性能要超過僅使用l2損失函數(shù),并且在圖像銳利度上要遠(yuǎn)好于l2損失函數(shù)。Hintz[71]受文獻(xiàn)[70]的啟發(fā),將生成器替換為儲蓄池計算,鑒別器結(jié)構(gòu)以及訓(xùn)練方法與文獻(xiàn)[70]保持相同。作者在UCF-101數(shù)據(jù)集上的實驗結(jié)果表明,雖然其在PSNR和SSIM評測上結(jié)果略低于文獻(xiàn)[70],但其收斂時間明顯快于前者,也取得了相當(dāng)好的結(jié)果。
圖像語義分割具有廣泛的應(yīng)用價值。Luc等[85]在文獻(xiàn)[70]的基礎(chǔ)上,使用多尺度架構(gòu)和對抗訓(xùn)練方法來預(yù)測語義分割圖像。實驗結(jié)果表明,預(yù)測語義分割圖像的精度要好于直接預(yù)測RGB圖像,且預(yù)測分割圖像的平均IoU達(dá)到了真實圖像分割結(jié)果的2/3。
Vondrick等[43]提出使用時空卷積生成對抗網(wǎng)絡(luò)的視頻預(yù)測模型VGNN,該模型利用時空卷積網(wǎng)絡(luò)將前景和背景解耦。本文使用生成對抗網(wǎng)絡(luò)從潛在編碼向量生成高維視頻,分別提出了由時空卷積和反卷積組成的單流架構(gòu),以及可以建模靜態(tài)的背景和動態(tài)的前景的雙流架構(gòu)。該模型在超過200萬條視頻上訓(xùn)練后可以自己“創(chuàng)作”視頻內(nèi)容。作者以自編碼器架構(gòu)作為基準(zhǔn),經(jīng)“亞馬遜土耳其機(jī)器人”測試。結(jié)果表明,雙流對抗網(wǎng)絡(luò)性能優(yōu)于對應(yīng)的單流對抗網(wǎng)絡(luò),遠(yuǎn)優(yōu)于自編碼器網(wǎng)絡(luò),甚至有20%的人認(rèn)為模型生成的視頻比自然視頻更“真實”。在預(yù)測未來幀問題上,Vondrick等在生成器前加入一個編碼器,將靜態(tài)圖片編碼為潛在編碼向量,作為雙流生成對抗網(wǎng)絡(luò)的輸入,生成模型可以生成32幀的視頻(一般視頻是25幀/秒,因此模型可以生成約1.5 s的視頻)。結(jié)果表明,生成器生成的視頻雖然不是嚴(yán)格意義上的正確視頻,但在語義上是可接受的。
Vondrick等最終把通過無監(jiān)督方式學(xué)習(xí)到的鑒別模型參數(shù)用在監(jiān)督學(xué)習(xí)任務(wù)上(例如動作分類),將鑒別器最后一層替換為Softmax分類器。實驗結(jié)果表明,使用無監(jiān)督學(xué)習(xí)到的參數(shù)初始化分類器,在同樣樣本量大小情況下,其分類性能高于隨機(jī)初始化的網(wǎng)絡(luò),對比效果圖見圖4。Jin等[79]使用基于生成對抗網(wǎng)絡(luò)的時空特征學(xué)習(xí)方法,結(jié)合預(yù)測轉(zhuǎn)向解析模型,可以增強(qiáng)現(xiàn)有的場景解析模型。其實驗結(jié)果表明,其在Cityscapes視頻分割數(shù)據(jù)集上取得了較好的結(jié)果。
Denton等[88]也提出將視頻背景內(nèi)容和運(yùn)動前景分開編碼的視頻表征分解模型,與文獻(xiàn)[80]不同的是,文獻(xiàn)[88]是以生成對抗網(wǎng)絡(luò)的方式訓(xùn)練背景內(nèi)容編碼器、運(yùn)動姿勢編碼器以及解碼器。在KTH數(shù)據(jù)集上的實驗結(jié)果表明,文獻(xiàn)[88]的視頻預(yù)測在準(zhǔn)確性和圖像銳利性方面要好于文獻(xiàn)[80]。作者還提出,背景內(nèi)容編碼器可以構(gòu)建圖像分類模型,運(yùn)動前景編碼器可以構(gòu)建視頻動作分類模型。
圖 4 在UCF101數(shù)據(jù)集上,VGAN鑒別器參數(shù)初始化分類器、隨機(jī)值初始化分類器以及隨機(jī)猜測類別的性能對比Fig. 4 Performance comparison of classifier initialized by VGAN discriminator’s parameters, classifier initialized by random value and random classification on UCF101
與文獻(xiàn)[68]類似,Yan等[67]基于條件GAN架構(gòu),用人體骨骼作為輔助信息,可以生成多幀栩栩如生的運(yùn)動視頻。
Chen等[86]提出一種雙向預(yù)測網(wǎng)絡(luò)來進(jìn)行視頻插值,該模型采用編碼器—解碼器架構(gòu),通過兩個編碼器分別編碼起始幀和結(jié)尾幀,從而產(chǎn)生一個潛在表征,解碼器以潛在表征作為輸入來生成多幀插值視頻。該模型采用多尺度架構(gòu),其損失函數(shù)為l2重建損失、特征空間損失(以AlexNet最后一個卷積層提取到的特征作為基準(zhǔn))與對抗損失的加權(quán)和。該模型在合成2D數(shù)據(jù)集和UCF101數(shù)據(jù)集上的結(jié)果表明,其比基于光流場的模型的效果要更好。
當(dāng)前深度有監(jiān)督學(xué)習(xí)在計算機(jī)視覺、自然語言處理和機(jī)器翻譯等領(lǐng)域取得了遠(yuǎn)超傳統(tǒng)方法的性能,但這些成就多屬于深度學(xué)習(xí)在感知層面的工作,這屬于人工智能的第一步;下一步就是讓機(jī)器能夠理解自然界變化的規(guī)律,對自然界動態(tài)進(jìn)行建模,使其能夠?qū)ΜF(xiàn)實世界中將要發(fā)生的事情進(jìn)行預(yù)測,要達(dá)到這一步,需要借助于無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)因其可以在自然界海量的無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,且應(yīng)用范圍廣泛,因而被譽(yù)為“深度學(xué)習(xí)的圣杯”。
視頻預(yù)測作為無監(jiān)督學(xué)習(xí)的一個最新的也是最有前景的研究方向之一,其意義不僅在于能夠很好地建模視頻場景來推測未來視頻,從而幫助機(jī)器能夠更好地決策,還在于其以無監(jiān)督方式學(xué)習(xí)到的內(nèi)部視覺表征可以加速或提升弱監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的性能,因此得到了越來越多學(xué)者的關(guān)注,也取得了非常多的進(jìn)展。但是,現(xiàn)有的方法仍舊存在許多不足:
1)當(dāng)前提出的各種模型,結(jié)構(gòu)比較單一,多數(shù)是基于自編碼器、遞歸神經(jīng)網(wǎng)絡(luò)(包括LSTM)和生成對抗網(wǎng)絡(luò),雖然這些架構(gòu)取得了不錯的效果,但是仍無法高效建模自然界復(fù)雜的動態(tài)結(jié)構(gòu),導(dǎo)致當(dāng)前的模型僅能預(yù)測有限的幾幀或者幾十幀圖像,且在預(yù)測的后期畫面會變模糊或者失去語義信息。
2)目前學(xué)術(shù)界使用的視頻預(yù)測損失函數(shù)比較單一,常使用的損失函數(shù)是均方誤差損失、對抗損失函數(shù)和圖像梯度差分損失函數(shù)。因為圖像具有高維復(fù)雜結(jié)構(gòu)信息,當(dāng)前常用損失函數(shù)沒有充分考慮結(jié)構(gòu)信息,導(dǎo)致模型預(yù)測的圖像缺乏語義信息。另外,使用峰值信噪比、結(jié)構(gòu)相似性作為圖像評價標(biāo)準(zhǔn),與人眼的視覺感知并不完全一致,人眼的視覺對于誤差的敏感度并不是絕對的,其感知結(jié)果會受到許多因素的影響而產(chǎn)生變化,因此在圖形評價指標(biāo)上仍有待研究。
3)理論上,預(yù)測視頻動態(tài)在機(jī)器人決策、無人駕駛和視頻監(jiān)控系統(tǒng)等領(lǐng)域具有廣泛的應(yīng)用價值,但當(dāng)前視頻預(yù)測的研究多數(shù)在學(xué)術(shù)界,且研究處于早期階段,具體在工業(yè)界的應(yīng)用還未起步。
視頻預(yù)測學(xué)習(xí)是理解和建模自然界場景動態(tài)的有力手段,也是無監(jiān)督學(xué)習(xí)的一個新的、重要的突破點,盡管該領(lǐng)域的研究面臨著不少挑戰(zhàn)和未解決的問題,但當(dāng)前認(rèn)知科學(xué)和深度學(xué)習(xí)領(lǐng)域發(fā)展非常迅速,尤其是在增強(qiáng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方向,且當(dāng)前的計算機(jī)計算能力越來越強(qiáng),這些有利因素定會加速視頻預(yù)測研究的進(jìn)展。
[1]LECUN Y. Predictive Learning[R]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016
[2]LECUN Y, BENGIO Y, HINTON G. Deep learning[J].Nature, 2015, 521(7553): 436–444.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. South Lake Tahoe, NV, USA, 2012: 1097–1105.
[4]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Delving deep into rectifiers: Surpassing human-level performance on imagenet classification[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago, Chile, 2015: 1026–1034.
[5]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[Z]. arXiv preprint arXiv: 1409.1556, 2014.
[6]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778.
[7]HINTON G, DENG Li, YU Dong, et al. Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups[J]. IEEE signal processing magazine, 2012, 29(6): 82–97.
[8]SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014:3104–3112.
[9]BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of machine learning research, 2003, 3: 1137–1155.
[10]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[Z]. arXiv preprint arXiv: 1312.5602, 2013.
[11]SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489.
[12]DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255.
[13]SRIVASTAVA N, MANSIMOV E, SALAKHUDINOV R.Unsupervised learning of video representations using LSTMs[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France, 2015: 843–852.
[14]MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. The bulletin of mathematical biophysics, 1943, 5(4): 115–133.
[15]HEBB D O. The organization of behavior: A neuropsychological theory[M]. New York: Chapman & Hall, 1949.
[16]MINSKY M L, PAPERT S A. Perceptrons: an introduction to computational geometry[M]. 2nd ed. Cambridge,UK: MIT Press, 1988.
[17]RUMELHART D E, HINTON G E, WILLIAMS R J.Learning representations by back-propagating errors[J].Nature, 1986, 323(6088): 533–536.
[18]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324.
[19]HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation,2006, 18(7): 1527–1554.
[20]JORDAN M I. Serial order: A parallel distributed processing approach[J]. Advances in psychology, 1997, 121:471–495.
[21]BENGIO Y. Learning deep architectures for AI[J]. Foundations and trends in machine learning, 2009, 2(1): 1–127.
[22]GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2014:2672–2680.
[23]BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence,2013, 35(8): 1798–1828.
[24]HUBEL D H, WIESEL T N. Receptive fields and functional architecture of monkey striate cortex[J]. The journal of physiology, 1968, 195(1): 215–243.
[25]FUKUSHIMA K, MIYAKE S. Neocognitron: a self-organizing neural network model for a mechanism of visual pattern recognition[M]//AMARI S I, ARBIB M A. Competition and Cooperation in Neural Nets. Berlin Heidelberg:Springer, 1982: 267–285.
[26]ZEILER M D, KRISHNAN D, TAYLOR G W, et al. Deconvolutional networks[C]//Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA, USA, 2010: 2528–2535.
[27]NOH H, HONG S, HAN B. Learning deconvolution network for semantic segmentation[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago, Chile, 2015: 1520–1528.
[28]RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[Z]. arXiv preprint arXiv: 1511.06434,2015.
[29]JI Shuiwang, XU Wei, YANG Ming, et al. 3D convolutional neural networks for human action recognition[J].IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221–231.
[30]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780.
[31]GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]//Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. Como,Italy, 2000, 3: 189–194.
[32]CHO K, VAN MERRIENBOER B, GULCEHRE C, et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[Z]. arXiv preprint arXiv: 1406.1078, 2014.
[33]SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: a machine learning approach for precipitation nowcasting[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec, Canada, 2015:802–810.
[34]VINCENT P, LAROCHELLE H, LAJOIE I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. Journal of machine learning research, 2010, 11: 3371–3408.
[35]NG A. Sparse autoencoder[R]. CS294A Lecture Notes,2011: 72.
[36]KINGMA D P, WELLING M. Auto-encoding variational bayes[Z]. arXiv preprint arXiv: 1312.6114, 2013.
[37]REZENDE D J, MOHAMED S, WIERSTRA D. Stochastic backpropagation and approximate inference in deep generative models[Z]. arXiv preprint arXiv: 1401.4082, 2014.
[38]MIRZA M, OSINDERO S. Conditional generative adversarial nets[Z]. arXiv preprint arXiv: 1411.1784, 2014.
[39]CHEN Xi, DUAN Yan, HOUTHOOFT R, et al. InfoGAN:interpretable representation learning by information maximizing generative adversarial nets[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 2172–2180.
[40]LEDIG C, THEIS L, HUSZáR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[Z]. arXiv preprint arXiv: 1609.04802, 2016.
[41]WU Jiajun, ZHANG Chengkai, XUE Tianfan, et al. Learning a probabilistic latent space of object shapes via 3D generative-adversarial modeling[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 82–90.
[42]ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-toimage translation with conditional adversarial networks[Z].arXiv preprint arXiv: 1611.07004, 2016.
[43]VONDRICK C, PIRSIAVASH H, TORRALBA A. Generating videos with scene dynamics[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 613–621.
[44]VONDRICK C, PIRSIAVASH H, TORRALBA A. Anticipating visual representations from unlabeled video[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, Nevada, USA,2016: 98–106.
[45]LAN Tian, CHEN T C, SAVARESE S. A hierarchical representation for future action prediction[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 689–704.
[46]HOAI M, DE LA TORRE F. Max-margin early event detectors[J]. International journal of computer vision, 2014,107(2): 191–202.
[47]RYOO M S. Human activity prediction: Early recognition of ongoing activities from streaming videos[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 1036–1043.
[48]VU T H, OLSSON C, LAPTEV I, et al. Predicting actions from static scenes[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich, Switzerland,2014: 421–436.
[49]PEI Mingtao, JIA Yunde, ZHU Songchun. Parsing video events with goal inference and intent prediction[C]//Proceedings of the 2011 IEEE International Conference on Computer vision. Barcelona, Spain, 2011: 487–494.
[50]FOUHEY D F, ZITNICK C L. Predicting object dynamics in scenes[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,USA, 2014: 2027–2034.
[51]KOPPULA H S, SAXENA A. Anticipating human activities using object affordances for reactive robotic response[J].IEEE transactions on pattern analysis and machine intelligence, 2016, 38(1): 14–29.
[52]HUANG Dean, KITANI K M. Action-reaction: Forecasting the dynamics of human interaction[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 489–504.
[53]PICKUP L C, PAN Zheng, WEI Donglai, et al. Seeing the arrow of time[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 2043–2050.
[54]LAMPERT C H. Predicting the future behavior of a timevarying probability distribution[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 942–950.
[55]PINTEA S L, VAN GEMERT J C, SMEULDERS A W M.Déja vu: Motion prediction in static images[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 172–187.
[56]KITANI K M, ZIEBART B D, BAGNELL J A, et al.Activity forecasting[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy, 2012:201–214.
[57]GONG Haifeng, SIM J, LIKHACHEV M, et al. Multi-hypothesis motion planning for visual object tracking[C]//Proceedings of the 2011 IEEE International Conference on Computer Vision. Barcelona, Spain, 2011: 619–626.
[58]KOOIJ J F P, SCHNEIDER N, FLOHR F, et al. Contextbased pedestrian path prediction[C]//Proceedings of the 13th European Conference on Computer Vision. Zürich,Switzerland, 2014: 618–633.
[59]WALKER J, DOERSCH C, GUPTA A, et al. An uncertain future: Forecasting from static images using variational autoencoders[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands,2016: 835–851.
[60]WALKER J, GUPTA A, HEBERT M. Dense optical flow prediction from a static image[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 2443–2451.
[61]WALKER J, GUPTA A, HEBERT M. Patch to the future:Unsupervised visual prediction[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA, 2014: 3302–3309.
[62]YUEN J, TORRALBA A. A data-driven approach for event prediction[C]//Proceedings of the 11th European Conference on Computer Vision. Heraklion, Crete, Greece,2010: 707–720.
[63]MOTTAGHI R, RASTEGARI M, GUPTA A, et al. “What happens if...” learning to predict the effect of forces in images[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, Netherlands, 2016:269–285.
[64]SCHUKDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge, UK, 2004, 3: 32–36.
[65]VUKOTI V, PINTEA S L, RAYMOND C, et al. One-step time-dependent future video frame prediction with a convolutional encoder-decoder neural network[C]//Proceedings of the 19th International Conference on Image Analysis and Processing. Catania, Italy, 2017: 140–151.
[66]IONESCU C, PAPAVA D, OLARU V, et al. Human3.6M:Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(7):1325–1339.
[67]YAN Yichao, XU Jingwei, NI Bingbing, et al. Skeletonaided articulated motion generation[Z]. arXiv preprint arX-iv: 1707.01058, 2017.
[68]VILLEGAS R, YANG Jimei, ZOU Yuliang, et al. Learning to generate long-term future via hierarchical prediction[Z].arXiv preprint arXiv: 1704.05831, 2017.
[69]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[Z].arXiv preprint axXiv:1202.0402, 2012
[70]MATHIEU M, COUPRIE C, LECUN Y. Deep multi-scale video prediction beyond mean square error[Z]. arXiv preprint arXiv: 1511.05440, 2015.
[71]HINTZ J J. Generative adversarial reservoirs for natural video prediction[D]. Austin, USA: The University of Texas.
[72]VILLEGAS R, YANG Jimei, HONG S, et al. Decomposing motion and content for natural video sequence prediction[C]//Proceedings of the 2017 International Conference on Learning Representations. Toulon, France, 2017.
[73]LIU Ziwei, et al. Video frame synthesis using deep voxel flow[C]//Proceeding of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu,Hawaii, USA, 2017:4463–4471
[74]GORBAN A, IDREES H, JIANG Yugang, et al. THUMOS challenge: Action recognition with a large number of classes[EB/OL]. (2015–05). http://www.thumos.info.
[75]GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset[J]. The international journal of robotics research, 2013, 32(11): 1231–1237.
[76]LOTTER W, KREIMAN G, COX D. Deep predictive coding networks for video prediction and unsupervised learning[Z]. arXiv preprint arXiv: 1605.08104, 2016.
[77]Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]//Proceeding of the 2011 IEEE International Conference on Computer Vision, ICCV. Barcelona, Spain, 2011:2556–2563.
[78]CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA,2016: 3213–3223.
[79]JIN Xiaojie, LI Xin, XIAO Huaxin, et al. Video scene parsing with predictive feature learning[Z]. arXiv preprint arX-iv: 1612.00119, 2016.
[80]LOTTER W, KREIMAN G, COX D. Unsupervised learning of visual structure using predictive generative networks[Z]. arXiv preprint arXiv: 1511.06380, 2015.
[81]YAN Xing, CHANG Hong, SHAN Shiguang, et al. Modeling video dynamics with deep dynencoder[C]//Proceedings of the 13th European Conference on Computer Vision.Zürich, Switzerland, 2014: 215–230.
[82]RANZATO M, SZLAM A, BRUNA J, et al. Video (language) modeling: a baseline for generative models of natural videos[Z]. arXiv preprint arXiv: 1412.6604, 2014.
[83]OH J, GUO Xiaoxiao, LEE H, et al. Action-conditional video prediction using deep networks in atari games[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Quebec,Canada, 2015: 2863–2871.
[84]FINN C, GOODFELLOW I, LEVINE S. Unsupervised learning for physical interaction through video prediction[C]//Proceedings of the 30th Conference on Neural Information Processing Systems. Barcelona, Spain, 2016: 64–72.
[85]LUC P, NEVEROVA N, COUPRIE C, et al. Predicting deeper into the future of semantic segmentation[Z]. arXiv preprint arXiv: 1703.07684, 2017.
[86]CHEN Xiongtao, WANG Wenmin, WANG Jinzhou, et al.Long-term video interpolation with bidirectional predictive network[Z]. arXiv preprint arXiv: 1706.03947, 2017.
[87]XUE Tianfan, WU Jiajun, BOUMAN K, et al. Visual dynamics: Probabilistic future frame synthesis via cross convolutional networks[C]//Proceedings of the 30th Annual Conference on Neural Information Processing Systems.Barcelona, Spain, 2016: 91–99.
[88]DENTON E, BIRODKAR V. Unsupervised learning of disentangled representations from video[Z]. arXiv preprint arXiv: 1705.10915, 2017.