• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于無標簽視頻數(shù)據(jù)的深度預測學習方法綜述

      2022-05-17 04:17:42潘敏婷王韞博朱祥明高思宇龍明盛楊小康
      電子學報 2022年4期
      關(guān)鍵詞:時空建模狀態(tài)

      潘敏婷,王韞博,朱祥明,高思宇,龍明盛,楊小康

      (1. 上海交通大學人工智能研究院、人工智能教育部重點實驗室,上海 201109;2. 清華大學軟件學院,北京 100084)

      1 引言

      近年來,隨著移動互聯(lián)網(wǎng)、智能安防監(jiān)控、時空數(shù)據(jù)采集與傳感器網(wǎng)絡等技術(shù)的迅猛發(fā)展,各行業(yè)中的視頻數(shù)據(jù)體量呈指數(shù)級增長. 運用深度學習方法對海量視頻數(shù)據(jù)進行建模,在無須額外人工標注的情況下理解其時空結(jié)構(gòu)特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統(tǒng)具有重要意義,這使得基于無標簽視頻數(shù)據(jù)的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關(guān)注的研究領(lǐng)域. 預測學習的交叉應用場景眾多,本文依照近年來國際學術(shù)界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內(nèi)涵.

      首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續(xù)的視頻歷史觀測,預測其在未來一段時間范圍內(nèi)的變化. 給定一個n幀視頻序列(Xt-n,…,Xt),預測隨后一段m幀視頻序列(,…,). 利用深度學習模型,刻畫觀測空間中歷史數(shù)據(jù)與未來數(shù)據(jù)之間確定性的映射關(guān)系,從而實現(xiàn)對未來時空變化趨勢的高質(zhì)量、精細化預測,已被成功應用于多種時空大數(shù)據(jù)平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景. 例如在氣象短臨預報中,需要根據(jù)前一時段內(nèi)的雷達回波影像序列預測出未來0~2 h 內(nèi)每間隔6 min的雷達回波影像. 在圖1 所展示的例子中,由清華大學團隊主導研發(fā)的“新一代災害性天氣短時臨近預報業(yè)務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業(yè)務系統(tǒng),表現(xiàn)出了超越傳統(tǒng)數(shù)值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領(lǐng)域應用前景與重要的科學研究價值.

      圖1 深度預測學習在氣象預報領(lǐng)域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.

      此外,在許多基于時空觀測信號的智慧決策系統(tǒng)中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定n幀視頻序列(Xt-n,…,Xt),以及機器人未來可能選取的動作序列(at,…,at+m-1),以視頻幀(,…,)的形式,預測在相應未來時刻執(zhí)行對應動作所可能產(chǎn)生的后果. 此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP). 在該問題中,場景的狀態(tài)信息是不完全可知的,即視覺觀測數(shù)據(jù)無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態(tài)空間中融合機器人的動作信息與隱狀態(tài)時空深度表征,刻畫動作、狀態(tài)、環(huán)境三者之間的動態(tài)關(guān)系. 顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執(zhí)行效果.

      從交叉應用場景看預測學習的本質(zhì),視頻數(shù)據(jù)作為一種典型的具有網(wǎng)格化空間結(jié)構(gòu)的高維時間序列,其最大特點是在時間上具有長時非平穩(wěn)趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關(guān)性(例如圖1 中的雷達回波影像). 傳統(tǒng)的機器學習方法大多將時空數(shù)據(jù)當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關(guān)性與非線性時空動態(tài),故而難以形成長時、精細化的預測. 深度預測學習遵循自監(jiān)督學習的訓練范式,不需要額外的標注信息,利用上述時空數(shù)據(jù)特性實現(xiàn)自監(jiān)督訓練,在無標簽情況下建模數(shù)據(jù)中緊耦合的時間與空間相關(guān)性,從復雜、海量、高維、非線性的時空數(shù)據(jù)中挖掘重要的空間結(jié)構(gòu),并刻畫其隨時間的動態(tài)變化. 預測學習模型與面向視頻數(shù)據(jù)的生成模型不同. 后者更關(guān)注生成數(shù)據(jù)的分布與真實數(shù)據(jù)分布的統(tǒng)計差異,而不需要嚴格保證生成結(jié)果相對觀測數(shù)據(jù)的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關(guān)注于觀測空間中的生成質(zhì)量,而且要盡可能地從歷史觀測中推斷時空狀態(tài)信息,因此需要更強的特征提取能力. 在本文的后續(xù)討論中,我們據(jù)此將主流的視頻預測網(wǎng)絡按照在觀測空間或狀態(tài)空間中的建模時空動態(tài)進行歸納對比. 具體分類方式如圖2所示.

      圖2 深度預測學習主流方法的譜系圖

      本文第2節(jié)將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNN)的若干神經(jīng)網(wǎng)絡架構(gòu). 第3 節(jié)將總結(jié)基于語義狀態(tài)空間或隱狀態(tài)空間的深度預測網(wǎng)絡,探究低維狀態(tài)空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法. 第4 節(jié)將歸納基于深度預測模型的視覺決策前沿方法,討論如何結(jié)合預測學習提高交互環(huán)境中控制和決策水平. 第5節(jié)將介紹該研究領(lǐng)域內(nèi)的典型數(shù)據(jù)集和模型評價指標. 最后,第6 節(jié)將討論深度預測學習的開放問題與未來發(fā)展趨勢.

      2 高維觀測空間中的預測學習方法

      一類典型的視頻預測模型是直接在觀測到的像素空間中預測視頻的未來序列,而沒有將空間特征提取到低維度的狀態(tài)空間并在低維空間中建模動態(tài)變化.此類視頻預測模型的優(yōu)點是極大地保存了空間細節(jié)特征,有助于高精度的預測. 現(xiàn)有工作主要貢獻是有效的高維時空特征表達,既要表示出幀內(nèi)的空間信息,又要表示出幀間的時間信息,通過同時學習時空相關(guān)性,實現(xiàn)高質(zhì)量的視頻預測. 目前,觀測空間中的時空預測模型可分為基于卷積神經(jīng)網(wǎng)絡的前饋式預測模型、基于循環(huán)神經(jīng)網(wǎng)絡的迭代式預測模型和生成式深度預測網(wǎng)絡,表1 基于這一分類對相關(guān)的模型進行了對比. 本節(jié)詳細介紹這3類模型.

      表1 觀測空間中的視頻預測模型對比(ED表示圖像編碼-解碼架構(gòu),Adv表示對抗損失函數(shù))

      2.1 基于卷積神經(jīng)網(wǎng)絡的前饋式預測模型

      卷積神經(jīng)網(wǎng)絡作為目前最主流的特征提取網(wǎng)絡,被廣泛應用于圖像分類、語義分割、目標檢測等計算機視覺領(lǐng)域. 卷積操作通過卷積核可以提取到圖片中的空間結(jié)構(gòu)信息[9],但因為卷積核有限的感受視野,無法構(gòu)建出遠距離的空間依賴關(guān)系,有效的解決方法是堆疊更多的卷積層[10]或增大卷積核的尺寸. Mathieu 等人[11]提出多尺度建模的方式保持遠程依賴關(guān)系,將不同分辨率的圖片通過上采樣對齊后輸入到大尺度網(wǎng)絡中. 為提取視頻幀之間的時間依賴關(guān)系,Oh 等人[12]將連續(xù)的歷史觀測在通道維度上進行拼接后輸入卷積層,經(jīng)過編碼和解碼操作后直接得到預測的視頻圖像.Vukotic 等人[13]在編碼網(wǎng)絡和解碼網(wǎng)絡中加入時間變量,直接生成任意指定時刻的視頻圖像,不需要使用逐步迭代的方式進行多幀預測.

      卷積網(wǎng)絡建模時空特征的一大挑戰(zhàn)是在視頻預測的測試階段,卷積核的參數(shù)往往是固定不變的,而不同的視頻片段具有不同的運動模式,只使用單一變換的方法會造成預測失準. 為此,Brabandere等人[14]、Xue等人[15]和Xu等人[16]分別提出使用動態(tài)卷積網(wǎng)絡,根據(jù)輸入視頻圖片動態(tài)地改變卷積核的參數(shù),由此預測出來的視頻圖片更加清晰、準確.

      卷積網(wǎng)絡建模時空特征的另一大挑戰(zhàn)是其自身對時間動態(tài)信息的刻畫能力有限,預測誤差在長期范圍內(nèi)往往呈指數(shù)級增長. 為此,Jaderberg等人[17]提出了空間轉(zhuǎn)換模塊,通過對卷積網(wǎng)絡的特征圖進行平移、旋轉(zhuǎn)和縮放等空間變換建模物體運動.Jin 等人[18]在時間維度和空間維度上分別采用離散小波變換分解出不同頻率的特征信息,解決視頻預測時外觀細節(jié)缺失和動作模糊的問題. Du 等人[19]提出用3D 卷積網(wǎng)絡處理連續(xù)的序列信息,在一定程度上解決了2D 卷積網(wǎng)絡無法表達時間維度的問題,可以在保留空間信息的同時有效提取到視頻中的時間信息,有效提升了視頻分類準確性[20,21]. 此后,3D 卷積網(wǎng)絡也被使用到視頻預測任務中[22~26].

      因觀測空間維度較高,觀測空間中的深度預測網(wǎng)絡需要特別考慮計算效率和預測質(zhì)量. 與下文介紹的循環(huán)網(wǎng)絡模型相比,大多數(shù)前饋式預測模型在大規(guī)模GPU 上表現(xiàn)出更高的并行計算效率,但不善于構(gòu)建遠距離視頻觀測之間的長期依賴關(guān)系,在較長預測時效下的模型效果有待進一步提升.

      2.2 基于循環(huán)神經(jīng)網(wǎng)絡的循環(huán)迭代式預測模型

      循環(huán)神經(jīng)網(wǎng)絡是為了處理序列數(shù)據(jù)而專門設計的,是自然語言處理等領(lǐng)域的關(guān)鍵技術(shù). 循環(huán)神經(jīng)網(wǎng)絡的輸出不僅依賴當前時刻的輸入,還與歷史時刻的網(wǎng)絡狀態(tài)有關(guān),實現(xiàn)了信息記憶的功能.Graves[27]根據(jù)這一特性,結(jié)合長短時記憶單元(Long Short-Term Memory,LSTM)進行序列生成,提升了時序預測的預測長度.Ranzato 等人[28]首次將循環(huán)網(wǎng)絡應用在視頻數(shù)據(jù)上,實現(xiàn)了單幀預測.Sutskever等人[29]開創(chuàng)性地提出了LSTM編碼器-解碼器框架,為序列到序列的學習任務提供了一個通用框架.Srivastava等人[30]借鑒這一框架,將視頻中的歷史觀測序列編碼為一個固定長度的特征向量,并傳遞給LSTM 解碼器,進行未來視頻多幀迭代預測. 上述模型所采用的LSTM 層基于全連接算子,并沒有考慮到對空間結(jié)構(gòu)信息的學習. 為此,Shi 等人[31]提出了ConvLSTM 網(wǎng)絡,將2D 的輸入圖片轉(zhuǎn)換為3D 張量,在LSTM 內(nèi)部的狀態(tài)轉(zhuǎn)移函數(shù)中采用卷積結(jié)構(gòu),通過堆疊多個ConvLSTM 層形成最終的預測模型. 網(wǎng)絡中某個單元格的未來狀態(tài)是由其附近的輸入和過去狀態(tài)決定的,公式如下:

      其中,Xt表示輸入數(shù)據(jù);Ct表示存儲單元狀態(tài);Ht表示輸出的隱狀態(tài);it,ft,ot分別表示輸入門、遺忘門和輸出門;*表示卷積操作;⊙表示哈達瑪乘積.

      ConvLSTM 模型中的卷積循環(huán)結(jié)構(gòu)具有位置不變性,而自然界中的運動和轉(zhuǎn)換通常是位置變化的. 因此Shi 等人[32]提出了Trajectory GRU(TrajGRU)模型,它可以學習到神經(jīng)元動態(tài)的連接方式,比固定連接的Convolutional GRU(ConvGRU)[33]更加靈活.Wang等人[34]提出PredRNN模型,用時空長短時記憶單元(ST-LSTM)代替?zhèn)鹘y(tǒng)的LSTM 單元,該單元所特有的記憶狀態(tài)以“之”字形進行更新,如圖3(a)所示,信息首先跨層向上傳遞,然后隨時間向前傳遞. 圖3(b)給出了ST-LSTM的內(nèi)部詳細結(jié)構(gòu),相比傳統(tǒng)的LSTM單元,增加了一個輸入調(diào)制門gt和一個時空記憶狀態(tài)Mtl,在同一時間步長中將信息從l-1層垂直傳輸?shù)疆斍肮?jié)點. 在PredRNN-V2[63]中,兩種記憶狀態(tài)的增量信息經(jīng)由損失函數(shù)被顯式分離.

      圖3 PredRNN[34]與PredRNN-V2[63]的整體網(wǎng)絡結(jié)構(gòu),及其核心時空長短時記憶單元ST-LSTM的內(nèi)部結(jié)構(gòu)

      進一步地,Wang等人[23]提出了E3D-LSTM 模型,將3D 卷積整合到LSTM 網(wǎng)絡中,可以讓模型存儲更有用的視頻短期特征和建立局部依賴關(guān)系,而對于長期關(guān)聯(lián),通過一個門控制的自注意力模塊,讓當前的存儲狀態(tài)與其歷史信息相互作用,由此同時提高了短期依賴和長期關(guān)聯(lián)的特征表達.Oliu 等人[35]引入雙向映射門控循環(huán)單元(bijective Gated Recurrent Units,bGRU),把GRU 堆疊起來進行雙向映射,在編解碼的過程中參數(shù)是共享的,與標準的GRU 網(wǎng)絡不同,網(wǎng)絡的輸入是上一層的狀態(tài)值,并使用一組額外的邏輯門來更新其輸出,從而在多幀預測時避免了重新編碼的過程,減小了誤差的傳播. 上述模型的相關(guān)信息在表1 中列出.Wu 等人[36]則關(guān)注運動本身復雜的時空變化,物理世界的運動可以自然地分解為瞬態(tài)變化和運動趨勢,使用MotionRNN 結(jié)構(gòu)分別對視頻中物體的瞬時變化和長時運動趨勢進行建模.

      2.3 生成式深度預測網(wǎng)絡

      在許多真實場景下,基于給定的歷史觀測,未來的視頻序列具有多種可能性,使用均方誤差損失函數(shù)(l2loss)訓練的確定性模型[28,27],會回歸每個像素點上所有可能像素強度的平均值,造成預測圖片的模糊. 鑒于生成式對抗網(wǎng)絡(Generative Adversarial Network,GAN)[37]的成功,對抗訓練也被用來消除視頻預測的歧義性.Mathieu 等人[11]提出基于條件生成式對抗網(wǎng)絡(Conditional GAN,CGAN)[38]的BeyondMSE模型,驗證了使用對抗損失函數(shù)可以得到比使用l2損失函數(shù)更加清晰的視頻預測結(jié)果.CGAN 在視頻預測中的網(wǎng)絡結(jié)構(gòu)如圖4 所示. 同時訓練相互對抗的預測網(wǎng)絡和判別網(wǎng)絡. 預測網(wǎng)絡的訓練目標包含兩部分,一部分是盡量逼近預測目標的真實值,另一部分是盡量“欺騙”判別網(wǎng)絡,使其輸出錯誤的分類結(jié)果;而判別網(wǎng)絡的訓練目標是區(qū)分真實數(shù)據(jù)和預測數(shù)據(jù). 通過對抗訓練,可以有效剔除掉那些明顯錯誤的預測結(jié)果.

      圖4 CGAN應用于視頻預測問題的通用網(wǎng)絡結(jié)構(gòu)

      近五年來,更多的預測學習模型采用對抗訓練方式[25,39~43]提高生成圖像序列的清晰度. 其中Vondrick等人[25]提出VideoGAN,用兩路卷積網(wǎng)絡分別對視頻的前景和背景進行生成.TGAN[40]使用相似的神經(jīng)網(wǎng)絡架構(gòu),將上述CGAN的預測網(wǎng)絡分解為時間生成器和圖像生成器. 采用對抗損失函數(shù)的一大挑戰(zhàn)是訓練的穩(wěn)定性和模式崩塌問題,即生成器無法覆蓋多種可能的時空特征模式,在訓練過程中會收斂到單一的模式狀態(tài)[43]. 現(xiàn)有的對抗預測網(wǎng)絡的另一個尚未完全解決的問題是,對氣象應用中的雷達回波序列、城市計算應用中的交通熱力圖序列的時空變化的捕捉能力不足. 這些場景要求精測的精細化程度高,即看重像素級預測結(jié)果的絕對準確度,對抗損失更關(guān)注圖像全局質(zhì)量,往往在MSE 等像素級評價指標上表現(xiàn)不佳. 另一種典型的生成模型是變分自編碼器(Variational Autoencoders,VAE). Denton 等 人[44]提 出 了 一 種 改 進 的VAE 的 模型,可以在更長的時間視野中合成未來視頻幀. 雖然這些模型可以對未來分布進行建模,但預測分布仍然是在像素空間上,這使得模型傾向于產(chǎn)生模糊的預測. 在生成式對抗網(wǎng)絡和變分自編碼器之外,Kumar 等人[45]提出了VideoFlow,拓展了基于流的生成模型(Flow-Based Generative Model)[46,47],直接優(yōu)化數(shù)據(jù)似然(data likelihood),生成具有隨機性的高質(zhì)量未來視頻序列.

      3 低維狀態(tài)空間中的預測學習方法

      視頻圖像中的數(shù)據(jù)特征具有高維度、高復雜的性質(zhì),直接在觀測空間中對未來分布進行建模是一項具有挑戰(zhàn)性的任務,且觀測空間中的特征雖然可以保留很多的細節(jié),但存在大量的冗余信息,增加了計算的復雜度. 一個可行且有效的辦法是,將低維表示的時空動態(tài)特征從視頻序列中抽離出來,在有外部語義的狀態(tài)空間或隱空間中進行狀態(tài)前向傳遞的學習. 對低維動態(tài)變量進行建模,一方面能夠消除圖像解碼與時間動態(tài)之間的強耦合,從而更靈活地學習長序列相關(guān)性和時空動態(tài)隨機性;另一方面通過有效降低特征維度,去除了冗余信息,提升了計算效率. 表2 總結(jié)了基于狀態(tài)空間的視頻預測模型.

      表2 基于深度網(wǎng)絡狀態(tài)空間的視頻預測模型對比(ED表示圖像編碼-解碼架構(gòu),Adv表示對抗損失函數(shù))

      3.1 狀態(tài)空間模型

      狀態(tài)空間模型(State Space Model,SSM)是描述動態(tài)系統(tǒng)的完整模型,根據(jù)輸入改變系統(tǒng)內(nèi)部狀態(tài),并由此改變系統(tǒng)的輸出,常被用于序列建模[4,48-53]. 對于觀測到的n個序列數(shù)據(jù)(Xt-n,…,Xt),狀態(tài)空間模型假設每一個數(shù)據(jù)Xt都是依據(jù)隱藏狀態(tài)Ht生成的,這些連續(xù)或離散的隱藏狀態(tài)形成了一個馬爾可夫過程. SSM 的通用表達式為[54]

      其中,g表示狀態(tài)轉(zhuǎn)換模型,f表示觀測模型,∈t和σt分別表示狀態(tài)轉(zhuǎn)換模型和觀測模型中的噪聲. 很多經(jīng)典的時間序列模型,如馬爾可夫模型、隱馬爾可夫模型、深度隱馬爾可夫模型和向量自回歸模型等,都可以表示為狀態(tài)空間模型. 給定潛在的隱藏狀態(tài)Ht,觀察值Xt與歷史信息Ft是獨立的. 寫出后L步序列的后驗分布如下:

      由上式可知,在解決時空序列預測問題上,SSM 有其自身優(yōu)勢,貝葉斯公式使其可以自然地模擬動力系統(tǒng)的不確定性,編碼不同未來結(jié)果的概率.

      3.2 基于語義狀態(tài)空間的深度預測模型

      為了應對特征維度過高的問題,在語義分割、實例分割和人體姿態(tài)等計算機視覺任務中,常將觀測空間降維為高級特征表示. 在預測學習中,同樣可以對具有特定語義信息進行表達和學習,基于外部語義先驗來提高預測圖片的質(zhì)量. 語義分割[55]和實例分割[56]將動態(tài)視覺場景分解為語義實體,如行人、車輛和障礙物等,場景動態(tài)由像素級建模變?yōu)檎Z義實體建模,對動態(tài)場景理解具有重要意義. 其中一個具有代表性的方法是Jin 等人[57]提出的PEARL 框架. 該框架執(zhí)行兩個互補的預測學習任務:其一是使用單幀預測網(wǎng)絡從輸入數(shù)據(jù)中捕獲時間上下文;其二是將時間上下文特征輸入到幀解析網(wǎng)絡,通過變換層生成未來的像素級分割.Wu等人[58]使用語義分割將前景和背景分離,同時使用實例分割將前景中的不同運動物體分離,因不同物體具有不同的運動方式,識別每一個運動物體并預測它們的移動路徑和尺度變化,通過背景的非剛性變形和運動物體的仿射變換來預測未來場景.Bei等人[59]等人同樣使用分割網(wǎng)絡描述場景布局,使用光流定義物體運動,先將預測的光流圖作用于當前幀做運動變換,然后根據(jù)預測的語義圖進行圖像渲染[60,61].Wu 等人[62]試圖分析視頻中每個運動物體對應的物理狀態(tài),將不同物體分割后通過物理引擎模塊預測其物理狀態(tài)的變化. 上述方法主要考慮2D 場景,Henderson 等人[65]在3D 場景上對多個3D 物體進行建模,每個物體都有一個外觀表示和一個隨時間變化的3D 定位,并基于此預測場景的未來變化趨勢,可建模由視角變化而引起的外觀變化.

      除了場景分割圖,人體姿態(tài)與物體關(guān)鍵點也可以作為重要的語義狀態(tài)約束. 一種常用方法是通過有監(jiān)督地訓練人體姿態(tài)預測器,來學習人體關(guān)鍵點的動態(tài)變化,然后結(jié)合預測的姿態(tài)生成未來視頻序列[66,67]. 此類方法雖然在具有靜態(tài)背景的長期預測任務中表現(xiàn)出一定的優(yōu)勢,但因在預測中沒有考慮全局信息變化,無法處理氣象預報、自動駕駛等場景下的預測問題. 此外,訓練關(guān)鍵點檢測器通常需要額外的監(jiān)督信息,不適用于無標簽視頻數(shù)據(jù)場景. 為了解決后一個問題,Minderer 等人[68]通過添加物體關(guān)鍵點特征約束,對關(guān)鍵點坐標空間中的動態(tài)建模,在視頻預測任務中實現(xiàn)了無監(jiān)督的關(guān)鍵點提取. 該模型則直接從視頻中學習基于關(guān)鍵點的表示,不需要像素數(shù)據(jù)之外的任何監(jiān)督. 為了進一步建模動態(tài)環(huán)境中的物體間交互信息,Bodla 等人[69]采用分級預測的方式,先學習布局特征,即物體位置和人體關(guān)鍵點,對視頻中人與物體之間的關(guān)系進行建模,然后再進行視頻預測.

      3.3 基于隱狀態(tài)空間的深度預測模型

      對未來視頻中固有的不確定性進行概率建模是視頻預測的關(guān)鍵技術(shù)之一. 面向圖像數(shù)據(jù)和時序數(shù)據(jù)的概率式隱變量模型包括變分自編碼器(Variational Auto-Encoder,VAE)[70,71]和變分循環(huán)神經(jīng)網(wǎng)絡(Variational Recurrent Neural Network,VRNN)[72]等. 基 于 此,Babaeizadeh 等人[73]提出了一種隨機變分視頻預測框架(Stochastic Variational Video Prediction,SV2P),使用隱變量和變分推斷對未來視頻序列的概率分布建模.Denton 等人[44]提出隨機視頻生成模型(Stochastic Video Generation,SVG),其變分循環(huán)神經(jīng)網(wǎng)絡的隱狀態(tài)信息從可學習的先驗分布中采樣得到,即zt~pΨ(zt|x1:t-1),其模型結(jié)構(gòu)如圖5所示.

      圖5 SVG[44]模型架構(gòu)圖

      遵循類似的思路,SAVP 模型[74]將GAN 和VAE 進行結(jié)合,在有效增強不確定性建模能力的同時,顯著提高了視頻序列的生成質(zhì)量. 此外,一些現(xiàn)有工作[75~77]通過構(gòu)建層次化的隱變量網(wǎng)絡結(jié)構(gòu),也實現(xiàn)了提升視頻預測質(zhì)量的效果. 其中,Gur 等人[76]提出層級塊狀VAE-GAN 結(jié)構(gòu),使用patch-VAE 生成粗糙的圖片,增強預測結(jié)果的多樣性,并使用patch-GAN 補充空間細節(jié),提升圖像質(zhì)量.Wu等人[75]提出了多層變分預測網(wǎng)絡的分層訓練策略,逐層疊加地訓練整個預測模型的隱狀態(tài)子模塊,有效優(yōu)化了模型的內(nèi)存開銷.Wang 等人[78]提出基于粒子濾波算法的貝葉斯預測網(wǎng)絡(BP-Net),同時考慮視頻觀測空間到隱空間的感知不確定性和從歷史隱狀態(tài)到未來隱狀態(tài)的動態(tài)不確定性.

      基于低維隱狀態(tài)空間的預測模型,如上述典型的SVG,在BAIR 數(shù)據(jù)集上SSIM,PSNR 等評價指標下的預測結(jié)果不如基于高維狀態(tài)空間的PredRNN-V2,因為在低維隱狀態(tài)空間中建模會丟失高維空間中較多的細節(jié)信息,造成生成數(shù)據(jù)的模糊和失真. 但它的優(yōu)勢是可以通過加入隨機變量建模數(shù)據(jù)的多樣性分布,輸出差異化的預測結(jié)果,易于與下游控制決策任務進行結(jié)合.

      3.4 基于狀態(tài)空間的長時趨勢建模

      目前大多數(shù)預測學習方法只關(guān)注較短時效(十幀左右)下的視頻預測質(zhì)量,但在預測時效延長后,預測圖像的質(zhì)量會隨著視頻上下文的消失而急劇下降. 為了實現(xiàn)可靠的長序列視頻預測,使用層級預測是一個有效的解決方法,能減小長期預測造成的累加誤差.Villegas 等人[66]先估計出輸入視頻中的高級語義狀態(tài)(如人體姿態(tài)),通過預測該結(jié)構(gòu)在未來如何演變輔助未來視頻序列的生成.Wichers 等人[41]也采用類似的方式,但無需額外的標注信息,并在特征空間中使用對抗訓練來改善特征表達.Pertsch 等人[79]和Kim 等人[80]采用由粗到細的優(yōu)化策略或構(gòu)建變分隱狀態(tài)的層次化結(jié)構(gòu),在視頻的多個時間尺度上進行預測,即先將預測過程分為多個子段,然后再優(yōu)化每個子段,從而有效緩解逐步預測帶來的誤差累積,實現(xiàn)遠距離的時空狀態(tài)轉(zhuǎn)移. 利用類似神經(jīng)圖靈機(Neural Turing Machine)[81]的外部存儲網(wǎng)絡是強化長時趨勢建模的另一個思路.Lee等人[82]提出長時運動上下文記憶單元(LMC-Memory),首先從長序列中提取并在外部記憶單元中存儲視頻的長時上下文信息,而后用已存儲的上下文信息來匹配短期序列,從而有效延長了深度網(wǎng)絡的預測時效.

      3.5 預測學習中的時空表征解耦

      以視頻數(shù)據(jù)為代表的高維時空序列數(shù)據(jù)往往具有復雜的時空耦合性,該特性在某種程度上增大了預測學習的難度. 因此,許多針對時空表征的自監(jiān)督解耦方法應運而生,其主流思想是將數(shù)據(jù)分解為“內(nèi)容”和“運動”兩部分,并獨立地進行特征學習和預測.

      Denton等人[83]提出了一種基于GAN的預測式時空解耦模型DrNet,利用時間相關(guān)性和對抗損失函數(shù)將視頻數(shù)據(jù)的每一幀分解為靜止和可隨時間變化的兩部分,并分別在合成和真實數(shù)據(jù)集的長時預測任務上驗證了模型的特征解耦能力,但其缺點是需要為對抗訓練構(gòu)造額外的訓練數(shù)據(jù).Minderer等人[68]提出了Struct-VRNN 模型,結(jié)合關(guān)鍵點信息進行圖像表示,并在關(guān)鍵點坐標空間中對其進行了動力學建模,也可視為帶有語義約束的時空特征解耦. Guen 等人[84]提出PhyDNet模型,在ConvLSTM 網(wǎng)絡的基礎(chǔ)上加入偏微分方程約束,有效提取了數(shù)據(jù)中的物體先驗知識,提升了模型的解耦和預測能力,但該方法在處理復雜的真實時空序列數(shù)據(jù)時表現(xiàn)欠佳.

      考慮以物體為中心的時空特征表達,Hsieh 等人[85]提出了DDPAE 模型,將高維的時空數(shù)據(jù)表示為多個低維的時不變狀態(tài)分量(表示空間解構(gòu)得到的多個物體的結(jié)構(gòu)信息)和時變分量(表示不同物體各自的動態(tài)信息)的組合,在人工構(gòu)造的數(shù)據(jù)集上具有較好的解耦能力. 但該方法假設時空動態(tài)僅包含簡單剛性物體的位移,忽略了物體間可能發(fā)生的遮擋、物體的形變等,因而實用性較為有限. 此外,van Steenkiste 等人[86]提出的RNN-EM 模型,用RNN 串聯(lián)多個物體解構(gòu)后的特征,并利用圖網(wǎng)絡對物體間的交互建模,有效刻畫了不同物體的時間動態(tài)特征,然而該方法對遮擋、形變等復雜時空動態(tài)場景的刻畫能力依然有限.

      Zablotskaia 等人[87]拓展了Greff 等人[88]提出的無監(jiān)督靜態(tài)多物體解構(gòu)方法IODINE,有效學習了動態(tài)場景下的多物體狀態(tài)信息與物體間的相關(guān)性.

      4 基于預測模型的視覺決策方法

      預測學習與強化學習和視覺決策算法關(guān)系密切.智能體學習與世界交互時,一個核心挑戰(zhàn)是預測動作對環(huán)境產(chǎn)生的影響. 目前學習物理交互的許多方法都需要環(huán)境狀態(tài)的標注信息進行訓練,然而,要將真實世界的交互學習擴展到多種應用場景時,獲取有標注的數(shù)據(jù)是不切實際的. 為了在環(huán)境狀態(tài)無標注的情況下學習物理對象的運動,可以通過前文總結(jié)的視頻預測方法來估計環(huán)境在給定動作序列的條件下的在觀測空間中的反饋,即一種以動作為條件的視頻預測模型. 此類模型能明確地對場景中與動作序列相對應的運動物體進行建模,實現(xiàn)更優(yōu)的視覺控制與決策. 表3 總結(jié)了基于預測模型的視覺決策方法.

      表3 基于預測模型的視覺決策方法對比(ED表示圖像編碼-解碼架構(gòu))

      4.1 基于動作序列的視頻預測模型

      Oh 等人[12]提出首個以動作為條件的視頻預測模型,在編碼器和解碼器之間加入一個動作轉(zhuǎn)換機制,研究控制輸入條件下高維圖像的長期預測,并在游戲仿真環(huán)境Atari上完成了模型驗證.Schmidhuber等人[92]提出的世界模型(World Model),成為首個基于預測學習時空特征表達的視覺強化學習方法.Chiappa 等人[93]提出循環(huán)環(huán)境模擬器模型(Recurrent Environment Simulator),能夠做出未來數(shù)百個時間步長的時空連貫預測,模擬環(huán)境對給定動作序列的響應,從而進行有效的提前規(guī)劃和決策.Wang等人[63]提出了PredRNN-V2模型,在PredRNN 的卷積循環(huán)網(wǎng)絡單元的基礎(chǔ)上,實現(xiàn)了高維時空狀態(tài)與低維動作信息的有效融合,其圖模型如圖6所示.

      圖6 動作條件下的PredRNN-V2模型[63]

      上述方法為有模型的強化學習(Model-Based Reinforcement Learning,MBRL)提供了研究基礎(chǔ). 智能體通過預測采取不同動作后的未來結(jié)果(表示為未來圖像序列),最終選擇能夠產(chǎn)生最優(yōu)反饋的動作. 這使智能體能夠在許多任務中高效執(zhí)行,減少與環(huán)境交互產(chǎn)生的代價. 近幾年,基于視頻預測模型的強化學習方法被運用到到高維的圖像環(huán)境中,這些方法表現(xiàn)出良好的性能,同時所需要的數(shù)據(jù)遠少于無模型強化學習方法(Model-Free Reinforcement Learning).

      4.2 高維觀測空間中的有模型視覺決策

      在基于預測模型的視覺控制中,觀察信號往往存在于高維的像素空間,通常不足以揭示環(huán)境的確切內(nèi)在狀態(tài). 該問題可被定義為部分可見的馬爾可夫決策過程(POMDP),具有離散的時間步長為t∈[1,T],隱狀態(tài)為st,觀察到的圖像為ot,連續(xù)行動為at,即時獎勵為rt.Babaeizadeh 等人[94]總結(jié)并總體評估了有模型的視覺強化學習方法,如圖7 所示,深度預測網(wǎng)絡包含高維觀測空間或低維隱空間中的狀態(tài)轉(zhuǎn)移函數(shù)、觀察函數(shù)和獎勵函數(shù). 此處以基于低維隱狀態(tài)的方法為例,分別有狀態(tài)轉(zhuǎn)移函數(shù)st~p(st|st-1,at-1),觀察函數(shù)ot~p(ot|st)和獎勵函數(shù)rt~p(rt|st). 也即不僅要預測環(huán)境未來的時空動態(tài),也要預測環(huán)境未來的獎勵反饋. 決策模型整體的訓練目標是找到策略p(at|o≤t,r≤t,a≤t),使未來獎勵的預期總和最大,其中是γ貼現(xiàn)因子,T是視野長度,根據(jù)策略采樣得到的動作計算期望. 在MBRL中,我們根據(jù)先前的觀察和未來的動作假設,通過預測其分布來近似預期獎勵p(rt|o≤t,a≥t),然后通過策略優(yōu)化方法,尋找高回報的動作序列.

      圖7 有模型的視覺決策的多種方法對比[94]

      如上所述,在有模型的視覺決策中,深度預測網(wǎng)絡按照學習表征的不同可以分為五大類. 第一類近似于直接根據(jù)未來的動作和以前的觀察估計預期獎勵,并不明確地預測圖像. 另外四類在未來預期獎勵p(rt|o≤t,a≥t)之外,還預測下一步(或多步)觀察值ot+1. 在狀態(tài)轉(zhuǎn)移函數(shù)上其具體可分為在觀測空間中對環(huán)境的轉(zhuǎn)移函數(shù)進行建?!玴(ot|o≤t,a≥t)或直接在隱空間中建模ht~p(ht|ht-1,at),其中ht是模型在時間步驟t的隱狀態(tài). 在獎勵函數(shù)上其具體可分為使用學習的隱空間預測未來的獎勵rt~p(rt|ht) 或從預測的未來觀測中進一步預測未來的獎勵rt~p(rt|ot+1).

      在觀測空間上學習預測模型的典型案例是Ebert等人[95]提出的Visual MPC 算法,利用深度強化學習和模型預測控制(Model Predictive Control,MPC)從原始的視覺輸入中學習復雜的機器人技能,并將其用于現(xiàn)實世界的機器人任務. 在測試時,該方法需要指定目標圖像,即理想的目標狀態(tài)是以圖像形式表現(xiàn)的,并需要用戶指定歷史觀測中的特定像素(表示某個物體)在目標圖像上的目標位置(即表示該物體的移動目標).Hirose等人[96]提出一種新的神經(jīng)網(wǎng)絡架構(gòu)PoliNet,基于視覺輸入信號進行機器人導航,同樣使用基于深度預測網(wǎng)絡的模型預測控制算法,而無需對環(huán)境進行精確地圖測繪.

      4.3 低維語義空間中的有模型視覺決策

      鑒于直接在圖像空間上進行規(guī)劃控制可解釋性較差,且不能對特定的語義信息進行建模,基于語義空間上的有模型視覺決策方法使用了更具結(jié)構(gòu)化的時空特征表達來進一步提高智能體學習的效率. 具體來說,此類方法可以細分為基于粒子表征的預測學習和基于物體表征的預測學習.

      求解POMDP 問題的一個主要困難是在感知不確定的情況下推斷未觀測到的真實狀態(tài)的多模態(tài)分布,并使決策算法依賴感知到的狀態(tài)的信念分布(即各種可能的狀態(tài)具有不同的置信度).Wang 等人[97]提出DualSMC 模型,在有明確語義定義的狀態(tài)空間中,使用深度學習技術(shù),連通了用于狀態(tài)估計的粒子濾波算法、用于動態(tài)建模的深度預測網(wǎng)絡和基于狀態(tài)信念分布的MBRL 算法. 該模型能夠從基于粒子的信念狀態(tài)中學習到顯著降低感知不確定性的決策策略,是深度預測學習在視覺規(guī)劃控制領(lǐng)域的典型應用.

      對于任何智能體來說,僅使用高維、非結(jié)構(gòu)化和未標記的視頻觀測數(shù)據(jù)來學習感知、預測與決策技能是一個棘手的問題. Janner 等人[98]提出了O2P2(Object-Oriented Prediction and Planning)模型,利用預測學習構(gòu)建顯式的多物體表征,共同學習從視頻觀測映射到物體表征的感知函數(shù)、預測多物體之間兩兩物理交互函數(shù),以及將物體表征映射回像素的渲染函數(shù). 該方法基于預測學習提取的物體表征,運用CEM(Cross-Entropy Method)算法實現(xiàn)下游控制任務. Zadaianchuk 等人[99]提出了SMORL(Self-supervised Multi-Object RL)模型,通過預測未來時刻的觀測圖像,以無監(jiān)督的方式提取場景中潛在的結(jié)構(gòu)化向量,將觀測圖像和決策目標圖像分別表示為一組以物體為中心的狀態(tài)表征(包括物體類別和位置等),并將其與強化學習相結(jié)合,使智能體能夠分而治之地處理環(huán)境中的多個動作對象.

      4.4 低維隱空間中的有模型視覺決策

      很多視覺控制與決策場景不易人為界定有語義的狀態(tài)空間,需要智能體具有自監(jiān)督提取隱狀態(tài)表征,并基于此隱狀態(tài)空間執(zhí)行決策算法的能力. 為了能使智能體執(zhí)行多步的視覺預測和決策,Hafner 等人[51]提出PlaNet 模型,在隱空間中訓練轉(zhuǎn)移預測模型和獎勵預測模型. 相較于在高維觀測空間進行狀態(tài)轉(zhuǎn)移函數(shù)的建模,隱狀態(tài)預測的存儲與計算開銷小,使得智能體可以并行地預測大量基于動作假設的軌跡,繼而運用CEM 算法,實現(xiàn)基于預測狀態(tài)軌跡和預測回報函數(shù)的控制決策.PlaNet 與無模型強化學習方法相比,顯著減少了智能體和環(huán)境交互的次數(shù),在DeepMind Control Suite 視覺控制仿真環(huán)境中取得了相似或更優(yōu)的表現(xiàn).PlaNet 的一大特色是在訓練預測模型時,區(qū)別于以往單獨使用確定性模型或隨機性模型,使用循環(huán)狀態(tài)空間模型(Recurrent State Space Model,RSSM)來同時建模環(huán)境中的確定性部分和隨機部分.

      傳統(tǒng)的序列決策算法受到固定視野長度的限制,使得智能體可能產(chǎn)生相對“短視”的行為. 在PlaNet 的后續(xù)工作Dreamer 中[7],首先從與環(huán)境的交互中學習未來觀測與未來獎勵函數(shù)的預測網(wǎng)絡. 在第二部分中,智能體借助學習得到的環(huán)境模型“假想”出大量的隱狀態(tài)軌跡,并在這些軌跡上利用強化學習算法學習值函數(shù),通過隱狀態(tài)狀態(tài)轉(zhuǎn)移模型回傳梯度,找到使值函數(shù)最大化的策略. 在“假想”的隱空間中學習策略模型進一步提升了強化學習的訓練效率,智能體可以根據(jù)學習到的策略在環(huán)境中行動.

      5 數(shù)據(jù)集和評價指標

      深度預測學習方法弱化了對視頻標注的依賴,因而多數(shù)深度學習與計算機視覺研究中常用的視頻數(shù)據(jù)集都可以作為深度預測模型的訓練集和測試集. 本節(jié)根據(jù)數(shù)據(jù)內(nèi)容或應用場景的不同,歸納總結(jié)該領(lǐng)域中常用的視頻數(shù)據(jù)集,并介紹這些數(shù)據(jù)集上相應的模型評價指標. 各數(shù)據(jù)集具體特性如表4所示.

      表4 常用的視頻預測學習數(shù)據(jù)集

      5.1 預測學習專用的合成數(shù)據(jù)集

      Bouncing balls 數(shù)據(jù)集[100]是訓練高維序列生成模型的常用數(shù)據(jù)集. 該數(shù)據(jù)集模擬3 個球在盒子里彈跳的過程,包含4000 段訓練視頻、200 段驗證視頻和200段測試視頻.

      Moving MNIST 數(shù)據(jù)集[30]中的視頻是由兩個(或多個)從靜態(tài)MNIST 數(shù)據(jù)集中抽取的數(shù)字,通過移動產(chǎn)生的20 幀(或更多)視頻序列組成,數(shù)字的移動速度和方向任意. 該數(shù)據(jù)集有兩種典型設置,訓練集的視頻數(shù)量分別是固定的和無限的.

      Block towers 數(shù)據(jù)集[101]是一個由合成數(shù)據(jù)和真實數(shù)據(jù)組成的小積木數(shù)據(jù)集,合成數(shù)據(jù)是使用3D 游戲引擎創(chuàng)建,把幾個不同顏色的積木堆疊起來,并隨機進行推倒.

      5.2 人體動作視頻數(shù)據(jù)集

      KTH 數(shù)據(jù)集[102]于2004 年發(fā)布,包含2391 個視頻,每個視頻平均時長為4秒,視頻中25個人在4個不同場景下做出6 類不同動作,如行走、跑步、揮手等. 這一數(shù)據(jù)集是當時拍攝的最大人體動作數(shù)據(jù)集,包括尺度變化、衣著變化和光照變化,但背景比較單一.

      Weizmann 數(shù)據(jù)集[103]僅有90 個視頻,包含10 個動作,每個動作有9 個不同樣本,每段視頻只有一個人在做單一動作. 因為相機固定,所以背景也是單一的.

      HMDB-51 數(shù)據(jù)集[104]中的視頻多數(shù)來源于電影和網(wǎng)絡視頻,包含6766 段視頻,平均時間為3.15 秒,人在視頻中執(zhí)行51類動作,每類至少有101段視頻. 該數(shù)據(jù)集提供了拍攝視角和相機移動等標注信息.

      UCF101數(shù)據(jù)集[105]是UCF50的擴展,從YouTube網(wǎng)站上收集,包含101 個動作類別,13320 個視頻,所有視頻的幀率都為25 fps. 該數(shù)據(jù)集是預測模型中最常用的數(shù)據(jù)集.

      Penn Action 數(shù)據(jù)集[106]是一個來自賓夕法尼亞大學的動作和人類姿態(tài)識別數(shù)據(jù)集. 它包含了15 個不同動作的2326個視頻序列,提供人的關(guān)節(jié)點和視角標注.

      Human3.6M 數(shù)據(jù)集[107]是一個人體姿態(tài)數(shù)據(jù)集,記錄了11個志愿者執(zhí)行的15種不同類型的動作. 它標注了所有志愿者的深度圖、姿態(tài)、2D框和3D掃描掩膜等.此外,該數(shù)據(jù)集通過在真實視頻中插入高質(zhì)量的3D 人體模型來擴展,以創(chuàng)建一個真實而復雜的背景.

      Sports1M 數(shù)據(jù)集[20]是由已經(jīng)標注的YouTube 視頻組成. 它包含487 類運動,每個視頻的分辨率、時長和幀率都不同. 它的規(guī)模比UCF101 數(shù)據(jù)集大,視頻超過100萬個,視頻中的動作也更頻繁.

      5.3 城市交通熱力圖與車輛駕駛視頻數(shù)據(jù)集

      Caltech Pedestrian 數(shù)據(jù)集[108]是一個專注于檢測行人的數(shù)據(jù)集,因為它標注有行人邊界框. 在137 個視頻片段中,總共有25 萬個已標注的視頻幀,行人有2300個,行人邊界框有350000 個. 該數(shù)據(jù)集還提供了邊界框和遮擋標簽之間的時間對應關(guān)系.

      Kitti數(shù)據(jù)集[109]是移動機器人和自動駕駛最流行的數(shù)據(jù)集之一,也是計算機視覺算法的基準. 它用各種傳感器記錄的數(shù)小時的交通場景,包括高分辨率的RGB相機、灰度立體聲相機和3D 激光掃描儀. 原始的數(shù)據(jù)集并不包含標注信息,而在2015 年進行了語義分割和實例分割標注.

      Cityscape數(shù)據(jù)集[110]是一個用于城市街道場景語義理解的大型數(shù)據(jù)庫,記錄了50 個城市的街景,共30 個類別,提供語義、實例和密集標注,含大約5000 張精細標注的圖像和20 000張粗糙標注的圖像.

      TaxiBJ數(shù)據(jù)集[111]是在混亂場景中收集得到的交通流量數(shù)據(jù)集,不會隨時間均勻變化,不同時間的交通流量是不同的,每一幀都是一個32×32×2 大小的圖像,其中兩通道表示進出同一區(qū)域的車流量.

      Traffic4Cast 數(shù)據(jù)集[112]于2019 年以視頻幀的形式記錄了柏林、莫斯科和伊斯坦布爾連續(xù)交通流量的GPS軌跡. 每個幀的大小是495×436×3. 每個像素的值對應于5 分鐘內(nèi)獲取100 m×100 m 區(qū)域范圍的交通信息,包括平均速度、流量和主要交通方向.

      5.4 機器人視覺預測數(shù)據(jù)集

      Robotic Pushing 數(shù)據(jù)集[89]是為學習物體的運動而創(chuàng)建的,它包含10 個不同的機械臂與現(xiàn)實世界中的物體相互作用的過程,機械臂具有7個自由度.

      BAIR Robot Pushing數(shù)據(jù)集[113]是BAIR實驗室研究機器人無監(jiān)督學習訓練采集而來的,機器人學習環(huán)境中的物理學,并預測其行動對環(huán)境產(chǎn)生的影響. 數(shù)據(jù)集是由機械臂數(shù)小時自監(jiān)督學習產(chǎn)生.

      RoboNet 數(shù)據(jù)集[114]是由4 個不同實驗室的7 個機械臂做各種自監(jiān)督訓練而組成的,BAIR 實驗室就是其中之一. 該數(shù)據(jù)集的目標是成為一個與ImageNet 圖像數(shù)據(jù)集一樣的通用標準.

      5.5 評價指標

      視頻預測模型最直接的評估指標是計算像素級的均方誤差(Mean Square Error,MSE)[115~117],另一個與MSE 相關(guān)且更流行的評價指標是峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[34,66,89,118]. PSNR 是最大像素值的比值,例如,在8 比特圖像中使用255 除以MSE來對比兩張圖片. 兩張圖像之間的差異越小,PSNR 的值就越高,則生成圖像的質(zhì)量也越高.

      雖然像素級別的MSE和PSNR很容易計算,但它們不能測量生成圖像的整體視覺質(zhì)量. 為解決這個問題,現(xiàn)有研究通常采用結(jié)構(gòu)相似性(Structural Similarity Index Measure,SSIM)[70]作為評價指標. 為了捕捉兩幅圖像之間的結(jié)構(gòu)差異,SSIM 將光照信息與物體的結(jié)構(gòu)進行區(qū)分,通過對比圖片之間的亮度、對比度和結(jié)構(gòu)來計算圖片的相似度.

      上述度量之外,參考主流的生成模型評價指標,現(xiàn)有視頻預測方法亦采用基于預訓練深度網(wǎng)絡的圖像感知相似度(Learned Perceptual Image Patch Similarity,LPIPS)[36].LPIPS通過比較神經(jīng)網(wǎng)絡的內(nèi)部激活值來衡量兩幅圖像的相似性,即在歸一化的深度特征上計算L2 距離. 類似地,近期工作引入Fréchet Video Distance(FVD)[119],衡量預測視頻與真實視頻之間序列級別的質(zhì)量差異.

      6 存在的問題和未來研究方向

      6.1 視頻預測領(lǐng)域的開放問題

      雖然目前視頻預測領(lǐng)域的研究取得了突破性的進展,但仍存在很大的進步空間. 為了提高視頻預測的能力,需要對該領(lǐng)域現(xiàn)存的問題進行歸納和分析.

      首先,現(xiàn)在大多數(shù)的預測方法局限于短期范圍,從長期來看,模型的預測能力遠沒有達到期望的效果. 對于長時間范圍的預測,通用的方法是使用迭代式的連續(xù)幀預測,這種預測方式會造成誤差的累積,使結(jié)果一步步遠離目標值. 目前循環(huán)神經(jīng)網(wǎng)絡在該領(lǐng)域仍被廣泛用于時間依賴關(guān)系的建立,但在同時構(gòu)建時空強耦合關(guān)系上還有所欠缺. 此外,當前研究普遍使用的視頻預測評價指標主要來源于圖像相似度的比較,在時間維度上沒有得到有效度量,因此迫切需要一個更加客觀的、準確的評價指標.

      其次,預測的視頻幀存在分辨率過低的問題. 損失函數(shù)對預測質(zhì)量有直接的影響:均方誤差損失函數(shù)會造成預測圖片的模糊;對抗損失函數(shù)雖然可一定程度上消除視頻預測的歧義性,但訓練不穩(wěn)定且易出現(xiàn)模式崩塌問題;利用KL 散度直接約束由視頻編碼成的隱狀態(tài)雖然可以對概率分布直接建模,但在真實應用場景下的視頻生成質(zhì)量還有待提高.

      最后,目前的視頻預測方法,無論是確定性的模型,還是概率式的預測模型,其建模過程完全是以數(shù)據(jù)為驅(qū)動的. 然而一方面,因為現(xiàn)實世界是復雜多變的,觀測數(shù)據(jù)往往充滿噪聲的;另一方面,在數(shù)據(jù)噪聲的背后,視頻數(shù)據(jù)往往可以反映出真實的物理規(guī)律,其隱藏的狀態(tài)信息是有跡可循的. 現(xiàn)有的大部分模型在預測未來時空狀態(tài)的時候,并沒有充分考慮對觀測序列背后的本質(zhì)物理過程的推斷.

      綜上所述,未來的視頻預測研究方向主要包括:第一,尋找循環(huán)神經(jīng)網(wǎng)絡的一種可替代模型,直接建立當前幀與目標幀的時空關(guān)聯(lián)性,減少迭代造成的誤差累積;第二,借鑒生成對抗網(wǎng)絡中的對抗損失函數(shù),設計一種合理的損失函數(shù),避免當前常用的均方誤差損失函數(shù)所造成的圖像模糊問題;第三,進一步探索基于物理過程的時空動態(tài)建模方法,以刻畫真實場景的本質(zhì)屬性.

      6.2 基于預測的決策領(lǐng)域的開放問題

      對于基于視頻預測模型的智能決策算法,尤其是有模型強化學習決策方法,目前的主要挑戰(zhàn)是:第一,對環(huán)境的建模存在誤差,而且隨著智能體與環(huán)境的迭代交互,累積誤差越來越大,使得算法難以收斂到最優(yōu)解;第二,模型的泛化性較差,對于各種復雜的現(xiàn)實環(huán)境,希望決策可以在各種環(huán)境中發(fā)揮作用. 但目前的多種主流方法都是使用針對特定任務經(jīng)過調(diào)整的超參數(shù)進行訓練的,只能處理仿真場景下(例如DeepMind Control Suite)相對單一的運動預測和視覺決策問題,它們經(jīng)常因新穎的任務或環(huán)境而失效. 研究該問題的核心是提升預測模型(也稱世界模型)對于新場景的適配與遷移能力.

      如何將深度強化學習算法應用于現(xiàn)實環(huán)境的實際應用中,是該領(lǐng)域研究最大的動因. 有模型強化學習的首要研究方向是提升模型的泛化能力. 人類之所以能夠在新任務上進行快速學習,是因為我們會重復利用過去的知識技能,因此有模型強化學習也可以利用人類這一特性,借鑒遷移學習方式,提升其領(lǐng)域適配性和通用性. 另外,將以動作序列為條件的視頻預測模型應用于下游視覺控制與決策任務中也是未來研究的重要思路,讓結(jié)合動作信息的視頻預測模型引導決策任務的執(zhí)行,提升世界模型在真實場景中的泛化能力,從而提升有模型決策方法的樣本效率和在真實場景下的模型適配能力.

      猜你喜歡
      時空建模狀態(tài)
      跨越時空的相遇
      聯(lián)想等效,拓展建模——以“帶電小球在等效場中做圓周運動”為例
      鏡中的時空穿梭
      狀態(tài)聯(lián)想
      玩一次時空大“穿越”
      基于PSS/E的風電場建模與動態(tài)分析
      電子制作(2018年17期)2018-09-28 01:56:44
      不對稱半橋變換器的建模與仿真
      生命的另一種狀態(tài)
      時空之門
      熱圖
      家庭百事通(2016年3期)2016-03-14 08:07:17
      遵义市| 尚志市| 南丰县| 冀州市| 喜德县| 抚远县| 安达市| 阿克陶县| 永城市| 古浪县| 兴和县| 阿拉善右旗| 色达县| 临泉县| 鱼台县| 垣曲县| 涡阳县| 福鼎市| 衡水市| 汝南县| 丰台区| 连平县| 湖南省| 南丹县| 扶绥县| 水富县| 望城县| 黄石市| 永安市| 辛集市| 阿拉善左旗| 松桃| 荥阳市| 六盘水市| 贵阳市| 开远市| 合水县| 东台市| 隆回县| 吴川市| 海原县|