史久琛,孫美君,王 征,張 冬
(1. 上海交通大學(xué)電子信息與電氣工程學(xué)院,上海 200240;2. 天津大學(xué)智能與計算學(xué)部,天津 300072;3. 天津中醫(yī)藥大學(xué)中醫(yī)藥研究院,天津 300193)
隨著互聯(lián)網(wǎng)時代的高速發(fā)展,各種視頻數(shù)量井噴式增長,視頻內(nèi)容愈加豐富.面對海量的多媒體資源,通過人工方式對多媒體視頻語義信息進行過濾篩選的成本過高,因此,如何利用計算機算法快速精準地自動提取視頻中的關(guān)鍵信息,是當前研究的熱點問題之一[1].
人眼視覺關(guān)注預(yù)測是視頻內(nèi)容分析的重要內(nèi)容之一,它能夠獲取視頻中由于顏色、紋理、運動、形狀、語義等多種特征的差別而最能吸引人眼視覺關(guān)注的區(qū)域,在視頻語義分析、目標跟蹤、對象分割等方面有著重要的應(yīng)用.因此,通過自動的、準確的算法對視頻中人眼視覺關(guān)注區(qū)域進行預(yù)測,可以有效地輔助進行視頻分析[2].
20世紀50年代,國內(nèi)外學(xué)者就開始了對人眼視覺顯著性的研究.20世紀80年代,Marr等綜合運用神經(jīng)生物學(xué)、心理學(xué)、圖像處理等方面的研究成果,提出了第一個該領(lǐng)域的視覺系統(tǒng)框架,從此使得人類對于視覺注意機制和計算機視覺的研究有了較為明確的體系.20世紀90年代,Itti等[3]提出獲取初級視覺特征,得到高斯金字塔,并且通過中心-鄰域算子建立模型得到結(jié)果圖.此模型帶來了深遠的影響,部分學(xué)者之后在此模型的基礎(chǔ)上進行了改進.Bruce等[4]探索了一種信息理論方法,利用圖像中的局部顯著性信息來預(yù)測人的注意力分配點. Oliva等[5]對于整個場景中的局部特性進行統(tǒng)計,采用場景中的稀疏性作為顯著性研究的一個關(guān)鍵因素.Vig等[6]提出了一種通過在不同的特征生成模型配置上執(zhí)行大規(guī)模搜索來獲得最優(yōu)特征的方法.
2012年以來,隨著深度學(xué)習(xí)的發(fā)展,有學(xué)者研究將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)用于圖像人眼視覺關(guān)注的預(yù)測,CNN是一種深度前饋人工神經(jīng)網(wǎng)絡(luò),在圖像分類、分割、識別上取得了重大的進展[7].Liu等[8]提出了多分辨率CNN網(wǎng)絡(luò)模型,以每一個像素點作為中心進行模型訓(xùn)練,以特定的比例對圖像補丁進行分類以獲得顯著性信息.但存在開銷過大和計算效率低下等問題.在文獻[9-10]中,有學(xué)者提出了雙層的卷積網(wǎng)絡(luò)用于特征訓(xùn)練,實現(xiàn)視頻對象的分割.全卷積網(wǎng)絡(luò)是 CNN的延伸,沒有全連接層從而大大減少了網(wǎng)絡(luò)參數(shù),提高了處理速度,在圖像顯著性檢測方面取得了較好的結(jié)果[11].
綜上所述,在視頻人眼視覺關(guān)注預(yù)測中已經(jīng)有了相關(guān)研究工作,但是當前方法依然存在著一些問題,主要表現(xiàn)在:當前預(yù)測算法大多基于靜態(tài)圖像開發(fā),直接移植到視頻中進行分析時忽略了視頻中包含的時間運動信息[12];當前全卷積網(wǎng)絡(luò)模型的輸出結(jié)果由于上采樣操作存在邊界模糊、精確度不足的問題[13].
針對當前研究中存在的問題,本文提出了一種基于時間-空間特征的全卷積網(wǎng)絡(luò)模型用于視頻人眼關(guān)注的預(yù)測.首先使用全卷積網(wǎng)絡(luò)提取單個視頻幀圖像中的顯著信息作為空間特征,同時使用光流提取相鄰幀之間的目標運動信息作為時間運動特征,共同形成空間-時間特征,有效彌補了當前研究中時間運動信息體現(xiàn)不明顯的問題,同時使用長短期記憶網(wǎng)絡(luò)逐層分析當前幀與其前 6幀的空間-時間特征,進一步增強視頻序列中的時間運動信息.使用 INB和 IVB兩個人眼關(guān)注視頻數(shù)據(jù)庫進行實驗,以地球移動距離、受試者工作特征曲線下面積、標準化掃描路徑顯著性、線性相關(guān)性等 4個參數(shù)作為性能評估標準,驗證本文方法的準確性.
全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)當前被廣泛地應(yīng)用于圖像分割、目標檢測等方面,其在顯著性標記和視覺關(guān)注點檢測等方面取得了較好的結(jié)果.全卷積神經(jīng)網(wǎng)絡(luò)將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的全連接層轉(zhuǎn)化成多個卷積層,并通過反卷積和上采樣來獲取與輸入相同大小的結(jié)果輸出[14].因此本文對視頻中的單幀圖像采用全卷積神經(jīng)網(wǎng)絡(luò)計算其圖像的空間特征.
圖 1顯示了本文所用全卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù).針對單幀視頻圖像的處理過程與已訓(xùn)練優(yōu)化的VGG-M模型結(jié)構(gòu)類似[15]的特點,輸入層為原始視頻幀圖像,大小為 640×360×3,經(jīng)過第一層卷積操作(卷積核為 7×7×96)之后,再經(jīng)過局部響應(yīng)歸一化(local response normalization,LRN)后,輸入到大小為 3×3、步長為 2的最大池化層中,得到處理結(jié)果.然后將其輸入到第二層卷積層(卷積核為 5×5×256),第二層最大池化層(大小為 3×3,步長為 2)中,繼續(xù)進行卷積操作,各個卷積核大小如圖 1中卷積層 3~8所示,得到視頻幀經(jīng)過卷積操作之后的結(jié)果,值得注意的是除了最后一個卷積層,其余的每一個卷積層后緊臨一個整流線性單元(rectified linear unit,ReLU)作為激活函數(shù)進行處理.最后進行反卷積操作,反卷積核大小為 8×8×1,步長為 4,最終得到與輸入視頻幀圖像同樣大小的結(jié)果輸出,能夠反映視頻幀中引起人眼視覺關(guān)注的區(qū)域.
圖1 單視頻幀圖像的全卷積網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure of the FCN in single video frame image
但是全卷積神經(jīng)網(wǎng)絡(luò)由于反卷積操作中的上采樣使得檢測結(jié)果模糊、精細度不足,并且只是在單個視頻幀圖像上進行空間特征提取,忽略了視頻中的時間特征,因此本文使用光流算法計算視頻中相鄰幀之間的光流特征作為運動時間特征,如圖2所示.
光流是目前運動圖像分析的重要方法,能夠獲取圖像中目標運動的變化信息,在目標對象分割、識別、跟蹤等領(lǐng)域有著非常重要的應(yīng)用.根據(jù)人眼視覺關(guān)注規(guī)律,在視頻中,運動的目標物體容易吸引人眼的關(guān)注[16].假設(shè)相鄰兩幀視頻圖像的時刻分別為t和t+Δt,假設(shè)某點在時刻t的灰度值為I(x,y,t),在時刻t+Δt該點運動到了(x+Δx,y+Δy),其灰度值變?yōu)榱薎(x+Δx,y+Δy,t+Δt),在很短的時間間隔 Δt內(nèi)灰度值保持不變,則有
將上式按照泰勒公式展開,得到
在x和y方向,假設(shè)u=dx/dt,v=dy/dt,Ix、Iy和It分別表示I(x,y,t)對x坐標、y坐標和時間t坐標的偏導(dǎo)數(shù),則可以簡寫為
式(3)則為光流約束方程,通過求解可以得到相鄰幀之間的光流場變化.
圖2 針對視頻幀的光流計算Fig.2 Optical flow calculation for video frames
長短期記憶網(wǎng)絡(luò)(long short term memory,LSTM)是一種時間遞歸神經(jīng)網(wǎng)絡(luò),適合于處理和預(yù)測時間序列中間隔和延遲相對較長的重要事件.LSTM解決了梯度消失問題從而解決了在時序問題中存在的上下文長依賴問題.LSTM的每個單元中有輸入門限、遺忘門限和輸出門限,通過門控機制,單元中可以保持一段時間的信息,并在訓(xùn)練時保持內(nèi)部梯度不受干擾[17].
二是著力加強農(nóng)業(yè)生產(chǎn)環(huán)節(jié)管理。實行分公司、生產(chǎn)區(qū)、大隊三級管理模式,不斷提高農(nóng)業(yè)管理精細化程度,提高農(nóng)技人員隊伍素質(zhì);建立與現(xiàn)代農(nóng)業(yè)發(fā)展相配套的農(nóng)機管理體系,采取國有農(nóng)機總站與民營農(nóng)機相結(jié)合的管理模式,高起點、高標準發(fā)展國有農(nóng)機和民營農(nóng)機。
本文方法使用LSTM依次分析上述得到的時間-空間特征信息,得到一定時間間隔內(nèi)的人眼視覺關(guān)注結(jié)果.
圖 3顯示了本文提出的基于時-空特征的全卷積網(wǎng)絡(luò)模型方法.由視覺殘差機制可知,人眼在觀察某幀視頻圖像后,該幀圖像會在視網(wǎng)膜上停留一定時間,本文設(shè)定停留時間為 7幀視頻圖像,并提取該 7幀視頻圖像的時-空特征進行顯著性預(yù)測.從圖 3中可以看出,本文方法通過全卷積網(wǎng)絡(luò)提取了視頻中第i幀和其前 6幀的空間全卷積網(wǎng)絡(luò)特征.同時使用光流算法提取了第i幀的時間運動特征,再逐層通過LSTM對空間特征和時間特征進行計算融合,得到最終的人眼關(guān)注顯著圖.
圖3 基于時-空特征的全卷積網(wǎng)絡(luò)模型結(jié)構(gòu)Fig. 3 FCN model structure based on spatial-temporal features
本文實驗采用的是公開的視頻數(shù)據(jù)庫 Lübeck INB[18]和 IVB[19].Lübeck INB 視頻數(shù)據(jù)庫中包含了18個時長為 20s的視頻片段,大部分是在固定鏡頭下拍攝的自然場景.IVB視頻數(shù)據(jù)庫中包含了 12個時長為6~12s的視頻片段.具體的描述如表1所示.
表1 本文使用的視頻數(shù)據(jù)庫基本信息Tab.1 Basic information of the video database
為了評估本文方法的準確性,還需要得到視頻數(shù)據(jù)庫中的人眼關(guān)注區(qū)域標準圖.本文所用視頻數(shù)據(jù)庫同時還通過專業(yè)儀器獨立記錄了不同受試觀察者在觀看每一幀視頻時其人眼所在的位置坐標.IVB視頻數(shù)據(jù)庫記錄了15個觀察者在觀看視頻時的人眼關(guān)注點變化.INB視頻數(shù)據(jù)庫中人眼關(guān)注點的變化則由54位觀察者進行標注.
視頻中人眼關(guān)注顯著區(qū)域的標準圖計算公式為[20]
式中:Gk(g)為第k幀的人眼關(guān)注圖G中的像素點;p ∈ [1,O],O表示視頻數(shù)據(jù)庫人眼關(guān)注度的觀察者人數(shù);gp=(x, y, t)表示第p個觀察者的關(guān)注點;σ、kxσy、σt分別為 3D 高斯核在x、y、t方向上的標準偏差數(shù)值,其中σx、σy都為圖像寬度的 0.01,σt為130ms.經(jīng)過該 3D高斯核的處理,所得到的人眼關(guān)注顯著區(qū)域的標準圖較符合人眼視覺特點.
假設(shè)通過不同觀察者的實際關(guān)注點數(shù)據(jù)計算得到的視頻關(guān)注圖作為標準值G,將經(jīng)過本文方法預(yù)測得到的視頻人眼關(guān)注圖記為預(yù)測值P,則本文使用地球移動距離、受試者工作特征曲線下面積,標準化掃描路徑顯著性、線性相關(guān)性作為評價指標進行模型的性能評價.
地球移動距離(earth mover's distance,EMD)是在某一區(qū)域兩個概率分布距離的度量.通過計算EMD,能夠獲取將預(yù)測得到的顯著圖P的概率分布轉(zhuǎn)換為標準顯著圖G的概率分布所需的最小成本.因此,EMD 數(shù)值越小,表示兩幅顯著圖的概率分布越接近.
受試者工作特征曲線下面積(area under receiver operating characteristic,AUC)是在顯著圖性能評估中使用最廣泛的評估標準.通過改變預(yù)測顯著圖中的分類閾值,將其與真實顯著圖對比得到真正類和假負類形成的受試者工作特征曲線(receiver operating characteristic,ROC),ROC 曲線與橫縱坐標所形成的圖像面積即為 AUC.通過定義可知,AUC為 0表示命中率為0,預(yù)測結(jié)果完全錯誤,AUC為1表示命中率為1.
標準化掃描路徑顯著性(normalized scanpath saliency,NSS)是 Peters等[21]為顯著圖評估特別引入的度量,通過計算預(yù)測顯著圖(具有零均值和單位標準偏差)中人眼固定點位置對應(yīng)的顯著性平均值來定義.
線性相關(guān)性(linear correlation coefficient,CC)通過計算預(yù)測顯著圖與標準顯著圖之間的線性相關(guān)性進行性能評估,其中線性相關(guān)性越接近 1,表示兩幅顯著圖之間的相關(guān)性越高.
本文實驗共使用了INB和IVB兩個數(shù)據(jù)庫,隨機選取每個視頻數(shù)據(jù)庫中的 80%的片段作為訓(xùn)練集進行模型的訓(xùn)練,剩余的 20%作為測試集進行交叉驗證測試本文方法的準確性.
在全卷積網(wǎng)絡(luò)模型中,訓(xùn)練的迭代數(shù)值為200k,初始的學(xué)習(xí)率為 10-7,動量為 0.9,權(quán)值衰減為0.0005.實驗硬件環(huán)境為 3.4GHz CPU,32G 內(nèi)存,TITANX GPU.
本文選取了 5種常用的人眼關(guān)注點顯著性檢測算法作為對比實驗,分別為 GBVS[22]、Rahtu[23]、SR[24]、MLSN[25]、MCDL[26].所得到的結(jié)果如表 2~表5所示.
GBVS通過模擬視覺原理提取特征,在顯著圖的生成過程中引入馬爾可夫鏈計算顯著值,是一種較為適合處理自然圖像的方法.Rahtu是一種結(jié)合條件隨機場模型進行顯著性計算的方法.通過局部特征中的光照、顏色、運動信息等的對比進行統(tǒng)計計算,從而得到顯著性區(qū)域分割.SR是一個靜態(tài)和時空顯著性統(tǒng)一計算的框架,通過計算給定圖像或視頻的局部回歸核自下而上的實現(xiàn)顯著性檢測的算法.MLSN通過直接從自然圖像中學(xué)習(xí)并自動將更高級別的語義信息以可擴展的方式結(jié)合到模型中進行計算.MCDL建立以一個多層語義特征的深度學(xué)習(xí)框架進行顯著性檢測.將全局信息和局部信息同時輸入到一個統(tǒng)一的基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)框架中.
表 2~表 5顯示了本文方法與 5種對比方法的結(jié)果數(shù)值,本文方法在兩個視頻數(shù)據(jù)庫 INB和 IVB中的 EMD、AUC、NSS、CC 評價標準結(jié)果分別為0.3751、0.8186、2.0241、0.7457 和 0.4137、0.7856、1.9645、0.7349,要優(yōu)于 5種對比算法.這是因為本文方法綜合考慮了視頻人眼關(guān)注顯著性檢測的特點,以 FCN提取視頻中的顯著性區(qū)域,以相鄰幀的光流特征作為運動特征進行補充,同時計算其前若干幀特征進行 LSTM 計算,得到最終的人眼關(guān)注區(qū)域顯著圖.
圖 4顯示了所用數(shù)據(jù)庫中視頻幀的人眼關(guān)注區(qū)域顯著圖預(yù)測結(jié)果.在每個數(shù)據(jù)庫中隨機選取了 2個不同的視頻片段中的兩個視頻幀圖像進行結(jié)果顯示.圖中使用不同顏色(熱度圖)標注了預(yù)測得到的人眼關(guān)注區(qū)域,其中紅色區(qū)域表示人眼關(guān)注度更高,黃色藍色以此遞減.第1行是視頻幀的圖像,第2行為經(jīng)過計算得到的標準顯著圖,第3行表示本文方法得到的結(jié)果,剩余行分別為對比算法的結(jié)果.從其中第1列的結(jié)果中可以看出,本文算法的計算結(jié)果顯著性區(qū)域更加精確,位置更加集中,而其他方法中,預(yù)測的顯著區(qū)域范圍較大、分布較廣,結(jié)果精確度較低.從而證明本文方法在進行視頻人眼關(guān)注區(qū)域預(yù)測中的準確性與實用性.
表2 使用不同預(yù)測模型進行人眼視覺關(guān)注點預(yù)測的EMD結(jié)果Tab.2 EMD of various models for the prediction of eye movements on the eye tracking datasets
表3 使用不同預(yù)測模型進行人眼視覺關(guān)注點預(yù)測的AUC結(jié)果Tab.3 AUC of various models for the prediction of eye movements on the eye tracking datasets
表4 使用不同預(yù)測模型進行人眼視覺關(guān)注點預(yù)測的NSS結(jié)果Tab.4 NSS of various models for the prediction of eye movements on the eye tracking datasets
表5 使用不同預(yù)測模型進行人眼視覺關(guān)注點預(yù)測的CC結(jié)果Tab.5 CC of various models for the prediction of eye movements on the eye tracking datasets
圖4 本文方法和對比方法的人眼關(guān)注區(qū)域的預(yù)測結(jié)果Fig. 4 Prediction results of the human eye fixation for the method and the comparative methods in this paper
本文提出一種基于時空特征的深度學(xué)習(xí)模型進行視頻中人眼關(guān)注區(qū)域的預(yù)測.首先,全卷積神經(jīng)網(wǎng)絡(luò)用于提取視頻幀中的底層信息作為空間特征,光流算法用于提取相鄰幀之間的運動特征,然后通過LSTM 綜合計算當前 7幀的時空特征得到最終的人眼關(guān)注區(qū)域預(yù)測圖.實驗結(jié)果表明,本文方法預(yù)測得到的人眼視覺關(guān)注區(qū)域較準確,能夠在視頻自動處理與分析中提供幫助.
但是本文方法依然存在著一些問題,比如適用的視頻場景較簡單、無鏡頭切換等,計算開銷和成本較大.在未來的工作中,筆者將考慮視頻中場景復(fù)雜、切換頻繁的特點,繼續(xù)優(yōu)化本文方法,同時降低參數(shù)規(guī)模,加快計算的速度.