蔡澤民,廖小鑫,賴劍煌,陳軍
1.汕頭大學(xué)工學(xué)院電子系,汕頭 515063;2.廣東省數(shù)字信號與圖像處理技術(shù)重點實驗室,汕頭 515063;3.中山大學(xué)計算機學(xué)院,廣州 510006;4.機器智能與先進計算教育部重點實驗室,廣州 510006;5.佛山科學(xué)技術(shù)學(xué)院工業(yè)設(shè)計與陶瓷藝術(shù)學(xué)院,佛山 528000
光流估計作為計算機視覺的一個重要研究方向,在人群運動分割(Liu 等,2020b)、物體跟蹤(You等,2021)、視頻動作識別(Solmaz等,2012)和流體運動估計(邵緒強 等,2021)等方面有著廣泛應(yīng)用。盡管光流在計算機視覺領(lǐng)域受到了研究者的關(guān)注,但復(fù)雜背景條件下精確估計光流仍然存在許多挑戰(zhàn)(張聰炫 等,2017)。本文提出一種基于STAR(structure-texture aware retinex)解耦的光流估計方法。首先采用結(jié)構(gòu)紋理感知的Retinex 模型(STAR)將圖像中的光照分量與反射分量分離。圖1 是STARFlow 解耦過程的可視化結(jié)果,其表明STAR 圖像解耦能在不影響結(jié)構(gòu)細節(jié)情況下顯著降低原視頻幀的光照變化,與Wedel 等人(2009)提出的結(jié)構(gòu)紋理分解方法相比,STAR解耦結(jié)果包含更豐富的細節(jié)信息,有助于提高光流計算的魯棒性。為了在計算光流時保持良好的運動邊緣,使用L0梯度最小化對模型進行平滑稀疏約束,以全局約束速度場分量非零元個數(shù)。此外,本文給出了求解新模型STARFlow的數(shù)值解法。在3 個具有挑戰(zhàn)性的公開數(shù)據(jù)集上所進行的評估,驗證了STARFlow方法優(yōu)于眾多基于變分框架及基于深度學(xué)習(xí)框架的光流估計方法。為了驗證STARFlow 方法在生物特征識別應(yīng)用上的有效性,本文通過STARFlow 提取臉部運動光流特征,在CASIA(Institute of Automation,Chinese Academy of Sciences)人臉反欺詐數(shù)據(jù)集上進行了人臉活體檢測實驗,實驗結(jié)果進一步驗證了本文方法在不同光照條件下具有良好的魯棒性,更適合于人臉活體檢測應(yīng)用。
圖1 圖像解耦結(jié)果Fig.1 Image decoupling ((a)two consecutive frames in alley_2 (clean set)of MPI Sintel dataset;(b)visualization results obtained by the structure-texture method proposed by Wedel et al.(2019);(c)visualization results obtained by the STAR decoupling method)
本文基于圖像序列STAR 解耦,采用L0 平滑稀疏約束,建立起復(fù)雜環(huán)境下魯棒光流估計模型STARFlow,保留了更多的運動細節(jié),并給出了模型求解方法。
近年來,大多數(shù)光流計算方法致力于在理想條件下提高光流估計精度(付婧祎 等,2021)。然而,連續(xù)圖像間的光照變化可能非常復(fù)雜,在許多實際應(yīng)用場景中,光流估計仍然面臨重大挑戰(zhàn)。為了提高光流計算對光照變化的魯棒性,研究人員付出了很多努力。Brox等人(2004)采用亮度梯度恒常性假設(shè)作為變分模型的數(shù)據(jù)項約束,取代了眾所周知的亮度恒定假設(shè)。同時,采用了由粗到細的流動扭曲技術(shù),獲得了高精度的光流場。然而,無論是亮度恒定假設(shè)還是亮度梯度恒定假設(shè)都無法準確建模光照變化,使得光流計算總是對光照變化敏感。Zimmer等人(2011)開發(fā)了一個補充框架,將數(shù)據(jù)項和正則化項中的可用信息結(jié)合起來。為了實現(xiàn)對光照變化和異常值的魯棒性,模型在HSV(hue,saturation,value)顏色空間中采用了約束歸一化和高階恒定假設(shè)。Molnár等人(2010)提出了一種基于歸一化互相關(guān)變換(cross-correlation transform,CT)的變分方案,適用于彩色和灰度序列。在此之后,Drulea 和Nedevschi(2013)提出了一種快速且可并行化的基于塊的最小化方法,使用零均值歸一化互相關(guān)作為塊之間的匹配成本。Fang 等人(2013)為塊匹配方法引入了正負投票策略。結(jié)果表明,與亮度恒常性假設(shè)相比,基于CT 的塊匹配方法對光照變化更具魯棒性。Chen 等人(2018)提出的基于Split-Bregman的光流模型在處理光照變化時沿用了Drulea 和Nedevschi(2013)提出的零均值歸一化互相關(guān)方法。然而,基于互相關(guān)的光流方法僅在每一個圖像塊周圍環(huán)境和中心像素之間具有相同的局部概率信息。韋伯定律可以應(yīng)用于各種感覺模式(亮度、響度等),在此基礎(chǔ)上,Mei 等人(2020)給出一種高效的全變分光流方法,稱為加權(quán)正則化變換(weighted regularization transform,WRT),該方法優(yōu)化了韋伯定律,以在光照變化條件下提供魯棒的光流估計。然而,傳統(tǒng)的基于塊的數(shù)據(jù)項,包括人口普查變換(census transform,CT),由于其局部表面的強烈變化,導(dǎo)致無法處理尺度變化。
對連續(xù)兩幀圖像的預(yù)處理也為提高光流估計的魯棒性提供了思路。Mileva 等人(2007)通過圖像歸一化、對數(shù)導(dǎo)數(shù)和顏色空間轉(zhuǎn)換獲得了光流計算中的光照不變量,采用Brox 等人(2004)提出的變分框架,提高了光流估計精度,但計算復(fù)雜度高。Wedel等人(2009)提出了一種圖像分解方法,以消除光流估計中光照變化的影響,雖然該方法對光照變化具有魯棒性,但由于圖像分解中的信息丟失,其精度性能(如平均端點誤差(end-point error,EPE)和平均角誤差(average angle error,AAE))不夠好。Kumar 等人(2013)提出了另一種解耦方法,以提高光流對不均勻光照的適應(yīng)性。在計算光流時,將反射率和光照分量從圖像亮度中分離出來,并結(jié)合了更優(yōu)的反射率恒定性假設(shè)。然而,該方法并未將圖像中的光照分量完全分離,反射分量中仍包含許多光照變化成分,導(dǎo)致模型在處理明顯光照變化時魯棒性不佳。
由于模型固有的不適定性,計算光流時通常需要正則化處理。在局部處理方法中,如Lucas-Kanade 所提出的,正則化是通過施加局部運動模式(恒定運動、仿射變換等)隱式實現(xiàn)的。在全局技術(shù)中,Horn 和Schunck(1981)所提出的稠密光流,通過使用顯式Tikhonov正則化來增強目標運動場的全局平滑性。Tikhonov 正則化通常使用L2 范數(shù),并通過保持小振幅系數(shù)均勻分布使其最小化,從而在光流計算中捕獲全局模式。與L2 范數(shù)不同,L1 范數(shù)的最小化傾向于產(chǎn)生許多零系數(shù)或小振幅系數(shù),而很少產(chǎn)生大振幅系數(shù)。對于離散信號,L1范數(shù)比L2范數(shù)能得到更好的結(jié)果。Bruhn 和Weickert(2005)提出一種新方案,通過使用L1 范數(shù)代替L2 范數(shù)來提高光流估計的精度,并獲得了實時性能?,F(xiàn)有變分光流模型在處理正則化問題時仍然采用傳統(tǒng)的L1范數(shù)和L2 范數(shù)。圖2 是Middlebury 數(shù)據(jù)集中的Grove3 序列的光流可視化結(jié)果。其中,圖2(b)為基于L2 范數(shù)正則化的H&S 方法估計結(jié)果,圖2(c)為基于L1范數(shù)正則化的TV_L1方法計算結(jié)果,圖2(d)為基于L0 范數(shù)正則化的STARFlow 光流計算結(jié)果。使用L1 或L2 范數(shù)正則化可以產(chǎn)生平滑流場并保持運動非連續(xù)性。然而,如圖2(b)(c)所示,計算結(jié)果丟失了精細尺度的運動結(jié)構(gòu)并產(chǎn)生過多的分割偽影。
圖2 Middlebury數(shù)據(jù)集上Grove3序列的光流可視化結(jié)果Fig.2 Optical flow visualization results of Grove3 sequence on Middlebury dataset((a)ground-truth;(b)H&S;(c)TV_L1;(d)STARFlow)
本文方法在計算光流時,不是直接依賴亮度恒常性假設(shè),而是采用結(jié)構(gòu)紋理感知Retinex 模型,將圖像亮度解耦成反射和光照分量,從而可單獨執(zhí)行反射或光照恒常性假設(shè)。
Retinex 模型用于建立人類視覺系統(tǒng)的顏色感知模擬(Land,1977),其物理目標是將觀測圖像分解為光照和反射分量,該模型可表示為
式中,L表示場景的光照分量,R代表場景的表面反射分量,⊙表示矩陣點乘。然而,Retinex 解耦問題是高度不適定的,還需增加適當(dāng)?shù)墓庹蘸头瓷湎闰瀬碚齽t化解空間。定性地說,光照成分應(yīng)該是分段平滑的,其捕捉的是場景中對象的結(jié)構(gòu);而反射分量主要呈現(xiàn)觀察場景的物理特征,負責(zé)捕捉紋理信息(Wei 等,2009)。為了獲取圖像的結(jié)構(gòu)紋理信息,引入平均局部方差濾波器(mean of least variance,MLV)(Cai等,2017),該濾波器可表示為
式中,Ω表示對應(yīng)I中每個像素鄰域的局部塊(Danon等,2019)。|Ω|表示Ω中的元素個數(shù)。由于式(2)描述的MLV 濾波器更傾向于捕捉結(jié)構(gòu)信息,因此不能直接應(yīng)用于Retinex 解耦。如Retinex 理論所述,較大的導(dǎo)數(shù)歸因于反射率的變化,而較小的導(dǎo)數(shù)則出現(xiàn)在平滑光照中。因此,考慮引入一種指數(shù)形式的局部導(dǎo)數(shù),用于靈活調(diào)控結(jié)構(gòu)和紋理估計。具體而言,通過控制指數(shù)的增長或衰減,使局部導(dǎo)數(shù)能更清楚地反映相應(yīng)的內(nèi)容結(jié)構(gòu)或詳細紋理,從而能更靈活地應(yīng)用于結(jié)構(gòu)和紋理解耦(Xu 等,2020)。指數(shù)化平均局部方差濾波器(exponential mean of least variance,EMLV)可表示為
式中,γ是用于控制圖像I的梯度敏感度指數(shù)。通過對指數(shù)γ的分析,當(dāng)γ= 0.5時,EMLV濾波器能更好地顯示圖像紋理,而當(dāng)γ≥1 時,EMLV 濾波器更傾向于提取結(jié)構(gòu)邊緣?;谏鲜鲇^察,得到一種初始化方案,即設(shè)置L0=R0=I0.5,同時建立相應(yīng)的加權(quán)矩陣
式中,γδ>1,γt<1 用于調(diào)節(jié)光照和反射解耦時的結(jié)構(gòu)和紋理感知,?表示點除運算,ε為常數(shù),本文ε= 0.001。由此得到一種基于結(jié)構(gòu)紋理感知的Retinex 圖像解耦模型(structure-texture aware retinex,STAR),其能量泛函可表示為
式中,S0和T0是式(4)(5)中定義的加權(quán)矩陣,分別表示光照分量的結(jié)構(gòu)圖和反射分量的紋理圖。φ和ψ是比例系數(shù),用于調(diào)節(jié)數(shù)據(jù)項和正則化項之間的比重。式(6)中的目標函數(shù)涉及光照變量L和反射變量R,它們是可分離的,且分離后的子問題是凸問題,考慮采用交替求解的方式。記Lk和Rk為第k次迭代時得到的光照和反射分量,K代表最大迭代次數(shù),則變量Lk和Rk的更新方式如下:
1)固定R,更新L。
在第k+ 1 次迭代時,關(guān)于L的優(yōu)化問題可表示為
為了求解問題(7),考慮將方程矢量化。為此,使 用 矢 量 化 操 作 符vec( ·),定 義i=vec(I),l=vec(L),rk=vec(Rk),s0=vec(S0)。將具有前向差分離散梯度算子的Toeplitz 矩陣記作G,則Gl=vec(?L)。記Drk= diag(rk)和Ds0= diag(s0)分別表示以rk和s0為主對角線的矩陣,則問題(7)可轉(zhuǎn)化為標準最小二乘回歸問題,即
通過對式(8)求關(guān)于l的導(dǎo)數(shù),并將導(dǎo)數(shù)值置為0,可得到相應(yīng)的解為
最后,將式(9)逆矢量化,得到相應(yīng)的矩陣形式解為Lk+1=vec-1(lk+1)。
2)固定L,更新R。
由式(7)獲得Lk+1后,可類似得到關(guān)于R的優(yōu)化問題
近似地,可將問題(10)重新表述為矢量化格式,記r=vec(R),t0=vec(T0),Gr=vec(?R),Dlk=diag(lk+1)以及Dt0= diag(t0),則問題(10)轉(zhuǎn)化為一個標準最小二乘回歸問題,即
同樣,通過對r求導(dǎo)并置為0,可得到相應(yīng)的極值解,即
將式(12)逆矢量化,得到相應(yīng)的矩陣形式解Rk+1=vec-1(rk+1)。
由于目標函數(shù)(6)是凸函數(shù),具有全局最優(yōu)解,因此上述算法是收斂的。
Horn 和Schunck(1981)提出的H&S 光流是經(jīng)典的光流估計算法,常作為初始光流。該方法基于亮度恒常性假設(shè),表達式為
式中,I(x,y,t)表示t時刻(x,y)處的亮度值,(dx,dy)是連續(xù)圖像幀同一像素點的位移矢量。為了后續(xù)表示 方 便,將 上 述 向 量 分 別 記 做x=(x,y,t),f=(dx,dy,dt) =(u,v,τ),u為水平方向速度,v為垂直方向速度,τ為兩個連續(xù)幀之間的時間間隔。則式(13)可表示為
為使估計誤差最小化,采用平滑約束項對光流場進行局部約束,并將光流估計問題轉(zhuǎn)化為能量泛函最小化問題。記H&S 光流法的數(shù)據(jù)項為E′data,用于懲罰偏離亮度恒常性假設(shè)的情況,則相應(yīng)的表達式為
式中,Ω表示圖像計算域。
由式(15)兩邊取對數(shù),可得
將解耦操作(式(1))作用于式(16)兩邊,有
該表達式有效分解了光流計算中的反射與光照成分,從而可以分別懲罰與反射恒常性假設(shè)和光照恒常性假設(shè)相關(guān)的偏差。由于反射成分不受光照變化影響,相對于光照恒常性,反射恒常性假設(shè)應(yīng)當(dāng)?shù)玫礁浞值谋U希蕴岣吖饬鲗庹兆兓聂敯粜?。因此,在進行光流估計時,反射和光照分量按一定比例融合,其中反射分量應(yīng)占主導(dǎo)。相應(yīng)的加權(quán)表達式為
式中,ξ控制著反射恒常性假設(shè)與光照恒常性假設(shè)的相關(guān)偏差。
更進一步地,采用濾波方式提取光照分量中的有用信息,相應(yīng)的濾波操作可表示為
式中,L表示經(jīng)濾波后的目標圖像,L′代表濾波前的原圖像分量,F(xiàn)l是5 × 5 的低通濾波器。由此,經(jīng)過加權(quán)和濾波處理后的數(shù)據(jù)項可表示為
將式(20)中與反射恒常性假設(shè)和光照恒常性假設(shè)相關(guān)的偏差懲罰項進行泰勒展開,可得
因此,有
式中,Lx,Ly,Lt分別表示濾波后光照分量L對x,y,t的偏導(dǎo),而Rx,Ry和Rt分別代表反射分量R對x,y,t的偏導(dǎo)。u和v分別表示圖像像素點的水平速度分量和垂直速度分量。由式(22)整理得到新的光流約束方程,可表示為
由此,得到最終的模型數(shù)據(jù)項為
為了光流計算時能保持良好的運動邊緣,受Xu等人(2011)優(yōu)化框架的啟發(fā),采用L0 梯度最小化方式對光流場進行平滑處理,正則化項可表示為
式 中,?u=[?xu,?yu]T,?v=[?xv,?yv]T?!??u‖0和‖ ?v‖0分別為二元函數(shù),定義為
則式(25)中圖像域Ω內(nèi)L0范數(shù)度量可表示為
式中,#表示計數(shù)運算符,式(28)(29)度量的是光流場水平分量u和垂直分量v的非零梯度個數(shù)。up和vp分別代表u和v分量在像素點p位置的水平和垂直梯度。
顯然,當(dāng)連續(xù)幀之間存在一些大的差異時,例如第1幀某些區(qū)域存在非零梯度值,而第2幀相應(yīng)區(qū)域梯度為零,此時光流場梯度應(yīng)具有稀疏性?;诖?,本文提出了一種新的正則化函數(shù),通過梯度L0 范數(shù)對模型進行平滑約束。采用稀疏梯度計數(shù)方式,可約束非零流動梯度的數(shù)量,以恢復(fù)重要的運動結(jié)構(gòu)。
為了從式(23)求解獲得光流場(u,v),可最小化STARFlow模型,具體為
式中,α用于調(diào)節(jié)數(shù)據(jù)項和平滑項之間的比例關(guān)系。該能量泛函采用L1 范數(shù)度量數(shù)據(jù)項的懲罰以處理光流場異常值,正則化項則使用L0范數(shù)作為平滑—稀疏約束。
為了優(yōu)化數(shù)據(jù)項,在原數(shù)據(jù)項中引入一度量輸出(u,v)與初始光流(u0,v0)之間差異的二次懲罰函數(shù),以保證它們的相似性,即
為了最小化式(31),依據(jù)式(32)(33),引入帶卷積操作的迭代式,具體為
式中,θ是SOR因子,通常設(shè)置為θ= 1。
為了約束輸出光流場(u,v)與(un,vn)之差,考慮如下優(yōu)化問題
式中,N1和N2分別約束分量u和v的非零梯度數(shù)量。通過引入加權(quán)系數(shù)η,式(38)和(39)可聯(lián)立為
式(40)采用離散計數(shù)方案并以統(tǒng)計方式模擬全局不連續(xù)性,傳統(tǒng)離散方法(如梯度下降法)難以解決該優(yōu)化問題??紤]采用間接方法求解并保留模型屬性。引入輔助變量p=[pu,pv]T和q=[qu,qv]T并采用二次懲罰函數(shù)來度量光流梯度(?u,?v)與輔助變量(p,q)之間的差異,可得
式中,λ是比例系數(shù),輔助變量(p,q)與光流梯度(?u,?v)之間的相似性可通過λ調(diào)節(jié)。
為了估計式(41)(42)中的4 個未知量,并最終獲得光流場(u,v),設(shè)計了兩階段算法,具體如下:
階段1)假設(shè)u,v已知,求解p與q。
由式(41)(42),有
為方便起見,根據(jù)u和v的梯度,令其中一項非負積分為0,則第k次迭代的基本可行解(p,q)為
階段2)p,q已知。式(41)(42)轉(zhuǎn)化為二次函數(shù)最小化問題,即
其離散歐拉—拉格朗日方程可表示為
式中,Δ是拉普拉斯算子,?·表示散度。采用快速傅里葉變換(fast Fourier transform,F(xiàn)FT)作用于方程兩側(cè),在重新整理排列后可得到光流場計算公式
式 中,F(xiàn)(·)是FFT 算 子,F(xiàn)*表 示F 的 復(fù) 合 共 軛,F(xiàn)-1(·)代表逆變換。算法的總體框架如圖3所示。
圖3 算法總體框架Fig.3 Overview of the proposed method
實驗在3 個主流數(shù)據(jù)集上進行,分別是Middlebury 光流數(shù)據(jù)集(Baker 等,2011))、KITTI flow 2015光流數(shù)據(jù)集(Geiger 等,2013)以及MPI Sintel 數(shù)據(jù)集(Butler 等,2012),以驗證光流估計精度,尤其是對光照變化的魯棒性。實驗將本文方法與其他基于全變分框架的光流方法進行比較,并在具有挑戰(zhàn)性的KITTI 數(shù)據(jù)集上與部分基于深度學(xué)習(xí)框架的光流估計算法進行對比分析。
Middlebury 數(shù)據(jù)集由兩組圖像序列組成。訓(xùn)練集僅包含8 對具有g(shù)round-truth 的圖像對,而測試集是12 對ground-truth 不公開的圖像對,以供在線評測。Middlebury 數(shù)據(jù)集中所有序列的位移都比較小,通常低于10 像素。因此,本文方法可以在不進行空間金字塔運算的情況下對光流估計的準確性進行評估。本文方法的Middlebury 在線評估結(jié)果可在網(wǎng)站https://vision.middlebury.edu/flow/eval/resultsxiaoxin-liao/results-e1.php 查詢,本文方法取得了具有競爭力的排名。圖4 顯示了來自Middlebury 訓(xùn)練集中一些具有復(fù)雜紋理圖像對的光流可視化結(jié)果,從上至下依次是Grove2、RubberWhale、Dimetrodon、Urban2和Venus序列。圖4(a)是各序列對應(yīng)的原始幀,圖4(b)是相應(yīng)的光流場真值,圖4(c)是本文方法得到的光流場。從圖4 可以看出,本文方法對于包含隱藏紋理的樣本同樣具有魯棒性。
圖4 Middlebury訓(xùn)練集光流可視化結(jié)果Fig.4 Visuallizations of estimated optical flow from Middlebury dataset ((a)original images;(b)ground-truth;(c)ours)
Middlebury 數(shù)據(jù)集是在穩(wěn)定光照條件下生成的。為了使用Middlebury 數(shù)據(jù)集驗證模型的光照魯棒性,考慮對原始圖像進行光照合成。
給定與原圖像I大小相同的光照核f,則合成光照圖像Ir滿足
式中,s是圖像中像素的2維坐標向量,Q=(1 -ω) +是f的加權(quán)核,通過比例參數(shù)ω控制光照強度。實驗分別采用線性、正弦、高斯和混合高斯的光照模式渲染圖像。例如,通過合成第2 幀圖像的高斯光照成分使前后幀產(chǎn)生明顯光照變化。即
式中,jc表示光照區(qū)域的中心,I是原圖像,Ir代表渲染結(jié)果。提供Guassian 光照核,其高亮顯示了原圖像中jc中心周圍的局部區(qū)域。
合成光照實驗結(jié)果如圖5所示。其中,第2列是Middlebury 訓(xùn)練集上RubberWhale 序列第2 幀的合成光照圖像,第4—8 列是本文方法和其他4 種常見方法在不同合成光照變化條件下獲得的光流場可視化對比結(jié)果。從上到下4 行的合成光照模式依次是線性、正弦、高斯和混合高斯(雙核)。從圖5 可見,在不同光照變化條件下,基于解耦的Wedel 等人(2009)方法和Kumar等人(2013)方法所獲光流場嚴重失真,出現(xiàn)大量噪聲,這是由于這兩種方法在解耦時無法將光照分量有效分離。而本文方法可通過結(jié)構(gòu)紋理感知方式將光照分量與反射分量充分分離,具有很好的光照魯棒性,因此可獲得最接近于ground-truth 的光流場。此外,基于互相關(guān)的SBFlow方法和基于塊的WRT 方法雖然也能較準確計算光流,但是會出現(xiàn)零散的噪聲,所恢復(fù)的運動邊緣也存在模糊情況。
圖5 合成光照實驗結(jié)果Fig.5 Optical flow fields from synthtic images with illumination variations ((a)the first frame of RubberWhale sequence;(b)the artificially synthesized image;(c)ground-truth;(d)STARFlow(ours);(e)Wedel et al.(2009);(f)WRT;(g)SBFlow;(h)Kumar et al.(2013))
為了得到更客觀的比較,圖6 給出了在不同光照強度ω取值下這5 種方法在Middlebury 數(shù)據(jù)集上的平均終點誤差(EPE)和平均角度誤差(AAE)演變情況。從圖6 可見,即使光照變化大(ω取值高),本文方法獲得的光流場誤差仍然很低且較穩(wěn)定,這表明STARFlow計算精度高,對光照變化不敏感。
圖6 不同光照變化條件下本文方法和其他4種光流估計方法的誤差演變情況Fig.6 Error evolution of the proposed method and other four advanced illumination robust optical flow estimation methods under different illumination conditions ((a)linear;(b)sine;(c)Gaussian;(d)mixture of Gaussian)
Middlebury 數(shù)據(jù)集在分辨率方面具有良好的質(zhì)量,但該數(shù)據(jù)集僅包含40 幅合成圖像,需要在真實圖像序列上進一步評估算法的性能。
MPI Sintel 數(shù)據(jù)集提供了一個具有挑戰(zhàn)性的評估基準。它包含多個具有大位移和鏡面反射的真實圖像序列。clean和final子集各包含23種不同場景,提供了1 041 個訓(xùn)練圖像對和相應(yīng)的光流場groundtruth。不同光流方法在該數(shù)據(jù)集上的評估結(jié)果如表1 所 示。EPE all(endpoint error over the whole frames)、EPE noc(endpoint error over regions that remain visible in adjacent frames)和EPE occ(endpoint error over regions that are visible only in one of two adjacent frames)分別代表在整個圖像、非遮擋區(qū)域和遮擋區(qū)域計算光流所得的誤差。
表1 不同光流方法在MPI Sintel評估數(shù)據(jù)集上的評估結(jié)果Table 1 Evaluation results of different optical flow methods on MPI Sintel dataset
從表1 可以看出,STARFlow 雖然基于變分思想,更適用于小位移序列,但在該數(shù)據(jù)集下仍然能獲得比其他方法更優(yōu)的估計效果,包括基于深度學(xué)習(xí)框架的FDFlowNet(fast deep flownet)(Kong 和Yang,2020)和PWC-Net(pyramid,warping,and cost volume net)(Sun 等,2018)方法、基于變分框架的WRT(Mei 等,2020)和SBFlow(Chen 等,2018),以及其他基于圖像分解的光流估計方法。
MPI Sintel 數(shù)據(jù)集的cave 3 序列和Perturbed-Shaman 序列的光流可視化結(jié)果如圖7 所示。其中,第1 行是MPI Sintel 數(shù)據(jù)集中的原始圖像,第2 行是相應(yīng)的真實光流場,第3—9 行分別是本文方法(STARFlow)、FDFlowNet、PWC-Net、SBFlow、WRT、Wedel 等 人(2009)的 分 解 方 法 以 及Kumar 等 人(2013)的解耦方法獲得的光流場可視化結(jié)果。從圖7可以看出,基于深度學(xué)習(xí)框架的FDFlowNet 和PWCNet 以及基于變分框架的WRT 和SBFlow 等方法雖然也能較準確計算光流,但所恢復(fù)的運動邊緣模糊,缺少了許多運動細節(jié),這表明當(dāng)前的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)方法不能很好地恢復(fù)小尺度運動結(jié)構(gòu)。而本文提出的STARFlow 方法在保留運動細節(jié)方面表現(xiàn)更出色,恢復(fù)的運動信息更清晰,保持了運動邊緣,獲得了更接近于ground-truth 的光流場。這得益于L0 正則化器的優(yōu)勢,本文方法在恢復(fù)具有高對比度的精細尺度運動結(jié)構(gòu)方面顯著優(yōu)于當(dāng)前最先進的光流計算方法,如圖7 中的紅框標記區(qū)域,其中流動邊緣與groundtruth更加接近。
圖7 MPI Sintel數(shù)據(jù)集光流可視化結(jié)果Fig.7 Visualizations of estimated optical flow fields from MPI Sintel dataset((a)Cave 3 in clean set;(b)Cave 3 in final set;(c)Perturbed-Shaman in clean set;(d)Perturbed-Shaman in final set)
KITTI flow 2015數(shù)據(jù)集由194組圖像序列構(gòu)成,這些圖像序列獲取自一輛行駛中的車輛。該車輛配備了精確的測距儀,并對其自身運動進行精確定位,通過特定方法獲得真實光流場。與MPI Sintel 數(shù)據(jù)集相似,KITTI 數(shù)據(jù)集包含了大量大位移運動,如快速行駛的車輛。通過在該數(shù)據(jù)集上的實驗,同時與其他方法進行比較(其中大部分是基于深度學(xué)習(xí)的光流估計方法),本文方法(STARFlow)在Fl-bg(the percentage of flow outliers averaged over background regions)、Fl-fg(the percentage of flow outliers averaged over foreground)和Fl-all(the percentage of flow outliers averaged over all regions)3 個指標上相比于其他方法具有明顯優(yōu)勢,如表2 所示。同時,圖8 給出了不同光流方法在KITTI 評估集image_2 序列上獲得的彩色編碼光流圖像及其誤差圖。誤差圖使用對數(shù)色標,正確估計和錯誤估計分別用藍色和紅色陰影表示,暗色調(diào)代表位于圖像區(qū)域之外的被遮擋像素。結(jié)果表明,在各種具有挑戰(zhàn)性的細節(jié)(如移動的車輛、路燈和建筑物等)中,相比于其他方法,STARFlow在保留運動細節(jié)方面表現(xiàn)更優(yōu),誤差圖中藍色陰影更多而紅色陰影更少,表明本文方法能更清晰地恢復(fù)運動特征,更多的運動邊緣得到保持。KITTI數(shù)據(jù)集本身含有強光照變化,STARFlow 光流估計結(jié)果更接近于真實光流場,說明該方法精度高,魯棒性強。
圖8 不同方法在KITTI數(shù)據(jù)集上的光流圖和誤差圖Fig.8 The estimated optical flow and error maps of different methods on KITTI dataset((a)the 0000016 sequence in image2 set;(b)the 0000008 sequence in image2 set)
表2 不同光流方法在KITTI flow 2015評估數(shù)據(jù)集上的評估結(jié)果Table 2 Evaluation results of different optical flow methods on KITTI flow 2015 evaluation dataset/%
總之,盡管本文方法更適合于小位移運動恢復(fù),但在Middlebury、MPI Sintel 和KITTI flow 2015 等具有挑戰(zhàn)性的評測基準上均實現(xiàn)了高精度的光流估計。值得注意的是,盡管MPI Sintel 和KITTI 數(shù)據(jù)集中包含復(fù)雜光照變化,STARFlow 方法仍能取得魯棒的光流估計結(jié)果。
為了驗證STARFlow 光流方法在實際應(yīng)用方面的有效性,本文將提取的光流特征在CASIA 人臉反欺騙數(shù)據(jù)集(Zhang 等,2012)上進行人臉活性檢測實驗。CASIA 數(shù)據(jù)集包含真實人臉和欺騙人臉的視頻片段,這些片段具有許多復(fù)雜的欺騙模式,也包含較多的大位移,這對基于變分的光流方法是相當(dāng)具有挑戰(zhàn)性的。為了驗證本文方法的光照魯棒性,在數(shù)據(jù)集中添加了4 種不同的合成光照。此外,將STARFlow 光流方法與最先進的基于光流的反欺騙方法進行比較。例如,CASIA 團隊的方法(CASIA)(Chingovska 等,2013)、基于深度網(wǎng)絡(luò)的無監(jiān)督光流方法ARFlow(Liu 等,2020a)、基于變分的光流計算方法WRT(Mei 等,2020)和SBFlow(Chen 等,2018)。實驗統(tǒng)計了每種方法的反欺騙分類準確率和半總錯誤率(half total error rate,HTER)。HTER 是一類評判活體檢測算法性能的重要標準,指的是錯誤拒絕率(false rejection rate,F(xiàn)RR)和錯誤接受率(false acceptance rate,F(xiàn)AR)總和的一半。反欺騙分類準確率和半總錯誤率的比較結(jié)果如表3 和表4 所示。其中,平均正確率表示在4 種合成光照條件下的準確率和半總錯誤率的平均值;平均變化表示不同光流方法在原數(shù)據(jù)集下的準確率和HTER 與平均值A(chǔ)verage之差。
從表3 和表4 可以看出,本文方法比ARFlow,SBFlow,WRT,CASIA方法均具有更高的分類準確率和更低的半總錯誤率。在原數(shù)據(jù)集下分別提高了約3.5%,4.2%,4.4%,9.1%。與其他光流方法相比,STARFlow 光流方法在不同光照變化情況下的準確率和半總錯誤率也表現(xiàn)得更加穩(wěn)定。與無光照變化情況相比,STARFlow 光流方法的準確率和半總錯誤率平均變化分別為1.1%和1.6%,明顯優(yōu)于其他方法。實驗結(jié)果進一步驗證了STARFlow 光流方法在不同光照變化下具有良好的魯棒性,更適合于人臉活性檢測應(yīng)用。
表3 在CASIA數(shù)據(jù)集上進行人臉活性檢測的準確率對比Table 3 The accuracy of face liveness detection on the CASIA dataset under different illumination patterns/%
表4 在CASIA數(shù)據(jù)集上進行人臉活性檢測的半總錯誤率對比Table 4 The HTER of face liveness detection on the CASIA dataset under different illumination patterns/%
本文提出了一種基于STAR 解耦的魯棒光流估計方法,基于結(jié)構(gòu)紋理感知Retinex 模型,將圖像中的光照與反射分量分離。為了在計算光流時保持良好的運動邊緣,使用L0 梯度最小化對光流場進行平滑處理,稀疏約束限制了速度與擴散梯度的非零個數(shù)。此外,給出了求解優(yōu)化問題的數(shù)值辦法。最后,在3 個具有挑戰(zhàn)性的光流數(shù)據(jù)集上進行評估,驗證了STARFlow 方法的計算精度與光照魯棒性。將STARFlow 方法應(yīng)用于臉部運動光流特征提取并進行人臉活體檢測實驗,對比實驗驗證了STARFlow方法更具魯棒性,改善了人臉活體檢測效果。在下一步工作中,將致力于提升本文方法的實時性能并將應(yīng)用于生物特征識別、機器視覺等領(lǐng)域。