余欣緯,柯余洋,熊 焰,黃文超
1(中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,合肥 230027)2(合肥學(xué)院 計算機科學(xué)與技術(shù)系,合肥 230000)
面向多種場景的視頻對象自動分割算法①
余欣緯1,柯余洋2,熊 焰1,黃文超1
1(中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,合肥 230027)2(合肥學(xué)院 計算機科學(xué)與技術(shù)系,合肥 230000)
針對當(dāng)前應(yīng)用于視頻對象分割的圖割方法容易在復(fù)雜環(huán)境、鏡頭移動、光照不穩(wěn)定等場景下魯棒性不佳的問題,提出了結(jié)合光流和圖割的視頻對象分割算法.主要思路是通過分析前景對象的運動信息,得到單幀圖像上前景區(qū)域的先驗知識,從而改善分割結(jié)果.論文首先通過光流場采集視頻中動作信息,并提取出前景對象先驗區(qū)域,然后結(jié)合前景和背景先驗區(qū)域建立圖割模型,實現(xiàn)前景對象分割.最后為提高算法在不同場景下的魯棒性,本文改進了傳統(tǒng)的測地顯著性模型,并基于視頻本征的時域平滑性,提出了基于混合高斯模型的動態(tài)位置模型優(yōu)化機制.在兩個標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,所提算法與當(dāng)前其他視頻對象分割算法相比,降低了分割結(jié)果的錯誤率,有效提高了在多種場景下的魯棒性.
視頻對象分割;光流;圖割;測地顯著性;混合高斯模型
近年來,隨著計算機存儲和處理能力、網(wǎng)絡(luò)帶寬和多媒體顯示以及拍攝設(shè)備的不斷發(fā)展,人們拍攝和獲取視頻的能力不斷增強.視頻由于其信息的豐富性和生動性而被越來越多的人所接受,成為人們在生活中娛樂、學(xué)習(xí)、記錄的重要傳播載體.這些不斷增長的海量視頻數(shù)據(jù)資源帶來了信息冗余和如何高效管理的問題.因此,不斷增長的大規(guī)模視頻數(shù)據(jù)及其應(yīng)用也促使了獲取、分析以及理解這些視頻數(shù)據(jù)的需求日益增長.如何降低視頻內(nèi)容理解難度,提取出視頻中的關(guān)鍵信息成為學(xué)術(shù)界和工業(yè)界關(guān)心的焦點.而視頻對象分割因為其具有能夠有效處理視頻中主要信息的特點在視頻摘要、視頻檢索、視頻活動分析等領(lǐng)域擁有廣泛的應(yīng)用.視頻對象自動分割算法因為不需人工參與,可以在多種大規(guī)模視頻數(shù)據(jù)處理場景中應(yīng)用的特點,成為近年來的研究熱點.
當(dāng)前,自動化視頻對象分割方法有諸多研究思路,包括:基于對象候選集篩選的方法、基于點追蹤和聚類的方法以及基于圖割的方法.基于圖割的方法主要是通過將圖像或視頻分割問題轉(zhuǎn)換為圖的最小割問題,實現(xiàn)對圖像或視頻的前景對象分割.Khoreva等[1]提出了使用分類器計算圖中邊權(quán)值的方法,優(yōu)化并提升了現(xiàn)有方法的分割結(jié)果.Ma等[2]利用在圖的最大團算法,針對多處前景對象候選區(qū)域評分,得到分割結(jié)果.Zhang等[3]構(gòu)造了一個分層的有向無環(huán)圖來選取最終的目標(biāo)區(qū)域,并利用視頻幀間的光流信息對目標(biāo)區(qū)域進行擴張,目標(biāo)分割精度有所提升.但該方法是以像素點作為基本單元構(gòu)建馬爾科夫隨機場,分割效率較低.盡管現(xiàn)有的自動化分割方法能夠有效地檢測并分割出視頻前景對象區(qū)域,但在精度和場景魯棒性上仍有較大提升空間.
為解決現(xiàn)有圖割方法在多種場景中分割能力不佳的問題,本文提出了一個在多種場景中具有更好準(zhǔn)確性和魯棒性的視頻對象分割算法.首先,通過分析視頻中的運動信息,獲得前景對象的先驗知識,為之后的分割過程提供重要信息.在得到前景對象先驗知識的基礎(chǔ)上進行分割,能夠較好地排除因背景因素導(dǎo)致的干擾,提高不同場景下的分割精度.然后,本文改進了傳統(tǒng)的測地顯著性計算模型[4],結(jié)合前景和背景先驗區(qū)域計算得到分割結(jié)果.最后,為了解決一些場景中分割結(jié)果不佳的問題,本文基于混合高斯模型建立了動態(tài)位置模型優(yōu)化機制,利用前景對象本征的位置平滑性優(yōu)化分割結(jié)果.
本文利用視頻的動作信息分析得到前景對象的動作輪廓,在動作輪廓中包含的區(qū)域即為所求前景區(qū)域先驗知識.相較于背景區(qū)域,符合人類認(rèn)知特點的前景對象一般在圖像和動作特征上具有獨特性.首先,本文采用光流(Optical flow)計算得到視頻序列中的動作模型.通過對光流向量梯度計算得到前景對象動作輪廓.針對傳統(tǒng)梯度計算模型產(chǎn)生的背景噪聲干擾問題,本文提出考慮向量長度和方向的混合梯度計算模型,能夠較好地排除背景噪聲和鏡頭動作的干擾.然后,本文改進了點包容性(Point in Polygon,PIP)算法[5,6]解決從不完整連續(xù)動作輪廓中提取前景先驗區(qū)域的問題.最后,在某些場景中可能因為鏡頭抖動、背景遮擋或前景對象本身動作信息不明顯而導(dǎo)致光流計算出現(xiàn)錯誤.針對上述問題,本文提出基于時域平滑性的前景區(qū)域優(yōu)化方案,確保算法在上述場景中的魯棒性.
圖1 本文算法流程圖
為了精確地提取視頻中的動作信息,本文采用了光流場算法[7]建立視頻的動作模型.光流是指時變圖像中的模式運動速度.因為當(dāng)物體在運動時,它在圖像上對應(yīng)點的亮度模式也在運動.光流表達了圖像的變化,由于它包含了目標(biāo)運動的信息,因此可被觀察者用來確定目標(biāo)的運動情況.由光流的定義可以引申出光流場,它是指圖像中所有像素點構(gòu)成的一種二維瞬時速度場,其中的二維速度矢量是景物中可見點的三維速度矢量在成像表面的投影.因此光流可以較為準(zhǔn)確地描述被觀察物體的運動信息.
本文對視頻序列中相鄰的幀圖像計算得到光流場.光流場由光流向量組成,每個光流向量描述了對應(yīng)像素點在相鄰幀之間運動的方向和程度.
式為:
然而,上述傳統(tǒng)梯度計算方法更容易受到鏡頭移動或晃動、背景噪聲的干擾.在圖2中,源圖像序列中的動作信息包含:前景對象的跑動動作、背景噪聲以及鏡頭的持續(xù)移動.根據(jù)(b)中梯度計算結(jié)果可以發(fā)現(xiàn),式(1)雖然能夠較好地提取出前景對象的運動輪廓,但同樣容易受到鏡頭運動和背景噪聲的干擾.使得(1)無法從光流圖像中得到正確的前景對象先驗知識.
圖2 梯度計算模型對比結(jié)果
圖3 點包容性算法原理圖
本文將光流向量的方向納入計算模型中,提出了混合梯度計算模型,較好地排除了鏡頭和背景因素的干擾.基于對像素點光流向量特性的觀察,本文認(rèn)為:當(dāng)某一像素點處于不同物體的輪廓上時,由于不同物體的運動特征不一致,因而該像素點對應(yīng)的光流向量應(yīng)與相鄰像素點的向量方向有較大的夾角.反之,如果某一像素點與相鄰像素點都處于同一物體內(nèi)部,則該像素點對應(yīng)的光流向量方向會與相鄰像素點一致.因此,本文提出基于向量方向的梯度計算公式:
式中,N代表像素點p的相鄰像素點集合;代表光流向量之間夾角的L2范數(shù)值;C表示像素點p的相鄰像素個數(shù),在本文方法中,C的值默認(rèn)設(shè)定為4.通過式(2)可知,光流向量與相鄰向量夾角越大,對應(yīng)像素點計算得到的梯度值越大.
本文方法中結(jié)合了兩種計算方法的混合梯度計算模型如下:
式中,HT代表較高的閾值,作用是將強烈的動作信息與可能出現(xiàn)混淆的像素點區(qū)分開.梯度值低于HT的像素點被認(rèn)為難以分辨是否處于前景對象輪廓邊緣,因而需要結(jié)合式(2)進一步計算.LT代表較低的閾值,作用是判斷像素點是否存在動作信息,梯度值低于LT的像素點將被視為噪聲干擾.HT與LT均為自適應(yīng)閾值.通過使用混合梯度計算模型,能夠較好地得到前景對象運動輪廓.
在不設(shè)約束的任意視頻中,人們難以預(yù)測前景對象的動作模式.由于動作模式的不確定性,通過梯度計算模型得到前景對象輪廓通常是不連續(xù)的.為從運動輪廓中標(biāo)注出所需的前景先驗區(qū)域,我們改進了點包容性算法[5,6].算法原理如圖3所示,從平面上某一點向任意方向發(fā)出射線,如果射線與平面上的多邊形邊的交點個數(shù)均為奇數(shù),則該點處于某一多邊形內(nèi)部;若交點個數(shù)均為偶數(shù),則處于任意多邊形的外部.針對動作輪廓不連續(xù)的問題,本文參照點包容性算法原理,對每個像素點計算水平、垂直、斜45度等八個方向的射線交點數(shù),并采用多數(shù)投票法實現(xiàn)了正確的標(biāo)注.
為解決特殊場景下光流圖像錯誤率較高導(dǎo)致無法提取先驗區(qū)域的問題,本文提出了前景先驗區(qū)域優(yōu)化方案.在真實拍攝的視頻中,容易出現(xiàn)鏡頭移動速度過快、鏡頭劇烈晃動、對焦不清出現(xiàn)模糊等問題.這些干擾會對光流計算產(chǎn)生較大影響,導(dǎo)致光流圖像錯誤率較高,無法準(zhǔn)確地得到前景對象先驗區(qū)域.針對這一問題,本文提出的優(yōu)化方案能夠利用前景對象的時域平滑性較好地優(yōu)化先驗區(qū)域.由于前景對象在視頻序列的時域上具有平滑性,因而可以利用相鄰幀中先驗區(qū)域結(jié)果補全錯誤幀的先驗區(qū)域.本文考慮到在利用連續(xù)性補全的過程中,越是相鄰的幀的先驗區(qū)域越有更高的置信度.因而本文以需要優(yōu)化的錯誤幀為對稱軸建立高斯模型,更接近錯誤幀的幀圖像像素點具有更高的權(quán)重.優(yōu)化方案計算公式如下:
圖4 前景先驗區(qū)域優(yōu)化示意圖
測地顯著性模型屬于圖割模型的一種.傳統(tǒng)測地顯著性模型[4]通過在圖像上建立圖結(jié)構(gòu),計算節(jié)點到背景區(qū)域的測地距離,根據(jù)距離大小實現(xiàn)前景區(qū)域的分割.在中心偏移假設(shè)[8]的基礎(chǔ)上,傳統(tǒng)模型將圖像的邊緣區(qū)域標(biāo)記為背景先驗區(qū)域,并計算其他節(jié)點到邊緣節(jié)點的距離.由于前景對象相較于背景區(qū)域在外觀、動作和位置等方面具有特征獨特性,因而與邊緣背景區(qū)域距離越遠的節(jié)點,其前景顯著值越高.本文改進了傳統(tǒng)測地顯著性模型,基于前景和背景先驗區(qū)域分別計算距離,并提出了新的顯著值計算模型.首先,本文對單幀圖像進行過分割處理得到超像素圖像,并在此基礎(chǔ)上建立圖結(jié)構(gòu).然后,通過計算和比較未標(biāo)記節(jié)點分別到前景和背景先驗區(qū)域的距離,實現(xiàn)對前景區(qū)域的分割.為了解決某些場景下中心偏移假設(shè)效果不佳的問題,本文提出了多重顯著值計算模型,使得算法在一些特殊場景下仍有較好的分割結(jié)果.
本文采用超像素作為單幀圖像中進行前景區(qū)域分割的最小單位.超像素由一系列位置相鄰且顏色、亮度、紋理等特征相似的像素點組成的小區(qū)域,這些小區(qū)域最大程度上保證了區(qū)域內(nèi)所有像素點都屬于同一個物體.在一些復(fù)雜場景下,以超像素為單位實現(xiàn)前景對象分割能夠較好地保留物體的邊緣特性,獲得更好的分割結(jié)果.本文采用圖割模型實現(xiàn)前景區(qū)域分割,以超像素為節(jié)點構(gòu)圖能夠顯著降低圖結(jié)構(gòu)的復(fù)雜度,提高建模和優(yōu)化的效率.本文采用SLIC算法[9]實現(xiàn)超像素過分割處理,SLIC能夠較好地保持圖像局部的形狀完整性和外觀相似性.
在單幀圖像Ti上,本文以超像素為節(jié)點,相鄰超像素建立邊建立了圖結(jié)構(gòu).其中Vi代表Ti上的超像素集合,Ei代表圖中相鄰節(jié)點之間邊的集合.在本文中,Ei中每條邊的權(quán)值由超像素間外觀特征差異決定.權(quán)值計算公式如下:
式中,xj和xk分別代表在節(jié)點j和k內(nèi)部的平均顏色特征值.本文通過對節(jié)點包含的所有像素點RGB顏色空間值求均值得到平均顏色特征值.N(j)代表節(jié)點j的相鄰節(jié)點集合.為方便計算,本文建立的鄰接矩陣Wi以存儲Ei中的邊權(quán)值.
基于中心偏移假設(shè)[8],本文將圖像的邊緣節(jié)點結(jié)合標(biāo)記為背景先驗區(qū)域B.結(jié)合先前對動作信息分析得到的前景先驗區(qū)域F,傳統(tǒng)測地顯著性模型[4]通過計算和比較剩余未標(biāo)記節(jié)點集合U分別與B和F之間的測地距離,實現(xiàn)對前景對象的分割.單幀圖像i中節(jié)點j的顯著值計算公式如下:
式中,C代表歸一化的常數(shù)參數(shù).代表節(jié)點之間的測地距離.λ是常系數(shù),用于平衡兩項距離值對所得顯著值的貢獻比,在本文方法中被設(shè)置為1.從式(7)中可以看出,的大小與到達B的距離成正比,與到達F的距離成反比.因而如果圖中節(jié)點與背景先驗區(qū)域特征相差較大且與前景先驗區(qū)域特征接近,則該節(jié)點會獲得較高的顯著值,符合前景區(qū)域的特點.節(jié)點s和t之間的測地距離■計算公式如下:
圖5 多重顯著值模型對比圖
在實際場景中,一些視頻中的前景對象會部分出現(xiàn)在單幀圖像邊緣上.對于包含這些場景的視頻,應(yīng)用傳統(tǒng)模型無法得到正確的分割結(jié)果.針對這一問題,本文提出了多重顯著值計算模型.通過分別計算未標(biāo)記節(jié)點到每一條邊緣的測地距離,得到四幅顯著值圖像,將其融合后得到最終的顯著值圖像.因而本文改進了式(7)中背景測地距離計算項.
式中,Sup、Sdown、Sleft、Sright分別代表以單幀圖像四條邊緣為先驗背景區(qū)域而計算得到的顯著值圖像,這些圖像通過(7)計算得到.
此外,本文觀察到圖像邊緣中的前景區(qū)域一般來說并不大.因而在多重顯著值計算之前,本文加入了對圖像邊緣的預(yù)處理,以提高背景先驗區(qū)域的準(zhǔn)確性.本文基于顏色和空間特征對每條圖像邊緣進行聚類,并將一部分顏色特征相異于大多數(shù)節(jié)點的簇舍去,取剩下的節(jié)點作為先驗背景區(qū)域.在本文方法中,采用了基于密度的DBSCAN聚類算法實現(xiàn).
本文采用多幀差分的混合高斯模型(Gaussian Mixture Model,GMM)建立了前景對象的動態(tài)位置模型,以提高算法在多種場景下的魯棒性.Stauffer等[10]提出了基于混合高斯模型的背景建模方法,通過在每個像素點上建立K個高斯分布,實現(xiàn)圖像分割.在某一時刻,像素點的歷史像素值集合為:
式中,i為視頻序列,Xi為像素點在i時刻的像素值.當(dāng)前像素點觀測值的概率為:
式中,K代表混合高斯模型中分布數(shù)量;代表第j個分布在時刻t的權(quán)重值;代表第j個高斯模型的均值和協(xié)方差,代表對應(yīng)分布的標(biāo)準(zhǔn)差;代表高斯概率密度函數(shù),計算公式為:
式中,n代表Xt的維度.
首先,文獻[10]將混合高斯模型中的若干個分布按照優(yōu)先級從大到小排列.然后,用像素點當(dāng)前值Xt按序與混合高斯模型中所有分布相比較.若滿足公式(13),則認(rèn)為該像素點與其中某一分布匹配,并對匹配分布的參數(shù)、和進行更新.其他不匹配的分布只改變自身權(quán)重值.
式中,δ一般取值為2.5~3.5.
若與混合高斯模型中所有分布均不匹配,則算法將根據(jù)當(dāng)前像素值建立一個新的高斯分布(均值為Xt,初始化標(biāo)準(zhǔn)差及權(quán)重).如果當(dāng)前分布數(shù)小于K,則新的高斯分布直接添加到混合高斯模型中.如果當(dāng)前分布數(shù)等于K,則新的分布將取代優(yōu)先級最小的分布.
本文采用混合高斯模型對視頻序列建模,用單個或多個高斯分布表示前景對象的動態(tài)位置.此外,本文加入多幀差分優(yōu)化建模結(jié)果,保證了動態(tài)位置模型的時域平滑性.
為了驗證本文算法的有效性和魯棒性,在兩個標(biāo)準(zhǔn)數(shù)據(jù)集SegTrack和SegTrack v2上對本文算法和其他若干最優(yōu)算法做了對比實驗.SegTrack和SegTrack v2共包含14個不同的視頻序列及超過1000幅幀圖像,并涵蓋了多種不同場景的視頻,如:鏡頭快速移動、復(fù)雜環(huán)境和光照不佳等.能夠較為全面地衡量算法在不同場景下的分割能力.實驗中,本文選取文獻[3]和[11]中算法的結(jié)果作對比.上述算法均為基于圖割的視頻對象分割算法并有較好分割能力.本文實驗環(huán)境為:Intel i5-3450 @3.10 GHZ,8 GB內(nèi)存,Windows 10環(huán)境下使用MATLAB 2015a實現(xiàn)算法.
圖6 復(fù)雜環(huán)境場景的分割結(jié)果
圖6中,前景對象處于復(fù)雜環(huán)境中,且背景環(huán)境中存在外觀和紋理特征與前景物體相似的區(qū)域.文獻[11]中算法嚴(yán)重受到了背景噪聲的干擾,無法正確定位前景對象的位置.文獻[3]算法結(jié)果未能完整分割出前景物體輪廓.本文算法分割結(jié)果較為完整準(zhǔn)確.
圖7和圖8中,視頻序列的拍攝鏡頭隨前景對象快速移動,會產(chǎn)生大量的背景噪聲.文獻[11]的結(jié)果受到了噪聲的較多影響,在前景對象周邊產(chǎn)生了模糊.相較于文獻[3],本文的分割結(jié)果更為完整,且較好地排除了噪聲的干擾.
圖7 鏡頭快速移動場景的分割結(jié)果
圖8 前景對象動作特征復(fù)雜的分割結(jié)果
圖9中,視頻中整體光照條件不佳,且不同的區(qū)域明暗對比較為明顯.本文算法在光照條件變動較為劇烈的情況下,仍保持了較好的準(zhǔn)確性和魯棒性.
圖9 光照條件不佳的分割結(jié)果
此外,以識別誤差為標(biāo)準(zhǔn)在SegTrack數(shù)據(jù)集上比較了本文算法與文獻[3]和[12]中算法的結(jié)果.識別誤差計算公式如下:
式中,S代表任一算法的最終分割結(jié)果;GT代表數(shù)據(jù)集中提供的真實分割對照;F代表視頻序列中幀圖像的數(shù)量.通過計算每種算法在單個幀圖像上的平均錯分類像素個數(shù),識別誤差能夠較好地衡量不同算法的分割能力.在同等實驗條件下比較結(jié)果如表1所示.
表1 SegTrack數(shù)據(jù)集上平均每幀錯誤率對比
實驗結(jié)果表明,通過前景先驗區(qū)域提取和改進后的測地顯著性模型相結(jié)合,能夠在前景對象動作模式較復(fù)雜的情況下較好地獲得前景信息,也增強了算法在鏡頭移動或晃動場景中的魯棒性,同時提高了算法在復(fù)雜背景環(huán)境中的分割能力.
綜上所述,本文提出的算法相較于以前提出的圖割算法具有更好的準(zhǔn)確性.同時對多種視頻中復(fù)雜環(huán)境、鏡頭移動以及光照變化的場景有較好的魯棒性.
提出了一種面向多種場景的視頻對象自動分割算法.針對當(dāng)前圖割方法容易受到復(fù)雜環(huán)境、背景噪聲等因素影響的問題,通過分析視頻動作信息獲得前景先驗區(qū)域,為圖割建模提供了重要的先驗知識.同時改進了傳統(tǒng)測地顯著性模型,使算法能夠應(yīng)用于更多場景中.建立了動態(tài)位置模型,減少了背景因素對分割結(jié)果的干擾.實驗結(jié)果證明了本文所提算法準(zhǔn)確性相較于當(dāng)前圖割算法有了較好的提升,并在多種場景的視頻中有更魯棒的分割結(jié)果.
1 Khoreva A,Galasso F,Hein M,et al.Classifier based graph construction for video segmentation.Proc.of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,MA,USA.2015.951–960.
2 Ma TY,Latecki LJ.Maximum weight cliques with mutex constraints for video object segmentation.Proc.of the 2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Providence,RI,USA.2012.670–677.
3 Zhang D,Javed O,Shah M.Video object segmentation through spatially accurate and temporally dense extraction of primary object regions.Proc.of the 2013 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Portland,OR,USA.2013.628–635.
4 Wei YC,Wen F,Zhu WJ,et al.Geodesic saliency using background priors.Proc.of the 12th European conference on computer vision.Florence,Italy.2012.29–42.
5 Sutherland IE,Sproull RF,Schumacker RA.A characterization of ten hidden-surface algorithms.ACM Computing Surveys,1974,6(1):1–55.[doi:10.1145/356625.356626]
6 Shimrat M.Algorithm 112:Position of point relative to polygon.Communications of the ACM,1962,5(8):434.
7 Liu C.Beyond pixels:Exploring new representations and applications for motion analysis[Ph.D.Thesis].Cambridge,MA:Massachusetts Institute of Technology,2009.
8 Tatler BW.The central fixation bias in scene viewing:Selecting an optimal viewing position independently of motor biases and image feature distributions.Journal of Vision,2007,7(14):4.[doi:10.1167/7.14.4]
9 Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods.IEEE Trans.on Pattern Analysis and Machine Intelligence,2012,34(11):2274–2282.[doi:10.1109/TPAMI.2012.120]
10 Stauffer C,Grimson WEL.Learning patterns of activity using real-time tracking.IEEE Trans.on Pattern Analysis and Machine Intelligence,2000,22(8):747–757.[doi:10.1109/34.868677]
11 Papazoglou A,Ferrari V.Fast object segmentation in unconstrained video.Proc.of the 2013 IEEE International Conference on Computer Vision (ICCV).Sydney,NSW,Australia.2013.1777–1784.
12 Wang WG,Shen JB,Porikli F.Saliency-aware geodesic video object segmentation.Proc.of the 2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,MA,USA.2015.3395–3402.
Automatic Video Object Segmentation Algorithm for Multiple Scenes
YU Xin-Wei1,KE Yu-Yang2,XIONG Yan1,HUANG Wen-Chao11(School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)2(Department of Computer Science and Technology,Hefei University,Hefei 230000,China)
Aiming at the problems of poor robustness in the complex environment,lens movement and light instability,a video object segmentation algorithm combining optical flow and graph cutting is proposed.The main idea is to improve the segmentation result by analyzing the motion information of the foreground object and obtaining the prior knowledge of the foreground area on the single frame image.Firstly,the motion information in the video is collected by the optical flow field,and the prior knowledge of the foreground object is extracted.Then,the foreground object segmentation is realized by combining the priori areas of foreground and background.Finally,in order to improve the robustness of the algorithm in different scenarios,this paper improves the traditional geodesic saliency model,and employs the dynamic position model optimization mechanism based on Gaussian Mixture Model based on the intrinsic temporary smoothness of video.Experimental results on two benchmark datasets show that the proposed algorithm reduces the error rate of the segmentation results compared with other video object segmentation algorithms,which effectively improves the robustness in many scenarios.
video object segmentation;optical flow;graph cut;geodesic saliency;Gaussian mixture model
余欣緯,柯余洋,熊焰,黃文超.面向多種場景的視頻對象自動分割算法.計算機系統(tǒng)應(yīng)用,2017,26(11):152–158.http://www.c-sa.org.cn/1003-3254/6044.html
2017-02-21;修改時間:2017-03-09;采用時間:2017-03-13
?