張香玉,金 暉,王 丹
(1.廣州軟件學(xué)院,廣東廣州 510990;2.廣州大學(xué),廣東廣州 510006)
視頻對(duì)象分割是指依據(jù)一定標(biāo)準(zhǔn)分割的視頻序列內(nèi)所需區(qū)域。所需要的區(qū)域即前景,也叫目標(biāo)對(duì)象[1],不需要的區(qū)域?yàn)楸尘?。視頻對(duì)象分割具有很高的實(shí)用價(jià)值,可應(yīng)用于視頻壓縮、視頻會(huì)議、視頻關(guān)鍵幀提取、視頻事件檢測(cè)與智能交通等領(lǐng)域[2]。在視頻壓縮領(lǐng)域,利用視頻對(duì)象分割方法可以對(duì)目標(biāo)對(duì)象與背景區(qū)別編碼,提升壓縮編碼的效率,避免有效信息丟失,增強(qiáng)視覺效果;在智能交通領(lǐng)域,利用視頻對(duì)象分割方法可有效分割車載攝像頭采集的實(shí)時(shí)視頻,幫助駕駛員了解障礙物的具體信息,降低危險(xiǎn)狀況發(fā)生的概率[3]。
近年來,視頻對(duì)象分割方法成為視頻處理的熱點(diǎn)與難點(diǎn)問題。目前,提出了很多視頻對(duì)象分割方法,并取得了一定成果。文獻(xiàn)[4]提出了動(dòng)態(tài)雙邊網(wǎng)格實(shí)現(xiàn)的視頻前景分割算法。該方法通過構(gòu)建一個(gè)高維的視頻數(shù)據(jù)映射空間,按照標(biāo)簽數(shù)據(jù)計(jì)算各空間內(nèi)各節(jié)點(diǎn)對(duì)應(yīng)的分割值,通過圖割算法分割高維特征空間,并降維至相應(yīng)的視頻幀內(nèi),完成視頻前景分割。該方法在高維空間內(nèi)對(duì)視頻分割對(duì)象進(jìn)行分割,分割的效果較好,但在分割過程中操作過程較為復(fù)雜,易導(dǎo)致分割的結(jié)果存在一定誤差。文獻(xiàn)[5]提出了一種基于交替凸優(yōu)化的視頻對(duì)象分割算法.該方法將視頻對(duì)象分割問題轉(zhuǎn)換成馬爾科夫能量、時(shí)空能量與對(duì)抗能量混合能量最小化的非凸優(yōu)化問題,通過交替凸優(yōu)化方法分解最小化的非凸優(yōu)化問題,分解成兩個(gè)二次規(guī)劃問題,根據(jù)前向-反向傳遞方法,提升視頻對(duì)象分割的可靠性,但該方法在分割時(shí)采用的方法較多,易導(dǎo)致分割對(duì)象分割耗時(shí)較長(zhǎng)。
基于上述方法中存在的不足,提出動(dòng)態(tài)場(chǎng)景下基于VR技術(shù)的短視頻實(shí)時(shí)分割方法。VR屬于一種綜合多種技術(shù)的技術(shù),可應(yīng)用于三維計(jì)算機(jī)圖形、人機(jī)交互、廣角立體顯示等領(lǐng)域[6]。三維重建屬于VR技術(shù)內(nèi)不可缺少的重要環(huán)節(jié)。本文將其應(yīng)用到動(dòng)態(tài)場(chǎng)景下,完成對(duì)短視頻的分割。與傳統(tǒng)方法相比具有一定優(yōu)勢(shì)。
為了提升短視頻實(shí)時(shí)分割的精度,首先對(duì)短視頻進(jìn)行三維重建。利用VR技術(shù)對(duì)動(dòng)態(tài)場(chǎng)景下短視頻實(shí)施三維重建,將多個(gè)視頻幀包含單一信息的二維短視頻經(jīng)過VR技術(shù)處理,形成包含復(fù)雜體數(shù)據(jù)的三維短視頻[7],豐富短時(shí)頻目標(biāo)對(duì)象的細(xì)節(jié)信息,為后續(xù)分割操作提供精準(zhǔn)數(shù)據(jù)。VR技術(shù)常用三維重建技術(shù)是體繪制算法,體繪制算法的實(shí)現(xiàn)步驟如下:
步驟1:對(duì)動(dòng)態(tài)場(chǎng)景下短視頻的三維空間體數(shù)據(jù)預(yù)處理,預(yù)處理操作包含轉(zhuǎn)換數(shù)據(jù)格式與去掉多余數(shù)據(jù);
步驟2:為每種數(shù)據(jù)類型賦予數(shù)據(jù)點(diǎn)合理的顏色值與透明度值;
步驟3:依據(jù)指定方向從屏幕的每個(gè)像素點(diǎn)發(fā)射,穿過視頻幀體數(shù)據(jù)的射線,按照統(tǒng)一間距在射線上實(shí)施采樣,獲取多個(gè)采樣點(diǎn),通過與某個(gè)采樣點(diǎn)鄰近的8個(gè)像素點(diǎn)顏色值與不透明度值,利用線性插值法獲取該采樣點(diǎn)的顏色值與不透明度值;
步驟4:獲取射線上全部采樣點(diǎn)顏色值與透明度值后,按照特定方式合成全部采樣點(diǎn)獲取最終的三維短視頻。
由于體繪制算法需要繪制短視頻內(nèi)全部對(duì)象的內(nèi)部結(jié)構(gòu),故需要為算法賦予顏色值與不透明度。在不透明度為1的情況下,說明這個(gè)對(duì)象屬于不透明物體,則該對(duì)象后面對(duì)象會(huì)被其遮擋;在不透明度為0的情況下,說明該對(duì)象屬于透明物體,則該對(duì)象為不可見對(duì)象。
一個(gè)對(duì)象內(nèi)包含很多物質(zhì),各個(gè)對(duì)象背景顏色均不相同。因此,由對(duì)象內(nèi)包含的多種物質(zhì)共同決定該對(duì)象顏色。假設(shè)某個(gè)物質(zhì)在對(duì)象中所占的比例為pλ,這個(gè)物質(zhì)的顏色為Qλ=(αλRλ,αλGλ,αλBλ,αλλ),其中R、G、B表示構(gòu)建動(dòng)態(tài)場(chǎng)景下短視頻序列各幀圖像三維灰度信息的三個(gè)分量,則該對(duì)象的顏色值為
(1)
式中,采樣點(diǎn)數(shù)量為n。
通過由前向后圖像合成法實(shí)施短視頻合成,該方法將視點(diǎn)處作為射線的初始位置,從視點(diǎn)處開始往最遠(yuǎn)處投射,合成沿著視點(diǎn)到投射最遠(yuǎn)處方向的射線中全部像素點(diǎn)顏色值與透明度值,達(dá)到最遠(yuǎn)投射處為止。
假設(shè)已知采樣點(diǎn)的顏色值為Qλ,不透明度值為αλ,該采樣點(diǎn)前一個(gè)采樣點(diǎn)顏色值為Qj,不透明度值為αj,該采樣點(diǎn)下一個(gè)采樣點(diǎn)的顏色值為Qk,不透明度值為αk,對(duì)應(yīng)的三維短視頻合成公式如下
Qkαk=Qjαj+Qλαλ(1-αj)αk=αj+αk(1-αj)
(2)
利用時(shí)空聯(lián)合的視頻幀對(duì)象分割方法實(shí)施三維重建后動(dòng)態(tài)場(chǎng)景下短視頻實(shí)時(shí)分割。時(shí)空聯(lián)合的視頻幀對(duì)象分割方法具體步驟如下:
步驟1:利用最大幀差分量方法提取三維重建后動(dòng)態(tài)場(chǎng)景下短視頻的視頻幀和該視頻幀相鄰幀的幀差信息,通過線性掃描法實(shí)施填充,獲取三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀差模板;
步驟2:通過融合模糊C均值聚類算法與運(yùn)動(dòng)窗技術(shù),剔除三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀差模板內(nèi)冗余背景,獲取對(duì)象模板;
步驟3:通過融合區(qū)域生長(zhǎng)與邊緣檢測(cè)方法,填補(bǔ)三維重建后動(dòng)態(tài)場(chǎng)景下短視頻對(duì)象模板內(nèi)缺少的對(duì)象部分,獲取完整三維重建后動(dòng)態(tài)場(chǎng)景下短視頻的視頻幀對(duì)象;
步驟4:對(duì)完整三維重建后動(dòng)態(tài)場(chǎng)景下短視頻的視頻幀對(duì)象實(shí)施輪廓修正,獲取精準(zhǔn)的三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀對(duì)象,完成動(dòng)態(tài)場(chǎng)景下短視頻實(shí)時(shí)分割[8]。
利用最大幀差分量方法提取三維重建后的動(dòng)態(tài)場(chǎng)景下短視頻序列的幀差信息,計(jì)算公式為
difmax(x,y)=max{difR(x,y),difG(x,y),difB(x,y)}
(3)
式中,點(diǎn)(x,y)處幀差值為difmax(x,y);點(diǎn)(x,y)在R分量處的幀差值為difR(x,y);點(diǎn)(x,y)在G分量處的幀差值為difG(x,y);點(diǎn)(x,y)在B分量處的幀差值為difB(x,y);為最大限度提取三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀差信息,需選擇三個(gè)分量?jī)?nèi)最大值當(dāng)作點(diǎn)(x,y)的幀差值。
完成幀差信息提取后,通過閾值處理方法剔除三維重建后動(dòng)態(tài)場(chǎng)景下短視頻序列內(nèi)的噪聲,即
(4)
由于三維重建后動(dòng)態(tài)場(chǎng)景下短視頻序列內(nèi)具有背景噪聲。因此,公式(4)內(nèi)閾值T的大小至關(guān)重要;選擇較小值作為閾值T的值,會(huì)增加噪聲的引入量;選擇較大值作為閾值T的值,會(huì)減少提取的幀差信息,文中選擇0.1為閾值T的值。
通過融合模糊C均值聚類算法與運(yùn)動(dòng)窗技術(shù),剔除三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀差模板內(nèi)冗余背景,按照三維重建后動(dòng)態(tài)場(chǎng)景下短視頻的幀差信息生成運(yùn)動(dòng)窗;計(jì)算三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀差模板中每個(gè)點(diǎn)相應(yīng)的像素和每個(gè)聚類中心的顏色歐式距離,若某像素和每個(gè)聚類中心的隨機(jī)距離超過某個(gè)閾值,那么將該像素當(dāng)作背景像素,并剔除該像素,獲取三維重建后的動(dòng)態(tài)場(chǎng)景下短視頻對(duì)象模板[9]。
設(shè)三維重建后動(dòng)態(tài)場(chǎng)景下短視頻幀差模板區(qū)域?yàn)镸,M的外接矩形為REC,中心點(diǎn)為(x0,y0),外接矩形高度為H,外接矩形的寬度為W。設(shè)三維重建后動(dòng)態(tài)場(chǎng)景下短視頻視頻幀運(yùn)動(dòng)窗為WD,那么WD要大于REC,獲取足夠的三維重建后的動(dòng)態(tài)場(chǎng)景下短視頻背景樣本。WD的表達(dá)為
(5)
式中,比例系數(shù)為K,文中取值1.2。
在WD中剔除M,剩下部分屬于無對(duì)象的背景區(qū)域,利用模糊C均值聚類算法對(duì)該區(qū)域?qū)嵤┚垲?。步驟如下
步驟1:設(shè)置分類數(shù)為c(2≤c≤l),樣本數(shù)量為l;設(shè)定模糊性加權(quán)指數(shù)m的值;隨機(jī)生成0-1的數(shù),組建初始模糊分類矩陣,設(shè)定迭代控制參數(shù)ε,迭代次數(shù)t為1;
步驟2:輸入全部樣本Z={z1,z2,…,zl};
步驟3:獲取c個(gè)類別的聚類中心oi(t),即
(6)
式中,第b個(gè)樣本屬于第a個(gè)分類的隸屬度為uab;
步驟4:更正模糊分類矩陣uab(t+1),即
(7)
通過融合區(qū)域生長(zhǎng)與邊緣檢測(cè)方法填補(bǔ)剔除背景后三維重建后動(dòng)態(tài)場(chǎng)景下短視頻對(duì)象模板內(nèi)缺少對(duì)象部分,其實(shí)現(xiàn)方法是對(duì)三維重建后的動(dòng)態(tài)場(chǎng)景下短視頻的視頻幀圖像實(shí)施邊緣檢測(cè),計(jì)算三維重建后動(dòng)態(tài)場(chǎng)景下短視頻對(duì)象模板中每個(gè)鄰近像素間在HSI彩色空間的顏色相似度,通過像素間相似度與邊緣信息獲取區(qū)域生長(zhǎng)種子,利用基于顏色與空間信息對(duì)每個(gè)種子實(shí)施區(qū)域生長(zhǎng),完成對(duì)象填補(bǔ)。
將RGB空間轉(zhuǎn)換成HSI彩色空間,其中H(Hue,色調(diào))、S(Saturation,飽和度)、I(Intensity,亮度)。隨機(jī)3個(gè)在[0,1]區(qū)間中的R、G、B在值均在HSI模型內(nèi)有相應(yīng)的H、S、I分量,即
(8)
通過像素間相似度與邊緣信息選擇區(qū)域生長(zhǎng)種子,選取3×3鄰域,計(jì)算像素v和與該像素鄰近像素vi=(i=1,2,…,8)間相對(duì)歐式距離,其中,鄰近像素有8個(gè),即
(9)
式中,vi的三個(gè)彩色分量為(hi,si,ii);v的三個(gè)彩色分量為(h,s,i)。
某個(gè)像素和該像素的鄰近像素間顏色最大距離公式為
(10)
歸一化dmax
d=dmax/max(dmax)
(11)
那么像素和該像素鄰近像素間的相似度表達(dá)公式為
H=1-d
(12)
H值表示某個(gè)像素和該像素附近像素的相似程度,依據(jù)H值從高至低的順序放入種子隊(duì)列內(nèi),去除種子隊(duì)列內(nèi)H值最高的像素,若該像素符合不在邊緣上與未被標(biāo)記的條件,則將其作為區(qū)域成長(zhǎng)的種子[10]。
區(qū)域生長(zhǎng)算法的具體步驟如下:
步驟1:標(biāo)記獲取的種子點(diǎn);
步驟2:將種子點(diǎn)鄰近的既不在邊緣上又沒有被標(biāo)記的4個(gè)像素列入數(shù)據(jù)組N內(nèi);
步驟3:如果N不為空,那么在N內(nèi)拿出距離種子點(diǎn)區(qū)域最近的像素g,同時(shí)查看g點(diǎn)的4個(gè)鄰近像素是否符合4個(gè)鄰近像素內(nèi)具有與種子標(biāo)記一致的標(biāo)記像素,且數(shù)量超過3個(gè)條件;如果不符合這個(gè)條件,需計(jì)算g和種子點(diǎn)區(qū)域均值相對(duì)歐式距離,該相對(duì)歐式距離需低于閾值T;符合任意條件,將g點(diǎn)標(biāo)記成種子點(diǎn)區(qū)域的標(biāo)記,更新種子點(diǎn)區(qū)域均值,在N內(nèi)去除g點(diǎn),將g點(diǎn)既不在邊緣上又沒有被標(biāo)記的4個(gè)像素列入數(shù)據(jù)組N內(nèi);如果不符合上述條件,在N內(nèi)去除g點(diǎn),重復(fù)步驟3,該種子相應(yīng)的區(qū)域生長(zhǎng)結(jié)束;
步驟4:轉(zhuǎn)至步驟1,實(shí)施下一個(gè)種子點(diǎn)區(qū)域的生長(zhǎng),以種子隊(duì)列為空為止。
在區(qū)域算法中考慮了邊緣信息,在生長(zhǎng)過程中,若遇到邊緣,便結(jié)束在該方向上的生長(zhǎng),阻止鄰近區(qū)域間的錯(cuò)誤合并,提升區(qū)域生長(zhǎng)的準(zhǔn)確性。
為驗(yàn)證本文方法的有效性,在網(wǎng)頁(yè)中隨機(jī)選取10個(gè)不同時(shí)長(zhǎng)的動(dòng)態(tài)場(chǎng)景下短視頻,10個(gè)短視頻的時(shí)長(zhǎng)分別為15 s、30 s、45 s、75 s、93 s、117 s、130 s、149 s、162 s與186 s。利用本文方法對(duì)10個(gè)動(dòng)態(tài)場(chǎng)景下短視頻圖像進(jìn)行實(shí)時(shí)分割,驗(yàn)證本文方法的分割的有效性、精準(zhǔn)性與分割效率。其中,分割的樣本圖像如圖1 所示。
圖1 原始圖像
4.2.1 分割效果分析
為了驗(yàn)證本文方法的有效性,以短視頻內(nèi)一個(gè)動(dòng)作圖像為例,利用本文方法實(shí)施分割,本文方法的分割效果如圖2 所示。
圖2 本文方法分割效果分析
分析圖2可知,本文方法對(duì)樣本視頻中的一個(gè)圖像分割的效果較好,實(shí)驗(yàn)中,采用本文方法經(jīng)過填充獲取幀差模板,有效去除圖像中背景,獲取對(duì)象模板,通過填補(bǔ)獲取完成對(duì)象,成功將人物對(duì)象從背景中分割出來。驗(yàn)證了本文方法能夠有效分割動(dòng)態(tài)場(chǎng)景下的短視頻。
4.2.2 分割準(zhǔn)確度分析
為進(jìn)一步驗(yàn)證本文方法的有效性,采用對(duì)比本文方法、動(dòng)態(tài)雙邊網(wǎng)格實(shí)現(xiàn)的視頻前景分割算法以及基于交替凸優(yōu)化的視頻對(duì)象分割算法,對(duì)比三種方法在對(duì)樣本分割的準(zhǔn)確度,實(shí)驗(yàn)結(jié)果如圖3 所示。
圖3 不同方法分割準(zhǔn)確度對(duì)比
分析圖3 可以看出,采用三種方法對(duì)樣本視頻圖像進(jìn)行分割的準(zhǔn)確度存在一定差距。其中,所提方法的分割準(zhǔn)確度最高約為98%,而其它兩種方法分割的準(zhǔn)確度始終低于本文方法,驗(yàn)證了本文方法的有效性。
4.2.3 分割效率分析
利用本文方法與動(dòng)態(tài)雙邊網(wǎng)格實(shí)現(xiàn)的視頻前景分割算法以及基于交替凸優(yōu)化的視頻對(duì)象分割算法對(duì)隨機(jī)選取的10個(gè)動(dòng)態(tài)場(chǎng)景下的短視頻實(shí)施分割,三種方法分割耗時(shí)測(cè)試結(jié)果如表1所示。
表1 不同方法分割耗時(shí)分析
根據(jù)表1可知,隨著動(dòng)態(tài)場(chǎng)景下短視頻時(shí)長(zhǎng)的不斷增加,即短視頻幀數(shù)不斷增加,三種方法的分割時(shí)間均隨之提升,本文方法在不同時(shí)長(zhǎng)動(dòng)態(tài)場(chǎng)景下的短視頻分割時(shí)間均明顯少于其余兩種方法,且隨著短視頻時(shí)長(zhǎng)的增加其分割時(shí)間的提升幅度較?。槐疚姆椒ǖ钠骄指顣r(shí)間為2.10 s,動(dòng)態(tài)雙邊網(wǎng)格實(shí)現(xiàn)的視頻前景分割的平均分割時(shí)間是7.85 s,交替凸優(yōu)化的視頻對(duì)象分割的平均分割時(shí)間是9.79 s。說明隨著動(dòng)態(tài)場(chǎng)景下短視頻時(shí)長(zhǎng)的不斷增加,本文方法的分割時(shí)間較短,分割效率較高。
視頻對(duì)象分割屬一門實(shí)用性強(qiáng)、理論和算法并重的技術(shù),可用于很多領(lǐng)域。目前,很多視頻對(duì)象分割方法,但并不適用于動(dòng)態(tài)場(chǎng)景下的視頻分割,且分割精度較低。因此,提出動(dòng)態(tài)場(chǎng)景下基于VR技術(shù)的短視頻實(shí)時(shí)分割方法,通過對(duì)短視頻的分割,提升分割方法的性能。與傳統(tǒng)方法相比本文方法分割的效果較好,分割準(zhǔn)確度最高可達(dá)98%,且分割的耗時(shí)較短,具有一定可行性。