于萬(wàn)波,范晴濤
基于三角函數(shù)迭代的視頻數(shù)據(jù)特征提取
于萬(wàn)波,范晴濤
(大連大學(xué)信息工程學(xué)院,遼寧 大連 116622)
在計(jì)算機(jī)視覺(jué)研究中,基于視頻數(shù)據(jù)進(jìn)行圖像對(duì)象識(shí)別逐漸增多。針對(duì)視頻數(shù)據(jù)的特征提取,提出了一種基于三角函數(shù)迭代提取視頻三維迭代軌跡特征的方法。該方法是考慮視頻數(shù)據(jù)的時(shí)間空間維度,利用三角函數(shù)構(gòu)造三維動(dòng)力系統(tǒng),整體一次性進(jìn)行視頻段數(shù)據(jù)特征的抽取,提取出一種近似混沌吸引子的三維特征點(diǎn)集,這種視頻數(shù)據(jù)迭代特征實(shí)際上是迭代軌跡點(diǎn)集合。以VidTIMIT數(shù)據(jù)集進(jìn)行人臉識(shí)別實(shí)驗(yàn),發(fā)現(xiàn)增加初始迭代值的個(gè)數(shù),減少迭代次數(shù)后,提取出的特征點(diǎn)集合具有更好的效果。當(dāng)VidTIMIT的43組559個(gè)視頻全部參與實(shí)驗(yàn),識(shí)別率達(dá)到88.16%,與現(xiàn)有文獻(xiàn)中記載的其他方法相比,具有識(shí)別率高、計(jì)算時(shí)間少的特點(diǎn),初步證實(shí)了該三維視頻迭代軌跡特征具有實(shí)用性,同時(shí)也值得進(jìn)一步研究驗(yàn)證與分析。
動(dòng)力系統(tǒng);迭代;視頻;人臉識(shí)別
計(jì)算機(jī)視覺(jué)相關(guān)研究在實(shí)際工作領(lǐng)域具有廣泛的應(yīng)用,同時(shí)有重要的理論研究?jī)r(jià)值。研究人員給出了圖像的多種特征提取與處理方法,取得了大量的研究成果。文獻(xiàn)[1-8]選自最近出版的不同期刊,具有一定的代表性。如,F(xiàn)RIED等[1]基于文本的視頻編輯,給出了特寫(xiě)鏡頭的編輯方法;TRUJILLO等[2]研究連續(xù)的運(yùn)動(dòng)信號(hào)在語(yǔ)義理解中的作用,強(qiáng)調(diào)了視頻在語(yǔ)義理解中的作用;XIE等[3]基于非線(xiàn)性擴(kuò)展在線(xiàn)多實(shí)例學(xué)習(xí)的早期表達(dá)式檢測(cè),認(rèn)為非線(xiàn)性在其研究中具有重要的意義;ZHAI等[4]提出了一種基于雙稀疏先驗(yàn)的會(huì)議視頻聯(lián)合注視校正與人臉美化方法;LIU等[5]利用單幅圖像以人為中心的軌跡分割,使用了細(xì)粒度方法,取得了較好的效果;LIU等[6]基于bag-of-neighbors的多視圖拉普拉斯特征映射進(jìn)行RGB-D人類(lèi)情感識(shí)別,在人臉圖像庫(kù)中得到了實(shí)驗(yàn)驗(yàn)證;YU等[7]在圖像分類(lèi)時(shí),使用了稀疏矩陣的投影學(xué)習(xí)方法,在實(shí)例中應(yīng)用了稀疏逼近的圖像分類(lèi)方法;LIANG等[8]給出了一種面部和身體表情的網(wǎng)絡(luò)表示方法,利用多變量連接模式獲取分類(lèi)的證據(jù),進(jìn)行了實(shí)驗(yàn)驗(yàn)證與理論分析。
另外,關(guān)于混沌吸引子、動(dòng)力系統(tǒng)與迭代的研究包括:文獻(xiàn)[9]研究了三角函數(shù)的混沌特性;文獻(xiàn)[10]利用三角函數(shù)與人臉圖像構(gòu)造動(dòng)力系統(tǒng)提取圖像特征,進(jìn)行人臉識(shí)別研究。該特征也稱(chēng)為迭代軌跡、圖像迭代吸引子等,其初步表達(dá)能力得到確認(rèn)。其特征獲取方法簡(jiǎn)單,運(yùn)算速度快,與人腦的視覺(jué)機(jī)制可能存在某種聯(lián)系。文獻(xiàn)[10]分別利用正弦函數(shù)和小波函數(shù)作為輔助函數(shù)構(gòu)造非線(xiàn)性迭代系統(tǒng),對(duì)相同的圖像進(jìn)行迭代得到不同的吸引子特征點(diǎn)集,但其實(shí)驗(yàn)發(fā)現(xiàn)三角函數(shù)更容易產(chǎn)生混沌吸引子特征點(diǎn)集,且質(zhì)量較高,所以在后續(xù)的人臉識(shí)別實(shí)驗(yàn)中使用了正弦函數(shù)作為輔助函數(shù)。同時(shí),對(duì)圖像進(jìn)行灰度調(diào)整以提高吸引子特征點(diǎn)集的質(zhì)量,然后使用Euler方法進(jìn)行迭代,得到圖像的特征點(diǎn)矩陣進(jìn)行人臉識(shí)別實(shí)驗(yàn),在Yalelfaces數(shù)據(jù)集上其識(shí)別率達(dá)到了87.33%。文獻(xiàn)[11]將雙二次有理貝塞爾曲面函數(shù)與圖像構(gòu)造非線(xiàn)性動(dòng)力系統(tǒng)進(jìn)行迭代,對(duì)迭代得到的3組人臉圖像特征點(diǎn)集進(jìn)行Radon變換,考慮到噪聲等因素的影響,進(jìn)行擬合處理得到擬合曲線(xiàn),對(duì)其中一幅圖像與其他3組33幅圖像計(jì)算相關(guān)系數(shù),結(jié)果顯示相似圖像的相關(guān)系數(shù)較大。文獻(xiàn)[12]使用離散余弦變換(discrete cosine transform,DCT)基函數(shù)作為輔助函數(shù)與人臉圖像迭代得到近似混沌吸引子特征點(diǎn)集,并對(duì)二維的特征點(diǎn)集進(jìn)行傅里葉變換,其中吸引子特征點(diǎn)集小的進(jìn)行變換后識(shí)別率得到了提升。
本文在這些已有方法基礎(chǔ)上,將二維圖像識(shí)別拓展為三維視頻識(shí)別,給出了一種利用三維動(dòng)力系統(tǒng)提取視頻數(shù)據(jù)特征的算法,該方法作為一種新的視頻數(shù)據(jù)處理操作方法,有待于進(jìn)一步分析。
目前,文獻(xiàn)發(fā)表的聯(lián)系緊密的相關(guān)工作都是基于二維灰度圖像進(jìn)行的[10-12],其本質(zhì)上均是利用式(1)進(jìn)行迭代,即
其中,(,)為輔助函數(shù);(,)為一個(gè)灰度圖像;2為圖像在(,)位置處的灰度值。(串行)迭代方法為,給定一個(gè)初始值點(diǎn)(,),代入式(1),即可得到二維點(diǎn)(1,2),并記載下該點(diǎn)(1,2);然后將1,2的值分別賦值給,,再代入式(1),可以得到一個(gè)新的二維點(diǎn)(1,2),再記載這個(gè)新的二維點(diǎn)(1,2),如此重復(fù),得到個(gè)二維點(diǎn),作為這個(gè)灰度圖像(,)的特征。實(shí)驗(yàn)與理論分析均證實(shí):相近似的圖像其迭代軌跡的相關(guān)系數(shù)較大,所以,迭代軌跡可以作為圖像識(shí)別的特征。
還有一種(并行)迭代方法就是,同時(shí)給定多個(gè)初始值,例如,圖像的所有像素點(diǎn),均作為初始值點(diǎn),只迭代1次或2次。實(shí)驗(yàn)與理論分析均證實(shí)[13]:系統(tǒng)的混沌特性越強(qiáng),這2種方法(串行與并行)得到的軌跡越接近。文獻(xiàn)[9]通過(guò)實(shí)驗(yàn)方法得到的結(jié)論是,三角函數(shù)構(gòu)造動(dòng)力系統(tǒng),其混沌特性較強(qiáng),參數(shù)的混沌區(qū)間較大,所以文獻(xiàn)[10]與文獻(xiàn)[12]均使用了三角函數(shù)作為輔助函數(shù)。
不論是串行方法,還是并行方法,該迭代方法獲取的軌跡點(diǎn)序列(特征點(diǎn)集合),本質(zhì)上是對(duì)圖像的一種“截取”,特征點(diǎn)集合可以作為一種特殊的“截面”。這個(gè)特征“截面”與圖像有關(guān),也與輔助函數(shù)有關(guān);當(dāng)輔助函數(shù)一定時(shí),圖像的近似程度大,截面的近似程度就大。所以,原有文獻(xiàn)利用特征點(diǎn)集合計(jì)算相關(guān)系數(shù),進(jìn)行人臉圖像識(shí)別,取得了一定的效果。
圖1是使用文獻(xiàn)[10]的方法提取的圖像軌跡點(diǎn)集,并可看出,同一個(gè)人的特征點(diǎn)集合近似程度較大,實(shí)際上通過(guò)數(shù)學(xué)計(jì)算可以證實(shí)這一點(diǎn)。
這種方法將圖像與輔助函數(shù)交織在一起,然后提取圖像特征。輔助函數(shù)本質(zhì)上是一種載體,其與該運(yùn)作方法是有效的,可進(jìn)一步研究。文獻(xiàn)[9-12]不只是研究圖像識(shí)別,還設(shè)想從識(shí)別方法入手,改進(jìn)數(shù)據(jù)的存儲(chǔ)機(jī)制,探索新的表達(dá)方法。
圖1 圖像及其迭代特征點(diǎn)集
本文方法是將二維系統(tǒng)改造為新的三維系統(tǒng),提取視頻的特征。從已有的工作經(jīng)驗(yàn)看,使用三角函數(shù)作為輔助函數(shù)有很多優(yōu)勢(shì),并繼續(xù)使用三角函數(shù)作為輔助函數(shù)。
(灰度)視頻圖像數(shù)據(jù)對(duì)應(yīng)著三維數(shù)組或三元函數(shù),所以在構(gòu)造三維非線(xiàn)性動(dòng)力系統(tǒng)時(shí),采用了余弦函數(shù)作為輔助函數(shù)。如式(2),系統(tǒng)由2個(gè)余弦組合函數(shù)與一個(gè)視頻函數(shù)構(gòu)成。選擇2個(gè)余弦函數(shù)線(xiàn)性組合作為輔助函數(shù),其頻率、導(dǎo)數(shù)等選擇上具有可控的差異化,這樣便于在迭代過(guò)程中得到視頻圖像(曲面)上不同位置的特征點(diǎn)。
其中,,,?,?[1,],?[1,],?[1,];r與a,b,c為參數(shù)。
首先研究提取視頻圖像的迭代軌跡特征。目前研究結(jié)果表明:式(2)中的組合三角函數(shù)與(不同系數(shù)的),具有極強(qiáng)的“混沌化”功能,即該類(lèi)函數(shù)與其他函數(shù)構(gòu)成動(dòng)力系統(tǒng)后混沌的概率極大[13]。例如,用這樣的三角函數(shù)與其他(收斂)函數(shù)構(gòu)造系統(tǒng),隨機(jī)生成系數(shù),當(dāng)與的系數(shù)平均值大于2時(shí),混沌的概率可以達(dá)到99%。理論分析與實(shí)驗(yàn)結(jié)果顯示,混沌特性強(qiáng)的函數(shù)作為輔助函數(shù),更有利于迭代軌跡作為圖像特征。所以本文使用該三角函數(shù)作為輔助函數(shù)。
式(2)中的函數(shù)與雖然形式上相同,但是因?yàn)閰?shù)不同,所以其周期不同,局部振幅不同,高低錯(cuò)落,差異很大。隨機(jī)生成系數(shù),其周期基本均達(dá)到1 000以上,非常適合于作為輔助函數(shù)。
在自變量值域的選擇上,,與視頻的分辨率與幀數(shù)(維度)大小一致,的選擇上,要根據(jù)選取的視頻幀數(shù)來(lái)確定,這是為了保證迭代過(guò)程中不會(huì)漏掉視頻的某個(gè)區(qū)域。視頻段中每幅圖像大小為×,一共幅(幀)。為了實(shí)現(xiàn)迭代,并減少計(jì)算量,所以在迭代前,將整數(shù)點(diǎn)位置的三角函數(shù)值(也變成整數(shù)后),存儲(chǔ)在三維數(shù)組中。即計(jì)算(,,)與(,,)得到的三維矩陣元素值要調(diào)整成為[1,],[1,]之間的整數(shù),并進(jìn)行系統(tǒng)迭代獲取人臉視頻的迭代特征點(diǎn)集合,具體步驟如下:
算法1.視頻迭代軌跡特征提取
輸入:幀圖像(視頻按照時(shí)間先后分割得到);
輸出:存儲(chǔ)迭代軌跡特征的三維矩陣IteratMFeature (其元素為0或者1)。
以圖2視頻為例(截取18幀),根據(jù)算法1的迭代方法提取該視頻的迭代軌跡點(diǎn)集合。取60幀圖像進(jìn)行實(shí)驗(yàn),每幀圖像的大小是450×800。
(1)輔助函數(shù)的頻率決定迭代序列周期的大小以及遍歷的范圍,根據(jù)算法1中第5和6步的迭代方法,只用一個(gè)迭代初始值(取Num=1,串行迭代)進(jìn)行試驗(yàn),從一個(gè)隨機(jī)點(diǎn)出發(fā),迭代600次后得到的軌跡點(diǎn),如圖3所示(其參數(shù)r;a,b,c分別取表1和2中的數(shù)值),結(jié)合圖與數(shù)值可歸納得到:輔助函數(shù)頻率較大時(shí)軌跡點(diǎn)較多,反之較少。
圖2 一段視頻節(jié)選
圖3 迭代600次得到迭代點(diǎn)圖((a),(b)的參數(shù)rij 取表1中的數(shù)值,參數(shù)ai,bi,ci分別取表2中的數(shù)值)
表1 參數(shù)rij的數(shù)值
表2 參數(shù)ai,bi.ci的數(shù)值
(2) 將迭代初始值增多(并行迭代),迭代次數(shù)減少;比如=1∶20∶450,=1∶40∶800,=1∶3∶60,共計(jì)8 800個(gè)迭代初始值,迭代次數(shù)分別采用1,2,30進(jìn)行迭代(算法1中取1,2,30),得到的軌跡如圖4所示。
圖4 不同迭代次數(shù)的迭代軌跡點(diǎn)圖
根據(jù)圖4可以看出,迭代初始值相同時(shí),隨著迭代次數(shù)增加,得到的軌跡點(diǎn)數(shù)減少,但是逐漸穩(wěn)定,這是動(dòng)力系統(tǒng)的迭代軌跡特性。如果迭代次數(shù)足夠多,將會(huì)得到最終的系統(tǒng)穩(wěn)定狀態(tài)即吸引子。每個(gè)吸引子都代表著這段視頻的一種本質(zhì)的特征,當(dāng)輔助函數(shù)頻率比較小時(shí),曲面振蕩的比較小。當(dāng)訓(xùn)練的樣本數(shù)少時(shí),對(duì)于人臉識(shí)別有一定的優(yōu)勢(shì)。
在很多場(chǎng)合,視頻可以看作是由圖像組成的具時(shí)序關(guān)系的特殊序列,因此基于視頻的人臉特征提取,實(shí)際上就是從多幀圖像中提取特征。該實(shí)驗(yàn)將采用VidTIMIT數(shù)據(jù)集,數(shù)據(jù)集有43個(gè)人,每個(gè)人有13段視頻,共計(jì)559段視頻;在每個(gè)人的13段視頻中,有3段視頻為上下左右大幅度搖頭,其余10段均為對(duì)話(huà)視頻。人臉識(shí)別的本質(zhì)是提取面部特征,然后將其與其他面部圖像特征比較。在識(shí)別之前,人臉通常會(huì)被檢測(cè)到并被切割。鑒于此,需對(duì)該數(shù)據(jù)集的556個(gè)視頻,超過(guò)十萬(wàn)幀的圖像進(jìn)行人臉檢測(cè),得到每一幀的人臉圖像并將其進(jìn)行保存;然后在預(yù)處理后的人臉視頻上應(yīng)用算法1提取人臉視頻迭代特征,如圖5所示。
圖5 人臉視頻迭代特征提取((a)原視頻分離為每一幀圖像;(b)視頻的每一幀圖像僅有人臉;(c)經(jīng)過(guò)算法1得到的人臉視頻迭代軌跡特征,其參數(shù)為a1=0.00756; b1=0.00036; c1=0.00600; a2=0.00062; b2=0.00674; c2=0.00732; r11,r12, r13均取值0.01; r21,r22,r23均取值0.01753)
使用算法1提取人臉視頻迭代特征,不同的人提出的特征具有差異性(圖6),利用其差異性就可進(jìn)行人臉識(shí)別。VidTIMIT數(shù)據(jù)集經(jīng)常被用于人臉?lè)指?、識(shí)別等[14-15],其含音頻數(shù)據(jù)和視頻數(shù)據(jù),本實(shí)驗(yàn)僅使用其中的視頻數(shù)據(jù),再進(jìn)行預(yù)處理后,對(duì)人臉視頻隨機(jī)抽取54幀進(jìn)行特征提取,并將其儲(chǔ)存在矩陣中,儲(chǔ)存過(guò)程參見(jiàn)算法1;之后,利用圖6展示的迭代特征差異性,并通過(guò)算法2進(jìn)行人臉視頻識(shí)別。
圖6 人臉視頻迭代特征對(duì)比((a)人臉視頻每幀圖像;(b)隨機(jī)抽取54幀得到的人臉視頻迭代特征;以上迭代特征參數(shù)取a1=0.00756; b1=0.00036; c1=0.006; a2=0.00062; b2=0.00674; c2=0.00732; r1i=0.01, r2i=0.01753, i=1,2,3,可以看出同一個(gè)人的視頻迭代特征是相似的)
算法2.人臉視頻識(shí)別
輸入:一共組視頻,以及待識(shí)別的視頻Vid;
輸出:識(shí)別結(jié)果。
在實(shí)驗(yàn)中提取的迭代軌跡特征是稀疏矩陣,在使用Matlab中的corrcoef 函數(shù)計(jì)算相關(guān)系數(shù)。計(jì)算相關(guān)系數(shù)耗費(fèi)的時(shí)間占據(jù)了整個(gè)識(shí)別過(guò)程的大部分時(shí)間,因此為了降低時(shí)間消耗,使用Matlab中的imresize3函數(shù)將視頻數(shù)據(jù)迭代軌跡特征調(diào)整大小為64×64×64,采用最近鄰插值法;實(shí)驗(yàn)結(jié)果顯示,識(shí)別率并未降低,這可能因?yàn)樘卣骶仃囀窍∈杈仃嚨脑颉?/p>
實(shí)驗(yàn)環(huán)境是在Windows 10操作系統(tǒng)下,處理器為Inter(R) Core(TM) i7-7700 CPU @360 GHz,RAM 8 G,使用的仿真軟件為MATLAB;實(shí)驗(yàn)首先是在10、20組樣本的基礎(chǔ)上進(jìn)行,分別選取每個(gè)組視頻中的1~5個(gè)視頻進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果見(jiàn)表3,結(jié)果顯示總體識(shí)別率均很好,其中訓(xùn)練視頻數(shù)=2時(shí)識(shí)別率最高,因此在實(shí)驗(yàn)中選取=2得到特征IteratMFeature (:,:,:)進(jìn)行實(shí)驗(yàn)。
表3 不同訓(xùn)練視頻數(shù)q下的識(shí)別率(%)
采用每組取2個(gè)視頻作為訓(xùn)練集提取對(duì)比特征的實(shí)驗(yàn)結(jié)果見(jiàn)表4,實(shí)驗(yàn)樣本為10組,20組,30組,43組,識(shí)別率分別為94.55%,93.64%,91.82%和88.16%;實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練樣本比例不變的情況下,隨著實(shí)驗(yàn)樣本增大,識(shí)別率未出現(xiàn)大的下降;說(shuō)明本文給出的視頻迭代軌跡特征的魯棒性強(qiáng)。與其他特征相比,人臉視頻的迭代軌跡特征提取沒(méi)有復(fù)雜數(shù)學(xué)計(jì)算過(guò)程,具有采集簡(jiǎn)單、快速的特點(diǎn),實(shí)驗(yàn)證明,人臉視頻迭代軌跡特征在人臉視頻的識(shí)別上是有效的。
表4 VidIMIT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
在文獻(xiàn)[15]中,選取VidTIMIT數(shù)據(jù)集中30個(gè)人的視頻數(shù)據(jù)作為實(shí)驗(yàn)樣本,選取10%~50%,以步長(zhǎng)10%選擇樣本作為訓(xùn)練樣本,分別使用AlexNet,GoogLeNet與ResNet-18的3個(gè)深度學(xué)習(xí)模型在30人的樣本上進(jìn)行了人臉識(shí)別實(shí)驗(yàn);根據(jù)文獻(xiàn)[15]的實(shí)驗(yàn)方法,將同樣選擇30組樣本,取300個(gè)視頻,按照相同的訓(xùn)練樣本比例再次進(jìn)行試驗(yàn);結(jié)合文獻(xiàn)[15]中的實(shí)驗(yàn)結(jié)果,給出圖7的識(shí)別率對(duì)比圖。由圖7可以看出,在訓(xùn)練樣本比例為10%和20%時(shí),本文算法的識(shí)別率是高于其他3個(gè)模型的,在30%,40%,50%時(shí),識(shí)別率高于AlexNet,GoogLeNet模型,略低于ResNet-18模型,并且訓(xùn)練樣本在20%的情況下,識(shí)別率高于ResNet-18模型在30%的訓(xùn)練樣本,略低于ResNet-18模型在40%和50%訓(xùn)練樣本的識(shí)別率,證明了本文算法不需要很多的訓(xùn)練集就可以得到有效的視頻迭代軌跡特征,這相對(duì)于深度學(xué)習(xí)模型是一個(gè)優(yōu)勢(shì)。
圖7 本文算法與AlexNet,GoogLeNet,ResNet-18識(shí)別率對(duì)比
視頻的三維迭代軌跡特征作為一種新的視頻數(shù)據(jù)特征,類(lèi)似于吸引子。吸引子是動(dòng)力系統(tǒng)穩(wěn)定后的一種穩(wěn)態(tài),而迭代軌跡特征并不是穩(wěn)態(tài),在前人的研究中很多都是構(gòu)造動(dòng)力系統(tǒng),得到吸引子,但是在實(shí)際應(yīng)用中且未必需要得到系統(tǒng)最后的穩(wěn)態(tài)。在人臉識(shí)別方面,如果將吸引子作為圖像的識(shí)別特征,無(wú)疑需引入大量的計(jì)算,并耗費(fèi)大量的時(shí)間,通過(guò)實(shí)驗(yàn)分析結(jié)果可知,迭代次數(shù)2次和30次的迭代軌跡差別并不大,因此本次實(shí)驗(yàn)采用的是迭代2次的方法,實(shí)驗(yàn)結(jié)果顯示,視頻的迭代軌跡就可以達(dá)到識(shí)別效果,因此不需要大量迭代去得到吸引子特征,可以節(jié)約大量的時(shí)間。
本文考慮視頻的時(shí)間維度,將視頻作為三維函數(shù),與三角函數(shù)構(gòu)造動(dòng)力系統(tǒng),提取人臉視頻迭代軌跡特征,作為一種新的視頻特征進(jìn)行人臉識(shí)別研究。該特征提取相較于其他的特征提取沒(méi)有復(fù)雜的數(shù)學(xué)計(jì)算,也無(wú)需深度學(xué)習(xí)的多層網(wǎng)絡(luò)結(jié)構(gòu),具有特征提取方法簡(jiǎn)單、計(jì)算時(shí)間較少的優(yōu)點(diǎn),該方法已經(jīng)超過(guò)目前一些較好的人臉識(shí)別方法[15]。本實(shí)驗(yàn)證明了視頻迭代軌跡特征的實(shí)用性,對(duì)比分析其他深度學(xué)習(xí)研究成果,該算法在訓(xùn)練樣本比例小的情況下可以得到與其相比較好的識(shí)別率。下一步工作是在更多的視頻集上進(jìn)行實(shí)驗(yàn),驗(yàn)證并改進(jìn)該方法,同時(shí)進(jìn)行深入的理論分析。
[1] FRIED O, TEWARI A, ZOLLH?FER M, et al. Text-based editing of talking-head video[J]. ACM Transactions on Graphics, 2019, 38(4): 1-14.
[2] TRUJILLO J P, SIMANOVA I, BEKKERING H, et al. The communicative advantage: how kinematic signaling supports semantic comprehension[J]. Psychological Research, 2019, 5: 1-15.
[3] XIE L P, TAO D C, WEI H K. Early expression detection via online multi-instance learning with nonlinear extension[J]. IEEE Transactions on Neural Networks and Learning Systems,2018, 30(5): 1486-1496.
[4] ZHAI D M, LIU X M, JI X Y, et al. Joint gaze correction and face beautification for conference video using dual sparsity prior[J]. IEEE Transactions on Industrial Electronics, 2019, 66(12): 9601-9611.
[5] LIU S, REN G H, SUN Y, et al. Fine-grained human-centric tracklet segmentation with single frame supervision[J/OL]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019. [2020-05-19]. https://doi.org/10.1109/TPAMI.2019.2911936.
[6] LIU S L, GUO S, WANG W, et al. Multi-view laplacian eigenmaps based on bag-of-neighbors for RGB-D human emotion recognition[J]. Information Sciences, 2020, 509: 243-256.
[7] YU Y F, REN C X, JIANG M, et al. Sparse approximation to discriminant projection learning and application to image classification[J/OL]. Pattern Recognition, 2019, 96: 106963. [2020-05-19]. https:// doi.org/10.1016/j.patcog.2019.106963.
[8] LIANG Y, LIU B L, JI J Z, et al. Network representations of facial and bodily expressions: evidence from multivariate connectivity pattern classification[J/OL]. Frontiers in Neuroscience, 2019, 13: 1111. [2020-05-19]. https://doi.org/10.3389/fnins. 2019.01111.
[9] 于萬(wàn)波. 截面的幾何形狀決定三維函數(shù)的混沌特性[J]. 物理學(xué)報(bào), 2014, 63(12): 26-34. YU W B. Geometric shape of cross section determines chaotic properties of three-dimensional functions [J]. Acta Physica Sinice, 2014, 63(12): 26-34 (in Chinese).
[10] 于萬(wàn)波, 王大慶. 曲面迭代的混沌特性及其在人臉識(shí)別中的應(yīng)用[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2015, 27(12): 2264-2271. YU W B, WANG D Q. Chaotic characteristics of surface iteration and its application in face recognition[J]. Journal of Computer-Aided Design & Computer Graphics, 2015, 27(12): 2264-2271 (in Chinese).
[11] YU W B. Application of chaos in image processing and recognition[C]//2017 International Conference on Computer Systems, Electronics and Control (ICCSEC). New York: IEEE Press, 2017: 1108-1113.
[12] 于萬(wàn)波, 王香香, 王大慶. 基于離散余弦變換基函數(shù)迭代的人臉圖像識(shí)別[J]. 圖學(xué)學(xué)報(bào), 2020, 41(1): 88-92. YU W B, WANG X X, WANG D Q. Face image recognition based on iteration of discrete cosine transform basis functions[J]. Journal of Graphics, 2020, 41(1): 88-92 (in Chinese).
[13] 于萬(wàn)波. 混沌的計(jì)算分析與探索[M]. 北京: 清華大學(xué)出版社, 2016: 162-186. YU W B. Computational analysis and Exploration of Chaos[M]. Beijing: Tsinghua University Press, 2016: 162-186 (in Chinese).
[14] LE T H N, SAVVIDES M. A novel shape constrained feature-based active contour model for lips/mouth segmentation in the wild[J]. Pattern Recognition, 2016, 54: 23-33.
[15] BANERJEE S, CHAKRABORTY S. Deepsub: a novel subset selection framework for training deep learning architectures[C]//2019 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2019: 1615-1619.
Feature extraction of video data based on trigonometric function iteration
YU Wan-bo, FAN Qing-tao
(College of Information, Dalian University, Dalian Liaoning 116622, China)
In the research of computer vision, the recognition of image objects based on video data is on an increasing trend. Focusing on the feature extraction of video data, a method based on trigonometric function iteration was proposed to extract 3D iterative trajectory features of the video. Considering the time and space dimensions of video data, this paper constructed a three-dimensional dynamic system by using a trigonometric function, obtained the features of video segment data as a whole in one extraction, and extracted a set of three-dimensional feature points similar to chaotic attractors. This iterative feature of video data is an iterative set of track points. Face recognition experiments using VidTIMIT datasets of face videos show that increasing the number of initial iterations and reducing the number of iterations could lead to a better effect of the extracted feature points set. After 43 groups of 559 videos of VidTIMIT were all experimented with, the recognition rate could reach 88.16%. Compared with other methods recorded in the existing literature, the method proposed in this paper is characterized by high recognition rate and short computing time. It is proved that this 3D video iterative trajectory feature is of great practical significance and requires further research, analysis and verification.
dynamic system; iteration; video; face recognition
TP 391
10.11996/JG.j.2095-302X.2020040512
A
2095-302X(2020)04-0512-08
2020-03-29;
2020-05-19
19 May,2020
29 March,2020;
于萬(wàn)波(1966-),男,吉林長(zhǎng)春人,副教授,博士,碩士生導(dǎo)師。主要研究方向?yàn)閳D形圖像處理、人工智能。E-mail:yu_wb@126.com
YU Wan-bo (1966-), male,associate professor, Ph.D. His main research interests cover graphic image processing, artificial intelligence. E-mail:yu_wb@126.com