摘" 要: 為了精確地提取動(dòng)態(tài)圖像特征,為動(dòng)畫設(shè)計(jì)師提供更全面、更準(zhǔn)確的視覺(jué)信息,文中提出基于SIFT?GMLBP的動(dòng)態(tài)圖像視覺(jué)信息提取方法。以關(guān)鍵點(diǎn)為像素中心,采用局部二值模式(LBP),通過(guò)比較其與鄰域的灰度值獲取LBP碼,實(shí)現(xiàn)動(dòng)態(tài)圖像局部紋理特征捕捉;根據(jù)網(wǎng)格化LBP(MLBP)進(jìn)一步將動(dòng)態(tài)圖像中的像素鄰域劃分為多個(gè)網(wǎng)格,使每個(gè)網(wǎng)格產(chǎn)生一個(gè)LBP值,降低特征向量的維數(shù);結(jié)合Gabor濾波器,通過(guò)多尺度和多方向的紋理分析,提取動(dòng)態(tài)圖像在不同頻率和方向上的局部結(jié)構(gòu)信息,整合所有Gabor濾波器響應(yīng)圖像的GMLBP特征,形成包含原始動(dòng)態(tài)圖像在不同尺度和方向上的豐富紋理信息的特征向量。實(shí)驗(yàn)結(jié)果表明:該方法提取的關(guān)鍵點(diǎn)數(shù)量和分布非常合理,具有較高的穩(wěn)定性和動(dòng)態(tài)信息捕獲能力,且該方法每秒能夠處理高達(dá)30幀的圖像。
關(guān)鍵詞: SIFT; LBP; MLBP; Gabor小波變換; 動(dòng)態(tài)圖像; 局部特征; 特征向量; 視覺(jué)信息提取
中圖分類號(hào): TN911.73?34; TP391" " " " " " " " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " "文章編號(hào): 1004?373X(2024)19?0083?04
Research on dynamic image visual information extraction based on SIFT?GMLBP
ZHENG Wei
(Xinyang Normal University, Xinyang 464000, China)
Abstract: A dynamic image visual information extraction method based on SIFT?GMLBP is proposed. It aims to extract dynamic image features accurately and provide animation designers with more comprehensive and accurate visual information. Key points are taken as pixel centers. By using local binary pattern (LBP) and comparing the grayscale values of the pixel centers and those of their neighboring regions, the LBP codes are obtained to capture local texture features of dynamic images. Furthermore, the pixel neighboring regions in the dynamic images are divided into multiple meshes by mesh?based LBP (MLBP), so that each mesh generates an LBP value and the dimensionality of the feature vectors are reduced. By combining Gabor filters and after multi?scaled and multi?directional texture analysis, the local structural information of dynamic images at different frequencies and directions is extracted. The GMLBP features of all of the Gabor filter response images are integrated to form feature vectors containing rich texture information of the original dynamic images at different scales and directions. The experimental results show that the number and distribution of the key points extracted with the proposed method are very reasonable. The proposed method is of high stability and dynamic information capture ability. In addition, it can process up to 30 frames of images per second.
Keywords: SIFT; LBP; MLBP; Gabor wavelet transform; dynamic image; local feature; feature vector; visual information extraction
0" 引" 言
動(dòng)態(tài)圖像作為動(dòng)畫設(shè)計(jì)的核心元素,承載著豐富的視覺(jué)信息和多變的藝術(shù)風(fēng)格[1]。在動(dòng)畫中,動(dòng)態(tài)圖像通過(guò)連續(xù)變化的幀來(lái)展現(xiàn)角色動(dòng)作、場(chǎng)景轉(zhuǎn)換以及情感表達(dá),是吸引觀眾注意力、傳遞故事情節(jié)的關(guān)鍵。因此,如何從動(dòng)態(tài)圖像中有效地提取和利用視覺(jué)信息[2],成為了動(dòng)畫設(shè)計(jì)領(lǐng)域的一個(gè)重要的研究方向,對(duì)于提升動(dòng)畫設(shè)計(jì)的質(zhì)量和效率具有重要意義。
很多專家和學(xué)者不斷探索更為高效和準(zhǔn)確的圖像特征提取方法。如文獻(xiàn)[3]提出一種鄰域標(biāo)簽融合的動(dòng)態(tài)圖像視覺(jué)信息提取方法。文獻(xiàn)[4]提出一種視覺(jué)傳感器的動(dòng)作圖像信息提取方法。文獻(xiàn)[5]提出一種視覺(jué)傳感圖像處理及信息提取方法,通過(guò)構(gòu)建基于被動(dòng)視覺(jué)傳感的自主導(dǎo)引平臺(tái),并在絕對(duì)二次曲線(IAC)的約束下,求解攝像機(jī)的內(nèi)參數(shù)初值,利用混沌粒子群(CPSO)算法尋找到全局最優(yōu)解,實(shí)現(xiàn)攝像機(jī)參數(shù)的高精度標(biāo)定。文獻(xiàn)[6]提出一種視覺(jué)顯著性的動(dòng)態(tài)圖像信息提取方法。但是相關(guān)方法在紋理特征描述上存在缺陷。
本文研究基于SIFT?GMLBP的動(dòng)態(tài)圖像視覺(jué)信息提取方法,提升動(dòng)畫的視覺(jué)效果,提高動(dòng)畫制作的效率,為動(dòng)畫創(chuàng)作者帶來(lái)更大的創(chuàng)作自由和靈感空間。
1" 動(dòng)態(tài)圖像視覺(jué)信息提取方法
1.1" 基于SIFT算法的動(dòng)態(tài)圖像特征向量提取
SIFT算法能夠有效地從動(dòng)態(tài)圖像中檢測(cè)并提取出尺度不變的關(guān)鍵點(diǎn)[7?8],這些關(guān)鍵點(diǎn)在動(dòng)態(tài)圖像的縮放、轉(zhuǎn)動(dòng)情況下均可維持較高的相對(duì)穩(wěn)定性,助力下文的特征匹配。
當(dāng)篩選出動(dòng)態(tài)圖像尺度空間的關(guān)鍵點(diǎn)后,求出關(guān)鍵點(diǎn)的梯度大小以及方向:
[χ(x,y)=((F(x+1,y)-F(x-1,y))2+(F(x,y+1)-F(x,y-1))2)12] (1)
[?(x,y)=arctanF(x,y+1)-F(x,y-1)F(x+1,y)-F(x-1,y)] (2)
式中:[F]表示動(dòng)態(tài)圖像中關(guān)鍵點(diǎn)的尺度;[χ(x,y)]表示動(dòng)態(tài)圖像中關(guān)鍵點(diǎn)的梯度大??;[?(x,y)]表示動(dòng)態(tài)圖像中關(guān)鍵點(diǎn)的方向。
對(duì)于每一個(gè)檢測(cè)到的關(guān)鍵點(diǎn),SIFT算法均可獲取相應(yīng)的特征向量,包含關(guān)鍵點(diǎn)周圍區(qū)域的信息,能夠唯一地標(biāo)識(shí)這個(gè)關(guān)鍵點(diǎn)[9?10]。在后續(xù)的動(dòng)態(tài)圖像視覺(jué)信息提取中,這些特征向量將被用于比較動(dòng)態(tài)圖像中的關(guān)鍵點(diǎn)是否匹配。
1.2" 基于LBP算法的動(dòng)態(tài)圖像紋理特征提取
LBP是一種描述動(dòng)態(tài)圖像局部紋理特征的算子[11?12],通過(guò)將隸屬于像素中心與鄰域的灰度值一一比對(duì)的方式塑造LBP碼,形成該區(qū)域的紋理描述符。LBP的計(jì)算過(guò)程如下。
1) 選擇中心像素:將1.1節(jié)檢測(cè)到的動(dòng)態(tài)圖像中的關(guān)鍵點(diǎn)作為中心像素。
2) 定義鄰域:定義一個(gè)以中心像素為中心的鄰域,該鄰域的大小由參數(shù)[(s,r)]確定,其中[s]表示鄰域像素的數(shù)量,[r]是中心像素到鄰域像素的半徑。
3) LBP碼求解:一一比對(duì)各鄰域與中心的像素灰度值[fs]與[fc]。如果[fs≤fc],則在該位置上的LBP碼為0;否則為1。這個(gè)過(guò)程按固定的方向進(jìn)行。
4) LBP值塑造:變更LBP碼的二進(jìn)制形式為十進(jìn)制形式,完成動(dòng)態(tài)圖像中心像素的LBP值塑造。
基于LBP算法獲取動(dòng)態(tài)圖像局部紋理特征的過(guò)程如圖1所示。計(jì)算公式表達(dá)如下:
[LBPs,r=i=1s2i-1l(fi-fc)] (3)
其中:
[l(x)=1," " " "x≥00," " " "xlt;0] (4)
1.3" 基于GMLBP的動(dòng)態(tài)圖像視覺(jué)信息提取
由于結(jié)合1.1節(jié)SIFT算法和1.2節(jié)的LBP算法,對(duì)動(dòng)態(tài)圖像視覺(jué)信息的提取過(guò)程中增加了特征向量的維數(shù),并且為了降低噪聲對(duì)提取過(guò)程中的敏感程度,提高局部相似特征的區(qū)分程度,更精細(xì)地捕捉動(dòng)態(tài)圖像的紋理特征,通過(guò)MLBP將動(dòng)態(tài)圖像中的像素鄰域劃分為多個(gè)網(wǎng)格,每個(gè)網(wǎng)格內(nèi)部的像素被考慮為一個(gè)整體單元,并根據(jù)它們與中心像素的灰度關(guān)系進(jìn)行編碼,從而使每個(gè)網(wǎng)格產(chǎn)生一個(gè)LBP值,而不是每個(gè)像素都產(chǎn)生一個(gè)LBP值,降低了特征向量的維數(shù)。
在MLBP算法[13]中,動(dòng)態(tài)圖像中心像素鄰域的特征值計(jì)算公式為:
[MLBPjs,r=i=1s2i-1(fφ-fi)] (5)
式中,[φ=1+mod((i+s+j-1),s),j=1,2,…,s2],[mod]為余數(shù),用于描述求解中心像素點(diǎn)水平、豎直坐標(biāo)之比。
為了進(jìn)一步增強(qiáng)不同目標(biāo)和背景之間的區(qū)分度,通過(guò)考慮動(dòng)態(tài)圖像中心像素的邊緣信息,為每個(gè)MLBP編碼分配了一個(gè)權(quán)重[ωx,y],即像素的梯度幅度,邊緣區(qū)域被賦予更大的權(quán)重,從而在特征向量中占據(jù)更重要的位置,計(jì)算公式為:
[ωx,y=Z2x+Z2y] (6)
式中:[Zx]、[Zy]均用于描述一階倒數(shù),分別對(duì)應(yīng)于[x]、[y]方向的像素。
在動(dòng)態(tài)圖像中,一個(gè)[M×N]像素塊的MLBP特征的第[i]維特征值可用公式表示為:
[MLBPi=x=0M-1y=0N-1ωx,yζ(m,n)] (7)
式中,[ζ(m,n)]表示指示函數(shù),當(dāng)[m=n]時(shí),返回1;否則,返回0。說(shuō)明只累加那些MLBP編碼與當(dāng)前特征維度[i]相同的像素的梯度幅度。
Gabor變換可利用具備頻率和方向差異的Gabor濾波器,捕捉動(dòng)態(tài)圖像的局部結(jié)構(gòu)信息,更適用于尺度和方向變換情況。在MLBP的基礎(chǔ)上,使用Gabor濾波器對(duì)動(dòng)態(tài)圖像進(jìn)行濾波,并在濾波后的圖像上應(yīng)用MLBP編碼,使提取的特征不僅考慮了像素鄰域之間的空間關(guān)系,還考慮了不同尺度和方向上的紋理信息,從而進(jìn)一步提取圖像的復(fù)雜特征。具體操作步驟如下。
1) 使用一系列不同尺度和方向的Gabor濾波器對(duì)動(dòng)態(tài)圖像進(jìn)行濾波。通過(guò)頻率[γ]和標(biāo)準(zhǔn)偏差[σx]、[σy]描述高斯包絡(luò)為:
[?(x,y)=12πσxσye[-(12)(x2/σ2x+y2/σ2y)+2πjωx]] (8)
進(jìn)一步對(duì)動(dòng)態(tài)圖像進(jìn)行旋轉(zhuǎn)、伸縮,獲取Gabor小波。
[?mn(x,y)=a-m?(x',y')] (9)
針對(duì)Gabor核函數(shù),其尺度及方向可分別用[m∈0,1,2,…,T-1]、[n∈0,1,2,…,P-1]進(jìn)行描述,可以進(jìn)一步表示為:
[a=uαuβ-1(T-1)," " ωm,n=uα] (10)
[σx,m,n=(a+1)2ln22πa(a-1)uβ] (11)
[σy,m,n=12πtanπ2ku2α2ln2-12πσx,m,n2] (12)
式中:[uα]、[uβ]分別表示頻帶的上、下限截止頻率,用于衡量濾波器在頻域上的響應(yīng)范圍。
利用Gabor變換的窗以及動(dòng)態(tài)圖像的卷積,從而獲取Gabor濾波器的響應(yīng)公式:
[Wmn=tp(x-t,y-p)?*mn(t,p)] (13)
每個(gè)Gabor濾波器都會(huì)生成一個(gè)響應(yīng)圖像,這些響應(yīng)圖像突出了動(dòng)態(tài)圖像中與該濾波器特定尺度和方向相關(guān)的紋理特征。
2) 對(duì)于每個(gè)Gabor濾波器的響應(yīng)圖像局部紋理特征,應(yīng)用MLBP算法實(shí)現(xiàn)提取。
3) 將所有Gabor濾波器響應(yīng)圖像的MLBP特征進(jìn)行整合,形成一個(gè)綜合的特征向量。這個(gè)特征向量包含了原始動(dòng)態(tài)圖像在不同尺度和方向上的紋理信息。
綜上所述,在提出的SIFT?GMLBP算法中,SIFT算法提取的關(guān)鍵點(diǎn)和描述子被用作GMLBP算法的輸入,GMLBP算法在這些關(guān)鍵點(diǎn)上構(gòu)建網(wǎng)格化結(jié)構(gòu),并求解其中像素鄰域的局部差異,得到更豐富的特征信息。這種結(jié)合使得SIFT?GMLBP算法能夠在復(fù)雜和動(dòng)態(tài)的環(huán)境中更有效地提取圖像的視覺(jué)信息,為動(dòng)畫設(shè)計(jì)師提供了更豐富的視覺(jué)細(xì)節(jié),有助于打造出更具層次感和真實(shí)感的動(dòng)畫效果。
2" 實(shí)驗(yàn)分析
為了驗(yàn)證本文方法的動(dòng)態(tài)圖像視覺(jué)信息提取的有效性,選擇AnimeRun數(shù)據(jù)集中的動(dòng)畫圖像作為實(shí)驗(yàn)對(duì)象,該數(shù)據(jù)集中包含多種動(dòng)態(tài)場(chǎng)景和光照條件變化的動(dòng)態(tài)圖像。在該數(shù)據(jù)集中選取一個(gè)動(dòng)態(tài)圖像,并對(duì)該動(dòng)態(tài)圖像序列進(jìn)行去噪、增強(qiáng)對(duì)比度等操作后,將其修剪至統(tǒng)一的大小,對(duì)其中一張動(dòng)態(tài)圖像通過(guò)本文方法進(jìn)行關(guān)鍵點(diǎn)提取,從而評(píng)估關(guān)鍵點(diǎn)提取的準(zhǔn)確率和穩(wěn)定性。實(shí)驗(yàn)平臺(tái)選取Matlab,設(shè)置硬件為Intel Core i7處理器DDR4 3 200 MHz、NVIDIA RTX 30顯卡,基于以上設(shè)置,得到本文方法的動(dòng)態(tài)圖像關(guān)鍵點(diǎn)提取結(jié)果如圖2所示。
圖2a)為AnimeRun數(shù)據(jù)集中的原始圖像,經(jīng)過(guò)本文方法進(jìn)行關(guān)鍵點(diǎn)提取的結(jié)果如圖2b)所示??梢钥闯?,本文方法不僅能夠準(zhǔn)確提取出動(dòng)態(tài)圖像中的關(guān)鍵點(diǎn),而且在處理復(fù)雜場(chǎng)景和光照條件變化時(shí),也能夠保持較高的性能;同時(shí),本文方法提取到的關(guān)鍵點(diǎn)的分布和密度都較為合理,顯示出較好的穩(wěn)定性和魯棒性。因此,相信本文的視覺(jué)信息提取方法在實(shí)際應(yīng)用中具有廣泛的適用性和潛在的價(jià)值。
為驗(yàn)證本文方法的動(dòng)態(tài)圖像紋理特征提取的有效性,從AnimeRun數(shù)據(jù)集中選取了一個(gè)具有代表性的動(dòng)態(tài)圖像序列,并隨機(jī)選擇了其中的一張圖像作為測(cè)試樣本,應(yīng)用本文提出的紋理特征提取方法對(duì)選定的動(dòng)態(tài)圖像進(jìn)行紋理特征提取,對(duì)提取的紋理特征進(jìn)行了可視化處理,以直觀地展示本文方法的有效性,提取結(jié)果如圖3所示。
在圖3中可以看出,本文方法能夠更準(zhǔn)確地捕捉到圖像中的紋理細(xì)節(jié)和結(jié)構(gòu)信息,并且提取的紋理特征能夠顯著提升動(dòng)畫的紋理細(xì)節(jié)和真實(shí)感,使得動(dòng)畫更加生動(dòng)和逼真,證明了本文方法在實(shí)際應(yīng)用中能夠展現(xiàn)出較好的穩(wěn)定性和魯棒性。
為了進(jìn)一步驗(yàn)證本文方法對(duì)動(dòng)態(tài)圖像視覺(jué)信息提取的能力,在AnimeRun數(shù)據(jù)集中隨機(jī)選取一張動(dòng)態(tài)圖像,經(jīng)過(guò)上述方法處理后,通過(guò)鄰域標(biāo)簽融合方法、視覺(jué)顯著性方法和本文方法進(jìn)行動(dòng)態(tài)圖像視覺(jué)信息的提取。在提取過(guò)程中,記錄三種方法對(duì)該動(dòng)態(tài)圖像提取的關(guān)鍵點(diǎn)數(shù)量、關(guān)鍵點(diǎn)分布、關(guān)鍵點(diǎn)穩(wěn)定性、紋理特征維度、紋理特征描述、動(dòng)態(tài)信息捕獲能力、視覺(jué)信息可視化以及實(shí)時(shí)性能,驗(yàn)證結(jié)果如表1所示。
從表1中可以看出:本文方法在動(dòng)態(tài)圖像的關(guān)鍵點(diǎn)和紋理特征提取方面展現(xiàn)出了顯著的優(yōu)勢(shì),能夠均勻地在關(guān)鍵區(qū)域提取150個(gè)關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)在連續(xù)幀之間表現(xiàn)出高度的穩(wěn)定性,平均位移小且丟失率低,從而確保了運(yùn)動(dòng)物體軌跡和速度變化的準(zhǔn)確捕獲;在紋理特征提取方面,本文方法通過(guò)128維的特征描述子詳細(xì)描述了紋理的類型和復(fù)雜度,為后續(xù)的圖像分析提供了豐富的信息。與鄰域標(biāo)簽融合方法和視覺(jué)顯著性方法相比,本文方法不僅在關(guān)鍵點(diǎn)數(shù)量和分布上更加合理,而且在穩(wěn)定性和動(dòng)態(tài)信息捕獲能力上也更勝一籌。
3" 結(jié)" 語(yǔ)
本文通過(guò)結(jié)合SIFT和GMLBP兩種方法的優(yōu)勢(shì),提出一種新型的動(dòng)態(tài)圖像視覺(jué)信息提取方法。通過(guò)SIFT算法提取圖像的關(guān)鍵點(diǎn)和描述符,再利用GMLBP增強(qiáng)對(duì)圖像紋理特征的捕捉能力。實(shí)驗(yàn)結(jié)果證明了本文方法是一種高效、準(zhǔn)確的動(dòng)態(tài)圖像視覺(jué)信息提取方法。通過(guò)穩(wěn)定的關(guān)鍵點(diǎn)跟蹤和豐富的紋理特征描述,能夠?yàn)閯?dòng)態(tài)圖像分析提供強(qiáng)有力的支持。通過(guò)該研究,期望能夠在動(dòng)態(tài)圖像分析中提供更豐富、更準(zhǔn)確的視覺(jué)信息,進(jìn)而在實(shí)際應(yīng)用中推動(dòng)動(dòng)態(tài)圖像分析技術(shù)的發(fā)展。
參考文獻(xiàn)
[1] 韓曉微,張?jiān)茲?,謝英紅,等.動(dòng)態(tài)異構(gòu)特征融合的水下圖像增強(qiáng)算法[J].控制與決策,2023,38(6):1560?1568.
[2] 李景文,韋晶閃,姜建武,等.多視角監(jiān)控視頻中動(dòng)態(tài)目標(biāo)的時(shí)空信息提取方法[J].測(cè)繪學(xué)報(bào),2022,51(3):388?400.
[3] 李世杰,陳澤少,聶長(zhǎng)武,等.基于鄰域標(biāo)簽融合的煙草薄片視覺(jué)提取方法[J].科技創(chuàng)新與應(yīng)用,2022,12(27):152?156.
[4] ZHANG T, LI Z P, SHIN M, et al. Feature extraction method of snowboard starting action using vision sensor image processing [J]. Mobile information systems, 2022(1): 1?9.
[5] 張?zhí)煲?,朱志明,朱傳輝,等.用于弧焊過(guò)程的視覺(jué)傳感圖像處理及特征信息提取方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,62(1):156?162.
[6] 徐翰文,張闖,陳蘇婷.基于視覺(jué)顯著性的圖像特征提取算法[J].計(jì)算機(jī)應(yīng)用,2022,42(z2):72?78.
[7] 丁國(guó)紳,喬延利,易維寧,等.基于光譜圖像空間的改進(jìn)SIFT特征提取與匹配[J].北京理工大學(xué)學(xué)報(bào),2022,42(2):192?199.
[8] 張浩哲,蔡杰,陳富國(guó).一種基于LBP的高壓開(kāi)關(guān)圖像特征提取方法[J].自動(dòng)化技術(shù)與應(yīng)用,2023,42(2):45?48.
[9] 劉巖,張寧寧,海玲,等.基于機(jī)器視覺(jué)的玉米蟲害區(qū)域SIFT識(shí)別仿真[J].計(jì)算機(jī)仿真,2023,40(7):215?219.
[10] 孫希延,劉博,紀(jì)元法,等.基于SIFT改進(jìn)的無(wú)人機(jī)圖像匹配算法[J].電光與控制,2023,30(5):34?38.
[11] 劉媛媛,何銘,王躍勇,等.基于優(yōu)化SIFT算法的農(nóng)田航拍全景圖像快速拼接[J].農(nóng)業(yè)工程學(xué)報(bào),2023,39(1):117?125.
[12] 劉貫偉,江浩然,張?jiān)品?,?基于LBP特征的人民幣水印圖像的識(shí)別與檢測(cè)[J].機(jī)電產(chǎn)品開(kāi)發(fā)與創(chuàng)新,2022,35(5):145?148.
[13] 陳芯蕊,郭立強(qiáng).基于LP和LBP的紅外與可見(jiàn)光圖像融合算法[J].淮陰師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2023,22(3):210?215.
作者簡(jiǎn)介:鄭" 蔚(1976—),女,河南洛陽(yáng)人,碩士研究生,副教授,研究方向?yàn)閳D像視覺(jué)處理與設(shè)計(jì)。
收稿日期:2024?06?12" " " " " "修回日期:2024?07?05