摘" 要: 針對不同類型運動目標形狀不同、運動模式不一致導致識別難度大的問題,文中提出一種多特征融合下連續(xù)幀圖像運動目標識別方法。通過攝像機對目標進行連續(xù)幀圖像采集,從中提取圖像顏色及紋理特征,經(jīng)歸一化操作和特征間的歐氏距離融合提取多特征后,進行近似距離計算并排序,將前一部分作為長短期記憶網(wǎng)絡(luò)輸入特征向量,構(gòu)建運動目標識別模型,輸出連續(xù)幀圖像運動目標識別結(jié)果。通過實驗驗證,該方法能夠通過一種可視化的頁面將識別結(jié)果顯示出來,便于用戶快速、準確地理解和分析識別結(jié)果,識別速度快、穩(wěn)定可靠,可以為相關(guān)領(lǐng)域提供有效的技術(shù)支持。
關(guān)鍵詞: 多特征融合; 連續(xù)幀圖像; 運動目標識別; 特征提??; 顏色特征; 紋理特征; 歐氏距離; 長短期記憶網(wǎng)絡(luò)
中圖分類號: TN911.73?34; TP391" " " " " " " " "文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2025)05?0049?04
Moving object recognition method for continuous frame image with multi?feature fusion
LIU Zhaoxia
(Taiyuan University of Technology, Taiyuan 030024, China)
Abstract: Aiming at the difficult recognition caused by different shapes and inconsistent motion modes of different types of motion objects, a continuous frame image motion object recognition method based on multi?feature fusion is proposed. The object is subjected to continuous frame image acquisition by a camera, and the image color and texture features are extracted from the continuous frame image. After the multiple features are extracted by normalization and Euclidean distance fusion among features, the approximate distance is calculated and the sorting is performed. The previous part is used as the input feature vector for the long short?term memory network (LSTM), and a motion object recognition model is constructed to output the result of the motion object recognition for continuous frame image. Experiments verified that the proposed method can display the recognition results with a visual page, which facilitates users to understand and analyze the recognition results quickly and accurately. Its recognition speed is fast, its recognition process is stable and its recognition results is reliable, so it can provide effective technical support for related fields.
Keywords: multi?feature fusion; continuous frame image; moving object recognition; feature extraction; color feature; texture feature; Euclidean distance; LSTM
0" 引" 言
連續(xù)幀圖像中運動目標的識別適用于多個領(lǐng)域,如安全監(jiān)控、體育、醫(yī)學、交通等[1],運動目標的有效識別能夠?qū)崿F(xiàn)對不同場景下的實時監(jiān)控和控制,為各個領(lǐng)域提供良好的數(shù)據(jù)支持[2]。在實際的運動目標識別過程中,常伴隨著目標多樣性、環(huán)境復雜性等問題,眾多學者針對種種難點展開詳細分析。文獻[3]使用OV5640攝像頭模塊實時捕獲視頻圖像數(shù)據(jù),對捕獲的圖像數(shù)據(jù)進行差分處理,應(yīng)用濾波算法去除噪聲和不必要的細節(jié),利用形態(tài)學操作進一步強調(diào)和提取運動目標的特征,將處理后的圖像數(shù)據(jù)或提取的特征信息存儲于DDR3存儲器中,以便后續(xù)處理分析,最后借助FPGA通過數(shù)據(jù)來檢測并識別視頻中的運動目標。但FPGA的硬件資源有限,對算法進行資源分配與保證實時性和準確性相互制約,導致實現(xiàn)運動目標的效果局限性較大。文獻[4]通過三維掃描系統(tǒng)捕獲運動場景中所有物體的三維坐標信息,對捕獲的點云圖像進行預處理,去除噪聲和不必要的細節(jié)。通過地平面方程區(qū)分圖像中的背景點云和需要被識別的運動目標點云,使用歐氏聚類法確保目標點云數(shù)據(jù)被準確提取。提取其中的關(guān)鍵點,通過Freeman鏈碼算法進一步強調(diào)目標的輪廓和形狀信息,最終實現(xiàn)圖像運動目標識別。Freeman鏈碼算法對于噪聲和復雜輪廓的適應(yīng)性有限,在處理較為復雜的細節(jié)時,效果較差,導致實現(xiàn)運動目標識別的準確性較差。文獻[5]提出了一種CNN?5GIoT模型,該模型是一個針對物聯(lián)網(wǎng)網(wǎng)絡(luò)中運動目標識別的方法。利用深度學習網(wǎng)絡(luò)提取圖像特征,實現(xiàn)目標的檢測和分類。這一模型結(jié)合了現(xiàn)代集成技術(shù)的優(yōu)勢,包括機器學習和人工智能方法,以及5G等新一代標準,為物聯(lián)網(wǎng)網(wǎng)絡(luò)中的目標識別提供了高效且準確的解決方案。但是CNN模型的網(wǎng)絡(luò)結(jié)構(gòu)較為復雜,通常具有較高的計算復雜度,導致模型推理速度下降,無法滿足實時性要求。
連續(xù)幀圖像中運動目標識別在多領(lǐng)域中具有較大實用性[6]。為了提升目標識別效果,提出一種多特征融合下連續(xù)幀圖像運動目標識別方法,通過長短期記憶網(wǎng)絡(luò)實現(xiàn)運動目標識別,該模型能夠?qū)崿F(xiàn)較為精準、高穩(wěn)定性、實時性的運動目標識別,為相關(guān)領(lǐng)域的研究提供了技術(shù)支持。
1" 連續(xù)幀圖像運動目標識別方法
1.1" 連續(xù)幀圖像運動目標特征提取
首先通過攝像機對目標進行連續(xù)幀圖像采集,對得到的連續(xù)幀圖像進行特征提取,主要包括連續(xù)幀圖像的顏色特征和紋理特征。
1) 顏色特征
通過空間轉(zhuǎn)換圖像像素獲取圖像顏色特征[7],針對圖像HSV顏色空間中代表0~255共256級的紅(R)、綠(G)、藍(B)三個通道的顏色進行轉(zhuǎn)換[8],提取的連續(xù)幀圖像的顏色特征通過組合向量的形式表示為[H,S,V]。
2) 紋理特征
在圖像區(qū)域內(nèi)對應(yīng)的目標表面性質(zhì)稱為紋理特征,通過像素點與鄰域像素間的灰度分布體現(xiàn)。本文通過LBP算子進行連續(xù)幀圖像紋理特征提取。
LBP算子通過圖像像素點與鄰域像素點差異得到二值化差異,依據(jù)權(quán)重值的大小按照順時針順序生成二進制字符串[9],即圖像的LBP紋理特征值,表示為:
[LBPx,y=i, j=1MαIi-Ij] (1)
式中:[Ii]和[Ij]分別表示圖像的像素值和鄰域像素值;[M]表示鄰域像素數(shù)量。
LBP紋理特征提取過程如圖1所示。
在圖1中,對比像素值與鄰域像素值,小于該中心像素值的鄰域像素值變?yōu)?,否則為1,則最終得到的二進制字符串表示為01010001,即提取的LBP紋理特征,表示為[L]。
1.2" 連續(xù)幀圖像運動目標多特征融合
通過1.1節(jié)能夠得到連續(xù)幀圖像中的多種特征,經(jīng)多特征融合,可為后續(xù)的連續(xù)幀圖像運動目標識別提供依據(jù)。
設(shè)得到的特征向量維度為[a],表示為[K=C1,L1,]
[C2,L2,…,Ca,La],則任意圖像[Pn]與特征向量[Kn=Cn1,Ln1,Cn2,Ln2,…,Cna,Lna]呈現(xiàn)一一對應(yīng)的關(guān)系。
設(shè)采集的連續(xù)幀圖像數(shù)量為[B],[Pu]、[Pv]分別為采集的連續(xù)幀圖像中的任意兩個連續(xù)圖像,通過歐氏距離對二者之間的近似距離進行計算,表示為:
[Sc=?c1cu1-cv12+…+?czcuz-cvz212] (2)
[Sl=?l1lu1-lv12+…+?lzluz-lvz212] (3)
式中:[c]和[l]分別表示顏色特征矩陣分量和紋理特征矩陣分量;[?c1,…,?cz]、[?l1,…,?lz]表示對應(yīng)的權(quán)重。
針對待識別圖像[P],對其與連續(xù)圖像之間的歐氏距離進行計算,表示為:
[Sc,ln=bnc,ln,?nz] (4)
對其進行歸一化操作,將其映射至[-1,1]上,表示為:
[Sc,ln′Pr=Sc,lnPrσB] (5)
式中[σB]表示標準差。
經(jīng)線性變換式(5)后,獲取歸一化距離:
[Sc,ln″Pr=Sc,ln′Pr+12] (6)
對圖像總相似距離進行計算,表示為:
[S=n=1W?nSc,ln″Pr] (7)
式中[W]表示圖像數(shù)量。
按照式(7)對每幅圖像相似距離進行計算,并進行降序排列,提取前[N]個作為特征向量,表示為[SN],為后續(xù)的運動目標識別提供判斷依據(jù)[10?11]。
1.3" 基于長短期記憶(LSTM)網(wǎng)絡(luò)的運動目標識別
將1.2節(jié)獲取的特征融合結(jié)果作為LSTM輸入,實現(xiàn)運動目標的識別。長短期記憶網(wǎng)絡(luò)基于循環(huán)神經(jīng)網(wǎng)絡(luò),通過tanh函數(shù)的節(jié)點結(jié)構(gòu)實現(xiàn)對時間序列的處理,LSTM結(jié)構(gòu)如圖2所示。
在圖2中,LSTM包含三個門,分別表示獲取、遺忘、記憶三個過程[12]。其中,[SNt]用于描述輸入的特征向量;[λt]和[λt-1]、[ht]和[ht-1]分別用于描述[t]、[t-1]時刻長短時記憶。短時記憶和輸入的圖像特征向量經(jīng)過三個門的處理后實現(xiàn)對其中冗雜信息遺忘和關(guān)鍵信息的存儲[13],表示為:
[ft=Sigmoidωfht-1,SNt+δf] (8)
[it=Sigmoidωiht-1,SNt+δi] (9)
[ot=Sigmoidωoht-1,SNt+δo] (10)
式中:[ω]、[δ]分別表示權(quán)重和偏置;[ft]、[it]、[ot]分別表示三個門的輸出;[Sigmoid]用于描述[Sigmoid]激活函數(shù)。
記錄在長時記憶單元中的信息表示為:
[λt=tanhωλht-1,SNt+δλ] (11)
結(jié)合式(8)~式(11),得到當前節(jié)點的長時記憶和短時記憶,表示為:
[λt=ftλt-1+itλt] (12)
[ht=ottanhλt] (13)
通過上述模型的構(gòu)建,經(jīng)過模型的學習和訓練,最終能夠?qū)崿F(xiàn)連續(xù)幀圖像運動目標識別。
2" 實驗與分析
通過圖像采集設(shè)備對實際的運動目標圖像進行連續(xù)幀采集,利用本文方法進行處理和分析,最終實現(xiàn)運動目標識別。為驗證本文方法實現(xiàn)運動目標識別的效果,以體育項目中的籃球運動為例,實現(xiàn)圖像采集及運動目標識別的流程圖如圖3所示。
在運動目標識別過程中,需要依賴圖像采集設(shè)備完成連續(xù)幀圖像獲取,對圖像采集設(shè)備的參數(shù)進行統(tǒng)計,如表1所示。
由表1可知,該設(shè)備具有高分辨率和良好的穩(wěn)定性,可以實現(xiàn)效果較好的連續(xù)幀圖像采集,能夠為后續(xù)的圖像特征提取和運動目標識別提供良好基礎(chǔ)。
利用本文方法對采集的連續(xù)幀圖像進行圖像中運動目標的識別,最終通過一種可視化顯示頁面對運動目標的識別結(jié)果進行顯示,具體情況如圖4所示。
由圖4可知,本文實現(xiàn)連續(xù)幀圖像中運動目標的識別結(jié)果可以通過一種可視化的頁面顯示出來,通過輸入采集的圖像集合,運動目標會被帶有顏色的標識框標記出來。這種可視化展示不僅提升了用戶的使用體驗,也便于用戶快速、準確地理解和分析識別結(jié)果,從而進一步提高運動目標識別的實用性和效率。
從采集的運動目標連續(xù)幀圖像中隨機選取12組進行動態(tài)目標識別,以驗證本文方法實現(xiàn)運動目標識別的準確性,將識別結(jié)果與實際動作進行對比,得到的結(jié)果如表2所示。
由表2可知,本文方法實現(xiàn)的運動目標識別與實際目標運動的情況高度一致,不僅能夠較為準確地識別出目標大幅度的如舉手、抬腿等動作行為,還能夠識別出較為細微的搖頭等動作情況。證明了本文方法在運動目標識別領(lǐng)域展現(xiàn)出了卓越的性能,能夠有效地捕捉并識別出目標的各種動作情況,為后續(xù)的應(yīng)用和研究提供了有力的支持。
在連續(xù)幀圖像運動目標識別過程中,識別效果受到環(huán)境因素的影響,本文以光照強度對運動目標識別的影響為研究條件,從采集的連續(xù)幀圖像中選取2 000組進行實驗驗證,模擬光照強度不斷增強的情況,選取文獻[3]方法和文獻[4]方法作為對比方法,統(tǒng)計三種方法對運動目標識別的情況,如圖5所示。
由圖5可知,三種方法實現(xiàn)的運動目標識別效果存在較大差異。隨著光照強度不斷增大,三種方法對2 000組圖像中運動目標的識別正確數(shù)據(jù)量不斷增多,但相較于文獻[3]方法和文獻[4]方法,光照條件逐漸改善時,本文方法能夠迅速達到較高的正確識別數(shù)據(jù)量,并逐漸達到穩(wěn)定,該現(xiàn)象表明本文方法不僅識別速度快,而且識別結(jié)果穩(wěn)定可靠,驗證了本文方法在運動目標識別領(lǐng)域展現(xiàn)出了優(yōu)異的性能,在光照條件變化較大的情況下,其識別效果較好。
3" 結(jié)" 論
為了提升目標識別效果,本文提出一種多特征融合下連續(xù)幀圖像運動目標識別方法。不同于傳統(tǒng)的單一特征識別方法,該方法結(jié)合了圖像的顏色和紋理特征,通過歸一化和特征間的歐氏距離融合,提取了多特征信息。這種多特征融合策略能夠更全面地描述運動目標的特性,提高識別的準確性和魯棒性。同時,引入LSTM網(wǎng)絡(luò)作為識別模型,能夠有效處理序列數(shù)據(jù)中的長期依賴關(guān)系。通過將連續(xù)幀圖像中提取的特征向量作為LSTM的輸入,模型能夠?qū)W習到運動目標的動態(tài)變化模式,提高了對復雜運動模式的識別能力。由于該方法能夠處理不同類型運動目標的識別問題,因此具有廣泛的應(yīng)用前景。在安防監(jiān)控、智能交通、體育分析等領(lǐng)域都能夠提供有效的技術(shù)支持和解決方案。
參考文獻
[1] 丁靜.煙霧環(huán)境下運動目標雙目視覺定位技術(shù)研究[J].測繪學報,2024,53(3):582.
[2] 賈澎濤,侯長民,李娜.復雜背景下改進的ViBe運動目標檢測算法[J].應(yīng)用光學,2023,44(5):1045?1053.
[3] 楊星,余小平,鄭鋮,等.基于FPGA的多運動目標檢測及硬件實現(xiàn)[J].單片機與嵌入式系統(tǒng)應(yīng)用,2023,23(4):57?60.
[4] 尤錕,張全成,李凱勇.基于三維激光點云的運動圖像動態(tài)目標識別方法[J].應(yīng)用激光,2022,42(4):147?153.
[5] QURESHI K N, KAIWARTYA O, JEON G, et al. Neurocomputing for internet of things: Object recognition and detection strategy [J]. Neurocomputing, 2022, 485(7): 263?273.
[6] 翟光,胡圣冉,孫一勇.面向天基紅外預警的高動態(tài)弱小目標LSTM檢測方法研究[J].紅外與激光工程,2023,52(10):211?221.
[7] 湯旻安,王晨雨,羅引航.基于自適應(yīng)ViBe算法的動態(tài)背景運動目標檢測[J].傳感器與微系統(tǒng),2023,42(11):119?122.
[8] 陳思,張海洋,靳發(fā)宏,等.運動目標的多維度微運動特征提取研究[J].物理學報,2024,73(7):151?163.
[9] 葉裴雷,張大斌.高速運動目標特征關(guān)聯(lián)檢測模型仿真[J].計算機仿真,2023,40(4):208?212.
[10] 朱冰,劉琦,余瑞星.復雜場景下自適應(yīng)特征融合的圖像運動目標跟蹤算法研究[J].航空兵器,2023,30(2):125?130.
[11] 張立國,馬子薦,金梅,等.基于非局部感知網(wǎng)絡(luò)的運動目標跟蹤方法[J].激光與光電子學進展,2023,60(4):376?384.
[12] 何磊,趙柏山,周凱.基于CNN?LSTM網(wǎng)絡(luò)模型的散打動作辨識方法[J].微處理機,2022,43(5):49?54.
[13] 袁浩,張軍良.基于殘差連接LSTM的雷達目標分類識別方法[J].計算機測量與控制,2022,30(4):182?189.
作者簡介:劉朝霞(1974—),女,山西朔州人,碩士研究生,講師,研究方向為體育教育、運動人體科學、圖像識別、運動目標檢測。