• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于運(yùn)動流自注意力的3D骨骼行為識別研究

    2024-12-31 00:00:00吳博
    科技創(chuàng)新與應(yīng)用 2024年25期
    關(guān)鍵詞:深度學(xué)習(xí)

    摘" 要:隨著人工智能的發(fā)展,行為識別成為一個(gè)重要研究方向。由于骨骼數(shù)據(jù)源于人體骨骼建模,能夠有效規(guī)避由復(fù)雜背景引起的問題,基于骨骼的行為識別因其強(qiáng)大的魯棒性而受到青睞。以前的方法在動態(tài)特征捕捉和時(shí)序信息建模等方面存在一定的局限性,時(shí)序信息建模方面的不足也使得對于運(yùn)動序列的解釋存在困難。針對此問題該文設(shè)計(jì)一個(gè)運(yùn)動流自注意力模塊專門用于提取骨骼序列幀間的動態(tài)信息,能更有效地挖掘運(yùn)動序列的時(shí)間信息。該文的方法在大規(guī)模數(shù)據(jù)集NTU-RGB+D上進(jìn)行充分的實(shí)驗(yàn)驗(yàn)證,并取得非常令人滿意的性能表現(xiàn)。表明該文提出的方法在骨骼行為識別任務(wù)中的有效性和可行性。

    關(guān)鍵詞:行為識別;骨骼信息;深度學(xué)習(xí);自注意力機(jī)制;骨骼建模

    中圖分類號:TP399" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2024)25-0072-04

    Abstract: With the development of artificial intelligence, behavior recognition has become an important research direction. Because the bone data comes from human bone modeling, which can effectively avoid the problems caused by complex background, bone-based behavior recognition is favored because of its strong robustness. The previous methods have some limitations in dynamic feature capture and time series information modeling, and the deficiency of time series information modeling also makes it difficult to explain the action sequence. In order to solve this problem, an action flow self-attention module is designed to extract the dynamic information between the frames of the bone sequence, which can mine the time information of the motion sequence more effectively. The method proposed in this paper is fully verified by experiments on a large-scale data set NTU-RGB+D, and a very satisfactory performance is achieved. This shows that the proposed method is effective and feasible in the task of bone behavior recognition.

    Keywords: behavior recognition; bone information; deep learning; self-attention mechanism; bone modeling

    人體3D骨骼數(shù)據(jù)獲取主要依賴深度傳感器設(shè)備,相對于RGB數(shù)據(jù)和深度數(shù)據(jù),骨骼數(shù)據(jù)在人體行為識別上更具優(yōu)勢,避免背景遮擋和光照變化等問題。過去的方法在動態(tài)特征、上下文理解、時(shí)序信息建模上有局限,特別是在復(fù)雜環(huán)境中應(yīng)用。然后,光流信息[1]能有效捕捉動態(tài)特征,提供關(guān)于物體運(yùn)動方向和速度的信息,有助于時(shí)序關(guān)系的建模。注意力機(jī)制[2]允許模型非局部關(guān)聯(lián),靈活關(guān)注不同位置的信息,提高對整體結(jié)構(gòu)的理解。受到上述的啟發(fā),本文基于光流信息和注意力機(jī)制,提出了一種改進(jìn)的ST-GCN[3]算法,能夠更有效捕捉動態(tài)特征、加強(qiáng)上下文理解,全面建模時(shí)序信息,提高骨骼行為識別的準(zhǔn)確性和魯棒性,使其更適用于真實(shí)場景中的多樣化和復(fù)雜化的人體動作。實(shí)驗(yàn)表明,本文提出的基于運(yùn)動流自注意力機(jī)制的ST-GCN算法優(yōu)于大多數(shù)算法。

    1" 基于運(yùn)動流自注意力機(jī)制的人體行為識別

    1.1" 整體模型結(jié)構(gòu)

    本文的基于運(yùn)動流自注意力機(jī)制的行為識別模型(MF-TR)整體采用ST-GCN網(wǎng)絡(luò)作為基線模型,具體由5個(gè)部分組成,分別是骨骼數(shù)據(jù)的預(yù)處理[4]、骨架圖和運(yùn)動流的構(gòu)建[5]、ST-GCN模塊提取淺層信息、MFSA模塊提取高級信息、分類預(yù)測。如圖1所示,在經(jīng)歷骨骼數(shù)據(jù)的預(yù)處理和骨架圖的構(gòu)建之后,模型的初始部分采用ST-GCN作為基礎(chǔ)結(jié)構(gòu)。ST-GCN負(fù)責(zé)骨骼數(shù)據(jù)的初始特征提取。ST-GCN網(wǎng)絡(luò)利用圖卷積和時(shí)間卷積來提取其低級特征,并提供基礎(chǔ)特征用于后續(xù)處理。在ST-GCN的輸出特征之后,引入MFSA模塊,以取代ST-GCN模塊。MFSA模塊簡單來說就是用一個(gè)運(yùn)動流自注意力模塊替換掉ST-GCN Layer中的時(shí)間卷積,實(shí)現(xiàn)對于運(yùn)動特征的自適應(yīng)捕獲,有助于更全面地理解全局動作結(jié)構(gòu)。最終,利用一個(gè)Softmax層,將模型的輸出映射到動作類別的概率分布上,完成對輸入動作的分類任務(wù)。

    1.2" 骨架圖和運(yùn)動特征的構(gòu)建

    1.3" 運(yùn)動流自注意力機(jī)制

    2" 實(shí)驗(yàn)設(shè)置與結(jié)果分析

    2.1" 實(shí)驗(yàn)設(shè)置

    本研究使用PyTorch框架在NTU-60、NTU-120、Kinetics數(shù)據(jù)集上進(jìn)行模型訓(xùn)練,共進(jìn)行了120輪。批大小為32,并采用隨機(jī)梯度下降(SGD)作為優(yōu)化策略。初始學(xué)習(xí)率設(shè)置為0.1,在第60輪和90輪時(shí)分別降低為原來的1/10。這樣的設(shè)置是基于先前的研究,而研究表明,對于使用ST-GCN網(wǎng)絡(luò)的任務(wù),這種學(xué)習(xí)率調(diào)度被證明能夠提供良好的結(jié)果。此外,為了防止過擬合問題,本文還采用了DropAttention[6]技術(shù),該技術(shù)在Transformer網(wǎng)絡(luò)中被用來規(guī)范化注意力權(quán)重,以增強(qiáng)模型的性能和魯棒性。該技術(shù)通過隨機(jī)丟棄注意力相關(guān)系數(shù)矩陣的列來實(shí)現(xiàn)。在實(shí)驗(yàn)中,本文將多頭自注意力的數(shù)量設(shè)置為8,并且在每個(gè)層中將dq、dv和dk的嵌入維度設(shè)置為0.25×Cout,與ST-GCN的設(shè)置相同。模型架構(gòu)由9個(gè)層組成,通道維度為64、64、64、128、128、128、256、256和256。在輸入層之前應(yīng)用批歸一化,在Softmax分類器之前應(yīng)用全局平均池化層,并使用標(biāo)準(zhǔn)交叉熵進(jìn)行訓(xùn)練。

    2.2" 消融實(shí)驗(yàn)

    本研究以ST-GCN為基線模型,并在其基礎(chǔ)上進(jìn)行合理的調(diào)整,以深入評估運(yùn)動流自注意力機(jī)制的實(shí)際效果。此前,Plizzari等的工作也曾在ST-GCN網(wǎng)絡(luò)上引入自注意力機(jī)制。為了驗(yàn)證本文提出的運(yùn)動流自注意力機(jī)制的有效性,對比原版ST-GCN網(wǎng)絡(luò)模型,添加自注意力機(jī)制的ST-GCN網(wǎng)絡(luò)模型及本文提出的添加運(yùn)動流自注意力機(jī)制的ST-GCN網(wǎng)絡(luò)模型,以研究運(yùn)動流自注意機(jī)制對模型性能的改善效果。

    由表1可知,添加了自注意力機(jī)制的ST-GCN網(wǎng)絡(luò)在跨主體評估(X-Sub)和跨視圖評估(X-View)2個(gè)評估標(biāo)準(zhǔn)下的準(zhǔn)確率分別提高了4.5%和3%,相較于沒有自注意力機(jī)制的原版ST-GCN網(wǎng)絡(luò)效果更為顯著,表明自注意力機(jī)制對ST-GCN網(wǎng)絡(luò)性能的提升起到了積極的作用。此外,本文設(shè)計(jì)的運(yùn)動流自注意力機(jī)制的ST-GCN網(wǎng)絡(luò)相對于僅添加骨骼節(jié)點(diǎn)自注意力機(jī)制的ST-GCN網(wǎng)絡(luò),其性能分別再次提升了1.3%和1.2%。這進(jìn)一步證實(shí)了本文提出的運(yùn)動流自注意力機(jī)制模塊相對于單純添加骨骼節(jié)點(diǎn)的自注意力機(jī)制模塊效果更為顯著,從而驗(yàn)證了本文提出的運(yùn)動流自注意力機(jī)制的有效性。

    2.3" 模型性能分析

    本文基于NTU-60數(shù)據(jù)集對本文提出的方法和現(xiàn)有方法都作了比較。為了保證比較的公平,本文輸入相同的數(shù)據(jù)作比較,分為僅僅包含骨架關(guān)節(jié)節(jié)點(diǎn)信息和既包含骨架關(guān)節(jié)節(jié)點(diǎn)信息也包含骨骼信息(骨架關(guān)節(jié)節(jié)點(diǎn)的差分)。在NTU-60數(shù)據(jù)集上(表2),本文提出的MF-TR模型在僅使用骨骼關(guān)節(jié)節(jié)點(diǎn)信息時(shí),相較于其他的模型,表現(xiàn)出了卓越的性能。在跨主體評估(X-Sub)和跨視圖評估(X-View)2個(gè)評估標(biāo)準(zhǔn)下都強(qiáng)于SAN模型。其次,在添加了骨骼信息時(shí),本文的方法與MS-G3D方法的效果幾乎持平。而MS-G3D模型是骨骼行為識別領(lǐng)域內(nèi)最先進(jìn)的模型,但是本文則采用了更簡單的結(jié)構(gòu)。

    3" 結(jié)論

    本文針對當(dāng)前基于3D骨骼的行為識別問題動態(tài)特征和時(shí)序信息提取不足的問題,在ST-GCN這個(gè)基線網(wǎng)絡(luò)下,結(jié)合Transformer結(jié)構(gòu)中的自注意力機(jī)制和光流信息的理念,提出并加入了一種運(yùn)動流自注意力模塊。該模塊旨在增強(qiáng)模型對時(shí)序信息的處理能力,并改善其性能。MFSA模塊的自注意力機(jī)制使得模型能夠動態(tài)地關(guān)注骨骼序列的運(yùn)動信息,從而提高了模型的提取節(jié)點(diǎn)運(yùn)動上下文信息的能力。實(shí)驗(yàn)結(jié)果表明,引入MFSA模塊替代傳統(tǒng)的時(shí)間卷積,顯著減少了復(fù)雜性,主要體現(xiàn)在參數(shù)明顯減少。這種簡化有助于提高模型的訓(xùn)練效率,并且通常伴隨著較好的性能表現(xiàn),這表明,MFSA模塊在時(shí)間建模方面具有優(yōu)越性,為整體結(jié)構(gòu)的優(yōu)化提供了有效的路徑。實(shí)驗(yàn)結(jié)果提示了在時(shí)空建模任務(wù)中采用自注意力機(jī)制的優(yōu)勢,并為未來設(shè)計(jì)自注意力模塊的模型提供了重要的參考。

    參考文獻(xiàn):

    [1] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[C]// Advances in neural information processing systems, 2014:27.

    [2] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Advances in neural information processing systems,2017:5998-6008.

    [3] SHI L, ZHANG Y, CHENG J, et al. Skeleton-based action recognition with directed graph neural networks[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2019:7912-7921.

    [4] 陳峰.基于運(yùn)動序列的人體動作識別研究[D].長沙:湖南大學(xué),2022.

    [5] PLIZZARI C, CANNICI M, MATTEUCCI M. Skeleton-based action recognition via spatial and temporal transformer networks[J]. Computer Vision and Image Understanding, 2021,208:103219.

    [6] ZEHUI L, LIU P, HUANG L, et al. Dropattention: A regularization method for fully-connected self-attention networks[C]// arXiv preprint arXiv,2019.

    猜你喜歡
    深度學(xué)習(xí)
    從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
    面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
    基于自動智能分類器的圖書館亂架圖書檢測
    搭建深度學(xué)習(xí)的三級階梯
    有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
    電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
    利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
    考試周刊(2016年94期)2016-12-12 12:15:04
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    如皋市| 周口市| 通河县| 靖安县| 绥宁县| 遵义市| 中牟县| 宜都市| 正镶白旗| 黄山市| 霍林郭勒市| 景洪市| 翁源县| 十堰市| 霍邱县| 裕民县| 洪洞县| 札达县| 中牟县| 万宁市| 普定县| 清河县| 赤壁市| 农安县| 保山市| 邢台县| 彩票| 辽源市| 徐州市| 易门县| 云和县| 新泰市| 淮滨县| 东明县| 增城市| 遵义县| 三门县| 丰宁| 吴忠市| 大英县| 邓州市|