• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于輕量化二維人體姿態(tài)估計的小樣本動作識別算法

    2022-10-09 11:47:50尹繼堯劉董經(jīng)典
    廣西科學 2022年4期
    關鍵詞:輕量化姿態(tài)人體

    尹繼堯,周 琳,李 強,劉董經(jīng)典

    (1.深圳市城市公共安全技術研究院,廣東深圳 518046;2.中國礦業(yè)大學計算機科學與技術學院,江蘇徐州 221116)

    隨著視頻監(jiān)控網(wǎng)絡的全面覆蓋、移動互聯(lián)網(wǎng)的不斷普及、流媒體的逐漸興起,產(chǎn)生了大量包含人體動作信息的視頻數(shù)據(jù)。對視頻數(shù)據(jù)中人體動作進行時序數(shù)據(jù)挖掘可用于監(jiān)控安防、安全生產(chǎn)、人機交互、視頻內(nèi)容分析等方面,具有十分廣泛的應用范圍[1]。但是現(xiàn)階段的動作識別算法需要大量的標記訓練數(shù)據(jù)集,存在泛化性差、實時性差、場景受限的問題。

    現(xiàn)有基于視頻的動作識別算法主要分為3類:基于時空卷積的動作識別算法、基于雙流卷積網(wǎng)絡的動作識別算法以及基于人體骨骼[2,3]的動作識別算法。其中基于時空卷積的動作識別算法與基于雙流卷積網(wǎng)絡的動作識別算法直接利用時空卷積技術對視頻幀流進行學習[4-11]。由于采用神經(jīng)網(wǎng)絡為學習框架,這類算法通常需要依賴大量的視頻數(shù)據(jù),且泛化性較差。基于人體骨骼的動作識別算法[12-14]利用人體姿態(tài)檢測或?qū)S性O備提取人體的骨骼信息用于識別。由于人體骨骼與背景無關,可以保證一定的泛化性,但是現(xiàn)階段基于圖卷積的骨骼動作分類同樣需要一定的訓練數(shù)據(jù),且無法動態(tài)地擴展識別動作的類別。為此,本研究提出一種基于輕量化二維人體姿態(tài)估計的小樣本動作識別算法,研究極少視頻樣本下多種動作的有效識別,并驗證算法的有效性,以期降低動作識別算法對大規(guī)模數(shù)據(jù)的依賴。

    1 相關工作

    目前主流的3類動作識別方法中,基于時空卷積的動作識別算法如C3D[4]、I3D[5]、P3D[6]、T3D[7]、R2+1D[8]、SlowFast[9],以及基于雙流卷積網(wǎng)絡的動作識別算法如LSTM two-stream[10]、TSN[11]等,使用RGB圖像、光流圖像等像素級特征作為神經(jīng)網(wǎng)絡的輸入,通過擬合訓練實現(xiàn)動作的分類。但是這些方法會受到圖像背景的干擾,泛化能力受限?;谌梭w骨骼的動作識別算法[15]相比其他算法更注重人體的信息,能夠去除場景帶來的干擾以適應更多的環(huán)境?,F(xiàn)階段主要采用基于圖神經(jīng)網(wǎng)絡GCN架構的時空卷積模型進行訓練[16,17],依舊需要一定量級的數(shù)據(jù)才能保證收斂。由于動作在空間與時間上存在歧義性與多樣性,現(xiàn)有基于監(jiān)督訓練的方法普遍需要依賴大量的訓練數(shù)據(jù),這在實際應用中限制了算法的普適性[18]。因此本研究采用無需訓練的方式來研究極少樣本下多動作的有效識別,可以緩解動作識別任務對數(shù)據(jù)樣本強依賴的現(xiàn)狀,促進動作識別的落地。

    此外,如何有效地從視頻中獲取和表征人體姿態(tài)信息是影響識別的關鍵?,F(xiàn)有基于姿態(tài)估計的動作識別中的姿態(tài)信息主要來源于深度相機傳感器標注和基于人體姿態(tài)估計提取。深度相機傳感器雖然標注精準但是需要特殊的設備,硬件成本較高[12]?;谌梭w姿態(tài)估計的人體姿態(tài)表征雖然可以直接基于視頻數(shù)據(jù)提取信息,但是由于需要多階段的識別,需要權衡計算成本與識別精度[13,14]。因此,本研究同時研究輕量化二維人體姿態(tài)估計方法及與其配套的姿態(tài)動作特征構建方法,以保證在極少數(shù)據(jù)下動作識別的速度與準確性。

    2 算法描述

    本研究的算法如圖1所示。該算法主要包括3個組件:輕量級人體檢測算法HYOLOv5、基于Lite-HRNet[2]的二維人體姿態(tài)動作表征以及基于動態(tài)時間規(guī)整的小樣本動作匹配。輕量級人體檢測HYOLOv5基于小規(guī)模的YOLOv5算法,僅檢測人體目標,能夠有效地去除視頻中與人體無關的背景信息?;谳p量化二維人體姿態(tài)估計Lite-HRNet的識別結(jié)果,算法根據(jù)動作的時空屬性對人體姿態(tài)進行歸一化表征,獲取用于識別的姿態(tài)動作特征序列。考慮到僅使用極少樣本進行識別,本研究采用模板匹配的思想,結(jié)合姿態(tài)動作特征序列特征設計姿態(tài)序列動態(tài)時間規(guī)整相似度度量方法,并通過類別中心選擇算法降低匹配過程的時空復雜度,構建動作識別模板庫用于動作識別。為驗證算法的有效性,基于COCO 2017[3]構建Human COCO 2017數(shù)據(jù)集訓練并測試HYOLOv5。本研究采集10種動作視頻,在每個動作僅使用4個訓練視頻的情況下對算法進行測試。

    圖1 算法示意圖

    2.1 輕量級人體檢測器HYOLOv5

    為了有效去除背景干擾,本研究構建輕量級的人體檢測器?,F(xiàn)有用于動作識別的人體檢測算法通常是借助已經(jīng)訓練好的多目標檢測器,通過類別過濾,僅保留人體檢測框。然而這種方式會帶來額外的計算成本,并且人體檢測會受到其他類別信息的干擾,在與其他類別目標高度重合的時候會被誤判為其他類別。因此本研究考慮使用已有的公開數(shù)據(jù),重新訓練僅用于識別人的目標檢測器,進一步輕量化檢測頭。同時,考慮到動作識別的實時性要求,本研究最終使用YOLOv5-S和YOLOv5-N作為骨干網(wǎng)絡訓練輕量級人體檢測器HYOLOv5。

    YOLOv5的核心思想是利用整張圖作為網(wǎng)絡的輸入,直接回歸邊界框的位置坐標及其類別。具體的網(wǎng)絡結(jié)構如圖2所示,主要由Backbone、Neck和Head組成。Backbone在輸入端增加了Focus操作,即將輸入圖片等分切片成4份后堆疊,在不丟失信息的情況下將RGB通道擴充至12個,降低了網(wǎng)絡運算的特征分辨率尺度。在Darknet[19]網(wǎng)絡的基礎上引入了CSP[20]結(jié)構來增強表征能力。Neck層利用CSP結(jié)構構建特征金字塔(Feature Pyramid Networks,F(xiàn)PN),引入路徑聚合網(wǎng)絡[21](Path Aggregation Network,PAN)來對齊多尺度表征。

    圖2 YOLOv5模型結(jié)構

    與YOLOv5用于多分類的Head不同,HYOLOv5的類別為1,因此網(wǎng)絡的輸出維度為6,第1至第4維用于描述識別框,第5維為目標置信度,第6維為類別置信度。YOLOv5設有深度系數(shù)與寬度系數(shù)來控制網(wǎng)絡的規(guī)模,由小到大有YOLOv5-N、YOLOv5-S、YOLOv5-M、YOLOv5-L和YOLOv5-X 5種網(wǎng)絡。HYOLOv5同時在更大尺度上又提供了第6版系列權重,具有更高的準確率。

    為訓練HYOLOv5,本研究提取了COCO 2017數(shù)據(jù)集中所有包含人標注的數(shù)據(jù)構建了Human COCO 2017數(shù)據(jù)集,使用原始訓練集中的數(shù)據(jù)作為訓練數(shù)據(jù),使用驗證集中的數(shù)據(jù)作為驗證數(shù)據(jù)。依據(jù)遷移學習思想,基于YOLOv5-S6和YOLOv5-N6權重訓練HYOLOv5-S6和HYOLOv5-N6。與第6版系列權重輸入分辨率1 280不同,為降低計算復雜度,HYOLOv5-S6和HYOLOv5-N6的輸入分辨率均為640,模型的深度系數(shù)均為0.33,寬度系數(shù)分別為0.50和0.25。

    經(jīng)過極大值抑制算法即可對圖像中的人進行目標檢測。令檢測到的人體框為[xmin,ymin,xmax,ymax],對應人體框的左、上、右、下邊界??紤]到識別框會出現(xiàn)人體檢測不全的情況,最終用于二維人體姿態(tài)估計的人體框描述數(shù)組(H)為

    H=[xmin-dl,ymin-dt,xmax+dr,ymax+db],

    (1)

    其中dl、dt、dr、db分別為左、上、右、下邊界的擴充像素數(shù)。

    2.2 基于Lite-HRNet的二維人體姿態(tài)動作表征

    在獲取到人體框后,根據(jù)H從原始圖像中裁剪出人體像素特征。對于之前的動作識別方法而言,人體像素特征可直接作為模型的輸入特征進行訓練,但是由于空間維度較大,往往需要一定的數(shù)據(jù)規(guī)模才能保證識別精度。因此,為了實現(xiàn)少樣本數(shù)據(jù)下多動作的有效識別,本研究采用二維人體姿態(tài)信息作為人體動作表征的基礎,其具有低空間維度與高行為描述的優(yōu)勢。

    綜合考慮識別精度與模型規(guī)模,本研究以輕量化二維姿態(tài)檢測算法Lite-HRNet為基礎,構建人體姿態(tài)特征描述算子。

    Lite-HRNet是HRNet[22]的輕量化版本。HRNet的核心思想起源于CPN[23]工作中提到的:較高的空間分辨率有利于特征點精確定位,低分辨率具有更多的語義信息。為保證高分辨率特征的強度,采用網(wǎng)絡并行連接從高到低的子網(wǎng)的方式來保持高分辨率表征,替代從低分辨率表征恢復高分辨率特征的方法,網(wǎng)絡結(jié)構如圖3所示。網(wǎng)絡在設計中維持一個高分辨率表征的主干分支,在整個網(wǎng)絡中不降低分辨率,為彌補高分辨率表征感受也受限的問題,并行引入漸進增加的低分辨率子網(wǎng)獲取全局信息。同時,通過設計的特征融合模塊來實現(xiàn)高、低分辨率表征的信息交換,用低分辨率信息增強高分辨率表征學習的同時,利用高分辨率表征獲取的局部信息來增強全局的低分辨率表征。但是因為采用的是并行結(jié)構,且在骨干網(wǎng)絡與特征融合模塊大量使用高計算成本的卷積,參數(shù)的計算量很大。

    圖3 Lite-HRNet網(wǎng)絡結(jié)構

    為解決這個問題,Lite-HRNet采用輕量化骨干網(wǎng)絡ShuffleNet[24]的高效Shuffle塊來替代HRNet中的基本模塊。Shuffle塊的結(jié)構如圖4所示。然而由于密集的平行子網(wǎng)間的信息交換,1×1的卷積需要對每個feature的特征點進行遍歷計算,成為計算的瓶頸。因此,通道加權(Conditional Channel Weighting,CCW)被提出來替代1×1的卷積,如圖4所示。

    圖4 Lite-HRNet基礎模塊結(jié)構

    Lite-HRNet在COCO 2017驗證數(shù)據(jù)集上根據(jù)網(wǎng)絡深度與輸入圖像分辨率的不同提供了4種不同的預訓練權重,如表1所示。由于二維人體姿態(tài)識別結(jié)果的精度與穩(wěn)定性決定了動作識別的精度,本研究使用輸入尺度為384×288的Lite-HRNet-30作為二維姿態(tài)特征提取網(wǎng)絡。

    表1 Lite-HRNet在COCO 2017上的結(jié)果

    在確定人體姿態(tài)特征后,需要進一步構建動作特征。令Lite-HRNet的識別結(jié)果為關節(jié)點坐標集合P與每個關節(jié)點對應的置信度c,則

    P={(Ji,1,Ji,2,…,Ji,17)|1≤i≤t},

    (2)

    其中t為總幀數(shù),Ji,j為第i幀關節(jié)點j坐標(x,y),x和y分別對應橫、縱坐標,17為COCO的關節(jié)點標注數(shù)。

    對比每個關節(jié)點的置信度,發(fā)現(xiàn)“鼻子”“左眼”“右眼”“左耳”“右耳”(分別對應編號1,2,3,4,5)的置信度不高,且存在大量闖動的情況,因此在構建人體姿態(tài)動作特征時不采用這5個點的信息。

    每一個由二維人體姿態(tài)估計生成的關節(jié)點的坐標都是相對于H的絕對坐標,隨著H坐標系的變化,關節(jié)點坐標的數(shù)值也會變化,因此需要坐標轉(zhuǎn)換來獲取與H無關的坐標描述。本研究選取每一幀的“左肩”和“右肩”的中心點C作為坐標原點進行坐標轉(zhuǎn)換。由于人的體型、拍攝位置的影響,二維人體姿態(tài)估計生成的人體姿態(tài)在尺度上會有很大的差異,同樣也會影響關節(jié)點的坐標,因此本研究使用初始幀中“左肩”與“右肩”的距離D作為人體姿態(tài)特征的標尺,經(jīng)尺度歸一化后獲得人體姿態(tài)動作特征A(如圖5中紅色虛線所示):

    i≤t}。

    (3)

    圖5 人體姿態(tài)動作特征

    2.3 基于動態(tài)時間規(guī)整的中心特征選擇模板匹配

    經(jīng)過人體檢測與姿態(tài)表征,高維視頻序列被降維成低維姿態(tài)點集。基于深度學習的姿態(tài)行為識別,無論是監(jiān)督、半監(jiān)督或者自監(jiān)督,通常需要一定量級的數(shù)據(jù)才能保證訓練的精度,且識別的類別受限,無法滿足極小樣本下有效動作識別的需求。因此,本研究采用模板匹配的思想進行動作的識別。

    為了有效度量兩個人體姿態(tài)動作特征序列間的相似度,本研究提出了基于人體姿態(tài)動作特征的動態(tài)時間規(guī)整距離度量ADTW。令人體姿態(tài)動作特征A的第j個關節(jié)點序列為Aj,則

    (4)

    對于任意兩個人體姿態(tài)動作特征序列A1,A2,理論上可以直接計算A1j與A2j間的歐式距離來度量相似度。但是由于動作在時序上很難保證同步,且序列長度不一,因此本研究采用動態(tài)時間規(guī)整距離DTW來度量A1j與A2j間的相似性。通過對所有關節(jié)點序列的DTW值求和取平均,可以得到ADTW計算公式:

    (5)

    基于ADTW,根據(jù)少量多類動作視頻來構建動作模板庫。假設有n種動作,每種動作有m個訓練數(shù)據(jù),如果直接將對應的人體姿態(tài)動作特征存入動作特征庫,直接利用K-Nearest Neighbor (KNN)進行匹配分類,空間和時間復雜度至少為O(mn)。并且如果錄制過程中部分訓練數(shù)據(jù)自身存在噪聲,同樣會影響動作識別的精度,因此本研究提出了基于類別中心選擇的動作模板匹配方法,在新動作數(shù)據(jù)錄入過程中動態(tài)選擇每個動作中最具代表性的中心特征Cent。

    令Ak為某類動作第k個動作特征序列。計算Ak與所有類內(nèi)動作特征序列的ADTW之和,用以度量該動作特征序列的重要性。所求的值越小,說明該動作特征序列與其他動作特征序列相比,與其他序列計算時獲得更低ADTW值的可能性就越大,更能代表這個動作,則有

    (6)

    中心特征Cent即為Ai。動作特征庫中僅存儲每個類的中心特征,在匹配過程中復雜度降為O(n)。

    在構建完動作模板庫后,動作的識別過程僅需計算待識別序列與每個類別的中心特征的ADTW距離,值最小的類別即為最終的識別結(jié)果。

    3 驗證實驗

    3.1 實驗設置

    實驗采用的硬件實驗環(huán)境為Centos 7系統(tǒng),CPU型號為Intel Xeon Gold 5120處理器,GPU使用2張NVIDIA GeForce 2080Ti,可用顯存為22 GB,使用CUDA 10.0與Cudnn 7進行深度學習加速訓練,使用的深度學習框架為Pytorch。

    3.2 HYOLOv5實驗

    如2.1節(jié)所述,本實驗采用的數(shù)據(jù)集為Human COCO 2017數(shù)據(jù)集。數(shù)據(jù)集中共有63 935張訓練集數(shù)據(jù)與2 685張測試數(shù)據(jù)。訓練輪次為300輪,batch_size為64。考慮到輕量化需求,雖然采用了原分辨率為1 280的第6版系列權重,但是實際訓練中的輸入分辨率為640。精度指標為識別精度,以及各類別在不同交并比下的平均準確率(mean Average Precision,mAP),主要有mAP@0.5和mAP@0.5∶0.95。

    為證明模型的優(yōu)越性,算法在Human COCO 2017測試集上與YOLOv5原始權重進行對比,測試結(jié)果如表2所示,HYOLOv5系列網(wǎng)絡在識別的精度上均不弱于原始權重,且參數(shù)量低于原始權重,其中HYOLOv5-S的mAP@0.5∶0.95達到了50.7%,在小規(guī)模人體檢測網(wǎng)絡中保持了較高的識別效果。

    表2 在Human COCO 2017上的識別結(jié)果

    3.3 動作識別實驗

    為驗證小樣本動作識別效果,本研究在不同室內(nèi)環(huán)境下對多名體型各異的人員采集了10種肢體姿態(tài)的單人視頻數(shù)據(jù)集,具體類別為側(cè)抬右手、側(cè)抬左手、側(cè)推右手、側(cè)推左手、右手上舉、右手畫Λ、右高抬腿、左手上舉、左手畫Λ和左高抬腿,標簽對應0-9,每個人員重復采集相同動作3-4次。結(jié)合實際應用情況,將每組動作的前4個動作序列作為訓練集,剩下的作為測試集進行測試。訓練與測試數(shù)據(jù)比例為1∶4,訓練遠少于測試數(shù)據(jù)。dl、dt、dr、db的值均為60。

    為證明基于動態(tài)時間規(guī)整的小樣本動作匹配的有效性,利用相同數(shù)據(jù)使用KNN、Support Vector Machine(SVM)算法進行對比實驗。實驗結(jié)果如表3所示。經(jīng)對比,在極少樣本的情況下,KNN、SVM的識別精度遠低于本研究的方法。在使用HYOLOv5-S作為人體檢測器的情況下,本研究的方法在多類別分類上可以達到91.8%的準確率。從表中可以看出,人體檢測器的精度會對動作識別的準確度造成影響。這說明對人體特征的有效表征能夠降低視頻動作識別對數(shù)據(jù)的強依賴,證明了小樣本行為識別的可行性。

    表3 動作識別結(jié)果

    為進一步展示識別的細節(jié),分別繪制了使用人體檢測器HYOLOv5-N和HYOLOv5-S的動作分類識別混淆矩陣,如圖6所示。識別的誤判主要集中在存在細微差別的動作類上,如“側(cè)抬右手”和“側(cè)推右手”,但是在包含全身語義的動作中識別效果極佳,可達到100%的正確率。

    (a) HYOLOv5-N

    4 結(jié)論

    本研究提出了一種基于輕量化二維人體姿態(tài)估計的小樣本動作識別算法,能夠在極少視頻樣本下對多種動作進行有效識別。其中,輕量化二維人體姿態(tài)動作表征方法可以快速準確地提取視頻中人體的特征,可以為其他基于姿態(tài)估計的動作識別算法提供數(shù)據(jù)基礎。此外,用于動作識別的基于動態(tài)時間規(guī)整的中心特征選擇模板匹配算法,為解決其他時序數(shù)據(jù)挖掘算法提供了思路。本研究的主要貢獻包括4個方面:

    ①提出了一種基于輕量化二維人體姿態(tài)估計的小樣本動作識別算法,僅需少量樣本即可實現(xiàn)動作視頻識別;

    ②構建了Human COCO 2017數(shù)據(jù)集并訓練了輕量級人體檢測算法HYOLOv5,可以有效地識別視頻中的人體;

    ③基于輕量級人體姿態(tài)估計算法Lite-HRNet構建了人體姿態(tài)動作特征及姿態(tài)序列動態(tài)時間規(guī)整相似度度量方法;

    ④設計了一種基于中心特征選擇的模板匹配算法,可以有效地降低模板匹配任務的時空復雜度,提高識別效率。

    總體來看,本研究綜合利用視覺智能算法將人的行為降維成時間序列表達,將行為識別問題簡化建模為時間序列匹配問題,用靈活的識別機制來解決復雜的識別目標,具有一定的實際應用價值。未來的工作應包括2個方面:一是并行優(yōu)化動態(tài)時間規(guī)整的運算效率,進一步提高算法的實時性;二是進一步提高輕量化人體姿態(tài)表征的精度以提升動作識別的精度。

    猜你喜歡
    輕量化姿態(tài)人體
    人體“修補匠”
    汽車輕量化集成制造專題主編
    人體冷知識(一)
    排便順暢,人體無毒一身輕
    攀爬的姿態(tài)
    學生天地(2020年3期)2020-08-25 09:04:16
    一種輕量化自卸半掛車結(jié)構設計
    智富時代(2019年2期)2019-04-18 07:44:42
    全新一代宋的新姿態(tài)
    汽車觀察(2018年9期)2018-10-23 05:46:40
    跑與走的姿態(tài)
    中國自行車(2018年8期)2018-09-26 06:53:44
    奇妙的人體止咳點
    特別健康(2018年3期)2018-07-04 00:40:10
    瞄準掛車輕量化 鑼響掛車正式掛牌成立
    專用汽車(2016年1期)2016-03-01 04:13:19
    邛崃市| 昂仁县| 宣化县| 蒙城县| 泰顺县| 兴义市| 纳雍县| 汉源县| 陕西省| 杭锦后旗| 寿宁县| 梁山县| 太和县| 黄龙县| 宜川县| 长汀县| 垣曲县| 抚宁县| SHOW| 绍兴县| 东光县| 普洱| 如皋市| 太保市| 元氏县| 慈利县| 剑河县| 航空| 青铜峡市| 巴林右旗| 高尔夫| 临漳县| 新乡县| 乐业县| 江西省| 牡丹江市| 古田县| 邻水| 尚志市| 景德镇市| 连山|