• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的自動(dòng)扶梯視頻人體動(dòng)作識(shí)別

    2021-09-13 02:27:43汪威胡旭曉吳躍成丁楠楠王佳
    軟件工程 2021年9期

    汪威 胡旭曉 吳躍成 丁楠楠 王佳

    摘? 要:在自動(dòng)扶梯場(chǎng)景下的視頻人體動(dòng)作識(shí)別中,視頻數(shù)據(jù)源不穩(wěn)定,如遮擋、多視角、光照、低分辨率、動(dòng)態(tài)背景以及背景混亂等均導(dǎo)致動(dòng)作分類及檢測(cè)不準(zhǔn)確。針對(duì)這些問(wèn)題,提出使用基于改進(jìn)的SlowFast網(wǎng)絡(luò)的人體動(dòng)作識(shí)別方法,以更好地捕獲視頻連續(xù)幀中隱藏的時(shí)間和空間信息。通過(guò)與R(2+1)D卷積網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率進(jìn)行對(duì)比,改進(jìn)的SlowFast網(wǎng)絡(luò)模型在視頻中的動(dòng)作分類和檢測(cè)方面都表現(xiàn)了很好的性能,能夠有效地解決自動(dòng)扶梯場(chǎng)景下的人體動(dòng)作識(shí)別問(wèn)題。

    關(guān)鍵詞:人體動(dòng)作識(shí)別;單流三維卷積神經(jīng)網(wǎng)絡(luò);慢速路徑;快速路徑;改進(jìn)的SlowFast

    中圖分類號(hào):TP249? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

    文章編號(hào):2096-1472(2021)-09-24-03

    Abstract: In human motion recognition in escalator scene video, the instability of the video data source, such as occlusion, multiple viewing angles, illumination, low resolution, dynamic background, and background confusion, leads to inaccurate motion classification and detection. Aiming at these problems, this paper proposes to use a human motion recognition method based on the improved SlowFast network to better capture the temporal and spatial information hidden in the continuous video frames. Compared with the recognition accuracy of the R (2+1) D convolutional network model, the improved SlowFast network model has achieved better performance in motion classification and detection in videos, and can effectively solve the problem of Human body motion recognition in escalator scene.

    Keywords: human motion recognition; single stream 3-D convolutional neural network; slow path; fast path; improved SlowFast

    1? ?引言(Introduction)

    自動(dòng)扶梯是空間開(kāi)放性運(yùn)輸工具,活動(dòng)空間相對(duì)較大,導(dǎo)致傷害的因素比較多[1]。臺(tái)階是持續(xù)運(yùn)動(dòng)的,乘客進(jìn)入或者離開(kāi)臺(tái)階區(qū)域時(shí)運(yùn)行狀態(tài)的改變?nèi)菀资蛊湔玖⒉环€(wěn),發(fā)生跌倒危險(xiǎn);在乘客越界后自動(dòng)扶梯與墻壁交叉處產(chǎn)生的“剪切”將嚴(yán)重威脅乘客安全[2];此外,乘客逆行、攜帶大件物品等都容易發(fā)生意外傷害。自動(dòng)扶梯人體動(dòng)作識(shí)別的主要目標(biāo)是判斷一段視頻中人的動(dòng)作的類別,主要識(shí)別判斷危險(xiǎn)動(dòng)作類別,比如身體部位越過(guò)安全線、頭部外探、下蹲、跌倒、逆行、手提行李箱等大件物品等,保障乘客的人身與財(cái)產(chǎn)安全。近年來(lái),基于深度學(xué)習(xí)網(wǎng)絡(luò)模型的端到端方法實(shí)現(xiàn)了特征提取和分類的無(wú)縫連接[3]。本文基于深度學(xué)習(xí)的方法實(shí)現(xiàn)自動(dòng)扶梯視頻中的人體動(dòng)作識(shí)別,對(duì)自動(dòng)扶梯乘客危險(xiǎn)動(dòng)作進(jìn)行實(shí)時(shí)監(jiān)測(cè)預(yù)警。

    2? 單流三維卷積神經(jīng)網(wǎng)絡(luò)(Single stream 3D convolution neural network)

    2.1? ?三維卷積

    單流三維卷積神經(jīng)網(wǎng)絡(luò)使用時(shí)間卷積來(lái)識(shí)別視頻中人類行為,利用在大規(guī)模監(jiān)控視頻數(shù)據(jù)集上訓(xùn)練的深度三維卷積網(wǎng)絡(luò)進(jìn)行時(shí)空特征學(xué)習(xí)。三維卷積網(wǎng)絡(luò)比二維卷積網(wǎng)絡(luò)更適于時(shí)空特征學(xué)習(xí),在所有層中均具有3×3×3卷積核的同類架構(gòu)是三維卷積網(wǎng)絡(luò)性能最佳的架構(gòu)之一[4]。與二維卷積網(wǎng)絡(luò)相比,由于三維卷積和三維池化操作,三維卷積網(wǎng)絡(luò)能夠?qū)r(shí)間信息進(jìn)行建模。在三維卷積網(wǎng)絡(luò)中,卷積和池化操作是在時(shí)間上進(jìn)行的,而在二維卷積網(wǎng)絡(luò)中,卷積和池化操作僅在空間上進(jìn)行。二維卷積網(wǎng)絡(luò)在每次卷積操作之后立即丟失輸入信號(hào)的時(shí)間信息,只有三維卷積才能保留輸入信號(hào)的時(shí)間信息,從而產(chǎn)生輸出量。

    2.2? ?R(2+1)D卷積

    將三維卷積濾波器分解為單獨(dú)的空間和時(shí)間分量會(huì)顯著提高準(zhǔn)確性?;谌S卷積,研究設(shè)計(jì)了一個(gè)新的時(shí)空卷積塊“R(2+1)D”[5],它將3D卷積顯式分解為兩個(gè)獨(dú)立且連續(xù)的運(yùn)算,即2D空間卷積和1D時(shí)間卷積。用一個(gè)大小為的卷積濾波器和一個(gè)大小為的時(shí)間卷積濾波器組成的(2+1)D塊替換了大小為的卷積濾波器。第一個(gè)優(yōu)點(diǎn)是這兩個(gè)操作之間的附加非線性整流。與在相同數(shù)量的參數(shù)下使用完整3D卷積的網(wǎng)絡(luò)相比,這有效地使非線性數(shù)量增加了一倍,從而使網(wǎng)絡(luò)模型能夠表示更復(fù)雜的函數(shù)。第二個(gè)潛在的好處是分解有助于優(yōu)化。

    3? 改進(jìn)的SlowFast網(wǎng)絡(luò)(Improved SlowFast network)

    3.1? ?網(wǎng)絡(luò)原理

    一種著名的視頻識(shí)別體系結(jié)構(gòu)是雙流設(shè)計(jì)[6],但其提出的觀念并沒(méi)有探索時(shí)間軸的影響,其兩個(gè)流采用相同的主干結(jié)構(gòu)。

    運(yùn)動(dòng)是方向的時(shí)空對(duì)應(yīng)物,但并非所有的時(shí)空方向都具有相同的可能性。慢動(dòng)作比快動(dòng)作更有可能運(yùn)動(dòng),如果所有時(shí)空方向的可能性都不相同,那么就沒(méi)有理由像基于時(shí)空卷積的視頻識(shí)別方法中所說(shuō)明的那樣,對(duì)空間和時(shí)間進(jìn)行對(duì)稱處理。對(duì)于人體動(dòng)作識(shí)別,SlowFast網(wǎng)絡(luò)[7]不額外捕獲光流或近似光流特征,而是用幀的刷新速度來(lái)區(qū)分空間和時(shí)間關(guān)系,分別處理空間結(jié)構(gòu)和時(shí)間事件。視頻場(chǎng)景中的幀通常包含兩個(gè)不同的部分:不怎么變化或者緩慢變化的靜態(tài)區(qū)域和正在發(fā)生變化的動(dòng)態(tài)區(qū)域。在視覺(jué)內(nèi)容的范疇空間語(yǔ)義往往發(fā)展緩慢,例如,揮手在揮手動(dòng)作的跨度上不會(huì)改變自己作為“手”的身份,一個(gè)人即使可以從走路切換到跑步,也始終處于“人”的范疇。因此,動(dòng)作分析中語(yǔ)義的識(shí)別,如顏色、紋理、光線等可以相對(duì)緩慢地刷新。另一方面,正在執(zhí)行的動(dòng)作可以比主體身份變化快得多,例如拍手、揮手、顫抖、走路或跳躍,于是我們迅速地去刷新動(dòng)作幀,但是不改變執(zhí)行動(dòng)作人的身份信息。利用快速刷新幀(高時(shí)間分辨率)對(duì)潛在的快速變化運(yùn)動(dòng)進(jìn)行有效建模是一種理想的方法。

    3.2? ?網(wǎng)絡(luò)結(jié)構(gòu)

    SlowFast網(wǎng)絡(luò)可以描述為在兩個(gè)不同幀率下運(yùn)行的單一流架構(gòu),可以進(jìn)行端到端的網(wǎng)絡(luò)訓(xùn)練。其網(wǎng)絡(luò)結(jié)構(gòu)原理圖如圖1所示。

    SlowFast網(wǎng)絡(luò)主要包含兩個(gè)網(wǎng)絡(luò)分支:一個(gè)低幀,低時(shí)序分辨率的慢速路徑;一個(gè)高幀,高時(shí)序分辨率的快速路徑??焖俾窂降臅r(shí)序分辨率為慢速路徑的倍數(shù),通道數(shù)為慢速路徑的倍數(shù)(如1/8)。最后,進(jìn)行橫向連接融合兩個(gè)路徑。

    (1)慢速路徑(Slow pathway)

    慢速路徑輸入為低幀率數(shù)據(jù),主要捕獲空間語(yǔ)義信息,以低幀率和緩慢的刷新速度運(yùn)行。慢速路徑可以是任何卷積模型,其輸入源視頻剪輯作為一個(gè)時(shí)空量。慢速路徑在輸入幀上有一個(gè)大的時(shí)間步伐,原始輸入視頻幀,以步伐進(jìn)行采集,采集到幀圖像送入慢速通道訓(xùn)練。

    (2)快速路徑(Fast pathway)

    快速路徑輸入為高幀率數(shù)據(jù),主要捕獲時(shí)序動(dòng)作信息,以高幀率和快速的刷新速度運(yùn)行。盡管快速路徑在時(shí)間維度刷新很快,但是在整個(gè)網(wǎng)絡(luò)中,其只占用了20%的計(jì)算量,通道數(shù)很少,是一個(gè)輕量級(jí)子網(wǎng)絡(luò)。快速路徑對(duì)空間信息的捕獲能力較弱,但能捕獲到對(duì)動(dòng)作識(shí)別有用的信息??焖俾窂脚c慢速路徑平行,是另一個(gè)卷積模型??焖俾窂皆跁r(shí)序方向使用步伐比較小的方式進(jìn)行采樣,步伐表示為,這里,表示快速路徑與慢速路徑幀率的比值。這兩條路徑在同一輸入視頻源上進(jìn)行剪輯操作(但步伐不一樣)??焖俾窂讲蓸訋?,比慢速路徑密度大。

    (3)橫向連接(Lateral connections)

    兩條路徑的信息是融合的,在融合之前,其中一條路徑并不會(huì)意識(shí)到另一條路徑所習(xí)得的信息。每一個(gè)“階段”在兩條路徑之間附加一個(gè)橫向連接[8],對(duì)于ResNets[9],這些橫向連接的部分分別位于pool1、res2、res3與res4層之后。兩種路徑的時(shí)間維度是不一樣的,需要對(duì)它們進(jìn)行一個(gè)轉(zhuǎn)換后才能進(jìn)行匹配,使用單向連接的方式,融合快速路徑的特征到慢速路徑。最后,對(duì)于每個(gè)路徑的輸出,將兩個(gè)混合的特征向量串聯(lián)起來(lái)作為全連通分類器層的輸入。

    3.3? ?網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)

    (1)進(jìn)一步減少輕量級(jí)快速路徑的空間容量

    快速路徑在空間維度上沒(méi)有特殊處理。因此,其空間建模能力應(yīng)低于慢速路徑,需要減少快速路徑對(duì)空間的捕獲能力,同時(shí)增加其對(duì)時(shí)間的捕獲能力。結(jié)合降低輸入空間分辨率和去除顏色信息等方式,最大化降低快速路徑的空間容量來(lái)實(shí)現(xiàn)輕量化。

    (2)對(duì)時(shí)態(tài)卷積的優(yōu)化應(yīng)用

    在慢速路徑中,從conv1層到res3層本質(zhì)上都是使用二維卷積核。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),如果在早期的網(wǎng)絡(luò)層使用帶時(shí)序的卷積核會(huì)降低準(zhǔn)確率。當(dāng)目標(biāo)移動(dòng)比較快、時(shí)間步長(zhǎng)比較大時(shí),如果時(shí)間感受野比較小,就沒(méi)有辦法把動(dòng)作連貫起來(lái),除非空間感受野足夠大,否則在一個(gè)時(shí)間感受野內(nèi)幾乎沒(méi)有相關(guān)性。因此,我們只在res4層和res5層中使用非退化的時(shí)態(tài)卷積。

    4? ?實(shí)驗(yàn)與結(jié)果分析(Experiment and result analysis)

    4.1? ?數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境

    按照UCF101[10]公共數(shù)據(jù)集,將一個(gè)人體動(dòng)作類的剪輯分為25 個(gè)組,每個(gè)組包含4—7 個(gè)剪輯,每一組剪輯具有一些共同的特征,例如背景或乘客。針對(duì)身體部位越過(guò)安全線、頭部外探、下蹲、跌倒、逆行、手提行李箱等大件物品等危險(xiǎn)動(dòng)作類別,采集動(dòng)作序列視頻數(shù)據(jù)作為自動(dòng)扶梯人體動(dòng)作模型庫(kù)標(biāo)準(zhǔn),劃分出訓(xùn)練集和測(cè)試集。

    利用樓梯場(chǎng)景下人體動(dòng)作數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,進(jìn)一步提高訓(xùn)練模型針對(duì)我們預(yù)設(shè)幾種人體動(dòng)作的識(shí)別準(zhǔn)確率。其中樓梯場(chǎng)景下的人體動(dòng)作類別與自動(dòng)扶梯場(chǎng)景下需進(jìn)行識(shí)別的人體動(dòng)作類別一致。部分自動(dòng)扶梯場(chǎng)景下人體動(dòng)作數(shù)據(jù)集視頻幀如圖2所示。

    此次實(shí)驗(yàn)在Ubuntu 16.04操作系統(tǒng)下進(jìn)行,處理器型號(hào)為Intel i7-9750H,顯卡型號(hào)為NVIDIA GTX1660ti,深度學(xué)習(xí)平臺(tái)使用PyTorch框架搭建。網(wǎng)絡(luò)訓(xùn)練的初始學(xué)習(xí)率設(shè)置為0.01,每進(jìn)行10 次迭代學(xué)習(xí)率除以10;網(wǎng)絡(luò)訓(xùn)練的周期設(shè)置為300,一次訓(xùn)練所選取的樣本數(shù)設(shè)置為16。以原始圖像數(shù)據(jù)的方式加載數(shù)據(jù),把視頻先切割成每幀圖片,然后加載訓(xùn)練。使用訓(xùn)練集進(jìn)行訓(xùn)練,并使用測(cè)試集進(jìn)行測(cè)試。

    4.2? ?實(shí)驗(yàn)過(guò)程

    針對(duì)R(2+1)D網(wǎng)絡(luò)訓(xùn)練,將網(wǎng)絡(luò)設(shè)置為18 層,輸入的視頻幀被縮放為128×170的大小,然后通過(guò)隨機(jī)裁剪大小為112×112的窗口方式來(lái)生成每個(gè)剪輯。在訓(xùn)練時(shí),從視頻中隨機(jī)采樣 個(gè)連續(xù)幀,并對(duì)視頻進(jìn)行時(shí)間抖動(dòng)。批量歸一化應(yīng)用于所有卷積層。

    針對(duì)SlowFast網(wǎng)絡(luò)訓(xùn)練,慢速路徑的主干網(wǎng)絡(luò)選擇3D ResNet-50結(jié)構(gòu),從輸入的64 幀圖像中,使用時(shí)間步長(zhǎng)稀疏采樣的方式,采集幀圖像作為慢速路徑的輸入??焖俾窂降臅r(shí)間步長(zhǎng)以及采樣 幀圖像,在整個(gè)網(wǎng)絡(luò)的時(shí)序維度上都沒(méi)有進(jìn)行下采樣,盡可能保持時(shí)間逼真度。橫向連接從快速路徑到慢速路徑使用一個(gè)卷積層進(jìn)行融合。慢速路徑的特征形狀表示為,快速路徑的特征形狀表示為。慢速路徑的特征形狀不進(jìn)行改變,主要調(diào)整快速路徑輸出特征的形狀,讓其能和慢速路徑進(jìn)行匹配。

    4.3? ?實(shí)驗(yàn)結(jié)果與對(duì)比分析

    針對(duì)網(wǎng)絡(luò)訓(xùn)練所得到的網(wǎng)絡(luò)模型,R(2+1)D網(wǎng)絡(luò)模型與改進(jìn)的SlowFast網(wǎng)絡(luò)模型的最終訓(xùn)練效果比較如表1所示。

    使用R(2+1)D模型的RGB網(wǎng)絡(luò)流在自動(dòng)扶梯數(shù)據(jù)集上達(dá)到了80.65%的識(shí)別準(zhǔn)確率。以視頻切割幀的方式進(jìn)行模型訓(xùn)練的部分識(shí)別測(cè)試結(jié)果截圖,如圖3所示。

    R(2+1)D模型以視頻切割幀的方式進(jìn)行模型訓(xùn)練的部分錯(cuò)誤識(shí)別測(cè)試結(jié)果截圖,如圖4所示。

    使用改進(jìn)的SlowFast網(wǎng)絡(luò)模型在自動(dòng)扶梯數(shù)據(jù)集上達(dá)到了93.4%的識(shí)別準(zhǔn)確率。以視頻切割幀的方式進(jìn)行模型訓(xùn)練的部分識(shí)別測(cè)試結(jié)果截圖,如圖5所示。

    針對(duì)不同的人做同一類動(dòng)作,即使同一個(gè)人做同一類動(dòng)作,由于個(gè)體差異、動(dòng)作快慢、環(huán)境及背景等不同,以及不同類的動(dòng)作可能表現(xiàn)出很相似的特征[3],R(2+1)D模型在視頻中的表現(xiàn)可能會(huì)產(chǎn)生很大誤差。通過(guò)實(shí)驗(yàn)對(duì)比,改進(jìn)的SlowFast網(wǎng)絡(luò)對(duì)于動(dòng)作的類內(nèi)差異性和類間相似性表現(xiàn)出了相對(duì)于R(2+1)D模型更加優(yōu)異的性能,大大提高了識(shí)別準(zhǔn)確率,并且達(dá)到了更好的實(shí)時(shí)性要求。

    5? ?結(jié)論(Conclusion)

    本文根據(jù)自動(dòng)扶梯場(chǎng)景下人體危險(xiǎn)動(dòng)作類別識(shí)別監(jiān)測(cè)的需要,考慮到時(shí)間軸這一特殊的維度,研究設(shè)計(jì)了一種架構(gòu),該架構(gòu)對(duì)比了沿時(shí)間軸的速度,它可為視頻動(dòng)作分類和檢測(cè)提供更優(yōu)異的準(zhǔn)確性與更好的識(shí)別速度。通過(guò)與R(2+1)D

    網(wǎng)絡(luò)模型的對(duì)比分析,改進(jìn)的SlowFast網(wǎng)絡(luò)能有效地解決自動(dòng)扶梯場(chǎng)景下的人體動(dòng)作識(shí)別問(wèn)題,并且能夠滿足實(shí)時(shí)性要求,一定程度上促進(jìn)了對(duì)視頻識(shí)別的進(jìn)一步研究。

    參考文獻(xiàn)(References)

    [1] 楊冠寶.基于全景視覺(jué)的自動(dòng)扶梯節(jié)能及智能監(jiān)控系統(tǒng)[D].杭州:浙江工業(yè)大學(xué),2011.

    [2] 陳旻.淺析自動(dòng)扶梯及自動(dòng)人行道中的“剪切”危險(xiǎn)[J].機(jī)電技術(shù),2009,32(04):104-107.

    [3] 羅會(huì)蘭,童康,孔繁勝.基于深度學(xué)習(xí)的視頻中人體動(dòng)作識(shí)別進(jìn)展綜述[J].電子學(xué)報(bào),2019,47(05):1162-1173.

    [4] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3d convolutional networks[C]// MORTENSEN E, FIDLER S. 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015:4489-4497.

    [5] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition[C]// MORTENSEN E. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:6450-6459.

    [6] SIMONYAN K, ZISSERMAN A. Two-stream convolutional networks for action recognition in videos[J]. Advances in Neural Information Processing Systems, 2014, 1(4):568-576.

    [7] FEICHTENHOFER C, FAN H, MALIK J, et al. SlowFast networks for video recognition[C]// MORTENSEN E. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, Korea (South):IEEE, 2019:6201-6210.

    [8] LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]// MORTENSEN E. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017:936-944.

    [9] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// MORTENSEN E, SAENKO K. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA: IEEE, 2016:770-778.

    [10] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[J]. Computer Science, 2012, 3(12):2-9.

    作者簡(jiǎn)介:

    汪? 威(1997-),男,碩士生.研究領(lǐng)域:圖像處理,計(jì)算機(jī)視覺(jué).

    胡旭曉(1965-),男,博士,教授.研究領(lǐng)域:圖像處理,機(jī)器視覺(jué).

    吳躍成(1966-),男,博士,副教授.研究領(lǐng)域:人機(jī)交互.

    丁楠楠(1996-),男,碩士生.研究領(lǐng)域:圖像處理.

    王? ?佳(1998-),女,碩士生.研究領(lǐng)域:故障診斷算法研究.

    建水县| 宁安市| 偃师市| 海淀区| 大英县| 南江县| 张家川| 廉江市| 礼泉县| 息烽县| 无为县| 湛江市| 太湖县| 平阴县| 莫力| 电白县| 伊宁县| 莆田市| 老河口市| 三穗县| 辛集市| 厦门市| 济源市| 瓮安县| 灵台县| 镇平县| 宁明县| 定州市| 湟源县| 陕西省| 密云县| 达尔| 彭山县| 蒙自县| 屯昌县| 宝鸡市| 阳东县| 宝应县| 通山县| 黄冈市| 塔城市|