陳昱昆,汪正祥,于蓮芝
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
近年來(lái),由于注意力機(jī)制的發(fā)展和深度視覺表征的迅速崛起,視覺理解,如物體檢測(cè)和場(chǎng)景識(shí)別[1-4]等任務(wù)已經(jīng)有了顯著的發(fā)展.人體姿態(tài)估計(jì)[5,6]是許多計(jì)算機(jī)視覺應(yīng)用中的重要組成部分,常常應(yīng)用在視頻監(jiān)控和體育視頻分析等領(lǐng)域.隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,人體姿態(tài)估計(jì)已經(jīng)取得了很大突破,但是由于人體遮擋,圖片背景復(fù)雜以及人體在圖片中尺度的不同等因素,仍然是一個(gè)具有挑戰(zhàn)性的項(xiàng)目.在視頻圖像人體姿態(tài)估計(jì)中,運(yùn)動(dòng)物體可能會(huì)導(dǎo)致圖像模糊,對(duì)姿態(tài)估計(jì)造成較大的困難,同時(shí)由于常用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)比較復(fù)雜以及參數(shù)較多,導(dǎo)致模型速度一般較慢,因此在視頻圖像中,對(duì)人體姿態(tài)估計(jì)提出了更高的要求.
單人姿態(tài)估計(jì)已被廣泛研究.傳統(tǒng)方法包括使用梯度方向直方圖和可變形零件模型等,這類方法比較依賴于手工定義特征,表達(dá)能力有限,很難擴(kuò)展到復(fù)雜的場(chǎng)景.關(guān)于人體姿態(tài)估計(jì)的研究近年開始從經(jīng)典方法轉(zhuǎn)向卷積神經(jīng)網(wǎng)絡(luò).Toshev等人[7],使用卷積神經(jīng)網(wǎng)絡(luò)直接回歸人體關(guān)鍵點(diǎn)的坐標(biāo),Newell等人[4],將回歸坐標(biāo)變成由坐標(biāo)生成的關(guān)鍵點(diǎn)熱力圖為標(biāo)簽,并依據(jù)深度神經(jīng)網(wǎng)絡(luò)采用“下采樣上采樣”的架構(gòu),中間使用跳過(guò)層連接,該架構(gòu)簡(jiǎn)稱為沙漏網(wǎng)絡(luò).這種結(jié)構(gòu)通過(guò)下采樣對(duì)不同特征進(jìn)行融合和提取,通過(guò)上采樣與低維特征進(jìn)行融合,得到原圖大小的預(yù)測(cè)熱力圖.這種結(jié)構(gòu)高分辨率表征主要是由低分辨率表征通過(guò)上采樣得到的高分辨率表征,其本身雖然擁有很好的語(yǔ)義表達(dá)能力,但是上采樣本身并不能完整地彌補(bǔ)空間分辨率的損失.
與單人姿態(tài)估計(jì)相比,多人姿態(tài)估計(jì)需要解析場(chǎng)景中所有人的全身姿勢(shì),由于多人之間的遮擋,不同關(guān)鍵點(diǎn)和人之間的相互作用使其成為更具有挑戰(zhàn)性的任務(wù).多人姿勢(shì)估計(jì)方法可以分為兩類:分別簡(jiǎn)稱“自上而下”和“自下而上”.“自上而下”的方法[6-10]主要將人體關(guān)鍵點(diǎn)分為兩個(gè)階段,首先使用性能良好的人物檢測(cè)器對(duì)圖像中的人物進(jìn)行檢測(cè),然后對(duì)檢測(cè)出的每個(gè)人進(jìn)行姿態(tài)估計(jì),這樣做的目的將多人姿態(tài)估計(jì)轉(zhuǎn)化為單人姿態(tài)估計(jì),這類方法非常依賴于人體探測(cè)器的性能.CPN[10]介紹了COCO[11]2017年的人體關(guān)鍵點(diǎn)挑戰(zhàn)賽勝利者的方法,采用改進(jìn)的金字塔網(wǎng)絡(luò)FPN[12]作為人體檢測(cè)器,同時(shí)人體關(guān)鍵點(diǎn)檢測(cè)分為兩個(gè)階段,GlobalNet[10]是使用金字塔網(wǎng)絡(luò)識(shí)別簡(jiǎn)單的點(diǎn),RefineNet[10]采用難點(diǎn)挖掘方法(OHEM)識(shí)別困難的關(guān)鍵點(diǎn)并只返還困難點(diǎn)的梯度,進(jìn)而訓(xùn)練識(shí)別困難的關(guān)鍵點(diǎn).但這種方法,更容易檢測(cè)形狀小的行人,同時(shí)recall比較高,但是由于經(jīng)過(guò)行人檢測(cè)化多人關(guān)鍵點(diǎn)檢測(cè)為單人關(guān)鍵點(diǎn)檢測(cè),兩個(gè)深度學(xué)習(xí)模型速率一般較慢.“自下而上”的方法首先預(yù)測(cè)圖像中所有身體關(guān)節(jié),然后利用矢量圖或者聚類的方法將這些點(diǎn)進(jìn)行分類,構(gòu)成不同人的完整姿態(tài).Openpose[13]是基于“自下而上”方法由卡內(nèi)基梅隆大學(xué)開源的人體關(guān)鍵點(diǎn)檢測(cè)項(xiàng)目,首先找到圖像中的所有人的關(guān)鍵點(diǎn),然后再對(duì)這些點(diǎn)進(jìn)行匹配連接,使得同一個(gè)人的點(diǎn)進(jìn)行相連,獲得最終的姿態(tài)估計(jì)結(jié)果.這種方法由于只經(jīng)過(guò)一個(gè)深度學(xué)習(xí)模型,時(shí)效性比較強(qiáng),但沒有使用行人檢測(cè)器,而是依賴于語(yǔ)義信息和關(guān)鍵點(diǎn)之間的關(guān)系,對(duì)關(guān)節(jié)關(guān)系進(jìn)行建??赡懿⒉荒敲纯煽?,準(zhǔn)確率比較低,有時(shí)無(wú)法區(qū)分該點(diǎn)屬于哪個(gè)人,所以本文采用“自上而下”方法,并選用輕量級(jí)網(wǎng)絡(luò)作為骨架網(wǎng)絡(luò),在保證準(zhǔn)確率的同時(shí)提高模型時(shí)效性.
上述多人姿態(tài)估計(jì),主要是針對(duì)單幅圖像處理,而在應(yīng)用場(chǎng)景往往是以視頻的形式呈現(xiàn).運(yùn)動(dòng)物體導(dǎo)致圖像模糊以及姿態(tài)估計(jì)器比較耗時(shí),這對(duì)視頻檢測(cè)提出了更高的要求.視頻具有連貫性,視頻的幀間信息具有相似性和時(shí)序性,如果可以不通過(guò)姿態(tài)估計(jì)器而是通過(guò)幀間信息推理出預(yù)測(cè)幀關(guān)鍵點(diǎn)信息,那在視頻中的檢測(cè)速度會(huì)有較大幅度的提高.最新的一項(xiàng)工作,3DMaskR-CNN[14],在對(duì)每幀關(guān)鍵點(diǎn)檢測(cè)的同時(shí),也會(huì)通過(guò)3D卷積利用時(shí)序信息產(chǎn)生姿態(tài)軌跡流進(jìn)行關(guān)鍵點(diǎn)預(yù)測(cè),但是3D卷積融合幀間信息的同時(shí),也帶來(lái)了較大的計(jì)算量.
本文提出了一種在視頻中進(jìn)行人體關(guān)鍵點(diǎn)檢測(cè)的方法,方法分為兩部分,第一部分是對(duì)單幀圖片進(jìn)行人體關(guān)鍵點(diǎn)檢測(cè),對(duì)于上采樣不能彌補(bǔ)空間分辨率損失以及常用檢測(cè)模型速度較慢的情況,采用雙路卷積神經(jīng)網(wǎng)絡(luò),一路采用金字塔網(wǎng)絡(luò)結(jié)構(gòu)保持語(yǔ)義表達(dá)能力,并選輕量級(jí)模塊Inverted residuals模塊作為網(wǎng)絡(luò)基礎(chǔ)模塊,提高模型運(yùn)行速率,另一路保持空間分辨率以減少由于分辨率變化導(dǎo)致的損失.第二部分,利用時(shí)間序列關(guān)系建立關(guān)鍵點(diǎn)輕量級(jí)跟蹤模型,旨在利用視頻中幀間信息進(jìn)行視頻人體關(guān)鍵點(diǎn)推理.實(shí)驗(yàn)結(jié)果表明,本文的檢測(cè)模型對(duì)比Girdhar et al[15]、Xiu et al[16]的mAP分別提高16.1%和11%,對(duì)于圖片單人檢測(cè)速度分別提升60%和50%,對(duì)于跟蹤模塊MOT分別有16%和7.6%提升.本文對(duì)比最新的Xiao B et al[9]檢測(cè)模型的mAP,單人檢測(cè)速度以及MOT分別有1.3%,20%以及2.8%的提高.因此,本文的方法不僅可以增加在視頻中行為姿態(tài)檢測(cè)速率,同時(shí)還有效的提高了準(zhǔn)確率.
本文采用基于SSD[17]的物體檢測(cè)算法.為了減少參數(shù)并提高速率,采用高性能輕量級(jí)網(wǎng)絡(luò)MobilenetV2[18]取代SSD[17]中的VGG16[19]作為骨架網(wǎng)絡(luò),并采用激活函數(shù)ReLu6如公式(1)取代ReLu,提取主要的非線性特征.
f(x)=min(6,max(,0,x))
(1)
x是激活函數(shù)的輸入,f(x)是該函數(shù)的輸出.ReLu6是根據(jù)ReLu進(jìn)行改進(jìn),將ReLu的最大范圍控制在6以下,它常常使用在移動(dòng)端設(shè)備中,主要是為了在移動(dòng)端設(shè)備float16低精度的情況下,也會(huì)有很好的數(shù)值分辨率,如果對(duì)ReLu的激活范圍不加限制,輸出范圍0到正無(wú)窮,如果激活值非常大,則輸出分布會(huì)在一個(gè)很大的范圍,此時(shí)在移動(dòng)端設(shè)備中低精度的float16會(huì)無(wú)法很好地精確描述如此大范圍的數(shù)值,從而帶來(lái)精度損失.
為了訓(xùn)練物體探測(cè)器,在訓(xùn)練過(guò)程中僅使用COCO[11]數(shù)據(jù)集中的所有80個(gè)類別,選擇所有類別是人類檢測(cè)框作為本文多人人體關(guān)鍵點(diǎn)檢測(cè)任務(wù)的輸入.
作為一種基于神經(jīng)網(wǎng)絡(luò)的人體關(guān)鍵點(diǎn)檢測(cè)算法,Xiao B et al[9]在2018年P(guān)oseTrack[20]多人姿態(tài)估計(jì)挑戰(zhàn)賽中取得了挑戰(zhàn)賽的第二名的好成績(jī).該方法主要是以ResNet[21]為主干網(wǎng)絡(luò),并根據(jù)網(wǎng)絡(luò)輸出的低分辨率特征層采用少量的轉(zhuǎn)置卷積層來(lái)生成高分辨率特征層,最后構(gòu)成了人體姿態(tài)估計(jì)中常見的沙漏結(jié)構(gòu).姿態(tài)估計(jì)的輸入是行人檢測(cè)的結(jié)果,并將檢測(cè)出的行人送入到人體關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)中,旨在檢測(cè)K個(gè)關(guān)鍵點(diǎn)的位置,現(xiàn)階段效果比較好的方法都是將回歸出K個(gè)關(guān)鍵點(diǎn)的坐標(biāo)轉(zhuǎn)變?yōu)楣烙?jì)K個(gè)關(guān)鍵點(diǎn)的heatmap,詳見公式(2),輸出關(guān)鍵點(diǎn)的heatmap的channel數(shù)為K,即每一個(gè)heatmap表示第K個(gè)關(guān)鍵點(diǎn)位置的置信度.
(2)
Xiao B et al[9]采用的主干網(wǎng)絡(luò)是ResNet[21],ResNet[21]是常用的圖像特征提取的骨干網(wǎng)絡(luò)之一,它采用shotcut方式緩解了深層網(wǎng)絡(luò)中出現(xiàn)的梯度彌散和梯度爆炸的情況,它也常常用于姿態(tài)估計(jì),比如在文獻(xiàn)[15,16]中.ResNet[21]因?yàn)槠浣Y(jié)構(gòu)的復(fù)雜性和模塊的多樣性通常會(huì)導(dǎo)致更多的計(jì)算,這樣會(huì)導(dǎo)致計(jì)算速度變慢.
MobilenetV2[18]是一種新的基于移動(dòng)端可以提高多項(xiàng)任務(wù)和標(biāo)準(zhǔn)測(cè)試的最新水平的神經(jīng)網(wǎng)絡(luò).該架構(gòu)通過(guò)基于Inverted residuals結(jié)構(gòu),類似于ResNet[21]的Residual block,采用深度卷積和點(diǎn)卷積代替普通卷積來(lái)提取特征,有效降低了模型參數(shù)和計(jì)算復(fù)雜度,同時(shí)實(shí)驗(yàn)結(jié)果得到相似的精度.這種配置方法在理論上可以減少卷積層的時(shí)間復(fù)雜度和空間復(fù)雜度.一個(gè)標(biāo)準(zhǔn)卷積層輸入為Dk×Dk×M的特征圖F,并得到一個(gè)Df×Df×N的輸出特征圖G,其中Df表示輸入特征圖的寬和高,M是輸入的通道數(shù)(輸入的深度)G為輸出特征圖的寬和高,N是輸出的通道數(shù)(輸出的深度).標(biāo)準(zhǔn)卷積層計(jì)算量為Dk×Dk×M×N×Df×Df,深度可分離卷積的計(jì)算量為:Dk×Dk×M×Df×Df,點(diǎn)卷積計(jì)算量:M×N×Df×Df,則深度可分離卷積的計(jì)算量為Dk×Dk×M×Df×Df+M×N×Df×Df. 通過(guò)將普通卷積分為濾波和組合的過(guò)程得到對(duì)計(jì)算量的縮減,縮減比例詳見公式(3),對(duì)計(jì)算速度有較大幅度提升.
(3)
MobileNetV1使用深度可分離卷積作為網(wǎng)絡(luò)基本模塊,但在實(shí)用中會(huì)出現(xiàn)特征退化和梯度消失,MobilenetV2[18]主要學(xué)習(xí)了ResNet[21]的思想并基于深度可分離卷積采用shotcut模式,防止梯度消失,同時(shí)采用一個(gè)1×1卷積核提升通道數(shù),以防止特征退化,在低緯度空間,線性映射會(huì)保存特征,而非線性映射會(huì)破壞特征,所以使用linear激活函數(shù)代替ReLu激活函數(shù)來(lái)增加信息保留,具體結(jié)構(gòu)見圖1.因此根據(jù)以上優(yōu)點(diǎn),本文選取MobilenetV2[18]作為backbone.
圖1 ResNet結(jié)構(gòu)單元與MobileNetv2結(jié)構(gòu)單元對(duì)比圖Fig.1 Comparison between ResNet structural unit and MobileNetv2 structural unit
Xiao B et al[9]主要是高分辨率特征圖下采樣至低分辨率,再?gòu)牡头直媛侍卣鲌D采用轉(zhuǎn)置卷積層來(lái)生成高分辨率的思路,但是在這類網(wǎng)絡(luò)中,高分辨表征主要是低分辨率表征通過(guò)上采樣得到的高分辨率表征,其本身雖然擁有很好的語(yǔ)義表達(dá)能力,但是上采樣本身并不能完整地彌補(bǔ)空間分辨率的損失.所以,最終輸出的人體姿態(tài)估計(jì)高分辨率表征所具有的空間敏感度并不高,空間敏感度很大程度上受限于語(yǔ)義表達(dá)力強(qiáng)的表征所對(duì)應(yīng)的分辨率.所以本文希望在整個(gè)網(wǎng)絡(luò)過(guò)程中始終保持高分辨率表征,同時(shí)增加高分辨率和低分辨率之間進(jìn)行信息交換和融合,從而希望可以得到足夠的豐富語(yǔ)義信息.
圖2 人體關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network structure diagram of Human keypointdetection
本文采用了兩路分支,第一路分支主要以MobilenetV2[18]為主干網(wǎng)絡(luò),下采樣32倍.同時(shí)構(gòu)建金字塔網(wǎng)絡(luò),選用下采樣8倍特征圖大小為基準(zhǔn),將下采樣2倍,4倍特征圖進(jìn)行3×3卷積變成下采樣為8倍特征圖,同時(shí)通過(guò)轉(zhuǎn)置卷積對(duì)特征圖進(jìn)行上采樣為8倍特征圖,然后將各個(gè)部分的特征圖進(jìn)行拼接融合作為第二路分支的輸入.之后第二路經(jīng)過(guò)卷積處理后和第一路的特征圖進(jìn)行拼接融合,最后添加1×1卷積核用來(lái)生成所有k個(gè)身體關(guān)鍵點(diǎn)的預(yù)測(cè)熱力圖{H1…Hk}.具體結(jié)構(gòu)見圖2,‘Ds’表示下采樣,‘Us’表示上采樣.
(4)
與文獻(xiàn)[21]中相同,采用均方誤差(MSE)作為損失函數(shù),詳見公式(4),f(Xij)為預(yù)測(cè)熱力圖的概率值,Yij為熱力圖的標(biāo)簽值,圖像在第k個(gè)關(guān)鍵點(diǎn)周圍生成高斯分布作為熱力圖標(biāo)簽,與網(wǎng)絡(luò)預(yù)測(cè)的熱力圖概率圖進(jìn)行比較,測(cè)試時(shí)選擇在熱力圖上概率最大點(diǎn)的坐標(biāo)作為該關(guān)鍵點(diǎn)的坐標(biāo)值.
本文提出一個(gè)新穎的使用幀間信息進(jìn)行人體關(guān)鍵點(diǎn)跟蹤方法(如圖3所示),基于先前幀的關(guān)鍵點(diǎn)的位置信息和關(guān)聯(lián)信息使用卷積神經(jīng)網(wǎng)絡(luò)的方法建立信道連接,最后對(duì)預(yù)測(cè)幀的關(guān)鍵點(diǎn)信息進(jìn)行推理.
圖3 人體關(guān)鍵點(diǎn)跟蹤網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure diagram of Human keypointtracking
步驟1.本文使用人體檢測(cè)器對(duì)圖像進(jìn)行行人檢測(cè),從而得到每張圖中行人的位置.
步驟2.將用2.2介紹的模型作為人體關(guān)鍵點(diǎn)檢測(cè)模型,并將步驟1得到的行人提取出來(lái),作為人體關(guān)鍵點(diǎn)模型的輸入.
并根據(jù)時(shí)序坐標(biāo)從預(yù)測(cè)幀中摳出局部圖片,并對(duì)局部圖片的關(guān)鍵點(diǎn)生成該點(diǎn)熱力圖,并與待測(cè)圖片的相同范圍內(nèi)建立時(shí)序信道,作為跟蹤模型的輸入.為了增大局部感受野的范圍,將時(shí)序信道的范圍擴(kuò)大1.3倍.
(5)
(6)
(7)
(8)
步驟4.網(wǎng)絡(luò)模型是基于MobilenetV2[18]的Inverted residuals結(jié)構(gòu)的6層卷積網(wǎng)絡(luò).第一層通過(guò)Inverted residuals獲得8個(gè)特征映射通道,然后通過(guò)每?jī)蓚€(gè)Inverted residuals,將得到的特征圖通道擴(kuò)大原來(lái)的兩倍,經(jīng)過(guò)6個(gè)Inverted residuals,特征通道擴(kuò)大為第一層特征層的32倍,之后經(jīng)過(guò)一個(gè)1×1的卷積進(jìn)行維度降維,獲得具有1個(gè)通道的預(yù)測(cè)熱力圖,表1為關(guān)鍵點(diǎn)幀間推理網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),采用l2損失對(duì)預(yù)測(cè)幀進(jìn)行比較.圖3提供了設(shè)計(jì)中跟蹤器網(wǎng)絡(luò)的示意圖.
由于在人體關(guān)鍵點(diǎn)檢測(cè)中發(fā)現(xiàn)分辨率大小的改變?cè)谠黾痈惺芤暗耐瑫r(shí),也會(huì)帶來(lái)精度方面的損失,而且在跟蹤關(guān)鍵點(diǎn)時(shí),對(duì)于關(guān)鍵點(diǎn)來(lái)說(shuō),主要在意的是關(guān)鍵點(diǎn)周圍的信息,而不是全局信息,所以本文中關(guān)鍵點(diǎn)跟蹤網(wǎng)絡(luò)主要是分辨率保持一致.這樣既保持周圍信息的同時(shí),減少由于分辨圖大小不同帶來(lái)benchmark的差異.
表1 關(guān)鍵點(diǎn)幀間推理網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Key point inter frame reasoning network structure
步驟5.根據(jù)步驟3可以得到一個(gè)關(guān)鍵點(diǎn)預(yù)測(cè),如果想要知道其它關(guān)鍵點(diǎn)的預(yù)測(cè),根據(jù)步驟3重新建立時(shí)序信道,并采用步驟4跟蹤模型跟蹤關(guān)鍵點(diǎn).
由于人體關(guān)鍵點(diǎn)檢測(cè)需要較高的模型復(fù)雜度才可以得到精確的結(jié)果,通常需要很高的計(jì)算量并需要花費(fèi)較多的時(shí)間,建立跟蹤模型旨在利用已知的每幀信息和幀間信息對(duì)預(yù)測(cè)幀進(jìn)行信息推理,減少單張圖片中人體關(guān)鍵點(diǎn)檢測(cè)所要花費(fèi)的時(shí)間.本文實(shí)驗(yàn)根據(jù)前3幀關(guān)鍵點(diǎn)的熱力圖和預(yù)測(cè)幀進(jìn)行融合,建立時(shí)序信道作為網(wǎng)絡(luò)的輸入,同時(shí)采用6層MobilenetV2[18]的Inverted residuals以及1個(gè)點(diǎn)卷積作為本文的網(wǎng)絡(luò)骨架,在精度保持的同時(shí)減少計(jì)算量.在PoseTrack數(shù)據(jù)集[20]中,本文為每個(gè)行人建立了12個(gè)關(guān)鍵點(diǎn)跟蹤器,并在測(cè)試集中進(jìn)行驗(yàn)證,實(shí)現(xiàn)良好的效率,這將在第下一章中進(jìn)行分析.
本文采用的是PoseTrack數(shù)據(jù)集[20],該數(shù)據(jù)集是用于大規(guī)模多人姿勢(shì)估計(jì)和跟蹤野外視頻的基準(zhǔn).它共包含550個(gè)視頻,共66,374個(gè)幀,分別包含292個(gè)訓(xùn)練集,50個(gè)驗(yàn)證集和208個(gè)測(cè)試集.訓(xùn)練集中視頻的中間30幀密集地標(biāo)有人體關(guān)鍵點(diǎn).對(duì)于驗(yàn)證和測(cè)試視頻,除了中間30幀之外,每四幀也被注釋用于評(píng)估遠(yuǎn)程關(guān)節(jié)跟蹤.總的來(lái)說(shuō),數(shù)據(jù)集包含23,000個(gè)標(biāo)記幀和153,615個(gè)姿勢(shì).
數(shù)據(jù)集旨在評(píng)估三種不同任務(wù)的方法.任務(wù)1使用平均精度(mAP)度量來(lái)評(píng)估單幀姿態(tài)估計(jì),如文獻(xiàn)[22]中所做的那樣.任務(wù)2還評(píng)估視頻中姿勢(shì)估計(jì).任務(wù)3使用多對(duì)象跟蹤度量(MOT)如文獻(xiàn)[23]評(píng)估跟蹤.mAP的計(jì)算方法如文獻(xiàn)[2]所示,MOT如文獻(xiàn)[24]中所述.本文使用PoseTrack數(shù)據(jù)集[20]評(píng)估系統(tǒng)計(jì)算論文中提供的所有結(jié)果.
實(shí)驗(yàn)服務(wù)器操作系統(tǒng)為Ubuntu 16.04 Server,配置有AMD 銳龍 2700 3.2 GHz CPU,和12G顯存的華碩GTX1080ti顯卡.行人檢測(cè)、人體關(guān)鍵點(diǎn)檢測(cè)以及人體關(guān)鍵點(diǎn)跟蹤都是使用了開源的深度學(xué)習(xí)框架tensorflow.
由于人體關(guān)鍵點(diǎn)檢測(cè)的輸入是行人檢測(cè)的輸出,本文需要從得到的圖像中裁剪并調(diào)整為固定分辨率,默認(rèn)分辨率為256:192.為了獲得更大的人體關(guān)鍵點(diǎn)感受野,將行人檢測(cè)的邊界框延長(zhǎng)15%(兩側(cè)為7.5%)來(lái)獲得行人的位置.數(shù)據(jù)增強(qiáng)包括旋轉(zhuǎn)(±40度),調(diào)整比例(±30%)和翻轉(zhuǎn)等.本文的MobileNetV2[18]主干網(wǎng)絡(luò)通過(guò)在COCO[11]數(shù)據(jù)集進(jìn)行了預(yù)訓(xùn)練,訓(xùn)練分為140個(gè)epoch,起始學(xué)習(xí)率為e-3,學(xué)習(xí)率在90個(gè)epoch的時(shí)候下降到e-4,在120個(gè)epoch下降到e-5.用PoseTrack數(shù)據(jù)集[20]訓(xùn)練檢測(cè)模型時(shí),先用COCO數(shù)據(jù)集的訓(xùn)練結(jié)果作為預(yù)訓(xùn)練模型再進(jìn)行finetune,訓(xùn)練總計(jì)分為20個(gè)epoch,開始學(xué)習(xí)率為e-3,在10個(gè)epoch下降到e-4,在15個(gè)epoch下降到e-5.同時(shí),Mini-batch大小為64,使用Adam優(yōu)化器.
訓(xùn)練跟蹤模型時(shí),本文主要建立了12個(gè)關(guān)鍵點(diǎn)的跟蹤模型,分別為左肩,右肩,左肘,右肘,左手腕,右手腕,左髖,右髖,左膝,右膝,左腳踝和右腳踝.對(duì)PoseTrack數(shù)據(jù)集[20]時(shí)序幀進(jìn)行切分,根據(jù)每四張圖片時(shí)序幀中前三已知幀的關(guān)鍵點(diǎn)的位置來(lái)切分第四幀的坐標(biāo).在訓(xùn)練時(shí),本文增加了與關(guān)鍵點(diǎn)模型相同的數(shù)據(jù)增強(qiáng),例如旋轉(zhuǎn)(±40度),比例(±30%)和翻轉(zhuǎn).總共有100個(gè)epoch,基礎(chǔ)學(xué)習(xí)率為e-3,它在50個(gè)epoch下降到e-4,在80個(gè)epoch下降到e-5.本文的模型損失函數(shù)是L2loss.
輕量級(jí)雙路卷積神經(jīng)網(wǎng)絡(luò)的人體關(guān)鍵點(diǎn)檢測(cè)方法和時(shí)間序列幀間推理網(wǎng)絡(luò)的人體關(guān)鍵點(diǎn)跟蹤方法,為說(shuō)明模型的有效性,本文對(duì)于人體關(guān)鍵點(diǎn)檢測(cè)從mAP和運(yùn)行時(shí)間上進(jìn)行評(píng)估.
圖4和圖5報(bào)告了姿態(tài)估計(jì)的結(jié)果(任務(wù)2).本文的人體關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò)除了腳踝關(guān)鍵點(diǎn),其他關(guān)鍵點(diǎn)的mAP相對(duì)其它的方法有較大的改善,在驗(yàn)證集中,本文方法分別比Girdhar et al[15],Xiu et al[16]的mAP提高了11.2和4.8,約21.1%和7.2%.對(duì)比Xiao B et al[9]的mAP提高了0.4.在測(cè)試集,本文方法比Xiu et al[16]的mAP提高了6.8,約11%.對(duì)比Xiao B et al[9]的mAP提高了0.9,依據(jù)圖4和圖5可知:在測(cè)試集和驗(yàn)證集中,本文的算法對(duì)于大多數(shù)關(guān)鍵點(diǎn)都會(huì)有較大幅度的提升,對(duì)于踝關(guān)節(jié)關(guān)鍵點(diǎn)會(huì)有略微下降,主要是由于左右踝關(guān)節(jié)相似度比較高導(dǎo)致學(xué)習(xí)難度系數(shù)比較高.
表2 不同算法單人圖像時(shí)間對(duì)比Table 2 Time comparison of single person with different algorithms
表2報(bào)告了對(duì)于單人圖像姿態(tài)估計(jì)的運(yùn)行時(shí)間.本文的模型相對(duì)于其他方法有了較大幅度的提高,對(duì)Gridhar[15]和Xiu[16]平均分別減少0.12s和0.10s,前向速度分別提升60%和50%,對(duì)于Xiao B[9]算法平均減少了0.05s,前向速度提升25%.總的來(lái)說(shuō),本文算法相比其它最近的工作有了較大的改進(jìn).
在驗(yàn)證集中,本文的模型在MOTO相比Gridhar[15],Xiu[16]分別提高3.7和4.8,約7.1%和9.5%,對(duì)比Xiao B[9]的MOTO提高了1.5,約2.8%.在測(cè)試集中,本文的模型在MOTO相比Xiu[16]提高4.4,約7.6%,對(duì)比Xiao B[9]的MOTO提高了1.7,約2.8%.總的來(lái)說(shuō),本文的模型總體上優(yōu)于其它方法,如圖6和圖7所示.
表3 不同網(wǎng)絡(luò)骨架在PoseTrack測(cè)試集性能比較Table 3 Performance comparison of different network backbone in PoseTrack Test
表3報(bào)告了常用骨架下跟蹤模型的性能.本實(shí)驗(yàn)主要是使用常用的人體關(guān)鍵點(diǎn)檢測(cè)骨架ResNet[21]的Residual block、輕量級(jí)網(wǎng)絡(luò)MobileNetv1的深度卷積+點(diǎn)卷積模塊,簡(jiǎn)稱Depth-wise Separable Convolution,和本文選擇使用的6層Inverted residuals模塊進(jìn)行對(duì)比,由實(shí)驗(yàn)結(jié)果來(lái)看,選擇同樣層數(shù)的結(jié)構(gòu),ResNet[21]由于由于本身參數(shù)較多,跟蹤一個(gè)關(guān)鍵點(diǎn)的時(shí)間大約是0.02s,大約是本文使用的Inverted residuals的1.2倍,與之同時(shí),它的MOTO也是最高的與本文算法的MOTO基本持平.得出結(jié)論本文提出的骨架比ResNet[21]在精度基本持平的同時(shí)運(yùn)行時(shí)間更短.同時(shí),本文選擇了同樣是輕量級(jí)網(wǎng)絡(luò)MobileNetv1 Depth-wise Separable Convolution模塊進(jìn)行比較,速度提升大約6.25%,實(shí)驗(yàn)看出這套組合比Inverted residuals模塊時(shí)間更快,提升了0.001s,但是精度相比來(lái)說(shuō)下降14.9%,由于Depth-wise Separable Convolution 是Inverted residuals的基礎(chǔ)模塊,計(jì)算量和參數(shù)都比較小,但是由于結(jié)構(gòu)較為簡(jiǎn)單并沒有很好的融合高維特征,精度并沒有達(dá)到Inverted residuals相同水平.總的來(lái)說(shuō)Inverted residuals相比Depth-wise Separable精度和時(shí)間結(jié)合更有效.通過(guò)實(shí)驗(yàn)結(jié)果表明本文提出的算法在性能指標(biāo)上都取得了比主流算法要好的結(jié)果.
本文主要探究了針對(duì)視頻中姿態(tài)估計(jì)缺少高分辨率表征和時(shí)效性的特點(diǎn),提出了基于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)姿態(tài)估計(jì)“下采樣上采樣”模型,提出了一種輕量級(jí)雙路金字塔卷積神經(jīng)網(wǎng)絡(luò)來(lái)提高姿態(tài)估計(jì)的高分辨率表征,并利用幀間信息推理網(wǎng)絡(luò),并選用輕量級(jí)模塊預(yù)測(cè)關(guān)鍵點(diǎn)信息來(lái)提高時(shí)效性.本文方法主要在PoseTrack數(shù)據(jù)集[20]上進(jìn)行訓(xùn)練和驗(yàn)證.精度和速度上相比最近Gridhar[15],Xiu[16],Xiao B et al[9]較大提高,證明本文的思路方法真實(shí)有效.
本文幀間信息推理實(shí)驗(yàn)主要采用了Depth-wise Separable Convolution、Residual block、Inverted residuals模塊,但是對(duì)于如何更好的利用時(shí)序信息還有提高的空間.與此同時(shí),本文發(fā)現(xiàn)采用前三幀的信息預(yù)測(cè)效果較好,但如何利用更少的前幀信息預(yù)測(cè)關(guān)鍵點(diǎn)信息也是以后工作重點(diǎn)提高的地方.同時(shí)由于本文采用的是每次預(yù)測(cè)局部單個(gè)關(guān)鍵點(diǎn)信息,在后繼研究中,將探索利用圖片全局信息,增加幀與幀之間不同關(guān)鍵點(diǎn)的相互作用.進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型并提高在視頻中的檢測(cè)性能.