劉珊珊,馮賽楠,田青,錢付余,豆飛,牛志斌
(1.北方工業(yè)大學(xué) 信息學(xué)院,北京 100144;2.交控科技股份有限公司,北京 100070;3.北京市地鐵運營有限公司,北京 100044)
隨著交通行業(yè)的快速發(fā)展,我國鐵路發(fā)生了翻天覆地的變化,見證了從無到有、從弱到強,從蹣跚起步、艱難延伸到鐵路密布、高鐵飛馳的發(fā)展歷程[1],面對新時代,為了滿足人民群眾高質(zhì)量出行的需要,堅持和發(fā)展鐵路技術(shù)創(chuàng)新尤為重要。目前來說,地鐵成為人們工作生活中主要的出行方式,也正因為其過大的人流量,導(dǎo)致地鐵車站及車廂的人流量密集,傳統(tǒng)的行人檢測在密集場景下容易出現(xiàn)誤檢、漏檢的情況。人體姿態(tài)估計的任務(wù)是確定圖像中人體某一身體部位出現(xiàn)的位置,估計人關(guān)節(jié)點的坐標(biāo),廣泛應(yīng)用于地鐵等密集場所下行人的動作識別,保證出行安全。研究依靠改進(jìn)的人體姿態(tài)估計算法能夠更好地避免背景遮擋、光照變化等影響行人檢測,通過在地鐵等實際場景中利用人體姿態(tài)估計的方法來追蹤某段時間內(nèi)人體姿勢的變化完成動作識別[2-4],得到對人體姿態(tài)的實時監(jiān)測與估計。
人體姿態(tài)估計方法可以分為自頂向下和自底向上2類[5]。其中自底向上的方法雖然在檢測效率上具有一些優(yōu)點,但檢測精度并不高,而自頂向下的方法可以先檢測出所有人體目標(biāo),再分別對每個目標(biāo)的關(guān)鍵點進(jìn)行檢測,因此檢測精度較高[6-8],所以本研究采取了自頂向下的方式進(jìn)行人體姿態(tài)估計。
對于基于深度學(xué)習(xí)的人體姿態(tài)估計主要分為基于回歸的方式和基于熱圖的方式[9-10],前者直接預(yù)測每個關(guān)鍵點的位置坐標(biāo),后者針對每個關(guān)鍵點預(yù)測一張熱力圖。熱圖是關(guān)鍵點的概率分布圖,通常建模成圍繞每個關(guān)鍵點的高斯分布的疊加,每個像素都給1 個值,這個值對應(yīng)像素屬于某個關(guān)鍵點可能性的值。當(dāng)前基于熱圖的方式檢測效果更好,因此,本研究高分辨率網(wǎng)絡(luò)采用基于熱圖的方式進(jìn)行關(guān)鍵點檢測[11]。
在人體姿態(tài)估計的網(wǎng)絡(luò)中,高分辨率網(wǎng)絡(luò)(High-Resolution Net,HRNet)在整個檢測過程中都保持著高分辨率的表征[12],將多分辨率子網(wǎng)通過并行的方式進(jìn)行連接,同時進(jìn)行多次多尺度融合[13],使該網(wǎng)絡(luò)能夠更加準(zhǔn)確地預(yù)測熱圖。因此,采用了高分辨率網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),并在其基礎(chǔ)上做了如下改進(jìn):首先添加了注意力機(jī)制模塊,從空間維度和通道維度獲取關(guān)鍵特征信息,增強特征的提取能力;其次為了更加精確地定位關(guān)鍵點,對損失函數(shù)進(jìn)行了改進(jìn),使網(wǎng)絡(luò)能夠容忍背景像素上的微小誤差,獲得更好的收斂速度。
HRNet 主要是針對2D 人體姿態(tài)估計任務(wù)提出的。不同于其他網(wǎng)絡(luò)通過下采樣得到強語義信息,然后通過上采樣恢復(fù)高分辨率,在不斷地上下采樣過程中丟失大量的有效信息,HRNet 可以在整個過程中保持高分辨率表征,因此較其他網(wǎng)絡(luò)來說會明顯提升人體姿勢識別的效果。首先將高分辨率子網(wǎng)絡(luò)作為第1 階段的開始,逐步增加高分辨率到低分辨率的子網(wǎng)形成更多的階段,并將多分辨率子網(wǎng)并行連接,通過在并行的多分辨率子網(wǎng)絡(luò)上反復(fù)交換信息,進(jìn)行多次多尺度融合,使每個高分辨率到低分辨率的表征都從其他并行表示中反復(fù)接收信息,從而得到豐富的高分辨率表征,多次融合之后的結(jié)果會更加精確[12,14],之后通過網(wǎng)絡(luò)輸出的高分辨率表示來估計關(guān)鍵點,提升預(yù)測的關(guān)鍵點熱圖的準(zhǔn)確性(見圖1)。
圖1 HRNet結(jié)構(gòu)
將HRNet 結(jié)構(gòu)分為4 個部分,每個部分均存在1 個藍(lán)色框和1個橙色框,其中藍(lán)色框代表基本結(jié)構(gòu),橙色框代表過渡結(jié)構(gòu)。HRNet 中第1 部分藍(lán)色框使用的是BottleNeck,其他部分藍(lán)色框使用的是BasicBlock。第1 部分橙色框是1 個TransitionLayer,第2 和第3 部分橙色框是1 個FuseLayer 和1 個TransitionLayer 的疊加,第4部分橙色框是1個FuseLayer。
(1)BottleNeck 結(jié)構(gòu)能夠降低參數(shù)量,首先它利用PW(Pointwise Convolution)對數(shù)據(jù)進(jìn)行降維,再進(jìn)行常規(guī)卷積核的卷積,最后PW對數(shù)據(jù)進(jìn)行升維,它的核心思想是利用多個小卷積核替代1 個大卷積核,利用1×1 卷積核替代大的卷積核的一部分工作。BottleNeck搭建模塊見圖2。
圖2 BottleNeck搭建模塊
(2)BasicBlock 結(jié)構(gòu)包含1 個殘差支路和short-cut支路,它比傳統(tǒng)的卷積結(jié)構(gòu)多了1個short-cut支路,用于傳遞低層的信息使得網(wǎng)絡(luò)能夠訓(xùn)練地很深。Basic-Block搭建模塊見圖3。
圖3 BasicBlock搭建模塊
(3) FuseLayer 用來進(jìn)行不同分支的信息交互,TransitionLayer 用來生成1 個下采樣2 倍分支的輸入feature map。
HRNet是高分辨率的網(wǎng)絡(luò)模型,面對頻繁的下采樣會導(dǎo)致空間方向特征丟失的問題,在進(jìn)行特征提取和特征融合時,從輸入到輸出一直保持高分辨率表征[14],為了增強對輸入圖片的特征提取能力,因此在HRNet 中引入注意力機(jī)制模塊,突出圖像中尺度較小和遮擋人體關(guān)鍵點的特征,從而極大地提高HRNet 的性能。改進(jìn)后的HRNet結(jié)構(gòu)見圖4。
圖4 改進(jìn)后的HRNet結(jié)構(gòu)
在計算機(jī)視覺中把聚焦圖像的重要特征、抑制不必要的區(qū)域響應(yīng)方法稱作注意力機(jī)制(Attention Mechanisms),它在分類、目標(biāo)檢測、人臉識別、動作識別、姿態(tài)估計、3D 視覺等任務(wù)中發(fā)揮著重要作用,極大地提升了計算機(jī)網(wǎng)絡(luò)的性能。
一般來說,注意力機(jī)制通常被分為通道注意力機(jī)制、空間注意力機(jī)制、時間注意力機(jī)制、分支注意力機(jī)制,把通道維度和空間維度組合[15],提出Convolutional Block Attention Module (CBAM),用于前饋卷積神經(jīng)網(wǎng)絡(luò)的簡單而有效的注意力模塊。相較于其他注意力機(jī)制模塊,CBAM模塊不僅保留了通道注意力,還添加了空間注意力,這使得網(wǎng)絡(luò)模型能夠注重關(guān)鍵信息的重要程度和關(guān)聯(lián)程度、提升對關(guān)鍵區(qū)域的特征表達(dá);空間注意力使神經(jīng)網(wǎng)絡(luò)更加關(guān)注圖像中對分類起關(guān)鍵性作用的像素區(qū)域而忽略不重要的區(qū)域,通道注意力用于處理特征圖通道的分配關(guān)系,同時使用2個維度上的注意力機(jī)制使模型性能得到更加明顯的提升;CBAM內(nèi)部使用輕量級卷積來獲取通道和空間的注意力權(quán)重,因此它是1種可以嵌入到任何主干網(wǎng)絡(luò)中以提高性能的輕量級模塊,具有通用性;引入CBAM 可以提高目標(biāo)檢測和物體分類的精度,用到的計算量和參數(shù)都比較少,因此本研究引入CBAM 模塊提高網(wǎng)絡(luò)的檢測性能。給定1 張?zhí)卣鲌D,CBAM 模塊能夠序列化地在通道和空間2 個維度上產(chǎn)生注意力特征圖信息,然后2種特征圖信息再與之前原輸入特征圖進(jìn)行相乘進(jìn)行自適應(yīng)特征修正,產(chǎn)生最后的特征圖。
CBAM模塊主要由通道注意力模塊和空間注意力模塊組成,2個注意力模塊采用串聯(lián)的方式,首先在空間和通道上進(jìn)行注意力機(jī)制處理,沿著通道和空間2個維度推斷出注意力權(quán)重系數(shù),然后再與feature map 相乘,CBAM結(jié)構(gòu)見圖5。
圖5 CBAM結(jié)構(gòu)
2.2.1 CBAM總體流程
首先輸入網(wǎng)絡(luò)主干生成的特征圖F∈RC×H×W,經(jīng)過通道注意力模塊處理后,獲得通道注意力圖MC∈R1×1×C,通過跳躍連接的方式乘以輸入特征圖F中的相應(yīng)元素,將結(jié)果F′送入空間注意力模塊中,之后利用空間注意力模塊生成帶有空間注意力權(quán)重的特征圖MS∈RH×W×1,最后乘以特征圖F′得到最終的輸出特征圖F′′。CBAM 模塊整體運行過程可以描述為以下公式:
式中:×表示元素級相乘。
2.2.2 通道注意力機(jī)制模塊
通道注意力機(jī)制通過特征內(nèi)部之間的關(guān)系來產(chǎn)生注意力機(jī)制特征圖(見圖6),特征圖的每個通道可以當(dāng)作一個特征檢測器。
圖6 通道注意力機(jī)制模塊
壓縮特征圖的空間維度能夠更高效地計算通道注意力特征,平均池化方法和最大池化方法都能夠?qū)W習(xí)到物體的判別特征,同時使用這2種方法得到的效果更好,經(jīng)過池化之后產(chǎn)生了2 種不同的空間上下文信息:代表平均池化特征的和代表最大池化特征的,然后再將該特征送入到一個共享的多層感知機(jī)(MLP)網(wǎng)絡(luò)中,產(chǎn)生最終的通道注意力特征圖Mc∈RC×1×1,為了降低計算參數(shù),在MLP 中采用了一個降維系數(shù)r,Mc∈RC/r×1×1。
通道注意力計算公式為:
2.2.3 空間注意力機(jī)制模塊
空間注意力機(jī)制通過特征圖空間內(nèi)部的關(guān)系,來產(chǎn)生空間注意力特征圖(見圖7)。
圖7 空間注意力機(jī)制模塊
為了計算空間注意力,首先在通道維度通過平均池化和最大池化產(chǎn)生2D 特征圖:,然后拼接起來它們產(chǎn)生的特征圖,在拼接后的特征圖上,使用卷積操作產(chǎn)生最終的空間注意力特征圖:Ms(F)∈RH,W。
空間注意力計算方式為:
2.3.1 均方誤差損失(MSE)
均方誤差損失(MSE)存在2 個問題:(1)MSE 損失的梯度是線性的,對微小誤差不敏感,這影響了正確定位高斯分布mode 的能力;(2)在訓(xùn)練過程中,所有的像素具有同樣的損失函數(shù)和權(quán)重[16],但是,在熱力圖中背景像素相對于前景像素是占有絕對主導(dǎo)地位的。這2 個問題導(dǎo)致由MSE 訓(xùn)練的模型預(yù)測出結(jié)果的前景像素是模糊和膨脹的,這樣的低質(zhì)量熱力圖可能會導(dǎo)致關(guān)鍵點的錯誤估計,因此將原本的MSE 損失函數(shù)改為Adaptive wing loss。
2.3.2 Adaptive wing loss
對于熱圖回歸的理想損失函數(shù),當(dāng)誤差很大時,損失函數(shù)具有恒定的影響,因此它將對不準(zhǔn)確的注釋和遮擋具有魯棒性。經(jīng)過不斷地訓(xùn)練后誤差減小,會出現(xiàn)以下情況[16]:
(1)對于前景像素(y=1),影響和梯度應(yīng)開始增加,訓(xùn)練能夠更專注于減少他們的錯誤,當(dāng)誤差接近于0時,影響會快速減少,此時這些已經(jīng)“足夠好”的像素不再被關(guān)注,正確估計的影響能夠幫助網(wǎng)絡(luò)保持收斂。
(2)對于背景像素(y=0),梯度應(yīng)隨著訓(xùn)練誤差的減小,梯度會減小到0,因此,當(dāng)誤差較小時影響也會相對較小,訓(xùn)練時對背景像素的關(guān)注減少,對背景像素微小誤差的敏感程度降低,能夠穩(wěn)定訓(xùn)練過程。
由于ground truth 熱圖的像素值范圍是(0,1),這個損失函數(shù)應(yīng)能夠根據(jù)不同的像素值進(jìn)行平滑的轉(zhuǎn)換,且對于強度接近于1的ground truth像素,應(yīng)增加小誤差的影響,對于強度接近于0 的ground truth 像素,損失函數(shù)應(yīng)該像MSE loss 一樣,故而可以使用Adaptive Wing (AWing) loss[16],定義如下:
式中:y和分別為真實熱力圖和預(yù)測熱力圖的像素值;ω,θ,ε和α是正值;A=ω(1/(1+(θ/?)(α-y)))(α-y)((θ/?)(α-y-1))(1/?),C=(θA-ωln(1+(θ/?)α-y))是為了使損失函數(shù)在|y-|=θ時保持連續(xù)和平滑,變量θ作為閾值實現(xiàn)線性和非線性部分的轉(zhuǎn)換。
為了對提出的方法進(jìn)行驗證,在大型公開COCO數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。COCO 數(shù)據(jù)集由微軟團(tuán)隊發(fā)布,目前COCO keypoint track 是人體關(guān)鍵點檢測的權(quán)威公開數(shù)據(jù)集之一,包含超過20 萬張圖像和25 萬個標(biāo)記有17 個關(guān)鍵點的實例。COCO 數(shù)據(jù)集中把人體關(guān)鍵點表示為17 個關(guān)節(jié),分別是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右腳踝[17-18]。
在關(guān)鍵點檢測任務(wù)中一般用OKS(Object Keypoint Similarity)來表示預(yù)測關(guān)鍵點與真實關(guān)鍵點的相似程度,其值域在0~1,越靠近1 表示相似度越高,OKS 越大,表示檢測關(guān)鍵點的空間位置越準(zhǔn)確[17]。
評價指標(biāo):
式中:i為第i個關(guān)鍵點;vi為第i個關(guān)鍵點的可見性,vi=0為在圖像外無法標(biāo)注的點,vi=1為標(biāo)注了但是被遮擋的點,vi=2 為標(biāo)注了并且可見的點;對于δ(x),當(dāng)x為True 時值為1,x為False 時值為0,di為檢測的關(guān)鍵點與數(shù)據(jù)集中標(biāo)注的關(guān)鍵點之間的歐氏距離;s為目標(biāo)的尺度因子,值為目標(biāo)面積的平方根,這里的面積指的是分割面積;ki為用來控制關(guān)鍵點類別i的衰減常數(shù)。
一般用平均精度(Average Precision,AP)來評價實驗結(jié)果的準(zhǔn)確性,在COCO數(shù)據(jù)集的實驗結(jié)果中,主要關(guān)注AP 這個指標(biāo),AP 的數(shù)據(jù)結(jié)果通過OKS 計算得出,對于單人姿態(tài)估計中的AP,計算方式為:
對于多人姿態(tài)估計而言,由于1張圖片中有M個目標(biāo),假設(shè)總共預(yù)測出N個個體,那么ground truth 和預(yù)測值之間能構(gòu)成一個M×N的矩陣,然后將每一行的最大值作為該目標(biāo)的OKS,則:
式中:AP 為所有圖片的OKS 大于閾值T的百分比,T由人為給定,在本實驗中AP 是指OKS=0.50,0.55,…,0.90,0.95時10個閾值之間所有檢測關(guān)鍵點準(zhǔn)確率的平均值,AP50是在OKS=0.50時的檢測關(guān)鍵點的準(zhǔn)確率,AP75 是在OKS=0.75 時的檢測關(guān)鍵點的準(zhǔn)確率;APM 為中尺寸物體檢測關(guān)鍵點的準(zhǔn)確率,APL 為大尺寸物體檢測關(guān)鍵點的準(zhǔn)確率。
普通場景下的人體姿態(tài)估計效果見圖8。
圖8 普通場景效果圖
真實地鐵場景下的人體姿態(tài)估計見圖9。
圖9 地鐵場景效果圖
在真實的地鐵場景行人檢測實驗中,在遮擋嚴(yán)重情況下,依然能夠得到較好的檢測效果,因此該網(wǎng)絡(luò)適用于在地鐵等人流量密集、遮擋嚴(yán)重的場景下進(jìn)行行人檢測任務(wù)。不同網(wǎng)絡(luò)模型在COCO數(shù)據(jù)集上的結(jié)果對比見表1。
表1 不同網(wǎng)絡(luò)模型在COCO數(shù)據(jù)集上的結(jié)果對比
由實驗結(jié)果可知,本次研究提出的方法精度比原HRNet網(wǎng)絡(luò)提升了0.7%,達(dá)到了74.1%,與當(dāng)下流行的人體姿態(tài)估計網(wǎng)絡(luò)相比,如Hourglass、CPN、CPN+OHKM、Simple Baseline、Lite-HRNet、HRNet-W32,研究所使用的網(wǎng)絡(luò)在預(yù)測關(guān)鍵點的平均精度上分別提升了7.2、5.5、4.7、3.7、9.3、0.7個百分點,且對比表中所示的所有指標(biāo),網(wǎng)絡(luò)模型平均精度均高于其他網(wǎng)絡(luò)模型的平均精度。因此,改進(jìn)后的網(wǎng)絡(luò)模型在人體姿態(tài)估計過程中,精確度更高、具有更好的魯棒性,證明本研究提出方法的有效性。
基于高分辨率網(wǎng)絡(luò)HRNet 對人體姿勢識別進(jìn)行研究,在網(wǎng)絡(luò)中添加了注意力機(jī)制模塊CBAM,該模塊將空間和通道2 個維度進(jìn)行結(jié)合,極大提高了網(wǎng)絡(luò)的性能,提升了重要特征的權(quán)重。使用Adaptive wing loss 作為損失函數(shù),當(dāng)誤差很大時,損失函數(shù)具有恒定的影響,但當(dāng)誤差較小時,會減少在訓(xùn)練時對背景像素的關(guān)注,穩(wěn)定訓(xùn)練過程。實驗結(jié)果證明,改進(jìn)后的網(wǎng)絡(luò)模型能夠準(zhǔn)確的檢測出尺度較小和遮擋的關(guān)鍵點,具有較好的檢測能力和魯棒性,因此,在地鐵實際情況中能夠更好應(yīng)對人群密集、遮擋嚴(yán)重的問題。