喬 迤,曲 毅
(武警工程大學(xué) 信息工程學(xué)院,陜西 西安 710086)
傳統(tǒng)的2D 人體姿態(tài)估計是通過手工提取特征或建立人體模型,來設(shè)計2D 人體部件檢測器。WANG Y 等人[1]提出基于多樹模型的人體姿態(tài)估計,同時表征人體部件間的運動學(xué)約束關(guān)系和依賴關(guān)系,DANTONE M 等人[2]提出建立依賴于身體部位的非線性聯(lián)合回歸器來預(yù)測關(guān)節(jié)位置。在特征的選取上,RAMANAN D 等人[3]使用顏色直方圖來提取部位的外觀特征,SAPP B 等人[4]利用級聯(lián)的結(jié)構(gòu)化模型來提取輪廓邊緣和形狀特征,YANG Y 等人[5]使用HOG 特征來建立人體各部位的混合模型。傳統(tǒng)方法受圖像背景、光照、遮擋等的影響較大,并且對于多維特征的選擇主觀性較強(qiáng),不能很好地適應(yīng)人體部件的復(fù)雜性和環(huán)境的變換,因此利用傳統(tǒng)的基于部件模型的方法具有較大的局限性。
隨著深度學(xué)習(xí)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)提取的特征具有更好的魯棒性,基于深度學(xué)習(xí)的2D 人體姿態(tài)估計利用卷積神經(jīng)網(wǎng)絡(luò)模擬人的視覺系統(tǒng),通過多層網(wǎng)絡(luò),得到不同感受野下的豐富特征。TOSHEV A[6]等人首次基于級聯(lián)的深度神經(jīng)網(wǎng)絡(luò)搭建了人體關(guān)節(jié)點回歸的網(wǎng)絡(luò)框架,從而擺脫了傳統(tǒng)方法無法充分利用圖像整體信息的局限性,實現(xiàn)精準(zhǔn)的關(guān)節(jié)點定位和姿態(tài)提取。作為計算機(jī)視覺的基本任務(wù),人體姿態(tài)估計發(fā)展?fàn)顩r與虛擬現(xiàn)實、人機(jī)交互、智能視頻監(jiān)控和運動行為分析等研究領(lǐng)域都緊密相連。本文主要對基于深度學(xué)習(xí)的2D 人體姿態(tài)估計方法進(jìn)行梳理和總結(jié),按視頻圖像中的人體數(shù)量,將人體姿態(tài)估計分為單人和多人場景下的檢測,并分別闡述了人體姿態(tài)估計的常用方法,列舉了測試基準(zhǔn)數(shù)據(jù)集和評價準(zhǔn)則。此外,本文還對人體姿態(tài)估計現(xiàn)階段面臨的問題進(jìn)行分析,并對該領(lǐng)域未來發(fā)展的趨勢進(jìn)行展望。
2D 人體姿態(tài)估計,是通過人體關(guān)節(jié)點的二維坐標(biāo)來描述人體骨架信息,基于深度學(xué)習(xí)的2D 人體姿態(tài)估計是通過圖像特征提取,進(jìn)行關(guān)節(jié)點檢測和骨架信息恢復(fù),從復(fù)雜背景環(huán)境中對人體進(jìn)行分割提取,當(dāng)前姿態(tài)估計的目標(biāo)在于提高實時檢測速度和檢測精度。根據(jù)檢測對象和算法流程的不同,可將其分為人體檢測關(guān)節(jié)點回歸融合算法和人體關(guān)節(jié)點檢測聚類算法。前者是利用目標(biāo)檢測算法將每個人從圖像背景中識別出來,然后對單人姿態(tài)進(jìn)行估計;后者是對圖像中所有的關(guān)節(jié)點進(jìn)行檢測,而后對其進(jìn)行聚類連接成相應(yīng)個體,從而恢復(fù)人體姿態(tài),具體分類如圖1 所示。
圖1 2D 人體姿態(tài)估計算法總結(jié)
人體檢測關(guān)節(jié)點回歸融合算法主要包含兩個步驟:首先構(gòu)建人體檢測器,利用目標(biāo)檢測算法生成人體提議框(Human Proposals),而后在框內(nèi)進(jìn)行人體關(guān)節(jié)點回歸。
1.1.1 人體檢測算法
人體檢測的任務(wù)是要從復(fù)雜環(huán)境背景中將所關(guān)心的部分提取出來,是人體姿態(tài)估計的初始化過程。經(jīng)典的目標(biāo)檢測的算法可以分為兩類:一類是先產(chǎn)生候選區(qū)域(Region Proposals)再利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)分類的目標(biāo)檢測框架,這類算法是基于區(qū)域提取的R-CNN[7]系列算法,如R-CNN[7]、SPP-Net[8]、Fast R-CNN[9]、Faster R-CNN[10];另一類是以YOLO 算法為代表的將目標(biāo)檢測轉(zhuǎn)換為回歸問題的目標(biāo)檢測框架(YOLO、SSD),目標(biāo)檢測算法的好壞直接關(guān)系到后續(xù)單人姿態(tài)估計的準(zhǔn)確度。當(dāng)前人體姿態(tài)估計主要使用Faster R-CNN 作為人體檢測框架。
早在2000 年P(guān)APAGEORGIOU C 等人[11]就提出了早期的目標(biāo)檢測方法,常用無先驗知識的滑窗遍歷來進(jìn)行候選區(qū)域的選擇,由于檢測區(qū)域多尺度變換,容易造成漏檢和誤檢。隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,2014 年,GIRSHICK R 等人[7]首次提出基于區(qū)域提取的R-CNN算法,利用selective search 獲得約2 000 個候選區(qū)域,并對區(qū)域大小進(jìn)行歸一化,輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。針對R-CNN 模型對候選區(qū)域尺寸的限制,HE K 等人[8]在此基礎(chǔ)上設(shè)計了空間金字塔池化層(Spatial Pyramid Pooling,SPP),使得輸入的候選框大小可以進(jìn)行縮放。為了降低重復(fù)計算節(jié)省運算開支,GIRSHICK R 等人[9]在SPP-Net 的基礎(chǔ)上提出Fast R-CNN 算法,用ROI Pooling層代替SPP 層,將分類問題和邊框回歸問題進(jìn)行了合并,極大加快了檢測速度。DeepCut[12]方法就是先利用算法檢測圖像中的人體關(guān)節(jié)點,而后將關(guān)節(jié)點劃分為不同的個人。為了從根本上解決selective search 選擇候選區(qū)域慢的問題,2016 年REN S 等人[10]又提出了更快的Faster R-CNN 算法,使用RPN(Region Proposals Network)網(wǎng)絡(luò)將候選區(qū)域的選取融合到整個網(wǎng)絡(luò)結(jié)構(gòu)中,大幅提高了候選框的提取速度和精度。
雖然Faster R-CNN 等算法取得了巨大進(jìn)展,但是其實時性仍不能滿足實際需求。隨后出現(xiàn)的YOLO、SSD 算法優(yōu)越性逐步凸顯。Redmon 等人提出了YOLO 方法,實現(xiàn)了端到端的目標(biāo)檢測,摒棄了之前先劃分候選區(qū)域再分類識別的兩步走方法,提出了一種單階段的處理方法,將輸入圖片劃分為7×7 的網(wǎng)格,每個格子最多回歸一種目標(biāo),通過邊框回歸進(jìn)行目標(biāo)區(qū)域的修正[13],該方法舍棄檢測精度換取檢測速度的大幅提升。
1.1.2 關(guān)節(jié)點回歸算法
通過人體檢測得到包含一個人的bounding box,在單人關(guān)節(jié)點檢測中對應(yīng)輸出(Ground Truth)有兩種思路:一種是直接回歸關(guān)節(jié)點位置坐標(biāo)(x,y),即基于坐標(biāo)直接回歸;另一種輸出的是heatmap,heatmap 最大值對應(yīng)關(guān)鍵點的位置,heatmap 的Ground Truth 是以關(guān)鍵點為中心的二維高斯分布,即基于熱圖回歸。
(1)基于坐標(biāo)回歸
基于坐標(biāo)回歸的單人姿態(tài)估計是將人體各關(guān)節(jié)點的二維坐標(biāo)作為Ground Truth,使輸入圖像經(jīng)過端到端的網(wǎng)絡(luò)直接映射得到每個關(guān)節(jié)點的位置坐標(biāo)。這種從單個點直接回歸的處理方法缺乏魯棒性,姿態(tài)估計算法早期多采用這種算法,缺點是忽略了人體部件之間的結(jié)構(gòu)信息,單獨對每個關(guān)節(jié)點進(jìn)行回歸。
DeepPose[6]基于AlexNet 網(wǎng)絡(luò)多階段端到端回歸人體關(guān)節(jié)點的二維坐標(biāo),無需借助人體模型和檢測器,在初始階段得到關(guān)節(jié)點的粗略位置,在其周圍鄰域切取小尺寸的子圖像作為下一階段的輸入,后續(xù)階段不斷對其進(jìn)行修正優(yōu)化,具體結(jié)構(gòu)如圖2 所示,這也奠定了基于坐標(biāo)回歸方法的基礎(chǔ)。
圖2 DeepPose 結(jié)構(gòu)圖
由于直接從輸入圖像中預(yù)測關(guān)節(jié)點的位置是一個非線性問題,SUN X 等人[14]為了增強(qiáng)結(jié)構(gòu)信息,提出了結(jié)構(gòu)感知的回歸方法,使用骨骼來進(jìn)行姿態(tài)表示,同時利用關(guān)節(jié)點的連接結(jié)構(gòu)來定義損失函數(shù),以便從2D 姿態(tài)擴(kuò)展到3D 姿態(tài)。FAN X 等人[15]基于生理圖像提出一種雙源深度卷積神經(jīng)網(wǎng)絡(luò)(DS-CNN),采用多尺度滑動窗口構(gòu)建圖像補(bǔ)?。╬art patches)實現(xiàn)關(guān)節(jié)點的檢測和定位。
(2)基于熱圖檢測
基于熱圖檢測的單人姿態(tài)估計是用概率圖heatmap來表示關(guān)節(jié)點的粗略位置,訓(xùn)練網(wǎng)絡(luò)得到的是特征圖(feature map)各像素的概率檢測值。Heatmap 不僅可以反映像素屬于各個關(guān)節(jié)點的概率分布,還提供了關(guān)節(jié)點本身和關(guān)節(jié)點之間的圖像特征?;跓釄D的檢測可以為關(guān)節(jié)點坐標(biāo)的檢測提供先驗,使用更為廣泛。
①關(guān)節(jié)點關(guān)系的建模
TOMPSON J 等人[16]提出采用熱圖的方式來回歸關(guān)節(jié)點,每個關(guān)節(jié)點占據(jù)一個熱圖通道,其二維高斯分布以目標(biāo)關(guān)節(jié)點位置為中心,針對得到的關(guān)節(jié)點有誤檢(false positive)的情況,作者提出建立空間模型(spatial model)進(jìn)行優(yōu)化,利用馬爾科夫隨機(jī)場來過濾異常關(guān)節(jié)點,也為多人場景中的關(guān)節(jié)點聚類提供了解決思路。PAPANDREOU G 等人[17]在此基礎(chǔ)上進(jìn)行了改進(jìn)提出了G-RMI,基于全卷積ResNet-101 的網(wǎng)絡(luò)結(jié)構(gòu)利用熱圖—偏移解碼器將熱圖(heatmap)和對應(yīng)的偏移量(offset)結(jié)合起來得到精確關(guān)節(jié)點的定位。為了更好地體現(xiàn)關(guān)節(jié)之間的依賴關(guān)系,YANG W 等人[18]設(shè)計了一個可以靈活構(gòu)建的樹結(jié)構(gòu)模型和循環(huán)模型的消息傳遞層,使得DCNN 和部位檢測器進(jìn)行聯(lián)合訓(xùn)練,但是此方法的計算量依然非常龐大。
②主干網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)
人體姿態(tài)估計中應(yīng)用的網(wǎng)絡(luò)結(jié)構(gòu)許多都是基于經(jīng)典神經(jīng)網(wǎng)絡(luò)改進(jìn)而來的,WEI S E 等人[19]提出一種多階段級聯(lián)網(wǎng)絡(luò)CPM,使用順序化卷積架構(gòu)對可學(xué)習(xí)的空間紋理特征進(jìn)行序列預(yù)測,不斷去修正響應(yīng)圖,使用神經(jīng)網(wǎng)絡(luò)同時學(xué)習(xí)圖片特征和空間信息。殘差網(wǎng)絡(luò)提出后,NEWELL A 等人[20]提出一種結(jié)構(gòu)對稱的堆疊式沙漏(Stacked Hourglass)架構(gòu),使用剩余模塊作為組成單元,如圖3 所示,使用多尺度特征來捕獲各關(guān)節(jié)點的語義信息和空間位置信息,由于高分辨率是通過上采樣獲得的,因此會有潛在的信息缺失,四階Hourglass 子網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。FANG H 等人[21]提出的RMPE 是基于對稱空間變換網(wǎng)絡(luò)(Symmetric Spatial Transformer Network,SSTN)構(gòu)建了專門的人體檢測框,提出了參數(shù)化姿態(tài)非最大值抑制(Parametric Pose NonMaximum-Suppression,p-Pose NMS)來消除冗余,提高了準(zhǔn)確率和效率。BULAT A 等人[22]使用了由兩個深層子網(wǎng)組成的CNN 級聯(lián)結(jié)構(gòu),分別是基于ResNet-152 的部位檢測網(wǎng)絡(luò)和基于VGG 的回歸網(wǎng)絡(luò)。
圖3 Residual 模塊示意圖
圖4 四階Hourglass 子網(wǎng)絡(luò)
CHEN Y 等人[12]提出的CPN,構(gòu)建基于FPN 和Mask-RCNN 的人體檢測器后,級聯(lián)兩個子階段的網(wǎng)絡(luò)模塊GolbalNet 和RefineNet,第一階段由特征金字塔網(wǎng)絡(luò)GolbalNet 負(fù)責(zé)所有關(guān)節(jié)點的檢測重點提高明顯部位的檢測精度,第二階段由RefineNet 進(jìn)行進(jìn)一步修正。后續(xù)許多網(wǎng)絡(luò)結(jié)構(gòu)都是以此為基準(zhǔn)模型進(jìn)行改進(jìn)的,例如LI W等人[23]在此基礎(chǔ)上提出了多階段人體姿態(tài)估計網(wǎng)絡(luò)MSPN,將CPN 的GlobalNet 作為輕量級的單階段模塊進(jìn)行堆疊,相鄰階段之間進(jìn)行特征聚合以保證更高分辨率,MSPN通過將前一個階段的對應(yīng)的兩個特征圖和當(dāng)前階段下采樣得到的特征圖相連接,避免由于反復(fù)下采樣和上采樣造成的信息丟失。SU K 等人[24]提出Channel Shuffle Module(CSM)來促進(jìn)特征圖間的跨通道融合,提出Spatial Channel-wise Attention Residual Bottleneck(SCARB)利用注意力機(jī)制來學(xué)習(xí)空間和通道維度的關(guān)系。
Hourglass 是自上而下人體姿態(tài)估計的開山之作,在此基礎(chǔ)上,KE L 等人[25]基于Hourglass 網(wǎng)絡(luò)做了改進(jìn),使用多層MSS-Net 進(jìn)行多尺度監(jiān)督來加強(qiáng)語義特征學(xué)習(xí),而后利用MSR-Net 處理多尺度信息保持全局一致性。為了提高精度有效應(yīng)對遮擋問題,TANG W 等人[26]在Hourglass 網(wǎng)絡(luò)的基礎(chǔ)上提出了DLCM 模型,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)人體的組成結(jié)構(gòu),可進(jìn)行自上而下和自下而上的結(jié)構(gòu)推理。
不同于上述兩階段的算法,為了提高檢測效率,NIE X等人[27]提出將人體檢測和關(guān)節(jié)點回歸兩者統(tǒng)一起來當(dāng)做單階段來處理的分層結(jié)構(gòu)化姿態(tài)表示SPR,直接預(yù)測根節(jié)點root joint 作為人的中心位置,同時將所有關(guān)節(jié)點進(jìn)行層次分割,從root joint 開始預(yù)測相鄰層級關(guān)節(jié)點的偏移量,具體如式(1)所示,從而減輕網(wǎng)絡(luò)的預(yù)測壓力。
③多尺度特征提取
為了完善在深度卷積神經(jīng)網(wǎng)絡(luò)中特征金字塔的應(yīng)用,YANG W 等人[28]設(shè)計了金字塔殘差模塊(PRM)來克服人體形態(tài)變換造成的比例變化增強(qiáng)魯棒性,首先使用不同縮放比例下采樣得到不同尺度的特征圖,而后再通過上采樣將特征圖恢復(fù)到相同大小融合形成多尺度特征,這一階段姿態(tài)估計的方法大都是從高分辨率特征圖下采樣至低分辨率,再從低分辨率恢復(fù)至高分辨率,此過程中會損失部分細(xì)節(jié)信息,為了使姿態(tài)估計預(yù)測的關(guān)節(jié)點更加準(zhǔn)確、空間更加精確,SUN K 等人[29]提出了高分辨率的人體姿態(tài)估計網(wǎng)絡(luò)HRNet,通過在高分辨率特征主網(wǎng)絡(luò)中逐漸并行加入低分辨率特征圖子網(wǎng)絡(luò),將不同分辨率feature map 之間的連接從串行改成了并行,在整個過程中一直保持高分辨率分支的存在,各并行網(wǎng)絡(luò)之間相互交換信息,實現(xiàn)了不同網(wǎng)絡(luò)間的多尺度融合和特征提取。
自下而上的方法通常包括兩個階段,分別是關(guān)節(jié)點檢測和關(guān)節(jié)點聚類。即首先對視頻圖像中所有的關(guān)節(jié)點進(jìn)行檢測,而后通過對其進(jìn)行分組聚類,對不同人的關(guān)節(jié)點進(jìn)行連接恢復(fù)人體姿態(tài),該算法適用于多人場景,較之人體檢測和關(guān)節(jié)點回歸融合算法計算開銷保持穩(wěn)定,但是關(guān)節(jié)分組連接復(fù)雜度也會相對提高。代表算法有DeepCut、Associative Embedding、DeeperCut、OpenPose、PIFPAF 等。
PISHCHULIN L 等人[30]首次提出DeepCut,利用Fast R-CNN 來檢測身體關(guān)節(jié)并進(jìn)行相應(yīng)類別標(biāo)記,而后利用整數(shù)線性規(guī)劃將這些類別劃分給對應(yīng)的人從而組合恢復(fù)出骨架信息。在此基礎(chǔ)上,INSAFUTDINOV E 等人[31]提出了DeeperCut,采用殘差網(wǎng)絡(luò)Resnet 來提高關(guān)節(jié)檢測精度,使用Image-Conditioned Pairwise Terms 來做優(yōu)化,壓縮候選區(qū)域的節(jié)點。為了提高實時檢測效率,CAO Z 等人[32]提出了基于CPM 改進(jìn)的OpenPose 方法,可以實現(xiàn)單人和多人的人體動作和手指關(guān)節(jié)等的識別,利用PAF方法給每個肢體構(gòu)造二維向量來編碼肢體的位置和方向信息,從而提高部位之間的關(guān)聯(lián)度。如圖5 所示,OpenPose 先通過VGG-19 卷積神經(jīng)網(wǎng)絡(luò)獲取圖像特征,之后經(jīng)歷兩個分支,上半支路預(yù)測關(guān)節(jié)點置信度,下半支路預(yù)測關(guān)節(jié)點親和度向量完成關(guān)節(jié)點的匹配,最后利用匈牙利算法將同一個人的關(guān)節(jié)點進(jìn)行聚類連接,恢復(fù)人體骨架信息,這一方法獲得了2016 年COCO 關(guān)鍵點挑戰(zhàn)賽的冠軍。
圖5 OpenPose 算法流程示意圖
文獻(xiàn)[33]提出Associative Embedding 方法,通過使用標(biāo)簽值來編碼部位之間的關(guān)聯(lián)置信度,使得同一個人不同關(guān)節(jié)點對應(yīng)的標(biāo)簽值盡可能相似,不同人的不同關(guān)節(jié)點對應(yīng)的標(biāo)簽值相差盡可能大,通過劃定閾值對標(biāo)簽值數(shù)據(jù)進(jìn)行分割,從而將關(guān)節(jié)點分組到每個人體實例。PAPANDREOU G 等人[34]提出personlab 算法,可以同時完成人體姿態(tài)估計和人體實例分割任務(wù)。
2019 年,KREISS S 等人[35]提出PIFPAF 方法,這是一個基于復(fù)合場的人體姿態(tài)估計算法,使用部分強(qiáng)度場PIF 來預(yù)測關(guān)節(jié)點熱圖,使用部分關(guān)聯(lián)場PAF 來確定關(guān)節(jié)點的連接,最后使用貪婪算法對部分強(qiáng)度場和部分關(guān)聯(lián)場的信息進(jìn)行處理,得到人體姿態(tài)估計的結(jié)果,相比OpenPose 算法性能有了明顯提升。2020 年,字節(jié)跳動XIAO B 團(tuán)隊[36]基于之前的HRNet 和Associative Embedding提出了一種高分辨率網(wǎng)絡(luò)HigherHRNet,利用多分辨率訓(xùn)練和熱圖聚合的策略,使高分辨率網(wǎng)絡(luò)能夠預(yù)測具有尺度感知的熱圖,也是目前自下而上方法中性能最優(yōu)秀的網(wǎng)絡(luò)之一。
2.1.1 單人姿態(tài)估計數(shù)據(jù)集
(1)LSP 數(shù)據(jù)集
LSP 數(shù)據(jù)集定義了14 個人體關(guān)節(jié)點,分別為頭頂、脖子、左右肩部、左右肘部、左右手腕、左右臀部、左右膝蓋和左右腳踝。樣本數(shù)在2 000 左右,目前基本棄用。
(2)FLIC 數(shù)據(jù)集
FLIC 數(shù)據(jù)集是從電影中截取的場景片段,場景中包含多人的情況下,只標(biāo)簽了一個人的關(guān)節(jié)信息。共有5 003個樣本,包括訓(xùn)練集3 987 張、測試集1 016 張,是單人人體關(guān)節(jié)點檢測的數(shù)據(jù)集,通常在實驗中作為第二數(shù)據(jù)集使用。
該數(shù)據(jù)集定義了9 類人體關(guān)節(jié)點,包括左右眼睛、鼻子、左右肩部、左右手肘、左右手腕、左右臀部,關(guān)節(jié)點主要集中在上半身。
(3)MPII 數(shù)據(jù)集
MPII 數(shù)據(jù)集約有2.5 萬張圖片,包含超過4 萬個具有關(guān)節(jié)點注釋的人體,包括被遮擋部位關(guān)節(jié)點標(biāo)注和頭部方向。定義了16 個人體關(guān)節(jié)點,分別為頭頂、脖子、胸部、左右肩部、左右手肘、左右手腕、盆骨、左右臀部、左右膝蓋、左右腳踝。同時可作為多人姿態(tài)估計的數(shù)據(jù)集。
2.1.2 多人姿態(tài)估計數(shù)據(jù)集
在現(xiàn)有的多人姿態(tài)估計數(shù)據(jù)集中,常用的有MPII、COCO 和AI Challenger 數(shù)據(jù)集。
MSCOCO 數(shù)據(jù)集是人體姿態(tài)識別領(lǐng)域應(yīng)用的主流數(shù)據(jù)集,包含了20 萬張圖片和25 萬個具有關(guān)節(jié)點注釋的人體實例。定義了17 個人體關(guān)節(jié)點,分別為左右眼睛、左右耳朵、鼻子、左右肩部、左右手肘、左右手腕、左右臀部、左右膝蓋和左右腳踝。
AI Challenger 數(shù)據(jù)集作為競賽數(shù)據(jù)集使用,包含30萬張圖片,其中訓(xùn)練集21 萬張,驗證集3 萬張,測試集A 3 萬張,測試集B 3 萬張,均對其進(jìn)行了關(guān)節(jié)點標(biāo)注。定義了14 類人體關(guān)節(jié)點,分別為頭部、脖子、左右肩膀、左右手肘、左右手腕、左右臀部、左右膝蓋、左右腳踝。
根據(jù)不同數(shù)據(jù)集的數(shù)據(jù)標(biāo)簽特點,2D 人體姿態(tài)估計有多種評價準(zhǔn)則,如表1 所示。
表1 常見的2D 人體姿態(tài)估計數(shù)據(jù)集及評價標(biāo)準(zhǔn)
2.2.1 單人姿態(tài)估計評價準(zhǔn)則
LSP 數(shù)據(jù)集采用部位精度百分比PCP (Percentage of Correct Parts)來衡量定位的精確程度,如果預(yù)測的肢體兩個端點都在Ground Truth 閾值之內(nèi),則判定該定位正確有效。
MPII 數(shù)據(jù)集中采用頭部尺度關(guān)節(jié)點百分比PCKh(Percentage Correct Keypoints on head length)評價關(guān)節(jié)點檢測的準(zhǔn)確率,即計算出預(yù)測值和真實值的歸一化距離小于設(shè)定閾值的比例,如式(2)所示:
區(qū)別于MPII,F(xiàn)LIC 數(shù)據(jù)集使用PCK 作為評價指標(biāo)時用人體軀干大小代替頭部框大小作歸一化距離。
2.2.2 多人姿態(tài)估計評價準(zhǔn)則
使用目標(biāo)關(guān)鍵點相似度(Object Keypoint Similarity,OKS)來評估預(yù)測值和真實值之間的差異,從而衡量模型的表現(xiàn)。OKS 指標(biāo)的計算公式如式(3):
AP 表示所有的OKS 的平均精度,AP50 表示OKS 閾值為0.5 時的平均精度,APM 表示小尺度目標(biāo)的平均精度,APL 表示尺度在閾值之上目標(biāo)的平均精度。
在模型計算消耗比較方面,采用浮點計算量FLOPs作為指標(biāo),具體指的是卷積神經(jīng)網(wǎng)絡(luò)前向傳播時所需要的乘法次數(shù),用單張圖片的測試速度作為評價測試速度的指標(biāo),同時用參數(shù)個數(shù)作為模型大小的評價指標(biāo)。
(1)遮擋問題
由于真實生活中背景環(huán)境復(fù)雜,遮擋問題在一定程度上制約了模型性能的提升,容易造成漏檢和誤檢。
(2)實時性要求
如何降低網(wǎng)絡(luò)的復(fù)雜度和計算開銷是制約人體姿態(tài)估計算法落地的重要因素,隨著圖像視頻中人數(shù)的增多,尤其是自上而下算法的時間開銷將會明顯增加。
(1)提高檢測精度和效率
真正將人體姿態(tài)估計算法應(yīng)用于無人駕駛、安全監(jiān)控等實時性要求高的領(lǐng)域,還需要進(jìn)一步簡化網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計輕量化模型,降低模型的計算開銷,使其能夠?qū)崿F(xiàn)實時快速高精度檢測。
(2)移動端應(yīng)用
在移動端設(shè)備部署人體姿態(tài)估計技術(shù)是一個方向,在不影響檢測效率和準(zhǔn)確率的情況下,與其他技術(shù)相結(jié)合拓展外圍應(yīng)用,增強(qiáng)現(xiàn)實真正做到人機(jī)交互。
隨著深度學(xué)習(xí)的發(fā)展卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),用于人體姿態(tài)估計的模型結(jié)構(gòu)和算法性能也不斷優(yōu)化和提升,無人駕駛、智能監(jiān)控等任務(wù)需求也在一定程度上促進(jìn)了人體姿態(tài)估計工作的進(jìn)行。本文對兩大類2D 人體姿態(tài)估計方法進(jìn)行了介紹,對每個階段具有代表性的模型特點進(jìn)行了闡述,并介紹了人體姿態(tài)估計常用的數(shù)據(jù)集和評價準(zhǔn)則。最后對人體姿態(tài)估計面臨的問題和發(fā)展趨勢進(jìn)行了介紹,在未來具有廣闊的應(yīng)用前景。