• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于DeepPose和Faster RCNN的多目標人體骨骼節(jié)點檢測算法*

      2020-11-19 11:18:42余保玲虞松坤孫耀然楊振傅旭波
      中國科學院大學學報 2020年6期
      關鍵詞:關節(jié)點人體關節(jié)

      余保玲,虞松坤,孫耀然,楊振,傅旭波?

      (1 浙江大學公共體育與藝術部, 杭州 310058; 2 浙江大學光電科學與工程學院, 杭州 310058; 3 中國科學院自動化研究所, 北京 100190)(2019年5月7日收稿; 2019年10月30日收修改稿)

      在計算機視覺領域,人體姿態(tài)檢測中的關節(jié)節(jié)點定位問題一直是研究的熱點。傳統(tǒng)的檢測算法主要存在以下幾個問題:1)如何提高關節(jié)節(jié)點定位準確度;2)發(fā)生遮擋時,能否預測出被遮擋部位的關節(jié)節(jié)點;3)如何同時定位多個目標的關節(jié)節(jié)點。在關節(jié)節(jié)點定位問題中,大多數(shù)的研究主要關注如何提高關節(jié)節(jié)點定位的準確度。通常的做法是通過暴力搜索的方式,在圖像中搜索所有可能出現(xiàn)關節(jié)節(jié)點的區(qū)域。如何提高搜索效率自然成為解決該問題的一種思路,近年來,基于人體部位的高效推斷模型不斷被提出[1]。

      傳統(tǒng)方法用人工設計的特征提取方法和預定義的人體部位模型。但是在復雜的場景下,人工設計的特征提取方法提取出來的特征,不能對關節(jié)節(jié)點進行準確表達,并且人體部位模型無法包含全部的人體姿態(tài)。隨著深度學習在目標檢測中的成功應用,Toshev等[2]提出一種基于深層神經(jīng)網(wǎng)絡(deep neural network, DNN)的DeepPose人體姿態(tài)估計方法,并將姿勢估計的問題可以看成是基于DNN的關節(jié)回歸問題。DeepPose[3]是一種級聯(lián)的DNN回歸模型,利用全局信息進行姿態(tài)預測。Gkioxari等[4]延續(xù)回歸的思想,嘗試改造卷積神經(jīng)網(wǎng)絡(convolutional neural network, CNN),使得CNN變成循環(huán)網(wǎng)絡,以解決單個圖像中人體姿態(tài)以及視頻中人姿態(tài)的估計問題。然而,現(xiàn)有的關節(jié)節(jié)點檢測方法,在目標發(fā)生遮擋時,推理性能會顯著下降,并且每次只能檢測單個目標。

      RCNN使用候選區(qū)域得到預定義目標的圖像局部預測區(qū)域,然后把這些區(qū)域分別輸入到CNN中,提取局部區(qū)域的特征,再將特征輸入到分類器中,判斷特征對應的區(qū)域是屬于具體某類預定義的目標還是背景。同時,RCNN中通過針對邊界的回歸,修正預測的邊界的位置。RCNN在VOC2007上的平均準確率是58%左右,雖然在VOC2007的準確率上有了很大的提高,但RCNN存在著重復計算的問題:候選區(qū)域有幾千個,并且大多數(shù)是相互重疊的,重疊區(qū)域會被多次重復提取特征。于是研究者借鑒SPP-net[5]中的思路提出Fast-RCNN[6],將候選區(qū)域映射到CNN最后一層卷積層的特征圖上,這樣每張圖片只需提取一次特征,而不需要對候選區(qū)域的特征進行重復計算,大大提高了速度,在VOC2007上的平均準確也提高到68%。Fast-RCNN的速度瓶頸在候選區(qū)域選擇上,于是將候選區(qū)域的選擇也交給CNN來做,提出Faster-RCNN。Fater-RCNN速度更快,用VGG網(wǎng)絡作為特征抽取時,在VOC2007上平均準確率能達到73%。Gkioxari等[7]結合運動物體和環(huán)境因素實現(xiàn)靜態(tài)圖像的行為識別,將Fast-RCNN改造成能夠對圖片進行分類同時回歸物體位置的RCNN網(wǎng)絡,在PASAL VOC Action數(shù)據(jù)集上的平均準確率達到90.2%。Mask-RCNN[8]在Faster-RCNN 的基礎特征網(wǎng)絡之后又加入全連接的分割子網(wǎng),由原來的兩個任務(分類+回歸)變?yōu)?個任務(分類+回歸+分割)。主要改進點在于:1)基礎網(wǎng)絡的增強,將VGGNet的特征提取方法換成ResNeXt-101和FPN;2)改進分割的損失函數(shù),由原來的基于單像素softmax多項式交叉熵變?yōu)榛趩蜗袼豷igmod二值交叉熵;3)用RoIAlign層替代RoI Pooling層,這是由于直接ROI Pooling對特征圖的量化操作會使得得到的mask與實際物體位置有微小偏移,因而采用 RoIAlign對特征圖進行插值操作。Mask-RCNN在物體檢測中取得了顯著效果提升。

      在本文的研究中,我們采用基于深度卷積神經(jīng)網(wǎng)的方法對單幅圖像中的多個目標進行關節(jié)節(jié)點檢測,利用Faster-RCNN[9]的ROI給出圖像中若干個潛在的人體區(qū)域,并為潛在的人體區(qū)域建立回歸網(wǎng)絡,同時輸出圖像中多個目標的邊界坐標和關節(jié)節(jié)點的坐標。

      1 相關工作

      1.1 Faster-RCNN

      Faster-RCNN是RCNN系列的目標檢測算法,RCNN具有突出的特征提取和分類能力,主要分為3個步驟:候選區(qū)域提??;特征提??;分類與邊界回歸。但是傳統(tǒng)的RCNN方法會占用大量的磁盤空間,耗時較長。Fast RCNN很好地解決了圖像內大量候選框重疊造成的特征提取冗余問題,訓練速度得到了很大的提升。

      在Fast RCNN基礎上,F(xiàn)aster-RCNN進一步提高了模型效率,將目標檢測中生成候選框、提取特征、分類器分類和回歸幾個步驟都交給神經(jīng)網(wǎng)絡進行處理,極大地提高了效率,是基于深度學習的RCNN系列目標檢測方法中最好的一種方法。Faster-RCNN主要由兩個核心部分組成:1)區(qū)域生成網(wǎng)絡RPN候選框提取模塊,RPN是全卷積神經(jīng)網(wǎng)絡,內部與普通卷積神經(jīng)網(wǎng)絡不同,它是把CNN中的全連接層變成卷積層;2)Fast RCNN檢測模塊,基于RPN提取的候選框檢測并識別其中的物體。

      Faster-RCNN解決了RCNN中使用搜索選擇算法耗時多的問題,使用深度CNN網(wǎng)絡直接產(chǎn)生召回率高的Region Proposals的RPN層。與selective search相比,當每張圖生成的候選區(qū)域從2 000減少到300時,訓練時間將減少20%~25%,RPN方法的召回率下降幅度不大,說明RPN方法的目的性更加明確。

      基于 Faster RCNN 強大的目標識別能力,通過在 Caffe深度學習框架下的實驗,F(xiàn)aster RCNN 對于人體整體識別率和準確率高達98%,基本不會出現(xiàn)漏檢和誤檢的情況。本文提出一種新的策略:將Faster-RCNN運用到關節(jié)點的檢測中。在這個思路的基礎上,我們將現(xiàn)有的Faster-RCNN框架運用在肢體檢測方面,對此進行實驗并做出詳細的實驗分析,作為本文多目標關節(jié)節(jié)點檢測的基線?;贔aster-RCNN強大的目標檢測能力,本文嘗試將其運用到人體肢體檢測方向上來。

      1.2 DeepPose

      DeepPose提出一種基于DNN的人體姿態(tài)估計方法,該方法可以表達成基于 DNN 的身體關節(jié)的回歸問題。DeepPose的核心思想是對于關節(jié)點位置的回歸,利用DNN對人體關節(jié)節(jié)點位置進行定位,先在圖像中進行粗略的姿態(tài)統(tǒng)計,再利用DNN 回歸的級聯(lián),對關節(jié)點區(qū)域的子圖像進行優(yōu)化預測,能夠得到高精度姿態(tài)估計。該方法具有以整體方式推理姿勢的優(yōu)點,能夠將每個身體關節(jié)的位置回歸到全圖像并作為7 層卷積DNN的輸入。DeepPose給出了使用CNN進行姿態(tài)估計的方法,利用級聯(lián)方式進行更加精確的姿態(tài)估計。對每個關節(jié)點,都將整個圖像作為輸入并利用卷積神經(jīng)網(wǎng)絡提取全局特征,將節(jié)點的絕對坐標轉化為統(tǒng)一坐標,之后,通過縮放的方式固定初始的圖片輸入大小,在獲得初步坐標后,再根據(jù)該坐標選擇一定的局部區(qū)域,對節(jié)點坐標進行更加精確的回歸,這種方法有兩個優(yōu)點:首先,DNN 能夠捕獲每個身體關節(jié)的完整上下文信息并且每個聯(lián)合回歸器都使用完整圖像作為信號;第二,與基于圖形模型的方法相比,該方法的制定更加簡單,不需要明確地設計零件的特征表征和檢測器, 也無需明確設計模型拓撲和關節(jié)之間的相互作用,后期優(yōu)化階段通過使用更高分辨率的子圖像來優(yōu)化預測結果。

      2 運動場景關節(jié)節(jié)點檢測算法

      2.1 MPII數(shù)據(jù)庫簡介

      MPII 是一個人體姿態(tài)數(shù)據(jù)庫,包含約2.5萬張圖片和4萬個不同姿態(tài)的人類肢體節(jié)點信息,覆蓋超過410種活動,圖片均來源于YouTube視頻。MPII包括如下節(jié)點:左右腳踝,左右膝蓋,左右臀部,左右盆骨,左右肩膀,左右手肘,左右手腕,頭部和頭頂位置。評估標準使用正確預測關鍵節(jié)點的百分比(percentage of correct keypoints),當一個關鍵節(jié)點預測結果和真實標記間的 “距離”在一定范圍內時視為正確預測。對于MPII數(shù)據(jù)集,這個“距離”使用頭部大小進行歸一化,相應的評估標準記為PCKh。

      2.2 Faster-RCNN基線的多目標關節(jié)節(jié)點檢測

      1)數(shù)據(jù)集的轉化

      Faster-RCNN使用的數(shù)據(jù)集為VOC2007,是2007 年計算機視覺挑戰(zhàn)賽的數(shù)據(jù)格式[10],該數(shù)據(jù)集采用XML格式表示人體關節(jié)點信息,而 MPII 數(shù)據(jù)庫則采用MatLab格式保存關節(jié)點信息,因此實驗的第一步需要對數(shù)據(jù)集進行轉化。本文通過python進行數(shù)據(jù)的導入和處理,創(chuàng)建了3個python類,分別為 Picture,Person,Point。其中1個Picture實例包含1個或多個Person,1個Person實例中含有多個Point節(jié)點信息。通過python中的MatLab接口導入MPII 數(shù)據(jù),將其轉化為python類。

      數(shù)據(jù)集轉化的目的是將 MPII 原有的節(jié)點坐標信息轉化為bounding box,即Faster-RCNN能夠處理的數(shù)據(jù)格式,如圖1所示,不同的節(jié)點處的bounding box被視為一個單獨的目標進行檢測和分類。由于 MPII 數(shù)據(jù)庫中的圖片分辨率不一,如果對每種關節(jié)節(jié)點都采用固定長寬的bounding box,則實驗結果會有較大的誤差。因此,在數(shù)據(jù)處理的過程中,采用自適應圖片大小的bounding box,即通過一定的比例計算出包圍盒的大小。

      圖1 原始數(shù)據(jù)轉化為各個節(jié)點的包圍盒Fig.1 Bounding box converted from the raw data

      2)實驗結果分析

      實驗結果顯示,直接用Faster-RCNN對每種關節(jié)節(jié)點的識別效果不理想。如圖2所示,頭部識別的正確率超過90% 以上,但肩膀、手肘、手掌、臀部、膝部、腳腕的識別率不到20%,大部分圖像均無法識別出這些關節(jié)。通過分析結果發(fā)現(xiàn),出現(xiàn)上述情況主要有以下幾點原因:1)人體關節(jié)常會出現(xiàn)重疊和遮擋的情況。一個側身站立的人,圖像內側的關節(jié)部分就會被處于圖像前側的關節(jié)所遮擋;對于多人的圖像,部分個人的關節(jié)極有可能會被其他人遮擋。2)上述實驗僅僅對單獨的關節(jié)點進行識別,缺少節(jié)點之間相關聯(lián)性的信息,導致結果的不理想。3)Faster-RCNN 采用的區(qū)域推薦算法可能并沒有將單個的關節(jié)點所在的矩形框作為推薦區(qū)域之一傳遞到下一層網(wǎng)絡。

      圖2 Faster-RCNN基線的多目標關節(jié)節(jié)點檢測Fig.2 The multi-objective joint node detection based on Faster-RCNN

      2.3 關節(jié)點連線bounding box檢測

      根據(jù)上一節(jié)的實驗分析,可知由于人體各個關節(jié)點之間缺少關聯(lián)性的信息,并且標注區(qū)域過于狹小,導致了目標識別率的不理想。本文考慮是否可以將MPII人體姿態(tài)數(shù)據(jù)集做進一步的轉化,表示出節(jié)點間的關聯(lián)信息呢?于是本節(jié)提出一種新的思路,對相鄰節(jié)點的連線所處于bounding box進行檢測,例如左肩和左手肘的連線構成左上臂,該連線的bounding box包含的信息相對于單獨節(jié)點較大,不僅含有2個節(jié)點信息,還包括它們之間的關聯(lián)信息,其中可識別的特征點要明顯多于單獨關節(jié)點。

      1)數(shù)據(jù)集轉化及優(yōu)化方法

      首先要解決的問題是如何將MPII人體姿態(tài)數(shù)據(jù)庫中的關節(jié)點位置信息轉換成包含軀干的bounding box,以及該bounding box的大小如何確定。最直觀的思路,是以坐標節(jié)點連線畫一個最小的bounding box。因為MPII數(shù)據(jù)庫提供的關節(jié)點坐標是該關節(jié)的中心位置,而關節(jié)點比如手肘、肩膀等,并不是由一個點,而是一整塊相關的區(qū)域構成的,那么直接以坐標節(jié)點連線畫一個最小的bounding box很難將預期的區(qū)域全部囊括進來,少部分的關節(jié)部分為落在bounding box的外面。為解決這個問題,本文提出一種優(yōu)化bounding box的改進算法。對于節(jié)點A和B,以及它們的連線 Line(A,B),首先根據(jù)人體大小以及關節(jié)類型計算出一個節(jié)點覆蓋半 徑R。以節(jié)點中心為原點,R為半徑畫圓,最后得到圖3(c)優(yōu)化后的結果??梢钥吹?圖3(b)中人的左上臂的bounding box并沒有覆蓋到靠近頭部和靠近左下臂的部分, 而在圖3(c)中,通過加入兩個半徑為R和r的圓,填充了原本沒有覆蓋到的部分。

      圖3 包圍盒優(yōu)化示意圖Fig.3 Optimized bounding box

      下面提供求解如圖3(c)所示的bounding box的一種算法:

      設節(jié)點坐標為 (x,y), 節(jié)點覆蓋半徑為R, 將半徑為R的圓分成k等份, 則有如下公式

      (1)

      (2)

      同理,MaxX和MaxY也可以計算出來,k一般取60左右即可。如圖4所示為原數(shù)據(jù)轉化為關節(jié)點連線的包圍盒輸出結果。

      圖4 原數(shù)據(jù)轉化為關節(jié)點連線的包圍盒Fig.4 Bounding box for connecting nodes transformed by original data

      2)實驗結果與分析

      通過實驗發(fā)現(xiàn),采用優(yōu)化的bounding box后,F(xiàn)aster-RCNN的檢測錯誤率有所下降。腿部的錯誤率降低到50%左右,但其他部位的錯誤率仍然高達 60%~80%。出現(xiàn)該情況的原因在于,腿部相較于上半身的關節(jié)點,體積較大,因此可識別的特征范圍大。并且腿部發(fā)生遮擋的情況較少,因此大腿部分的檢測優(yōu)于其他部位的檢測。實驗證明,雖然對Faster-RCNN中用于分類的bounding box進行了修改和與優(yōu)化,但是人體肢體檢測的效果依舊不是很理想,分析原因有如下幾點:當嘗試將人體某一部分單獨提取出來作為一個識別目標,比如腿部,截取出來的目標圖像基本是單一的顏色,不存在鮮明的特征可供機器識別。雖然相比直接用包含關節(jié)節(jié)點區(qū)域的圖像作為訓練數(shù)據(jù),多了一些上下文信息,但是依然無法提供足夠的整體信息,如圖5所示。

      圖5 節(jié)點連線部位檢測實驗結果Fig.5 Test results of node-connected parts

      2.4 基于DeepPose的關節(jié)節(jié)點檢測

      基于DeepPose的關節(jié)節(jié)點檢測在FLIC 數(shù)據(jù)庫[2]和 Leeds Sports Pose 數(shù)據(jù)庫[11]進行訓練和測試。在深度學習框架caffe上運行,迭代次數(shù)為50 000次,batch size大小為50。在訓練過程中,損失函數(shù)一開始快速下降,隨后逐漸趨于平緩,直至收斂。訓練過程的誤差曲線如圖6所示。

      圖6 損失函數(shù)曲線Fig.6 Loss function curve

      通過在測試集進行測試發(fā)現(xiàn),部分圖片可以較為準確地勾勒出人體肢體的情況,另一部分圖片則略有偏差。通過圖7的對比不難發(fā)現(xiàn),DeepPose對于單個人且人體在圖片中占較大比例時會得到比較好的預測結果。而當待檢測圖片中包含多目標或者是人體占圖片比例較小時,效果不佳,甚至會出現(xiàn)特別大的偏差。因此,本文得出這樣的結論:DeepPose通過全圖特征分析回歸得到的節(jié)點坐標受到圖片背景的影響較大,特別是當人體區(qū)域在圖片中比例較小時,DeepPose會將人體的部分區(qū)域誤認為是背景,從而產(chǎn)生較大的偏差。

      圖7 DeepPose的測試結果Fig.7 DeepPose test results

      為了進一步研究人體在圖像中的所占比例大小對于預測結果的影響,本文對同一張圖片中的人體區(qū)域進行不同比例的裁剪和縮放,然后使用DeepPose進行關節(jié)節(jié)點檢測,結果如圖8所示。在圖8中,人體占圖片的比例越大,預測結果越準確。這說明背景對于基于DeepPose的預測結果影響較大,當人體所占的比例較小時,背景圖片會對結果造成比較大的干擾。

      圖8 人體占圖像不同比例的預測結果Fig.8 Predicting results of images with different proportions of human body

      2.5 基于Faster-RCNN和DeepPose的多目標關節(jié)節(jié)點檢測

      本文發(fā)現(xiàn)Faster-RCNN和 DeepPose 有著各自的優(yōu)缺點,F(xiàn)aster-RCNN適合檢測較大塊、特征比較鮮明的物體,比如它對人體整體的檢測識別率達到98%以上,非常準確,但是對于各個關節(jié)點的判斷能力幾乎沒有;而DeepPose與Faster-RCNN恰好相反,它對于細節(jié)和全圖關聯(lián)性的分析能力比較強,適合做關節(jié)點位置的判斷,但是非常容易受到背景圖片的影響,且只能適用于單人圖片。于是,本文提出一種新的思路,結合Faster-RCNN目標檢測的能力和DeepPose人體肢體節(jié)點坐標的判斷分析能力,進行多目標的關節(jié)節(jié)點檢測。首先利用Faster-RCNN得到圖片中若干個人體的矩形框(大小為w×h),對于每個矩形框,將對應的人體矩形框從原圖裁剪下來,歸一化成 227×227大小的人體區(qū)域(DeepPose的圖片輸入格式),放到DeepPose中運行,并用優(yōu)化的bounding box以及R,r計算出節(jié)點坐標p,再將p在227×227圖像塊上的坐標位置映射到w×h的人體候選區(qū)域上。

      通過實驗發(fā)現(xiàn),結合Faster-RCNN和DeepPose的效果有了很大的提升。單純地使用DeepPose的方法,如圖9(a)所示,當人周圍有了其他物體干擾后,肢體檢測結果會非常不準確,而經(jīng)過Faster-RCNN計算出來的人體矩形框的約束后,關節(jié)節(jié)點的預測效果迅速提升。另外,對于原本DeepPose束手無策的多目標關節(jié)節(jié)點檢測,經(jīng)過Faster-RCNN的幫助,也不再是問題,如圖9(b)和9(c)所示。

      圖9 結果對比Fig.9 Comparison of results

      使用MPII數(shù)據(jù)集官方給出的評測工具[12]對我們的模型進行評估,結果見表1??梢钥吹?,我們的模型在手腕、膝蓋兩種關鍵節(jié)點檢測上均取得了最好結果,比原來的最好結果各提升1.2%和0.3%。在其他5類關鍵節(jié)點檢測中也取得了很好的結果,在全部的關鍵節(jié)點檢測上PCKh為87.6%,接近于原來的最好結果88.5%。

      表1 在MPII上的預測結果 (PCKh@0.5)Table 1 Results on MPII dataset (PCKh@0.5)

      3 結論

      本文提出一種進行多目標關節(jié)節(jié)點檢測的新方法。該方法結合Faster-RCNN和 DeepPose各自的優(yōu)點,優(yōu)化了人體關節(jié)節(jié)點檢測的結果。Faster-RCNN善于識別整體物體,比如人體、汽車、輪船等等,但是對于細節(jié)和關聯(lián)性分析能力不強;DeepPose恰恰相反,它不善于分析事物的整體性,但是對于整體事物內部的聯(lián)系有著較強的分析能力。本文提出的算法在MPII數(shù)據(jù)集中取得了很好的效果,能夠應對多目標關節(jié)節(jié)點檢測的問題。

      猜你喜歡
      關節(jié)點人體關節(jié)
      人體“修補匠”
      人體冷知識(一)
      排便順暢,人體無毒一身輕
      基于深度學習和視覺檢測的地鐵違規(guī)行為預警系統(tǒng)研究與應用
      關節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡結合的雙人交互動作識別
      奇妙的人體止咳點
      特別健康(2018年3期)2018-07-04 00:40:10
      搞好新形勢下軍營美術活動需把握的關節(jié)點
      用跟骨解剖鋼板內固定術治療跟骨骨折合并跟距關節(jié)及跟骰關節(jié)損傷的效果探討
      miRNA-140、MMP-3在OA關節(jié)滑液中的表達及相關性研究
      給手指“松關節(jié)”為何會發(fā)出聲響
      衢州市| 新沂市| 二连浩特市| 佛教| 温州市| 高淳县| 涿鹿县| 乌兰县| 潼关县| 通辽市| 阿鲁科尔沁旗| 昌乐县| 景洪市| 馆陶县| 陆良县| 泽普县| 红桥区| 枝江市| 连云港市| 当雄县| 台北市| 施秉县| 阿拉善右旗| 昌邑市| 衢州市| 双鸭山市| 婺源县| 济南市| 宣化县| 合阳县| 四会市| 兴宁市| 彰武县| 贵溪市| 井陉县| 黔西| 天门市| 新乡县| 十堰市| 合肥市| 恭城|