胡 鋯,董天陽,方思琦,江一鳴
(浙江工業(yè)大學 計算機科學與技術學院,杭州 310023)
近年來,行人檢測作為目標檢測一個典型應用,受到了計算機視覺研究人員的廣泛關注[1,2].行人檢測目前已經被廣泛應用于無人駕駛、智能視頻監(jiān)控、行人行為分析、虛實融合的演藝等不同領域[3,4].在虛實融合的演藝中,將行人檢測為基礎的虛擬現實技術應用到舞臺表演中,可以給觀眾提供沉浸式的體驗,讓舞美設計有了更新穎的呈現方式.但是,現在主流的行人檢測技術一般只適用于日常場景[5],無法在舞臺場景中取得良好的檢測效果.
與一般場景中行人檢測相比,復雜舞臺場景的演員檢測存在更大的挑戰(zhàn).首先舞臺場景中燈光作為演出效果的一個重要部分,不停地變化色彩和亮度,導致圖像中不同區(qū)域之間的對比度差異巨大,增大了背景對演員檢測的干擾.其次,演員在舞臺上需要穿著寬松、華麗的戲服,這些戲服會對演員的形體進行遮擋,使得演員的輪廓特征變得模糊.此外,演員需要通過豐富的肢體語言來體現人物的性格和特點,這也為演員檢測增加了一定的難度.
事實上,上述這些光照劇烈變化、背景干擾嚴重的問題不僅僅存在于舞臺場景,也存在于夜晚、大霧天氣等場景,并有不少研究人員為解決這些特殊場景下的行人檢測作出努力.比如為了解決黑暗場景下光照不良的問題,Zhang等人[6]引入了一個跨模態(tài)的交互式注意模塊來利用不同模態(tài)之間的互補性.Li 等人[7]探索了一種多光譜行人檢測的光照感知機制,根據圖像預測的光照值重新分配不同光譜之間的融合權重.為了解決行人的遮擋和背景難區(qū)分問題,Mao 等人[8]通過使用多任務學習網絡來聚合額外的特征(邊緣圖、分割圖、熱度圖、光流圖等).Wang 等人[9]提出了聯合語義分割和行人檢測,使其更容易區(qū)分背景和前景.不過這些方法都存在一定的局限性.如真實的多光譜數據存在位置偏移,同一個目標在不同光譜的圖像中有不同位置,會導致融合時產生偏差.而邊緣圖、光流圖這些傳統(tǒng)特征只能提供有限的語義信息,并且這些信息在聚合過程中容易丟失.
為了進一步提升虛實融合的舞臺演藝效果,本文針對舞臺燈光變化頻繁、演員服裝遮擋嚴重、演員服裝相似性高等特點,提出了一種面向復雜舞臺場景的演員檢測方法.該方法利用姿態(tài)估計網絡預測演員的關鍵點并生成包含關鍵點語義信息的熱力圖,并結合注意力機制將關鍵點語義信息引入檢測網絡中輔助檢測.同時為了提升關鍵點預測的準確度,本文翻轉和拼接兩個ResNet,然后將它們堆疊成兩級沙漏結構來改進姿態(tài)估計的子網絡.最后在舞臺演員數據集上進行消融和對比實驗來驗證本文提出的方法的有效性,實驗結果表明引入關鍵點語義信息確實能有效的提高演員檢測的性能,并且本文引入關鍵點以后的方法在各個指標上都要明顯優(yōu)于當前其他流行的方法.
融合虛擬與現實的表演隨著VR等技術的成熟已越來越常見,突破虛擬與現實界限的表演為舞臺注入了新的活力,舞臺上演員的檢測是融合虛擬與現實的關鍵技術之一.雖然在舞臺場景下的演員檢測缺乏相應的研究,但日常場景下的行人檢測和目標檢測技術受到了許多研究者的關注,本文將從目標檢測和行人檢測兩個方面介紹相應的研究現狀和研究成果.
由于卷積神經網絡的快速發(fā)展,目標檢測領域已經取得了巨大的突破.目標檢測任務的發(fā)展為行人檢測提供了更多的可能性.通??梢园涯繕藱z測器分為單階段檢測器和雙階段檢測器這兩種[10].
隨著R-CNN[11]系列的成功,這種結合建議檢測框和區(qū)域分類器的雙階段模式已經占據了主導地位.R-CNN首次引入和推廣了雙階段的方法,利用selective search算法生成感興趣區(qū)域(RoIs),并通過一個網絡對每個區(qū)域進行分類.為了減少R-CNN的冗余計算,SPP-Net[12]和Fast R-CNN[13]引入區(qū)域特征提取算法,從特征圖中提取感興趣區(qū)域.然而兩者都依賴于單獨的區(qū)域選擇算法,不能實現端到端的訓練.后來Faster R-CNN[14]通過引入區(qū)域建議網絡(RPN),用一組預先確定好的錨框來生成候選框.這不僅大大加快了檢測速度還實現了網絡端到端的訓練.R-CNN系列已經成為了一個流行的檢測框架,近期有很多工作對它進行改進來滿足不同的需要.例如R-FCN[15]用全卷積子檢測網絡代替全連接的子檢測網絡,進一步提高了Faster R-CNN網絡的性能.而MS-CNN[16]和FPN[17]在多分辨率特征圖上輸出候選框以解決目標的多尺度變化問題,提高了目標檢測的召回率.Cascade R-CNN[18]采用不同的IOU閾值級聯多個檢測網絡,逐步細化預測檢測框.
另一方面,單階段檢測器由于其計算的高效性,也在變得流行起來.它更接近于傳統(tǒng)的滑動窗口策略[19].YOLO[20]和SSD[21]作為單階段檢測器的代表,刪除了RoI池化步驟,直接用一個網絡來進行檢測,可以達到實時檢測的目標.YOLO直接從圖像上預測檢測框的邊界,SSD將錨框密集地放置在多尺度特征圖上,然后對每個錨框進行修正和分類.不過這些架構最大的局限性就是在檢測精度上通常要低于雙階段的檢測器.而RetinaNet[22]被提出來解決在檢測過程中正負錨框之間數量的巨大不平衡問題,取得了比雙階段檢測器更好的檢測效果.
Faster R-CNN在通用目標檢測方面的成功和普及促使了基于深度學習的行人檢測方法的構建.最初直接使用Faster R-CNN進行行人檢測導致網絡性能低于預期.Zhang等人[23]在標準的Faster R-CNN中引入了一些調整(如錨定尺寸、特征圖尺度和忽略區(qū)域處理),以改進行人檢測.Xu等人[24]首先檢測每個候選區(qū)域的關鍵點,然后根據這些關鍵點生成6個人體部件.之后,他們再將這些部件的特征結合成一個完整的行人.Zhao等人[25]為整體邊界框檢測和部分預測引入了兩個分支,并構建了一個樹結構模塊將它們集成在一起.Zhou等人[26]訓練了一個具有兩個輸出分支的深度網絡,其中一個分支檢測全身,另一個檢測可見部分.最后融合兩個分支的結果以改進的行人檢測的效果.Pang等人[27]開發(fā)了一種新穎的掩模引導注意網絡,以增強可見行人區(qū)域的特征,同時抑制遮擋區(qū)域的特征.還有一些方法使用頭部信息來輔助行人檢測.Zou等人[28]提出了一種空間注意力模塊,基于類激活映射技術對可見部分的特征進行加權.
網絡的整體框架如圖1所示,本文的整個框架由4部分組成:一個用來生成演員關鍵點熱力圖的分支網絡(Actor Keypoint Heatmap Network,AKHN),一個用來提取和組合特征的特征金字塔網絡(Feature Pyramid Network,FPN),一個用來生成候選框的候選框生成網絡(Region Proposal Network,RPN)還有一個對候選框進行修正和分類的級聯檢測網絡.從最左邊開始,圖像首先經過演員關鍵點熱力圖網絡預測包含關鍵點語義信息的熱力圖.然后融合熱力圖和原始圖像,FPN從融合后的圖像中提取不同尺度的特征圖,并由RPN從這些特征圖中生成候選區(qū)域送入最后的檢測網絡進行檢測.
圖1 網絡的整體結構Fig.1 Overall structure of the network
演員關鍵點熱力圖網絡(AKHN):在預測演員關鍵點的時候,一方面需要高分辨率的特征圖來對關鍵點的坐標進行精準定位,而另一方面對于一些難以預測的關鍵點則需要有豐富語義信息的低分辨率特征圖提供上下文信息.為了解決這個矛盾,本文的這個AKHN采用多階段任務模式,由兩個相同沙漏結構的子網絡堆疊而成,如圖2所示.第1個階段的下采樣過程產生低分辨率圖,然后在上采樣的過程中進行關鍵點的預測,對于輸入圖像IS∈H×W×3,第1階段產生的特征圖如式(1)所示,其中,fD1表示第1階段的運算過程,θ1表示第1階段的網絡參數,Out1表示第1階段的輸出.
圖2 演員關鍵點熱力圖預測網絡結構Fig.2 Actor keypoint heatmap prediction network structure
Out1=fD1(IS,θ1)
(1)
而第2個階段把第1階段的輸出作為輸入,將上階段的上下文利用起來,如式(2)所示,式子中,fD2表示第2階段的運算過程,θ2表示第2階段的網絡參數,Out2表示第2階段的輸出,也是整個演員關鍵點熱力圖預測網絡的輸出.
Out2=fD2(Out1,θ2)
(2)
具體的,演員關鍵點熱力圖預測網絡每個階段的主體采用殘差網絡(ResNet).以第1階段為例,網絡主體將ResNet的Conv2,Conv3,Conv4,Conv5層最后一個輸出作為左邊不同分辨率的特征圖.將這些特征圖分別定義為{L1,L2,L3,L4},這些特征圖的尺寸是原始圖像的{14,18,116,132}倍.網絡右邊對特征圖分別進行兩倍的上采樣,然后添加兩個卷積核大小為3×3的卷積層得到和左邊對應分辨率特征圖的尺寸一致的特征圖{R1,R2,R3,R4}.當然還把相同分辨率的特征圖進行融合,如式(3)所示.這樣當前的特征圖就包含了更多的上下文信息,從而減少了信息丟失.
Ri=Li+Ri
(3)
并且為了保持兩個階段結構和參數的統(tǒng)一,需要把第1個階段最后一個特征圖上采樣到和輸入圖像相同的尺寸,因此第1階段最后的輸出如式(4)所示,?表示卷積操作,W3×3表示3×3的卷積核.
out1=R1?W3×3
(4)
(5)
在預測過程中,每個階段融合各個分辨率下的特征圖.把它們都上采樣到和原圖相同的分辨率再壓縮通道,可以使得低分辨率和高分辨率的特征互相交疊,兼顧了位置信息和特征語義信息.
特征金字塔(FPN):FPN從融合后的圖像中提取和組合特征.主體采用ResNet,FPN利用卷積層的層次特征,采用多尺度融合的方法,建立一個各個尺度特征都包含較強語義的特征金字塔,把低層次高分辨率的信息和高層次強語義的信息結合起來,提高檢測性能.網絡的結構如圖1中FPN部分所示,包含了一個自底向上的路線、一個自頂向下的路線、還有一個橫向的連接.
自底向上的過程就是神經網絡普通的前向傳播過程,特征圖經過卷積核計算,有的特征圖的尺寸是不變的,而有的會下采樣到上一尺寸的一半.對于那些尺寸不變的層,把他們歸為一個階段,然后抽取出每個階段最后一層的輸出.具體而言,對于ResNet,使用每個階段最后一個殘差塊的特征作為輸出.對于卷積塊conv2,conv3,conv4和conv5最后的輸出定義為{Con2,Con3,Con4,Con5},而由于conv1龐大的內存占用,不將conv1納入金字塔中.
自上而下的過程是把更抽象、語義更強的高層特征圖進行上采樣然后往下傳遞,這樣做是因為高層的特征包含豐富的語義信息,經過自上而下的傳播就能使得這些語義信息傳播到低層特征上,使得低層特征也包含豐富的語義信息.而橫向連接則是將上采樣的結果和自底向上生成的相同大小的特征圖進行融合.橫向連接的兩層特征在空間尺寸相同,這樣做可以利用底層定位細節(jié)信息.將低分辨率的特征圖做2倍上采樣.然后通過按元素相加,將上采樣映射與相應的自底而上映射合并.自上而下和橫向連接的過程是迭代的,直到生成最終的分辨率圖,如式(6)所示,式中f2up表示2倍上采樣.為了開始迭代,只需在Con5上附加一個1×1卷積層來生成低分辨率圖P5.最后,在每個合并的圖上附加一個3×3卷積來生成最終的特征映射,這是為了減少上采樣的混疊效應.這個最終的特征映射集為{P2,P3,P4,P5},分別對應于{Con2,Con3,Con4,Con5}.
(6)
區(qū)域建議網絡(RPN):本文使用的是基于錨框的檢測方法,因此采用RPN網絡來進行候選框的生成.RPN的輸入就是原始圖像經過主干網絡提取后的特征,特征圖上的每個點都被稱作錨點,對于每個錨點都會生成k個不同尺寸和比例的錨框,這些錨框對應著原圖上的檢測框.然后對整個特征圖再做兩次卷積,為每個錨框生成分別屬于前景和背景的分類分數還有針對錨框偏移的回歸坐標.根據每個錨框的分類分數和坐標偏移就能篩選出一系列符合要求的候選框,然后送入檢測網絡做最后的檢測.
級聯檢測網絡:本文采用了Cai 等人提出的Cascade R-CNN中的多級聯檢測器作為檢測網絡,整個檢測分支由多個檢測模型組成,每個模型都基于不同的IOU閾值的正負樣本訓練得到,并且閾值不斷上升,前一個檢測模型的輸出作為后一個檢測模型的輸入,來不斷優(yōu)化檢測結果,具體結構如圖1中級聯檢測網絡部分所示,H1是由RPN初步產生的候選框,H2,H3是進一步對產生的候選框的微調,B1,B2,B3是每個級聯檢測網絡的檢測框位置輸出,C1,C2,C3是每個檢測框分類的結果.由最初RPN生成的候選框開始,經過坐標微調以后送入第一級檢測網絡,在第一級檢測網絡中設定一個較小的IOU閾值,對候選框做個初步的篩選,同時對候選框進行回歸,提高其與真實目標框的IOU,使得樣本更靠近真實框一點.接著把處理好的候選框送入后續(xù)檢測網絡重復上面的步驟.每個檢測網絡的IOU閾值逐級提高,因此候選框的質量也不斷提高.整個不斷優(yōu)化的過程如式(7)所示,T表示級聯的檢測網絡數量,ft表示每個階段的優(yōu)化過程,b=(bx,by,bw,bh)是檢測框對應圖像x的4個坐標.
f1(x,b)=fT·fT-1·…·f1(x,b)
(7)
3.2.1 熱力圖的生成方式
在這節(jié)中介紹熱力圖生成方法.人體的每個關鍵點在圖像中都有一個真實的二維坐標,而其他坐標的像素則屬于背景.但實際上人體的關鍵部位在圖像中應該是一個以標注坐標為中心同時占多像素的區(qū)域圖像.所以在生成熱度圖時不是簡單的將關鍵點和背景二值化,而是在關鍵點的某個半徑r內采用緩慢遞減的方式來進行過渡.越靠近關鍵點的權值越高.給定半徑內像素點的權重如式(8)所示:
(8)
3.2.2 熱力圖和原始圖像的融合方式
人類在處理圖像時會快速掃描全局,然后獲得需要重點關注的目標區(qū)域即注意力焦點,同時對這個區(qū)域投入更多的注意力資源以獲取更多關注目標的細節(jié)信息.而人體關鍵點熱力圖就包含了注意力焦點這一先驗信息.因此本文希望能通過熱力圖對可見光圖進行局部篩選,弱化背景信息,突出演員特征,從而提高特征的提取效率和精度.更直觀的說,熱力圖擁有更抽象和更精準的語義信息,能夠提供輔助的視覺信息.當可見光圖像檢測到錯誤的目標或者漏檢的時候,熱力圖能提供額外的信息進行矯正.所以把熱力圖作為注意力矩陣,可以讓網絡忽略無關的信息而關注重點信息.根據這一思路本文設計了混合融合模型.
混合融合模型:對于原始圖像Img(x,y,z)和熱力圖H(x,y),融合后的圖像G(x,y,z)由式(9)生成:
G(x,y,z)=img(x,y,z)×(1+H(x,y))
(9)
其中x,y代表圖像的尺寸,z代表圖像的通道.元素相乘可以用來抑制或者突出某一區(qū)域的特征,而元素相加可以理解為特征之間的融合和增強.本文的混合融合模型把熱力圖和原始圖像相乘再加上原始圖像,既能抑制背景噪聲又能在不破壞圖像結構的情況下增強關鍵點信息,融合后的結果如圖3(d)所示.
圖3 3種不同的融合方式Fig.3 Three different fusion methods
首先介紹一下本文實驗采用的數據集、評價指標還有實驗的基線.
舞臺演員數據集:本文在一個舞臺演員的數據集上測試了本文的方法.這個數據集采集于一場完整演出的現場.由6臺架設于不同方位的攝像機同時拍攝,一共包含4541張分辨率為1920×1080的圖片和63251個演員對象,其中3474張作為訓練樣本,另外1067張作為測試樣本.該數據集用COCO的格式標注了所有演員和工作人員的檢測框和關鍵點.特別地,本文的這個數據集中不包含小目標,所有的檢測框面積都大于322.
評價指標:本文采用加州理工學院的的評價指標MR作為最主要的指標,它表示的是每張圖片假陽性的平均對數丟失率,范圍為[10-2,100],是行人檢測常用的指標.同時為了更好地評估本文的方法,本文還采用COCO格式的AP和AR作為評價指標.AP表示的是平均準確率,是對于某個固定的IoU閾值,在以Recall為橫坐標,Precision為縱坐標的PR曲線上,取橫軸[0,1]的十等分點上的Precision值,并計算其平均值得到.AR(Average Recall)是IoU在[0.5,1.0]上所有Recall的平均值.
帶FPN的Cascade R-CNN:本文采用帶FPN的Cascade R-CNN作為基線,其中backbone用Resnet-50.為了提取更精準的特征圖,本文用RoIAlign代替RoI Pooling.Cascade R-CNN作為一種多階段目標檢測架構,通過級聯幾個檢測網絡達到不斷優(yōu)化預測結果的目的.與普通級聯不同的是,Cascade R-CNN的幾個檢測網絡是基于不同IOU閾值確定的正負樣本上訓練得到的,前一個檢測模型的輸出作為后一個檢測模型的輸入.
在訓練過程中,除了對檢測框進行分類和定位以外,要需要進行熱力圖的預測.所以為了解決熱力圖的學習問題,本文引入了一種像素級的損失.把AKHN預測的熱力圖定義為Hx,y,標簽熱度圖為Fx,y.損失LAKHN如式(10)所示:
(10)
H和W表示的是圖片的尺寸.l是每個像素的交叉熵損失如式(11)所示:
l(p,q)=-(plog(q)+(1-p)log(1-q))
(11)
最后整個網絡的損失如式(12)所示:
Loss=ω1LAKHN1+ω2LAKHN2+ω3LRPNcls+
ω4LRPNbbos+ω5LCHcls+ω6LCHbbos
(12)
ω1、ω1表示PKHN第1階段和第2階段預測熱度圖損失的權重.ω1設置為0.7,ω2設置為1.3.第2個階段的權重設置比第1階段要高一點可以讓關鍵點的定位隨著階段的增多越來越準,而后面4個損失的權重和Cascade RCNN保持一致均設為1.
4.3.1 熱力圖高斯核的半徑
高斯核半徑是決定熱力圖的關鍵因素,高斯核半徑大容易引入背景噪聲造成干擾,高斯核半徑小則生成的熱力圖不能很好的覆蓋演員.為了證明本文的動態(tài)選取高斯核半徑方法的有效性,另外選取了固定20像素和10像素的兩個半徑進行對比.這兩個半徑分別是在動態(tài)選取過程中產生的最大半徑和最小半徑.3種高斯核半徑生成的熱力圖如圖4所示.圖4(b)、圖4(c)、圖4(d)分別對應固定10像素、動態(tài)和固定20像素的高斯核半徑熱力圖.
圖4 3種不同高斯核半徑的熱力圖Fig.4 Heatmap of three different Gaussian kernel radii
表1展示了3種熱力圖和基線的對比實驗結果,可以看到混合融合模型下的3種熱力圖在MR上分別下降了16.5%、15.8%和19.9%,這表明引入人人體關鍵點確實可以提供額外的約束信息,可以顯著減少高置信度的假陽性樣本的出現.同時在AP和AR指標上,3種熱力圖也均有提升.說明關鍵點信息也能提升檢測網絡特征提取的精度和效率.并且固定10像素和20像素半徑的熱力圖在AP上分別提升了1.8%和1.5%,在AR上分別提升了0.7%和0.4%,兩種熱力圖的提升相差不大.而動態(tài)半徑的熱力圖在AP上提升了3.7%,AR上提升了1.9%,明顯優(yōu)于另外兩種熱力圖.這也證明只有合適的高斯核半徑才能最大限度的提升網絡的性能.
表1 3種高斯核半徑選擇實驗結果Table 1 Experimental results of three Gaussian kernel radius selections
4.3.2 熱力圖與原始圖像的混合融合模型
為了證明“混合融合模型”的有效性,將其與“強融合”和“弱融合”模型進行比較.在“強融合”中熱力圖直接和原始圖像相乘,得到的新圖像中背景被完全抑制,只保留人體關節(jié)點的像素信息如圖3(b)所示.而“弱融合”把原始圖像歸一化以后和熱力圖進行相加,即保留背景信息又增強關節(jié)點的特征如圖3(c)所示.
表2展示這3種融合方法的實驗結果,3種融合模型均采用動態(tài)高斯核半徑的熱力圖作為標簽.可以看到弱混合模型要明顯劣于基線,而強混合模型雖然在MR上下降了12.8%,AP上提升了2.4%,但在AR上只有0.3%的提升.本文分析認為人體關鍵點熱力圖有豐富且抽象的語義信息.強融合保留了原始圖像中人體關鍵點信息,對提高檢測的精度有明顯的幫助,但抑制了背景信息,導致檢測過程中缺少了上下文信息,因此無法通過背景推理出一些難以檢測的演員,對AR沒什么幫助.而弱融合雖然保留了背景信息,但是熱力圖和原始圖像的像素色彩空間分布不同,弱融合可能破壞了原始圖像的結構信息,導致檢測網絡性能要低于基線.只有混合融合模型對基線有明顯的改進作用,驗證了其有效性.
表2 3種混合模型的對比結果Table 2 Comparative results of the three mixed models
本文在舞臺演員數據集上與Faseter RCNN、RetinaNet、YOLOv3、SSD等其他先進方法進行比較,來評價提出的方法的性能.本文的方法中采用動態(tài)高斯核半徑和混合融合模型.在MR指標上的實驗結果如圖5所示.可以看到提出的基線達到了34.3%,明顯要優(yōu)于其他流行的檢測器.同時也嘗試在基線上增加了Soft-NMS[29]和空間注意力機制,從實驗結果分析這些額外的輔助模塊并不能提升基線在MR上的性能,因此本文的基線足夠強來驗證提出方法的有效性.基于強基線,本文的方法在MR上下降了19.9%,達到了14.4%,這證明了本文方法的能力.
圖5 與其他方法在MR-2上的對比Fig.5 Comparison with other methods on MR-2
而在AP和AR指標上的實驗結果如表3所示,可以看到本文的方法在不同尺度的AP上也都領先與其他方法.在AR指標上雖然表現不是最好的,但也超過了基線1.9%,優(yōu)于大部分的方法.
表3 和各個先進的檢測方法的對比Table 3 Comparison with various advanced detection methods
挑選了幾種方法,在圖6對檢測結果進行了可視化.圖中第1列表示真實的檢測框,第2列是AKHN預測出的關鍵點熱力圖,其余列分別是基線、本文的方法、FPN、Retinanet和SSD的檢測結果,可以看到本文的方法獲得了比其他方法更好的檢測結果.
圖6 本文的方法和其他方法的檢測結果對比Fig.6 Comparison of detection results between our method and other methods
本文把AKHN移植到其他先進的網絡上來分析AKHN的泛化能力.在實驗中選取通用目標檢測器中比較典型的兩個方法,分別是雙階段的FPN和單階段的YOLO.在兩個檢測器特征提取網絡之前加入AKHN和融合模塊,并與原先的模型進行比較,實驗結果如表4所示.可以看到相比原先的模型,加入AKHN以后FPN在MR上下降了27.2%,AP上提升了8.7%,AR上提升了4.9%.而YOLO在MR上下降了8.9%,在AP上提升了1.1%,AR上提升了0.3%.這證明了AKHN作為一個獨立的分支的確有很強的泛化性能.可以利用AKHN成功地把人體關鍵點信息引入行人檢測中,提升行人檢測器的性能.
表4 FPN和YOLO的原始模型和增加AKHN模塊后的對比Table 4 Original model of FPN and YOLO and the comparison after adding the KHN module
本文針對復雜的舞臺場景提出了一種結合姿態(tài)估計的演員檢測網絡.采用一個演員關鍵點預測的子網絡生成包含關鍵點語義信息的熱力圖,然后借鑒注意力機制,將關鍵點語義信息與原始圖像融合,并且采用堆疊ResNet的沙漏結構來提高關鍵點預測的準確度.對于這個網絡,本文首先探究了影響可見光圖像和熱力圖融合效果的因素,證明了采用動態(tài)高斯核半徑生成熱力圖和混合融合方法的合理性.同時本文在舞臺演員數據集上和其他先進的檢測方法進行了比較.實驗結果表明本文的方法在MR上達到了14.4%,在AP指標上達到了68%,AR指標上達到了72.7%,超越了現有的大部分方法,證明了其有效性.并且把AKHN遷移到其他檢測方法也均能提升對應檢測網絡的性能,說明其具有一定的泛化能力.
在實驗中也發(fā)現,額外的分支會帶來額外的計算成本,而預測熱力圖的分支與提取特征的主干網絡具有相似的結構.所以本文的下一步工作計劃打算融合兩部分網絡,使得主干網絡同時可以提取特征和預測熱度圖.在不影響網絡性能的前提下,節(jié)約計算成本.