趙安新,楊金橋,楊浩波,史新國,付文旭,劉 帥,王偉峰
(1.西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710054;2.陜西正通煤業(yè)有限責(zé)任公司,陜西 長武 713600;3.山東博選礦物資源技術(shù)開發(fā)有限公司,山東 濟(jì)寧 272073;4.西安科技大學(xué) 安全科學(xué)與工程學(xué)院,陜西 西安 710054)
隨著大數(shù)據(jù)技術(shù)的不斷提升,人工智能技術(shù)也在不斷地發(fā)展成熟,基于深度學(xué)習(xí)算法與深度神經(jīng)網(wǎng)絡(luò)的視覺識別技術(shù)已經(jīng)應(yīng)用于工業(yè)的各個領(lǐng)域[1]。除了如洗煤廠、煉鋼廠、汽車制造廠等工廠的車間內(nèi)為了保證工人安全需要使用智能監(jiān)控設(shè)備,當(dāng)企業(yè)出現(xiàn)如流水線人手不足或者火災(zāi)等應(yīng)急情況下需要進(jìn)行人員調(diào)度或者疏散人員時,需要清楚的了解人員的分布境況,以便指定合理的方案[2]。將目標(biāo)檢測、目標(biāo)跟蹤與行人重識別算法應(yīng)用到辦公樓的監(jiān)控設(shè)備中,既能夠幫助企業(yè)對人員進(jìn)行合理管控,又避免了人眼查看監(jiān)控因疲勞而忽視關(guān)鍵信息的問題,省時省力。同時,3種算法的結(jié)合使用能夠有效的增加識別與跟蹤的準(zhǔn)確性[3]。
在實(shí)際應(yīng)用中,多目標(biāo)的智能識別與跟蹤往往面臨著檢測框重框和人員遮擋的問題。針對重框問題,譚芳喜等使用DIOU-NMS(基于Distance-IOU的非極大值抑制)去除冗余框,提升檢測精度[4]。張長倫等在NMS中融入了注意力機(jī)制,結(jié)合了位置信息和框的得分信息得到框的最終得分[5]。侯志強(qiáng)等提出一種雙閾值非極大值抑制算法,將傳統(tǒng)的(Intersection Over Union,IOU)指標(biāo)替換為全局交并比指標(biāo)(Generalized Intersection Over Union,GIOU),抑制多余的檢測框[6]。從以上研究可以看出,目前重框問題主要通過非極大值抑制(Non Maximum Suppression,NMS)算法來解決,以上算法雖然解決了重框問題,但并未考慮預(yù)測框和真實(shí)框的橫縱比和難易樣本之間的平衡問題。為了降低遮擋對人員追蹤的影響,學(xué)者們通過在網(wǎng)絡(luò)模型中添加注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)圖片中需要關(guān)注的區(qū)域,薛麗霞等結(jié)合空間和通道雙重注意力機(jī)制提出一種網(wǎng)絡(luò)模型,提取到了更有針對性的特征[7]。CHEN等為解決注意力機(jī)制提取局部特征容易忽略地相關(guān)性特征的問題提出了一種多樣專注網(wǎng)絡(luò)(Attentive But Diverse Network,ABD-NET)[8]。ZHANG 等 設(shè) 計(jì) 一 種(Relation-a-ware Global Attention,RGA)模型,對于提高特征的表示能力效果顯著[9]。雖然注意力機(jī)制能夠有效的降低遮擋帶來影響,但現(xiàn)有的注意力機(jī)制還無法徹底解決遮擋問題。文獻(xiàn)[10]指出ReID模型能夠有效增加軌跡關(guān)聯(lián)的準(zhǔn)確性,緩解目標(biāo)被遮擋的問題,而目前人員跟蹤中使用的ReID模型相對簡單,難以提取到更好的外觀信息。為此,文中提出一種基于優(yōu)化DeepSORT和FastReID的多目標(biāo)人員識別與跟蹤的方法,使用(Efiicient General-ized Intersection Over Union,EIOU)-NMS算法代替YOLOv5s原有的NMS算法,EIOU-NMS算法計(jì)算了預(yù)測框和真實(shí)框的寬高之間的差異值,既解決重框問題,又降低了難易樣本不平衡的帶來的影響。在FastReID的特征提取網(wǎng)絡(luò)中引入NEUFA注意力機(jī)制,并使用優(yōu)化后的FastReID網(wǎng)絡(luò)替換DeepSORT原有ReID網(wǎng)絡(luò),緩解了跟蹤過程中的遮擋問題。此外,為了保證人員在被遮擋時能夠準(zhǔn)確識別,建立了動態(tài)人員圖像庫并根據(jù)人員的像素坐標(biāo)校正FastReID的識別結(jié)果。
目標(biāo)檢測的目的在于找到圖像中感興趣的部分并進(jìn)行分類與定位,被廣泛應(yīng)用在視頻分析中[11-13]?,F(xiàn)階段目標(biāo)檢測方法主要分為單階段法和兩階段法,兩階段法先通過如邊界箱和選擇性搜索等區(qū)域選擇法進(jìn)行候選區(qū)域的生成,再使用卷積神經(jīng)網(wǎng)絡(luò)對樣本進(jìn)行分類,典型的兩階段目標(biāo)檢測算法有快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)[14]和掩模卷積神經(jīng)網(wǎng)絡(luò)(Mask R-CNN)[15]等。兩階段法雖然準(zhǔn)確度高但相比單階段法速度相對較慢,單階段法直接通過卷積網(wǎng)絡(luò)提取樣本特征預(yù)測不同目標(biāo)物的類別信息與位置信息。單階段法提升了算法的運(yùn)行速度,能夠滿足實(shí)時檢測的要求,典型的單階段目標(biāo)檢測算法包括YOLO(You Only Look Once)[16]系列和SSD(Single Shot Multibox Detector)[17]系列。
表1對比近年來經(jīng)典的目標(biāo)檢測算法,可以看出,YOLOv5s的平均精度(Average Precision,AP)和每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)均高于其他算法,故本研究采用YOLOv5s進(jìn)行人員檢測。
表1 目標(biāo)檢測算法性能對比Table 1 Performance comparison of target detection algorithms
非極大值抑制(Non Maximum Suppression,NMS)算法通過調(diào)整目標(biāo)檢測框與最高得分的預(yù)測框之間的交并比IOU來抑制多余的目標(biāo)框,IOU是預(yù)測框與真實(shí)框之間的交并比,IOU損失是指1減去IOU的值,IOU和IOU損失函數(shù)見下式。
式中 B為預(yù)測框面積;Bi為真實(shí)框面積。IOU損失雖然可以表達(dá)出預(yù)測框和真實(shí)框的檢測效果,但當(dāng)預(yù)測框和真實(shí)框不相交時,IOU損失就恒等于1,無法繼續(xù)進(jìn)行學(xué)習(xí)。此外,IOU損失函數(shù)還無法判斷預(yù)測框與真實(shí)框之間的位置關(guān)系。而EIOU損失函數(shù)[18]計(jì)算了預(yù)測框和真實(shí)框中心點(diǎn)的標(biāo)準(zhǔn)化距離和2個框?qū)捙c高之間的差異,使得預(yù)測框與真實(shí)框不相交時,EIOU損失函數(shù)依舊可以尋找下降梯度。EIOU損失函數(shù)計(jì)算見下式。
式中 b和bgt分別為預(yù)測框與真實(shí)框的中心點(diǎn);ρ為b和bgt之間的歐式距離;d為預(yù)測框和真實(shí)框的最小外接矩形的對角線距離;ω,ωgt,h,hgt分別為預(yù)測框和真實(shí)框的寬和長;Cw,Ch為覆蓋預(yù)測框和真實(shí)框的最小外接矩形的寬度和長度。
因此采用EIOU-NMS算法替換了YOLOv5s中原有的NMS算法。EIOU-NMS算法將人員檢測準(zhǔn)確率由90.4%提升到91.2%,提升了0.8%,召回率由94.8%提升到95.2%,提升了0.4%。
圖1對比NMS優(yōu)化前后的檢測結(jié)果,圖1(a)是優(yōu)化前的檢測結(jié)果,圖1(b)是優(yōu)化后的檢測結(jié)果,可以看出優(yōu)化后的NMS成功去掉人員檢測中多余的預(yù)測框。
圖1 NMS優(yōu)化試驗(yàn)Fig.1 NMSoptimisation test
目標(biāo)跟蹤通過找到圖像中感興趣的區(qū)域,在后續(xù)視頻幀中對其進(jìn)行跟蹤,在監(jiān)控安防與無人駕駛等領(lǐng)域都起著關(guān)鍵作用[19-21]?;诟櫟哪繕?biāo)數(shù)目,可以分為單目標(biāo)和多目標(biāo)跟蹤,現(xiàn)階段研究主要通過獲取目標(biāo)外觀特征和視頻每一幀中的目標(biāo)信息來進(jìn)行跟蹤。
DeepSORT作為一種端到端的跟蹤算法,能夠同時提取了人員的外觀信息和運(yùn)動信息,因此研究使用DeepSORT算法進(jìn)行多目標(biāo)跟蹤。但由于DeepSORT中的使用的ReID特征提取網(wǎng)絡(luò)結(jié)構(gòu)簡單,為了獲得更具針對性的行人特征,需要使用其他ReID模型替換DeepSORT中原有的ReID模型。表2將FastReID[22]與其他典型的行人重識別算法做了對比,可以看出在大型公開數(shù)據(jù)集Market 1501,DukeMTMC中的Rank 1和mAP值均高于其他算法,所以在DeepSORT中使用FastReID特征提取網(wǎng)絡(luò)。
表2 不同行人重識別算法在大型數(shù)據(jù)集上的表現(xiàn)Table 2 Performance of different person re-identification algorithms on large datasets
為了降低遮擋帶來的影響,在替換DeepSORT的特征提取網(wǎng)絡(luò)之前在FastReID的Bottleneck中添加了注意力機(jī)制,如圖2所示,在FastReID的Bottleneck中添加了NEUFA[23]注意力機(jī)制。表3記錄FastReID添加不同注意力機(jī)制之后在Mar-ket1501數(shù)據(jù)集上的表現(xiàn),其中FastReID+NEUFA的mAP值和Rank值均是最高的。
總之,低輻射的研究一直伴隨著CT的發(fā)展,從設(shè)備的硬件不斷升級,軟件的功能不斷完善,到圖像算法的不斷改進(jìn),被檢查者所受到的輻射劑量越來越低,在CT輻射安全管理的模式下,三種肺部CT采集方式所得到輻射劑量有差異,70Kv有效劑量最低,雙能方式的有效劑量次之,常規(guī)120Kv最高。
圖2 Bottleneck中添加注意力機(jī)制Fig.2 Attention mechanism added to Bottleneck
表3 不同注意力機(jī)制在Market 1501數(shù)據(jù)集上的表現(xiàn)Table 3 Performance of different attention mechanisms on Market 1501 dataset
改進(jìn)后的DeepSORT模型在跟蹤時ID跳變次數(shù)由13次減少為8次,在原有的基礎(chǔ)上減少38 46%。
人員重識別(Person Re-identification)利用計(jì)算機(jī)視覺,將多個攝像機(jī)拍攝的同一人員的圖像關(guān)聯(lián)起來,人員第1次被攝像機(jī)拍攝到的圖像會被保存到一個圖像庫,當(dāng)人員被另一個攝像機(jī)拍攝到時,當(dāng)前圖像會在圖像庫中進(jìn)行匹配識別,識別出準(zhǔn)確的身份信息。文中使用FastReID進(jìn)行人員的重識別,針對由于遮擋導(dǎo)致的人員身份錯誤識別或者識別不到的問題,在FastReID的Bottleneck中添加了NEUFA注意力機(jī)制。表4記錄了Fas-tReID添加不同注意力機(jī)制在測試視頻中的表現(xiàn),F(xiàn)astReID添加NEUFA之后的誤識別次數(shù)和None的數(shù)量均低于其他注意力機(jī)制。其中None的數(shù)量為未識別到的人員數(shù)量,誤識別次數(shù)指的是錯誤識別到的人員次數(shù),比如將人員A錯誤識別為人員B。
表4 不同注意力機(jī)制在測試視頻中的表現(xiàn)Table 4 Performance of different attention mechanisms in test videos
由于在公司辦公樓內(nèi)的人員基本是固定的,所以提前建立好人員圖像庫用來進(jìn)行人員的身份匹配。張海燕等將Market1501數(shù)據(jù)集上捕捉到的人員姿態(tài)劃分為8個標(biāo)準(zhǔn)姿態(tài)骨架,如圖3所示,基于此在人員圖像庫內(nèi)提前放置每個人員在8個不同方向的行走圖像[24]。為了能夠在人員遮擋時準(zhǔn)確識別到人員的身份信息,圖庫內(nèi)還需保存人員身體被部分遮擋的圖像。
圖3 標(biāo)準(zhǔn)姿態(tài)骨架Fig.3 Standard stance skeleton
攝像機(jī)鏡頭可劃分為遠(yuǎn)景鏡頭、中景鏡頭、近景鏡頭和特寫鏡頭[25]。其中遠(yuǎn)景鏡頭拍攝到人員的全身像,中景鏡頭拍攝人物膝部以上的活動情形,表現(xiàn)人物手臂活動范圍,近景鏡頭拍攝人員胸部以上圖像,特寫鏡頭則拍攝人員肩部以上的頭像。其中中景鏡頭、近景鏡頭和特寫鏡頭可以看成人員被遮擋的情況。以上遮擋可以看成橫向遮擋,而遮擋除了橫向遮擋之外還有縱向遮擋,因此對于每個人員需要存儲他的全身圖像、頭部圖像、胸部以上的圖像、膝部以上的圖像和半身像。
考慮到以上因素,需要在人員圖像庫內(nèi)提前放置每個人員在8個不同方向的行走圖像,每個方位的圖像包括人員全身圖像、頭部圖像、胸部以上的圖像、膝部以上的圖像和半身像,共計(jì)40張圖像。除了預(yù)設(shè)的圖像,圖像庫還會根據(jù)人員的識別信息存儲與圖像庫內(nèi)已有的圖像特征差異較大的人員圖像。
圖像的存儲通過計(jì)算人員之間的余弦相似度,余弦相似度得分閾值設(shè)定為0.6,當(dāng)?shù)梅执笥诘扔?.6時確定為目標(biāo)人員,當(dāng)有多人得分均大于0.6時,取最高值,得分越高說明與圖像庫內(nèi)的某一張圖像越相似。為了存儲到與初始圖像特征差異較大的圖像,需要在能夠確定人員身份的情況下保存該人員得分分值較低的圖像,該分值越接近0.6越好,這樣存儲到的圖像才能夠與初始圖像有較大的區(qū)分度。動態(tài)圖像庫在測試視頻中的表現(xiàn)見表5。添加了動態(tài)人員圖庫的FastReID算法將None的數(shù)量由169次減少到123次,誤識別的次數(shù)由34次減少到19次,添加了注意力機(jī)制與動態(tài)人員圖庫后,None的數(shù)量由169次減少到108次,誤識別的次數(shù)由34次減少到17次,相較單一添加注意力機(jī)制,同時添加注意力機(jī)制與動態(tài)人員圖庫2種方法對于減少遮擋引起的人員錯誤識別與無法識別的問題收益更大。
表5 動態(tài)圖像庫在測試視頻中的表現(xiàn)Table 5 Performance of motion picture library in test videos
在人員識別的過程中,添加注意力機(jī)制和建立動態(tài)人員圖庫能夠有效減少由于人員部分遮擋導(dǎo)致的人員無法識別和錯誤識別的次數(shù),而當(dāng)人員被嚴(yán)重遮擋時,以上2種方法仍然無法準(zhǔn)確識別到人員的身份信息。因此,提出一種根據(jù)像素坐標(biāo)校正人員身份信息的方法,如果該人員在遮擋的上一幀程序正確識別到了該人員的身份信息,就可以根據(jù)上一幀的人員信息校正當(dāng)前幀的人員信息,該方法的步驟如下。
步驟2:判斷當(dāng)前幀是否存在None或者誤識別現(xiàn)象,如果沒有,保存當(dāng)前幀的人員信息,作為下一幀的校正依據(jù)。如果有,則計(jì)算每個人員之間的像素距離,判斷該人員在前一幀和當(dāng)前幀之間的距離是否小于閾值。
步驟3:如果距離小于閾值,查看該人員身份是否發(fā)生改變,如果發(fā)生改變,則使用前一幀保存的正確信息進(jìn)行校正。如果距離大于閾值,則判定前一幀與當(dāng)前幀不是同一個人,該人員直接使用當(dāng)前幀的身份信息。
步驟4:校正完成后保存當(dāng)前幀人員信息,作為下一幀校正依據(jù)。
上述步驟中,人員在前一幀與當(dāng)前幀的距離指的是人員前一幀與當(dāng)前幀的檢測框上邊框中心點(diǎn)的距離,通過兩點(diǎn)之間的距離公式計(jì)算,兩點(diǎn)間的距離見式(4)。
式中 d為前一幀與當(dāng)前幀人員檢測框上邊框中心點(diǎn)的距離;x,x0分別為前一幀和當(dāng)前幀上邊框中心點(diǎn)的x坐標(biāo);y,y0分別為前一幀和當(dāng)前幀上邊框中心點(diǎn)的y坐標(biāo)。距離的閾值應(yīng)不小于人員在前一幀與當(dāng)前幀移動的最大距離,閾值的取值依賴于視頻的分辨率,采樣間隔和人員的移動速度。本研究采用型號為DH-IPC-HFW4443M-I1的大華攝像機(jī),攝像機(jī)距離地面3 m,俯拍角度為30°。攝像機(jī)的分辨率為1 280×720,采樣間隔為1,人員移動的平均速度為1 m/s,人員每一幀在x軸和y軸上移動的像素距離均不超過5個像素單位,因此,當(dāng)前試驗(yàn)環(huán)境下閾值th=當(dāng)視頻分辨率、人員平均速度和采樣間隔發(fā)生改變時,人員每一幀所能移動的最大像素距離也會發(fā)生改變。當(dāng)分辨率發(fā)生變化時,視頻幀內(nèi)所包含的像素點(diǎn)的個數(shù)也會變化,但人員在前一幀和當(dāng)前幀在x軸和y軸上所能移動的最大像素距離與視頻幀中x軸和y軸總長度的比值不發(fā)生改變,因此當(dāng)視頻分辨率發(fā)生變化時,基于該比值可以求出其他分辨率下人員所能移動的最大像素距離。以1 m/s的速度為基準(zhǔn),當(dāng)人員移動速度變?yōu)樵瓉淼膞倍時,每一幀內(nèi)人員的移動的最大像素距離也會變?yōu)樵瓉淼膞倍。同樣的,當(dāng)采樣間隔變?yōu)樵瓉淼膞倍時,人員在前一幀和當(dāng)前幀能移動的最大像素距離也會變?yōu)樵瓉淼膞倍,例如當(dāng)采樣間隔由1變成4時,人員在相鄰2次采樣之間所能移動的最大像素單位會變?yōu)樵瓉淼?倍??紤]以上因素,確定閾值的表達(dá)式為
式中 th為閾值;l1,l2分別為在當(dāng)前分辨率下,人員在一幀內(nèi)沿x軸所能移動的最大像素單位與x軸總長的比值和沿y軸所能移動的最大像素單位與y軸總長的比值;px,py分別為目標(biāo)分辨率的寬度與高度;f為FastReID進(jìn)行人員識別時的采樣間隔;v為人員的運(yùn)動速度。該運(yùn)動估計(jì)方法的流程如圖4所示。
圖4 運(yùn)動估計(jì)流程Fig.4 Movement estimation flow
表6對比注意力機(jī)制、行人動態(tài)圖庫和根據(jù)像素坐標(biāo)校正人員身份信息(簡稱運(yùn)動估計(jì))3種不同方法在測試視頻中的表現(xiàn),數(shù)據(jù)顯示,在Fas-tReID中分別加入3種方法都能夠減少None的數(shù)量和誤識別的次數(shù),將注意力機(jī)制、人員動態(tài)圖像庫和運(yùn)動估計(jì)的方法結(jié)合之后,None的數(shù)量減少為34次,減少了79.8%,誤識別次數(shù)減少為3次,減少了91.2%,相較于只使用一種或者2種方法,能夠更準(zhǔn)確的識別到人員身份,充分證明了上述方法對于正確識別人員身份信息的有效性。
表6 運(yùn)動估計(jì)在測試視頻中的表現(xiàn)Table 6 Performance of motion estimation in test videos
使用人員像素坐標(biāo)校正人員身份信息的效果展示如圖5所示:在第654幀中,白衣男子的身份信息,本應(yīng)未fu,但是由于身體部分被遮擋,被Fas-tReID錯誤識別為了yao。在第838幀中,帶眼鏡的黑衣男子的身份信息,本應(yīng)為shen,但是由于身體部分被遮擋,F(xiàn)astReID未識別到該人員。通過該方法成功的校正了白衣男子和戴眼鏡黑衣男子的身份信息。
圖5 運(yùn)動估計(jì)校正人員身份信息Fig.5 Movement estimation correction of person identification information
為了提升人員識別與跟蹤的效果,將目標(biāo)檢測、行人重識別與行人跟蹤技術(shù)結(jié)合起來,構(gòu)建的框架如圖6所示,對于輸入的視頻流,首先使用YOLOv5s進(jìn)行人員檢測,將人員檢測框傳入到DeepSORT中,DeepSORT將人員特征信息輸入到FastReID中,F(xiàn)astReID通過將視頻中提取到的人員特征與人員查詢圖庫內(nèi)的圖片進(jìn)行匹配,從而識別出人員身份信息。
圖6 整體框架Fig.6 Overall frame
采用深度學(xué)習(xí)框架Pytorch 1.9.0,NVIDIA Ge-Force GTX 1650顯卡,在Windows 64位系統(tǒng)下進(jìn)行試驗(yàn)研究。選用2臺大華DH-IPC-HFW4443M-I1型號的攝像機(jī),攝像機(jī)1拍攝辦公室內(nèi)的場景,攝像機(jī)2拍攝辦公室外走廊的場景,攝像機(jī)距離地面2.5 m,俯拍角度30°。試驗(yàn)場景如圖7所示。
圖7 試驗(yàn)場景Fig.7 Test scenario
試驗(yàn)結(jié)果如圖8所示,為了保護(hù)人員隱私,在比較清晰的人員面部打了馬賽克,后續(xù)試驗(yàn)結(jié)果做了同樣處理。人員沿走廊走向辦公室,在辦公室行走一圈后停止前行。圖8(a)是攝像機(jī)2拍攝到的走廊的視頻截圖,圖8(b)是攝像機(jī)1拍攝到的辦公室內(nèi)的視頻截圖,圖8(a)和圖8(b)均存在人員相互遮擋的現(xiàn)象。圖中藍(lán)色的線條是人員的跟蹤軌跡,右上角的英文字母是FastReID賦予的人員身份信息,可以看出在測試視頻中,無論處于哪個場景,行人的身份信息都沒有發(fā)生改變。可見文中提出的框架在人員部分身體被遮擋的情況下能夠準(zhǔn)確的識別和跟蹤到目標(biāo)人員。
圖8 人員跨鏡跟蹤Fig.8 Personnel tracking across the camera
1)結(jié)合改進(jìn)后的YOLOv5s人員檢測算法、DeepSORT人員跟蹤算法與FastReID行人重識別算法實(shí)現(xiàn)了室內(nèi)人員的跨鏡識別與跟蹤。
2)使用DeepSORT算法進(jìn)行人員跟蹤,優(yōu)化了DeepSORT的檢測器YOLOv5s算法的中的非極大值抑制算法和DeepSORT的特征提取網(wǎng)絡(luò),降低了人員跟蹤過程中的ID跳變次數(shù)。
3)使用FastReID進(jìn)行人員重識別,結(jié)合注意力機(jī)制、人員動態(tài)圖像庫和運(yùn)動估計(jì)的方法降低了遮擋造成的人員無法識別與識別錯誤的次數(shù)。