黃 濤,蘇松源,杜長(zhǎng)青,諸雅琴,陳 勇
(1.國(guó)網(wǎng)江蘇省電力工程咨詢有限公司,江蘇 南京 210024;2.教育部網(wǎng)絡(luò)與信息集成重點(diǎn)實(shí)驗(yàn)室(東南大學(xué)),江蘇 南京 210096;3.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,江蘇 南京 210000)
在計(jì)算機(jī)視覺領(lǐng)域中多目標(biāo)檢測(cè)和追蹤發(fā)展很快,在很大程度上,這些進(jìn)步是由強(qiáng)大的深度學(xué)習(xí)驅(qū)動(dòng)的,比如Fast/Faster RCNN[1]和MDNet[2]算法等用于目標(biāo)檢測(cè)和目標(biāo)追蹤,這些方法在概念上很直觀,并且具有靈活性以及快速的檢測(cè)時(shí)間。
實(shí)例分割在目前來說具有很大的挑戰(zhàn)性,因?yàn)樗枰獙D像中的所有對(duì)象正確地檢測(cè)出來,對(duì)每個(gè)對(duì)象也需要精準(zhǔn)的分割。因此需要結(jié)合計(jì)算機(jī)視覺中的對(duì)象檢測(cè)、目標(biāo)分類、邊界框定位以及語義分割?;谝陨弦?,人們可能會(huì)認(rèn)為需要復(fù)雜的方法才能獲得良好的結(jié)果。目前現(xiàn)有的目標(biāo)追蹤算法只是將目標(biāo)框起來進(jìn)行追蹤。因此,該文介紹一種檢測(cè)精度更高的、靈活快速的模型,可以將視頻中的目標(biāo)輪廓識(shí)別出來并進(jìn)行追蹤。
該文介紹的為基于改進(jìn)的Mask-RCNN[3]目標(biāo)追蹤算法,是在Mask-RCNN[3]的基礎(chǔ)上進(jìn)行了改進(jìn)。由于Mask-RCNN[3]在每個(gè)感興趣的區(qū)域(RoI)上添加一個(gè)用于預(yù)測(cè)分割掩碼[4]的分支,與現(xiàn)有的用于分類和邊界盒回歸的分支并行,并且RoIAlign[5]在候選區(qū)域的每個(gè)單元中計(jì)算出四個(gè)坐標(biāo)位置,然后用雙線性內(nèi)插的方法[6]計(jì)算出這四個(gè)位置的值,最后進(jìn)行最大池化操作。雖然提高了精度,但對(duì)一張圖片分割需要耗費(fèi)很長(zhǎng)時(shí)間,無法對(duì)視頻目標(biāo)進(jìn)行實(shí)時(shí)追蹤。
該文針對(duì)現(xiàn)有問題提出了如下兩點(diǎn)改進(jìn):
(1)在原有的Mask-RCNN[3]模型中加入光流分析法來加快對(duì)圖片中目標(biāo)的識(shí)別,減少對(duì)圖片的分割運(yùn)行時(shí)間。
(2)先加入直方圖差值的方法提取視頻中的關(guān)鍵幀,再將此放進(jìn)改進(jìn)后的Mask-RCNN模型進(jìn)行目標(biāo)追蹤,可以有效減少普通幀的干擾。
目標(biāo)追蹤領(lǐng)域自身的特性如下:復(fù)雜的實(shí)際應(yīng)用環(huán)境,相似的背景環(huán)境,各種各樣的遮擋等外界因素以及追蹤的目標(biāo)形態(tài)變化,大小變化各式各樣的旋轉(zhuǎn)以及運(yùn)動(dòng)速度變化等等。而且當(dāng)目標(biāo)跟蹤算法投入到實(shí)際應(yīng)用時(shí),會(huì)出現(xiàn)一個(gè)很重要的問題—實(shí)時(shí)性問題。過去幾十年以來,目標(biāo)跟蹤的研究取得了長(zhǎng)足的進(jìn)展。從Meanshift[7]、Particle Filter[8]和Kalman Filter[9]等經(jīng)典跟蹤方法,到基于統(tǒng)計(jì)學(xué)和積分的方法,再到近幾年出現(xiàn)的深度學(xué)習(xí)相關(guān)方法,使得目標(biāo)追蹤領(lǐng)域越來越熱門。
目標(biāo)跟蹤算法主要分為兩類:
生成式模型[10]:通過在線學(xué)習(xí)方式建立生成目標(biāo)模型,然后根據(jù)目標(biāo)模型來尋找對(duì)應(yīng)的圖像區(qū)域,但這一類方法沒有考慮目標(biāo)所在的背景區(qū)域信息,從而丟失了一部分信息,導(dǎo)致了此類算法的跟蹤效果不夠理想。。
判別式模型:將目標(biāo)追蹤的問題分兩部分完成,首先將目標(biāo)和背景信息提取出來放入到訓(xùn)練器中進(jìn)行訓(xùn)練,從而將目標(biāo)從圖像序列背景中分離出來,然后得到該目標(biāo)所在當(dāng)前幀的位置。
該文提出的基于改進(jìn)的Mask-RCNN目標(biāo)追蹤算法屬于判別式模型,在原有基礎(chǔ)上通過引入光流分析和直方圖提取關(guān)鍵幀的策略來達(dá)到實(shí)時(shí)追蹤的效果。
Mask-RCNN[3]是由Faster-RCNN[2]改進(jìn)而來的,在Faster-RCNN[2]對(duì)RoI Pooling做了改進(jìn)并提出了RoI Align,這樣改進(jìn)后不再進(jìn)行取整操作,而是用雙線性插值來更精確地找到每個(gè)塊對(duì)應(yīng)的特征。使得為每個(gè)RoI取得的特征能夠更好地對(duì)齊原圖上的RoI區(qū)域。與此同時(shí),增添mask branch預(yù)測(cè)K個(gè)種類的mm二值掩膜輸出,引入預(yù)測(cè)K個(gè)輸出的機(jī)制,允許每個(gè)類都生成獨(dú)立的掩膜,避免類間競(jìng)爭(zhēng)。這樣做解耦了掩膜和種類預(yù)測(cè),提高了分割效果。
如圖1所示,Mask-RCNN[3]算法流程如下:
圖1 Mask-RCNN網(wǎng)絡(luò)結(jié)構(gòu)
(1)輸入圖像;
(2)將整張圖片輸入CNN進(jìn)行特征提??;
(3)用RPN生成推薦窗口(proposals),每張圖片對(duì)應(yīng)N個(gè)窗口,然后在卷積神經(jīng)網(wǎng)絡(luò)的最后一層卷積特征圖上對(duì)這N個(gè)窗口進(jìn)行映射;
(4)特征提取完畢后,通過RoI Align池化層使得每個(gè)RoI生成的特征圖的尺寸大小一致;
(5)最后通過分類預(yù)測(cè)、邊界框預(yù)測(cè)和mask掩膜預(yù)測(cè)進(jìn)行回歸生成對(duì)應(yīng)的分割圖片。
ROI Align[5]很好地解決了之前算法池化操作中兩次量化造成的區(qū)域不匹配的問題。
由于預(yù)選框的位置通常是由模型回歸得到的,一般來講是浮點(diǎn)數(shù),而池化后的特征圖要求尺寸固定。所以ROI Align進(jìn)行了重新設(shè)計(jì):
(1)遍歷每一個(gè)候選區(qū)域,保持浮點(diǎn)數(shù)邊界不做量化。
(2)將候選區(qū)域分割成mm個(gè)單元,每個(gè)單元的邊界也不做量化。
(3)先在每個(gè)單元中固定四個(gè)坐標(biāo)位置,然后用雙線性內(nèi)插的方法[6]計(jì)算出這四個(gè)位置的值,最后進(jìn)行最大池化操作。
如圖2所示,ROI Align操作生成的ROI區(qū)域固定大小的特征圖,經(jīng)過4個(gè)卷積操作后,生成14×14大小的特征圖;然后經(jīng)過上采樣生成28×28大小的特征圖;最后通過卷積操作生成大小為28×28,深度為80的特征圖。上述過程為全卷積網(wǎng)絡(luò),這樣可以保證mask分支的每一層都有mm大小的空間布局,不會(huì)缺少空間維度的向量。并且與全連接層預(yù)測(cè)mask相比,F(xiàn)CN需要更少的參數(shù),可以得到更好的效果。
圖2 Mask網(wǎng)絡(luò)分支
Mask-RCNN[3]算法雖然能識(shí)別目標(biāo)輪廓,但對(duì)一張圖片分割需要耗費(fèi)很長(zhǎng)時(shí)間,無法對(duì)視頻目標(biāo)進(jìn)行實(shí)時(shí)追蹤。該文引入光流分析法對(duì)視頻中關(guān)鍵幀進(jìn)行提取,可以有效減少分割時(shí)間,達(dá)到對(duì)目標(biāo)的實(shí)時(shí)跟蹤。
光流分析法是利用時(shí)域中圖像序列里像素的變化以及相鄰幀之間的相關(guān)性來找到前一幀與當(dāng)前幀之間的對(duì)應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間目標(biāo)的運(yùn)動(dòng)信息的一種方法。
該文在Mask-RCNN[3]模型在相鄰幀提取出候選區(qū)域后加入LK光流法,在相應(yīng)的區(qū)域中先進(jìn)行特征點(diǎn)提取,有效減少背景特征,使后面的mask提取和邊界框預(yù)測(cè)時(shí)間大幅度縮短。
模型結(jié)構(gòu)如圖3所示。
圖3 改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)
視頻幀[11]是視頻進(jìn)行顯示的基本結(jié)構(gòu)單元,關(guān)鍵幀是從視頻幀中提取出來的,是表述鏡頭的關(guān)鍵性圖像幀,又叫代表幀,其可減少視頻索引的工作量和數(shù)據(jù)量。由于視頻中有很多幀和需求無關(guān),所以進(jìn)行關(guān)鍵幀提取,將有用的幀篩選出來與分割模型相結(jié)合來提高檢測(cè)精度。
該文基于圖像信息[12]進(jìn)行特征提取,采用直方圖差值算法來提取關(guān)鍵幀。通過把顏色特征作為主要特征,先將GRB顏色空間轉(zhuǎn)換為HSV,然后通過對(duì)H色調(diào)和S飽和度進(jìn)行顏色識(shí)別來進(jìn)行關(guān)鍵幀的提取。
常用的顏色特征表征有直方圖、顏色聚合量、顏色相關(guān)圖等,由于直方圖可以很直觀地得到每個(gè)像素的顏色比例分布,可以方便幀之間的對(duì)比,所以該文采用顏色直方圖進(jìn)行描述,提取流程如圖4所示。
該文采用視頻關(guān)鍵幀提取技術(shù)和改進(jìn)后的Mask-RCNN算法進(jìn)行實(shí)驗(yàn),通過對(duì)MOT16視頻集[13]輸入訓(xùn)練,進(jìn)行關(guān)鍵幀提取,根據(jù)每一幀圖片的大小及目標(biāo)個(gè)數(shù)來學(xué)習(xí)對(duì)該圖片分割需要花費(fèi)多長(zhǎng)時(shí)間,訓(xùn)練出分割模型后,對(duì)第一幀開始分割并同時(shí)預(yù)測(cè)出分割時(shí)間,緊接著跳到該時(shí)間之后的那一幀繼續(xù)進(jìn)行分割并預(yù)測(cè),來達(dá)到自適應(yīng)多目標(biāo)檢測(cè)與追蹤。
分割模型中時(shí)間損失率函數(shù)L計(jì)算為:
其中,T0表示對(duì)圖片的預(yù)測(cè)時(shí)間,T1表示圖片分割的實(shí)際時(shí)間,λ表示損失系數(shù)。
圖4 視頻幀提取流程
通過測(cè)試,使用多目標(biāo)視頻幀分割可以在0.05 s左右分割一次,基本達(dá)到實(shí)時(shí)分割的效果。性能如表1所示。
表1 算法性能測(cè)試
該表格中總提取時(shí)間為對(duì)整個(gè)視頻提取關(guān)鍵幀所用的時(shí)間,分割時(shí)間為一次實(shí)例分割所用的時(shí)間。
文中使用的數(shù)據(jù)為MOT16視頻集[13]。通過MOT基準(zhǔn)測(cè)試集[14]的測(cè)試序列來評(píng)估多目標(biāo)跟蹤算法實(shí)現(xiàn)的性能。為了驗(yàn)證改進(jìn)的算法在多目標(biāo)跟蹤上的精確性和實(shí)用性,選用了MOT16視頻集[13]進(jìn)行實(shí)驗(yàn),并和普通Mask-RCNN[3]算法在目標(biāo)跟蹤上的效果進(jìn)行了對(duì)比,結(jié)果如表2所示。
表2 各算法性能對(duì)比
由表2可以看出,改進(jìn)后的算法比普通的Mask-RCNN算法在時(shí)間上快了3倍左右,基本可以對(duì)實(shí)時(shí)目標(biāo)進(jìn)行追蹤。
同時(shí)文中還對(duì)現(xiàn)已存在的視頻多目標(biāo)跟蹤算法進(jìn)行對(duì)比,具體如表3所示。
表3 多目標(biāo)跟蹤算法對(duì)比
由表3可知,改進(jìn)的Mask-RCNN算法在MOTA[18]和MOTP上均高于其他已知的經(jīng)典算法,F(xiàn)AF[19]和ML也有所下降,實(shí)現(xiàn)了在短時(shí)間的情況下對(duì)輪廓進(jìn)行精準(zhǔn)切割,這是Deep SORT[16]等追蹤算法所達(dá)不到的。圖5為截取的一段視頻,其中幾幀作為實(shí)例展示出來,是用M8手機(jī)拍攝的1 280×720像素的1'15"視頻,1 s提取關(guān)鍵幀為20,圖6顯示的是對(duì)該視頻中間15 s的預(yù)測(cè)時(shí)間和實(shí)際時(shí)間的差值。
圖5 目標(biāo)追蹤與分割
由圖6可知,改進(jìn)Mask-RCNN算法在15 s內(nèi)對(duì)300幀進(jìn)行了目標(biāo)跟蹤,由于引進(jìn)了光流分析和視頻關(guān)鍵幀提取,使得對(duì)每一幀的預(yù)測(cè)時(shí)間和實(shí)際處理時(shí)間為0.05 s左右,相差不超過0.01 s,相比普通Mask-RCNN[3]算法在實(shí)時(shí)性上有了大幅度提高。并由圖5可以看出,該算法在實(shí)時(shí)目標(biāo)追蹤的同時(shí),也對(duì)目標(biāo)輪廓進(jìn)行了精準(zhǔn)分割,保證了目標(biāo)檢測(cè)精度。
圖6 預(yù)測(cè)時(shí)間與實(shí)際時(shí)間對(duì)比
該文采用了一種簡(jiǎn)單、靈活的對(duì)象實(shí)例分割框架,可以有效地檢測(cè)出圖像中的對(duì)象類別,并且在該模型的基礎(chǔ)上進(jìn)行改進(jìn),通過引入光流分析法與視頻幀分割方法達(dá)到多目標(biāo)追蹤的目的,并且與其他經(jīng)典目標(biāo)追蹤算法相比在保證實(shí)時(shí)性的同時(shí)多了精準(zhǔn)的輪廓分割。通過輸入視頻流,來實(shí)時(shí)追蹤目標(biāo)并且對(duì)其進(jìn)行實(shí)例分割,基本可以用于實(shí)踐需要,且對(duì)于在實(shí)際應(yīng)用中的多目標(biāo)檢測(cè)具有一定的參考價(jià)值。