• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于層級(jí)特征與相似性估計(jì)的跟蹤器

      2019-11-12 02:40:30傅成華
      關(guān)鍵詞:相似性層級(jí)時(shí)刻

      楊 捍, 傅成華

      (四川輕化工大學(xué)自動(dòng)化與信息學(xué)院, 四川 自貢 643000)

      引 言

      目標(biāo)跟蹤在計(jì)算機(jī)視覺(jué)中有著廣泛的應(yīng)用,例如機(jī)器人、自動(dòng)駕駛、或者視頻監(jiān)控。然而對(duì)于多目標(biāo)跟蹤來(lái)說(shuō),需要定位視頻中每個(gè)物體的位置以及身份序號(hào),并且在不同的幀中將同一身份的物體關(guān)聯(lián)起來(lái)。在多目標(biāo)跟蹤中,大多數(shù)算法采用基于檢測(cè)的跟蹤,得益于檢測(cè)算法的發(fā)展,大多數(shù)的工作著重于數(shù)據(jù)關(guān)聯(lián)部分,也就是將在不同幀間檢測(cè)到的物體,關(guān)聯(lián)起來(lái),實(shí)現(xiàn)多目標(biāo)的跟蹤。Fast-RCNN[1]等雙階段檢測(cè)算法,或者YOLO[2]、SSD[3]等單階段的檢測(cè)算法都能獲得很好的效果。同樣地,本文也聚焦于基于檢測(cè)的數(shù)據(jù)關(guān)聯(lián)部分來(lái)實(shí)現(xiàn)多目標(biāo)的跟蹤。

      在多目標(biāo)跟蹤中,比較廣泛的做法是,通過(guò)建模,提取不同幀間的不同物體的特征,衡量跨幀間物體的相似度,比如有采用運(yùn)動(dòng)模型的文獻(xiàn)[4-6]等,也有采用外觀特征的文獻(xiàn)[7-9]等,以及多模態(tài)組合特征文獻(xiàn)[10-12]等。而外觀特征著重于對(duì)比,不同時(shí)刻目標(biāo)框表示外觀的相似性。傳統(tǒng)的做法是手工提取特征,由于未考慮到外觀的多樣性、受光照變化、及遮擋等影響,效果較差,并且基于提取外觀特征的模型,往往在遇到外觀特征特別相似的情況下,表現(xiàn)很差。而基于運(yùn)動(dòng)模型,往往是假設(shè)運(yùn)動(dòng)速度為常數(shù)的情況下,在當(dāng)前狀態(tài)預(yù)測(cè)下一個(gè)時(shí)刻的狀態(tài),通常可分為基于線性的運(yùn)動(dòng)模型以及非線性的模型,但是在長(zhǎng)時(shí)間的跟蹤下,運(yùn)動(dòng)模型對(duì)于物體遮擋并不能很好地處理。

      因此,為了使多目標(biāo)跟蹤衡量跨幀物體間相似度判別能力更可靠,在面對(duì)遮擋問(wèn)題時(shí)具有更好的特征提取能力,本文設(shè)計(jì)了一個(gè)深度層級(jí)特征提取的神經(jīng)網(wǎng)絡(luò)來(lái)得到不同視頻幀間物體的特征,以及不同幀間物體之間相似度的衡量矩陣。使得所提取的特征更具有代表性和魯棒性,并作為數(shù)據(jù)關(guān)聯(lián)部分的輸入。

      1 方 法

      本文提出了基于深度學(xué)習(xí)的多層級(jí)特征提取和相似性計(jì)算網(wǎng)絡(luò)。該網(wǎng)絡(luò)融合了不同層級(jí)間的外觀特征,并同時(shí)生成不同幀間物體間的相似性矩陣,實(shí)現(xiàn)端到端的學(xué)習(xí)。

      1.1 檢測(cè)部分

      由于深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測(cè)得到了很大的發(fā)展。本文采用基于YOLOv3[13]的行人檢測(cè)技術(shù),來(lái)做多目標(biāo)跟蹤的第一步,為多目標(biāo)跟蹤提取視頻中每一幀中物體所在的位置。

      1.2 層級(jí)特征提取以及相似性計(jì)算網(wǎng)絡(luò)

      深度特征層級(jí)抽取網(wǎng)絡(luò),如圖1所示,由兩部分組成,一部分是基于特征提取網(wǎng)絡(luò)(前半部分),剩余部分為相似性估計(jì)網(wǎng)絡(luò)。網(wǎng)絡(luò)輸入為兩幀和檢測(cè)算法所檢測(cè)到物體的中心坐標(biāo),層級(jí)特征抽取網(wǎng)絡(luò)是雙端網(wǎng)絡(luò),例如,t時(shí)刻的視頻幀輸入上端,t-n時(shí)刻的視頻幀輸入下端,隨著網(wǎng)絡(luò)的逐漸加深,特征圖的尺寸會(huì)越來(lái)越小。其中,抽取9個(gè)特征圖的特征,其中有3個(gè)特征圖來(lái)自圖1中moblenet[14],有6個(gè)特征圖來(lái)自圖1中的擴(kuò)展網(wǎng)絡(luò)。得到的9個(gè)特征分別經(jīng)過(guò)圖1中moblenet[14]和擴(kuò)展網(wǎng)絡(luò)各自的層級(jí)降維網(wǎng)絡(luò)。設(shè)置在一幀中所檢測(cè)物體最多有個(gè)Nm,最后將得到的9個(gè)特征向量拼接在一起形成Nm*520維特征向量。如圖1中的F1特征向量對(duì)應(yīng)于t時(shí)刻視頻幀經(jīng)過(guò)特征層級(jí)提取與降維網(wǎng)絡(luò)所得到的特征向量矩陣。同理,F(xiàn)t-n對(duì)應(yīng)于t-n時(shí)刻的視頻幀數(shù)。得到Ft-n的矩陣大小同樣為Nm*520,將得到的F1和Ft-n特征組合成Nm*Nm*1040三維的特征組合矩陣。1040是由2個(gè)520維度的通道數(shù)拼接而成,而Nm*Nm對(duì)應(yīng)于兩幀間各個(gè)物體間的對(duì)應(yīng)關(guān)系,Nm為每幀中所能檢測(cè)到的最大行人數(shù)量。

      圖1中由不同幀所得到特征矩陣組合而成的特征組合矩陣作為相似性估計(jì)網(wǎng)絡(luò)的輸入,經(jīng)過(guò)表1中相似性估計(jì)網(wǎng)絡(luò)中的結(jié)構(gòu),最終得到相似性矩陣M,如圖2中矩陣C,表明兩幀間物體的對(duì)應(yīng)關(guān)系。在矩陣C的基礎(chǔ)上做了改進(jìn)(圖2中有改進(jìn)原因),使得圖1中的M1可以表示相對(duì)于t-n幀,t幀中離開(kāi)的物體,同理,M2可以表示相對(duì)于t幀中,t-n幀中沒(méi)有的物體,也就是剛進(jìn)入視野的物體。M1經(jīng)過(guò)行方向上的softmax得到A1,M2經(jīng)過(guò)列方向上的softmax得到A2。A1、A2作為損失的輸入,其中由A1、A2得到的a1、a2也將作為損失函數(shù)的輸入,章節(jié)1.3部分會(huì)詳細(xì)介紹。

      圖1 層級(jí)特征提取和相似性估計(jì)網(wǎng)絡(luò)流程

      表1 層級(jí)特征抽取與相似性估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)

      表1為圖1中擴(kuò)展網(wǎng)絡(luò)部分以及相似性估計(jì)網(wǎng)絡(luò)部分的結(jié)構(gòu)圖參數(shù)。擴(kuò)展網(wǎng)絡(luò)部分由11層卷積神經(jīng)網(wǎng)絡(luò)組成,輸入為moblenet[14]最后一層特征的輸出。而相似性估計(jì)網(wǎng)絡(luò)是由5層卷積神經(jīng)網(wǎng)絡(luò)組成,輸入為兩幀間所提取到的特征組合。擴(kuò)展網(wǎng)絡(luò)所提取的特征是為了輸入到層級(jí)降維網(wǎng)絡(luò)中(見(jiàn)表2),分別從表1所提取的特征取6層輸入層級(jí)特征降維網(wǎng)絡(luò),同時(shí)也從moblenet[14]所提取的特征抽取3層輸入層級(jí)特征降維網(wǎng)絡(luò)。最后通過(guò)各自的降維網(wǎng)絡(luò)得到520維度的特征(由輸出通道數(shù)相加得到)。

      表2 層級(jí)降維網(wǎng)絡(luò)

      圖2 相似性矩陣

      圖2中,圖2(a)表示視頻中的一幀,圖2(b)表示視頻中的另一幀。圖2(a)幀中包含有序號(hào)1、2、3、4的行人,而圖2(b)幀中包含了序號(hào)為1、2、3、5的行人,其中1、2、3序號(hào)的行人同時(shí)出現(xiàn)在圖2(a)幀和圖2(b)幀中,此時(shí)c矩陣表示兩幀間的相似矩陣。假設(shè)每幀中最多檢測(cè)到5個(gè)物體(本文設(shè)置最大檢測(cè)目標(biāo)數(shù)為100),故矩陣的大小為5*5,其中矩陣C中行表示圖2(a)幀中的身份序號(hào),而列表示圖2(b)幀中的身份序號(hào),在圖2(a)與圖2(b)兩幀中同時(shí)出現(xiàn)并且匹配的為1、2、3序號(hào)的行人,故在矩陣對(duì)應(yīng)位置值為紅色標(biāo)記1。另外,圖2(a)幀中序號(hào)4與圖2(b)幀中序號(hào)5行人在對(duì)應(yīng)幀中沒(méi)有行人可以匹配,也可以理解為行人4離開(kāi)了當(dāng)前視頻,以及行人5剛進(jìn)入視頻,因此為了解決在矩陣中也可以表明兩幀間物體的離開(kāi)與進(jìn)入,分別在矩陣C的最后一行最后一列加入第◎列和第◎行,得到矩陣D來(lái)表示兩幀物體間的離開(kāi)與進(jìn)入。其中,x表示每幀中剩余的可檢測(cè)與可跟蹤的物體數(shù)。

      1.3 損失函數(shù)

      圖1后部分網(wǎng)絡(luò)為網(wǎng)絡(luò)的損失部分,M1矩陣的第m行表示關(guān)聯(lián)t-n時(shí)刻第m個(gè)物體在t時(shí)刻與之對(duì)應(yīng)的物體,此時(shí)對(duì)應(yīng)的矩陣大小為Nm*(Nm+1)。最后一列表示相對(duì)于t-n時(shí)刻,t時(shí)刻舊的物體離開(kāi)所對(duì)應(yīng)的幀或者新的物體進(jìn)入的幀。同理可得M2矩陣添加的最后行。M2矩陣的第n列表示在t時(shí)刻第n個(gè)物體對(duì)應(yīng)于t-n時(shí)刻幀的物體。如圖,將得到的M矩陣分別添加一列和一行后得到M1與M2矩陣,分別表示從t-n時(shí)刻到t時(shí)刻物體關(guān)聯(lián)信息,以及從t時(shí)刻幀到t-n時(shí)刻幀物體間的關(guān)聯(lián)信息,此時(shí)M1、M2矩陣大小為Nm*(Nm+1)。得到的M1矩陣和M2矩陣分別在行方向和列方向經(jīng)過(guò)softmax函數(shù),得到對(duì)應(yīng)的A1矩陣和A2矩陣。A1矩陣大小為Nm*(Nm+1),A2矩陣大小為Nm*(Nm+1)。

      所得到的A1、A2作為深度層級(jí)可分離網(wǎng)絡(luò)的輸出,并以此作為網(wǎng)絡(luò)的損失函數(shù)的輸入,此時(shí)可得從t-n時(shí)刻到t時(shí)刻對(duì)應(yīng)的前向損失loss1,如公式1,同理可得從t時(shí)刻輸入幀到t-n時(shí)刻輸入幀的后向損失,如公式2。Tt-n,t是損失函數(shù)的標(biāo)簽值,大小為(Nm+1)*(Nm+1)。公式(1)與公式(2)中,T1、T2分別表示標(biāo)簽矩陣Tt-n,t。為了和矩陣A1、A2的大小相對(duì)應(yīng),分別減去第◎行和第◎列。a1、a2表示分別從A1、A2減去◎行◎列所得到的矩陣。公式(3)表示一致性損失,因?yàn)椋瑹o(wú)論從t-n到t時(shí)刻所得到的相似性矩陣,還是t到t-n時(shí)刻的特征相似性矩陣,其差異值理應(yīng)越小越好。

      公式(4)中T3表示標(biāo)簽相似矩陣D同時(shí)去掉◎行和◎列所得到的矩陣,而max(a1,a2)也可由圖1中的M0表示,公式(4)衡量最終網(wǎng)絡(luò)所得到的不計(jì)未同時(shí)出現(xiàn)物體的相似性矩陣與同樣的不計(jì)未同時(shí)出現(xiàn)物體相似性的標(biāo)簽標(biāo)矩陣的差異。由公式(1)~公式(4)可得網(wǎng)絡(luò)的最終損失Loss。

      (1)

      (2)

      (3)

      (4)

      (5)

      1.4 數(shù)據(jù)關(guān)聯(lián)部分

      1.4.1 跟蹤流程中的層級(jí)特征抽取與相似性估計(jì)

      訓(xùn)練的時(shí)候采用雙端網(wǎng)絡(luò),雙端網(wǎng)絡(luò)是共享網(wǎng)絡(luò)權(quán)重,而在數(shù)據(jù)關(guān)聯(lián)部分,使用單端網(wǎng)絡(luò),流程如圖3所示。視頻的每一幀經(jīng)過(guò)檢測(cè)器件得到跟蹤類(lèi)別物體的坐標(biāo),將每一幀圖片以及檢測(cè)物體的坐標(biāo)傳入到特征抽取網(wǎng)絡(luò),也就是圖1中的前半部分單端的流程。 對(duì)于特征抽取網(wǎng)絡(luò)的部分,視頻的每一幀所提取的特征矩陣都會(huì)被儲(chǔ)存,以便與下一時(shí)刻視頻幀所提取的特征組成特征組合矩陣傳入相似性估計(jì)網(wǎng)絡(luò)中,得到相似性矩陣。

      圖3 數(shù)據(jù)關(guān)聯(lián)流程

      1.4.2 數(shù)據(jù)關(guān)聯(lián)流程

      如何將不同幀間的同一物體關(guān)聯(lián)起來(lái),是解決跟蹤問(wèn)題的關(guān)鍵。檢測(cè)部分決定了能否檢測(cè)到物體,而數(shù)據(jù)關(guān)聯(lián)部分決定了能否將同一物體匹配起來(lái)。本文設(shè)計(jì)了基于層級(jí)特征網(wǎng)絡(luò)提取到的特征,輸入到相似性估計(jì)網(wǎng)絡(luò)中得到不同時(shí)刻幀間不同物體間的相似性矩陣。例如在視頻開(kāi)始第一幀,初始化軌跡數(shù)量和檢測(cè)到的物體數(shù)量一致,在后續(xù)幀輸入網(wǎng)絡(luò)后,會(huì)根據(jù)前面N幀提取得到的特征矩陣,與當(dāng)前幀的特征矩陣一起輸入圖3中的相似性估計(jì)網(wǎng)絡(luò),得到各自的相似性矩陣。最終將當(dāng)前幀,與前面N幀的相似性矩陣做累加得到最終的相似性矩陣,并利用匈牙利算法[15]在得到累加相似性矩陣上做全局最優(yōu)的指派問(wèn)題,也就是兩幀間同一物體的匹配。再根據(jù)匈牙利算法指派的結(jié)果,做軌跡的更新。

      總體看來(lái),本文設(shè)計(jì)的跟蹤器是在線的跟蹤器,與離線跟蹤器不同點(diǎn)在于,不需要未來(lái)的視頻幀來(lái)跟蹤當(dāng)前幀的物體,只需要輸入當(dāng)前幀之前的視頻幀,因此,相對(duì)于離線的跟蹤器,在線跟蹤更適用于實(shí)際的場(chǎng)景,例如監(jiān)控等需要實(shí)時(shí)跟蹤的場(chǎng)合。

      2 實(shí)驗(yàn)部分

      2.1 實(shí)驗(yàn)細(xì)節(jié)

      選用MOT16數(shù)據(jù)集,數(shù)據(jù)集包含了7個(gè)視頻場(chǎng)景,分為訓(xùn)練集和測(cè)試集,利用pytorch框架在NVIDIA RTX 2070GPU訓(xùn)練而得,訓(xùn)練每次批次為4,總的訓(xùn)練輪數(shù)140輪,設(shè)置Nm為100,采用SGD[16]優(yōu)化器。

      2.2 結(jié)果對(duì)比

      在最終的測(cè)試集上得到實(shí)驗(yàn)結(jié)果見(jiàn)表3。

      表3 基于MOT16測(cè)試集的實(shí)驗(yàn)結(jié)果

      表3中,箭頭向上表示指標(biāo)越大越好,箭頭向下表示指標(biāo)越小越好。MOTA[19]指標(biāo)表示目標(biāo)跟蹤的準(zhǔn)確率,是衡量多目標(biāo)跟蹤最重要的指標(biāo)。MOTP[19]則表示多目標(biāo)跟蹤的精度,其計(jì)算是由標(biāo)簽上物體目標(biāo)框與檢測(cè)所得到的目標(biāo)框的重合率計(jì)算而得。MT[20]表示大部分被跟蹤的目標(biāo),而ML[20]表示大部分未被跟蹤的目標(biāo)。實(shí)驗(yàn)結(jié)果表明在測(cè)試指標(biāo)上本文采用的方法相對(duì)于一些其他的方法取得了一定的優(yōu)勢(shì)。其中,MOTA指標(biāo)由公式(6)計(jì)算得到:

      (6)

      其中:FPt由表示在t時(shí)刻的目標(biāo)誤檢數(shù)量,F(xiàn)Nt表示在t時(shí)刻目標(biāo)漏檢測(cè)的數(shù)量,ID_Swt表示在跟蹤過(guò)程中目標(biāo)發(fā)生身份互換的數(shù)量,GTt表示t時(shí)刻對(duì)應(yīng)的標(biāo)簽。

      2.3 實(shí)驗(yàn)結(jié)果展示

      實(shí)驗(yàn)的部分仿真結(jié)果如圖4所示。由圖4可知,本文所提出的基于層級(jí)特征提取相似性計(jì)算網(wǎng)絡(luò)能有效提取不同物體的特征,經(jīng)過(guò)計(jì)算所得到的相似矩陣具有很好的判別性,能夠緩解由于遮擋問(wèn)題造成的物體身份的改變。如,序號(hào)73以及序號(hào)16的物體都能夠在被遮擋后有效地還原目標(biāo)的身份。緩解了多目標(biāo)跟蹤中遮擋問(wèn)題造成的身份改變問(wèn)題。

      圖4 部分視頻跟蹤效果圖

      3 結(jié)束語(yǔ)

      在基于檢測(cè)的在線多目標(biāo)跟蹤的框架下,提出了基于層級(jí)特征提取的跨幀間物體相似度計(jì)算的網(wǎng)絡(luò),該網(wǎng)絡(luò)可以端到端的訓(xùn)練,在得到網(wǎng)絡(luò)的固定權(quán)重后,應(yīng)用于跟蹤的流程,并利用匈牙利算法,在得到的各幀間相似矩陣的基礎(chǔ)上,做物體間各物體最優(yōu)的指派,也就是不同幀間同一物體的匹配,并不斷更新跟蹤的軌跡。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)層級(jí)特征提取得到的相似性矩陣具有對(duì)不同幀間物體相似性很好判別能力,同時(shí)對(duì)遮擋問(wèn)題有一定的緩解,并在多目標(biāo)跟蹤的一系列指標(biāo)上得到了一定的提高。

      猜你喜歡
      相似性層級(jí)時(shí)刻
      一類(lèi)上三角算子矩陣的相似性與酉相似性
      冬“傲”時(shí)刻
      捕獵時(shí)刻
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      淺析當(dāng)代中西方繪畫(huà)的相似性
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      低滲透黏土中氯離子彌散作用離心模擬相似性
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      街拍的歡樂(lè)時(shí)刻到來(lái)了
      一天的時(shí)刻
      祁阳县| 逊克县| 利辛县| 肥西县| 农安县| 巴南区| 深州市| 平度市| 贺兰县| 扎兰屯市| 乌拉特前旗| 吴忠市| 合山市| 磐石市| 乌鲁木齐县| 民县| 留坝县| 木兰县| 东山县| 广安市| 慈溪市| 甘洛县| 长阳| 阿荣旗| 丰顺县| 尖扎县| 东乌珠穆沁旗| 洛南县| 黎平县| 井冈山市| 太谷县| 五大连池市| 伊春市| 宜黄县| 藁城市| 西乌| 靖远县| 彭阳县| 简阳市| 营山县| 茶陵县|