摘要:吊裝事故的頻繁發(fā)生, 對(duì)國(guó)家、社會(huì)、人民都造成了非常大的損害。根據(jù)吊裝過程的視頻信息,實(shí)現(xiàn)無人安全監(jiān)控的關(guān)鍵是準(zhǔn)確度和速度,提出了一種新的基于全局編碼和非對(duì)稱卷積的目標(biāo)分割網(wǎng)絡(luò),研究視頻圖像的半監(jiān)督目標(biāo)分割問題。首先,將帶有標(biāo)簽的視頻圖像輸入網(wǎng)絡(luò),分別通過全局編碼器與相似性編碼器提取到互為補(bǔ)充的特征,從而獲得對(duì)目標(biāo)外觀的有效表示;然后,通過非對(duì)稱卷積將兩個(gè)分支的特征進(jìn)行深層融合;最后,采用殘差上采樣解碼生成預(yù)測(cè)掩膜,實(shí)現(xiàn)對(duì)目標(biāo)的分割。該方法在DAVIS2017 數(shù)據(jù)集上的準(zhǔn)確度為0.675,綜合指標(biāo)為0.708,幀率為31 幀/s;在實(shí)驗(yàn)用吊裝數(shù)據(jù)集上的準(zhǔn)確度為0.952,綜合指標(biāo)為0.976,比基線方法高5.1%,幀率為26.16 幀/s。與其他網(wǎng)絡(luò)方法進(jìn)行了實(shí)驗(yàn)比較,驗(yàn)證了分割算法在準(zhǔn)確度與速度方面的有效性。
關(guān)鍵詞:深度學(xué)習(xí);視頻目標(biāo)分割;特征深層融合;目標(biāo)外觀表示;吊裝
中圖分類號(hào):TP 391 文獻(xiàn)標(biāo)志碼:A
隨著卷積網(wǎng)絡(luò)的發(fā)展,計(jì)算機(jī)視覺領(lǐng)域的研究也越來越深入。視頻目標(biāo)分割(video objectsegmentation, VOS) 是視頻分析和編輯中的基本任務(wù),也是計(jì)算機(jī)視覺中的一個(gè)基本問題和研究熱點(diǎn),在動(dòng)作抓取[1]、自動(dòng)駕駛、視頻監(jiān)控[2]、視頻編輯等領(lǐng)域有著廣泛的應(yīng)用。因此,視頻目標(biāo)分割受到了極大的關(guān)注。在吊裝作業(yè)過程中往往存在著很多安全隱患,由于人工目測(cè)監(jiān)控視頻效率低下,且檢測(cè)的準(zhǔn)確度無法得到保障,通過深度學(xué)習(xí)算法,實(shí)現(xiàn)對(duì)吊裝作業(yè)安全監(jiān)控的視頻目標(biāo)分割任務(wù)。
視頻目標(biāo)分割任務(wù),是在給定視頻序列的每一幀中,區(qū)分前景和背景像素,預(yù)測(cè)出目標(biāo)區(qū)域像素的掩膜,對(duì)一個(gè)或多個(gè)目標(biāo)對(duì)象進(jìn)行跟蹤和分割。相比視頻目標(biāo)跟蹤[3-4] 關(guān)注目標(biāo)的位置尺寸關(guān)系,從而進(jìn)行定位,視頻目標(biāo)分割更關(guān)注對(duì)目標(biāo)的精確表示?,F(xiàn)有的視頻目標(biāo)分割算法根據(jù)其學(xué)習(xí)方法,大致可以分為無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)兩類。無監(jiān)督視頻對(duì)象分割,是在沒有樣本標(biāo)注時(shí),自動(dòng)分割出每幀圖像中最主要的對(duì)象。在沒有任何先驗(yàn)的情況下,無監(jiān)督方法很難從一個(gè)視頻序列中識(shí)別出特定的感興趣目標(biāo)。相比之下,本文主要考慮的是半監(jiān)督的視頻目標(biāo)分割,即需要給定第一幀或某幾幀目標(biāo)的真實(shí)分割掩膜,對(duì)后續(xù)幀中所有的目標(biāo)進(jìn)行分割。在整個(gè)視頻序列中,目標(biāo)隨著時(shí)間會(huì)發(fā)生明顯的外觀變化,以及目標(biāo)遮擋、快速運(yùn)動(dòng)等情況。此外,背景中可能還包含在視覺上或者語(yǔ)義上與目標(biāo)相似的干擾物。因此,視頻目標(biāo)分割的一個(gè)重要問題就是如何對(duì)目標(biāo)外觀進(jìn)行有效表示。
為了達(dá)到這個(gè)目的,之前大多數(shù)的方法通過在線微調(diào)獨(dú)立處理每一幀,這種單幀模型能夠得到較高的分割準(zhǔn)確度。例如,OSVOS 方法[5] 將圖像分類上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)用于視頻目標(biāo)分割任務(wù),只使用第一幀作為參考,獨(dú)立檢測(cè)后續(xù)每一幀的目標(biāo)。由于在線微調(diào)過程沒有集成到網(wǎng)絡(luò)的離線訓(xùn)練中,不能實(shí)現(xiàn)端到端訓(xùn)練。這種方法忽略了幀之間的信息,計(jì)算量大,測(cè)試時(shí)間長(zhǎng),在速度上無法達(dá)到實(shí)時(shí)。另外一類是基于掩膜傳播的方法[6],將前一幀預(yù)測(cè)的掩膜前饋傳播,與當(dāng)前幀的特征圖進(jìn)行級(jí)聯(lián),利用幀間信息,指導(dǎo)網(wǎng)絡(luò)找出當(dāng)前幀的目標(biāo)。MSK 方法[7] 提出將視頻目標(biāo)分割作為一個(gè)掩膜細(xì)化問題,通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)前一幀預(yù)測(cè)的掩膜進(jìn)行細(xì)化。AGAME 方法[8] 引入外觀模塊,在前向傳遞中學(xué)習(xí)目標(biāo)外觀和背景的表示,外觀模塊的學(xué)習(xí)和預(yù)測(cè)階段都是完全可微分的,使整個(gè)分割網(wǎng)絡(luò)實(shí)現(xiàn)端到端訓(xùn)練。這類方法考慮了相鄰幀中像素運(yùn)動(dòng)的時(shí)空聯(lián)系,能夠適應(yīng)物體外觀和位置變化相較平滑的運(yùn)動(dòng),但是容易受到時(shí)間間斷的影響。在目標(biāo)遮擋、快速運(yùn)動(dòng)時(shí),網(wǎng)絡(luò)對(duì)前一幀的誤差很敏感,傳播變得不可靠,就會(huì)出現(xiàn)漂移問題。
最后一類方法是基于匹配的方法[9],從給定的初始幀中學(xué)習(xí)目標(biāo)的外觀,提取初始幀和當(dāng)前幀的特征,對(duì)每幀圖像進(jìn)行像素匹配的計(jì)算。這類算法對(duì)時(shí)間的依賴性不強(qiáng),處理不匹配和漂移問題時(shí)具有較好的魯棒性。然而,這種方法主要是基于初始幀的目標(biāo)外觀檢測(cè),常常不能適應(yīng)外觀的變化,當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)等情況表現(xiàn)出不同的視覺表征,可能會(huì)導(dǎo)致無法匹配,并且難以區(qū)分具有相似外觀的對(duì)象。RGMP 方法[10] 將初始幀和前一幀的預(yù)測(cè)結(jié)果反饋到輸入作為參考,使用前一幀預(yù)測(cè)的結(jié)果對(duì)網(wǎng)絡(luò)微調(diào)。由于沒有對(duì)目標(biāo)外觀訓(xùn)練或者外觀模型過于簡(jiǎn)單,對(duì)目標(biāo)的識(shí)別能力不理想。
因此,目標(biāo)外觀變化出現(xiàn)新的視覺表征時(shí),大多數(shù)模型對(duì)目標(biāo)的識(shí)別能力下降。本文提出了新的全局編碼器,利用圖像中更豐富的語(yǔ)義信息指導(dǎo)提取目標(biāo)外觀特征,結(jié)合相似性編碼器,建立有效的目標(biāo)外觀模型,增強(qiáng)分割網(wǎng)絡(luò)的魯棒性。隨著對(duì)視頻分割算法的深入研究,目前的方法雖然在準(zhǔn)確度和運(yùn)行速度上得到了很多改進(jìn)和提升,但是大部分方法僅僅簡(jiǎn)單地將深層特征拼接,導(dǎo)致分割準(zhǔn)確度不高。本文提出了一個(gè)深度特征融合模塊,對(duì)深層特征進(jìn)行融合,充分利用所獲得的目標(biāo)特征,增強(qiáng)網(wǎng)絡(luò)對(duì)不同目標(biāo)的判別力,從而提高視頻目標(biāo)分割的準(zhǔn)確度。
本文的主要貢獻(xiàn)如下:
a. 提出一種全局編碼器模塊,與相似性編碼器互相補(bǔ)充,更好地對(duì)目標(biāo)外觀進(jìn)行表示,提升網(wǎng)絡(luò)對(duì)特定對(duì)象的識(shí)別能力,增強(qiáng)模型對(duì)于不同對(duì)象的判別能力;
b. 將非對(duì)稱卷積引入模型,設(shè)計(jì)出一種深度特征融合的模塊,生成準(zhǔn)確的分割掩膜,提高視頻目標(biāo)分割網(wǎng)絡(luò)的準(zhǔn)確度;
c. 本文的算法與目前最先進(jìn)的方法相比,在多個(gè)數(shù)據(jù)集上有較大的提高,充分證實(shí)本文算法具有能夠有效區(qū)分前景和背景的優(yōu)越性能。
1 基于特征深層融合的視頻目標(biāo)分割算法
1.1 概 述
本文提出一種基于目標(biāo)特征提取與深度特征融合,用于吊裝安全監(jiān)控的快速視頻目標(biāo)分割。整體網(wǎng)絡(luò)模型包含4 個(gè)部分:相似性編碼器(targetencoder) 和全局編碼器(global encoder)、深度特征融合模塊(feature fusion module, FFM)、基于殘差上采樣的解碼器(decoder) 和反饋回路,其主體如圖1所示。其中,相似性編碼器是基于孿生網(wǎng)絡(luò),通過當(dāng)前幀與參考幀的相似性度量,得到相關(guān)性特征;全局編碼器通過骨干網(wǎng)絡(luò)提取當(dāng)前幀的背景特征。兩個(gè)編碼器提取的特征互為補(bǔ)充,使網(wǎng)絡(luò)更好地構(gòu)建目標(biāo)的表觀模型。深度特征融合模塊通過非對(duì)稱卷積層,將相似性特征和全局特征進(jìn)行融合,不是簡(jiǎn)單的相加或拼接,從而有效提高了準(zhǔn)確度,且不會(huì)很大地增加網(wǎng)絡(luò)的參數(shù)量?;跉埐钌喜蓸拥慕獯a器,通過跳躍連接有效利用淺層特征,融合預(yù)測(cè)掩膜更新的特征,將目標(biāo)特征還原,最終生成準(zhǔn)確的分割掩膜。本文原始輸入圖像大小為1 920×1 080,分別剪裁出包含目標(biāo)區(qū)域大小為127×127、303×303、257×257 的圖像輸入各支路,使網(wǎng)絡(luò)更加關(guān)注目標(biāo),減少圖像中的背景干擾。
1.2 相似性編碼器和全局編碼器
相似性編碼器和全局編碼器分別是提取目標(biāo)特征和全局特征的編碼器。相似性編碼器是基于AlexNet 骨干網(wǎng)絡(luò)的SiamFC++[11] 跟蹤網(wǎng)絡(luò)架構(gòu),按照SAT[12] 網(wǎng)絡(luò)設(shè)置的剪裁策略,根據(jù)初始幀的目標(biāo)區(qū)域和當(dāng)前幀的目標(biāo)區(qū)域,作為網(wǎng)絡(luò)輸入的模板圖像和搜索圖像。基于孿生網(wǎng)絡(luò),利用特征相關(guān)性對(duì)當(dāng)前幀的物體與目標(biāo)外觀的相似性進(jìn)行編碼。如圖1 所示,模板圖像大小為127×127,搜索圖像大小為303×303,模板圖像中給定的目標(biāo)作為整個(gè)視頻序列中感興趣的目標(biāo),指導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)特征。
本文提出的全局編碼器是基于特征提?。↖R) 模塊捕獲背景特征。如圖2 所示,模塊中的骨干網(wǎng)絡(luò)為ResNet50 的變體,即ResNet50-M,每個(gè)卷積層stage1,stage2,stage3,stage4 的具體結(jié)構(gòu)如表1 所示。本文受Inception-ResNet[13] 的啟發(fā),根據(jù)卷積核大小改變視野范圍。為了不丟失圖像中所有的全局信息,獲取更多背景與目標(biāo)的特征,本文在特征提取骨干網(wǎng)絡(luò)的stage1 之后增加IR 模塊,在更淺層捕獲更多的特征。IR 模塊使用了多個(gè)1×1、3×3 的小卷積,對(duì)于同一張輸入圖像提取不同尺度的特征進(jìn)行相加。通過1×1 卷積,不僅是改變通道數(shù)來減少計(jì)算量,還是對(duì)每個(gè)像素點(diǎn)提取更多通道上的特征關(guān)系。在每個(gè)卷積層中加入ReLU 激活函數(shù),從特征圖中捕獲更多像素點(diǎn)之間復(fù)雜的非線性關(guān)系。IR 模塊中也利用了跳躍連接,進(jìn)一步將淺層特征與深層特征進(jìn)行相加,不丟失圖像的全局特征。
類似地,首先,在目標(biāo)周圍剪裁一個(gè)相對(duì)較小的區(qū)域,減少背景的干擾,輸入全局編碼器中,通過stage1 的卷積層與最大池化得到淺層特征。然后,在IR 模塊中的卷積層提取不同尺度的特征圖相加,使用1×1 的卷積將通道數(shù)改為256,從而與跳躍連接的淺層特征相加。在此模塊中得到的特征后續(xù)再經(jīng)過stage2,stage3,stage4 捕獲深層特征。全局編碼器得到的全局特征圖為相似性編碼器的相關(guān)性特征圖做了適當(dāng)?shù)难a(bǔ)充,建立目標(biāo)外觀模型來幫助網(wǎng)絡(luò)從背景干擾中識(shí)別目標(biāo),使分割網(wǎng)絡(luò)更具有魯棒性。
1.3 深度特征融合模塊
大部分方法僅僅簡(jiǎn)單地將深層特征拼接,導(dǎo)致網(wǎng)絡(luò)對(duì)不同目標(biāo)的判別力低,分割準(zhǔn)確度不高。在基線網(wǎng)絡(luò)中,僅將深度網(wǎng)絡(luò)提取的相似性特征圖和另一個(gè)分支的特征圖,以簡(jiǎn)單的相加方式進(jìn)行特征融合。因此,本文提出了深度特征融合模塊,結(jié)構(gòu)如圖3 所示。為了克服卷積運(yùn)算的局部性,在編碼階段之后,本文引入了非對(duì)稱卷積, 將一個(gè)k×k 卷積核分解為兩個(gè)非對(duì)稱卷積k×1 和1×k 的卷積核,利用一維卷積增加了網(wǎng)絡(luò)深度。圖像中的運(yùn)動(dòng)目標(biāo)會(huì)發(fā)生旋轉(zhuǎn)、形狀改變、縮放等外觀變化,通過1×k、k×1 非對(duì)稱卷積的滑動(dòng)窗口,以不同的方向在特征圖上滑動(dòng)進(jìn)行卷積操作,捕獲每個(gè)像素點(diǎn)在各個(gè)方向上的特征關(guān)系,使網(wǎng)絡(luò)適應(yīng)目標(biāo)的外觀變化。因此,將提出的深度特征融合模塊,通過1×k+k×1 和k×1+1×k(在本文中k=3)組成非對(duì)稱卷積層,對(duì)深層特征圖進(jìn)行融合。模塊中使用殘差塊(residual block),如圖4 所示,是為了不丟失淺層的特征,而1×1 的卷積層是為了進(jìn)一步提取特征通道上的非線性關(guān)系。此外,使用非對(duì)稱卷積也可以減少網(wǎng)絡(luò)參數(shù)量的增加。
以兩個(gè)編碼器分支得到的全局特征圖S 和相似性特征圖A 作為輸入。相似性特征圖被送入卷積層進(jìn)一步提取深層特征,之后與相同維度大小的全局特征圖相加,再由多個(gè)3×3 卷積塊組成的stage5 提取特征,經(jīng)過1×3、3×1 的非對(duì)稱卷積層組成的深度特征融合模塊,最終生成目標(biāo)的特征圖。
1.4 基于殘差上采樣的解碼器
大部分現(xiàn)有的方法更關(guān)注特征提取編碼的階段,而忽略了解碼階段。為保證邊緣細(xì)節(jié)等信息不丟失,在解碼過程中,使網(wǎng)絡(luò)充分利用淺層特征。首先將反饋回路更新的目標(biāo)特征進(jìn)行卷積操作,輸出的通道數(shù)調(diào)整為256,隨后再與深度特征融合模塊的特征級(jí)聯(lián)。為了充分利用淺層網(wǎng)絡(luò)的特征信息,根據(jù)殘差學(xué)習(xí)的思想,為獲得更多的空間語(yǔ)義信息,將全局編碼器骨干網(wǎng)絡(luò)提取的淺層特征以跳躍連接的方式,與深層特征進(jìn)行雙線性插值上采樣,最終生成預(yù)測(cè)掩膜。
按照SAT 方法的更新策略,反饋回路將預(yù)測(cè)的二值掩膜與輸入圖像相乘,并融合之前幀的預(yù)測(cè)掩膜,進(jìn)行目標(biāo)特征的更新(update)。同時(shí),根據(jù)該方法中剪裁策略(crop) 和選擇策略(switching),使用相似性編碼器中添加的回歸頭或者分割網(wǎng)絡(luò)的預(yù)測(cè)掩膜生成最小包圍框(box),根據(jù)該包圍框,確定待搜索目標(biāo)的位置,裁剪出下一幀相對(duì)較小的目標(biāo)區(qū)域的圖像作為網(wǎng)絡(luò)輸入。
2 實(shí) 驗(yàn)
本文分別在吊裝數(shù)據(jù)集和DAVIS2017[14] 數(shù)據(jù)集上做了實(shí)驗(yàn),并在消融實(shí)驗(yàn)中分析了本文提出的方法和各模塊的作用。本文的方法在兩個(gè)數(shù)據(jù)集上的結(jié)果都有所提高,在吊裝數(shù)據(jù)集上綜合指標(biāo)為0.976,幀率為26.16 幀/s;在DAVIS2017 數(shù)據(jù)集上綜合指標(biāo)為0.708,幀率為31 幀/s,充分證明了本文算法具有一定的競(jìng)爭(zhēng)力。
2.1 實(shí)驗(yàn)數(shù)據(jù)集
本實(shí)驗(yàn)的吊裝數(shù)據(jù)集是自己手工標(biāo)注構(gòu)建的,視頻數(shù)據(jù)來源于手機(jī)相機(jī),多個(gè)角度拍攝工地吊裝的作業(yè)過程。從拍攝的所有視頻中挑選出6 個(gè)視頻,包含3 類不同的物體。按照30 幀/s 從視頻取出約170~ 300 張的連續(xù)幀。利用基于python 環(huán)境的圖像標(biāo)注工具labelme,對(duì)每一個(gè)視頻幀的吊裝物體進(jìn)行像素級(jí)的人工標(biāo)注, 生成.json 文件,得到目標(biāo)的真實(shí)標(biāo)注。自建的數(shù)據(jù)集包含6 個(gè)視頻序列,每段視頻時(shí)長(zhǎng)約為10 s,總共1 530 個(gè)視頻幀,大小為1 920×1 080。數(shù)據(jù)集分為訓(xùn)練集和驗(yàn)證集,各3 段視頻,分別有889 張用于訓(xùn)練,641 張用于驗(yàn)證。每個(gè)視頻序列包含一個(gè)目標(biāo),約170~300 幀,用于半監(jiān)督的視頻目標(biāo)分割任務(wù)。
DAVIS2017 是DAVIS 在2017 年發(fā)布的用于比賽的視頻目標(biāo)分割數(shù)據(jù)集,拍攝于現(xiàn)實(shí)場(chǎng)景,包括攝像機(jī)抖動(dòng)、背景干擾和其他復(fù)雜環(huán)境的情況,是常用的數(shù)據(jù)集之一。DAVIS2017 數(shù)據(jù)集是像素級(jí)標(biāo)注的多目標(biāo)視頻目標(biāo)分割數(shù)據(jù)集,有150 個(gè)視頻序列,每個(gè)視頻序列時(shí)長(zhǎng)約2~4 s,總共10 459 個(gè)視頻幀,其中包括60 個(gè)訓(xùn)練集(4 200 張)和30 個(gè)驗(yàn)證集(2 023 張)。
2.2 網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié)
根據(jù)SiamFC++訓(xùn)練策略,在目標(biāo)跟蹤數(shù)據(jù)集上訓(xùn)練相似性編碼器。在ImageNet[15] 上對(duì)全局編碼器的骨干網(wǎng)絡(luò)ResNet50-M 進(jìn)行訓(xùn)練。對(duì)于訓(xùn)練樣本,采用COCO[16] 訓(xùn)練集、DAVIS2017 訓(xùn)練集(60 個(gè)視頻) 和Youtube-vos[17] 訓(xùn)練集(3 471 個(gè)視頻)。整個(gè)訓(xùn)練過程有20 個(gè)epoch,需要3 d。對(duì)于每個(gè)epoch,隨機(jī)選擇150 000 張圖像進(jìn)行訓(xùn)練,從視頻序列中隨機(jī)選擇一張模板圖像和一張搜索圖像。訓(xùn)練時(shí)batchsize 大小設(shè)置為32,使用動(dòng)量為0.9 的SGD 優(yōu)化器,對(duì)預(yù)測(cè)掩膜使用交叉熵?fù)p失,訓(xùn)練和測(cè)試過程均在兩塊3080 GPU上進(jìn)行。前兩個(gè)epoch 的學(xué)習(xí)率從10?5 線性增加到10?2,后18 個(gè)epoch 使用余弦退火學(xué)習(xí)率。
2.3 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出的特征提取(IR) 模塊和深度特征融合模塊(FFM) 的優(yōu)化性能,在吊裝數(shù)據(jù)集上做了消融實(shí)驗(yàn),結(jié)果如表2 所示?;€方法由相似性特征提取的孿生網(wǎng)絡(luò)分支和顯著性網(wǎng)絡(luò)分支構(gòu)成骨干網(wǎng)絡(luò),然后將得到的特征圖直接相加,經(jīng)過上采樣解碼,最終預(yù)測(cè)出目標(biāo)的分割掩膜。消融實(shí)驗(yàn)在基線方法的基礎(chǔ)上,分別增加了IR 模塊和FFM, Jamp;F 分別提高了0.7% 和1.1%。結(jié)果表明,提出的兩個(gè)模塊對(duì)于網(wǎng)絡(luò)目標(biāo)分割的結(jié)果是有提升的。Pre 表示編碼器中提取特征的骨干網(wǎng)絡(luò)在ImageNet 大型數(shù)據(jù)集上進(jìn)行預(yù)先訓(xùn)練,獲得的權(quán)重用于訓(xùn)練網(wǎng)絡(luò)。增加預(yù)訓(xùn)練、IR 模塊和FFM 后得到的結(jié)果有明顯的提升,比基線方法提高了5.1%。實(shí)驗(yàn)結(jié)果表明,本文提出的基于特征提取模塊的全局編碼器和深度特征融合模塊的網(wǎng)絡(luò)有利于視頻目標(biāo)分割任務(wù)。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 評(píng)價(jià)指標(biāo)
本文采用基準(zhǔn)數(shù)據(jù)集DAVIS2017 的標(biāo)準(zhǔn)評(píng)價(jià)指標(biāo), 即區(qū)域相似度Jaccard(J) 和輪廓精度Fscore(F)。區(qū)域相似度為預(yù)測(cè)的二值分割掩膜與標(biāo)注真值之間的交并比,是比值的形式:分子是預(yù)測(cè)掩膜與標(biāo)注真值的前景的交集;分母是兩者的并集。區(qū)域相似度用于表示分割結(jié)果的準(zhǔn)確度,其公式表示為
本文采用區(qū)域相似度J 和輪廓精度F 的均值作為綜合指標(biāo),記作Jamp;F。
3.2 不同數(shù)據(jù)集上的結(jié)果
在吊裝數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表3 所示,對(duì)比了其他11 種算法, 包括2 種在線學(xué)習(xí)(OL)的方法和9 種離線學(xué)習(xí)的方法,其中,COSNet[18]是無監(jiān)督學(xué)習(xí)的方法。本文算法在綜合指標(biāo)上結(jié)果為0.976,幀率為26.16 幀/s,在所有對(duì)比方法中排名第二,相較領(lǐng)先于其他方法。排名第一的方法STM*[19] 是在大型數(shù)據(jù)集上預(yù)訓(xùn)練網(wǎng)絡(luò)權(quán)重,不僅有更多的訓(xùn)練樣本,而且訓(xùn)練的時(shí)間更長(zhǎng)。本文算法進(jìn)行預(yù)訓(xùn)練后的綜合指標(biāo)與STM*方法的綜合指標(biāo)僅相差0.7%,但在速度上有很大的提升。而在沒有預(yù)訓(xùn)練的情況下,本文算法的綜合指標(biāo)為0.943,STM 網(wǎng)絡(luò)得到的最好結(jié)果只有0.664。與SAT 方法相比,本文增加了全局編碼模塊和深度特征融合模塊,綜合指標(biāo)提升了5.1%。圖5 為不同方法在吊裝數(shù)據(jù)集上的指標(biāo)。可以直觀看出,已有的一些方法雖然準(zhǔn)確度提高,但是運(yùn)行速度慢。本文方法實(shí)現(xiàn)了速度與準(zhǔn)確度的平衡。
在DAVIS2017 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表4 所示,與其他21 種算法進(jìn)行了對(duì)比,包括6 種在線學(xué)習(xí)分割算法和15 種離線學(xué)習(xí)分割算法。對(duì)于多目標(biāo)視頻分割任務(wù),預(yù)測(cè)每個(gè)目標(biāo)的概率圖,并拼接在一起,通過softmax 得到最終結(jié)果。相比單目標(biāo)分割方法,多目標(biāo)分割的實(shí)現(xiàn)更具有難度。本文算法的綜合指標(biāo)達(dá)到0.708,幀率達(dá)到31 幀/s,與其他視頻分割算法相比,具有很強(qiáng)的競(jìng)爭(zhēng)力。
3.3 可視化結(jié)果
在公開數(shù)據(jù)集DAVIS2017 和實(shí)驗(yàn)用吊裝數(shù)據(jù)集上,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行可視化,直觀地描述本文模型的分割效果。圖6 是在實(shí)驗(yàn)用吊裝數(shù)據(jù)集上的分割結(jié)果可視化,第1 列是輸入網(wǎng)絡(luò)的原始圖像,第2 列為人工制作的標(biāo)簽,第3、4 列分別是通過基線方法得到的結(jié)果與本文模型的分割結(jié)果。進(jìn)行比較發(fā)現(xiàn), 基線方法對(duì)目標(biāo)分割的輪廓相對(duì)比較粗糙,當(dāng)背景存在干擾物時(shí),不能很好地區(qū)分物體與背景,會(huì)將一部分背景中的干擾物也分割出來,效果不好。而本文模型很好地將物體分割出來, 結(jié)果更加精確。圖7 展示了DAVIS2017 數(shù)據(jù)集的分割結(jié)果可視化。當(dāng)目標(biāo)的顏色特征與背景較為相似的時(shí)候,基線方法無法區(qū)分目標(biāo)的輪廓,無法精確分割出物體輪廓;在目標(biāo)快速運(yùn)動(dòng)以及背景中存在相似的物體時(shí),如圖7 中跳街舞的人在腳部快速運(yùn)動(dòng)時(shí)出現(xiàn)的模糊以及背景中相似的行人,基線方法無法精確識(shí)別腳步動(dòng)作與背景行人,而本文方法能夠區(qū)分背景與目標(biāo),將輪廓分割得更明顯;當(dāng)物體出現(xiàn)被遮擋的情況下,本文方法更好地判斷出屬于前景的部分以及被遮擋的背景部分。
圖8 展示了在整個(gè)視頻過程中,本文的模型在每一幀上對(duì)目標(biāo)的分割效果。前兩行是在實(shí)驗(yàn)用吊裝數(shù)據(jù)集上,物體發(fā)生旋轉(zhuǎn)過程中,模型對(duì)目標(biāo)的分割情況。后4 行分別展示了在DAVIS2017數(shù)據(jù)集上,本文方法對(duì)不同目標(biāo)的分割情況,以及當(dāng)物體發(fā)生明顯的外觀變化、環(huán)境光線明暗的情況下,模型對(duì)目標(biāo)的識(shí)別依然具有魯棒性,以及很好的分割效果。
4 結(jié) 論
本文提出了一種基于目標(biāo)特征提取與深度特征融合的視頻目標(biāo)分割算法,用于吊裝安全監(jiān)控。本文算法能有效地對(duì)目標(biāo)外觀進(jìn)行表示,提升了網(wǎng)絡(luò)對(duì)特定目標(biāo)的識(shí)別能力,并取得較高的準(zhǔn)確度。在分割任務(wù)中取得了良好的性能和實(shí)時(shí)的速度,實(shí)現(xiàn)端到端的半監(jiān)督視頻目標(biāo)分割。