遲津生,楊大偉,毛 琳
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
基于圖像級標(biāo)簽的弱監(jiān)督語義分割(Weakly-Supervised Semantic Segmentation,WSSS)由于標(biāo)注成本較低而備受關(guān)注,其標(biāo)注依據(jù)不同的監(jiān)督強(qiáng)度可分為點(diǎn)、類標(biāo)簽、邊框和涂鴉等。類標(biāo)簽僅指明類的存在,邊框和涂鴉提示了對象的空間范圍,而點(diǎn)指示了對象的位置。在上述標(biāo)注中,類標(biāo)簽的圖像獲取方式是最經(jīng)濟(jì)高效的,但同時(shí)監(jiān)督信息最弱,其難點(diǎn)在于如何將圖像的類標(biāo)簽信息精準(zhǔn)映射到圖像的每個(gè)像素點(diǎn),賦予像素點(diǎn)語義標(biāo)簽。目前,使用圖像級標(biāo)簽的弱監(jiān)督語義分割方法大多基于可視化的兩階段方法。首先,訓(xùn)練分類網(wǎng)絡(luò),通過初始定位獲得偽像素級掩碼;其次,利用生成的偽掩碼作為監(jiān)督信息訓(xùn)練語義分割網(wǎng)絡(luò)。目前弱監(jiān)督語義分割的方法主要集中在生成高質(zhì)量的偽像素級掩碼,而所有的圖像級弱監(jiān)督語義分割算法都使用了類激活映射(Class Activation Map,CAM)獲取偽像素掩碼。CAM的本質(zhì)是利用交叉標(biāo)簽約束的先驗(yàn),根據(jù)分類模型提供的信息定位圖像中的種子區(qū)域,利用種子區(qū)域生成偽像素掩碼。CAM是粗定位,通常無法覆蓋目標(biāo)類的整個(gè)語義區(qū)域,導(dǎo)致偽像素掩碼邊界粗糙和丟失,造成分割結(jié)果和目標(biāo)邊界不匹配,這也是目前弱監(jiān)督語義分割算法性能的主要限制。
類標(biāo)簽弱監(jiān)督語義分割多通過CAM算法得到種子區(qū)域以獲得偽像素標(biāo)簽,之后進(jìn)行傳播得到分割結(jié)果。但由于CAM的固有特點(diǎn),經(jīng)CAM生成的偽像素掩碼質(zhì)量較低。隨著改進(jìn)CAM算法的方法不斷涌現(xiàn),Zhou等[1]提出CAM技術(shù),并演示將不同卷積核大小、卷積層數(shù)量的CNN作為無監(jiān)督對象檢測器的功能,一副圖像經(jīng)過CNN可以給圖像中的內(nèi)容打上標(biāo)簽,通過使用CAM,可以將CNN生成類別標(biāo)簽過程中關(guān)注的區(qū)域可視化成熱力圖,使深度學(xué)習(xí)所做的決策具有可解釋性。然而,CAM需要為每個(gè)類分別訓(xùn)練對應(yīng)的線性分類器,計(jì)算量龐大并殘留大量的不確定像素點(diǎn),導(dǎo)致生成熱力圖精度較低。Selvaraju等[2]提出Grad-CAM,結(jié)合CAM的類條件屬性和像素空間梯度可視化技術(shù),如反向傳播和反卷積,強(qiáng)調(diào)圖像細(xì)粒度元素,使生成的熱力圖精度更高,提高基于CNN模型的可解釋性。GradCAM++[3]為梯度像素加權(quán)引入更可靠的表達(dá)式,提高分類效果,進(jìn)一步提高像素分類精度。然而,基于梯度的CAM方法無法表示圖像中的真實(shí)信息,因?yàn)榧せ钣成涞臋?quán)重沒有得到證實(shí),所以基于梯度的CAM方法魯棒性較差[4]。為此,Wang等[5]提出了Score-CAM,利用每個(gè)像素在目標(biāo)類的前向傳播得分獲得其權(quán)重,不依賴梯度生成熱力圖,而是將權(quán)重和激活映射線性組合得到最終結(jié)果。但Score-CAM沒有考慮像素之間的關(guān)系,導(dǎo)致錯(cuò)誤分類的情況出現(xiàn),造成熱力圖精度較低[6]。基于RelatianceCAM方法[7]生成的類激活映射圖具有良好的類辨別能力,但其熱力圖存在噪聲,使其無法獲得高精度熱力圖。針對CAM無法生成高精度熱力圖的問題,Chen等[8]提出利用圖像上的某個(gè)區(qū)域?qū)⑵渲車嗨频南袼攸c(diǎn)通過迭代逐步擴(kuò)充到一起的方案,得到擴(kuò)充結(jié)果并將該區(qū)域稱為種子區(qū)域,利用此方案,Chen將粗定位圖作為初始種子區(qū)域展開,在展開過程中采用條件隨機(jī)場(Conditional Random Field,CRF)保持預(yù)測與邊界的重合,使像素分類變得更加準(zhǔn)確,從而得到精度更高的熱力圖,但該熱力圖只關(guān)注影響深度學(xué)習(xí)分類結(jié)果的區(qū)域,而忽略了圖像內(nèi)的其他信息,導(dǎo)致圖像內(nèi)殘留大量不確定像素點(diǎn)。
針對圖像中不確定像素點(diǎn)的分類問題,本文提出多類別標(biāo)簽熱力圖生成算法(Multi-Category Class Activation Map,MU-CAM)算法,通過將種子區(qū)域內(nèi)的像素與特征圖進(jìn)行相似度評分,構(gòu)造一種注意力機(jī)制,使種子區(qū)域內(nèi)的所有像素點(diǎn)都可以被重新分類,由此生成包含更多語義信息的熱力圖。利用邊界探索網(wǎng)絡(luò)(Boundary Exploration Network,BENet)[9]的結(jié)果校正MU-CAM的邊界圖,最后使用CRF融合優(yōu)化熱力圖和邊界圖,得到分割結(jié)果。該結(jié)果在高精度熱力圖的幫助下,像素分類更加準(zhǔn)確,可將原本區(qū)分錯(cuò)誤或無法區(qū)分的像素正確分類,提高了分割精度。
在弱監(jiān)督語義分割中,由于弱監(jiān)督學(xué)習(xí)的固有特點(diǎn),在語義分割過程中會出現(xiàn)大量不確定像素點(diǎn)[10]。而傳統(tǒng)CAM只關(guān)注影響深度學(xué)習(xí)分類結(jié)果的像素點(diǎn),并未關(guān)注不確定像素點(diǎn)對弱監(jiān)督語義分割精度的影響,導(dǎo)致CAM只能作為可視化工具[11]。為提高像素點(diǎn)分類的準(zhǔn)確性,本文提出了MU-CAM算法,通過多類別標(biāo)簽,將弱監(jiān)督語義分割轉(zhuǎn)化為不確定像素點(diǎn)區(qū)域和確定像素點(diǎn)區(qū)域的分類問題,再利用多類別標(biāo)簽和特征圖構(gòu)造注意力機(jī)制,使分類結(jié)果更準(zhǔn)確,從而生成高精度熱力圖,改善弱監(jiān)督語義分割算法的表現(xiàn)。
CAM和MU-CAM熱力圖對比如圖1,其中圖1a為CAM生成的熱力圖,注重相關(guān)性;圖1b為MU-CAM生成的熱力圖,注重相關(guān)性和權(quán)重大小。
a)CAM熱力圖 b)MU-CAM熱力圖
在CAM生成的熱力圖中,熱力信息更多集中在目標(biāo)鳥的頭部,而身體等其他部位被嚴(yán)重低估,從而導(dǎo)致較多像素點(diǎn)無法合理進(jìn)行標(biāo)簽分類,形成了殘留的不確定像素點(diǎn)。MU-CAM通過關(guān)注每個(gè)目標(biāo)中有哪些像素點(diǎn),得到精度更高的熱力圖。圖1b中可以清楚看到熱力圖幾乎覆蓋鳥的全身,提高熱力圖精度可以使不確定像素點(diǎn)減少,像素分類更準(zhǔn)確。
定義1:如果像素點(diǎn)在前景和背景的相似度得分差不大于ε,則網(wǎng)絡(luò)不能對該像素點(diǎn)正確分類,即該像素點(diǎn)為不確定像素點(diǎn),全體不確定像素點(diǎn)的集合簡稱不確定類。
定義2:設(shè)輸入圖像內(nèi)的像素為i,則像素i和特征圖進(jìn)行相似度計(jì)算公式為
(1)
定義3:設(shè)圖像分割結(jié)果為I,I在同一幅圖像中固定不變,則每張圖像的I=P前景+P背景+δ。其中,P前景表示該圖像中前景類像素點(diǎn)集合;P背景表示該圖像中背景類像素點(diǎn)集合;δ表示該圖像中不確定類像素點(diǎn)的集合。
δ=α前景+β背景+Δδ 。
(2)
式中:α前景為不確定類集合內(nèi)本該屬于前景類的像素;β背景為不確定類集合內(nèi)本該屬于背景類的像素;Δδ為本網(wǎng)絡(luò)無法進(jìn)行區(qū)分的像素,則有公式:
I=(P前景+α前景)+(P背景+β背景)+Δδ 。
(3)
CAM雖然關(guān)注圖像像素和分類器之間的關(guān)系,使得弱監(jiān)督語義分割的發(fā)展成為可能,并減少對人工標(biāo)注的依賴,降低訓(xùn)練網(wǎng)絡(luò)成本[12]。但CAM忽略了弱監(jiān)督學(xué)習(xí)產(chǎn)生的不確定信息,也沒有關(guān)注每個(gè)類別中有哪些像素點(diǎn),導(dǎo)致熱力圖生成精度較低[13]。MU-CAM算法通過利用特征圖對種子區(qū)域的像素點(diǎn)進(jìn)行相似度評分,將圖像內(nèi)像素點(diǎn)分為前景類、背景類和不確定三類像素,再利用特征增強(qiáng)后的特征圖對不確定類像素點(diǎn)進(jìn)行相似度打分,將不確定像素點(diǎn)分類為前景或者背景,以此減小Δδ。不確定像素點(diǎn)減少,像素的分類更加準(zhǔn)確。利用種子區(qū)域生成熱力圖的可視化結(jié)果如圖2。
圖2 基于種子區(qū)域生成熱力圖可視化像素分類
圖像經(jīng)種子區(qū)域劃分為多類之后,輸入圖像的大部分像素點(diǎn)可以被正確分類為前景或背景,但仍然會殘留許多不確定像素點(diǎn),影響弱監(jiān)督語義分割的效果。這時(shí),通過增強(qiáng)特征圖的前景特征,對位于不確定類內(nèi)的像素點(diǎn)和前景背景進(jìn)行相似度評分。利用特征圖中所有像素和不確定類像素點(diǎn)的相似度判斷位于不確定類像素點(diǎn)的類屬,相似度得分高的像素屬于同一類,由此可以改善像素分類結(jié)果。最后,將像素分類結(jié)果等效成熱力圖,達(dá)到生成高精度熱力圖的目的。
對位于不確定類區(qū)域的像素點(diǎn)進(jìn)行權(quán)重分配的邏輯如圖3。利用前景特征增強(qiáng)后的特征圖對位于不確定類區(qū)域的像素進(jìn)行相似度判斷,并獲得相似度得分。相似度高的像素屬于同一類,故每個(gè)像素與相似度高的類之間的權(quán)重被設(shè)為1,與其他類的權(quán)重為0,以此進(jìn)行每個(gè)不確定像素的重新分類。
圖3 不確定類像素權(quán)重分配邏輯圖
MU-CAM網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖4。MU-CAM網(wǎng)絡(luò)以CAM架構(gòu)為基礎(chǔ),首先對輸入圖像進(jìn)行種子區(qū)域的劃分,得到多類別標(biāo)簽,再利用特征增強(qiáng)的特征圖對種子區(qū)域內(nèi)的不確定類像素點(diǎn)進(jìn)行相似度評分,使像素分類更準(zhǔn)確,生成高精度熱力圖;利用BENet生成的邊界圖與MU-CAM生成熱力圖的邊界圖構(gòu)造損失函數(shù),使邊界圖變得更加準(zhǔn)確。最后將高精度的熱力圖和邊界圖進(jìn)行條件隨機(jī)場優(yōu)化,得到最終分割結(jié)果。
圖4 MU-CAM網(wǎng)絡(luò)整體結(jié)構(gòu)
(4)
(5)
式中,Mc是c類別的類激活映射圖。
本文提出的MU-CAM利用前景和背景信息以提高熱力圖精度,給定一個(gè)輸入圖像和一個(gè)預(yù)先訓(xùn)練的分類網(wǎng)絡(luò)。類激活映射K個(gè)前景類和背景可以表示為
(6)
Mb=α(1-max1≤k≤KMk)。
(7)
式中,F(xiàn)s是網(wǎng)絡(luò)最后一層的語義特征。將處理后的背景激活映射與前景激活映射結(jié)合為一個(gè)整體,即M=Mk∪Mb,以幫助建模背景知識。
在構(gòu)建背景知識之后,要對位于不確定域內(nèi)的像素進(jìn)行分類。
(8)
式中:?為卷積運(yùn)算;j為特征圖上的空間索引;Si(j)表示像素i和j之間的相似度。
最后,利用相似度得分對位于不確定區(qū)域內(nèi)的像素分配權(quán)重,使像素找到自己所屬類別:
(9)
硬件配置為NVIDIA GeForce RTX 3060顯卡,在Windows10操作系統(tǒng)中,編程環(huán)境Python3.6,采用Pytorch1.12.0深度學(xué)習(xí)框架進(jìn)行訓(xùn)練并測試網(wǎng)絡(luò)模型。以PascalVOC2012為基準(zhǔn)數(shù)據(jù)集[14],該數(shù)據(jù)集包括20個(gè)類別,1 464張用于訓(xùn)練圖像,1 449張用于驗(yàn)證圖像和1 456張用于測試圖像。按照語義分割的常用實(shí)驗(yàn)協(xié)議,從SBD增強(qiáng)數(shù)據(jù)集中提取額外注釋,構(gòu)建一個(gè)包含10 582張圖像的增強(qiáng)訓(xùn)練集。在PascalVIC2012數(shù)據(jù)集下,批尺寸設(shè)置為4,學(xué)習(xí)率設(shè)為0.000 001,epoch設(shè)為5。
為評價(jià)分割結(jié)果的準(zhǔn)確性,以平均交并比(Mean Intersection over Union,mIoU)作為圖像語義分割評價(jià)指標(biāo),mIoU越大表示像素預(yù)測值與真實(shí)值的交集越大,分類結(jié)果越準(zhǔn)確。mIoU的計(jì)算過程:
(10)
式中:(α+1)表示類別數(shù)目;i表示真實(shí)類別;j表示預(yù)測類別;pij表示像素值真實(shí)為i類但被預(yù)測為j類;pii表示正確將像素真實(shí)值預(yù)測為i;pji表示將像素真實(shí)值j類預(yù)測為i類。
MU-CAM利用增強(qiáng)特征后的特征圖對位于不確定類域內(nèi)的像素點(diǎn)進(jìn)行相似度評分,使位于不確定類域內(nèi)的像素可以被正確分類,改善像素分類結(jié)果。其中,將ε設(shè)為0.05,采用前景特征增強(qiáng),增強(qiáng)系數(shù)為1.10。針對不同增強(qiáng)系數(shù)對分割結(jié)果產(chǎn)生的影響進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5。
圖5 MU-CAM網(wǎng)絡(luò)整體結(jié)構(gòu)
消融實(shí)驗(yàn)結(jié)果表明,當(dāng)背景不變,前景特征增強(qiáng)系數(shù)設(shè)為1.10時(shí),弱監(jiān)督語義分割的結(jié)果較高。根據(jù)定義1,不確定類像素點(diǎn)在前景和背景的相似度得分相近,所以在背景不變的前提下,對前景做特征增強(qiáng)處理。如果不確定類像素屬于前景類,當(dāng)前景特征增強(qiáng)后,該像素點(diǎn)與前景的相似度得分會提高,由此可以將該像素點(diǎn)歸類為前景。如果該不確定像素點(diǎn)屬于背景,當(dāng)前景特征增強(qiáng)后,該像素點(diǎn)與前景的相似度得分會降低,由此也可將該像素點(diǎn)歸類為背景。此外,當(dāng)前景特征系數(shù)大于1.15后分割結(jié)果會降低,這是因?yàn)樵趯η熬疤卣髟鰪?qiáng)的同時(shí),也增強(qiáng)了圖像中某些噪聲的強(qiáng)度,造成分割精度降低?;谝陨舷趯?shí)驗(yàn)結(jié)果,最終將前景特征增強(qiáng)系數(shù)設(shè)定為1.10。
將像素分類等效成的熱力圖轉(zhuǎn)換為邊界圖,再與BENet生成邊界圖進(jìn)行融合并經(jīng)過CRF優(yōu)化處理,得到最終的語義分割結(jié)果對比結(jié)果見表1。
表1 語義分割結(jié)果對比
實(shí)驗(yàn)結(jié)果表明,在尺寸、迭代周期和學(xué)習(xí)率設(shè)置相同的條件下,MU-CAM算法mIoU為65.13%,相比CAM算法提高14.57%。為直觀比較輸入圖像經(jīng)CAM和MU-CAM生成熱力圖的效果,結(jié)果對比如圖6。
通過對比熱力圖覆蓋區(qū)域,不難發(fā)現(xiàn)利用多類標(biāo)簽MU-CAM對圖像信息處理更準(zhǔn)確,使得位于物體不確定的像素點(diǎn)可以分類更精確,生成高精度熱力圖并使網(wǎng)絡(luò)在后續(xù)的處理中語義分割效果更好,解決了由于CAM忽略圖像內(nèi)不確定信息導(dǎo)致無法改善弱監(jiān)督語義分割結(jié)果的問題。
CAM與MU-CAM分割結(jié)果對比如圖7。圖中框內(nèi)部分為使用CAM分割后確實(shí)或分類錯(cuò)誤的部分。例如,在圖7b第(1)行對摩托車前方的三輪車尾部和上方摩托車輪胎未進(jìn)行分割,而在使用MU-CAM后,分割效果明顯提升。
圖6 CAM和MU-CAM熱力圖對比
圖7 基于CAM和MU-CAM分割結(jié)果對比圖
弱監(jiān)督語義分割過程中,不可避免地會產(chǎn)生許多不確定像素點(diǎn),而這些不確定像素點(diǎn)會影響像素分類的準(zhǔn)確性。本文提出一種多類別標(biāo)簽弱監(jiān)督語義分割熱力圖生成算法MU-CAM,該算法通過利用特征圖和多類別標(biāo)簽構(gòu)造注意力機(jī)制,使圖像像素點(diǎn)的分類更加準(zhǔn)確,進(jìn)而減少弱監(jiān)督學(xué)習(xí)的不確定性影響,較大程度提高了不確定像素點(diǎn)的分類準(zhǔn)確度,改善了弱監(jiān)督語義分割的效果。MU-CAM算法可以提高弱監(jiān)督語義分割在復(fù)雜環(huán)境下的分割精度,使弱監(jiān)督語義分割可以更好地應(yīng)用于無人車自主駕駛等領(lǐng)域。在未來工作中,將進(jìn)一步解決弱監(jiān)督學(xué)習(xí)的不確定性,提高弱監(jiān)督語義分割的精度。
大連民族大學(xué)學(xué)報(bào)2023年1期