李 磊 孫佳偉
(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212003)
人體前景分割算法是指從包含人體的圖像中有效分割人物這一前景目標(biāo),是圖像語義分割[1]的重要分支,在計(jì)算機(jī)視覺和模式識(shí)別中起著基本預(yù)處理的作用[2],是行人認(rèn)證和行為分析不可或缺的組成部分。隨著深度學(xué)習(xí)在模式識(shí)別的深入研究[3],人體前景分割目前已經(jīng)取得突破性進(jìn)展,但是由于復(fù)雜的背景干擾,語義分割的邊緣混淆問題依然存在巨大的挑戰(zhàn)。
人體前景分割的本質(zhì)是對(duì)于圖像進(jìn)行像素級(jí)別的二分類,對(duì)每個(gè)像素點(diǎn)進(jìn)行二分類判斷其是否為人體部分。圖像分割算法大致可以劃分為四類:基于閾值[4]的分割算法、基于聚類分析[5~7]的圖像分割算法、基于區(qū)域[8~9]的分割算法、基于人工神經(jīng)網(wǎng)絡(luò)[1,10~12]的分割算法。
針對(duì)基于閾值分割算法,Yu[4]提出利用全局閾值分割的克隆選擇算法獲取圖像的最佳閾值,并且基于全局閾值分割來選擇子區(qū)域,該方法有效地提高前景目標(biāo)識(shí)別和分割效果。
聚類算法的中心思想是將目標(biāo)對(duì)象聚合成由類似對(duì)象組成的多個(gè)類的過程。研究者們將聚類算法應(yīng)用到圖像分割中,利用顏色屬性對(duì)像素點(diǎn)樣本進(jìn)行區(qū)域化分類,并通過不斷地迭代矯正使之形成準(zhǔn)確的分割前景效果,Sun[5]詳細(xì)介紹了常見的聚類算法,即FCM[6]和K-Means[7]聚類,并討論了其在圖像分割中的應(yīng)用,為相關(guān)研究人員提供了參考。相比于聚類算法,基于區(qū)域的分割算法[8]將主要步驟分成了區(qū)域生長與區(qū)域合并兩大塊,在小區(qū)域范圍內(nèi)使用區(qū)域合并有效增加了魯棒性,在大區(qū)域范圍內(nèi)使用區(qū)域合并使分割遵從了分割屬性,更加貼近人類的視覺特征。但是由于迭代算法不可避免地會(huì)引來計(jì)算成本以及相應(yīng)的實(shí)時(shí)性問題?;诖藛栴},Yang[9]基于P系統(tǒng)提出的區(qū)域分割算法引用了獨(dú)立的演化規(guī)則和通信規(guī)則,成為自適應(yīng)區(qū)域生長分割算法的開創(chuàng)。
語義分割神經(jīng)網(wǎng)絡(luò)的開山之作是FCN[10],其直接使用分割的實(shí)例作為監(jiān)督信息,訓(xùn)練端到端的網(wǎng)絡(luò),使用該網(wǎng)絡(luò)對(duì)像素點(diǎn)進(jìn)行預(yù)測(cè)判斷從而得到標(biāo)簽,該方法在總體分割準(zhǔn)確度,特別是在人體這大類的分割準(zhǔn)確度取得了突破性進(jìn)展。谷歌提出的Deeplab系列[1],使用空洞卷積有效的增加了感受視野,同時(shí)采用全局金字塔,有效傳播多尺度信息。在此基礎(chǔ)上,對(duì)于人體前景分割,谷歌更是在Deeplab[1]基礎(chǔ)網(wǎng)絡(luò)層刪減上提出了人物實(shí)時(shí)替換背景算法。2017年何凱明提出的Mask R-CNN[11]模型,一舉斬獲ICCV 2017最佳作品,該模型同時(shí)進(jìn)行目標(biāo)檢測(cè)和前景分割,在Faster R-CNN[12]框架的基礎(chǔ)上增加語義分割分支,將語義問題簡(jiǎn)化為二分類識(shí)別mask[12]。
上述幾種理論,相較于傳統(tǒng)方法[4~9],深度學(xué)習(xí)方法[1,10~12]在圖像分割場(chǎng)景下得到拓展,但是目前深度學(xué)習(xí)所采用的逐像素判別方法,在遇到不同區(qū)域邊界特別是前景人物與背景交接時(shí),往往存在過高的假陽性率問題。同時(shí),單純使用邊緣檢測(cè)分割算法,在圖像復(fù)雜的背景下,邊緣像素難以判別,像素點(diǎn)難以連接,人體前景分割準(zhǔn)確率大大降低。因此本文針對(duì)上述問題,采用邊緣檢測(cè)和深度學(xué)習(xí)相結(jié)合,提出邊緣校正通道處理,展開算法推導(dǎo)、仿真和分析研究。
為了進(jìn)一步提高分割重疊率[13]并且有效抑制圖像分割結(jié)果中錯(cuò)誤的邊緣背景而導(dǎo)致的假陽性率[13]過高問題,本文提出一種邊緣校正通道算法對(duì)深度學(xué)習(xí)模型分割的人體圖像進(jìn)行后處理。如圖1,本文模型是由編碼器與解碼器并聯(lián),將Deeplabv3[14]作為編碼器,由DCNN[15]生成多維度特征,遵從ASPP規(guī)則[16]從而增加感受視野,并通過對(duì)輸出特征反卷積操作,然后解碼器與邊緣矯正通道串聯(lián)而成。
圖1 Deeplab-MobileNet-brink
本文引用Deeplabv3+算法原理[1],編碼層前端采用空洞卷積[16]獲取淺層低級(jí)特征,傳輸?shù)浇獯a器前端;編碼層后端采用vgg-16[17]獲取深層高級(jí)特征信息,并且將output_stride為16的特征矩陣傳輸?shù)浇獯a器。
解碼器接收到高級(jí)特征信息,經(jīng)過雙線性上采樣得到output_stride為4的256通道特征A;同時(shí)為了占比重相同,本文采用1×1卷積降通道,將淺層分辨率特征通道降低到256,從而增強(qiáng)模型學(xué)習(xí)能力。隨后解碼器將特征A與特征B做網(wǎng)絡(luò)層連接(concat),再經(jīng)過一個(gè)3×3的特征卷積細(xì)化[1]。最后,在解碼器后端經(jīng)過再雙線性4倍采樣得到深度學(xué)習(xí)分割預(yù)測(cè)結(jié)果。
為了方便后端canny算法[18]產(chǎn)生精準(zhǔn)邊緣,本文將接收到原圖與深度學(xué)習(xí)分割經(jīng)過標(biāo)簽映射得到前景圖,前景圖計(jì)算由式(1)得到:
式(1)中It、Ib、Io分別表示背景值設(shè)為“0”的前景圖、背景值設(shè)為“0”并且前景值設(shè)為“1”的二值分割圖、三通道彩色原圖。
為了盡可能地減少噪聲邊緣與微小目標(biāo)對(duì)于邊緣檢測(cè)[18]的干擾,對(duì)前景圖使用3×3卷積對(duì)前景圖平滑處理,減少明顯的噪聲點(diǎn)干擾,(2k+1)*(2k+1)的高斯濾波核函數(shù)[18]生成如下:
式中高斯濾波維度必須為基數(shù),本文沿用之前研究[18],k取值為1,σ取經(jīng)驗(yàn)值0.8,為了獲取梯度強(qiáng)度與方向,通過Sobel算子[19]檢測(cè)水平方向x、垂直方向y和對(duì)角線方向↗(左上)↘(右下)的梯度度Gx、Gy、G↗和G↘,四個(gè)算子如表1所示。
表1 各方向檢測(cè)算子
圖像邊緣梯度具有全方向可能,因此本文利用水平與垂直的梯度Gx和Gy計(jì)算G(i,j),再通過正切函數(shù)關(guān)系獲得非正交方向梯度,計(jì)算公式如式(3):
式中G(i,j)表示像素點(diǎn)(i,j)的梯度,θ(i,j)表示像素點(diǎn)(i,j)的梯度方向,G(
xi,j)與G(
yi,j)分別表示像素點(diǎn)(i,j)在水平方向x與垂直方向y的梯度[18]。對(duì)圖像梯度計(jì)算后,基于梯度值的邊緣提取存在過多的噪聲點(diǎn),因此需要引入非極大值抑制篩選出局部最大值作為梯度圖像的邊緣像素點(diǎn)。非極大抑制像素點(diǎn)的計(jì)算公式如式(4):
其中LowThreshold與HighThreshold分別表示梯度線性插值的上下閾值,若B(i,j)值為“真”則趨向判定為邊緣像素點(diǎn),反之則抑制。獲取邊緣后與二值圖取并集得到邊緣圖,邊緣圖計(jì)算公式為式(6):
式中Ie表示融合了二值圖邊緣Im與前景圖邊緣Ib的最終邊緣圖。
本文使用遮罩演示當(dāng)前分割模型存在的召回率[13]虛高即假陽性率過高問題。如圖2,在前景圖邊緣處錯(cuò)誤的保留了部分背景,由二值圖邊緣和前景圖邊緣融合得到的邊緣圖可以有效計(jì)算出人物分割邊緣線、前景分割邊緣線和錯(cuò)誤背景區(qū)域。如何有效去除遮罩區(qū)域?qū)⒊蔀樘岣呷梭w前景分割重疊率的關(guān)鍵。
圖2 人體前景分割中間結(jié)果
為了有效去除人體分割中包含的錯(cuò)誤背景,本文提出沿邊緣線采用邊緣矯正通道處理的方法,假設(shè)以(x,y)做7×7卷積相乘,則邊緣圖中以(x,y)為中心的7×7像素點(diǎn)分布如圖,計(jì)算圖中人物分割邊緣線與前景分割邊緣線所圍成的錯(cuò)誤背景區(qū)域,計(jì)算公式如下:
在錯(cuò)誤背景區(qū)域內(nèi)邊緣矯正通道的數(shù)值將被置零,其分布如圖3。
圖3 邊緣校正通道
將此通道與前景圖像素點(diǎn)(x,y)做一般乘積運(yùn)算,以3×3通道A為例,一般乘積運(yùn)算公式(8)。為了防止矯正超過臨界點(diǎn),本文設(shè)立最大校正通道尺寸閾值n,R為分割區(qū)域,R′背景區(qū)域。最終生成前景分割二值圖如圖4。
圖4 人體前景分割與背景替換效果圖
由圖4個(gè)知,本文算法對(duì)于復(fù)雜背景下的人體分割任務(wù)具有較高的成效,且邊緣細(xì)化處理較為成功,對(duì)其背景替換后效果極佳。下一節(jié)本文將采用多指標(biāo)衡量邊緣校正通道對(duì)于人體前景分割的強(qiáng)化效果。
實(shí)驗(yàn)硬件環(huán)境為Ubuntu16.04,64位操作系統(tǒng),訓(xùn)練平臺(tái)是谷歌基于DistBelief進(jìn)行研發(fā)的第二代人工智能學(xué)習(xí)系統(tǒng)tensorflow[3],硬件環(huán)境為NVIDIAGTX 1070。
數(shù)據(jù)庫Data1來源為智慧機(jī)器學(xué)習(xí)平臺(tái)Supervise.ly免費(fèi)開源人體分割數(shù)據(jù)庫(https://supervise.ly/)。與COCO、Pascal等公共數(shù)據(jù)集不同,Supervise.ly只針對(duì)人體樣本注釋,且規(guī)避了注釋中存在的圖片分辨率低、注釋邊緣不準(zhǔn)確、樣本人物姿態(tài)單一等問題,總標(biāo)注水平和樣本質(zhì)量非常高。數(shù)據(jù)集總標(biāo)注圖片有5586張。本文挑選其中4000張作為訓(xùn)練集,剩余作為測(cè)試集。數(shù)據(jù)庫Data2來源為百度人體圖像分割數(shù)據(jù)庫(http://www.cbsr.ia.ac.cn/users/yny u/dataset/),該數(shù)據(jù)集總共標(biāo)注圖片有8387張,本文挑選其作為模型魯棒性驗(yàn)證。
為了客觀評(píng)價(jià)分類器訓(xùn)練模型精度,本文采用重疊率Sens.和假陽性率Error衡量圖像人體前景分割模型的性能[13],其計(jì)算公式(9)如下。
式中,TP表示分割區(qū)域R與標(biāo)簽值T重疊區(qū)域,F(xiàn)P表示錯(cuò)誤分割背景區(qū)域,F(xiàn)N表示未分割前景區(qū)域。
本文采用邊緣檢測(cè)通道在Deeplap網(wǎng)絡(luò)進(jìn)行后處理,并將模型在數(shù)據(jù)集Data1上進(jìn)行仿真,仿真結(jié)果如表2。表中Deeplab-MobileNet-brink[20]是基于Mobile-net[20]網(wǎng)絡(luò)實(shí)現(xiàn)的Deeplabv3+在引入邊緣矯正通道后構(gòu)建的模型,Deeplab-xception是基于xception網(wǎng)絡(luò)[21]實(shí)現(xiàn)的Deeplabv3+在引入邊緣矯正通道后構(gòu)建的模型。
表2 不同模型Data1測(cè)試比較
由表2可以看出,本文提出的算法在假陽性率上相較于Deeplab-MobileNet與Deeplab-xception網(wǎng)絡(luò)分別降低了18.46%和28.03%,最終假陽性率僅有4.88%,Deeplab-xception-brink模型有效去除了包含背景的錯(cuò)誤分割前景,使得分割邊緣更加準(zhǔn)確;在重疊率上相較于Deeplab-MobileNet網(wǎng)絡(luò)提高了1.33%,相較于Deeplab-xception網(wǎng)絡(luò)提高了1.48%,達(dá)到了91.98%。
圖5 邊緣檢測(cè)通道與原模型分割效果
為了展示邊緣校正通道在人體分割過程中的重要作用,本文在測(cè)試集單個(gè)任務(wù)的分割結(jié)果中對(duì)重疊率進(jìn)行統(tǒng)計(jì),如圖5所示,當(dāng)模型分割效果較差時(shí),邊緣校正通道可以顯著地提高重疊率,其中對(duì)于MobileNet和xception模型,邊緣校正通道在重疊率上分別增強(qiáng)了9.67%和7.30%;當(dāng)模型分割效果達(dá)到臨界值時(shí),邊緣校正通道與原模型分割重疊率區(qū)域持平。由此可見,在各測(cè)試樣本下邊緣校正通道對(duì)于神經(jīng)網(wǎng)絡(luò)模型分割任務(wù)始終具備良性提高作用,分割算法具有較強(qiáng)的魯棒性。
同時(shí),為了展示本文訓(xùn)練模型在其他數(shù)據(jù)集上的效果,本文首先將訓(xùn)練模型在Data2數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),仿真結(jié)果如表3所示;將Data2隨機(jī)分為DataA~DataE,分別進(jìn)行仿真實(shí)驗(yàn),仿真結(jié)果如圖6。
表3 不同模型Data2測(cè)試比較
圖6 邊緣檢測(cè)通道與原模型分割效果
由表3和圖6可以看出,在驗(yàn)證測(cè)試集Data2下,整體模型分割仿真重疊率相較于Data1雖有所下降,但是邊緣校正通道具有了更高的增強(qiáng)分割效果的能力。在重疊率指標(biāo)下對(duì)于MobileNet模型,邊緣校正通道增強(qiáng)了2.36%,對(duì)于xception,邊緣校正通道增強(qiáng)了2.34%。在假陽性率指標(biāo)下,邊緣校正通道在MobileNet和xception網(wǎng)絡(luò)下分別有效降低了23.74%和24.22%,其中Deeplab-xception-brink在數(shù)據(jù)集仿真假陽性率僅有0.97%,分割算法校準(zhǔn)度極佳。
本文模型最終測(cè)試結(jié)果如圖7所示,對(duì)于復(fù)雜背景和多種姿態(tài)等不同環(huán)境下,本文模型都可以精確的分割前景并且檢測(cè)結(jié)果與標(biāo)簽值十分接近,分割算法具有較高的準(zhǔn)確性和魯棒性。
圖7 最終分割效果
本文結(jié)合邊緣校正通道與深度學(xué)習(xí)網(wǎng)絡(luò),提出了前景分割檢測(cè)模型。首先獲取分割前景目標(biāo),然后對(duì)前景分割圖邊緣處理,最后利用邊緣校正除去前景圖中的錯(cuò)誤背景,進(jìn)而實(shí)現(xiàn)對(duì)人體前景的精準(zhǔn)分割。
Supervise.ly開源數(shù)據(jù)庫實(shí)驗(yàn)中,復(fù)雜多變背景下Deeplab-xception-brink模型分割重疊率可達(dá)91.98%,分割假陽性率為4.88%。仿真結(jié)果表明,邊緣校正通道對(duì)于神經(jīng)網(wǎng)絡(luò)分割任務(wù)具有較高的增強(qiáng)效果,本文提出的神經(jīng)網(wǎng)絡(luò)與邊緣檢測(cè)相結(jié)合的人體前景分割算法具有較高的準(zhǔn)確性和魯棒性以及校準(zhǔn)度。
本文下一步的研究計(jì)劃將側(cè)重于邊緣校正通道在其他模型上的融合效果,如Mask-RCNN。并關(guān)注圖像分割前沿發(fā)展,力求進(jìn)一步提高人體前景分割效果。