游小榮,李淑芳,熊宗志
(1.常州紡織服裝職業(yè)技術(shù)學(xué)院,江蘇 常州 213164; 2.常州市生態(tài)紡織技術(shù)重點實驗室,江蘇 常州 213164)
圖像分割技術(shù)作為圖像處理預(yù)處理部分,在織物疵點檢驗、織物圖案輪廓提取、服裝輪廓提取、服裝圖像輪廓提取、服裝圖像檢索等方面得到廣泛應(yīng)用[1],是計算機視覺熱點研究領(lǐng)域之一。圖像分割技術(shù)方法眾多,大致可分為基于邊緣、閾值、區(qū)域、圖論、基因編碼、聚類、神經(jīng)網(wǎng)絡(luò)等[2],這些方法在不同場景中均得到應(yīng)用。近年來,隨著深度學(xué)習(xí)的快速發(fā)展,很多學(xué)者將深度學(xué)習(xí)應(yīng)用到了圖像分割這一領(lǐng)域,分割效果改善顯著。
圖像分割技術(shù)在服裝圖像輪廓提取方面也有許多研究,具體包括:基于閾值分割方法,如項明等[3]借助Otsu和高斯混合模型對服裝圖像進行分割,發(fā)現(xiàn)此法對于紋理服裝圖像分割效果一般;郭鑫鵬等[4]充分考慮了色彩和紋理特征,但服裝圖像背景復(fù)雜及顏色或紋理編號較大時,分割效果欠佳;基于分水嶺區(qū)域合并等區(qū)域分割算法,對復(fù)雜前景的服裝圖像分割效果不佳[5-6];基于聚類算法在服裝圖像分割中的應(yīng)用,在特定場合能夠取得不錯的[7-9]分割效果,但通用性一般;基于圖論的處理方法,特別是借助GrabCut或OneCut算法分割服裝圖像,能夠很好地提取出感興趣區(qū)域,且邊緣處理效果好,但普遍存在需要人工標注以及復(fù)雜背景下分割精度一般的問題[10-11];基于機器學(xué)習(xí)[12-13]和深度學(xué)習(xí)方法[14-15]在圖像分割中的應(yīng)用,通用性明顯增強,但定位后提取前景圖像效果一般,邊緣上存在一定誤差。
本文針對GrabCut算法需要人工干預(yù)和復(fù)雜背景分割精度不高的問題,提出了基于卷積姿態(tài)機(Convolutional Pose Machines)和GrabCut的服裝圖像輪廓分割方法,其中,卷積姿態(tài)機(CPM)網(wǎng)絡(luò)深度學(xué)習(xí)方法用于獲得GrabCut算法所需的初始矩形框,而GrabCut算法則用于將服裝從圖像中分離出來,最終達到服裝圖像大批量自動分割的目的。
GrabCut算法是一種基于圖論的圖像分割算法,具有邊緣提取效果好、精度高的優(yōu)點,常用于從圖像中提取前景目標,但其也存在2個方面不足[12]:①需要用戶少量人工交互,不能實現(xiàn)批量圖片自動處理。②單一背景和復(fù)雜背景提取效果差別大。
對單一背景圖像采用GrabCut算法,提取效果較好,如圖1所示。
圖1 單一背景提取效果圖Fig.1 Single background extraction effect picture. (a) Original picture; (b) After extraction
對復(fù)雜背景采用GrabCut算法,提取效果不理想,如圖2所示,提取圖片受背景干擾嚴重,對初始矩形框選擇要求高。
圖2 復(fù)雜背景提取效果圖Fig.2 Complex background extraction effect picture. (a) Original picture;(b) Complex after extraction
GrabCut算法具體實現(xiàn)過程如下:
步驟1:用戶在目標圖像中創(chuàng)建一個包含前景目標的矩形框,矩形框外面即為初始背景,并將前景部分設(shè)為空集。
步驟2:采用高斯混合模型對背景和前景目標進行建模,計算高斯混合模型參數(shù)。
步驟3:根據(jù)高斯混合模型參數(shù),計算最小能量值,進行圖像分割。
步驟4:跳轉(zhuǎn)至步驟2,迭代執(zhí)行,實現(xiàn)能量最小化目標,直至收斂。
步驟5:完成邊界優(yōu)化與分割。
為了更好地定位圖片中的服裝,解決GrabCut算法存在的不足,本文使用卷積姿態(tài)機算法[16]來實現(xiàn)圖片中服裝對象的精確定位,并自動輸出包含前景目標的初始框。卷積姿態(tài)機算法是在姿態(tài)機算法基礎(chǔ)上,增加了卷積神經(jīng)網(wǎng)絡(luò),結(jié)合了姿態(tài)機算法和卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 卷積姿態(tài)機網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Convolution pose machines network structure
從結(jié)構(gòu)可以看出,卷積姿態(tài)機網(wǎng)絡(luò)結(jié)構(gòu)由1個初始階段和N個(本文N取6)強化階段組成。初始階段采用原始圖作為輸入,經(jīng)過卷積網(wǎng)絡(luò)結(jié)構(gòu)后會產(chǎn)生信度圖,在強化階段,采用原始圖或經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理產(chǎn)生的特征圖,以及每個階段產(chǎn)生的信度圖、同時融合高斯函數(shù)模板產(chǎn)生的居中映射(Center Map)圖作為串聯(lián)輸入,并經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)處理,產(chǎn)生新的信度圖,并作為下一階段的數(shù)據(jù),循環(huán)往復(fù),直至結(jié)束。
采用卷積姿態(tài)機網(wǎng)絡(luò)處理后得到各服裝的關(guān)鍵點,無論是單一背景還是復(fù)雜背景,含服裝的圖像都能得到不錯的定位效果,結(jié)果如圖4所示。
圖4 卷積姿態(tài)機處理后服裝定位效果Fig.4 Clothing positioning effect after convolution posture machine processing (a) Single background 1; (b) Single background 2; (c) Complex background 1; (d) Complex background 2
為了解決GrabCut算法存在的不足,本文提出了基于卷積姿態(tài)機和GrabCut的服裝圖像輪廓分割方法,具體流程如圖5所示。首先選用天池FashionAI數(shù)據(jù)集,訓(xùn)練卷積姿態(tài)機網(wǎng)絡(luò),訓(xùn)練完成后輸出服裝關(guān)鍵點模型;然后輸入待測圖片,根據(jù)訓(xùn)練好的服裝關(guān)鍵點模型輸出服裝關(guān)鍵點信息,再根據(jù)這些服裝關(guān)鍵點信息計算得到初始矩形框;最后以此初始矩形框作為Grabcut算法的輸入,并根據(jù)Grabcut算法輸出服裝圖像輪廓分割的結(jié)果。圖6示出本文方法各階段產(chǎn)生的對比圖像。
圖5 基于卷積姿態(tài)機和GrabCut的服裝圖像輪廓分割方法Fig.5 Garment image contour segmentation method based on convolution pose machine and GrabCut
圖6 本文方法各階段產(chǎn)生的對比圖像Fig.6 Contrast images generated in each stage of this method. (a) Original image; (b) Image processed by convolution attitude machine; (c) Image forming a rectangular frame; (d) Image segmented by GrabCut
圖像分割質(zhì)量評價方法很多,常見包括像素精確度(Pixel Accuracy, PA)、均像素精度(Mean Pixel Accuracy,MPA)、均交并比(Mean Intersection over Union, MIoU)以及頻權(quán)交并比(Frequency Weighted Intersection over Union, FWIoU)等[17]。其中,均交并比(MIoU)是對交并比指標求平均計算得來,而交并比是真實區(qū)域與預(yù)測區(qū)域的交集像素數(shù)量與真實區(qū)域與預(yù)測區(qū)域的并集像素數(shù)量的比值。由于均交并比具有簡潔性的特點,且代表性強,因此本文選用均交并比(MIoU)作為圖像分割質(zhì)量好壞的評價指標。
分別對1 000張單一背景服裝圖像和復(fù)雜背景圖像采用本文方法進行服裝圖像輪廓分割,并和傳統(tǒng)基于人工交互GrabCut進行對比,得到如表1所示的實驗結(jié)果。
表1 單一/復(fù)雜背景下本文方法與GrabCut方法對比Tab.1 Comparison between this method and Grab Cut method under single/ complex background
表1示出,在單一背景下,本文方法和傳統(tǒng)基于人工交互GrabCut方法相比,均交并比(MIoU)下降1.42%,非常接近;但在復(fù)雜背景下,由于本文基于卷積姿態(tài)機對服裝進行了很好的關(guān)鍵點定位且人工交互具有一定主觀性,其分割效果反而比傳統(tǒng)基于人工交互GrabCut方法要好,均交并比(MIoU)提升了2.12%。
此外,本文方法也存在少數(shù)分割效果不太精確的情況,如圖7所示。這是因為這些圖片中包含其他非真實的服裝關(guān)鍵點信息,導(dǎo)致服裝關(guān)鍵點定位發(fā)生一定偏差,所以才會出現(xiàn)分割效果不理想的情況,在后續(xù)的研究中,需要對卷積姿態(tài)機網(wǎng)絡(luò)進一步進行訓(xùn)練優(yōu)化,提升服裝關(guān)鍵點定位效果。
圖7 分割效果不理想的情況Fig.7 Segmentation effect is not ideal. (a) Original image; (b) Image processed by convolution attitude machine; (c) Image forming a rectangular frame; (d) Image segmented by GrabCut
針對傳統(tǒng)基于GrabCut算法進行服裝圖像分割需要人工交互的不足,本文提出了一種基于卷積姿態(tài)機(Convolutional Pose Machines)和GrabCut的服裝圖像輪廓分割方法,該方法采用卷積姿態(tài)機實現(xiàn)服裝在圖像中的關(guān)鍵點定位,形成矩形框后,作為GrabCut算法的初始矩形框,經(jīng)過GrabCut算法處理后,分割出服裝圖像。結(jié)果表明,該方法不僅能解決需要人工交互的問題,實現(xiàn)自動提取圖像的目的,而且對復(fù)雜背景的圖像分割也具有很好的分割效果,對于大批量服裝圖像自動分割處理,具有較強的實用性。