姚 超, 劉桂華, 趙 森, 林 杰
(1.西南科技大學(xué) 信息工程學(xué)院,四川 綿陽(yáng) 621010; 2.特殊環(huán)境機(jī)器人技術(shù)四川省重點(diǎn)試驗(yàn)室,四川 綿陽(yáng) 621010;3.電子科技大學(xué) 公共管理學(xué)院,四川 成都 611731)
中國(guó)剪紙的設(shè)計(jì)、畫樣、開版在過去發(fā)展的幾百年以來(lái)一直都是行業(yè)創(chuàng)新發(fā)展的瓶頸,為解決剪紙?jiān)O(shè)計(jì)耗時(shí)長(zhǎng)、成本高和效率低等關(guān)鍵性問題。國(guó)內(nèi)外目前已有一些學(xué)者對(duì)自動(dòng)化剪紙?jiān)O(shè)計(jì)開展了一些研究,但大多數(shù)研究都采用傳統(tǒng)分割算法[1~3]來(lái)解決剪紙?jiān)O(shè)計(jì)問題,而在深度學(xué)習(xí)[4]領(lǐng)域,圖像檢測(cè)[5]和語(yǔ)義分割[6]大多采用深度卷積神經(jīng)網(wǎng)絡(luò)[7]。2015年Long J等人[8]提出的全卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了能突顯細(xì)節(jié)的圖像分割,然而多層的卷積和池化會(huì)導(dǎo)致丟失上下文信息;Chen L C等人[9]提出來(lái)的DeepLab網(wǎng)絡(luò),加入空洞卷積使得分割精度大幅提升,然而剪紙?jiān)O(shè)計(jì)任務(wù)訓(xùn)練格外耗時(shí)。2018年王能玉等人[10]設(shè)計(jì)了基于深度學(xué)習(xí)和圖像處理的圖像剪紙平臺(tái),具有重要的探索意義。但是并未對(duì)深度學(xué)習(xí)算法以及剪紙?jiān)O(shè)計(jì)作品效果進(jìn)行深入研究。
通過對(duì)上述問題的綜合考慮,本文改進(jìn)Unet[11]神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在編碼階段的激活層用LeakyReLU激活函數(shù),解決網(wǎng)絡(luò)在人物特征較弱區(qū)域無(wú)法提取弱特征的問題。編碼階段末端將傳統(tǒng)的卷積組合替換為空洞卷積,并對(duì)人物特征進(jìn)行多尺度提取與融合,以此獲得更強(qiáng)表現(xiàn)力的特征描述。
在剪紙?jiān)O(shè)計(jì)任務(wù)中,人物原圖包含的特征信息和像素之間的關(guān)系都對(duì)最后的剪紙?jiān)O(shè)計(jì)效果具有顯著影響,同時(shí)人物剪紙分割任務(wù)與Unet的醫(yī)學(xué)細(xì)胞分割任務(wù)都是二分類。因此PC-Unet算法在Unet的基礎(chǔ)上進(jìn)行改進(jìn),整體框架如圖1所示。PC-Unet的網(wǎng)絡(luò)架構(gòu)保持了原有的U形狀架構(gòu),即“編碼器—解碼器”結(jié)構(gòu),其中主要用到了卷積、反卷積、空洞卷積、池化層、激活函數(shù)等模塊。為了提升模型訓(xùn)練效率,網(wǎng)絡(luò)的輸入為灰度化的人物圖像,輸出的分割圖像也為灰度圖,再改變像素顏色最終生成剪紙風(fēng)格圖像。該網(wǎng)絡(luò)在自制的人物剪紙數(shù)據(jù)集上達(dá)到了95.4 %的準(zhǔn)確率(accuracy)。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
在PC-Unet網(wǎng)絡(luò)中的編碼結(jié)構(gòu)中,前八層采用的是類似于VGG[12]的卷積層,使用多個(gè)連續(xù)的3×3的卷積層來(lái)加深網(wǎng)絡(luò),并在激活層使用LeakyReLU函數(shù),在下采樣過程中使用了步長(zhǎng)為2,核大小 2×2的最大池化;接下來(lái)進(jìn)行三層不同系數(shù)的空洞卷積與Add方法[13]的特征融合,以獲取圖像中更豐富的組合特征信息和更大的感受野。在解碼過程中,本文采用反卷積進(jìn)行4次上采樣,同時(shí)每一層反卷積的輸入都合并了對(duì)應(yīng)位置的下采樣的輸出,這樣可以使編碼階段提取的底層特征與解碼階段提取的高層特征相融合,以此形成更豐富的特征描述。
本文采用、ReLU激活函數(shù)改良、的LeakyReLU函數(shù)、
(1)
式中α為偏移量。
本文在PC-Unet的編碼階段采用了LeakyReLU函數(shù)作為激活函數(shù),使得模型較弱特征的提取能力達(dá)到最佳,也解決了神經(jīng)元在負(fù)區(qū)間存在梯度不更新的問題,解碼階段采用了ReLU函數(shù)作為激活函數(shù);而在分類中使用Sigmoid 函數(shù)作為激活函數(shù)。
二維空間的空洞卷積(dilated convolution)的定義如下
(F*lk)(P)=∑s+lt=PF(s)k(t)
(2)
式中F為輸入的圖像(二維信號(hào)),s為其定義域;l,P分別為空洞卷積的系數(shù)與定義域;k為核函數(shù),t為其定義域。圖2為感受野與空洞卷積之間的關(guān)系。
在圖2中,卷積核大小都為3×3,圖(c)感受野相比于圖(a),(b)增加了數(shù)倍。在空洞卷積操作中,當(dāng)卷積核變大時(shí),其感受野大小呈指數(shù)級(jí)增加。這種特點(diǎn)很適合在圖像分割任務(wù)中使用,同時(shí)因?yàn)楸疚牡募艏堅(jiān)O(shè)計(jì)包含人物臉部等相對(duì)較復(fù)雜的特征,所以,將空洞卷積加入到本文的圖像分割模型中以獲取更大的感受野,使得模型訓(xùn)練中精確的提取人物特征。
圖2 空洞卷積
在PC-Unet網(wǎng)絡(luò)中,在編碼階段末端,本文對(duì)下采樣獲取的特征分別進(jìn)行系數(shù)為1,2,4的空洞卷積,更大程度提取尺度不同的特征,再通過Add方式來(lái)融合這些尺度不同的特征,得到更強(qiáng)表現(xiàn)力的人物特征。在參數(shù)不增加的情況下,實(shí)驗(yàn)表明加入空洞卷積后圖像的分割效果會(huì)更佳。
本次實(shí)驗(yàn)在64位Windows10+python3.5+TenSorflow1.10.0的軟件環(huán)境下實(shí)現(xiàn),所用到的設(shè)備硬件信息:CPU型號(hào)i5-9300H,顯卡芯片GTX1660Ti,6G,cuda-v9.0。本文所研究方法屬于圖像二分類任務(wù),因此損失函數(shù)采用二進(jìn)制交叉熵?fù)p失(binary cross entropy loss)函數(shù)。LeakyReLU激活函數(shù)偏移量α為0.02,此時(shí)模型的弱特征提取能力最好的。
本文選擇河北剪紙風(fēng)格為基礎(chǔ)制作數(shù)據(jù)集,通過收集剪紙藝人的已有剪紙?jiān)O(shè)計(jì)作品以及為滿足實(shí)驗(yàn)需求而特意委托剪紙藝人借助Photoshop等軟件進(jìn)行人工設(shè)計(jì),以滿足人物剪紙數(shù)據(jù)集的需要。所收集的數(shù)據(jù)集分為人物原圖(images)與剪紙?jiān)O(shè)計(jì)圖(label),數(shù)量共9 422對(duì),其中,人物的姿勢(shì)、表情種類豐富,人物年齡跨度大。部分人物剪紙數(shù)據(jù)集如圖3所示。
圖3 人物剪紙數(shù)據(jù)集部分示例
數(shù)據(jù)集分為訓(xùn)練集(80 %)和測(cè)試集(20 %),訓(xùn)練時(shí)將原圖大小縮放至256×256,同時(shí)進(jìn)行灰度化處化處理。訓(xùn)練或測(cè)試時(shí),對(duì)加載的數(shù)據(jù)都通過除以255來(lái)歸一化,以利于網(wǎng)絡(luò)的優(yōu)化。由于數(shù)據(jù)集數(shù)量較小,因此通過翻轉(zhuǎn)和隨機(jī)裁剪的數(shù)據(jù)增強(qiáng)方式來(lái)擴(kuò)充訓(xùn)練樣本數(shù)量。
本文采用交并比(IoU)和平均像素精度(PA)值作為算法的主要定量評(píng)價(jià)指標(biāo),網(wǎng)絡(luò)訓(xùn)練時(shí)長(zhǎng)作為輔助評(píng)價(jià)指標(biāo)。有
(3)
式中 本文的分類目標(biāo)只有兩類,記為正、負(fù)例,TP為被正確地劃分為正例的個(gè)數(shù),F(xiàn)P,FN分別為被錯(cuò)誤地劃分為正和負(fù)例的個(gè)數(shù);k為目標(biāo)的類別數(shù)(包含空類),pii,pij分別為真實(shí)像素類別為的像素被預(yù)測(cè)為類別i和j的的總數(shù)量。在定量對(duì)比實(shí)驗(yàn)中,為確保公平性,所有實(shí)驗(yàn)的訓(xùn)練周期都為100次,用本文自制剪紙數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。本文算法與其他算法對(duì)比如表1所示??梢钥闯觯谟?xùn)練時(shí)長(zhǎng)相近的FCN,Unet和PC-Unet中,本文提出的PC-Unet的IoU和PA值明顯高于其他兩類網(wǎng)絡(luò)。由于PC-Unet加入了空洞卷積模塊,因此,將DeepLab v3網(wǎng)絡(luò)也進(jìn)行相同訓(xùn)練策略的對(duì)比實(shí)驗(yàn)。在IoU和PA指標(biāo)上,DeepLab v3與PC-Unet表現(xiàn)都很優(yōu)良,但是前者的訓(xùn)練時(shí)長(zhǎng)明顯不具備優(yōu)勢(shì)。傳統(tǒng)手工剪紙?jiān)O(shè)計(jì)平均耗時(shí)2 h,而本文算法在設(shè)計(jì)一幅剪紙作品所耗時(shí)間均在10 min內(nèi),極大提高了剪紙?jiān)O(shè)計(jì)效率。
表1 與其他網(wǎng)絡(luò)的比較
表2中列出了在剪紙數(shù)據(jù)集上的消融實(shí)驗(yàn)的實(shí)驗(yàn)數(shù)據(jù),PC-Unet(l)表示只改用LeakyReLU激活函數(shù),PC-Unet(d)表示只加入空洞卷積??梢钥闯觯疚乃岢龅膬蓚€(gè)改進(jìn)模塊都加入網(wǎng)絡(luò)結(jié)構(gòu)中后,IoU值增加3 %~5 %,PA值增加1 %~2 %。改用LeakyReLU激活函數(shù)和加入空洞卷積模塊,可以使得網(wǎng)絡(luò)提取較弱特征的能力加強(qiáng),同時(shí)能夠提取更加豐富的人物特征。實(shí)驗(yàn)表明,兩個(gè)模塊都對(duì)剪紙?jiān)O(shè)計(jì)任務(wù)的分割精度有明顯提升。
表2 消融實(shí)驗(yàn)
如圖4所示,將PC-Unet和其他優(yōu)秀的圖像分割方法在主觀視覺上進(jìn)行對(duì)比。
圖4 可視化實(shí)驗(yàn)對(duì)比
在圖4中,同一幅圖在不同算法中生成的人物剪紙?jiān)O(shè)計(jì)圖,從左之至右依次為(a)人物原圖;(b)圖像閾值分割法;(c)FCN;(d)Unet;(e)DeepLab;(f)DeepLab v3;(g)PC-Unet;(h)手工剪紙?jiān)O(shè)計(jì)圖??梢钥闯觯瑐鹘y(tǒng)算法生成的人物剪紙?jiān)O(shè)計(jì)圖效果較差,噪聲大,邊緣模糊,人臉處理能力低;而U-Net網(wǎng)絡(luò)生成的人物剪紙?jiān)O(shè)計(jì)圖有明顯改善,能較為清楚的分割出人物輪廓,但存在細(xì)節(jié)模糊和噪聲大的問題;本文所提出的PC-Unet網(wǎng)絡(luò)生成的人物剪紙?jiān)O(shè)計(jì)圖效果較為理想,人物輪廓清晰,五官都能準(zhǔn)確分割,且整體噪聲極小。
在西南科技大學(xué)隨機(jī)邀請(qǐng)100名測(cè)試者,對(duì)4種不同算法分別生成的30張人物剪紙?jiān)O(shè)計(jì)圖(此30張圖皆對(duì)應(yīng)有由專業(yè)剪紙?jiān)O(shè)計(jì)公司藝人設(shè)計(jì)的手工設(shè)計(jì)圖)進(jìn)行分組排序,要求測(cè)試者隨機(jī)抽取一組實(shí)驗(yàn)圖片,在觀看手工設(shè)計(jì)圖后對(duì)實(shí)驗(yàn)圖打分,1分表示測(cè)試圖與手工設(shè)計(jì)圖風(fēng)格差距最大,5分則表示測(cè)試圖與手工設(shè)計(jì)圖風(fēng)格最接近,測(cè)評(píng)數(shù)據(jù)如圖5??梢钥吹?,在FCN與Unet網(wǎng)絡(luò)中,給出1~3分的人數(shù)高達(dá)99和82,給出5分的人數(shù)卻為0和5;而在DeepLab v3和本文提出的PC-Unet網(wǎng)絡(luò)中,給出5分的人數(shù)為44和46。通過整體數(shù)據(jù)來(lái)看,4種網(wǎng)絡(luò)中,得分情況最好的為PC-Unet,數(shù)據(jù)表明PC-Unet的剪紙?jiān)O(shè)計(jì)圖與手工設(shè)計(jì)圖風(fēng)格最為接近。
圖5 網(wǎng)絡(luò)得分?jǐn)?shù)據(jù)
本文提出了一種基于圖像分割算法與空洞卷積相結(jié)合的算法。通過制作人物剪紙?jiān)O(shè)計(jì)圖數(shù)據(jù)集,對(duì)Unet模型進(jìn)行激活函數(shù)改進(jìn),在此基礎(chǔ)上,結(jié)合空洞卷積和特征融合模塊得到新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最終訓(xùn)練模型學(xué)習(xí)特征,生成較為接近真實(shí)剪紙風(fēng)格的人物剪紙?jiān)O(shè)計(jì)圖。但是也存在一些缺點(diǎn),例如當(dāng)圖像背景過于密集復(fù)雜時(shí),生成的人物輪廓就會(huì)產(chǎn)生邊緣模糊粗糙的情況,后續(xù)可考慮擴(kuò)充數(shù)據(jù)集以訓(xùn)練更好的網(wǎng)絡(luò)模型。