曹建芳,田曉東,賈一鳴,閆敏敏
(1.太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024;2.忻州師范學(xué)院計(jì)算機(jī)系,山西忻州 034000)
(*通信作者電子郵箱kcxdj122@126.com)
古代壁畫(huà)是承載中國(guó)文化的載體,有著極為珍貴的歷史價(jià)值,然而在自然環(huán)境及人為環(huán)境的影響下,年代久遠(yuǎn)的古壁畫(huà)都出現(xiàn)了不同程度的病害,壁畫(huà)內(nèi)容受到嚴(yán)重?fù)p壞,壁畫(huà)圖像修復(fù)成為文物工作者和歷史研究人員在分析古代壁畫(huà)過(guò)程中遇到的主要難題之一。圖像分割技術(shù)作為圖像保護(hù)工作中不可分割的一部分,應(yīng)用在壁畫(huà)修復(fù)工作中可以減少工作耗時(shí),提高壁畫(huà)修復(fù)效率。
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,是基于人工神經(jīng)網(wǎng)絡(luò)的一種學(xué)習(xí)方法,它模仿人腦來(lái)處理和解釋數(shù)據(jù),被廣泛應(yīng)用于圖像處理、聲音處理等多個(gè)領(lǐng)域。深度學(xué)習(xí)可以將神經(jīng)網(wǎng)絡(luò)與概率模型相結(jié)合,提升圖像模型的推理能力,所以,在圖像分割領(lǐng)域,各種基于深度學(xué)習(xí)的圖像分割模型被提出,有效解決了傳統(tǒng)分割方法中存在的圖像邊緣分割模糊、分割圖像信息缺失等一系列問(wèn)題。最初,研究者利用全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[1]或者改進(jìn)的FCN 進(jìn)行圖像分割,特點(diǎn)是將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]的全連接層換成了卷積層,適應(yīng)任意尺寸的輸入,并輸出低分辨率的分割圖片。但是,該方法存在明顯的弊端,F(xiàn)CN 的邊緣分割性較差,分割圖像的輪廓模糊。Chen等[3]針對(duì)該問(wèn)題提出了DeepLabV1 模型,該模型使用全連接條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)進(jìn)行邊界分割的優(yōu)化,有效解決了FCN 中存在的邊緣輪廓分割問(wèn)題。DeepLabV3+[4]模型是對(duì)前一代DeepLabV3模型的一種新的改進(jìn)方案,可以幫助研究者細(xì)化分割的結(jié)果,在物體邊界的劃分效果上較好。2019 年,任鳳雷等[5]將DeepLabV3+模型與超像素分割算法SLIC(Simple Linear Iterative Cluster)相結(jié)合,實(shí)驗(yàn)證明DeepLabV3+相對(duì)于FCN、SegNet(Segment Network)[6]分割模型具有更好圖像細(xì)節(jié)還原能力。
在古代壁畫(huà)圖像分割方面,多使用傳統(tǒng)分割方式,分割模型不具有普遍適用性。傳統(tǒng)壁畫(huà)分割有以下幾種方式:其一是利用模糊C 均值(Fuzzy C-Means,F(xiàn)CM)[7-8],這種基于目標(biāo)的模糊聚類算法應(yīng)用廣泛,算法理論成熟;但是該算法用在壁畫(huà)分割領(lǐng)域會(huì)受到樣本不平衡的影響,當(dāng)不同種類的樣本容量不一致的時(shí)候,會(huì)導(dǎo)致某類分割樣本很難接近目標(biāo)樣本,從而導(dǎo)致分割效果較差。其二是均值漂移(Mean Shift)算法[9-11],其本質(zhì)是一種核密度估計(jì)算法,但是該算法運(yùn)行速度慢,在壁畫(huà)分割方面只適用于已經(jīng)建立標(biāo)準(zhǔn)特征的特征數(shù)據(jù)點(diǎn)集,容易出現(xiàn)目標(biāo)物之外的圖像存在或缺失部分目標(biāo)物,且在進(jìn)行批量分割時(shí)效果有限。第三種傳統(tǒng)壁畫(huà)分割算法Graph Cuts[12-14],利用圖的形式來(lái)求解能量函數(shù),從而給圖的邊緣賦予相應(yīng)的權(quán)值,將能量函數(shù)轉(zhuǎn)化為S/T 圖,以完成圖像分割。但是該方法在處理含有噪聲或遮擋時(shí),分割效果較差,需要手動(dòng)標(biāo)注部分前后景像素點(diǎn),存在人工干預(yù)等一系列問(wèn)題。
基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能,本文提出一種將輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)MobileNetV2(Mobile Network Version 2)[15]與DeepLabV3+模型相結(jié)合的多分類輕量級(jí)網(wǎng)絡(luò)分割模型(Multi-Class DeepLabV3+MobileNetV2,MC-DM),模型利用DeepLabV3+結(jié)構(gòu)收集圖像的多尺度信息,有效避免圖像語(yǔ)義信息缺失。使用輕量級(jí)神經(jīng)網(wǎng)絡(luò)的好處是一方面能保證圖像分割的準(zhǔn)確性,另一方面能提高模型的計(jì)算速度,適應(yīng)移動(dòng)端的應(yīng)用。MobileNetV2在輕量級(jí)神經(jīng)網(wǎng)絡(luò)中具有代表性,利用MobileNetV2 卷積神經(jīng)網(wǎng)絡(luò)提取特征,可以提高壁畫(huà)分割效率,降低硬件條件限制對(duì)分割效果的影響[16]。相對(duì)于傳統(tǒng)FCM算法,本文模型利用加權(quán)的損失函數(shù),為不同類別圖像設(shè)置不同的權(quán)重,凸顯小目標(biāo)樣本,以減少樣本不平衡對(duì)實(shí)驗(yàn)造成的影響。同時(shí)本文在實(shí)驗(yàn)過(guò)程中對(duì)不同種類的數(shù)據(jù)樣本進(jìn)行數(shù)量上的統(tǒng)一,減少少數(shù)類和多數(shù)類樣本對(duì)實(shí)驗(yàn)結(jié)果的影響,更好地解決了樣本不均衡問(wèn)題。相對(duì)于均值漂移算法,DeepLabV3+模型中含有的解碼器模塊和空間金字塔池有效解決了圖像缺失等問(wèn)題,利用卷積網(wǎng)絡(luò)對(duì)目標(biāo)特征進(jìn)行提取,減少目標(biāo)信息的損失,優(yōu)化了分割結(jié)果;同時(shí),模型利用卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,直接對(duì)處理好的數(shù)據(jù)集進(jìn)行訓(xùn)練,有效避免人為干預(yù)對(duì)實(shí)驗(yàn)結(jié)果的影響,有效解決了Graph Cuts算法存在的弊端。
本文實(shí)驗(yàn)?zāi)繕?biāo)是利用MC-DM 模型對(duì)壁畫(huà)中常見(jiàn)的圖像元素進(jìn)行分割。實(shí)驗(yàn)證明,該模型運(yùn)用在壁畫(huà)圖像分割過(guò)程中,分割精度和效率都有不同程度的提升,對(duì)圖像分割邊緣連續(xù)性方面有著很好的魯棒性。
MobileNetV2 卷積神經(jīng)網(wǎng)絡(luò)的提出是為了解決在圖像模型訓(xùn)練過(guò)程中出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)龐大、硬件訓(xùn)練不足等問(wèn)題,它是解除深度學(xué)習(xí)模型在移動(dòng)端部署硬件內(nèi)存限制的一種重要方式[17],是繼SqueezeNet(Squeeze Network)[18]、ShuffleNet(Shuffle Network)[19]、Xception[20]等輕量級(jí)神經(jīng)卷積網(wǎng)絡(luò)后又一重要發(fā)明。該網(wǎng)絡(luò)的核心部分是深度可分離卷積,操作包含縱向卷積(DepthWise convolution,DW)和點(diǎn)卷積(PointWise convolution,PW)兩個(gè)部分。卷積核為3×3 且通道個(gè)數(shù)值較大的情況下,深度可分離卷積較普通卷積可以減少90%的計(jì)算量。
在第一代輕量級(jí)網(wǎng)絡(luò)MobileNetV1(Mobile Network Version 1)的基礎(chǔ)上,MobileNetV2網(wǎng)絡(luò)引入倒轉(zhuǎn)殘差(Inverted Residual)和線性瓶頸(Linear Bottleneck)的概念[16],由于DW卷積并不能改變通道數(shù),所以導(dǎo)致特征提取在輸入的通道數(shù)上受限。這兩個(gè)部分將低維壓縮作為輸入,將其擴(kuò)展為高維,之后利用輕量級(jí)深度卷積進(jìn)行濾波,所得特征通過(guò)線性卷積投射到低維中表示。MobileNetV2的網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
表1 MobileNetV2的網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Network structure of MobileNetV2
表1中,t表示擴(kuò)張系數(shù),c表示輸出通道數(shù),n表示卷積層的重復(fù)次數(shù),s表示步幅。每個(gè)序列的第1層有1個(gè)步幅,其他所有層都使用的步幅都為1,所有空間卷積都使用3×3的卷積核。1個(gè)bottleneck包含擴(kuò)張、卷積和壓縮3部分,每一行描述一個(gè)或多個(gè)序列,重復(fù)n次,且同一序列中的所有層具有相同數(shù)量的輸出信道。MobileNetV2通過(guò)利用不完全具體化的中間張量,解決了推理過(guò)程中存在的內(nèi)存占用量較大的問(wèn)題,應(yīng)用于壁畫(huà)分割上可以減少多數(shù)嵌入式硬件設(shè)計(jì)中對(duì)主存訪問(wèn)的需求。
DeepLabV3+模型是對(duì)DeepLabV3 模型的改進(jìn),以殘差網(wǎng)絡(luò)(Residual Network,ResNet)為底層網(wǎng)絡(luò),添加了編碼解碼結(jié)構(gòu)(Encoder-Decoder),通過(guò)恢復(fù)空間信息獲得清晰的對(duì)象邊界,從而優(yōu)化邊界分割。利用ResNet 或Xception 網(wǎng)絡(luò)對(duì)輸入圖像作特征提取,之后利用空間金字塔池(Atrous Spatial Pyramid Pooling,ASPP),將圖像特征進(jìn)行融合,避免信息損失。在DeepLabV3+模型中,將DeepLabV3 模型作為Encoder部分,外接一個(gè)簡(jiǎn)單有效的解碼器模塊來(lái)獲得清晰效果。
DeepLabV3+中采用了多種空洞率(rate)的空洞卷積,以并聯(lián)的方式有效提取語(yǔ)境信息,該結(jié)構(gòu)使用ASPP模型來(lái)提供多尺度信息,其結(jié)構(gòu)如圖1所示。
圖1 ASPP模型結(jié)構(gòu)Fig.1 Structure of ASPP model
ASPP 模塊包括一個(gè)1×1 卷積和3 個(gè)3×3 的空洞卷積,采樣率為rate=6、rate=12、rate=18。在DeepLabv3+模型中,輸入圖片經(jīng)過(guò)主干深度神經(jīng)卷積網(wǎng)絡(luò)后產(chǎn)生的結(jié)果分為兩部分,一部分進(jìn)入Decoder,另一部分進(jìn)入并行的空洞卷積結(jié)構(gòu),即ASPP 模型中。分別用不同rate的空洞卷積進(jìn)行特征提取,而后進(jìn)行合并,合并之后再進(jìn)行1×1 卷積,對(duì)其進(jìn)行特征壓縮,對(duì)壓縮后的特征圖利用雙線性插值的方法上采樣四倍傳入Decoder中。
DeepLabV3+底層網(wǎng)絡(luò)適應(yīng)性強(qiáng),為了追求分割精度,研究者們將ResNet 融入其中。此類模型分類精確度高,但是模型深度不斷加深,從而導(dǎo)致模型復(fù)雜度增加。復(fù)雜的分割模型會(huì)受到硬件內(nèi)存的制約,對(duì)移動(dòng)端或嵌入式設(shè)備要求較高,不能滿足特定場(chǎng)景中的低延遲、高響應(yīng)率的分割要求。為解決這樣的問(wèn)題,本文提出了一種將輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNetV2 與分割模型DeepLabV3+相融合的分割模型。模型中的Encoder模塊用于減少特征損失,捕獲更高級(jí)別的語(yǔ)義信息;Decoder 模塊用來(lái)提取細(xì)節(jié),恢復(fù)空間信息。模型將卷積分解為兩個(gè)獨(dú)立層因子來(lái)替換完整的卷積算子,通過(guò)對(duì)每個(gè)輸入通道的應(yīng)用單個(gè)卷積濾波來(lái)執(zhí)行輕量濾波,之后通過(guò)輸入通道的線性組合來(lái)構(gòu)建新的特征。卷積網(wǎng)絡(luò)的改變提高了DeepLabV3+解碼器模塊恢復(fù)詳細(xì)對(duì)象邊界的性能。
在同一數(shù)據(jù)集的前提下,相較于ResNet、Xception 等卷積網(wǎng)絡(luò),MC-DM 模型使用的網(wǎng)絡(luò)在分割效率上優(yōu)勢(shì)明顯。該模型與傳統(tǒng)DeepLabV3+最大的不同便是沒(méi)有使用標(biāo)準(zhǔn)卷積提取特征,而是使用能在高維上進(jìn)行特征提取的DW 卷積,方法的優(yōu)點(diǎn)是使得MC-DM 模型的計(jì)算量要遠(yuǎn)小于傳統(tǒng)DeepLabV3+模型,應(yīng)用在壁畫(huà)分割領(lǐng)域可以在保證準(zhǔn)確率的同時(shí)滿足壁畫(huà)分割的高效需求。
改進(jìn)模型如圖2所示。
圖2 MC-DM模型Fig.2 MC-DM model
圖2 中,結(jié)構(gòu)A 表示空洞卷積,該結(jié)構(gòu)將MobileNetV2 中以任意分辨率計(jì)算的特征提取出來(lái),在全局池化之前,利用輸入圖像空間分辨率與最終輸出圖像空間分辨率的比率來(lái)作為輸出步幅,根據(jù)計(jì)算資源的預(yù)算來(lái)控制編碼器特征的密度。對(duì)于語(yǔ)義分割任務(wù)來(lái)說(shuō),在去除最后一個(gè)或兩個(gè)塊中的跨距后采用步幅為16 的輸出來(lái)進(jìn)行更密集的特征提取。因?yàn)楫?dāng)Decoder 輸出步幅為8 時(shí),分割性能相對(duì)于輸出步幅為16 時(shí),性能雖有提升,但會(huì)增加計(jì)算的復(fù)雜度。所以在MC-DM 模型中,編碼器模塊采用的輸出步幅為16,這樣做的好處是平衡了分割精度和速度。
結(jié)構(gòu)B 表示的是結(jié)合MobileNetV2 卷積網(wǎng)絡(luò)的空間金字塔池,該結(jié)構(gòu)使用不同空洞率的空洞卷積將MobileNetV2計(jì)算出的特征進(jìn)行多尺度融合,豐富語(yǔ)義信息的同時(shí)有效權(quán)衡了精度和運(yùn)行時(shí)間。
結(jié)構(gòu)C 由兩個(gè)具有不同卷積核的卷積結(jié)構(gòu)組成,作用是利用相同的卷積網(wǎng)絡(luò)來(lái)減少信道數(shù)量,解決低層特征包含大量通道而導(dǎo)致的訓(xùn)練困難問(wèn)題。在GPU 資源有限的情況下,將模型的輸出步幅設(shè)為4,對(duì)密度特征映射進(jìn)行適當(dāng)取舍,簡(jiǎn)化Decoder模塊。
MC-DM分割模型的工作流程可以描述為以下步驟。
步驟1 將固定大小和分辨率的壁畫(huà)圖片輸入分割模型中。
步驟2 利用改進(jìn)的深度可分離網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,利用空洞卷積保留壁畫(huà)圖像細(xì)節(jié)信息。
步驟3 低級(jí)特征分流,分別進(jìn)入ASPP 結(jié)構(gòu)和Decoder結(jié)構(gòu),最大限度保留圖像特征信息。
步驟4 經(jīng)過(guò)ASPP結(jié)構(gòu)的特征信息通過(guò)1×1卷積進(jìn)行多尺度融合,融合結(jié)果輸入Decoder結(jié)構(gòu);初始進(jìn)入Decoder結(jié)構(gòu)的低級(jí)特征通過(guò)不同卷積層細(xì)化特征。
步驟5 Encoder輸出特征圖通過(guò)雙線性插值的方法進(jìn)行上采樣,大小與Decoder中特征細(xì)化后的特征圖相同。將采樣結(jié)果與細(xì)化結(jié)果再次特征融合,獲得特征更為豐富的壁畫(huà)圖像。
步驟6 對(duì)特征融合圖像再次上采樣,得到與輸入圖像參數(shù)相同的分割圖像,分割過(guò)程結(jié)束。
實(shí)驗(yàn)的PC 環(huán)境為Windows10 系統(tǒng),Inter Core i7-9750H CPU,GPU 為NVIDIA GeForce 1660Ti,8 GB 內(nèi) 存。利 用TensorFlow深度學(xué)習(xí)框架來(lái)訓(xùn)練和測(cè)試文中的語(yǔ)義分割模型。
DeepLabV3+的數(shù)據(jù)集使用的是單通道標(biāo)注圖,實(shí)驗(yàn)圖片來(lái)自《中國(guó)敦煌壁畫(huà)全集》的畫(huà)冊(cè)掃描圖片,將收集到的圖片利用Adobe Photoshop2018 進(jìn)行等規(guī)格的裁剪,制作成分辨率為224×224 大小的圖片,之后將所有處理過(guò)后的圖片整合成為原始數(shù)據(jù)集。通過(guò)圖形界面標(biāo)注軟件lableme 對(duì)原始數(shù)據(jù)集中的圖片進(jìn)行圖像標(biāo)注,生成json文件,最后批量轉(zhuǎn)化為分辨率大小為224×224、位深度為24 的灰度圖。本文模型使用的數(shù)據(jù)集是由原始數(shù)據(jù)集和轉(zhuǎn)化后的灰度圖形成的數(shù)據(jù)集組合而成。數(shù)據(jù)集樣本圖如圖3所示。
圖3 DeepLabV3+數(shù)據(jù)集樣本Fig.3 Sample of DeepLabV3+dataset
圖3(a)代表掃描圖片,在此基礎(chǔ)上,利用浮點(diǎn)對(duì)掃描圖片的邊緣進(jìn)行逐點(diǎn)標(biāo)注,將標(biāo)注點(diǎn)連接形成圖3(b)所示的結(jié)果。之后根據(jù)原圖和標(biāo)注圖,訓(xùn)練出單通道灰度圖,與掃描圖合并形成數(shù)據(jù)集。該數(shù)據(jù)集含有圖片1 000 張,分為動(dòng)物、屋舍、人、祥云、佛像五類,每類有訓(xùn)練圖片200 張。通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行分割,在分割結(jié)果中,圖片的像素顏色共有6 種,對(duì)應(yīng)包含背景在內(nèi)的6 類物體。利用letterbox 函數(shù)對(duì)圖像進(jìn)行預(yù)處理,防止在訓(xùn)練過(guò)程中出現(xiàn)圖像失幀。在圖像分割領(lǐng)域,常用數(shù)據(jù)集包含的數(shù)據(jù)量多達(dá)幾萬(wàn)甚至幾十萬(wàn)以上,以滿足模型學(xué)習(xí)需要,提高分割精確度,并減少由于圖像過(guò)少而產(chǎn)生過(guò)擬合現(xiàn)象。本文所使用的數(shù)據(jù)集數(shù)據(jù)量相對(duì)較少,所以由實(shí)驗(yàn)對(duì)獲得的圖片進(jìn)行增強(qiáng),從而減少過(guò)擬合、欠擬合等現(xiàn)象的發(fā)生。增強(qiáng)方式為改變圖片顏色、增加噪聲和改變亮度的方式進(jìn)行。圖4為數(shù)據(jù)增強(qiáng)所得圖片。
圖4(a)列所示為原圖,后四列為增強(qiáng)圖像,由于利用函數(shù)增強(qiáng)具有隨機(jī)性,所得結(jié)果需要經(jīng)過(guò)多次測(cè)試。實(shí)驗(yàn)階段,數(shù)據(jù)集90%用于訓(xùn)練,10%用于預(yù)測(cè)。使用交叉熵?fù)p失函數(shù)(cross entropy)作為分割模型的損失函數(shù),交叉熵?fù)p失函數(shù)是圖像分割中常用的損失函數(shù),該函數(shù)單獨(dú)評(píng)估每個(gè)限速矢量的類預(yù)測(cè),然后對(duì)像素求平均值。若出現(xiàn)樣本不平衡現(xiàn)象,將小目標(biāo)樣本的權(quán)值進(jìn)行重新設(shè)置,直到達(dá)到較好的分割效果。在該損失函數(shù)下,模型的損失值變化如圖5所示。
圖4 數(shù)據(jù)增強(qiáng)圖像Fig.4 Images obtained by data augmentation
圖5 MC-DM模型損失值變化Fig.5 Loss value change of MC-DM model
實(shí)驗(yàn)以測(cè)試集準(zhǔn)確率為限,將測(cè)試集損失值val_loss作為被監(jiān)測(cè)的量,利用回調(diào)函數(shù)中的ReduceLROnPlateau來(lái)監(jiān)測(cè)val_loss,當(dāng)該值連續(xù)兩次不下降時(shí),降低學(xué)習(xí)率繼續(xù)訓(xùn)練,當(dāng)損失值趨于穩(wěn)定則訓(xùn)練截止。由于數(shù)據(jù)集樣本數(shù)量少,設(shè)置batch size 大小為2,每?jī)蓚€(gè)樣本更新一次參數(shù),1個(gè)epoch中提取500 次batch,這樣才可以將每一個(gè)樣本提取一遍,更新了500 遍此參數(shù)。數(shù)據(jù)每30epoch 保存一次,分割精度變化如圖6所示。
圖6 MC-DM模型訓(xùn)練精度變化Fig.6 Training accuracy change of MC-DM model
為提高實(shí)驗(yàn)訓(xùn)練精度,前10 代測(cè)試集損失值取值范圍較大,從而導(dǎo)致實(shí)驗(yàn)測(cè)試集訓(xùn)練精度波動(dòng)較大。10 代之后實(shí)驗(yàn)整體精確度和測(cè)試集訓(xùn)練精確度逐步上升,第40 代時(shí)趨于穩(wěn)定,學(xué)習(xí)率達(dá)到最優(yōu)。
為驗(yàn)證輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNetV2 在分割模型中的優(yōu)越性,特將其與常見(jiàn)的傳統(tǒng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比。對(duì)比結(jié)果如表2所示。
在常見(jiàn)的神經(jīng)網(wǎng)絡(luò)模型中,模型深度數(shù)值越高,模型涉及參數(shù)量越大,模型越復(fù)雜,訓(xùn)練難度也就越大。由表2 可得,Xception、VGG19、ResNet50、IceptionV3 等網(wǎng)絡(luò)參數(shù)量是網(wǎng)絡(luò)MobileNetV2的數(shù)倍,在ImageNet項(xiàng)目中較為經(jīng)典的ResNet50網(wǎng)絡(luò)在模型深度上是MobileNetV2 的2 倍之多。綜合實(shí)驗(yàn)硬件設(shè)備條件、訓(xùn)練時(shí)間等多種因素,證明了選擇輕量級(jí)神經(jīng)網(wǎng)絡(luò)MobileNetV2的必要性。
表2 五種常見(jiàn)神經(jīng)網(wǎng)絡(luò)模型對(duì)比Tab.2 Comparison of five common neural network models
以自制數(shù)據(jù)集為基礎(chǔ),設(shè)計(jì)三種不同的圖像分割模型來(lái)與文中模型進(jìn)行對(duì)比。首先,將MobileNetV2分別與文獻(xiàn)[21]中的SegNet模型和文獻(xiàn)[22]中的PSPNet(Pyramid Scene Parsing Network)模型相結(jié)合,作為對(duì)比模型1、2;文獻(xiàn)[23]中的模型作為對(duì)比模型3。三種模型都是在保證組合模型其中一部分不變的基礎(chǔ)上進(jìn)行改變,具有良好的可比性。傳統(tǒng)算法FCM 與Mean Shift 多用于灰度圖像的分割,對(duì)彩色圖像分割效果較差,無(wú)法和其他基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型形成有效對(duì)比。特在傳統(tǒng)壁畫(huà)分割模型中只選用Graph Cuts 作為對(duì)比模型,編號(hào)為4,直觀展現(xiàn)本文模型對(duì)比傳統(tǒng)壁畫(huà)分割模型的優(yōu)勢(shì)所在。
圖像分割以從固定種類壁畫(huà)圖像中分割出數(shù)據(jù)集包含的五大種類圖像元素為準(zhǔn)則,壁畫(huà)圖像上的其他圖像元素作為背景。從數(shù)據(jù)集中選取4張不同種類的圖片進(jìn)行分割,為得到直觀對(duì)比效果,對(duì)分割結(jié)果進(jìn)行像素級(jí)標(biāo)注,結(jié)果如圖7所示。
圖7 五種分割模型的分割效果對(duì)比Fig.7 Comparison of segmentation effects by five algorithms
圖7 中,模型1 中,由于采用連續(xù)下采樣導(dǎo)致在輸出的特征圖上的每個(gè)一像素都重疊著大量的輸入圖像中的空間信息,多種有損邊界信息的圖像空間信息不利于圖像分割。模型2 先對(duì)輸入的特征信息進(jìn)行多尺度池化,之后對(duì)池化結(jié)果上采樣,上采樣之后再進(jìn)行拼接,這樣做的好處是可以利用到不同感受野的信息,豐富圖像內(nèi)容,但是容易造成單類別圖像信息嚴(yán)重缺失、分割邊緣與真實(shí)邊緣嚴(yán)重不符的情況發(fā)生,如圖7(c)所示。模型3 將DeepLabV3+模型和Xcepton 網(wǎng)絡(luò)相結(jié)合,使得卷積網(wǎng)絡(luò)參數(shù)量大幅度增加,增大了圖像訓(xùn)練難度,圖像分割結(jié)果受硬件設(shè)備影響較大,分割圖像中心細(xì)節(jié)損失嚴(yán)重。傳統(tǒng)壁畫(huà)分割模型圖7(e)在作點(diǎn)標(biāo)注之后,圖像的背景和前景分割存在大量重合之處,影響圖像分割效果。MC-DM 分割模型使用的MobileNetV2減少了網(wǎng)絡(luò)數(shù)量,同時(shí)增加Decoder結(jié)構(gòu)提取圖像細(xì)節(jié),在五種模型中,分割效果最優(yōu)。
實(shí)驗(yàn)采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作為客觀指標(biāo),利用PSNR 值來(lái)表示輸出圖像的失真程度,數(shù)值越大,圖像失真程度越小,圖像的分割效果也就越好。隨機(jī)選取的4個(gè)樣本的PSNR數(shù)值結(jié)果如表3所示。
表3 五種分割模型的PSNR對(duì)比 單位:dBTab.3 Comparison of PSNR for five segmentation models unit:dB
在樣本1 中,樣本圖像線條簡(jiǎn)單,四種分割模型效果相近,MC-DM 模型分割圖像的PSNR 值最高,較對(duì)比模型提升1 dB。樣本2和樣本3圖像輪廓相對(duì)復(fù)雜,目標(biāo)與背景存在部分融合的情況,MC-DM 模型分割圖像的PSNR 值提升明顯,較對(duì)比模型平均提升5 dB。樣本4 中的圖像結(jié)構(gòu)復(fù)雜,圖像背景信息較多,對(duì)圖像的分割結(jié)果影響較大,MC-DM 模型在該樣本的分割結(jié)果中表現(xiàn)優(yōu)異,較對(duì)比模型,PSNR 數(shù)值平均提升10 dB,實(shí)驗(yàn)證明了該模型在壁畫(huà)分割方面的可行性。五種模型的訓(xùn)練精確度如表4所示。
表4 五種模型的訓(xùn)練精確度對(duì)比Tab.4 Comparison of training accuracy for five models
模型1 采用反卷積和上池化,只能勉強(qiáng)辨認(rèn)圖像形狀,分割結(jié)果粗糙。模型2 雖然通過(guò)多尺度池化得到不同規(guī)格的特征,但圖像中心細(xì)節(jié)缺失較多。模型3 改進(jìn)了模型底層網(wǎng)絡(luò),同樣采用了深度可分離卷積,優(yōu)化了壁畫(huà)圖像分割過(guò)程中特征提取方式,但針對(duì)單一種類圖像分割效果較差。改進(jìn)模型MC-DM 在壁畫(huà)分割過(guò)程中效率最高,改善了模型2 中細(xì)節(jié)缺失的問(wèn)題。與模型1 相比,MC-DM 模型分割圖像邊緣保存完整,圖像信息損失不明顯。與模型3相比,MC-DM模型適用性好,不會(huì)因?yàn)閳D像種類不同而導(dǎo)致分割結(jié)果差異較大的現(xiàn)象發(fā)生。模型4中,Graph Cuts 算法是通過(guò)標(biāo)號(hào)的方式來(lái)實(shí)現(xiàn)帶權(quán)圖的轉(zhuǎn)化,圖像分割過(guò)程中會(huì)通過(guò)用戶提供的圖像內(nèi)容來(lái)確定相應(yīng)的像素點(diǎn)和圖像分割對(duì)象,人工干預(yù)痕跡明顯,而MC-DM 模型通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)現(xiàn)有數(shù)據(jù)集進(jìn)行訓(xùn)練,整個(gè)訓(xùn)練過(guò)程由設(shè)備自發(fā)運(yùn)行,不存在人為因素的影響。綜合峰值信噪比和訓(xùn)練精度兩項(xiàng)實(shí)驗(yàn)參數(shù)可得,MC-DM 模型的分割效果優(yōu)于其他四種模型,在模型訓(xùn)練過(guò)程中不存在人為因素的影響,模型分割輪廓趨于理想輪廓,不會(huì)造成大量細(xì)節(jié)缺失。
中國(guó)古代壁畫(huà)是中國(guó)文明的重要見(jiàn)證,是世界文明史發(fā)展中不可分割的一部分。由于年代久遠(yuǎn),壁畫(huà)受到環(huán)境、人為等多種因素的負(fù)面影響,存在圖像殘缺、脫落、裂紋等多種問(wèn)題,如何將這些珍貴文物有效保存是當(dāng)前重中之重。將深度學(xué)習(xí)模型融入壁畫(huà)圖像分割中,利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,改善傳統(tǒng)分割方法圖像邊緣分割模糊等問(wèn)題,該方法是對(duì)古代壁畫(huà)圖像處理方面新的探索。本文的創(chuàng)新之處其一是將DeepLabV3+模型與MobileNetV2 相結(jié)合,并首次運(yùn)用在了壁畫(huà)分割之上。其二是在分割過(guò)程中將輕量級(jí)神經(jīng)網(wǎng)絡(luò)運(yùn)用在空洞卷積和空間金字塔池的結(jié)構(gòu)之中,豐富了圖像的語(yǔ)義信息,平衡了壁畫(huà)分割的分割精度和效率。DeepLabV3+模型使用的深度可分離卷積結(jié)構(gòu),有效解決了壁畫(huà)圖像分割過(guò)程中目標(biāo)邊界的信息丟失問(wèn)題,改變了古代壁畫(huà)傳統(tǒng)分割方式中容易出現(xiàn)誤分的現(xiàn)象,且通過(guò)改變骨干網(wǎng)絡(luò),在將精確度保持在較好的水平的同時(shí)降低訓(xùn)練復(fù)雜度,縮短訓(xùn)練時(shí)間,增加日常生活中的硬件適用性。
在實(shí)驗(yàn)階段,由于DeepLabV3+與DeepLab 系類中的其他模型一樣,都需要特定的數(shù)據(jù)集,前期需要手動(dòng)標(biāo)注樣本,工作量巨大,而且由于實(shí)驗(yàn)編碼輸出的特征圖相對(duì)于輸入圖像呈現(xiàn)幾何倍數(shù)的縮小,存在多類別圖像分割邊緣模糊的問(wèn)題,這也是未來(lái)在古代壁畫(huà)分割方面需進(jìn)一步解決的問(wèn)題。