田 敏,劉名果,陳立家,韓宗桓,蘭天翔,梁 倩
河南大學(xué) 物理與電子學(xué)院,河南 開封 475000
隨著人工智能的發(fā)展,全監(jiān)督語義分割領(lǐng)域發(fā)展迅速。全監(jiān)督語義分割網(wǎng)絡(luò)是將圖像中的每一個(gè)像素進(jìn)行分類,得到像素化密集分類結(jié)果的網(wǎng)絡(luò)。自2007年以來,語義分割一直作為機(jī)器視覺中的一部分,直到2015年,Long等人[1]首次使用全卷積網(wǎng)絡(luò)(fully convolution network,F(xiàn)CN)對(duì)圖像進(jìn)行端到端分割,語義分割產(chǎn)生了重大突破,之后一些較好模型的架構(gòu)都是在此架構(gòu)的基礎(chǔ)上進(jìn)行的改進(jìn);2015年,Ronneberger等人[2]構(gòu)建了U-Net模型,構(gòu)建了一套完整的編碼解碼器。2017年,Badrinarayanan等人[3]提出SegNet模型,將最大池化轉(zhuǎn)換為解碼器來提高分辨率;RefineNet[4]使用了殘差網(wǎng)絡(luò)降低了內(nèi)存的使用量,同年的DeepLabv1和DeepLabv2,再到現(xiàn)在的DeepLab v3+[5-7],語義分割精度在不斷地得到提升。隨著語義分割網(wǎng)絡(luò)的快速發(fā)展,該網(wǎng)絡(luò)逐步應(yīng)用于工業(yè)生產(chǎn)中,但在應(yīng)用過程中,因?yàn)闃?biāo)簽制作較為困難,用于訓(xùn)練的樣本數(shù)據(jù)較為匱乏等,使得相關(guān)研究面臨著挑戰(zhàn)。一方面,采用傳統(tǒng)方法進(jìn)行樣本采集(拍照、手機(jī)掃描等手段)和標(biāo)簽的制作,人力、物力成本較高,尤其要花費(fèi)大量時(shí)間制作標(biāo)簽,效率較為低下;另一方面用于訓(xùn)練的數(shù)據(jù)樣本較少,直接進(jìn)行語義分割訓(xùn)練容易出現(xiàn)過擬合。為了避免在訓(xùn)練過程中出現(xiàn)過擬合現(xiàn)象,往往采用數(shù)據(jù)增強(qiáng)的方法,變換原有數(shù)據(jù)生成新的數(shù)據(jù)來擴(kuò)大數(shù)據(jù)集。常用的擴(kuò)充樣本方法[8]有翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、平移、添加高斯噪聲、對(duì)比度變換等。雖然這些方法在一定程度上提升了網(wǎng)絡(luò)的性能,但并不能從根本上解決制作數(shù)據(jù)集時(shí)的人工時(shí)間耗費(fèi)問題。
針對(duì)全監(jiān)督語義分割網(wǎng)絡(luò)訓(xùn)練樣本標(biāo)簽制作困難的問題,尤其是對(duì)于特定工業(yè)應(yīng)用場(chǎng)景,無公開的樣本庫,需要自制標(biāo)簽的情況,提出基于改進(jìn)型循環(huán)生成對(duì)抗網(wǎng)絡(luò)(CycleGAN-AD)的樣本擴(kuò)充方法。利用計(jì)算機(jī)生成虛擬樣本圖像,再通過本文提出的網(wǎng)絡(luò)將虛擬樣本遷移成真實(shí)樣本的風(fēng)格[9]。由于計(jì)算機(jī)生成的虛擬樣本的標(biāo)簽無需手工標(biāo)注,所以省去了人工標(biāo)定的工作量。CycleGAN[10]在生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[11]基礎(chǔ)上實(shí)現(xiàn)了圖像風(fēng)格雙域轉(zhuǎn)換,解決了生成圖片不清晰、訓(xùn)練數(shù)據(jù)不成對(duì)無法訓(xùn)練的問題。但是在特定工業(yè)場(chǎng)景中,CycleGAN進(jìn)行風(fēng)格遷移時(shí)對(duì)圖片中一些細(xì)節(jié)處理不足,背景轉(zhuǎn)換能力欠缺。本文中提出的CycleGAN-AD網(wǎng)絡(luò)針對(duì)上述問題做出的改進(jìn)及創(chuàng)新如下:
(1)在CycleGAN的生成器中添加了注意力機(jī)制(attention mechanism)[12]。選用通道注意力機(jī)制,通道注意力機(jī)制主要由最大池化層、平均池化層與全卷積網(wǎng)絡(luò)層構(gòu)成,網(wǎng)絡(luò)訓(xùn)練過程中通過提取圖片中的有效信息,提升了風(fēng)格遷移結(jié)果。
(2)使用密集連接卷積網(wǎng)絡(luò)(dense convolutional network,DenseNet)[13-14]代替CycleGAN中的殘差網(wǎng)絡(luò)(residual neural network,ResNet)[15]。DenseNet網(wǎng)絡(luò)中,每一層都由前面幾層相加構(gòu)成,網(wǎng)絡(luò)層之間連接更為緊密,保證原始圖片的細(xì)節(jié)不因卷積網(wǎng)絡(luò)層太深而被破壞。
(3)一方面提出將自帶標(biāo)簽的計(jì)算機(jī)模擬圖片風(fēng)格遷移生成真實(shí)圖片,將生成圖片與真實(shí)圖片一起構(gòu)成數(shù)據(jù)集,改善了語義分割效果;另一方面因在有監(jiān)督訓(xùn)練中,真實(shí)圖片標(biāo)簽制作困難且耗時(shí)長(zhǎng),為了減少制作真實(shí)圖片標(biāo)簽,即使在少量真實(shí)圖片標(biāo)簽情況下,利用模擬圖片風(fēng)格遷移生成的圖片進(jìn)行實(shí)驗(yàn)也能保證語義分割結(jié)果可以用于工業(yè)應(yīng)用當(dāng)中。
實(shí)驗(yàn)結(jié)果表明,CycleGAN-AD網(wǎng)絡(luò)對(duì)圖像細(xì)節(jié)處理較好,生成的圖片更加清晰。在石墨電極鋼印字符語義分割實(shí)驗(yàn)中,在原真實(shí)樣本中加入CycleGAN-AD網(wǎng)絡(luò)產(chǎn)生的樣本,相較于未添加樣本前,其MIoU值有了顯著提升,最高可達(dá)0.826 0。
本文利用圖像風(fēng)格遷移的方法實(shí)現(xiàn)樣本擴(kuò)充,主要分為兩部分。如圖1所示,第一部分為源域(模擬樣本)風(fēng)格遷移得到目標(biāo)域(真實(shí)樣本)。源域圖片比較容易獲得,并且自帶標(biāo)簽,得到的目標(biāo)域圖片標(biāo)簽與源域標(biāo)簽相同。第二部分分為兩組:第一組只將生成的目標(biāo)域圖片與自帶標(biāo)簽送入語義分割網(wǎng)絡(luò),測(cè)試其分割結(jié)果,屬于無監(jiān)督語義分割;第二組,生成目標(biāo)域與目標(biāo)域及標(biāo)簽送入語義分割網(wǎng)絡(luò),訓(xùn)練并測(cè)試其結(jié)果,屬于有監(jiān)督語義分割。文中主要對(duì)第一部分中的風(fēng)格遷移網(wǎng)絡(luò)進(jìn)行了改進(jìn),提高風(fēng)格遷移圖像質(zhì)量,第二部分主要用于測(cè)試改進(jìn)網(wǎng)絡(luò)是否對(duì)語義分割結(jié)果有所提升。與人工制作標(biāo)簽進(jìn)行語義分割的原始方法相比較,引入風(fēng)格遷移網(wǎng)絡(luò),節(jié)省了人工標(biāo)注樣本的時(shí)間,減少了工作量,并且將生成樣本與真實(shí)樣本一起組成訓(xùn)練樣本,擴(kuò)充了數(shù)據(jù)集,避免了過擬合的發(fā)生。
圖1 本文方法主要流程Fig.1 Main process of proposed method
進(jìn)行風(fēng)格遷移的網(wǎng)絡(luò)采用改進(jìn)的循環(huán)生成式對(duì)抗網(wǎng)絡(luò)CycleGAN-AD。CycleGAN結(jié)構(gòu)如圖2所示,本質(zhì)上是兩個(gè)鏡像對(duì)稱的生成式對(duì)抗網(wǎng)絡(luò)GAN構(gòu)成的一個(gè)環(huán)形網(wǎng)絡(luò),GAN網(wǎng)絡(luò)由生成器(generator)與判別器(discriminator)組成。模擬圖像Input_X經(jīng)過生成器GeneratorX2Y生成圖像Generated_Y,Generated_Y與真實(shí)圖像Input_Y共同輸入判別器Discriminator_Y。判別器判別輸入圖像真假,同時(shí)生成器也在不斷優(yōu)化,兩者通過博弈,圖片Generated_Y與真實(shí)圖像Input_Y越來越相似,同時(shí)再經(jīng)過生成器GeneratorY2X生成與Input_X相似的圖片Cyclic_X。Input_X與Cyclic_X之間存在循環(huán)重構(gòu)損失函數(shù),通過網(wǎng)絡(luò)訓(xùn)練與優(yōu)化,兩者之間圖像數(shù)據(jù)分布越來越接近,由Input_Y到Input_X亦是如此。CycleGAN作為圖像風(fēng)格遷移網(wǎng)絡(luò),生成的風(fēng)格圖像已滿足基本需求,但本文需要將模擬圖像風(fēng)格遷移生成的圖像應(yīng)用于語義分割網(wǎng)絡(luò),對(duì)細(xì)節(jié)的處理要求較高。為此,需對(duì)CycleGAN進(jìn)行改進(jìn),提高圖像生成質(zhì)量。
圖2 CycleGAN結(jié)構(gòu)圖Fig.2 CycleGAN structure diagram
1.1.1 生成器結(jié)構(gòu)
生成器整體結(jié)構(gòu)如圖3所示,主要由編碼器、轉(zhuǎn)換器、解碼器三部分構(gòu)成。其中,編碼器由卷積網(wǎng)絡(luò)層構(gòu)成,轉(zhuǎn)換器由殘差網(wǎng)絡(luò)構(gòu)成,解碼器由反卷積網(wǎng)絡(luò)層構(gòu)成。本文主要對(duì)生成器進(jìn)行了兩點(diǎn)改進(jìn):
(1)引入注意力機(jī)制。為了保持模擬圖像中的重要細(xì)節(jié),提高生成圖像質(zhì)量,將注意力機(jī)制加入到編碼器中。圖4中,注意力機(jī)制選用通道注意力[16],通道方向的注意力建模的是各個(gè)特征通道的重要程度,針對(duì)不同任務(wù)抑制或增強(qiáng)不同的通道。經(jīng)過編碼器生成的特征圖輸入到通道注意力網(wǎng)絡(luò),它同時(shí)使用最大池化(MaxPooling)和均值池化(AvgPooling)算法,然后經(jīng)過多層感知機(jī)(multilayer perceptron,MLP)[17]獲得變換結(jié)果,將結(jié)果分別應(yīng)用于兩個(gè)通道,使用Sigmoid函數(shù)得到通道注意力特征圖,最后將通道注意力特征圖與原輸入特征圖進(jìn)行元素相乘的卷積操作。
圖3生成器結(jié)構(gòu)圖Fig.3 Generator structure diagram
圖4通道注意力機(jī)制Fig.4 Channel attention mechanism
(2)替換轉(zhuǎn)換器。轉(zhuǎn)換器由原殘差網(wǎng)ResNet結(jié)構(gòu)改進(jìn)為具有密集連接的卷積神經(jīng)網(wǎng)絡(luò)DenseNet。由圖5可以看出,DenseNet任兩層之間都有直接的連接,每一層的輸入都是前面所有層輸出的并集并且該層所學(xué)習(xí)的特征圖也會(huì)被直接傳給其他后面所有層作為輸入。DenseNet相較于ResNet來說,在一定程度上緩解了梯度消失,加強(qiáng)了特征傳遞,更有效地利用了特征,在模擬樣本特征得到有效保留的前提下學(xué)習(xí)到了真實(shí)樣本的風(fēng)格。
圖5 ResNet與DenseNet連接機(jī)制對(duì)比Fig.5 Comparison of connection mechanism between ResNet and DenseNet
1.1.2 判別器
判別器由一值輸出改進(jìn)為矩陣輸出。圖6中,判別器采用PatchGAN[18]結(jié)構(gòu),原始GAN中的判別器的輸出值只有一個(gè),單值判定輸入判別器的圖像是真實(shí)圖像還是生成圖像。但是本文中PatchGAN的輸出為一個(gè)N×N的矩陣,矩陣中的每個(gè)點(diǎn)都需要做出判斷,一個(gè)點(diǎn)代表原始輸入圖像中的一個(gè)區(qū)域,將矩陣中判斷得到的值取平均值。由原來的一個(gè)值去判定輸入圖像真假變成現(xiàn)在N×N的矩陣來判定圖像真假,后者可以判定更多的區(qū)域,得到關(guān)鍵區(qū)域信息,提升訓(xùn)練速度。
圖6 判別器結(jié)構(gòu)圖Fig.6 Discriminator structure diagram
GAN作為CycleGAN的基礎(chǔ),GAN工作的過程可以看作是生成器和判別器相互博弈的過程,生成器G負(fù)責(zé)生成假的圖片,假圖與真圖輸入到判別器D中,判別器D判斷輸入圖片的真假,生成器G生成越來越接近真圖的假圖,判別器D逐漸不能判斷輸入圖片的真假,通過兩者的相互博弈,達(dá)到納什均衡。GAN中的對(duì)抗損失函數(shù)如式(1):
其中Pdata為真實(shí)的數(shù)據(jù)圖像分布,PG為生成器生成的數(shù)據(jù)圖像分布,E為數(shù)學(xué)期望。固定生成器G,訓(xùn)練判別器D,對(duì)于真實(shí)分布,D()x盡可能大,接近于1,對(duì)于生成式分布,D()x要接近于0;固定判別器D,訓(xùn)練生成器G,G在訓(xùn)練過程中,來自于生成分布中的x變化使得D()
x接近于1。CycleGAN在原始GAN的基礎(chǔ)上做出了一個(gè)逆向過程,即由X轉(zhuǎn)換為Y后再?gòu)腨轉(zhuǎn)換回X,損失函數(shù)也是在原始GAN的損失函數(shù)基礎(chǔ)上多了逆向的GANloss,此外還添加了針對(duì)X和Y的L1loss,整體損失函數(shù)為式(2):
式中LGAN(G,DY,X,Y)表示生成器G和判別器DY的生成對(duì)抗損失函數(shù),LGAN( F,DX,Y,X)表示生成器F和判別器DX的生成對(duì)抗損失函數(shù),在本文中生成器F與生成器G結(jié)構(gòu)相同。Lcyc( G ,F)表示重構(gòu)損失中的循環(huán)重構(gòu)損失函數(shù),λ為循環(huán)重構(gòu)損失相對(duì)于對(duì)抗損失的權(quán)重比例超參數(shù)。原始生成對(duì)抗損失函數(shù)表達(dá)式如式(3)、(4):
但因?yàn)椴捎脤?duì)數(shù)作為損失函數(shù)會(huì)導(dǎo)致判別器訓(xùn)練不穩(wěn)定,影響生成效果,所以最終的對(duì)抗損失函數(shù)為均方誤差損失函數(shù),表達(dá)式為式(5)、(6):
在無監(jiān)督圖像風(fēng)格遷移的任務(wù)中,需要保留源域圖像特征和目標(biāo)域圖像風(fēng)格,僅存在對(duì)抗損失函數(shù)不能保證兩者特性共同存在,所以在此基礎(chǔ)上添加循環(huán)損失函數(shù)。目標(biāo)變量與預(yù)測(cè)變量之間的絕對(duì)誤差,保證源域特征結(jié)構(gòu)不發(fā)生變化,循環(huán)損失函數(shù)如下式:
實(shí)驗(yàn)在服務(wù)器中進(jìn)行,使用語言為Python3.7.3,深度學(xué)習(xí)框架為tensorflow1.13,服務(wù)器系統(tǒng)為Windows sever 2012,內(nèi)存為32 GB,GPU為Tesla K40,顯存為12 GB。實(shí)驗(yàn)數(shù)據(jù)集分為模擬樣本數(shù)據(jù)集和真實(shí)樣本數(shù)據(jù)集。模擬數(shù)據(jù)集為計(jì)算機(jī)制作SG-1500數(shù)據(jù)集,制作過程簡(jiǎn)單,并且自帶標(biāo)簽,共有1 500張。真實(shí)數(shù)據(jù)集為采集的石墨電極鋼印字符圖片,GE-1650數(shù)據(jù)集,共有1 650張。其中,訓(xùn)練集1 300張,測(cè)試集350張,標(biāo)簽為人工標(biāo)注標(biāo)簽。
本文選用U-Net與DeepLabv3+作為語義分割訓(xùn)練網(wǎng)絡(luò),因本實(shí)驗(yàn)是對(duì)字符進(jìn)行二分類語義分割,與其他語義分割網(wǎng)絡(luò)相比,選用U-Net與DeepLabv3+網(wǎng)絡(luò)作為訓(xùn)練網(wǎng)絡(luò),其訓(xùn)練速度較快,生成結(jié)果較好,常用于工業(yè)生產(chǎn)當(dāng)中。使用像素精度(pixel accuracy,PA)、均相素精度(mean pixel accuracy,MPA)、均交并比(mean intersection over union,MIoU)作為實(shí)驗(yàn)中語義分割結(jié)果的評(píng)價(jià)指標(biāo)。像素精度是圖像分割中評(píng)價(jià)分割網(wǎng)絡(luò)好壞的最簡(jiǎn)單的評(píng)價(jià)指標(biāo),計(jì)算被正確分類的像素個(gè)數(shù)和總像素?cái)?shù)之間的比例,式(8)中,表示正確分類像素?cái)?shù),表示總像素?cái)?shù);均像素精度是像素精度的一種簡(jiǎn)單提升,計(jì)算每個(gè)類內(nèi)被正確分類像素?cái)?shù)的比例,之后求所有類的平均,在式(9)中,pii為每一類中的正確分類像素?cái)?shù)為每一類的像素總數(shù),然后各個(gè)類相加,最后取平均值。
均交并比為語義分割的標(biāo)準(zhǔn)度量,計(jì)算兩個(gè)集合的交集和并集,在語義分割問題中,這兩個(gè)集合為真實(shí)值(ground truth)和預(yù)測(cè)值(predictedseg mentation)。這個(gè)比例可以變形為正真數(shù)(intersection)比上真正、假負(fù)、假正(并集)之和,在每個(gè)類上計(jì)算IoU,之后平均,在式(10)中,G表示真實(shí)值,P為預(yù)測(cè)值,pii為正真像素?cái)?shù),表示真正與假負(fù)的像素?cái)?shù)之和,-pii表示假正像素?cái)?shù)。
風(fēng)格遷移實(shí)驗(yàn)共兩個(gè),一個(gè)選用CycleGAN常用horse2zebra數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),另一個(gè)為本文中的石墨電極鋼印字符實(shí)驗(yàn)。實(shí)驗(yàn)中批量大小batchsize設(shè)置為1,訓(xùn)練過程中,每100個(gè)epoch變化一次學(xué)習(xí)率,基礎(chǔ)學(xué)習(xí)率為2E-4,采用Adam算法進(jìn)行梯度下降訓(xùn)練優(yōu)化,Adam中的參數(shù)beta1為0.5,循環(huán)一致性損失函數(shù)中的λ大小為15。選用圖像質(zhì)量評(píng)估指標(biāo)FID(fréchet inception distance)來判斷圖像生成質(zhì)量。FID從原始圖像的計(jì)算機(jī)視覺特征的統(tǒng)計(jì)方面來衡量?jī)山M圖像的相似性,計(jì)算真實(shí)圖像與生成圖像特征向量之間的距離。FID數(shù)值越小代表生成圖片與目標(biāo)圖像更相似,生成圖像質(zhì)量越高。
實(shí)驗(yàn)1為了驗(yàn)證改進(jìn)網(wǎng)絡(luò)CycleGAN-AD對(duì)風(fēng)格遷移結(jié)果有所提升,選用horse2zebra數(shù)據(jù)集,將馬風(fēng)格遷移成為斑馬。其中,訓(xùn)練集,馬圖片有1 067張,斑馬圖片有1 334張;測(cè)試集,馬圖片122張,斑馬圖片140張。輸入輸出圖像大小設(shè)置為256×256。實(shí)驗(yàn)結(jié)果如圖7所示。
圖7中,CycleGAN生成的斑馬圖片仍保留一些馬的特征,其背景也保留原圖片的色彩;改進(jìn)網(wǎng)絡(luò)CycleGAN-AD生成的圖片中,斑馬輪廓與條紋更加明顯,背景也更接近于目標(biāo)圖片風(fēng)格。
圖7 馬與斑馬風(fēng)格遷移結(jié)果Fig.7 Results of style transfer between horse and zebra
實(shí)驗(yàn)2將計(jì)算機(jī)模擬樣本生成石墨電極鋼印字符的風(fēng)格遷移實(shí)驗(yàn)中,輸入輸出圖片大小設(shè)置為128×512。
由圖8石墨電極風(fēng)格遷移結(jié)果可知,本文改進(jìn)的CycleGAN-AD生成的目標(biāo)域圖像與原始CycleGAN生成圖像相比較,圖像背景更加清晰,顏色更接近于目標(biāo)域背景。目標(biāo)字符模擬真實(shí)自然場(chǎng)景(光照、對(duì)比度等)有所提高,并且CycleGAN生成的圖像出現(xiàn)較多復(fù)雜線條噪點(diǎn),改進(jìn)網(wǎng)絡(luò)后,線條噪點(diǎn)得到了減少。
圖8 石墨電極風(fēng)格遷移結(jié)果Fig.8 Results of style transfer of graphite electrode
由表1可知,改進(jìn)網(wǎng)絡(luò)的FID數(shù)值在兩個(gè)數(shù)據(jù)集上相較于CycleGAN都有所減小,說明改進(jìn)網(wǎng)絡(luò)生成的圖像質(zhì)量更好,改進(jìn)網(wǎng)絡(luò)更優(yōu)。
表1 FID指標(biāo)數(shù)值對(duì)比Table 1 Comparison of FID index values
將實(shí)驗(yàn)2中的CycleGAN生成樣本與CycleGAN-AD生成樣本作為語義分割網(wǎng)絡(luò)訓(xùn)練樣本,對(duì)照語義分割結(jié)果是否有所提升,驗(yàn)證改進(jìn)網(wǎng)絡(luò)是否有效。
實(shí)驗(yàn)分為兩組,第一組,將風(fēng)格遷移生成的圖片樣本和其標(biāo)簽送入語義分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練,用真實(shí)測(cè)試集圖片進(jìn)行測(cè)試,原CycleGAN與改進(jìn)的CycleGAN-AD測(cè)試結(jié)果進(jìn)行比較。圖9中,U-Net與DeepLab v3+為原網(wǎng)絡(luò)測(cè)試結(jié)果,AD-U-Net與AD-DeepLabv3+為改進(jìn)網(wǎng)絡(luò)測(cè)試結(jié)果。
圖9 語義分割測(cè)試結(jié)果對(duì)比Fig.9 Comparison of semantic segmentation test results
由圖9可以看出,CycleGAN生成圖片進(jìn)行語義分割,字符不夠清晰,存在無法分辨的字符;改進(jìn)網(wǎng)絡(luò)生成圖片語義分割后,網(wǎng)絡(luò)字符清晰度有所提升,尤其是利用U-Net網(wǎng)絡(luò)訓(xùn)練測(cè)試產(chǎn)生的語義分割字符,清晰度提高明顯。
對(duì)比表2中的各項(xiàng)指標(biāo),除了U-Net測(cè)試中的PA指標(biāo)改進(jìn)后的網(wǎng)絡(luò)比改進(jìn)前的有所下降外,另外兩種指標(biāo)都得到了提高,并且改進(jìn)網(wǎng)絡(luò)再進(jìn)行U-Net語義分割結(jié)果最好。說明改進(jìn)網(wǎng)絡(luò)在一定程度上提高了語義分割精度。
表2 語義分割各項(xiàng)指標(biāo)Table 2 Semantic segmentation indicators
第二組,對(duì)真實(shí)樣本數(shù)據(jù)集進(jìn)行樣本擴(kuò)充。改進(jìn)的CycleGAN-AD生成圖片與真實(shí)圖片共同送入語義分割網(wǎng)絡(luò)進(jìn)行訓(xùn)練,與只有真實(shí)樣本進(jìn)行訓(xùn)練的分割結(jié)果進(jìn)行比較,測(cè)試評(píng)價(jià)指標(biāo)是否有所提升。圖10與表3中,U-Net與DeepLabv3+為未擴(kuò)充樣本的結(jié)果,RG-U-Net與RG-DeepLabv3+為擴(kuò)充樣本結(jié)果。其中,1∶1是指將模擬生成樣本與采集的全部真實(shí)樣本共同作為數(shù)據(jù)集,兩者比例為1∶1;逐漸減少真實(shí)樣本數(shù)量,兩者比例為2∶1、3∶1、4∶1。
表3 樣本擴(kuò)充后語義分割各項(xiàng)指標(biāo)Table 3 Indicators of semantic segmentation after sample expansion
通過圖10可以看出,未擴(kuò)充數(shù)據(jù)集的兩種方法中,U-Net對(duì)字符5、9分割不夠清晰,存在噪點(diǎn),字符發(fā)生了變形,DeepLabv3+對(duì)字符5、8分割不夠清晰完整;對(duì)全部真實(shí)樣本擴(kuò)充后,字符分割較為完整清晰;逐漸減少真實(shí)樣本后,雖然整體清晰度有所下降,但每個(gè)字符分割完整,未出現(xiàn)變形現(xiàn)象。
圖10 樣本擴(kuò)充后語義分割結(jié)果對(duì)比Fig.10 Comparison of semantic segmentation results after sample expansion
表3中,經(jīng)過擴(kuò)充樣本后,兩種語義分割網(wǎng)絡(luò)測(cè)試結(jié)果的各項(xiàng)評(píng)價(jià)指標(biāo)都得到了提高。其中樣本擴(kuò)充后的U-Net分割結(jié)果的各項(xiàng)指標(biāo)為最高,MIoU值最高達(dá)到了0.826 0。雖然減少數(shù)據(jù)集中的真實(shí)樣本后,各項(xiàng)指標(biāo)有所下降,但結(jié)合表中數(shù)據(jù)與分割結(jié)果圖,分析發(fā)現(xiàn),分割字符清晰完整,未出現(xiàn)字符變形,適當(dāng)減少真實(shí)樣本數(shù)量可以應(yīng)用于工業(yè)生產(chǎn)當(dāng)中。
經(jīng)過上面幾組實(shí)驗(yàn)可以得出結(jié)論,將圖像風(fēng)格遷移用于樣本擴(kuò)充,不僅在構(gòu)建數(shù)據(jù)集方面減少了人力,節(jié)約了時(shí)間,并且在一定程度上提升了語義分割結(jié)果的質(zhì)量,更有利于語義分割網(wǎng)絡(luò)應(yīng)用于工業(yè)生產(chǎn)當(dāng)中。
本文對(duì)基本CycleGAN網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了CycleGAN-AD網(wǎng)絡(luò)。通過所提出的網(wǎng)絡(luò),將計(jì)算機(jī)生成的虛擬樣本遷移成真實(shí)樣本風(fēng)格,對(duì)原始樣本進(jìn)行擴(kuò)充。實(shí)驗(yàn)結(jié)果表明,使用風(fēng)格遷移擴(kuò)充后的訓(xùn)練樣本,能夠顯著提升語義分割的精度,表明本文所提方法有望為無監(jiān)督語義分割提供新的解決思路和方案。