丁 鍇,楊佳熹,楊 耀,那崇寧
之江實驗室,杭州 311121
基于圖像的車損評估在交通事故快速處理、車險保費預測、車險理賠反欺詐等方面有重要意義。但現(xiàn)有的車損圖像公開數(shù)據(jù)集較少,標注質量不高,訓練樣本量不足[1],這些問題一方面涉及到數(shù)據(jù)隱私原因,另一方面也與真實場景中車損類型分布極不均衡有關。如圖1所示對某小型車險公司2019年有圖像數(shù)據(jù)的車險類別分析,其中碰撞(包括兩車及多車碰撞)占車險總量的92.2%,未知原因損傷5.3%,水淹1.2%,玻璃破碎0.5%,著火、墜物砸傷、傾覆等共占比不足0.8%,且未知原因損傷大部分也是輕微碰撞等。這種極端不均衡的情況對下游深度學習模型帶來較大的挑戰(zhàn),特別是樣本分布差異導致的模型遷移能力變差。例如,基于訓練數(shù)據(jù)的圖像分類模型,在測試集中對樣本較少的類別預測精度較差。
圖1 車險類型統(tǒng)計分析Fig.1 Statistical analysis of car damage types
近年來,運用對抗網絡(GAN)的圖像生成技術,可實現(xiàn)圖像樣本擴增,對降低樣本的標注工作量,提高訓練集的多樣性等有很好的效果。特別地,StyleGAN[2]及其衍生模型可支持高分辨率圖像生成,因此在人臉圖像、醫(yī)學圖像等領域獲得廣泛關注。StyleGAN 可以將不同尺度以及來自不同圖像的特征混合,組成新的高保真圖像。例如,針對高清人臉圖像,可以將A 人臉的眼鏡特征移植到B圖像上。針對車險圖像,如果能將樣本較少的損傷特征移植到無損車輛上,并可以調整損傷的嚴重程度,就可以得到足夠多訓練樣本,覆蓋測試集樣本范圍,從而保證模型對測試集的適用性。但是,訓練StyleGAN 同樣需基于樣本數(shù)量充足、圖像質量高的數(shù)據(jù)庫(如LSUN-CAR[3]、FFHQ[4]等),目前尚未有公開的高質量車損圖像數(shù)據(jù)集,且在實際車損圖像應用場景中也較難以快速構建出標注清晰完整的車損數(shù)據(jù)集。另外,StyleGAN有一個較強且容易被忽視的假設條件,即數(shù)據(jù)需進行對齊預處理。例如,人臉需進行方向校正,否則模型難以收斂或者生成圖像扭曲失真,這種條件在很多數(shù)據(jù)庫上也是無法滿足的。StyleGAN后續(xù)工作對此進行了改進,增強了模型對多樣性和多視角未對齊等條件的兼容性,如StyleGAN V3[5]和StyleGAN XL[6],但這些工作都是基于大數(shù)據(jù)庫如ImageNet 等,未能在小樣本數(shù)據(jù)庫上進行驗證。
針對目前車損圖像集存在樣本數(shù)量少、樣本質量差、樣本類別之間分布不均衡等缺陷,本文研究使用StyleGAN 進行車損圖像生成的問題,主要包括:(1)基于StyleGAN的多類小樣本車損圖像對抗生成模型如何訓練,能否收斂,最優(yōu)模型效果如何?(2)如何利用該模型框架生成新的多分類車損圖像,能否使生成圖像按期望路徑變化?(3)生成圖像能否有效擴增原訓練集空間,從而實現(xiàn)下游分類任務精度的提升?
本文貢獻在于:(1)驗證了StyleGAN小樣本學習在高樣本多樣性數(shù)據(jù)上的收斂性,并分析了影響收斂的因素。(2)實現(xiàn)了StyleGAN 特征解耦,可以沿特定維度方向生成新車損圖像。(3)基于訓練模型對圖像分類任務進行圖像擴增,驗證了對測試集的有效性。
GAN 同樣需要面對樣本不足的問題,并非所有的數(shù)據(jù)庫都如同F(xiàn)FHQ,構建這些數(shù)據(jù)庫需要大量的標注工作,在很多實際應用場景并不具備相應條件。樣本過少導致GAN判決器過擬合,從而引起整個系統(tǒng)的失效,表現(xiàn)在訓練次數(shù)超過特定值時,模型效果開始變差,生成圖像逐漸退化為類似初始噪聲圖像,F(xiàn)ID等模型度量參數(shù)開始發(fā)散。如何平衡生成器與判決器之間的關系,優(yōu)化生成圖像,是小樣本圖像生成研究目標。
當前小樣本圖像生成分為兩種不同情況,一種是有基礎數(shù)據(jù)庫輔助,另外一種沒有基礎數(shù)據(jù)庫輔助,本文研究屬于第二種情況。有基礎數(shù)據(jù)庫輔助時,可以通過在目標小樣本數(shù)據(jù)庫上精調或者直接使用在基礎 數(shù)據(jù)庫上學習的模型進行圖像生成,相關工作包括LofGAN[7]、FUNIT[8]等。這些方法的缺點是需要已標注的輔助數(shù)據(jù)庫,并且輔助數(shù)據(jù)庫樣本分布與目標數(shù)據(jù)庫有較強的相關性。例如常用的動物頭像和花卉數(shù)據(jù)庫,不同動物的頭像,不同植物的花朵之間有較強的相關性。沒有額外數(shù)據(jù)庫輔助的圖像生成,只借助自有樣本實現(xiàn)新樣本生成,相關工作包括StyleGAN-ADA[9]、StyleGAN-APA[10]、Diff-GAN[11]和小樣本圖像合成[12]等。小樣本圖像合成是非條件生成,大多針對數(shù)據(jù)集為單類的情況(如人臉生成等),而StyleGAN-ADA、StyleGANAPA、Diff-GAN 可以實現(xiàn)條件圖像生成,也可用于非條件圖像生成。從圖像生成方式分類,當前小樣本圖像生成可被分為融合生成和變形生成,融合生成是在像素空間通過特征對齊與加權求和的方式將兩個以上樣本合成為新樣本,例如LofGAN,變形生成則是在嵌入空間通過單個樣本的特征維度變換形成新樣本,例如StyleGANADA和Diff-GAN,對稱一致性約束(bCR)[13]等。
bCR 和Diff-GAN 是面向小樣本GAN 訓練的通用型方法,StyleGAN-ADA 和StyleGAN-APA 則僅針對StyleGAN。其中bCR 方法利用傳統(tǒng)數(shù)據(jù)增強方式,在判決器前進行數(shù)據(jù)擴增,同時調整判決器懲罰函數(shù),以消除擴增數(shù)據(jù)帶來的滲漏。但此方法僅對判決器進行數(shù)據(jù)擴增,仍會帶來數(shù)據(jù)滲漏問題。Diff-GAN 通過同時對生成器和判決器進行可微分數(shù)據(jù)擴增,實現(xiàn)擴增不滲漏到生成器,并延緩判決器過早收斂。StyleGANADA 使用類似Diff-GAN 對生成器判決器同時增強的方法,確保增強效果不滲漏到生成器。另外,它提出自適應地控制若干增強參數(shù)的方式,保證StyleGAN 模型在小樣本條件下的收斂性。StyleGAN-APA采用在判決器的真實集中增加生成圖像以緩解StyleGAN判決器過擬合的方法。
目前針對小樣本GAN收斂問題仍有很多待研究方向。例如,基于有基礎數(shù)據(jù)庫輔助的小樣本生成技術對于源域和目標域數(shù)據(jù)分布差異的容忍程度[14];GAN模型的早期訓練階段生成圖像無實際意義,如何更好地初始化生成器,直接跳過此階段,從而加快收斂速度;如何使用通用預訓練模型,或者基于跨域預訓練模型進行域遷移精調等方法提高訓練效率等[15-16]??紤]到車損圖像的特殊性,目前尚缺乏具備遷移價值的源域圖像數(shù)據(jù),因此本文中的研究工作未采用有基礎數(shù)據(jù)庫輔助的方法,而是使用無輔助數(shù)據(jù)庫方法,具體地,利用傳統(tǒng)增強結合自適應增強約束的方式實現(xiàn)小樣本GAN的收斂。
GAN 生成圖像的方法有多種:隨機生成新樣本,混合生成新樣本,以及對潛在向量操縱等。隨機生成新樣本是傳統(tǒng)的基于GAN 進行數(shù)據(jù)增強的方法,利用隨機種子向量生成與訓練集樣本相似的“假”樣本。StyleGAN 是近年較好的可生成高清圖像的方法,使用了漸進式分層生成,分辨率從小到大生成的過程中分別使用不同層特征,從而實現(xiàn)高清圖像生成。同時,漸進式生成完成了對不同層特征即潛向量的解耦,啟發(fā)了對操縱潛向量以生成新圖像的研究,相關方法包括樣式編碼器(Styleencoder)[17]、像素到樣式到像素(PSP)[18]、面向編輯的編碼器(E4E)[19]和HyperStyle[20]等。研究分為兩個方向,一種是潛向量空間和圖像作為一對映射,訓練一個編碼器學習這種映射,然后利用編碼器將訓練集外圖像一次映射到潛向量空間,例如E4E、HyperStyle、PSP。另外一種是無需訓練,直接使用StyleGAN 迭代式將訓練集外圖像映射到潛向量空間,相關研究包括Styleencoder、StyleGAN 等。對潛向量操縱需解耦StyleGAN 的生成器,找出潛空間的主要方向及其物理意義,相關工作如基于GAN 的人臉潛向量解釋性研究[21]等。
基于GAN的數(shù)據(jù)增強的研究主要樣本分布不均衡的情況,相關工作包括小樣本分類GAN(FSCGAN)[22]、多虛類GAN(MFC_GAN)[23]和皮膚黑色素瘤增強(SLAStyleGAN)[24]等,F(xiàn)SCGAN 使用條件GAN 的方法,在GAN 中增加類別懲罰函數(shù),保證生成樣本在分布上對訓練集形成補充。MFC_GAN 延續(xù)了FSC GAN 的研究,提出改進的多虛類懲罰函數(shù),提升類別粒度以增大類間距離。但以上算法使用的GAN 模型僅針對CIFAR10等分辨率較低的圖像數(shù)據(jù)庫,無法應用于高分辨率圖像。SLA-StyleGAN研究面向高分辨率黑色素瘤圖像,該研究利用StyleGAN 模型對樣本稀少的類進行擴增,然后對擴增后的數(shù)據(jù)進行分類,驗證了方法的有效性。但僅在黑色素瘤等醫(yī)學圖像紋理較簡單、圖像質量較好的條件下可行??梢?,基于GAN 圖像增強的研究還有較強的條件約束,例如要求不同圖像中目標需對齊,拍攝角度差異不能太大等。這些約束在車損圖像等多樣性強,樣本差異大,圖像質量不一致的復雜數(shù)據(jù)庫上難以滿足。
本章介紹基于有限車損圖像樣本進行StyleGAN模型訓練、并找出有效保持收斂的方法。其次,對GAN模型進行潛向量空間解耦,分析解耦對應車損相關物理意義。最后,針對隨機生成,樣式合成等圖像生成方式實現(xiàn)圖像擴增,分析了樣本擴增對圖像分類任務提升效果的差異,并對后續(xù)可進一步研究的方向進行了討論。
樣本過少導致判決器過擬合,從而引起整個GAN的失效,它表現(xiàn)在生成器的無意義生成以及損失函數(shù)值的發(fā)散。數(shù)據(jù)增強在圖像分類任務中的成功證明了多樣化的數(shù)據(jù)增強是有益的,為此本文希望通過數(shù)據(jù)增強使GAN 收斂。但是,通過直接變換的方式增加訓練集樣本會引起生成器泄露,即生成樣本上也帶有這些變換。針對此問題,StyleGAN-ADA提出隨機一致性規(guī)范的增強方法,對批次樣本進行概率增強,并在生成和判決階段加入數(shù)據(jù)增強懲罰函數(shù),這種方法可進行無泄漏增強。這里,同樣使用StyleGAN-ADA,分以下步驟:首先,構建一個由變換組成的模塊,這些變換分為6 個類別:像素調整(水平翻轉、90°旋轉、整數(shù)平移)、投影幾何變換、顏色變換、圖像空間過濾、加性噪聲和圖像裁剪。最佳的增強強度在很大程度上取決于訓練數(shù)據(jù)的數(shù)量,而且并非所有的增強類別在實踐中都同樣有用。在針對高清人臉的訓練集FFHQ中,絕大部分的效果提升來自于像素調整和投影幾何變換,顏色變換、圖像空間濾波、加性噪聲和圖像剪裁并不是特別有用。但是,鑒于車輛損傷圖像的差別遠超過高清人臉圖像,本文需要對上述六種變換重新進行有效性評估,具體實驗及分析見3.2節(jié)。
在訓練過程中,數(shù)據(jù)增強的強度由p∈[0,1]控制,上述六種變換以固定順序作用于圖像,即每個變換都以概率p應用,或以概率1-p跳過。鑒于流程中存在多種增強,即使是相當小的p值,也會使某些增強因概率累加效應生效,從而使增強圖像區(qū)別于原圖。在某輪訓練中,所有的變換總是使用相同的p值,只要p保持在安全閾值以下,生成器就會被引導到只生成無滲漏的圖像。
為了優(yōu)化模型收斂效果,本文沿用自適應控制p的方法。原ADA算法以連續(xù)4批次圖像的判別器輸出值平均正負值為標準,E(sign(D(x))),其中E()表示均值,D()為判決器的輸出,表達式為:
其中,real表示x為真實圖像,fake表示x為生成圖像。上述過擬合判定標準根據(jù)經驗被固定設為0.6,當E的計算值低于此值,判決器欠擬合,不需進行增強,僅利用原圖像訓練模型;超過此值,判決器過擬合,p被設定為正值,原圖像被增強后用于訓練。如果兩次以上被判定為過擬合,p值增高,從而保證判決器快速恢復到欠擬合狀態(tài)。
車損圖像生成是一個條件生成問題。所謂條件圖像生成與非條件圖像生成,主要區(qū)別在于條件圖像生成時,初始化潛向量中包含樣本的類別信息。這會導致在生成網絡訓練過程中,類別信息會限制不同類之間圖像的相互學習,因此條件圖像生成網絡需要更多的訓練樣本以保證模型收斂。
基于StyleGAN 的條件圖像生成過程如圖2 所示,圖左側為映射網絡(mapping network),可將初始化向量映射到潛向量空間。這里的映射網絡相當于encoderdecoder結構中的encoder,但映射網絡使用全連接網絡,可以降低參數(shù)數(shù)量,提升訓練速度。這里,初始化向量被映射網絡按層投影到潛向量空間,每層對應不同分辨率,如4×4,8×8,…,256×256。然后,生成模塊按層將潛向量轉換到圖像空間,并加入噪聲數(shù)據(jù),增強數(shù)據(jù)的多樣性。接著,第一層生成的低分辨率圖像和第二層生成的較高分辨率圖像融合,形成較高分辨率圖像。按此順序,最終合成高分辨率圖像。這種逐層生成方式,可以在低分辨率上快速試錯,從而實現(xiàn)收斂;而后低分辨率生成圖像又為高分辨率生成提供約束,最終保證整個模型的收斂。
圖2 StyleGAN圖像生成流程Fig.2 Flowchart of StyleGAN image generation
從上述過程可知,潛向量是影響生成圖像最重要因素,而按層生成的結構使操縱潛向量的方式更為多樣。本文使用三種方式操縱圖像的生成:隨機生成、樣式混合和解耦放縮生成。
隨機生成指利用訓練集單個樣本對應的潛向量進行生成,在生成模塊中通過隨機噪聲形成與原圖不同的新圖像。
樣式混合則使用兩個樣本,融合相應特征形成新圖像。首先選擇兩個訓練樣本,將它們映射到潛向量空間,生成兩個潛向量;然后在不同分辨率選用不同潛向量,從而以樣式混合方式生成圖像。具體過程分兩個階段,前階段使用樣本1的潛向量,引導生成低分辨率4×4到32×32 圖像,這些圖像對應物體的輪廓、朝向等粗特征;后階段使用樣本2的潛向量,引導生成高分辨率64×64 到256×256 圖像,這些圖像對應物體的小紋理、顏色等細節(jié)特征。最后合成圖像融合兩個階段的特征。
解耦縮放生成指將潛向量解耦成不同特征方向,然后沿某特征方向增減固定值生成新圖像。首先,通過對生成網絡權值進行奇異值分解實現(xiàn)潛向量空間解耦。然后,對解耦后的某個奇異值進行增減,則潛向量W沿潛向量空間某個方向變化一定距離,形成新潛向量。最后,基于新潛向量生成新圖像。生成圖像相比原始圖像,按照解耦奇異值對應的物理方向發(fā)生改變。例如,F(xiàn)FHQ人臉圖像可解耦出年齡、喜怒等特征。本文在實驗部分對車損圖像解耦奇異值的物理含義進行分析。
基于數(shù)據(jù)增強的圖像分類使用兩種方式,定量樣本擴增和動態(tài)樣本擴增。首先,比較直接的數(shù)據(jù)增強方式是通過生成固定數(shù)量的新樣本,并加入到原訓練集形成新訓練集,即定量樣本擴增。然后,基于新訓練集訓練模型。最后,在測試集上測試模型的精度提升效果。動態(tài)樣本擴增比較復雜,因為理論上生成模型可以生成無數(shù)不同的新圖像,但這些數(shù)據(jù)的分布可能與原數(shù)據(jù)不同,如果添加到訓練集的新樣本過多,訓練集分布可能向生成圖像的分布偏移。為此,本文使用動態(tài)樣本擴增的分類器訓練方法,如下所示:
步驟1構建efficientnet v2 分類器,loss 函數(shù)為Focal loss。
步驟2使用原始訓練集X訓練分類器,在測試集評估分類器精度。
步驟3使用GAN 按類別生成新圖像集ΔX,加入到原始訓練集,構建新訓練集X′=X+ΔX。
步驟4精調分類器,計算生成圖像樣本的分類置信度,置信度定義為C(x)=1-|pred(x)-ct|,為樣本x判定為其真實標簽ct的概率,pred()為分類器預測函數(shù)。
步驟5以置信度為概率剔除生成樣本,得到訓練集X″=X′-rand(C(ΔX))·ΔX,rand()為概率函數(shù)。
步驟6再使用GAN生成圖像并補充到X″,形成新訓練集X?,重復步驟4~6。
步驟7當重復n次步驟4~6,且分類器在測試集上精度無提升時,分類器訓練結束。
迭代將圖像加入訓練集。篩選方法使用基于當前訓練集的生成器生成圖像,同時訓練分類器,將生成樣本按分類器預測置信度高低為概率系數(shù)決定保留或者刪除,以得到擴增數(shù)據(jù)庫。重復以上過程,不斷生成新圖像并更新訓練集,在新數(shù)據(jù)集進行分類器訓練與測試。為提高訓練速度,使用efficientnet v2[25]+Focal loss[26]分類器。
為了驗證車損圖像分類可以通過數(shù)據(jù)增強即圖像生成提升分類精度。本文構建了兩個數(shù)據(jù)庫,如表1所示,首先是使用公開的車損圖像數(shù)據(jù)庫,總1 594 幅圖片,分8類,包括{前燈,后燈,保險杠凹陷,保險杠刮蹭,車門凹陷,車門刮蹭,玻璃破碎,其他},圖像分辨率256×256。整體圖像質量尚可,但少量圖像存在水印,干擾物體,邊緣留白,噪聲模糊等問題,如圖3 所示,車損部位在這些圖像不居中且面積較小,或者被醒目的水印等覆蓋。本文將圖像集分為訓練集測試集其中訓練集使用1 394幅圖像,剩余200幅為測試集??紤]到上述車損圖像的拍攝對象、角度、距離等一致性較差,而StyleGAN通常被證明對一致性較強的圖片有效。為此,本文選擇車燈作為目標提高圖像一致性,構建了車燈圖像集,共分四類,分別為前、后未損車燈,前、后損壞車燈。其中,未損車燈使用實際車損圖像標注和手工篩選,并放縮到256×256 分辨率。訓練集包括570 幅圖像,測試集約80幅圖像。
表1 車損圖像庫Table 1 Car damage classification data set
圖3 含噪聲樣本示例Fig.3 Example with bad samples
此外,本文將上述兩個數(shù)據(jù)庫的圖像分辨率壓縮到128×128,從不同分辨率角度測試圖像生成及基于圖像數(shù)據(jù)增強的分類精度。
本節(jié)分別在Cifar10 和車損圖像庫對現(xiàn)有小樣本GAN 模型進行了對比測試,模型包括StyleGAN-APA、StyleGAN-ADA、Diff-GAN,最優(yōu)模型將被用于后續(xù)圖像生成。
首先,通過Cifar10數(shù)據(jù)庫,驗證了主流方法Diff-GAN、StyleGAN-APA、StyleGAN-ADA 的有效性,實驗使用同樣的批樣本數(shù)64,隨機梯度下降方法和學習率。訓練曲線如圖4所示,圖中縱坐標顯示FID,橫坐標顯示訓練樣本總量kimg(千圖像),三種方法在Cifar10 數(shù)據(jù)庫都可實現(xiàn)收斂。其中Diff-GAN 的FID 為三者最優(yōu)為3.63,Style_APA(StyleGAN-APA)的FID 為14.41,Style-ADA(StyleGAN-ADA)的FID為3.79。
圖4 面向Cifar10數(shù)據(jù)庫的圖像生成FID對比Fig.4 Image generation FID comparison with different methods for Cifar10 database
其次,使用車損數(shù)據(jù)集測試了三種方法的效果,保持模型參數(shù)不變,訓練曲線如圖5 所示(虛線為單特征增強結果,實線為組合特征增強和自適應增強)。圖中從零開始訓練,僅Style-ADA和Style-APA實現(xiàn)了有效收斂,但Style-APA模型未能保持收斂狀態(tài),在訓練超過2×106個樣本后,逐漸轉向發(fā)散。Diff-GAN 模型從開始一直處于隨機震蕩狀態(tài),未進入有效收斂階段。Style-ADA效果較好,僅在1.4×107個樣本時FID開始小幅升高。最后,基于已收斂StyleGAN預訓練模型進行精調,如圖5所示,僅有Style-ADA的FID保持穩(wěn)定,其他兩種模型都快速衰退到隨機狀態(tài)。從原因上,Cifar每類圖像5 000,樣本量大,圖像分辨率低,與車損圖像對比樣本的一致性較強。由以上實驗可知,針對類似車損圖像集這種數(shù)據(jù)量小,樣本多樣性強,且為條件圖像生成的場景,僅Style-ADA方法可行。對比以上三種方法,可知增強概率自適應控制對小樣本收斂最為重要,其次是變換組合類型選擇。同時對生成器和判決器進行增強能夠保證生成模型不發(fā)生增強泄漏,但在保證模型收斂上無明顯效果。
圖5 面向車損數(shù)據(jù)庫的圖像生成FID對比Fig.5 Image generation FID comparison with different methods for car damage database
本節(jié)首先對基于有限車損樣本的StyleGAN模型收斂性進行評估,其次,對StyleGAN潛向量空間進行了解耦分析。
本文對基于有限車損樣本的StyleGAN模型收斂性能進行了多項實驗,分別基于8類256×256分辨率、8類128×128分辨率、4類256×256分辨率以及128×128分辨率的車損數(shù)據(jù)集。FID 收斂情況如圖6 所示,圖中標識4-256-570分別表示類別-分辨率-樣本總數(shù)量,四個數(shù)據(jù)集對應的最低FID 分別為59.9,43.9,116.0,90.0。從圖中可知,同類別數(shù)量和樣本數(shù)量的條件下,高分辨率圖像最終的FID 數(shù)值較高,即分辨率越低,生成圖像與真實圖像相似度越高。不同樣本數(shù)量條件下,樣本數(shù)量越多,最終的FID數(shù)值越低。另外,對于樣本數(shù)量在1 500幅以下的訓練集,在8×106迭代以前FID收斂較快,其后此值趨于穩(wěn)定。
圖6 4個數(shù)據(jù)集FID曲線Fig.6 FID scores of four data sets
其次,本文對不同數(shù)據(jù)增強方法在StyleGAN 訓練中的效果進行了評估。第一,在不使用自適應概率控制的情況下,評估六種圖像變換方式的增強效果。第二,對比六種變換的組合增強在是否使用自適應概率控制情況下的增強效果。如圖7所示,六種變換對模型收斂性的效果對比,六種變換增強對FID 收斂的有效性評估:如圖所示,本文對像素調整(blit)、投影幾何變換(geom)、顏色變換(color)、圖像空間濾波(filter)、加性噪聲(noise)和圖像裁剪(crop)六項增強效果分別進行了評估,其中效果最好的是投影幾何變換,其次是像素調整和圖像空間濾波,裁剪和顏色增強也可以帶來精度提升,噪聲增強的效果最為有限。在第二組實驗,本文對六種增強一起使用進行了評估,圖中bgcnfc 曲線,發(fā)現(xiàn)其導致模型向較差的單種增強收斂。與此同時,本文對自適應調整增強強度p的方法進行了評估,見圖中ada曲線,可知自適應調整增強強度p效果顯著。因此,在樣本數(shù)量為2 000 以下的情況,建議使用效果較好的單種增強geom或者geom,blit混合增強的方式,并配合自適應概率控制方法。
圖7 不同增強方法的FID曲線Fig.7 FID scores by different augment methods
最后,本文對模型的計算復雜度進行分析。模型結構與分辨率有關,但不嚴格成正比。如表2 所示,模型參數(shù)的數(shù)量總體隨圖像分辨率變化,分辨率從32開始,每提升4 倍,參數(shù)數(shù)量變多一次,而兩倍分辨率提升如128與256,參數(shù)差別不大。訓練時服務器硬件配置為兩張NVIDIA TeslaV100-32G顯卡,批大小設置為128。總耗時按照訓練完1×103萬幅圖像統(tǒng)計,因為此階段模型已經明顯收斂或發(fā)散,訓練階段結束??偤臅r和平均耗時上,分辨率32 的訓練集約為分辨率128 的1/5。計算復雜度使用單幅圖像的浮點計算量(FLOPs)表示,分辨率32 圖像對應FLOPs 為1.3×1010,分辨率128 圖像FLOPs 為4.1×1010,分辨率256 圖像FLOPs 為4.5×1010。V100 雙精度計算能力為7.5 TFLOP/s,每秒可處理約600幅分辨率為32的圖像,約140幅分辨率為128或256的圖像。
表2 StyleGAN計算復雜度Table 2 Computational complexity of StyleGAN
本節(jié)主要進行生成圖像分析,生成模型潛向量解耦分析。首先是圖像生成結果分析,如圖8顯示了生成的8 類128×128 分辨率的車損圖像以及樣式混合的效果。其中,圖8(a)第一行為原始圖像,第二行對照原始圖像的生成圖像,圖8(b)第二行的第二幅以后圖像為樣式混合圖像,樣式混合實際是對兩個生成圖像的混合。相比于原始圖像,生成圖像可能產生輪廓變形,顏色改變等,并出現(xiàn)模糊,局部扭曲等問題。拍攝角度和物體區(qū)域占比,樣本與訓練集其他樣本的相似度等決定了生成圖像的保真度。物體區(qū)域占比適中,訓練集相似樣本較多,則生成圖像的保真度較好?;旌虾蟮膱D像在顏色與車燈輪廓特征分別來源于相應的生成圖像。
圖8 生成圖像及樣式混合Fig.8 Random and style mixing image generation
通過對生成網絡權值進行奇異值分解可以實現(xiàn)潛向量空間方向的解耦。圖9 顯示了基于潛向量空間解耦后,沿著選定方向對生成圖像進行操縱變換的生成結果。圖中顯示了四組,每組第一幅為原生成圖像,后面兩幅是操縱變換的生成圖像。其中,左側兩組分別對應車部件的顏色逐漸變深和變淺,右側第一組對應車輛部件的縱向拉伸,第二組對應玻璃破碎、拉伸和顏色。注意,單個解耦方向與實際感知方向,如顏色、大小、程度等,并不一一對應。如圖中左側兩組變換,僅大致對應顏色的變深和變淺。按特定感知方向進行潛空間解耦,需要額外有監(jiān)督模型輔助。
圖9 基于潛空間解耦的生成圖像Fig.9 Images generated by manipulated disentangle space
本節(jié)進行基于生成式圖像增強的分類實驗,實驗對象包括8類車損圖像集和4類車燈圖像集。每個圖像集分別在256×256 及128×128 分辨率條件下進行分類測試。分類模型為Efficientnet v2,模型訓練采用學習率為0.005,批次64,每模型訓練200 輪,dropout 值為0.5,GPU為v100。
首先,在8類車損圖像集進行生成圖像增強對照實驗,分別對增強前后的圖像集進行模型訓練及預測精度評估。數(shù)據(jù)擴增方式分為固定樣本數(shù)量擴增和動態(tài)樣本擴增方式,先進行固定樣本數(shù)量擴增測試。如表3所示,增強前圖像集記為原始圖像集,增強后圖像集為原圖像集加上生成圖像集,基于這些圖像集進行模型訓練,然后在測試集統(tǒng)計分類精度。圖像生成方式據(jù)2.2節(jié)所述,包括隨機生成、樣式混合生成、隨機+樣式混合以及沿解耦方向生成,對應表中+rand_gen、+mix_gen和+rand+mix_gen、+disentangle_gen。其中隨機生成按100幅圖片/類擴增數(shù)據(jù),樣式混合則隨機取50個樣本為前階段源圖像,另50個為后階段源圖像,按組生成50幅新圖像,然后前后階段互換,再生成50幅圖片,隨機+樣式混合樣本擴增量為上述兩者之和。沿解耦方向生成時,取8個主要的方向,對隨機選的100個樣本分別按照正負向百分之10操縱生成新圖像,單類樣本增多1 600。分類精度上,256×256 分辨率原始圖像集預測精度為(78.4±0.9)%,128×128 分辨率精度為(79.0±0.8)%。經隨機生成的數(shù)據(jù)擴增,預測精度分別為(81.1±1.1)%,(81.2±0.5)%,經樣式混合擴增,兩種分辨率下預測精度分別為(81.5±0.7)%,(81.2±1.0)%,經隨機+樣式混合擴增,兩種分辨率下預測精度分別為(81.5±0.3)%,(83.4±0.9)%。沿解耦方向生成,兩種分辨率下的預測精度分別為(80.7±0.6)%和(81.9±0.9)%。圖10 顯示訓練過程的測試精度,基于生成的數(shù)據(jù)擴增能夠一定程度地豐富數(shù)據(jù)的多樣性,為深度學習模型帶來增益,在128×128分辨率上提升效果更為顯著。比較而言,上述各種增強方法最終預測精度差別不大,+rand+mix_gen 方式為訓練集融合了多種增強樣本,效果稍優(yōu)。本文認為提升效果與低分辨率的圖像保真度較高有關,因為生成圖像如果與真實圖像差別較大,則其分布與原數(shù)據(jù)分布存在差異,所以生成數(shù)據(jù)的多樣性無法體現(xiàn)到精度提升上。同時,受樣本數(shù)量限制,測試集較小,其分布范圍有限,加重了分布差異性的影響。
表3 在八分類訓練集不同數(shù)據(jù)擴增方法的分類精度Table 3 Classification accuracy with different data enhancement methods on 8 category data set
圖10 不同圖像生成方式的數(shù)據(jù)增強分類準確率Fig.10 Image classification accuracy rates with different image generation methods
其次,本文對8類車損圖像進行了動態(tài)樣本擴增分類測試,迭代式添加樣本,并根據(jù)條件去除相似樣本等,具體訓練步驟見3.3節(jié)所述。這里僅對隨機生成和樣式混合進行測試,其中隨機生成擴增最高精度82.7%,樣式混合擴增最高精度83.2%,考慮隨機性誤差,效果與固定樣本擴增接近,如表4所示。動態(tài)樣本擴增實驗中增加約800 幅圖像/類,其效果未顯著高于固定樣本擴增,本文認為主要是因為樣本的保真度和多樣性兩部分原因,其中更重要的是基于StyleGAN 擴增的樣本多樣性不足。如圖11 所示,同批次生成樣本中有多個樣本外形極為相似,并且這種相似樣本在每類中都會出現(xiàn),從而大幅降低生成樣本的多樣性,導致圖像分類模型的預測精度相比固定擴增方式難以提升。
表4 動態(tài)擴增多次迭代的分類精度變化Table 4 Classification result with dynamic enhancement method 單位:%
圖11 不同隨機種子的相似生成樣本Fig.11 Similar generated images by different seeds
最后,為了測試生成模型對樣本空間更小的數(shù)據(jù)集的擴增效果,本文在4類使用車燈圖像進行生成圖像增強對照實驗,圖像集包括前后車燈和前后損壞車燈共四類,總共570 幅訓練集圖像,79 幅測試集。增強前圖像集為原始圖像集,圖像生成方式包括隨機生成、樣式混合生成、隨機+樣式混合,對應表中+rand_gen、+mix_gen和+rand+mix_gen,其中隨機生成和樣式混合按100幅圖片/類擴增數(shù)據(jù),隨機+樣式混合的類樣本擴增量為兩者之和。同樣對分類精度進行5次評測,如表5所示,256×256 分辨率原始圖像集預測精度為(90.2±0.9)%,128×128 分辨率精度為(91.2±1.0)%。經隨機生成的數(shù)據(jù)擴增,預測精度分別為(91.1±1.1)%,(92.2±1.5)%,經樣式混合擴增,兩種分辨率下預測精度分別為(90.5±0.7)%,(91.2±1.2)%,經隨機+樣式混合擴增,兩種分辨率下預測精度分別為(91.5±1.0)%,(91.5±0.9)%??傮w而言,基于StyleGAN圖像增擴對4類車燈數(shù)據(jù)的圖像分類有一定程度提升,但相比8 類圖像增擴,提升效果不顯著。本文認為原因仍是生成圖像的多樣性和保真度問題,雖然本實驗樣本空間限制為車燈圖像,但訓練集樣本量更少,引起FID 值較高。其次,本次實驗中同樣發(fā)現(xiàn)相似生成樣本較多,即擴增樣本多樣性不足的問題。
表5 在四分類數(shù)據(jù)集上不同數(shù)據(jù)擴增方法的分類精度Table 5 Classification accuracy with different data enhancement methods on 4 category data set單位:%
本文研究了基于有限車輛樣本的StyleGAN模型的訓練方法,對常規(guī)增強訓練流程進行了評估,證明在多樣性,且未進行對齊的圖像數(shù)據(jù)庫上,像素調整結合投影變換的增強方式最優(yōu);并評估了StyleGAN-ada提出方法對有限樣本訓練集的有效性,證明了樣本集500~1 500之間可以使StyleGAN模型收斂。然后對模型進行潛向量空間解耦與解耦方向實際意義分析。接著進行了隨機生成、樣式合成等圖像生成方式實現(xiàn)。最后,針對不同的圖像擴增方式,分析了樣本擴增對圖像分類任務提升效果的差異,并對后續(xù)可進一步研究的方向進行了討論。
通過圖像擴增及分類精度提升效果分析,StyleGAN的生成圖像后續(xù)工作:(1)圖像校正的高清車損圖像集構建,包括對圖像進行校正、濾波等預處理,提升圖像集數(shù)量和質量,這是最直接的提升生成樣本保真度,從而提高分類器預測精度的方法。(2)StyleGAN基于更優(yōu)的初始向量,而非隨機初始向量進行圖像生成。(3)基于向量化變分自動編解碼VQVAE[27]等方法,提升樣本的多樣性。