關(guān)鍵詞:圖像矢量化;圖像模式;殘差網(wǎng)絡(luò);圖像分類;可微圖像合成中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-038-2206-07doi:10.19734/j.issn.1001-3695.2024.09.0374
Abstract:Tovectorizearchitecturalpaintedpaternimagesthatcontainreusablegraphicelements,whilepreservingtheindependenceandtransformationparametersof thereusable graphic elements,thispaperproposedavectorizationmethodforarchitecturalpaintedpaternimagesbasedonelementtransformation.Thismethodfirstlydividedcomplexpattersintolocalpatterns,thenconductedmulti-classelementdetectiononthelocalpaternstocompleteelementfilteringandinitializeelement transformationparameters.Subsequently,itusedanimproveddiferentiablesythesisalgorithmtocalculatethetransforation parametersof thelements,ultimatelyachievingvectorizationofthepaternimagewhileretainingthetransformationparameters of thereusablegraphicelements.Experimentalresultsdemonstratethatthis methodcanachieveasmalerimagereconstruction eroronarchitecturalpaintedpatterndatasets,whilealsopreservingthetransformationparametersofthereusablegraphic elements.Basedonthecharacteristicsof thepainted paters,thispaperproposedavarietyofvectorizationmetrics tocompare the performance of various methods.Thismethodhas advantages in terms ofreconstruction accuracyandtheretentionof element transformation parameters,and can be applied to the vectorization of images with reusable graphic elements.
Key words:image vectorization;image patterns;residual network;image classfication;diferential compositing
0 引言
圖像矢量化是將位圖轉(zhuǎn)換為由數(shù)學(xué)參數(shù)描述的矢量圖的一項(xiàng)技術(shù),矢量圖相較于位圖具有分辨率無關(guān)性與占用空間小的優(yōu)點(diǎn)。近年來,Li等人1提出了一種通過邊緣采樣實(shí)現(xiàn)的可微分蒙特卡羅光線追蹤方法。之后,研究者提出了一種新的可微分矢量圖光柵化器2,該光柵化器能夠在矢量圖和光柵圖像之間實(shí)現(xiàn)參數(shù)梯度信息的雙向傳播。這種可微分光柵化器不僅使得對(duì)矢量圖的控制點(diǎn)以及顏色參數(shù)的直接優(yōu)化成為可能,而且允許將矢量圖表示無縫集成到基于卷積神經(jīng)網(wǎng)絡(luò)或者其他類型網(wǎng)絡(luò)的深度學(xué)習(xí)模型中。例如 SuperSVG[3]借助該光柵化器設(shè)計(jì)了一個(gè)兩階段的自監(jiān)督式神經(jīng)網(wǎng)絡(luò),通過在光柵圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,實(shí)現(xiàn)由粗糙到細(xì)致的圖像矢量化。建筑彩繪紋樣圖像中豐富的變換關(guān)系也是一種可以通過變換參數(shù)描述的待矢量化信息。建筑彩繪紋樣的構(gòu)成以若干基本的可復(fù)用圖元為基礎(chǔ),通過對(duì)特定的圖元進(jìn)行多次仿射變換,得到變換后的圖元序列,最后按照?qǐng)D元序列的層次先后次序合并各個(gè)變換后的圖元得到整體的紋樣?;谏疃葘W(xué)習(xí)的圖像模式生成模型[4.5]在分析圖像的圖元信息并進(jìn)行重建時(shí),通常由于神經(jīng)網(wǎng)絡(luò)的隱式編碼特性不能精確保持圖元的獨(dú)立性和完整性,從而不利于對(duì)生成結(jié)果中的圖元變換參數(shù)信息進(jìn)行直接編輯。Reddy等人[提出了一種基于基本圖元的可微合成算法,基于確定的基本圖元進(jìn)行變換參數(shù)的求解,保持了圖元的獨(dú)立性和完整性。本文方法聚焦于由少量的可復(fù)用圖元通過豐富的復(fù)用和變換構(gòu)成的建筑彩繪紋樣圖像的矢量化重建。對(duì)這類紋樣圖像進(jìn)行保持變換參數(shù)信息的矢量化重建,主要面臨兩個(gè)方面的挑戰(zhàn):a)變換參數(shù)信息求解算法的精度問題;b)圖元庫構(gòu)建問題。首先變換參數(shù)信息的求解精度問題是指目標(biāo)圖像如建筑彩繪紋樣圖像數(shù)據(jù)具有更強(qiáng)的結(jié)構(gòu)性,主要表現(xiàn)為紋樣圖元存在更多的對(duì)稱、縮放與旋轉(zhuǎn)關(guān)系。其次對(duì)于圖元庫構(gòu)建問題,現(xiàn)有的通過機(jī)器學(xué)習(xí)方法提取圖元的方法主要存在兩個(gè)方面的問題:a)提取過程中無法界定圖元本身的完整性,從而導(dǎo)致重建結(jié)果不符合預(yù)期;b)圖元的數(shù)量隨著數(shù)據(jù)集規(guī)模與復(fù)雜度的增加而增加,冗余的候選圖元直接參與變換參數(shù)的求解會(huì)使得重建難度隨之增大,過多的冗余圖元也會(huì)使得算法的效率以及收斂性能受到較大的影響。可微合成方法[67]在存在大量冗余圖元的前提下會(huì)使得優(yōu)化過程陷入局部最優(yōu)解,從而導(dǎo)致重建結(jié)果存在較大誤差,如圖1所示。
為應(yīng)對(duì)可微合成方法在多候選圖元下的局部最優(yōu)現(xiàn)象,本文提出了一種基于圖元過濾和改進(jìn)的可微變換參數(shù)求解的建筑彩繪紋樣圖像矢量化方法(elementalfiltering-baseddifferen-tialtransformation,EF-DT),能夠在所處理的建筑彩繪紋樣圖像數(shù)據(jù)上達(dá)到較小的矢量化重建誤差,同時(shí)保留彩繪紋樣圖像中可復(fù)用圖元的變換參數(shù)以及變換后圖元的獨(dú)立性。
1相關(guān)工作
1.1 圖像矢量化
建筑彩繪紋樣圖像具有通過圖元復(fù)用和豐富的變換參數(shù)而構(gòu)成的特點(diǎn),這使得當(dāng)前的矢量化方法難以直接用于建筑彩繪紋樣圖像的矢量化,并同時(shí)保留圖元的變換參數(shù)。
現(xiàn)有的圖像矢量化方法[8\~11]在處理非自然照片圖像時(shí)已經(jīng)能夠產(chǎn)生像素值均方誤差等視覺誤差較小的結(jié)果,Hoshyari等人[12]在矢量化算法中融人了從數(shù)據(jù)中學(xué)習(xí)到的矢量路徑關(guān)鍵點(diǎn)的設(shè)計(jì)經(jīng)驗(yàn),改善了矢量化結(jié)果的合理性。但上述方法是以圖像中顏色較為均勻一致的像素區(qū)域作為貝塞爾曲線待擬合的形狀,對(duì)建筑彩繪紋樣圖像的處理結(jié)果不具有圖元的獨(dú)立性,并忽視了圖元的變換參數(shù)這一層信息?;谏疃葘W(xué)習(xí)方法的矢量圖生成模型如DualVector[13]、 Im2Vec[14] 、DeepVec-Font[15,16] 對(duì)矢量字符、圖標(biāo)等特定類型的矢量圖進(jìn)行表征和生成方面也取得了初步的效果。Carlier等人[17]首次提出了端到端的矢量圖生成與表示模型,在復(fù)雜矢量圖表征上更進(jìn)一步。SVGDreamer[18]結(jié)合文生圖擴(kuò)散模型與可微渲染技術(shù)增強(qiáng)了矢量圖生成結(jié)果的多樣性。但是上述提到的矢量圖生成模型所適用的圖像數(shù)據(jù)復(fù)雜度有較大限制,對(duì)建筑彩繪紋樣圖像數(shù)據(jù)仍然難以直接處理。
1.2 圖像分類
在計(jì)算機(jī)視覺領(lǐng)域,圖像分類技術(shù)得益于一系列卷積神經(jīng)網(wǎng)絡(luò)已具有顯著成效。He等人[19]提出的ResNet模型通過引人殘差學(xué)習(xí)的概念和跳躍連接機(jī)制,解決了深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題。在這些經(jīng)典模型的基礎(chǔ)上, Hu 等人[20]提出了通道自注意力機(jī)制SE-Net,通過動(dòng)態(tài)調(diào)整不同通道的重要性,使模型能夠更加集中于關(guān)鍵特征,從而提高了分類等下游任務(wù)的準(zhǔn)確性。ViT模型[21]借助多頭自注意力機(jī)制,將圖像劃分為不同的patch進(jìn)行處理,相比于CNN具有更大的感受野,更易于理解圖像全局上下文。Bello等人[22]提出了ResNet-RS,通過改進(jìn)訓(xùn)練和縮放策略來提高模型在圖像分類任務(wù)上的表現(xiàn),被證實(shí)能夠有效提升模型最終的性能,在EfficientNet[23中也有廣泛使用。本文圖元分類方法在模型超參數(shù)調(diào)整策略上借鑒了ResNet-RS中的思想來提高分類網(wǎng)絡(luò)的性能,從而更準(zhǔn)確地識(shí)別所需要的圖元類型。
1.3 圖像模式提取
圖像模式是指通過若干基本圖元的有序或近似有序排列,創(chuàng)造出具有吸引力與審美價(jià)值的圖形或圖案,在視覺藝術(shù)和平面設(shè)計(jì)中具有重要地位。現(xiàn)有的深度學(xué)習(xí)方法[24]直接在像素域上進(jìn)行特征提取并不適用于實(shí)現(xiàn)直觀地對(duì)圖像模式信息的操縱,因?yàn)檫@類任務(wù)需要在保持單個(gè)圖元形狀獨(dú)立性與完整性以及圖元之間排列規(guī)律的同時(shí)進(jìn)行操作,基于深度學(xué)習(xí)技術(shù)的生成方法容易擾亂單個(gè)圖元的形狀或圖元之間的排列,從而導(dǎo)致難以準(zhǔn)確地重建出圖像中圖元的變換參數(shù)。
在根據(jù)圖元變換參數(shù)進(jìn)行紋樣合成時(shí),傳統(tǒng)的合成函數(shù)[25,26]包含了最近鄰四舍五人和離散可見性等非可微計(jì)算過程,無法通過目標(biāo)函數(shù)的梯度進(jìn)行反向傳播來指導(dǎo)變換參數(shù)的優(yōu)化。此外,圖元數(shù)量和圖元類型等信息的離散性也阻礙了從目標(biāo)函數(shù)中獲得與模式相關(guān)的變換參數(shù)的優(yōu)化信息,增大了問題的搜索空間??晌⒑铣煞椒╗6可以根據(jù)確定的圖元直接從原圖像中優(yōu)化出圖元的變換參數(shù)信息,但是對(duì)于建筑彩繪紋樣等具有更多候選圖元數(shù)量與更豐富的圖元變換關(guān)系的圖像來說,該方法仍然具有圖1中難以克服的局部最優(yōu)現(xiàn)象,因此難以直接用于本文建筑彩繪紋樣圖像的處理。
2 圖元過濾
本文設(shè)計(jì)了一個(gè)兩階段的流程對(duì)建筑彩繪紋樣圖像進(jìn)行保留圖元變換參數(shù)的矢量化,圖2是該方法的流程。首先基于建筑彩繪紋樣圖像數(shù)據(jù)構(gòu)建了一個(gè)矢量化圖元庫?;谠搱D元庫,在第一階段訓(xùn)練了一個(gè)用于識(shí)別圖像包含圖元類型的分類網(wǎng)絡(luò),用于從圖元庫中過濾掉無關(guān)圖元;根據(jù)第一階段識(shí)別得到的矢量化圖元,在第二階段求解紋樣圖像中圖元的變換參數(shù)。本章將介紹第一階段圖元過濾所用網(wǎng)絡(luò)的實(shí)現(xiàn)細(xì)節(jié)。
2.1矢量化圖元庫構(gòu)建
建筑彩繪紋樣圖像的可復(fù)用構(gòu)成圖元較為明確的獨(dú)立性與完整性,因此本文通過半自動(dòng)化的人工手段構(gòu)建符合重建要求的矢量化圖元庫。圖元庫中的圖元應(yīng)具有明顯的仿射變換可復(fù)用性,并且形狀盡可能簡單,以這兩條性質(zhì)來進(jìn)行圖元的人工選取和調(diào)整,使得構(gòu)建出的圖元滿足可以通過仿射變換進(jìn)行建筑彩繪紋樣圖像矢量化重建的需要,并將庫中圖元以SVG編碼格式存儲(chǔ)為圖元文件。圖元庫的具體示例在第4章有所介紹與展示。矢量化圖元相比于光柵化圖元能夠減少由于線性插值造成的邊緣和紋理細(xì)節(jié)上的重建瑕疵[27],如圖3(a)為光柵化圖元重建結(jié)果中存在的邊緣模糊與鋸齒狀現(xiàn)象,圖3(b)為矢量化圖元的重建結(jié)果。
2.2 圖元多分類網(wǎng)絡(luò)
本文涉及的圖元分類任務(wù)有兩個(gè)特點(diǎn)。首先是小目標(biāo)多標(biāo)簽,如圖2最左側(cè)的輸人圖像所示,建筑彩繪紋樣本身的圖元復(fù)用性較強(qiáng),可以由庫中的圖元經(jīng)過多次變換后得到的圖元序列合成得到,變換得到的圖元序列往往對(duì)應(yīng)著庫中不唯一的圖元類型,使得建筑彩繪紋樣圖像中待識(shí)別的目標(biāo)往往有較小的尺寸。其次是類別無關(guān)性,即標(biāo)簽之間并不存在明顯的類別依賴關(guān)系,這表現(xiàn)為多種圖元可能以任意的組合模式出現(xiàn)在建筑彩繪紋樣圖像中。
根據(jù)上述建筑彩繪紋樣圖像的特點(diǎn),圖元分類網(wǎng)絡(luò)的主干部分使用了ResNet-RS結(jié)構(gòu),如圖4所示是圖元分類網(wǎng)絡(luò)的結(jié)構(gòu)。為了增強(qiáng)對(duì)圖像中不同尺寸圖元的感知能力,分類網(wǎng)絡(luò)每層的殘差塊中采用了 SE block[20] 中的通道自注意力機(jī)制。網(wǎng)絡(luò)末端的全連接層FC(fullconnection)的輸出值作為下一層sigmoid激活函數(shù)的輸入值,由sigmoid函數(shù)得到每個(gè)圖元類別為0~1的概率值,并使用二元交叉熵BCE(binarycross-entropy)作為圖元分類網(wǎng)絡(luò)的損失函數(shù)。對(duì)于圖2中輸人的一幅復(fù)雜和完整的建筑彩繪紋樣,參考文獻(xiàn)[25]中的紋樣版式分類方法,首先對(duì)目標(biāo)圖像進(jìn)行局部紋樣的劃分,得到位于不同位置的局部紋樣圖像,并分別輸入到圖元多分類網(wǎng)絡(luò)中識(shí)別出對(duì)應(yīng)的圖元類型,從而完成對(duì)無關(guān)圖元的過濾,并將對(duì)應(yīng)的圖元信息作為下一階段紋樣變換參數(shù)求解算法的輸入。
2.3訓(xùn)練數(shù)據(jù)樣本采樣方法
針對(duì)本文采用的建筑彩繪紋樣圖像數(shù)據(jù)集,鑒于手動(dòng)標(biāo)注可復(fù)用圖元的勞動(dòng)強(qiáng)度較高,本文提出了一種采樣算法,旨在自動(dòng)化生成用于分類網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集。該算法首先對(duì)采樣超參數(shù)進(jìn)行初始賦值,包括樣本標(biāo)簽數(shù)量取值范圍TypeList、樣本中圖元序列數(shù)量取值范圍NumList、樣本數(shù)量 N 以及矢量化圖元庫SvgLib;接著在循環(huán)程序中根據(jù)初始參數(shù)隨機(jī)生成樣本中圖元的變換參數(shù)T;然后根據(jù)圖元的圖層值大小對(duì)變換后的圖元進(jìn)行離散化合成,得到樣本圖像;最后將樣本圖像和對(duì)應(yīng)的樣本標(biāo)簽保存為訓(xùn)練樣本。
算法1圖元分類網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)采樣算法輸入:矢量化圖元庫與采樣參數(shù)。
輸出:分類任務(wù)圖像訓(xùn)練數(shù)據(jù)集DataSet
1 初始化采樣參數(shù)TypeList,NumList, N
2 for i=0 to N do
3 TN \~Random(TypeList);//隨機(jī)選擇樣本標(biāo)簽數(shù)
4 Ids\~CatergoryIndex( TN, ;//選擇類別索引
5 Patches=SvgLib(Ids) ;//加載矢量化圖元
6 EN \~Random(NumList);//隨機(jī)選擇樣本圖元數(shù)
7 T=[τ,c,θ,s,m,z] ;//隨機(jī)化變換參數(shù)
8 ET=ApplyT(Patches,T) ;//變換得到各層圖元
9 I=Discretize(ET) ;//離散化合成得到樣本圖像
10 DataSet (I,Ids) ;//保存訓(xùn)練樣本
11 end for
12輸出采樣數(shù)據(jù)集DataSet。
算法1的第1行,標(biāo)簽數(shù)量取值范圍 ,Tmin+1,…,Tmax] ,針對(duì)所研究的建筑彩繪紋樣圖像中圖元類別組合出現(xiàn)的統(tǒng)計(jì)規(guī)律,實(shí)驗(yàn)中取
。樣本圖元序列數(shù)量范圍NumList取值為以下平方數(shù)列表[9,16,25,36,49]。算法1第6行中 Ids=[Id1,Id2,…,Idk,…,Id?TN] ,且 0?
Idklt;52,52 是圖元庫SvgLib中圖元的總數(shù)量。第9行變換參數(shù) T 中, τ 是圖元序列對(duì)應(yīng)的圖元類型索引, c 是圖元?dú)w一化平面坐標(biāo)值, θ 是圖元的旋轉(zhuǎn)角弧度值, s 是圖元在 x 軸和 y 軸上的縮放系數(shù), m 是圖元的鏡像標(biāo)志符, σz~N(σ0,I) 是圖元的圖層深度值。
3紋樣變換參數(shù)求解
基于可微合成的變換參數(shù)求解方法在處理具有高旋轉(zhuǎn)對(duì)稱性、高相似度的圖元時(shí),容易陷入局部最優(yōu)解;另外當(dāng)引入對(duì)圖元縮放、鏡像對(duì)稱等性質(zhì)的支持時(shí),會(huì)使得原本顯著的局部最優(yōu)問題更加凸顯。針對(duì)以上存在的問題,本文提出了緩解局部最優(yōu)現(xiàn)象的多項(xiàng)改進(jìn)策略以有效地改善可微變換參數(shù)求解算法在實(shí)際矢量化重建中的效果。
3.1可微變換參數(shù)擴(kuò)展
基于圖元的圖像合成函數(shù)中,可對(duì)輸入的若干圖元通過一組變換參數(shù) T=[T1,T2,…,Ti,…,Tn] 得到變換后的圖元序列,圖元序列中第 i 個(gè)元素的變換參數(shù)表示為 Ti=(τi,ci ,θi,zi) 。其中 τi 是元素 χi 的圖元類型, ci 是元素 i 的坐標(biāo)位置, θi 是元素 i 的角度, zi 是元素 χi 的圖層值。結(jié)合建筑彩繪紋樣圖像的特點(diǎn),引入縮放參數(shù) ,將變換范圍擴(kuò)展到圖元的尺寸信息??紤]到變換中存在圖元的鏡像對(duì)稱關(guān)系,需要將縮放參數(shù) si 的取值由 [0,+∞) 擴(kuò)展到(-∞,+∞) 。但是增大后的縮放參數(shù)取值范圍會(huì)使得變換參數(shù)的優(yōu)化難度隨之加大,使得鏡像關(guān)系的損失曲線圖變得不夠平緩,從而更容易陷入局部最優(yōu)解,如圖5(a)所示。本文方法限定縮放系數(shù) si 在非負(fù)數(shù)域,并通過引入一個(gè)鏡像概率參數(shù) mi=σ(μi) 用于表示圖元鏡像關(guān)系的概率,其中 σ 是sigmoid函數(shù) ?,μi 是被優(yōu)化的參數(shù)。采用鏡像概率后的鏡像損失曲線如圖5(b)所示,鏡像概率的引人使得重建損失曲線的過渡更加平緩,從而不容易陷入局部最優(yōu)解。
鏡像參數(shù)的引入首先對(duì)圖元進(jìn)行鏡像復(fù)制,鏡像圖元的變換參數(shù)遵循以下兩點(diǎn)特征:a)鏡像圖元與原圖元共享一部分變換參數(shù),包括 τi,ci,θi,si;b) 鏡像前后圖元的圖層值修改為以下形式: 其中 zi 為第 i 個(gè)圖元的絕對(duì)圖層值,
為鏡像前圖元的圖層值, zin 為鏡像后圖元的圖層值。以上設(shè)計(jì)確保了損失函數(shù)對(duì)于引入的鏡像參數(shù)也具有可微分性,并且當(dāng)鏡像參數(shù)有明確的偏好時(shí),與偏好相對(duì)應(yīng)的另一個(gè)圖元的圖層值能夠通過與概率值的乘積趨近于零,從而在合成過程中實(shí)現(xiàn)其不可見性。
本文方法默認(rèn)通過反轉(zhuǎn)圖元坐標(biāo)系的 y 軸實(shí)現(xiàn)鏡像對(duì)稱,對(duì)于第 i 個(gè)變換后的圖元,其變換參數(shù)為 Ti=(τi,ci,θi,zi,si ,mi )。圖元序列的合成過程對(duì)引入的 s 與 ?m 參數(shù)保持了可微分性,最終的可微合成函數(shù)表示為
其中: Ji(X) 是變換后圖元序列中第 χi 個(gè)元素的光柵化圖像;vi(X) 表示圖元在鏡像參數(shù) m 下相對(duì)于背景圖層的可見性;參數(shù) X 表示畫布坐標(biāo)系下的每個(gè)像素點(diǎn)位置,即
其中: 是圖元序列中第 i 個(gè)元素在圖元類型索引 j 上的 soft-max分量,用于將圖元類型信息可微分化; hj 表示對(duì)第 j 個(gè)圖元進(jìn)行仿射變換,上標(biāo) p 和 n 分別表示對(duì)圖元和鏡像圖元進(jìn)行仿射變換; Mip 與 Min 是互為鏡像關(guān)系的第 i 個(gè)元素的透明度通道值,合成過程中背景圖層值固定為數(shù)值 1 000 。
3.2 變換參數(shù)初始化
圖元的初始化變換參數(shù)對(duì)算法收斂性能影響同樣重要,好的初始化變換參數(shù)能夠提升算法收斂的效果[28]。目標(biāo)紋樣圖像中的圖元變換參數(shù)是未知的,因此需要對(duì)圖元的數(shù)量與圖元的位置分布進(jìn)行初始化。當(dāng)圖元的初始化數(shù)量少于真實(shí)圖元數(shù)量時(shí),容易導(dǎo)致算法難以收斂;圖元的初始化數(shù)量過多時(shí)容易導(dǎo)致局部最優(yōu)現(xiàn)象并且增大算法的計(jì)算量。實(shí)驗(yàn)中根據(jù)數(shù)據(jù)樣本的復(fù)雜度,將圖元的初始化數(shù)量設(shè)置為{25,36,49,64,81五個(gè)平方數(shù)值之一。圖元的初始化分布規(guī)律對(duì)算法性能的影響主要體現(xiàn)在優(yōu)化過程中損失函數(shù)對(duì)于圖元分布相關(guān)的變換參數(shù)梯度的感知具有空間上的局部性,圖元的分布變換參數(shù)包括位置、角度、鏡像概率參數(shù),這意味著圖元的初始分布應(yīng)該盡可能地覆蓋真實(shí)的圖元分布狀態(tài)。使得初始分布盡可能覆蓋真實(shí)分布狀態(tài)的原則是保證分布參數(shù)的多樣化,因此對(duì)圖元分布參數(shù)采取以下的初始化策略:
a)對(duì)于位置參數(shù),用合適規(guī)模的矩形網(wǎng)格去初始化圖元分布位置,以滿足對(duì)于真實(shí)圖元位置分布的覆蓋。在后續(xù)實(shí)驗(yàn)中出現(xiàn)的不同規(guī)模圖元數(shù)量均是以 n×n 網(wǎng)格的方式進(jìn)行初始化。
b)對(duì)于角度參數(shù),為了最大化圖元角度分布的多樣性,采取隨機(jī)初始化為每個(gè)位置的圖元賦予一個(gè) 0~2π 內(nèi)的弧度值。c)對(duì)于鏡像概率參數(shù),初始化時(shí)將鏡像概率參數(shù) ?m 設(shè)置為0.5,使鏡像初始狀態(tài)最大化地覆蓋真實(shí)圖元的狀態(tài)。d)剩余的參數(shù)初始值,實(shí)驗(yàn)中默認(rèn)設(shè)置如下: τi 取圖元類型的均勻概率分布, Λ,zi 設(shè)置為經(jīng)驗(yàn)固定值 為 1/n 。
3.3基于圖元誤差信息引導(dǎo)的局部最優(yōu)緩解
可微合成方法的主要缺點(diǎn)是容易陷人不同形式的局部最優(yōu)解,如旋轉(zhuǎn)相似、鏡像相似、圖元近似效應(yīng)導(dǎo)致的局部最優(yōu)解,在不加干預(yù)的情況下難以靠優(yōu)化跳出局部最優(yōu)解。
通過第一階段的圖元分類網(wǎng)絡(luò)過濾矢量化圖元庫中的無關(guān)圖元,從而規(guī)避了由于圖元近似性造成的局部最優(yōu)現(xiàn)象。對(duì)于旋轉(zhuǎn)局部最優(yōu)和鏡像局部最優(yōu),隨機(jī)添加和移除圖元等緩解策略難以起到有效的效果來準(zhǔn)確地跳出局部最優(yōu)。本文方法在迭代過程中計(jì)算圖元的掩碼誤差作為重整圖元變換參數(shù)的學(xué)習(xí)率和緩解局部最優(yōu)現(xiàn)象的引導(dǎo)性信息,圖元序列中第 χi 個(gè)元素的掩碼誤差定義為
其中: I 是目標(biāo)圖像;i是每次迭代結(jié)果的離散化合成圖像;參數(shù)XM 表示圖元透明度通道坐標(biāo)值; ? 表示矩陣的按位相乘。在此掩碼誤差基礎(chǔ)上進(jìn)行圖元面積的歸一化可以得到圖元尺寸無關(guān)的相對(duì)掩碼誤差,即
式(5)中 Mi 是圖元 Ei 對(duì)應(yīng)的透明度通道,由此得到圖元的掩碼誤差向量絕對(duì)值與相對(duì)值,即
圖元的掩碼誤差MaskLoss和NormLoss能夠在迭代優(yōu)化的過程中實(shí)時(shí)反映每個(gè)圖元的誤差狀態(tài),根據(jù)MaskLoss和NormLoss的分量值分布,定期地對(duì)其中誤差最大的圖元變換參數(shù)進(jìn)行調(diào)整,從而有效地緩解局部最優(yōu)情況。根據(jù)目標(biāo)圖像優(yōu)化難度的不同,本文方法分別取MaskLoss和NormLoss前 k 個(gè)最大值,處理對(duì)應(yīng)的陷入局部最優(yōu)的圖元參數(shù),對(duì)應(yīng)的前 k 個(gè)圖元參數(shù)分別定義為 param@k 與paramN@ k 函數(shù),即
其中: 0
對(duì)應(yīng)有圖元類型信息熵參考向量為 EntropyT ,圖元鏡像信息熵參考向量為EntropyM,分別取兩者前 k 大的值對(duì)應(yīng)的圖元變換參數(shù),即
其中: 0
3.4損失函數(shù)與梯度重整策略
本文方法對(duì)損失函數(shù)進(jìn)行了改進(jìn),采用了一種具有自適應(yīng)性的梯度更新策略。為了提升圖元放置參數(shù)的梯度強(qiáng)度[27],在L1誤差項(xiàng)中添加了由圖元輪廓符號(hào)距離SDF歸一化后得到的權(quán)重圖,即
其中: SDF(X) 函數(shù)表示圖像每個(gè)像素點(diǎn)處的強(qiáng)度值,該強(qiáng)度值與各個(gè)像素點(diǎn)到圖像前景內(nèi)容輪廓的有向距離成正比。融合了有符號(hào)距離權(quán)重圖 WsDF(X) 的損失函數(shù)為
為了使算法收斂過程更穩(wěn)定,本文方法采取了自適應(yīng)梯度更新策略。每次迭代根據(jù)圖元?dú)w一化掩碼誤差向量NormLoss對(duì)每一組圖元變換參數(shù)的梯度值進(jìn)行加權(quán)調(diào)整。首先對(duì)誤差向量NormLoss進(jìn)行小尺寸過濾,即對(duì) si 絕對(duì)值小于閾值0.025的圖元進(jìn)行權(quán)重置0過濾,從而得到變換參數(shù)的梯度值權(quán)重 Wmask ,最后對(duì)各組變換參數(shù)梯度值進(jìn)行以下重整,即
Wmask=softmax(NormLoss)
?Ti=Wmaski??Ti
其中:softmax函數(shù)根據(jù)掩碼誤差向量NormLoss的值自適應(yīng)地分配合適的變換參數(shù)梯度權(quán)重,從而為誤差更大的圖元分配更大的權(quán)重,減少當(dāng)學(xué)習(xí)率較大時(shí)在后期優(yōu)化的過程中可能出現(xiàn)的優(yōu)化不穩(wěn)定現(xiàn)象。
圖6是改進(jìn)的圖元變換參數(shù)求解算法迭代過程的示意圖。第一行顯示了圖元位置以網(wǎng)格形式進(jìn)行初始化,并且在優(yōu)化的過程中根據(jù)圖元誤差信息,準(zhǔn)確地選擇陷入局部最優(yōu)的圖元并執(zhí)行擾亂操作,從而有效地緩解了局部最優(yōu)現(xiàn)象。第二行是迭代過程中對(duì)局部區(qū)域的放大,其中顯示了鏡像優(yōu)化策略通過自然的梯度傳播將鏡像錯(cuò)位的圖元平滑地過渡到正確的鏡像狀態(tài)。
4實(shí)驗(yàn)結(jié)果與分析
4.1圖元分類網(wǎng)絡(luò)結(jié)果與分析
本文方法構(gòu)建的矢量圖元庫源自于實(shí)地采集的藏式建筑彩繪照片,首先在其基礎(chǔ)上整理出不同種類的圖元,并通過適當(dāng)?shù)氖噶炕^程將圖元處理為通用的SVG矢量圖格式,從而構(gòu)建了重建所需要的矢量化圖元庫。圖7是矢量化圖元庫中部分圖元的示例,每種形狀的圖元配以兩種及以上的常用配色,庫中共包含52種不同形狀和配色的圖元。
Adam,并使用了線性學(xué)習(xí)率策略。
圖元分類網(wǎng)絡(luò)的實(shí)驗(yàn)中,在4種不同的網(wǎng)絡(luò)寬度和深度下各自訓(xùn)練了200個(gè)epoch,圖9是不同配置的分類網(wǎng)絡(luò)在測(cè)試集上的準(zhǔn)確率-召回率曲線。綜合考慮分類性能的平衡性,最終選擇了圖9中準(zhǔn)確率-召回率曲線res-rs50-256上的′P=0.976585,R=0.982364) 對(duì)應(yīng)的點(diǎn)作為第一階段,用于圖元過濾的圖元分類網(wǎng)絡(luò)。
4.2變換參數(shù)求解算法參數(shù)設(shè)置
實(shí)驗(yàn)所用機(jī)器配置為Intel °ledast Xeon °ledast W-2235CPU @ 3.80GHz 3.79GHz,16GB 內(nèi)存和NVIDIAGeForceRTX2080tiGPU。本文EF-DT方法在圖元分類網(wǎng)絡(luò)訓(xùn)練階段通過算法1描述的數(shù)據(jù)集采樣過程,生成了10000張訓(xùn)練樣本與2000張測(cè)試樣本。在實(shí)驗(yàn)中對(duì)采樣算法的超參數(shù)進(jìn)行了如下設(shè)置:多標(biāo)簽數(shù)量的取值設(shè)置為1~5;區(qū)域采樣圖元數(shù)量的取值為4\~16。圖8是圖元分類網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)集示例。圖元分類網(wǎng)絡(luò)中加入了通道自注意力模塊SE,將VGG19網(wǎng)絡(luò)作為對(duì)比,并測(cè)試了在不同網(wǎng)絡(luò)深度和寬度下的性能。訓(xùn)練過程中的其余超參數(shù)如下:學(xué)習(xí)率為0.0001,訓(xùn)練輪數(shù)為200,優(yōu)化器采用
本文方法EF-DT變換參數(shù)優(yōu)化階段默認(rèn)設(shè)置的超參數(shù)如下:學(xué)習(xí)率為0.001,分辨率為 256×256 像素,優(yōu)化器為 Adam, 由于損失函數(shù)對(duì)于不同變換參數(shù)的梯度對(duì)優(yōu)化的影響程度不同,所以選擇一個(gè)合適的變換參數(shù)學(xué)習(xí)率倍率對(duì)算法優(yōu)化的性能也有較大影響。實(shí)驗(yàn)中將變換參數(shù)的學(xué)習(xí)率權(quán)重默認(rèn)設(shè)置為比值 。基于元素誤差信息引導(dǎo)的局部最優(yōu)緩解策略的擾亂周期默認(rèn)設(shè)置為100,觸發(fā)擾亂的圖元?dú)w一化掩碼誤差閾值默認(rèn)設(shè)置為0.1。
4.3可微變換參數(shù)求解結(jié)果
4.3.1矢量化重建結(jié)果
本文方法對(duì)整幅建筑彩繪的局部紋樣圖像進(jìn)行了保持變換參數(shù)信息的矢量化重建。圖10展示了本文方法第二階段矢量化重建的結(jié)果,其中第一列是目標(biāo)紋樣圖像,第二列是對(duì)應(yīng)的矢量化圖元,第三列是離散化的重建結(jié)果,第四列是重建結(jié)果誤差的L2熱力圖。從重建結(jié)果可以看出,本文方法能夠正確優(yōu)化出局部紋樣圖像中各個(gè)圖元的變換關(guān)系,包括圖元的縮放關(guān)系和鏡像關(guān)系。由于矢量圖元的引入,重建結(jié)果中避免了由縮放導(dǎo)致的圖元分辨率不一致等瑕疵。
表1是本文方法第二階段的實(shí)驗(yàn)參數(shù)配置與重建結(jié)果的相關(guān)定量指標(biāo),其中網(wǎng)格尺寸表示初始時(shí)圖元的采樣密度,實(shí)驗(yàn)樣例中變換參數(shù)的采樣密度為平方數(shù)25\~64,參與變換參數(shù)求解的圖元數(shù)量為 1~5 ,迭代次數(shù)與執(zhí)行時(shí)間反映了本文方法的算法執(zhí)行效率,在同等機(jī)器配置與同等水平重建效果下,本文算法執(zhí)行效率優(yōu)于其他兩種迭代矢量化算法Live與Diffvg,低于ImageTrace等非可微迭代算法。重建后的局部紋樣經(jīng)過版式組合后得到如圖11的完整建筑彩繪紋樣結(jié)果。
4.3.2圖元誤差信息引導(dǎo)策略消融實(shí)驗(yàn)
本文方法設(shè)計(jì)了基于掩碼誤差與信息熵引導(dǎo)的局部最優(yōu)緩解策略。圖12展示了該緩解策略在實(shí)際優(yōu)化過程的工作流程。從圖12中可以看出,利用設(shè)計(jì)的引導(dǎo)策略在優(yōu)化過程中能夠準(zhǔn)確地跟蹤每個(gè)圖元在四種圖元誤差指標(biāo)上的狀態(tài),并通過周期性地對(duì)優(yōu)化過程中指標(biāo)顯著異常的圖元執(zhí)行topK函數(shù)的擾亂操作,從而在優(yōu)化過程中逐漸跳出局部最優(yōu)解。
圖13是本文設(shè)計(jì)的局部最優(yōu)緩解策略與原始合成方法在圖元變換參數(shù)重建結(jié)果上的消融對(duì)比結(jié)果。圖13(a)是不采用圖元誤差信息引導(dǎo)的變換參數(shù)重建結(jié)果,所示樣例因3.3節(jié)中分析的原因陷入了明顯的局部最優(yōu)解。圖13(b)是采用了圖元誤差信息引導(dǎo)策略進(jìn)行局部最優(yōu)緩解后的重建結(jié)果,可以看出本文的緩解策略使得局部最優(yōu)現(xiàn)象得到了較為顯著的改善。
為驗(yàn)證本文方法在矢量化重建能力上的有效性,圖14縱向?qū)Ρ攘吮疚姆椒ㄅc其他矢量化方法的重建性能。從圖14中可以看出,基于可微渲染迭代優(yōu)化的矢量化方法Live和Diffvg對(duì)復(fù)雜幾何紋樣形狀的重建結(jié)果存在較多的冗余路徑,導(dǎo)致其視覺效果更差;而本文方法與ImageTrace方法在紋樣視覺重建精度上效果最好,有著最低的重建均方誤差MSE(meansquarederror)和最高的結(jié)構(gòu)相似度SSIM(structuralsimilarityindexmeasure)。方法DC在指定像素圖元時(shí)重建結(jié)果存在較多的推理錯(cuò)誤,圖元的變換參數(shù)更容易陷入局部最優(yōu)解。方法SuperSVG第一階段訓(xùn)練時(shí)在指定矢量路徑數(shù)量為256與路徑貝塞爾曲線段數(shù)為10時(shí)(默認(rèn)為128條段數(shù)為4的貝塞爾曲線路徑),在訓(xùn)練2000個(gè)epoch后,其收斂結(jié)果在建筑彩繪圖像上仍然難以達(dá)到較為精簡與準(zhǔn)確的重建結(jié)果。
傳統(tǒng)方法如ImageTrace,主要采用貝塞爾曲線路徑作為圖像重建的基本單元。然而,這些方法在處理過程中往往忽視了圖像中圖元層面的變換參數(shù)信息,導(dǎo)致它們?cè)趫?zhí)行純視覺矢量化重建任務(wù)時(shí),盡管能夠?qū)崿F(xiàn)較高的視覺重建精度,卻未能充分捕捉圖元的獨(dú)立性和其變換參數(shù)。與現(xiàn)有技術(shù)相比,本方法在保留圖元的獨(dú)立性及其變換參數(shù)的同時(shí),犧牲了對(duì)自由形狀曲線擬合的精確度。盡管在變換參數(shù)求解過程中可能面臨不穩(wěn)定性的挑戰(zhàn),且矢量化圖元庫的質(zhì)量也對(duì)結(jié)果產(chǎn)生了顯著影響,但本文方法在均方誤差MSE和結(jié)構(gòu)相似度SSIM指標(biāo)方面,相較于其他對(duì)比方法仍展現(xiàn)出一定的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,借助精心設(shè)計(jì)的圖元庫,本文方法能夠在保持圖元變換參數(shù)信息的同時(shí),將視覺誤差控制在可接受的范圍內(nèi),并且在性能上超越了其他基于可微渲染迭代求解的矢量化算法。如圖14所示的局部放大圖清晰地揭示了本文方法在所有對(duì)比方法中,在保持圖元完整性和獨(dú)立性方面的優(yōu)勢(shì)更為明顯,并且成功保留了紋樣中圖元的變換參數(shù)信息。
圖14中涉及的對(duì)比矢量化方法均不能保留紋樣自身的變換參數(shù)信息,本文方法綜合考慮了矢量化重建精度與變換參數(shù)信息。表2列出了本文方法與其他對(duì)比方法在多個(gè)維度上的性能指標(biāo)對(duì)比,可以看出,本文方法在矢量化重建精度、圖元獨(dú)立性和變換參數(shù)信息保持方面取得了較好的平衡。
5結(jié)束語
本文提出了一種基于矢量化圖元庫的圖元過濾與可微變換參數(shù)求解的建筑彩繪紋樣圖像的矢量化方法(EF-DT),主要解決了在建筑彩繪紋樣等具有圖元可復(fù)用性的圖像上保持圖元獨(dú)立性和圖元變換參數(shù)的矢量化問題。本文方法首先設(shè)計(jì)了一種基于矢量化圖元庫的圖元分類訓(xùn)練數(shù)據(jù)采樣方法,能夠?yàn)閳D元分類網(wǎng)絡(luò)訓(xùn)練提供數(shù)據(jù)支持,通過分類網(wǎng)絡(luò)來過濾矢量化圖元庫中的無關(guān)圖元,從而提升后續(xù)圖元變換參數(shù)求解算法的性能。然后引入了一種改進(jìn)的可微分變換參數(shù)求解方法,利用圖元掩碼誤差與多種信息熵作為引導(dǎo),有效地緩解了變換參數(shù)求解過程中的局部最優(yōu)問題,提高了變換參數(shù)優(yōu)化過程的正確性,最終在建筑彩繪紋樣圖像數(shù)據(jù)上的矢量化質(zhì)量、圖元獨(dú)立性和圖元變換參數(shù)信息的保留上取得了較好的平衡。
參考文獻(xiàn):
[1]LiTM,Aittala M,DurandF,etal.Diffrentiable Monte Carlo ray tracing through edge sampling[J].ACMTrans on Graphics,2018, 37(6) :1-11.
[2]Li TM,Lukac M,Gharbi M,et al.Diffrentiable vector graphics rasterization for editingand learning[J].ACM Trans on Graphics, 2020,39(6) :193.
[3]Hu Teng,Yi Ran,Qian Baihong,et al. SuperSVG:superpixel-based scalable vector graphics synthesis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2024 :24892-24901.
[4]Locatello F,Weissenborn D,UnterthinerT,etal. Object-centric learningwith slotattention[C]//Proc ofthe 34th International ConferenceonNeural Information Processing Systems.New York:ACM Press,2020:11525-11538.
[5]Monnier T,Vincent E,Ponce J,et al. Unsupervised layered image decompositioninto object prototypes[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press, 2021:8620-8630.
[6]Reddy P,Guerrero P,F(xiàn)isher M,et al. Discovering pattern structure using differentiable compositing[J].ACM Trans on Graphics, 2020,39(6) :262.
[7]ReddyP,Guerrero P,Mitra NJ. Search for concepts:discovering visual concepts using direct optimization[EB/OL].(2022-10-25). https://arxiv.org/abs/2210.14808.
[8] Adobe.Adobe Illustrator:image trace[EB/OL].(2017)[2024-11- 18].http://www.adobe.com/.
[9]Cedar Lake Ventures.Vector magic[EB/OL].(2017).[2024-11- 18].http://vectormagic.com.
[10]Ma Xu,Zhou Yuqian,Xu Xingqian,et al.Towards layer-wise image vectorization[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2022: 16293-16302.
[11]Hirschorn O,Jevnisek A,Avidan S. Optimize amp; reduce:a top-down approach forimagevectorization[C]//Proc ofAAAI Conferenceon Artificial Intelligence.Palo Alto,CA:AAAIPress,2024:2148-2156.
[12]Hoshyari S,DominiciEA,ShefferA,et al.Perception-driven semistructured boundaryvectorization[J].ACM Trans on Graphics, 2018,37(4) :118.
[13]LiuYT,Zhang Zhifei,Guo YC,et al.DualVector:unsupervised vectorfont synthesis with dual-part representation[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2023:14193-14202.
[14]Reddy P,Gharbi M,Lukác M,et al. Im2Vec:synthesizingvector graphics without vector supervision[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2021:7338-7347.
[15]Wang Yizhi,Lian Zhouhui.DeepVecFont:synthesizing high-quality vector tonts via dual-modality learninglJ].ACM Irans on Graphics,2021,40(6) :265.
[16]WangYuqing,WangYizhi,YuLonghui,etal.DeepVecFont-v2:exploiting Transformers to synthesize vector fonts with higher quality [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2023:18320-18328.
[17]CarlierA,DaneljanM,Alahi A,et al.DeepSVG:a hierarchical generative network for vector graphics animation[EB/OL].(2020-07- 22).https://arxiv.org/abs/2007.11301.
[18]Xing Ximing,Zhou Haitao,Wang Chuang,et al. SVGDreamer: text guided SVG generation with diffusion model[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE Press,2024:4546-4555.
[19]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2016:770-778.
[20]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[21]HanKai,WangYunhe,Chen Hanting,etal.A survey onvision trans former[J].IEEETranson Patter Analysisand Machine Intelligence,2023,45(1):87-110.
[22]Bello I,F(xiàn)edusW,Du Xianzhi,etal.Revisiting ResNets:improved training and scaling strategies[EB/OL].(2021-03-13).https://arxiv.org/abs/2103.07579.
[23]TanMingxing,LeQV.EficientNet:rethinking model scaling for convolutional neural networks[C]//Proc of the 36th International Conference on Machine Learning.2019:6105-6114.
[24]Zhou Yang,Zhu Zhen,Bai Xiang,et al.Non-stationary texture synthesis by adversarial expansion[J].ACM Trans on Graphics,2O18,37(4) : 49.
[25]龔辰晨,曹力,張騰騰,等.面向建筑彩繪紋樣的高質(zhì)量貼圖重構(gòu) 方法[J].圖學(xué)學(xué)報(bào),2024,45(4):804-813.(Gong Chenchen,Cao Li,Zhang Tengteng,et al.High-quality texture reconstruction method for architectural painted patterns[J]. Journal of Graphics,2024,45 (4) :804-813.)
[26]Barnes C,Shechtman E,F(xiàn)inkelsteinA,etal.PatchMatch:a randomized correspondence algorithm for structural image editing[J].ACM Trans on Graphics,2009,28(3):24.
[27]付鵬斌,鐵惠杰,楊惠榮.紋理細(xì)節(jié)和邊緣結(jié)構(gòu)保持的圖像插值算 法[J].計(jì)算機(jī)應(yīng)用研究,2021,38(4):1203-1207,1211.(Fu Pengbin,Tie Huijie,Yang Huirong.Image interpolation algorithm based on texture details and edge structure maintained[J].Application Research of Computers,2021,38(4) :1203-1207,1211.)
[28]RisoM,Sforza D,Pellacini F.POP:parameter optimization of diffren tiablevector patterns[J].Computer Graphics Forum,2022,41 (4) :161-168.