范家墁
(福州外語(yǔ)外貿(mào)學(xué)院 藝術(shù)與設(shè)計(jì)學(xué)院,福建 福州 350202)
目前數(shù)字化技術(shù)得到大力發(fā)展,傳統(tǒng)的視覺(jué)設(shè)計(jì)與展示方式難以與互聯(lián)網(wǎng)時(shí)代下的動(dòng)態(tài)高速傳播相適應(yīng),受眾對(duì)視覺(jué)創(chuàng)意提出了更高的交互需求與感官體驗(yàn)[1]。技術(shù)手段的飛速發(fā)展與人們?nèi)ブ行幕脑O(shè)計(jì)審美需求使得生成設(shè)計(jì)成為近年來(lái)眾多學(xué)者的重點(diǎn)關(guān)注對(duì)象,先進(jìn)的科學(xué)技術(shù)與視覺(jué)設(shè)計(jì)的結(jié)合為視覺(jué)識(shí)別設(shè)計(jì)帶來(lái)了新發(fā)展[2]。陳會(huì)崗等人發(fā)現(xiàn)在現(xiàn)代化圖書(shū)館建筑的空間視覺(jué)設(shè)計(jì)中,需以網(wǎng)絡(luò)化與數(shù)字化為基礎(chǔ),將空間視覺(jué)設(shè)計(jì)與高科技發(fā)展結(jié)合,以實(shí)現(xiàn)建筑空間視覺(jué)設(shè)計(jì)的可持續(xù)優(yōu)化[3]。王娜娜等人為探究視覺(jué)傳達(dá)設(shè)計(jì)中的生成設(shè)計(jì)方法,分析了生成式設(shè)計(jì)處理創(chuàng)意設(shè)計(jì)中數(shù)據(jù)驅(qū)動(dòng)信息的合理方法,從邏輯構(gòu)建角度為數(shù)據(jù)介入視覺(jué)設(shè)計(jì)系統(tǒng)提供思路[4]。靳鶴琳為將傳統(tǒng)文化元素融入到動(dòng)態(tài)視覺(jué)設(shè)計(jì)中,分析了利用民族元素在動(dòng)態(tài)視覺(jué)中的應(yīng)用、傳統(tǒng)文化元素的含蓄性與現(xiàn)代設(shè)計(jì)形象的融合等策略。結(jié)果發(fā)現(xiàn)將傳統(tǒng)文化融入現(xiàn)代動(dòng)態(tài)視覺(jué)設(shè)計(jì)中,能有效推動(dòng)中國(guó)傳統(tǒng)文化的傳承,并將其與世界水平進(jìn)行連接[5]。
根據(jù)上述有關(guān)生成設(shè)計(jì)與動(dòng)態(tài)視覺(jué)設(shè)計(jì)的研究可以發(fā)現(xiàn),將深度學(xué)習(xí)與數(shù)學(xué)模型運(yùn)用在視覺(jué)設(shè)計(jì)中的研究非常少。為實(shí)現(xiàn)先進(jìn)計(jì)算機(jī)技術(shù)與傳統(tǒng)視覺(jué)識(shí)別設(shè)計(jì)的有效結(jié)合,研究將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)結(jié)合,使用譜歸一化的全局權(quán)重以加速訓(xùn)練,構(gòu)建條件深度卷積生成對(duì)抗網(wǎng)絡(luò)模型(Conditional Depth Convolution to Generate Antagonism Network,CDCGAN)。使用生成模型輔助參與視覺(jué)設(shè)計(jì)的過(guò)程,生成智能的視覺(jué)設(shè)計(jì)方案,以此滿(mǎn)足用戶(hù)多元化的視覺(jué)識(shí)別設(shè)計(jì)需求。
智能圖像生成技術(shù)有助于人工智能的機(jī)器學(xué)習(xí)等系統(tǒng),促進(jìn)其將接收到的信息轉(zhuǎn)化為系統(tǒng)可理解與處理的信息,使得自我知識(shí)體系不斷完善,進(jìn)而提高系統(tǒng)的性能。智能圖像生成技術(shù)的原理是平臺(tái)系統(tǒng)通過(guò)計(jì)算機(jī)視覺(jué)嘗試分析接收到的圖像與圖形,感知集合信息,提取其中的特點(diǎn),進(jìn)而能離開(kāi)模仿特征生成相關(guān)圖形或圖像[6-7]。生成設(shè)計(jì)技術(shù)從實(shí)踐角度分析,其過(guò)程是一個(gè)運(yùn)用圖像處理相關(guān)算法對(duì)設(shè)計(jì)過(guò)程進(jìn)行一定隨機(jī)與自定的邏輯系統(tǒng),為最終的設(shè)計(jì)過(guò)程及其過(guò)程的表達(dá)提供一種設(shè)計(jì)范式的轉(zhuǎn)變。其中深度學(xué)習(xí)中最為典型的是GAN模型,其原理是通過(guò)運(yùn)用對(duì)抗過(guò)程估計(jì)生成模型,同時(shí)訓(xùn)練捕獲數(shù)據(jù)分布的生成模型與估計(jì)樣本來(lái)自訓(xùn)練數(shù)據(jù)而非生成模型的概率的判別模型,通過(guò)生成網(wǎng)絡(luò)與對(duì)抗網(wǎng)絡(luò)的相互博弈,獲取圖像生成更高的學(xué)習(xí)能力與適應(yīng)性。通過(guò)GAN技術(shù)就可在上述流程的循環(huán)下生成更多的創(chuàng)意性圖形或圖像,甚至可實(shí)現(xiàn)以假亂真的效果[8-9]。在圖像處理領(lǐng)域中最為主流的深度學(xué)習(xí)算法有CNN,與以往的圖像處理算法進(jìn)行比較,CNN能有效減少圖像預(yù)處理所需的時(shí)間,可直接輸入原始圖像,已被廣泛應(yīng)用于各類(lèi)圖像的相關(guān)應(yīng)用中[10]。此外,CNN在處理大規(guī)模數(shù)據(jù)集方面極具優(yōu)勢(shì),特征分類(lèi)能力也是極佳,還具有更高的準(zhǔn)確性。為解決GAN存在的難以處理離散形式的數(shù)據(jù)以及訓(xùn)練不穩(wěn)定、梯度消失與模式崩潰等問(wèn)題,研究在CGCN模型的技術(shù)上,引入CNN進(jìn)行無(wú)監(jiān)督訓(xùn)練,將其替代全連接層,最終構(gòu)建條件深度卷積生成對(duì)抗網(wǎng)絡(luò)模型,將其用于視覺(jué)識(shí)別中。GAN模型包含生成器B與判別器A兩個(gè)部分,判別器屬于二分類(lèi)問(wèn)題,因此其損失函數(shù)運(yùn)用分類(lèi)交叉熵函數(shù),見(jiàn)式(1)。
(1)
式(1)中的p(d|u)和p(B|u)分別是真實(shí)數(shù)據(jù)集與生成樣本集的概率;A(u)為A預(yù)測(cè)u是真實(shí)樣本的概率。樣本u的來(lái)源分為兩部分,一部分是實(shí)際數(shù)據(jù)集,另一部分A的生成。令pd(u)=p(u|d)代表從實(shí)際數(shù)據(jù)集得到樣本的概率,令pB(u)=p(u|B))代表從B中得到樣本的概率,可得式(2)。
(2)
將式(2)代入式(1),并進(jìn)一步得到GAN的目標(biāo)函數(shù),見(jiàn)式(3)。
(3)
在訓(xùn)練過(guò)程中,判別器屬于目標(biāo)函數(shù)的最大值,生成器屬于目標(biāo)函數(shù)的最小值。CGANM是在傳統(tǒng)GAN模型基礎(chǔ)上,引入條件數(shù)據(jù)信息,輔助生成過(guò)程,可得CGANM的目標(biāo)函數(shù),見(jiàn)式(4)。
(4)
式(4)的v與z分別為生成器B輸入的條件與隨機(jī)噪聲;判別器A中的輸入包括真實(shí)數(shù)據(jù)u與對(duì)應(yīng)的條件v;Eu~pd(u)[logA(u|v)]是在v下,A對(duì)真實(shí)樣本分布的數(shù)據(jù)判定為真實(shí)數(shù)據(jù)的概率估計(jì);Ez~pz(z){log[1-AB(z|v)]}是在v限定下,采樣于正態(tài)分布的z由B生成的樣本通過(guò)A判斷其為真實(shí)數(shù)據(jù)的概率估計(jì)。綜上可得CGCN模型的流程圖,見(jiàn)圖1。
圖1 CGCN模型的流程
生成器生成圖像可以看作圖片分類(lèi)模型的一個(gè)相反的過(guò)程,使用隨機(jī)向量每個(gè)維度刻畫(huà)不同的細(xì)節(jié),進(jìn)而生成一張圖片。對(duì)于CNN,每一層的卷積核大小與數(shù)量可進(jìn)行設(shè)定,越靠近輸入層的卷積層設(shè)定少量的卷積核,越往后,卷積層設(shè)定的卷積核數(shù)目越多。由經(jīng)驗(yàn)確定,在一般情況下,靠近輸入層的卷積層會(huì)找出一些共性的特征,越往后,卷積核設(shè)定的數(shù)量越多,就可找到更為復(fù)雜的特征,越能體現(xiàn)label特征越細(xì)致,也就越容易分類(lèi)出來(lái)。
為實(shí)現(xiàn)更好的視覺(jué)識(shí)別設(shè)計(jì),深度卷積生成對(duì)抗網(wǎng)絡(luò)(Deep convolution generation antagonism network model,DCGANM)聚集了GAN與CNN的優(yōu)勢(shì),在訓(xùn)練過(guò)程中能保持網(wǎng)絡(luò)狀態(tài)的穩(wěn)定,并能有效實(shí)現(xiàn)高質(zhì)量圖片的生成,進(jìn)而實(shí)現(xiàn)GAN算法效果的提升。根據(jù)CGCN與DCGANM,針對(duì)模型中還存在生成模型與判別模型在對(duì)抗中訓(xùn)練較慢的問(wèn)題,使用譜歸一化的全局權(quán)重以加速訓(xùn)練,以及提高生成圖像的質(zhì)量,最終可構(gòu)建CDCGAN模型。由于神經(jīng)網(wǎng)絡(luò)模型在一般情況下對(duì)于輸入擾動(dòng)的不敏感性,通常能提升模型的泛化性,見(jiàn)式(5)。
v=f(ωu+a) 。
(5)
式(5)的f是激活函數(shù);ω為權(quán)重;a是偏置。輸入擾動(dòng)的不敏感性,即當(dāng)‖u1-u2‖較小時(shí),‖f(ωu1+a)-f(ωu2+a)‖盡可能地小。Lipschitz對(duì)上述提出一個(gè)具體的約束,存在H(ω,a),式(6)就可恒成立。
‖f(ωu1+a)-f(ωu2+a)‖≤H(ω,a)·‖u1,u2‖ ,
(6)
若u1與u2盡可能地相近,就可將式(6)左邊使用一階項(xiàng)近似得到等式。若該等式成立,須運(yùn)用一個(gè)倒數(shù)有上下界的f,常見(jiàn)的激活函數(shù)均可滿(mǎn)足該要求。進(jìn)一步簡(jiǎn)化等式,可得式(7)。
‖ω(u1-u2)‖≤H(ω,a)·‖u1,u2‖ 。
(7)
將上述問(wèn)題轉(zhuǎn)化為矩陣范數(shù)問(wèn)題,可定義為式(8)。
(8)
該范數(shù)為譜范數(shù)(Spectral Norm,SN),將其代入式(7)可得式(9)。
‖ω(u1-u2)‖≤‖ω‖2·‖u1,u2‖ 。
(9)
對(duì)于SN的通常情況下,可利用冪迭代的方式近似求得,見(jiàn)式(10)。
(10)
通過(guò)式(10),將x與y初始化后,進(jìn)行迭代若干次就可得到SN的近似值。譜正則化將計(jì)算得到的SN的平方,作為額外的正則項(xiàng)系數(shù)加到模型的損失函數(shù)。傳統(tǒng)圖像中許多經(jīng)典特征均為分組表征且可分組歸一化(Group Normalization,GN)處理的特征。在相同條件下,GN與批歸一化(Batch Normalization,BN)相比可使模型實(shí)現(xiàn)更快的收斂。綜上所述,可得CDCGAN模型的具體流程,見(jiàn)圖2。
圖2 CDCGAN模型的具體流程
由圖2可知,CDCGAN模型由生成器、判別器和分類(lèi)器組成,流程分為兩部分,一部分輸入條件信息與隨機(jī)噪聲,然后輸入到生成器中,最后輸入到判別器。另一部分將生成樣本與真實(shí)樣本輸入到判別器,然后將判別器的參數(shù)共享到具有相同結(jié)構(gòu)的分類(lèi)器中,最后可得到真假判別結(jié)果。視覺(jué)識(shí)別工具集平臺(tái)的產(chǎn)品屬性與輔助功能包含集成性、通用性、可控性、擴(kuò)展性、包容性與社區(qū)屬性共七項(xiàng)。根據(jù)上述視覺(jué)識(shí)別的生成算法設(shè)計(jì)及其平臺(tái)的輔助功能,構(gòu)建智能化視覺(jué)識(shí)別平臺(tái)的信息架構(gòu),見(jiàn)圖3。
圖3 智能化視覺(jué)識(shí)別平臺(tái)的信息架構(gòu)
圖3顯示設(shè)計(jì)師進(jìn)入該平臺(tái)后,首先會(huì)提示模塊選擇,能減少路徑跳轉(zhuǎn),提高其工作效率;其次平臺(tái)展示數(shù)據(jù)檢索欄和其他已有數(shù)據(jù)集的瀏覽,用戶(hù)可直接選取已有數(shù)據(jù)集中的數(shù)據(jù)。現(xiàn)有數(shù)據(jù)集有設(shè)計(jì)完稿數(shù)據(jù)集與模型數(shù)據(jù)集兩類(lèi),模型數(shù)據(jù)集為開(kāi)源數(shù)據(jù)集,用戶(hù)可從其中某個(gè)項(xiàng)目直接跳轉(zhuǎn)到創(chuàng)作生成板塊進(jìn)行創(chuàng)作。用戶(hù)可通過(guò)檢索欄輸入關(guān)鍵字、草圖和圖像進(jìn)行檢索,得到的結(jié)果可進(jìn)行收藏或一鍵生成數(shù)據(jù)集。在數(shù)據(jù)集生成后,用戶(hù)可選擇瀏覽或基于關(guān)鍵詞生成方案推薦,保存到我的設(shè)計(jì)方案庫(kù)中。最后用戶(hù)還可從數(shù)據(jù)集中導(dǎo)入模型,模型可單一或組合運(yùn)行,在調(diào)參后,可選擇直接輸出或保存到我的生成庫(kù)中。
為驗(yàn)證研究提出的CDCGAN模型視覺(jué)圖像生成與識(shí)別的性能,研究在CIFAR-10數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境為百度深度機(jī)器學(xué)習(xí)開(kāi)源平臺(tái)。數(shù)據(jù)集中的樣本分為訓(xùn)練集與測(cè)試集,訓(xùn)練集中包含6萬(wàn)個(gè)樣本,測(cè)試集中包含1.5萬(wàn)個(gè)樣本。在訓(xùn)練過(guò)程中,設(shè)定最大迭代次數(shù)為十萬(wàn)次,且每批樣本為64個(gè),生成器、判別器與分類(lèi)器均使用Adam優(yōu)化器。對(duì)應(yīng)的參數(shù)設(shè)置為學(xué)習(xí)率0.000 1;beta1設(shè)定為0.5;beta2設(shè)定為0.999,分別代表第一、第二動(dòng)量估計(jì)指數(shù)衰減率。訓(xùn)練集上生成器與判別器損失函數(shù)值與迭代次數(shù)的變化曲線(xiàn),如圖4所示。
迭代次數(shù)
圖4(a)顯示生成器損失函數(shù)值隨迭代次數(shù)的增長(zhǎng)在0.576~2.246區(qū)間中來(lái)回震蕩;從整體上看損失函數(shù)值穩(wěn)定在1附近。由圖4(b)可知,判別器損失值迭代次數(shù)的增加在0.879~1.693區(qū)間中來(lái)回震蕩;從總體趨勢(shì)上看損失值呈現(xiàn)略微下降的趨勢(shì),同樣穩(wěn)定在1附近。生成器與判別器屬于相互獨(dú)立的兩個(gè)結(jié)構(gòu),但兩者的損失函數(shù)的迭代變化曲線(xiàn)呈現(xiàn)相似的變動(dòng)。上述結(jié)果并未出現(xiàn)常規(guī)生成器損失函數(shù)值逐步上升,以及判別器損失函數(shù)值整體大幅下降的情況,這說(shuō)明權(quán)重的譜歸一化可使CDCGAN模型的訓(xùn)練與運(yùn)行過(guò)程相對(duì)穩(wěn)定。
為更科學(xué)地評(píng)估研究提出的CDCGAN模型的準(zhǔn)確性,研究選用目前最具代表性的GraphVAE模型和BiGG模型進(jìn)行對(duì)比實(shí)驗(yàn),然后結(jié)合研究中提出的表現(xiàn)較好的CGCN模型、DCGANM模型與CDCGAN模型在測(cè)試集上進(jìn)行訓(xùn)練,可得不同模型的準(zhǔn)確率,見(jiàn)圖5。由圖5可知,CDCGAN模型的平均準(zhǔn)確率最高,為97.28%。GraphVAE模型和BiGG模型的準(zhǔn)確率同CDCGAN模型相近,但略低于CDCGAN模型,對(duì)應(yīng)的平均準(zhǔn)確率分別為97.03%與96.99%。GAN的平均準(zhǔn)確率為68.04%,CGCN的平均準(zhǔn)確率為70.85%,DCGANM的平均準(zhǔn)確率為73.26%。綜合上述結(jié)果分析,CDCGAN模型在訓(xùn)練階段的全程準(zhǔn)確率均最高,這說(shuō)明其比其他四種模型的性能更優(yōu)秀。
迭代次數(shù)
為驗(yàn)證生成模型的延展能力與學(xué)習(xí)能力,評(píng)估其在創(chuàng)作中對(duì)設(shè)計(jì)師的支持程度。研究將基礎(chǔ)的幾何圖形與指定圖形輸入到智能化視覺(jué)識(shí)別設(shè)計(jì)平臺(tái)中,在訓(xùn)練后,構(gòu)建一種圖形堆疊改變透明度的模塊。然后通過(guò)點(diǎn)擊自動(dòng)生成不同的組合圖形,見(jiàn)圖6。同時(shí)將模型的結(jié)果導(dǎo)入數(shù)據(jù)集模塊,設(shè)計(jì)師在數(shù)據(jù)模塊中調(diào)用后,可使用CDCGAN模型繼續(xù)生成簡(jiǎn)單的幾何組合圖形,將其用于日常視覺(jué)設(shè)計(jì)工作中,或者協(xié)助設(shè)計(jì)師快速生成圖形設(shè)計(jì)稿和提供設(shè)計(jì)思路。通過(guò)圖6的生成結(jié)果可以發(fā)現(xiàn),訓(xùn)練CDCGAN模型可以實(shí)現(xiàn)大量圖形的智能延展生成和一定程度的智能學(xué)習(xí)。
圖6 在訓(xùn)練過(guò)程中CDCGAN模型根據(jù)幾何圖形隨機(jī)生成的組合圖像結(jié)果
為更直觀地展現(xiàn)智能化視覺(jué)設(shè)計(jì)平臺(tái),研究將平臺(tái)進(jìn)行可視化處理,見(jiàn)圖7。圖7(a)是平臺(tái)的歡迎界面,展現(xiàn)了數(shù)據(jù)生成模塊、創(chuàng)作模塊與模型訓(xùn)練模塊三種選擇項(xiàng)。在頁(yè)面布局中,采用簡(jiǎn)約風(fēng)格的布局結(jié)構(gòu),降低用戶(hù)的操作門(mén)檻。且使用不同顏色區(qū)分三種模塊,營(yíng)造較為輕松的平臺(tái)氛圍。圖7(b)為創(chuàng)作生成模塊,左側(cè)為輔助功能區(qū),可以直接選擇需要使用的模型,然后到主工作區(qū)進(jìn)行創(chuàng)作,下層工作區(qū)用于模型的視覺(jué)化輸出。
(a) 歡迎界面
研究提出的智能化視覺(jué)設(shè)計(jì)平臺(tái)經(jīng)過(guò)進(jìn)一步的訓(xùn)練與學(xué)習(xí)后得到的生成設(shè)計(jì)結(jié)果,如圖8所示。
圖8 智能化視覺(jué)識(shí)別設(shè)計(jì)平臺(tái)學(xué)習(xí)后的生成設(shè)計(jì)結(jié)果
由圖8可知,經(jīng)過(guò)進(jìn)一步的圖形智能延伸與學(xué)習(xí)后,得到的生成設(shè)計(jì)結(jié)果更加清晰,通過(guò)不同的結(jié)構(gòu)與顏色的組合,設(shè)計(jì)具體的花束、建筑、抽象的貓等,能為設(shè)計(jì)師提供更加明確的思路。
綜上所述,研究提出的智能化視覺(jué)設(shè)計(jì)平臺(tái)可以為設(shè)計(jì)師提供更多的設(shè)計(jì)思路,且在模型的訓(xùn)練與學(xué)習(xí)下,生成設(shè)計(jì)的結(jié)果會(huì)更加符合設(shè)計(jì)師的需求。
數(shù)字經(jīng)濟(jì)的飛速發(fā)展,帶來(lái)了多元化產(chǎn)品形態(tài)的生成,同時(shí)也帶來(lái)了龐大的用戶(hù)視覺(jué)設(shè)計(jì)需求,給傳統(tǒng)模式下的視覺(jué)識(shí)別設(shè)計(jì)帶來(lái)巨大的沖擊。因此如何使用先進(jìn)的計(jì)算機(jī)技術(shù)輔助視覺(jué)識(shí)別設(shè)計(jì),是互聯(lián)網(wǎng)時(shí)代下特有的路徑與設(shè)計(jì)手段。研究將CNN與GAN模型相結(jié)合,并引入條件的方式,使用譜歸一化與組歸一化相互配合的方式優(yōu)化上述模型,最終構(gòu)建CDCGAN模型,并進(jìn)一步構(gòu)建智能化視覺(jué)識(shí)別設(shè)計(jì)平臺(tái)。實(shí)驗(yàn)結(jié)果顯示,生成器與判別器屬于相互獨(dú)立的兩個(gè)結(jié)構(gòu),但兩者的損失函數(shù)值的迭代變化曲線(xiàn)呈現(xiàn)相似的變動(dòng),分類(lèi)器損失函數(shù)值迭代18次時(shí)模型就可收斂,這說(shuō)明CDCGAN模型的訓(xùn)練與運(yùn)行過(guò)程相對(duì)穩(wěn)定。CDCGAN模型的平均準(zhǔn)確率最高,為97.28%,比CGCN高26.43%,比DCGANM高24.02%。綜上所述,研究提出的CDCGAN模型具有極為優(yōu)秀的性能與更高的穩(wěn)定性,且其在智能化視覺(jué)識(shí)別設(shè)計(jì)平臺(tái)中的延展能力與學(xué)習(xí)能力非常強(qiáng)。但研究仍有不足之處,CDCGAN模型對(duì)于多標(biāo)簽可控生成仍需提升,為實(shí)現(xiàn)圖像生成的可控性,在未來(lái)進(jìn)一步研究中須使用眾多屬性標(biāo)注進(jìn)行約束。