摘" 要: 當(dāng)前Stable diffusion等人工智能繪畫模型在繪畫時(shí)難以直接控制圖像風(fēng)格,同時(shí)風(fēng)格模型訓(xùn)練僅針對(duì)單種風(fēng)格。針對(duì)該問題,提出了一種基于美學(xué)梯度法的人工智能風(fēng)格化繪畫系統(tǒng),以實(shí)現(xiàn)多種圖像風(fēng)格的控制和融合,并提供更加便捷的圖像創(chuàng)作體驗(yàn)。收集并分析網(wǎng)絡(luò)用戶數(shù)據(jù),結(jié)合問卷得到用戶對(duì)圖像風(fēng)格的感性需求;根據(jù)感性需求收集各風(fēng)格圖像數(shù)據(jù)得到對(duì)應(yīng)的風(fēng)格圖像訓(xùn)練集。使用梯度下降算法計(jì)算風(fēng)格化文本編碼器的權(quán)重,實(shí)現(xiàn)生成圖像風(fēng)格化的效果。通過可用性測試對(duì)比用戶對(duì)該系統(tǒng)與傳統(tǒng)人工智能繪畫系統(tǒng)產(chǎn)出圖像的風(fēng)格滿意程度,結(jié)果表明:人工智能風(fēng)格化繪畫系統(tǒng)的平均滿意度相較傳統(tǒng)人工智能繪畫系統(tǒng)提升23%,表明人工智能風(fēng)格化繪畫系統(tǒng)在圖像風(fēng)格生成上具有更好的效果,可滿足用戶對(duì)圖像風(fēng)格的需求。該人工智能風(fēng)格化繪畫系統(tǒng)可以更便捷地實(shí)現(xiàn)圖像風(fēng)格調(diào)整,允許用戶直觀選擇不同風(fēng)格的權(quán)重,便捷使用一種或多種風(fēng)格,能夠有效滿足用戶對(duì)圖像風(fēng)格設(shè)計(jì)的需求。
關(guān)鍵詞: 人工智能繪畫模型;Stable diffusion;美學(xué)梯度法;感性需求;風(fēng)格化
中圖分類號(hào): TP18
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 1673-3851 (2024) 04-0537-11
DOI:10.3969/j.issn.1673-3851(n).2024.04.013
收稿日期: 2023-11-17" 網(wǎng)絡(luò)出版日期:2024-05-10網(wǎng)絡(luò)出版日期
基金項(xiàng)目: 國家社會(huì)科學(xué)基金青年項(xiàng)目(22CXW024)
作者簡介: 鐘梓銳(1999—" ),男,廣州人,碩士研究生,主要從事人工智能繪畫方面的研究。
通信作者: 梁玲琳,E-mail:lianglinglin916@126.com
引文格式:鐘梓銳,梁玲琳. 基于美學(xué)梯度法的人工智能風(fēng)格化繪畫系統(tǒng)[J]. 浙江理工大學(xué)學(xué)報(bào)(自然科學(xué)),2024,51(4):537-547.
Reference Format: ZHONG Zirui, LIANG Linglin. An artificial intelligence stylized painting system based on the aesthetic gradient method[J]. Journal of Zhejiang Sci-Tech University,2024,51(4):537-547.
An artificial intelligence stylized painting system based on the aesthetic gradient method
ZHONG Zirui, LIANG Linglin
(School of Art and Design, Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract:" At present it is difficult for artificial intelligence painting models such as Stable diffusion to directly control image style in painting. At the same time, current style model training is focused on a single style. To address this issue, an artificial intelligence stylized painting system based on the aesthetic gradient method was proposed. It aimed to achieve control and integration of multiple image styles, and to provide a more convenient image creation experience. It collected and analyzed network user data and employed a questionnaire-based approach to obtain the user′s perceptual needs for image style. Furthermore, it collected the data of each style image according to the perceptual requirements to obtain the corresponding style image training set. It also used the gradient descent algorithm to calculate the weights of the stylized text encoder to achieve the effect of generating image stylization. A usability test was conducted to compare user satisfaction with the image styles produced by the traditional artificial intelligence painting system and the artificial intelligence stylized painting system. The results show that the average satisfaction of the latter is 23% higher than that of the former, indicating that artificial intelligence stylized painting system has better effects in image style generation and can effectively meet users′ needs for image styles. This artificial intelligence stylized painting system can realize image style adjustment more easily, allow users to intuitively choose the weight of different styles and easily use one or more styles, and can effectively meet users′ needs for image style design.
Key words:" artificial intelligence painting model; Stable diffusion; aesthetic gradient; emotional needs; stylization
0" 引" 言
Stable diffusion模型是2022年發(fā)布的深度學(xué)習(xí)文本生成圖像模型,具有生成的圖像質(zhì)量高、運(yùn)行速度快以及內(nèi)存占用小的優(yōu)點(diǎn)[1],在目標(biāo)檢測[2]、產(chǎn)品設(shè)計(jì)[3]和視頻編輯[4]等場景具有廣闊的應(yīng)用前景。Stable diffusion模型分為兩個(gè)部分,分別是Contrastive language-image pretraining(CILP)多模態(tài)預(yù)訓(xùn)練模型和U-Net。CLIP是一種預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,通過對(duì)比學(xué)習(xí)將圖像和文本聯(lián)系起來[5]。U-Net是一種用于圖像分割的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),由Ronneberger等[6]提出。U-Net的名稱來源于其U形的網(wǎng)絡(luò)結(jié)構(gòu),由編碼器(Encoder)、解碼器(Decoder)和跳躍連接(Skip connections)三部分組成。使用時(shí),用戶輸入的每一個(gè)單詞由CLIP中的分詞器(Tokenizer)轉(zhuǎn)換成文本標(biāo)記(Token),每個(gè)文本標(biāo)記是768維的向量。CLIP是預(yù)訓(xùn)練模型,因此每個(gè)文本標(biāo)記的嵌入向量都是固定的,嵌入向量經(jīng)過文本轉(zhuǎn)換器后輸入到U-Net中,完成最終的繪畫[1]。用戶對(duì)圖像的風(fēng)格進(jìn)行控制時(shí),需要在文本描述中加入風(fēng)格形容詞匯,如“抽象主義”和“卡通”等。然而,使用通過文本輸入的方式控制圖像風(fēng)格的方式仍存在挑戰(zhàn),其中主要原因是輸入的風(fēng)格詞匯的嵌入向量之間雖不相同但十分接近,缺乏直接控制圖像的風(fēng)格的方法[7]。
為更直接地指導(dǎo)圖像生成的風(fēng)格,Gal等[8]提出了文本反轉(zhuǎn)方法,將用戶提供的同一種風(fēng)格的3~5張圖像,變?yōu)榍度肟臻g中的一個(gè)新文本標(biāo)記。這些文本標(biāo)記可以組合成自然語言句子,以直觀的方式引導(dǎo)個(gè)性化創(chuàng)作。Ruiz等[9]提出了一種“個(gè)性化”文本到圖像擴(kuò)散模型的方法,通過輸入特定風(fēng)格的少量圖像,并對(duì)預(yù)訓(xùn)練的文本與圖像模型進(jìn)行微調(diào),將文本標(biāo)記與風(fēng)格綁定。風(fēng)格被嵌入到模型的輸出域后,文本標(biāo)記就可以用來在不同場景中合成既定風(fēng)格的圖像。Gallego[10]提出了美學(xué)梯度法(Aesthetic gradient),這是一種通過相同風(fēng)格的圖像數(shù)據(jù)集來個(gè)性化編輯CLIP的方法。該方法使用圖像數(shù)據(jù)集訓(xùn)練得到美學(xué)嵌入,結(jié)合美學(xué)嵌入對(duì)CLIP中文本編碼器的權(quán)重做梯度下降計(jì)算,得到風(fēng)格調(diào)整后的文本嵌入。上述研究通過相同風(fēng)格的圖像向模型提供風(fēng)格信息,模型無需解析自然語言描述,而是直接基于模型訓(xùn)練來調(diào)整生成的風(fēng)格,可以減少模型理解文字描述不準(zhǔn)確所帶來的風(fēng)格偏差。上述研究的應(yīng)用場景均為單種圖像風(fēng)格的訓(xùn)練,且應(yīng)用場景大多集中在單一圖像風(fēng)格的訓(xùn)練上,無法滿足用戶對(duì)多樣風(fēng)格或風(fēng)格融合的需求。另外,在進(jìn)行訓(xùn)練前需要確定常見用戶風(fēng)格需求,但以往研究多采用感性工學(xué)方法來分析用戶需求。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)上存在著大量的用戶數(shù)據(jù),國內(nèi)外研究人員通過收集、分析網(wǎng)絡(luò)上的用戶感性意象數(shù)據(jù),得到用戶的感性需求[11]。例如:Ma等[12]通過收集網(wǎng)絡(luò)日志、搜索歷史和交易數(shù)據(jù)等用戶行為記錄,構(gòu)建了數(shù)據(jù)層、語義層和應(yīng)用層的用戶需求三層概念模型,通過該模型能將語義信息和用戶需求進(jìn)行匹配。Shi等[13]通過網(wǎng)絡(luò)信息提取與感性形容詞相關(guān)的產(chǎn)品關(guān)鍵特征,使用感性意象詞問卷與語義差分法來評(píng)估產(chǎn)品的特征,生成描述關(guān)鍵特征和相應(yīng)感性形容詞之間關(guān)系的強(qiáng)關(guān)聯(lián)規(guī)則集。Wang等[14]爬取產(chǎn)品的評(píng)論數(shù)據(jù),基于自然語言處理技術(shù)構(gòu)建詞向量,實(shí)現(xiàn)感性圖像的參數(shù)化表達(dá);提取滿足用戶偏好的產(chǎn)品方案,量化產(chǎn)品形態(tài)與感性形象之間的關(guān)系,并根據(jù)各參數(shù)權(quán)重計(jì)算針對(duì)用戶感性需求的產(chǎn)品設(shè)計(jì)方案的優(yōu)先排序。除了通過網(wǎng)絡(luò)用戶數(shù)據(jù)分析用戶需求的研究外,還有將用戶感性需求數(shù)據(jù)用于指導(dǎo)圖像生成的研究。如Li等[15]使用網(wǎng)絡(luò)爬蟲從現(xiàn)有的文獻(xiàn)和網(wǎng)絡(luò)評(píng)價(jià)中收集感性詞,并通過語義聚類分析將收集到的意思相反的詞聚類成簇,再根據(jù)感性詞的數(shù)量和總頻率之和對(duì)所有聚類進(jìn)行排序,選擇得分前6的感性聚類作為代表性的感性意象詞匯;隨后發(fā)放由產(chǎn)品圖像、感性詞匯和語義差分量表組成的問卷,并將得到的問卷數(shù)據(jù)用作圖像生成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集。實(shí)驗(yàn)驗(yàn)證結(jié)果表明,訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)生成的產(chǎn)品概念圖像效果優(yōu)秀。
現(xiàn)有人工智能繪畫模型缺乏直接控制圖像風(fēng)格的方法,同時(shí)風(fēng)格模型訓(xùn)練方法具有局限性。針對(duì)這一問題,本文提出了一種基于美學(xué)梯度法的人工智能風(fēng)格化繪畫系統(tǒng)。首先通過爬蟲與自然語言處理技術(shù)收集并分析大量網(wǎng)絡(luò)用戶評(píng)論數(shù)據(jù),結(jié)合問卷量化用戶對(duì)圖像風(fēng)格的感性需求;其次,根據(jù)感性需求收集各風(fēng)格圖像數(shù)據(jù),得到對(duì)應(yīng)的風(fēng)格圖像訓(xùn)練集;再次,使用美學(xué)梯度法訓(xùn)練得到各個(gè)風(fēng)格的美學(xué)嵌入模型,然后通過對(duì)人工智能模型的文本編碼器做多重梯度下降計(jì)算,使CLIP能夠輸出適應(yīng)多個(gè)風(fēng)格特征的文本嵌入,實(shí)現(xiàn)對(duì)最終輸出的圖像的風(fēng)格的控制;最后進(jìn)行該系統(tǒng)的可用性測試,對(duì)比用戶對(duì)傳統(tǒng)人工智能繪畫系統(tǒng)與對(duì)人工智能風(fēng)格化繪畫系統(tǒng)產(chǎn)出的圖像風(fēng)格滿意程度,以驗(yàn)證風(fēng)格化人工智能繪畫系統(tǒng)在圖像風(fēng)格生成上是否具有更好的效果。
1" 系統(tǒng)設(shè)計(jì)
1.1" 系統(tǒng)組成
人工智能風(fēng)格化繪畫系統(tǒng)由4個(gè)部分組成,分別是文本編碼器、風(fēng)格模塊、圖像信息生成器和圖像解碼器。以生成512×512像素的圖像為例,系統(tǒng)的整體流程如圖1所示,分為以下步驟:首先,文本編碼器將用戶輸入的文本描述轉(zhuǎn)化為一個(gè)向量特征,通常表示為c。其次,風(fēng)格模塊基于用戶輸入的風(fēng)格參數(shù)將向量特征轉(zhuǎn)化為適應(yīng)用戶輸入的風(fēng)格的向量特征。再次,圖像信息生成器接收這個(gè)向量特征,并將其轉(zhuǎn)換為一個(gè)信息數(shù)組,其維度為4×64×64維。這個(gè)數(shù)組包含了關(guān)于圖像內(nèi)容和風(fēng)格的關(guān)鍵信息。最后,圖像解碼器將這個(gè)信息數(shù)組解碼并渲染成最終的圖像,其維度為3×512×512維,其中3表示顏色通道數(shù)(紅、綠、藍(lán)),512×512表示圖像的寬度和高度。
該系統(tǒng)各個(gè)組成部分相互配合,實(shí)現(xiàn)了從用戶的文本輸入到最終圖像輸出的完整生成過程。用戶輸入文本描述,決定了圖像的內(nèi)容。用戶輸入與5種畫面風(fēng)格相關(guān)的參數(shù)。這些參數(shù)為正負(fù)整數(shù),決定了風(fēng)格的傾向;參數(shù)的大小決定了美學(xué)梯度法中梯度下降的步長ε。用戶輸入所需的圖像長寬后,圖像信息生成器根據(jù)該長寬生成的信息數(shù)組大小,決定最終輸出圖像的像素大小。用戶輸入的參數(shù)和文本嵌入將決定系統(tǒng)產(chǎn)生的圖像結(jié)果。
系統(tǒng)設(shè)計(jì)與用戶體驗(yàn)流程示意圖如圖2所示,由感性詞匯收集、風(fēng)格嵌入模型訓(xùn)練和人工智能繪畫3部分組成。第1部分,通過收集并分析網(wǎng)絡(luò)數(shù)據(jù)獲取用戶感性需求并總結(jié),得到5組代表性感性意向詞匯:古代的-未來的、西方的-東方的、畫面明亮的-畫面暗淡的、寫實(shí)的-動(dòng)漫的、復(fù)雜的-簡單的。收集圖像樣本,并根據(jù)這5組詞匯對(duì)圖像樣本集進(jìn)行分類和貼標(biāo),得到各風(fēng)格訓(xùn)練圖像集,保證用戶的風(fēng)格選擇的多樣性和全面性。第2部分,使用圖像訓(xùn)練集進(jìn)行美學(xué)嵌入模型訓(xùn)練,根據(jù)美學(xué)嵌入模型計(jì)算得出風(fēng)格化文本編碼器的權(quán)重并應(yīng)用于繪畫,最終確保系統(tǒng)產(chǎn)出圖像的風(fēng)格與用戶需求具有一致性。第3部分,用戶通過操作界面輸入文本描述和圖像風(fēng)格參數(shù),經(jīng)過風(fēng)格化文本編碼器的處理后經(jīng)過圖像信息生成器與圖像解碼器,最終生成圖像。
1.2" 網(wǎng)絡(luò)評(píng)論數(shù)據(jù)的收集與處理
1.2.1" 初步圖像風(fēng)格形容詞收集
與使用問卷獲得用戶感性意向的方法相比,通過網(wǎng)絡(luò)評(píng)論獲取的數(shù)據(jù)具有量大、快捷、時(shí)效性與客觀性強(qiáng)等優(yōu)點(diǎn)[16]。本文采用網(wǎng)絡(luò)爬蟲對(duì)微博、貼吧的相關(guān)話題與討論進(jìn)行爬取。使用網(wǎng)絡(luò)爬蟲爬取用戶微博內(nèi)容,搜索“AI繪畫”“圖像風(fēng)格”“畫面風(fēng)格”等相關(guān)詞語,返回微博ID、用戶名、用戶ID和文本等數(shù)據(jù);使用Python selenium庫對(duì)Midjourney、AI繪畫等相關(guān)貼吧的帖子進(jìn)行爬取,返回主帖內(nèi)容與評(píng)論內(nèi)容,每周重復(fù)爬取并去除重復(fù)數(shù)據(jù)。共收集人工智能繪畫與圖像風(fēng)格相關(guān)的微博、帖子與評(píng)論4434條。由于初步爬取的內(nèi)容有大量不連續(xù)的干擾信息[17],對(duì)初步數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,去除用戶名等數(shù)據(jù),保留主要內(nèi)容文本;使用Python jieba庫對(duì)所有內(nèi)容文本進(jìn)行自然語言處理,將段落句子切割成詞匯并進(jìn)行統(tǒng)計(jì);將切割錯(cuò)誤的詞語如“波普藝術(shù)”和“賽博朋克”等加入到j(luò)ieba中文詞匯語庫中,重新進(jìn)行切割;去除與圖像風(fēng)格無關(guān)的詞匯,得到形容詞詞匯94個(gè),并合并意義相近的詞匯,如“二次元”和“動(dòng)漫”、“國風(fēng)”和“漢服”等;對(duì)結(jié)果進(jìn)行排序,得到初步的圖像風(fēng)格感性意象形容詞64個(gè)。初步圖像風(fēng)格感性形容詞詞頻見表1。
為保證提取詞匯能夠準(zhǔn)確代表用戶的真實(shí)訴求,需要對(duì)用戶評(píng)論數(shù)據(jù)的分詞結(jié)果和詞頻排序進(jìn)行篩選[16]。根據(jù)詞頻排序選擇代表性詞匯時(shí),高頻詞閾值的選取決定了詞頻分析法的結(jié)果,對(duì)整個(gè)分析研究有著重要的影響[18],因此本文選取Donohue[19]提出的高頻詞低頻詞分界公式對(duì)感性意象形容詞進(jìn)行篩選,該公式可以表示為:
T=12×(-1+1+8×I1)(1)
其中:T標(biāo)識(shí)詞頻閾值,I1表示出現(xiàn)1次的詞匯數(shù)量。對(duì)初步圖像風(fēng)格感性意象形容詞進(jìn)行詞頻統(tǒng)計(jì),根據(jù)高低頻詞界分公式,統(tǒng)計(jì)分詞后I1=64,因此T≈10.81,閾值為11,可以得到高頻形容詞54個(gè)。
1.2.2" 圖像風(fēng)格感性意象形容詞問卷調(diào)研
為進(jìn)一步確定用戶需求感性詞匯,使用調(diào)研問卷的方法對(duì)感性詞匯作進(jìn)一步篩選。為了獲取更加精準(zhǔn)有效的信息,讓問卷填寫人更加清晰地理解各個(gè)圖像風(fēng)格的意義,需在調(diào)研問卷中對(duì)初步收集的感性意象代表詞作出解釋。本文基于表1的初步圖像風(fēng)格感性形容詞,收集人工智能繪畫案例,并找到與研究初步得到的54個(gè)感性詞匯相對(duì)應(yīng)的示例圖像,用于制作調(diào)查問卷,調(diào)查問卷示例如圖3。
發(fā)放“代表性圖像風(fēng)格形容詞調(diào)查問卷”,填寫人選擇其認(rèn)為最具代表性的和最為常見的圖像風(fēng)格形容詞,最終收回有效問卷101份。統(tǒng)計(jì)并分析結(jié)果,刪除意義相反的詞語,得到最終的代表性詞匯選取頻率排序,見表2。最終選取頻率排名前5的代表性感性形容詞,并將其進(jìn)行反義詞配對(duì),最終得到代表性圖像風(fēng)格感性意象形容詞對(duì)5對(duì),即古代的-現(xiàn)代的/未來的、西方的-東方的、畫面明亮的-畫面暗淡的、寫實(shí)的-動(dòng)漫的、復(fù)雜的-簡單的,用于收集訓(xùn)練圖像與圖像風(fēng)格訓(xùn)練。
1.3" 人工智能繪畫樣本收集
代表性圖像風(fēng)格形容詞對(duì)體現(xiàn)了用戶對(duì)圖像風(fēng)格的感性需求,為完成從感性需求到產(chǎn)出圖像的轉(zhuǎn)化,需要對(duì)模型進(jìn)行各風(fēng)格形容詞相對(duì)應(yīng)的訓(xùn)練。為獲得相對(duì)應(yīng)風(fēng)格的訓(xùn)練數(shù)據(jù),在Discord的Stable diffusion頻道上與各繪畫網(wǎng)站上收集人工智能繪畫的圖像樣本,去除掉分辨率低以及圖像長寬比例失衡的樣本,得到部分初步樣本1495個(gè)。最后對(duì)樣本貼標(biāo)得到各個(gè)風(fēng)格的訓(xùn)練集,其中“畫面暗淡的”風(fēng)格的圖像訓(xùn)練集示例圖像如圖4所示。
1.4" 訓(xùn)練風(fēng)格嵌入模型
1.4.1" 美學(xué)梯度法
美學(xué)梯度方法通過來自一組相同風(fēng)格的圖像數(shù)據(jù)集的自定義美學(xué)模型來個(gè)性化編輯CLIP,將圖像生成過程交給用戶。該方法支持對(duì)單個(gè)美學(xué)風(fēng)格進(jìn)行訓(xùn)練并應(yīng)用于圖像生成過程中。該方法原理如下:
繪畫時(shí),Stable diffusion模型通過基于CLIP的文本編碼器將用戶的文本輸入轉(zhuǎn)化為一個(gè)文本嵌入,用公式可以表示為:
c=fCLIPθ,txt(y)(2)
其中:c為嵌入模型;y為用戶輸入的文本;θ為文本編碼器的權(quán)重。
使用美學(xué)梯度法時(shí),通過對(duì)圖像訓(xùn)練集進(jìn)行訓(xùn)練得到e,e為美學(xué)嵌入模型,用公式可以表示為:
e=1K∑Ki=0fCLIPθ,vis(Xi)(3)
其中:Xi為美學(xué)風(fēng)格的訓(xùn)練集中的第i個(gè)元素;K為該集合中圖像的數(shù)量。最后對(duì)文本編碼器的權(quán)重做梯度下降計(jì)算,更新文本編碼器的權(quán)重θ′,用公式可以表示為:
θ′=θ+εΔθfCLIPθ,txt(y)eT(4)
其中:ε為用戶定義的步長。最后將θ′應(yīng)用到文本編碼器得到經(jīng)過美學(xué)風(fēng)格調(diào)整后的文本嵌入c′,用公式可以表示為:
c′=fCLIPθ′,txt(y)(5)
由于感性風(fēng)格形容詞有5對(duì),需要對(duì)美學(xué)梯度方法進(jìn)行改良,對(duì)文本編碼器的權(quán)重做多重梯度下降計(jì)算[20]。
1.4.2" 風(fēng)格嵌入模型效果
使用原人工智能繪畫模型,將畫面風(fēng)格作為描述關(guān)鍵詞輸入繪畫;使用對(duì)應(yīng)風(fēng)格模型的人工智能繪畫模型繪畫。對(duì)比二者產(chǎn)出圖像,各風(fēng)格對(duì)比與各風(fēng)格融合示例圖像如圖5所示。圖5(a)中:第1張圖像基本的內(nèi)容描述產(chǎn)出圖像,輸入為“夜晚,街道,燈光,建筑”;第2張圖像為加入了帶權(quán)重風(fēng)格描述產(chǎn)出圖像,輸入為“夜晚,街道,燈光,建筑,西方*1.5”,其中“*1.5”表示該描述的權(quán)重為1.5,默認(rèn)為1;第3張圖像為基本的內(nèi)容描述加風(fēng)格模型產(chǎn)出圖像,輸入為“夜晚,街道,燈光,建筑”加西方的風(fēng)格模型。圖5(b)—(c)中其余內(nèi)容描述與輸入同圖5(a)。圖5(d)為各種風(fēng)格融合生成圖像與原圖像的對(duì)比。用戶只需要若干張相似風(fēng)格的圖像就可以根據(jù)需要訓(xùn)練自己的風(fēng)格模型,并不局限于本文設(shè)定的10種風(fēng)格。
2" 可用性測試
本文為分析人工智能風(fēng)格化繪畫系統(tǒng)的可用性,設(shè)計(jì)了測試實(shí)驗(yàn),因變量為人工智能風(fēng)格化繪畫系統(tǒng)可用性,包括效率、滿意度和有效性三個(gè)方面。針對(duì)用戶使用人工智能繪畫系統(tǒng)的過程設(shè)計(jì)具體的操作任務(wù),共設(shè)置兩組任務(wù),分別是使用傳統(tǒng)人工智能繪畫系統(tǒng)進(jìn)行繪畫的對(duì)照組任務(wù),以及使用人工智能風(fēng)格化繪畫系統(tǒng)進(jìn)行繪畫的實(shí)驗(yàn)組任務(wù)。完成兩組任務(wù)后,測試者填寫SUS問卷與滿意度問卷。
2.1" 測試材料
2.1.1" 控制測試變量
為控制測試變量,需對(duì)風(fēng)格嵌入模型進(jìn)行測試,獲得測試最佳美學(xué)風(fēng)格迭代步數(shù)。使用同一文本描述與同一隨機(jī)種子對(duì)10個(gè)感性風(fēng)格進(jìn)行測試,獲得每個(gè)感性風(fēng)格在不同美學(xué)風(fēng)格權(quán)重?cái)?shù)值與不同美學(xué)風(fēng)格迭代步數(shù)下的結(jié)果。設(shè)置美學(xué)風(fēng)格權(quán)重為0.8,測試不同美學(xué)風(fēng)格迭代步數(shù)對(duì)最終產(chǎn)出圖像效果的影響。
如圖6(a)所示,在美學(xué)風(fēng)格權(quán)重為0.8時(shí),使用文本描述為“cat”,風(fēng)格選擇為“東方的”,美學(xué)風(fēng)格迭代步數(shù)為5時(shí),產(chǎn)出圖像與東方風(fēng)格較為契合;如圖6(b)所示,而當(dāng)美學(xué)風(fēng)格迭代步數(shù)為10時(shí),產(chǎn)出圖像結(jié)果與需求描述偏離。圖像內(nèi)容變?yōu)闁|方風(fēng)格的混亂的建筑,原因是訓(xùn)練圖像內(nèi)容上彼此差異較大,部分訓(xùn)練圖像為東方風(fēng)格的建筑而部分訓(xùn)練內(nèi)容為東方風(fēng)格的人像。如圖6(c)所示,在美學(xué)風(fēng)格權(quán)重為0.8時(shí),使用文本描述為“cat”,風(fēng)格選擇為“復(fù)雜的”,美學(xué)風(fēng)格迭代步數(shù)為6時(shí),產(chǎn)出圖像較為復(fù)雜;如圖6(d)所示,當(dāng)美學(xué)風(fēng)格迭代步數(shù)為8時(shí),畫面與描述有一定關(guān)系;如圖6(e)所示,當(dāng)美學(xué)風(fēng)格迭代步數(shù)為10時(shí),產(chǎn)出圖像結(jié)果與需求描述完全偏離。
測試使用的美學(xué)嵌入模型為用戶使用時(shí)選擇的風(fēng)格,使用的美學(xué)風(fēng)格權(quán)重為所選擇風(fēng)格的最佳權(quán)重。使用的美學(xué)風(fēng)格迭代步數(shù)為用戶所選擇的風(fēng)格參數(shù)相對(duì)應(yīng)的迭代步數(shù)。經(jīng)過測試得到每個(gè)風(fēng)格對(duì)應(yīng)的最佳權(quán)重與最佳迭代步數(shù)見表3。
2.1.2" 測試設(shè)置
本文的實(shí)驗(yàn)材料為由開源的Stable diffusion webui改進(jìn)得到的帶有風(fēng)格感性需求參數(shù)調(diào)整功能的人工智能風(fēng)格化繪畫模型。由于設(shè)備性能限制,將人工智能繪畫風(fēng)格化模型部署在騰訊云服務(wù)器,方便測試者通過公網(wǎng)IP訪問。隨機(jī)招募浙江理工大學(xué)、浙江大學(xué)和北京師范大學(xué)-香港浸會(huì)大學(xué)聯(lián)合國際學(xué)院的在校本科生與研究生,測試者年齡為20~25歲,共28人。
2.2" 測試流程
本實(shí)驗(yàn)開始前,研究人員向測試者介紹實(shí)驗(yàn)的基本內(nèi)容,輔助測試者觀看實(shí)驗(yàn)流程講解視頻。本文實(shí)驗(yàn)需要測試者完成一個(gè)對(duì)照組任務(wù)和一個(gè)實(shí)驗(yàn)組任務(wù)。
對(duì)照組任務(wù)的具體操作為:a)想象并確定需要繪制的畫面;b)向研究人員使用自然語言描述需求畫面,用于后續(xù)打分;c)在研究人員的幫助下將自然語言描述轉(zhuǎn)化為AI模型的正向提示詞與反向提示詞,用于控制圖像生成的內(nèi)容和主體;d)調(diào)整被繪制圖像的寬度和高度,用于控制圖像的分辨率;e)點(diǎn)擊生成按鈕,等待AI模型進(jìn)行運(yùn)算與繪制;f)根據(jù)最終的人工智能繪畫結(jié)果與需求畫面對(duì)比,并對(duì)繪畫結(jié)果內(nèi)容滿意度打分。由于設(shè)備性能限制原因,圖像分辨率被限制在512×512像素,迭代步數(shù)為20步,繪制運(yùn)算總時(shí)間大約在5 min左右。
實(shí)驗(yàn)組任務(wù)的具體操作為:a)想象并確定需要繪制的畫面;b)向研究人員使用自然語言描述需求畫面,用于后續(xù)打分;c)在研究人員的幫助下將自然語言描述轉(zhuǎn)化為AI模型的正向提示詞與反向提示詞,用于控制圖像生成的內(nèi)容和主體,與對(duì)照組任務(wù)保持一致;d)調(diào)整被繪制圖像的寬度和高度,用于控制圖像的分辨率,保持與對(duì)照組任務(wù)一致;e)點(diǎn)擊生成按鈕,等待AI模型進(jìn)行運(yùn)算與繪制;f)嘗試調(diào)整風(fēng)格形容詞參數(shù),用于控制圖像的整體風(fēng)格;g)根據(jù)最終的人工智能繪畫結(jié)果與需求畫面對(duì)比,并對(duì)繪畫結(jié)果風(fēng)格滿意度打分。由于設(shè)備性能限制原因,圖像分辨率被限制在512×512像素大小,迭代步數(shù)為20步,繪制運(yùn)算總時(shí)間大約在5 min左右。
兩個(gè)任務(wù)完成后,測試者填寫SUS系統(tǒng)可用性量表與圖像內(nèi)容風(fēng)格滿意度調(diào)查問卷,填寫完成后試驗(yàn)結(jié)束,具體實(shí)驗(yàn)及任務(wù)流程見圖7。
2.3" 測試結(jié)果
本文采用SUS系統(tǒng)可用性量表獲取系統(tǒng)可用性,并采用圖像內(nèi)容風(fēng)格滿意度調(diào)查問卷獲取用戶對(duì)人工智能繪畫系統(tǒng)的主觀滿意度。SUS量表為五級(jí)的Likert量表,共有10個(gè)對(duì)系統(tǒng)的態(tài)度問題,其中:1、3、5、7、9為正向問題,2、4、6、8、10為反向問題。用戶完成任務(wù)1和任務(wù)2后分別選擇對(duì)語句的認(rèn)可程度。量表第4題和第10題測量了系統(tǒng)的易于學(xué)習(xí)性,其余8題測量了系統(tǒng)可用性,最后由整體的SUS分?jǐn)?shù)反映了總體的滿意度[21]。
對(duì)任務(wù)1和任務(wù)2的兩項(xiàng)滿意度進(jìn)行Cronbach α信度分析,結(jié)果如表4所示。結(jié)果顯示:風(fēng)格滿意度數(shù)據(jù)信度系數(shù)值為0.826,大于0.8,表明研究數(shù)據(jù)信度質(zhì)量高;兩個(gè)任務(wù)的校正項(xiàng)總計(jì)相關(guān)性均大于0.4,表明兩個(gè)任務(wù)之間的滿意度具有良好的相關(guān)關(guān)系。內(nèi)容滿意度數(shù)據(jù)信度系數(shù)值為0.953,大于0.8,表明研究數(shù)據(jù)信度質(zhì)量高;兩個(gè)任務(wù)的校正項(xiàng)總計(jì)相關(guān)性均大于0.4,表明兩個(gè)任務(wù)之間的滿意度具有良好的相關(guān)關(guān)系。
測試結(jié)束后將測試者填寫的量表選項(xiàng)通過計(jì)算轉(zhuǎn)換為分?jǐn)?shù),轉(zhuǎn)換后得到最終SUS得分,見表5。最終得到無風(fēng)格化模型版本SUS平均分為73.750,易學(xué)性平均分為65.189,可用性平均分為75.893;風(fēng)格化模型版本SUS的平均分為67.250,易學(xué)性平均分為51.333,可用性平均分為69.214。無風(fēng)格化模型版本SUS得分的方差為135.491,易學(xué)性得分的方差為584.343,可用性得分的方差為112.205;風(fēng)格化模型版本SUS得分的方差為78.205,易學(xué)性得分的方差為139.198,可用性得分的方差為67.485。
本文采用圖像內(nèi)容風(fēng)格滿意度調(diào)查問卷獲取用戶對(duì)人工智能繪畫效果的主觀滿意度,量表指標(biāo)為用戶在兩次任務(wù)產(chǎn)出圖像中分別對(duì)圖像內(nèi)容與圖像風(fēng)格的滿意程度,以及任務(wù)2中對(duì)5對(duì)感性形容詞所對(duì)應(yīng)的圖像風(fēng)格效果的主觀評(píng)價(jià);量表為五級(jí)的Likert量表。由被填寫的量表得到測試者不同任務(wù)中對(duì)圖像內(nèi)容與風(fēng)格主觀滿意度對(duì)比表,見表6。任務(wù)1圖像內(nèi)容滿意程度平均分3.429,標(biāo)準(zhǔn)差為1.387;任務(wù)2圖像內(nèi)容滿意程度平均分3.357,標(biāo)準(zhǔn)差為1.172。而任務(wù)1圖像內(nèi)風(fēng)格滿意程度平均分3.643,標(biāo)準(zhǔn)差為0.718,任務(wù)2圖像風(fēng)格滿意程度平均分4.214,標(biāo)準(zhǔn)差為0.558。
利用配對(duì)t檢驗(yàn)去研究實(shí)驗(yàn)結(jié)果的差異性,配對(duì)t檢驗(yàn)結(jié)果如表7所示。由表7可以知,兩組配對(duì)數(shù)據(jù)均呈現(xiàn)出差異性(Plt;0.05),任務(wù)1風(fēng)格滿意度和任務(wù)2風(fēng)格滿意度之間呈現(xiàn)出0.01水平的顯著差異性(t=-6.000,P=0.000)。
利用配對(duì)t檢驗(yàn)去研究實(shí)驗(yàn)結(jié)果的差異性,配對(duì)t檢驗(yàn)結(jié)果如表8所示。由表8可以知,兩組配對(duì)數(shù)據(jù)均沒有呈現(xiàn)出差異性(Pgt;0.05)。
由于數(shù)據(jù)結(jié)果不符合嚴(yán)格正態(tài)分布特質(zhì),配對(duì)t檢驗(yàn)準(zhǔn)確性下降。對(duì)數(shù)據(jù)結(jié)果進(jìn)一步做非參數(shù)檢驗(yàn)。由于滿意度分?jǐn)?shù)超過2組,使用Kruskal-Wallis檢驗(yàn),分析結(jié)果如表9所示。分析結(jié)果表明,不同任務(wù)1內(nèi)容滿意度樣本對(duì)于任務(wù)2內(nèi)容滿意度全部均呈現(xiàn)出顯著性差異,不同任務(wù)1風(fēng)格滿意度樣本對(duì)于任務(wù)2風(fēng)格滿意度全部均呈現(xiàn)出顯著性差異。對(duì)比差異可知,任務(wù)1內(nèi)容滿意度的平均值(3.43),高于任務(wù)2內(nèi)容滿意度的平均值(3.36)。測試者對(duì)風(fēng)格化的圖像內(nèi)容的滿意程度相較于原版的圖像內(nèi)容降低,表明使用風(fēng)格化模型后的模型圖像風(fēng)格對(duì)用戶的內(nèi)容需求符合度稍有降低。而任務(wù)1風(fēng)格滿意度的平均值(3.64),明顯低于任務(wù)2風(fēng)格滿意度的平均值(4.21)。測試者對(duì)風(fēng)格化的圖像風(fēng)格的滿意程度相較于原版的圖像內(nèi)容有所提升,表明使用風(fēng)格化模型后更加符合用戶風(fēng)格需求。
3" 結(jié)" 論
本文提出了一種基于美學(xué)梯度法的人工智能風(fēng)格化繪畫系統(tǒng),該系統(tǒng)通過訓(xùn)練美學(xué)風(fēng)格模型可以滿足用戶多樣化的風(fēng)格圖像需求。針對(duì)風(fēng)格模型訓(xùn)練均針對(duì)單種風(fēng)格的問題,該系統(tǒng)通過收集網(wǎng)絡(luò)用戶數(shù)據(jù),量化用戶對(duì)圖像風(fēng)格的感性需求;收集圖像數(shù)據(jù)并貼標(biāo),并通過該數(shù)據(jù)訓(xùn)練出符合用戶感性需求的多個(gè)風(fēng)格嵌入模型。同時(shí)該系統(tǒng)使用多重梯度下降算法與美學(xué)梯度法相結(jié)合,實(shí)現(xiàn)了融合多種風(fēng)格的效果。系統(tǒng)可用性測試結(jié)果表明,相較于傳統(tǒng)的人工智能繪畫系統(tǒng),人工智能風(fēng)格化繪畫系統(tǒng)在用戶風(fēng)格滿意度上得到了提升,但在滿足用戶圖像內(nèi)容需求方面的效果下降。
本文量化用戶感性需求用于人工智能繪畫的風(fēng)格訓(xùn)練,優(yōu)化美學(xué)梯度法,使其能夠同時(shí)使用多個(gè)風(fēng)格嵌入模型,為滿足用戶個(gè)性化需求和提升圖像生成質(zhì)量提供了創(chuàng)新的思路。但由于在訓(xùn)練過程中圖像樣本分類由研究者自行完成,導(dǎo)致訓(xùn)練集具有較強(qiáng)的主觀性,從而降低了后續(xù)實(shí)驗(yàn)的客觀性。此外,研究中使用了5種風(fēng)格融合,但在應(yīng)用5種以上風(fēng)格時(shí)效果開始明顯下降。如何保證實(shí)驗(yàn)的客觀性,有待進(jìn)一步研究。
參考文獻(xiàn):
[1]Ramesh A, Dhariwal P, Nichol A, et al. Hierarchical text-conditional image generation with CLIP latents[EB/OL]. (2022-04-13)[2023-03-06]. https:∥arxiv.org/abs/2204.06125.
[2]Jian Y N, Yu F X, Singh S, et al. Stable diffusion for aerial object detection[EB/OL]. (2023-11-21)[2023- 11-30]. https:∥arxiv.org/abs/2311.12345.
[3]Kuang Z Y, Zhang J X, Huang Y Y, et al. Advancing urban renewal: an automated approach to generating historical arcade facades with stable diffusion models[EB/OL]. (2023-11-20)[2023-11-30]. https:∥arxiv.org/abs/2204.06125.
[4]Chang D, Shi Y, Gao Q, et al. MagicDance: Realistic human dance video generation with motions amp; facial expressions transfer[EB/OL]. (2023-11-18)[2023-11-30]. https:∥arxiv.org/abs/2311.12052.
[5]Luo H S, Ji L, Zhong M, et al. CLIP4Clip: An empirical study of CLIP for end to end video clip retrieval and captioning[J]. Neurocomputing, 2022, 508(C): 293-304.
[6]Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]∥International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015: 234-241.
[7]Borji A. Generated faces in the wild: Quantitative comparison of stable diffusion, midjourney and dall-e 2[EB/OL]. (2023-6-5)[2023-11-30]. https:∥arxiv.org/abs/2208.01618.
[8]Gal R, Alaluf Y, Atzmon Y, et al. An image is worth one word: Personalizing text-to-image generation using textual inversion[EB/OL]. (2023-8-2)[2023-11-30]. https:∥arxiv.org/abs/2210.00586.
[9]Ruiz N, Li Y Z, Jampani V, et al. DreamBooth: Fine tuning text-to-image diffusion models for subject-driven generation[C]∥2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Vancouver, BC, Canada. IEEE, 2023: 22500-22510.
[10]Gallego V. Personalizing text-to-image generation via aesthetic gradients[EB/OL]. (2023-9-25)[2023-11-30]. https:∥arxiv.org/abs/2209.12330.
[11]丁滿,程語,黃曉光,等.感性工學(xué)設(shè)計(jì)方法研究現(xiàn)狀與進(jìn)展[J].機(jī)械設(shè)計(jì),2020,37(1):121-127.
[12]Ma F C, Chen Y, Zhao Y M. Research on the organization of user needs information in the big data environment[J]. The Electronic Library, 2017, 35(1): 36-49.
[13]Shi F Q, Sun S Q, Xu J. Employing rough sets and association rule mining in KANSEI knowledge extraction[J]. Information Sciences: an International Journal, 2012, 196: 118-128.
[14]Wang T X. A novel approach of integrating natural language processing techniques with fuzzy TOPSIS for product evaluation[J]. Symmetry, 2022, 14(1): 120.
[15]Li X, Su J N, Zhang Z P, et al. Product innovation concept generation based on deep learning and Kansei engineering[J]. Journal of Engineering Design, 2021, 32(10): 559-589.
[16]江亞紅,許占民,董鑫.基于網(wǎng)絡(luò)評(píng)論的產(chǎn)品感性設(shè)計(jì)研究[J].包裝工程,2023, 44(S1):285-291.
[17]林麗,張?jiān)汽d,牛亞峰, 等.基于網(wǎng)絡(luò)評(píng)價(jià)數(shù)據(jù)的產(chǎn)品感性意象無偏差設(shè)計(jì)方法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020, 50(1): 26-32.
[18]劉奕杉,王玉琳,李明鑫.詞頻分析法中高頻詞閾值界定方法適用性的實(shí)證分析[J].數(shù)字圖書館論壇, 2017(9): 42-49.
[19]Donohue J C. Understanding Scientific literatures: A Bibliometric Approach[M]. Cambridge: The MIT Press,1973:49-50.
[20]Sener O, Koltun V. Multi-task learning as multi-objective optimization[C]∥Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montral, Canada. ACM, 2018: 525-536.
[21]Brooke J. SUS: A Quick and Dirty Usability Scale[M]. London: Taylor amp; Francis Ltd, 1996: 20-23.
(責(zé)任編輯:康" 鋒)