摘 要:圖像生成是一個(gè)融合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的綜合問(wèn)題,在設(shè)計(jì)領(lǐng)域得到廣泛應(yīng)用。深度學(xué)習(xí)技術(shù)的圖像生成模型不斷發(fā)展,為產(chǎn)品設(shè)計(jì)的創(chuàng)作實(shí)踐帶來(lái)更多技術(shù)方面的可能性。采用圖像描述技術(shù)輔助機(jī)器學(xué)習(xí)“看圖說(shuō)話”,不僅可以提取圖像內(nèi)容,而且可以高效地表示圖像中的目標(biāo)及其關(guān)聯(lián)。本文結(jié)合深度學(xué)習(xí)技術(shù),采用神經(jīng)網(wǎng)絡(luò)和圖像邊緣提取技術(shù)相結(jié)合的方法進(jìn)行圖像描述。使用圖像生成技術(shù)進(jìn)行產(chǎn)品設(shè)計(jì),搭建深度學(xué)習(xí)模型,在圖像數(shù)據(jù)集中進(jìn)行訓(xùn)練,使其能生成給定目標(biāo)描述的圖像,探討圖像生成技術(shù)對(duì)產(chǎn)品設(shè)計(jì)產(chǎn)生的影響,為產(chǎn)品設(shè)計(jì)提供應(yīng)用圖像生成技術(shù)的創(chuàng)新思路。
關(guān)鍵詞:圖像生成技術(shù);深度學(xué)習(xí)技術(shù);神經(jīng)網(wǎng)絡(luò);產(chǎn)品設(shè)計(jì);創(chuàng)新
中圖分類(lèi)號(hào):TP 319" " " " " 文獻(xiàn)標(biāo)志碼:A
圖像生成技術(shù)的發(fā)展對(duì)設(shè)計(jì)領(lǐng)域產(chǎn)生了顯著影響。其提高了設(shè)計(jì)效率,使設(shè)計(jì)師能夠更快地完成設(shè)計(jì)方案和效果圖制作,還降低了設(shè)計(jì)成本,減少了對(duì)實(shí)體材料和人工制作的需求。圖像生成技術(shù)還拓展了創(chuàng)意可能性,使設(shè)計(jì)師能夠嘗試更多元化的設(shè)計(jì)風(fēng)格和表現(xiàn)手法,這些變革為設(shè)計(jì)領(lǐng)域帶來(lái)了創(chuàng)新和更多的發(fā)展機(jī)會(huì)。未來(lái),隨著圖像生成技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,圖像生成技術(shù)將在設(shè)計(jì)領(lǐng)域發(fā)揮更加重要的作用。因此,應(yīng)該積極關(guān)注圖像生成技術(shù)的發(fā)展動(dòng)態(tài),不斷探索其在設(shè)計(jì)領(lǐng)域的新應(yīng)用和新可能性。
1 利用圖像生成技術(shù)的產(chǎn)品設(shè)計(jì)思路分析
本文列舉具體案例來(lái)論證圖像生成技術(shù)在設(shè)計(jì)領(lǐng)域的應(yīng)用和變革。例如,在工業(yè)產(chǎn)品設(shè)計(jì)領(lǐng)域,設(shè)計(jì)師可以利用圖像生成技術(shù)快速構(gòu)建逼真的三維模型和虛擬場(chǎng)景,進(jìn)行前期設(shè)計(jì)和評(píng)估。在建筑設(shè)計(jì)領(lǐng)域,圖像生成技術(shù)可以模擬建筑在不同光線和環(huán)境中的效果,幫助設(shè)計(jì)師更好地把握設(shè)計(jì)效果。這些案例說(shuō)明圖像生成技術(shù)推動(dòng)了設(shè)計(jì)領(lǐng)域的創(chuàng)新和發(fā)展,并證明了其在設(shè)計(jì)領(lǐng)域的實(shí)用價(jià)值和潛力。
圖像描述自動(dòng)生成系統(tǒng)的基本原理是使用神經(jīng)網(wǎng)絡(luò)構(gòu)建模型擬合數(shù)據(jù)[1]。系統(tǒng)基于編碼解碼器(Decoder)結(jié)構(gòu),設(shè)計(jì)原理如圖1所示。系統(tǒng)包括訓(xùn)練模型和使用模型2個(gè)部分。訓(xùn)練模型部分包括圖像數(shù)據(jù)預(yù)處理、描述信息預(yù)處理、模型搭建以及訓(xùn)練幾個(gè)模塊,使用模型部分包括模型評(píng)估、生成描述2個(gè)模塊。在產(chǎn)品設(shè)計(jì)中,圖像自動(dòng)生成系統(tǒng)能夠滿足用戶需求,并對(duì)相關(guān)產(chǎn)品進(jìn)行描述,設(shè)計(jì)結(jié)果能夠以模型圖片的形式立體地呈現(xiàn)給用戶。
2 深度學(xué)習(xí)模型搭建及訓(xùn)練
圖像描述的主流設(shè)計(jì)采用Encoder-Decoder結(jié)構(gòu),Encoder的作用是將輸入圖像編碼為特征張量,Encoder 在圖像預(yù)處理階段將圖像轉(zhuǎn)化為特征張量,Decoder將特征張量解碼為生成詞的概率。本模型引入Attention機(jī)制,即每個(gè)時(shí)間步模型都會(huì)將注意力放在特征的某一部分。Attention為一個(gè)表示概率的權(quán)重向量,與特征張量相乘后作為L(zhǎng)STM的輸入。Decoder是LSTM建模的一種方法,其優(yōu)點(diǎn)是對(duì)長(zhǎng)序列輸入適應(yīng)性較好。將經(jīng)過(guò)Attention的特征張量與LSTM網(wǎng)絡(luò)上一個(gè)時(shí)間步的輸出融合,作為L(zhǎng)STM下一步的輸入。LSTM的輸出經(jīng)過(guò)全連接層變換可以生成代表原始語(yǔ)料庫(kù)的新序列。
設(shè)輸入的圖像特征為x,輸出為y,經(jīng)過(guò)Attention變換的上下文特征為z。當(dāng)圖像輸入時(shí)歸一化為299×299,經(jīng)過(guò)InceptionV3至mixed7層,再加一層最大池化(Max Pooling)輸出為8×8×768維特征,再經(jīng)過(guò)一層全連接層降為8×8×512維特征,reshape為64×512維特征。X為{x1,…,xi,…,xL},L大小為8×8=64,xi維度為512,即64×512。Z為{z1,…,zt,…,zc}。zt也為512維特征,共有C個(gè),C為句子的最大單詞數(shù)。t為某一個(gè)時(shí)間步,Y為{y1,…,yt,…,yc},yt為每個(gè)時(shí)刻的模型輸出,yt為K維概率,K為詞典的大小。zt為特征x的加權(quán)和,αt為權(quán)重。zt的計(jì)算過(guò)程如公式(1)所示。
zt=αtT×α " " " " " (1)
式中:α為輸出。
αt的維度為64,記錄α每個(gè)位置獲得的關(guān)注度。由前一個(gè)時(shí)間步的LSTM輸出與圖像特征變換得到αt,如公式(2)、公式(3)所示。
et=relu(fe1×set) " " " (2)
αt=Softmax(fc(et)) " " "(3)
式中:et為序列使用Decoder輸出的特征 ;relu為輸出結(jié)果;fe1為由圖像特征x經(jīng)過(guò)包括全連接等多次變換由64×512轉(zhuǎn)變?yōu)?4×512維的特征,句子最大單詞數(shù)為34,即最大時(shí)間步長(zhǎng);set為當(dāng)前時(shí)間步已有詞經(jīng)過(guò)embedding嵌入后得到的序列;fc()為全連接層。
經(jīng)過(guò)加權(quán)的zt和該時(shí)刻的文本序列融合后輸入LSTM,得到的輸出經(jīng)過(guò)激活函數(shù)為Softmax的全連接層轉(zhuǎn)化為維度為詞典大小的詞概率向量yt。
模型搭建和訓(xùn)練模塊能夠正確輸入訓(xùn)練集與驗(yàn)證集數(shù)據(jù),可以正常進(jìn)行模型訓(xùn)練,還可以采用TensorBoard的方式回顧訓(xùn)練過(guò)程的損失變化,可以保存訓(xùn)練過(guò)程中表現(xiàn)較好的模型。
在訓(xùn)練過(guò)程中的損失變化曲線如圖2所示。訓(xùn)練初期損失值下降比較快,訓(xùn)練中期下降速度明顯減緩,訓(xùn)練后期下降緩慢。
模型評(píng)估模塊能夠正確讀取測(cè)試集的數(shù)據(jù),并正常完成評(píng)估計(jì)算,輸出評(píng)估得分。模型的BLEU分?jǐn)?shù)見(jiàn)表1。
BLEU-n計(jì)算待評(píng)價(jià)文本與參考文本的“n單位片段”的匹配度,n-單位片段即連續(xù)的n個(gè)單詞,匹配度越高,兩者質(zhì)量越接近,待評(píng)價(jià)文本得分越高。
生成描述模塊能夠正確接受輸入圖像并進(jìn)行預(yù)處理,可以獲取預(yù)測(cè)結(jié)果并生成描述,返回給用戶。測(cè)試實(shí)例如圖3、圖4所示。
由圖3、圖4可知,有些描述可以比較準(zhǔn)確地表達(dá)圖像的內(nèi)容,最終訓(xùn)練完的模型在訓(xùn)練集上的損失值為2.880,在驗(yàn)證集上的損失值為3.368。訓(xùn)練后期驗(yàn)證集中的損失值比訓(xùn)練集上的損失值平均提高約0.5,存在一定的過(guò)擬合。
3 相關(guān)算法和技術(shù)
3.1 神經(jīng)網(wǎng)絡(luò)基本原理
20世紀(jì)80年代以來(lái),在人工智能領(lǐng)域神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)成為研究熱點(diǎn)[2]。其模擬大腦中神經(jīng)元的活動(dòng)特性,對(duì)不同類(lèi)型的數(shù)據(jù)進(jìn)行平行處理。神經(jīng)網(wǎng)絡(luò)是由多個(gè)神經(jīng)元互聯(lián)而成的,每個(gè)神經(jīng)元表示一個(gè)特殊的輸出功能,稱(chēng)為激活函數(shù),常見(jiàn)的激活函數(shù)有Sigmoid、tanh、ReLU和Softmax。1個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)是由輸入層、隱藏層和輸出成組成的,每層都有若干神經(jīng)元,輸入層接受線性組合的輸入,經(jīng)過(guò)隱藏層的非線性的激活函數(shù),得到非線性的輸出,這個(gè)過(guò)程如公式(4)所示。
a=f(w?x+b) " " " " " "(4)
式中:a為輸出;f()為激活函數(shù);w為權(quán)重 ;x 為輸入 ; b 為偏移 。
引入激活函數(shù)可以為神經(jīng)元引入非線性因素,使神經(jīng)網(wǎng)絡(luò)能夠逼近任何非線性函數(shù),應(yīng)用于各種非線性模型中。
采用反向傳播(back propagation)算法[3]對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。每次運(yùn)算從輸入層輸入向量,經(jīng)過(guò)層層網(wǎng)絡(luò)計(jì)算得到輸出,根據(jù)損失函數(shù)(loss function)將輸出與正確結(jié)果的差值進(jìn)行計(jì)算,從最后一層開(kāi)始層層后退,依次調(diào)整神經(jīng)元的參數(shù)。采用這種方法不斷調(diào)整參數(shù),直至輸出結(jié)果滿意為止。
3.2 圖像邊緣提取技術(shù)
3.2.1 雙向跟蹤
圖像生成需要建立影像邊界,與傳統(tǒng)的彩色圖像邊緣提取策略不同,本文提出了一種基于雙向跟蹤的多通道彩色圖像邊緣提取技術(shù),融合正向跟蹤即下跟蹤(Forward Tracking,F(xiàn)T)和逆向跟蹤即上確認(rèn)(Backward Confirm,BC)的雙向跟蹤。前向追蹤即向下追蹤,其作用是建立影像的初始邊界輪廓。該算法充分利用了彩色影像的光、色等特征,為進(jìn)一步細(xì)化邊界檢測(cè)奠定了基礎(chǔ)。反向追蹤是一種向上證實(shí)的方法,其利用前向追蹤來(lái)提高邊界的辨識(shí)性能,保證所抽取邊界的準(zhǔn)確性和清晰度?;诖耍疚奶岢鲆环N將前向追蹤與后向追蹤相結(jié)合的多路融合算法,對(duì)彩色影像進(jìn)行準(zhǔn)確、完整和自然的邊緣檢測(cè)。本文研究將進(jìn)一步完善現(xiàn)有的基于顏色特征的彩色圖像邊界檢測(cè)方法,并為其他研究提供新思路。
雙相跟蹤步驟如圖5所示,令E(k)(k=1,2,3)為第k個(gè)通道生成的邊緣,F(xiàn)T定義為Ef(k)=F(E(k),E(k+1)),BC定義為Eb(k)=B(E(k),E(k+1)),其中Ef(k)為在FT操作后產(chǎn)生的邊緣圖,Eb(k)為在BC操作后產(chǎn)生的邊緣圖,該圖根據(jù)多通道彩色圖像邊緣提取技術(shù)原理,利用雙向跟蹤進(jìn)行邊緣提取和圖像檢測(cè)。
3.2.2 邊緣提取
基于雙向跟蹤的多通道彩色圖像邊緣提取技術(shù)算法分步效果展示如圖6所示。第一行是原圖,第二行是經(jīng)過(guò)R、G和B 3個(gè)通道中的灰度圖,第三行是在灰度圖的基礎(chǔ)上使用邊緣提取算子得到的二值圖。
二值化排序如圖7所示,采用排序算法將第一行的3幅二值圖中的邊緣數(shù)目進(jìn)行降序排序,得到第二行的3幅排好序的邊緣二值圖。雙向跟蹤后的結(jié)果與原圖的效果展示如圖8所示。
BSDS500數(shù)據(jù)集中的1幅原圖如圖8(a)所示,采用本文算法進(jìn)行邊緣提取后的最終效果如圖8(b)所示。
邊緣數(shù)目對(duì)比見(jiàn)表2。表2為經(jīng)過(guò)R、G和B 3個(gè)通道的邊緣提取后的邊緣數(shù)目與本文算法最終邊緣圖的邊緣數(shù)目。邊緣數(shù)目為1 603、1 624和1604,在使用算法進(jìn)行提取后,最終邊緣數(shù)目為1 228,結(jié)果更為精準(zhǔn)。
4 圖像生成技術(shù)在產(chǎn)品設(shè)計(jì)中的應(yīng)用以及影響
4.1 縮短產(chǎn)品設(shè)計(jì)創(chuàng)作時(shí)間,提升產(chǎn)品設(shè)計(jì)創(chuàng)作質(zhì)量和效率
產(chǎn)品設(shè)計(jì)者利用圖像生成技術(shù)輔助完成產(chǎn)品設(shè)計(jì)創(chuàng)作,將極大程度地縮短產(chǎn)品設(shè)計(jì)創(chuàng)作的時(shí)間,提升產(chǎn)品設(shè)計(jì)創(chuàng)作質(zhì)量和效率。隨著圖像生成技術(shù)的普及和應(yīng)用,專(zhuān)業(yè)設(shè)計(jì)軟件增加了許多智能生成功能和工具,工具內(nèi)置專(zhuān)家系統(tǒng)和專(zhuān)業(yè)圖像生成資源庫(kù),用戶只需明確設(shè)計(jì)需求和創(chuàng)意,就可以利用機(jī)器生成設(shè)計(jì)[4]。同時(shí),利用圖像生成技術(shù)智能生成的具有藝術(shù)和創(chuàng)造性的可編輯應(yīng)用圖像給產(chǎn)品設(shè)計(jì)者在創(chuàng)作素材、設(shè)計(jì)構(gòu)思、結(jié)構(gòu)、材質(zhì)、色彩、裝飾以及工藝形式等方面提供靈感,可以更好地激發(fā)設(shè)計(jì)者的創(chuàng)造性,創(chuàng)作出質(zhì)量更高的設(shè)計(jì)。
4.2 使產(chǎn)品設(shè)計(jì)者的設(shè)計(jì)思維和邏輯發(fā)生轉(zhuǎn)變
隨著圖像生成技術(shù)在產(chǎn)品設(shè)計(jì)中的廣泛運(yùn)用,作為產(chǎn)品設(shè)計(jì)核心價(jià)值中的創(chuàng)意部分需要設(shè)計(jì)者來(lái)進(jìn)行構(gòu)建,其可以利用圖像生成技術(shù)輔助完成產(chǎn)品設(shè)計(jì)其他各環(huán)節(jié)中的實(shí)操部分。圖像生成技術(shù)在產(chǎn)品設(shè)計(jì)中的應(yīng)用使產(chǎn)品設(shè)計(jì)從注重表現(xiàn)產(chǎn)品的功能、造型、材質(zhì)和色彩為主,轉(zhuǎn)向產(chǎn)品整體設(shè)計(jì)方案、智能技術(shù)在產(chǎn)品設(shè)計(jì)中的運(yùn)用為主,并重視用戶體驗(yàn),使產(chǎn)品設(shè)計(jì)者的設(shè)計(jì)思維和邏輯發(fā)生轉(zhuǎn)變。產(chǎn)品設(shè)計(jì)者需要更聚焦于管理、創(chuàng)造和溝通工作,參與模型和算法的設(shè)計(jì),建立機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)和設(shè)計(jì)算法,驅(qū)動(dòng)人工智能生成和篩選設(shè)計(jì)作品[5]。設(shè)計(jì)者需要具備跨專(zhuān)業(yè)領(lǐng)域的視野和快速學(xué)習(xí)的能力,才能保持自己在行業(yè)中的從業(yè)優(yōu)勢(shì)和競(jìng)爭(zhēng)力[6]。
4.3 提升產(chǎn)品設(shè)計(jì)的可視化體驗(yàn),創(chuàng)新產(chǎn)品設(shè)計(jì)的表現(xiàn)形式
在傳統(tǒng)的產(chǎn)品設(shè)計(jì)過(guò)程中,有設(shè)計(jì)構(gòu)思、素材收集、繪制創(chuàng)意草圖和方案圖、三維建模、效果圖渲染和圖片后期處理等實(shí)操環(huán)節(jié),現(xiàn)在可以利用圖像生成技術(shù)生成具有藝術(shù)和創(chuàng)造性的可編輯應(yīng)用圖像,為產(chǎn)品提供了新的設(shè)計(jì)思路和方法。圖像生成技術(shù)可以幫助設(shè)計(jì)師快速建立三維模型,使設(shè)計(jì)師能夠更好地了解產(chǎn)品的外觀造型和內(nèi)部結(jié)構(gòu),同時(shí)可以利用虛擬技術(shù)進(jìn)行產(chǎn)品設(shè)計(jì)的可視化展示。設(shè)計(jì)師能夠在虛擬的環(huán)境中對(duì)作品進(jìn)行設(shè)計(jì)和改進(jìn),能夠嘗試更多元化的設(shè)計(jì)風(fēng)格和表現(xiàn)手法,使產(chǎn)品設(shè)計(jì)越來(lái)越有創(chuàng)意,創(chuàng)新了產(chǎn)品設(shè)計(jì)的表現(xiàn)形式。
5 結(jié)語(yǔ)
本文對(duì)基于圖像生成技術(shù)的產(chǎn)品設(shè)計(jì)進(jìn)行研究,對(duì)系統(tǒng)進(jìn)行了可行性分析和需求分析,確定了基于圖像生成技術(shù)的產(chǎn)品設(shè)計(jì)的設(shè)計(jì)思路。本文由圖像生成入手,結(jié)合深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和圖像邊緣提取技術(shù)對(duì)圖像進(jìn)行描述,利用信息采集對(duì)圖像特征進(jìn)行提取,在圖像數(shù)據(jù)集中搭建深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,生成給定圖像的目標(biāo)描述,探討圖像生成技術(shù)對(duì)產(chǎn)品設(shè)計(jì)產(chǎn)生的影響,為產(chǎn)品設(shè)計(jì)提供應(yīng)用圖像生成技術(shù)的創(chuàng)新思路。
參考文獻(xiàn)
[1]曾俊. 圖像邊緣檢測(cè)技術(shù)及其應(yīng)用研究[D]. 武漢:華中科技大學(xué),2011.
[2]李津.圖像生成技術(shù)在美術(shù)課程教育中的應(yīng)用[J].美術(shù)教育研究,2024(8):154-156,175.
[3]劉云,夏貴羽,孫玉寶,等.基于人體圖像生成的姿態(tài)無(wú)關(guān)人物識(shí)別[J].測(cè)控技術(shù),2024,43(4):61-67.
[4]汪睿.圖像生成技術(shù)對(duì)視覺(jué)傳達(dá)設(shè)計(jì)的影響[J].科技視界,2024,14(3):46-48.
[5]王洪亮,徐嫜娣.人工智能藝術(shù)與設(shè)計(jì)[M].北京:中國(guó)傳媒大學(xué)出版社,2022.
[6]鄭昕怡.智能技術(shù)變革與未來(lái)設(shè)計(jì)師身份的重構(gòu)[J].美術(shù)大觀,2020(12):138-141.