陳姝宇
繪畫創(chuàng)作是人類自古以來的天性,從原始叢林中飽經(jīng)風(fēng)霜的洞穴巖畫,到法國盧浮宮中夢幻神秘的蒙娜麗莎,人類筆下的每一幅畫作都體現(xiàn)了無窮的想象力和非凡的創(chuàng)造力。與技藝精湛的藝術(shù)家一樣,我們每一個(gè)普通人的心中都有著獨(dú)特的審美情趣與個(gè)性化的藝術(shù)體驗(yàn),但是,我們卻常常難以將之充分地表達(dá)出來。為了讓非職業(yè)畫家的普通人也能輕松地繪制出人類肖像,中國科學(xué)院計(jì)算所與香港城市大學(xué)合作研發(fā)了智能人臉畫板軟件DeepFaceDrawing[1]?;谠撥浖?,用戶不需要擁有專業(yè)的繪畫技巧,就能用粗糙甚至不完整的草圖合成逼真的人臉肖 像。
計(jì)算機(jī)草圖交互的發(fā)展
草圖是指通過黑白線條,描繪物體的輪廓和結(jié)構(gòu)的一種繪畫形式。草圖繪制成本較低卻包含豐富的語義信息,其很早便被用于人機(jī)交互:1963年,Ivan Sutherland便開發(fā)了革命性的人機(jī)交互系統(tǒng)——SketchPad[2],并因此獲得圖靈獎(jiǎng)。該系統(tǒng)使用交互設(shè)備“光筆”,通過手繪草圖完成計(jì)算機(jī)的圖形設(shè)計(jì)與交互。后來幾十年,隨著數(shù)位板等硬件設(shè)備的發(fā)展,草圖已經(jīng)成為專業(yè)計(jì)算機(jī)設(shè)計(jì)人員所必需的交互方式,提高了計(jì)算機(jī)相關(guān)行業(yè)的生產(chǎn)效率,促進(jìn)了工業(yè)、設(shè)計(jì)業(yè)、動(dòng)畫影視業(yè)等相關(guān)產(chǎn)業(yè)的發(fā)展。近幾年,以智能手機(jī)、平板電腦為代表的觸摸設(shè)備迅速發(fā)展,觸屏交互進(jìn)一步深入大眾的日常生活,草圖擁有了更多的使用場景與更高的實(shí)用價(jià) 值。
正因?yàn)椴輬D具有易于繪制、語義豐富和應(yīng)用廣泛等特點(diǎn),許多計(jì)算機(jī)軟件嘗試根據(jù)草圖合成真實(shí)圖像。一些早期的技術(shù)主要將草圖作為標(biāo)記,使用圖像檢索和組合技術(shù),將不同圖像的不同部分生硬地拼接到一起。這些軟件無法通過草圖精確控制合成的圖像,拼接的結(jié)果常常不夠自然。近幾年,人工智能技術(shù)飛速發(fā)展,通過草圖合成真實(shí)圖像也有了許多新的技術(shù)。這些方法將草圖作為輸入,使用深度神經(jīng)網(wǎng)絡(luò),合成真實(shí)的圖像。但是,目前的大多數(shù)方法對于草圖的依賴性極高,因此對用戶繪制的草圖有很嚴(yán)格的要求,往往只有專業(yè)的美術(shù)工作者才能駕 馭。
普通人可以通過手繪的草圖輕松合成逼真的人臉肖像嗎?怎樣使用人工智能技術(shù),用隨手繪制的粗糙、甚至不完整的草圖合成真實(shí)圖片呢?
人臉畫板交互系統(tǒng)
為了讓普通人也能通過隨手繪制的草圖合成真實(shí)人臉肖像,中國科學(xué)院計(jì)算技術(shù)研究所高林團(tuán)隊(duì)與香港城市大學(xué)傅紅波團(tuán)隊(duì)合作研發(fā)了一款智能人臉畫板軟件。該軟件在草圖繪制界面,提供了基于數(shù)據(jù)驅(qū)動(dòng)的背景陰影作為參考。背景陰影實(shí)時(shí)更新,根據(jù)用戶繪制的草圖,匹配出最接近“真實(shí)人臉”的草圖,引導(dǎo)用戶的繪制。交互界面的頂端提供了一系列功能按鈕,可以控制畫筆、橡皮的大小,保存生成的結(jié)果等。
該軟件可以調(diào)整生成結(jié)果的面部細(xì)節(jié)。右上角提供了針對臉部5個(gè)部分的5個(gè)參數(shù)(左眼、右眼、鼻子、嘴巴、其他)的控制滑條。每個(gè)滑條的值代表了原始繪制的草圖與系統(tǒng)優(yōu)化的混合權(quán)重,滑條對應(yīng)的值越高,生成的結(jié)果與輸入的草圖越接近。該軟件的交互界面友好美觀,用戶可以輕松繪制想象中的真實(shí)人臉。
基于深度學(xué)習(xí)的人類合成系統(tǒng)
該人臉畫板系統(tǒng)基于最前沿的人工智能技術(shù),使用了生成式對抗網(wǎng)絡(luò)(GAN)[3]的技術(shù)。通過這種技術(shù),神經(jīng)網(wǎng)絡(luò)可以合成高真實(shí)感的圖像,足以以假亂真。生成式對抗網(wǎng)絡(luò)的原理也非常簡單,包括了兩個(gè)網(wǎng)絡(luò):圖像生成網(wǎng)絡(luò)與圖像判別網(wǎng)絡(luò)。圖像生成網(wǎng)絡(luò)負(fù)責(zé)生成真實(shí)的圖像,圖像判別網(wǎng)絡(luò)則負(fù)責(zé)判斷生成的圖像是真實(shí)圖像還是生成的圖像。兩個(gè)網(wǎng)絡(luò)相互學(xué)習(xí)博弈,最終生成高真實(shí)感的圖像。
該智能人臉畫板系統(tǒng)同時(shí)使用了結(jié)構(gòu)化的合成思路,對人臉的關(guān)鍵區(qū)域(雙眼、鼻、嘴和其他區(qū)域)單獨(dú)處理,再融合生成真實(shí)人臉。系統(tǒng)主要由三部分組成:特征提取模塊、特征映射模塊、圖像合成模塊。系統(tǒng)對用戶繪制的草圖進(jìn)行優(yōu)化,生成與繪制草圖相對應(yīng)的真實(shí)人臉。
特征提取模塊采用自編碼器結(jié)構(gòu)。自編碼器也是一種常用的人工神經(jīng)網(wǎng)絡(luò),可以對輸入的圖像進(jìn)行編碼,得到高效的低維特征描述,并能從該描述中恢復(fù)輸入圖像。特征提取模塊將人臉分為五個(gè)部分(左眼、右眼、鼻、嘴和其他區(qū)域),對每一部分的草圖分別進(jìn)行編碼,獲取五個(gè)特征描述符。進(jìn)一步,該模塊將人臉的局部草圖投影至局部線性的流形空間,每個(gè)部位的流形空間由數(shù)據(jù)庫中大量樣本編碼的特征向量構(gòu)成。輸入的手繪草圖樣本的特征描述符作為點(diǎn)樣本投影至該空間尋找最近鄰,通過線性組合重構(gòu)來優(yōu)化手繪草圖。
特征映射模塊與圖像合成模塊一起構(gòu)成合成真實(shí)圖像的深度神經(jīng)網(wǎng)絡(luò)。特征映射模塊將優(yōu)化后的局部草圖特征描述映射成32通道的特征圖(真實(shí)圖像常常為3個(gè)通道,對應(yīng)紅色、綠色、藍(lán)色)。進(jìn)一步,系統(tǒng)對每個(gè)局部生成的特征圖,在背景特征圖的固定位置按照嘴、鼻子、雙眼的順序進(jìn)行拼接。最后,圖像合成模塊根據(jù)拼接后的特征圖,融合生成高真實(shí)感的人臉。該方法由于采用了多個(gè)通道,改進(jìn)了信息流,能生成更高質(zhì)量的合成結(jié)果。
目前,基于人工智能技術(shù)的系統(tǒng),需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,該人臉畫板系統(tǒng)也不例外。開發(fā)團(tuán)隊(duì)基于CelebAMask-HQ[4]人臉圖像數(shù)據(jù)庫,篩選無遮擋的面部圖像,再利用PhotoShop加草圖簡化的方法提取草圖,構(gòu)建了人臉圖像與對應(yīng)草圖的數(shù)據(jù)集。系統(tǒng)的訓(xùn)練分為兩個(gè)階段:先訓(xùn)練局部嵌入模塊,獲取局部特征映射,再固定局部嵌入模塊的參數(shù),整體訓(xùn)練特征映射模塊與圖像合成模塊。
人臉畫板的更多應(yīng)用
人臉畫板采用從局部到全局的方法,對局部進(jìn)行了編碼解析。因此,人臉畫板可以對來自不同人不同部位的圖像提取草圖編碼,再將其整合看作一張臉?biāo)腿刖W(wǎng)絡(luò)生成人臉圖像,實(shí)現(xiàn)人臉拼接。同時(shí),由于人臉畫板將人臉的各部位編碼為特征表示,并在流形空間上進(jìn)行投影,因此可以將不同人臉的特征進(jìn)行線性插值,再將插值后的特征輸入網(wǎng)絡(luò),合成中間人臉結(jié)果,實(shí)現(xiàn)人臉變換。
智能人臉畫板系統(tǒng)有很高的實(shí)用價(jià)值與現(xiàn)實(shí)意義。通過人臉畫板系統(tǒng),刑偵人員可以定位嫌疑分子,方便案件的偵查,保護(hù)人民財(cái)產(chǎn)安全;普通用戶可以自由繪制真實(shí)人臉,體驗(yàn)科技與藝術(shù)的完美融合,激發(fā)想象力與創(chuàng)造力;專業(yè)藝術(shù)家可以任意設(shè)計(jì)精美模特,創(chuàng)作獨(dú)特而精妙的藝術(shù)品,帶來獨(dú)具匠心的藝術(shù)體驗(yàn)。在后續(xù)的研究中,研究團(tuán)隊(duì)將繼續(xù)擴(kuò)展人臉畫板的功能,進(jìn)一步提升用戶體驗(yàn),便利藝術(shù)創(chuàng)作。
參考文獻(xiàn)
[1] CHEN S Y, SU WC, GAO L, et al. DeepFace-Drawing: Deep Generation of Face Images from Sketches. ACM SIGGRAPH\TOG. 2020,39(4),72:1–72:16.
[2] SUTHERLAND I E. Sketchpad a man-machine graphical communication system[J]. Simulation, 1964, 2(5): R-3-R-20.
[3] IAN J G, ABADIE J P, MIRZA M, et al. Generative adversarial networks, arXiv preprint arXiv, 2014(2661):1406.
[4] LEE C H, LIU Z W, WUL Y, ea al. MaskGAN: Towards Diverse and Interactive Facial Image Manipulation, CVPR 2020.