黨睿才
AI絕對(duì)可以稱得上是這幾年最火爆的話題。從Alpha Go擊敗頂尖圍棋選手開(kāi)始,越來(lái)越多人意識(shí)到在很多領(lǐng)域,AI已經(jīng)能夠用接近人類的思維,更高效地完成任務(wù)。在很多領(lǐng)域,AI甚至已經(jīng)可以部分取代之前只能由人類擔(dān)任的工作,例如機(jī)器翻譯有了AI加持后,譯文的質(zhì)量在很多場(chǎng)景下已經(jīng)達(dá)到了可用的程度,電腦和互聯(lián)網(wǎng)也變得越來(lái)越聰明了。
然而長(zhǎng)久以來(lái),很多人依然認(rèn)為,在一些體現(xiàn)人類獨(dú)創(chuàng)性思維的領(lǐng)域,仍是AI的禁區(qū)。例如藝術(shù)和繪畫,很難想象出AI能和人的想象力和手藝一較高下。
但是,近幾年AI在圖形方面的進(jìn)展,卻讓人驚呼時(shí)代真的變了!不少高質(zhì)量的AI繪畫方案紛紛面世,即使完全不會(huì)畫畫,憑借著寥寥幾筆涂鴉,甚至簡(jiǎn)單一兩句乃至幾個(gè)詞的描述,就能夠通過(guò)AI生成美輪美奐的繪畫,簡(jiǎn)直如同黑科技,尤其是最近在Google Colab開(kāi)源的Disco Diffusion,感覺(jué)全世界都玩瘋了。
AI繪畫并不是一蹴而就的,隨著算力的增強(qiáng),以及算法的完善,它慢慢修煉到了如今的功力。那么在這幾年,都有些什么令人印象深刻的AI繪畫方案?今天,就來(lái)介紹一些相當(dāng)值得把玩的AI繪畫
Paintschainer
這可能是最早出圈的AI繪畫方案了。Paintschainer在前幾年就引起了人們的注意,它并不能完全靠自己來(lái)畫一幅畫,Paintschainer的主要作用是給線稿上色,其效果已經(jīng)可以追上一些比較初級(jí)的人工上色作品。
Paintschainer在當(dāng)時(shí)之所以突然爆火,是因?yàn)槿藗兺蝗话l(fā)現(xiàn),AI居然是可以辨認(rèn)線稿內(nèi)容的!Paintschainer的驚人之處,在于它能夠識(shí)別線稿的內(nèi)容,例如一張美少女人像,它可以識(shí)別哪部分屬于皮膚、哪部分是頭發(fā)、哪部分是衣服、哪部分是背景,然后分別涂上適當(dāng)?shù)念伾?。不僅如此,它的上色范圍還相當(dāng)精準(zhǔn),盡管線稿沒(méi)有封閉,但顏色依然會(huì)保留在適當(dāng)?shù)姆秶?,而不?huì)涂得滿處都是———用過(guò)PS中油漆桶工具上色的朋友,應(yīng)該知道這是什么意思。
在很多人的固有認(rèn)知中,電腦很難“理解”圖像,從照片中辨認(rèn)、總結(jié)出內(nèi)容物是什么。然而Paintschainer卻做到了更高的層次,能夠“理解”線稿這種比寫實(shí)照片更加抽象的圖像。盡管Paintschainer并不完美,但它已經(jīng)足以讓人們對(duì)AI的強(qiáng)大有了更加貼切的體驗(yàn)。
NV GauGAN
NV是顯卡界的“大拿”,無(wú)數(shù)游戲玩家將其視為偶像。而NV同樣是AI算力的重要貢獻(xiàn)者,它早在AI領(lǐng)域布局了多枚棋子,到如今NV在AI領(lǐng)域無(wú)論是硬件還是配套的軟件,都達(dá)到了很高的水平———游戲玩家如果用過(guò)NV增強(qiáng)畫質(zhì)的DLSS AI算法,一定深有體會(huì)。
DLSS并非是NV在圖像AI領(lǐng)域的唯一體現(xiàn),實(shí)際上,NV近年的一個(gè)開(kāi)源AI項(xiàng)目SPADE/GauGAN,就讓人嘖嘖稱奇。
GauGAN是一個(gè)NV使用AI生成圖像的方案,和上文介紹的線稿上色AI相比,GauGAN的強(qiáng)大之處在于它可以生成完成度極高的圖像,而前提是只需要涂抹幾筆,用不同顏色的色塊和線條“意思一下”,GauGAN就可以明白你的意圖,還你一張逼真度極高的照片。
GauGAN一直處于發(fā)展中,2022年,GauGAN還推出了第二代,除了依然可以通過(guò)簡(jiǎn)筆畫生成照片,現(xiàn)在還能夠通過(guò)文字描述來(lái)生成圖像了!
在GauGAN 2當(dāng)中,用戶只需要輸入描述畫面的文字,AI就可以自動(dòng)生成對(duì)應(yīng)的畫面。而且,生成的速度非常驚人,幾乎是即時(shí)的。例如,輸入Ocean出現(xiàn)海,繼而輸入waves則會(huì)出現(xiàn)波浪,繼續(xù)輸入hitting rocks on the beach則又繼續(xù)生成海灘和巖石,效果非常驚人。
此外,GauGAN還支持用戶手動(dòng)涂抹修改,如果想要對(duì)生成的內(nèi)容做調(diào)整,可以直接用簡(jiǎn)筆涂鴉,AI會(huì)如魔法般變出逼真的對(duì)應(yīng)內(nèi)容。
GauGAN之所以有如此大能,是因?yàn)槭褂昧藢?duì)抗網(wǎng)絡(luò),大量數(shù)據(jù)經(jīng)過(guò)機(jī)器訓(xùn)練后,使用生成器和鑒別器來(lái)識(shí)別對(duì)應(yīng)元素,從而匹配數(shù)據(jù)生成圖像。據(jù)了解,GauGAN 2使用了1 000萬(wàn)張圖像進(jìn)行訓(xùn)練,藝術(shù)家使用它不僅可以生成現(xiàn)實(shí)的風(fēng)景,還可以生成天馬行空的藝術(shù)場(chǎng)景,這超越了很多人對(duì)電腦插手藝術(shù)的固有印象。
Disco Diffusion
這可能是2022年最為人矚目的繪畫AI了。
Disco Diffusion一經(jīng)面世,就刷爆了全球各大社交媒體,顛覆了很多人對(duì)AI的認(rèn)知。如果說(shuō)GauGAN的強(qiáng)大之處,在于可以憑借人的簡(jiǎn)單想象就生成逼真圖像,那么Disco Diffusion就更進(jìn)一步,不僅可以進(jìn)行復(fù)雜的想象,而且還可以生成各種畫風(fēng)的繪畫!
Disco Diffusion是一個(gè)運(yùn)行在Google Colab上的AI,如果要使用它,需要擁有Google賬號(hào)并且能訪問(wèn)Google,國(guó)內(nèi)的用戶可以自行解決這方面的問(wèn)題。Disco Diffusion的程序是面向公眾公開(kāi)的,在使用之前,可以先將其保存到自己的Google Drive網(wǎng)盤,以方便進(jìn)一步編輯。
Disco Diffusion的強(qiáng)大之處,在于給出一段描述文字,就能夠生成高質(zhì)量的畫作。盡管它沒(méi)有圖形界面,但使用起來(lái)并不復(fù)雜,進(jìn)入到Setting當(dāng)中,可以設(shè)置名稱(AI生成的繪畫會(huì)保存到Google Drive中對(duì)應(yīng)的文件夾)、尺寸(不要設(shè)置太大,保持默認(rèn)即可)、步數(shù)(保持默認(rèn)即可)等。
接著,進(jìn)入到(提示詞)Prompts的設(shè)置當(dāng)中,這就是最關(guān)鍵的地方了。在Prompts中,可以輸入描述繪畫的詞句,例如官方給出的實(shí)例為“A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and Thomas kinkade, Trending on artstation.”,“yellow color scheme”,意思大致為“奇異燈塔的美麗繪畫,在洶涌的血海中閃耀著光芒,參考greg rutkowski Thomas kinkade的畫風(fēng),及artstation網(wǎng)站上流行的風(fēng)格“黃色主調(diào)”。
然后點(diǎn)擊“代碼執(zhí)行程序”中的“全部運(yùn)行”,靜靜等待即可。運(yùn)算過(guò)程可能長(zhǎng)達(dá)幾十分鐘乃至數(shù)小時(shí),運(yùn)算是在Google的云服務(wù)器上運(yùn)行的,對(duì)本機(jī)電腦性能沒(méi)要求。隨后,Disco Diffusion就生成了這樣一副繪畫。
在很多人眼里,AI能夠生成這樣的一幅畫是非常驚人的,其完成度甚至不輸于一些真正的畫手。而Disco Diffusion生成這樣的一幅畫,流程要比手工作畫來(lái)得更快,而且改一下提示詞,又能生成另外不同風(fēng)格的畫了。
Disco Diffusion有很多潛力可發(fā)掘。例如,使用算力更強(qiáng)的云服務(wù)、設(shè)置更多次的迭代算法、提供更具體的提示詞、甚至給到參考圖片,這些都能夠生成更高質(zhì)量、更多種風(fēng)格的畫作。
毫無(wú)疑問(wèn),Disco Diffusion的出現(xiàn),顛覆了很多人的三觀。這個(gè)AI所生成的繪畫,甚至已經(jīng)可以說(shuō)擁有一定的藝術(shù)感了。盡管它對(duì)于動(dòng)物和人物的繪制仍存在短板,而且也不能勝任人物、場(chǎng)景設(shè)計(jì)這樣具體的、需要扣細(xì)節(jié)的工作,但無(wú)論是給普通人一場(chǎng)視覺(jué)盛宴,還是給行業(yè)人員找找靈感,都已經(jīng)綽綽有余了。
可以說(shuō),Disco Diffusion將繪畫AI推向了一個(gè)新高度,自此繪畫這種講究審美、講究靈感的技藝,也不再專屬于人類了。
Tiamat
Disco Diffusion依托在Google Colab上,對(duì)于國(guó)內(nèi)用戶來(lái)說(shuō)有網(wǎng)絡(luò)方面的門檻,而且界面說(shuō)不上易用,還需要用英文來(lái)撰寫提示詞(盡管可以機(jī)翻)?,F(xiàn)在,對(duì)國(guó)人更友好的AI繪畫方案,正在路上。
最近,一款名為Tiamat的繪畫AI在國(guó)內(nèi)展開(kāi)了測(cè)試。根據(jù)內(nèi)測(cè)者的體驗(yàn)反饋,它的界面比較友好,而且可以用中文來(lái)給AI命題,效果還相當(dāng)不錯(cuò)。
和Disco Diffusion相比,Tiamat的本土化做得好很多。例如,它甚至能根據(jù)詩(shī)詞來(lái)繪畫,畫面效果相當(dāng)好,還頗有意境。在微博、小紅書(shū)平臺(tái)上,都可以找到很多這樣的案例。
可見(jiàn),Tiamat的AI方案還是有吸引人的獨(dú)到之處的。不過(guò)目前Tiamat仍處于內(nèi)部測(cè)試階段,希望Tiamat能夠盡快推出公開(kāi)的版本,讓更多國(guó)人感受到AI繪畫的魅力。
隨著硬件性能的進(jìn)步以及算法的改進(jìn),AI仍在飛速發(fā)展。AI在繪畫方面的建樹(shù),已經(jīng)讓人咋舌,有條件的話,強(qiáng)烈推薦把玩一下Disco Diffusion,感受AI作畫的魅力。