李 桐
韓曉光
2019年,一部動(dòng)畫電影《哪吒》橫空出世,耐人尋味的劇情,沖擊眼球的畫面,給觀眾帶來一場(chǎng)視覺盛宴,也給中國(guó)動(dòng)畫電影的崛起注入一針強(qiáng)心劑。然而,少有人關(guān)注的是這1400個(gè)特效鏡頭背后強(qiáng)大的計(jì)算機(jī)視覺技術(shù)。事實(shí)上,從《阿凡達(dá)》開始,計(jì)算機(jī)視覺就在電影領(lǐng)域大放光彩。那么除了電影,計(jì)算機(jī)視覺還能應(yīng)用在生活中的哪些方面?它的崛起會(huì)給人們的生活帶來什么樣的改變?香港中文大學(xué)(深圳)教授韓曉光一直在尋求答案。
畢業(yè)于南京航空航天大學(xué)數(shù)學(xué)系的韓曉光,碩士時(shí)期因?qū)煹难芯糠较蚴怯?jì)算機(jī)圖形學(xué)而走進(jìn)計(jì)算機(jī)研究領(lǐng)域??珙I(lǐng)域的學(xué)習(xí)并沒有讓韓曉光感到遺憾,反而興趣十足。“進(jìn)入計(jì)算機(jī)領(lǐng)域后,我發(fā)現(xiàn)這個(gè)領(lǐng)域還挺吸引人的,而且至今興趣未減,所以我算是自然而然地進(jìn)入了這個(gè)領(lǐng)域?!?/p>
推開計(jì)算機(jī)領(lǐng)域的大門,韓曉光的目光很快就鎖定在計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)視覺兩大方向。計(jì)算機(jī)圖形學(xué)是一種使用數(shù)學(xué)算法將二維或三維圖形轉(zhuǎn)化為計(jì)算機(jī)顯示器的柵格形式的科學(xué)。簡(jiǎn)單地說,計(jì)算機(jī)圖形學(xué)的主要研究?jī)?nèi)容就是研究如何在計(jì)算機(jī)中表示圖形,以及利用計(jì)算機(jī)進(jìn)行圖形的計(jì)算、處理和顯示的相關(guān)原理與算法。而計(jì)算機(jī)視覺是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步地說,就是指用攝像機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)行識(shí)別、跟蹤和測(cè)量等機(jī)器視覺,并進(jìn)一步做圖形處理,用電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。簡(jiǎn)單來說,“計(jì)算機(jī)圖形學(xué)是研究圖像生成的學(xué)科,計(jì)算機(jī)視覺是對(duì)圖像進(jìn)行理解的學(xué)科,這兩個(gè)學(xué)科聯(lián)系緊密,相輔相成”。
在計(jì)算機(jī)圖形學(xué)領(lǐng)域,建模、渲染、動(dòng)畫、人機(jī)交互是四大主要部分。2014年,在香港城市大學(xué)創(chuàng)意媒體學(xué)院擔(dān)任兩年研究助理后,韓曉光于香港大學(xué)計(jì)算機(jī)科學(xué)專業(yè)讀博,并在三維人臉建模方面發(fā)力。興趣的指引加上勤奮的助推,他在博士期間取得了一系列出色成果,包括:提出了一種新穎易用的草圖繪制系統(tǒng),通過學(xué)習(xí)2D草圖與3D形狀間的相關(guān)性自動(dòng)從2D草圖生成3D人臉模型。同時(shí),系統(tǒng)支持基于手勢(shì)的交互,以便用戶編輯初始面部模型;他設(shè)計(jì)了一種新穎的、基于CNN的深度回歸網(wǎng)絡(luò),融合卷積和輸入草圖的形狀特征,從粗糙的2D草圖推斷精確的3D人臉;構(gòu)建并開源了具有多種身份、表情和夸張程度的人臉數(shù)據(jù)庫(kù),造福后續(xù)研究。
人臉建模一直是計(jì)算機(jī)領(lǐng)域的熱門研究方向,雖然高端應(yīng)用(例如故事片中的虛擬角色)需要從現(xiàn)實(shí)世界中獲取高保真人臉模型,但在許多場(chǎng)景(如卡通、游戲)中,低成本的3D人臉建模仍占主導(dǎo);囿于身份和表情的多樣性以及豐富的面部幾何,即使是熟練的建模師借助成熟的軟件(如MAYA、ZBrush)交互創(chuàng)建像樣的3D人臉模型也十分耗時(shí)費(fèi)力,而在韓曉光的帶動(dòng)下,這項(xiàng)任務(wù)正漸漸變得簡(jiǎn)單。
2017年,在獲得香港大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士學(xué)位后,韓曉光來到香港中文大學(xué)(深圳)任教。此后,他一路前行一路高歌,共在著名國(guó)際期刊和會(huì)議發(fā)表論文40余篇,獲得CCF圖形開源數(shù)據(jù)集獎(jiǎng),計(jì)算機(jī)圖形學(xué)頂級(jí)會(huì)議Siggraph Asia 2013新興技術(shù)最佳演示獎(jiǎng),2019年和2020年連續(xù)兩年計(jì)算機(jī)視覺頂級(jí)會(huì)議CVPR最佳論文列表(入選率分別為0.8%和0.4%),入選2021騰訊AI Lab犀牛鳥專項(xiàng)研究計(jì)劃,他的團(tuán)隊(duì)還在1700多支參賽隊(duì)伍中脫穎而出,于2018年11月獲得IEEE ICDM全球氣象挑戰(zhàn)賽冠軍。
團(tuán)隊(duì)構(gòu)建了大規(guī)模真實(shí)衣服三維數(shù)據(jù)集,并提出了一種基于單視角輸入進(jìn)行重建的方法。
近些年來,深度學(xué)習(xí)令基于圖像的三維人體數(shù)字化領(lǐng)域有了前所未有的進(jìn)展:通過輸入一張圖像,現(xiàn)有技術(shù)能夠準(zhǔn)確地估計(jì)三維人體姿態(tài),恢復(fù)圖像中非穿衣的三維人體模型。
然而,與從單張圖像估計(jì)人體三維姿態(tài)、非穿衣人體形狀相比,恢復(fù)圖像中三維服裝的研究進(jìn)展相對(duì)緩慢。除去重建三維服裝模型任務(wù)自身的難度外,更重要的原因是缺乏大規(guī)模的、包含現(xiàn)實(shí)中多種服裝的三維服裝數(shù)據(jù)集。不同于圖像能夠通過網(wǎng)絡(luò)快速搜集,高質(zhì)量的三維模型往往需要在實(shí)驗(yàn)室環(huán)境內(nèi),通過掃描或多視角重建獲得。由于服裝的形狀十分復(fù)雜,從采集的三維人體點(diǎn)云剝離出邊界分明的服裝部分通常需要煩瑣的人工操作,增大了建立大規(guī)模三維服裝數(shù)據(jù)集的難度。
“服裝模型這件事,其實(shí)國(guó)內(nèi)外都有研究,但是研究得都很少,最大的阻礙在于衣服褶皺這塊非常難。”韓曉光說。在此之前,他一直忙于三維圖形重建,了解這一現(xiàn)象后,“當(dāng)時(shí)我們做的時(shí)候國(guó)內(nèi)還少有人做,我就想能不能把這件事往前推一推”。
著手這一挑戰(zhàn)后,韓曉光及團(tuán)隊(duì)很快就迎來了第一個(gè)難點(diǎn):沒有衣服數(shù)據(jù)集。人工智能時(shí)代,沒有數(shù)據(jù)集,相當(dāng)于蓋房子沒有水泥。因此他們從零開始搭建,經(jīng)過近9個(gè)月的努力,最終建立了大規(guī)模的三維服裝數(shù)據(jù)集Deep Fashion3D,該數(shù)據(jù)集在服裝模型的數(shù)目、種類以及標(biāo)注多樣性上都勝于現(xiàn)有的三維服裝數(shù)據(jù)集。
為體現(xiàn)現(xiàn)實(shí)世界中服裝款式與種類的多樣性,Deep Fashion3D共采集了10個(gè)服裝種類共563件不同的服裝,包括長(zhǎng)/短/無袖衫、長(zhǎng)/短褲、長(zhǎng)/短/無袖連衣裙以及長(zhǎng)/短裙。通過將每件待采集服裝穿著于假人或真人模特身上,并擺出不同的姿態(tài)以產(chǎn)生多樣化的真實(shí)褶皺,進(jìn)行數(shù)據(jù)增強(qiáng),最終共重建出563件三維服裝模型。
Deep Fashion3D數(shù)據(jù)集建成之后,研究組又提出了一種新穎的單幅圖像三維服裝重建方法。該方法通過結(jié)合顯式網(wǎng)格表示方法與隱式形狀表示方法實(shí)現(xiàn)了高保真的服裝重建:在網(wǎng)格表示學(xué)習(xí)分支中,模型根據(jù)輸入圖像生成三維服裝特征線并引導(dǎo)服裝模板網(wǎng)格形變至與圖像中服裝宏觀形狀相近的形態(tài);在隱式形狀表示學(xué)習(xí)分支中,模型通過輸入圖像預(yù)測(cè)服裝表面的高頻細(xì)節(jié);最終,將隱式分支中生成的服裝細(xì)節(jié)遷移至顯式分支生成的服裝網(wǎng)格以獲得具有準(zhǔn)確宏觀形狀和豐富細(xì)節(jié)的服裝網(wǎng)格。
與現(xiàn)有單視角三維重建方法相比,Deep Fashion3D更能準(zhǔn)確恢復(fù)圖像中服裝的形狀和表面褶皺細(xì)節(jié)。因此,在計(jì)算機(jī)視覺領(lǐng)域三大頂級(jí)會(huì)議之一的ECCV2020中,相關(guān)成果論文《Deep Fashion3D:大規(guī)模三維服裝數(shù)據(jù)集與單幅圖像三維服裝重建基準(zhǔn)方法》被錄取為口頭報(bào)告文章(Top 2%)。隨后,相應(yīng)數(shù)據(jù)集又榮獲Chinagraph“圖形開源數(shù)據(jù)集獎(jiǎng)”。
韓曉光團(tuán)隊(duì)現(xiàn)有本科生10人、碩士生6人、博士生10人,加上訪問的學(xué)生,目前共有30余人。在充足的戰(zhàn)斗力下,他希望未來的三到五年,可以完成兩大目標(biāo):“一是在完成前沿科研的同時(shí),在一些基礎(chǔ)研究上也多花點(diǎn)時(shí)間;二是希望能夠產(chǎn)業(yè)化落地,真正以應(yīng)用驅(qū)動(dòng)科研,實(shí)現(xiàn)產(chǎn)學(xué)研一體化?!庇?jì)算機(jī)視覺就像一個(gè)萬花筒,每一面有每一面的驚喜,未來韓曉光還將繼續(xù)發(fā)揮團(tuán)隊(duì)優(yōu)勢(shì),為挖掘計(jì)算機(jī)視覺的多面性而努力。