技術(shù)宅
2017年發(fā)布的iPhone X中有一項(xiàng)重要的新功能就是人臉識(shí)別和定制表情(Animoji),使用者可以通過iPhone X的前置攝像頭來捕捉人的臉部表情,即時(shí)轉(zhuǎn)為手機(jī)可用的表情包(圖1),這個(gè)在iPhone X上很好玩的組件,操作起來也非常的簡(jiǎn)單。今天我們就來探討一下這背后蘊(yùn)藏什么樣的技術(shù),看看蘋果通過什么技術(shù)手段來實(shí)現(xiàn)。
Animoji 臉部表情是這樣到手機(jī)的
現(xiàn)在無論是聊天還是留言、發(fā)朋友圈,每個(gè)人幾乎都在用各種表情包。iPhone X的Animoji功能則可以讓每個(gè)用戶的實(shí)時(shí)臉部表情轉(zhuǎn)換為手機(jī)可用的表情包。在iPhone X上打開信息APP,選擇3D表情圖標(biāo),接著將自己的臉部放置于iPhone X的取景框中,然后開始錄制并發(fā)送即可。iPhone X的前攝像頭會(huì)自動(dòng)捕捉到用戶的臉部表情,通過這些面部信息,設(shè)備就可以讓虛擬形象即時(shí)表現(xiàn)出和用戶相似的表情來(圖2)。
看似簡(jiǎn)單的背后——臉部追蹤技術(shù)解讀
Animoji這個(gè)看上去很簡(jiǎn)單的功能,背后的研發(fā)路程卻頗為艱辛。因?yàn)榇蠹抑烂總€(gè)人的臉部表情是非常豐富的,而且它不同于靜態(tài)物體,人臉表情總是持續(xù)變化,因此沒有一個(gè)普遍的運(yùn)算法可以通用,算法的缺失導(dǎo)致機(jī)器很難有效捕捉并識(shí)別人臉表情。
在臉部動(dòng)態(tài)追蹤領(lǐng)域,為了可以有效捕捉到用戶臉部數(shù)據(jù),最早人們是通過在臉部添加標(biāo)記點(diǎn)的方法實(shí)現(xiàn)??催^《阿凡達(dá)》的朋友都知道,該劇3D人物臉部有非常細(xì)膩逼真的表情,這個(gè)臉部表情追蹤的幕后功臣就是貼在演員臉部的各種追蹤傳感器。這樣當(dāng)演員的面部表情發(fā)生變化時(shí),這些傳感器會(huì)感應(yīng)到臉部這些變化,并將這些變化傳輸?shù)焦鈱W(xué)系統(tǒng)中,捕捉系統(tǒng)收到這些變化的數(shù)據(jù)后會(huì)在電腦上建模并生成3D人物表情,這樣才讓《阿凡達(dá)》里的3D人物栩栩如生(圖3)。
雖然使用傳感器的方法可以有效地實(shí)現(xiàn)對(duì)人臉部表情的追蹤和捕捉,但是缺點(diǎn)也是顯而易見的。首先是麻煩,在現(xiàn)實(shí)生活中我們不可能為了捕捉臉部表情而在用戶臉上貼上各種追蹤器;其次是投資大,我們需要在捕捉現(xiàn)場(chǎng)配備運(yùn)動(dòng)捕捉套件、工作站(用于3D建模)等配套設(shè)備。
那么如何在更低的成本、更簡(jiǎn)單的環(huán)境下實(shí)現(xiàn)臉部跟蹤?蘋果的Animoji功能就是一個(gè)臉部追蹤技術(shù)在手機(jī)上的典型應(yīng)用。為了讓機(jī)器可以識(shí)別出面部運(yùn)動(dòng),首先機(jī)器就必須看懂各種各樣的面部表情。為此蘋果工程師開發(fā)了一整套復(fù)雜的算法,通過一系列面部數(shù)據(jù)和表情數(shù)據(jù)、訓(xùn)練算法,讓它們建立多個(gè)可以描述的靜態(tài)3D模型,同時(shí)借助人工智能技術(shù)自主學(xué)習(xí)來實(shí)現(xiàn)對(duì)面部表情的識(shí)別和建模(圖4)。
當(dāng)然由于臉部表情和人種、環(huán)境光線、情緒等因素相關(guān),因此這套算法捕捉到的信息里就包含上述這些差異信息。這樣通過這些計(jì)算模型,再借助iPhone X集成的深度感應(yīng)相機(jī)的長鏡頭,捕捉掃描到的3D點(diǎn)陣面譜就能和實(shí)際的面部表情聯(lián)系起來,從而實(shí)現(xiàn)了Animoji功能的應(yīng)用。因此Animoji實(shí)際上是硬件(深度感應(yīng)相機(jī))和軟件(iPhone X內(nèi)置的識(shí)別算法和人工智能技術(shù))在臉部追蹤技術(shù)上的一個(gè)結(jié)合體(圖5)。
臉部追蹤 不僅僅是好玩
隨著iPhone X的發(fā)售,Animoji功能讓很多果粉們覺得有趣、好玩。當(dāng)然面部表情模仿僅僅是個(gè)開始,隨著臉部追蹤技術(shù)的發(fā)展和手機(jī)性能的提升,以后在我們手機(jī)上借助一張照片和攝像頭,系統(tǒng)就可以打造出真實(shí)度極高的虛擬形象,甚至達(dá)到能讓人誤以為是真人在說話和做出表情的程度。想一想,以后在微信、QQ、彩信里,想發(fā)表情就直接使用自己的實(shí)際臉部表情來發(fā)給對(duì)方,這樣聊天是不是更有趣(圖6)?
當(dāng)然除了好玩外,其內(nèi)部蘊(yùn)含的臉部識(shí)別技術(shù)其實(shí)在我們的生活中還有很多的用處。比如Snapchat照片分享應(yīng)用,它開發(fā)的面部匹配濾鏡功能得到很多用戶的喜愛。 S n a p c h a t支持了iPhone X的原深感系統(tǒng)后,借助Phone X的臉部追蹤技術(shù),它能更精準(zhǔn)地匹配面部表情,讓用戶在分享照片時(shí)得到更多的樂趣。當(dāng)然類似的功能還可以在更多的生活場(chǎng)景中得到應(yīng)用,比如在監(jiān)控中對(duì)運(yùn)動(dòng)人臉的識(shí)別,通過人臉識(shí)別技術(shù)來快速找到特定人物等。endprint