?
□文/毛文濤
說到未來,大家腦海中都是科幻片,天上飛的地上跑的,到處都是人工智能,顯示無處不在,交互無所不能。在那個完美得無欲無求的世界里,好像除了擔(dān)心一下機器人起義,或者外星人入侵,也沒什么別的好擔(dān)心的了。
但當(dāng)我們今天在看VR/AR時,卻充滿了悲觀和疑惑。頭盔太重,計算資源不足,充電2小時只能維持VR體驗五分鐘。我們所想象的未來,到底怎么實現(xiàn)?這條路的確長,我們都會走彎路,但方向正確很重要。
毛文濤 uSens中國研發(fā)中心技術(shù)總監(jiān)、首席研究員,計算機視覺及機器學(xué)習(xí)專家
初看“表達(dá)”和“理解”這兩個詞很抽象,回顧一下人類發(fā)展史,幾千年來,人們在做什么?本質(zhì)上就是在摸索建立人與自然環(huán)境之間的關(guān)系,并逐漸形成了一種自然的溝通方式。比如,大自然呈現(xiàn)的一切,刮風(fēng)、下雨、霧霾都叫做表達(dá),人去了解自然世界,會多穿衣、撐雨傘、戴口罩這就叫做理解,能與自然溝通。而這已經(jīng)無法滿足人的需求與欲望,人們在了解和改造客觀世界的同時,又創(chuàng)造了一個龐大的虛擬世界,來釋放我們的想象力。于是,我們需要尋找一個 “人-客觀世界-虛擬世界”三者間的表達(dá)和理解的方式。舉例來說,人使用鍵盤鼠標(biāo)給電腦命令是一種表達(dá),而電腦找到命令對應(yīng)的顯示內(nèi)容是虛擬世界對人類的理解;再或者物聯(lián)網(wǎng),它就是使用各種傳感器來實現(xiàn)虛擬世界和客觀世界的表達(dá)和理解。
自然的表達(dá)
我們可以從身邊的一些東西說起,比如從一開始的打印機到現(xiàn)在每人一部的智能手機,我們都在嘗試著更直接、更自然、更舒服的表達(dá)方式。方向鍵能實現(xiàn)鼠標(biāo)的功能,鼠標(biāo)也能實現(xiàn)觸摸屏的功能,那為什么我們還需要這樣不斷進(jìn)步呢?那就是所謂的自然地表達(dá),人類一直不停追求自然、舒服的使用方式。
那么哪些表達(dá)式是自然的呢?筆者認(rèn)為它和我們的成長有關(guān),人類一直進(jìn)化到今天,很多常用的方式已經(jīng)在我們心中不可更改的成為一種本能反應(yīng)。比如說我們習(xí)慣用身體移動來表達(dá)位置信息,用頭部旋轉(zhuǎn)來選擇視野范圍,用說話、面部表情來進(jìn)行交流溝通,用動作手勢去直接進(jìn)行交互等等。
智能的理解
對于計算機來說,對人類的理解也不再只是明白那幾個命令行的意思,它能利用現(xiàn)在的高科技去理解我們這些自然的表達(dá)。現(xiàn)在計算機具備超越人的人臉識別技術(shù)、實時語音識別技術(shù)等,而這些都是計算機對人類更自然更高階的表達(dá)方式的一種理解。
在VR與AR中如何實現(xiàn)自然的表達(dá)和智能的理解是我們一直探索的問題。重新打造出“自然交互”的感受,需要考慮多維度的問題。
光有旋轉(zhuǎn)還不夠,位移檢測很必要
我們可以回憶一下大家玩CS的經(jīng)歷。這個游戲是第一人稱的射擊游戲,它的一大突出特點就是沉浸感很強,因為是第一人稱。所以玩家玩得格外投入,每過一個轉(zhuǎn)角,玩家都可能下意識地把身體往邊上動一動,好像就可以看到墻背后的那個人一樣;如果前面有一堵矮墻,玩家就會忍不住抬起脖子。這是非常有意思的行為,因為在緊張的時候,在沉浸感很強的時候,玩家使用的是“人的本能”,而不是鼠標(biāo)鍵盤,這就是人的自然表達(dá)。
所以當(dāng)Oculus推出的時候很受大家追捧,因為它能讀懂我們的自然表達(dá),它知道我們在轉(zhuǎn)動頭部的時候,是希望看到不同方位的內(nèi)容,這就是它最吸引人的地方。但是當(dāng)我們對VR開始進(jìn)一步研究的時候,我們發(fā)現(xiàn)這還不夠。不光是旋轉(zhuǎn)我們還需要位移,所以不管是外接了一個攝像頭,或者是用雷達(dá)定位,或者用SLAM對場景進(jìn)行建模定位等基于視覺的一些方式,我們都希望VR能更進(jìn)一步的理解人類移動這個更自然的表達(dá)。這雖然只是一個很簡單的表達(dá),卻需要我們做大量的研究,不過這小小的進(jìn)步也會讓我們有飛躍般的體驗。人用最直觀的身體來代替鼠標(biāo)和方向鍵,我們才會有VR主題公園中各種炫酷的體驗,我們可以是真的戴上裝備就在這個世界跑了。
露個腦袋去窺視 身體雙手去哪了
再進(jìn)一步來說,例如我們跑到敵人背后,想揮舞小刀的時候,該怎么辦?我們就希望電腦能明白我們的動作,此時我們做什么就是另外一個自然的表達(dá),不然就會像現(xiàn)在大多數(shù)的VR體驗一樣,感覺自己是透過一個小洞,一直只能窺視著那個虛擬世界,我們感覺不到交互,只感覺我們像漂浮在空中,一直在看那個世界,只有真正理解了我們的動作,我們才能真正地和這個虛擬世界交互。
所以計算機需要理解我們的動作,而人的動作有兩種,包括身體的和雙手的。說到身體的人體姿態(tài)估計,微軟的確算是一個很好的例子, xbox kinect的意義在于把很多家庭帶入到用身體打游戲的時代,這雖然只是一個小小的改進(jìn),它只是理解了玩家身體的一個表達(dá),卻讓我們的體驗截然不同,把我們帶到一個更高階的體驗?zāi)J健K晕覀兙拖M谡f身體表達(dá)的時候,我們能夠更多地被理解。身體的表達(dá)除了身體的移動以外,還有一種就是手勢。其實人大多數(shù)跟外界的交互都是用手,對手勢的理解,才是我們能進(jìn)一步將AR/VR達(dá)到下一個體驗階段的目標(biāo),現(xiàn)在包括uSens在內(nèi)的各大廠商都在努力做這件事情,就是希望把大家?guī)У较乱粋€階段的虛擬世界去體驗。
虛擬現(xiàn)實+人工智能=真正的未來
當(dāng)然,剛才說過我們不光需要追求人和虛擬世界之間的相互溝通,更多的是建立人、客觀世界和虛擬世界這三者之間的表達(dá)和理解。在這個過程當(dāng)中,我們的電腦需要感知周邊的客觀世界,比如沙發(fā)、茶幾、墻等等,他們其實就是一種環(huán)境的表達(dá)。我們看似很簡單的東西,其實需要大量的研究才能去理解它是什么。這個時候我們就需要對這些場景進(jìn)行建模,讓我們知道周邊是什么樣的。例如在VR中,我們也不希望在玩游戲的時候撞到家里的各種東西,或者例如在AR中,假如有一個虛擬的茶杯,我們的認(rèn)知是它應(yīng)該放在面前的桌上,而不是漂浮在空中。
這還不夠,我們未來的游戲很可能會加入很多的人工智能技術(shù),想象一下,如果我們能識別我們身邊的物體,隨時動態(tài)地將這些物體添加到我們的游戲或者應(yīng)用中,變成虛擬世界中的一個道具,這樣對游戲或者應(yīng)用的設(shè)計來說,提出了更高的挑戰(zhàn),將會有更大的想象空間。這不單單是在虛擬世界,這是在更高一個層次去重新設(shè)計我們的用戶體驗,想想還是挺讓人激動的。
我們再來想想更讓人激動的事兒?,F(xiàn)在語音交互已經(jīng)不是一個新鮮事了,除了語音的交互,電腦跟人類的溝通,了解你的表情等,當(dāng)我們加入更多的人工智能到VR里面的時候,它會是個什么樣的表達(dá)呢?舉個簡單的例子,我們現(xiàn)在游戲里的NPC,就像一個復(fù)讀機一樣,每次對你說的只是“ 前面的村莊著火了,去拿10瓶水”,你再點一下,還是重復(fù)說“前面的村莊著火了,去拿10瓶水”,這樣就是個純粹的擺設(shè)。如果在VR里面,我們不能被這樣傳統(tǒng)的NPC打破沉浸感。
那我們?nèi)绾稳ピO(shè)計VR里面的人工智能呢?首先我們要更高層次的理解。例如以后的NPC將是這樣的,你沒看他的時候,他說:“嘿,看看我?!盢PC不光了解玩家頭的狀態(tài),還能了解玩家的游戲歷史,包括玩家是如何去玩這個游戲,喜歡什么樣的道具,喜歡什么樣的任務(wù)等等,不是虛擬的兩個坐玩家旁邊的毫無意義的人,而它可以和玩家聊天,陪玩家一起玩游戲等,VR和AR提供了個更大的平臺,我們把更多的人工智能技術(shù)融入其中,這就是VR中的人工智能。
至今,我們?nèi)詿o法讓未來到來。筆者認(rèn)為,這是因為技術(shù)層面上有一些門檻還沒有跨過去,其中主要有兩個問題,一是移動,二是交互。
先來看移動VR的潛力。資本市場一向都是產(chǎn)業(yè)發(fā)展的風(fēng)向標(biāo)和催化劑。繼 2015 年 VR領(lǐng)域投資大熱之后,2016年這種態(tài)勢仍舊在延續(xù)。但是區(qū)別在于,一線的投資機構(gòu)在選擇投資的公司上,顯得更加謹(jǐn)慎, 投資的方向也出現(xiàn)了新的趨勢。舊金山的一家專注于投資虛擬現(xiàn)實和增強現(xiàn)實的風(fēng)投公司 Presence Capital的創(chuàng)始人Amitt Mahajan 最近發(fā)表了一篇文章,認(rèn)為“移動VR將會是虛擬現(xiàn)實中應(yīng)用最廣的一種形式”。硅谷創(chuàng)業(yè)公司uSens凌感近期將完成由復(fù)星(昆仲)領(lǐng)投、達(dá)晨創(chuàng)投等多家VC跟投的數(shù)千萬美元A輪融資,投資方全部為一線主流投資機構(gòu),額度巨大。先不談技術(shù),從資本推動產(chǎn)業(yè)的角度看,移動VR的潛力開始初步顯現(xiàn),而且后續(xù)爆發(fā)力更強,就像智能手機以及移動互聯(lián)網(wǎng)的發(fā)展一樣。
再來看VR和AR場景內(nèi)的交互。更自然、更便捷的雙手操作和表達(dá)無疑是人與自然世界最終的交互方式,它將改變?nèi)嗽谛碌幕旌鲜澜纾ㄌ摂M世界和現(xiàn)實世界)的認(rèn)知。而當(dāng)成熟易用的手勢跟蹤成為VR/AR標(biāo)配的時候,VR/ AR才會成為一個整體被普通用戶所接受。
復(fù)雜非直接的交互方式(鼠標(biāo),鍵盤)會拉開不同時代的人之間的差距,而自然直接的交互方式(觸摸屏上手的觸碰,放縮等)則會拉近時代間的距離。因此當(dāng)完善的手勢作為產(chǎn)品推向大眾市場的時候,它不需要用戶去學(xué)習(xí),將交互變成“無形”,并且它將VR所具備的“真實體驗”不受破壞的甚至加倍的傳達(dá)給用戶,這將會讓用戶能更快地接受和使用。而這也成為了促進(jìn)VR產(chǎn)業(yè)化、規(guī)?;钠鯔C。
不僅如此,AR技術(shù)的成熟,將和VR進(jìn)行融合。VR的世界是給人類一個完整的虛擬世界,而AR則是更進(jìn)一步的將真實世界和虛擬世界完美的融合,搭建一個人、物理世界和虛擬世界三位一體的生存空間。所以AR/VR帶來的不僅是手機對人類的意義,它甚至?xí)砣缃煌üぞ甙銊潟r代的意義。而另一方面,由于VR/ AR需要從計算能力、傳輸能力、集成化能力、傳感器能力到人工智能全方面的產(chǎn)業(yè)鏈支持,所以會極大地推動各產(chǎn)業(yè)的發(fā)展:芯片運算能力的大幅度提升,高度的集成化微型化,5G、6G網(wǎng)絡(luò)的推廣,物聯(lián)網(wǎng),計算機視覺,人工智能,大數(shù)據(jù)等領(lǐng)域的飛速發(fā)展。由此產(chǎn)生的規(guī)模效應(yīng)會帶給目前各領(lǐng)域一個快速發(fā)展的時機。
我們一直希望能夠?qū)崿F(xiàn)客觀世界、虛擬世界和人三者融為一體,我們把這種體驗稱為“SuperReality(超級現(xiàn)實)”,打通這三者溝通壁壘,建構(gòu)一個能夠互相之間自然的表達(dá)和智能的理解的平臺。我們只是在這個方向上邁出了一小步,正在嘗試和摸索中。
uSens凌感的愿景是基于現(xiàn)實,超越現(xiàn)實,通過將科技與藝術(shù)相結(jié)合,成為一個VR/AR界里面的印象派。目前,uSens凌感研發(fā)了融合AR+VR+六自由度頭部追蹤+26自由度手勢追蹤的移動端頭顯設(shè)備,這也是uSens凌感2016年的產(chǎn)品方向。這條路很長,uSens凌感作為先期實踐者將與開發(fā)者一同努力,去構(gòu)建“人、客觀世界、虛擬世界”三者間自然的交互平臺。
首先,在VR/AR中的自由切換,將使我們不再局限于虛擬內(nèi)容,而是可以和身邊的物體進(jìn)行交互,來開發(fā)游戲或者各種應(yīng)用。uSens凌感看到了VR /AR之間的切換的確給人帶來很多不同的體驗。
其次, 就是三維自然手勢交互,它包括:最基礎(chǔ)的第一層次——靜態(tài)手勢,它能實現(xiàn)的是一些很簡單的動作手勢,但體驗不夠自然。假如你要拿起一個蘋果,并不是在蘋果旁邊擺一個抓取的姿勢,說:“嘿,我已經(jīng)放了2秒了,你該上來了。”這是不科學(xué)的,因為這不是人類的正常交互,而應(yīng)從你去觸碰到蘋果的那一瞬間,蘋果在慢慢地被你拿起。第二層是動態(tài)手勢的識別,它不光支持靜態(tài)手勢的動作,它還可能會有一個時間序列來進(jìn)行手勢識別,比如說手的揮動、手的點擊等。例如,uSens凌感開發(fā)的Pi Ui可以通過手勢在主界面中進(jìn)行菜單的滑動、翻頁、選擇等。這種算法已經(jīng)能給人相當(dāng)好的感受,讓人覺得很自然,感到自己已經(jīng)能用手去操作了。
但是這還不夠,最后一個層次就是自然手勢跟蹤,這就是不再拘泥于某一個靜態(tài)手勢,或者某一個短時間的動態(tài)手勢了。它是從頭到尾時刻都在跟蹤用戶的各種復(fù)雜動作,提取手的所有關(guān)節(jié)點,并且持續(xù)理解這些動作的含義,每一時刻都知道用戶在做什么,和人的自然交互是一樣的。
為什么一定需要這樣的手勢呢?如果只是跟蹤了手的位置,隨后按個按鈕就可以完成了,為什么uSens凌感的研究人員需要大費周章的去制作那么多的關(guān)節(jié)點呢?我們可以先來分析下人在做動作的時候如何感受“真實”。
大家閉上眼睛,想象面前有一個蘋果,然后假想自己去抓起這個蘋果,讀者是不是能感受到自己已經(jīng)拿起了蘋果呢?大家會覺得很神奇,的確我們在用手去抓蘋果的時候,我們仿佛真的感受到了蘋果的存在。所以說人感受動作的真實主要是分為兩部分:動作本身和外界反饋。而這個動作本身需要符合我們?nèi)说慕?jīng)驗知識和認(rèn)知。
我們再做一個實驗,還是閉上眼睛,想象面前有一個蘋果,但是這次只允許握著拳,不允許張開手,然后去拿起蘋果,這時候讀者能感受到那個蘋果隨著你的拳頭一起起來嗎?很難吧,這就是因為它違背了我們?nèi)说恼J(rèn)知,違背我們長期以來的本能反應(yīng)。所以我們一定要做符合認(rèn)知的動作,這是感受到真實的第一步,然后基于此,再加上聲音的反饋、交互的反饋,比如“蘋果起來了”,還有力的反饋等,人就能真正地體驗到真實了。這就是為什么我們要花精力去做自然手勢的跟蹤。
但是可能還有一個疑問,這有必要嗎?我們現(xiàn)在的游戲沒有它不是好好的嗎?筆者認(rèn)為不是手勢沒用,不是我們不需要,而是在自然手勢交互方面缺乏太多的想象力,沒有真正的技術(shù)去支持。
想象一下,游戲中添加了很多豐富的動作,將能夠提升很多游戲的交互維度帶來新的體驗。舉個例子,有款很有名的VR游戲叫“猜拳島”,玩家可以在其中玩“石頭、剪子、布”來進(jìn)行攻擊,這就打破了簡單的點擊移動操作的框架。
再比如,在解謎游戲中,加入了自然手勢,我們可以輕輕觸碰、抓取、翻開道具,甚至我們可以手?jǐn)Q螺絲刀,可以任意在道具中翻箱倒柜,這將給玩家?guī)砩羁腆w驗。筆者從小就喜歡《七龍珠》這部漫畫,在第一次接觸VR的時候就幻想著有一天筆者能親手發(fā)出一個沖擊波試試,通過不同手勢來控制能量的大小,這將非常炫酷。
所以自然的手勢跟蹤是真正的AR/VR所必須的,我們需要能準(zhǔn)確快速的識別復(fù)雜動作,并且作為SDK提供給開發(fā)者。目前uSens凌感正在不斷優(yōu)化,已經(jīng)可以實現(xiàn)很多復(fù)雜動作的識別。