倪妮
1992年,艾爾伯特大學(xué)研發(fā)的跳棋程序Chinook挑戰(zhàn)跳棋高手馬里恩·廷斯利(MarionTinsley)失敗,此后長(zhǎng)達(dá)30年的時(shí)間里,人類一直執(zhí)著于在各類游戲中探索人工智能(AI)技術(shù)所能達(dá)到的能力極致。但是最近,業(yè)界對(duì)AI在游戲中打敗人類已經(jīng)越來越無所謂了。
像去年大熱的科幻電影《失控玩家》里的非玩家角色(NPC)主角“蓋”那樣,逐漸擁有自主意識(shí),甚至讓人誤以為其背后就是真人玩家,似乎開始成為AI技術(shù)在游戲中的主要應(yīng)用方向。
AI應(yīng)用在游戲中的歷史最早可以追溯至著名的“圖靈測(cè)試”。1950年艾倫·圖靈(AlanTuring)在“模仿游戲”中引入計(jì)算機(jī)以檢測(cè)機(jī)器是否可以像人一樣思考。在這個(gè)測(cè)試中,玩家A是一臺(tái)計(jì)算機(jī),玩家B和玩家C都是人類,游戲中,玩家C需要與其他兩個(gè)玩家隔離,并找出哪位是機(jī)器。圖靈提出,如果玩家C無法準(zhǔn)確判斷誰是機(jī)器,那么計(jì)算機(jī)就通過了測(cè)試,并被認(rèn)為是智能的—迄今為止,還沒有任何計(jì)算機(jī)真正通過圖靈測(cè)試,也就是說,人類仍能夠較輕易地分辨出真人和機(jī) 器。
而相比“偽裝”人類,戰(zhàn)勝人類似乎要簡(jiǎn)單得多。比如經(jīng)過3年的“學(xué)習(xí)”,Chinook在與馬里恩的對(duì)決中已經(jīng)能打出6局平手,并最終取得勝利;到了2007年,Chinook已經(jīng)完全破解西洋跳棋游戲,這意味著人類永遠(yuǎn)無法在與Chinook的對(duì)局中取勝。而IBM的Deep Blue、DeepMind的AlphaGo、OpenAI的OpenAI Five也先后在國(guó)際象棋、圍棋、《星際爭(zhēng)霸Ⅱ》中打敗了人類世界冠軍。
就在幾年前,“打敗人類”還是AI在游戲行業(yè)里最被認(rèn)可的價(jià)值,但是漸漸地,人們發(fā)現(xiàn),讓AI在游戲中參賽獲勝,再讓它成為職業(yè)選手的陪練,其實(shí)并不能帶來太多價(jià)值。與其展現(xiàn)“AI有多強(qiáng)”,不如將更多精力放在思考如何提高大多數(shù)玩家的體驗(yàn)上,讓它們的行為舉止更接近人,成為“擬人化的 AI”。
已經(jīng)有一些游戲和技術(shù)公司做出嘗試。成立于2019年的AI游戲公司超參數(shù),其代表產(chǎn)品就是AI玩家參與的《輪到你了》在線推理游戲。2020年春節(jié),騰訊也在手游《穿越火線-槍戰(zhàn)王者》中推出了包含擬人化AI玩家在內(nèi)的新劇情玩法“電競(jìng)傳奇”。去年,商湯科技開源了可以幫助開發(fā)者訓(xùn)練高智能水平游戲AI的訓(xùn)練平臺(tái)DI-engine,降低游戲公司訓(xùn)練擬人化AI的門檻。
對(duì)于這種擬人化AI如何提升真人玩家的體驗(yàn),啟元世界創(chuàng)始人兼CEO袁泉對(duì)《第一財(cái)經(jīng)》雜志形容它“有輸有贏,輸?shù)闷痢?。這家公司為包括游戲在內(nèi)的眾多領(lǐng)域提供AI技術(shù)支持。
在競(jìng)技類游戲中,有一種概念叫“溫暖局”:如果人類玩家在游戲中連續(xù)戰(zhàn)敗多次,通常這時(shí)會(huì)出現(xiàn)系統(tǒng)設(shè)置的角色來“送人頭”,讓玩家贏一次,不至于太過挫敗。只是在傳統(tǒng)游戲的設(shè)定中,這些系統(tǒng)角色往往一動(dòng)不動(dòng)或者對(duì)空放技能,“放水”行為太過明顯,如此,玩家可能非但不會(huì)感受到多少勝利的快樂,反而會(huì)覺得智商受到侮辱,游戲體驗(yàn)感變得更差了。
但擬人化A I不同,它們有自己的作戰(zhàn)風(fēng)格,會(huì)躲避,會(huì)攻擊,當(dāng)然,也會(huì)犯錯(cuò)?!爱?dāng)玩家無法區(qū)分角色背后是人還是AI,同時(shí)這種AI角色又能挖掘玩家的情緒價(jià)值時(shí),AI在游戲中應(yīng)用的這條路才算真的走通。”商湯科技智慧決策與游戲事業(yè)部總經(jīng)理兼高級(jí)研究總監(jiān)劉宇對(duì)《第一財(cái)經(jīng)》雜志 說。
目前在游戲中,擬人化AI主要有兩種應(yīng)用場(chǎng)景,一種是可以對(duì)戰(zhàn)也可以協(xié)作的AI玩家,另一種則是可以對(duì)話從而產(chǎn)生非腳本劇情的AI角色。其中,AI玩家更多地出現(xiàn)在第一人稱射擊游戲(FPS)、多人在線戰(zhàn)斗競(jìng)技游戲(MOBA)、策略類游戲(SLG)等游戲類型中;可以自主對(duì)話的AI角色則多見于開放世界游戲。因?yàn)锳I游戲智能體以得分為目標(biāo)最容易定義,即以“贏”為最終目的,所以相較于劇情類游戲,競(jìng)技類的游戲普遍被認(rèn)為是當(dāng)前訓(xùn)練AI最理想的一種模 型。
競(jìng)技類游戲中的機(jī)器學(xué)習(xí)分為兩種情況。已經(jīng)上線一段時(shí)間、有一定玩家的“熱啟動(dòng)”游戲往往已有大規(guī)模的玩家數(shù)據(jù),AI可以先通過模仿學(xué)習(xí)(Imitation Learning)的方式,掌握一定的作戰(zhàn)風(fēng)格。比如在《王者榮耀》這類MOBA對(duì)戰(zhàn)中,有的AI玩家會(huì)躲在草叢埋伏偷襲,也有的AI玩家會(huì)正面進(jìn)攻。掌握一定風(fēng)格后,AI進(jìn)入強(qiáng)化學(xué)習(xí)(Reinforcement learning)階段,不同風(fēng)格的AI玩家通過互相對(duì)戰(zhàn)或自對(duì)弈的方式,探索不同于人類數(shù)據(jù)的新打法。隨后,AI玩家被投放至真實(shí)市場(chǎng),與人類玩家組隊(duì)、對(duì)戰(zhàn),并在此過程中不斷學(xué)習(xí)。
但對(duì)于還未上線、沒有用戶的“冷啟動(dòng)”游戲來說,訓(xùn)練一個(gè)擬人化的AI玩家非常艱難:沒有人類玩家數(shù)據(jù),模仿學(xué)習(xí)所需要的數(shù)據(jù)只能由程序員在傳統(tǒng)規(guī)則的基礎(chǔ)上編寫,人為生成數(shù)據(jù)。
此外,不同于2D平面,在3D射擊游戲中訓(xùn)練擬人化AI玩家的難度更大,AI的每個(gè)視角都是另一個(gè)環(huán)境狀態(tài),這與自動(dòng)駕駛技術(shù)的訓(xùn)練相似。
據(jù)啟元世界的一位產(chǎn)品經(jīng)理介紹,3D射擊游戲中AI玩家訓(xùn)練的難處主要是三個(gè)方面。首先是輸入信息量大,AI玩家需要撿裝備、找掩體,這要求AI玩家根據(jù)輸入的環(huán)境數(shù)據(jù)感知地形、判斷周邊的物體;其次是動(dòng)作空間復(fù)雜,在3D環(huán)境中,不同于2D下棋游戲中前后左右的四個(gè)方向移動(dòng),AI玩家可以有360度的移動(dòng)和瞄準(zhǔn)狀態(tài);最后是決策時(shí)間短,擬人化的AI玩家應(yīng)該不必遵循固定的動(dòng)作規(guī)則,比如在同一時(shí)間,AI玩家可以選擇“走”“打”“躲”等不同的動(dòng)作,需要應(yīng)對(duì)不同的戰(zhàn)況,且需要在非常短的時(shí)間中作出選擇,這并不是傳統(tǒng)行為樹能夠完全覆蓋的領(lǐng)域。
以計(jì)算機(jī)程序的反應(yīng)速度和精度來看,在3D射擊游戲中,讓AI做到槍槍爆頭并不是什么難事,可一旦要求“擬人化”,就是提出了新的要求?!皵M人化的AI 玩家需要在游戲機(jī)制上與真實(shí)玩家基本相同,不能在規(guī)則上讓AI玩家作弊,比如它也應(yīng)該看不清掩體對(duì)面是什么,它也需要學(xué)習(xí)人類玩家的那種‘探頭然后立刻縮回去的動(dòng)作,想要更擬人,主要是靠大規(guī)模深度強(qiáng)化學(xué)習(xí),提升AI的認(rèn)知和決策能力,并通過端到端訓(xùn)練系統(tǒng)來不斷優(yōu)化?!眴⒃澜绲漠a(chǎn)品經(jīng)理告訴《第一財(cái)經(jīng)》雜志。為了讓AI玩家能夠和不同等級(jí)的人類玩家對(duì)決,團(tuán)隊(duì)需要訓(xùn)練出足夠強(qiáng)大且擬人的AI玩 家,才能匹配不同分段玩家的需求。
而在商湯科技的劉宇看來,AI領(lǐng)域的每一座“珠峰”其實(shí)都是從游戲中產(chǎn)生的。很長(zhǎng)的時(shí)間里,游戲都是驗(yàn)證AI技術(shù)能力和技術(shù)發(fā)展最完美的試驗(yàn)田。游戲是一個(gè)相對(duì)擬真的環(huán)境,尤其在3D游戲中,可以呈現(xiàn)出有樓、有人、有車的微縮版現(xiàn)實(shí)社會(huì);與此同時(shí),游戲中的測(cè)試相對(duì)現(xiàn)實(shí)社會(huì)是零成本的,比如如今許多已落地的自動(dòng)駕駛技術(shù),最初就是在游戲相關(guān)場(chǎng)景中試驗(yàn)的:游戲中可以模擬突然竄出的行人、強(qiáng)行加塞的車輛,并設(shè)置風(fēng)霜雨雪等復(fù)雜天氣情況,從而測(cè)試自動(dòng)駕駛汽車應(yīng)對(duì)突發(fā)情況的決策和控制能力。也就是說,擬人化AI的價(jià)值不僅僅體現(xiàn)在游戲 中。
不過劉宇認(rèn)為,目前AI對(duì)于游戲行業(yè)的貢獻(xiàn)還處于非常早期的階段。如今應(yīng)用在游戲中的AI技術(shù),其實(shí)和20年前電腦游戲中針對(duì)難度等級(jí)分配不同對(duì)戰(zhàn)模式的程序沒有什么不同。雖然基于強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí),擬人化讓AI相比傳統(tǒng)時(shí)期具備了更多樣的性格與表現(xiàn)方式,但現(xiàn)有成果仍只停留在游戲公司和技術(shù)公司合力做出幾個(gè)AI機(jī)器人和人類玩家協(xié)作、對(duì)戰(zhàn),AI的應(yīng)用并未滲透到游戲的策劃、運(yùn)營(yíng)等各個(gè)階段。像《失控玩家》中的“蓋”那樣能讓游戲充滿無限可能性的AI玩家,還僅僅停留在設(shè)想中。
像《失控玩家》中的“蓋”那樣能讓游戲充滿無限可能性的AI玩家,僅停留在設(shè)想中。
監(jiān)管趨嚴(yán)也不同程度地限制了游戲行業(yè)在AI領(lǐng)域的探索。一方面新客獲取艱難、增量萎縮,另一方面在游戲精品化成為大趨勢(shì)的背景下,企業(yè)的研發(fā)成本、運(yùn)營(yíng)推廣成本又在不斷提升。因此,在劉宇的觀察中,大多數(shù)游戲公司在“AI+游戲”的探索中趨于保守,對(duì)于中小廠而言,開發(fā)AI訓(xùn)練系統(tǒng)更是無法承受。
“什么時(shí)候搜索‘AI+游戲,出現(xiàn)的主題從‘誰誰誰又在什么游戲中擊敗人類玩家,變成了AI技術(shù)已經(jīng)完全成為了游戲機(jī)制的一部分,這可能才是AI在游戲應(yīng)用中的終極形態(tài)?!眲⒂钫f。