風(fēng)池
自從AI出現(xiàn)后,在很多競(jìng)技類游戲中,人類都敗給了AI,最著名的就是1997年“深藍(lán)”擊敗國際象棋大師卡斯帕羅夫事件。對(duì)于AI擊敗人類,有些人表示不服,認(rèn)為AI之所以能擊敗人類,是它掌握了更多的信息,能根據(jù)算法預(yù)測(cè)出人類的“套路”,如果在隨機(jī)游戲中,比如“石頭剪刀布”這種沒有規(guī)律的游戲,AI不一定贏得過人類。事實(shí)真的是這樣嗎?
在人們的一般認(rèn)知里,“石頭—剪刀—布”三種出法隨機(jī)出現(xiàn),相互克制。每次出手只會(huì)有三種結(jié)果,即輸、贏和平局,每次玩家獲勝的概率都是三分之一。這種游戲看起來很公平,而且充滿隨機(jī)性,所以在生活中,當(dāng)遇到問題無法解決時(shí),人們便非常樂于通過這種小游戲來做選擇。但是,這種游戲真的是隨機(jī)的嗎?答案是否定的。
浙江大學(xué)何賽靈教授的研究團(tuán)隊(duì)開發(fā)了一個(gè)基于馬爾可夫鏈的AI模型,專門用來玩“石頭剪刀布”游戲。游戲的規(guī)則是:贏了加2分,平局加1分,輸了不得分。為了確保人類玩家能盡可能地按照自己的想法出拳,杜絕亂選或者放水,游戲設(shè)置了金錢獎(jiǎng)勵(lì),總分越高,得到的獎(jiǎng)勵(lì)越多。但是,在與52個(gè)人類玩家分別大戰(zhàn)300回合之后,AI擊敗了95%的玩家。在最懸殊的一場(chǎng)較量中,AI獲得了198次勝利,55次平手,僅輸了47次。實(shí)驗(yàn)總計(jì)進(jìn)行了15600次,最終結(jié)果表明,在這個(gè)游戲中,AI大概率擊敗了人類玩家。如果“石頭剪刀布”游戲真的是隨機(jī)的,面對(duì)如此大的樣本,AI根本不可能占有優(yōu)勢(shì)。
這里面有什么玄機(jī)嗎?確實(shí)有。從本質(zhì)上來看,“石頭剪刀布”屬于博弈問題,其背后蘊(yùn)藏著經(jīng)典的納什均衡,而每個(gè)個(gè)體的習(xí)慣、認(rèn)知和策略都會(huì)影響實(shí)際勝率。比如你和對(duì)手很熟悉,那么你可能知道他(她)經(jīng)常出布,因此可以多出剪刀來克制。科研團(tuán)隊(duì)提出的AI模型就是利用了類似的原理,證明了“石頭剪刀布”真的存在針對(duì)不同個(gè)體的長期制勝策略,可以有效提高勝率。
這套AI模型基于n-階馬爾可夫鏈設(shè)計(jì),擁有記憶性,能夠向前追溯最多n個(gè)歷史狀態(tài)并加以利用。為了增加AI的勝率,研究團(tuán)隊(duì)還針對(duì)人類玩家的不同性格和策略發(fā)明了一套Multi-AI模型。這套模型含有多個(gè)錦囊,如果人類玩家連續(xù)勝利,就會(huì)促使Multi-AI轉(zhuǎn)向選擇其他AI模型的更優(yōu)解。如果人類玩家連續(xù)失敗,大概率會(huì)轉(zhuǎn)換策略,或者打破之前的出拳規(guī)律,這時(shí)Multi-AI也可以隨之調(diào)整。所以,人類玩家最終大概率還是會(huì)輸。
由此可見,玩“石頭剪刀布”,人類確實(shí)玩不過AI,因?yàn)锳I足夠聰明,它總能根據(jù)既往數(shù)據(jù)和當(dāng)前對(duì)手的特點(diǎn),找到人類玩家的漏洞,進(jìn)而取勝。但是,你認(rèn)為AI僅僅用于“石頭剪刀布”嗎?其實(shí)它的用處太多了,它可以是一個(gè)很厲害的循環(huán)制衡模型分析師,未來有望拓展到其他博弈場(chǎng)景,比如預(yù)測(cè)競(jìng)爭對(duì)手的下一步舉動(dòng)、規(guī)劃更有效的競(jìng)選策略,或者制訂更有利的定價(jià)方案等。