一項(xiàng)7月2日發(fā)表于《自然》的研究報道了一款創(chuàng)新的人工智能(AI)系統(tǒng)——Centaur。它可以預(yù)測人們在各種情況下作出的決定,并且通常優(yōu)于心理學(xué)經(jīng)典理論作出的推測。
不同于谷歌DeepMind的AlphaGo等只能預(yù)測一個人就單一任務(wù)如何作出選擇的AI系統(tǒng),Centaur可以模擬人類在一系列任務(wù)中的行為,包括賭博、玩記憶游戲和解決問題等。在測試過程中,Centaur甚至能預(yù)測人們在未接受過訓(xùn)練的任務(wù)中的選擇。創(chuàng)建該系統(tǒng)的團(tuán)隊認(rèn)為,有一天它可能會成為認(rèn)知科學(xué)領(lǐng)域有價值的工具。
“你基本可以在電子設(shè)備上運(yùn)行實(shí)驗(yàn),而無須真正的人類參與者?!痹撗芯亢现?、德國慕尼黑亥姆霍茲人類中心AI研究所的認(rèn)知科學(xué)家Marcel Binz說,當(dāng)傳統(tǒng)研究速度太慢,或者很難招募到兒童或患有精神病的實(shí)驗(yàn)參與者時,這個AI工具可能很有用。
長期以來,科學(xué)家一直努力使用特定任務(wù)模型模擬人類的廣泛行為,但這些工具很難推廣到大量任務(wù)中去。Binz和同事希望突破這一局限性。他們花了5天時間,利用來自160個心理學(xué)實(shí)驗(yàn)的大量數(shù)據(jù)集,對美國Meta公司研發(fā)的大語言模型(LLM)——LLaMA進(jìn)行了微調(diào)。在這些心理學(xué)實(shí)驗(yàn)中,有6萬人在各種任務(wù)中作出了超過1000萬個選擇。最終,研究人員研發(fā)出Centaur。
研究人員測試了Centaur對未包含在訓(xùn)練數(shù)據(jù)集中的參與者的行為預(yù)測能力。結(jié)果顯示,在32項(xiàng)任務(wù)中,除一項(xiàng)外,Centaur在預(yù)測參與者將作出的選擇方面都優(yōu)于LLaMA和其他14個認(rèn)知與統(tǒng)計模型。唯一例外的是要參與者判斷句子在語法上是否正確的任務(wù)。
在對接受訓(xùn)練的任務(wù)進(jìn)行更改后,Centaur的表現(xiàn)依然良好,甚至在與以往訓(xùn)練任務(wù)都不同的任務(wù)中,如邏輯推理,它也表現(xiàn)不錯。