王繼勝 喬俊福
摘要:為了推動生成式人工智能技術在游戲非玩家角色對話交互情境中的智能化應用,文章提出一種基于生成式人工智能模型、知識圖譜及提示工程技術的檢索增強生成策略。該策略依托于LangChain框架,首先采用基于LoRA的微調技術來提升生成式人工智能模型的輸出精確度,繼而利用游戲相關的數(shù)據(jù)資源構建知識圖譜作為輔助的外部知識庫,旨在引導和規(guī)范模型的內容生成。隨后,通過精心設計的提示工程技術來塑造非玩家角色的獨特個性特征。最后,設計一套涵蓋主觀和客觀兩方面的評價指標體系對整個方案的效果進行了綜合性評估,從而驗證了該策略的有效性及可行性。
關鍵詞:智能NPC;生成式人工智能;知識圖譜;檢索增強生成;對話系統(tǒng)
中圖分類號:TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2024)09-0022-05
開放科學(資源服務)標識碼(OSID)
0 引言
生成式人工智能(Generative Artificial Intelligence, GenAI) ,作為一種專注于創(chuàng)造新內容的技術,基于大規(guī)模文本、音頻或圖像數(shù)據(jù)集進行機器學習,進而生成新穎內容。2022年11月,美國OpenAI公司推出的對話生成式預訓練語言模型ChatGPT引起了廣泛關注。作為生成式人工智能技術的杰出代表,ChatGPT具備出色的意圖理解力和語言組織技巧,能夠與用戶進行更為流暢自然的對話交流。ChatGPT在交互性能和創(chuàng)造性產出上的表現(xiàn),標志著基于“生成式模型”的人工智能技術日趨成熟。
游戲長久以來一直是人工智能研究的理想實驗平臺,訓練游戲AI的過程不斷推動著人工智能算法的進步和處理復雜問題能力的提升。非玩家角色(Non-Player Character,簡稱NPC) 作為游戲世界觀的具體承載者,對于增強玩家沉浸感至關重要。近十年間,在游戲玩法創(chuàng)新邊際效益遞減以及視覺體驗提升有限的背景下,NPC作為劇情推進的核心力量和玩家體驗的重要伙伴,其作用日益凸顯。例如,《巫師3》《荒野大鏢客2》以及《賽博朋克2077》等作品中,NPC展現(xiàn)了極高自由度,它們不僅是游戲世界的構成要素,更是劇情發(fā)展的關鍵環(huán)節(jié),為游戲敘事增加了深度與真實感。然而,這類作品背后實現(xiàn)高自由度NPC的機制仍然較為傳統(tǒng),往往依賴于團隊大量人力投入和編寫海量腳本。例如,《荒野大鏢客2》中包含了超過1 000個NPC角色,分布在6章100多個任務中,每個NPC均有專屬的編劇、美術設計師和配音演員參與創(chuàng)作,歷時近8年研發(fā),成本高達約5億美元。即便如此,調查顯示,仍有52%的玩家認為當前NPC對話過于重復,99%的玩家期待更為智能的NPC對話互動,更有81%的玩家愿意為此支付額外費用。由此,日益高漲的玩家期待與不斷攀升的開發(fā)成本之間的矛盾,在游戲NPC的設計上尤為突出。
鑒于此,本文提出了一種結合生成式AI模型、知識圖譜和提示工程的檢索增強生成方案,以實現(xiàn)在NPC對話交互場景中應用生成式AI技術。通過本方案的應用,游戲內NPC將能根據(jù)玩家對話做出決策響應、實時反饋玩家行為,并可能表現(xiàn)出一定的情感傾向。這樣的創(chuàng)新將使游戲世界更加逼真生動,互動性更強,每個NPC都能夠為深化游戲敘事層次和增強互動維度提供獨特且動態(tài)的貢獻,從而極大提升玩家的沉浸體驗。
1 相關研究
近年來,研究者廣泛研究了基于個性化角色信息的開放域對話生成技術,涉及檢索式和生成式兩種主要模型。檢索式方法通過搜索候選回復并計算其與當前對話上下文的匹配度以生成最佳回復;生成式方法則基于序列到序列(Seq2Seq) 模型架構,借助編碼器提取對話語境特征,再由解碼器生成回復。早期的生成式方法中,LI等人[1]嘗試利用隱式用戶嵌入向量捕獲聊天機器人的個性化特征,但這種方法僅關注了同一個人信息的不同表述一致性,隱向量建模的可解釋性較弱。與此相比,ZHENG等人[2]提出了利用顯式結構化配置信息來維持高度的角色一致性,但以鍵值對形式表示的個性化信息在實際應用中存在遷移難題,因為互聯(lián)網(wǎng)社交網(wǎng)站上的個性特征多以非結構化的自然語言文本形式展現(xiàn)。
后續(xù),ZHANG等人[3]通過人工眾包方式構建了名為PERSONA-CHAT的大規(guī)模基于非結構化角色信息的對話數(shù)據(jù)集,有力推動了基于個性化角色信息的復雜Seq2Seq模型的發(fā)展。隨后,SONG等研究者[4]提出了基于記憶網(wǎng)絡增強的PersonaCVAE模型,通過潛在變量捕捉有效內容回復的概率分布,從而生成多樣化且個性化的回復;MAJUMDER等研究者[5]利用故事數(shù)據(jù)集中與角色信息相關的虛構敘事內容來增強對話模型,提高了對話的吸引力;而SONG等學者[6]設計了一個基于Transformer的三階段生成-刪除-改寫模型,以修正生成內容,確保生成更具一致性個性特征的回復。隨著技術進步,大型預訓練語言模型逐漸成為個性化角色信息對話模型的基石。其中,WOLF及其團隊[7]通過遷移學習方法基于預訓練語言模型建立了個性化對話生成的基本框架;LIU等研究人員[8]運用強化學習顯式地模擬對話參與者之間對角色信息的認知能力,以生成更加個性化的對話內容;ZHANG等學者[9]提出了大型可調控對話模型DialoGPT,并融入最大互信息(MMI) 策略以解決乏味回復的問題;而SONG等合作者[10]基于BERT將個性化對話任務分解為回復生成和一致性理解兩個子任務,力求實現(xiàn)更高水準的對話質量。
現(xiàn)今,隨著AI技術的迅猛發(fā)展,公眾對游戲NPC的設計寄予了更高期望。利用生成式AI技術,模型能夠理解和生成自然語言,從而令NPC與玩家進行更為豐富多彩的互動交流。
2 應用方案設計
本文提出的設計方案整合了生成式AI模型、知識圖譜以及提示工程。選擇Zephyr-7b-beta作為生成式AI模型,Neo4j作為圖數(shù)據(jù)庫,并以LangChain作為整體框架,在自然語言轉化為Cypher查詢以及對話交互環(huán)節(jié)均應用了提示工程。具體方案細節(jié)如圖1所示。
2.1 生成式AI模型選型
本方案立足實用性考量,對一系列參數(shù)量介于6~14B的模型進行了調研,旨在篩選適宜作為實驗模型的選項。表1列舉了部分國內外已開源的相應參數(shù)規(guī)模的模型實例。
本文最終選定Zephyr-7b-beta作為本研究方案的實驗模型。Zephyr-7B是由HuggingFace H4團隊研發(fā)的開源模型,其基礎架構來源于被譽為“歐洲OpenAI”的Mistral AI公司所開發(fā)的開源大模型Mistral-7B[11]。在該模型系列中,Zephyr-7b-beta處于第二迭代位置,特別之處在于其采用了DPO[12]技術,以此優(yōu)化了多輪對話的功能特性。經過檢驗,該模型在MT-Bench和AlpacaEval基準測試中表現(xiàn)卓越,位居7B參數(shù)級別聊天模型的首位。
2.2 檢索增強生成
檢索增強生成(Retrieval-Augmented Generation, RAG) 是一種技術手段,通過利用超出訓練數(shù)據(jù)集范圍的知識庫資源,以優(yōu)化大型語言模型的輸出表現(xiàn),并據(jù)此生成高質量的響應內容。該方法在接收到輸入信息后,會在指定的數(shù)據(jù)源(如維基百科)中檢索一組密切相關的文檔。以下是RAG系統(tǒng)執(zhí)行任務的基本流程:
1) 查詢構造。將用戶輸入轉化為適應于知識圖譜檢索的Cypher查詢表達式。
2) 知識圖譜搜索。運用Neo4j等工具實施檢索增強技術,在此階段涉及諸如實體鏈接、路徑挖掘以及推理等多種技術手段,旨在揭示實體間及其關系的內在關聯(lián)。同時,這一過程會整合高效的語言模型以優(yōu)化檢索效能。
3) 事實篩選。借助實體鏈接與推理算法,依據(jù)輸入查詢及其上下文環(huán)境,精選并優(yōu)先考慮最為相關的關鍵事實。
4) 自然語言生成。這是檢索增強生成技術發(fā)揮關鍵作用的環(huán)節(jié)。其目標在于創(chuàng)作出既符合預期回應框架又具有人性化的文本內容。生成式模型在此過程中生成語法流暢的句子與段落,并同步融入知識圖譜中的關聯(lián)信息,確保答案的準確性和一致性。
5) 后期處理。生成的響應經由最后的精細校驗與潤色,以保證語法無誤、表述清晰且整體質量上乘。
檢索增強生成技術與知識圖譜的有機結合,在自然語言處理領域催生出顯著的協(xié)同效果。這種技術通過審慎地從外部資料和知識圖譜中選取相關信息,有效提升了大型語言模型產出的內容深度和細節(jié)豐富度。而另一方面,知識圖譜則以其對實體及其關系的結構化描述,為我們揭示潛在洞見、探尋復雜聯(lián)系提供了可能。
3 實驗與效果分析
3.1 實驗環(huán)境
本實驗環(huán)境配置如下:CPU,Intel(R) Xeon(R) Platinum 8369B CPU @ 2.90GHz;GPU,NVIDIA GeForce RTX 4090;Python版本,3.10.0;Cuda版本,12.1。
3.2 數(shù)據(jù)集與模型訓練
知識圖譜構建所使用的原始素材來源于游戲的官方小說和設定集,對此素材按照以下7種類別的知識范疇進行了系統(tǒng)抽取,累計提煉出5 826條知識條目。具體各類知識類型的分布情況詳如表2所示。
知識圖譜由以上數(shù)據(jù)通過GPT-4進行自動化構建,部分圖譜可視化如圖2所示。
本研究實驗選用的微調數(shù)據(jù)集源自上文提及的知識源,該數(shù)據(jù)集通過GPT-4模型轉換為相關問題及其對應的Cypher查詢語句,從而構成了10 000個NL2Cypher數(shù)據(jù)對。在這之中,6 000對數(shù)據(jù)被用于生成式模型的微調訓練階段,另外2 000對用于模型性能驗證,剩余2 000對則服務于模型的最終測試環(huán)節(jié)。微調數(shù)據(jù)集中部分實例展示如表3所示。
3.3 實驗結果與分析
為驗證本文所提出的方案在實際應用中的效果,實驗采用了未經微調的Zephyr-7b-beta+知識圖譜以及經過LoRA方法微調后的Zephyr-7b-beta+知識圖譜這兩種策略生成的回復,并將其與構建的評估數(shù)據(jù)集中所提供的標準答案進行對比測試。為了更準確地反映兩種方法間的效果差距,筆者采用BERT Score作為評估基準,該評估指標的具體計算示例展示如圖5所示。
將上述相似度矩陣進行歸一化處理,可得到對應的準確率(Precision) 、召回率(Recall) 和F1值。通過計算得到的結果如表4所示。
通過表4數(shù)據(jù)可見,是否對生成式AI模型進行微調對實驗結果產生顯著影響。其主要原因在于未經微調的小型7B模型在NL2Cypher任務上的表現(xiàn)相對有限,但經過LoRA微調之后,該模型增強了NL2Cypher的理解與轉化能力,因此能夠從知識圖譜中抽取到更高品質的查詢結果,進而帶動整體性能的顯著提升。
3.4 實例分析
為了深入探究生成式AI模型的回復效果,本研究選取了部分具有代表性的樣本問題進行測試與分析,并依據(jù)其與標準答案的對比差異,將測試結果劃分為“正確”“錯誤”及“未找到答案”3個類別。具體示例如表5所示。
本提案以確保內容準確無誤和回復高度體現(xiàn)角色個性為核心目標。該方案專門針對玩家提出的問題,依據(jù)提示游戲中預設的角色信息,生成與角色特性相符的一致性回復,這些回復涵蓋了角色本身的性格特質、言談風格、情緒表達等多重擬人化特征,進而提升了玩家與游戲角色之間交互的趣味性。另外,面對無法給出答案的情況,模型會適當表現(xiàn)出歉意與無奈的情緒,確保整體回應始終遵循角色個性設定,從而展示出生成式AI模型的智能特性。
綜觀全局,經過微調的方案在游戲非玩家角色(NPC) 對話應用中獲得了更好的成效。知識圖譜的引入進一步鞏固了模型回復的嚴謹性和準確性。與此同時,相較于傳統(tǒng)預設的答案,該模型能夠更迅速地生成豐富多變的對話內容,極大增強了玩家的沉浸參與感與滿意度,充分顯示了其創(chuàng)新優(yōu)勢。
4 總結與展望
本文提出的整合了生成式AI模型、知識圖譜及提示工程的方案已在游戲NPC對話交互情境中成功實踐。我們特別制定了相應的評價指標,以驗證該方案的有效性和實用價值,并與多種其他方法進行了對比分析。本研究的主要優(yōu)勢體現(xiàn)在以下幾點:
1) 回復內容嚴格遵守了NPC對話所要求的多樣性和個性化標準。運用生成式AI模型,既可助力游戲為玩家提供更多樣化的游戲內容,又能使NPC角色變得更加生動有趣、富有層次,從而與玩家建立更為緊密的互動聯(lián)系。
2) 具備現(xiàn)實可行的應用條件。通過采用7B參數(shù)量的生成式AI模型,用戶可在消費級顯卡上實現(xiàn)系統(tǒng)的部署。另外,經由LoRA微調之后的模型能夠更有效地利用知識圖譜內的信息資源,有力保障了回復內容的可靠度。
展望未來,AI技術在游戲NPC設計方面的地位將持續(xù)上升。隨著AI模型的持續(xù)優(yōu)化與自然語言理解與生成精度的不斷提高,開發(fā)者將有能力為玩家營造出更為真實、自然的虛擬世界體驗。
參考文獻:
[1] LI J W,GALLEY M,BROCKETT C,et al.A persona-based neural conversation model[EB/OL].[2023-01-25].2016:arXiv:1603.06155.http://arxiv.org/abs/1603.06155.
[2] ZHENG Y H,CHEN G Y,HUANG M L,et al.Personalized dialogue generation with diversified traits[EB/OL].[2023-01-25].2019:arXiv:1901.09672.http://arxiv.org/abs/1901.09672.
[3] ZHANG S Z,DINAN E,URBANEK J,et al.Personalizing Dialogue Agents:I have a dog,do you have pets too?[EB/OL].[2023-01-25].2018:arXiv:1801.07243.http://arxiv.org/abs/1801.07243.
[4] SONG H Y,ZHANG W N,CUI Y M,et al.Exploiting persona information for diverse generation of conversational responses[EB/OL].[2023-01-25].2019:arXiv:1905.12188.http://arxiv.org/abs/1905.12188.
[5] MAJUMDER B P,BERG-KIRKPATRICK T,MCAULEY J,et al.Unsupervised enrichment of persona-grounded dialog with background stories[EB/OL].[2023-01-25].2021:arXiv:2106. 08364.http://arxiv.org/abs/2106.08364.
[6] SONG H Y,WANG Y,ZHANG W N,et al.Generate,delete and rewrite:a three-stage framework for improving persona consistency of dialogue generation[EB/OL].2020:arXiv:2004.07672.http://arxiv.org/abs/2004.07672.
[7] WOLF T,SANH V,CHAUMOND J,et al.TransferTransfo:a transfer learning approach for neural network based conversational agents[EB/OL].[2023-01-25].2019:arXiv:1901.08149.http://arxiv.org/abs/1901.08149.
[8] LIU Q,CHEN Y H,CHEN B,et al.You impress me:dialogue generation via mutual persona perception[EB/OL].[2023-01-25].2020:arXiv:2004.05388.http://arxiv.org/abs/2004.05388.
[9] ZHANG Y Z,SUN S Q,GALLEY M,et al.DialoGPT:large-scale generative pre-training for conversational response generation[EB/OL].[2023-01-25].2019:arXiv:1911.00536.http://arxiv.org/abs/1911.00536.
[10] SONG H Y,WANG Y,ZHANG K Y,et al.BoB:BERT over BERT for training persona-based dialogue models from limited personalized data[EB/OL].[2023-01-25].2021:arXiv:2106.06169.http://arxiv.org/abs/2106.06169.
[11] JIANG A Q,SABLAYROLLES A,MENSCH A,et al.Mistral 7B[EB/OL].2023:arXiv:2310.06825.http://arxiv.org/abs/2310. 06825.
[12] RAFAILOV R,SHARMA A,MITCHELL E,et al.Direct preference optimization:your language model is secretly a reward model[EB/OL].[2023-01-25].arXiv preprint arXiv:2305.18290, 2023.
【通聯(lián)編輯:唐一東】