摘要:本文提出了結(jié)合AI智能體與WebXR技術(shù)標(biāo)準(zhǔn),打造智能沉浸式小學(xué)英語情境化學(xué)習(xí)系統(tǒng)的方案。作者闡述了基于WebXR和AI智能體的小學(xué)英語情境化學(xué)習(xí)系統(tǒng)的架構(gòu)設(shè)計,為讀者提供了一個清晰的整體框架,并聚焦于AI智能體在整個學(xué)習(xí)系統(tǒng)中運行的核心原理,展示其在學(xué)習(xí)過程中的關(guān)鍵作用。本文旨在為開發(fā)者提供一套全面而詳盡的產(chǎn)品設(shè)計藍(lán)圖,推動小學(xué)英語情境化學(xué)習(xí)的創(chuàng)新發(fā)展。
關(guān)鍵詞:人工智能;AI智能體;WebXR;英語學(xué)習(xí)
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 論文編號:1674-2117(2024)18-0086-04
引言
英語情境化學(xué)習(xí)對提升學(xué)習(xí)者的實際應(yīng)用能力至關(guān)重要。然而,現(xiàn)實環(huán)境的限制使得學(xué)習(xí)者難以進行充分的真實環(huán)境對話練習(xí)。因此,就有必要引入AI角色參與對話練習(xí),進行泛化學(xué)習(xí)。然而,在與AI角色進行對話時,存在一個關(guān)鍵問題:AI角色對話內(nèi)容的生成。雖然AI具備豐富的通識知識,能夠靈活應(yīng)對各種話題,但對于一些特定的學(xué)習(xí)場景,我們希望學(xué)習(xí)者能夠按照既定的句型與內(nèi)容進行針對性的訓(xùn)練,此時需要AI角色能夠根據(jù)對話的上下文,精準(zhǔn)地按照預(yù)設(shè)句型與內(nèi)容進行對話,而不要進行泛化生成。再有,AI在處理時效性較強的近期事件時存在一定的局限性,為了彌補這一不足,希望能夠協(xié)同網(wǎng)絡(luò)搜索功能,以便在必要時為AI提供相關(guān)的最新動態(tài),確保其對話內(nèi)容既準(zhǔn)確又富有時效性。
針對上述問題與需求,本文致力于設(shè)計一個基于WebXR和AI智能體的小學(xué)英語情境化學(xué)習(xí)系統(tǒng)。
基于WebXR和AI智能體的小學(xué)英語情境化學(xué)習(xí)系統(tǒng)框架
1.系統(tǒng)功能結(jié)構(gòu)
本系統(tǒng)主要功能涉及學(xué)習(xí)中心與后臺管理兩大部分。
(1)學(xué)習(xí)中心
學(xué)習(xí)中心是與學(xué)習(xí)者直接相關(guān)的功能,包含賬戶維護、場景構(gòu)建、場景學(xué)習(xí)、會話導(dǎo)出、會話分享。賬戶維護指學(xué)習(xí)者注冊、登錄和個人信息維護等基礎(chǔ)功能;場景構(gòu)建指學(xué)習(xí)者可以自己構(gòu)建個性化學(xué)習(xí)場景,并與其他角色一起學(xué)習(xí);場景學(xué)習(xí)指學(xué)習(xí)者可以進入自己或他人創(chuàng)建的場景,與其他同伴角色或AI角色進行沉浸式對話學(xué)習(xí);會話導(dǎo)出指可以將基于場景的會話以視頻的形式進行導(dǎo)出,內(nèi)容涉及場景視頻、對話音頻、字幕等,形態(tài)可以是一般MP4視頻、固定視角的VR視頻,也可以為基于本系統(tǒng)序列化數(shù)據(jù)的在線沉浸式視頻(在支持VR設(shè)備下可調(diào)整觀看視角);會話分享指將生成的視頻提供給其他學(xué)習(xí)者觀看和學(xué)習(xí)。
(2)后臺管理
后臺管理是支撐系統(tǒng)運行的相關(guān)功能,包括用戶管理、模型管理、內(nèi)容管理、AI策略管理。用戶管理指用戶注冊驗證與密碼找回等基礎(chǔ)功能;模型管理指對3D場景模型和3D角色模型的管理,這些模型主要由系統(tǒng)提供,用戶在創(chuàng)建具體場景時,可從系統(tǒng)中進行選擇(也可上傳自己的個性化3D模型);內(nèi)容管理指關(guān)于對話內(nèi)容(文本和音頻)的維護,用戶在創(chuàng)建具體場景時,可以選用已有內(nèi)容(也可自己編輯內(nèi)容);AI策略管理指在會話過程中如何讓AI發(fā)揮作用,如AI角色在生成對話內(nèi)容時對本地知識庫的依賴度、協(xié)調(diào)會話過程中AI的協(xié)調(diào)策略等。
2.系統(tǒng)運行流程
系統(tǒng)運行的總體流程如圖1所示。首先,管理員需要創(chuàng)建場景模型庫、角色模型庫以及對話內(nèi)容庫。隨后,學(xué)習(xí)者可以根據(jù)自己的需求創(chuàng)建新的學(xué)習(xí)場景,他們可以從庫中選擇或上傳場景模型與角色模型,并選擇或自定義對話內(nèi)容,這些內(nèi)容既可以是預(yù)設(shè)的,也可以是開放式的。在創(chuàng)建完場景后,學(xué)習(xí)者需要發(fā)布該場景并邀請其他學(xué)習(xí)者加入。一旦場景準(zhǔn)備就緒,學(xué)習(xí)者便可以進入自己創(chuàng)建或他人發(fā)布并邀請自己的場景中進行學(xué)習(xí),從而正式開啟基于具體場景的沉浸式對話學(xué)習(xí)體驗。在整個會話過程中,AI智能體會積極參與并協(xié)調(diào)對話,確保會話能夠順暢且持續(xù)地進行。
AI智能體運行核心原理與任務(wù)
本文中AI智能體運行的核心原理如圖2所示。AI智能體(Agent)協(xié)調(diào)大語言模型(LLM)進行環(huán)境感知與工具調(diào)用,這一復(fù)雜過程涵蓋了多個關(guān)鍵組件:大語言模型(LLM)、場景庫(Scenes)、思維鏈(Chains)、工具庫(Tools)、原始內(nèi)容庫(Contents)、向量內(nèi)容庫(Contents_Vector)、會話庫(Records)、向量會話庫(Records_Vector)。
1.組件間的協(xié)同與分工
LLM代表任一款大語言模型(如ChatGPT、文心一言、ChatGLM等),負(fù)責(zé)深度理解和生成自然語言文本;Agent是系統(tǒng)的智能會話控制中樞,在會話過程中負(fù)責(zé)調(diào)用LLM與用戶進行交互,必要時進行工具調(diào)用,并將結(jié)果返回給LLM參考和使用;Tools是提供給LLM的各種工具,主要負(fù)責(zé)本地向量化嵌入數(shù)據(jù)的存儲與檢索;Scenes指具體會話場景,LLM能夠從Scenes中感知會話信息并與Agent進行協(xié)調(diào)處理;Contents是對話內(nèi)容原始文本資料(如關(guān)于購物的一段完整對話文本);Contents_Vector是原始文本資料的片段拆分及其向量化嵌入表示,方便Agent進行語義檢索;Records是在具體場景中記錄的各角色的會話信息(由AI從會話音頻中解析出的文字);Records_Vector是會話文本信息的向量化嵌入表示;Chains指Agent多次與LLM進行交互產(chǎn)生的任務(wù)鏈,包括系統(tǒng)運行過程中LLM與Agent自動生成的任務(wù)鏈,也包含系統(tǒng)預(yù)先設(shè)定的任務(wù)鏈。例如,根據(jù)當(dāng)前的會話進程與內(nèi)容,Agent可以有針對性地多次調(diào)用LLM來評估用戶的歷史會話和系統(tǒng)內(nèi)容庫,從而提升生成內(nèi)容的匹配度。
2.關(guān)于場景和角色的說明
場景是會話的虛擬空間,場景={主題,場景說明,場景模型,會話內(nèi)容,是否固定會話內(nèi)容,是否固定角色數(shù),角色數(shù)量,最大真人角色數(shù)量,AI角色數(shù)量}。對于角色數(shù)量,如果會話內(nèi)容固定,角色數(shù)量也即固定,會話時各個角色依次進行對話;若會話內(nèi)容不固定,則需要規(guī)定AI角色數(shù)量,真人角色數(shù)量不限;在會話過程中,如果場景中真人角色不足,則缺失角色由AI角色自動補充。
3.AI角色會話內(nèi)容生成策略
在涉及AI角色扮演的會話場景中,本文采用以下策略生成會話內(nèi)容:AI智能體根據(jù)當(dāng)前會話的上下文內(nèi)容,運用檢索增強生成(RAG)技術(shù),從系統(tǒng)已有會話內(nèi)容庫中檢索相關(guān)信息。若檢索到的內(nèi)容與當(dāng)前會話情境匹配度達(dá)到預(yù)設(shè)的閾值,AI智能體將直接采用這些內(nèi)容進行回應(yīng);否則,AI智能體將檢索到的內(nèi)容及匹配度、當(dāng)前會話上下文傳給大語言模型,由大語言模型基于上述信息進行深入理解,輔以網(wǎng)絡(luò)搜索工具,自動創(chuàng)作出符合語境的對話內(nèi)容。
在整個對話內(nèi)容生成過程中,AI智能體、大語言模型和網(wǎng)絡(luò)搜索工具三者緊密協(xié)作,充分利用系統(tǒng)自有會話內(nèi)容、網(wǎng)絡(luò)上的豐富信息以及AI本身所掌握的廣泛知識進行內(nèi)容生成。這種設(shè)計旨在實現(xiàn)精準(zhǔn)內(nèi)容與通識知識之間的互補,既避免內(nèi)容過度泛化,又能確保會話可持續(xù)進行,從而讓AI角色與學(xué)習(xí)者之間的交流更加自然、順暢,仿佛兩位真實的學(xué)習(xí)者在進行互動。
4.AI智能體的多元化協(xié)同工作
在系統(tǒng)運行過程中,除會話內(nèi)容生成外,AI智能體還需在其他各方面與大語言模型緊密協(xié)作,以確保系統(tǒng)穩(wěn)定高效運行。
(1)AI角色自動生成
在涉及AI角色的會話中,AI智能體會依據(jù)場景需求,動態(tài)生成適量的AI角色,與學(xué)習(xí)者一起參與會話,豐富交互體驗。
(2)角色形象智能匹配
根據(jù)當(dāng)前場景的主題、內(nèi)容描述以及預(yù)設(shè)的會話內(nèi)容,AI智能體會調(diào)用大語言模型進行語義匹配,并從系統(tǒng)3D角色模型庫中自動為各個角色分配模型。
(3)語音識別與生成
在場景會話中,AI智能體需要調(diào)用大語言模型和工具進行語音識別并對識別出的文本進行向量化嵌入與存儲。在有AI角色參與的會話中,還需要根據(jù)智能生成的對話文本,調(diào)用文本轉(zhuǎn)語音工具生成音頻(需要根據(jù)角色選用合適的音色)。
(4)會話活動的組織
AI智能體會結(jié)合當(dāng)前場景、學(xué)習(xí)者的參與情況、歷史會話信息和角色基本信息,適當(dāng)?shù)亟M織會話的開場,介紹背景、穿插旁白,以營造活躍的氛圍。
(5)確保會話的持續(xù)性
在會話進行過程中,AI智能體會在突發(fā)事件時發(fā)揮組織與協(xié)調(diào)作用。例如,當(dāng)某個學(xué)習(xí)者中途退出場景時,AI智能體會立即生成替代的AI角色,確保會話能夠不間斷地進行。
(6)場景的無縫切換
隨著會話的深入,可能需要轉(zhuǎn)換到不同的場景。AI智能體會根據(jù)當(dāng)前場景和會話上下文,自動從系統(tǒng)中選擇并切換到新的場景,使會話更加自然流暢。
小學(xué)英語會話場景構(gòu)建依據(jù)與策略
1.場景構(gòu)建依據(jù)
在設(shè)計小學(xué)英語學(xué)科會話場景時,要遵循《義務(wù)教育英語課程標(biāo)準(zhǔn)(2022年版)》(以下簡稱“英語課標(biāo)”)的指導(dǎo)原則及小學(xué)英語核心素養(yǎng)要求,確保場景的實用性和教育性。首先,依據(jù)標(biāo)準(zhǔn)中提出的“以學(xué)生為中心”的教學(xué)理念,踐行學(xué)思結(jié)合、用創(chuàng)為本的英語學(xué)習(xí)活動觀,以主題為引領(lǐng)選擇和組織課程內(nèi)容,設(shè)計與學(xué)生日常生活緊密相關(guān)的會話場景,以激發(fā)學(xué)生的學(xué)習(xí)興趣和積極性。其次,注重場景的交際性和實踐性,通過模擬真實場景中的對話,培養(yǎng)學(xué)生的語言運用能力和跨文化交際能力。最后,遵循循序漸進的原則,按照課標(biāo)規(guī)定的小學(xué)英語分級體系,從簡單的日常會話開始,逐步過渡到涉及更多復(fù)雜語法結(jié)構(gòu)和詞匯的會話場景,以確保學(xué)生能夠在逐步提高的過程中建立自信,掌握扎實的英語基礎(chǔ)知識。同時,場景構(gòu)建堅持開放性原則,用戶可以進行個性化場景構(gòu)建。
2.場景構(gòu)建策略
在圍繞小學(xué)英語課標(biāo)構(gòu)建學(xué)習(xí)場景時,既要考慮場景的內(nèi)容承載性,又要兼顧場景之間內(nèi)容的關(guān)聯(lián)性,以便于大語言模型能夠精準(zhǔn)地捕捉場景的核心要素,并順暢地在不同場景間進行無縫切換。依據(jù)小學(xué)英語課標(biāo)的具體內(nèi)容與其內(nèi)在的邏輯關(guān)聯(lián),除了上文中明確界定的場景內(nèi)容等屬性外,還應(yīng)為每個場景設(shè)定相應(yīng)的元數(shù)據(jù)集合,這些元數(shù)據(jù)是小學(xué)英語課標(biāo)中涉及的各個元知識點。例如,在購物場景中,元數(shù)據(jù)集合可以包括顏色、種類、大小、尺碼、價格、喜歡與否、打招呼方式以及告別語等;而在自我介紹場景中,元數(shù)據(jù)集合則應(yīng)涵蓋高矮、胖瘦、具體身高、具體體重、性別、飲食喜好、體育愛好、五官特征描述、喜歡的顏色、頭發(fā)長短等。通過場景和元數(shù)據(jù)集形成的場景知識關(guān)聯(lián)矩陣,將極大地提升大模型在會話中的智能調(diào)度能力,讓AI驅(qū)動下的會話活動更加自然。
風(fēng)險與應(yīng)對策略
本系統(tǒng)的潛在風(fēng)險主要是AI內(nèi)容生成。盡管本文設(shè)計的AI角色對話內(nèi)容生成策略在平衡精準(zhǔn)內(nèi)容與通識知識方面進行了兼顧,但也必須正視其中存在的一些不容忽視的風(fēng)險與挑戰(zhàn)。
首先,在調(diào)用具體大語言模型時,生成內(nèi)容的可控性是一大挑戰(zhàn)。這可能導(dǎo)致在某些敏感或關(guān)鍵對話中,AI智能體的回應(yīng)可能引發(fā)不必要的爭議或誤解。因此,需要根據(jù)實際情況持續(xù)調(diào)整和優(yōu)化智能策略,以確保對話的相關(guān)性和適宜性。
其次,隨著大語言模型的持續(xù)進化,其思維和價值觀也會隨之變遷,這無疑會對生成內(nèi)容的方向產(chǎn)生持續(xù)而深遠(yuǎn)的影響。為應(yīng)對這一挑戰(zhàn),需要時刻關(guān)注對話內(nèi)容,并在必要時調(diào)整智能體策略以適應(yīng)大模型的更新。更進一步,可以考慮引入一個輔助智能體,采用不同的大語言模型,獨立承擔(dān)內(nèi)容相關(guān)性與適宜性的審查工作和糾偏工作,與本文所述的智能體協(xié)同作業(yè),共同提升對話的準(zhǔn)確性和適宜性。
最后,需要警惕用戶故意誤導(dǎo)行為可能對系統(tǒng)造成的負(fù)面影響。這種誤導(dǎo)可能使大模型產(chǎn)生認(rèn)知偏差和幻覺,甚至被用戶同化,偏離小學(xué)英語情境化學(xué)習(xí)系統(tǒng)的設(shè)計初衷。為此,可考慮在智能體中引入誤導(dǎo)監(jiān)督機制,并在必要時進行干預(yù)與叫停,以確保系統(tǒng)良性運行,為用戶提供高質(zhì)量的學(xué)習(xí)體驗。
結(jié)語
本文基于WebXR和AI智能體,設(shè)計了一款智能沉浸式小學(xué)英語情境化學(xué)習(xí)系統(tǒng),所述方案均具備技術(shù)可行性,能夠為系統(tǒng)實際開發(fā)提供具體可行的指導(dǎo)與遵循。伴隨AI技術(shù)的飛速發(fā)展,本系統(tǒng)也將在多方面進行持續(xù)優(yōu)化,如在技術(shù)更加成熟時,可以根據(jù)場景主題和對話內(nèi)容,自動生成3D場景和3D角色,從而為學(xué)習(xí)者帶來更加豐富的沉浸式學(xué)習(xí)體驗。
參考文獻(xiàn):
中華人民共和國教育部.義務(wù)教育英語課程標(biāo)準(zhǔn)(2022年版)[S].北京:北京師范大學(xué)出版社,2022.
本文系吉林省教育廳“十三五”社會科學(xué)項目資助課題“VR/AR技術(shù)賦能教育出版應(yīng)用模式研究及支撐平臺構(gòu)建”(課題編號:JJKH20200201SK)研究成果。