摘要:大語言模型憑借強(qiáng)大的分析與推理能力正在變革教育研究范式,特別是其在智能體技術(shù)方面取得的顯著進(jìn)步,為系統(tǒng)性解決科研領(lǐng)域的復(fù)雜問題提供了有力支持。基于此,文章聚焦元綜合這一典型的研究任務(wù)場景,探討如何基于智能體的方法提供更加系統(tǒng)化的支持:首先,文章提出了多步驟規(guī)劃、協(xié)同模式構(gòu)建、提示賦能、工具集成的元綜合智能體應(yīng)用原則,設(shè)計了由6個智能體協(xié)同的應(yīng)用模式,并基于該模式開發(fā)了元綜合智能體工具。然后,文章通過案例研究將智能體工具應(yīng)用于典型的元綜合任務(wù),發(fā)現(xiàn)與人類團(tuán)隊相比,智能體更能遵照元綜合研究流程執(zhí)行任務(wù),生成結(jié)果更全面;人類團(tuán)隊在應(yīng)用過程中對智能體的準(zhǔn)確性和使用體驗給予了積極評價。最后,文章基于研究發(fā)現(xiàn)提出了智能體在教育研究中的應(yīng)用策略,以期為深入解決教育研究實踐問題提供新的人機(jī)協(xié)同思路。
關(guān)鍵詞:大語言模型;智能體;元綜合;教育研究
【中圖分類號】G40-057 【文獻(xiàn)標(biāo)識碼】A 【論文編號】1009—8097(2025)01—0063—10 【DOI】10.3969/j.issn.1009-8097.2025.01.007
引言
教育研究領(lǐng)域一直重視人工智能的應(yīng)用及其效果,特別是如何規(guī)范使用這些技術(shù),以及如何借助它們改變傳統(tǒng)的知識創(chuàng)造方式[1]。隨著以大語言模型(Large Language Model,LLM)為代表的新型人工智能在學(xué)習(xí)科學(xué)領(lǐng)域的深入應(yīng)用,教育研究的思路、方法與工具迎來前所未有的拓展機(jī)遇,正如2024年世界數(shù)字教育大會發(fā)布的“人工智能賦能教育發(fā)展”倡議所指出的:“發(fā)揮人工智能在數(shù)據(jù)獲取、實驗設(shè)計、結(jié)果分析等方面的優(yōu)勢,探索數(shù)據(jù)驅(qū)動的循證研究范式?!?sup>[2]
與傳統(tǒng)人工智能在教育研究中的應(yīng)用相比,大語言模型經(jīng)過海量跨領(lǐng)域數(shù)據(jù)集的預(yù)訓(xùn)練,已具備廣泛的知識覆蓋面,能勝任多學(xué)科科研場景的知識問答[3]。憑借大語言模型的語義理解、摘要生成等能力,將其引入教育研究場景,有助于對教育領(lǐng)域文本、音視頻等非結(jié)構(gòu)化材料進(jìn)行摘錄、主題分析、關(guān)系編碼等內(nèi)容分析工作[4]。然而,當(dāng)前大語言模型在教育研究中的應(yīng)用面仍然受限,聚焦于解決特定的分析問題,尚未系統(tǒng)地覆蓋整個教育研究的方法論范疇。特別是在復(fù)雜的教育研究場景中,大語言模型還面臨諸如長文本處理、跨文檔的內(nèi)容關(guān)聯(lián)分析和研究過程的可解釋性等挑戰(zhàn)[5]。隨著智能體技術(shù)的成熟,基于智能體代理框架協(xié)同多個大語言模型的模式,能夠?qū)崿F(xiàn)問題解決、外部工具應(yīng)用和任務(wù)規(guī)劃等功能[6],這為教育研究范式的重構(gòu)提供了新的可能性,有望實現(xiàn)研究方法層面的結(jié)構(gòu)轉(zhuǎn)型。
本研究嘗試以循證研究中的元綜合研究為切入點,探索智能體在教育研究場景中的典型應(yīng)用,探討智能體如何更加系統(tǒng)地為元綜合研究提供支持。為此,本研究將設(shè)計元綜合智能體的應(yīng)用模式、開發(fā)元綜合智能體工具并進(jìn)行工具測評和案例應(yīng)用,最終對其效果展開綜合評估,以期通過人工智能助推教育研究范式轉(zhuǎn)型,為利用智能體解決教育研究領(lǐng)域的任務(wù)提供實踐示范。
一 相關(guān)研究
元綜合是循證研究體系的一種重要方法,用于對不同研究中的定性證據(jù)進(jìn)行跨研究比較與綜合[7],通過系統(tǒng)地組織和整合證據(jù)中的知識與概念,形成累積性的理論體系。與元分析通過統(tǒng)計方法綜合定量結(jié)果不同,元綜合采用解釋性和敘述性的方法來綜合多項定性研究的結(jié)果。在教育研究中,元綜合有助于加深對教育現(xiàn)象的理解,為教學(xué)實踐提供科學(xué)的模式與方案,是推動教學(xué)實施科學(xué)化的重要途徑。然而,元綜合是一個工作量龐大、對科研能力要求較高的復(fù)雜過程。隨著大語言模型在科研領(lǐng)域應(yīng)用的深入,本研究將梳理相關(guān)文獻(xiàn),探索解決元綜合這一復(fù)雜問題的技術(shù)路徑。
1"大語言模型在科研領(lǐng)域的應(yīng)用進(jìn)展
大語言模型在科學(xué)研究中的應(yīng)用日益廣泛,主要用于提升科研自動化和支持分析推理任務(wù)。研究者采用了多種方法進(jìn)行嘗試:①通過在特定科研數(shù)據(jù)集上的微調(diào)模型提升專業(yè)能力。例如,Zheng等[8]通過對大量生物與醫(yī)學(xué)文本、數(shù)據(jù)的微調(diào),使大語言模型掌握學(xué)科領(lǐng)域知識,提高了其對相關(guān)科學(xué)文本的理解和處理能力。②優(yōu)化使用策略,提升科研任務(wù)回答的準(zhǔn)確性。例如,Liu等[9]在論文評審任務(wù)中采用少樣本提示策略,通過評審者角色、論文標(biāo)題和要求等提示,使大語言模型的評審水平接近人類專家。③采用思維鏈提示策略,使大語言模型闡明推理過程。例如,Liang等[10]利用ChatGPT-4進(jìn)行文本編碼分析時,要求大語言模型同步闡明編碼原因,以幫助編碼人員在面對復(fù)雜定性材料時作出更準(zhǔn)確的判斷。
以上研究表明,合理的知識來源和大語言模型的策略性使用是解決科研問題的重要保障。然而,當(dāng)前這些策略僅解決的是研究中的局部問題,如論文評審、內(nèi)容編碼、總結(jié)概括等,對于元綜合這一復(fù)雜研究工作流程的支持范圍尚顯不足,難以支持元綜合結(jié)果的自動、準(zhǔn)確且高效生成。此外,分析過程欠缺解釋性、上下文處理受限等問題,也降低了大語言模型在科研場景應(yīng)用的可信度。
2"智能體技術(shù)的發(fā)展
隨著大語言模型技術(shù)的不斷發(fā)展,引入智能體技術(shù)成為針對以上問題的一種可行的解決方案,能夠更全面、系統(tǒng)地支持元綜合工作。智能體起源于20世紀(jì)70年代分布式人工智能的理念,被定義為能夠自主學(xué)習(xí)和行動的實體[11]?,F(xiàn)今,智能體應(yīng)用的典型模式是通過“思維鏈”(Chain-of-Thought,CoT)推理技術(shù),在對話中激發(fā)大語言模型的世界知識,提升其感知、記憶和推理能力[12]。智能體的典型應(yīng)用模式包括以下程序:①基于用戶指令,對復(fù)雜任務(wù)進(jìn)行規(guī)劃、分解、組織等。②任務(wù)可由單個大語言模型獨立執(zhí)行,或由多個大語言模型通過交流、合作、競爭等方式共同執(zhí)行。③智能體通過整合知識庫、數(shù)據(jù)庫和插件等外部工具,增強(qiáng)環(huán)境感知和推理能力,提升最終輸出的有效性[13]。
可見,大語言模型支持下的智能體理念,強(qiáng)調(diào)從單一功能到綜合能力的轉(zhuǎn)變,目的是使大語言模型更靈活地應(yīng)對復(fù)雜環(huán)境中的多樣化任務(wù),展現(xiàn)出更接近人類認(rèn)知過程的智能行為。目前,智能體研究已經(jīng)深入到軟件開發(fā)、模擬仿真等領(lǐng)域,如Qian等[14]開發(fā)的ChatDev平臺模擬軟件公司的組織結(jié)構(gòu),將產(chǎn)品經(jīng)理、設(shè)計師、程序員和測試人員等不同角色的智能體進(jìn)行協(xié)同,實現(xiàn)了從產(chǎn)品設(shè)計到編碼和測試的軟件開發(fā)流程;Park等[15]構(gòu)建了一個包含25個智能體的虛擬小鎮(zhèn),模擬人類的記憶、反思和計劃等心智活動并還原到日常生活與工作中,為教育領(lǐng)域中的自主探究、情景學(xué)習(xí)等活動的技術(shù)應(yīng)用提供了借鑒。
二 應(yīng)用模式與工具實現(xiàn)
1"應(yīng)用原則
根據(jù)前文,元綜合旨在對特定主題的研究論文進(jìn)行比較和綜合,其核心步驟包括評估證據(jù)質(zhì)量、提煉核心觀點、總結(jié)主題和概念、關(guān)系編碼等,最終形成新的理解、理論或模式[16]?;趯χ悄荏w應(yīng)用框架的總結(jié)和對元綜合的深入理解,本研究提出了元綜合智能體應(yīng)用原則,包括:①多步驟規(guī)劃。基于元綜合流程規(guī)劃研究任務(wù),并明確每個任務(wù)的子步驟。②協(xié)同模式構(gòu)建。模擬科研團(tuán)隊,通過指令協(xié)調(diào)多個大語言模型的任務(wù)分工,確定工作銜接和執(zhí)行順序。③提示賦能。通過提示指令,讓大語言模型扮演指定任務(wù)角色;利用思維鏈策略,明確解決步驟和參考范例,并解釋推理過程。④工具集成。在多個大語言模型協(xié)同過程中,嵌入外部工具,實現(xiàn)過程數(shù)據(jù)存儲、邏輯判斷和信息反饋等功能。
2"應(yīng)用模式
基于上述原則,本研究設(shè)計了元綜合智能體的應(yīng)用模式,明確了智能體的協(xié)同過程、角色實現(xiàn)及工具應(yīng)用,其中元綜合的核心功能由證據(jù)評價與證據(jù)綜合兩大智能體模塊組成,如圖1所示。
(1)證據(jù)評價模塊
證據(jù)評價模塊以三個智能體為核心,旨在實現(xiàn)兩大目標(biāo):參照元綜合流程中的指標(biāo)和標(biāo)準(zhǔn),對提供的論文質(zhì)量進(jìn)行評價;根據(jù)用戶需求,從達(dá)標(biāo)論文中提煉出可用于問題解決的核心觀點。起點為需評審的論文全文及提煉核心觀點的主題詞。
三個智能體的工作分別為:①質(zhì)量評審者,負(fù)責(zé)接收用戶輸入的內(nèi)容,參考論文質(zhì)量評價標(biāo)準(zhǔn)對論文質(zhì)量進(jìn)行逐條打分并提供解釋。②精準(zhǔn)評定者,基于質(zhì)量評審者提供的評價結(jié)果與解釋,依據(jù)元綜合的篩選標(biāo)準(zhǔn)對論文等級進(jìn)行精準(zhǔn)劃分,給出論文等級并闡述評定理由。本智能體需要借助判斷工具剔除不符合元綜合分析要求的論文,只保留質(zhì)量高且等級高的論文。③觀點提煉者,對等級評定過關(guān)的論文中的核心觀點進(jìn)行提煉,之后用外部存儲工具整理提取到的核心觀點,形成核心觀點集合。這種模式設(shè)計能確保元綜合過程中論文篩選的嚴(yán)謹(jǐn)性和核心觀點提取的精準(zhǔn)性,為證據(jù)綜合奠定基礎(chǔ)。
(2)證據(jù)綜合模塊
證據(jù)綜合模塊同樣由三個智能體負(fù)責(zé)協(xié)同執(zhí)行任務(wù),其目標(biāo)在于:基于元綜合流程,將上一階段對所存儲的各篇論文的核心觀點進(jìn)行核心概念歸納、主題歸納、關(guān)系編碼,并以結(jié)構(gòu)化的方式表達(dá)元綜合結(jié)果,以便用戶在此基礎(chǔ)上繼續(xù)深入應(yīng)用。
三個智能體的工作分別為:①主題、概念總結(jié)者,用于對多篇論文中提取的核心觀點行文本分析。該智能體需要扮演內(nèi)容分析專家的角色,按照嚴(yán)謹(jǐn)?shù)目蒲胁襟E,逐步完成核心觀點的摘要、核心概念提煉及主題歸納等子任務(wù),并依次呈現(xiàn)這些步驟的結(jié)果。②表格匯總者,將前一階段獲得的主題、核心概念和相關(guān)聯(lián)的核心觀點摘錄,以表格形式清晰呈現(xiàn)。③關(guān)系總結(jié)者,基于匯總表中的主題或核心概念,從核心觀點中識別它們之間的關(guān)系,統(tǒng)計各種關(guān)系的出現(xiàn)頻次,并把每種關(guān)系概括為一個準(zhǔn)確名稱。這個智能體將所有信息整理成表格,清晰展示信息之間的關(guān)系、關(guān)系的數(shù)量及名稱。該智能體應(yīng)用模式將分散的核心觀點整合成結(jié)構(gòu)化的知識體系,確保了研究過程的可解釋性。
3"工具實現(xiàn)
為支持元綜合智能體應(yīng)用模式,本研究利用COZE平臺的工作流功能開發(fā)了元綜合智能體工具,并用于后續(xù)案例研究。該平臺集成了多個大語言模型和工具,能夠通過輸入輸出方式串聯(lián)智能體,有效實現(xiàn)應(yīng)用模式,元綜合智能體的工具實現(xiàn)如圖2所示。
本研究采用了多項實現(xiàn)策略:①在模型選擇上,證據(jù)評價模塊的智能體均采用GPT-3.5 4k模型,由于證據(jù)綜合模塊涉及更復(fù)雜的問題解決,因此采用推理和上下文處理能力更強(qiáng)的GPT-4 8k模型。②通過連接智能體,設(shè)計元綜合工作流程,明確智能體之間的銜接,以及需處理的信息來源和范圍。③在證據(jù)評價模塊中,根據(jù)元綜合的評價需求,為承擔(dān)評價功能的智能體提供合適的評估指標(biāo)。例如,質(zhì)量評審者智能體使用JBI-QARI中的9大定性研究評估指標(biāo),并在提示指令中要求“……你只能選擇‘是、否、不清楚、不適合’這四個選項對每個評估主題進(jìn)行打分”,還要為每個指標(biāo)的打分提供解釋[17]。精準(zhǔn)評定者智能體則使用JBI-QARI中的論文篩選標(biāo)準(zhǔn),針對四種論文類型進(jìn)行分類:“A.關(guān)鍵論文”“B.令人滿意的論文”“C.不適合的論文”“D.有致命缺陷的論文”,提示指令同樣要求提供詳細(xì)合理的解釋。④通過思維鏈提示、少樣本提示等策略規(guī)范推理過程,確保智能體按照明確步驟執(zhí)行任務(wù)。例如,主題、概念總結(jié)者智能體在提示指令中被要求扮演質(zhì)性分析專家角色,并按照任務(wù)步驟進(jìn)行分析。⑤利用外部工具管理工作流程。例如,判斷工具接收精準(zhǔn)評定智能體的論文評定結(jié)果并剔除低于B等級的論文;消息通知工具實時告知用戶每個智能體的輸出結(jié)果;數(shù)據(jù)庫則記錄智能體的累積輸出結(jié)果。
三 案例研究
為進(jìn)一步探索智能體工具在元綜合任務(wù)場景中的應(yīng)用,本研究開展了智能體工具應(yīng)用的案例研究,首先評估了智能體工具的應(yīng)用效果,然后記錄了人類團(tuán)隊使用該工具開展元綜合實踐的過程。
1"案例簡介
本研究選取的智能體應(yīng)用場景是對高中物理“運(yùn)動學(xué)”課程教學(xué)模式設(shè)計的相關(guān)論文進(jìn)行元綜合分析。應(yīng)用目標(biāo)是通過智能體工具,對典型研究論文中的理論觀點和應(yīng)用案例進(jìn)行元綜合,形成科學(xué)合理且理論指導(dǎo)實踐的教學(xué)模式。為確保論文質(zhì)量,本研究制定了篩選標(biāo)準(zhǔn),即教學(xué)模式設(shè)計具有理論依據(jù)、清晰介紹教學(xué)模式應(yīng)用過程、對效果進(jìn)行評估等。前期準(zhǔn)備包括:確定檢索范圍為2020~2024年;通過CNKI數(shù)據(jù)庫,使用“高中物理”“運(yùn)動學(xué)”等關(guān)鍵詞結(jié)合布爾運(yùn)算符進(jìn)行檢索;根據(jù)標(biāo)題和摘要初篩后,通過全文閱讀和評估,最終選定20篇高質(zhì)量論文作為元綜合智能體應(yīng)用的基礎(chǔ)材料。這些論文被平均分為兩組(每組10篇),分別用于案例的兩個階段:第一階段使用10篇論文評估智能體效果,并比較人類團(tuán)隊與智能體的元綜合結(jié)果差異;第二階段用另10篇論文,供參與者通過操作體驗智能體工具。
2 案例設(shè)計
(1)研究對象
本案例選取了一個由12名廣東省G大學(xué)J專業(yè)的大三本科師范生組成的教育研究團(tuán)隊作為研究對象。該團(tuán)隊成員在過去完成了學(xué)習(xí)科學(xué)、教育技術(shù)學(xué)研究方法課程的學(xué)習(xí),并共同參與過多個教師指導(dǎo)的科研項目,具備進(jìn)行論文閱讀與評價、內(nèi)容分析的研究能力和團(tuán)隊協(xié)作經(jīng)驗。
(2)案例活動與評價
案例活動被設(shè)計為兩個階段:①人類團(tuán)隊元綜合階段,參與者組成團(tuán)隊,共同完成10篇論文的元綜合工作,包括證據(jù)評價和證據(jù)綜合兩個環(huán)節(jié)。同時,智能體工具獨立完成相同10篇論文的元綜合任務(wù)。為確保公平比較人類團(tuán)隊和智能體的元綜合結(jié)果,研究者事先向參與者詳細(xì)說明元綜合的任務(wù)要求,指導(dǎo)其通過分工完成各項工作。參與者獲得與智能體相同的評估指標(biāo)、標(biāo)準(zhǔn)材料和活動支架,保證任務(wù)執(zhí)行順序和要求的一致性。研究者詳細(xì)記錄人類團(tuán)隊和智能體的元綜合結(jié)果,為后續(xù)比較提供基礎(chǔ)數(shù)據(jù)。②智能體輔助元綜合階段,參與者使用元綜合智能體工具針對另外10篇論文完成元綜合任務(wù)。該階段將開展半結(jié)構(gòu)化訪談,收集參與者對智能體的準(zhǔn)確性、使用體驗等方面的反饋。
(3)工具測評方法
評測內(nèi)容主要關(guān)注智能體工具在論文評價、觀點提煉、主題與核心概念總結(jié)、關(guān)系編碼等方面的一致性表現(xiàn),這對于提高用戶體驗、確保模型可靠性和提升實際應(yīng)用表現(xiàn)至關(guān)重要。有研究者指出,高一致性不僅能減少用戶的困惑和誤解、增強(qiáng)信任感,還能反映模型的魯棒性和可靠性,對于元綜合這類準(zhǔn)確性要求較高的任務(wù)尤為重要[18]。因此,針對證據(jù)評價模塊,本研究選擇一篇代表性研究論文,進(jìn)行10次重復(fù)操作,分析智能體每次輸出結(jié)果的一致性;針對證據(jù)綜合模塊,本研究則利用從多篇論文中提煉出的核心觀點作為輸入,進(jìn)行10次重復(fù)操作,比較證據(jù)綜合模塊在處理核心觀點時的一致性。
3"研究結(jié)果與分析
(1)證據(jù)評價智能體模塊的一致性表現(xiàn)
對證據(jù)評價智能體模塊的一致性進(jìn)行評價時,本研究抽取了一篇研究論文《SNP教學(xué)模式在促進(jìn)物理科學(xué)思維發(fā)展中的應(yīng)用與思考》作為測評樣本,除給智能體輸入該論文的全文外,還提煉了該論文核心觀點的主題詞——“物理教學(xué)模式”。經(jīng)過比較,10次操作中智能體均能完全參照指令中的評價指標(biāo)、標(biāo)準(zhǔn)按步驟完成任務(wù)并對解決思路形成清晰解釋。
以下是三個智能體的一致性表現(xiàn):①對質(zhì)量評審者智能體的10次評價結(jié)果進(jìn)行Kendall一致性分析,發(fā)現(xiàn)p值=0.000<0.001,Kendall W系數(shù)=0.544,說明該智能體的10次輸出對該論文9個維度的打分一致性處于中等水平。②精準(zhǔn)評定者智能體的10次論文等級評定結(jié)果都為B級,一致性達(dá)到100%。③觀點提煉者智能體提煉的10次核心觀點均來自論文原文。本研究參考Zambrano等[19]提出的人工智能輔助方法分析觀點提煉者的一致性表現(xiàn),通過GPT-4模型對每次提煉的觀點進(jìn)行語義切片與主題提取,并由兩名研究者人工校對。此外,本研究采用杰卡德系數(shù)計算不同輪次中主題之間的相似度,該方法通過衡量兩個集合的交集與并集比,反映不同提煉結(jié)果在主題上的重合度,最終形成一致性矩陣,如表1所示。分析結(jié)果表明,觀點提煉的一致性大多處于中等水平。
(2)證據(jù)綜合智能體模塊的一致性表現(xiàn)
在證據(jù)綜合智能體模塊的測試中,本研究使用證據(jù)評價模塊將從10篇論文中提取的核心觀點作為樣本,并對每個樣本進(jìn)行編號。通過對10次操作的輸出結(jié)果進(jìn)行內(nèi)容分析,發(fā)現(xiàn)在同一操作下三個智能體都能按照規(guī)劃完成任務(wù),并確保前后輸出的一致性;在不同操作之間,智能體在核心概念歸納、主題提取和關(guān)系提取方面存在一定的一致性差異。
①核心概念歸納情況:在10次操作中共歸納了20個類型的核心概念。值得注意的是,某些概念在不同的提取結(jié)果中被歸入不同主題,如“證據(jù)意識”有時是獨立主題,有時被歸入“能力培養(yǎng)”或“教學(xué)理念”。②主題提取情況:每次操作提取的主題數(shù)量為4~6個,類型差異較大。有些主題聚焦教學(xué)過程,如第3次的“教學(xué)方法”“教學(xué)效果和評價”;有些則更關(guān)注理論與能力,如第7次的“物理模型建構(gòu)”“核心素養(yǎng)與思維能力”。③關(guān)系提取情況:提取的關(guān)系數(shù)量為6~10對,部分關(guān)系注重理論與實踐的聯(lián)系,如第2次的“教學(xué)理論和方法對學(xué)生能力培養(yǎng)的影響”“教學(xué)理論和方法對教學(xué)工具和技術(shù)的影響……”等;有些則更關(guān)注不同設(shè)計環(huán)節(jié)之間的聯(lián)系,如第8次的“評價與反饋對物理模型的理解與應(yīng)用”“教學(xué)理論與方法對教學(xué)工具與方法的選擇……”等。盡管存在以上差異,本研究也發(fā)現(xiàn),隨著操作次數(shù)的增加,從第7次操作開始,智能體不再產(chǎn)生新的主題、概念或關(guān)系,表明文本分析已達(dá)到飽和狀態(tài)。
總體而言,智能體工具展現(xiàn)出了基于任務(wù)規(guī)劃、以模擬研究團(tuán)隊的方式解決研究問題的能力。然而,本研究也觀察到了該工具每次生成的結(jié)果都具有概率性,整體一致性處于中等水平。而通過多次操作,本研究發(fā)現(xiàn)可以在一定程度上彌補(bǔ)單次生成結(jié)果的概率性問題。
(3)案例研究結(jié)果總結(jié)
在第一階段(人類團(tuán)隊元綜合),參與者通過團(tuán)隊共同合作,完成了對10篇論文的證據(jù)評價和證據(jù)綜合工作,并且以教學(xué)模式圖的形式表達(dá)元綜合結(jié)果。與此同時,智能體的元綜合工作同步進(jìn)行,最終研究者按照智能體的元綜合結(jié)果繪制教學(xué)模式圖。如圖3所示,通過比較人類團(tuán)隊和智能體的元綜合結(jié)果,不難看出:元綜合智能體給出的物理教學(xué)模式圖所涵蓋的主題和關(guān)系更加全面、更具有解釋性。這表明元綜合智能體相比人類研究型團(tuán)隊,更擅長定位文本中容易忽視的關(guān)鍵點和關(guān)鍵點之間的聯(lián)系。
在第二階段(智能體輔助元綜合),人類團(tuán)隊在智能體工具的支持下完成了對剩余10篇論文的元綜合任務(wù)。隨后,對團(tuán)隊成員進(jìn)行現(xiàn)場調(diào)查,結(jié)果顯示:在12名成員中,認(rèn)為智能體生成的結(jié)果非常準(zhǔn)確、準(zhǔn)確的分別占83%、17%。在進(jìn)一步詢問智能體與人類的合作體驗時,參與者均給出了積極反饋,但對智能體的角色認(rèn)知存在差異。例如,林同學(xué)認(rèn)為“它是一個可靠的隊友。我給它一個點,它可以給不同維度的思路”;吳同學(xué)表示“它比較像一個有思考的信息搜集官。我們把東西給它,它就能在里面收集到我們想要的信息,經(jīng)過提煉再返回給我們”;謝同學(xué)覺得“它就像得力的秘書,可以處理各類工作的初稿。你可以將任務(wù)給它,然后自己再審閱細(xì)節(jié),進(jìn)行必要優(yōu)化”;王同學(xué)認(rèn)為“它像雷達(dá)一樣可以在儀表上定位我們最需要的東西,然后做一個準(zhǔn)確的研究”;而李同學(xué)指出“它有兩個角色。第一個是翻譯官,它可以把長篇文章簡單地翻譯給你聽。第二個是總裁的特別助理,因為它能夠簡單地梳理出各種關(guān)系,并幫助你快速解釋這些關(guān)系”。本研究認(rèn)為,參與者對智能體角色的不同認(rèn)知,可能與個人特征(如科研能力和對人工智能的熟悉程度)有關(guān)。
四 總結(jié)與建議
大語言模型為教育研究帶來了重要的技術(shù)支持。本研究以“元綜合”為典型示范場景,采用智能體方法設(shè)計應(yīng)用模式,開發(fā)元綜合智能體工具,并通過工具測評和案例研究評估了智能體在教育研究中的應(yīng)用表現(xiàn),重構(gòu)了元綜合的工作模式,通過引入智能體工具,為定性研究提供了新的人機(jī)協(xié)同方式。此外,本研究中的探索性案例揭示了智能體優(yōu)化教育研究過程的可行性,智能體實現(xiàn)了對元綜合任務(wù)的有效規(guī)劃、保障了分析過程的規(guī)范性、強(qiáng)化了對推理過程的感知。工具測評結(jié)果顯示,智能體能按要求執(zhí)行任務(wù),但每輪生成結(jié)果的一致性整體偏中等?;趯υC合智能體應(yīng)用模式、工具實現(xiàn)和案例研究的總結(jié),本研究提出以下策略,以充分發(fā)揮智能體的優(yōu)勢,同時應(yīng)對其局限性,為教育研究提供更有效的支持:
①智能體的應(yīng)用要始終對齊教育研究過程。這種對齊主要體現(xiàn)在兩個方面:首先,智能體的問題解決步驟和文本處理過程應(yīng)與教育研究實施操作的步驟保持一致,這意味著智能體在教育研究中的應(yīng)用建立在對研究過程充分理解的基礎(chǔ)之上。因此,可以根據(jù)研究過程對智能體的工作進(jìn)行細(xì)致劃分,使不同智能體像緊密合作的研究團(tuán)隊一樣共同完成科研任務(wù)。其次,需要將開展研究所需的方法規(guī)范、評價標(biāo)準(zhǔn)和參與角色等嵌入每個智能體的提示指令,從而規(guī)定智能體輸出結(jié)果的范圍。在這一過程中,每個智能體的輸出代表研究過程的階段性結(jié)果,不僅確保了研究每一步驟的規(guī)范性,也使每個步驟變得可解釋。
②對智能體生成結(jié)果的反思強(qiáng)化。本研究通過多輪測試發(fā)現(xiàn),元綜合智能體對同一問題的解決結(jié)果具有概率性,但在實踐案例中,智能體生成結(jié)果的可靠性得到了人類團(tuán)隊的肯定?;谶@一現(xiàn)實情況,本研究提出了智能體反思強(qiáng)化的應(yīng)用策略,用于優(yōu)化人機(jī)協(xié)同:可以將智能體多輪生成的結(jié)果視為多個評委專家對同一問題的決策結(jié)果,用戶基于自己的專業(yè)能力,針對每個“專家”提供的結(jié)果和解釋過程作出評判。此外,這種人機(jī)共同開展科研工作的方式還可以進(jìn)一步拓展為“多人類成員+教育研究智能體”的模式,通過對智能體結(jié)果進(jìn)行集體反思,確保人工智能應(yīng)用的規(guī)范性。
③對用戶的更高能力要求。按照大語言模型應(yīng)用的“人在回路中”標(biāo)準(zhǔn),智能體的生成結(jié)果仍需經(jīng)過人類決策后才能付諸實踐[20]。本研究認(rèn)為,科研人員利用智能體解決研究問題的前提,是其本身須具備相關(guān)教育研究問題的扎實方法論知識和豐富實踐經(jīng)驗。這些基礎(chǔ)能力使研究者能夠準(zhǔn)確甄別智能體的輸出結(jié)果,并將其有效轉(zhuǎn)化為研究決策。另外,用戶還需具備對科研智能體的輸出和應(yīng)用流程進(jìn)行持續(xù)優(yōu)化的能力,以確保在研究需求不斷變化的過程中,用戶能夠靈活調(diào)整智能體的應(yīng)用方式,使其始終適應(yīng)研究的動態(tài)需求。
值得一提的是,本研究通過案例分析發(fā)現(xiàn)了幾個值得深入探討的研究方向,包括用戶的能力特征對智能體協(xié)同過程可能產(chǎn)生的影響、智能體在不同類型科研團(tuán)隊中可能承擔(dān)的角色等。對這些內(nèi)容的深入研究,將有助于提出更加直接的智能體應(yīng)用策略,從而進(jìn)一步優(yōu)化教育研究過程。
參考文獻(xiàn)
[1]張惠彬,許蕾.生成式人工智能在教育領(lǐng)域的倫理風(fēng)險與治理路徑——基于羅素大學(xué)集團(tuán)的實踐考察[J].現(xiàn)代教育技術(shù),2024,(6):25-34.
[2]中華人民共和國教育部.2024世界數(shù)字教育大會發(fā)布“人工智能賦能教育發(fā)展”倡議[OL]."lt;http://www.moe. gov.cn/
jyb_xwfb/xw_zt/moe_357/2024/2024_zt02/pxhy/pxhy_znll/pxhy_znll_mtbd/202402/t20240201_1113848.htmlgt;
[3]董艷,陳輝.生成式人工智能賦能跨學(xué)科創(chuàng)新思維培養(yǎng):內(nèi)在機(jī)理與模式構(gòu)建[J].現(xiàn)代教育技術(shù),2024,(4):5-15.
[4]陳向東,趙麗娟,劉澤民.拓展學(xué)科的疆域:大模型的涌現(xiàn)能力對學(xué)習(xí)科學(xué)的影響[J].現(xiàn)代教育技術(shù),2024,(1):44-54.
[5]張鵬,汪旸,尚俊杰.生成式人工智能與教育變革:價值、困難與策略[J].現(xiàn)代教育技術(shù),2024,(6):14-24.
[6]鄭永紅,王辰飛,張務(wù)偉.生成式人工智能教育應(yīng)用及其規(guī)制[J].中國電化教育,2024,(5):114-119.
[7]Bronstein J, Reihlen M. Entrepreneurial university archetypes: A meta-synthesis of case study literature[J]. Industry and Higher Education, 2014,(4):245-262.
[8]Zheng Y, Koh H Y, Ju J, et al. Large language models for scientific synthesis, inference and explanation[J]. arXiv Preprint arXiv:2310.07984, 2023.
[9]Liu R, Shah N B. ReviewerGPT?"An exploratory study on using large language models for paper reviewing[J]. arXiv Preprint arXiv:2306.00622, 2023.
[10]Liang W, Zhang Y, Cao H, et al. Can large language models provide useful feedback on research papers? A large-scale empirical analysis[J]. NEJM AI, 2024,(8):AIoa2400196.
[11]翟雪松,季爽,焦麗珍,等.基于多智能體的人機(jī)協(xié)同解決復(fù)雜學(xué)習(xí)問題實證研究[J].開放教育研究,2024,(3):63-73.
[12]Zhang Z, Yao Y, Zhang A, et al. Igniting language intelligence: The hitchhiker’s guide from chain-of-thought reasoning to language agents[J]. arXiv Preprint arXiv:2311.11797, 2023.
[13]Xi Z, Chen W, Guo X, et al. The rise and potential of large language model based agents: A survey[J]. arXiv Preprint arXiv:2309.07864, 2023.
[14]Qian C, Cong X, Yang C, et al. ChatDev: Communicative agents for software development[J]. arXiv Preprint arXiv:2307.07924, 2023.
[15]Park J S, O’Brien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[A]. Proceedings of the 36th Annual ACM"Symposium on User Interface Software and Technology[C]. New York:"Association for Computing Machinery,"2023:1-22.
[16]仇星月,陳向東,褚樂陽,等.協(xié)作學(xué)習(xí)中的群體感知:概念的發(fā)展與融合[J].遠(yuǎn)程教育雜志,2022,(3):85-96.
[17]Munn Z, Tufanaru C, Aromataris E. Recognition of the health assistant as a delegated clinical role and their inclusion in models of care: A"systematic review and meta-synthesis of qualitative evidence[J]. International Journal of Evidence-Based Healthcare, 2013,(1):3-19.
[18]Shen X, Chen Z, Backes M, et al. In ChatGPT"we trust? Measuring and characterizing the reliability of ChatGPT[J]. arXiv Preprint arXiv:2304.08979, 2023.
[19]Zambrano A F, Liu X, Barany A, et al. From nCoder to ChatGPT: From automated coding to refining human coding[A]. International Conference on Quantitative Ethnography[C]. Cham: Springer, 2023:470-485.
[20]禇樂陽,潘香霖,陳向東.AI大模型在教育應(yīng)用中的倫理風(fēng)險與應(yīng)對[J].蘇州大學(xué)學(xué)報(教育科學(xué)版),2024,(1):87-96.
Meta-synthesis Research Supported"by Large Language Model: An Agent-based Approac
QIU"Xing-Yue1""""CHEN Xiang-Dong2""""CHEN Peng2""""CHU"Le-Yang3""""CUI"Meng1
(1. College of Teacher’s Education, Guangdong University of Education, Guangzhou,"Guangdong, China"510310;
2. Department of Educational Information Technology, East China Normal University, Shanghai, China"200062;
3."Journalism and Media College, Yangzhou University, Yangzhou,"Jiangsu, China 225009)
Abstract:"With their robust analytical and inferential capabilities,"large language model (LLM) are transforming educational research paradigms, particularly made"significant advancements in agent technology, which provides strong support for systematically solving complex problems in the scientific research field. Based on this, the paper focused"on the typical research task scenarios of meta-synthesis, and discussed how to provide more systematic support with an agent-based approach. Firstly, this"paper introduced"the application principles for meta-synthesis agent application, including multi-step planning, collaborative mode"construction, prompt empowerment, and tool integration, designed an application mode involving the coordinated efforts of six agents,"as well as"developed a"meta-synthesis agent tool based on this mode. Then, the agent tool was applied to typical meta-synthesis tasks"through case studies. It was found that"compared to human teams, the agent can"perform the task in accordance with the meta-synthesis research process better and generate more comprehensive results. Meanwhile, human teams gave"positive evaluation"on the accuracy and user experience"of the agent during the application process. Finally, based on the research findings, this paper put forward the application strategy of the"agents in educational research, in order to offer"a"new insight"of"man-machine"collaboration for solving the practical problems of"educational research.
Keywords:"large language model; agent; meta-synthesis; educational research
*基金項目:本文受2023年度全國教育科學(xué)規(guī)劃一般課題“基于大語言模型的青少年人工智能教育研究”(項目編號:BCA230276)、廣東省普通高校特色創(chuàng)新類項目(人文社科)“多模態(tài)數(shù)據(jù)支持的在線自主學(xué)習(xí)路徑個性化規(guī)律挖掘與應(yīng)用研究”(項目編號:2022WTSCX083)資助。
作者簡介:仇星月,講師,博士,研究方向為大語言模型教育應(yīng)用、協(xié)作學(xué)習(xí)、群體感知和共享調(diào)節(jié),郵箱為qiuxingyue@gdei.edu.cn。
收稿日期:2024年8月5日