自從以ChatGPT為代表的GenAI問世以來,其便以其卓越的特征學(xué)習(xí)能力和獨特的自適應(yīng)性,顛覆性地推動了教育智能化進程[]?;谏赡P秃蜕疃葘W(xué)習(xí)技術(shù),GenAI重在從大規(guī)模數(shù)據(jù)的分布模型中抽象出內(nèi)在結(jié)構(gòu)與概率分布,實現(xiàn)文本、圖像等多種形式的信息自主生成[2]。聚焦教育場景,以“子曰”“訊飛星火認知大模型”等為代表的教育垂直大模型通過提供高度智能的個性化學(xué)習(xí)支持,推動GenAI從教育賦能工具向教育智能體變革[3]。在此過程中,GenAI教育應(yīng)用呈星火燎原之勢,涵蓋GenAI教育應(yīng)用策略、GenAI支持下的學(xué)習(xí)范式轉(zhuǎn)型、GenAI教育提示工程、GenAI支持的教育內(nèi)在機制等多維度、深層次主題的理論探索與實踐驗證,其技術(shù)迭代帶來的應(yīng)用革新倒逼教育領(lǐng)域的技術(shù)應(yīng)用形態(tài)重塑。
一問題分析
為深入、科學(xué)地把握GenAI教育場景的應(yīng)用現(xiàn)狀,研究者紛紛嘗試進行綜述性研究,圍繞教育場景變革、智能技術(shù)應(yīng)用探索與潛在風險規(guī)避,剖析GenAI重塑教育新形態(tài)的路徑與挑戰(zhàn)[4]。但是,當前研究在學(xué)科視角與主題分析方法方面存在不足,無法滿足研究主題在應(yīng)用場景、算法工具、評價方式等多維度呈現(xiàn)的主題特征復(fù)雜性和主題建模工具在文本挖掘深度、主題數(shù)選取等算法層面有效性的需求。
1局限于單一學(xué)科應(yīng)用,缺少系統(tǒng)視域引領(lǐng)
現(xiàn)有的GenAI教育應(yīng)用相關(guān)文獻多聚焦于單一學(xué)科,并以大語言模型在語言、醫(yī)學(xué)等課程中的應(yīng)用為熱點。例如,Jeon等[5深入剖析了37項聊天機器人在語言學(xué)習(xí)場景的實證研究,依據(jù)目標導(dǎo)向、具身性、多模態(tài)化三個指標,構(gòu)建了GenAI聊天機器人在語言學(xué)習(xí)的應(yīng)用框架;Lucas 等基于醫(yī)學(xué)學(xué)科的學(xué)習(xí)特點,分析了GenAI在增強學(xué)習(xí)中的潛力,創(chuàng)新性地提出從批判性評估、跨學(xué)科合作兩個視角優(yōu)化GenAI教育場景的應(yīng)用策略。但是,目前GenAI教育應(yīng)用領(lǐng)域尚缺乏一個融合學(xué)科特征、技術(shù)應(yīng)用、風險倫理等多維因素的系統(tǒng)視域,來對現(xiàn)有的研究實踐進行系統(tǒng)性綜合分析,以明晰GenAI在教育領(lǐng)域的應(yīng)用路徑,推動其在更廣泛學(xué)科和教育環(huán)節(jié)中的融合與創(chuàng)新。
2基于編碼的文獻分析,未能充分挖掘文本的深層信息
在GenAI教育應(yīng)用的綜述性研究中,研究者多采用系統(tǒng)編碼的方法進行文獻分析。例如,Yan等[7]依據(jù)GenAI教育任務(wù)的自動化完成程度及其面臨的倫理風險,對GenAI在教育文本分析與生成領(lǐng)域的應(yīng)用文獻進行系統(tǒng)編碼,以剖析該領(lǐng)域的研究現(xiàn)狀及其面臨的道德風險;Chen等8依托扎根理論,深入探討了GenAI教育應(yīng)用的核心優(yōu)勢和潛在風險。然而,基于編碼的綜述方法容易受主觀性偏差、語境解讀不足、數(shù)據(jù)過度簡化的制約,不能充分挖掘文本材料的內(nèi)在深層信息,其雖然揭示了文獻中的顯性內(nèi)容和模式,但對于理解文本背后的深層次含義、多段文本關(guān)聯(lián)性和文化語境等顯得力不從心。而在其他學(xué)科領(lǐng)域,為明晰主題發(fā)展脈絡(luò),已有研究者開始引入深度學(xué)習(xí)算法,通過深層語義挖掘與跨文本關(guān)聯(lián)分析,突破傳統(tǒng)編碼局限,為揭示主題潛在邏輯提供洞察路徑。例如,徐漢青使用 BERTopic 主題建模工具,構(gòu)建了 AI在圖書情報學(xué)的主題模型,用于進行更具前瞻性和應(yīng)用價值的主題演化分析與趨勢預(yù)測。
綜上,在GenAI加速迭代、應(yīng)用廣度與深度不斷拓展的背景下,本研究嘗試從領(lǐng)域特征出發(fā),對自動化主題建模工具 BERTopic 進行改進,并將改進后的BERTopic工具用于GenAI教育應(yīng)用主題聚類,通過主題聚類結(jié)果剖析,梳理該領(lǐng)域的研究脈絡(luò)、熱點與趨向,進而建構(gòu)GenAI教育應(yīng)用的主題模型,從主題建模工具探索與研究視角拓展層面為GenAI賦能教育場景提供參考。
二自動化主題建模工具BERTopic的改進
為深入挖掘GenAI教育應(yīng)用的研究主題,克服當前研究在學(xué)科視角與分析方法中的局限,本研究引入Grootendorst[]提出的集成了預(yù)訓(xùn)練大型語言模型特征分析優(yōu)勢的自動化主題建模工具——BERTopic,并對其進行了改進。BERTopic 是一種基于文檔聚類的主題建模工具,其結(jié)合雙向編碼器表示轉(zhuǎn)換器(Bidirectional Encoder Representations from Transformers,BERT)預(yù)訓(xùn)練模型與主題聚類算法,能通過語義嵌入提取文本深層特征并聚類生成主題,實現(xiàn)主題演化分析與趨勢預(yù)測,已被證明在處理非結(jié)構(gòu)化文本數(shù)據(jù)、推導(dǎo)出文本中的共同主題和潛在語義結(jié)構(gòu)等方面的效率與準確性均高于主流的主題聚類工具[1]。
1BERTopic工具的改進
為實現(xiàn)對特定學(xué)科領(lǐng)域核心概念的深度解構(gòu)以提高主題凝練的準確性,本研究根據(jù)教育技術(shù)領(lǐng)域知識建模的需求,從結(jié)構(gòu)和算法兩個維度對BERTopic主題建模工具進行了改進。
(1)結(jié)構(gòu)維度的改進
BERTopic工具的架構(gòu)關(guān)注聚類與特征工程,其應(yīng)用主要按照嵌入、降維、聚類、主題表示四個步驟實施。BERTopic的主題聚類效果高度依賴通用預(yù)訓(xùn)練模型(如 BERT)的語義表征能力和基礎(chǔ)聚類算法(如HDBSCAN)的適應(yīng)性,而對于專業(yè)的教育技術(shù)領(lǐng)域知識體系缺乏深度理解,導(dǎo)致主題提取結(jié)果與教育技術(shù)學(xué)科的理論框架、實踐需求存在語義偏差。為此,本研究從以下方面對 BERTopic 進行了結(jié)構(gòu)性的改進:
① 領(lǐng)域知識本體映射機制。為減少數(shù)據(jù)偏差,輔助聚類算法更準確地捕捉到文本的語義信息,本研究在數(shù)據(jù)預(yù)處理階段首先引入詞還原算法,將詞語還原成其詞典形式(如將網(wǎng)絡(luò)用語還原為書面語);之后,為確保文本輸入的語義一致性,本研究設(shè)計了領(lǐng)域關(guān)鍵詞映射表,通過對同義術(shù)語(如AI教育、智能教育、智慧教育)進行等價映射、對上下位概念(如學(xué)習(xí)分析與教育數(shù)據(jù)挖掘)進行層次映射,來確保聚類算法能夠理解文本基本概念,同時能夠采用標準化且高效的方式進行文本嵌入降維。
② 數(shù)據(jù)預(yù)探索。為提升主題建模結(jié)果的準確性與可解釋性,本研究在進行聚類分析之前運用KeyBERT關(guān)鍵詞提取算法,對摘要文本進行主題預(yù)探索。通過對高頻關(guān)鍵詞的綜合分析,在無指導(dǎo)信息的情況下,本研究挖掘了文本數(shù)據(jù)的潛在主題,并根據(jù)教育技術(shù)領(lǐng)域相關(guān)文獻綜述的主題分析結(jié)果,結(jié)合領(lǐng)域?qū)<业膶I(yè)意見,設(shè)計了零次聚類候選主題列表。該列表將同摘要文本一并嵌入,在后續(xù)使用余弦相似度時將文檔的嵌入與預(yù)定義的候選主題詞標簽進行比較,若大于設(shè)定閾值,則零樣本主題將分配給文檔。針對無法完成匹配的摘要文本,本研究采用BERTopic 的標準流程進行迭代聚類,通過動態(tài)調(diào)整聚類參數(shù)和密度峰值,發(fā)現(xiàn)并提煉新的潛在主題。
③ 多元主題表征與微調(diào)。在BERTopic主題表示階段,單一模型在主題表征的深度與多樣性方面存在局限。鑒于此,本研究構(gòu)建了多算法協(xié)同優(yōu)化機制,充分利用多種關(guān)鍵詞增強算法的優(yōu)勢,優(yōu)化主題關(guān)鍵詞的代表性、適用性和可解釋性;同時引入GPT接口,充分發(fā)揮大語言模型在文本分析方面的優(yōu)勢,通過Prompt工程對各算法生成的主題關(guān)鍵詞列表、主題原始文檔信息、零次聚類候選關(guān)鍵詞信息進行整合,進一步闡明目標主題的學(xué)科場景定位,從而完成該場景下的精準定位與關(guān)鍵主題提取,最終構(gòu)建出適配學(xué)科領(lǐng)域的GenAI教育應(yīng)用主題名稱及其關(guān)鍵詞表征。
(2)算法維度的改進
本研究主要從兩個方面對BERTopic進行算法維度的改進: ① 嵌入模型微調(diào),聚焦模型嵌入的領(lǐng)域適配性,采用領(lǐng)域內(nèi)標注語料庫(涵蓋在線教育社區(qū)語料、教育技術(shù)研究論文摘要等)對BERT嵌入模型進行微調(diào),提高其對GenAI教育應(yīng)用領(lǐng)域?qū)I(yè)術(shù)語的語義表征能力。 ② 主題關(guān)鍵詞表征,關(guān)注算法選型,首先考慮權(quán)重計算中同一詞匯的不同形態(tài)(如時態(tài)、語態(tài)等)所引起的重復(fù)計算,引入最大邊際相關(guān)性(Maximal Marginal Relevance)算法,以降低此類冗余并增加關(guān)鍵詞的多樣性;其次,為優(yōu)化關(guān)鍵詞提取過程并融入詞的語篇信息,采用詞性標注(Part-of-Speech Tagging)算法,通過分析關(guān)鍵詞的詞性并結(jié)合其上下文語境,對主題詞序列進行精準調(diào)整;最后,為進一步強化關(guān)鍵詞在語篇中的代表性,采用 KeyBERTInspired模型利用預(yù)訓(xùn)練的BERT來捕捉文本中的深層語義信息,據(jù)此對主題詞序列進行微調(diào)。
2改進后的BERTopic主題聚類流程
對 BERTopic進行改進后,本研究設(shè)計了改進后的BERTopic主題聚類流程,主要包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索、聚類與特征工程、主題挖掘與微調(diào)四個關(guān)鍵環(huán)節(jié),如圖1所示。具體來說,在數(shù)據(jù)預(yù)處理環(huán)節(jié),研究人員先設(shè)計領(lǐng)域關(guān)鍵詞映射表,并應(yīng)用詞還原算法對原始摘要文本進行數(shù)據(jù)預(yù)處理,將其轉(zhuǎn)換為無詞性差異、無上下文歧義的標準化文本。在數(shù)據(jù)探索環(huán)節(jié),研究人員可借助KeyBERT算法從標準化文本中提取核心關(guān)鍵詞,并通過文獻調(diào)研與專家研討,構(gòu)建研究領(lǐng)域的候選主題詞表。在聚類與特征工程環(huán)節(jié)(圖1 的綠色模塊標識了該環(huán)節(jié)的算法選型),標準化文本與候選主題詞表首先會在嵌入過程中被轉(zhuǎn)換為詞向量,并通過降維算法將詞向量映射為低維表征,以提升聚類精度;接著,依據(jù)詞向量之間的相似度計算,形成主題群;之后,經(jīng)過標簽化和權(quán)重化處理,文本向量將依據(jù)文本詞頻轉(zhuǎn)變?yōu)樵~頻數(shù)值表征的特征向量,且在權(quán)重化時會充分考慮特征向量在主題聚類和文檔中的重要性;最終,標準化文本會被轉(zhuǎn)換為與文本特征同聚類主題相對應(yīng)的主題-文檔矩陣。在主題挖掘與微調(diào)環(huán)節(jié),本研究采用OpenAI、MMR 等多種算法依據(jù)主題代表性、上下文關(guān)聯(lián)性等參數(shù)進一步挖掘潛在主題,并結(jié)合候選主題詞表完成對主題模型的微調(diào),以發(fā)揮大語言模型在特征分析與內(nèi)容生成方面的優(yōu)勢,完成GenAI教育應(yīng)用研究主題的命名與描述,進而通過主題聚類結(jié)果剖析,構(gòu)建GenAI教育應(yīng)用主題模型。
經(jīng)過上述流程,原始摘要文本被系統(tǒng)轉(zhuǎn)換為結(jié)構(gòu)化的主題-文檔語義網(wǎng)絡(luò),其包括主題層級關(guān)系、關(guān)鍵詞權(quán)重分布、文檔關(guān)聯(lián)強度三個核心要素。綜合文獻分析與三要素特征,研究人員不僅能直觀展示研究領(lǐng)域的主題演變趨勢和研究熱點分布,還能通過主題之間的語義關(guān)聯(lián)分析,構(gòu)建領(lǐng)域主題模型。
3改進后的BERTopic成效
在教育文本主題建模領(lǐng)域,LDA作為經(jīng)典的概率主題模型,能夠從大量文本數(shù)據(jù)中識別出隱含主題,已形成應(yīng)用范式[12]。為驗證改進后的 BERTopic 工具在GenAI教育應(yīng)用場景摘要主題分析方面的有效性,本研究采用離群點數(shù)、輪廓系數(shù)(Silhouete Score,SC)和卡拉欽斯基-哈拉巴斯(Calinski-Harabasz,CH)指數(shù)3個指標,將改進后的BERTopic與BERTopic、LDA的主題聚類效果進行了對比,結(jié)果如表1所示。其中,離群點數(shù)表示聚類結(jié)果中未被歸入任何簇的異常樣本數(shù)量,其值越小,表示聚類算法對數(shù)據(jù)結(jié)構(gòu)的包容性越強;SC用于衡量主題的內(nèi)聚性,其值越接近1,表示同一主題下的樣本點距離越近而不同主題下的樣本距離越遠;CH指數(shù)用于衡量聚類主題內(nèi)部的緊密度與主題之間的分離度,其值越大,表示主題內(nèi)部越緊密且不同主題之間越分離。表1顯示,無論是否改進,BERTopic在3個指標的表現(xiàn)均優(yōu)于LDA,這一結(jié)論與Khodeir 等[3]提出的“BERTopic 能全面、連貫地區(qū)分和提取各種主題”基本一致;與 BERTopic和LDA相比,改進后的BERTopic的SC值、CH值均為最大,說明此工具的主題聚類效果最佳。
三GenAI教育應(yīng)用的主題聚類結(jié)果剖析
立足國際視域,為建構(gòu)GenAI教育應(yīng)用的主題模型,汲取GenAI教育應(yīng)用的相關(guān)國際經(jīng)驗,本研究以 Web of Science 數(shù)據(jù)庫的核心期刊為數(shù)據(jù)來源,使用檢索式“ TS=[Ω Generative Artificial Intelligence’ OR“Generative AI’ OR‘Artificial Intelligence Generated Content’ OR‘AIGC’ OR‘Large Language Model*’ OR‘ChatGPT' OR GPT*'OR GAI' OR ‘GenAI']AND TS=['Education*'OR Teach*'OR‘Student*'OR Learn*']\",其中截詞通配符“*”用于匹配詞干的派生詞,檢索時間設(shè)為2000年1月1日至2024年12月31日,共檢索到相關(guān)文獻5398篇。經(jīng)過三輪滾雪球篩選檢索,按照“ ① 英文; ② 刊發(fā)日期為2000年1月1日至2024年12月31日; ③ 包含摘要且頁數(shù)不少于4頁; ④ 設(shè)計或者優(yōu)化GenAI工具,調(diào)查教育各方主體對GenAI應(yīng)用工具的看法或接受度的文章,評估分析GenAI在教育應(yīng)用中的效能和影響”的納入標準,剔除與研究主題不一致的文獻,最終得到有效文獻 462篇,作為改進后的BERTopic工具進行主題建模的初始文本。
1GenAI教育應(yīng)用研究主題的核心特征剖析
為更加清晰地識別和理解GenAI教育應(yīng)用的研究主題,本研究采用可視化技術(shù)將研究主題的聚類結(jié)果映射到二維坐標系中,并對研究主題中的文檔數(shù)量加以標注,得到研究主題聚類結(jié)果的可視化圖,如圖2所示。圖2顯示,GenAI教育應(yīng)用主要包含六大研究主題,且各研究主題在空間上的分布彼此獨立,沒有出現(xiàn)數(shù)據(jù)點的交叉,表明主題聚類具有良好的區(qū)分度和效果。下文將聚焦于剖析GenAI教育應(yīng)用六大研究主題的核心特征,來呈現(xiàn)GenAI教育應(yīng)用的研究現(xiàn)狀。
(1)GenAI教育效能評估
本研究主題以GenAI 智能為出發(fā)點,探究其在教育領(lǐng)域的應(yīng)用效能。“chatbot”“potential”等關(guān)鍵詞揭示了本研究主題聚焦于通過問答方式測試以ChatGPT為代表的GenAI驅(qū)動的聊天機器人在特定學(xué)科知識測試中的問答表現(xiàn)[14]。測評方法主要有兩種: ① 通過標準化測試,對GenAI的學(xué)業(yè)表現(xiàn)進行量化,并與學(xué)習(xí)者的學(xué)業(yè)成績進行比較,以評估GenAI在學(xué)術(shù)知識理解方面的深度。例如,Stribling 等[15]對 GPT-4在生物醫(yī)學(xué)研究生水平考試中的表現(xiàn)進行了評估,結(jié)果顯示GenAI的得分整體高于學(xué)習(xí)者的平均成績,但在圖表和手繪題的理解方面存在不足,甚至答案中還出現(xiàn)了幻覺效應(yīng)和剽竊嫌疑。 ② 通過內(nèi)容分析法,考察GenAI 對問題解釋的可靠性及其是否具備高層次的批判性思維和多元邏輯推理能力。例如,Tsoutsanis等[1]從知識獲取能力、專業(yè)性、準確率等維度對主流大型語言模型在醫(yī)學(xué)教育場景中的應(yīng)用進行了評估,以衡量GenAI在教育應(yīng)用中的思維能力和質(zhì)量。
(2)智能教育與GenAI工具
本研究主題關(guān)注GenAI技術(shù)智能與智能化教學(xué)實踐需求的交匯點,以“education”“physics”為代表的關(guān)鍵詞顯示其立足于學(xué)科教學(xué)的具體特征,致力于挖掘GenAI在知識檢索、即時反饋等方面的技術(shù)智能優(yōu)勢,以構(gòu)建針對特定學(xué)科的教學(xué)輔助工具。例如,Kortemeyer[17]從作業(yè)評分的多元性與繁瑣性切入,根據(jù)GenAI對物理作業(yè)中的論證推導(dǎo)題目作答情況進行評分;Guo等[18]關(guān)注課堂辯論場景,設(shè)計了GenAI機器人模擬辯論中的正反方角色,引導(dǎo)學(xué)習(xí)者在辯論稿撰寫的過程中進行思維發(fā)散與邏輯建構(gòu)。綜合本研究主題的相關(guān)文獻內(nèi)容來看,GenAI工具在理解和生成文本方面表現(xiàn)出色,為其在教學(xué)設(shè)計和評估中充當輔助角色提供了可能,但因其在具體學(xué)科知識的準確性、可靠性等方面仍然有限,讓其作為“無所不知”的信息資源提供者為時尚早,需要人工智能工程師、教育研究者等多方協(xié)作來克服這些挑戰(zhàn)[19],以確保 GenAI工具在教育領(lǐng)域能夠最大程度地發(fā)揮輔助作用。
(3)GenAI協(xié)作寫作的反饋機制
本研究主題聚焦ChatGPT在教育寫作場景中的應(yīng)用機制研究,其從ChatGPT的文本生成能力出發(fā),探索GenAI輔助學(xué)習(xí)者進行學(xué)術(shù)寫作的新型應(yīng)用路徑。關(guān)鍵詞“writing”“feedback”等顯示,本研究主題著重剖析ChatGPT輔助學(xué)習(xí)者進行學(xué)術(shù)寫作時針對寫作內(nèi)容提供個性化反饋的內(nèi)在機制,探索如何借助GenAI卓越的文本生成功能,培養(yǎng)學(xué)習(xí)者寫作任務(wù)中的文本創(chuàng)造性能力。例如,Wang等[20采用質(zhì)性研究方法,對50組經(jīng)教師評分的議論文樣本展開分析,發(fā)現(xiàn)ChatGPT反饋全面,能夠依據(jù)學(xué)習(xí)者寫作的上下文特征做出響應(yīng)。但是,GenAI協(xié)作寫作的反饋機制存在局限,如易受文本長度、標記符號的影響,且在個性化教學(xué)方面多局限于單一的對話情境。
(4)教育領(lǐng)域?qū)enAI的技術(shù)接受度
本研究主題圍繞“perceive”“use”等關(guān)鍵詞,關(guān)注學(xué)習(xí)者的GenAI使用動機、技術(shù)接受度和安全倫理等。技術(shù)接受模型(Technology Acceptance Model,TAM)為理解學(xué)習(xí)者對 GenAI這一新型智能工具的接受度提供了一個有力的理論框架,其通過感知有用性、感知易用性等維度來評估學(xué)習(xí)者對技術(shù)的接受度,不僅有助于預(yù)防GenAI技術(shù)的濫用,還能推動GenAI更深層次地滿足學(xué)習(xí)者的學(xué)習(xí)需求。例如,Rahman等[21]從感知有用性、感知易用性和感知信息性三個維度,調(diào)查了學(xué)習(xí)者使用ChatGPT輔助學(xué)習(xí)的態(tài)度,并預(yù)測了學(xué)習(xí)者的使用意圖。然而,學(xué)習(xí)者信息泄露、模型“黑盒”的不可解釋性等問題,構(gòu)成了GenAI教育應(yīng)用情境中人-機交互倫理方面的挑戰(zhàn)。這些挑戰(zhàn)要求我們在推動GenAI教育應(yīng)用的同時,必須對相關(guān)的倫理風險進行全面的考量和嚴格的管理。
(5)GenAI賦能自我調(diào)節(jié)學(xué)習(xí)
本研究主題圍繞“student”“self”等關(guān)鍵詞,從學(xué)習(xí)主體、人機交互過程、自我調(diào)節(jié)機制三個維度,揭示了學(xué)習(xí)者在學(xué)習(xí)體驗過程中與GenAI的深層次人機交互過程。例如,復(fù)合腦賦能的自我調(diào)節(jié)學(xué)習(xí)強調(diào)學(xué)習(xí)者主動選擇并調(diào)用合適的GenAI支持[22],通過主動發(fā)揮主體責任,對反饋結(jié)果進行自我審辨與判斷,決定是否納入已有認知結(jié)構(gòu),并基于自我認知策略的調(diào)節(jié)實現(xiàn)認知目標。Lee等[23]創(chuàng)新性地引入了一種基于指導(dǎo)的ChatGPT輔助學(xué)習(xí)工具,以“指導(dǎo)者角色”給予提示和鼓勵,引導(dǎo)學(xué)習(xí)者在求助GenAI之前先嘗試獨立解決問題,并強調(diào)學(xué)習(xí)者主動進行自我知識建構(gòu),改變了以往以問題指令性回復(fù)為主的ChatGPT教育應(yīng)用模式。此外,Wang 等[24將引導(dǎo)性的GenAI工具融入物聯(lián)網(wǎng),根據(jù)學(xué)習(xí)者在虛擬環(huán)境中的實時表現(xiàn),以反饋性支持的形式輔助調(diào)整知識內(nèi)化活動。上述研究遵循學(xué)習(xí)者的自我調(diào)節(jié)學(xué)習(xí)規(guī)律,利用GenAI智能、實時地分析學(xué)習(xí)者特征并提供引導(dǎo)性支持,充分喚醒學(xué)習(xí)者進行知識建構(gòu)的主觀能動性。
(6)GenAI輔助的人機協(xié)作編程
本研究主題圍繞“programming”“code”等關(guān)鍵詞,聚焦于GenAI工具在人機協(xié)作編程場景中的應(yīng)用表現(xiàn)與實施路徑。隨著GenAI模型算法的迭代優(yōu)化,集成AI優(yōu)勢的智能體(AIAgent)展現(xiàn)出模擬人類智能決策的能力,這種進步推動著以人類認知為主導(dǎo)的單向協(xié)作模式向人與智能體的深度融合模式演進。本研究主題通過剖析GenAI在編程教學(xué)中的知識補償、情感支持等功能,探索其賦能學(xué)習(xí)者深度學(xué)習(xí)的有效策略。例如,Sun等[25]采用準實驗研究方法,系統(tǒng)考察了ChatGPT輔助編程對大學(xué)生編程行為、表現(xiàn)及認知發(fā)展的影響,構(gòu)建GenAI編程導(dǎo)師的教學(xué)支持框架,為GenAI在編程教育領(lǐng)域的實踐提供理論參考。
2GenAI教育應(yīng)用的主題演變趨勢
依據(jù)各研究主題的文獻頻次分布,本研究采用折線圖呈現(xiàn)GenAI教育應(yīng)用的主題演變趨勢。如圖3所示,GenAI教育應(yīng)用的相關(guān)研究主要分布在2023年3月之后。隨著GenAI教育應(yīng)用的不斷深入,教育場景中的GenAI研究主題自2023年4月起呈現(xiàn)出顯著的多元化趨勢:以GenAI教育效能評估的探索性研究為起點,持續(xù)吸引著研究者的目光,各主題研究頻次持續(xù)上升;伴隨教育教學(xué)與GenAI工具融合應(yīng)用的逐步深入,研究主題拓展到學(xué)習(xí)者與GenAI工具交互時的自我調(diào)節(jié)學(xué)習(xí)和知識體系建構(gòu);研究者對技術(shù)接受度與倫理風險方面的問題也越來越重視。GenAI技術(shù)的不斷革新,特別是GPT-4和以“文心大模型 $4 . 0 ^ { \dprime }$ 為代表的大語言模型的迭代升級,使智能工具在文本理解能力上取得了突破性進展,催生了GenAI支持的協(xié)作寫作反饋、人機協(xié)作的編程學(xué)習(xí)等具體教育情景下的全新應(yīng)用主題。這些突破不僅拓展了GenAI教育應(yīng)用的深度與廣度,也為教育技術(shù)的發(fā)展和教育實踐的創(chuàng)新帶來了新的機遇與挑戰(zhàn)。
3聚類主題的層級關(guān)系剖析
通過剖析GenAI教育應(yīng)用六大研究主題的核心特征,本研究明晰了當前GenAI教育應(yīng)用的研究現(xiàn)狀。然而,主題模型的構(gòu)建需要進一步聚焦主題之間的語義關(guān)聯(lián)性與邏輯層級性。根據(jù)各主題之間的相關(guān)性,本研究梳理了聚類主題的層級關(guān)系(如圖4所示),可以看出聚類主題的層級結(jié)構(gòu)鮮明:主題 ② 與主題 ⑤ 構(gòu)成內(nèi)部層級,主題 ① 、主題 ③ 與主題 ⑥ 形成外部層級,而主題 ④ 與這兩個層級相互聯(lián)結(jié),形成完整的GenAI教育應(yīng)用主題網(wǎng)絡(luò)。這種層級化的結(jié)構(gòu)展現(xiàn)了聚類主題的內(nèi)在聯(lián)系,為構(gòu)建GenAI教育應(yīng)用主題模型提供了直接的依據(jù)。
四GenAI教育應(yīng)用的主題模型構(gòu)建
基于上述GenAI教育應(yīng)用的主題聚類結(jié)果,結(jié)合主題內(nèi)部的關(guān)鍵詞特征,本研究將GenAI教育應(yīng)用的六大研究主題凝練為教學(xué)應(yīng)用、技術(shù)應(yīng)用、風險倫理三個維度,并通過智能教育內(nèi)化、技術(shù)倫理風險、技術(shù)接受度三個關(guān)聯(lián)樞紐實現(xiàn)維度聯(lián)結(jié),形成GenAI教育應(yīng)用的主題模型,如圖5所示。
1三個維度
(1)教學(xué)應(yīng)用維度
在GenAI教育應(yīng)用的主題研究中,主題 ② “智能教育與GenAI工具”與主題 ⑤ “GenAI賦能自我調(diào)節(jié)學(xué)習(xí)”之間高度關(guān)聯(lián)成為了一個研究焦點,組成了教學(xué)應(yīng)用維度。本維度堅持“學(xué)習(xí)者為中心”原則,以學(xué)習(xí)者的主動探究行為作為教學(xué)活動的主要驅(qū)動力,致力于有效發(fā)揮GenAI增強智能在學(xué)習(xí)過程的中介作用,構(gòu)建一套系統(tǒng)化的教學(xué)應(yīng)用策略,通過有效的問答反饋輔助提升學(xué)習(xí)者在知識建構(gòu)過程中的主動性和自主性,促進學(xué)習(xí)者的深度學(xué)習(xí)和創(chuàng)新思維發(fā)展。
(2)技術(shù)應(yīng)用維度
GenAI技術(shù)的文本特征處理與內(nèi)容生成能力,不僅在主題 ① “GenAI教育效能評估”方面展現(xiàn)出了其卓越的應(yīng)用潛力,也進一步催生了主題 ③ “GenAI協(xié)作寫作的反饋機制”和主題 ⑥ “GenAI輔助的人機協(xié)作編程”兩個新主題,這些構(gòu)成了技術(shù)應(yīng)用維度的核心內(nèi)容。本維度強調(diào)發(fā)揮GenAI在文本生成、數(shù)據(jù)分析等領(lǐng)域的智能優(yōu)勢,構(gòu)建人機協(xié)作的智能反饋與編程范式,探索技術(shù)工具賦能教育多維場景的可行路徑。
(3)風險倫理維度
本維度聚焦主題 ④ “教育領(lǐng)域?qū)enAI的技術(shù)接受度”,從教育主體對GenAI教育應(yīng)用的滿意度與信任度、GenAI潛在的倫理風險與應(yīng)用邊界問題兩個方面,探討技術(shù)賦能教育的長效機制與發(fā)展路徑。
2三個關(guān)聯(lián)樞紐
上述三個維度的交叉關(guān)聯(lián),是通過以下三個關(guān)聯(lián)樞紐來實現(xiàn)的: ① 智能教育內(nèi)化,主要聯(lián)結(jié)教學(xué)應(yīng)用維度和技術(shù)應(yīng)用維度,強調(diào)智能教育工具設(shè)計與學(xué)習(xí)者學(xué)習(xí)過程的深層關(guān)聯(lián),其核心在于:教育技術(shù)開發(fā)必須以學(xué)習(xí)者需求和學(xué)習(xí)行為為核心,有效發(fā)揮技術(shù)智能的應(yīng)用潛力,以切實服務(wù)于教育實際需求。 ② 技術(shù)倫理風險,主要聯(lián)結(jié)技術(shù)應(yīng)用維度與風險倫理維度,既關(guān)注技術(shù)設(shè)計視角下算法黑盒的可解釋性、隱私數(shù)據(jù)的泄露風險,又關(guān)注技術(shù)應(yīng)用視角下的技術(shù)依賴性、情感缺失和內(nèi)容濫用的倫理風險。 ③ 技術(shù)接受度,主要聯(lián)結(jié)教學(xué)應(yīng)用維度與風險倫理維度,其核心在于:探索人機融合智能代理協(xié)作模式在深度學(xué)習(xí)中的適應(yīng)性,遵循“學(xué)習(xí)者為中心”的原則,強調(diào)GenAI教育應(yīng)用需以技術(shù)有效性、倫理合規(guī)性、學(xué)習(xí)者需求的三元平衡為基石。
五結(jié)語
本研究引入自動化主題建模工具BERTopic,并從結(jié)構(gòu)和算法兩個維度對 BERTopic工具進行了改進,實現(xiàn)了對GenAI教育應(yīng)用的主題聚類分析。通過剖析GenAI教育應(yīng)用的主題聚類結(jié)果,本研究發(fā)現(xiàn):GenAI教育應(yīng)用主要包括六大核心主題,即GenAI教育效能評估、智能教育與GenAI工具、GenAI協(xié)作寫作的反饋機制、教育領(lǐng)域?qū)enAI的技術(shù)接受度、GenAI賦能自我調(diào)節(jié)學(xué)習(xí)和GenAI輔助的人機協(xié)作編程;教育場景中的GenAI研究主題從早期的工具應(yīng)用探索逐漸拓展至技術(shù)接受、人機協(xié)作等多元領(lǐng)域,且各主題的研究頻次也在持續(xù)上升;主題 ② 與主題 ⑤ 構(gòu)成內(nèi)部層級,主題 ① 、主題 ③ 與主題 ⑥ 形成外部層級,而主題④ 與這兩個層級相互聯(lián)結(jié),形成完整的GenAI教育應(yīng)用主題網(wǎng)絡(luò)。在此基礎(chǔ)上,本研究構(gòu)建了GenAI教育應(yīng)用的主題模型,包含教學(xué)應(yīng)用、技術(shù)應(yīng)用、風險倫理三個維度,以及智能教育內(nèi)化、技術(shù)倫理風險、技術(shù)接受度三個關(guān)聯(lián)樞紐。
展望未來,我們要從教學(xué)應(yīng)用出發(fā),立足教育育人本質(zhì)和自我調(diào)節(jié)學(xué)習(xí)的認知機制,以學(xué)習(xí)者核心素養(yǎng)培養(yǎng)為牽引,發(fā)揮技術(shù)智能優(yōu)勢,驅(qū)動GenAI從“知識傳遞者”向“指導(dǎo)者”身份轉(zhuǎn)變;同時,必須嚴格審視GenAI在倫理與不公平性問題的潛在風險,精準把握GenAI育人本質(zhì),實現(xiàn)教育個性化、教育公平的美好愿景。此外,本研究提出的改進型 BERTopic 工具可以在更廣泛的學(xué)科領(lǐng)域進行測試與應(yīng)用,通過科學(xué)優(yōu)化主題模型的效果驗證維度,進一步提高其在學(xué)科領(lǐng)域的適用性與主題建模的準確性。
參考文獻
[1]黃星云,焦建利,曾君,等.GenAI重塑課堂活動:應(yīng)用路徑與實踐樣態(tài)[J].現(xiàn)代教育技術(shù),2025,(2):26-34.
[2]LiuM, ZhangLJ,Bebricher C.Investigatingstudents’cognitiveprocessesingenerativeA-asisted digitalultimodal composing and traditional writing[J]. Computers amp; Education, 2024,211:104977.
[3]柳晨晨,王欣穎,倚楊瑩,等.GenAI 教育落地的多案例因分析——基于教師愿景、學(xué)生參與和課堂技術(shù)集成的三維 分析框架[J].現(xiàn)代教育技術(shù),2025,(2):35-45.
[4]Francis NJ,Jones S,SmithDP.GenerativeAIinhighereducatio: Balancing inovationandintegrity[J].BritishJoual of Biomedical Science, 2025,81:14048.
[5]Jeon J,Lee S,Choe H. Beyond ChatGPT: Aconceptual framework and systematic reviewof speech-recognitionchatbots for language learming[J]. Computers amp; Education, 2023,16:104898.
[6]Lucas HC, Upperman JS,Robinson JR.A systematic review of large language models and their implications in medical education[J]. Medical Education,2024,(11):1276-1285.
[7]YanL,ShaL, ZhaoL, et al. Practical and ethicalchallengesoflarge language models ineducation: Asystematic soping review[J]. British Journal of Educational Technology, 2024,(1):90-112.
[8]Chen X,Hu Z, Wang C.Empowering education development through AIGC: A systematic literature review[J].Education and Information Technologies,2024,(13):17485-17537.
[9]徐漢青.融合 BERTopic 和LSTM的LIS 學(xué)科 AI研究主題演變分析及趨勢預(yù)測[J].情報科學(xué),2024,(12):1-22.
[10]Grootendorst M. BERTopic: Neural topic modeling with a class-based TF-IDF procedure[OL].
[1]Chang Y, Wang X, Wang J,etal.Asurvey on evaluation of large language models[J].ACMTransactions on Inteigent Systems and Technology, 2024,(3):1-45.
[12]柴少明,賀振海,李作錕.網(wǎng)絡(luò)問答社區(qū)公眾對 AIGC在教育中影響及應(yīng)用的關(guān)注與認知研究——LDA主題建模與時 間序列分析[J].現(xiàn)代教育技術(shù),2024,(10):42-52.
[13]KhodeirN,ElghanamFEficient topic identificationforurgentMOOC forumposts usingBERTopic andtraditionaltopic modeling techniques[J]. Education and Information Technologies, 2024,(30):1-27.
[14]Rawas S.ChatGPT:Empowering lifelong leaming in the digital ageof higher education[J].Education and Information Technologies,2024,(6):6895-6908.
[15]Stribling D,Xia Y,AmerMK,etal.The model student: GPT-4 performance on graduate biomedical science exams[J]. Scientific Reports, 2024,(1):5670.
[16]Tsoutsanis P,Tsoutsanis A.Evaluationof large language model performance on the Multi-Specialty Recruitment Assessment (MSRA) exam[J]. Computers in Biology and Medicine, 2024,168:107794.
[17]Kortemeyer G.Toward AI grading of student problem solutions in introductory physics: A feasibility study[J]. Physical Review Physics Education Research, 2023,(2):020163.
[18]GuoK,ZhongYLiD,etal.Efectsofhatbot-asisted in-lassdebatesonstudents’argumentationskillsadtask motivation[J]. Computers amp; Education, 2023,203:104862.
[19]LuQ,YaoY,XiaoL,eal.CanCatGPffctivelyomplementacheraessmentofudergraduatesudentsacademic Writing?[J].Assessment amp; Evaluation in Higher Education, 2024,(5):616-633.
[20]Wang L,Chen X,Wang C,etal. ChatGPT'scapabilies inproviding feedbackonundergraduate studentsargumetation: A case study[J]. Thinking Skills and Creativity, 2024,51:101440.
[21]Rahman MS,Sabbir MM,Zhang J,etal.Examining students’intentiontouse ChatGPT:Does trustmater?[J]. Australasian Journal of Educational Technology, 2023,(6):51-71.
[22]韓悅,趙曉偉,沈書生.人機協(xié)同調(diào)節(jié):復(fù)合腦視角下自我調(diào)節(jié)學(xué)習(xí)的新路徑[J].電化教育研究,2024,(5):20-26、34. [23]Lee HY,ChenPH,WangWS,etal.Empowering ChatGPTwith guidancemechanisminblended learning: Effectofselfregulatedlearning,higher-orderthinkingskils,andknowledgeconstruction[J].InternationalJournalofEducational Technology in Higher Education, 2024,(1):16.
[24]WangL,Chen X,Wang C,etal. ChatGPT’scapabilitiesinprovidingfeedback onundergraduatestudents'argumentation: A case study[J]. Thinking Skills and Creativity, 2024,51:101440.
[25]Sun D,BoudouaiaA,Zhu C,et al. Would ChatGPT-facilitated programming mode impact colege students'programming behaviors,performances,andperceptions?Anempirical study[J].International JournalofEducational TechnologynHigher Education, 2024,(1):14.
The Future of GenAI Education Applications: Topic Modeling Based on the Improved BERTopic Tool
HU Yi-Ling CHENYu HE Yu-Tong GU Xiao-Qing
(DepartmentofEducation Information Technology,East China Normal University,Shanghai,China 200062)
Abstract: Theaccelerated penetrationof generativeartificialintelligence (GenAI)technologyanditsapplicationhas brought moreunstablefactors totheglobal talentcompetition patern,and thechanges ithastriggeredareredefiningknowledge and learning.Due to the limitations ofperspectivesand methods,currnt review studies on GenAIempowering education have not fully exploredthe depsemanticsbetween texts,norhave theyconstructedasystematicapplicationframework.Therefore,the paper exploratory improved the automated topic modeling tool BERTopic from two aspects of structural adjustment and algorithmic selection.Then,thetopic clustering process ofimproved BERTopic was designed,andthe topic clusterngeffect of the improved BERTopic was verified through comparative analysis.By applying the improved BERTopic tool, his paper analyzed the topic clustering results of GenAI educational applications from three aspects of topiccore features,evolution trends,and hierarchical relationships.Onthis basis,a topic model for GenAIeducational applications wasconstructed.The research in this paper explored the application of topic modeling tools,broadened the perspective of GenAI’s educational application, and could provide theoretical references for promoting GenAI's empowerment of education.
Keywords: GenAI; BERTopic; application of artificial intelligence in education; topic clustering