崔煒 薛鎮(zhèn)
人工智能技術(shù)的進步促進了各行各業(yè)的發(fā)展。教育作為關(guān)乎國民生計的重要領(lǐng)域,其發(fā)展具有舉足輕重的地位。面對當(dāng)今教育領(lǐng)域存在的問題,人工智能的介入,可以促進教育資源的均衡化,通過提高學(xué)習(xí)效率來減輕學(xué)生的學(xué)習(xí)負擔(dān)?;谌斯ぶ悄艿淖赃m應(yīng)學(xué)習(xí)系統(tǒng)通過個性化的教學(xué)方法,為學(xué)生提供更適合自身的學(xué)習(xí)方式,重新定義了教學(xué)與學(xué)習(xí)。
人工智能自從1956年提出以來,經(jīng)過一個甲子的發(fā)展,已經(jīng)不能停留在科學(xué)和技術(shù)輸出的階段。它迫切需要產(chǎn)、學(xué)、研的結(jié)合,找到合適的應(yīng)用場景,才能產(chǎn)生社會效益和生命力,避免泡沫化。
教育屬于第三產(chǎn)業(yè),我國在由發(fā)展中國家向發(fā)達國家邁進的過程中,第三產(chǎn)業(yè)的比重逐年穩(wěn)步增加。跟普通的第三產(chǎn)業(yè)不一樣,教育屬于基本的必須消費產(chǎn)業(yè)。住房、醫(yī)療、教育,被稱為我國居民的三座大山。人工智能的介入,可以促進教育資源的均衡化,通過提高學(xué)習(xí)效率,來減輕學(xué)生的學(xué)習(xí)負擔(dān)。
松鼠AI試圖將人工智能學(xué)術(shù)成果與教育結(jié)合起來,改造傳統(tǒng)教育方式。
自適應(yīng)學(xué)習(xí)系統(tǒng)的構(gòu)建
松鼠AI智適應(yīng)學(xué)習(xí)系統(tǒng),是人工智能與自適應(yīng)學(xué)習(xí)的結(jié)合,“智”表示“智能”。松鼠AI將人工智能技術(shù)有機地融入到自適應(yīng)學(xué)習(xí)系統(tǒng)當(dāng)中。自適應(yīng)學(xué)習(xí)系統(tǒng)是學(xué)習(xí)者、教育者、學(xué)習(xí)科學(xué)研究者和計算機科學(xué)家合作的產(chǎn)物。根據(jù)學(xué)習(xí)者反饋的數(shù)據(jù)來規(guī)劃個體學(xué)習(xí)體驗的方法,是基于自適應(yīng)模型(Adaptation Model)進行的。如圖1所示,它分為兩方面:領(lǐng)域模型(Domain Model),比如數(shù)學(xué)、英語語法等不同領(lǐng)域的知識和陳述性、程序性等不同類型的知識;用戶模型或用戶畫像( User Model或User Profile),比如和用戶行為有關(guān)的特點和個性。在自適應(yīng)教育系統(tǒng)中,因為被建模的領(lǐng)域是一個知識領(lǐng)域,該模型通常被稱為知識模型,或者教師模型,用來模擬教師的知識和能力。由于用戶是學(xué)習(xí)者,用戶模型通常被稱為學(xué)習(xí)者模型(參考Petr Johanes和Larry Lagerstrom于2017年提出的觀點)。
自適應(yīng)系統(tǒng)的開發(fā)者需要重點考慮的是:建模的對象是什么、如何建模以及如何維護這些模型。盡管建模的方式多樣,現(xiàn)在最常用的是疊加建模(overlay modeling)。疊加建模的核心原則只有一條:一個領(lǐng)域存在某種基礎(chǔ)模型,某個用戶的模型屬于該基礎(chǔ)模型的子模型。按照這個范式運行自適應(yīng)系統(tǒng)有雙重目的:一是改變用戶的體驗,使用的疊加子模型最終與系統(tǒng)的基礎(chǔ)模型相匹配;二是改變系統(tǒng)的基礎(chǔ)模型,使它更精確地表征某個領(lǐng)域(參考Peter Brusilovsky和Eva Millán于2007年提出的觀點)。
松鼠AI的教師模型
由知識圖譜建立知識點關(guān)系網(wǎng)絡(luò)
松鼠AI的教師模型是基于知識圖譜創(chuàng)建的,構(gòu)建知識圖譜經(jīng)歷了人工驅(qū)動和數(shù)據(jù)驅(qū)動兩個階段。首先,學(xué)科教育專家將目標教學(xué)內(nèi)容進行重新解構(gòu)。以初中數(shù)學(xué)為例,500個知識點被化解為3萬個細顆粒度的知識點,每個知識點上配套了學(xué)習(xí)內(nèi)容,包括文字題目、動畫、PPT、教學(xué)短視頻等。例如,圖2是有理數(shù)這個母知識點的細分知識點。這些知識點被分成多個層次,如圖3所示,這些知識點分成L1、L2、L3、L4等多個層次,一個母知識點可以化解為更有針對性的子知識點。知識點之間的相互關(guān)系聯(lián)結(jié)成一個圖譜結(jié)構(gòu)。知識圖譜的初始結(jié)構(gòu)由教育專家根據(jù)經(jīng)驗構(gòu)建。
根據(jù)學(xué)生在松鼠AI系統(tǒng)中的實際學(xué)習(xí)數(shù)據(jù),對知識圖譜中的知識點相互關(guān)系進行更新。首先,利用貝葉斯網(wǎng)絡(luò)發(fā)現(xiàn)知識點之間更加貼合學(xué)生實際學(xué)習(xí)的關(guān)聯(lián)關(guān)系,對原始的知識圖譜做迭代。其次,把這個知識圖譜應(yīng)用到AI學(xué)習(xí)系統(tǒng)中,再次讓學(xué)生學(xué)習(xí)。然后,再根據(jù)學(xué)生的學(xué)習(xí)數(shù)據(jù)做迭代。如此循環(huán)往復(fù),直到知識圖譜趨于穩(wěn)定。
以整數(shù)乘法這個專題為例:我們把它分割成如表1所示的知識點,每個知識點都配有專門考察該知識點的一定量的題目。首先教育專家需要建立知識點之間關(guān)系的知識圖譜,然后利用貝葉斯網(wǎng)絡(luò)方法,通過學(xué)生的做題記錄來迭代知識圖譜。得到的知識圖譜如圖4所示,圖中的結(jié)點是知識點,箭頭起始結(jié)點表示前置知識點,箭頭終止結(jié)點表示后置知識點。
建立貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的算法有很多種,比如動態(tài)規(guī)劃算法、A*算法、Chow-Liu算法等。我們這里采用的是Chow-Liu算法(C.K.Chow和C.N.Liu于1968年提出)。這種算法也被稱做Chow-Liu樹,通過計算信息量來發(fā)現(xiàn)描述數(shù)據(jù)的最優(yōu)樹結(jié)構(gòu)。Chow和Liu在論文中證明,最優(yōu)樹結(jié)構(gòu)的問題等價于求解的最大值,其中和表示結(jié)點,表示樹,表示互信息。,其中是隨機變量的聯(lián)合概率分布,和是邊緣概率?;バ畔⑹锹?lián)合分布與乘積分布的相對熵。
由遺傳算法確定難度標簽
知識圖譜上所有的知識點都配有題目,這些題目由松鼠AI的教育專家生產(chǎn),并且打上了難度、預(yù)估做題時間、題型等標簽。每個知識點上都有20個以上不同標簽的學(xué)習(xí)內(nèi)容,這些學(xué)習(xí)內(nèi)容可能是文字題目、短視頻、學(xué)習(xí)動畫、PPT等。松鼠AI根據(jù)學(xué)生在學(xué)習(xí)系統(tǒng)中的表現(xiàn),不僅給各個學(xué)生推送的知識點不同,而且推送學(xué)習(xí)內(nèi)容的難度值等標簽也不相同。這里以難度標簽為例,來說明學(xué)習(xí)內(nèi)容標簽的確定方法。
難度的初始值由教育專家給出,分為簡單(easy)、中等(moderate)、較難(hard)。系統(tǒng)通過遺傳算法識別各個難度水平問題的特性。難度的測量分為兩步:遺傳算法模型在圖5中的學(xué)習(xí)分析引擎(Learning Analytics Engine)模塊中工作,在這里根據(jù)學(xué)生(Learner)跟學(xué)習(xí)內(nèi)容(Content)的作用產(chǎn)生的數(shù)據(jù),對難度標簽進行迭代。Learning Analytics Engine從學(xué)生的響應(yīng)模式中學(xué)習(xí),識別各個難度水平題目的學(xué)生響應(yīng)特性,動態(tài)創(chuàng)建分類規(guī)則。然后根據(jù)分類規(guī)則確定每道題目的難度。對學(xué)生的響應(yīng)模式,系統(tǒng)考慮三個參數(shù):學(xué)生從拿到題目到提交答案的時間跨度、答題獲得的分數(shù)、提交答案之前進入題目的次數(shù)。所有這些因素取決于學(xué)生答題的行為,并且跟每道題目的難度水平相關(guān)。
對于每個難度水平,遺傳算法根據(jù)屬于該難度水平(初值由教學(xué)專家給出)所有題目的響應(yīng)模式,來獲得它們響應(yīng)的特性,作為相應(yīng)的數(shù)據(jù)集(參考Elena Pérez、Luisa Santos、María Pérez、Juan Fernández和Ricardo Martín于2012年提出的觀點)。然后,每道題目的難度水平,通過它的響應(yīng)模式的難度等級的中位數(shù)來計算得到。這樣,就可以通過學(xué)生的學(xué)習(xí)數(shù)據(jù)對教學(xué)專家一開始確定的難度水平做迭代。
如此,系統(tǒng)將學(xué)生的行為和教育專家的經(jīng)驗結(jié)合起來,以便更加客觀地計算每道題目的真實難度水平。
圖6中,用梯形表示了各個參數(shù)的劃分方法,相鄰兩個梯形的交點是分割點。圖中“ VH(Very High) ”、“H(High)”、“VL(Very Low)”、“L(Low)”等,代表參數(shù)的數(shù)值范圍,表示遺傳算法借助學(xué)生對每個問題響應(yīng)的數(shù)據(jù)建立規(guī)則,如圖7所示。從圖7可以看出以下規(guī)則:
IF GRADE IS VH AND TIME IS VL AND ACCESS IS L THEN DIFFICULTY IS EASY
IF GRADE IS VL AND TIME IS L AND ACCESS IS H THEN DIFFICULTY IS HARD
松鼠AI的學(xué)習(xí)者模型
學(xué)生在松鼠AI系統(tǒng)中學(xué)習(xí),所生成的數(shù)據(jù)可以幫助研究人員和開發(fā)人員了解學(xué)生是如何學(xué)習(xí)以響應(yīng)系統(tǒng)操作的。學(xué)生聚類是一種有效的方法,用于研究不同類型的學(xué)生如何與基于技術(shù)的學(xué)習(xí)系統(tǒng)進行交互。例如,研究人員使用聚類分析來探索學(xué)生的特征和偏好、求助活動、自我調(diào)節(jié)方法、產(chǎn)生錯誤的行為、不同學(xué)習(xí)時刻的數(shù)據(jù)、各種學(xué)習(xí)環(huán)境(個人還是協(xié)作)的數(shù)據(jù)。松鼠AI系統(tǒng)使用的聚類算法包括K-means和期望最大化(Vellido等于2010年提出)。
這項研究中作為樣本的學(xué)生是從中國的三個省會招募的,使用松鼠AI學(xué)習(xí)對他們進行教學(xué)。該研究持續(xù)4天,每天學(xué)習(xí)5小時。所有參與的學(xué)生年齡均為13—15歲,共206名,包括完整的測試信息和系統(tǒng)數(shù)據(jù)在內(nèi)共有72440條數(shù)據(jù)記錄。樣本平均年齡為13.8歲,56%為女性。
學(xué)生在使用松鼠AI之前和之后都進行了紙筆測試,分別稱為前測和后測,以此來評測學(xué)生的知識掌握情況。測試由經(jīng)驗豐富的數(shù)學(xué)教師開發(fā)和審查。前測和后測都以100分制進行評分。結(jié)果顯示,前測的平均值為55.72分,后測的平均值為63.92分。前測和后測結(jié)果具有0.86的高相關(guān)性,這使得我們能夠使用增益分數(shù)來衡量學(xué)生的成績。
松鼠AI系統(tǒng)記錄了學(xué)生與系統(tǒng)的互動。我們根據(jù)學(xué)生行為和系統(tǒng)響應(yīng)的日志數(shù)據(jù)創(chuàng)建了學(xué)生特征(參見表2),并為每個學(xué)生計算了相應(yīng)的值。就我們的目的而言,這些特征構(gòu)成了學(xué)生在持續(xù)時間方面的表現(xiàn)和學(xué)習(xí)的總體或平均情況。
對于每個學(xué)生,我們計算了表2所示的變量。這些特征的集合組成了每個學(xué)生的畫像。我們進行了一系列的分析來確定8個畫像特征(這里不使用“后測”特征)中的哪一個把學(xué)生歸為相似的集合。我們使用K-means聚類,在線學(xué)習(xí)中最常用的聚類算法(Dutt等人于2016年提出)。
由于不同原型的學(xué)習(xí)者行為的數(shù)量是未知的,我們使用K=1-10來初始化K means聚類??紤]到聚類分析的目的之一是數(shù)據(jù)簡約化,而且很多的簇可能沒有意義,所以我們沒有測試K大于10的情況。對于1-10中K值的每一種情況,我們對上述的變量做了K means分析,并生成了簇。為了確定數(shù)據(jù)集的最優(yōu)K值,我們使用偽F統(tǒng)計和立方聚類準則CCC(Cubic Clustering Criterion,Calinski和Harabasz于1974年提出)來評估簇的數(shù)量。K=3聚類產(chǎn)生了偽F統(tǒng)計值和CCC(如圖8和圖9所示),圖10中的典型相關(guān)分析,表明有清晰的可解釋性和簡約性。
圖10中的簇2包括表現(xiàn)較好的學(xué)生,表現(xiàn)為前測分數(shù)高、正答率高、完成題目的難度水平高。這些學(xué)生也有較高的完成題目平均所需時間、較高的正確回答題目的平均所需時間差、較高的錯誤回答題目的平均所需時間差。有趣的是,在這3個簇中,這個簇中的學(xué)生完成了中等數(shù)量的題目和覆蓋了中等數(shù)量的知識點。
簇1包括表現(xiàn)中等的學(xué)生,表現(xiàn)為前測分數(shù)中等、正答率中等、完成題目的難度水平中等。這些學(xué)生有較低的完成題目平均所需時間、較低的正確回答題目的平均所需時間差、較低的錯誤回答題目的平均所需時間差。他們完成了較高數(shù)量的題目和覆蓋了較高數(shù)量的知識點。
簇3包括表現(xiàn)較差的學(xué)生,表現(xiàn)為前測分數(shù)低、正答率低、完成題目的難度水平低。這些學(xué)生有中等的完成題目平均所需時間、中等的正確回答題目的平均所需時間差、中等的錯誤回答題目的平均所需時間差。他們完成了較低數(shù)量的題目和覆蓋了較低數(shù)量的知識點。
我們通過測量以上所述3個簇里面學(xué)生的前測到后測的分數(shù)提高,來檢查分屬3個簇的學(xué)生學(xué)習(xí)效果是否有區(qū)別。數(shù)據(jù)顯示,這3個簇的分數(shù)提高沒有顯著差異,F(xiàn)(2,203)= 0.44,p=.64,r2= .004。
通過以上的研究可以看出,我們通過K means聚類方法將學(xué)生分成三個群體。這三個群體與學(xué)生的分數(shù)提高沒有顯著關(guān)聯(lián),這意味著學(xué)習(xí)系統(tǒng)能夠幫助不同層次的學(xué)生取得進步(Shuai Wang、Mingyu Feng、Marie Bienkowski、Claire Christensen和Wei Cui于2019年提出)。
人機大戰(zhàn)
松鼠AI在北京、鄭州、成都、東營等地進行了多場人機大戰(zhàn),通過對比松鼠AI與真人老師的教學(xué),來評估松鼠AI對改善學(xué)生學(xué)習(xí)的影響,并確定這些影響的可能程度。第三方獨立研究機構(gòu)對研究設(shè)計、實驗現(xiàn)場執(zhí)行、實驗數(shù)據(jù)收集、數(shù)據(jù)分析與研究報告的全過程進行審核,以確保研究結(jié)果的科學(xué)性、客觀性和可靠性。Haoyang Li等人在CSEDU2018、Mingyu Feng等人在AIED2018會議上發(fā)表的文章中分析顯示,松鼠AI在這些實驗中有更好的教學(xué)效果。這里以成都為例,說明人機大戰(zhàn)的實施方案與數(shù)據(jù)分析。
樣本
實驗樣本是來自成都的13至15歲的普通初中生,使用分層隨機化方法將學(xué)生隨機分配到對照組和實驗組(參考Trochim、Donnelly和Arora于2016年所研究的成果)。共有203名學(xué)生參加了實驗,其中101名學(xué)生被分配到實驗組,102名學(xué)生被分配到對照組。
實驗組的90名學(xué)生完成了實驗,他們使用松鼠AI進行學(xué)習(xí)。對照組的73名學(xué)生完成了實驗,他們是由真人老師進行指導(dǎo)的。其他的學(xué)生沒有完成實驗,不計入數(shù)據(jù)。在先行測試后,對照組的學(xué)生分成三個小組,接受三位老師的指導(dǎo)。老師們在當(dāng)?shù)氐某踔谢蚋咧芯哂?到18年的數(shù)學(xué)教授經(jīng)驗。
實驗過程
這項研究在全國性假期期間持續(xù)了3天。本研究的時間表如表3所示,除了實驗組接受松鼠AI和對照組接受教師指導(dǎo)外,每個學(xué)生的時間表相同。在第一天的宣講中,向?qū)W生們說明實驗的程序。表3中列出的活動之間的間隔是休息時間。兩組涵蓋的學(xué)習(xí)內(nèi)容包括勾股定理及其應(yīng)用、實數(shù)、三角形、整數(shù)表達式、三角形的性質(zhì)和軸對稱。在我們的研究之前,學(xué)生已經(jīng)學(xué)過了這些內(nèi)容。實驗組的學(xué)生使用了松鼠AI系統(tǒng),并在沒有老師幫助的情況下完成了上述主題。在對照組中,教師根據(jù)當(dāng)?shù)貙W(xué)習(xí)標準教授該專題。對照組的學(xué)生不使用在線學(xué)習(xí)。研究開始和結(jié)束時的問卷包括人口統(tǒng)計學(xué)問題和學(xué)生在學(xué)習(xí)期間的學(xué)習(xí)經(jīng)歷評分。
前測和后測數(shù)據(jù)
測試前和測試后的題目,由當(dāng)?shù)貙W(xué)校(不是本實驗研究團隊的一部分)經(jīng)驗豐富的教師構(gòu)建。這些老師在開發(fā)測試題目時,只被告知測試的專題和相關(guān)的學(xué)習(xí)標準。兩名獨立的經(jīng)驗豐富的教學(xué)專家審查了測試前和測試后的情況,以確保他們的覆蓋范圍、總體難度、題目類型與學(xué)習(xí)標準保持一致。專家們還檢查確保測試題目與松鼠AI學(xué)習(xí)內(nèi)容不重疊。每項測試由30個多項選擇、填空、計算和應(yīng)用題組成,總分為100分。測試由教師評分,然后掃描并發(fā)送給第三方機構(gòu)進行審核。
分析與結(jié)果
圖11顯示了實驗組和對照組從測試前到測試后的平均分數(shù)變化。雖然實驗組和對照組都顯示出從測試前到測試后的改善,但使用松鼠AI的學(xué)生成長是接受傳統(tǒng)課堂教學(xué)的學(xué)生成長的4.19倍(實驗組分數(shù)增長M = 9.38,SD = 11.08,而控制組增長M = 1.81,SD = 10.91,Hedges' g = .68)。以前測成績作為協(xié)變量的單因素協(xié)方差分析(ANCOVA)確認了該結(jié)果的有效性,F(xiàn)(1,160)= 16.80,p <.001,偏η2= .10。
實驗組和對照組在前測的表現(xiàn),顯示他們之前的知識沒有顯著的統(tǒng)計學(xué)差異,t(155.13,假設(shè)方差不等)= 1.49,p = .14,Hedges' g = .25。然而,前測也是學(xué)習(xí)收益的強預(yù)測因子,F(xiàn)(1,160)= 6.14,p = .014,部分η2= .10,那些在測試前知識顯示較低的學(xué)生往往表現(xiàn)出更高的收益。
總結(jié)
表4基于實證證據(jù)和相關(guān)理論歸納了目前AI自適應(yīng)學(xué)習(xí)的主要發(fā)展前景和存在的問題。AI自適應(yīng)學(xué)習(xí)系統(tǒng)促進各類研究和教育資源整合協(xié)作,凝結(jié)了各方的智慧。如果我們合理地利用AI自適應(yīng)學(xué)習(xí)系統(tǒng),就能夠為每個孩子提供適合他的學(xué)習(xí)模式,提高學(xué)習(xí)效率。