李海英, Arthur C. Graesser, Janice Gobert
具身在人工智能導(dǎo)師系統(tǒng)中隱身何處?
李海英, Arthur C. Graesser, Janice Gobert
根據(jù)具身認(rèn)知理論在人工智能導(dǎo)師系統(tǒng)設(shè)計(jì)中的應(yīng)用,以三個(gè)最新開發(fā)的人工智能系統(tǒng)為實(shí)例從不同角度描述具身在凝視導(dǎo)師、3D虛擬實(shí)境以及虛擬模擬科學(xué)實(shí)驗(yàn)室中的應(yīng)用;闡述以具身認(rèn)知理論為指導(dǎo)思想的人工智能導(dǎo)師系統(tǒng)的設(shè)計(jì)原理以及加入具身設(shè)計(jì)元素的人工智能學(xué)習(xí)或評估系統(tǒng)對提高學(xué)生學(xué)習(xí)成績和參與度的積極影響;為中國人工智能技術(shù)在學(xué)習(xí)和測試方面的開發(fā)提供參考與借鑒。
具身認(rèn)知 人工智能導(dǎo)師系統(tǒng) 人機(jī)互動(dòng) 自動(dòng)化導(dǎo)師
具身認(rèn)知(embodiment cognition)主要指感官運(yùn)動(dòng)經(jīng)驗(yàn)(sensorimotor experience)以及感官運(yùn)動(dòng)系統(tǒng)在認(rèn)知過程中的動(dòng)態(tài)加工處理,因此具身認(rèn)知并不局限于某種思想,它本身就是認(rèn)知。[1]具體說,具身認(rèn)知理論的支持者認(rèn)為抽象思想依賴于身體經(jīng)驗(yàn)(bodily experiences),思想和行為受控于物質(zhì)和社會(huì)環(huán)境交互作用下的感知(perception)、行動(dòng)(action)、情感(emotion)的身體和神經(jīng)系統(tǒng)。[1,2]甚至有些具身認(rèn)知研究者認(rèn)為,所有的認(rèn)知過程都是具身作用下的認(rèn)知,包括抽象知識和思維、語言理解加工等,都基于感官運(yùn)動(dòng)的經(jīng)驗(yàn)。[1,3,4]雖然這種觀點(diǎn)存有爭議[5],但是大量的行為(behavioral)和神經(jīng)成像(neuroimaging)研究結(jié)果支持具身在認(rèn)知過程中起重要作用的觀點(diǎn)[6]。這些研究內(nèi)容主要涉及感知和行動(dòng)的具身、言語理解的具身、目標(biāo)和因果的具身。[1]
具身認(rèn)知常常作為設(shè)計(jì)人機(jī)交互(human-computer interaction,HCI)的指導(dǎo)理念,[7]并越來越多地用于人工智能導(dǎo)師系統(tǒng)(intelligent tutoring system,ITS)[8]的設(shè)計(jì)。例如,ITS界面設(shè)計(jì)以學(xué)生動(dòng)手操作為主,學(xué)生點(diǎn)擊按鈕、拖拽答案或文字輸入答案[9—11];以虛擬實(shí)境[12—15]甚至3D虛擬實(shí)境(virtual reality)[13,16—20]使學(xué)生有身臨其境的感覺。這種親自操作(doing),尤其是在虛擬環(huán)境下的操作,可以改變學(xué)生的思維和感知,進(jìn)而使之融入身體圖式(body schema),比在被動(dòng)觀察(seeing)條件下獲得的知識更多。[7,13]具身認(rèn)知在ITS中的應(yīng)用可以簡單分為兩個(gè)方面:學(xué)生的具身識別和反饋,以及智能導(dǎo)師的具身表現(xiàn)。一方面,ITS智能導(dǎo)師可以通過學(xué)生言語表達(dá)、電腦鍵盤的敲擊力量、眼動(dòng)追蹤等識別學(xué)生具身,[8]從而對學(xué)生具身進(jìn)行加工、理解并給予相應(yīng)的即時(shí)反饋。另一方面,有的ITS智能導(dǎo)師可以做出簡單的具身動(dòng)作,如手勢、體態(tài)姿勢以及面目表情等;[9,21]有的導(dǎo)師系統(tǒng)嵌入虛擬環(huán)境[12—15]或3D環(huán)境[16—20]中,給學(xué)生提供空間上的人與物體的感知,使他們聯(lián)想自己在現(xiàn)實(shí)場景中操控場景參數(shù)、觀測場景變化、甚至通過多次重復(fù)操作來解釋所觀察的現(xiàn)象。最終,基于感知和運(yùn)動(dòng)活動(dòng)的交互虛擬場景以及具身理論的特征[22,23]在ITS中淋漓盡致地體現(xiàn)出來。不僅如此,深度學(xué)習(xí)也會(huì)在感知模擬、對模擬進(jìn)行反饋、描述和解釋所發(fā)生現(xiàn)象的過程中發(fā)生。[8]
Graesser和Jackson曾在十年前圍繞具身認(rèn)知(embodiment)和符號表征(symbolic representation)探討具身認(rèn)知在ITS自動(dòng)化導(dǎo)師(AutoTutor)系統(tǒng)中的應(yīng)用程度。[8]自動(dòng)化導(dǎo)師是一個(gè)人機(jī)自然語言對話的ITS系統(tǒng)。自動(dòng)化導(dǎo)師是由美國孟菲斯大學(xué)(University of Memphis)人工智能研究所(Institute for Intelligent Systems, IIS)開發(fā),用以輔導(dǎo)及評估的人工智能導(dǎo)師系統(tǒng)。自2008年以來,自動(dòng)化導(dǎo)師系統(tǒng)開發(fā)絡(luò)繹不絕,學(xué)生群體從小學(xué)到大學(xué),甚至還包括已工作的成年人。輔導(dǎo)和評估內(nèi)容涉及各個(gè)學(xué)習(xí)領(lǐng)域:生物(GuruTutor[24]、GazeTutor和GuruTutor加強(qiáng)版[25]),醫(yī)學(xué)(V-CAEST,Virtual Civilian Aeromedical Evacuation Sustainment Training[16,19]),成年人閱讀(AutoTutor CSAL[9—11]),批判性思考[26,27]等。近期開發(fā)的自動(dòng)化導(dǎo)師系統(tǒng)和其他ITS系統(tǒng)以具身認(rèn)知理論為指導(dǎo)思想,在原來自然語言對話的基礎(chǔ)上加入了基本體態(tài),[9,21]甚至情感(AutoTutor-AS[28])、凝視聚焦(Gaze Tutor[25])、3D虛擬實(shí)境(3D virtual reality[16—19])、認(rèn)知游戲(epistemic game[14,15])以及其他ITS環(huán)境下的虛擬科學(xué)探究(science inquiry)[12,13]實(shí)驗(yàn)室。
這些最新開發(fā)的ITS更進(jìn)一步地實(shí)現(xiàn)了具身元素在設(shè)計(jì)中的應(yīng)用并以實(shí)證研究證明嵌入具身元素可以提高學(xué)生學(xué)習(xí)績效和參與度。本文的研究意義有以下三點(diǎn)。第一,具身認(rèn)知理論在人工智能領(lǐng)域的應(yīng)用能夠?yàn)榫呱碚J(rèn)知的研究拓寬思路,它不僅可用于人與人之間的互動(dòng)(human-human interaction),還適用于人與機(jī)器的互動(dòng)(human-computer interaction)。第二,本文為人工智能研究者在人機(jī)互動(dòng)研究方面提供設(shè)計(jì)和理念上的創(chuàng)新思維,推動(dòng)人機(jī)互動(dòng)的發(fā)展。比如,在人工智能導(dǎo)師系統(tǒng)的開發(fā)中,增加自然語言會(huì)話、電腦導(dǎo)師(computer tutor/agent)手勢、體態(tài)(body gesture)以及面目表情等情感(affect)交流會(huì)極大增加學(xué)習(xí)者的學(xué)習(xí)興趣并提高學(xué)習(xí)效果。[8]第三,本文旨在通過對具身認(rèn)知和人工智能的有效結(jié)合推動(dòng)心理和計(jì)算機(jī)等交叉領(lǐng)域的研究,最終開發(fā)更多高效的、多學(xué)科的ITS學(xué)習(xí)和測試評估軟件。
具身認(rèn)知的研究方法主要有行為研究和神經(jīng)成像[6],研究內(nèi)容主要涉及感知和行動(dòng)、言語理解以及目標(biāo)和因果[1]。下面以這兩種研究方法為主線,簡單介紹具身在這三個(gè)方面的體現(xiàn)。
行為研究發(fā)現(xiàn)感覺運(yùn)動(dòng)表象(sensorimotor representation)在認(rèn)知活動(dòng)方面主要表現(xiàn)為物體識別(object identification)和言語理解(language comprehension)。Gibson提出的環(huán)境賦值(affordance)可以囊括身體、物體、行動(dòng)和感知的關(guān)系。[29]環(huán)境賦值指人在感知時(shí)依據(jù)自身的心理需要指導(dǎo)行動(dòng),同時(shí)身體決定感知,這里的身體包括身體形態(tài)、生理和以前所習(xí)得的行為。比如,勺子有用來吃飯的功能,但是孩子卻常拿它來做游戲。由于不同的人需求不同,同一個(gè)物體的功能也會(huì)發(fā)生變化。再比如,視覺感知受身體的疲倦程度影響,對于同等距離,越疲倦則感覺距離越遠(yuǎn)。[30]Casasanto發(fā)現(xiàn)擅長使用左手和擅長使用右手的人思考行為動(dòng)詞時(shí)使用大腦的不同部位,對于抽象概念如“善良”(goodness)也有不同的思考,甚至通過改變使用左手或右手可以改變?nèi)藗儗τ凇昂谩焙汀皦摹备拍畹恼J(rèn)知。[31]Hauk、Johnsrude和Pulvermüller發(fā)現(xiàn)人們聽到不同的行為動(dòng)詞,不同運(yùn)動(dòng)皮質(zhì)區(qū)有不同的反應(yīng),[32]比如聽到“pick”和“kick”,控制手和腿的運(yùn)動(dòng)皮質(zhì)區(qū)分別做出反應(yīng)。
言語理解不僅是解讀按照語法規(guī)則排列的抽象符號,也是語言內(nèi)容與行動(dòng)、感知、情感的身體以及神經(jīng)系統(tǒng)的交互過程。[1]在閱讀時(shí),如果配以物體與句子描述相符的圖片展示給讀者,讀者辨別物體圖片所花的反應(yīng)時(shí)間會(huì)減少。[33]比如,讀者識別“烏鴉喝水”中的烏鴉,配以正在喝水的烏鴉圖片比配以正在睡覺的烏鴉圖片所花的反應(yīng)時(shí)間要短。另外,根據(jù)Glenberg和Kaschak提出的動(dòng)作—句子相符效應(yīng)(action-sentence compatibility effect),做出與句子描述相符合的體態(tài)動(dòng)作能夠使聽話人更有效地理解句子意思。[23]例如,“能遞給我一杯水嗎?”說話者邊說邊指向水,然后再指向自己。這種適宜的體態(tài)與言語的配合可以讓聽話者更快速、準(zhǔn)確地理解說話者的意圖。這其實(shí)也反映了語言理解依賴信息的心理模擬(mental simulation)。另外,Havas等通過給實(shí)驗(yàn)者皺眉肌注射化妝品肉毒桿菌(cosmetic Botox)消除額頭紋使實(shí)驗(yàn)者不能皺眉,無法展現(xiàn)怒氣和悲傷。結(jié)果發(fā)現(xiàn),實(shí)驗(yàn)者理解描述憤怒和悲傷的句子速度減慢,但是這對表達(dá)喜樂的句子沒有影響。[34]具身認(rèn)知理論在教育領(lǐng)域的應(yīng)用體現(xiàn)在抽象概念的學(xué)習(xí),比如詞匯、句法、數(shù)學(xué)標(biāo)記語言(mathematical notation)的學(xué)習(xí)都依賴具身感知來解讀這些符號所代表的意思。[1]Kontra等通過比較親自動(dòng)手操作和旁觀學(xué)習(xí)扭矩和角動(dòng)量的兩組實(shí)驗(yàn)者,發(fā)現(xiàn)親自動(dòng)手比僅僅視覺觀察更能提高學(xué)習(xí)績效。[35]
雖然目標(biāo)和意圖非常抽象,但是通過觀測人們的行為可以推測他們的目標(biāo)和意圖。[1]比如,通過運(yùn)動(dòng)共振過程(motor resonance process)可以推測人們的目標(biāo)和意圖,[36,37]這是因?yàn)橐曈X感知行動(dòng)可以激活運(yùn)動(dòng)系統(tǒng)的鏡像神經(jīng)元(mirror neurons),同時(shí)當(dāng)人們做出相同的動(dòng)作時(shí)也會(huì)激活他們的運(yùn)動(dòng)系統(tǒng),從而激活鏡像神經(jīng)元對他們的動(dòng)作目標(biāo)進(jìn)行編碼,但是這個(gè)過程需要以有運(yùn)動(dòng)能力(motor competence)為前提。如Sommerville、Woodward和Needham發(fā)現(xiàn),當(dāng)嬰孩有抓握能力后,若使其長時(shí)間觀察戴手套的手伸向一個(gè)球直到習(xí)慣為止,那么當(dāng)泰迪熊出現(xiàn)后,這些嬰孩會(huì)被新的目標(biāo)強(qiáng)烈吸引,而沒有“手套手”經(jīng)驗(yàn)的嬰孩的注意力會(huì)平均放在球和泰迪熊上。[38]
神經(jīng)成像的研究也為具身在概念性知識表象和語言處理中的作用提供了大量的證據(jù)。例如,通過MRI、fMRI測量發(fā)現(xiàn),觀察者看到實(shí)驗(yàn)操控圖片(如“蘋果”)比相關(guān)的非實(shí)驗(yàn)操控圖片(如“梨”“草莓”“玉米”等)更能激活左腹側(cè)前運(yùn)動(dòng)皮層(left ventral premotor cortex)和左后頂葉皮層(left posterior parietal),這說明對操控物體的識別可能依賴于大腦中儲(chǔ)存的感覺運(yùn)動(dòng)屬性(sensorimotor attributes)。[39]通過fMRI測量發(fā)現(xiàn),當(dāng)理解有關(guān)身體部位的行為詞匯(action word)或句子時(shí),相應(yīng)的運(yùn)動(dòng)或淺運(yùn)動(dòng)皮層就會(huì)特別活躍。[32,40]例如,聽話者聽到“我揮舞著胳膊”會(huì)很大程度地激活前運(yùn)動(dòng)皮層與手臂相關(guān)的部位,而其他前運(yùn)動(dòng)皮層部位如腿、臉等就較弱。這從側(cè)面反映了或許行為與語言系統(tǒng)的功能是相鏈接的。[41]
上述具身在認(rèn)知中的作用為人工智能導(dǎo)師系統(tǒng)(ITS)提供了設(shè)計(jì)依據(jù)。目前,具身在ITS中的應(yīng)用體現(xiàn)在以下兩方面:(1)體現(xiàn)在動(dòng)畫導(dǎo)師(animated agent)的身體動(dòng)作中,從“揚(yáng)眉”“嘴角上揚(yáng)”等簡單的面目表情到可展現(xiàn)動(dòng)畫導(dǎo)師身體動(dòng)作或引發(fā)學(xué)生身體動(dòng)作心理聯(lián)想的復(fù)雜的虛擬實(shí)境,使學(xué)生有身臨其境的感覺;(2)體現(xiàn)在學(xué)生的具身,例如與電腦之間的互動(dòng),操控電腦界面的參數(shù)、完成指定的任務(wù),或使用先進(jìn)儀器探測學(xué)生具身,并傳送給電腦導(dǎo)師,以便導(dǎo)師給予即時(shí)反饋。鑒于自動(dòng)化導(dǎo)師系統(tǒng)是ITS中開發(fā)品種和數(shù)量最多的,我們就先介紹自動(dòng)化導(dǎo)師系統(tǒng)的設(shè)計(jì)理念。
動(dòng)漫具身會(huì)話自動(dòng)化導(dǎo)師通過合成語音(synthesized speech)可以理解、思考、說話和行動(dòng)。自動(dòng)化導(dǎo)師可以與學(xué)生進(jìn)行自然語言對話,并且具有面部表情、手勢和體態(tài)姿勢。自動(dòng)化導(dǎo)師通過解析學(xué)習(xí)者的自然語言和情感探測實(shí)現(xiàn)針對每個(gè)學(xué)習(xí)者的動(dòng)態(tài)反饋和幫助。自動(dòng)化導(dǎo)師輔導(dǎo)過程包括導(dǎo)師提問和學(xué)習(xí)者回答、導(dǎo)師給提示以及糾正學(xué)生錯(cuò)誤概念。自動(dòng)化導(dǎo)師具身認(rèn)知設(shè)計(jì)的目的是使學(xué)習(xí)者主動(dòng)參與學(xué)習(xí)活動(dòng),達(dá)到深層學(xué)習(xí)的效果。
自動(dòng)化導(dǎo)師模擬真人導(dǎo)師(human tutor)與學(xué)生的會(huì)話(discourse),具體包含自然語言所傳遞的語言信息(verbal message)、體態(tài)(gesture)、信號(signal)以及非語言交流(non-verbal communication)等。真人導(dǎo)師輔導(dǎo)過程包含大量具身特性和符號表征。自動(dòng)化導(dǎo)師就是以符號表征和具身認(rèn)知理論模式為核心設(shè)計(jì)的。符號表征也是反映身體行動(dòng)、感知經(jīng)驗(yàn)和認(rèn)知的結(jié)合體。自動(dòng)化導(dǎo)師通過與學(xué)生進(jìn)行自然語言會(huì)話幫助學(xué)習(xí)者學(xué)習(xí)抽象、難學(xué)的科目。[42,43]自然語言會(huì)話一般以導(dǎo)師使用語音、學(xué)生使用語音或鍵盤文字輸入來實(shí)現(xiàn)。[8,9,11]自動(dòng)化導(dǎo)師從早期觀察、模擬真人導(dǎo)師行為(如協(xié)作輔導(dǎo)對話[44]、語用[45]、分析對話推測學(xué)生知識結(jié)構(gòu)[46])到迄今具有日臻完善的輔導(dǎo)策略,主要表現(xiàn)在以下三個(gè)方面:(1)以五步輔導(dǎo)框架(5-step tutoring frame)為基礎(chǔ)的協(xié)作推理(collaborative reasoning);(2)期望—誤區(qū)定制會(huì)話框架(expectation and misconception-tailored diaologue,EMT);(3)深層推理問題(deep reasoning questions)。
(一)五步輔導(dǎo)框架
自動(dòng)化導(dǎo)師的五步輔導(dǎo)框架是在大量分析100個(gè)小時(shí)的真人導(dǎo)師輔導(dǎo)對話[44]的基礎(chǔ)上構(gòu)建起來的。這些導(dǎo)師有輔導(dǎo)本科生研究方法和統(tǒng)計(jì)知識的研究生,也有輔導(dǎo)初中生代數(shù)的高中生。由于導(dǎo)師培訓(xùn)并不能有效提高學(xué)生的學(xué)習(xí)成績,[47]并且非專業(yè)導(dǎo)師采用簡單但有效的輔導(dǎo)策略,[48]因此Graesser等對非專業(yè)導(dǎo)師輔導(dǎo)對話進(jìn)行了分析,發(fā)現(xiàn)協(xié)作推理過程主要圍繞五個(gè)環(huán)節(jié)[44]:
(1)導(dǎo)師提出一個(gè)難題或具有挑戰(zhàn)性的問題;
(2)學(xué)生初次回答問題;
(3)導(dǎo)師針對答案質(zhì)量給出簡潔的即時(shí)反饋;
(4)導(dǎo)師、學(xué)生協(xié)作互動(dòng)(collaborative interaction),通過多輪對話提高答案質(zhì)量;
(5)導(dǎo)師檢測學(xué)生是否理解問題的答案。
五步框架中,前三個(gè)環(huán)節(jié)被教師在課堂中普遍使用,教師問學(xué)生一個(gè)問題并給出積極或消極反饋,不同的是,自動(dòng)化導(dǎo)師提出的問題相對具有挑戰(zhàn)性,往往需要深層推理才能獲得正確答案。對于一個(gè)具有挑戰(zhàn)性的問題,自動(dòng)化導(dǎo)師與學(xué)習(xí)者的對話可多達(dá)百余輪。因此,第四步在整個(gè)自動(dòng)化導(dǎo)師輔導(dǎo)過程中起著舉足輕重的作用。正是通過這一環(huán)節(jié),師生在互動(dòng)中共建問題的答案。第五步檢測學(xué)生是否理解問題答案并不是通過簡單的一般疑問句“懂了嗎”,因?yàn)榇蟛糠謱W(xué)生即使沒懂,也會(huì)回答“懂了”。[21]相反,掌握知識越牢靠的學(xué)生越經(jīng)常表達(dá)“不懂”,[44,49]因?yàn)閷W(xué)生需要足夠的知識才能清楚自己“懂”“不懂”。[50]因此好的導(dǎo)師不通過問學(xué)生是否懂了來檢測學(xué)生學(xué)習(xí)情況,而是通過進(jìn)一步的學(xué)習(xí)任務(wù)來評估學(xué)生是否學(xué)會(huì)了。為有效探查學(xué)生的理解度和提供即時(shí)幫助,自動(dòng)化導(dǎo)師在人機(jī)對話過程中根據(jù)教學(xué)需要設(shè)計(jì)了五類言語行為(speech acts),也稱為對話步驟(dialogue move)[9,21]:
(1)簡短反饋(short feedback):積極(positive)反饋(如“很好!”“棒極了!”或使用肢體語言點(diǎn)頭、微笑);消極(negative)反饋(如“不正確!”“錯(cuò)誤!”或使用肢體語言搖頭、皺眉);中性反饋僅表達(dá)聽到了(如“嗯”“嗯”“啊”)。
(2)打氣(pump):導(dǎo)師給學(xué)生打氣,鼓勵(lì)學(xué)生多說,如“還有其他要補(bǔ)充的嗎?”“能再詳細(xì)描述一下……嗎?”
(3)提示(hint):導(dǎo)師直接根據(jù)相關(guān)知識概念提示學(xué)生多說或多做。提示可以是一般性的,如“為什么不……?”“……如何呢?”也可以是相對具體地引導(dǎo)學(xué)生找到正確答案。提示可以促進(jìn)學(xué)生主動(dòng)學(xué)習(xí)和將注意力集中在主要相關(guān)內(nèi)容上。
(4)提醒(prompt):導(dǎo)師提出一個(gè)引導(dǎo)性問題(leading question),學(xué)生可以用一個(gè)單詞或短語給出正確答案。有時(shí)候?qū)W生說得很少,因此,提醒可以使學(xué)生至少說些相關(guān)答案。
(5)斷言(assertion):導(dǎo)師陳述一個(gè)事實(shí)或給出正確答案。
除此之外,導(dǎo)師對話言語行為還包括自我解釋(self-explanation)、回答學(xué)生問題、更正學(xué)生錯(cuò)誤知識、總結(jié)、微型講座(mini-lecture)和針對學(xué)生走神或跑題的反饋等。
(二)期望—誤區(qū)定制會(huì)話框架
期望—誤區(qū)定制會(huì)話框架模擬真人導(dǎo)師在輔導(dǎo)過程中一貫遵循的系統(tǒng)性EMT對話結(jié)構(gòu)。[51]實(shí)證研究結(jié)果顯示,電腦導(dǎo)師使用以EMT為基礎(chǔ)的自然語言對話可使學(xué)生獲得與在真人導(dǎo)師條件下學(xué)習(xí)相抗衡的效果,效應(yīng)量(effect size)在0.6—1.0之間。[24,52,53]EMT對話框架先由導(dǎo)師提出具有挑戰(zhàn)性的問題,預(yù)計(jì)學(xué)生能給出正確答案(稱作“expectation”),同時(shí)也預(yù)期學(xué)生會(huì)給出一些誤解或錯(cuò)誤知識(稱作“misconception”)。當(dāng)學(xué)生給出答案后,導(dǎo)師將他們的答案、期望答案和預(yù)計(jì)知識誤區(qū)進(jìn)行比較,根據(jù)比較結(jié)果給出即時(shí)的積極、消極或中性反饋(short feedback),使用言語、語音語調(diào)或面目表情。[44]即時(shí)反饋之后,導(dǎo)師通過打氣(pump)、提示(hint)、提醒(prompt)等多輪對話引導(dǎo)學(xué)生給出預(yù)期的答案。如果學(xué)生仍舊不能給出正確答案,導(dǎo)師在最后給出正確答案(assertion)。在自動(dòng)化導(dǎo)師系統(tǒng)中,這個(gè)“打氣―提示―提醒―斷言”的過程循環(huán)不斷,幫助學(xué)生給出全面且完整的答案。導(dǎo)師系統(tǒng)可以設(shè)置多個(gè)預(yù)期答案,每個(gè)答案以單句為單位,錯(cuò)誤知識也是如此。對話過程中,學(xué)生也會(huì)提出疑問,導(dǎo)師可以立即給出回答。在協(xié)作學(xué)習(xí)自動(dòng)化導(dǎo)師系統(tǒng)中,有多個(gè)自動(dòng)化人物。除自動(dòng)化導(dǎo)師外,還有自動(dòng)化學(xué)生,因此,自動(dòng)化學(xué)生也可以回答問題[9,11];如果有多名學(xué)生使用協(xié)作學(xué)習(xí)導(dǎo)師系統(tǒng),導(dǎo)師也可以針對問題的難易度將問題先拋給其他學(xué)生回答,如果無人回答正確,導(dǎo)師才最終給出正確答案[14]。
(三)深層推理問題
自動(dòng)化導(dǎo)師通過一系列具有挑戰(zhàn)性的、需要深層推理的問題來檢驗(yàn)學(xué)習(xí)者是否已經(jīng)掌握目標(biāo)知識元素。所提問題往往需要一個(gè)段落的信息才能組成完整的回答。[11]自動(dòng)化導(dǎo)師循序漸進(jìn)、循循善誘,從學(xué)習(xí)者簡單回答一個(gè)詞或一、兩句的答案引導(dǎo)他們至最終回答出全部答案。深層推理問題的答案要有詳細(xì)的解釋,從學(xué)生的解釋中可以得知學(xué)生的深層知識學(xué)習(xí)效果。深層推理問題可以有效提高學(xué)生的學(xué)習(xí)成績。[49,54]根據(jù)Graesser和Person的問題分類,可以把導(dǎo)師提問的問題分成三類:深層問題、中等程度問題、淺層問題。[55]其中深層問題包括因果關(guān)系的前提(causal antecedent,如“這個(gè)實(shí)驗(yàn)怎么失敗的?”)、因果關(guān)系的結(jié)果(causal consequent,如“當(dāng)先進(jìn)的機(jī)器代替人工勞作,就業(yè)市場發(fā)生了什么變化?”)、目標(biāo)導(dǎo)向(goal orientation,如“為什么認(rèn)為這篇總結(jié)比另外一篇好?”)、資源啟動(dòng)(enablement,如“使用什么工具可以測量張力?”)、工具/程序(instrumental/procedural,如“你是如何操控實(shí)驗(yàn)從而得知水的密度不受容器大小的影響?”)以及期望/判斷(expectational/judgment,如“你認(rèn)為這篇文章的標(biāo)題與內(nèi)容相符嗎?”)。
一般學(xué)生很少能獨(dú)立給出深層問題的正確答案,往往要借助自動(dòng)化導(dǎo)師的幫助,通過打氣、提示、提醒等一系列過程才能給出所有的預(yù)期答案。因此,一個(gè)問題往往要經(jīng)過師生多輪對話才能完成。在自動(dòng)化導(dǎo)師系統(tǒng)的多輪對話過程中,僅僅使用自然語言對話是無法探測學(xué)生的非認(rèn)知因素的,比如學(xué)生是否有厭倦情緒、是否積極參與學(xué)習(xí)過程、是否能夠集中注意力而沒有走神等。這些非認(rèn)知因素在現(xiàn)實(shí)輔導(dǎo)過程中對導(dǎo)師來說是很重要的因素,[56]因此一些研究者開始開發(fā)能夠探測學(xué)生情感的自動(dòng)化系統(tǒng),如Gaze Tutor[25]。另外,還有研究者將自動(dòng)化導(dǎo)師系統(tǒng)與虛擬實(shí)境(VECAST[16,19]/Science Inquiry Assessment[17,18]/Microworld[12,13])或認(rèn)知游戲[14,15,51,57]相結(jié)合,從而增加學(xué)生的參與度。下面就以Gaze Tutor、V-CAEST和Microworld為例,分別描述具有具身特性的自動(dòng)化導(dǎo)師系統(tǒng)如何探測學(xué)生的情感以及其在3D虛擬真實(shí)場景中的體現(xiàn)。
自動(dòng)化導(dǎo)師早期的設(shè)計(jì)集中在學(xué)生的認(rèn)知方面;近期的設(shè)計(jì)增添了對學(xué)生在學(xué)習(xí)過程中情感的識別并給學(xué)生提供即時(shí)反饋。[25,58]D’Mello和他的合作者是自動(dòng)化導(dǎo)師系統(tǒng)情感研究的先驅(qū)。他們開發(fā)了AutoTutor-AS(Affect Sensitive,也稱作Emotion Sensitive),在自動(dòng)化導(dǎo)師系統(tǒng)中增添了情感探測(affect detection),探測學(xué)生的體態(tài)、面目表情以及言語等,并對學(xué)生的情感狀態(tài)進(jìn)行分類。[28,59]他們發(fā)現(xiàn)自然語言,比如答案長度、連貫度等,可以在很大程度上預(yù)測學(xué)生的挫折感(frustration)、迷亂(confusion)和參與度(engagement)。另外,一些工具也可用來幫助探測學(xué)生的情感,比如面目傳感器(facial sensing device)[60]、孟菲斯大學(xué)人工智能研究所開發(fā)的感知算法(sensing algorithm)和Ekman的面目運(yùn)動(dòng)編碼系統(tǒng)(facial action coding system)[61]等。面目表情在ITS中主要分為迷亂(confusion)、高興(delight)、厭倦(boredom)、驚訝(surprise)、無表情(flow)和沮喪(frustration)。只有通過讓學(xué)生面對難題、矛盾、反常等將學(xué)生放在認(rèn)知不平衡(cognitive disequilibrium)中解決問題,深度學(xué)習(xí)才能出現(xiàn)。[62,63]下面以Gaze Tutor(凝視導(dǎo)師)為例來具體說明自動(dòng)化導(dǎo)師如何通過使用眼動(dòng)追蹤(eye tracking)探查學(xué)生的凝視模式(gaze pattern)。
(一)Gaze Tutor
Gaze Tutor是針對提高生物學(xué)習(xí)而設(shè)計(jì)的人工智能導(dǎo)師系統(tǒng),這個(gè)系統(tǒng)是在原來Guru Tutor的基礎(chǔ)上開發(fā)設(shè)計(jì)的。[25]在Gaze Tutor系統(tǒng)中,自動(dòng)化導(dǎo)師可以通過眼動(dòng)追蹤探查學(xué)生的凝視模式(gaze pattern),從而辨別學(xué)生是否出現(xiàn)學(xué)習(xí)厭倦感(boredom)、不積極參與(disengagement)或走神(zoning out)。一旦學(xué)生出現(xiàn)以上反應(yīng),導(dǎo)師便通過對話的方式(dialogue move)改變學(xué)生的注意模式(attentional pattern),將學(xué)生的注意力引向動(dòng)畫教學(xué)代理人(animated pedagogical agent)或自動(dòng)化導(dǎo)師所指導(dǎo)的學(xué)習(xí)活動(dòng)。目前,針對學(xué)生參與度有兩種措施:一種是對學(xué)生不積極參與進(jìn)行修復(fù)(disengagement repair);另一種是使學(xué)生保持持久參與(maintaining sustained engagement)。Gaze Tutor通過在學(xué)習(xí)環(huán)境中不積極參與進(jìn)行修復(fù)來提高學(xué)生的參與度。
學(xué)習(xí)參與(engagement)是一項(xiàng)涉及身心的復(fù)雜活動(dòng),往往會(huì)通過生理(physiology)、面部表情(facial expressions)和體態(tài)(posture)表現(xiàn)出來。[59]Gaze Tutor通過眼動(dòng)追蹤觀察學(xué)生的學(xué)習(xí)參與狀態(tài)。眼動(dòng)追蹤長期以來一直被用來監(jiān)測注意分配模式(patterns of attentional deployment)以及注意力缺乏(lack of attention)[64—66],大量使用眼動(dòng)追蹤的研究證明,眼睛離開閱讀材料和頻繁眨眼睛都和走神(mind wandering)緊密相關(guān)[67—69]。Gaze Tutor一方面引導(dǎo)學(xué)生參與合作學(xué)習(xí),一方面通過眼動(dòng)追蹤監(jiān)察學(xué)生的參與情況。如果同時(shí)滿足以下四種情況,學(xué)生被視為注意力轉(zhuǎn)移、沒有參與學(xué)習(xí):(1)導(dǎo)師正在說話;(2)導(dǎo)師沒有進(jìn)行凝視反應(yīng)對話(gaze-reactive statement);(3)學(xué)生持續(xù)超過五秒不看導(dǎo)師或圖片;(4)學(xué)生眼睛離開電腦屏幕長達(dá)10秒。這時(shí),導(dǎo)師會(huì)進(jìn)行凝視反應(yīng)干預(yù)(gaze-reactive intervention)。
導(dǎo)師凝視反應(yīng)干預(yù)通過對話使學(xué)生注意力重新轉(zhuǎn)向?qū)?,重新參與到學(xué)習(xí)活動(dòng)中來。具體操作步驟如下:導(dǎo)師中斷正在說的句子,停頓1秒,說出凝視干預(yù)語句從而引起學(xué)生的注意,再從頭重復(fù)剛才中斷的句子。凝視干預(yù)語句一共有四句:請注意(Please pay attention);你知道我在這兒(I’m over here you know);你或許該將注意力放在我這兒(You might want to focus on me for a change);打起精神來,我們繼續(xù)(Snap out of it. Let’s keep going)。每次凝視干預(yù)時(shí),自動(dòng)化導(dǎo)師隨機(jī)從這四種預(yù)設(shè)語句中選一句。
D’Mello 等通過實(shí)證研究發(fā)現(xiàn),經(jīng)過凝視干預(yù)可以成功地將學(xué)生的注意力重新轉(zhuǎn)向自動(dòng)化導(dǎo)師(1.31 sigma)。[25]盡管隨著干預(yù)次數(shù)的增加,學(xué)生重新轉(zhuǎn)回注意力漸慢,但是他們并沒有完全忽視干預(yù)信息。同時(shí),研究結(jié)果顯示,凝視干預(yù)使學(xué)生的深度學(xué)習(xí)(deep learning)有較高的學(xué)習(xí)獲益(learning gains)(Cohen’sd=0.45),尤其對成績好的學(xué)生效果更為明顯。這說明凝視干預(yù)能夠較好地使學(xué)生注意當(dāng)前的學(xué)習(xí),從而提高學(xué)生的成績。如果自動(dòng)化導(dǎo)師識別學(xué)生具身的程度僅限于監(jiān)測凝視模式就可以指導(dǎo)學(xué)生將注意力集中到學(xué)習(xí)材料上,那么,更大范圍地監(jiān)控學(xué)生身體活動(dòng),如整個(gè)面目表情、坐姿等,或許可以更好地識別學(xué)生學(xué)習(xí)過程中的心理動(dòng)態(tài),從而幫助學(xué)生取得更佳的成績。
凝視導(dǎo)師通過檢測學(xué)生的凝視模式給學(xué)生提供有關(guān)具身的言語指導(dǎo),讓學(xué)生將注意力放在當(dāng)前的學(xué)習(xí)任務(wù)上;而虛擬實(shí)境(virtual reality)則給學(xué)生提供了仿真的具身感覺。隨著目前科技的迅猛發(fā)展,越來越多的研究者開始關(guān)注虛擬世界(virtual world)在計(jì)算機(jī)輔助學(xué)習(xí)系統(tǒng)中的應(yīng)用。根據(jù)具身理論,虛擬場景模擬現(xiàn)實(shí)場景(live-action)可以使學(xué)習(xí)者有身臨其境的感覺,可以讓學(xué)習(xí)者主動(dòng)投入學(xué)習(xí)過程,可以更進(jìn)一步地詮釋虛擬環(huán)境在學(xué)習(xí)中的作用。美國教育考試服務(wù)中心(Educational Testing Service-ETS)就正在開發(fā)自動(dòng)化導(dǎo)師嵌于虛擬實(shí)境中的評估系統(tǒng)。[17,18,20]另外,虛擬世界還大量應(yīng)用于培訓(xùn)環(huán)境中。V-CAEST將自動(dòng)化導(dǎo)師網(wǎng)絡(luò)版(www.skoonline.org/AutoTutor Lite[19])鑲嵌在一個(gè)虛擬實(shí)境中,以達(dá)到仿真模擬訓(xùn)練的目的。Shubeck、Craig和胡對比學(xué)生在虛擬實(shí)境和真實(shí)場景的學(xué)習(xí)效果發(fā)現(xiàn),學(xué)習(xí)者在兩種場景中的學(xué)習(xí)效果沒有區(qū)別。[19]這說明,虛擬實(shí)境可以替代真實(shí)場景達(dá)到培訓(xùn)的目的。下面以V-CAEST為例具體描述虛擬實(shí)境和自動(dòng)化導(dǎo)師系統(tǒng)的聯(lián)合應(yīng)用。
(二)V-CAEST
V-CAEST(Virtual Civilian Aeromedical Evacuation Sustainment Training)指虛擬平民傷病員空中醫(yī)療后送持續(xù)訓(xùn)練。這種訓(xùn)練通常都在現(xiàn)實(shí)場景中進(jìn)行,對護(hù)士進(jìn)行大規(guī)模傷亡事件(mass-casualty incident)傷病員搶救培訓(xùn),往往需要花費(fèi)很多的時(shí)間、精力與金錢。最近,研究者開始使用虛擬場景進(jìn)行重大傷亡事故搶救培訓(xùn),[70—73]不僅可以節(jié)省資耗,還可以模擬真實(shí)場景中難以模擬的內(nèi)容。V-CAEST虛擬實(shí)境以真實(shí)場景訓(xùn)練模擬為基礎(chǔ),結(jié)合自動(dòng)化導(dǎo)師自然語言,不僅提供了逼真的場景,還有來自自動(dòng)化導(dǎo)師的及時(shí)反饋和指導(dǎo)。
本文以V-CAEST真實(shí)模擬地震的場景為例,培訓(xùn)醫(yī)護(hù)人員需要迅速找到傷病員并針對他們的受傷程度進(jìn)行分類(見圖1)。[16,19]模擬培訓(xùn)系統(tǒng)主要通過熟悉空運(yùn)傷員活動(dòng)來訓(xùn)練平民醫(yī)療從業(yè)者(civilian medical practitioner)掌握標(biāo)準(zhǔn)分診(triage)方法。學(xué)習(xí)者一般分成六個(gè)或六個(gè)以上的小組進(jìn)行合作學(xué)習(xí),互相提供同伴反饋,學(xué)習(xí)者之間可以使用文本對話或語音對話。在地震城市街區(qū)的模擬中,學(xué)習(xí)者可以看到六個(gè)受害者,并且可以與他們交流。每個(gè)受害者有三個(gè)預(yù)設(shè)對話腳本。根據(jù)SALT(Sort,Assess,Life-Saving Intervention,and Treatment and/or Transport)分診法判斷受害者是否需要救生措施以及其正確的優(yōu)先級類別(priority category)。一旦學(xué)生醫(yī)護(hù)人員分類錯(cuò)誤,自動(dòng)化導(dǎo)師會(huì)被激活,幫助解釋學(xué)生出現(xiàn)的錯(cuò)誤。Shubeck等發(fā)現(xiàn),通過V-CAEST虛擬場景學(xué)習(xí)的學(xué)生取得的即時(shí)和實(shí)用知識遷移測試成績與在真實(shí)場景下是一樣的。[19]Foronda等也發(fā)現(xiàn)了同樣的結(jié)果。[16]這說明在虛擬實(shí)境中學(xué)生可以體會(huì)到與現(xiàn)實(shí)場景中類似的具身效果。
圖1-a V-CAEST 3D虛擬實(shí)境
圖1-b V-CAEST 3D虛擬實(shí)境
注:圖1-a為醫(yī)護(hù)人員找到傷病員;圖1-b左邊為分類級別,中心顯示導(dǎo)師人物圖像、對話內(nèi)容及數(shù)據(jù)分析,對話內(nèi)容顯示導(dǎo)師對學(xué)生的分類進(jìn)行提示。
(三)Microworld
微世界(Microworld)(www.inq-its.org)[12,13]是以ITS為基礎(chǔ)的中學(xué)生科學(xué)課評估系統(tǒng)。目前已開發(fā)的科目內(nèi)容有物理科學(xué)、生命科學(xué)和地球科學(xué)。微世界科學(xué)探究評估系統(tǒng)一改傳統(tǒng)的以單項(xiàng)選擇、判斷正誤、簡答題等考察學(xué)生知識再現(xiàn)的模式,側(cè)重知識的學(xué)以致用,模擬科學(xué)家實(shí)驗(yàn)過程,考察學(xué)生是否能夠在虛擬科學(xué)實(shí)驗(yàn)環(huán)境下完成一系列科學(xué)探究活動(dòng)。微世界的評估系統(tǒng)主要分成兩大部分:做實(shí)驗(yàn)和寫科學(xué)論證。做實(shí)驗(yàn)部分可細(xì)分為提出假設(shè)(formulating hypotheses)、使用微世界實(shí)驗(yàn)室收集數(shù)據(jù)(Collecting data)以驗(yàn)證假設(shè)(testing hypotheses)、解釋數(shù)據(jù)(interpreting data)和確認(rèn)論點(diǎn)(warranting claim);寫科學(xué)論證部分可細(xì)分為論點(diǎn)(claim)、論據(jù)(evidence)和論證(reasoning)。微世界給學(xué)生提供了一個(gè)真實(shí)的虛擬科學(xué)探究世界,讓學(xué)生像科學(xué)家一樣親自進(jìn)行科學(xué)探究,給學(xué)生提供了一個(gè)感知的環(huán)境賦值。另外,微世界可以使學(xué)生像在真正的科學(xué)實(shí)驗(yàn)室中一樣親自操控實(shí)驗(yàn)變量,增強(qiáng)了探究的真實(shí)性,這種身體操控也是具身在ITS中的另一種應(yīng)用。
圖2展現(xiàn)了如何使用微世界評估學(xué)生對動(dòng)物細(xì)胞知識的掌握程度。圖2-a簡要介紹任務(wù)以及變量。圖2-b最上面顯示任務(wù)目標(biāo)(goal),探查如何提高細(xì)胞能量。假設(shè)部分(hypothesis)顯示之前學(xué)生提出的假設(shè),學(xué)生認(rèn)為提高核糖體(ribosomes)會(huì)使能量生成(production of energy)提高。在細(xì)胞健康(cell health)和假設(shè)之間,左邊是學(xué)生可以操作的自變量,右邊是根據(jù)左面所選變量值模擬的相應(yīng)細(xì)胞變化。根據(jù)所選自變量,細(xì)胞健康部分會(huì)有相應(yīng)變化。圖2顯示學(xué)生已經(jīng)收集了四次數(shù)據(jù)。前兩次保持其他自變量不變,只變化了核糖體,檢測核糖體是否可以提高能量生成。數(shù)據(jù)顯示學(xué)生將核糖體從1升至5,但是能量生成沒有變化。第三個(gè)數(shù)據(jù)顯示,學(xué)生改變自變量,開始檢測線粒體(mitochondrion),從2升至5、又從5升至8,結(jié)果發(fā)現(xiàn)能量生成逐漸提高,從50%、125%到200%。
我們可以看到,一個(gè)概念性的、在書本上通過一句話就可以獲得的知識,在微世界學(xué)生需要親自操控、親眼觀察來證實(shí)自己的知識是否正確。根據(jù)這個(gè)學(xué)生的最初假設(shè)和初步數(shù)據(jù)收集可以得知其對所考察的知識沒有理解,但是能夠正確使用科學(xué)
圖2-a 任務(wù)及變量
圖2-b 實(shí)驗(yàn)操作及數(shù)據(jù)收集
探究方法,通過操控自變量觀察到自己的知識有誤,從而轉(zhuǎn)為探索另一個(gè)自變量?;蛟S有的學(xué)生沒有這個(gè)學(xué)生幸運(yùn),沒能較快地找到正確的自變量,但是只要學(xué)生會(huì)運(yùn)用科學(xué)方法、懂得如何控制自變量,最終就可以根據(jù)數(shù)據(jù)找到正確答案。從微世界評估系統(tǒng)可以看到,這個(gè)評估系統(tǒng)并不是對知識死記硬背的評估,而是考察學(xué)生是否知道如何操控變量的科學(xué)探究方法,以及是否能夠最終通過實(shí)驗(yàn)操作掌握正確知識。
圖3-a顯示了數(shù)據(jù)收集結(jié)束后再次向?qū)W生展示任務(wù)目標(biāo)和學(xué)生提出的假設(shè),這次學(xué)生知道自己提出假設(shè)時(shí)選擇的自變量是錯(cuò)誤的,并且重審所收集的數(shù)據(jù)和所提出的假設(shè)。之后,他挑選了三個(gè)相關(guān)數(shù)據(jù)來支持他的假設(shè)。從這個(gè)過程我們可以看到,學(xué)生從錯(cuò)誤知識到正確知識的習(xí)得是通過親自操作,而不是被動(dòng)地聽或讀。圖3-b是科學(xué)論證部分。這部分要求學(xué)生寫出論點(diǎn)、引用論據(jù)并論證科學(xué)探究的任務(wù),科學(xué)論證的寫作可以更進(jìn)一步地考察學(xué)生是否真正獲得所學(xué)知識,能將所做的實(shí)驗(yàn)過程有理有據(jù)地描述出來。這是從具身體驗(yàn)到心理表征(mental representation)再到知識的整合和語言再生成(language reproduction)等的一系列復(fù)雜過程。微世界從另一個(gè)角度證明了學(xué)生通過讀和聽有可能產(chǎn)生的錯(cuò)誤記憶可以在親自實(shí)驗(yàn)、觀察的過程中被修正,從而使學(xué)生更好地掌握正確知識。
圖3-a 驗(yàn)證假設(shè)并挑選有效數(shù)據(jù)
圖3-b 科學(xué)論證
具身認(rèn)知理論在人工智能導(dǎo)師系統(tǒng)設(shè)計(jì)中起著非常重要的作用,在人工智能系統(tǒng)中我們或多或少地可以看到具身隱匿其中,從自動(dòng)化導(dǎo)師的具身展示以及導(dǎo)師對學(xué)生具身的探測、識別、解讀和反饋可以看出,具身在自動(dòng)化導(dǎo)師設(shè)計(jì)中的應(yīng)用有逐漸增強(qiáng)的勢頭。同時(shí),增添具身設(shè)計(jì)能夠提高學(xué)生學(xué)習(xí)成績,這也在一定程度上增強(qiáng)了具身在設(shè)計(jì)中的重要性。但是,由于當(dāng)前技術(shù)和經(jīng)濟(jì)條件的局限,大規(guī)模地在人工智能系統(tǒng)中增添具身功能和通過昂貴的儀器識別學(xué)生具身仍舊未能實(shí)現(xiàn)。因此,設(shè)計(jì)價(jià)格低廉、能夠隱嵌于電腦中的儀器會(huì)大大促進(jìn)人工智能導(dǎo)師系統(tǒng)的改進(jìn),使人工智能導(dǎo)師系統(tǒng)的設(shè)計(jì)更上一層樓。下面從自動(dòng)化導(dǎo)師具身和學(xué)生具身的識別、反饋討論具身在人工智能導(dǎo)師系統(tǒng)中的未來發(fā)展。
(一)自動(dòng)化導(dǎo)師具身
目前電腦導(dǎo)師雖然可以部分模擬簡單的、基本的具身動(dòng)作,比如揚(yáng)眉、轉(zhuǎn)頭、說話時(shí)的嘴部動(dòng)作或簡單的手勢,甚至通過骨骼結(jié)構(gòu)特征做出更復(fù)雜的動(dòng)作等,[74,75]但是這些復(fù)雜的設(shè)計(jì)算法還未能被廣泛地應(yīng)用于人工智能導(dǎo)師系統(tǒng)中?;诟呖萍嫉陌l(fā)展和算法的精密,模擬真人的自動(dòng)化導(dǎo)師也未嘗不可在近期實(shí)現(xiàn),正如現(xiàn)在模擬真實(shí)場景的電子游戲可以設(shè)計(jì)完全的具身電腦人物一樣,如果可以將娛樂游戲的人物設(shè)計(jì)技術(shù)和人工智能導(dǎo)師系統(tǒng)相結(jié)合,那么在人工智能導(dǎo)師系統(tǒng)中實(shí)現(xiàn)導(dǎo)師具身也指日可待。
(二)自動(dòng)化導(dǎo)師感知學(xué)生具身
除了自動(dòng)化導(dǎo)師本身具有更強(qiáng)大的具身設(shè)計(jì)之外,要想使模擬真人導(dǎo)師更加真實(shí),系統(tǒng)必須幫助導(dǎo)師識別學(xué)生的具身。目前,有些系統(tǒng)能夠探測面目表情、手勢、姿勢和動(dòng)作,[60,76,77]但是這些系統(tǒng)仍處于開發(fā)初期階段,并不成熟。只有較精確地探測學(xué)生的具身,才能進(jìn)一步解讀學(xué)生具身所反應(yīng)的心理過程,從而更好地在非認(rèn)知方面幫助學(xué)生,提高學(xué)生的學(xué)習(xí)積極性、主動(dòng)參與性和注意力。目前的一些系統(tǒng)主要通過學(xué)生語言輸入或儀器(如眼動(dòng)追蹤探測儀器、錄像儀器及手指觸動(dòng)鍵盤力度探測儀器等)識別學(xué)生的具身。這些方法在一定程度上可以捕捉學(xué)生的具身,但都是在小范圍的實(shí)驗(yàn)室進(jìn)行。那么,開發(fā)能夠大范圍使用的、便攜的且不易被學(xué)生覺察的內(nèi)嵌在計(jì)算機(jī)系統(tǒng)中的設(shè)備將會(huì)成為下一步的開發(fā)研究內(nèi)容。另外,對學(xué)生進(jìn)行語言模式分析雖然可以探測學(xué)生的部分情緒,但并不全面,如果能同時(shí)分析學(xué)生的語音語調(diào)來捕捉學(xué)生的情緒,便可進(jìn)一步完善所得數(shù)據(jù)。
(三)導(dǎo)師對學(xué)生具身的反饋
導(dǎo)師不僅要能探測、解讀、分析學(xué)生具身所隱含的心理情緒,同時(shí)也要對具身所闡釋的負(fù)面情緒給出即時(shí)反饋,才能對學(xué)生學(xué)習(xí)過程起到一定的積極導(dǎo)向作用。目前,對人工智能導(dǎo)師識別學(xué)生具身,比如眼動(dòng)模式、面目表情、體態(tài)等,所使用的儀器有一定程度的開發(fā),但是對學(xué)生具身進(jìn)行自動(dòng)解讀和分類技術(shù)的開發(fā)才剛剛開始。如果能夠開發(fā)價(jià)格低廉且與計(jì)算機(jī)配套的攝像頭,不僅可以拍攝學(xué)習(xí)者的面目表情,還可以自動(dòng)分析學(xué)生表情并傳送給導(dǎo)師,那么導(dǎo)師對學(xué)生的具身可以獲得更多的信息,進(jìn)而識別并指導(dǎo)學(xué)生專心于當(dāng)前的學(xué)習(xí)任務(wù)。
(四)學(xué)生具身
目前,3D在人工智能系統(tǒng)中的應(yīng)用大都表現(xiàn)為學(xué)生以局外人的身份操作一些參數(shù),也就是說學(xué)生可以看到真實(shí)場景,可以通過心理模擬具身反應(yīng),從而操作參數(shù)并完成任務(wù)。這種條件下學(xué)生雖然比旁觀者多了操作的機(jī)會(huì),但是并沒有真正進(jìn)入虛擬實(shí)景的活動(dòng)。那么,如果學(xué)生本人可以選擇電腦人物代表自己,然后親自操縱電腦人物并出現(xiàn)在場景中感受電腦人物所感受的一切,學(xué)習(xí)效果會(huì)更好。
總之,人工智能導(dǎo)師系統(tǒng)目前雖然由來自不同領(lǐng)域的研究者共同開發(fā),比如計(jì)算機(jī)、心理、教育、語言等,但是想要開發(fā)成像商業(yè)游戲中那樣的全身具身自動(dòng)化導(dǎo)師仍需很高昂的成本。如何降低開發(fā)成本從而使具身導(dǎo)師更廣泛地應(yīng)用到教育領(lǐng)域是目前面臨的最大挑戰(zhàn)。自動(dòng)化導(dǎo)師普遍可以和學(xué)生進(jìn)行自然語言對話,做出與話語相匹配的具身動(dòng)作,同時(shí)還能識別、詮釋學(xué)生具身并給出回應(yīng),這將是人工智能導(dǎo)師系統(tǒng)開發(fā)的終極目標(biāo)。
[1] A. M. Glenberg.FewBelievetheWorldIsFlat:HowEmbodimentIsChangingtheScientificUnderstandingofCognition. Canadian Journal of Experimental Psychology/Revue Canadienne de Psychologie Expérimentale, 2015, 69(2): 165—171.
[2] A. M. Glenberg, J. K. Witt, J. Metcalfe.FromtheRevolutiontoEmbodiment25YearsofCognitivePsychology. Perspectives on Psychological Science, 2013, 8(5): 573—585.
[3] L. W. Barsalou, W. K. Simmons, A. K. Barbey,et al.GroundingConceptualKnowledgeinModality-specificSystems. Trends in Cognitive Sciences, 2003, 7(2): 84—91.
[4] A. M. Glenberg.WhatMemoryIsfor:CreatingMeaningintheServiceofAction. Behavioral and Brain Sciences, 1997, 20(1): 41—50.
[5] B. Z. Mahon.TheBurdenofEmbodiedCognition. Canadian Journal of Experimental Psychology/Revue Canadienne de Psychologie Experimentale, 2015, 69(2): 172—178.
[6] M. E. Masson.TowardaDeeperUnderstandingofEmbodiment. Canadian Journal of Experimental Psychology/Revue Canadienne de Psychologie Expérimentale, 2015, 69(2): 159—164.
[7] D. Kirsh.EmbodiedCognitionandtheMagicalFutureofInteractionDesign. ACM Transactions on Computer-Human Interaction (TOCHI), 2013, 20(1): 3.
[8] A. C. Graesser, G. T. Jackson.BodyandSymbolinAutoTutor:ConversationsthatAreResponsivetotheLearners’CognitiveandEmotionalStates//M. DE Vega, A. M. Glenberg, A. C. Graesser(Eds.). Symbols and Embodiment: Debates on Meaning and Cognition. Oxford, UK: Oxford University Press, 2008: 33—56.
[9] A. C. Graesser, H. Li, C. Forsyth.LearningbyCommunicatinginNaturalLanguagewithConversationalAgents. Current Directions in Psychological Science, 2014, 23(5): 374—380.
[10]H. Li, K. Shubeck, A. C. Graesser.UsingTechnologyinLanguageAssessment//D. Tsagari, J. Banerjee (Eds.). Contemporary Second Language Assessment (Vol. 4). London, UK: Continuum International Publishing Group, 2016: 281—297.
[11]H. Li, C. Cheng, Q. Yu,et al.TheRoleofPeerAgent’sLearningCompetencyinTrialogue-basedReadingIntelligentSystems//C. Conati, N. Heffernan, A. Mitrovic, et al (Eds.). Proceedings of the 17th International Conference on Artificial Intelligence in Education (Vol. 9112). Switzerland: Springer International Publishing, 2015: 694—697.
[12]J. Gobert.Microworlds//R. Gunstone (Ed.). Encyclopedia of Science Education. Springer, 2015: 638—639.
[13]J. Gobert, M. Sao Pedro, J. Raziuddin,et al.FromLogFilestoAssessmentMetricsforScienceInquiryUsingEducationalDataMining. Journal of the Learning Sciences, 2013, 22(4): 521—563.
[14]H. Li, D. Clewley, A. C. Graesser,et al. QuestionAskingduringtheCollaborativeProblemSolvingEnvironments//J. Kim, E. Walker, R. Martinez-Maldonado, et al (Eds.). The 3rd Workshop on Intelligent Support for Learning in Groups (ISLG) at the Twelfth International Conference on Intelligent Tutoring Systems. Cham: Springer, 2014.
[15]H. Li, Y. Duan, D. Clewley, et al.QuestionAskingduringCollaborativeProblemSolvinginanOnlineGameEnvironment//S. Trausan-Matu, K. E. Boyer, M. Crosby, et al (Eds.). Intelligent Tutoring System: 12th International Conference, ITS 2014. Cham: Springer, 2014: 617—618.
[16]C. L. Foronda, K. Shubeck, S. M. Swoboda, et al.ImpactofVirtualSimulationtoTeachConceptsofDisasterTriage. Clinical Simulation in Nursing, 2016, 12(4): 137—144.
[17]H. Li, G. T. Jackson, D. Zapata-Rivera.ComparingConversation-basedScenariostoTraditionalAssessmentMethods. Paper Presented at the National Council on Measurement in Education. Chigaco: Illinois, 2015:171.
[18]H. Li, D. Zapata-Rivera, G. T. Jackson.ComparingTrialogue-basedTaskswithOtherAssessmentTasks. Paper Presented at the Annual Meeting of American Educational Research Association. Chigaco, Illinois, 2015.
[19]K. Shubeck, S. D. Craig, X. Hu.Live-actionmass-casualtytrainingandvirtualworldtraining:Acompaison// Proceedings of the 43rd Annual Meeting of the Human Factors and Ergonomics Society (HFES). Thousand Oaks, CA: Sage, 2016:2103—2107.
[20]Y. So, D. Zapata-Rivera, Y. Cho, et al.UsingTrialoguestoMeasureEnglishLanguageSkills. Educational Technology, Society, 2015, 18(2): 21—32.
[21]A. C. Graesser, F. Keshtkar, H. Li.TheRoleofNaturalLanguageandDiscourseProcessinginAdvancedTutoringSystems//T. Holtgraves (Ed.). The Oxford Handbooks of Language and Social Psychology. New York: Oxford University Press, 2014: 491—509.
[22]L. W. Barsalou.PerceptualSymbolSystems. Behavioral, Brain Sciences, 1999, 22: 577—660.
[23]A. M. Glenberg, M. P. Kaschak.GroundingLanguageinAction. Psychological Bulletin, Review, 2002, 9(3): 558—565.
[24]A. Olney, S. D’Mello, N. K. Person,et al. Guru:AComputerTutorthatModelsExpertHumanTutors//S. A. Cerri, B. Clancey (Eds.). Proceedings of Intelligent Tutoring Systems (ITS). Berlin: Springer, 2012: 256—261.
[25]S. D’Mello, A. Olney, C. Williams,et al.GazeTutor:AGaze-ReactiveIntelligentTutoringSystem. International Journal of Human-Computer Studies, 2012, 70(5): 377—398.
[26]D. F. Halpern, K. Millis, A. C. Graesser,et al.OperationARA:AComputerizedLearningGameThatTeachesCriticalThinkingandScientificReasoning. Thinking Skills and Creativity, 2012, 7(2): 93—100.
[27]K. Millis, C. Forsyth, H. Butler,et al.OperationARIES!:ASeriousGameforTeachingScientificInquiry//M. Ma, A. Oikonomou, L. C. Jain (Eds.). Serious Games and Edutainment Applications. London: Springer, 2011: 169—195.
[28]S. D’Mello, A. C. Graesser.AutoTutorandAffectiveAutoTutor:LearningbyTalkingwithCognitivelyandEmotionallyIntelligentComputersThatTalkBack. ACM Transactions on Interactive Intelligent Systems, 2012, 2(4): 23,2—23,29.
[29]J. J. Gibson. The Ecological Approach to Visual Perception. Boston: Houghton Mifflin, 1979.
[30]D. R. Proffitt.EmbodiedPerceptionandtheEconomyofAction. Perspectives on Psychological Science, 2006, 1(2): 110—122.
[31]D. Casasanto.DifferentBodies,DifferentMinds:TheBodySpecificityofLanguageandThought. Current Directions in Psychological Science, 2011, 20(6): 378—383.
[32]O. Hauk, I. Johnsrude, F. Pulvermüller.SomatotopicRepresentationofActionWordsinHumanMotorandPremotorCortex. Neuron, 2004, 419(2): 301—307.
[33]R. A. Zwaan, R. A. Stanfield, R. H. Yaxley. Language Comprehenders Mentally Represent the Shapes of Objects. Psychological Science, 2002, 13(2): 168—171.
[34]D. A. Havas, A. M. Glenberg, K. A. Gutowski,et al.CosmeticUseofBotulinumToxin:AffectsProcessingofEmotionalLanguage. Psychological Science, 2010, 21(7): 895—900.
[35]C. Kontra, D. J. Lyons, S. M. Fischer,et al.PhysicalExperienceEnhancesScienceLearning. Psychological Science, 2015, 26(6): 737—749.
[36]V. Gallese, C. Keysers, G. Rizzolatti.AUnifyingViewoftheBasisofSocialCognition. Trends in Cognitive Sciences, 2004, 8(9): 396—403.
[37]G. Rizzolatti, C. Sinigaglia.TheFunctionalRoleoftheParietofrontalMirrorCircuit:InterpretationsandMisinterpretations. Nature Reviews Neuroscience, 2010, 11(4): 264—274.
[38]J. A. Sommerville, A. L. Woodward, A. Needham.ActionExperienceAlters3-month-oldInfants’PerceptionofOthers’Actions. Cognition, 2005, 96(1): B1—B11.
[39]L. L. Chao, A. Martin.RepresentationofManipulableManmadeObjectsintheDorsalStream. NeuroImage, 2000, 12(4): 478—484.
[40]M. Tettamanti, G. Buccino, M. C. Saccuman,et al.ListeningtoAction-relatedSentencesActivatesFronto-parietalMotorCircuits. Journal of Cognitive Neuroscience, 2005, 17(2): 273—281.
[41]F. Pulvermüller, O. Hauk, V. V. Nikulin,et al.FunctionalLinksbetweenMotorandLanguageSystems. European Journal of Neuroscience, 2005, 21(3): 793—797.
[42]A. C. Graesser, S. Lu, G. T. Jackson, et al.AutoTutor:ATutorwithDialogueinNaturalLanguage. Behavioral Research Methods, Instruments, and Computers, 2004, 36(2): 180—193.
[43]A. C. Graesser, P. Chipman, B. C. Haynes, et al.AutoTutor:AnIntelligentTutoringSystemwithMixed-initiativeDialogue. IEEE Transactions in Education, 2005, 48(4): 612—618.
[44]A. C. Graesser, N. K. Person, J. P. Magliano.CollaborativeDialoguePatternsinNaturalisticOne-on-oneTutoring. Applied Cognitive Psychology, 1995, 9(6): 359—387.
[45]N. K. Person, R. J. Kreuz, R. Zwaan, et al. Pragmatics and Pedagogy:ConversationalRulesandPolitenessStrategiesMayInhibitEffectiveTutoring. Cognition and Instruction, 1995, 13(2): 161—188.
[46]N. K. Person, A. C. Graesser, J. P. Magliano,et al.InferringWhattheStudentKnowsinOne-to-oneTutoring:theRoleofStudentQuestionsandAnswers. Learning and Individual Differences, 1994, 6(2): 205—219.
[47]P. A. Cohen, J. A. Kulik, C. L. C. Kulik.EducationalOutcomesofTutoring:AMeta-AnalysisofFindings. American Educational Research Journal, 1982, 19(2): 237—248.
[48]B. D. Nye, A. C. Graesser, X. Hu.AutoTutorandFamily:AReviewof17YearsofNaturalLanguageTutoring. International Journal of Artificial Intelligence in Education, 2014, 24(4): 427—469.
[49]M. T. Chi, N. De Leeuw, M. H. Chiu,et al.ElicitingSelf-explanationsImprovesUnderstanding. Cognitive Science, 1994, 18(3): 439—477.
[50]N. Miyake, D. A. Norman.ToAskaQuestion,OneMustKnowEnoughtoKnowWhatIsNotKnown. Journal of Verbal Learning and Verbal Behavior, 1979, 18(3): 357—364.
[51]A. C. Graesser, S. D’Mello, X. Hu, et al.AutoTutor//P. Mccarthy, C. Boonthum-Denecke (Eds.). Applied Natural Language Processing: Identification, Investigation, and Resolution. Hershey, PA: IGI Global, 2012: 169—187.
[52]K. Vanlehn.TheRelativeEffectivenessofHumanTutoring,IntelligentTutoringSystems,andOtherTutoringSystems. Educational Psychologist, 2011, 46(4): 197—221.
[53]K. Vanlehn, A. C. Graesser, G. T. Jackson,et al.WhenAreTutorialDialoguesMoreEffectiveThanReading? Cognitive Science, 2007, 31(1): 3—62.
[54]D. S. Mcnamara, J. P. Magliano.Self-explanationandMetacognition//D. Hacker, J. Donlosky, A. C. Graesser (Eds.). Handbook of Metacognition in Education. New York: Taylor, Francis, 2009: 60—81.
[55]A. C. Graesser, N. K. Person.QuestionAskingduringTutoring. American Educational Research Journal, 1994, 31(1): 104—137.
[56]M. R. Lepper, M. Woolverton.TheWisdomofPractice:LessonsLearnedfromtheStudyofHighlyEffectiveTutors//J. Aronson (Ed.). Improving Academic Achievement: Impact of Psychological Factors on Education. San Diego, CA: Academic Press, 2002: 135—158.
[57]H. Li, B. Samei, A. M. Olney , et al.QuestionClassificationinanEpistemicGame//J. Kim, E. Walker, R. Martinez-Maldonado,et al(Eds.). The 3rd Workshop on Intelligent Support for Learning in Groups (ISLG) at the 12th International Conference on Intelligent Tutoring Systems. Cham: Springer, 2014.
[58]S. D’Mello, R. Picard, A. C. Graesser.TowardanAffect-SensitiveAutoTutor. IEEE Intelligent Systems, 2007, 22(4): 53—61.
[59]S. D’Mello, A. C. Graesser.MultimodalSemi-automatedAffectDetectionfromConversationalCues,GrossBodyLanguage,andFacialFeatures. User Modeling and User-Adapted Interaction, 2010, 20(2): 147—187.
[60]A. Kapoor, R. Picard.Real-time,FullyAutomatedUpperFacialFeatureTracking∥Proceedings of the 5th International Conference on Automated Face and Gesture Recognition. Piscataway, NJ: IEEE, 2002: 8—13.
[61]P. Ekman. Emotions Revealed: Recognizing Faces and Feelings to Improve Communication and Emotional Life. New York: Henry Holt and Company, LLC, 2003:1—16.
[62]S. D. Craig, A. C. Graesser, J. Sullins,et al.AffectandLearning:AnExploratoryLookintotheRoleofAffectinLearning. Journal of Educational Media, 2004, 29(3): 241—250.
[63]A. C. Graesser, S. Lu, B. A. Olde, et al.QuestionAskingandEyeTrackingduringCognitiveDisequilibrium:ComprehendingIllustratedTextsonDevicesWhentheDevicesBreakDown. Memory and Cognition, 2005, 33(7): 1235—1247.
[64]S. Asteriadis, K. Karpouzis, S. Kollias.FeatureExtractionandSelectionforInferringUserEngagementinanHCIEnvironment//J. A. Jacko (Ed.). Human-Computer Interaction, Part I, vol. 5610. Springer-Verlag, Berlin, 2009: 22—29.
[65]S. Asteriadis, P. Tzouveli, K. Karpouzis, et al.EstimationofBehavioralUserStateBasedonEyeGazeandHeadPose-ApplicationinanE-learningEnvironment. Multimedia Tools and Applications, 2009, 41(3): 469—493.
[66]E. D. Reichle, A. E. Reineberg, J. W. Schooler.EyeMovementsduringMindlessReading. Psychological Science, 2010, 21(9): 1300—1310.
[67]T. Foulsham, J. Farley, A. Kingstone.MindWanderinginSentenceReading:DecouplingtheLinkbetweenMindandEye. Canadian Journal of Experimental Psychology/Revue Canadienne de Psychologie Expérimentale, 2013, 67(1): 51—59.
[68]D. Smilek, J. S. Carriere, J. A. Cheyne.OutofMind,outofSightEyeBlinkingasIndicatorandEmbodimentofMindWandering. Psychological Science, 2010, 21(6): 786—789.
[69]S. Uzzaman, S. Joordens.TheEyesKnowWhatYouAreThinking:EyeMovementsasanObjectiveMeasureofMindWandering. Consciousness and Cognition, 2011, 20(4): 1882—1886.
[70]P. B. Andreatta, E. Maslowski, S. Petty,et al.VirtualRealityTriageTrainingProvidesaViableSolutionforDisaster-preparedness. Academic Emergency Medicine, 2010, 17(8): 870—876.
[71]D. Cohen, N. Sevdalis, D. Taylor,et al.EmergencyPreparednessinthe21stCentury:TrainingandPreparationModulesinVirtualEnvironments. Resuscitation, 2013, 84(1): 78—84.
[72]W. L. Heinriches, P. Youngblood, P. Harter,et al.TrainingHealthcarePersonnelforMass-casualtyIncidentsinaVirtualEmergencyDepartment:VEDII. Prehospital, Disaster Medicine, 2010, 25(5): 424—432.
[73]P. H. Pucher, N. Batrick, D. Taylor,et al.Virtual-worldHospitalSimulationforReal-worldDisasterResponse:DesignandValidationofaVirtualRealitySimulatorforMassCasualtyIncidentManagement. Journal of Trauma, Acute Care Surgery, 2014, 77(2): 315—321.
[74]J. Cassell, T. Bickmore, L. Campbell,et al.MoreThanJustaPrettyFace:ConversationalProtocolsandtheAffordancesofEmbodiment. Knowledge Based Systems, 2001, 14(1): 55—64.
[75]F. Quek.TheCatchmentFeatureModel:ADeviceforMultimodalFusionandaBridgebetweenSignalandSense. Journal of Applied Signal Processing, 2004, 11: 1619—1636.
[76]C. W. Chu, I. Cohen.PostureandGestureRecognitionUsingBodyShapesDecomposition∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. Piscataway, NJ: IEEE, 2005: 69.
[77]S. Kettebekov, M. Yeasin, R. Sharma.Prosody-basedAudio-visualCo-analysisforCoverbalGestureRecognition. IEEE Transactions in Multimedia: Multimedia Interfaces and Applications, 2005, 7(2): 234—242.
【責(zé)任編輯:王建平;實(shí)習(xí)編輯:楊孟葳】
美國國家科學(xué)基金會(huì)資助項(xiàng)目“Developing Instructional Approaches Suited to the Cognitive and Motivational Needs for Struggling Adults”(R305C120001);美國教育科學(xué)研究所資助項(xiàng)目“Testing the Effects of Real-time Scaffolding of Science Inquiry Driven by Automated Performance Assessment”(NSF-DRL-1252477)
2016-05-26
B84;B434
A
1000-5455(2017)02-0079-13
李海英,河北邯鄲人,心理學(xué)博士,美國羅格斯大學(xué)教育研究院博士后;Arthur C. Graesser,美國人,美國孟菲斯大學(xué)心理系和人工智能研究所教授,牛津大學(xué)名譽(yù)教授;Janice Gobert,加拿大人,羅格斯大學(xué)教育研究院教授。)