汪維富 毛美娟
[摘? ?要] 隨著物聯(lián)網(wǎng)、可穿戴傳感設(shè)備、人工智能的快速發(fā)展,多種模態(tài)數(shù)據(jù)的連續(xù)抓取與融合分析成為可能,促成了多模態(tài)學(xué)習(xí)分析研究的誕生,并成為學(xué)習(xí)分析領(lǐng)域的一個重要新興分支。多模態(tài)學(xué)習(xí)分析關(guān)注真實的學(xué)習(xí)情境與本真的學(xué)習(xí)交流方式,“返璞歸真”地聚焦更普遍的物理學(xué)習(xí)情境,克服了主流學(xué)習(xí)分析過度關(guān)注數(shù)字化學(xué)習(xí)環(huán)境的局限。研究主要采用文獻歸納法,闡述了多模態(tài)學(xué)習(xí)分析的發(fā)展動因、概念理解,重點從身體、生理視角概述了多模態(tài)的數(shù)據(jù)類型,并對多模態(tài)學(xué)習(xí)分析的過程模型進行了詳細描述。研究認為,未來要充分借助人工智能處理多模態(tài)數(shù)據(jù),借鑒認知帶理論融合不同模態(tài)數(shù)據(jù)的意義,借力學(xué)習(xí)理論來理解真實的多模態(tài)學(xué)習(xí)交互過程,以進一步完善基于多模態(tài)數(shù)據(jù)的學(xué)習(xí)評價方法。
[關(guān)鍵詞] 多模態(tài)學(xué)習(xí)分析; 物理學(xué)習(xí)環(huán)境; 可穿戴設(shè)備; 生理數(shù)據(jù); 數(shù)據(jù)融合; 學(xué)習(xí)評價; 認知帶
[中圖分類號] G434? ? ? ? ? ? [文獻標志碼] A
[作者簡介] 汪維富(1986—),男,江西鄱陽人。博士研究生,主要從事遠程開放教育、教師教育信息化研究。E-mail:wwf860127@163.com。
一、引? ?言
轉(zhuǎn)向建構(gòu)主義學(xué)習(xí)范式是當下課程改革的主流方向,但是仍有不少學(xué)者對建構(gòu)性學(xué)習(xí)的有效性提出質(zhì)疑[1],其潛在原因是建構(gòu)性學(xué)習(xí)支持的高階學(xué)習(xí)結(jié)果是極難衡量的,在學(xué)校情境中難以實現(xiàn)規(guī)?;u估,特別是在小組協(xié)作、任務(wù)復(fù)雜的開放學(xué)習(xí)環(huán)境中,傳統(tǒng)紙筆支持的標準化測量方法往往無法展現(xiàn)其積極的學(xué)習(xí)影響?!渡罨聲r代教育評價改革總體方案》提出,要“充分利用信息技術(shù),提高教育評價的科學(xué)性、專業(yè)性、客觀性”[2],尋求新技術(shù)支持的學(xué)習(xí)評價方法正成為教育評價改革的重要方向之一。
二、多模態(tài)學(xué)習(xí)分析的發(fā)展動因
基于大數(shù)據(jù)的教育評價是教育現(xiàn)代化的重要特征。近年來,大數(shù)據(jù)驅(qū)動的學(xué)習(xí)分析方法拓展了傳統(tǒng)標準化學(xué)習(xí)評估方法,如使用來自學(xué)習(xí)管理系統(tǒng)、MOOC、社交媒體環(huán)境、教育游戲等的大數(shù)據(jù),對學(xué)習(xí)過程與結(jié)果有了更細致全面的刻畫方法。學(xué)習(xí)分析通過自動化、全樣本的大數(shù)據(jù)收集和分析,開創(chuàng)了一種大數(shù)據(jù)支持的非標準化學(xué)習(xí)評估形式,擴大了建構(gòu)性學(xué)習(xí)評價的規(guī)?;瘜嵤┓秶?,使原來復(fù)雜和費力的形成性評價與個性化反饋成為可能。然而,目前大部分學(xué)習(xí)分析都集中在以計算機為中介的結(jié)構(gòu)化任務(wù)上,反而忽略了更經(jīng)常發(fā)生學(xué)習(xí)活動的物理學(xué)習(xí)空間。因此,如何從現(xiàn)實世界或混合世界的學(xué)習(xí)環(huán)境中收集多種來源的學(xué)習(xí)痕跡,成為學(xué)習(xí)分析領(lǐng)域亟須開拓的研究領(lǐng)域。
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展和創(chuàng)客運動的興起,一股新的技術(shù)創(chuàng)新浪潮正在發(fā)生。生物傳感器、全息攝像系統(tǒng)、手勢感應(yīng)、紅外成像、眼動跟蹤等多模態(tài)數(shù)據(jù)收集方法正在迅速發(fā)展,特別是可穿戴傳感器的便攜性、微型化、非侵入性與低價格趨勢,讓收集高頻、細粒度、全樣本的多層次、多模態(tài)學(xué)習(xí)數(shù)據(jù)成為可能。將物理學(xué)習(xí)活動、身體運動、生理數(shù)據(jù)與數(shù)字化日志、自我報告數(shù)據(jù)結(jié)合起來,獲取更為接近學(xué)習(xí)者與群體真實表現(xiàn)的細顆粒數(shù)據(jù),使研究人員能夠洞察學(xué)習(xí)者或?qū)W習(xí)群體每分每秒的發(fā)展,對復(fù)雜的認知、行為、情緒、動機等進行更全面的評估,從而促進21世紀技能與核心素養(yǎng)的發(fā)展。
三、多模態(tài)學(xué)習(xí)分析的概念理解
每一種知覺來源或者媒介形式,都可以稱為一種模態(tài)。例如:人有觸覺、聽覺、視覺、嗅覺;從媒介表征形式看,有聲音、視頻、文字、手勢、姿勢、眼動、表情、生理信號等。多模態(tài)融合了至少兩種模態(tài)及以上的數(shù)據(jù)來源。
(一)多模態(tài)學(xué)習(xí)分析的概念內(nèi)涵
作為學(xué)習(xí)分析的一個新興分支,多模態(tài)學(xué)習(xí)分析(Multimodal Learning Analytics)于2012年在多模態(tài)交互國際會議上正式被提出[3],旨在通過捕獲、融合和分析多種來源的數(shù)據(jù),尤其是自然交流過程中產(chǎn)生的多源數(shù)據(jù),如講話、凝視、手勢、姿勢、眼動、面部表情、皮膚電、腦電圖、心率等,以實現(xiàn)對學(xué)習(xí)行為、認知、信念、動機與情緒等多方面的客觀理解與深刻洞察。Worsley發(fā)現(xiàn),學(xué)習(xí)研究中最常用的五種模態(tài)是語音、視頻、生理、眼動跟蹤和數(shù)字化日志[4],其中超過一半的多模態(tài)學(xué)習(xí)分析實證研究使用了至少三種模態(tài)。
(二)多模態(tài)學(xué)習(xí)分析有利于克服當下學(xué)習(xí)分析的研究局限
目前,主流學(xué)習(xí)分析聚焦計算機支持的學(xué)習(xí)系統(tǒng)環(huán)境,交互數(shù)據(jù)主要來自數(shù)字化空間,學(xué)習(xí)者通常坐在電腦屏幕的正前方,數(shù)據(jù)的噪音比較少,任務(wù)的結(jié)構(gòu)化和腳本化程度較高,推斷學(xué)生行為和學(xué)習(xí)構(gòu)念之間的關(guān)聯(lián)較為容易。然而,多模態(tài)也是人類與計算機交互時的典型特征,人類通過面部表情、語音語調(diào)或身體動作等多種方式來表達自己的意圖和情感,如與智能導(dǎo)師系統(tǒng)交互時也可能緊鎖眉頭、打哈欠、東張西望,但現(xiàn)在還很少將這些因素納入學(xué)習(xí)分析。另一方面,多數(shù)學(xué)習(xí)發(fā)生在面對面的開放式物理環(huán)境中,只聚焦數(shù)字化環(huán)境明顯損害了學(xué)習(xí)分析對一般性學(xué)習(xí)的適用性。不管是基于項目的學(xué)習(xí)、具身化互動、開放式的實踐活動和協(xié)作學(xué)習(xí)活動,還是更傳統(tǒng)的課堂教學(xué),都蘊含著對于學(xué)習(xí)分析來說具有重要價值的多模態(tài)數(shù)據(jù)。當下,研究人員開始嘗試對數(shù)字化學(xué)習(xí)環(huán)境之外的學(xué)習(xí)和教學(xué)經(jīng)驗進行建模和分析,有學(xué)者甚至提出了“物理學(xué)習(xí)分析”(Physical Learning Analytics)概念,將學(xué)習(xí)分析引入真實的物理學(xué)習(xí)空間,并試圖利用物理空間數(shù)據(jù)來幫助改進教學(xué)實踐和學(xué)習(xí)過程[5]。因此,將研究情境轉(zhuǎn)向更加真實、復(fù)雜、開放的學(xué)習(xí)環(huán)境是多模態(tài)學(xué)習(xí)分析的主要焦點。
(三)多模態(tài)更符合人類交流與學(xué)習(xí)的現(xiàn)實與本質(zhì)
“盲人摸象”的故事啟發(fā)人們,僅憑一種感官信息只可能獲得對事物的局部認識。人類在正常情況下感知信息時一般都會同時利用多種感官,并經(jīng)過大腦整合處理之后才能形成完整的認識。在傳統(tǒng)的課堂上,教師會采取多種方式來傳達不同的教學(xué)意義,例如:當教師詢問是否聽懂了知識點時,學(xué)生會點頭;在強調(diào)某個主題時,教師會提高自己的聲音。同樣,學(xué)生利用多種方式來展示其對知識技能的掌握程度,如流暢的口頭闡述、持續(xù)的眼神交流、更快的答題速度、有節(jié)奏的全身運動等。此外,學(xué)生也經(jīng)常通過語言、面部表情和身體姿勢參與交流互動,而教師通常會監(jiān)控這些線索,并實時做出相應(yīng)的回應(yīng)。當然,與人類感知能力相比,計算設(shè)備感知的信號顆粒度可能會更細致、更全面。因此,多模態(tài)學(xué)習(xí)交互更符合人類交流現(xiàn)實的本質(zhì)與需求,為了獲得更廣泛、更正式的整體學(xué)習(xí)圖景,可以把從一種模態(tài)中收集的學(xué)習(xí)證據(jù)與從其他模態(tài)中收集的學(xué)習(xí)證據(jù)進行相互補充或驗證。
(四)多模態(tài)學(xué)習(xí)分析與傳統(tǒng)多模態(tài)教育實驗研究的區(qū)別和聯(lián)系
在傳統(tǒng)的教育實驗研究中,利用不同模態(tài)數(shù)據(jù)進行學(xué)習(xí)研究比較常見,如腦電圖常用于情緒識別、大腦自我調(diào)節(jié)、動作技能習(xí)得、深度學(xué)習(xí)、聯(lián)想學(xué)習(xí)等實驗研究[6]。然而,傳統(tǒng)多模態(tài)教育實驗研究與多模態(tài)學(xué)習(xí)分析有很大區(qū)別。前者采用的是實驗對比研究范式,其主要問題是數(shù)據(jù)收集成本很高,只能在實驗室層面開展受控研究,不利于擴展到常態(tài)化課堂、開放式學(xué)習(xí)情境,而且研究成果一般無法直接為學(xué)生提供及時的學(xué)習(xí)反饋。多模態(tài)學(xué)習(xí)分析主張采用大數(shù)據(jù)驅(qū)動的第四研究實證范式,直接從不同數(shù)據(jù)源提取多模態(tài)特征,利用機器學(xué)習(xí)自動分析數(shù)據(jù),試圖提供連續(xù)的、嵌入的實時反饋,以理解、改進正在或?qū)⒁l(fā)生的學(xué)習(xí)。當然,傳統(tǒng)多模態(tài)教育實驗研究能為多模態(tài)學(xué)習(xí)分析提供重要的分析線索與理論依據(jù)。如生理低喚醒表示學(xué)習(xí)的消極狀態(tài),而生理高喚醒則表示學(xué)習(xí)的積極或反應(yīng)狀態(tài)。因此,推動多模態(tài)學(xué)習(xí)分析研究,除了要借助傳感器、人工智能、大數(shù)據(jù)等技術(shù),也要充分借鑒學(xué)習(xí)科學(xué)、認知心理、神經(jīng)科學(xué)和行為科學(xué)等理論,以啟發(fā)不同模態(tài)特征與關(guān)鍵學(xué)習(xí)構(gòu)念之間建立對應(yīng)關(guān)系,以及驗證通過使用多模態(tài)數(shù)據(jù)源推斷認知發(fā)展和社交進步的可能性。
四、多模態(tài)學(xué)習(xí)分析的數(shù)據(jù)分類
得益于智能化、便攜式傳感器的發(fā)展,多模態(tài)數(shù)據(jù)采集與分析才成為可能。Schneider等人分析了大量傳感器原型,并將可用于學(xué)習(xí)領(lǐng)域的傳感器分為24種,每個傳感器可以感知一種或多種數(shù)據(jù)類型,主要涉及活動數(shù)據(jù)、情境數(shù)據(jù)、環(huán)境數(shù)據(jù)、身體生理數(shù)據(jù)等四種[7]。類似地,牟智佳基于多模態(tài)學(xué)習(xí)分析的空間結(jié)構(gòu)對數(shù)據(jù)源進行了分類,包括人機交互、學(xué)習(xí)資源、學(xué)習(xí)情境與學(xué)習(xí)體征等四種[8]。他們分類中的前三種都在教育技術(shù)領(lǐng)域中涉及較多,本研究重點對第四種數(shù)據(jù)(即身體生理或?qū)W習(xí)體征數(shù)據(jù))進行闡述。
與自我報告、數(shù)字化日志、訪談、任務(wù)績效等常用數(shù)據(jù)模態(tài)相比,身體生理數(shù)據(jù)是一種更加客觀、連續(xù)的信息來源,通常要借助專業(yè)設(shè)備或傳感器來采集。例如:麥克風(fēng)可以對語音信息通道進行采樣,眼動儀可以跟蹤眼睛的注視范圍和持續(xù)時間,多功能專業(yè)攝像機可以同時跟蹤語音、手勢、位置、動作和面部等多源信號,而皮膚電設(shè)備(如Empatica智能手環(huán))可以獲取皮膚電反應(yīng)信號?;贒i Mitri 等人的分析[9],我們將身體生理數(shù)據(jù)模態(tài)分為兩種:自主可控的動作型數(shù)據(jù)模態(tài)、伴隨生成的生理型數(shù)據(jù)模態(tài),如圖1所示。
(一)動作型數(shù)據(jù)模態(tài)
動作型數(shù)據(jù)模態(tài)可以分為身軀、頭部,這屬于自主性的信號模態(tài),具有一定可控、外顯的觀察特征。身軀又分為軀干、腿、手臂和手。通過軀干的全身運動能捕捉個體的大動作技能嫻熟程度信息,也能為評估其他認知信息提供重要線索。例如:Raca和Dillenbourg使用多功能攝像系統(tǒng)來觀察全身運動(Gross Body Movements,GBM)[10],利用身體姿勢、手勢等線索來評估課堂中的學(xué)生注意力;Botha和Africa發(fā)現(xiàn),小學(xué)生的全身運動和字母識字能力呈正相關(guān),全身運動在一定程度上是觀察兒童識字能力的有效指標[11]。計步器可以跟蹤腿部的運動,并為身體活動提供良好的指示,而手臂和手是語義更豐富的身體部位。攝像機可以檢測到手臂的運動,如微軟Kinect可以識別手勢和身體姿勢,已經(jīng)被用于演講表達技巧的自動化訓(xùn)練[12]。另一種手臂運動和手勢的檢測可以通過肌電圖(Electromyography,EMG)實現(xiàn)。例如:Hussain等人在情感檢測的研究中使用了臉部EMG、心電圖(Electrocardiogram,ECG)、皮膚電反應(yīng)(Galvanic Skin Response,GSR)和呼吸率等不同模態(tài)數(shù)據(jù)[13];Ekaterina等人將前臂肌電圖用于支持衛(wèi)生教育,對醫(yī)學(xué)生的手部清潔過程進行評估[14]。通過手部運動數(shù)據(jù)可以洞察學(xué)習(xí)者的認知發(fā)展,而手部運動可以通過搜索特定的手勢、跟蹤對物體的處理以及筆畫或繪畫草圖來檢測。例如:將筆畫與視頻、語音等模態(tài)結(jié)合起來,可從學(xué)生群體中發(fā)現(xiàn)高績效的專家型學(xué)生[15];還有學(xué)者根據(jù)具身認知理論,利用觸摸屏輔助學(xué)生使用雙手來探索數(shù)學(xué)比例的概念[16],將學(xué)習(xí)視為學(xué)生身體動態(tài)協(xié)調(diào)模式的過程,以引發(fā)直接性或隱喻性的抽象概念化,促進學(xué)習(xí)者在手部運動與抽象概念之間建立牢固的關(guān)系。
頭部動作型模態(tài)主要包括臉部表情、眼動和語音。臉部表情是非常微妙的身體反應(yīng)狀態(tài),在學(xué)習(xí)分析中得到廣泛應(yīng)用。例如:Alyuz等人用攝像機采集大量的學(xué)生表情,用于構(gòu)建學(xué)生使用智能導(dǎo)師系統(tǒng)時的情感投入檢測器[17];Chikersa等人探索了群體面部表情等生理同步性與群體的集體智力、互動滿意度的關(guān)系[18];Spikol等人結(jié)合學(xué)生手勢、面部表情、音頻、視頻以及與物理計算平臺的交互模式,預(yù)測項目解決方案的質(zhì)量和正確性[19]。眼動跟蹤是評價注意力的關(guān)鍵指標,如Li等人探究了不同空間視覺選擇題之間的眼動差異,并根據(jù)眼動追蹤數(shù)據(jù)預(yù)測問題難度,發(fā)現(xiàn)通過眼球運動(尤其是注視時間)可以很好地預(yù)測題目難度[20]。語音分析涵蓋了從副語言分析(如說話時長、關(guān)鍵詞或韻律特征)到對話情境中口語詞匯的識別[21],具有多層次的多模態(tài)學(xué)習(xí)分析特征。語音可以從信號(如聲調(diào))、活動(如對話輪換)、內(nèi)容(如對話內(nèi)容)、人際(如社會性調(diào)節(jié))和其他層面進行融合分析。
(二)生理型數(shù)據(jù)模態(tài)
生理型數(shù)據(jù)模態(tài)屬于被動性的信號數(shù)據(jù),是機體在活動中伴隨產(chǎn)生的,是當人受到某種刺激時所表現(xiàn)出來的潛在反應(yīng),這些反應(yīng)來自中樞和自主神經(jīng)系統(tǒng)的信號能自動地激活、調(diào)節(jié)身體機能。其中,大腦、心臟、皮膚、呼吸系統(tǒng)是能夠獲得生理信號的主要器官??疾齑竽X活躍程度的方法是使用腦電圖(EEG),可以測量大腦內(nèi)部的電位差。如Dikker等人將EEG用于跟蹤正常課堂活動中小組互動的腦部信號變化,發(fā)現(xiàn)學(xué)生腦腦同步程度可以預(yù)測學(xué)生在課堂中的投入度和社交關(guān)系,說明腦腦同步性可能是動態(tài)社會互動的神經(jīng)標記[22]。此外,多種技術(shù)可以用來計算心率和心率變異性等心臟活動的指標,包括血容脈沖(Blood Volume Pulse,BVP)、光學(xué)體積描記(Photoplethysmography,PPG)、心電圖(ECG)等。皮膚電反應(yīng)(GSR)的變化被稱為皮膚電活動(Electrodermal Activity,EDA),是通過測量皮膚導(dǎo)電性變化來了解身體喚醒程度。例如:Alzoubi等人使用腦電圖、心電圖和皮膚電反應(yīng)來檢測情感的自然表達[23];Grafsgaard等人使用EDA和從視頻、手勢和姿勢中獲得的面部表情來預(yù)測情緒[24]。呼吸量(Respiratory Volume)的測定包括呼吸的深度和速率,當呼吸速率變得不規(guī)則時,可能有更多的特定情緒,如憤怒[25]。
可以看出,通過身體生理數(shù)據(jù)可以更加客觀、深刻地洞察真實的學(xué)習(xí)狀態(tài),特別是已有研究發(fā)現(xiàn)了如喚醒度、同步性、傳染性、規(guī)律性等諸多具身性的學(xué)習(xí)體征指標,為完善學(xué)習(xí)評價方法提供了重要的客觀性中介變量。
五、多模態(tài)學(xué)習(xí)分析的過程模型
過程模型對于大數(shù)據(jù)驅(qū)動的學(xué)習(xí)研究具有重要的規(guī)范性與指導(dǎo)性價值。構(gòu)建多模態(tài)學(xué)習(xí)分析的過程模型可以幫助研究人員理解多模態(tài)支持的學(xué)習(xí)分析過程,形成多模態(tài)學(xué)習(xí)分析的操作規(guī)范。田陽等人在研究混合學(xué)習(xí)時,將多模態(tài)交互分析的主要流程總結(jié)為數(shù)據(jù)采集、加工與篩選、數(shù)據(jù)分析、數(shù)據(jù)表征可視化、反饋調(diào)節(jié)等[26]。Di Mitri等人提出了一個操作化的過程模型,主要包括傳感器捕獲多模態(tài)數(shù)據(jù)、人工注釋標簽、機器學(xué)習(xí)預(yù)測結(jié)果、反饋解釋與行為轉(zhuǎn)變四個步驟[9],突出了人工注釋與反饋、機器建模與預(yù)測的協(xié)同機制。然而,這些過程模型并未突出多模態(tài)學(xué)習(xí)分析與主流學(xué)習(xí)分析的不同之處。Shankar等人在考察多個典型多模態(tài)學(xué)習(xí)分析應(yīng)用場景之后,利用數(shù)據(jù)價值鏈(Data Value Chain,DVC)概念抽象出了多模態(tài)學(xué)習(xí)數(shù)據(jù)的過程模型[27],具有普適性價值,如圖2所示。
DVC過程模型將多模態(tài)學(xué)習(xí)分析分為三個步驟:數(shù)據(jù)發(fā)現(xiàn)旨在完成不同數(shù)據(jù)的收集、注釋、清理、同步、轉(zhuǎn)換和結(jié)構(gòu)化工作;數(shù)據(jù)融合旨在根據(jù)關(guān)鍵特征來集成兩個及以上的數(shù)據(jù)集,生成基于多模態(tài)數(shù)據(jù)的連貫性、對齊性與互證性的證據(jù)圖景;數(shù)據(jù)利用旨在分析與應(yīng)用融合之后的多模態(tài)數(shù)據(jù)集,可視化分析報告并突出顯示關(guān)鍵發(fā)現(xiàn)以做出決策。從具體數(shù)據(jù)處理活動來說,多模態(tài)學(xué)習(xí)分析過程包括:(1)數(shù)據(jù)收集與注釋。需要技術(shù)人員共同部署數(shù)據(jù)收集平臺、工具與傳感器,從數(shù)字化空間、物理學(xué)習(xí)空間等情境中收集多種模態(tài)的數(shù)據(jù),如身體姿態(tài)、腦電信號、討論文本、行為日志等。生成數(shù)據(jù)集后,對需要再處理的屬性進行人工注釋,將不同模態(tài)(如信號、動作、文本)轉(zhuǎn)換為數(shù)字化表征,因為原始的多模態(tài)數(shù)據(jù)通常非常嘈雜,具有大量屬性和低語義值。(2)數(shù)據(jù)準備。在同一參考時間下同步來自不同平臺、不同模態(tài)的數(shù)據(jù)集,并根據(jù)需要刪除無效數(shù)據(jù)(如刪除缺失值)或特定的數(shù)據(jù)屬性。(3)數(shù)據(jù)組織。對數(shù)據(jù)集進行轉(zhuǎn)換、結(jié)構(gòu)化和匯總,并從中提取選擇性特征,這需要教師或研究人員提供相應(yīng)的數(shù)據(jù)匯總和轉(zhuǎn)換方法,如根據(jù)平均成績來生成每個小組的觀察結(jié)果。(4)數(shù)據(jù)整合。根據(jù)一定的規(guī)則與關(guān)系對多個數(shù)據(jù)集進行重新融合,如基于多個數(shù)據(jù)屬性的時間戳,將人工觀測結(jié)果與生理信號、數(shù)字化日志集成起來,其中,多模態(tài)數(shù)據(jù)融合的方法主要有數(shù)據(jù)級、特征級與決策級。(5)數(shù)據(jù)分析。使用從基本的統(tǒng)計函數(shù)到高級的機器學(xué)習(xí)算法對數(shù)據(jù)集進行探索分析,包括對多模態(tài)數(shù)據(jù)進行統(tǒng)計分析、相關(guān)性分析、聚類和預(yù)測分析、模式識別等。(6)可視化。將分析結(jié)果以可視化的方式呈現(xiàn)給教師,需要選擇表現(xiàn)力較強的表征方式,或者直接顯示在相應(yīng)的學(xué)習(xí)儀表盤中,以作出下一步的教學(xué)決策。(7)決策。對可視化分析結(jié)果中突出的關(guān)鍵發(fā)現(xiàn)進行合理解釋,結(jié)合學(xué)習(xí)理論、任務(wù)情境提出改進策略,或者直接將分析結(jié)果用于學(xué)習(xí)者建模,以更好地適應(yīng)學(xué)習(xí)者的個性化學(xué)習(xí)需求。
六、多模態(tài)學(xué)習(xí)分析的研究趨勢
近年來,多模態(tài)學(xué)習(xí)分析研究聚焦建構(gòu)性教學(xué)法而生成了一些獨特的基礎(chǔ)性結(jié)論。例如:非言語互動特征(同步性、個體責(zé)任感、平等性和個體動態(tài)性)可以有效地解釋協(xié)作問題解決的復(fù)雜學(xué)習(xí)過程[28];基于口頭表達質(zhì)量數(shù)據(jù)語料庫,Chen等人驗證了使用多模態(tài)評估公共演講技能的可行性[29];從程序員的身體動作和手勢可以評估協(xié)作編程的質(zhì)量[30]。另一方面,多模態(tài)學(xué)習(xí)分析通常還能以師生可觀察、可操作的具體特征(如姿勢、手勢、音量、頭歪、俯身、眼神、表情等)來建模、預(yù)測非可觀察性的潛在表現(xiàn)(如動機、信念、情緒等),有利于克服學(xué)習(xí)分析、教育數(shù)據(jù)挖掘中普遍存在的理解黑箱問題,及時開展形成性評估,以不引人注目的透明方式實時改進課堂教學(xué)、提供學(xué)習(xí)支持??梢哉f,現(xiàn)有探索性研究說明了多模態(tài)學(xué)習(xí)分析具有與主流學(xué)習(xí)分析不同的重要價值與現(xiàn)實意義,但未來還需要推進以下幾方面的研究:
(一)利用人工智能推動多模態(tài)數(shù)據(jù)處理水平
多模態(tài)數(shù)據(jù)的復(fù)雜性和多樣性是一項重要挑戰(zhàn)。當數(shù)據(jù)屬性大量增加時,研究人員就很難對數(shù)據(jù)進行系統(tǒng)可視化和充分性解釋。Lahat等人描述了多模態(tài)數(shù)據(jù)處理所面對的一些挑戰(zhàn),包括數(shù)據(jù)的多維度、不同模態(tài)分辨率、數(shù)據(jù)噪聲、數(shù)據(jù)缺失、數(shù)據(jù)融合和計算模型的選擇[31]。相比之下,人工智能能夠更有效地處理多模態(tài)數(shù)據(jù),如智能語音識別、表情識別等,可以被用于規(guī)?;幚泶罅繑?shù)據(jù)。因此,多模態(tài)機器學(xué)習(xí)逐漸成為一個潛力巨大的研究方向,旨在建立能夠處理和關(guān)聯(lián)多種模態(tài)信息的模型[32],主要內(nèi)容包括:(1)表征數(shù)據(jù),學(xué)習(xí)如何利用多模態(tài)的互補性和冗余性來表征和匯集數(shù)據(jù),數(shù)據(jù)異構(gòu)性使得構(gòu)造這種表征極具挑戰(zhàn)性。例如:語言通常是文字符號,視頻通常是視覺符號,生理數(shù)據(jù)通常是信號,而交流互動采用的是社交信號解釋系統(tǒng)。(2)轉(zhuǎn)換數(shù)據(jù),模態(tài)之間的關(guān)系往往是開放的或主觀的,需要將數(shù)據(jù)從一種模態(tài)轉(zhuǎn)換到另一種模態(tài)來分析。(3)對齊數(shù)據(jù),確定兩種或兩種以上不同模態(tài)屬性之間的直接對應(yīng)關(guān)系,找出不同模態(tài)之間的關(guān)聯(lián)性。(4)融合數(shù)據(jù),結(jié)合兩個或更多模態(tài)的信息來執(zhí)行預(yù)測。(5)協(xié)同學(xué)習(xí),在不同模態(tài)、數(shù)據(jù)表征及其預(yù)測模型之間實現(xiàn)泛在遷移,當其中一種模態(tài)的數(shù)據(jù)有限時,這一點尤其重要。
(二)借助認知帶理論促進多模態(tài)數(shù)據(jù)的融合
從不同模態(tài)中提取的學(xué)習(xí)痕跡必然具有不同的特征,在時間粒度、確定程度上都可能有很大的差異,數(shù)據(jù)融合以及融合后的數(shù)據(jù)意義成為多模態(tài)學(xué)習(xí)分析中的核心問題,而認知帶理論具有很好的指導(dǎo)價值。按照Newell的認知帶理論(Bands of Cognition),人類行為可以在生物帶、認知帶、理性帶和社會帶等多個時間尺度上得到解釋,每個帶可以捕獲三個數(shù)量級的數(shù)據(jù),從100微秒(10-4秒)開始,一直到數(shù)月(107秒)[33]。具體來說,生物帶集中在微秒(10-4~10-2)的時間尺度上,認知帶集中在秒(10-1~10)的時間尺度上,理性帶集中在數(shù)分鐘(102~104)的時間尺度上,社會帶集中在數(shù)周(105~107)的時間尺度上。該理論描述了每個時間尺度如何與不同的意圖層面、不同類型的活動相關(guān)聯(lián)。例如:生物帶發(fā)生的行為有時被解釋為無意識、非故意的,而任務(wù)完成通常與理性帶的人類行為相關(guān)。Anderson討論了構(gòu)建跨越認知帶的融合策略,并提出了三個重要論點[34]:分解論(Decomposition Thesis)認為,發(fā)生在較長時間尺度上的行為可以分解為發(fā)生在較短時間尺度上的行為集合;關(guān)聯(lián)論(Relevance Thesis) 認為,通過改進較短時間尺度的行為可以提高較長時間尺度上的教學(xué)效果,這意味著短時間尺度行為對于診斷更長時間尺度的認知發(fā)展具有重要意義;建模論(Modeling Thesis)認為,通過對短時間尺度行為的微細顆粒數(shù)據(jù)進行建??梢灾苯佑绊懡虒W(xué)反饋,如使用生物帶上的微秒級信號可以獲得更高層次的結(jié)果,所以建模論為短時間尺度行為和長時間尺度預(yù)期結(jié)果之間的銜接提供了基礎(chǔ)。借助傳感器、人類觀察、計算機,現(xiàn)在幾乎能獲得所有認知帶上的生理數(shù)據(jù)、認知數(shù)據(jù)、理性數(shù)據(jù)與社會數(shù)據(jù),而每個模態(tài)均為其他模態(tài)提供了一定的信息,各模態(tài)之間存在著一定的關(guān)聯(lián)性[35]。有效融合這些來自不同時間尺度的多模態(tài)數(shù)據(jù)、構(gòu)建不同認知帶之間的橋梁、挖掘不同模態(tài)之間的關(guān)鍵聯(lián)系,對于多模態(tài)學(xué)習(xí)分析研究具有重要的基礎(chǔ)性意義。
(三)多模態(tài)學(xué)習(xí)分析更依賴學(xué)習(xí)理論的指導(dǎo)
如今研究者所能抓取的大數(shù)據(jù)達到前所未有的規(guī)模,但是足夠的大數(shù)據(jù)對于理解學(xué)習(xí)的復(fù)雜性還是不夠的。事實上,數(shù)據(jù)量如此之大,數(shù)據(jù)模態(tài)如此多樣,以至于很多無關(guān)或影響很小的特征或變量匯集起來可能會產(chǎn)生較大的影響,那什么才算是有意義的教育發(fā)現(xiàn)?理論此時就扮演著十分重要的角色,譬如公認的心理構(gòu)念,可以指引研究者思考關(guān)于模型中應(yīng)包含哪些有意義的變量,有哪些噪音、亞組或協(xié)變量,關(guān)注哪些研究結(jié)果,解釋結(jié)果時使用什么框架,如何使結(jié)果具有泛化性和遷移性。多模態(tài)學(xué)習(xí)分析必須有一定的理論或構(gòu)念作為基礎(chǔ),否則將跌入沙塵暴式實證論(Dustbowl Empiricism)[36],即側(cè)重于經(jīng)驗觀察的偶然積累和研究變量之間的關(guān)系,而不關(guān)注實際邏輯或真實意義。另一方面,如何讓多模態(tài)學(xué)習(xí)分析結(jié)論具有干預(yù)可行性也很重要。例如:性別、年齡等屬性經(jīng)常被用于建模預(yù)測,但問題是它們多數(shù)時候難以解釋相關(guān)結(jié)果發(fā)生的機制,或者很難指導(dǎo)人們設(shè)計相關(guān)干預(yù)措施。Van Der Maas和Wagenmakers發(fā)現(xiàn),棋手的移動速度可以預(yù)測出棋手的專業(yè)水平[37],但告訴新手更快地移動并不能直接幫助其改進棋藝。因此,為了確保特征變量與分析結(jié)論具有教育性意義與操作化價值,已有理論(或構(gòu)念)是一個關(guān)鍵橋梁,可以指導(dǎo)研究者應(yīng)該關(guān)注哪些學(xué)習(xí)變量并為解釋結(jié)果提供框架。
多模態(tài)學(xué)習(xí)分析側(cè)重以貼近人類本真的交流方式來研究學(xué)習(xí),完善了大數(shù)據(jù)驅(qū)動的學(xué)習(xí)科學(xué)研究范式,為評估建構(gòu)性的高階學(xué)習(xí)提供了更全面、精準、客觀的方法。然而,目前自動收集與處理不同模態(tài)數(shù)據(jù)的方法和工具仍然不成熟,可用于表征學(xué)習(xí)的顯著性特征還沒有形成體系,不同學(xué)習(xí)場景中如何有效地組合不同模態(tài)數(shù)據(jù)還缺乏基礎(chǔ)性探索。不過,在新一輪人工智能、教育評價改革的推動下,多模態(tài)學(xué)習(xí)分析勢必會成為驅(qū)動學(xué)習(xí)科學(xué)發(fā)展的重要力量。
[參考文獻]
[1] KIRSCHNER P A, SWELLER J, CLARK R E. Why minimal guidance during instruction does not work: an analysis of the failure of constructivist, discovery, problem-based, experiential, and inquiry-based teaching[J]. Educational psychologist,2006,41(2):75-86.
[2] 中共中央國務(wù)院.《深化新時代教育評價改革總體方案》[EB/OL].(2020-10-13)[2020-11-05].http://www.xinhuanet.com/politics/zywj/2020-10/13/c_1126601551.htm.
[3] WORSLEY M. Multimodal learning analytics: enabling the future of learning through multimodal data analysis and interfaces[C]// Proceedings of the 14th ACM International Conference on Multimodal Interaction. New York:ACM,2012:353-356.
[4] WORSLEY M. Multimodal learning analytics' past, present, and, potential futures[C]//Proceedings of the Second Multimodal Learning Analytics Across (Physical and Digital) Spaces. Sidney,Australia: CEUR,2018: 1-16.
[5] MARTINEZ-MALDONADO R,ECHEVERRIA V,SANTOS O C,et al. Physical learning analytics: a multimodal perspective[C]//Proceedings of the 8th International Conference on Learning Analytics & Knowledge. New York:ACM,2018:375-379.
[6] 鄭旭東,馬云飛.腦電圖技術(shù)的教育研究圖景與趨勢——基于2000—2019年國際文獻的知識圖譜分析[J].現(xiàn)代遠程教育研究,2020,32(4):36-47.
[7] SCHNEIDER J,BRNER D,ROSMALEN P V,et al. Augmenting the senses: a review on sensor-based learning support[J]. Sensors,2015,15(2):4097-4133.
[8] 牟智佳.多模態(tài)學(xué)習(xí)分析:學(xué)習(xí)分析研究新生長點[J].電化教育研究,2020,41(5):27-32,51.
[9] DI MITRI D,SCHNEIDER J,SPECHT M,et al. From signals to knowledge: a conceptual model for multimodal learning analytics[J]. Journal of computer assisted learning,2018,34(4): 338-349.
[10] RACA M, DILLENBOURG P. Holistic analysis of the classroom[C]//Proceedings of the 2014 ACM Workshop on Multimodal Learning Analytics Workshop and Grand Challenge. New York:ACM,2014:13-20.
[11] BOTHA S, AFRICA E K. The effect of a perceptual-motor intervention on the relationship between motor proficiency and letter knowledge[J]. Early childhood education journal,2020,48(6):727-737.
[12] ECHEVERRA V, AVENDAO A, CHILUIZA K, et al. Presentation skills estimation based on video and kinect data analysis[C]//Proceedings of the 2014 ACM Workshop on Multimodal Learning Analytics. New York:ACM,2014:53-60.
[13] HUSSAIN M. S, MONKARESI H, CALVO R A. Categorical vs. dimensional representations in multimodal affect detection during learning[M]//CERRI S A, CLANCEY W J, PAPADOURAKIS G, PANOURGIA K.ITS 2012: intelligent tutoring systems. Berlin, Heidelberg: Springer, 2012:78-83.
[14] EKATERINA K, DAVID L, STEPHAN M J. Wearable sensors in medical education: supporting hand hygiene training with a forearm EMG[C]//Proceedings of the 12th International Conference on Wearable Micro and Nano Technologies for Personalized Health. Amsterdam:IOS Press,2015:286-291.
[15] OVIATT S, COHEN A, HANG K, et al. Multimodal learning analytics data resources: description of math data corpus and coded documents[C]// Proceedings of the 15th ACM on International Conference on Multimodal Interaction. New York:ACM,2013:1-47.
[16] LU O, ANDRADE A, ALBERTO R, et al. Using a cluster-based regime-switching dynamic model to understand embodied mathematical learning[C]//Proceedings of the 10th International Conference on Learning Analytics and Knowledge. New York:ACM,2020: 496-501.
[17] ALYUZ N, OKUR E, OKTAY E, et al. Semi-supervised model personalization for improved detection of learner's emotional engagement[C]//Proceedings of the 18th ACM International Conference on Multimodal Interaction. New York:ACM,2016:100-107.
[18] CHIKERSA P, TOMPROU M, KIM Y J, et al. Deep structures of collaboration: physiological correlates of collective intelligence and group satisfaction[C]// Proceedings of the 2017 ACM Conference on Computer Supported Cooperative Work and Social Computing. New York:ACM,2017:873-888.
[19] SPIKOL D, RUFFALDI E, DABISIAS G, et al. Supervised machine learning in multimodal learning analytics for estimating success in project-based learning[J]. Journal of computer assisted learning,2018,34(4):366-377.
[20] LI X,YOUNES R, BAIRAKTAROVA D, et al. Predicting spatial visualization problems' difficulty level from eye-tracking data[J]. Sensors,2020,20(7):1949-1964.
[21] D'MELLO S K, OLNEY A M, BLANCHARD N, et al. Multimodal capture of teacher-student interactions for automated dialogic analysis in live classrooms[C]// Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. New York:ACM,2015:557-566.
[22] DIKKER S, WAN L, DAVIDESCO L, et al. Brain-to-brain synchrony tracks real-world dynamic group interactions in the classroom[J]. Current biology,2017,27(9):1375-1380.
[23] ALZOUBI O, D'MELLO S K, CALVO R A. Detecting naturalistic expressions of nonbasic affect using physiological signals[J]. IEEE transactions on affective computing,2012,3(3):298-310.
[24] GRAFSGAARD J F, WIGGINS J B, BOYER K E, et al. Predicting learning and affect from multimodal data streams in task-oriented tutorial dialogue[C]// Proceedings of the 7th International Conference on Educational Data Mining. London,UK: CEUR,2014:122-129.
[25] SOLEYMANI M J, LICHTENAUER T P, PANTIC M. A multimodal database for affect recognition and implicit tagging[J].IEEE transactions on affective computing,2012,3(1):42-55.
[26] 田陽,陳鵬,黃榮懷,曾海軍.面向混合學(xué)習(xí)的多模態(tài)交互分析機制及優(yōu)化策略[J].電化教育研究,2019,40(9):67-74.
[27] SHANKAR S K,? RUIZ-CALLEJA A, SERRANO-IGLESIAS S, et al. A data value chain to model the processing of multimodal evidence in authentic learning scenarios[C]// Proceedings of CEUR Workshop LASI Spain. Vigo,Spain: CEUR,2019:71-83.
[28] CUKUROVA M, LUCKIN R, MILLAN E, et al. The NISPI framework: analysing collaborative problem-solving from students' physical interactions[J]. Computers & education,2018(116): 93-109.
[29] CHEN L, FENG G, JOE J, et al. Towards automated assessment of public speaking skills using multimodal cues[C]//Proceedings of the 16th International Conference on Multimodal Interaction. New York:ACM,2014:200-203.
[30] GROVER S, BIENKOWSKI M, TAMRAKAR A, et al. Multimodal analytics to study collaborative problem solving in pair programming[C]//Proceedings of the Sixth International Conference on Learning Analytics & Knowledge. New York:ACM,2016:516-517.
[31] LAHAT D, ADAL T, JUTTEN C. Multimodal data fusion: an overview of methods, challenges, and prospects[J]. Proceedings of the IEEE,2015,103(9):1449-1477.
[32] BALTRUAITIS T, AHUJA C, MORENCY L P. Multimodal machine learning: a survey and taxonomy[J]. IEEE transactions on pattern analysis and machine intelligence,2019,41(2):423-443.
[33] NEWELL A. Unified theories of cognition[M]. Cambridge,MA:Harvard University Press,1994.
[34] ANDERSON J. Spanning seven orders of magnitude: a challenge for cognitive modeling[J]. Cognitive science,2002,26(1):85-112.
[35] 王萍.人工智能在教育視頻中的應(yīng)用分析與設(shè)計[J].電化教育研究,2020,41(3):93-100,121.
[36] WISE A F, SHAFFER D W. Why theory matters more than ever in the age of big data[J]. Journal of learning analytics,2015,2(2): 5-13.
[37] VAN DER MAAS H L, WAGENMAKERS E J. A psychometric analysis of chess expertise[J]. The American journal of psychology, 2005,118(1):29-60.