王 萌 符雅茹 牟智佳
(江南大學 人文學院,江蘇 無錫 214122)
近年來,隨著教育大數(shù)據(jù)和人工智能技術(shù)的逐步發(fā)展,研究者對學習分析的關(guān)注和研究日益深入。在學習分析初期,基于學習行為類數(shù)據(jù)的研究較多,對其他類數(shù)據(jù)研究較少。在數(shù)字化學習過程中,不僅產(chǎn)生交互操作類的行為數(shù)據(jù),還產(chǎn)生互動討論類的文本數(shù)據(jù),對文本的分析有助于發(fā)現(xiàn)學習者內(nèi)在的心理特征信息。文本挖掘(Text Mining)是數(shù)據(jù)挖掘中的一個重要應用方向,它是從大量文本數(shù)據(jù)中抽取最終可用的信息和知識的過程。隨著學習數(shù)據(jù)種類的多樣化發(fā)展和文本挖掘的深入應用,基于學習文本類數(shù)據(jù)的分析得到研究者的廣泛關(guān)注,并開展了大量的理論和實踐探索,教育文本挖掘由此產(chǎn)生。教育文本挖掘是對教與學活動過程中所產(chǎn)生的各類互動、評價、反思類文本數(shù)據(jù)提取有效信息和知識的過程。
目前,隨著自然語言處理相關(guān)研究的不斷深入,為教育文本挖掘提供了新的技術(shù)支撐。理順教育文本挖掘的研究脈絡(luò),摸清其未來研究取向,對于深化學習分析研究、優(yōu)化文本分析技術(shù)具有重要的現(xiàn)實意義。本研究通過對近十年來文本挖掘類的文獻進行內(nèi)容分析,觀測該領(lǐng)域的主要研究議題,為后續(xù)研究提供思路和借鑒。
以“educational text mining”“text analysis &online course”“text analysis & educational online discussion”“discourse analysis & online learning”“content analysis & distance education”為關(guān)鍵詞,在Web of science核心數(shù)據(jù)庫、Elsevier Science Direct數(shù)據(jù)庫中進行檢索,限定文獻的發(fā)表時間為2010年至2019年。對檢索結(jié)果進行人工篩查,剔除文本挖掘技術(shù)、工具和算法研究、文本挖掘在其他領(lǐng)域的應用等與教育無直接或間接關(guān)系的研究文獻以及會議報告、新聞資訊等非研究性文獻,最終得到111篇相關(guān)文獻。
本研究采用共被引分析、共現(xiàn)分析、聚類分析、統(tǒng)計分析、時序圖譜分析等研究方法,利用EndNote X9、CiteSpace 5.6、Bicomb 2.0、HistCite和SPSS 25.0等工具進行分析。其中,共被引分析旨在找出文獻的相互引用關(guān)系,分析領(lǐng)域中的核心文獻;作者合作關(guān)系分析用于了解領(lǐng)域內(nèi)研究者之間的相互合作關(guān)系,分析找出當前合作群體分布;關(guān)鍵詞共現(xiàn)分析用于探索核心關(guān)鍵詞,作為梳理當前研究熱點的基礎(chǔ);聚類分析法用于對關(guān)鍵詞進行聚類,分析當前研究熱點;統(tǒng)計分析用于整理當前常用的挖掘方法,分析方法的種類和變遷;知識圖譜用于梳理教育文本挖掘的時間軸,以此來預測未來的研究趨勢。
教育文本挖掘的文獻量較多,時間跨度較大,理順文獻中的相互引證關(guān)系并找出關(guān)鍵文獻,對于把握該方向的主要理論依據(jù)具有重要意義。此部分采用HistCite工具分析和繪制文獻的引證關(guān)系,在參數(shù)設(shè)置上,選擇顯示節(jié)點為“GCS”(總被引量),顯示數(shù)量選擇為70,分析結(jié)果如圖1所示。其中,縱向數(shù)字表示發(fā)表年份,每個圓圈(即節(jié)點)表示一篇文獻,圓圈中的數(shù)字代表該篇文獻在總分析文獻中的序號,圓圈的大小代表其被引用次數(shù)的多少。
圖1 高被引文獻引證關(guān)系圖譜
由分析結(jié)果可以看出,文獻之間的引用關(guān)系鏈較少,這可能是因為當前教育文本挖掘涉及的領(lǐng)域較多,相互之間的聯(lián)系不強。其中,被引次數(shù)較高的是第25篇,總被引量為127次,是Romero、López、Luna和Ventura(2013)撰寫的“Predicting students’ final performance from participation in online discussion forums”一文,該文章展示了如何通過質(zhì)心和類關(guān)聯(lián)規(guī)則來獲得更強大和可解釋的模型集群,研究表明發(fā)送消息數(shù)量、評價文本字數(shù)、文本的平均評價值、文本中心性及其程度等是預測學生最終成績的最重要屬性,為后續(xù)研究提供了重要的預測參考指標。其次是第27篇,總被引量為113次,是Ortigosa、Martín、José和Carro(2014)撰寫的“Sentiment analysis in Facebook and its application to e-learning”一文,研究者提出了一種在Facebook上進行情緒分析的新方法,開發(fā)了一個名為Sentbuk的程序,提取用戶發(fā)布內(nèi)容中蘊含的反映情緒極性(正面、中性或負面)的信息,以檢測重大情緒變化。研究者指出,該方法可以應用于在線學習領(lǐng)域,利用學習者情緒信息通過適應性在線學習系統(tǒng)來支持個性化學習,基于用戶情緒狀態(tài)推薦學習內(nèi)容。 除這兩篇文獻外,排名前十的其他高被引文獻見表1。
表1 高被引文獻統(tǒng)計信息
續(xù)表1
通過對作者合作關(guān)系的分析,可以明晰教育文本挖掘領(lǐng)域的主要研究者及其相互合作關(guān)系,把握不同作者的貢獻度。將清洗完成后的數(shù)據(jù)導入到CiteSpace5.6中,選擇時間范圍為“2010~2019”,時間切片設(shè)置為一年,在“Note Types”中選擇節(jié)點類型為“Author”,在“Selection Criteria”下的“Threshold”設(shè)置中,將前、中、后三個時間分區(qū)的閾值分別設(shè)定為(1,1,20)、(1,1,20)、(1,1,20),最終得到包含281個節(jié)點、409條連線的作者合作關(guān)系圖譜,如下頁圖2所示??梢钥闯?,Huei-tse Hou的出現(xiàn)頻次最高,為3次,但其周圍的連線較少,表明其與其他研究者的合作關(guān)系較少。其次是Cristóbal Romero、Wu He、Jui-long Huang、Kui Xie、Maija Aksela、Ming Ming Chiu等人,出現(xiàn)頻次都為2次,除Crisóobal Romero與其他研究者的關(guān)系較為密切外,其余出現(xiàn)頻次較高的研究者的合作關(guān)系均較少。這與當前教育文本挖掘的研究現(xiàn)狀較為契合,研究者使用自然語言處理、話語分析、內(nèi)容分析等不同方法分析不同學科、平臺的文本,教育文本挖掘的應用呈現(xiàn)廣泛化、多元化的特征,不同研究者之間的合作較為松散。已存在的成熟合作關(guān)系中,研究者的研究方向也大有不同,如以Huei-tse Hou為首的研究團體聚焦于在線論壇中學生的行為模式和局限性;以Crisóobal Romero為首的研究團體主要側(cè)重于預測學生在在線學習中的表現(xiàn),以Wu He為首的研究團體關(guān)注在線學習過程中學生的交流與交互質(zhì)量。
圖2 作者合作關(guān)系圖譜
1. 關(guān)鍵詞共現(xiàn)分析
分析關(guān)鍵詞可以快速掌握領(lǐng)域內(nèi)的核心研究熱點及其研究特性。通過分析得到包含314個節(jié)點、759條連線的關(guān)鍵詞共現(xiàn)圖譜,刪除“text mining”“educational text mining”“content analysis”等檢索關(guān)鍵詞,并將閾值設(shè)置為2,最終得到關(guān)鍵詞共現(xiàn)圖譜如圖3所示。其中,字體的大小表明關(guān)鍵詞出現(xiàn)頻次的高低,字體越大,表明關(guān)鍵詞出現(xiàn)的頻次越高;節(jié)點之間的連線表明關(guān)鍵詞的中心性大小,連線越多,表明關(guān)鍵詞的中心性越高。
圖3 關(guān)鍵詞共現(xiàn)圖譜分析
可以看出,共現(xiàn)頻次最高的關(guān)鍵詞是“sentiment analysis”,頻次為10次;其次是“e-learning”,頻次為9次;“l(fā)earning analysis”“online learning”“machine learning”“online discussion”“natural language processing”等頻次均高于6次;“cooperative learning” “classification”“research method” “coi”“computer-supported collaborative learning”“writing”等頻次均超過3次。在關(guān)鍵詞連接上,“e-learning”“machine learning”與“sentiment analysis”聯(lián)系最緊密,這反映出文本挖掘主要是在數(shù)字化學習環(huán)境下,利用機器學習算法進行情緒分析。其次,“Online discussion”和“computer-supported collaborative learning”聯(lián)系較為緊密,表明計算機支持的協(xié)作學習及其生成文本是主要研究對象。此外“qualitative research”“research method”等詞反映出教育文本挖掘也常用在梳理某研究領(lǐng)域的研究熱點和研究脈絡(luò)中。
2. 基于關(guān)鍵詞聚類的研究熱點分析
審計風險屬于審計成果與現(xiàn)實財務之中的差距,在審計經(jīng)過當中,注冊會計對于所有會計部分與會計經(jīng)過都具有一定的可能性出現(xiàn)錯誤的評判,所有的審計部分都很有可能出現(xiàn)審計風險,會計師事務所出現(xiàn)審計風險都是很普遍的。
將關(guān)鍵詞生成共現(xiàn)矩陣,導入到SPSS25.0中,對數(shù)據(jù)進行聚類分析,選擇“分類”下的系統(tǒng)聚類方法,設(shè)置聚類方法為組間聚類,測量區(qū)間為歐式距離,生成教育文本挖掘的關(guān)鍵詞聚類圖譜,如下頁圖4所示。
圖4左側(cè)代表變量名,縱軸數(shù)據(jù)代表該變量在總變量集中的序號,橫軸表示變量之間的距離??梢钥闯觯P(guān)鍵詞主要分為五類(聚類一至聚類五),第一類是教育文本挖掘的文獻來源和分析方法,主要依托在線學習和在線討論中的數(shù)據(jù),特別是MOOCs環(huán)境下的文本數(shù)據(jù);在方法上主要采用機器學習、自然語言處理、信息檢索等方式對文本進行分析;第二類是學生行為分析,包括學生在在線學習中的行為模式和在線討論中的交互等;第三類是學生的認知分析和情感分析,如學生的知識建構(gòu)過程和情緒情感變化;第四類是教育文本挖掘的呈現(xiàn)方式和方法,當前已有的呈現(xiàn)方式包括學習者的用戶畫像和模型、概念地圖等(Ferreira-Mello, André,Pinheiro, Costa, & Romero, 2019);第五類是學習結(jié)果的分析和評價,如根據(jù)學生的討論文本預測學生在線學習的輟學率、利用自然語言處理技術(shù)評價學生的寫作水平等。
在CiteSpace5.6工作界面上,將“Note Types”的節(jié)點類型設(shè)置為“Keyword”,其余設(shè)置保持不變,運行后生成包含314個節(jié)點、754條連線的圖譜。選擇可視化視圖類型為“Timezone View”,為了便于清晰呈現(xiàn)關(guān)鍵詞演進趨勢,僅顯示出現(xiàn)頻次大于2的關(guān)鍵詞,最終生成下頁圖5呈現(xiàn)了研究演進趨勢圖譜。
圖5 研究熱點的時序圖譜分析圖
可以看出,教育文本挖掘研究早期關(guān)注協(xié)作學習與在線討論,隨著教育研究和文本挖掘技術(shù)的不斷發(fā)展,情感分析和課程教學問題成為中期研究主流,到如今聚焦于知識建構(gòu)和認知水平。在早期階段,研究者圍繞協(xié)作學習與互動討論進行探索,如Bower和Hedberg(2010)提出一種定量的多模態(tài)語篇分析方法來分析學生的在線協(xié)作學習,從而分析網(wǎng)絡(luò)會議環(huán)境中任務主題、活動設(shè)計和界面選擇對學生交互和協(xié)作的影響;Liaw和Bunn-Le Maste(2010)以中國臺灣和美國職前師范教育學生作為對比分析對象,研究兩地學習者在論壇互動中的話語特征以及跨文化對話者之間的互動模式和類型,來探索在遠程協(xié)作過程中如何進行協(xié)作和跨文化學習;Hou(2011)選取了23名大學生樣本,分析其在教師給定的案例情景和問題解決的任務下如何開展討論活動,以此來檢驗高等教育課程中基于案例的在線協(xié)作討論的成效。
在中期階段,研究熱點主要集中在學習情感分析與課程教學設(shè)計層面,如Esparza、Díaz、Canul-Reich、De-Luna和Ponce(2016)通過分析一個試點小組大學生撰寫的評價,建立了一個情感分析模型,來評估教師在課堂上的表現(xiàn);Rajput、Haider和Ghani(2016)提出了一個基于情感分析的度量指標,通過應用多種文本分析方法來解決學生的反饋問題,并借助標簽云、情感評分和其他基于頻率的濾波器,為教師表現(xiàn)提供了新的見解;Guitart、Conesa、Baneres、Moré、Duran和Ga?an(2016)提出了一種利用自然語言處理技術(shù)來分析課程材料,以從課程不同方面收集信息的新方法,并且分析了概念在課程中的相關(guān)性以及概念與課程學習結(jié)果的一致性。
后期階段主要集中在學習認知層面,如Davis和Lester(2016)要求研究生閱讀與研究范式相關(guān)的文獻,并在閱讀后撰寫討論。通過分析這些研究生撰寫的93個討論帖子,來探究學生如何使用特定的話語資源構(gòu)建在線討論中的研究身份;Rahimi、Litman、Correnti、Wang和Matsumura(2017)利用自然語言處理的方法,設(shè)計了一個與任務相關(guān)的模型,對學生寫作中的兩個目標結(jié)構(gòu)的分數(shù)進行預測:一是學生能否有效地使用論據(jù),二是學生如何組織想法和論據(jù)來支撐他們的觀點; Xie、Di Tosto、Lu和Cho(2018)通過文本挖掘和社會網(wǎng)絡(luò)分析,系統(tǒng)地分析了美國東南部一所大學57名學生在線討論中的討論帖子,量化每個人的貢獻,并以領(lǐng)導指數(shù)的形式總結(jié)學生的參與,分析群體結(jié)構(gòu)以探究學生的身份認同。
通過上述分析可知,教育文本挖掘表現(xiàn)出三個方面的取向:①從關(guān)注學習過程中某一部分的文本分析,到關(guān)注學習活動中的整體文本分析,更加注重數(shù)據(jù)的完整性;②從基于文本的知識內(nèi)容分析,到基于文本的學習心理和思維特征分析,更加注重分析的高階性;③從簡單的文本詞頻統(tǒng)計分析,到基于機器學習的自然語言處理技術(shù),更加注重算法的智能性。此外,在分析情境上,教育文本挖掘?qū)漠斍暗膯瓮ǖ勒Z篇分析走向多通道語境分析,利用系統(tǒng)功能語言學來解構(gòu)文本互動情境中所產(chǎn)生的意義類型。
依據(jù)上述對研究熱點的初步歸類,結(jié)合教育文本分析與挖掘的不同應用場景和對研究議題的質(zhì)性分析,我們認為,當前研究熱點主要集中在以下五個方面。
課程文本包括學生在在線學習中所產(chǎn)生的論壇文本(討論文本)、評論文本、對話文本、作業(yè)文本等。課程文本作為學生在學習過程中生成的學習制品,反映了學生的學習和思考過程,幫助教師了解和掌握學生對信息處理的方式和過程,以便更好地開展學習。學習行為分析一直是教育文本挖掘領(lǐng)域研究的重點,對其進行全面理解和準確表征是有效地進行網(wǎng)絡(luò)學習者分析、在線課程設(shè)計、知識服務供給、學習診斷與評價的基礎(chǔ)(張昕禹,梁越,高茜,2019)。通過挖掘?qū)W生的在線課程文本,可以清晰地了解學生的學習行為和認知過程?;谖谋镜男袨榉治鲋饾u成為研究者預測學生在線學習表現(xiàn)的重要手段,結(jié)合課程文本、活動文本、評價文本以及學生在在線學習中的點擊數(shù)據(jù)、瀏覽數(shù)據(jù)等,能精確分析學生的表現(xiàn),并據(jù)此對學生學習的行為進行評價和預測。例如:Conijn、Van den Beemt和Cuijpers(2018)以基于MOOC的混合式課程為研究對象,以學生的活動文本、活動頻率、活動順序等為分析數(shù)據(jù),通過相關(guān)性、多重回歸和過程挖掘來預測學生的行為表現(xiàn),并指出線上活動可作為評價學生混合課程表現(xiàn)的重要指標。
在認知分析方面,研究者傾向于基于已有研究理論和學生文本,分析學生的認知能力和認知建構(gòu)過程。例如:Liu和Yang(2014)基于布魯姆教學目標分類學和Len Bird提出的3C模型,設(shè)計了一門《信息倫理》在線課程,通過分析參與者的留言帖子、對話質(zhì)量、小組領(lǐng)導者和教師使用的輔導腳手架策略,來驗證在異步的、基于文本的會議中參與者如何展現(xiàn)他們的認知話語,結(jié)果表明學生的認知話語受討論問題的類型和腳手架的干預程度的影響。此外,學生的課程文本也反映出其認知的諸多維度,如Molenaar和Chiu(2014)通過分析認知、元認知和關(guān)系活動間的關(guān)系,即元認知計劃組織認知活動并促進知識獲取和意義生成之間的過渡,而關(guān)系活動則有助于實施這種過渡;Lin、Hou、Wang和Chang(2013)的研究表明學生在在線討論中最突出的知識維度是元認知知識,而認知過程則主要集中在理解上。
學習者在學習某門課程時所流露出的情感變化,直接影響到其對課程的學習態(tài)度和最終的學習結(jié)果。基于課堂互動文本的情感分析主要采用分類、聚類、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法,對文本中的情感關(guān)鍵詞進行提取和分析。情感分析結(jié)果可作為評價學生學習過程的重要指標和改善教學的重要依據(jù)。當前,情感分析研究主要集中在兩個方面,一方面研究者通過捕捉學習者在在線學習中形成的反思文本或在線討論文本,結(jié)合特定的情感分析方法,對學習者進行情感評價并進行有針對性的干預。例如:Ozturk、Cicek和Ergul 對學生產(chǎn)生的交互文本進行情感分析,收集了學生在參與課程時發(fā)布的Twitter文本,用樸素貝葉斯分類算法訓練數(shù)據(jù),將文本情感分成了積極、消極和中立三類 ,以檢驗遠程教育的接受程度。Wang、Hu和Zhou(2018)提出了一種語義分析模型,從作業(yè)、評論等實時更新的數(shù)據(jù)中跟蹤MOOC學習者的情感傾向,以分析學生對課程的接受情況,通過情感量化和機器學習計算,實時預測不同學習階段的課程完成率,為MOOC的個性化教學提供解決。另一方面,研究者傾向于利用機器學習和文本挖掘技術(shù)開發(fā)情感分析工具,以用于學生的學習情緒評價,例如:Cunningham-Nelson、Baktashmotlagh和Boles(2019)使用LDA模型探索學生在課程中各個方面的意見并將結(jié)果可視化后反饋給教師。Tian等(2014)提出了一個基于文本交互的情感識別框架,并設(shè)計了情緒類別檢測方法,利用隨機森林算法對學習者情緒進行分類。
在線協(xié)作知識建構(gòu)是網(wǎng)絡(luò)學習社會化的重要產(chǎn)物,但當前協(xié)作知識建構(gòu)中存在著“活動無協(xié)作、協(xié)作無建構(gòu)或建構(gòu)低水平”的狀況,因此如何分析學生的知識建構(gòu)過程,評價學生的知識建構(gòu)水平是網(wǎng)絡(luò)學習研究的重要議題。基于已有的知識建構(gòu)框架或評價標準,結(jié)合文本挖掘技術(shù)和內(nèi)容分析、數(shù)據(jù)分析等方法,對學生在協(xié)作學習中提交的文本內(nèi)容、帖子數(shù)量、討論時長等數(shù)據(jù)進行分析,以評價學生的知識建構(gòu)水平,是當前對在線協(xié)作知識建構(gòu)研究的主要形式。如Liu和Yang(2014)基于Garrison提出的“探究性學習社區(qū)”模型,考察了學生在線課程異步討論中的知識建構(gòu)水平,分析了學生對網(wǎng)絡(luò)話語的態(tài)度和感知。Nami、Marandi和Sotoudehnama(2018)探索了教師在異步交流討論中的知識建構(gòu)過程,根據(jù)已有數(shù)據(jù)將教師的異步交流具體區(qū)分為不同類別,借助已有分類框架和分析方法,識別教師在認知存在、社會存在和教學存在三個方面的認知變化。
寫作評價在教育教學中至關(guān)重要,教育研究者也曾開展了諸多的研究,但對寫作的評估一直存在著費時費力且可靠性低的現(xiàn)實困境(Landauer,2003)。隨著自然語言處理和文本挖掘技術(shù)的發(fā)展,寫作評價也迎來了新的轉(zhuǎn)機。詞頻統(tǒng)計、詞匯多樣性分析、句法相似性分析、句法復雜性分析、潛在語義分析、語義連貫性分析等算法和分析方法,能實現(xiàn)對學生寫作文本的自動評價并檢測學生是否存在剽竊行為。因此當前研究者致力于開發(fā)或利用已有評價平臺,分析并評價學生的寫作文本,給予學生及時恰當?shù)姆答仯蕴岣邔W生在寫作中生成知識的能力。例如:McNamara、Crossley和Roscoe(2013)在已有寫作評價模型的基礎(chǔ)上進一步擴展,提出一個評價寫作能力的五維框架,即詞匯、句法、銜接、修辭和易讀指數(shù)。研究者基于已有的智能導師系統(tǒng)“The Writing Pal”和評價框架分析學生的寫作文本,并提供了在寫作輔導系統(tǒng)中提供有意義反饋的手段。Akcapinar(2015)通過提供基于文本挖掘分析的自動反饋來減少學習者在線作業(yè)中的剽竊行為。Yim和Warschauer(2017)綜合了已有的協(xié)作學習研究方法,分析了第二語言環(huán)境中學生的寫作文本,以驗證學生的協(xié)作過程。除利用已有的導師系統(tǒng)和平臺外,研究者也致力于開發(fā)適用于自身研究的新系統(tǒng)或修改已有的評價系統(tǒng)。如Zupanc和Bosnic(2017)擴展了現(xiàn)有的自動論文評估系統(tǒng),納入額外的文本一致性屬性作為新的衡量指標,該系統(tǒng)可以提高評分精度并為作者提供語義反饋。
評價是教學的重要環(huán)節(jié),也是教育科學研究的重要議題,學習評價是影響學生學習質(zhì)量的重要因素之一(徐亞倩,趙宏,2019)。通過評價學生文本可以掌握學生的學習態(tài)度、情緒狀態(tài)、理解程度和學習效果等諸多方面,幫助教師及時調(diào)整和改善教學。通過數(shù)據(jù)分析發(fā)現(xiàn),文本挖掘技術(shù)也常用于開發(fā)評價工具或平臺以支持教學中學生學習成果和教學效果的評價。例如:Ramachandran、Gehringer和Yadav(2017)開發(fā)了一個自動化元評論軟件來審查學生在在線交流中發(fā)表的評論。該軟件使用自然語言處理和機器學習技術(shù)來設(shè)置度量標準,如評論內(nèi)容類型、相關(guān)性、覆蓋范圍、語氣、數(shù)量和是否剽竊等,以便為審查者提供快速反饋,幫助其快速審查學生提交的評論內(nèi)容。Hsu、Chou和Chang(2011) 研究開發(fā)出一套自動化形成性評價的算法程序EduMiner,通過一系列文本挖掘技術(shù)來減輕教學評價負擔。Poce、Corcione和Iovine(2012)開發(fā)了一個“批判性思維技能和經(jīng)典閱讀”的平臺,在已有批判性思維技能評價模型的基礎(chǔ)上進行改編,確定了反映學生批判性思維能力的11個維度,并對學生提交的作品進行詞匯量分析和內(nèi)容分析,以評價學生的批判性思維水平。
文本是人類語言中的重要組成部分,也是教與學思想內(nèi)容的主要呈現(xiàn)方式,對于文本的挖掘分析不僅可以了解學習行為特征,也可以把握學習心理特征。人工智能技術(shù)、網(wǎng)絡(luò)直播、移動學習等新興環(huán)境和技術(shù)的廣泛應用,使得文本的應用場景、識別方式、傳播媒介、分析手段等都發(fā)生了較大變化?;谇笆鰧ξ谋就诰蜓葸M趨勢的分析,結(jié)合文本的生成情境、分析內(nèi)容、處理方式對教育文本挖掘走向作一探討。
自2016年以來,網(wǎng)絡(luò)直播以實時、雙向的獨特傳播方式,成為繼微信、微博等新媒體后的又一火爆行業(yè)。網(wǎng)絡(luò)直播的“異軍突起”,也吸引了大量教育工作者的關(guān)注,網(wǎng)絡(luò)直播學習逐漸成為網(wǎng)絡(luò)直播的主要內(nèi)容之一。網(wǎng)絡(luò)直播學習為學生營造了一種新穎的學習模式,學生可以在直播平臺中與教師和其他學生實時開展互動,及時提問并能得到及時反饋。已有研究表明,學生在網(wǎng)絡(luò)直播學習平臺中的師生互動和同伴互動在參與模式和討論主題上既有相似之處也有顯著差異(He, 2013)。網(wǎng)絡(luò)直播學習環(huán)境中,主要存在學生與教師之間的提問與解答、學生與學生之間的聊天討論這兩種主要的溝通交流方式,通過文本挖掘和數(shù)據(jù)分析的方式,可以直觀了解學生在不同角色中的不同互動方式,從而根據(jù)學生的互動偏好和習慣,提供更為個性化的學習指導。在未來的研究中,研究者還可以分析學生在不同學科中的互動以及同一門學科不同學習背景的學生互動模式之間的異同。
當前,對學習筆記的研究在醫(yī)學教育領(lǐng)域被廣泛使用,研究者利用醫(yī)學生的臨床筆記分析學生的醫(yī)學能力,并為筆記中的不足提供補充材料(Denny et al., 2015)。學習筆記不僅能反映出學生學習成果,也能很好地反映出學生在學習過程中的耐心、細心程度以及解決問題的能力,是衡量學生學習能力的重要指標。學生在參與活動過程中的筆記和活動后的反思文本,或是學習日志、博客等,都能很好地反映出學生的學習習慣,如學生如何把握學習全過程、如何開展自主學習、是否獨立鉆研和思考、是否善于記錄和反思、傾向于何種學習方式、傾向于何種表達方法等。通過對學生筆記的分析,可以了解學生的學習習慣、學習偏好和思維過程,結(jié)合用戶畫像技術(shù)可以為學生進行全面、細致地可視化畫像分析,可為學生提供個性化的學習指導,也可作為教師改進教學的重要參考指標。
元認知是認知的認知,它包括兩個主要的功能:意識性及調(diào)控性,即對認知的認知和對認知的控制。對元認知的分析可以幫助學生體驗學習情景、自主選擇合適的學習方法以及客觀評價自己的學習活動。而教育背景中的論證很大程度上依賴于學生的元認知技能發(fā)展(Martínez & Valdivia,2016)。在協(xié)作學習環(huán)境中論證被認為是促進學習者自身思維過程相互調(diào)節(jié)的工具,因此通過分析學生的論證可以明確了解學生的元認知技能。在網(wǎng)絡(luò)學習環(huán)境中,學生經(jīng)常被要求針對某一學習內(nèi)容或他人的評論發(fā)表意見,以展示自己的觀點和看法,但學生卻少有被要求對自己的觀點發(fā)表看法,評論自己的評論。通過分析學生對討論文本的再評價,能夠得出學生思維的變化以及其元認知能力的發(fā)展歷程,有利于教師對學生進行過程性評價,及時掌握學生學習情況。
當前關(guān)于協(xié)作學習的研究眾多,但研究者的關(guān)注點主要集中在協(xié)作學習的質(zhì)量(Schalk, Marcelo,2010)、協(xié)作學習討論內(nèi)容(He, 2013) 、協(xié)作學習能力的提高(Hou, 2011)等方面,對協(xié)作學習中學習者的行為和模式等尚未形成廣泛關(guān)注。學生協(xié)作對課程的完成情況起到了決定性作用,尤其是在遠程教育方面(Brinton, Chiang, Jain, Lam, Liu, &Wong, 2014)。因此,有必要基于自然語言處理、潛在語義分析模型、監(jiān)督學習方法等文本挖掘和分析技術(shù)來分析學生在基于討論的協(xié)作學習中產(chǎn)生的文本,明晰學生的協(xié)作學習模式,為學生提供差異化反饋的同時,改進教學模式和教學方法,提高學生協(xié)作學習的效果。
文本挖掘和文本分析技術(shù)日臻成熟,研究者可以快速從文本中獲取信息,如何將簡單易懂的自然語言轉(zhuǎn)換為較強專業(yè)性的數(shù)據(jù)概念、如何將相關(guān)聯(lián)語義進行整合分析是文本挖掘過程中的重要環(huán)節(jié),也是文本分析的基礎(chǔ)和前提,但當前的研究中卻較少提及。語義計算方式應當包括語義權(quán)重、分析算法、異構(gòu)數(shù)據(jù)的處理等。在語義理解方面,應當建立相關(guān)模型和框架,將文本解析為結(jié)構(gòu)化的、機器可讀的意圖與詞槽信息。因此,語義理解和語義計算應是未來教育文本挖掘領(lǐng)域的重要研究內(nèi)容之一,需要建立被廣泛接受的概念和框架,為后續(xù)研究提供參考。
教育文本挖掘是學習分析方向下的一個重要研究領(lǐng)域,對學習文本的分析可以為整個學習過程數(shù)據(jù)分析提供較好的證據(jù)支撐。本研究采用共現(xiàn)分析、聚類分析等方法對教育文本挖掘的相關(guān)文獻進行了定量分析,從引征關(guān)系、合作關(guān)系、時序關(guān)系等方面進行了質(zhì)性探討,試圖厘清該研究領(lǐng)域的熱點內(nèi)容與脈絡(luò)??梢钥闯?,已有研究主要聚焦于文本分析和平臺開發(fā)兩個方面,致力于探究在線課程中學生的行為、認知、情感、能力等方面。在數(shù)據(jù)源上需要進一步結(jié)合其他學習行為數(shù)據(jù)進行綜合分析,在分析方法上依托自然語言處理和深度學習技術(shù)進行語義計算和理解,分析對象包括學習文本、師生互動文本、教學文本等。通過海量文本數(shù)據(jù)的自動化處理,提升文字處理效率和文本挖掘深度,降低人工成本,深入理解文字背后的含義,為學習設(shè)計和教學提供有力支持。