王洪鑫 閆志明 陳效玉 張銘銳
(1.魯東大學(xué) 教師教育學(xué)院,山東 煙臺(tái) 264025;2.魯東大學(xué) 教育科學(xué)學(xué)院,山東 煙臺(tái) 264025)
知識(shí)經(jīng)濟(jì)時(shí)代,教育模式正在發(fā)生改變,在線教育風(fēng)暴的來(lái)臨改變了學(xué)校傳統(tǒng)的知識(shí)傳授模式,提供了一種全新的知識(shí)傳播和學(xué)習(xí)方式(鐘廈,徐嘉良,劉瀟,2015),使得更多的人選擇通過(guò)在線學(xué)習(xí)的方式提升自身的知識(shí)水平,由此,MOOC、SPOC等在線教育課程迅速發(fā)展并成為國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)。在線教育課程的逐漸普及積累了大量的學(xué)習(xí)數(shù)據(jù),既包括課程的參與人數(shù)、點(diǎn)擊量、視頻觀看時(shí)長(zhǎng)等結(jié)構(gòu)化數(shù)據(jù),又有討論內(nèi)容、作業(yè)內(nèi)容等非結(jié)構(gòu)化數(shù)據(jù)。學(xué)習(xí)者在完成課程學(xué)習(xí)之后,對(duì)課程的整體感受以文本評(píng)論的形式呈現(xiàn)在課程評(píng)價(jià)中,反饋給教育者。這些文本承載了學(xué)習(xí)者的情感表達(dá)、學(xué)習(xí)體驗(yàn)、語(yǔ)義信息等,表達(dá)了學(xué)習(xí)者對(duì)課程提出的各種意見(jiàn)與建議。分析評(píng)論文本可以幫助教育者對(duì)學(xué)習(xí)者進(jìn)行形成性評(píng)價(jià),把握學(xué)習(xí)者的學(xué)習(xí)情況,從而為其提供個(gè)性化的學(xué)習(xí)支持服務(wù)(鄒沁含,龐曉陽(yáng),黃嘉靖,劉司卓,2020)。然而,由于數(shù)據(jù)簡(jiǎn)短且量大,教育者很難一一查閱,不能及時(shí)獲得學(xué)習(xí)者反饋,致使課程評(píng)論中的有效信息大量流失,課程缺陷不能及時(shí)得到彌補(bǔ)。因此,對(duì)課程數(shù)據(jù)進(jìn)行分析,及時(shí)發(fā)現(xiàn)學(xué)習(xí)者問(wèn)題,對(duì)把控教學(xué)過(guò)程、調(diào)整教學(xué)設(shè)計(jì)來(lái)說(shuō)十分必要。
以往研究傳統(tǒng)課堂中的學(xué)習(xí)數(shù)據(jù)時(shí),往往采用的是課堂觀察法,依靠人力對(duì)學(xué)習(xí)者進(jìn)行觀察記錄,不僅耗費(fèi)大量人力資源,數(shù)據(jù)完全來(lái)自于人的主觀判斷,缺失客觀性,且準(zhǔn)確性也有待商榷。當(dāng)前,隨著多種數(shù)據(jù)挖掘方法(如回歸分析、文本分析等)在教育領(lǐng)域中的應(yīng)用,學(xué)習(xí)數(shù)據(jù)得到了更為準(zhǔn)確的分析與解釋。運(yùn)用恰當(dāng)?shù)募夹g(shù)來(lái)挖掘并分析數(shù)據(jù),能有效地發(fā)現(xiàn)潛在有用的信息,從而更好地支持在線教育課程的建設(shè)與實(shí)施,幫助教育者及時(shí)調(diào)整教學(xué)過(guò)程,完善課程內(nèi)容。
當(dāng)前,已有研究對(duì)MOOC課程中產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)(如課程的點(diǎn)擊量、參與學(xué)習(xí)人數(shù)等)進(jìn)行分析,以期獲取課程的整體狀況、評(píng)估學(xué)生的學(xué)習(xí)情況。如劉亞男、肖明、劉江榮和徐燁(2019)依據(jù)用戶、課程等6個(gè)一級(jí)指標(biāo)和用戶人數(shù)、師資隊(duì)伍等21個(gè)二級(jí)指標(biāo),利用層次分析法構(gòu)建課程質(zhì)量評(píng)價(jià)指標(biāo)體系來(lái)評(píng)估課程,以促進(jìn)MOOC的建設(shè)。錢小龍和曹維娜(2020)參照在線教育質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),嘗試構(gòu)建微軟人工智能專業(yè)慕課質(zhì)量評(píng)價(jià)指標(biāo)體系,制作調(diào)查問(wèn)卷,從用戶視角對(duì)微軟人工智能專業(yè)慕課的質(zhì)量作出評(píng)價(jià)。程慧平和肖愛(ài)森(2019)結(jié)合Webqual4.0(可用性、信息質(zhì)量、交互質(zhì)量)與D&M系統(tǒng)成功模型(信息質(zhì)量、系統(tǒng)質(zhì)量、服務(wù)質(zhì)量),構(gòu)建在線教育網(wǎng)站用戶滿意度評(píng)價(jià)指標(biāo)體系,利用層次分析法(AHP)確定評(píng)價(jià)指標(biāo)權(quán)重,并選取四種教育平臺(tái)指標(biāo)進(jìn)行比較分析。
除了從結(jié)構(gòu)化數(shù)據(jù)的角度進(jìn)行分析外,還有一些研究通過(guò)對(duì)在線課程的交互文本數(shù)據(jù)的挖掘與分析,力圖反映出學(xué)習(xí)者的主題關(guān)注情況以及情感傾向等,進(jìn)而優(yōu)化課程教學(xué)。田娜和周驛(2020)利用非監(jiān)督學(xué)習(xí)方法LDA主題模型分析文本的特征結(jié)構(gòu)和語(yǔ)義內(nèi)容,并使用情感工具分析學(xué)習(xí)者關(guān)注的話題,探索學(xué)習(xí)者參與在線課程學(xué)習(xí)時(shí)關(guān)注的話題以及情感態(tài)度。 Elia、Solazzo、Lorenzo和Passiante(2019)設(shè)計(jì)了RAMS學(xué)習(xí)分析系統(tǒng),通過(guò)對(duì)Moodle平臺(tái)論壇的數(shù)據(jù)進(jìn)行主題聚類和情感分析,得到學(xué)習(xí)者的總體情感傾向以及在不同時(shí)間段論壇情感變化情況。吳林靜、劉清堂、毛剛、黃煥和黃景修(2017)通過(guò)分析愛(ài)課程上的4門(mén)課程評(píng)論,提出基于大數(shù)據(jù)的慕課評(píng)論語(yǔ)義分析模型,并將慕課評(píng)論分為內(nèi)容相關(guān)類、情感相關(guān)類和其它類。劉三、彭晛、劉智、孫建文和劉海(2017)通過(guò)對(duì)果殼網(wǎng)MOOC課程評(píng)論帖進(jìn)行主題挖掘和話題演化,分別分析課程的未完成和已完成學(xué)習(xí)者的話題分布及話題演化情況,并提出建議。
上述研究都從不同的角度對(duì)MOOC平臺(tái)上的學(xué)習(xí)數(shù)據(jù)進(jìn)行了分析,但在研究方法方面,已有研究主要集中使用通用型的情感工具分析學(xué)習(xí)者情感,這種方法在不同領(lǐng)域的適用性較差,準(zhǔn)確率方面也有待提高。研究缺少針對(duì)MOOC課程教育的主題挖掘和情感分析模型,無(wú)法找出學(xué)習(xí)者關(guān)注的課程主題和情感傾向,致使學(xué)習(xí)者關(guān)于課程內(nèi)容、評(píng)價(jià)方式等需求不能得到很好的滿足。本研究在對(duì)當(dāng)前研究進(jìn)行總結(jié)梳理的基礎(chǔ)上,構(gòu)建了一種面向MOOC課程評(píng)論的主題挖掘與情感分析模型,該方法的基本思想是通過(guò)爬蟲(chóng)獲取MOOC上的課程評(píng)論,采用LDA主題模型來(lái)分析評(píng)論文本,挖掘課程評(píng)論的隱含主題結(jié)構(gòu),得到不同主題間的詞語(yǔ)分布,訓(xùn)練情感分析模型獲取評(píng)論內(nèi)容的情感極性,得到學(xué)習(xí)者對(duì)每個(gè)課程主題的情感極性,以期為慕課的質(zhì)量提升提供借鑒與參考。
本模塊旨在系統(tǒng)地描述MOOC平臺(tái)某門(mén)課程評(píng)論中隱含主題的挖掘和情感分析過(guò)程,構(gòu)建一個(gè)可為課程中的教育者、學(xué)習(xí)者提供反饋性支持的框架,形成自適應(yīng)的循環(huán)結(jié)構(gòu)。如圖1所示,整個(gè)過(guò)程可分為數(shù)據(jù)收集、詞云分析、MOOC課程評(píng)論主題挖掘以及主題情感分析4個(gè)環(huán)節(jié)。首先,收集MOOC平臺(tái)中的課程評(píng)論數(shù)據(jù)并進(jìn)行清洗與篩選;其次,對(duì)課程數(shù)據(jù)的分析采用定量與定性相結(jié)合的方式,借助定量分析法對(duì)課程中所有評(píng)論進(jìn)行詞云分析,實(shí)現(xiàn)高頻詞匯的可視化呈現(xiàn),捕捉學(xué)習(xí)者的重點(diǎn)關(guān)注內(nèi)容,從整體上進(jìn)行把握與觀測(cè);接下來(lái),采用定性分析法分析課程評(píng)論數(shù)據(jù),基于LDA主題模型挖掘?qū)W習(xí)者對(duì)課程本身的建設(shè)、內(nèi)容、呈現(xiàn)形式等方面存在的意見(jiàn)與建議;最后,利用情感分析模型分析學(xué)習(xí)者的情感態(tài)度,以期為改進(jìn)與完善后續(xù)課程提供建議,為教育者調(diào)整教學(xué)方法、改善在線學(xué)習(xí)體驗(yàn)提供依據(jù)。
數(shù)據(jù)收集的方法有很多種,如問(wèn)卷收集、訪談收集、爬蟲(chóng)獲取等。在線教育課程中,收集學(xué)習(xí)者已經(jīng)產(chǎn)生的在線學(xué)習(xí)數(shù)據(jù)多采用的是爬蟲(chóng)獲取的方式。爬蟲(chóng)是一種自動(dòng)獲取網(wǎng)頁(yè)內(nèi)容的程序,能夠快速、高效且準(zhǔn)確地獲取大量有價(jià)值的信息。借助爬蟲(chóng)技術(shù)能夠?qū)φn程評(píng)論區(qū)的文本數(shù)據(jù)進(jìn)行自動(dòng)獲取,從而獲得實(shí)驗(yàn)所需的原始語(yǔ)料。
詞云圖是對(duì)某篇文檔中出現(xiàn)頻次較高的關(guān)鍵詞予以視覺(jué)化呈現(xiàn)的一種方式,借助詞云圖表達(dá)數(shù)據(jù)內(nèi)容,能夠過(guò)濾掉大量低頻低質(zhì)的信息,弱化非關(guān)鍵區(qū)域,將關(guān)鍵信息突出呈現(xiàn)。制作詞云的工具有很多種,如Wordle、WordltOut以及Python程序等。在本研究中的詞云繪制采用的是PyEchart中的WordCloud子包,以渲染圖的形式來(lái)展現(xiàn)核心關(guān)鍵詞。PyEchart作為Python的數(shù)據(jù)可視化庫(kù),主要用于生成柱狀圖、折線圖、餅圖等各類圖表。
潛在狄利克雷分布模型(Latent Dirichlet Allocation, LDA),通常包含了詞語(yǔ)、主題、文檔三層結(jié)構(gòu),是PLSI模型的延伸,最早由Blei在2003年提出,是一個(gè)三層貝葉斯概率生成模型(Steyvers& Griffiths, 2007),用于發(fā)現(xiàn)文檔中隱含的主題和內(nèi)容。LDA模型屬于無(wú)監(jiān)督主題建模方法(Blei,Ng, & Jordan, 2003),它是將一篇文檔的每個(gè)詞語(yǔ)都以一定的概率分布在某個(gè)主題上,并從這個(gè)主題中選擇這個(gè)詞語(yǔ),文檔到主題、主題到詞語(yǔ)的過(guò)程都是服從于多項(xiàng)分布的。LDA模型目前已在多個(gè)領(lǐng)域得到了應(yīng)用,如社交媒體的災(zāi)害分類(蘇凱,程昌秀,Nikita Murzintcev,張婷,2019)、文獻(xiàn)檢索可視化(阮光冊(cè),任金玥,2019)以及用戶評(píng)分預(yù)測(cè)(楊貴軍,徐雪,趙富強(qiáng),2019)等方面。
LDA又被稱為“盤(pán)子表示法”,模型結(jié)構(gòu)如圖2所示,其中單圓圈表示潛在變量,α和β是模型的先驗(yàn)參數(shù),雙圓圈表示可以測(cè)量的變量,箭頭表示兩個(gè)變量之間的依賴關(guān)系,矩形框表示重復(fù)抽樣,重復(fù)次數(shù)顯示在右下角,K為設(shè)定的主題數(shù)。LDA模型的具體實(shí)現(xiàn)步驟為:從每篇文檔D對(duì)應(yīng)的多項(xiàng)式分布參數(shù)θ中抽取得到每個(gè)詞語(yǔ)對(duì)應(yīng)的一個(gè)主題z;從每個(gè)主題z對(duì)應(yīng)的多項(xiàng)式分布參數(shù)中抽取一個(gè)詞語(yǔ)w;重復(fù)上述兩個(gè)步驟Nd次,直到遍歷文檔中每一個(gè)詞語(yǔ)。LDA模型支持下的MOOC課程評(píng)論主題挖掘方法的過(guò)程可分為以下幾步。
圖2 LDA模型圖
1. 語(yǔ)料庫(kù)的建立
由于MOOC中課程評(píng)論數(shù)據(jù)結(jié)構(gòu)復(fù)雜且無(wú)意義詞語(yǔ)較多,在得到課程評(píng)論的原始語(yǔ)料后,首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、去除標(biāo)點(diǎn)和數(shù)字、分詞、去除停用詞等操作,從而得到形式較為規(guī)范的課程評(píng)論語(yǔ)料庫(kù)。結(jié)構(gòu)良好、形式規(guī)范的語(yǔ)料庫(kù)不僅能夠提升分析效率,還能提高模型的準(zhǔn)確率。
2. 基于LDA主題模型的文本表示
在得到規(guī)范的評(píng)論語(yǔ)料庫(kù)之后,將該數(shù)據(jù)作為L(zhǎng)DA模型的輸入,通過(guò)LDA模型對(duì)評(píng)論語(yǔ)料庫(kù)進(jìn)行文本表示,將課程評(píng)論數(shù)據(jù)轉(zhuǎn)化為符合主題挖掘模型要求的文本向量,將評(píng)論信息以詞向量的形式呈現(xiàn)。其中模型的先驗(yàn)參數(shù)α和β根據(jù)已有研究的經(jīng)驗(yàn)值確定,主題數(shù)K利用實(shí)驗(yàn)方法來(lái)確定。
3. 基于Gibbs抽樣的參數(shù)估計(jì)
根據(jù)模型的已有參數(shù),利用Gibbs抽樣對(duì)未知參數(shù)進(jìn)行估計(jì),當(dāng)采樣次數(shù)達(dá)到預(yù)設(shè)的迭代值時(shí),則利用采樣結(jié)果的均值來(lái)估計(jì)文檔—主題分布矩陣θ和主題—詞語(yǔ)分布矩陣(高慧穎,劉嘉唯,楊淑昕,2019),計(jì)算公式為:
根據(jù)上述公式可計(jì)算出最后的兩個(gè)未知參數(shù),文檔—主題分布矩陣θ,即學(xué)習(xí)者對(duì)課程的評(píng)論可表示為多個(gè)主題的概率分布;主題—詞語(yǔ)分布矩陣,即將學(xué)習(xí)者發(fā)表的課程評(píng)論表征為多維細(xì)粒度的詞語(yǔ)分布(何皓怡,劉清堂,吳林靜,鄧偉,郝怡雪,2018)。得到的結(jié)果可用于分析學(xué)習(xí)者對(duì)課程主題的關(guān)注情況,這為課程評(píng)論區(qū)的大量文本數(shù)據(jù)分析提供了自動(dòng)化服務(wù)。
情感分析,又被稱為觀點(diǎn)識(shí)別,就是從評(píng)論文本數(shù)據(jù)中識(shí)別學(xué)習(xí)者所表達(dá)的情感傾向的過(guò)程。情感分析的方法主要分為基于機(jī)器學(xué)習(xí)的方法和基于詞典的方法?;跈C(jī)器學(xué)習(xí)的方法雖然準(zhǔn)確率高,但是需要大量人工標(biāo)注的數(shù)據(jù)集來(lái)訓(xùn)練模型,并且在不同領(lǐng)域適應(yīng)性較差?;谠~典的方法則依賴于詞典的構(gòu)建與選擇,雖然基于詞典的情感分析法較為快捷,但由于一詞多義現(xiàn)象使得不同詞匯在不同語(yǔ)境下表現(xiàn)的情感不同,并且單一的情感詞典無(wú)法解決復(fù)雜的歧義詞問(wèn)題。隨著網(wǎng)絡(luò)的發(fā)展和信息更新速度的加快,出現(xiàn)了許多類似成語(yǔ)、歇后語(yǔ)等表達(dá)情感的新興詞匯,基于詞典的方法對(duì)新詞的識(shí)別并不能有較好的效果,現(xiàn)有詞典需要不斷擴(kuò)充才能滿足需要。綜合考慮之后,本研究計(jì)劃使用基于機(jī)器學(xué)習(xí)的方法來(lái)構(gòu)建模型,分析學(xué)習(xí)者情感。
1. 基于字符級(jí)CNN的情感分析模型構(gòu)建
本研究主要使用基于機(jī)器學(xué)習(xí)的方法來(lái)構(gòu)建模型,將所獲數(shù)據(jù)分為兩部分,組建訓(xùn)練集和測(cè)試集。訓(xùn)練集用于擬合模型,往往需要大量的數(shù)據(jù)支持,通過(guò)設(shè)置模型參數(shù),完成模型的訓(xùn)練,通過(guò)訓(xùn)練集得到模型后,使用測(cè)試集進(jìn)行模型檢驗(yàn),用來(lái)衡量該模型的性能和分類能力,測(cè)試集是與訓(xùn)練集完全不同的數(shù)據(jù)集。為保證訓(xùn)練模型的普適性,本研究隨機(jī)選取了MOOC平臺(tái)中十五門(mén)課程的評(píng)論區(qū)數(shù)據(jù)作為本研究的原始數(shù)據(jù)集,從中選取部分?jǐn)?shù)據(jù)作為訓(xùn)練集完成模型的訓(xùn)練,其余數(shù)據(jù)作為測(cè)試集檢驗(yàn)?zāi)P?,?duì)文本數(shù)據(jù)進(jìn)行去噪、特征提取、向量化表示、特征選擇等操作后,選擇litNlp(Python的第三方庫(kù))自帶的字符級(jí)TextCNN訓(xùn)練情感分析模型。
2. 情感極性可視化分析
首先利用主題中心詞找出對(duì)應(yīng)的主題屬性字典,根據(jù)主題屬性表對(duì)主題提取后的文本進(jìn)行情感分析,分別得出當(dāng)前主題對(duì)應(yīng)的情感概率分布,將情感概率分布作為情感趨勢(shì)進(jìn)行情感分析。橫坐標(biāo)為關(guān)于主題的情感得分,縱坐標(biāo)為對(duì)應(yīng)的情感的評(píng)論數(shù)目,可以縱觀當(dāng)前主題下的情感趨勢(shì),趨勢(shì)往右代表當(dāng)前主題評(píng)論較為積極。對(duì)情感極性可視化的結(jié)果進(jìn)行分析,能為后續(xù)課程建設(shè)提供建議。
本研究以中國(guó)大學(xué)MOOC學(xué)習(xí)平臺(tái)的“面向核心素養(yǎng)的信息化教學(xué)設(shè)計(jì)”課程為模型的應(yīng)用對(duì)象?!懊嫦蚝诵乃仞B(yǎng)的信息化教學(xué)設(shè)計(jì)”是一門(mén)能夠帶領(lǐng)教師深入理解核心素養(yǎng)內(nèi)涵、助力教師掌握面向核心素養(yǎng)的教學(xué)設(shè)計(jì)方法的課程,在線課程學(xué)習(xí)人數(shù)已多達(dá)4 184人,從2018年4月到2020年8月間,有950名MOOC學(xué)習(xí)者對(duì)課程發(fā)表了評(píng)論,為本研究的模型應(yīng)用提供了較為豐富的素材。本研究通過(guò)編寫(xiě)爬蟲(chóng)程序獲取到950條課程評(píng)論,每個(gè)學(xué)習(xí)者平均發(fā)布一條評(píng)論,平均長(zhǎng)度約50字。
通過(guò)對(duì)課程評(píng)論區(qū)的數(shù)據(jù)進(jìn)行爬取并整理得到如上頁(yè)表1所示的數(shù)據(jù)樣本,接下來(lái)對(duì)收集到的數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,主要包括去除字符、數(shù)字、標(biāo)點(diǎn)符號(hào)以及停用詞等,借助jieba分詞工具進(jìn)行分詞。
表1 課程評(píng)價(jià)樣本數(shù)據(jù)呈現(xiàn)
為了提高評(píng)論數(shù)據(jù)的分析效果,本研究根據(jù)課程的核心內(nèi)容創(chuàng)建了包含500多個(gè)單詞的停用詞表,以獲得更為全面而準(zhǔn)確的語(yǔ)義信息。在上述工作的基礎(chǔ)上,完成了評(píng)價(jià)數(shù)據(jù)主題挖掘的實(shí)驗(yàn)數(shù)據(jù)集的創(chuàng)建,處理完成后的樣本數(shù)據(jù)如表2所示。
表2 MOOC課程評(píng)論(樣本)文本處理情況呈現(xiàn)
在對(duì)950條課程評(píng)價(jià)數(shù)據(jù)進(jìn)行詞云分析后發(fā)現(xiàn)(見(jiàn)圖3),出現(xiàn)頻次最高的關(guān)鍵詞依次為學(xué)習(xí)(436次)、教學(xué)(256)、核心素養(yǎng)(202次),表現(xiàn)了學(xué)習(xí)者對(duì)教師教學(xué)、核心素養(yǎng)的關(guān)注。其次是課程、收獲、內(nèi)容、豐富、受益匪淺等關(guān)鍵詞,表明了學(xué)習(xí)者肯定了該門(mén)課程的效用,通過(guò)課程的學(xué)習(xí)從中受益,而且對(duì)課程內(nèi)容的豐富性給予了充分認(rèn)可。另外,信息化、信息技術(shù)、工具等詞匯的出現(xiàn)頻率也較高,充分體現(xiàn)了學(xué)習(xí)者對(duì)課程中一些技術(shù)工具表現(xiàn)出了高度關(guān)注。
圖3 課程評(píng)價(jià)數(shù)據(jù)詞云分析呈現(xiàn)
基于上文預(yù)處理之后獲得的樣本數(shù)據(jù)集,本部分計(jì)劃使用LDA主題模型來(lái)挖掘?qū)W習(xí)者發(fā)表的課程評(píng)論中對(duì)課程存在的意見(jiàn)與建議,查看學(xué)習(xí)者所發(fā)布的課程評(píng)論中的隱含主題和語(yǔ)義內(nèi)容,為教育者改進(jìn)課程內(nèi)容提供數(shù)據(jù)支撐。本次實(shí)驗(yàn)中實(shí)驗(yàn)效果的衡量主要考慮主題間的分離度和主題內(nèi)部質(zhì)量?jī)蓚€(gè)指標(biāo)(Celikyilmaz, Hakkani-Tur, & Tur, 2010;Geng, Wang, Wang, & Korba, 2008)。參考已有的經(jīng)驗(yàn)值(Marley, Collier, & Meyer Goldstein, 2004),α取值為50/K,β取值為0.01,其中K表示模型主題數(shù),K的取值依賴于數(shù)據(jù)集的大小。在模型評(píng)估中,確定了某個(gè)主題數(shù)的主題模型,該主題模型在評(píng)論語(yǔ)料庫(kù)中的困惑度越低,那么這個(gè)主題數(shù)下的主題模型具有越好的表達(dá)能力(Ranard & Werner,2016)。經(jīng)過(guò)反復(fù)實(shí)驗(yàn),發(fā)現(xiàn)K取值5時(shí),模型的困惑度最低,實(shí)驗(yàn)效果最佳。
表3是“面向核心素養(yǎng)的信息化教學(xué)設(shè)計(jì)”課程評(píng)論主題挖掘的主題—詞語(yǔ)矩陣,按照概率值大小列出每個(gè)主題下的前十個(gè)詞語(yǔ),對(duì)某個(gè)主題下的學(xué)習(xí)者隱含的語(yǔ)義內(nèi)容進(jìn)行概率表征。從表3中詞語(yǔ)概率分布情況進(jìn)行推測(cè),主題1可能是在討論該課程教師的授課方式,學(xué)習(xí)者認(rèn)為該門(mén)課的授課方式層次分明,教育者從多個(gè)角度講解課程,活動(dòng)內(nèi)容豐富,表述方式條理清晰,新穎直觀。主題2中的關(guān)鍵詞語(yǔ)圍繞著信息技術(shù)工具,學(xué)習(xí)者認(rèn)可輔助工具的使用價(jià)值,通過(guò)課程的學(xué)習(xí),學(xué)會(huì)了很多軟件,并認(rèn)為該課程推薦的工具非常實(shí)用。從主題3的詞語(yǔ)分布情況來(lái)看,此主題是有關(guān)課程內(nèi)容的評(píng)論,學(xué)習(xí)者認(rèn)為內(nèi)容詳實(shí)細(xì)致、包含豐富的新理念,但同時(shí)認(rèn)為基礎(chǔ)知識(shí)太少,理論太深?yuàn)W,開(kāi)放性內(nèi)容較多,學(xué)習(xí)起來(lái)有一定的難度。從主題4推測(cè),學(xué)習(xí)者可能是在評(píng)論課程的評(píng)價(jià)方式,從時(shí)間安排、作業(yè)、考試、測(cè)驗(yàn)、考核方式等方面發(fā)表了意見(jiàn)。從主題5的關(guān)鍵詞進(jìn)行推測(cè),可能是在描述學(xué)習(xí)體驗(yàn),學(xué)習(xí)者認(rèn)為該課程的學(xué)習(xí)使自己受益匪淺,很有收獲,學(xué)習(xí)過(guò)程很充實(shí),激起了自己的學(xué)習(xí)興趣,并且有很好的體驗(yàn)感。
表3 課程評(píng)論主題挖掘的主題—詞語(yǔ)矩陣
通過(guò)對(duì)表3中內(nèi)容的觀察與分析,發(fā)表課程評(píng)論的學(xué)習(xí)者整體上對(duì)課程持有贊揚(yáng)認(rèn)可的態(tài)度,并從授課方式、技術(shù)工具、課程內(nèi)容等方面肯定了該課程的效用。另一方面,課程設(shè)計(jì)的某些方面還存在一些不足,如學(xué)習(xí)難度較大、基礎(chǔ)性知識(shí)少、開(kāi)放性問(wèn)題多、內(nèi)容深?yuàn)W等問(wèn)題,這些亟待課程設(shè)計(jì)者來(lái)解決。
研究隨機(jī)選取了MOOC平臺(tái)中十五門(mén)課程的評(píng)論區(qū)數(shù)據(jù)10 685條,并進(jìn)行人工標(biāo)注,“0”代表消極評(píng)論,“1”代表積極評(píng)論,完成數(shù)據(jù)集的創(chuàng)建,從中選取9 735條數(shù)據(jù)作為訓(xùn)練集訓(xùn)練,950條數(shù)據(jù)作為測(cè)試集檢驗(yàn)?zāi)P?。在完成?xùn)練集和測(cè)試集的創(chuàng)建后,使用litNlp自帶的字符級(jí)TextCNN算法訓(xùn)練深度情感分析模型。
研究使用準(zhǔn)確率、召回率和F值來(lái)衡量模型對(duì)情感的識(shí)別效果,F(xiàn)值可以平衡準(zhǔn)確率和召回率,因此F值經(jīng)常用于評(píng)價(jià)模型的有效性。表4分別記錄了這三項(xiàng)指標(biāo),其數(shù)據(jù)反映了該模型的性能,當(dāng)我們?cè)黾右欢〝?shù)量的訓(xùn)練樣本時(shí),該模型的預(yù)測(cè)效果會(huì)更好。由表4可見(jiàn),本模型具有較高的準(zhǔn)確率,在情感分析中是可用的。
表4 正負(fù)極性情感分析模型的準(zhǔn)確性
研究將該模型應(yīng)用于“面向核心素養(yǎng)的信息化教學(xué)設(shè)計(jì)”課程的評(píng)論區(qū)數(shù)據(jù),對(duì)授課方式、技術(shù)工具、課程內(nèi)容、評(píng)價(jià)方式和學(xué)習(xí)體驗(yàn)的評(píng)論文本分別做情感分析,可以反映學(xué)習(xí)者關(guān)注的該課程的5個(gè)話題的情感傾向。利用訓(xùn)練好的深度情感分析模型對(duì)評(píng)論主題開(kāi)展情感極性分析,結(jié)果如圖4所示。由圖4可知,結(jié)合評(píng)論數(shù)目來(lái)看,學(xué)習(xí)者對(duì)授課方式、技術(shù)工具、學(xué)習(xí)體驗(yàn)、評(píng)價(jià)方式的情感態(tài)度整體趨向于積極,學(xué)習(xí)者的滿意度較高。相比于其他三個(gè)主題,教師授課方式主題的積極情緒相對(duì)較高,充分體現(xiàn)了學(xué)習(xí)者對(duì)教師傳授知識(shí)方式的認(rèn)可。學(xué)習(xí)者積極情緒較高的主題還有技術(shù)工具和學(xué)習(xí)體驗(yàn),而評(píng)價(jià)方式主題雖然整體上以積極為主,但是也表達(dá)了一些中性和消極情緒,推測(cè)學(xué)習(xí)者可能對(duì)本門(mén)課程的評(píng)價(jià)方式存在不滿情緒。課程內(nèi)容情感偏向消極,推測(cè)可能與基礎(chǔ)知識(shí)少,理論知識(shí)較為深?yuàn)W,學(xué)習(xí)起來(lái)難度較大等問(wèn)題有關(guān)。學(xué)習(xí)體驗(yàn)和課程內(nèi)容這兩個(gè)主題是學(xué)習(xí)者發(fā)表評(píng)論的主要內(nèi)容,表明了學(xué)習(xí)者非常重視課程自身的內(nèi)容和課程帶給自己的學(xué)習(xí)感受。
圖4 課程評(píng)論主題情感極性分析
總而言之,從本研究所構(gòu)建的主題挖掘與情感分析模型的分析結(jié)果來(lái)看,課程內(nèi)容和學(xué)習(xí)體驗(yàn)是本課程學(xué)習(xí)者的主要關(guān)注點(diǎn),是影響課程質(zhì)量的核心因素,而評(píng)價(jià)方式和課程內(nèi)容是學(xué)習(xí)者表達(dá)中性和消極情緒的主要因素。針對(duì)此種情況,在課程后期的設(shè)計(jì)中,教育者要著重去改進(jìn)評(píng)價(jià)方式,提高課程教學(xué)內(nèi)容的趣味性、有效性,從而達(dá)到吸引學(xué)習(xí)者的目的。
本文基于MOOC課程評(píng)論區(qū)數(shù)據(jù),提出了一種面向MOOC課程評(píng)論的主題挖掘與情感分析模型,并以“面向核心素養(yǎng)的信息化教學(xué)設(shè)計(jì)”課程為對(duì)象展開(kāi)應(yīng)用。結(jié)果發(fā)現(xiàn),該模型能夠較好地挖掘出課程評(píng)論的主題,并能分析出相應(yīng)主題的情感極性,幫助教育者總結(jié)課程學(xué)習(xí)者的意見(jiàn)與建議用以改進(jìn)教學(xué)。模型的結(jié)果能夠有效地輔助教育者調(diào)整教學(xué)設(shè)計(jì),助力平臺(tái)開(kāi)發(fā)人員完善功能建設(shè)以及讓學(xué)習(xí)者直觀了解課程。在上述分析基礎(chǔ)上,本研究提出幾點(diǎn)建議,以期改善課程服務(wù),給予學(xué)習(xí)者更周到的學(xué)習(xí)體驗(yàn)。
學(xué)習(xí)者普遍存在課程內(nèi)容實(shí)用化的心理趨向,期待能達(dá)到對(duì)知識(shí)快速理解且能學(xué)以致用的學(xué)習(xí)效果,而課程內(nèi)容的有趣、生動(dòng),又能讓學(xué)習(xí)者在享受知識(shí)的過(guò)程中內(nèi)化知識(shí)。這能讓學(xué)習(xí)者同時(shí)獲得功能和精神層面的滿足。要達(dá)到這種理想狀態(tài),一方面需要優(yōu)化非結(jié)構(gòu)化學(xué)習(xí)資源的呈現(xiàn)機(jī)制,對(duì)于核心內(nèi)容突出顯示,可使用一些可視化手段來(lái)活躍知識(shí),弱化非關(guān)鍵性區(qū)域。另一方面,內(nèi)容設(shè)置的廣度與深度要符合大眾的學(xué)習(xí)水平,適當(dāng)提高一些初級(jí)、中級(jí)知識(shí)的占比,以便能滿足不同層次學(xué)習(xí)者的學(xué)習(xí)需求,同時(shí)增加實(shí)用性工具的使用介紹,為在線學(xué)習(xí)者提供一些可直接有助于工作實(shí)踐的方法手段。
傳統(tǒng)的以系統(tǒng)評(píng)價(jià)和教師批改為主的評(píng)價(jià)方式并不能準(zhǔn)確檢測(cè)人工智能時(shí)代學(xué)習(xí)者的學(xué)習(xí)質(zhì)量,迫切需要與大數(shù)據(jù)、云計(jì)算相匹配的評(píng)價(jià)方式的開(kāi)發(fā)。為有效應(yīng)對(duì)此問(wèn)題,一方面,以虛擬現(xiàn)實(shí)技術(shù)、人工智能技術(shù)為支撐打造教學(xué)交流平臺(tái),創(chuàng)建一個(gè)不受時(shí)空束縛的、自由討論的環(huán)境,加入嵌入式評(píng)估實(shí)時(shí)動(dòng)態(tài)測(cè)評(píng),以教師評(píng)價(jià)為主,結(jié)合同伴互評(píng)、學(xué)生自評(píng)打造彈性化教學(xué)評(píng)價(jià),通過(guò)評(píng)中教、評(píng)中學(xué)來(lái)引導(dǎo)教育者和學(xué)習(xí)者重構(gòu)知識(shí)序列。另一方面,開(kāi)課前明確評(píng)價(jià)目標(biāo),借助一些APP或微信小程序動(dòng)態(tài)記錄學(xué)習(xí)行為數(shù)據(jù),充分實(shí)現(xiàn)評(píng)價(jià)的透明化、可視化。
現(xiàn)行的在線課程多以直播教學(xué)為主,而單純的直播教學(xué)并不能顯著提高學(xué)習(xí)者的學(xué)習(xí)效果。為了給課程學(xué)習(xí)者帶來(lái)更周到的學(xué)習(xí)體驗(yàn),可以綜合實(shí)時(shí)直播教學(xué)和異步自主學(xué)習(xí)的教學(xué)模式。一方面,課前以學(xué)習(xí)任務(wù)單的形式發(fā)布導(dǎo)學(xué)內(nèi)容供學(xué)習(xí)者學(xué)習(xí),學(xué)習(xí)者之間可通過(guò)回帖的方式來(lái)互動(dòng),教學(xué)者根據(jù)互動(dòng)內(nèi)容改進(jìn)教學(xué);另一方面,采用直播的方式,將語(yǔ)音和課件同步播放,加入在線連麥的討論方式與學(xué)習(xí)者在線互動(dòng),豐富教學(xué)。
本研究基于評(píng)論區(qū)文本數(shù)據(jù),構(gòu)建了一種面向MOOC課程評(píng)論的主題挖掘與情感分析模型,并以“面向核心素養(yǎng)的信息化教學(xué)設(shè)計(jì)”課程為例進(jìn)行驗(yàn)證,挖掘并分析該課程評(píng)論的主題結(jié)構(gòu)分布情況和情感態(tài)度,結(jié)果證明該模型可用。本研究以數(shù)據(jù)驅(qū)動(dòng)得出最終分析結(jié)果,能夠更準(zhǔn)確地洞察學(xué)習(xí)者的需求、興趣以及情感狀態(tài),將有助于教育者改進(jìn)教學(xué)內(nèi)容、優(yōu)化教學(xué)策略,為學(xué)習(xí)者提供更高契合度的學(xué)習(xí)內(nèi)容和更周到的學(xué)習(xí)支持服務(wù)。但本研究對(duì)課程評(píng)論文本的分析還有很大的探索空間,如情感極性分析只分析了正負(fù)極性,沒(méi)有考慮到學(xué)習(xí)者的情感變化。在后續(xù)研究中,應(yīng)該嘗試細(xì)化學(xué)習(xí)者的情感極性分類,進(jìn)一步提高情感模型的科學(xué)性,提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。