鄧天平, 張 林
(華中科技大學(xué) 電子信息與通信學(xué)院,湖北 武漢 430074)
MOOC具有大規(guī)模、開(kāi)放性、網(wǎng)絡(luò)化和自主性學(xué)習(xí)等特征[1],因此學(xué)習(xí)者能夠不受時(shí)間、空間等條件的約束,獲取自己所需的知識(shí)資源,對(duì)于學(xué)生接受的常規(guī)課堂教學(xué)是極為有益的補(bǔ)充。將在線課程資源納入到教學(xué)方案之中,既可以鼓勵(lì)學(xué)生利用這部分資源進(jìn)行知識(shí)補(bǔ)充與自我提高,同時(shí)能夠讓教師更為便捷地獲得學(xué)生學(xué)習(xí)情況的反饋,因?yàn)镸OOC平臺(tái)不僅能夠提供與課程相關(guān)的教學(xué)資源,還能作為教師布置作業(yè)、進(jìn)行考核、查閱記錄的網(wǎng)絡(luò)工具。因此,MOOC被引入到高校教學(xué)之中,對(duì)教、學(xué)雙方而言都有所幫助。然而,從教師的角度出發(fā),盡管MOOC提供了大量的、豐富的與學(xué)生的學(xué)習(xí)情況相關(guān)的數(shù)據(jù),但是這些數(shù)據(jù)并沒(méi)有得到充分利用。通常,教師們僅僅把這些記錄作為學(xué)生線上學(xué)習(xí)表現(xiàn)的統(tǒng)計(jì),并在之后作為學(xué)生平時(shí)成績(jī)的一部分納入到學(xué)生的綜合評(píng)價(jià)之中,或者只是簡(jiǎn)單的按照常規(guī)的統(tǒng)計(jì)方法對(duì)學(xué)生的線上作業(yè)、考核等直觀指標(biāo)進(jìn)行分析,并據(jù)此解答學(xué)生出錯(cuò)頻率較高的問(wèn)題[2]。
本文主要目的是抓取和分析基于“模擬電子技術(shù)基礎(chǔ)”的慕課堂數(shù)據(jù),詳細(xì)地介紹了對(duì)兩個(gè)班級(jí)學(xué)生數(shù)據(jù)進(jìn)行分析研究的過(guò)程,通過(guò)研究數(shù)據(jù)的聚類(lèi)分析與相關(guān)性分析的結(jié)果,得到了一些有價(jià)值的結(jié)論,為教師教學(xué)持續(xù)改進(jìn)提供依據(jù)。
研究過(guò)程以數(shù)據(jù)分析為核心進(jìn)行延展,包涵著數(shù)據(jù)獲取、數(shù)據(jù)清洗、聚類(lèi)分析、相關(guān)性分析、預(yù)測(cè)模型等環(huán)節(jié),具體過(guò)程如圖1所示。
圖1 研究過(guò)程
課題使用的數(shù)據(jù)來(lái)源于華中科技大學(xué)電子信息與通信學(xué)院2018級(jí)卓越工程師班(以下簡(jiǎn)稱(chēng)“卓越班”)、數(shù)理提高班(以下簡(jiǎn)稱(chēng)“提高班”) “模擬電子技術(shù)基礎(chǔ)”MOOC課程的慕課堂數(shù)據(jù)。數(shù)據(jù)分為2個(gè)班級(jí),其中卓越班、提高班各有26位學(xué)生的數(shù)據(jù)。每組數(shù)據(jù)由以下字段構(gòu)成:用戶(hù)ID、學(xué)生昵稱(chēng)、學(xué)生姓名、學(xué)生學(xué)號(hào)、學(xué)生分組、是否認(rèn)證為該校學(xué)生、出勤情況、點(diǎn)名、課堂練習(xí)、參與討論個(gè)數(shù)、獲贊數(shù)、優(yōu)秀發(fā)言次數(shù)、視頻觀看個(gè)數(shù)、視頻觀看次數(shù)、視頻觀看時(shí)長(zhǎng)、測(cè)驗(yàn)、作業(yè)、考試、討論區(qū)、域外成績(jī)、線上總成績(jī),共計(jì)21項(xiàng)。其中,用戶(hù)ID、學(xué)生昵稱(chēng)、學(xué)生姓名、學(xué)生學(xué)號(hào)、學(xué)生分組、是否認(rèn)證為該校學(xué)生屬于用戶(hù)標(biāo)識(shí)字段,無(wú)法作為分析對(duì)象;點(diǎn)名、獲贊數(shù)、優(yōu)秀發(fā)言次數(shù)、作業(yè)、域外成績(jī)等字段由于使用頻率很低,導(dǎo)致以上字段下的數(shù)據(jù)大部分或全部為空,分析的意義不大;視頻觀看次數(shù)和討論區(qū)字段的數(shù)據(jù)統(tǒng)計(jì)方式不明確,無(wú)法查詢(xún)后臺(tái)設(shè)定的有效計(jì)數(shù)標(biāo)準(zhǔn),因此未將這兩個(gè)字段納入分析范圍。根據(jù)以上判斷,最終確定以下8個(gè)字段的數(shù)據(jù)作為后續(xù)研究的目標(biāo):出勤情況、課堂練習(xí)、參與討論個(gè)數(shù)、視頻觀看個(gè)數(shù)、視頻觀看時(shí)長(zhǎng)、測(cè)驗(yàn)、考試、線上總成績(jī)。其中前3個(gè)字段屬于線下數(shù)據(jù),其余字段屬于線上數(shù)據(jù)。
經(jīng)過(guò)對(duì)各組數(shù)據(jù)的篩查之后,發(fā)現(xiàn)了以下問(wèn)題:
(1)提高班有1位學(xué)生期末考試記錄為曠考;
(2)提高班慕課堂數(shù)據(jù)中有2組數(shù)據(jù)的姓名、學(xué)號(hào)等字段相同,賬號(hào)狀態(tài)分別為“已認(rèn)證”與“未認(rèn)證”,初步判斷為該學(xué)生操作失誤導(dǎo)致其數(shù)據(jù)出現(xiàn)異常;
(3)卓越班、提高班慕課堂數(shù)據(jù)有多組數(shù)據(jù)中出現(xiàn)了參與討論個(gè)數(shù)、考試等部分字段為空的情況。
針對(duì)以上問(wèn)題,對(duì)數(shù)據(jù)分別進(jìn)行如下處理:
(1)期末考試卷面成績(jī)顯示為“曠考”的學(xué)生,無(wú)法衡量其學(xué)習(xí)效果,后續(xù)研究中該學(xué)生的數(shù)據(jù)不再納入,因此將其數(shù)據(jù)刪除;
(2)針對(duì)該學(xué)生的數(shù)據(jù)異常,向任課教師詢(xún)問(wèn)相關(guān)情況之后,將2組數(shù)據(jù)均包含的出勤情況、課堂練習(xí)、參與討論個(gè)數(shù)等字段進(jìn)行綜合,其余字段由于“未認(rèn)證”賬號(hào)數(shù)據(jù)顯示為空,直接使用“已認(rèn)證”賬號(hào)的數(shù)據(jù),最終合并為1組數(shù)據(jù)加入后續(xù)研究;
(3)參與討論個(gè)數(shù)字段在卓越班數(shù)據(jù)中沒(méi)有0值而只有空值,參考提高班數(shù)據(jù),將這部分空值全部補(bǔ)0??荚囎侄螖?shù)據(jù)的缺失是因?yàn)閷W(xué)生未在規(guī)定時(shí)間參加線上考試或者考試結(jié)果因故未能被后臺(tái)記錄,因此該字段缺失值不納入研究范圍。由于線上考試的分?jǐn)?shù)在線上總成績(jī)字段中占較大比重,分?jǐn)?shù)為空會(huì)直接導(dǎo)致線上總成績(jī)的異常,因此對(duì)應(yīng)的線上總成績(jī)也無(wú)法納入后續(xù)分析。
完成數(shù)據(jù)清洗工作之后,卓越班共計(jì)26組數(shù)據(jù),其中2組數(shù)據(jù)部分字段無(wú)效,提高班共計(jì)24組數(shù)據(jù),其中1組數(shù)據(jù)部分字段無(wú)效。
將物理或抽象對(duì)象的集合分成由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程被稱(chēng)為聚類(lèi)[3]。由聚類(lèi)所生成的簇是一組數(shù)據(jù)對(duì)象的集合,這些對(duì)象與同一個(gè)簇中的對(duì)象彼此相似,與其他簇中的對(duì)象相異。聚類(lèi)是一種無(wú)監(jiān)督的模式識(shí)別技術(shù)。它的關(guān)鍵是特征提取和聚類(lèi)算法,本文采用K-means算法進(jìn)行分析[4]。
查閱相關(guān)資料可知,在K-Means聚類(lèi)算法中,確定K值的方法主要分為兩種:“手肘”法和“輪廓系數(shù)”法,本文采用前者[5]。
“手肘”法中的判斷標(biāo)準(zhǔn)是誤差平方和SSE(Sum of Squared Errors),表達(dá)式如式(1)所示。
(1)
其中,Ci表示第i個(gè)類(lèi),p表示其中的數(shù)據(jù)對(duì)象,mi則表示第i個(gè)類(lèi)的質(zhì)心。
“手肘”法的思路是,在聚類(lèi)過(guò)程中,隨著K值不斷增大,即聚類(lèi)中心的不斷增多,數(shù)據(jù)的分割會(huì)更為細(xì)碎,根據(jù)式(1)可知,SSE的值會(huì)因此減小。在K值處于小于真實(shí)聚類(lèi)數(shù)的范圍內(nèi)時(shí),SSE隨K值的增大而減小的程度會(huì)比較大,在坐標(biāo)軸中會(huì)顯示為兩點(diǎn)之間的連線斜率絕對(duì)值較大;而在K值大于真實(shí)聚類(lèi)數(shù)之后,SSE隨K值的增大而減小的程度較緩,在坐標(biāo)軸中會(huì)顯示為兩點(diǎn)之間的連線斜率絕對(duì)值較小。所以SSE隨K值變化的折線圖會(huì)呈現(xiàn)出“手肘型”,變化趨勢(shì)由陡峭轉(zhuǎn)平緩的點(diǎn)為“肘部”,即最優(yōu)K值。
本研究實(shí)現(xiàn)“手肘”法的集成開(kāi)發(fā)環(huán)境Spyder,程序設(shè)計(jì)語(yǔ)言是Python 3.7.0。
程序的主要流程可分為3步;
(1)讀取數(shù)據(jù):將各字段的學(xué)習(xí)數(shù)據(jù)與對(duì)應(yīng)學(xué)生的期末考試卷面成績(jī)保存為.csv格式的文件,供程序進(jìn)行讀取,存放在數(shù)據(jù)框結(jié)構(gòu)中。
(2)依次選擇各字段數(shù)據(jù),利用sklearn庫(kù)中自帶的聚類(lèi)器,獲得K取不同值時(shí)的SSE。根據(jù)實(shí)際情況,K的范圍取[1,10]的整數(shù)。由于本程序的目標(biāo)是為了獲得理想K值,對(duì)聚類(lèi)的效果并無(wú)要求,而只需要保持聚類(lèi)過(guò)程的一致性,因此直接選擇了sklearn中的聚類(lèi)器。
(3)設(shè)置坐標(biāo)軸等信息,畫(huà)出SSE隨K值變化的折線圖,讀出理想K值,并保存折線圖。
通過(guò)折線圖,可以得到各字段進(jìn)行K-Means聚類(lèi)的理想K值,如表3-1所示。
表3-1 各字段K-Means聚類(lèi)理想K值
再將每個(gè)班級(jí)的每個(gè)字段數(shù)據(jù)與對(duì)應(yīng)的期末考試卷面成績(jī)作為輸入值,每個(gè)字段進(jìn)行10次K-Means聚類(lèi)過(guò)程,共得到160組聚類(lèi)圖與對(duì)應(yīng)聚類(lèi)中心坐標(biāo)。然后根據(jù)SSE,結(jié)合實(shí)際聚類(lèi)效果與結(jié)果穩(wěn)定性,對(duì)聚類(lèi)結(jié)果進(jìn)行篩選,得到每個(gè)班級(jí)每個(gè)數(shù)據(jù)字段與期末考試卷面成績(jī)的聚類(lèi)結(jié)果,圖2慕課堂線上課堂練習(xí)的聚類(lèi)結(jié)果圖。
(a)卓越班課堂練習(xí)聚類(lèi)圖
(b)提高班課堂練習(xí)聚類(lèi)圖圖2 慕課堂線上課堂練習(xí)的聚類(lèi)結(jié)果圖
在計(jì)算Pearson相關(guān)系數(shù)、Spearman等級(jí)相關(guān)系數(shù)、Kendall等級(jí)相關(guān)系數(shù)之前,判斷數(shù)據(jù)能否滿(mǎn)足各相關(guān)系數(shù)的適用條件。清洗后的數(shù)據(jù)與期末考試卷面成績(jī)均成對(duì)出現(xiàn),滿(mǎn)足了計(jì)算相關(guān)系數(shù)的基本條件。計(jì)算Pearson相關(guān)系數(shù)時(shí),要求變量是連續(xù)數(shù)據(jù)并滿(mǎn)足正態(tài)分布或接近正態(tài)的單峰分布,而從聚類(lèi)圖中數(shù)據(jù)點(diǎn)的分布可知,期末考試卷面成績(jī)隨學(xué)習(xí)維度數(shù)據(jù)的變化基本上不符合正態(tài)分布,且某些字段的數(shù)據(jù)也并不連續(xù)。因此,Pearson相關(guān)系數(shù)在此研究中僅作為參考。
利用Matlab工具,可以快速而準(zhǔn)確地得到三大相關(guān)系數(shù)的值。依次將學(xué)習(xí)數(shù)據(jù)的各字段作為集合X,期末考試卷面成績(jī)作為集合Y,計(jì)算相關(guān)系數(shù)。各字段數(shù)據(jù)與期末考試卷面成績(jī)的相關(guān)系數(shù)如表4-1所示。
表4-1 卓越班、提高班學(xué)習(xí)維度與期末考試卷面成績(jī)相關(guān)系數(shù)
將以上結(jié)果通過(guò)柱狀圖形式表示,如圖3所示。
(a)卓越班
(b)提高班圖3 學(xué)習(xí)維度與期末考試卷面成績(jī)相關(guān)系數(shù)柱狀圖
若將|R|∈[0.7,1)稱(chēng)為強(qiáng)相關(guān),|R|∈[0.4,0.7)稱(chēng)為中度相關(guān),|R|∈(0,0.4)稱(chēng)為弱相關(guān),考察Spearman等級(jí)相關(guān)系數(shù)與Kendall等級(jí)相關(guān)系數(shù),則認(rèn)為:
對(duì)于卓越班,MOOC平臺(tái)的課堂練習(xí)、參與討論個(gè)數(shù)、考試與學(xué)習(xí)效果之間呈中度正相關(guān),視頻觀看個(gè)數(shù)、線上總成績(jī)與學(xué)習(xí)效果之間呈弱的正相關(guān),出勤情況、視頻觀看時(shí)長(zhǎng)、測(cè)驗(yàn)與學(xué)習(xí)效果之間可以近似認(rèn)為不相關(guān);
對(duì)于提高班,MOOC平臺(tái)的課堂練習(xí)與學(xué)習(xí)效果之間呈中度正相關(guān),參與討論個(gè)數(shù)與學(xué)習(xí)效果之間呈弱的正相關(guān),出勤情況、考試與學(xué)習(xí)效果之間呈弱的負(fù)相關(guān),視頻觀看個(gè)數(shù)、視頻觀看時(shí)長(zhǎng)、測(cè)驗(yàn)、線上總成績(jī)與學(xué)習(xí)效果之間可以近似認(rèn)為不相關(guān)。
將聚類(lèi)分析與相關(guān)性分析的結(jié)果進(jìn)行匯總時(shí),需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)識(shí)。反映相關(guān)性分析的結(jié)果時(shí),只需對(duì)各字段按相關(guān)性的強(qiáng)弱進(jìn)行標(biāo)識(shí)即可。對(duì)于聚類(lèi)分析,由于聚類(lèi)圖中的類(lèi)別排序比較混亂,各字段的聚類(lèi)數(shù)也不一致,為了便于呈現(xiàn)結(jié)果,本文提出一個(gè)用于聚類(lèi)標(biāo)識(shí)的模型。
該模型如圖4所示,圖中橫軸為學(xué)生各學(xué)習(xí)維度的表現(xiàn),縱軸為期末考試卷面成績(jī),且聚類(lèi)數(shù)均為2或3,因此該聚類(lèi)標(biāo)識(shí)模型的主要目標(biāo)是反映聚類(lèi)在坐標(biāo)軸中的相對(duì)位置關(guān)系。
圖4 聚類(lèi)分析結(jié)果標(biāo)識(shí)模型圖
坐標(biāo)軸的數(shù)據(jù)區(qū)域被分為4塊,學(xué)習(xí)維度表現(xiàn)較差且成績(jī)較差為1區(qū)域“亟需努力”區(qū),學(xué)習(xí)維度表現(xiàn)較差但成績(jī)較好為2區(qū)域“小有天賦”區(qū),學(xué)習(xí)維度表現(xiàn)較好但成績(jī)較差為3區(qū)域“學(xué)而無(wú)功”區(qū),學(xué)習(xí)維度表現(xiàn)較好且成績(jī)較好為4區(qū)域“學(xué)有所成”區(qū)。需要指出的是,以上的區(qū)域劃分界限并不是絕對(duì)的,而是根據(jù)聚類(lèi)之間的相對(duì)位置關(guān)系確定各個(gè)聚類(lèi)所屬的區(qū)域。若聚類(lèi)呈“1-4”形分布,則代表該維度與學(xué)習(xí)效果呈較強(qiáng)的正相關(guān);反之,若聚類(lèi)呈“2-3”形分布,則代表較強(qiáng)的負(fù)相關(guān)關(guān)系;同理,若聚類(lèi)呈“2-4”、“3-4”形分布,則代表相關(guān)性較弱。由此,聚類(lèi)分析與相關(guān)性分析的聯(lián)系得到了構(gòu)建。
(1)線下的“課堂練習(xí)”是一個(gè)具有重要參考價(jià)值的學(xué)習(xí)維度,在對(duì)兩個(gè)班級(jí)的分析過(guò)程中都體現(xiàn)了這一點(diǎn)。結(jié)合實(shí)際使用經(jīng)驗(yàn),在課堂教學(xué)過(guò)程中使用該功能時(shí),學(xué)生需要在規(guī)定時(shí)間內(nèi)對(duì)教師展示的問(wèn)題給出答案,其過(guò)程近似于考試,因此該維度的表現(xiàn)與考試成績(jī)具有較強(qiáng)的相關(guān)性。
(2)其它具備一定參考價(jià)值的學(xué)習(xí)維度包括線下的“參與討論個(gè)數(shù)”與線上的“視頻觀看個(gè)數(shù)”,前者反映了學(xué)生對(duì)課堂內(nèi)容的投入情況,后者反映了學(xué)生課后的學(xué)習(xí)表現(xiàn)。對(duì)比這兩項(xiàng)分別對(duì)標(biāo)的線下“出勤情況”與線上“視頻觀看時(shí)長(zhǎng)”,它們并不能很好地反映學(xué)生的學(xué)習(xí)效果?!耙曨l觀看個(gè)數(shù)”是指學(xué)生打開(kāi)視頻并看完的個(gè)數(shù),在一定程度上能反映學(xué)生對(duì)于自己所需學(xué)習(xí)內(nèi)容的選擇,而“視頻觀看時(shí)長(zhǎng)”是對(duì)時(shí)間的記錄,兩個(gè)班級(jí)在這個(gè)字段的數(shù)據(jù)均體現(xiàn)出明顯的極端性,兩個(gè)聚類(lèi)的橫向距離差距很大。
(3)卓越班的學(xué)習(xí)表現(xiàn)與考試成績(jī)普遍較好。26名學(xué)生的學(xué)習(xí)數(shù)據(jù)中,每個(gè)字段中屬于“亟需努力”聚類(lèi)的數(shù)據(jù)不超過(guò)5個(gè),控制在了20%以?xún)?nèi),這個(gè)比例在教學(xué)中是可以接受的。其他同學(xué)的學(xué)習(xí)表現(xiàn),大部分比較優(yōu)秀,考試成績(jī)基本上在80分以上,并且存在數(shù)量較多的高分學(xué)生。結(jié)合聚類(lèi)分析、相關(guān)性分析與預(yù)測(cè)模型的結(jié)果,卓越班的學(xué)習(xí)效果可以較好作為學(xué)習(xí)表現(xiàn)的反映。
(4)提高班的考試成績(jī)差距比較大,低分和不及格的人數(shù)較多,達(dá)到90分的學(xué)生只有1個(gè)。本班整體學(xué)習(xí)表現(xiàn)欠佳,主要體現(xiàn)在“學(xué)而無(wú)功”聚類(lèi)與“小有天賦”聚類(lèi)的頻繁出現(xiàn)。
(5)線下課堂的教學(xué)中,應(yīng)該提升與學(xué)生互動(dòng)的頻率,從而考察學(xué)生的課堂參與度。在教學(xué)實(shí)踐中,應(yīng)該著重關(guān)注學(xué)生在“簽到”之后的表現(xiàn),相關(guān)的統(tǒng)計(jì)數(shù)據(jù)更能夠反映學(xué)生對(duì)于課堂內(nèi)容的專(zhuān)注程度,并最終體現(xiàn)在他們的成績(jī)上?;凇罢n堂練習(xí)”的參考價(jià)值,在教學(xué)中應(yīng)該增加類(lèi)似的隨堂測(cè)試數(shù)量。通過(guò)分析學(xué)生在類(lèi)似測(cè)試中的表現(xiàn),一方面可以直接評(píng)估學(xué)生的學(xué)習(xí)效果,另一方面可以提前對(duì)學(xué)生的學(xué)習(xí)數(shù)據(jù)與效果進(jìn)行分析并使用模型進(jìn)行預(yù)測(cè),提前警示。
MOOC改變并影響了我們的課堂教學(xué), MOOC平臺(tái)上記錄的大數(shù)據(jù),也是非常寶貴的資源。本文完成了MOOC平臺(tái)各學(xué)習(xí)維度數(shù)據(jù)與學(xué)生的期末考試成績(jī)的聚類(lèi)分析,通過(guò)聚類(lèi)分析算法,從多角度對(duì)學(xué)生的學(xué)習(xí)表現(xiàn)進(jìn)行分類(lèi)。對(duì)學(xué)習(xí)表現(xiàn)與學(xué)習(xí)成績(jī)之間進(jìn)行相關(guān)性分析,探究各學(xué)習(xí)維度在不同班級(jí)群體中對(duì)學(xué)習(xí)效果帶來(lái)的影響。并結(jié)合聚類(lèi)分析的結(jié)果,通過(guò)與實(shí)際成績(jī)的比較,從班級(jí)之間的橫向與學(xué)習(xí)維度之間的縱向提出了研究結(jié)論,并且根據(jù)結(jié)論,對(duì)未來(lái)教學(xué)實(shí)踐提出了針對(duì)性建議,也為教師課堂教學(xué)持續(xù)改進(jìn)提供理論依據(jù)。
電氣電子教學(xué)學(xué)報(bào)2021年2期