陶佳妮,李旭,朱林,姚林宇
(東南大學(xué)成賢學(xué)院 電子與計算機(jī)工程學(xué)院,江蘇南京,210000)
后疫情時代,為了防止新型冠狀病毒肺炎向校園蔓延而影響學(xué)生的學(xué)習(xí)教師的工作,“停課不停學(xué)”的政策很快落實。教育部統(tǒng)籌整合國家,覆蓋各地的優(yōu)質(zhì)網(wǎng)上教學(xué)資源,全力保障教師們在網(wǎng)上教,學(xué)生們在網(wǎng)上學(xué)習(xí)。隨著疫情在我國逐步得到強(qiáng)有力的控制,各地學(xué)校陸續(xù)復(fù)學(xué),教學(xué)也在常態(tài)化疫情防控的狀態(tài)下進(jìn)行。疫情與后疫情時代,線上教學(xué)成為了主流的學(xué)習(xí)模式之一,在這種情況下,可以通過數(shù)據(jù)挖掘技術(shù),做到深入了解學(xué)生的知識掌握情況,分析出接下來,老師們應(yīng)該講解的方向,調(diào)整后續(xù)的教學(xué),使得老師與學(xué)生,雖然距離遙遠(yuǎn)卻能和在教室中一樣。線上教學(xué)為教育注入了新的活力,提高了課程質(zhì)量,打破了學(xué)習(xí)的時空局限,能夠更好的促進(jìn)學(xué)生與教師之間的師生互動,減少了教師的在線工作量,同時也在一定程度上解決了教育公平問題。
通過數(shù)據(jù)挖掘技術(shù)能夠從學(xué)生在網(wǎng)絡(luò)上查找的一系列數(shù)據(jù)和信息中獲得可用于教學(xué)的知識,并有效的指導(dǎo)教師改善教學(xué)活動和網(wǎng)站結(jié)構(gòu)。同時可通過基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教學(xué)系統(tǒng)用于教務(wù)管理,管理采集到的相關(guān)教務(wù)信息,這樣可以使教務(wù)管理效率大大提高,在提高了安全性能的同時優(yōu)化存儲量。
在對數(shù)據(jù)進(jìn)行研究與挖掘時,我們首先要知道數(shù)據(jù)是屬于龐大的信息資源庫,分析其中的所需要的資源信息,可以幫助發(fā)現(xiàn)和掌握其中的某些特點與規(guī)律,現(xiàn)有的方法主要有:
(1)關(guān)聯(lián)性的分析形式。萬物都是相關(guān)聯(lián)的,同樣數(shù)據(jù)之間也是相互關(guān)聯(lián)的。由于數(shù)據(jù)信息量相對偏大,我們在進(jìn)行檢索信息時,如果對其關(guān)聯(lián)性進(jìn)行尋找將會耗費大量時間,其次,檢索屬于相應(yīng)明確數(shù)據(jù)間規(guī)律、關(guān)系是相當(dāng)艱難的。合理的借助關(guān)聯(lián)性分析形式開展工作,從而更好的提升尋找數(shù)據(jù)關(guān)聯(lián)性的效率性以及準(zhǔn)確性等,為了滿足幫助人們提升工作效率與質(zhì)量的要求,可以借助有效的數(shù)據(jù)分辨的任務(wù)形式予以解決。因這一方法具有較強(qiáng)目的性,因此對數(shù)據(jù)準(zhǔn)確度要求高的信息管理工作中應(yīng)合理的運用該方法開展工作。
(2)聚類分析形式。聚類分析形式就是把不同的數(shù)據(jù)進(jìn)行歸類和分組,將已有的零碎數(shù)據(jù)整理為有條理的數(shù)據(jù)信息。聚類分類并不是傳統(tǒng)意義上進(jìn)行簡單的分類,在數(shù)據(jù)組找尋具有已有的數(shù)據(jù)信息,是在不清楚對象的情況下進(jìn)行的。這里就體現(xiàn)出了該方法的缺點,想要精確把數(shù)據(jù)信息進(jìn)行分類是很困難的,因此該方法一般運會用到心理學(xué)、數(shù)據(jù)識別等領(lǐng)域中。
(3)特征分析形式。在信息數(shù)據(jù)泛濫的當(dāng)代,分類數(shù)據(jù)將結(jié)合數(shù)據(jù)自身特征、類型開展工作,特征分析方法就是結(jié)合數(shù)據(jù)特征進(jìn)行數(shù)據(jù)的挖掘、匯總。一般是通過計算機(jī),對數(shù)據(jù)開展虛擬數(shù)據(jù)的分類工作,借助明確的數(shù)據(jù)和數(shù)據(jù)間特征所得出分析的結(jié)果,進(jìn)行開展分類工作。
(4)人工神經(jīng)網(wǎng)絡(luò)體系。人工神經(jīng)網(wǎng)絡(luò)體系是通過特征性分析,對大量的數(shù)據(jù)進(jìn)行相應(yīng)的處理,然后將大量的數(shù)據(jù)建立成網(wǎng)絡(luò)模型,通過神經(jīng)網(wǎng)絡(luò)對成為網(wǎng)絡(luò)模型的數(shù)據(jù)開展分析工作。首先,在一些國內(nèi)外研究成果中已經(jīng)給出了對網(wǎng)絡(luò)教育的概念定義、特征分析、數(shù)據(jù)采集、結(jié)果評價及相關(guān)反饋模型的規(guī)范研究,不斷完善其體系結(jié)構(gòu)。其次,能夠用來指導(dǎo)和建立網(wǎng)絡(luò)用戶的特征及屬性等信息,國內(nèi)外已經(jīng)有許多基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教學(xué)系統(tǒng)可供借鑒參考。
在傳統(tǒng)教學(xué)中,老師經(jīng)常用分?jǐn)?shù)來評價學(xué)生的學(xué)習(xí)效率,但在學(xué)生成績分析中卻沒有定量分析,這使得教學(xué)評價的作用的效果大打折扣。目前,采取數(shù)據(jù)挖掘技術(shù)對學(xué)生進(jìn)行成績分析,主要從兩個方面入手。一方面,從學(xué)生這邊的信息著手分析。學(xué)生在考試或者測試之后,往往對自己的成績、名次非常關(guān)心,而對知識點的理解卻難以深入分析。通過數(shù)據(jù)挖掘技術(shù)對學(xué)生的歷次成績和每個知識點的得分狀況進(jìn)行分析,從而一目了然的知道其學(xué)習(xí)效率、進(jìn)步障礙、每個考點和知識面的掌握情況等等。另一方面,從學(xué)生的成績?nèi)胧址治觥Mㄟ^數(shù)據(jù)挖掘技術(shù)對試卷進(jìn)行分析,利用關(guān)聯(lián)規(guī)則通過對試卷數(shù)據(jù)庫中相關(guān)考試屬性進(jìn)行分析來獲取信息,從而給出相關(guān)分析評價。一般結(jié)合所要測試的內(nèi)容來進(jìn)行的,也可給出一個班級基于某門課程的成績的數(shù)據(jù)可視圖,也可給出這門課程的綜合統(tǒng)計分析。學(xué)生登錄后,系統(tǒng)可自動查詢學(xué)生各時間段相應(yīng)成績,還可給出在本學(xué)年院系排名,使學(xué)生了解本學(xué)年綜合表現(xiàn)排名。
在移動學(xué)習(xí)系統(tǒng)的實際應(yīng)用中,不同的用戶所對應(yīng)的需求不同,所以我們?yōu)椴煌挠脩籼峁┎煌姆?wù),全面和人性化的功能有利于系統(tǒng)的推行實施。在學(xué)生端的學(xué)習(xí)主頁面,有收藏,課件,課程表,下載,我的課程,我的專欄等選項;用戶界面有我的學(xué)校,我的班級,我的課表,我的成績等選項。首先,根據(jù)用戶填寫的學(xué)校班級,及時推送學(xué)習(xí)向的新聞,例如專業(yè)考研信息,專業(yè)考證信息,專業(yè)就業(yè)前景等等。接下來,根據(jù)學(xué)生的成績,有針對性的推送該生弱項課程的視頻課和習(xí)題,記錄下學(xué)生每一次的成績變化,將學(xué)生的知識掌握情況可視化,同時這份知識掌握的情況可視化表也會傳給該生的老師查看,老師可以根據(jù)她教導(dǎo)的每一個學(xué)生的掌握情況來更改教學(xué)內(nèi)容,學(xué)生可以根據(jù)自己的知識掌握情況來查漏補(bǔ)缺。這樣,就可以利用好每一次的測驗,挖掘到有用的信息。最后就是討論環(huán)節(jié),學(xué)生在每次上完課完成測驗后,都可以在討論組里面討論,挖掘討論內(nèi)容,反饋給老師課程的內(nèi)容是否需要改進(jìn)。學(xué)生小組的討論也會被提取關(guān)鍵信息記錄下來,以供之后的回顧討論使用。
如果對于學(xué)生成績分析上沒有量化分析,教師只是通過分?jǐn)?shù)對學(xué)生學(xué)習(xí)效果進(jìn)行評價,從而使得教學(xué)評價的作用并沒有得到有效發(fā)揮。對學(xué)生進(jìn)行成績分析我們采取數(shù)據(jù)挖掘技術(shù),主要通過以下兩個方面進(jìn)行。一方面,學(xué)生分析。學(xué)生在考試或者測試之后,只關(guān)心自己的分?jǐn)?shù)多少、名次排在第幾,難以對知識點的把握深入進(jìn)行分析經(jīng)常發(fā)生。通過數(shù)據(jù)挖掘技術(shù)對學(xué)生的歷次成績和每個知識點得分狀況進(jìn)行匯總分析,從而達(dá)到快速知道其學(xué)習(xí)效率、進(jìn)步障礙、每個考點和知識面的對錯率等等,其中包括利用分?jǐn)?shù)對應(yīng)曲線圖對學(xué)生同時進(jìn)行的各科目測試成績進(jìn)行的橫向比較、利用分?jǐn)?shù)對應(yīng)曲線圖及二列相關(guān)系數(shù)的分析對學(xué)生分?jǐn)?shù)在歷次測驗中進(jìn)行的縱向比較、利用成績分布曲線得出學(xué)生成績頻數(shù)分布圖等。另一方面,成績分析。利用關(guān)聯(lián)規(guī)則,通過數(shù)據(jù)挖掘技術(shù)對試卷數(shù)據(jù)庫中相關(guān)考試屬性進(jìn)行分析來獲取考試的得分區(qū)間分布、可信度和有效性等信息,從而給出相對客觀的相關(guān)分析評價。可通過給出一個班級基于某門課程的成績分布均標(biāo)準(zhǔn)誤、偏度、百分比、最值、平峰度、及格率等數(shù)據(jù),也可給出這門課程的綜合統(tǒng)計分析,但一般結(jié)合所要測試的內(nèi)容、條件、用途來進(jìn)行評價。學(xué)生登錄系統(tǒng)后,系統(tǒng)不僅可自動查詢學(xué)生各時間段相應(yīng)成績,還可給出在本學(xué)年院系排名。使學(xué)生一目了然的了解本學(xué)年綜合表現(xiàn)情況。
圖1
面對大量的學(xué)習(xí)資料,客戶在使用的過程不得不花費大量的時間和經(jīng)歷去篩選和過濾,從而降低了用戶學(xué)習(xí)的效率,所以我們打造我們的app 就是為了給用戶做出個性化的推薦的學(xué)習(xí)平臺。為了讓用戶接觸到更好,更優(yōu)秀的學(xué)習(xí)材料,我們使用了基于物品協(xié)同過濾的算法,通過觀測出用戶行為的行為記錄評判出用戶之間的相似度,尋找到行為相似的用戶,互推他們收藏或者喜愛的學(xué)習(xí)材料。
使用python 的爬蟲功能,獲取后面可以用來分析處理的數(shù)據(jù)。到視頻的原站獲取其中視頻的類型,點贊及收藏的人數(shù),視頻的播放量,獲得好評的次數(shù)等重要的潛在挖掘數(shù)據(jù)信息。由于爬取的大量的數(shù)據(jù)中會出現(xiàn)不同層次的噪音,比如視頻類型與算法模型要求的類型不匹配,缺失值的出現(xiàn)等等,都會在不同層度上,影響著后期數(shù)據(jù)的使用的效果,甚至對挖掘目的造成影響。所以在開始階段,我們需要對這些不完整的數(shù)據(jù)進(jìn)行預(yù)處理。
ItemCF 物品相似度的計算模型,其中|N(i)|表示喜歡視頻i 的用戶數(shù)量,|N(j)|表示喜歡視頻j 的用戶數(shù)量,表示了同時喜歡視頻i 和視頻j 的用戶數(shù)量。從公式中我們可以觀察出,因為共同喜歡兩個視頻的人數(shù)越多,物品的相似度越高。
然后,需要對基于物品的協(xié)同過濾推薦算法的用戶偏好進(jìn)行計算。公式如下:
其中N(u)是用戶產(chǎn)生行為的物品集合,S(j,k)是與j 相似度最高的K 個物品的集合。Wij 物品i 和物品j 的相似度,Rui 是用戶u 對物品i 的喜好程度。從公式中可以得出結(jié)論:待推薦的物品與用戶歷史行為中的物品相似度很高的話,則這個待推薦的物品被推薦給用戶的可能性就越高。
這種將用戶的歷史行為作為推薦學(xué)習(xí)資料的依據(jù)的方式,具有更好的解釋性,與用戶的行為進(jìn)行了更好的溝通,更加能容易被用戶接受和學(xué)習(xí)。
將ItemCF 相似矩陣按照最大值進(jìn)行歸一化,可以大大提高推薦的準(zhǔn)確度。不僅如此,還可以提高推薦的覆蓋率和多樣性。
教師模塊的主要功能:上傳上課所需要的學(xué)習(xí)資料,課后的作業(yè),以及課程結(jié)束的考試內(nèi)容等內(nèi)容。其中最重要的內(nèi)容是:上傳課程所需的視頻。本項目獲取B 站的熱點學(xué)習(xí)視頻,由于網(wǎng)站的特殊性,音頻和視頻是分開的,所以我們在獲取到視頻文件和音頻文件,還需要額外的軟件去合并,形成完整的視頻。
(1)利用正則表達(dá)式,取出音頻和視頻文件存儲的playinfo 源代碼— html_data,將其字符串形式轉(zhuǎn)化成json 數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行解析,得到該源代碼中的視頻和音頻的網(wǎng)址。
(2)分別對視頻和音頻的網(wǎng)址進(jìn)行訪問并獲取里面的內(nèi)容audio_content和video_content利用ffmepg合并MP4 和MP3 文件,合并一個完整的視頻文件,由教師模塊上傳,供學(xué)生反復(fù)學(xué)習(xí),獲得知識。
由教師方上傳學(xué)習(xí)資料后,學(xué)生可以根據(jù)自己的實際情況進(jìn)行選擇性的學(xué)習(xí),但為了給學(xué)生提供更高效的學(xué)習(xí)方式,提供更有價值的學(xué)習(xí)內(nèi)容,在學(xué)生模塊中,添加了學(xué)習(xí)視頻推薦算法,此算法是基于物品的協(xié)同過濾算法,通過對視頻的點贊量,播放量,收藏量,評論的數(shù)量等一些關(guān)鍵的信息量來作為算法的參數(shù)來進(jìn)行推薦。
(1)與上文類似,獲取網(wǎng)站的源代碼,并且將字符串類型轉(zhuǎn)換成json 類型,然后獲取里面的元素:學(xué)習(xí)的視頻的標(biāo)題,視頻的作者,視頻的id,視頻類型,點贊的人數(shù),視頻的播放量,視頻的收藏量,視頻的評論數(shù),并將這些數(shù)據(jù)存儲到相應(yīng)的csv 文件當(dāng)中去。
(2)根據(jù)上面的爬取的數(shù)據(jù)信息,分析得到用戶—物品之間的矩陣的雛形,然后通過分析過濾得到用戶和物品之間的矩陣data_matrix,計算出視頻的余弦相似度矩陣item_similarity,從而獲取該視頻的余弦相似度的數(shù)組,返回前k 個最高相似度的索引位置video_similarity_index,最終排完序之后,可以從中獲取相應(yīng)的推薦學(xué)習(xí)的視頻。
本文闡述了數(shù)據(jù)挖掘技術(shù)在教學(xué)平臺上的使用,借助這一技術(shù)來分析教師課程與學(xué)生知識掌握情況的數(shù)據(jù),可以將在線學(xué)習(xí)的優(yōu)勢更大化。不僅提高師生線上互動效率,更能順應(yīng)歷史潮流,推進(jìn)教學(xué)的網(wǎng)絡(luò)化、信息化。對于數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域中的實現(xiàn),能夠讓教師更好的掌握和了解學(xué)生的信息,明確學(xué)生成績、優(yōu)點以及學(xué)習(xí)情況等,也能對學(xué)生各個方面開展分析,這樣教師才能對學(xué)生開展更為有效的幫助和教學(xué)。同時,教務(wù)管理可通過基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教學(xué)系統(tǒng),采集相關(guān)教務(wù)信息進(jìn)行相應(yīng)管理,這樣大大提高教務(wù)管理效率、安全性能以及存儲量。
本文基于我們的大學(xué)生創(chuàng)新創(chuàng)業(yè)項目的內(nèi)容寫下,樣本量有限,本文提出的方法需要在更大的范圍內(nèi)驗證。并且數(shù)據(jù)挖掘的內(nèi)容之于教學(xué)平臺還有更多的發(fā)展空間。