袁文翠,于文娟,趙建民
網(wǎng)絡(luò)教學(xué)方興未艾,各大高校也紛紛推出自己網(wǎng)絡(luò)教學(xué)平臺(tái),但大多數(shù)都只是給予學(xué)生被動(dòng)接受式教育,沒有充分從學(xué)生個(gè)人角度出發(fā)考慮學(xué)生的興趣、需求及認(rèn)知風(fēng)格,造成了交互性差,學(xué)習(xí)效率低等問題。本文從學(xué)生個(gè)人角度出發(fā),通過對(duì)學(xué)生行為特征的調(diào)查分析,評(píng)估其興趣課程并對(duì)具有相同興趣的學(xué)生聚類,為其提供個(gè)性化課程推薦服務(wù),從而建立個(gè)性化課程推薦系統(tǒng),為學(xué)生選課做出參考。本系統(tǒng)的構(gòu)建有助于提高學(xué)生的學(xué)習(xí)效率,避免耗費(fèi)過多時(shí)間尋找課程,實(shí)現(xiàn)自主學(xué)習(xí),因材施教。
通過查閱文獻(xiàn),主要有以下研究與本文相關(guān):文獻(xiàn)1基于協(xié)同過濾技術(shù)對(duì)相關(guān)課程的評(píng)分進(jìn)行聚類,以此為基礎(chǔ)根據(jù)學(xué)生對(duì)相似課程的評(píng)分高低預(yù)測學(xué)生的興趣課程。這種方法的缺點(diǎn)在于只根據(jù)課程評(píng)分單方面的數(shù)據(jù)推斷學(xué)生興趣度過于片面,而且很多用戶對(duì)自己的興趣課程也不一定很明確,特別是當(dāng)課程領(lǐng)域較復(fù)雜時(shí),即使用戶愿意提供評(píng)分,也不一定是準(zhǔn)確的[1]。文獻(xiàn)2提出一種隱式的用戶興趣度獲取方法。該方法用多元線性回歸模型來計(jì)算用戶對(duì)某網(wǎng)頁的興趣度 ,以用戶瀏覽時(shí)間和拉動(dòng)滾動(dòng)條次數(shù)作為主要影響因素,較準(zhǔn)確地計(jì)算了用戶對(duì)網(wǎng)頁的興趣度[2][3]。本文將以學(xué)生為主體,分析其行為特征,運(yùn)用聚類分析和線性回歸模型,將興趣課程相似的學(xué)生聚類到同一個(gè)學(xué)生群中,并找出其中的關(guān)聯(lián)性,最終完成興趣課程的推薦[4]。
學(xué)生行為信息可分為兩大類,第一類為可以直接獲取的靜態(tài)信息,由學(xué)習(xí)者通過信息注冊(cè)或填寫問卷調(diào)查來完成,這是最直接的獲得學(xué)生興趣和需求的方式,但缺點(diǎn)是依賴于學(xué)生的主動(dòng)提供,而學(xué)生通常不注意或不愿意花時(shí)間去認(rèn)真填寫,這在很大程度上降低了可用性。第二類為間接獲取的動(dòng)態(tài)信息,包括學(xué)生的學(xué)習(xí)歷史、學(xué)習(xí)時(shí)間或出勤率、考試成績等,這些信息可通過現(xiàn)有的教務(wù)系統(tǒng)直接獲取。另外,我們將學(xué)生劃分為新用戶和老用戶,老用戶有自己的修課記錄,通過訪問學(xué)生行為信息數(shù)據(jù)庫,可以得到學(xué)生的動(dòng)態(tài)信息,如選課記錄、出勤率、考試成績等,將這些信息進(jìn)行處理和挖掘,便可提供個(gè)性化課程推薦;新用戶沒有動(dòng)態(tài)行為信息,因此,必須依據(jù)學(xué)生填寫的靜態(tài)數(shù)據(jù),測評(píng)其興趣課程,從而給予推薦服務(wù)。
基于學(xué)生行為分析的個(gè)性化課程推薦系統(tǒng)分為 3個(gè)步驟,如圖1所示:
圖1 興趣課程推薦流程
(1)數(shù)據(jù)收集與預(yù)處理
當(dāng)學(xué)習(xí)者注冊(cè)成為用戶時(shí),系統(tǒng)會(huì)從已有教務(wù)系統(tǒng)中獲取與該學(xué)習(xí)者相關(guān)的信息,并存入學(xué)生行為信息庫。這些信息包括選課記錄、出勤率、考試成績,以及系統(tǒng)自身提供的靜態(tài)信息。對(duì)于注冊(cè)過程中可能出現(xiàn)的數(shù)據(jù)項(xiàng)空缺、數(shù)據(jù)類型不一致等問題,需要進(jìn)行有效的數(shù)據(jù)預(yù)處理,預(yù)處理包括轉(zhuǎn)換整合、抽樣、隨機(jī)化、缺失值處理等。
(2)數(shù)據(jù)挖掘建模
為了確定向目標(biāo)學(xué)習(xí)者推薦哪些課程,首先,要確定學(xué)生對(duì)選修課程的興趣度模型,興趣度模型通過分析前面處理后的學(xué)生動(dòng)態(tài)信息和靜態(tài)信息,利用多元線性回歸方程建立。其次,需要建立學(xué)生分群模型,分群模型是通過上一步計(jì)算得到的不同課程的興趣度,結(jié)合 K-means聚類分析算法,確定學(xué)生群模型。
(3)個(gè)性化推薦服務(wù)
兩個(gè)學(xué)生屬于同一個(gè)簇(學(xué)生群)表明他們感興趣的課程是相似的,但某學(xué)生選修了某門課程并通過學(xué)習(xí)后,對(duì)該課程的評(píng)價(jià)也可能會(huì)非常低,而另一個(gè)學(xué)生可能恰恰相反。因此,還需要將評(píng)價(jià)信息進(jìn)行反饋更新,預(yù)測目標(biāo)學(xué)習(xí)者對(duì)候選課程集合中每門課程的評(píng)價(jià),取評(píng)價(jià)值高、興趣度高的課程推薦給學(xué)生。
學(xué)生學(xué)習(xí)過程中的心理活動(dòng)與其表現(xiàn)出的行為密切相關(guān),心理活動(dòng)在某一層面上可以理解為課程興趣度;學(xué)生在學(xué)習(xí)時(shí)的各種行為特征同樣決定了課程興趣度,這些相關(guān)因素之間存在某種線性關(guān)系,為了量化興趣度,本文建立多元線性回歸模型,計(jì)算課程興趣度,并采用K-means聚類分析算法構(gòu)建學(xué)生群細(xì)分模型實(shí)現(xiàn)個(gè)性化課程推薦功能。
從直觀看,能夠揭示用戶對(duì)課程的興趣度的行為有很多,為了找到學(xué)生行為信息與課程興趣度之間的定量關(guān)系,本文查閱了大量文獻(xiàn),發(fā)現(xiàn)起關(guān)鍵作用的是兩種行為:選修課出勤率和考試成績,最終將多元線性回歸的方法應(yīng)用到獲取學(xué)生對(duì)課程的興趣度中[6]。設(shè)I(P)(課程興趣度)是與t(P)(某選修課出勤率)、o(P)(某選修課考試成績)有關(guān)的隨機(jī)變量,方程如公式(1)所示:
其中,a、b、c都是與t(P)和o(P)無關(guān)的未知參數(shù),服從正態(tài)分布,a和b稱為回歸系數(shù)(本文稱a、b、c為學(xué)生行為影響因子),通過代入具體的行為參數(shù)值與興趣值求出。對(duì)一組樣本點(diǎn)用最小二乘法得到一線性回歸方程(1),但它未必有意義。當(dāng)且僅當(dāng) I(P)與 t(P)、o(P)之間的確存在線性相關(guān)關(guān)系時(shí),回歸方程才有意義,因此必須對(duì)回歸方程和回歸系數(shù)分別進(jìn)行顯著性檢驗(yàn),只有得到有效性驗(yàn)證后,才可將其用作課程興趣度的量化估算公式。根據(jù)收集到的用戶數(shù)據(jù),利用最小二乘法求得 a=0.1112,b=0.0056,c=0.0794,r=0.9440,其中r為相關(guān)系數(shù),r越接近于1說明相對(duì)誤差越接近于0,線性回歸的效果也就越顯著。為了檢驗(yàn)該模型的正確性,再隨機(jī)選擇其他10個(gè)學(xué)生,處理他們的行為特征數(shù)據(jù),利用求得的方程計(jì)算他們對(duì)某課程的興趣度,與預(yù)測的課程興趣度作比較,分析結(jié)果如圖2所示:
圖2 課程興趣度
從圖2中可以看出,計(jì)算出的課程興趣度結(jié)果與預(yù)估課程興趣度的結(jié)果非常接近,計(jì)算可得兩者的比值有60%在0.9以上,最低的也可達(dá)到69.57%,平均值達(dá)到88.11%,這說明了通過回歸模型計(jì)算得到的學(xué)生課程興趣度與預(yù)估的課程興趣度比較一致,同時(shí)驗(yàn)證了采用回歸模型來計(jì)算學(xué)生對(duì)選修課程興趣度的合理性及準(zhǔn)確性。
學(xué)生群細(xì)分是根據(jù)學(xué)生對(duì)每一門課程的興趣度將學(xué)生劃分成為同類群體的過程。細(xì)分的目的是按照學(xué)生之間的密切關(guān)系或相似程度劃分到各個(gè)學(xué)生群中。這里我們將課程興趣度作為樣本數(shù)據(jù),采用K-means聚類[5]分析的算法將具有相同愛好的學(xué)生分到同一學(xué)生群中,實(shí)現(xiàn)思路是:
給定一個(gè)數(shù)據(jù)集D(包含n個(gè)學(xué)生對(duì)每一門課程的興趣度,興趣度的值由前面的興趣度模型算出),把D中的n個(gè)對(duì)象(學(xué)生)分配到k個(gè)簇(學(xué)生群)中,使得評(píng)分函數(shù)E在此劃分下取值最小,即該評(píng)分函數(shù)E是以簇內(nèi)學(xué)生感興趣課程高相似性,和簇間學(xué)生感興趣課程低相似性為目標(biāo),定義為公式(2):
其中,E是數(shù)據(jù)集中所有對(duì)象(學(xué)生)的誤差的平方和;p是空間中的點(diǎn)(代表某個(gè)特定學(xué)生)表示給定的數(shù)據(jù)對(duì)象;Oi是第i個(gè)簇的中心點(diǎn)(任意選擇k個(gè)學(xué)生)。對(duì)于每個(gè)簇中的每個(gè)對(duì)象,求對(duì)象到簇中心點(diǎn)距離的平方,然后求和。算法流程如下:
從n個(gè)學(xué)生樣本中,任意選擇k個(gè)對(duì)象作為初始的簇的中心點(diǎn)k-center;
利用公式(2)計(jì)算數(shù)據(jù)集D中的每個(gè)學(xué)生 p 到 k 個(gè)中心點(diǎn)學(xué)生的距離;
(3)把每個(gè)學(xué)生 p分配到距離他最近的中心點(diǎn)所屬的簇中;
(4)重新計(jì)算選取每個(gè)簇(學(xué)生群)的中心點(diǎn);
(5)重復(fù)(1)(2)(3)步驟遍歷完所有對(duì)象之后,直到算法收斂,即平方誤差最小。
根據(jù)得出的學(xué)生群分類就可以對(duì)目標(biāo)學(xué)生的興趣課程進(jìn)行預(yù)測,生成推薦結(jié)果。通常根據(jù)推薦目的不同,可以進(jìn)行多種形式的課程推薦?;趯W(xué)生行為分析的個(gè)性化課程推薦系統(tǒng)可以說是從學(xué)生個(gè)人的角度來進(jìn)行相應(yīng)推薦的,而且是自動(dòng)的,即學(xué)生獲得的推薦是系統(tǒng)從學(xué)生行為信息隱式獲得的,不需要用戶努力地去找到自己感興趣的推薦信息。
本文采用MATLAB統(tǒng)計(jì)工具包對(duì)學(xué)生課程推薦的準(zhǔn)確性進(jìn)行驗(yàn)證,我們隨機(jī)抽取42名學(xué)生對(duì)11門選修課程的興趣度作為實(shí)驗(yàn)數(shù)據(jù)集,根據(jù)課程的關(guān)聯(lián)性將簇(代表學(xué)生群個(gè)數(shù))分為4類,運(yùn)用k-means算法構(gòu)建學(xué)生群細(xì)分模型。
當(dāng)聚類準(zhǔn)確率達(dá)到最高 0.8333時(shí),可以得出聚類結(jié)果如表1所示:
表1 聚類結(jié)果
學(xué)生群1對(duì)CAD、flash動(dòng)畫制作、計(jì)算機(jī)維護(hù)課程比較感興趣,對(duì)其他課程關(guān)注一般。
學(xué)生群2對(duì)衛(wèi)生學(xué)、養(yǎng)生學(xué)課程比較感興趣,對(duì)其他課程不太關(guān)注。
學(xué)生群3對(duì)哲學(xué)、心理學(xué)課程比較感興趣,對(duì)其他課程不太關(guān)注。
學(xué)生群4對(duì)籃球、排球、網(wǎng)球課程比較感興趣,對(duì)其他課程不太關(guān)注,如表2所示:
表2 簇中心學(xué)生對(duì)課程的興趣度
本文提出了一種基于線性回歸模型和聚類分析算法的興趣課程推薦方法,首次將數(shù)據(jù)挖掘技術(shù)和線性回歸模型相結(jié)合引入到興趣課程推薦中來。實(shí)驗(yàn)證明,該方法可以為學(xué)生準(zhǔn)確地提供課程推薦服務(wù),有效提高學(xué)生學(xué)習(xí)效率,減少了學(xué)生選課的盲目性。本研究的特色:(1)為學(xué)生建立一個(gè)課程推薦機(jī)制,讓學(xué)生不用再憑主觀臆想隨便選課,本系統(tǒng)的建立希望可以為學(xué)生最優(yōu)選課做參考;(2)將學(xué)生個(gè)人的出勤率和考試成績等行為信息作為學(xué)生最優(yōu)選課推薦的依據(jù);(3)將多元線性回歸模型和聚類分析算法相結(jié)合,將具有相同興趣愛好的學(xué)生聚集到同一群中,從而有效的區(qū)別對(duì)待不同學(xué)生,達(dá)到最優(yōu)化配置學(xué)習(xí)資源的目的。
在未來研究中可加入更多的課程、興趣課程推理算法以及評(píng)價(jià)反饋策略使系統(tǒng)更加完善,從而提供全方位的課程推薦服務(wù);也可以在學(xué)校教務(wù)系統(tǒng)中掛接此系統(tǒng),為學(xué)生選課提供有效的參考。
[1]周麗娟,徐明升,張研研,張璋.基于協(xié)同過濾的課程推薦模型[J].計(jì)算機(jī)應(yīng)用研究,2010,27(4):1316-1318
[2]付關(guān)友,朱征宇.個(gè)性化服務(wù)中基于行為分析的用戶興趣建模[J].計(jì)算機(jī)工程與科學(xué), 2005, 27(12): 76-78.
[3]趙銀春,付關(guān)友,朱征宇.基于 Web瀏覽內(nèi)容和行為相結(jié)合的用戶興趣挖掘[J].計(jì)算機(jī)工程,2005, 31(12): 93-108.
[4]郝興偉,蘇雪 E-learning中的個(gè)性化服務(wù)研宄[J]山東大學(xué)學(xué)報(bào)理學(xué)版2005, 40(2) :67-71
[5]MacQueenJ.Some Methods for Classification and Analysis of Multivariate Observations [C].In: Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley,University of California Press,1967: 281-297.
[6]劉兆興,張寧,李季明.基于協(xié)同過濾和網(wǎng)絡(luò)結(jié)構(gòu)的個(gè)性化推薦算法[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2011,8(2):45-50.