張思松
(銅陵學(xué)院實驗教學(xué)管理處,安徽 銅陵 244061)
近年來,各學(xué)科的在線課程平臺如雨后春筍般涌現(xiàn)在人們眼前,其中也包括實驗課程[1].在廣闊而開放的平臺上,大量的課程資源、不受時域限制的學(xué)習(xí)方式受到廣大用戶的喜愛和追捧[2].在線課程平臺在為廣大用戶提供眾多實驗課程資源,以及知識共享的學(xué)習(xí)環(huán)境的前提下,可挖掘用戶的學(xué)習(xí)行為、學(xué)習(xí)體驗和用戶的學(xué)習(xí)偏好等信息.對用戶學(xué)習(xí)信息的有效挖掘,并充分分析用戶行為,對于實驗課程設(shè)計和教學(xué)形式的調(diào)整具有指導(dǎo)意義[3-5],同時可對用戶的學(xué)習(xí)效果進行評估并提出學(xué)習(xí)意見,使用戶在實驗課程的學(xué)習(xí)過程中獲得最佳學(xué)習(xí)感受,通過課程學(xué)習(xí)改進原有學(xué)習(xí)方式,使學(xué)習(xí)更高效.
想要從在線平臺海量實驗課程資源中篩選出需要的實驗課程,對于用戶而言較為困難,普遍采用的選擇方法是根據(jù)他人的選課經(jīng)驗及課程評價對課程進行篩選,結(jié)果卻未必令人滿意.如何從海量資源中尋找出有用信息,已成為數(shù)據(jù)挖掘領(lǐng)域的研究重點.
通過數(shù)據(jù)挖掘方法實現(xiàn)數(shù)據(jù)中有用信息的獲取,已被應(yīng)用于各個領(lǐng)域.郭鵬等[6]以提高教學(xué)質(zhì)量為目的,提出了基于聚類和關(guān)聯(lián)方法的學(xué)生成績挖掘和分析方法,利用聚類方法離散化處理成績信息,根據(jù)關(guān)聯(lián)方法挖掘課程間關(guān)聯(lián)關(guān)系,并對課程關(guān)系圖進行繪制,該方法使數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確度有所提高,但該方法的數(shù)據(jù)挖掘過程較為復(fù)雜.蔡柳萍等[7]以提高大數(shù)據(jù)挖掘效率為目的,研究了基于稀疏表示和特征加強的數(shù)據(jù)挖掘方法,通過對數(shù)據(jù)特征分類,特征提取,并結(jié)合數(shù)據(jù)在類中的分布進行加權(quán)完成數(shù)據(jù)挖掘,但該方法的數(shù)據(jù)挖掘準(zhǔn)確度不高.因此,本文提出基于機器學(xué)習(xí)的線上實驗課程資源挖掘,根據(jù)用戶搜索路徑通過機器學(xué)習(xí)對其行為信息進行挖掘.基于用戶的搜索頻率分析其興趣偏好,為用戶推薦符合其偏好的實驗課程信息,實現(xiàn)線上實驗課程資源的個性化推薦.
線上實驗課程的組織結(jié)構(gòu)同樣用章節(jié)劃分,數(shù)個大章節(jié)構(gòu)成全部實驗課程,各大章節(jié)下分為幾個小節(jié),數(shù)個知識點組成各小節(jié).線上實驗課程教學(xué)過程中,PC 端通過Web 頁面形式展示給用戶,移動端則通過用戶端程序展示給用戶,不同登錄方式導(dǎo)致實驗課程的組織結(jié)構(gòu)存在差異.當(dāng)用戶通過PC 端登錄時,學(xué)習(xí)場所固定且基本能夠保持長時間的學(xué)習(xí),所以采用以節(jié)為單元的學(xué)習(xí)方式開設(shè)實驗課程,各節(jié)中所涵蓋的Web 頁面最少為1 頁.移動端用戶更適合選取碎片化學(xué)習(xí)方式,并將學(xué)習(xí)時間控制在15 min 之內(nèi),因此,實驗課程的組織結(jié)構(gòu)需遵循獨立性及整體性[8].由于知識點的邏輯結(jié)構(gòu)更具有整體性,更符合客戶端用戶的課程結(jié)構(gòu)需求.線上實驗課程的組織結(jié)構(gòu)如圖1 所示.
圖1 在線實驗課程組織結(jié)構(gòu)Fig.1 Organizational structure of online experimental courses
實驗課程的課件資源通常以文本、視頻、圖片等形式存在,PC 端登錄的用戶以Web 頁面形式進行實驗課程學(xué)習(xí),每次學(xué)習(xí)一個小節(jié),學(xué)習(xí)時間大概在40 min,移動端則以知識點的形式學(xué)習(xí),每次學(xué)習(xí)一個知識點,時間大約15 min.在線實驗課程資源包涵蓋了實驗課程目錄、知識點、考試內(nèi)容、課件內(nèi)容等方面信息,課程的目錄信息歸并在course.xml 中,包含各節(jié)全部知識點,知識點中所需的文本、圖片等資源的搜索路徑存儲在知識點文件中,實驗課程測試內(nèi)容存儲在考試文件中,包含測試題目、測試答案和涉及的相關(guān)知識點等,課件資源存儲在課件文件中.用戶通過點擊文件的方式即可完成實驗課程的在線學(xué)習(xí).
針對在線實驗課程資源文件并非完全格式化文件結(jié)構(gòu)的特點,通過機器學(xué)習(xí)方法實現(xiàn)課程資源文件的解析.同類事件聚類結(jié)果的好壞往往由該類事件的評分標(biāo)準(zhǔn)決定,本文以函數(shù)值的方式對其進行界定[9],通過迭代方式使分類準(zhǔn)確度獲得有效提升.產(chǎn)生項對、文件聚類、確定文件事件模板三個階段構(gòu)成文件解析全過程.
1.2.1 項對生成 將空格作為拆分符對文件進行細分,將其劃分為字符串,數(shù)量為N,文件的項即是一個字符串,項對包含兩個項,第一項分別與其后所有項組合生成項對,數(shù)量為N-1 個,分別為(1,2)、(1,3)、(1,4)、…、(1,N),第二項同樣分別與其后所有項組合生成項對,數(shù)量為N-2 個,分別為(2,3)、(2,4)、…、(2,N),以此類推,直至第N-1 項與最后項生成項對(N-1,N),以上為文件的全部項對.針對所有文件信息,遍歷其內(nèi)全部項,兩兩生成項對,用項對對各文件信息進行更換.
1.2.2 文件聚類 文件解析的關(guān)鍵是對文件進行聚類,對隸屬于同類的文件事件進行歸類,并生成相同文件事件模板是聚類的根本目標(biāo)[10].本文采用機器學(xué)習(xí)的聚類方法實現(xiàn)文件聚類.
對原始文件分組,個數(shù)為k,生成文件項對,針對各文件,求解某一組至其他組的潛在函數(shù)值,其表達式為
式(1)中:A 為文件,r∈R(A)為文件項對,涵蓋項對r的文件在A 中的個數(shù)用N(r,A)表示,涵蓋項對r的文件在A 中的比值表示為.
通過該函數(shù)值可判斷文件位置是否發(fā)生改變,當(dāng)函數(shù)值增加,對文件分組消息進行替換,隨著函數(shù)值不斷增大,繼續(xù)進行迭代,直至文件函數(shù)值不再變化,終止迭代,文件聚類的最后分類結(jié)果即是當(dāng)下分組數(shù).
1.2.3 生成文件 事件模板建立文件的信息簽名是生成文件事件模板的首要任務(wù),實施辦法是:對各文件的各項使用次數(shù)進行記錄,消息簽名是以使用次數(shù)大于50%的項作為備選,文件事件備選項由各文件的備選項構(gòu)成,各類別的文件事件模板則是使用次數(shù)最多的文件事件備選.
本文以準(zhǔn)確率(Precision)、F_measure、Rand index 指標(biāo)來衡量聚類結(jié)果優(yōu)劣[11].
1.3.1 準(zhǔn)確率指標(biāo) 準(zhǔn)確率是搜索文件數(shù)與待搜索文件總數(shù)的比值,用于判斷聚類結(jié)果是否為最佳分類.S 表示數(shù)據(jù)的隸屬類別,可將其視為NS集合中準(zhǔn)備檢索的項,Ak為簇,其大小表示為Nk,Ak中S 的個數(shù)表示為Nsk準(zhǔn)確率可表達為
根據(jù)本文的聚類評價要求,可替換為
式(3)中:準(zhǔn)確分類為正例的數(shù)量表示為TP,即將類似數(shù)據(jù)歸為同一簇,未實現(xiàn)準(zhǔn)確分類為正例的數(shù)量FP,即將差異性數(shù)據(jù)歸為同一簇.
1.3.2 F_measure 指標(biāo) F_measure 的表達式為
Recall 的求解公式可描述為
根據(jù)聚類評價要求,將其替換為
式(6)中:未實現(xiàn)正確分類為負例的數(shù)量表示為FN,即同類數(shù)據(jù)歸為不同簇.
1.3.3 Rand index 指標(biāo)Rand index 的表達式為
式(7)中:準(zhǔn)確歸類為負例的數(shù)量表示為TN,即差異性數(shù)據(jù)歸并為不同簇,[0,1]為其取值區(qū)間,Rand index 取值越趨近于1,表明聚類結(jié)果與聚類評判標(biāo)準(zhǔn)越接近,聚類效果越好,越與實際相一致.
管理器(Agent)作為在線實驗課程平臺的智能化服務(wù)模塊,其功能是依據(jù)用戶當(dāng)下搜索路徑,實現(xiàn)感興趣數(shù)據(jù)集的挖掘.當(dāng)用戶訪問在線實驗課程平臺時,平臺會向Agent 傳送代表用戶身份的標(biāo)識以及用戶推薦申請,Agent 對用戶標(biāo)識和推薦申請進行處理后,將信息向推薦服務(wù)器端發(fā)送,服務(wù)器端則根據(jù)用戶標(biāo)識識別用戶身份、興趣偏好等信息,通過資源推薦算法獲取用戶感興趣的推薦內(nèi)容,再將推薦內(nèi)容傳遞給Agent,Agent 對其加權(quán)后,向在線平臺發(fā)送前N 個推薦內(nèi)容,由在線平臺展示給用戶.協(xié)同過濾技術(shù)是常使用的推薦方法,是對用戶搜索行為的往期數(shù)據(jù)進行分析,獲得與該用戶的興趣偏好具有較高相似性的用戶集合,推薦內(nèi)容即為該集合中用戶最喜好的內(nèi)容.該技術(shù)通過三個步驟實現(xiàn)實驗課程資源的推薦,分別為數(shù)據(jù)描述、挖掘相鄰用戶、感興趣數(shù)據(jù)集生成.
推薦服務(wù)器依據(jù)標(biāo)志信息識別Agent,向Agent 傳遞推薦內(nèi)容的同時,也將自身的標(biāo)志信息傳遞給Agent,Agent 根據(jù)權(quán)值選擇推薦服務(wù)器,權(quán)值高的N 個推薦服務(wù)器可接收推薦申請,該服務(wù)器的權(quán)值是隨著用戶偏好及在線平臺類型呈動態(tài)改變. 平臺的初始推薦服務(wù)器端權(quán)值具有一致性,Agent 的職責(zé)是向服務(wù)器傳送推薦申請,并接收推薦內(nèi)容,求解各個實驗課程的加權(quán)值,將前N 個推薦內(nèi)容顯示給用戶,根據(jù)被推薦課程中含有的標(biāo)識可識別推薦服務(wù)器.Agent 會對用戶搜索行為進行監(jiān)督, 實時掌握推薦內(nèi)容的訪問狀況,當(dāng)用戶訪問或購買推薦內(nèi)容時,Agent 會進行登記,依據(jù)服務(wù)器的登記次數(shù)實時改變其權(quán)值.H 為某服務(wù)器的登記次數(shù),Wg為其權(quán)值,可描述為
針對u 用戶,i 為實驗課程資源,資源i 的預(yù)估值可表示為
當(dāng)推薦服務(wù)器具有較高登記率時, 推薦內(nèi)容中更易包含該服務(wù)器所推薦的文件事件模板所包含實驗課程資源,不斷對權(quán)值更新,可使推薦內(nèi)容更加精準(zhǔn),滿足用戶偏好[12].
獲取感興趣數(shù)據(jù)集需對以下問題進行綜合分析:
第一:對當(dāng)下用戶的搜索頁面而言,需對各個具有高搜索頻率的內(nèi)容建立關(guān)聯(lián)規(guī)則.
第二:判斷用戶是否搜索過備選Web 頁.
第三:判斷用戶當(dāng)下點擊窗口是否與推薦內(nèi)容相關(guān).
第四:基于用戶當(dāng)下點擊窗口Web 頁面,備選URL 需選擇與之具有鏈接關(guān)系的Web 頁面.
根據(jù)用戶對實驗課程資源的搜索模式,獲取用戶感興趣數(shù)據(jù)集的切實可行方法[13].在對課程資源文件進行解析時生成項對,通過求解潛在函數(shù)值并建立信息簽名的基礎(chǔ)上,實現(xiàn)文件事件模板的輸出.基于最小支持度將偶爾搜索項剔除,將搜索頻率較高類型的文件事件模板作為集合,通過該集合生成聚集樹.基于機器學(xué)習(xí)的線上實驗課程資源挖掘方法通過聚集樹實現(xiàn)用戶搜索路徑關(guān)聯(lián)規(guī)則的挖掘, 用戶推薦內(nèi)容是由推薦度因子決定,該因子則是將關(guān)聯(lián)規(guī)則的置信度與距離參數(shù)相乘而得.
本文利用滑窗采樣方式得到用戶當(dāng)下搜索路徑,實現(xiàn)用戶檢索行為的及時掌握,達到向用戶推薦資源的目的[14].設(shè)定W 為滑窗尺寸,通過W 大項向W+1 項檢索建立關(guān)聯(lián)規(guī)則集,利用滑窗大小為W 的現(xiàn)下用戶搜索路徑與聚集樹的子搜索路徑進行匹配[15],將全部W+1 大小的搜索頻率較高的搜索路徑檢索出來.
聚集樹的關(guān)聯(lián)規(guī)則挖掘算法:
SW為在當(dāng)下滑窗遮掩下的用戶搜索路徑,Tree_TF表示聚集樹,支持度最低值為ρmin,置信度最低值為σmin,將以上各參數(shù)均作為算法輸入,GL 表示關(guān)聯(lián)規(guī)則集,將其作為輸出.在Tree_TF中挖掘與SW相適應(yīng),且W+1 大小的搜索路徑SW+1的備用大項集;針對第i 個備用大項,,如果則關(guān)聯(lián)規(guī)則為,對其置信度σ進行求解;如果,則.針對各個備選項,其支持度可描述為
在求得關(guān)聯(lián)規(guī)則集的基礎(chǔ)上,再利用推薦度參數(shù),獲取推薦集,算法流程如下:
SCOREmin表示推薦度參數(shù)最低值,與關(guān)聯(lián)規(guī)則集合GL 一并作為算法輸入,Recommend 表示推薦集,以之作為輸出.
(3)begin
(5)begin
(10)end.
以某在線實驗課程平臺采集的用戶行為信息作為數(shù)據(jù)集,數(shù)據(jù)集中含有20 名用戶的15 門實驗課程的學(xué)習(xí)記錄、課程評價信息.數(shù)據(jù)集包含500 條數(shù)據(jù),將其中400 條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),100 條作為測試數(shù)據(jù).
分別采用本文方法、文獻[6]的成績挖掘方法、文獻[7]的基于稀疏和特征加權(quán)的挖掘方法對線上實驗課程資源進行挖掘,生成推薦列表,分析三種方法在不同列表長度下的數(shù)據(jù)挖掘準(zhǔn)確率,驗證本文方法的數(shù)據(jù)挖掘能力,實驗結(jié)果如圖2 所示.
圖2 數(shù)據(jù)挖掘準(zhǔn)確率對比Fig.2 Comparison of data mining accuracy
分析圖2可知,隨著推薦列表長度的不斷擴大,三種方法的數(shù)據(jù)挖掘準(zhǔn)確率均呈現(xiàn)下降趨勢,文獻[7]方法的準(zhǔn)確率下降趨勢最大,文獻[6]方法降低幅度小于文獻[7]方法,本文方法的準(zhǔn)確率始終高于其他兩種方法,當(dāng)列表長度為14 時,本文方法與文獻方法的準(zhǔn)確率差值最大,準(zhǔn)確率一直下降的原因在于列表長度增加,推薦列表中會包含更多與用戶偏好關(guān)聯(lián)性較小的實驗課程,降低用戶滿意度.實驗結(jié)果表明,推薦列表長度對于課程資源挖掘效果至關(guān)重要,列表長度為14 時可體現(xiàn)出最佳挖掘效果.
為驗證本文方法針對新用戶的實驗課程資源挖掘效果,以在線平臺的新用戶為研究對象,采用本文方法對其進行實驗課程資源挖掘,推薦列表長度設(shè)置為14,先從數(shù)據(jù)集中獲取該用戶的好友,該用戶對實驗課程的評分為好友課程評分平均值,通過平均絕對誤差(MAE)及均方誤差(RMSE)及準(zhǔn)確率指標(biāo)驗證本文方法的資源推薦效果,實驗結(jié)果如圖3 所示.
圖3 新用戶實驗課程資源推薦效果Fig.3 Recommendation effect of newuser experiment course resources
分析圖3可知,當(dāng)用戶好友個數(shù)不斷增多,MAE、RMSE 值呈下降趨勢,準(zhǔn)確率指標(biāo)呈上升趨勢,當(dāng)用戶好友數(shù)為18 時,MAE 值開始變大,當(dāng)好友數(shù)達到21 時,RMSE 值也開始上升,當(dāng)目標(biāo)用戶好友數(shù)量位于15 至21 之間時,MAE 和RMSE、準(zhǔn)確率指標(biāo)可分別取到最低值、最高值,由此可知,基于好友的課程評價可實現(xiàn)目標(biāo)用戶對實驗課程評價結(jié)果的預(yù)估,目標(biāo)用戶的最佳好友量為15 至21 個.
以數(shù)據(jù)集中編號為3324***5502,專業(yè)信息為軟件工程的用戶為例,通過與文獻[6]方法、文獻[7]方法對比,分析三種方法的在線實驗課程資源挖掘效果,實驗結(jié)果如表1 所示.
表1 在線實驗課程資源挖掘結(jié)果Tab.1 Resource mining results of online experimental course
根據(jù)表1可知,采用3 種方法對線上實驗課程資源進行挖掘時,文獻[6]方法、文獻[7]方法挖掘的課程資源中與用戶興趣偏好90%相關(guān)的資源數(shù)目較少,更多的是60%相關(guān)的資源,本文方法挖掘的課程資源中與用戶興趣偏好90%相關(guān)的資源比例最大,其次是80%相關(guān),最后是60%相關(guān)的資源.實驗結(jié)果表明,本文方法的實驗課程資源挖掘更貼近用戶的興趣偏好,資源挖掘準(zhǔn)確性較高,能力更顯著.
以某在線實驗課程平臺采集的用戶數(shù)據(jù)信息為研究對象,研究本文方法對在線實驗課程資源的挖掘能力.在推薦列表長度不同時,分析三種方法的數(shù)據(jù)挖掘準(zhǔn)確率;并采用本文方法向在線平臺的新用戶推薦實驗課程資源,通過分析MAE、RMSE、準(zhǔn)確率指標(biāo)驗證本文方法的資源挖掘效果;最后給出編號為3324***5502,軟件工程專業(yè)用戶的課程資源挖掘結(jié)果.實驗結(jié)果表明:推薦列表長度影響課程資源挖掘效果,為體現(xiàn)最佳挖掘效果,最佳推薦列表長度應(yīng)設(shè)定為14.好友的課程評價可實現(xiàn)目標(biāo)用戶對實驗課程評價結(jié)果的預(yù)估,且15 至21 個好友更為適合.本文方法的實驗課程資源挖掘更貼近用戶的興趣偏好,資源挖掘準(zhǔn)確性較高,能力更顯著.