邵炤昭 ,張 向
(1.浙江大學(xué)海寧國際校區(qū) 圖書信息中心,浙江 海寧 314400;2.中國農(nóng)業(yè)銀行黃岡黃州支行,湖北 黃岡438000)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,越來越多的基于互聯(lián)網(wǎng)的信息平臺被用于教育行業(yè),特別是基于互聯(lián)網(wǎng)的在線學(xué)習(xí)平臺已經(jīng)在國內(nèi)外高校普及。目前主流的在線平臺,例如Blackboard、Moodle,已經(jīng)成為高校課堂教育的重要補充。通過這類平臺,教師可以發(fā)布與課程相關(guān)的教學(xué)資料以及作業(yè),與學(xué)生就學(xué)習(xí)中的遇到的困惑和重點進行交流。隨著大數(shù)據(jù)、數(shù)據(jù)挖掘等相關(guān)技術(shù)的普及和發(fā)展,圍繞在線學(xué)習(xí)平臺的關(guān)于學(xué)習(xí)分析的研究越來越多,并且已經(jīng)取得一定的進展,包括:針對平臺訪問次數(shù)來預(yù)測學(xué)生成績走向;分析課程內(nèi)學(xué)生對教學(xué)內(nèi)容的訪問優(yōu)化和調(diào)整課程結(jié)構(gòu);基于平臺中課程內(nèi)容以及教師參與度的監(jiān)管和教學(xué)評估。
在針對教學(xué)內(nèi)容優(yōu)化的研究中,李爽等人通過行為序列分析,找出課程中學(xué)習(xí)參與模式對課程最終成績的影響。[1]陳鵬宇等人通過Person相關(guān)性分析學(xué)生在課程中內(nèi)容的參與度和知識構(gòu)建水平的關(guān)聯(lián)度。[2]田陽等人分析了課程中社交行為與成績的相互影響[3]。目前,針對課程內(nèi)容的相關(guān)性分析報告較少。在傳統(tǒng)的電商或者社交網(wǎng)站中,相關(guān)性分析扮演著重要的地位,不少網(wǎng)站采用相關(guān)性分析來進行朋友或者商品的推薦,通過相關(guān)性算法,找出用戶可能需要的產(chǎn)品以及可能認識的朋友,并進行推送。因此,相關(guān)性分析研究,對于教學(xué)資源的推薦以及分析學(xué)生關(guān)注的知識重點,可能存在一定的幫助。
個性化學(xué)習(xí)服務(wù),即根據(jù)學(xué)生的特點、當(dāng)前學(xué)習(xí)情況,向其推薦課程、學(xué)習(xí)活動、學(xué)習(xí)資料以及學(xué)習(xí)方法等,提供學(xué)習(xí)建議,動態(tài)調(diào)整學(xué)習(xí)安排,是當(dāng)前在線學(xué)習(xí)行為研究的熱點問題之一。目前在個性化學(xué)習(xí)中,常見的相關(guān)性算法包括:①Person相關(guān)性分析;②基于Aprior、FT-GROW算法的相關(guān)性分析;③基于K-MEAN的聚從算法。 這些算法在一定程度上能找到不同知識點之間的關(guān)聯(lián)。但是更加深度的關(guān)聯(lián)分析,無法揭示之間的關(guān)聯(lián)度。如圖1所示。
圖1 用戶訪問課件的關(guān)系
在傳統(tǒng)的推薦算法中,例如關(guān)聯(lián)算法、決策樹算法、聚類算法。都要求物品之間存在直接的關(guān)聯(lián),如圖1左側(cè)所示,用戶2和用戶1的訪問存在一定程度的交集,以課件2為例,通過分析課件2,實現(xiàn)課件1對用戶2的推薦,課件3對用戶1的推薦。
假設(shè)存在另外一種情況,如圖1右側(cè)所示,用戶1訪問內(nèi)容1和內(nèi)容2,用戶3訪問內(nèi)容3以及內(nèi)容4,在常規(guī)的推薦算法中,因為內(nèi)容2和內(nèi)容3的存在,通??梢宰龅接脩?和用戶2的關(guān)聯(lián),用戶2和用戶3的關(guān)聯(lián)。但是沒辦法做到用戶1和用戶3的關(guān)聯(lián)。因為用戶1和用戶3之間不存在交集。但是從推薦的邏輯上,可以推導(dǎo)出內(nèi)容可以推薦給用戶2,假設(shè)用戶2閱讀該內(nèi)容,那么基于用戶2和用戶3之間存在關(guān)聯(lián),可以將內(nèi)容1推薦給用戶3,這樣的關(guān)聯(lián)推薦在推薦系統(tǒng)中一般稱為拓撲結(jié)構(gòu)中節(jié)點推薦。
針對存在的問題,Antonellis等人在2002年提出的SimRank算法可以用來評估課件內(nèi)容的相似度[4]。Sim-Rank算法是一種適用于計算拓撲結(jié)構(gòu)中任意2點關(guān)聯(lián)度的算法,該算法以迭代的方式來計算目的對象的相似性,并且在很多行業(yè)都被廣泛使用。例如魏琳通過Sim-Rank算法,對慢性胃炎的發(fā)病機理進行相似度計算,找出慢性胃炎臨床癥狀相似度。[5]田玲等人通過SimRank算法找出中藥方劑數(shù)據(jù)中“效-效”相似度,實現(xiàn)對不同藥效之間的相似度歸納。[6]朱金山等人為解決城市公共自行車系統(tǒng)快速發(fā)展導(dǎo)致的潮汐問題,提出基于SimRank的站點間關(guān)聯(lián)度和相似度計算,采用最大相似度優(yōu)先的原則進行聚類,為站點區(qū)域劃分,公共自行車調(diào)度策略等提供理論基礎(chǔ)。[7]王家海等人采用SimRank算法,設(shè)計了一套能夠精準(zhǔn)描述數(shù)控機床的故障診斷系統(tǒng),并且該系統(tǒng)具備知識學(xué)習(xí)能力。[8]
從結(jié)構(gòu)上看,在線學(xué)習(xí)平臺中的課程內(nèi)容推薦是一種以課程空間知識點為節(jié)點的網(wǎng)絡(luò)拓撲結(jié)構(gòu)。知識點之間的相似數(shù)值可以用學(xué)生對于該知識點的訪問頻繁程度來衡量。因此,本文根據(jù)學(xué)生訪問不同知識點的頻率,提出一種基于網(wǎng)絡(luò)拓撲結(jié)構(gòu)的SimRank++算法來進行個性化學(xué)習(xí)推薦。
Antonellis等人在2008年針對SimRank算法的不足提出了SimRank++算法,該算法提出了權(quán)重以及節(jié)點相關(guān)度等影響因子,進一步完善了算法的應(yīng)用范圍。[9]
受以上行業(yè)成果經(jīng)驗啟發(fā),結(jié)合在線教育平臺中用戶數(shù)據(jù)和用戶行為,可將用戶以及課程內(nèi)容構(gòu)建成訪問關(guān)系網(wǎng)絡(luò)。
定義1(學(xué)生訪問課程內(nèi)容拓撲網(wǎng)絡(luò))記為G=(S,C,E)。其中S為所有學(xué)生的集合,C為所有課程內(nèi)容的集合,E為學(xué)生訪問課程內(nèi)容的關(guān)系。三元組(s,c,e)表示學(xué)生訪問課程有向連接關(guān)系。E(c)為所有訪問該內(nèi)容學(xué)生的集合。
定義2(課程內(nèi)容相似度)給定2個課程內(nèi)容(a,b)∈C,基于定義1,內(nèi)容相似度定義如下:
其中:
spread(i)=e-variance(i),其中-variance(i)為變量 i的所有關(guān)聯(lián)權(quán)重的方差。
SimRank++算法以迭代的方式更新集合中的相似度,經(jīng)過多輪計算后,結(jié)果收斂,趨向一個極值。迭代次數(shù)與相似度的精確值相關(guān)(精確到小數(shù)點后位數(shù))。因此迭代次數(shù)可以通過計算進行調(diào)整。相關(guān)學(xué)者發(fā)現(xiàn),使用C的參數(shù)和迭代的參數(shù)密切相關(guān),建議在實現(xiàn)精確度不低于1%的情況下,C取值為0.6,迭代次數(shù)為6。[10]
SimRank++算法由于是迭代性密集計算,因此在實際操作中,可以采用多線程計算提高計算效率。具體實現(xiàn)方法如下:在定義2中,可以將所有訪問a的集合和訪問b的集合的組合,劃分到不同線程的計算單元,線程計算單元劃分依據(jù)可以是所在機器的CPU核數(shù),或者其他自定義數(shù)量。然后將計算結(jié)果匯總。
算法分成2個階段:首先,根據(jù)定義 2計算課件內(nèi)容的相似值矩陣M,相似值矩陣M中元素數(shù)值為課程之間的相似距離值,其次為圖像化表示課程內(nèi)容的相關(guān)度,可以通過匯聚算法來進行聚類的劃分。
在聚類算法選擇中有以下因素需要考慮:首先無法預(yù)測聚類個數(shù)的范圍,其次個體特征更多是內(nèi)容之間的差距,隨著內(nèi)容數(shù)量的增加,計算聚簇的代價就越高?;谝陨弦蛩?,相關(guān)學(xué)者推薦使用hierarchy算法作為聚簇的算法模型[7]。
由于基于關(guān)聯(lián)算法的文章中很少公布其數(shù)據(jù)集,和本文算法沒有直接對比的樣本,顧本文僅僅分析該結(jié)果的現(xiàn)實意義以及該結(jié)果對于教學(xué)可能的促進作用。
本次研究的數(shù)據(jù)取自浙江大學(xué)伊利諾伊大學(xué)厄巴納香檳校區(qū)聯(lián)合學(xué)院2018-2019年秋季Calculs3課程使用blackboard平臺的數(shù)據(jù),數(shù)據(jù)的抽取為(用戶ID、訪問課程內(nèi)容ID、訪問時間)。其中學(xué)生數(shù)量為30,內(nèi)容數(shù)量為72。實現(xiàn)的開發(fā)環(huán)境為Win7平臺,運行平臺為jruby1.95(因為默認的ruby運行環(huán)境本身不支持利用多線程提高運算效率)。
為對比在使用SimRank++算法前后課件內(nèi)容的關(guān)聯(lián)度,基于篇幅所限,本文截取部分數(shù)據(jù)來比較在使用hierarchy算法時候的匯聚效果。樣本數(shù)據(jù)如表1所示。
表1 部分學(xué)生訪問課件數(shù)量
在不使用Simrank++算法情況下,課程內(nèi)容匯聚效果如圖2所示。
圖2 不使用simrank++算法課件的匯聚效果
在默認情況下,Hierarchy匯聚算法采用訪問的次數(shù)作為匯聚的依據(jù),因此,可以看到課件3、課件4的相似度最高,其他課件相似度相對較低。
在使用Simrank++算法后,得到課件相似矩陣數(shù)據(jù)如表2所示。其中1代表最相關(guān),0代表不相關(guān),例如課件1和課件2最不相關(guān),課件1和課件5最相關(guān)。
表2 課件相似度矩陣
進行匯聚的效果如圖3所示。
圖3 基于相似度的矩陣的課件匯聚效果
因為SimRank++算法是一種基于拓撲結(jié)構(gòu)的推薦算法,大量學(xué)生訪問課件3和課件4后,也在一定程度上訪問了課件5和課件6。該算法認為課件3、課件4、課件5、課件6相似度較高。但是學(xué)生在訪問課件3、課件4后,較少訪問課件1和課件2。通過匯聚圖,可以看到這種明顯的區(qū)別。
通過對整個班級中課件訪問次數(shù)的相似度計算,得出課程內(nèi)容的匯聚效果,數(shù)據(jù)體現(xiàn)出以下特征。
(1)發(fā)現(xiàn)一:第一周的內(nèi)容基本和其他教學(xué)周的相關(guān)程度比較低,因為第一周的課件內(nèi)容基本都是課程的入門介紹,教師的聯(lián)系方式等,和后面的相關(guān)教學(xué)內(nèi)容關(guān)聯(lián)度不大。
(2)發(fā)現(xiàn)二:在學(xué)期中期,課程有期中考試,且考試成績被計入課程總成績。數(shù)據(jù)顯示學(xué)期中期的課程內(nèi)容(教學(xué)周第10周至教學(xué)周第13周)和期中考試關(guān)系度緊密。實際上,考試的重點也是集中在這3周的學(xué)習(xí)內(nèi)容。
(3)發(fā)現(xiàn)三:如果相關(guān)教學(xué)周有課后作業(yè),那么這些教學(xué)周的相似度極高,可能說明學(xué)生積極訪問該批課程內(nèi)容的主要原因是在完成相關(guān)課后作業(yè)時,需要查看該教學(xué)周的講義。
(4)發(fā)現(xiàn)四:教學(xué)周最后幾周的課件內(nèi)容不被學(xué)生廣泛訪問,進過調(diào)研,該課程內(nèi)容主要是進階閱讀,不作為期末考試的重點。
(5)發(fā)現(xiàn)五:如果教學(xué)周沒有課后作業(yè)或者習(xí)題,該課件內(nèi)容不會被學(xué)生廣泛訪問。
(1)高校圖書館學(xué)科資源建設(shè)
高校的教學(xué)資源建設(shè)一直是教學(xué)質(zhì)量提升的重要保障舉措。在過去的教學(xué)資源建設(shè)過程中,學(xué)科建設(shè)和教學(xué)過程存在一定程度的信息不對稱,即購買的學(xué)術(shù)資源不是學(xué)生或者教師所關(guān)注的。導(dǎo)致采購的圖書或者電子數(shù)字資源利用率不高。通過發(fā)現(xiàn)的問題,可以在圖書資源采購、數(shù)據(jù)庫采購或者優(yōu)秀教學(xué)課程錄制和引進的時候,重點考慮學(xué)科建設(shè)資源能夠覆蓋學(xué)生關(guān)注的重點或者難點。通過分析課件中學(xué)生訪問圖書館資源鏈接的次數(shù),可以對相關(guān)圖書館資源購買優(yōu)化。例如在購買圖書資源的過程中,更多考慮該出版社或者該作者的著作。通過信息化手段,特別是數(shù)據(jù)挖掘等工具,提高數(shù)字資源的使用效率,提升教學(xué)質(zhì)量。
(2)教學(xué)單位課時分配
其次,可以建議相關(guān)教學(xué)管理單位提高相關(guān)課程內(nèi)容的討論課時,或者利用其他手段,對課程中的難點予以更多解答。
(3)教師課程準(zhǔn)備
在高校教學(xué)活動的開展過程中,相關(guān)課程的任課教師可能發(fā)生變動,對于新的任課教師來說,可以通過研究歷史數(shù)據(jù),找到課程中學(xué)生關(guān)注的重點或者難點。通過在課堂中重點講解,提高學(xué)生的學(xué)習(xí)成效。
(4)個性化學(xué)習(xí)知識推薦
最后,可以對該課程中學(xué)習(xí)成績較差的學(xué)生,進行課程內(nèi)容的推薦,通過該方法,讓學(xué)生快速抓住課程的核心或者重點,進行有針對性的預(yù)習(xí)和復(fù)習(xí)。
本文提出基于SimRank++算法來推斷出課程內(nèi)容相似性或者關(guān)聯(lián)度,結(jié)果揭示了教學(xué)中學(xué)生關(guān)注的重點以及難點。相關(guān)教學(xué)機構(gòu)可以利用該數(shù)據(jù)對教學(xué)的過程或者學(xué)科資源建設(shè)進行相應(yīng)的優(yōu)化。未來的研究工作是擴展課程內(nèi)容的關(guān)聯(lián)度邊界。