周傳生, 趙望儒, 劉忠武
(1. 沈陽(yáng)師范大學(xué) 計(jì)算機(jī)與數(shù)學(xué)基礎(chǔ)教學(xué)部, 沈陽(yáng) 110034; 2. 沈陽(yáng)師范大學(xué) 科信軟件學(xué)院, 沈陽(yáng) 110034)
信息技術(shù)應(yīng)用能力已成為互聯(lián)網(wǎng)時(shí)代下教師專業(yè)素養(yǎng)的重要組成部分?!督逃畔⒒臧l(fā)展規(guī)劃(2010—2020)》[1]提出明確全面優(yōu)化教師的信息化教學(xué)水平,提升教師的學(xué)習(xí)能力與教師素養(yǎng),改變了教師培養(yǎng)形式[2]。為滿足這些要求,提出了網(wǎng)絡(luò)研修的新型學(xué)習(xí)模式。研修平臺(tái)能夠滿足教師的學(xué)習(xí)需求,幫助教師提升知識(shí)儲(chǔ)備,開拓知識(shí)視野,因此現(xiàn)今各類研修資源平臺(tái)越來越多,教師對(duì)研修學(xué)習(xí)環(huán)境的需求也隨之增多,因而研修平臺(tái)不斷優(yōu)化,教師的網(wǎng)上研修形勢(shì)越來越多樣化,教育資源[3]日益增長(zhǎng)?,F(xiàn)今研修平臺(tái)功能越來越多,但通過對(duì)現(xiàn)在網(wǎng)絡(luò)研修資源應(yīng)用平臺(tái)的研究,發(fā)現(xiàn)其中存在一些問題,歸納概括出來總共分為3類:
1) 學(xué)習(xí)資源推薦個(gè)性化問題:現(xiàn)有的推薦模塊只是根據(jù)教師的基本教學(xué)信息進(jìn)行資源推薦,沒有盡可能的滿足教師學(xué)習(xí)的個(gè)性化需求,因而造成學(xué)習(xí)資源不能夠被充分利用,再者資源沒有通過更加精確化的推薦,難以發(fā)揮資源的利用價(jià)值,導(dǎo)致教師的無效學(xué)習(xí)時(shí)間增加。
2) 用戶相似性問題:個(gè)性化推薦加強(qiáng)了用戶之間的差別,使有相似興趣的用戶集群分離,對(duì)算法計(jì)算過程不利,推薦結(jié)果容易出現(xiàn)差錯(cuò)。
3) 學(xué)習(xí)資源重復(fù)推薦問題:在教師完成現(xiàn)有學(xué)習(xí)資源的學(xué)習(xí)時(shí),系統(tǒng)仍然會(huì)給老師推薦學(xué)習(xí)過的內(nèi)容,這浪費(fèi)了推薦的機(jī)會(huì)以及老師查找其他學(xué)習(xí)資源的時(shí)間。
根據(jù)以上的問題,本文對(duì)基本的協(xié)同過濾推薦算法進(jìn)行修改,并對(duì)算法進(jìn)行優(yōu)化,最后進(jìn)行推薦去重,以解決以上3個(gè)方面的問題。
目前較多應(yīng)用的推薦算法包括基于內(nèi)容的推薦[4]算法,協(xié)同過濾[5]推薦算法,基于關(guān)聯(lián)規(guī)則的推薦算法,混合推薦算法等。相較于其他推薦算法,協(xié)同過濾算法適用范圍廣,對(duì)物品的類型種類沒有較多限制,不同于其他算法的經(jīng)常性推薦特點(diǎn),能夠通過學(xué)習(xí)社群[6]挖掘用戶新的興趣點(diǎn),適合個(gè)性化資源的查詢,更具應(yīng)用價(jià)值。另一方面,該算法更具有時(shí)效性以及智能性。對(duì)于任何項(xiàng)目,無論是新用戶還是老用戶,都能夠根據(jù)用戶特點(diǎn)即刻進(jìn)行匹配,從而進(jìn)行推薦。因此本文使用協(xié)同過濾推薦算法深入挖掘教師的學(xué)習(xí)特點(diǎn)和學(xué)習(xí)習(xí)慣,為教師推薦更加精準(zhǔn)[7]有效的資源。
協(xié)同過濾算法基本分為基于用戶、基于項(xiàng)目的推薦?;陧?xiàng)目的協(xié)同過濾算法計(jì)算首先要統(tǒng)計(jì)收集學(xué)習(xí)者與學(xué)習(xí)資源[8]的數(shù)據(jù)集,其次通過學(xué)習(xí)者對(duì)資源的瀏覽記錄找到相似的資源,再次把類型相似的資源給學(xué)習(xí)者。基于用戶[9]推薦最簡(jiǎn)單的例子是首先將有相似電影愛好的用戶Z和L記錄下來,再次記錄雙方喜好的不同東西,其次將Z或是L喜歡的東西推薦給L或Z,供其選擇。
要實(shí)現(xiàn)個(gè)性化的功能,首先要研究教師學(xué)習(xí)個(gè)性化的表現(xiàn)。通過研究,教師個(gè)性化的主要實(shí)現(xiàn)方式就是要找到個(gè)體間學(xué)習(xí)習(xí)慣的差異,從而根據(jù)學(xué)習(xí)習(xí)慣和所處環(huán)境推薦符合個(gè)體需求的學(xué)習(xí)資源與應(yīng)用。鄭云翔[10]提出只有個(gè)體行為上的差別才便于開發(fā)個(gè)體的學(xué)習(xí)潛力與潛能。因此,本文在協(xié)同過濾[11]推薦算法的基礎(chǔ)上提出個(gè)性化推薦,滿足教師的個(gè)性化學(xué)習(xí)需要[12],從而提升教師學(xué)習(xí)能力。
個(gè)性化學(xué)習(xí)資源推薦算法通過收集教師的研修時(shí)間與方式,以及研修內(nèi)容等,得出不同教師之間研修學(xué)習(xí)的差異性。從而確立不同的個(gè)體學(xué)習(xí)體系,推薦不同且精準(zhǔn)的學(xué)習(xí)資源。
進(jìn)行算法計(jì)算前首先將資源進(jìn)行分類,如下所示:
1) 按照教學(xué)科目進(jìn)行分類。
2) 按照教學(xué)進(jìn)程進(jìn)行章節(jié)分類。
3) 按照科目?jī)?nèi)容進(jìn)行知識(shí)點(diǎn)分類,其中詞條包含同一科目下面的具體知識(shí)分支以及具體知識(shí)點(diǎn),例如“古詩(shī)詞,散文,代數(shù),質(zhì)數(shù),出師表”等。
幾十年前,我看過幾位握了半輩子毛筆的先生寫的鋼筆字,被字里那樣一種古樸蒼勁的精神深深吸引,那種精神是與古人相通的。而今,我們這些用鋼筆寫了大半輩子字的人,握起毛筆寫字,想要接通氣脈,寫出古意,的確十分困難。但也許,會(huì)有別的收獲。
4) 按照瀏覽時(shí)間及時(shí)長(zhǎng)分類。分為“0~30分鐘,30~60分鐘,60分鐘以上”3類。
5) 按照下載時(shí)間及路徑進(jìn)行分類。分為手機(jī)APP下載以及網(wǎng)頁(yè)下載。
6) 按照評(píng)價(jià)字?jǐn)?shù)進(jìn)行分類。分為“0~10個(gè)字,10~20個(gè)字,20字以上”3類。
通過記錄教師對(duì)具體分類資源進(jìn)行學(xué)習(xí)的學(xué)習(xí)內(nèi)容、學(xué)習(xí)時(shí)間、學(xué)習(xí)環(huán)境等,得到教師的學(xué)習(xí)特征[13],從而針對(duì)不同的教師進(jìn)行不同的個(gè)性化推薦。其中,針對(duì)教師較少次數(shù)學(xué)習(xí)的學(xué)習(xí)資源,通過參考教師對(duì)其的瀏覽記錄,下載記錄等情況進(jìn)行綜合判斷后,根據(jù)實(shí)際情況來決定是否繼續(xù)對(duì)其產(chǎn)生推薦。除此之外,為了獲取更好的推薦效果了,在得到推薦列表后進(jìn)行推薦去重,使資源不被重復(fù)錯(cuò)誤得推薦。
本文基于遼寧省云教育平臺(tái)的數(shù)據(jù)進(jìn)行分析與試驗(yàn),首先將數(shù)據(jù)劃分成5類數(shù)據(jù)集群,并如下記錄集群:
數(shù)據(jù)集群1 教師分類。其中包括“教師ID,教師性別,教師年齡,教學(xué)科目”。
數(shù)據(jù)集群2 資源分類。其中包括“科目ID,科目年級(jí),詞條”。
數(shù)據(jù)集群3 教師瀏覽資源記錄。其中包括“教師ID,資源ID,訪問時(shí)間,瀏覽時(shí)間及時(shí)間長(zhǎng)度,瀏覽次數(shù)”。
圖1 算法框架圖Fig.1 Algorithm frame
數(shù)據(jù)集群4 教師下載資源記錄。其中包括“教師ID,資源ID,下載時(shí)間,下載路徑?!?/p>
數(shù)據(jù)集群5 記錄教師評(píng)價(jià)資源。其中包括“教師ID,科目ID,資源ID,教師評(píng)價(jià),評(píng)價(jià)次數(shù),評(píng)價(jià)字?jǐn)?shù)”。
通過教師的學(xué)習(xí)行為制定評(píng)分標(biāo)準(zhǔn),為平臺(tái)中教師閱讀的資源進(jìn)行評(píng)分,創(chuàng)建評(píng)分矩陣,利用評(píng)分矩陣計(jì)算用戶相似度。由于本文引入關(guān)聯(lián)相似度,因此再計(jì)算一次關(guān)聯(lián)相似度,與之前的傳統(tǒng)的用戶相似度進(jìn)行融合計(jì)算,得到資源推薦列表,經(jīng)過推薦去重后,形成推薦。算法框架如圖1所示。
步驟1 根據(jù)數(shù)據(jù)集群中教師的個(gè)人基本信息、資源下載、資源評(píng)價(jià)、下載路徑、瀏覽時(shí)長(zhǎng)等信息,構(gòu)建“用戶-資源”評(píng)分矩陣[14],根據(jù)教師學(xué)習(xí)與分類后的學(xué)習(xí)資源的匹配度設(shè)置評(píng)分值,其中評(píng)分的分值范圍為0~5分。評(píng)分方式如表1所示。
表1 評(píng)分表Table 1 Evaluation form
步驟2 根據(jù)評(píng)分矩陣使用余弦相似度公式[15]計(jì)算用戶相似度。
步驟3 計(jì)算直接關(guān)聯(lián)相似度。直接關(guān)聯(lián)相似度是根據(jù)教師之間重復(fù)瀏覽情況進(jìn)行計(jì)算。用A表示用戶a閱讀的資源集合,B表示用戶b閱讀的資源集合,C表示與用戶b重復(fù)閱讀資源數(shù)量最多的用戶資源集合,A∩B表示用戶a和b重復(fù)閱讀的資源總數(shù),S1表示直接關(guān)聯(lián)相似度,其表示為公式(1):
(1)
步驟4 計(jì)算間接關(guān)聯(lián)相似度。間接關(guān)聯(lián)相似度是根據(jù)不同學(xué)校之間相同年級(jí)及科目教師之間的關(guān)聯(lián)度。一些教師之間存在沒有瀏覽過相同資源的情況,但可以通過同一學(xué)科,同一年級(jí)的相似情況得到間接的關(guān)聯(lián)度。S2表示用戶A和B的間接關(guān)聯(lián)相似度,其中T表示相似的教師,U表示相似教師的數(shù)量,公式如下:
(2)
步驟5 計(jì)算綜合關(guān)聯(lián)相似度。其中β1,β2分別表示直接關(guān)聯(lián)度和間接關(guān)聯(lián)度的權(quán)重,且β1+β2=1。用S表示關(guān)聯(lián)相似度,則公式如下:
S=β1S1+β2S2
(3)
步驟6 將用戶相似度與關(guān)聯(lián)相似度融合,得到新的用戶相似度,其中α為用戶相似度因子,得到的新的用戶相似度用newsin(u,v)表示,其公式如下:
newsin(u,v)=?sin(u,v)+(1-?)S
(4)
步驟7 根據(jù)步驟6計(jì)算的用戶相似度,形成鄰居集合,根據(jù)鄰居集合形成資源推薦度,推薦度按照從大到小的組成一個(gè)Top-N數(shù)量集推薦給用戶。
(5)
(6)
實(shí)驗(yàn)采用的數(shù)據(jù)集為教育云平臺(tái)的數(shù)據(jù)集群,從數(shù)據(jù)集中隨機(jī)選出多名用戶,通過學(xué)習(xí)行為統(tǒng)計(jì)他們的資源評(píng)分,首先設(shè)定預(yù)測(cè)評(píng)分的閾值,評(píng)分閾值由推薦準(zhǔn)確率(MAE)的值來進(jìn)行試驗(yàn)與確定。其值越小,則證明推薦度較為精準(zhǔn),反之則為無效推薦。
(7)
其中T表示預(yù)測(cè)資源的數(shù)量,分子表示資源的預(yù)測(cè)評(píng)分。將資源數(shù)量設(shè)為固定值,改變?cè)u(píng)分的值,獲取閾值。計(jì)算結(jié)果如表2所示。
表2 MAE值Table 2 MAE value
通過表2的數(shù)值,得到當(dāng)資源評(píng)分為3時(shí)MAE[16]的值最小,為了更加客觀的體現(xiàn)準(zhǔn)確度,將以資源評(píng)分為3時(shí)通過算法獲得推薦的資源的數(shù)量,以及根據(jù)各類評(píng)分得到的資源數(shù)量的值帶入到以下2個(gè)公式進(jìn)行檢驗(yàn)計(jì)算。2個(gè)指標(biāo)分別為:召回率[17]和誤識(shí)別率。
其中召回率越高越準(zhǔn)確。
其中,誤識(shí)別率越低越準(zhǔn)確。通過計(jì)算,得出召回率的值召回率為58%,誤識(shí)別率為20%,并與其他平臺(tái)進(jìn)行對(duì)比,數(shù)值上體現(xiàn)了該算法的進(jìn)化與優(yōu)勢(shì)。
個(gè)性化協(xié)同過濾算法根據(jù)教師的研修習(xí)慣,為不同教師推送各類精確資源,滿足每個(gè)教師的資源需求,同時(shí)在應(yīng)用個(gè)性化推薦的同時(shí)也沒有減弱用戶之間的聯(lián)系,既滿足了教師的個(gè)體需求又增添了交互性。因此,本研究為了提升平臺(tái)的個(gè)性化推薦,做了一些修改,提高了平臺(tái)的靈活性。