邵文莎
摘要:該文將大數(shù)據(jù)分析技術(shù)的常用算法SVD分解的特例UV分解用在了學(xué)分銀行系統(tǒng)的個性化推薦中,該方法可利用統(tǒng)計上的數(shù)據(jù)關(guān)聯(lián)查找數(shù)據(jù)關(guān)系,獲取有用的信息從而進行精準推薦。
關(guān)鍵詞:大數(shù)據(jù)分析技術(shù);UV分解;個性化推薦
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)26-0245-02
1 概述
在終身學(xué)習(xí)理念的推動下,許多國家和國際組織都在積極探索在不同類型教育間建立以學(xué)習(xí)成果認證為主要內(nèi)容的新型學(xué)習(xí)管理制度,且已經(jīng)形成了比較完善的體系,只是各國(地區(qū))對于制度模式的選擇不盡相同,在實踐上也表現(xiàn)出不同的側(cè)重點。例如,澳大利亞、英國等國家通過建立國家資歷框架制度,使正規(guī)教育證書與非正規(guī)教育證書、學(xué)歷證書與職業(yè)資格證書能夠相互承認和溝通;加拿大、美國等國家通過簽訂校際學(xué)分互認協(xié)議的方式,建立學(xué)分認證制度;韓國則建立了學(xué)習(xí)成果累積與認證的“學(xué)分銀行”制度,以鼓勵更多非正規(guī)高等教育體制的學(xué)習(xí)者取得大學(xué)文憑[1]。近年來,國內(nèi)關(guān)于學(xué)習(xí)成果認證體系的理論研究在概念梳理、制度設(shè)計及模式選擇上,取得了一定的成果,各省市也紛紛開始依托開放大學(xué)或廣播電視大學(xué)以區(qū)域性學(xué)分銀行試點模式進行學(xué)習(xí)成果認證體系的研究與探索,此外,包括開放大學(xué)在內(nèi)的很多高校也在其校內(nèi)進行學(xué)習(xí)成果認證體系的探索,學(xué)分銀行實踐也進入重點探索期。
在信息化社會,學(xué)分銀行信息系統(tǒng)是學(xué)習(xí)成果信息化管理的重要載體,是進行學(xué)習(xí)成果認證制度探索的必備要件,而在學(xué)分銀行平臺建立個性化推薦系統(tǒng),可以有效的向?qū)W習(xí)者提供學(xué)習(xí)信息,幫助學(xué)習(xí)者更好的選擇合適的課程,最終推動學(xué)習(xí)成果認證制度的建立和發(fā)展。
2 大數(shù)據(jù)分析技術(shù)與學(xué)分銀行信息系統(tǒng)
學(xué)分銀行獲取的關(guān)于學(xué)習(xí)者的數(shù)據(jù)是海量的,因此,我們需要一種有效的方法對于學(xué)習(xí)者相關(guān)的數(shù)據(jù)進行處理與分析,以正確預(yù)測出學(xué)習(xí)者的需求,并向?qū)W習(xí)者進行相關(guān)課程推薦。而大數(shù)據(jù)分析技術(shù)正是這樣一種滿足我們需求的技術(shù),它可以對海量數(shù)據(jù)進行處理,例如分類關(guān)聯(lián)等。分類關(guān)聯(lián)技術(shù)不管因果關(guān)系,而是直接利用統(tǒng)計上的數(shù)據(jù)關(guān)聯(lián)查找數(shù)據(jù)關(guān)系,從而提取出有用的信息。
通常情況下,我們很難知道一個學(xué)習(xí)者希望學(xué)習(xí)什么課程。這時我們就需要對該學(xué)習(xí)者的學(xué)習(xí)信息以及其他學(xué)習(xí)者的學(xué)習(xí)信息進行分析,以向該學(xué)習(xí)者進行合理的課程推薦。該過程與淘寶等網(wǎng)站的商品推薦過程十分相似。
大數(shù)據(jù)分析技術(shù)可以使用數(shù)據(jù)挖掘技術(shù)或是數(shù)理統(tǒng)計分析。數(shù)據(jù)挖掘是一個特定的數(shù)據(jù)分析技術(shù),專注于建模和知識發(fā)現(xiàn),它以預(yù)測為目的而不是純粹的描述。數(shù)理統(tǒng)計分析是運用數(shù)理統(tǒng)計學(xué)的知識來分析數(shù)據(jù),專注于描述數(shù)據(jù)的特性。
數(shù)據(jù)挖掘常用算法主要有:ID3算法,k-means,邏輯回歸,決策樹,SVD分解,隨機森林,大規(guī)模矩陣運算,以及最近的深度學(xué)習(xí)技術(shù)等。本文正是使用SVD分解中的UV分解算法,對數(shù)據(jù)進行處理與分析,以提取出所需要的數(shù)據(jù)。該技術(shù)執(zhí)行簡單,對數(shù)據(jù)需求量不是很高,而且可以進行有效的推薦。因此我們采用該技術(shù)應(yīng)用于我們的學(xué)分銀行的個性化推薦平臺中。
3 SVD分解
SVD分解[2]即奇異值分解,它在很多領(lǐng)域得到了應(yīng)用,在數(shù)據(jù)挖掘中主要用來對數(shù)據(jù)庫文件進行歸類,該方法主要用于降低數(shù)據(jù)的維度。
SVD分解的原理如下:
若[小四] 矩陣對角線上的元素均為1,則為SVD分解的一個特例,即為UV分解。本文使用的即是UV分解。
4 UV分解應(yīng)用于學(xué)分銀行信息系統(tǒng)的個性化推薦
對于一個學(xué)習(xí)者來說,感興趣的課程往往是有關(guān)聯(lián)的。因此我們可以對于學(xué)習(xí)者以往學(xué)過的課程進行分析,以判斷學(xué)習(xí)者可能需要選擇的課程,并進行進一步的推薦。
比如,我們可以按照語文、英語、數(shù)學(xué)、計算機等課程類別對于學(xué)分銀行平臺中的課程進行分類,然后根據(jù)學(xué)習(xí)者的選修情況與調(diào)查反饋和滿意度評價某類課程的價值。在我們的推薦系統(tǒng)中,我們將課程的價值分為1-5檔(數(shù)值越大,代表該課程的價值越大,也越可能被學(xué)習(xí)者選修)。如表1所示, 其中A、B、C、D代表不同的學(xué)習(xí)者,空白則為未被選修或者已被選修未進行滿意度評價的課程。
我們可用一個存在空白項的 n×m的矩陣M對n個學(xué)習(xí)者的m種不同的選修課程的價值進行描述。例如表1,我們可用一個[4×6] 的矩陣進行描述,我們只需求出空白項的值,即可判定出未被選修課程對于學(xué)習(xí)者的價值。根據(jù)未被選修課程的價值,就能決定優(yōu)先向選修者推薦哪一類課程。
我們采取UV分解的方式估計矩陣M的空白項的值。
該算法如下所示:
對于一個[n×m] 的矩陣M,我們可假設(shè)U為[n×d]的矩陣,V為[d×m]的矩陣(d可取任意的正整數(shù)),并對U、V矩陣中的各個元素賦初值(一般情況下,初值均賦為1),令P=UV。然后通過多次調(diào)整U、V中各元素的方式,以盡可能使P接近M,我們可用M與P的非空元素的差的平方和作為度量標準,并把該平方和記為均方根誤差,即均方根誤差越小,則P越接近M。當U、V中所有元素均被且只被調(diào)整一次時,可記為一次迭代過程。通過迭代的方式不斷更改U、V中的所有元素值,當某一次迭代過程的均方根誤差與前一次迭代過程的均方根誤差的絕對值小于某一閾值時,則終止迭代過程,確定UV。在這種情況下,該均方根誤差可達到一個局部最小值,但局部最小值未必是全局最小值,我們可通過對UV賦以不同的初始值的方式,獲得不同的局部最小值,用所有局部最小值中的最小值估計全局最小值,并將此情況下UV的值保存,通過P=UV求出P值,M空白的值就由此時的P值的對應(yīng)元素估計。這樣,就可決定優(yōu)先選取哪一類數(shù)據(jù)。
通過反復(fù)迭代,我們可以得出UV的數(shù)值,進而可以計算出M的數(shù)值,包括M空白處的位置的數(shù)值。也就是說,我們可以估計出學(xué)習(xí)者未選擇課程的價值,進而決定向?qū)W習(xí)者推薦的課程。
5 結(jié)束語
本文將UV分解用在學(xué)分銀行信息系統(tǒng)的個性化推薦中,可以為學(xué)習(xí)者個性化學(xué)習(xí)需求提供智能化、精準化推薦,可以對學(xué)習(xí)者的學(xué)習(xí)方向進行引導(dǎo),可以提升學(xué)習(xí)者滿意度。
參考文獻:
[1] 郝克明.學(xué)分認證、轉(zhuǎn)換制度與終身學(xué)習(xí)——在2016構(gòu)建終身學(xué)習(xí)立交橋和學(xué)分銀行系統(tǒng)學(xué)術(shù)論壇(南京)上的發(fā)言[J].終身教育研究,2017(2):6-10.
[2] Rajaraman A, Ullman J D. Mining of massive datasets[M]. Cambridge University Press, 2012.
[3] 何亮亮.SVD在文本分類中的應(yīng)用[D].廣州:華南理工大學(xué),2012.
[4] 余燕芳,韓世梅.學(xué)分銀行平臺的知識匯聚與個性化推薦系統(tǒng)應(yīng)用研究[J].中國遠程教育,2017(3):45-51.
[5] 湯書波,陳梅艷,李志平.開放教育學(xué)分銀行系統(tǒng)設(shè)計方案探討[J].電化教育研究,2011(8):78-87. [通聯(lián)編輯:代影]