鄭明 舒暢 黃宇健
摘 要: 互聯(lián)網(wǎng)的迅猛發(fā)展改變了人們的生活方式,數(shù)字校園發(fā)展也在悄然的發(fā)生變化。來自各個(gè)不同地區(qū)的學(xué)生個(gè)體,其文化背景、家庭經(jīng)濟(jì)狀況、喜好特點(diǎn)、學(xué)習(xí)情況差距較大,學(xué)生接受網(wǎng)絡(luò)信息的多樣化、復(fù)雜化等,都給高校數(shù)字校園的管理工作帶來了巨大的挑戰(zhàn),同時(shí),資源的豐富性,信息過載,使得用戶在面對大量信息時(shí)無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低。由此,本文將對數(shù)字化校園圖書資源進(jìn)行個(gè)性化推薦的研究,選取學(xué)生課程信息、圖書借閱信息,通過協(xié)同過濾推薦算法進(jìn)行挖掘和分析,來提高圖書資源的使用效率,避免信息過載,主動為用戶進(jìn)行選擇或直接為其提供有針對性的資源信息,為學(xué)校管理決策提供支持,為學(xué)校教育工作的改進(jìn)提供有效的依據(jù)。實(shí)驗(yàn)結(jié)果表明,該算法能有效提高校園圖書信息化服務(wù)的推薦質(zhì)量,節(jié)省用戶獲取有用資源的時(shí)間。
關(guān)鍵詞: 數(shù)字校園;協(xié)同過濾;個(gè)性化推薦
一、引言
大數(shù)據(jù)時(shí)代數(shù)字化校園如何在現(xiàn)有互聯(lián)網(wǎng)基礎(chǔ)上營造更加豐富多彩的數(shù)字化氛圍,捕獲師生更為真實(shí)的興趣需求,創(chuàng)建一個(gè)便捷的信息溝通與交流環(huán)境,便成為在新一代數(shù)字校園建設(shè)發(fā)展中,我們必需面臨和思考的問題。而高校師生這類對于信息異常敏感和關(guān)注的群體,其每天都要面對大量的各類信息,客觀上造成了所謂的“信息冗余”。
數(shù)字校園中圖書資源面臨的是數(shù)字資源呈幾何級增長,面對海量的數(shù)字資源,利用推薦技術(shù)可以更智慧、更高效的將圖書資源向用戶推薦[4]。
本文將從5個(gè)方面來對數(shù)字化校園個(gè)性化推薦進(jìn)行研究:第1節(jié)簡單介紹了數(shù)字化校園與圖書資源的相關(guān)概述,在概述中介紹了協(xié)同過濾的概念及本文的結(jié)構(gòu)安排。第2部分從數(shù)字化校園圖書資源的現(xiàn)狀出發(fā),提出目前數(shù)字化校園中圖書資源存在的問題及解決辦法。第3部分根據(jù)提出的問題和解決策略,通過傳統(tǒng)協(xié)同過濾推薦算法的研究提出本文基于K近鄰用戶和N近鄰項(xiàng)目的有效結(jié)合的算法。第4部分通過相關(guān)數(shù)據(jù)集,采用相關(guān)相似性的計(jì)算方法得出K近鄰用戶和N近鄰項(xiàng)目有效結(jié)合的實(shí)驗(yàn),并通過借閱量、點(diǎn)擊率的方法驗(yàn)證該方法的可行性。最后,對數(shù)字校園進(jìn)行前景展望。
二、存在的問題
高校數(shù)字化校園的目標(biāo)是實(shí)現(xiàn)高校教學(xué)、科研、管理、服務(wù)的數(shù)字化與信息化,實(shí)現(xiàn)教育資源的合理分配與利用,提高辦學(xué)質(zhì)量、辦學(xué)效益和科研水平,提高高校管理水平。我國推廣教育信息化已有多年,高校經(jīng)過多年的信息化建設(shè),已經(jīng)建成完善的校園主干網(wǎng)絡(luò),建設(shè)了統(tǒng)一認(rèn)證平臺、教務(wù)管理系統(tǒng)、科研管理系統(tǒng)、人事財(cái)務(wù)管理系統(tǒng)、教學(xué)資源庫、精品課程與視頻公開課、學(xué)生信息管理系統(tǒng)等涵蓋教學(xué)、科研、管理的應(yīng)用系統(tǒng),這些信息化建設(shè)內(nèi)容在高校實(shí)際應(yīng)用中效果良好,為高校智慧校園的建設(shè)創(chuàng)造了很好的基礎(chǔ)。[2]但高校這些應(yīng)用系統(tǒng)的建設(shè)與多年的應(yīng)用,積累了大量的數(shù)據(jù),導(dǎo)致用戶無法從中獲得對自己真正有用的那部分信息,信息過載和信息決策迷航現(xiàn)象。其次,對于師生個(gè)體而言,他們之間的需求在一定程度上并不具有普遍性,比如興趣愛好、地理位置、閱讀習(xí)慣、學(xué)習(xí)特點(diǎn)等。雖然國內(nèi)對于推薦系統(tǒng)研究已經(jīng)應(yīng)用于教育領(lǐng)域中,但數(shù)量比較少,且并未具體結(jié)合師生真實(shí)的應(yīng)用數(shù)據(jù)進(jìn)行深度數(shù)據(jù)挖掘、興趣預(yù)測并形成推薦。因此,個(gè)性化推薦是解決信息過載的有效途徑之一,它特點(diǎn)用戶地域分布,學(xué)習(xí)特點(diǎn)及興趣偏好提供推薦信息,從而幫助用戶進(jìn)行,引導(dǎo)用戶,減少用戶時(shí)間和精力的投入,提高決策效率。為學(xué)校師生提供更好的數(shù)據(jù)服務(wù),建立基于圖書資源的個(gè)性化推薦,解決信息過載,節(jié)省資源獲取時(shí)間成為本文要解決的問題。
個(gè)性化推薦中,傳統(tǒng)的協(xié)同過濾的算法核心是分析用戶興趣,在群體中找到與指定用戶的相似(興趣)物品,綜合這些相似用戶對某一信息的評價(jià),形成系統(tǒng)對該指定資源對此信息的喜好程度預(yù)測。近年來協(xié)同過濾的算法在國內(nèi)外得到了廣泛研究。但應(yīng)用于數(shù)字校園較少。因此,研究協(xié)同過濾推薦算法應(yīng)用于數(shù)字化校園圖書資源是有必要的。
因此,本文正是利用數(shù)字校園里的課程、圖書借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,推測用戶的潛在興趣和愛好,構(gòu)建協(xié)同過濾推薦算法,從而篩選和過濾出有用的圖書資源信息,展現(xiàn)用戶最關(guān)注和最感興趣的個(gè)性化信息。
三、相關(guān)工作
3.1研究開發(fā)目標(biāo)
本文研究的目的是為了建立基于圖書資源的個(gè)性化推薦,解決數(shù)字化校園中圖書資源的信息過載、個(gè)性化匱乏等問題,基于圖書資源的個(gè)性化推薦將主要對數(shù)字校園里用戶的課程、圖書資源數(shù)據(jù)進(jìn)行研究,推測用戶的潛在興趣和愛好,并構(gòu)建協(xié)同過濾推薦引擎,為用戶展現(xiàn)其最關(guān)注和最感興趣的個(gè)性化圖書資源信息。所以,首要目標(biāo)是獲取高校各個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)中的用戶業(yè)務(wù)數(shù)據(jù),并根據(jù)用戶的屬性及行為數(shù)據(jù)進(jìn)行興趣建模,準(zhǔn)確理解用戶當(dāng)前情境下的需求,然后基于此設(shè)計(jì)高效的推薦算法,通過推薦系統(tǒng)接口,提供個(gè)性化推薦服務(wù),從而能夠更加有針對性的服務(wù)于各類用戶。
3.2協(xié)同過濾概念及推薦算法
本文通過用戶課程、圖書借閱情況建立興趣模型,調(diào)用相應(yīng)的算法分析用戶的興趣度,進(jìn)行個(gè)性化推薦。該模型的構(gòu)建其實(shí)質(zhì)是用戶-物品興趣矩陣的形成過程。該項(xiàng)興趣矩陣可以通過相關(guān)相識度算法進(jìn)行分析,從而達(dá)到個(gè)性化推薦的目的。而推薦算法中使用最廣的為協(xié)同過濾推薦系統(tǒng)和矩陣分解推薦系統(tǒng)。
本文中的協(xié)同過濾推薦系統(tǒng),首先是根據(jù)特征進(jìn)行相似性匹配運(yùn)算,選擇K個(gè)相似性最高的用戶作為目標(biāo)用戶的近鄰,根據(jù)K個(gè)近鄰用戶偏好,預(yù)測目標(biāo)用戶未選擇或訪問的項(xiàng)目。選擇N個(gè)興趣度最高的項(xiàng)目通過權(quán)重篩選相應(yīng)類型作為推薦結(jié)果展示給用戶。而度量相似性的方法有很多,常見的有cosine相識度,Jaccard相似度,歐式距離,Pearson相似度等。本文根據(jù)圖書借閱及課程選擇數(shù)據(jù)集的特點(diǎn),選擇余弦相似度,通過協(xié)同過濾來描述用戶興趣模型,并對局部進(jìn)行修正。
3.3推薦流程
推薦流程包括以下幾部分,如下圖3.3.1用戶興趣模型的創(chuàng)建過程。
1.篩選數(shù)據(jù)集。通過從服務(wù)器獲取用戶課程數(shù)據(jù)、圖書借閱相關(guān)數(shù)據(jù)集。篩選出課程、借閱書籍名稱、學(xué)號、選修標(biāo)識等必要的數(shù)據(jù)集。將數(shù)據(jù)集進(jìn)行必要的清洗,將標(biāo)稱型數(shù)據(jù)處理為啞變量。同時(shí),統(tǒng)計(jì)圖書借閱類型次數(shù),作為最終推薦時(shí)的權(quán)值。如用戶A,借閱了4本書,瘋狂英語、口語500句、體育與健康、心里健康,根據(jù)書籍的類型分類,其2本為英語類,1本為體育類,1本為綜合類,故相應(yīng)的權(quán)重w1=2,w3=1,w10=1,其他類型未選擇的,則w2...w4為0。構(gòu)建的矩陣如上表3.3.1形式??紤]某些用戶沒有借閱信息或者借閱書籍較少的情況,課程表的數(shù)據(jù)將作為解決冷啟動辦法。
2.建立用戶-項(xiàng)目矩陣。通過處理好的特征進(jìn)行余弦相似性匹配運(yùn)算,獲得每個(gè)用戶與其他用戶的相識度。形成相似度矩陣User—Similarity[U][N]。
3.尋找K近鄰。通過其相識度最小的K個(gè)做為相似性最高的用戶作為目標(biāo)用戶的近鄰用戶。
4.獲取N近鄰項(xiàng)。根據(jù)K各近鄰用戶的偏好,只篩選圖書特征作為候選項(xiàng),來預(yù)測目標(biāo)用戶未選擇或未訪問的N個(gè)興趣度最高的項(xiàng)目。
5.獲取最終推薦項(xiàng)。通過選擇的N個(gè)興趣度最高的項(xiàng)目,通過權(quán)重w1....wn給予相應(yīng)類型的排名,從而作為推薦結(jié)果展示給用戶。
3.3.1用戶興趣模型的創(chuàng)建過程
四、實(shí)驗(yàn)結(jié)果及分析
本文采用的實(shí)驗(yàn)平臺為 PC(Intel(R),CPU 2.93GHz,RAM 4 GB)和Windows 7 操作系統(tǒng),開發(fā)工具使用 Python2.7,Spyder 和 Oracle,算法使用 Python語言編寫。
4.1.數(shù)據(jù)集
為了驗(yàn)證本文所提及方法在數(shù)字校園環(huán)境下的有效性和可行性,本系統(tǒng)主要使用圖書借閱、課程數(shù)據(jù)集,故主要對用戶的借閱書籍信息進(jìn)行數(shù)據(jù)挖掘。由于用戶的借閱書刊信息與用戶所學(xué)的專業(yè)有很大的聯(lián)系,在本系統(tǒng)中還需要對讀者的專業(yè)加以考慮,因此需要從圖書館系統(tǒng)的數(shù)據(jù)庫中提取讀者專業(yè)屬性數(shù)據(jù)和書刊借閱數(shù)據(jù)。本文數(shù)據(jù)源來自某高校圖書館集群管理系統(tǒng)數(shù)據(jù)庫文件,取2014年1月至2015年1月的借閱數(shù)據(jù),共計(jì)106238條。選取的數(shù)據(jù)集包括用戶編號、讀者院系、讀者借閱證號、記錄號、讀者借閱證號、索書號、書名、分類號、作者和出版社、選課時(shí)間,選課課程,課程類型。讀者信息表因?yàn)橛兴饺诵畔]有列出。該數(shù)據(jù)中的部分?jǐn)?shù)據(jù)樣本如下表所示。
圖4.1部分?jǐn)?shù)據(jù)樣本
為了達(dá)到實(shí)驗(yàn)的可操作性,必須將數(shù)據(jù)集進(jìn)行清洗,篩選出適合推薦算法。
首先,將書籍名、學(xué)院、課程標(biāo)稱型數(shù)據(jù)轉(zhuǎn)換為啞變量,如將每門課程當(dāng)做一個(gè)特征,用戶選了該門課程,則記錄數(shù)據(jù)為1,否則為0。同時(shí)根據(jù)《中國圖書館分類法》將分類號轉(zhuǎn)換為哲學(xué)、軍事、經(jīng)濟(jì)、文化、教育等22種類型,再將用戶歷史借閱書籍通過該類進(jìn)行統(tǒng)計(jì)次數(shù),作為推薦結(jié)果的排名權(quán)重。同時(shí),對于課程需要清洗含(上)、(下),(一)等后綴標(biāo)記,讓相同課程盡量歸為同一類。如網(wǎng)球(一),網(wǎng)球(二)都屬于網(wǎng)球。經(jīng)過上述一系列預(yù)處理后,最終用于實(shí)驗(yàn)的數(shù)據(jù)格式如下表。
圖4.2部分處理后數(shù)據(jù)樣本
4.2實(shí)驗(yàn)結(jié)果分析
基于協(xié)同過濾推薦算法,通過計(jì)算用戶與用戶之間的相識度,來進(jìn)行偏好預(yù)測。截選部分推薦結(jié)果如表1。其中,學(xué)院類型、專業(yè)課不作為推薦結(jié)果,只作為訓(xùn)練特征,推薦參考理由。通過協(xié)同過濾算法推薦結(jié)果,用戶3產(chǎn)生了4個(gè)偏好最高的候選項(xiàng);通過歷史借閱書籍對應(yīng)的類型可知,藝術(shù)類權(quán)重最高。因此,將項(xiàng)目3和項(xiàng)目4排列在項(xiàng)目1之前優(yōu)先推薦給用戶3。
表1算法生成結(jié)果部分?jǐn)?shù)據(jù)
通過隨機(jī)篩選1000個(gè)用戶的借閱情況及點(diǎn)擊信息分析,如下圖1可知,推薦前,未借閱人數(shù)較多,書籍借閱總數(shù)較少,推薦后未借閱人數(shù)明顯增加,借閱1-3本人數(shù)明顯增加。圖2可知,未推薦前瀏覽基本處于2500水平,通過推薦后,用戶點(diǎn)擊數(shù)明顯上升,協(xié)同過濾推薦算法比傳統(tǒng)不進(jìn)行推薦其圖書借閱有明顯提高,從而表明在數(shù)字校園個(gè)性化服務(wù)領(lǐng)域的有效性和可行性。因此,可以在數(shù)字校園中使用協(xié)同過濾算法進(jìn)行推薦來節(jié)省用戶檢索資源的時(shí)間,提升個(gè)性化服務(wù)質(zhì)量。
圖1 沒有推薦前與推薦后的借閱本書對比 圖2 沒有推薦前與推薦后的點(diǎn)擊瀏覽對比
五、前景展望
數(shù)字化校園建設(shè)是一個(gè)長期的、系統(tǒng)性工程,涉及學(xué)校的每個(gè)職能部門,一個(gè)成功的數(shù)字化校園可以推動學(xué)校管理體制和思想觀念的轉(zhuǎn)變,大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、移動互聯(lián)技術(shù)的發(fā)展為高校數(shù)字化校園個(gè)性化建設(shè)提供了技術(shù)基礎(chǔ)。在海量數(shù)據(jù)中,挖掘、分析出大數(shù)據(jù)背后隱藏的有價(jià)值信息,可以更好地提高數(shù)據(jù)管理質(zhì)量,提高學(xué)校各職能部門的工作效率,為學(xué)校領(lǐng)導(dǎo)層的決策提供科學(xué)依據(jù),在教學(xué)、管理、校園安全等方面提供有益的幫助,同時(shí)對實(shí)現(xiàn)高校教育信息化可持續(xù)發(fā)展有著重要的推動意義,未來的校園將是智慧校園,會更加完善,更具“智慧”。
參考文獻(xiàn)
[1]劉敏斯,陳少波.大數(shù)據(jù)時(shí)代高校智慧校園建設(shè)研究.2015(08).
[2]張維國.大數(shù)據(jù)時(shí)代數(shù)字化校園建設(shè)的研究.2015(09).
[3]高瀅,齊紅,劉亞波,劉大有.基于用戶等級的協(xié)同過濾推薦算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2008,46(3): 489~493.
[4]林敏.基于云計(jì)算的協(xié)同過濾推薦算法在智慧圖書館中的應(yīng)用.2013.