【摘要】高校的信息化建設是我國社會信息化建設的重要領域之一,是全面提高教學質(zhì)量與科研能力的重要舉措。高校圖書館是培育高質(zhì)量人才不可或缺的一環(huán),其信息化的建設程度一定程度影響到大學生整體素質(zhì)的培養(yǎng)水平。本文基于數(shù)據(jù)挖掘中的分類技術和挖掘算法,通過關聯(lián)分析找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng):一方面,運用關聯(lián)規(guī)則,找出具有強關聯(lián)的書目;另一方面,運用分類技術確定形成多個風格興趣不同讀者群,將讀者群中查閱次數(shù)較多的書目進行推薦,從而建立圖書館個性化推薦模型。
【關鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 個性化推薦
一、引言
高校學校信息化建設是我國社會信息化建設的重點領域,是全面提高教學質(zhì)量與科研能力的重要舉措。但是在圖書館數(shù)字化服務建設中存在一些急需解決的問題,例如如何提高圖書館的管理水平和服務效率,如何促進大學生更高效的利用圖書館資源等。因此,為了解決這些問題,我們需要通過數(shù)據(jù)挖掘進行個性化推薦,使得其對用戶需求能做出科學,客觀,可靠的判斷。為此,我們確定了“基于數(shù)據(jù)挖掘的高校圖書館個性推薦模型研究”專題。本研究運用數(shù)據(jù)挖掘的挖掘算法和分類技術建立高校圖書館個性化推薦模型,一方面可以提高圖書館的管理水平和服務效率;另一方面,促進大學生更高效的利用圖書館資源。
二、基于數(shù)據(jù)挖掘的數(shù)字圖書館個性服務體系構(gòu)建
(一)數(shù)據(jù)準備
面對圖書館大量的借閱信息和學生個人信息,從中篩選出適用于數(shù)據(jù)挖掘應用的數(shù)據(jù)。對數(shù)據(jù)進行預處理,并確定將要進行的數(shù)據(jù)挖掘類型。將數(shù)據(jù)進行轉(zhuǎn)換,轉(zhuǎn)換為一個分析模型。研究通過數(shù)據(jù)挖掘中的分類技術和挖掘算法,針對圖書館已存在借閱記錄中借書類型、作者類型以及學院專業(yè)等數(shù)據(jù)類型特征進行歸類,建立數(shù)據(jù)源。通過關聯(lián)分析找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng):一方面,運用關聯(lián)規(guī)則,找出具有強關聯(lián)的書目;另一方面,運用分類技術確定形成多個風格興趣不同讀者群,將讀者群中查閱次數(shù)較多的書目進行推薦,從而建立圖書館個性化推薦模型。最后,對模型進行實測,將數(shù)據(jù)導入數(shù)據(jù)挖掘結(jié)構(gòu)。利用問卷形式反映用戶體驗,針對存在的問題對模型進行進一步改進,優(yōu)化挖掘結(jié)構(gòu)。
(二)數(shù)據(jù)挖掘技術
對挖掘數(shù)據(jù)庫應用關聯(lián)分析等數(shù)據(jù)挖掘技術,得到讀者的借閱習慣、興趣模式和閱讀趨勢等,從而建立讀者借閱行為模型。例如:通過對讀者的借閱日志進行關聯(lián)分析,可以發(fā)現(xiàn)讀者借閱一類圖書同時的其他借閱行為和圖書文獻之間的關聯(lián)。然后,計算這種關聯(lián)規(guī)則的支持度和置信度,從而建立借閱模式。需要強調(diào)的是:挖掘數(shù)據(jù)庫是動態(tài)的,它是根據(jù)讀者行為或興趣的改變而自動進行數(shù)據(jù)修改。
針對數(shù)據(jù)類型進行歸類,建立數(shù)據(jù)源。同時,根據(jù)圖書館數(shù)據(jù)特點,通過關聯(lián)分析找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng),建立模型。對關聯(lián)規(guī)則Apriori算法和分類技術進行優(yōu)化。對挖掘結(jié)構(gòu)進行改進優(yōu)化。數(shù)字圖書館個性化服務體系,即通過系統(tǒng)的服務方式和策略設計,滿足讀者多樣需求,使得讀者以最小投入獲得最為切合的信息資源的服務過程。因此,抑郁數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務體系的構(gòu)建必須以大量,真實有效地數(shù)據(jù)信息為基礎和前提,即基礎數(shù)據(jù)庫的積累與建設至關重要。
數(shù)據(jù)挖掘過程:首先是原始信息的用戶特征的提取和收集;其次數(shù)據(jù)的預處理和轉(zhuǎn)換,依靠維變換減少變量書目,分類構(gòu)建數(shù)據(jù)倉庫等;之后確定目標,開展數(shù)據(jù)挖掘;數(shù)據(jù)挖掘應根據(jù)相應的目標和數(shù)據(jù)特點選擇計算方式;最后,結(jié)果分析與調(diào)整,對數(shù)據(jù)挖掘結(jié)果進行合理解釋和適當?shù)脑u價。
(三)數(shù)字圖書館個性服務體系構(gòu)建
利用Clementine數(shù)據(jù)挖掘軟件中的導出節(jié)點,可以根據(jù)借閱數(shù)據(jù)的“各分類圖書的結(jié)余數(shù)量”字段創(chuàng)建“各分類圖書的借閱數(shù)量”標志新字段,將已借閱的個分類圖書的借閱數(shù)量小于3為假,大于3為真,并建立數(shù)據(jù)挖掘模型如圖1所示:
(四)借閱數(shù)量的聚類挖掘
圖書館內(nèi)有大量的借閱數(shù)據(jù),通過對讀者的借閱數(shù)量進行聚類分析,可以觀察到那些讀者借閱頻率高,那些讀者借閱頻率低。下面根據(jù)系統(tǒng)數(shù)據(jù),運用K-means聚類算法進行數(shù)據(jù)挖掘。采用K-means算法對讀者借閱數(shù)量進行數(shù)據(jù)挖掘,設置聚類個數(shù)為3,。分別外活躍讀者、一般讀者和較小借閱者,結(jié)果顯示第二類讀者群借閱需求比較大,可以根據(jù)聚類結(jié)果加大流通圖書的最大冊數(shù),提高圖書流通性。對于第一類讀者,可以進一步進行數(shù)據(jù)挖掘借閱興趣,進行個性化推薦。
三、關聯(lián)聚類
選取借閱次數(shù)排前50位的圖書進行關聯(lián)挖掘,先利用網(wǎng)絡節(jié)點初步判斷各分類圖書的關系緊密度,根據(jù)產(chǎn)生的關聯(lián)規(guī)則的多少,最終確定6為網(wǎng)絡閥值取值。
該挖掘主要是通過設定支持度、置信度的閥值,計算各類圖書之間的關聯(lián)程度的大小,從而發(fā)現(xiàn)圖書之間的潛在關聯(lián)度。若兩圖書之間支持度、置信度大與給定閥值,表明借閱兩圖書之中的任意一本的讀者有一定的可能性去借閱另一本,因此我們像借閱其中任意一本的讀者推薦另一本圖書,這樣可以提高圖書的利用率。關聯(lián)規(guī)則的實施有兩個步驟:第一找到所有支持度大于最小支持度的項集,稱為頻集;第二從第一步中找到頻集中產(chǎn)生期望的規(guī)則,通過圖3進行數(shù)據(jù)挖掘,得到關聯(lián)規(guī)則。本文選取支持度大于2%和置信度大于15%的記錄,結(jié)果顯示,各項置信度都沒有超過50%,說明得出的關聯(lián)規(guī)則強度不夠,對推薦效果有所影響。從以上實驗我怕們可以看出,最小支持度和最小置信度的選址會影響導出規(guī)則的數(shù)量,定的太高,可能得不到規(guī)則,而太低則規(guī)則不可靠。
參考文獻
[1]王咸偉,李克東.基于Web的遠程網(wǎng)絡教學系統(tǒng)開發(fā)的關鍵技術[J].上海師范大學學報,2000,12(11):50-56.
[2]HAIN?J.Neural?Networks?A?Comprehensive?Foundation[M].影印版.北京:清華大學出版社,2001:600-622.
[3]范斌.基于Web服務的分布式數(shù)據(jù)挖掘系統(tǒng)研究[D].武漢:武漢理工大學計算機科學與技術學院,2004.
作者簡介:朱一凡(1994-),男,安徽合肥人,安徽大學經(jīng)濟學院2016級碩士研究生,研究方向:經(jīng)濟統(tǒng)計學。