摘 要:隨著社會(huì)的發(fā)展和科技的進(jìn)步,應(yīng)用在圖書館領(lǐng)域的先進(jìn)技術(shù)也與日俱增,圖書館能夠?yàn)橛脩籼峁┑姆?wù)越來(lái)越受到業(yè)內(nèi)人士的關(guān)注。通過(guò)研究筆者發(fā)現(xiàn),傳統(tǒng)的數(shù)字圖書館一般無(wú)法給顧客提供個(gè)性化的準(zhǔn)確圖書推薦服務(wù),因此本文中筆者提出了一種圖書館智能推薦系統(tǒng),通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)智能推薦功能,分析數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)的適用原因和規(guī)則,并介紹設(shè)計(jì)框架和結(jié)構(gòu),最后得出結(jié)論,以期能夠?yàn)闃I(yè)內(nèi)的研究和應(yīng)用者提供參考和借鑒。
關(guān)鍵詞:圖書館;智能推薦系統(tǒng);數(shù)據(jù)挖掘技術(shù)
中圖分類號(hào):TP311.13;TP18
隨著社會(huì)的信息化飛速發(fā)展,圖書館在逐漸建設(shè)的過(guò)程中也吸納了越來(lái)越多的數(shù)據(jù),這些數(shù)據(jù)呈現(xiàn)復(fù)雜化和海量化的趨勢(shì),由此造成了一般用戶在手工檢索的過(guò)程中需要很大工作量的結(jié)果,用戶在這樣的檢索中不僅很難準(zhǔn)確找到所需的結(jié)果,而且圖書館也很難在這一過(guò)程中發(fā)揮更多的作用提供更好的服務(wù)。下文中介紹的智能推薦系統(tǒng)能夠很大程度上緩解這一問(wèn)題,對(duì)存儲(chǔ)的海量數(shù)據(jù)進(jìn)行挖掘和整理,通過(guò)用戶的特征和偏好來(lái)預(yù)測(cè)用戶行為,同事根據(jù)讀者數(shù)據(jù)中的潛在模式和關(guān)系信息改進(jìn)圖書館智能推薦系統(tǒng)。
1 智能推薦的核心技術(shù)
在智能推薦的技術(shù)領(lǐng)域,由數(shù)據(jù)挖掘技術(shù)產(chǎn)生的技術(shù)有如下三種:首先是關(guān)聯(lián)規(guī)則推薦,其次是基于用戶聚類的協(xié)同過(guò)濾推薦,最后是基于內(nèi)容聚類的協(xié)同過(guò)濾推薦
1.1 三種推薦技術(shù)簡(jiǎn)介
(1)關(guān)聯(lián)規(guī)則推薦。通過(guò)關(guān)聯(lián)規(guī)則來(lái)進(jìn)行推薦的過(guò)程是一個(gè)搜尋頻繁相關(guān)的項(xiàng)集的過(guò)程,這一過(guò)程中通過(guò)對(duì)客戶經(jīng)常訪問(wèn)和搜索情況的記錄和分析處理,找到客戶的直觀意向,探尋使用者的傾向,從而推薦出使用者在選擇了某一選項(xiàng)之后最有可能選擇的其他選項(xiàng)。
(2)基于用戶聚類的協(xié)同過(guò)濾推薦。通過(guò)用戶聚類來(lái)協(xié)同過(guò)濾推薦的方法一般是根據(jù)已有的最近鄰技術(shù),從用戶的興趣信息得到用戶之間的遠(yuǎn)近程度,用戶遠(yuǎn)近從興趣度的相似程度來(lái)判別,最后根據(jù)最近鄰用戶找到目標(biāo)用戶,預(yù)測(cè)目標(biāo)用戶的興趣來(lái)進(jìn)行推薦。
(3)基于內(nèi)容聚類的協(xié)同過(guò)濾推薦。根據(jù)內(nèi)容聚類進(jìn)行的協(xié)同過(guò)濾是通過(guò)對(duì)項(xiàng)目的實(shí)際內(nèi)容進(jìn)行分析,更多更好的利用計(jì)算機(jī)對(duì)內(nèi)容的分析和特征提取來(lái)實(shí)現(xiàn)興趣度的計(jì)算,不需要訪問(wèn)用戶評(píng)價(jià)信息。
1.2 選擇關(guān)聯(lián)規(guī)則推薦技術(shù)的原因
根據(jù)以上信息可以看出,上述三種推薦技術(shù)的適用范圍各不相同,通過(guò)內(nèi)容協(xié)同過(guò)濾的方法在用戶推薦之后再將推薦結(jié)果轉(zhuǎn)給其他用戶,能夠?qū)崿F(xiàn)良好的使用反饋,但是由于方法限制容易出現(xiàn)稀疏問(wèn)題;通過(guò)用戶類聚實(shí)現(xiàn)協(xié)同推薦的方法能夠處理較復(fù)雜的非結(jié)構(gòu)化對(duì)象,但是依舊存在冷啟動(dòng)和稀疏的問(wèn)題。由此分析可以采取關(guān)聯(lián)規(guī)則進(jìn)行自動(dòng)推薦,理由如下:首先,采用關(guān)聯(lián)規(guī)則進(jìn)行自動(dòng)推薦不存在冷啟動(dòng)中的新用戶出現(xiàn)問(wèn)題,通過(guò)大量的對(duì)借閱記錄的離線生成來(lái)尋找關(guān)聯(lián)規(guī)則,這樣既可在用戶上線之后給用戶提供推薦;其次,可以解決圖書名稱重復(fù)的問(wèn)題,通過(guò)詞庫(kù)和語(yǔ)義的定義可以一定程度上改善產(chǎn)品名同一性的問(wèn)題;最后,通過(guò)關(guān)聯(lián)規(guī)則還可以進(jìn)行離線抽取,能夠良好的解決圖書借閱在線費(fèi)時(shí)的問(wèn)題。
2 關(guān)聯(lián)規(guī)則的概念及算法
2.1 關(guān)聯(lián)規(guī)則的相關(guān)概念
關(guān)聯(lián)規(guī)則的挖掘時(shí)挖掘數(shù)據(jù)集中項(xiàng)集之間有“聯(lián)系”的關(guān)聯(lián),是數(shù)據(jù)挖掘領(lǐng)域的重要環(huán)節(jié)。設(shè)I={i1,i2,…,im}是項(xiàng)的集合,D是數(shù)據(jù)庫(kù)事務(wù)的集合,每個(gè)事務(wù)T是不同項(xiàng)的集合,使得T包含于I。規(guī)則A,B在事務(wù)集D中成立,具有支持度s和置信度c,同時(shí)滿足最小支持度閾值和最小置信度閾值的規(guī)則,就可以認(rèn)為是知識(shí)輸出的強(qiáng)關(guān)聯(lián)規(guī)則。
2.2 關(guān)聯(lián)規(guī)則的相關(guān)步驟
挖掘關(guān)聯(lián)規(guī)則是一種非常重要的方法,Agrawal等曾在多年以前提出過(guò)一個(gè)Apriori算法,該方法首先會(huì)生成頻繁項(xiàng)集,這也是決定挖掘效率的關(guān)鍵一步,之后通過(guò)對(duì)相應(yīng)數(shù)據(jù)庫(kù)的掃描,設(shè)置適當(dāng)?shù)闹С侄?,?jì)算數(shù)據(jù)庫(kù)內(nèi)容,找到頻繁項(xiàng)集,為關(guān)聯(lián)規(guī)則的提取提供基礎(chǔ),之后如果數(shù)據(jù)庫(kù)中找到了頻繁項(xiàng)集,則通過(guò)他們產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,滿足最小置信度和最小支持度。
3 圖書智能推薦系統(tǒng)框架設(shè)計(jì)
為了進(jìn)一步提高系統(tǒng)效率,且在設(shè)計(jì)關(guān)聯(lián)規(guī)則算法時(shí)又需要對(duì)整個(gè)數(shù)據(jù)庫(kù)進(jìn)行掃描,所以需要在Offline部分處理規(guī)則生成。現(xiàn)擬將圖書智能推薦系統(tǒng)的框架分為兩個(gè)部分,分別是Online部分和Offline部分。這一流程可以從下圖得到。如圖1所示:
圖1 圖書智能推薦系統(tǒng)框架
3.1 Offline部分
這一部分是通過(guò)關(guān)聯(lián)規(guī)則的挖掘和數(shù)據(jù)的準(zhǔn)備來(lái)完成的。關(guān)聯(lián)規(guī)則的挖掘是由頻繁項(xiàng)集的掃描和關(guān)聯(lián)規(guī)則生成這兩部分組成,而數(shù)據(jù)準(zhǔn)備則是將圖書館的web服務(wù)器實(shí)時(shí)用戶文件和借閱歷史進(jìn)行掃描并生成相應(yīng)文件。
首先進(jìn)行的是數(shù)據(jù)準(zhǔn)備工作,這一工作過(guò)程中會(huì)對(duì)數(shù)據(jù)進(jìn)行必要的預(yù)先處理,規(guī)則挖掘的正確度和效率也受這一結(jié)果的影響。另外由于圖書的歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)都存在大量冗余,也需要對(duì)數(shù)據(jù)進(jìn)行必要的去噪和整理。之后進(jìn)行的是關(guān)聯(lián)規(guī)則的挖掘,這里會(huì)利用關(guān)聯(lián)模式來(lái)發(fā)現(xiàn)用戶瀏覽模式,通過(guò)對(duì)模式的分析得到讀者的借閱規(guī)則,存儲(chǔ)之后為后面的online部分服務(wù)。
3.2 Online部分
Online部分運(yùn)用Offline部分生成關(guān)聯(lián)規(guī)則的集合,并且在同一時(shí)間內(nèi)記錄和檢測(cè)用戶的瀏覽過(guò)程,動(dòng)態(tài)地為用戶推薦相應(yīng)的鏈接或者書目操作等服務(wù)。由讀者推薦和圖書館服務(wù)器組成,服務(wù)器記錄用戶的操作數(shù)據(jù),讀者推薦服務(wù)通過(guò)匹配讀者行為數(shù)據(jù)和Offline部分產(chǎn)生的有趣規(guī)則,給用戶進(jìn)行圖書推薦服務(wù)。
4 結(jié)束語(yǔ)
隨著數(shù)字圖書館朝著越來(lái)越智能化的方向發(fā)展,圖書館需要提供給讀者更加有針對(duì)性的圖書自動(dòng)推薦服務(wù)。通過(guò)本文的研究能夠得到,可以將關(guān)聯(lián)規(guī)則作為圖書智能推薦系統(tǒng)的核心技術(shù),提高圖書館的服務(wù)水平和質(zhì)量,為圖書館管理提供數(shù)據(jù)支持。在今后的研究中還需要進(jìn)一步對(duì)數(shù)據(jù)挖掘和關(guān)聯(lián)規(guī)則進(jìn)行深入研究,以期能夠更好的改進(jìn)圖書館的服務(wù)質(zhì)量和效率。
參考文獻(xiàn):
[1]高鳳榮,馬文峰,王珊.數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)研究[J].情報(bào)理論與實(shí)踐,2003(04).
[2]姚罡,麥永浩,黨選舉.數(shù)據(jù)挖掘在電子商務(wù)推薦系統(tǒng)中的應(yīng)用設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2002(12).
[3]錢衛(wèi)寧,魏藜,王焱,錢海蕾,周傲英.一個(gè)面向大規(guī)模數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘系統(tǒng)[J].軟件學(xué)報(bào),2002(08).
作者簡(jiǎn)介:成果(1983-),男,遼寧營(yíng)口市人,圖書館管理員,助理館員,碩士,研究方向:圖書館信息化。
作者單位:大連理工大學(xué),遼寧大連 116000