蔡 曉 君
(泉州師范學(xué)院 圖書館, 福建 泉州 362000)
?
基于數(shù)據(jù)挖掘技術(shù)的專業(yè)圖書書目受眾定位研究
蔡 曉 君
(泉州師范學(xué)院 圖書館, 福建 泉州 362000)
摘要:采用數(shù)據(jù)挖掘技術(shù),對(duì)圖書館管理系統(tǒng)中讀者借閱記錄進(jìn)行深入分析和挖掘,建立了讀者閱讀書目模型,利用模型推薦與讀者借閱行為密切相關(guān)的閱讀書目。實(shí)例證明,該模型具有可操作性,可以激發(fā)讀者借閱行為,促使圖書館資源合理地分配,從而提升了圖書館服務(wù)質(zhì)量。
關(guān)鍵詞:圖書館;模型;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則
隨著信息時(shí)代的到來(lái),數(shù)據(jù)呈爆炸式增長(zhǎng),海量的資源使圖書館用戶陷入了“資源迷?!?。作為客觀主體,圖書館用戶在選擇資源時(shí),只能憑借自身的經(jīng)驗(yàn)、個(gè)人的興趣愛(ài)好,選擇的結(jié)果存在著很大的偏差。另一方面,用戶在利用圖書館資源過(guò)程中會(huì)產(chǎn)生諸如用戶基本信息、讀者借閱信息等有價(jià)值的數(shù)據(jù),然而這些數(shù)據(jù)卻沒(méi)有得到充分有效地利用,僅被收集存儲(chǔ)在圖書館管理系統(tǒng)中。圖書館正陷入“數(shù)據(jù)豐富,知識(shí)匱乏”的矛盾中。
數(shù)據(jù)挖掘技術(shù)作為一種新興的知識(shí)發(fā)現(xiàn)手段,已經(jīng)廣泛應(yīng)用于商業(yè)銷售、信息管理以及知識(shí)發(fā)現(xiàn)等領(lǐng)域,發(fā)揮著越來(lái)越重要的作用。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館讀者閱讀書目受眾定位上,通過(guò)收集、整理讀者的借閱行為,建立關(guān)聯(lián)分析模型,主動(dòng)向讀者推薦與其以往借閱行為相匹配的圖書閱讀書目,可以激發(fā)讀者的借閱行為,有效地引導(dǎo)讀者進(jìn)行深層次地閱讀研究,從而提升圖書館服務(wù)質(zhì)量。
1數(shù)據(jù)挖掘基礎(chǔ)理論
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Rata Mining,簡(jiǎn)稱RM),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),就是從大量的數(shù)據(jù)中發(fā)現(xiàn)出人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程[1]。發(fā)現(xiàn)的過(guò)程是由若干挖掘步驟所組成,而數(shù)據(jù)挖掘階段只是其中的一個(gè)主要步驟。整個(gè)知識(shí)挖掘的主要步驟有[2]
數(shù)據(jù)清洗:清除噪聲數(shù)據(jù)和與挖掘無(wú)關(guān)的數(shù)據(jù)。
數(shù)據(jù)集成:通過(guò)某種方式將多種數(shù)據(jù)源進(jìn)行組合。
數(shù)據(jù)轉(zhuǎn)換:將各種不同類型的數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘類型的數(shù)據(jù)。
數(shù)據(jù)挖掘:利用智能的方法提取數(shù)據(jù)的模式和規(guī)律知識(shí)。
模式評(píng)估:對(duì)挖掘出的各種模式的知識(shí)進(jìn)行評(píng)價(jià),篩選出有價(jià)值的知識(shí)。
知識(shí)表示:利用各種可視化的手段對(duì)篩選出的知識(shí)進(jìn)行表示,轉(zhuǎn)換成人們易于理解的知識(shí)。
1.2關(guān)聯(lián)規(guī)則算法
關(guān)聯(lián)規(guī)則是形如X?Y,解釋為“滿足X中條件的數(shù)據(jù)庫(kù)元組也滿足Y中的條件”。通常用支持度(support)和置信度(confidence)兩個(gè)概念來(lái)理化事物之間的關(guān)聯(lián)規(guī)則。支持度描述了兩個(gè)項(xiàng)目集合同時(shí)發(fā)生在所有事務(wù)記錄中出現(xiàn)的概率,表示為Support(X?Y)=P(X∪Y)。置信度描述了在X發(fā)生的情況下,Y發(fā)生的條件概率,表示為Confidence(X?Y)=P(Y︱X)。支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,支持度說(shuō)明了這條規(guī)則在所有事務(wù)中有多大的代表性,支持度越大,關(guān)聯(lián)規(guī)則越重要,如果支持度太小,則說(shuō)明相應(yīng)規(guī)則只是偶發(fā)事件,在實(shí)踐中,偶發(fā)事件很可能沒(méi)有使用價(jià)值[3]。置信度是對(duì)關(guān)聯(lián)規(guī)則的正確率的衡量,如果置信度太低,那么從X就很難可靠地推斷出Y來(lái),置信度太低的規(guī)則在實(shí)踐應(yīng)用中也沒(méi)有太大用處。有些關(guān)聯(lián)規(guī)則的置信度雖然很高,但支持度卻很低,說(shuō)明該關(guān)聯(lián)規(guī)則實(shí)用的機(jī)會(huì)很小,因此不重要。
關(guān)聯(lián)挖掘的任務(wù)就是要挖掘出數(shù)據(jù)集中的強(qiáng)關(guān)聯(lián)規(guī)則,強(qiáng)關(guān)聯(lián)規(guī)則就是指滿足用戶指定最小支持度(min-support)和最小置信度(min-confidence)的關(guān)聯(lián)規(guī)則。強(qiáng)規(guī)則X?Y對(duì)應(yīng)的項(xiàng)集X∪Y必定是頻繁項(xiàng)集,頻繁項(xiàng)集(X∪Y)導(dǎo)出的關(guān)聯(lián)規(guī)則X?Y的置信度可由頻繁集X和X∪Y的支持度計(jì)算獲得。
2讀者閱讀書目模型的建立
研究讀者借閱行為發(fā)現(xiàn),讀者在借閱圖書時(shí)具有很強(qiáng)的偏向性,表現(xiàn)在讀者借閱某本圖書時(shí),更渴望閱讀了解同類型的圖書。比如讀者借閱《數(shù)據(jù)挖掘概念與技術(shù)》時(shí),對(duì)《大數(shù)據(jù)時(shí)代》可能更感興趣,兩本圖書同時(shí)借閱的可能性非常高,且借了《數(shù)據(jù)挖掘概念與技術(shù)》,對(duì)后者的需求也非常大。因此,對(duì)讀者借閱行為進(jìn)行深層次的挖掘,發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則,找出讀者感興趣的圖書推薦給讀者,具有很大的意義。本文運(yùn)用系統(tǒng)學(xué)建模方法,通過(guò)設(shè)定模型的應(yīng)用目的,分析模型應(yīng)用環(huán)境和約束條件、影響因素以及變量的相關(guān)性完成模型的構(gòu)建。
構(gòu)建模型的目的,其一是找出強(qiáng)關(guān)聯(lián)規(guī)則的圖書組合,通過(guò)調(diào)整服務(wù),提高讀者用戶的黏性,防止讀者流失,確保讀者的保有量;其二是篩選出未被圖書組合覆蓋的讀者用戶群體,分析該讀者用戶群體的閱讀行為和閱讀傾向,發(fā)現(xiàn)潛在的用戶群體,通過(guò)調(diào)整圖書館服務(wù),發(fā)展新的讀者。
模型的應(yīng)用環(huán)境,模型的構(gòu)建目的是為了提高高校專業(yè)圖書的借閱量和有效的流通量,達(dá)到讀者和專業(yè)圖書間的良性循環(huán),因此應(yīng)用的環(huán)境就是高校的專業(yè)圖書館。
模型的約束條件,約束條件是模型應(yīng)用的條件和基礎(chǔ)。圖書館是否建立獨(dú)立的各專業(yè)類圖書區(qū)域以及各個(gè)專業(yè)類藏書水平,包括各個(gè)專業(yè)類圖書的細(xì)化分類量是否豐富以及各個(gè)細(xì)化分類下圖書的藏書規(guī)模程度,分類量和藏書規(guī)模程度愈高,數(shù)據(jù)就越精準(zhǔn)越具有區(qū)分度;圖書館借閱管理系統(tǒng)中數(shù)據(jù)庫(kù)的管理水平,這里的管理水平指讀者信息與讀者借閱信息的豐富程度,讀者的個(gè)人信息及其相關(guān)借閱信息越豐富越翔實(shí),那么可供數(shù)據(jù)分析挖掘的材料才真實(shí)有效;讀者良好的閱讀借閱行為習(xí)慣,讀者的借閱行為是否為自發(fā)性或需求驅(qū)動(dòng)性,這種行為同讀者個(gè)人的信息內(nèi)容的匹配性約束影響了模型運(yùn)用的真實(shí)性。
模型的影響因素及變量的相關(guān)性,從圖書館角度分析的影響因素有圖書館規(guī)模、圖書館藏分布情況、各專業(yè)類館藏圖書數(shù)量和質(zhì)量、圖書出入庫(kù)管理水平、圖書開(kāi)放借閱有效借閱時(shí)間等;從讀者的角度分析的影響因素有年齡、性別、所學(xué)專業(yè)、專業(yè)年級(jí)、學(xué)歷層次、圖書借還周期、每次借閱圖書數(shù)目、借閱各專業(yè)類圖書數(shù)量等;從圖書角度分析的影響因素有圖書擺放位置、圖書作者、圖書磨損程度、圖書的頁(yè)碼厚度、圖書尺寸、圖書出版年份、圖書內(nèi)容的專業(yè)性程度、圖書閱讀的難易度等。
下面給出該讀者閱讀書目定位模型的分析計(jì)算模型:
1) 設(shè)置最小支持度Smin和最小置信度Cmin。
2) 對(duì)讀者借閱行為進(jìn)行關(guān)聯(lián)分析, 分析計(jì)算出各種圖書組合的支持度S和置信度C。
3) 篩選出支持度滿足于最小支持度Smin,置信度滿足于最小置信度Cmin的強(qiáng)關(guān)聯(lián)規(guī)則X?Y。
4) 從讀者樣本數(shù)據(jù)中定位出借閱了圖書X,而未借閱圖書Y的用戶群體R1。
5) 發(fā)現(xiàn)潛在的用戶群體,找出均未借閱圖書X,Y的用戶群體R2。
6) 根據(jù)不同的用戶群體,制定不同的圖書推薦策略:針對(duì)用戶群體R1,改變?cè)撊后w的借還流程,在其借還圖書X時(shí),向其推薦圖書Y;對(duì)于用戶群體R2,發(fā)現(xiàn)其圖書組合的支持度滿足于給定的最小支持度Smin,但置信度沒(méi)能滿足給定的最小置信度Cmin,說(shuō)明X?Y圖書組合被用戶群體接納的可能性較高,用戶有借閱X,Y的潛在可能,但其關(guān)聯(lián)強(qiáng)度不高,因此需要通過(guò)改變服務(wù)策略,增強(qiáng)其關(guān)聯(lián)強(qiáng)度。
3實(shí)例分析
本文所運(yùn)用的實(shí)例數(shù)據(jù)分析除給定某一具體應(yīng)用環(huán)境或約束條件以外,其余的應(yīng)用環(huán)境或約束條件均假設(shè)為同一水平。給定應(yīng)用環(huán)境為某普通全日制本科高校圖書館,給定的約束條件為計(jì)算機(jī)專業(yè)類圖書,讀者為大三年級(jí)本科在校生、借閱月平均10本以上、非首次借閱圖書。
3.1提取和整理數(shù)據(jù)
數(shù)據(jù)挖掘的成功很大程度取決于數(shù)據(jù)的數(shù)量和質(zhì)量。從大量的讀者數(shù)據(jù)中找到與分析問(wèn)題有關(guān)的樣本數(shù)據(jù)子集,這樣可以減少處理的數(shù)據(jù)量,同時(shí)樣本子集需具有典型的代表性[4]。此外,為了保證數(shù)據(jù)的完整性和一致性,需對(duì)其中存在的噪聲數(shù)據(jù)進(jìn)行處理。從圖書管理系統(tǒng)中抽取5 000條計(jì)算機(jī)專業(yè)的大三讀者信息,將其中讀者信息中讀者屬性缺失、借閱活躍度很低或首次借閱圖書的讀者剔除,不足5 000條記錄的再將其補(bǔ)足。同時(shí),取出這5 000名讀者的借閱書目。
3.2數(shù)據(jù)轉(zhuǎn)換
將讀者數(shù)據(jù)和讀者借閱數(shù)據(jù)合并成一張表,該表的記錄緯度分別為讀者Did、其余緯度為讀者借閱圖書B(niǎo)id,讀者有借閱該圖書為1,未借閱該圖書表示為0,具體表現(xiàn)為表2。
表2 讀者借閱信息
3.3數(shù)據(jù)挖掘
設(shè)定最小支持度即Smin=4%,Cmin=80%,按照讀者閱讀書目定位模型的計(jì)算步驟,從表3中獲得滿足最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則《Java從入門到精通》?《Java面向?qū)ο缶幊獭?。按照該?qiáng)關(guān)聯(lián)規(guī)則,從5 000名樣本群體中篩選出兩類用戶群體R1,R2,R1={借閱了《Java從入門到精通》,尚未借閱圖書《Java面向?qū)ο缶幊獭穧,R2={《Java從入門到精通》,《Java面向?qū)ο缶幊獭肪唇栝唥。根據(jù)不同的用戶群體R1,R2采取不同的圖書推薦策略。
表3 樣本空間計(jì)算機(jī)專業(yè)圖書組合頻繁項(xiàng)集的支持度和置信度
針對(duì)用戶群體R1,采取的圖書推薦策略為在其歸還圖書《Java從入門到精通》時(shí),通過(guò)圖書管理系統(tǒng)主動(dòng)向用戶推薦圖書《Java面向?qū)ο缶幊獭贰=y(tǒng)計(jì)發(fā)現(xiàn)用戶群體R1達(dá)到1 051人,運(yùn)行圖書推薦策略一個(gè)月后,有956人借閱了《Java面向?qū)ο缶幊獭?,推薦有效率達(dá)90.9%,增加了用戶的保有量。針對(duì)用戶群體R2,其與強(qiáng)關(guān)聯(lián)規(guī)則產(chǎn)生的圖書組合《Java從入門到精通》和《Java面向?qū)ο缶幊獭肪哂泻芎玫钠ヅ湫?,用戶群體R2是潛在的用戶群體,具有良好的發(fā)展性。圖書館采取的推薦策略為主動(dòng)推薦,將圖書《Java從入門到精通》與《Java面向?qū)ο缶幊獭吠ㄟ^(guò)郵件將兩本圖書的相關(guān)信息發(fā)送給讀者。統(tǒng)計(jì)發(fā)現(xiàn)用戶群體R2有1 325人,該類用戶群體收到郵件后,有1 171人表示對(duì)這兩本圖書有借閱的意向。
3.4挖掘結(jié)果的分析
利用數(shù)據(jù)挖掘技術(shù)建立讀者借閱書目模型,找出讀者借閱習(xí)慣的規(guī)律。通過(guò)總結(jié)這些規(guī)律,可以對(duì)圖書館資源進(jìn)行有效合理的分配,改進(jìn)圖書館服務(wù)策略。
1) 增加讀者對(duì)圖書館資源的興趣。通過(guò)分析讀者的借閱記錄,發(fā)現(xiàn)很大部分讀者屬于零閱讀群體,或者借閱活躍度很低。圖書館需要改變以往坐等讀者上門服務(wù)的意識(shí),主動(dòng)地引導(dǎo)讀者利用圖書館資源,樹(shù)立以“讀者需求”為中心的服務(wù)理念。針對(duì)不同的用戶群體開(kāi)展特色服務(wù),如信息推送,根據(jù)每個(gè)讀者的特定需求,進(jìn)行信息篩選,將資源傳遞至用戶指定的位置,增加讀者利用圖書館資源的熱情。
2) 優(yōu)化圖書館管理系統(tǒng)?,F(xiàn)有的圖書館管理系統(tǒng)大部分僅向讀者提供圖書借還功能,因此可以改善和提高傳統(tǒng)圖書館管理系統(tǒng)的借還模式,增加圖書推薦模塊,在借還過(guò)程中向讀者推薦與讀者閱讀行為相匹配的閱讀書目,刺激讀者閱讀習(xí)慣,有效地增加了單位讀者的數(shù)據(jù)價(jià)值以及增加圖書館的借閱量。
3) 合理地改善圖書館館藏分布。根據(jù)對(duì)讀者閱讀習(xí)慣進(jìn)行深層次的挖掘發(fā)現(xiàn),某些分類的圖書具有較強(qiáng)的關(guān)聯(lián)性,如計(jì)算機(jī)類和數(shù)學(xué)類。借閱數(shù)學(xué)類的讀者,往往對(duì)計(jì)算機(jī)類的圖書感興趣。因此在安排圖書分布時(shí),可以借鑒相關(guān)圖書類別的關(guān)聯(lián)性,適當(dāng)?shù)恼{(diào)整圖書的擺放位置,將具有強(qiáng)關(guān)聯(lián)規(guī)則的圖書擺放在一起。
4) 提高服務(wù)器運(yùn)算能力。經(jīng)研究發(fā)現(xiàn),關(guān)聯(lián)分析計(jì)算的時(shí)間復(fù)雜度依賴可被借閱圖書的數(shù)量,假設(shè)圖書N本,計(jì)算復(fù)雜度需N(N-1),所以數(shù)據(jù)挖掘的準(zhǔn)確性和精確性依賴于計(jì)算機(jī)的計(jì)算能力。因此需改善圖書館硬件環(huán)境,配置性能好、速度快、容量大的服務(wù)器和磁盤陣列系統(tǒng)。
4模型存在的缺陷和需進(jìn)一步說(shuō)明的問(wèn)題
本文中除給定的應(yīng)用環(huán)境和約束條件外,其余參數(shù)均假設(shè)為無(wú)差異的同水平狀態(tài),對(duì)于模型的應(yīng)用效果和計(jì)算分析所得結(jié)果的準(zhǔn)確度存在一定的偏差,比如圖書館規(guī)模、館藏分布情況、讀者的閱讀欲、圖書的磨損程度和頁(yè)碼厚度都會(huì)對(duì)讀者和借閱特定圖書的匹配性產(chǎn)生影響,而這部分?jǐn)?shù)據(jù)在此模型中無(wú)法具體量化作為運(yùn)算的參數(shù);文中用于計(jì)算判斷的最小值支持度和最小置信度未能根據(jù)具體的計(jì)算公式分析得到,而是參照樣本空間在所有數(shù)據(jù)中的比重直接給定,雖然有一定的依據(jù)但不夠嚴(yán)謹(jǐn)。
模型運(yùn)用系統(tǒng)論理論分析建立并給定具體的計(jì)算方式,通過(guò)具體的數(shù)據(jù)樣本空間進(jìn)行實(shí)例的驗(yàn)證,證明了模型具有良好的可行性,得到了實(shí)驗(yàn)性成果。模型是否能按照應(yīng)用環(huán)境和約束條件進(jìn)行普遍性運(yùn)用,需對(duì)模型的泛化性能做進(jìn)一步研究。模型需具有普遍的適用性和不依賴于具體數(shù)據(jù)空間的情況下,模型的使用價(jià)值才能體現(xiàn)出來(lái),可以通過(guò)將模型運(yùn)用于其他不同專業(yè)或不同年級(jí)的樣本空間進(jìn)行實(shí)例計(jì)算分析評(píng)估模型的普遍適用性能。
參考文獻(xiàn):
[1] Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小鋒,等,譯.北京:機(jī)械工業(yè)出版社,2012.
[2] 劉強(qiáng).案例數(shù)據(jù)挖掘中的聚類算法研究[D]. 合肥:合肥工業(yè)大學(xué),2010.
[3] 沈斌.關(guān)聯(lián)規(guī)則技術(shù)研究[M].杭州:浙江大學(xué),2012.
[4] 趙紅,王俊英.基于數(shù)據(jù)挖掘的讀者關(guān)系管理[J].圖書館工作與研究,2012(01):45-47.
Research on Professional Books Bibliography Audience
Positioning Based on Data Mining Technology
CAI Xiao-jun
(Library of Quanzhou Normal University, Quanzhou 362000, China)
Abstract:Using the data mining technology, this paper makes in depth analysis and mining of readers' borrowing records in the library management system, and establishes the reader reading model. The model recommends the readers professional books bibliography which is closed to the readers' behavior. The example proves that the model is operational and can stimulate readers' borrowing behavior. Also it can promote the rational allocation of library resources so as to improve the service quality of library.
Key words:library, model, data mining, association analysis
文章編號(hào):1007-4260(2015)02-0054-04
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
作者簡(jiǎn)介:蔡曉君,女,福建泉州人,研究生,泉州師范學(xué)院圖書館助理實(shí)驗(yàn)師,主要從事數(shù)字圖書館研究。
收稿日期:2014-10-13 2014-09-24