摘要:該文旨在分析出不同屬性的讀者與借閱的圖書類別之間多維關聯(lián)規(guī)則,將讀者所在學院和年級屬性進行細分,與借閱圖書類別三級類目屬性生成多維屬性事務表,利用維間編碼自連接的方式將多維屬性整合成單維屬性的模式,對不同學院不同年級2020年下半年借閱數(shù)據(jù)進行多維維間和混合維關聯(lián)規(guī)則分析,根據(jù)讀者細分程度,得出不同讀者的個性化需求特征,為圖書館優(yōu)質的服務提供有力的理論依據(jù)。
關鍵詞:多維關聯(lián)規(guī)則;圖書館;數(shù)據(jù)挖掘;關聯(lián)規(guī)則;借閱數(shù)據(jù)
中圖分類號:TP311 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)32-0018-04
圖書館隨著智能現(xiàn)代化技術發(fā)展,服務器里存儲了大量的讀者借閱行為歷史數(shù)據(jù),這些寶貴的數(shù)據(jù)不應僅備份起來保持“有”,還應該“活用”起來,使這些數(shù)據(jù)能夠“說話”。發(fā)揮他最大的作用。數(shù)據(jù)挖掘技術是可以讓數(shù)據(jù)活用起來的技術,是可以從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中提取隱含在其中的人們事先不知道的、但又是潛在有用的信息和知識。數(shù)據(jù)挖掘技術常用的有關聯(lián)規(guī)則、貝葉斯分類算法、決策樹算法、神經(jīng)網(wǎng)絡算法、支持向量機、聚類分析、模糊集方法等。其中關聯(lián)規(guī)則技術常被用于圖書館借閱數(shù)據(jù)挖掘中,尋找出其中的借閱規(guī)律,為圖書館資源建設和提供個性化服務提供理論依據(jù)[1]。
但目前的研究大多僅在圖書類別之間尋找讀者借閱書籍的關聯(lián)規(guī)則。侯賀[2]將關聯(lián)規(guī)則應用到圖書館流通數(shù)據(jù)挖掘中,是通過館藏量依照中圖法分類分成T類和其他類進行圖書類別間的關聯(lián)分析;聶飛霞[3]是運用Apriori算法在圖書館典藏規(guī)劃中的應用,通過建模運算得出圖書各類別之間的關聯(lián)規(guī)則;陳淑英[4]也將關聯(lián)規(guī)則應用到高校圖書館圖書推薦服務中,通過一次抽取不同專業(yè)不同年級的記錄進行多維屬性的關聯(lián)規(guī)則分析,但僅研究的是讀者屬性與書籍類別之間維間關聯(lián)規(guī)則,如關聯(lián)規(guī)則{法學類專業(yè),大一}==> H31,表示該讀者是法學類專業(yè)一年級的學生,同時借閱了圖書H31,是維間關聯(lián)規(guī)則,缺少混合維規(guī)則的挖掘。王蕾[5]的借閱行為大數(shù)據(jù)應用于高校圖書館服務創(chuàng)新的路徑分析文中使用weka將年級、專業(yè)和圖書分類三個字段進行關聯(lián)分析,分析出的也是維間規(guī)則。本文將讀者的屬性所在學院、年級信息和圖書類別三級目錄屬性多維屬性通過編碼自連接的方式整合成單維屬性,運用weka3.8.0數(shù)據(jù)挖掘工具Apriori算法不僅挖掘出維間規(guī)則,同時挖掘出混合維關聯(lián)規(guī)則,分析出更多潛在的信息,為圖書館更好地發(fā)展提供豐富的理論依據(jù)。
1關聯(lián)規(guī)則
1.1 關聯(lián)規(guī)則基本概念
關聯(lián)規(guī)則就是發(fā)現(xiàn)描述數(shù)據(jù)庫中數(shù)據(jù)項之間潛在的關聯(lián),找出大量數(shù)據(jù)之間未知的、有用的依賴關系。一個關聯(lián)規(guī)則是[X?Y]的形式,即[A1?A2?…?Am?B1?B2?…?Bn]規(guī)則樣式,其中[Ai和Bj均為屬性值],[X?Y]表明滿足X中條件的數(shù)據(jù)庫元組多半也滿足Y中的條件,X為規(guī)則的前項,Y稱為結果的后項。
定義1:數(shù)據(jù)項和事務
設[I=i1,i2,...,im]是m個不同項目的一個集合,每個[ikk=1,2,...,m]稱為數(shù)據(jù)項(Item),數(shù)據(jù)項的集合I稱為數(shù)據(jù)項集。
事務T(Transaction)是數(shù)據(jù)項集I上的一個子集,即[T?I]。每個事務均有一個唯一的標識符TID與之相聯(lián),不同事務的全體構成了全體事務集D(即事務數(shù)據(jù)庫)[6]。
定義2:支持度和置信度
關聯(lián)規(guī)則的支持度就是事務集中同時包含X和Y出現(xiàn)的概率,即:
[SupportX?Y=P(X?Y)]
關聯(lián)規(guī)則的置信度就是在數(shù)據(jù)集X出現(xiàn)的前提下Y出現(xiàn)的概率,即:
[ConfidenceX?Y=P(Y|X)]
定義3:提升度
由于支持度和置信度不足以過濾掉一些無用的關聯(lián)規(guī)則,再引入提升度作為度量參數(shù),提升度是含有X的條件下同時含有Y的概率與Y總體發(fā)生的概率之比,即:
[LiftX?Y=PY|X/P(Y)]
用來描述X對Y的影響力大小,若值小于1,意味著一個出現(xiàn)可能導致另一個不出現(xiàn),只有值大于1時的關聯(lián)規(guī)則才有意義[7]。
1.2多維關聯(lián)規(guī)則
關聯(lián)規(guī)則依照數(shù)據(jù)的維數(shù)可分為單維關聯(lián)規(guī)則和多維關聯(lián)規(guī)則。如規(guī)則[BookTP3?BookH2],其中TP3和H2是讀者借閱書籍的分類號,是屬于同一個屬性范圍,只有一個謂詞,這是單維關聯(lián)規(guī)則。涉及兩個屬性或兩個以上謂詞的關聯(lián)規(guī)則就是多維關聯(lián)規(guī)則。比如[Dept(X,計算機專業(yè))?Grade(X,"2")]
[?Book(X,"TP312")],這里就有三個謂詞(Dept、Grade和Book)。規(guī)則中的謂詞只出現(xiàn)一次稱為無重復謂詞,這樣的關聯(lián)規(guī)則稱為維間關聯(lián)規(guī)則(不允許維重復出現(xiàn)),另外一種允許維在規(guī)則的左右同時出現(xiàn)的,稱為混合維關聯(lián)規(guī)則,比如[Dept(X,計算機專業(yè)")?Book(X,"TP311")?Book(X,"I247")],規(guī)則前后項都出現(xiàn)了Book謂詞[8]。
2多維關聯(lián)規(guī)則在圖書館中數(shù)據(jù)挖掘
2.1數(shù)據(jù)采集
考慮2020年疫情原因,上半年沒有可用的借閱數(shù)據(jù),僅拉取2020年下半年的借閱流通數(shù)據(jù)作為數(shù)據(jù)源。因本次數(shù)據(jù)挖掘需要考慮讀者所在學院和年級,還選取了讀者庫和館藏清單用來提取讀者對應的學院和年級屬性、所借閱書籍分類號。在智慧借閱系統(tǒng)里選擇2020年9月份~2021年1月份的2017級~2020級大學四個年級4685名本科生36485筆借閱數(shù)據(jù)和對應的讀者庫和2000年以來的館藏清單數(shù)據(jù)。
2.2 數(shù)據(jù)的預處理
數(shù)據(jù)預處理是在分析之前對原始數(shù)據(jù)進行必要的清理、集成、轉換、歸約等一系列處理工作,本文重點在于對多維數(shù)據(jù)的處理,將多維數(shù)據(jù)形式通過編碼自連接的方式轉換為單維數(shù)據(jù)形式。
先對借閱流通數(shù)據(jù)做簡單清洗,刪除空白項、缺失項、無效項等數(shù)據(jù)行,再刪除其他無用的屬性列,包括圖書財產(chǎn)號列、借書還書時間列、操作人員列。通過讀者庫和館藏清單,將讀者的學院、年級和圖書分類號信息對應到讀者ID上,經(jīng)處理得到3660名本科生23326筆有效的借閱數(shù)據(jù)。構成一個新的讀者借閱流通表,如表1所示。
因直接對圖書分類號進行關聯(lián)分析,得到的數(shù)據(jù)是稀疏的,分析不出實際意義,需要對圖書分類號依照中圖法進行三級分類數(shù)據(jù)合并,對學院和年級進行簡化編碼,學院名稱統(tǒng)一簡化為首字母縮寫,年級統(tǒng)一用1、2、3、4來表示,如機械學院大四學生簡化為jx4。再通過屬性間邏輯與自連接的方式將讀者屬性與所借閱圖書分類號進行融合,將多維屬性轉換為單維屬性的形式,最終處理如表2所示。
根據(jù)Weka可以識別的數(shù)據(jù)形式,將此表建立事務數(shù)據(jù)庫,每個讀者借閱數(shù)據(jù)為一個事務項目,把每個讀者-圖書值列為一個數(shù)據(jù)項屬性,并保存為.csv格式。
2.3模型建立與分析
2.3.1模型建立
依照中圖法的22大類,將借閱圖書分類號的第一級大類分解出來,進行統(tǒng)計分析,借閱范圍大致分布如圖1。
從圖1可知,文學I類借閱量占整體的46%,借閱量比較大,將所借圖書類別一起進行關聯(lián)分析,其結果會出現(xiàn)關聯(lián)關系集中在文學類書籍上,不能深入挖掘出其他類別書籍關聯(lián)結果,為此我們把讀者借閱的模式分為2種類型:一種是借閱了I文學類書籍的讀者;另一種是借閱了非文學類書籍的讀者。
2.3.2 文學類讀者與圖書類別間關聯(lián)分析
應用Weka3.8.0數(shù)據(jù)挖掘工具[9],使用preprocess模塊打開需要分析的csv文件,選擇Associate關聯(lián)規(guī)則模塊,運用Apriori算法對參數(shù)進行設置,經(jīng)多次試驗選用lowerBoundMinSupport為0.5%,MetricType為Confidence,MinMetric為0.1,運行結果如表3和表4。
從表3關聯(lián)結果可以看出:
(1)文學類書籍屬于通識類書籍,大一、大二年級學生主要課程以基礎課為主,極少涉及到專業(yè)類課程,他們大多借閱書籍以文學類為主,各學院大一、大二年級的讀者有2%以上都借閱了文學類書籍,而大三、大四年級的讀者相對較少,不到1%,說明隨著專業(yè)課的開展和學習,讀者的偏好有所轉移,涉獵了更廣泛類別的書籍。
(2)其中文學類書籍最受歡迎的是I24中國文學小說和I56外國文學小說,70%以上讀者借閱了I24類書籍,25%以上讀者借閱了I56類書籍,而且各學院各年級都有借閱比例,尤其借閱比例高的是文法學院和機械學院讀者,且I56外國文學類書籍集中借閱在文法學院各年級。
(3)這些規(guī)則提升度都大于1,說明規(guī)則前項和后項是正相關關系,前項的出現(xiàn)都會有后項同時出現(xiàn),如{文法學院,大三}==>I56,提升度是2.97,意味著文法學院大一年級的讀者借閱I56類書籍是所有讀者隨機借閱I56類書籍的2.97倍。
從表4混合維關聯(lián)規(guī)則可知:
(1)財經(jīng)學院、機械學院、文法學院、物電學院大一新生借閱了I24中國小說類書籍的讀者有60%以上都同時借閱了I26中國散文集書籍,文法學院和財經(jīng)學院文科類學院學生涉及的類別相對較多些,財經(jīng)學院大一新生有88%讀者還同時借閱了I71外國文學類書籍,文法學院大一、大二學生有71%都借閱了I21中國作品集。
(2)這些規(guī)則提升度都在27.45以上,表明前項后項關聯(lián)性很強,如規(guī)則1,讀者是財經(jīng)學院大一新生借閱了I24類書籍,同時也借閱了I71類書籍的概率是讀者隨機借閱I71類書籍的45.79倍。
2.3.3 非文學類讀者與圖書類別間關聯(lián)分析
運用Weka3.8.0挖掘工具,選擇非文學類讀者借閱數(shù)據(jù)表進行分析,使用associate關聯(lián)規(guī)則模塊,對Apriori算法的參數(shù)進行設置,設置參數(shù)lowerBoundMinSupport為0.5%,MetricType為Confidence,MinMetric為0.1,挖掘結果如下表5和表6。
從表5關聯(lián)規(guī)則結果可知:
(1)非文學類書籍大多是偏專業(yè)性強的書籍,大多借閱集中在大三大四年級,借閱比例較高的有物電學院大三學生借閱了H31英語類書籍,數(shù)信學院大四學生借閱了O17數(shù)學分析類書籍,建藝學院大三學生借閱了TU98區(qū)域規(guī)劃類書籍,計算機學院大三學生借閱了TP31計算機軟件類書籍,機械學院大四學生借閱了TH12機械設計類書籍,但也有建藝學院和計算機學院大一大二學生也開始閱讀TU20建筑學一般性問題類書籍和TP31計算機軟件類書籍。
(2)因專業(yè)內容范圍的不同,有的學院學生借閱書籍類別比較單一,有些則涉及類別比較多樣,如數(shù)信學院大二、大三、大四學生有30%以上都借閱了O17數(shù)學分析類書籍,計算機學院大一、大二、大三、大四學生有34%以上都借閱了TP31類書籍,而且隨著年級提高借閱比例也提高,計算機學院大四學生有88%比例都借閱了TP31類書籍。物電學院大三學生都分別有31%借閱了H31英語類書籍,27%借閱了O44電磁學類書籍,20%借閱了TP31計算機類書籍,機械學院大四學生都分別有35%借閱了TG50機床加工類書籍,68%借閱了TH12機械設計類書籍,25%借閱了TP31計算機軟件類書籍。
(3)從提升度來看,有相當一部分關聯(lián)規(guī)則的提升度很高,表明因前項出現(xiàn)導致后項出現(xiàn)概率比后項隨機出現(xiàn)概率高許多,前后項有很強的關聯(lián)性,比如關聯(lián)規(guī)則{數(shù)信學院,大四}==>O17的提升度為49.13,數(shù)信學院,大四的學生借閱O17類書籍是任意學生借閱O17書籍的49.13倍。
從表6生成的關聯(lián)規(guī)則可知:
(1)因專業(yè)類知識學習也是逐漸遞增的過程,從基礎類專業(yè)到某方向類專業(yè),大多學生借閱了某類別的書籍后同時也會借閱同類別其他書籍,如機械學院大四學生借閱了TG50機床一般性問題,有60%借閱了TH12機械設計類和80%借閱了TH16機械制造工藝類書籍,計算機學院大三學生借閱了TP30計算機一般性問題,有100%借閱了TP3-0計算機理論類書籍和50%借閱了TP31計算機軟件類書籍,建藝學院大四學生借閱了TU-0建筑理論類書籍,有67%借閱了TU20建筑設計一般性問題和67%借閱了TU98區(qū)域規(guī)劃類書籍。
(2)有的學院專業(yè)知識比較集中,借閱書籍類別相對較少,如化工學院大四學生借閱了O65分析化學類書籍100%都會借閱O62有機化學類書籍,數(shù)信學院大四學生借閱了O15代數(shù)類書籍78%會借閱O17數(shù)學分析類書籍。
(3)因有的專業(yè)界限清晰,不會涉及跨專業(yè)類學科,分析出的關聯(lián)規(guī)則提升度超過100,如化工學院借閱的書籍是有關化學方面的,建藝學院借閱的書籍都是建筑設計類書籍,與其他學院專業(yè)知識基本無交叉,意味著只有化工學院的學生才會借閱O62、O65類書籍,只有建藝學院學生才會借閱TU建筑設計類書籍,這些關聯(lián)規(guī)則極強。
3 多維關聯(lián)規(guī)則在圖書館的應用分析
3.1 優(yōu)化館藏資源建設
通過對2020年下半年本科四個年級的圖書借閱數(shù)據(jù)分析,可以看出大概有近一半的學生都偏愛文學類書籍,尤其是低年級的大一和大二學生,本校目前只有一個文學庫,借此圖書館擴建時機,可以考慮增加書籍館藏量并增設文學庫,來滿足讀者對文學類書籍的需求。
依照讀者借閱書籍的關聯(lián)關系,還可以適當調整館藏布局,將借閱關聯(lián)度大的書籍就近放置,方便讀者尋找和閱讀。如I24、I56中外文小說類書籍深受讀者喜愛,可以適當優(yōu)化館藏布局,為讀者快速找到自己偏愛的書籍提供便利。
3.2 提供個性化服務
通過讀者大量的歷史借閱數(shù)據(jù),不僅分析出讀者與圖書的維間關聯(lián)性,還分析出讀者不同學院不同年級借閱圖書的混合維關聯(lián)關系,細化了讀者屬性,明確了讀者需求分布特征,可以更加精準地指導圖書館進行個性化推薦服務、個性化檢索和推送服務。如讀者是大一學生,都可以給讀者推薦I24、I56文學類書籍;計算機學院的學生,可以給讀者推薦TP31計算機軟件類書籍;機械學院大四的學生,都可以推薦TH12機械設計類書籍和TP31計算機類書籍,如果讀者借閱過TG50機床類書籍,且是機械學院大四的學生,可以給讀者推薦TH12機械設計類書籍。建立圖書推薦系統(tǒng),將被動服務變?yōu)橹鲃臃眨鲃痈鶕?jù)數(shù)據(jù)分析結果預測讀者可能喜愛的書籍,不僅可以縮短讀者借閱圖書的時間,還可以快速找到讀者偏愛的書籍,節(jié)約了讀者的時間,同時也提高了書籍流通率和借閱率,將圖書館的價值充分發(fā)揮出來。
3.3 學科服務
通過讀者不同學院不同年級對借閱書籍的關聯(lián)規(guī)則,可以找出不同讀者對借閱的圖書類別的分布特征,可以與所在學院和年級進行合作,開展一些文獻信息咨詢服務和文獻資源分布指南培訓等活動,并嵌入到學院、教學第一線的信息素養(yǎng)教育中,使讀者更深入地了解圖書館資源信息分布,使資源被充分利用起來。也從中挖掘出學科間隱藏的關聯(lián),可以引導讀者拓寬閱讀范圍,為跨學科建設指明方向。
4 結論
本文以讀者屬性所在學院、年級、所借閱圖書來建立挖掘的體系架構,不僅細化了讀者屬性,也將圖書的類別依照中圖法劃分成三級類目,將多維屬性通過編碼自連接的方式轉換成單維屬性,運用Weka3.8.0數(shù)據(jù)挖掘工具進行多維關聯(lián)規(guī)則數(shù)據(jù)挖掘,分析出維間規(guī)則和混合維規(guī)則豐富的潛在信息,其結果不僅可以指導圖書館優(yōu)化館藏資源建設,還可以為讀者提供更精準的個性化服務和學科服務。但本文僅使用了關聯(lián)規(guī)則一種數(shù)據(jù)挖掘技術,在以后的研究中應加入更多的數(shù)據(jù)挖掘技術如聚類分析、分類分析、神經(jīng)網(wǎng)絡、隨機森林等算法,挖掘出更多潛在和可用的信息,以此來進一步指導高校圖書館發(fā)揮更大的服務職能。
參考文獻:
[1] 馮磊.大數(shù)據(jù)挖掘在高校圖書館個性化服務中應用研究[J].圖書館學刊,2019,41(1):109-112.
[2] 侯賀.基于關聯(lián)規(guī)則的圖書館流通數(shù)據(jù)挖掘——以深圳大學城圖書館為例[J].圖書館學刊,2017,39(2):107-111.
[3] 聶飛霞,陳長明.Apriori算法在圖書館典藏規(guī)劃中的應用[J].情報探索,2018(7):30-35.
[4] 陳淑英, 徐劍英.關聯(lián)規(guī)則應用下的高校圖書館圖書推薦服務[J].圖書館論壇,2018 (2):97-102.
[5] 王蕾, 高翔.借閱行為大數(shù)據(jù)應用于高校圖書館服務創(chuàng)新的路徑分析[J].大學圖書館情報學刊, 2020(11):107-120.
[6] 鄭繼剛. 數(shù)據(jù)挖掘及其應用研究[M].昆明:云南大學出版社,2014.
[7] 李珺, 劉鶴. 基于改進的K-means算法的關聯(lián)規(guī)則數(shù)據(jù)挖掘研究[J].小型微型計算機系統(tǒng),2021(1):15-19.
[8] 溫海波.多維關聯(lián)規(guī)則在圖書館中的應用研究[D].合肥:合肥工業(yè)大學,2013: 9-11.
[9] 周捷, 章增安.基于大數(shù)據(jù)的高校圖書館個性化推薦書目生成研究[J].晉圖學刊,2017(5):29-33.
【通聯(lián)編輯:王力】
收稿日期:2021-04-10
基金項目:河南理工大學人文社科基金資助,年度項目“改進Apriori算法在圖書館信息知識發(fā)現(xiàn)中應用分析”(項目編號:722618/172)
作者簡介:李華群(1985—),女,河南省焦作市人,河南理工大學圖書館助理館員,碩士研究生,主要研究方向:圖書情報、數(shù)據(jù)挖掘。