趙曉芳
(常州大學(xué)圖書館 江蘇·常州 213000)
采編工作直接關(guān)系到圖書館的館藏結(jié)構(gòu)質(zhì)量,隨著教育改革的不斷深入以及大數(shù)據(jù)時(shí)代的到來,對圖書采編工作創(chuàng)新提出了艱巨的任務(wù)和挑戰(zhàn)[1]。圖書采購是圖書采編的關(guān)鍵工作,如何充分發(fā)揮有限的資金投入,合理購買廣大師生真正需要的圖書,從而提高圖書資源的利用效率,直接影響到圖書館整體服務(wù)水平。傳統(tǒng)的采購計(jì)劃制定方法主要采用專家法和經(jīng)驗(yàn)法等,受到專家和館員的個(gè)人研究領(lǐng)域和喜好等主觀因素的影響,而且傳統(tǒng)的方法大多采用人工為主的方式進(jìn)行,具有工作量大、精準(zhǔn)度差、資金使用效率低等弊端。因此,制定圖書采購計(jì)劃應(yīng)結(jié)合學(xué)校學(xué)科和科研的發(fā)展需要,充分考慮全校師生的實(shí)際需求,對師生借閱記錄、訪問日志等進(jìn)行數(shù)據(jù)挖掘和建模,以模型結(jié)果為基礎(chǔ)制定圖書采購計(jì)劃,為高校圖書館圖書結(jié)構(gòu)優(yōu)化提供依據(jù)[2]。
數(shù)據(jù)挖掘(DM)是一種從大量數(shù)據(jù)中提取未知數(shù)據(jù)的過程。數(shù)據(jù)挖掘的流程是:首先,收集相關(guān)數(shù)據(jù),對數(shù)據(jù)進(jìn)行清理、集成、選擇和數(shù)據(jù)變換等預(yù)處理;其次,通過智能算法進(jìn)行數(shù)據(jù)挖掘和建模,并對模型有效性進(jìn)行評估;最后,對數(shù)據(jù)挖掘表現(xiàn)出來的知識進(jìn)行可視化呈現(xiàn)。高校圖書館具有大量館藏信息資源和讀者借閱與閱讀信息數(shù)據(jù),通過對這些數(shù)據(jù)進(jìn)行深度挖掘,使用聚類分析和關(guān)聯(lián)規(guī)則分析等方法,最終準(zhǔn)確掌握讀者信息,為圖書采編工作提供決策[3]。
聚類分析是依據(jù)某種規(guī)則將數(shù)據(jù)集劃分為不同的類別,將相似度較高的數(shù)據(jù)對象劃歸為同一類,并盡可能將不同類別的數(shù)據(jù)進(jìn)行分離。聚類分析的常見算法有層次聚類、k均值算法、EM算法和Optics聚類算法,其中k均值算法是目前用于劃分?jǐn)?shù)據(jù)中心聚類最廣泛應(yīng)用的算法之一,采用標(biāo)準(zhǔn)距離函數(shù)作為其相似性的度量和評價(jià)指標(biāo),對于對象與樣本間相似性進(jìn)行間接度量分析,對于對象之間距離相近的多個(gè)數(shù)據(jù)對象進(jìn)行多次迭代計(jì)算,把滿足精度要求的緊湊且獨(dú)立數(shù)據(jù)對象最終確定為聚類集。主要從兩個(gè)方面對圖書館借閱數(shù)據(jù)進(jìn)行聚類分析,一方面對讀者進(jìn)行聚類分析,可以很好地反映讀者整體閱讀興趣度,另一方面對圖書分類號進(jìn)行聚類分析,可以從側(cè)面反映讀者的閱讀趨勢,為圖書采購提高指導(dǎo)[4-6]。
1.讀者聚類分析
通過對某高校圖書館讀者借閱數(shù)據(jù)進(jìn)行收集,根據(jù)讀者借閱圖書數(shù)量進(jìn)行聚類分析。采用SPSS Modeler工具統(tǒng)計(jì)讀者借閱總體情況,如圖1所示。采用k均值算法對8568位讀者的借閱數(shù)據(jù)進(jìn)行聚類數(shù)據(jù)挖掘分析,本文首先設(shè)定初始數(shù)值k為10,采用k-means算法進(jìn)行計(jì)算,得到第一次聚類結(jié)果,對10個(gè)聚類距離中距離最近的類進(jìn)行合并,因此聚類中心數(shù)減少為9,同理重復(fù)上述方法,采用k-means算法進(jìn)行反復(fù)計(jì)算,直到評判函數(shù)值達(dá)到需要的精度為止,最終得到最優(yōu)的聚類結(jié)果。經(jīng)過多次計(jì)算,最終將k值設(shè)置為5,此時(shí)聚類效果最好,聚類挖掘效果如表1所示。根據(jù)聚類結(jié)果將讀者分成了5個(gè)大類。第一類(聚類-1)平均借閱圖書量只有1.95本,讀者人數(shù)占到讀者總數(shù)的62%,說明接近三分之二的讀者圖書借閱興趣不高,主要原因可能是讀者沒有去圖書館借書的興趣,也可能由于隨著互聯(lián)網(wǎng)+數(shù)字圖書館的迅猛發(fā)展,越來越多的人更傾向于網(wǎng)上查閱資料。因此圖書館應(yīng)多增加數(shù)字圖書和期刊等電子資源的采購力度,同時(shí)可以舉辦各種活動來提高讀者到圖書館借書的興趣。第二類(聚類-2)平均借閱圖書量為4.85本,讀者人數(shù)占總?cè)藬?shù)的四分之一,針對這類讀者,圖書館可以為他們提供有較強(qiáng)針對性的個(gè)性化服務(wù),不斷提高他們的閱讀興趣。第三類(聚類-3)平均借閱圖書量為7.76本,這類讀者數(shù)量不多,只占到9.8%。第四類(聚類-4)、第五類(聚類-5)平均借閱圖書量達(dá)到兩位數(shù),讀者人數(shù)最少,只有272人。這類讀者有著很廣泛的閱讀興趣,圖書館應(yīng)為他們提供圖書推薦服務(wù)。
圖1 讀者圖書借閱量直方圖
表1 讀者借閱情況挖掘結(jié)果
2.圖書分類號聚類分析
對圖書分類號進(jìn)行聚類分析可以了解各種圖書的受歡迎程度,從而為館藏建設(shè)提供理論指導(dǎo),基于圖書分類號對某高校圖書館的圖書借閱率進(jìn)行聚類分析,聚類結(jié)果如表2所示。由于圖書種類數(shù)較多,表3展示了部分分類號所屬聚類結(jié)果。利用k均值算法聚類,將258種圖書分類號進(jìn)行聚類分為3類。第一類(聚類-1)圖書借閱率僅為0.007,占總圖書量的比例達(dá)到17.5%,種類數(shù)達(dá)到77種,主要是政治類、經(jīng)濟(jì)類、綜合性圖書類等,這類圖書的借閱利用率較低,但藏書量較高,圖書館可以適當(dāng)減少這類圖書的采購量。第二類(聚類-2)圖書借閱率為0.02,占總圖書量的比例為67.8%,種類數(shù)有123種,主要是化學(xué)、機(jī)械、能源與動力工程、力學(xué)類、各國文學(xué)類等,這類圖書的利用率大體正常,說明這123種圖書的藏書量很適合當(dāng)前的借閱量。第三類(聚類-3)圖書借閱率為0.07,占總圖書量的比例為14.7%,種類數(shù)有58種,分別為計(jì)算機(jī)技術(shù)類、工程技術(shù)類、中國文學(xué)類、藝術(shù)類等,這類圖書的借閱利用率較高,但是藏書量較低,圖書館采購方面可以加大這類圖書的采購量。
表2 基于圖書借閱率的圖書分類號聚類分析結(jié)果
表3 各分類號所屬聚類結(jié)果(部分)
?
關(guān)聯(lián)規(guī)則分析是一種基于規(guī)則從數(shù)據(jù)集中尋找不同對象之間隱含關(guān)系的分析方法。采用關(guān)聯(lián)規(guī)則分析對讀者借閱圖書種類的進(jìn)行挖掘分析,可以對讀者同時(shí)借閱幾類圖書的可能性進(jìn)行預(yù)測,從而為圖書館圖書的擺放位置優(yōu)化提供理論指導(dǎo),為提高圖書的整體借閱率奠定基礎(chǔ)。采用Apriori算法對圖書館借閱數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,設(shè)置最小置信度為30%,設(shè)置最小支持度為0.5%,通過多次迭代計(jì)算共發(fā)現(xiàn)了38條關(guān)聯(lián)規(guī)則,讀者借閱數(shù)據(jù)的發(fā)掘結(jié)果如表4所示。
表4 借閱圖書分類號之間的關(guān)聯(lián)規(guī)則挖掘結(jié)果(部分)
從上述關(guān)聯(lián)規(guī)則挖掘分析結(jié)果可以看出,很多學(xué)科有同時(shí)借閱兩種及以上圖書的需要,如電子類專業(yè)的讀者除了借閱電子技術(shù)類圖書外一般都會借閱計(jì)算機(jī)技術(shù)類圖書,借閱藝術(shù)類和哲學(xué)類圖書的讀者大多會借閱語言文字類圖書,安全類等交叉學(xué)科專業(yè)的讀者除了借閱安全類圖書外一般還會借閱化工類、機(jī)械類、電子類等圖書,說明學(xué)科交叉是技術(shù)進(jìn)步的一大趨勢??傮w來看,文學(xué)類、計(jì)算機(jī)類和各種工業(yè)技術(shù)類圖書最受歡迎,圖書館可以重點(diǎn)關(guān)注這類圖書的采購。
第一,由數(shù)據(jù)發(fā)掘結(jié)果可知,62%左右的讀者紙質(zhì)圖書借閱量較低,建議圖書館加大電子期刊與圖書的采購力度,增加數(shù)字圖書館建設(shè)投入力度,滿足大多數(shù)讀者喜歡下載閱讀電子圖書的習(xí)慣。
第二,計(jì)算機(jī)技術(shù)類、工業(yè)技術(shù)類、中國文學(xué)類、藝術(shù)類等圖書的借閱利用率較高,但是藏書量較低,圖書館采購方面可以加大這類圖書的采購量。
第三,政治類、經(jīng)濟(jì)類、綜合性圖書類等,這類圖書的借閱利用率較低,但藏書量卻很高,圖書館可以適當(dāng)減少采購量。
第四,交叉學(xué)科類圖書借閱率較高,圖書館可以加大這類圖書的采購量。