廖宇峰
基于用戶數(shù)據(jù)挖掘的圖書采購模式研究*
廖宇峰
(廣東食品藥品職業(yè)學院,廣東 廣州 510520)
國內(nèi)圖書館人對基于用戶數(shù)據(jù)挖掘的圖書采購模式方面的研究做了一些探索。圖書采購決策過程中用戶數(shù)據(jù)挖掘的全過程包括收集數(shù)據(jù)、數(shù)據(jù)預處理、建立模型和結果調(diào)整。探討如何引入數(shù)據(jù)挖掘技術,深入挖掘用戶數(shù)據(jù),為圖書采購決策、管理和服務提供決策支持。
用戶數(shù)據(jù);數(shù)據(jù)挖掘;圖書采購;采購模式
作為學校的文獻信息交流和儲存中心,圖書館一直為學校的教學和科研提供服務。因此,高校圖書館的發(fā)展必須與學校的發(fā)展保持一致,除了專業(yè)教育,通識教育和終身學習習慣也是高校人才培養(yǎng)戰(zhàn)略的重要培養(yǎng)目標。圖書館的館藏資源建設必須與學校的專業(yè)設置、教學計劃緊密結合,在為學校提供專業(yè)文獻資源保障的同時,也為通識教育和終身學習習慣提供保障。
目前,圖書館的館藏資源建設所遇到的需要重點探討的問題,主要集中在怎樣構建快速、真實反映館藏結構分布、用戶實際需求和圖書利用率的動態(tài)圖書采購決策方案。
利用目前方興未艾的數(shù)據(jù)挖掘技術,可以在海量數(shù)據(jù)中迅速獲取到有價值的信息。本文將探討引入數(shù)據(jù)挖掘技術,深入挖掘用戶數(shù)據(jù),以期幫助館藏文獻資源的建設,充分掌握館藏文獻資源的建設動態(tài),更好地開展圖書采購業(yè)務,充分保障用戶的知識獲取權益。
部門內(nèi)部的采編工作人員按照采購計劃,根據(jù)各個渠道獲取書目,按照館藏建設制度,挑選合適的書目。由于多個工作人員的知識結構不同,一定程度上增加了選書的多樣性,但因為人員素質(zhì)不盡相同,可能導致效率低下、選書標準差異分化嚴重。此外,因長期沒接觸一線流通工作,導致采編工作人員與用戶溝通不多,不能完全理解用戶的需求。
用戶薦購也稱為PDA 模式(Patron-Driven Acquisition),用戶可依據(jù)圖書館給出的清單挑選圖書,也可以自選書目,利用現(xiàn)場填寫書單,電子郵箱、電話、微信和QQ等方式告知采購工作者完成圖書推薦過程。目前有條件的圖書館也開始推廣“圖書薦購系統(tǒng)”,用戶可以隨時隨地在系統(tǒng)中選擇圖書,后臺也可以隨時獲取用戶需求清單。
“用戶薦購方式”在很大程度上可以滿足用戶的需求,但是一般用戶只是按照自己的想法來選擇圖書,具有一定的片面性、隨機性和偶發(fā)性。此外用戶薦購數(shù)量無法與館藏建設規(guī)劃相比,只能作為圖書館采購圖書的一種補充。
書展一般展示的是熱門書籍和暢銷書籍,而館配會現(xiàn)場的圖書數(shù)量也有限制。圖書館組織人員參加書展和館配會,是對紙質(zhì)館藏的一種有益補充,但是無法解決專業(yè)性強、全面而且有深度的圖書采購。同時,因為經(jīng)費的問題,參與現(xiàn)場采購的人員不可能數(shù)量太多,因受限于各自的知識面,因此也只能滿足少部分用戶的需求。
正常情況下,用戶一般都會按需借閱,因此本館的用戶借閱數(shù)據(jù)基本能反映用戶的實際需求。后臺工作人員可以根據(jù)歷史借閱數(shù)據(jù),統(tǒng)計分析出用戶的偏好和興趣,為圖書的采購工作提供一定的科學依據(jù)。
對于高校圖書館而言,圖書館的紙書采購必須與學校的長遠規(guī)劃和專業(yè)設置相匹配,一旦學校開設了新專業(yè),高校圖書館也必須增加相關的專業(yè)書籍;而如果高校希望增加學生的通識教育,圖書館也理應增加相關的書籍,以配合學校教學、科研和全面育人的戰(zhàn)略規(guī)劃。
而對于公共圖書館而言,圖書采購必須充分考慮當?shù)乇O(jiān)管部門的發(fā)展戰(zhàn)略和規(guī)劃,例如廣州致力于新一代信息技術、人工智能、生物醫(yī)藥和新能源、新材料等新興產(chǎn)業(yè)的發(fā)展,因此相關地區(qū)的公共圖書館應該適當增加相應的藏書,以配合廣州的發(fā)展規(guī)劃,促進相關知識的廣泛傳播。
根據(jù)市面上紙質(zhì)圖書的出版規(guī)律,紙書的價值一般會隨著時間的推移而降低,這在一些發(fā)展迅猛的高新技術類圖書上更為明顯。圖書出版時間是采購人員需要重要考量的因素。同時因為經(jīng)費有限,所以大多數(shù)圖書館也會將圖書的價格考慮進去,以達到效益最大化。
隨著信息技術如火如荼的發(fā)展,圖書館獲取和挖掘用戶的數(shù)據(jù)變得越來越科學和便利。深度挖掘用戶數(shù)據(jù),可以全方位獲取到用戶的真正需求,因此,用戶數(shù)據(jù)已經(jīng)成為越來越多圖書館制訂采購書單時的重要決策依據(jù)。
通過對用戶數(shù)據(jù)進行深入挖掘,進而形成重要的報告,不僅可以事前為圖書采購提供依據(jù),同時在事后可以作為圖書采購質(zhì)量的評判標準。在對用戶數(shù)據(jù)進行深入挖掘分析之后,制定圖書采購計劃,確定圖書的類型比例,同時在過程中可以糾正偏差,有效提高所購圖書的針對性,充分保障用戶的需求,同時保持館藏資源建設的動態(tài)平衡。因此,基于用戶數(shù)據(jù)挖掘的采購模式已經(jīng)越來越受到廣大圖書館采購工作者的關注。
目前大部分高校圖書館都會自建具有學校特色的專業(yè)數(shù)據(jù)庫或者購買知網(wǎng)、萬方、超星之類的學術數(shù)據(jù)庫,這些數(shù)據(jù)庫內(nèi)容豐富,囊括了電子報刊、電子書、試題庫和學習庫等電子資源。用戶利用此類數(shù)據(jù)庫的記錄,可以在很大程度上反映需求狀況和閱讀偏好。
用戶的借閱數(shù)據(jù),例如用戶借閱類目、借閱時間、借閱偏好和借閱數(shù)量等借閱數(shù)據(jù),為圖書館館藏結構的科學性和合理性提供一定的依據(jù)。
用戶需求信息包括用戶通過“薦購系統(tǒng)”、圈選清單或者QQ、微信發(fā)送給圖書館的實際圖書需求。因此必須發(fā)動師生用戶,積極參與到館藏資源建設中,圖書館準確地掌握用戶的真實需求。特別是學校的學科專家、科研人員提交的圖書需求信息,館內(nèi)工作人員應該特別加以關注。此外,也應該注意收集用戶與館員在溝通交流中產(chǎn)生的一些隱含需求信息。高校教師獲取館藏文獻資源主要用于教學和科研,而科研需求在研究型院校中尤為明顯。對于學生用戶而言,低年級學生獲取館藏文獻資源主要是為了了解與專業(yè)相關的知識,或者通過課外學習增加全方面的知識儲備,而碩士、博士借閱圖書主要是希望有助于開展科研。
學科建設數(shù)據(jù)主要通過全校專業(yè)設置情況、重點專業(yè)、各專業(yè)師生數(shù)量等數(shù)據(jù)進行描述。重點專業(yè)是學校學科建設的重中之重,一定程度上體現(xiàn)了一所大學的辦學傳統(tǒng)和優(yōu)勢,而新增專業(yè)是各個大學專業(yè)建設新的突破口和新的增 長點。
在圖書館的自動化管理系統(tǒng)中,保存著圖書館全部的圖書流通記錄,包括各專業(yè)相關的圖書借閱情況、按分類號統(tǒng)計的各類圖書借閱情況、每種圖書的續(xù)借情況、各學科館藏占比(各個不同的學科與圖書館所有的館藏數(shù)量的比例)、某圖書的借閱率與該圖書所在學科的平均借閱率的比較數(shù)據(jù),該數(shù)據(jù)可以充分反映某學科內(nèi)的熱門和冷門圖書,從而反映用戶的需求。
OPAC檢索信息中包含著非常龐大的用戶需求,此類信息包含用戶檢索字段的頻率、檢索時間、點擊瀏覽具體類目情況,甚至還有用戶的所屬專業(yè)、性別和年級等信息。此類數(shù)據(jù)能夠全方位地了解檢索者的需求和借閱偏好,非常有助于對用戶需求進行深度挖掘。
除上述數(shù)據(jù)以外,圖書館的整體館藏數(shù)據(jù)、大型出版社信息、供應商信息、著者信息和新書書目數(shù)據(jù)對于數(shù)據(jù)挖掘也具有重要的意義。例如著者信息,不同著者知識結構、職稱和科學人文素養(yǎng)不盡相同,名家經(jīng)典、權威專業(yè)人士的質(zhì)量總體會更高一點,因此,著者信息也是必不可少的因素之一;而新書書目數(shù)據(jù)需要盡量做到覆蓋面廣、保證時效、書目信息完整,否則會影響到數(shù)據(jù)挖掘的效果。
收集圖書館的大數(shù)據(jù)尤其是用戶數(shù)據(jù),包括本館電子資源使用記錄、用戶借閱數(shù)據(jù)、用戶需求信息、學校專業(yè)建設數(shù)據(jù)、圖書流通記錄、OPAC檢索信息和其他相關數(shù)據(jù)等數(shù)據(jù),然后導入到SQLServer數(shù)據(jù)庫中開始數(shù)據(jù)預處理[3],刪除冗余、不完整和噪聲較多的不科學、不準確的數(shù)據(jù);同時剔除已經(jīng)失效的用戶信息,最后將預處理后的數(shù)據(jù)表導入到SPSS Clementine軟件中建立模型;最后依據(jù)導出的結果,反饋給用戶,進行結果調(diào)整。用戶數(shù)據(jù)挖掘模式如圖1所示。
圖1 用戶數(shù)據(jù)挖掘模式
圖書館在館藏資源信息化建設過程中,產(chǎn)生了大量蘊藏著對于圖書館來說價值連城的數(shù)據(jù),包括結構化、半結構化和非結構化數(shù)據(jù),包括本館電子資源使用記錄、用戶借閱數(shù)據(jù)、用戶需求信息、學校專業(yè)建設數(shù)據(jù)、圖書流通記錄、OPAC檢索信息和其他相關數(shù)據(jù)等數(shù)據(jù)。
收集本館電子資源使用記錄、用戶借閱數(shù)據(jù)、用戶需求信息、學校專業(yè)建設數(shù)據(jù)、圖書流通記錄、OPAC檢索信息和其他相關數(shù)據(jù)。這些數(shù)據(jù)可以通過圖書館自動化管理系統(tǒng)以標準格式導出,然后導入到SQLServer 數(shù)據(jù)庫中進行數(shù)據(jù)預處理,刪除冗余缺漏、不完整和噪聲較大的不準確數(shù)據(jù)。
數(shù)據(jù)預處理過程中,應對所獲取數(shù)據(jù)進行統(tǒng)一處理,刪除其中的異常數(shù)據(jù),同時進行填補缺漏,確保數(shù)據(jù)格式的一致性;因數(shù)據(jù)來源各不相同,所以需要將數(shù)據(jù)格式進行相應統(tǒng)一轉(zhuǎn)換;合并重復的數(shù)據(jù),確保關鍵數(shù)據(jù)的準確性、完整性和有序性。
決策樹算法通過標引數(shù)據(jù)中的獨特、顯著特征,并根據(jù)這些特征進一步縮小數(shù)據(jù)集,直到建立清晰、完整的相關性。該算法可以對源數(shù)據(jù)中的信息做出科學、明確預測;聚類能夠查找多維空間中數(shù)據(jù)的自然分組,為用戶呈現(xiàn)數(shù)據(jù)更直觀的一般分組[4]。
SPSS可將用戶各種相關的數(shù)據(jù)嚴格地按照要求進行全方位、多角度的整體綜合分析,從而深入挖掘用戶對館藏圖書的真實需求,最后根據(jù)反饋結果調(diào)整本館圖書采購策略,豐富、完善整體館藏結構,進一步提高圖書資源的利用率,更好地實現(xiàn)用戶的需求和完成本館的工作目標。
在SPSS工具中利用分類和回歸樹(C&RT)算法來構建決策樹,對之前預處理過的用戶信息進行深入地數(shù)據(jù)挖掘。具體操作路線:將預處理后的結果導入到SPSS Clementine軟件中建立模型;然后將各個數(shù)據(jù)源節(jié)點、導出節(jié)點、過濾節(jié)點、類型節(jié)點、分布圖節(jié)點和C&RT節(jié)點依次連接起來,按照既定方針配置各個參數(shù);最后執(zhí)行數(shù)據(jù)分析處理程序。
按照之前的部署,將各個相關數(shù)據(jù)導入并進行數(shù)據(jù)挖掘后,導出完整的結果報表,這份價值連城的結果報表可為工作人員提供科學、嚴瑾和全面的采購決策。
系統(tǒng)不僅能通過決策樹方法為圖書采購工作提供決策依據(jù),而且還設計出新書書目,同時可以吸引潛在的用戶群。圖書采購工作人員可以把導出的新書目發(fā)送給學校的師生用戶,讓這些用戶再次挑選、評估新書目。根據(jù)用戶們的反饋,工作人員可以對決策結果進行人工干預和修正。系統(tǒng)不僅能夠提供科學工具分析后的決策,而且還能讓廣大用戶群體直接參與到采購評估工作中,兩者相輔相成,進一步提高新書采購的科學性和合理性。
數(shù)據(jù)挖掘是圖書館信息化決策系統(tǒng)的重要組成部分,如何充分利用信息技術、發(fā)揮圖書館工作人員的主觀能動性和創(chuàng)造性,構建科學而高效的數(shù)據(jù)挖掘系統(tǒng)是一個現(xiàn)代化的圖書館必須面對和研究的課題。越來越多的案例證明,利用數(shù)據(jù)挖掘技術為圖書采購提供決策依據(jù),不僅可以顯著地提高新書采購質(zhì)量,同時也有助于圖書館能夠采購到學校和用戶都需要的圖書。本文探討了基于用戶數(shù)據(jù)挖掘的圖書采購模式,為圖書采購決策、管理和服務提供決策支持,是信息技術在圖書采購領域的一次有益嘗試。
[1]宋宇.基于數(shù)據(jù)挖掘的圖書采購模型研究[J].圖書館學研究,2014(17):53-55.
[2]王芙蓉.大數(shù)據(jù)環(huán)境下基于讀者決策的圖書館文獻資源采購模型研究[J].圖書館學研究,2017(12):54-59.
[3]廖宇峰.基于用戶數(shù)據(jù)挖掘的圖書館圖書采購模式研究[J].情報探索,2017(4):31-34.
[4]孫元軍,鄭新奇.基于SQL Server的城市地籍空間數(shù)據(jù)挖掘探討[J].計算機工程與應用,2007(13):200-202.
2095-6835(2020)10-0118-03
G253.1
A
10.15913/j.cnki.kjycx.2020.10.052
廖宇峰,男,碩士,廣東食品藥品職業(yè)學院圖書館館員。
2016年廣東省圖書館科研課題“基于用戶數(shù)據(jù)挖掘的圖書采購模式研究”(編號:GDTK1611)的研究成果之一
〔編輯:嚴麗琴〕