程 靜 于亞秀 汪志莉
(華東師范大學(xué)圖書館,上海 200062)
高校圖書館本身就是一個大數(shù)據(jù)的生產(chǎn)者。隨著信息技術(shù)的高速發(fā)展,圖書館數(shù)字化與信息化進程不斷加深,圖書館在這一進程中積累了大量的數(shù)據(jù)。其中包括讀者記錄、書目記錄、館藏記錄、流通日志、館藏統(tǒng)計報告、流通活動報表等,以及電子閱覽室上機日志、研究室管理系統(tǒng)日志、自助文印系統(tǒng)日志、圖書館通道機進出館日志等。數(shù)據(jù)的活力與價值在于數(shù)據(jù)交換中各類數(shù)據(jù)的聯(lián)動,數(shù)據(jù)挖掘則透過事件的表象找到潛在的規(guī)律以及看似無關(guān)事物之間背后的聯(lián)系,以此來洞悉未來[1]。圖書館數(shù)據(jù)具有多樣性、復(fù)雜性的特點。如何對這些數(shù)據(jù)進行收集、提煉和挖掘,為圖書館的管理決策和服務(wù)提升提供數(shù)據(jù)支撐,成為圖書館數(shù)據(jù)服務(wù)的關(guān)鍵內(nèi)容。而信息可視化表達為圖書館數(shù)據(jù)服務(wù)研究提供了新的視角。筆者以可視化為基礎(chǔ),重點探討可視化技術(shù)在高校圖書館利用數(shù)據(jù)服務(wù)領(lǐng)域的研究應(yīng)用,以期為高校圖書館的數(shù)據(jù)服務(wù)提供一定借鑒。
“可視化”(Visualize 或 Visualization)全稱“科學(xué)計算可視化”,最早是在1987年美國國家科學(xué)基金會召開的“科學(xué)計算可視化研討會”上提出的,經(jīng)過30 多年的發(fā)展,可視化已經(jīng)發(fā)展成為一個非常活躍的領(lǐng)域[2]。可視化是運用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來并進行交互處理的技術(shù),它涉及計算機圖形學(xué)、圖像處理、計算機輔助設(shè)計、計算機視覺及人機交互技術(shù)等多個領(lǐng)域[3]。可視化能將信息和數(shù)據(jù)轉(zhuǎn)化成便于人們感知的圖形、圖像、符號、顏色、視頻和動畫等,增強信息和數(shù)據(jù)的辨識度,大大加快了人們對信息和數(shù)據(jù)的處理速度。
可視化技術(shù)在數(shù)十年的發(fā)展過程中出現(xiàn)了很多研究名詞,如科學(xué)計算可視化、數(shù)據(jù)可視化、信息可視化、知識可視化等。這些概念相互交錯,并非完全獨立的研究領(lǐng)域,相互之間都有密切的聯(lián)系。筆者研究的數(shù)據(jù)可視化(Data visualization)是指借助計算機學(xué)、圖形學(xué)的基本原理,將數(shù)據(jù)轉(zhuǎn)化為靜態(tài)或動態(tài)圖像或圖形,并允許用戶通過交互手段控制數(shù)據(jù)的抽取和畫面顯示,將隱性知識顯性化,從而便于人們分析、理解數(shù)據(jù),從而挖掘出新的知識、發(fā)現(xiàn)新的規(guī)律[4]。高校圖書館作為典型的知識密集型組織,存儲著大量數(shù)據(jù)。這些數(shù)據(jù)體量大、來源廣、價值密度低,主要具有以下兩個特點:①多源異構(gòu)。隨著計算機技術(shù)和網(wǎng)絡(luò)大數(shù)據(jù)的不斷發(fā)展,電子資源和網(wǎng)絡(luò)信息資源逐漸成為圖書館館藏資源的重要組成部分。這些資源來源多元,表現(xiàn)為不同類型、不同介質(zhì)和不同格式,多以異構(gòu)信息為主,包括系統(tǒng)異構(gòu)、語法異構(gòu)、結(jié)構(gòu)異構(gòu)和語義異構(gòu)等。這也意味著信息可視化對象來源的多元。因此需要對數(shù)據(jù)進行統(tǒng)一形式的可視化呈現(xiàn),實現(xiàn)多源異構(gòu)數(shù)據(jù)的形象展示和綜合分析,以契合用戶的需求[5]。②結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化并存。在大數(shù)據(jù)背景下,圖書館的人文數(shù)據(jù)資源發(fā)生了重構(gòu)。從開始的以O(shè)racle、SQL Server、DB2 等關(guān)系型數(shù)據(jù)庫進行管理的結(jié)構(gòu)化數(shù)據(jù),向半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)擴展。結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)通常能用普通的XML模式來描述,非結(jié)構(gòu)化的數(shù)據(jù)可以運用相應(yīng)的非關(guān)系型數(shù)據(jù)庫進行數(shù)據(jù)的管理。例如可以運用Dynamo數(shù)據(jù)庫來管理鍵值數(shù)據(jù),運用Hbase數(shù)據(jù)庫來管理列存數(shù)據(jù),運用OrientDB 數(shù)據(jù)庫來管理圖存數(shù)據(jù),運用MongoDB數(shù)據(jù)庫來管理文檔數(shù)據(jù)[6]。
將可視化的理論、技術(shù)與方法應(yīng)用到高校圖書館利用數(shù)據(jù)服務(wù)研究中,將隱性知識顯性化,可以拓寬高校圖書館的服務(wù)渠道??梢暬瘜Ω咝D書館利用數(shù)據(jù)服務(wù)包括3層層級遞進作用:①信息表達功能??梢暬哂幸徽紫到y(tǒng)的理論和方法,為高校圖書館的數(shù)據(jù)資源提供一系列有效的可視化展示與呈現(xiàn),減輕認(rèn)知負(fù)擔(dān),從而提高信息傳遞的速度與質(zhì)量。②數(shù)據(jù)的全局性展示??梢暬ㄟ^分析框架、理論和模型能夠壓縮大量的信息,為海量數(shù)據(jù)資源提供全局可視化表達,實現(xiàn)資源整合、信息融合,有效解決信息時代讀者面臨的數(shù)據(jù)激增、信息爆炸等難題。③增強和幫助發(fā)現(xiàn)事物的本質(zhì)??梢暬夹g(shù)通過各種圖解手段構(gòu)建和傳達復(fù)雜信息資源,將隱性資源顯性化、復(fù)雜數(shù)據(jù)簡單化、抽象知識具象化,從而幫助讀者更好地理解和應(yīng)用這些數(shù)據(jù)資源,促進數(shù)據(jù)理解、實現(xiàn)數(shù)據(jù)的增值。
可視化對高校圖書館利用數(shù)據(jù)服務(wù)的意義主要體現(xiàn)在3 個方面:①直觀、形象和易理解。視覺是人類最重要的感知,人腦所能接受的外界信息90%以上源于人眼的視覺感知[7],有效的視覺描述可以幫助人們?yōu)g覽并理解數(shù)據(jù)中包含的信息,而高質(zhì)量的信息圖表能比文字更快速地被理解。通過合理的組織、創(chuàng)建數(shù)據(jù)結(jié)構(gòu)以及提供有意義的數(shù)據(jù)描述,可以將數(shù)據(jù)轉(zhuǎn)化為讀者更容易理解的探索形式。②促進資源整合。可視化為高校圖書館的數(shù)據(jù)資源整合提供了一種途徑,尤其是異構(gòu)資源整合,利用可視化技術(shù)可將復(fù)雜數(shù)據(jù)集合以精簡的圖形、文字、數(shù)字相結(jié)合的方式展現(xiàn),將資源聚合為一個可視化的關(guān)聯(lián)知識網(wǎng)絡(luò),使讀者快速了解數(shù)據(jù)所要展現(xiàn)的內(nèi)容,認(rèn)識并理解大量的信息。③促進資源的深度揭示和增值探索??梢暬哪繕?biāo)是對事物本質(zhì)的洞悉,而非可視化結(jié)果圖像本身。通過圖形、圖像的視覺效果直觀展示大規(guī)模的數(shù)據(jù)、信息和知識及其內(nèi)部的特征和規(guī)律,將一些隱性的、不易被人發(fā)現(xiàn)的知識和信息顯性化,有利于讀者發(fā)現(xiàn)各種信息資源之間的關(guān)聯(lián)和潛在規(guī)律,有效促進數(shù)據(jù)資源的理解、交互、利用和創(chuàng)新,為分析推理、發(fā)現(xiàn)規(guī)律和決策支持提供幫助。
華東師范大學(xué)圖書館利用數(shù)據(jù)主要包含來自圖書館自動化系統(tǒng)中的讀者記錄、書目記錄、館藏記錄、流通日志、館藏統(tǒng)計報告、流通活動報表等,以及電子閱覽室上機日志、研究室管理系統(tǒng)日志、自助文印系統(tǒng)日志、圖書館通道機日志、微信刷卡日志等。以上數(shù)據(jù)來源各異,除圖書館自動化系統(tǒng)外,還有電子閱覽系統(tǒng)、研究室管理系統(tǒng)、自助文印系統(tǒng)、門禁系統(tǒng)等。通過數(shù)據(jù)清洗,刪除冗余、不完整和噪聲較多的不科學(xué)、不準(zhǔn)確數(shù)據(jù),將以上異構(gòu)數(shù)據(jù)資源整合,統(tǒng)一導(dǎo)出到SQL Server數(shù)據(jù)庫中進行處理,通過可視化技術(shù)將整合后的數(shù)據(jù)集統(tǒng)一展示。
經(jīng)過整合的數(shù)據(jù)主要分為4 個部分:館藏數(shù)據(jù)、借閱歷史記錄數(shù)據(jù)、讀者個人信息數(shù)據(jù)、讀者入館記錄數(shù)據(jù)。館藏數(shù)據(jù)包括圖書館館藏書目的具體信息,如館藏代碼、館藏類型、館藏地點、館藏狀態(tài)、館藏記錄號碼、索書號、條碼、編目日期、文獻形態(tài)、題名、主要責(zé)任者、版本、ISBN 號等信息。將館藏數(shù)據(jù)導(dǎo)出為館藏數(shù)據(jù)庫,數(shù)據(jù)庫表結(jié)構(gòu)見表1。
表1 館藏庫數(shù)據(jù)表結(jié)構(gòu)
借閱歷史記錄數(shù)據(jù)記錄了讀者發(fā)生借閱行為的時間、館藏記錄號碼、書目記錄號碼、借閱活動類型(借閱、歸還、續(xù)借、預(yù)約)、讀者號碼(讀者在自動化系統(tǒng)的唯一標(biāo)識符)。將借閱歷史記錄數(shù)據(jù)導(dǎo)出為借閱歷史數(shù)據(jù)庫,數(shù)據(jù)庫表結(jié)構(gòu)見表2。
表2 借閱歷史庫數(shù)據(jù)表結(jié)構(gòu)
讀者個人信息數(shù)據(jù)記錄了讀者的姓名、學(xué)號、院系、讀者類型(教師、本科生、研究生、碩士、博士等)、讀者號碼、建檔日期、讀者身份有效期限、通訊地址、電子郵箱等。將讀者個人信息數(shù)據(jù)導(dǎo)出為讀者數(shù)據(jù)庫,數(shù)據(jù)庫表結(jié)構(gòu)見表3。
表3 讀者庫數(shù)據(jù)表結(jié)構(gòu)
讀者入館記錄數(shù)據(jù)來源于圖書館門禁系統(tǒng),包括刷校園卡數(shù)據(jù)、刷微信入館數(shù)據(jù)、刷臉入館數(shù)據(jù)。將以上數(shù)據(jù)進行匯總,統(tǒng)一為讀者入館數(shù)據(jù),包括讀者學(xué)號、姓名、讀者類型、入館時間、門禁閘機號。將讀者入館數(shù)據(jù)導(dǎo)出為入館數(shù)據(jù)庫,數(shù)據(jù)庫表結(jié)構(gòu)見表4。
表4 入館數(shù)據(jù)庫數(shù)據(jù)表結(jié)構(gòu)
高校圖書館服務(wù)對象主要為教師和學(xué)生,通過分析圖書館數(shù)據(jù),能夠為圖書館館藏發(fā)展、藏書布局、流通借閱規(guī)則設(shè)置、服務(wù)人員配置提供參考;為讀者提供更好的服務(wù),更好地滿足讀者的需求。同時,通過數(shù)據(jù)分析與可視化呈現(xiàn),能夠展示讀者的閱讀傾向,為讀者的閱讀選擇及學(xué)校相關(guān)工作提供有價值的參考。
通過讀者借閱數(shù)據(jù)挖掘與分析,可以了解讀者的借閱傾向,分析讀者的借閱心理,構(gòu)建精準(zhǔn)化閱讀推廣體系,利用讀者的借閱偏好主動推送相應(yīng)的書籍[8],進一步推進以讀者為中心、以讀者需求為驅(qū)動的一體化服務(wù)[9]。讀者借閱數(shù)據(jù)的挖掘分析主要包含每日借閱情況、各時段借閱情況、各類讀者借閱對比分析、學(xué)校各院系借閱情況/傾向、中/外文借閱分類分布、從未借出館藏分布情況、館藏與借閱關(guān)系分析、館藏總價與借閱總價對比分析等。
(1)每日借閱情況:1 個自然年內(nèi)每天的外借人次及外借冊數(shù)統(tǒng)計分析;
(2)各時段借閱情況:以小時為單位,分析1天24小時的借閱活動活躍程度;
(3)各類讀者借閱對比分析:將讀者分為本科生、研究生、博士生、教職工4 類,以年度借閱冊數(shù)對各類讀者的借閱情況進行量化、對比分析;
(4)學(xué)校各院系借閱情況/傾向:以學(xué)校各院系為單位,分析其借閱人數(shù)占總?cè)藬?shù)比例、人均借閱量、借閱館藏類型分布等,并進行本科生、研究生和博士生3種讀者類型的多維度對比分析;
(5)中/外文借閱分類分布:以《中國圖書館分類法》22 大類為分類標(biāo)準(zhǔn),通過統(tǒng)計各類館藏借閱記錄數(shù)據(jù)進行中外文圖書的借閱對比分析,進一步匯總得到總的借閱量,與可外借館藏總量進行比對,以了解館藏利用情況;
(6)從未借出館藏分布情況:匯總1 個自然年內(nèi)從未被讀者借閱的館藏數(shù)據(jù),以《中國圖書館分類法》22 大類為分類標(biāo)準(zhǔn),進行各分類之間橫向?qū)Ρ燃芭c有借閱記錄的館藏的縱向?qū)Ρ龋?/p>
(7)館藏與借閱關(guān)系分析:將全部館藏分為有借閱記錄的館藏、可外借但從未被借出館藏、不可外借館藏3 類,通過匯總歷年記錄進行量化分析,進行橫向與縱向?qū)Ρ妊芯浚?/p>
(8)館藏總價與借閱總價對比分析:以館藏文獻的采購價格為指標(biāo),以《中國圖書館分類法》22大類為分類標(biāo)準(zhǔn),對比分析本年度內(nèi)各類館藏采購總價與年度被借閱館藏總價,從文獻價格的角度,以直觀的形式對文獻購置(新增館藏)與利用(借閱館藏)情況做以對比。
以2020 年度華東師范大學(xué)圖書館24 小時借閱活動分析為例。借閱活動包含借出、歸還、續(xù)借和預(yù)約4項。具體算法為:以一個自然年為分析周期,將借閱歷史庫該年度內(nèi)每天各時段的借閱活動分類匯總,得出本年度內(nèi)各時段平均借出、歸還、續(xù)借、預(yù)約冊數(shù),最后進行可視化呈現(xiàn)(見圖1)。總體來說,上午 9-10 點、中午 12-13 點、下午4-5 點、晚上9-10 點借還活動比較頻繁,借還曲線中波峰之間的差值減?。活A(yù)約與續(xù)借主要通過網(wǎng)上自助辦理,晚上10 點閉館到早上8 點開館期間續(xù)借次數(shù)占所有續(xù)借的8%,預(yù)約占1.7%??梢暬瘓D表直觀展示了圖書館的借閱高峰,將近幾年的高峰時段數(shù)值進行匯總分析。便于圖書館了解讀者的借閱行為及習(xí)慣,對于合理配置服務(wù)人員,及時整理歸架圖書資料,提高館藏資源使用率,具有重要的意義。
圖1 2020年度24小時借閱活動
通過分析讀者入館數(shù)據(jù)能夠了解讀者利用圖書館的行為軌跡,為圖書館常態(tài)管理和突發(fā)事件應(yīng)對機制的完善提供有效數(shù)據(jù)支撐,提升高校圖書館的科學(xué)化管理水平[10]。另外,不少高校也將讀者入館次數(shù)作為考核學(xué)生和學(xué)院學(xué)風(fēng)的重要參考依據(jù)。讀者入館數(shù)據(jù)的挖掘分析主要包含總?cè)腽^情況、每日入館人次統(tǒng)計、各類讀者入館情況、各院系讀者入館比例。
(1)總?cè)腽^情況:以一個自然年為分析周期,將經(jīng)各種途徑刷卡入館(校園卡刷卡、微信掃碼、刷臉等)的人員匯總,以學(xué)號/工號為唯一身份標(biāo)識進行人數(shù)統(tǒng)計,最后與歷年數(shù)據(jù)進行比對分析;
(2)每日入館人次統(tǒng)計:將本年度內(nèi)每日到館人次數(shù)據(jù)進行橫向比較,開展入館人次統(tǒng)計規(guī)律研究;
(3)各類讀者入館情況:將讀者分為本科生、研究生、博士生、教職工4類,以到館人次對各類讀者進行對比分析,然后以人次信息為基礎(chǔ),計算具體到館人數(shù),結(jié)合各類讀者總數(shù),得到各類型讀者到館比例,從而對不同類型讀者的入館行為進行研究;
(4)各院系讀者入館比例:以學(xué)校各院系為單位,分析本科生、研究生和博士生3 種讀者類型到館人數(shù)占總?cè)藬?shù)比例,并以此為依據(jù),可進行多維度的對比分析。
以2020年度華東師范大學(xué)圖書館每日入館人次統(tǒng)計為例。以一個自然年為統(tǒng)計周期,通過進出圖書館閘機驗證數(shù)據(jù)可以分析出每日進入圖書館的讀者人次。具體算法為:入館數(shù)據(jù)庫中每條記錄對應(yīng)1次入館行為,將入館日期字段進行分類匯總,得到圖書館每日入館人次信息(見圖2)。從可視化圖表中可以清晰地看出一年內(nèi)各時段到館的高峰和低谷,最大入館人次曲線呈現(xiàn)多個峰值,對應(yīng)著2020新冠肺炎疫情防控、新生開學(xué)、學(xué)生返校、國慶假期和即將期末考試等非常規(guī)情況與常規(guī)教學(xué)環(huán)節(jié)。開展高校圖書館入館人次統(tǒng)計規(guī)律信息研究,能夠幫助圖書館預(yù)測人員流動及活動導(dǎo)向,根據(jù)需求進行常態(tài)化管理;同時,對設(shè)置于單體建筑內(nèi)的高校圖書館而言,為其完善突發(fā)事件室內(nèi)人員應(yīng)急疏散預(yù)案提供了數(shù)據(jù)支撐。
圖2 2020年度每日入館人次統(tǒng)計
近年來,圖書館投入大量人力、物力進行空間資源建設(shè),以期能夠為讀者提供更好的服務(wù)。除傳統(tǒng)的讀者到館、借閱數(shù)據(jù)外,圖書館還有大量空間資源利用數(shù)據(jù)和網(wǎng)絡(luò)服務(wù)數(shù)據(jù)。例如館內(nèi)電子閱覽室上機數(shù)據(jù)、研討室使用數(shù)據(jù)、自助文印使用數(shù)據(jù)、微信刷卡入館數(shù)據(jù)、刷臉入館數(shù)據(jù)、館藏目錄檢索日志數(shù)據(jù)等。以研討室利用情況分析為例,研討室是近年來興起的圖書館空間改造項目之一,作為可以容納團隊學(xué)習(xí)與討論的信息共享空間,是深受讀者歡迎的學(xué)習(xí)研究場所[11]。華東師范大學(xué)圖書館于2013 年向讀者開放研討室,使用情況如圖3 所示。由圖3 可以直觀地看出研討室的預(yù)約使用率呈現(xiàn)波動上升的趨勢,體現(xiàn)了圖書館空間改造的效果;通過使用人次與人數(shù)的落差對比,進一步揭示出使用人員多為固定的部分讀者群體。通過細(xì)化圖書館空間資源利用情況,分析讀者使用規(guī)律,能夠及時了解設(shè)備使用情況,探知讀者的實際需求,從而為圖書館的工作方向提供指引。
圖3 華東師范大學(xué)圖書館研討室歷年使用情況
高校圖書館利用數(shù)據(jù)挖掘的最終目標(biāo)是服務(wù)本校讀者。通過具體的數(shù)據(jù)可視化表達實例,闡述了數(shù)據(jù)可視化技術(shù)在高校圖書館的應(yīng)用。能夠直觀地了解館藏文獻的利用情況,掌握學(xué)生利用圖書館及其閱讀傾向,建立讀者知識需求模型,為讀者的閱讀輔導(dǎo)及圖書館相關(guān)工作提供有價值的參考;對圖書館管理而言,則可以為館藏發(fā)展、藏書布局、流通借閱規(guī)則設(shè)置、館員配置提供真實數(shù)據(jù),為圖書館的自身發(fā)展乃至學(xué)校發(fā)展做出決策分析,從而為讀者提供更好的服務(wù),更好地滿足讀者需求[12]。