武群輝+何勝+馮新翎+柳益君+周兵
摘 要 高校圖書館電子資源使用統(tǒng)計對于科研個性化服務(wù)、統(tǒng)計數(shù)據(jù)共享以及科研決策具有重要意義,圖書館基于“實名認證”和“IP映射”并結(jié)合旁路鏡像方法采集用戶訪問電子資源的行為數(shù)據(jù)、在Hadoop云平臺上進行挖掘和分析,為科研用戶提供大數(shù)據(jù)環(huán)境下的個性化服務(wù),為科研團體和管理部門提供宏觀層面的數(shù)據(jù)分析結(jié)果。
關(guān)鍵詞 高校圖書館 電子資源 科研服務(wù)
分類號 G250.73
DOI 10.16810/j.cnki.1672-514X.2017.11.011
Research on the Scientific Research Oriented Usage Statistic Pattern of Electronic Resource in University Libraries
Wu Qunhui, He Sheng, Feng Xinling, Liu Yijun, Zhou Bing
Abstract The usage statistic of university librarys electronic resource has important significance in personalized service of scientific research, statistical data sharing and scientific research decision. The library collects the users behavior data of accessing to electronic resource, analyzes and mines the data on the Hadoop cloud platform based on real-name authentication, IP mapping and bypass mirror to offer personalized service for researchers in the big data environment and the macro level results of data analysis to the scientific groups and administrators.Keywords University library. Electronic resource. Scientific service.
隨著教育部有關(guān)建設(shè)“雙一流”大學(xué)綱領(lǐng)性文件的發(fā)布,為科研人員和管理機構(gòu)提供科研資源服務(wù)的圖書館已然成為支撐高??蒲械年P(guān)鍵部門之一[1]。
大數(shù)據(jù)環(huán)境下,高校圖書館的電子資源無疑發(fā)揮了巨大的作用和價值。同時,電子資源使用設(shè)計數(shù)據(jù)也不容小覷,其價值也將對高??蒲挟a(chǎn)生了影響和價值[2],然而來自于不同客戶端的用戶日志以及各類以數(shù)據(jù)庫為主的電子資源的數(shù)據(jù)呈現(xiàn)來源分散、格式多樣、增長迅速和體量龐大的特征,給數(shù)據(jù)采集、分析統(tǒng)計和科研決策帶來諸多困難;另外,當(dāng)前以數(shù)據(jù)商統(tǒng)一提供的基于Counter標(biāo)準(zhǔn)[3](Counting Online Usage of Networked Electronic Resources,在線網(wǎng)絡(luò)電子資源使用統(tǒng)計) 的電子資源統(tǒng)計數(shù)據(jù)的方式也存在諸多缺陷[4],無法滿足新形勢下科研服務(wù)的要求。本文擬針對國內(nèi)外相關(guān)領(lǐng)域的研究現(xiàn)狀,密切結(jié)合大數(shù)據(jù)環(huán)境下高??蒲行枨螅岢鲆环N電子資源使用統(tǒng)計新模式。
1.1 圖書館電子資源使用統(tǒng)計研究現(xiàn)狀
國內(nèi)外專家學(xué)者對圖書館電子資源使用統(tǒng)計進行了多角度的研究和應(yīng)用嘗試。當(dāng)前國外基于Counter標(biāo)準(zhǔn)的電子資源使用統(tǒng)計數(shù)據(jù)獲取主要依賴于數(shù)據(jù)庫商,如ScholarlyStas、360 Counter等系統(tǒng)都是基于數(shù)據(jù)庫商的數(shù)據(jù)進行分析統(tǒng)計[5-6];A. Coyners認為基于電子資源統(tǒng)計數(shù)據(jù)的分析能夠幫助提升用戶服務(wù)質(zhì)量和水平[7];通過對電子資源統(tǒng)計指標(biāo)的分析,J.C.Bertot著重探討了電子資源的質(zhì)量、被訪問的次數(shù)與用戶科研領(lǐng)域和偏好等個性特征之間的關(guān)系[8]。國內(nèi)學(xué)者的研究主要集中在應(yīng)用領(lǐng)域。鐘克吟利用ASP技術(shù)開發(fā)圖書館電子資源讀者訪問流量統(tǒng)計分析系統(tǒng)來提高數(shù)字資源服務(wù)效益[9];王政軍等人提出基于旁路監(jiān)聽技術(shù)的圖書館數(shù)字資源績效分析的設(shè)計思路和方案,通過記錄用戶對電子資源的訪問下載情況而實施資源訪問監(jiān)控 [10];周欣等提出基于用戶日志進行數(shù)據(jù)采集和數(shù)據(jù)挖掘的方法,構(gòu)建用戶行為分析系統(tǒng)模型[11]。
總體看來,國內(nèi)外學(xué)界的研究主要集中在兩個方面:一是從理論上探討基于Counter標(biāo)準(zhǔn)的統(tǒng)計報告提供用戶服務(wù)的方式和方法,尤其偏重從宏觀上分析圖書館使用電子資源的績效及其評價問題;二是從實踐角度探討如何從基于Counter標(biāo)準(zhǔn)的統(tǒng)計數(shù)據(jù)(如電子資源的訪問、點擊和下載次數(shù)等) 中分析用戶訪問行為并設(shè)計相關(guān)技術(shù)方案,但是鮮見以高??蒲行枨鬄榱⒆泓c,并結(jié)合大數(shù)據(jù)復(fù)雜環(huán)境,提出針對當(dāng)前科研服務(wù)問題的電子資源使用統(tǒng)計的綜合性方案。
1.2 高??蒲械碾娮淤Y源使用統(tǒng)計需求
一般而言,與高??蒲忻芮邢嚓P(guān)的用戶有三種,一是科研用戶,即科研一線的研究人員,往往面臨著繁重的科研任務(wù),長期從事撰寫論文和完成研究課題等科研活動,需要及時、精準(zhǔn)查詢和下載科研相關(guān)電子資源;二是與科研相關(guān)的團體,如科研人員所在的團隊(院系) 和提供科研服務(wù)的圖書館,科研團隊領(lǐng)導(dǎo)需要及時了解各成員的研究進展、研究狀態(tài)以及某領(lǐng)域的科研前沿等,因此經(jīng)常需要共享能反映團隊科研狀況的統(tǒng)計信息。圖書館的學(xué)科館員希望能通過技術(shù)手段依據(jù)科研用戶的日志分析科研人員動態(tài)、多變的科研需求,及時為用戶提供滿意的個性化信息服務(wù);三是科研管理部門,需要及時了解電子資源的使用動態(tài)和使用效率,對電子資源的采購提出建議并進行決策。endprint
2.1 電子資源使用統(tǒng)計模式總體框架
當(dāng)前,圖書館擁有的電子資源主要包括數(shù)據(jù)商的專業(yè)數(shù)據(jù)資源、互聯(lián)網(wǎng)免費資源以及圖書館自建資源,呈現(xiàn)數(shù)據(jù)異構(gòu)、多類型和體量龐大的大數(shù)據(jù)特征,圖書館如何從海量數(shù)據(jù)中采集日志數(shù)據(jù),并進行挖掘和分析以支持科研用戶的個性化服務(wù),以及為相關(guān)科研團體和管理部門提供知識共享和高效決策支持是高校圖書館電子資源統(tǒng)計服務(wù)面臨的重大任務(wù)。為了能全面服務(wù)高??蒲?,本文提出一種面向科研用戶、科研團體和科研管理部門的電子資源使用統(tǒng)計模式。模式框架如圖1所示,(1) 圖書館基于“實名認證”和“IP映射”并結(jié)合旁路鏡像方法,自主采集用戶訪問電子資源的行為日志,采用大數(shù)據(jù)技術(shù)挖掘和分析后,為科研用戶提供個性化服務(wù);(2) 對來源于數(shù)據(jù)商的基于Counter標(biāo)準(zhǔn)的電子資源統(tǒng)計報告進行融合和匯總分析,為科研團體和管理部門提供宏觀層面的數(shù)據(jù)服務(wù)和決策支撐。
3 電子資源使用數(shù)據(jù)采集模式
電子資源使用數(shù)據(jù)的采集模式包括兩種方式,即由圖書館自主采集科研用戶的使用日志和數(shù)據(jù)庫商統(tǒng)一提供的電子資源使用統(tǒng)計報告,以滿足不同用戶的需求。
3.1 基于實名認證和IP綁定并結(jié)合旁路鏡像監(jiān)聽采集用戶行為日志
如圖2所示,電子資源訪問包括遠程和本地兩種形式,而用戶類型有校內(nèi)、校外和手機用戶三種。除了校內(nèi)用戶訪問本地電子資源是通過IP授權(quán)方式以外,其他各類訪問都是采用實名認證的方式。因此,對于實名認證方式,可以針對科研用戶的實名帳號從校園網(wǎng)絡(luò)出口(用于遠程電子資源) 和校內(nèi)交換機(用于本地資源) 的網(wǎng)絡(luò)流量中精準(zhǔn)抓取用戶訪問日志[12];對于IP授權(quán)方式,需要將科研用戶的帳號和IP映射后綁定,以獲取科研用戶個體的日志數(shù)據(jù)。
采集技術(shù)主要應(yīng)用旁路鏡像監(jiān)聽方法,如圖3所示,利用校園網(wǎng)出口或校園網(wǎng)內(nèi)交換機端口的鏡像功能,將采集設(shè)備以旁路方式連接加以采集:依據(jù)相關(guān)采集參數(shù)(數(shù)據(jù)庫名、資源URL和IP地址、科研用戶帳號等) 過濾網(wǎng)絡(luò)鏡像數(shù)據(jù)流,將結(jié)果傳輸?shù)綌?shù)據(jù)統(tǒng)計服務(wù)器上。這種旁路方式的優(yōu)點是在不改變校園網(wǎng)的原始架構(gòu)和不影響校園網(wǎng)絡(luò)速度和性能的基礎(chǔ)上,得到真實有效的用戶日志數(shù)據(jù)。由于各數(shù)據(jù)庫的多源、異構(gòu)以及采集過程中難以避免的錯誤,這些日志數(shù)據(jù)一定程度上含有噪音,需要進行清洗,即使用相關(guān)工具(如Extraction Transformation and Loading,抽取、轉(zhuǎn)化和裝載工具) 檢查數(shù)據(jù)并除去數(shù)據(jù)中所有明顯的重復(fù)、錯誤和不一致[13]。
3.2 基于Counter規(guī)范由各數(shù)據(jù)庫商統(tǒng)一提供遠程電子資源使用的統(tǒng)計報告
為幫助圖書館獲取可靠、一致和兼容的電子資源統(tǒng)計標(biāo)準(zhǔn),Counter項目組自2002年以來發(fā)布了《Counter期刊和數(shù)據(jù)庫實施規(guī)范》,目前已經(jīng)升級到第四版(Counter R4),該規(guī)范明確定義了包含在線期刊、數(shù)據(jù)庫、在線圖書及多媒體等電子資源使用的統(tǒng)計規(guī)范,例如規(guī)定統(tǒng)計的關(guān)鍵指標(biāo)應(yīng)包含“登陸次數(shù)、檢索次數(shù)、全文下載量和拒絕訪問量”等[14]。Counter規(guī)范目前獲得了大部分國際著名數(shù)據(jù)庫商的支持,圖書館在使用這些外文數(shù)據(jù)庫時,可以通過標(biāo)準(zhǔn)的收割接口SUSHI(Standardized Usage Statistics Harvesting Initiative) 獲取統(tǒng)計報告。
Counter采用統(tǒng)一的指標(biāo)和規(guī)范提供面向宏觀層面的統(tǒng)計報告,如某用戶(指購買該資源的圖書館所在高校的所有用戶集合) 在某一時間段訪問該數(shù)據(jù)庫的請求量、全文下載(被拒) 量等,有利于科研團體或管理部門掌握宏觀統(tǒng)計數(shù)據(jù)。但Counter也存在缺點,主要在于:①只能獲取各數(shù)據(jù)庫商提供的統(tǒng)計報告,而對各圖書館的館藏資源和免費資源的使用情況無能為力;②Counter報告只能從宏觀上給出所有用戶訪問該數(shù)據(jù)商資源的統(tǒng)計數(shù)據(jù),無法提交面向科研個體的細致的“內(nèi)容級/用戶級”的報告,用于滿足用戶個性化的要求;③另外國內(nèi)的數(shù)據(jù)庫商基本不支持Counter 計量標(biāo)準(zhǔn)[4]。
由于采用“實名認證”和“IP綁定”方法,圖書館能夠方便地采集包含國內(nèi)外各種類型資源以及面向用戶個體的用戶日志,能夠彌補Counter規(guī)范的上述缺點,因此將上述兩種方法結(jié)合起來,即以圖書館自行采集數(shù)據(jù)服務(wù)于科研用戶,以數(shù)據(jù)庫商的統(tǒng)計報告服務(wù)于科研團體的共享需要和管理部門的宏觀決策,可以全面滿足各級科研用戶的需求。
4 數(shù)據(jù)分析和統(tǒng)計模式
4.1 設(shè)計關(guān)鍵數(shù)據(jù)表
為方便對用戶日志挖掘、分析和統(tǒng)計,需要設(shè)計結(jié)構(gòu)化的數(shù)據(jù)表格,如表1所示。其中“科研用戶身份信息表”描述各類科研用戶實名認證信息;“科研用戶訪問電子資源日志表”描述科研用戶訪問電子資源的個性化行為,存放清洗后的用戶日志用于“內(nèi)容級/用戶級”的分析和挖掘;“電子資源訪問日志匯總表”來源于各數(shù)據(jù)庫商的統(tǒng)計數(shù)據(jù),存放融合和集成后的宏觀統(tǒng)計信息。
4.2 用戶使用行為日志數(shù)據(jù)的統(tǒng)計和分析
對上述表格以設(shè)定的鍵值關(guān)聯(lián)連接后的海量日志數(shù)據(jù),應(yīng)用Hadoop云平臺和MapReduce分析框架進行統(tǒng)計分析,形成“內(nèi)容級/用戶級”的分析結(jié)果,主要包括:用戶單位時間內(nèi)(按年、月、日或自定義時間)訪問的數(shù)據(jù)庫(電子資源)的名稱;自定義時間段內(nèi)訪問電子資源的排名;各電子資源的訪問次數(shù)排名,訪問頻度分析,數(shù)據(jù)全文下載量(被拒率);檢索詞類型,檢索詞學(xué)科分布情況,檢索的命中率;以及按用戶部門、職稱、身份類型等條件分組的用戶群使用電子資源的統(tǒng)計數(shù)據(jù)等。通過聚類算法和關(guān)聯(lián)規(guī)則算法(如Apriori和FP-Tree算法等) 發(fā)現(xiàn)潛在的科研團隊群體、新的科研熱點以及某一學(xué)科的科研主題的演化路徑和規(guī)律等。
4.3 來自于數(shù)據(jù)商的電子資源訪問日志統(tǒng)計和分析
應(yīng)用SUSHI接口從各數(shù)據(jù)商收割到的Counter R4規(guī)范的統(tǒng)計數(shù)據(jù)一般以XML文件和報表的形式存在,由于數(shù)據(jù)商來源不同,這些數(shù)據(jù)需要基于XML和元數(shù)據(jù)技術(shù)融合和匯總,以服務(wù)于科研團體和管理部門。主要表現(xiàn)在統(tǒng)計電子資源的利用方面,如各數(shù)據(jù)庫單位時間內(nèi)(或自定義時間)被訪問次數(shù),被下載全文的篇數(shù)以及按數(shù)據(jù)庫利用率排序(檢索次數(shù)、下載全文篇數(shù))以及購置經(jīng)費排名等,以圖、表等數(shù)據(jù)可視化形式展現(xiàn)。endprint
5 電子資源使用統(tǒng)計系統(tǒng)服務(wù)平臺功能
建構(gòu)于數(shù)據(jù)分析和統(tǒng)計基礎(chǔ)之上的系統(tǒng)服務(wù)平臺是科研用戶進行數(shù)據(jù)消費的主要接口,提供以下功能。
(1) 科研用戶個性化服務(wù)?;谟脩粜袨榉治龅膫€性化服務(wù)是當(dāng)前大數(shù)據(jù)環(huán)境下緩解“信息過載”的有效手段??蒲杏脩艨梢灾鲃荧@取個性化的信息檢索和資源推送信息,查看本人電子資源使用記錄、相關(guān)的檢索詞、下載量等統(tǒng)計數(shù)據(jù);另外,系統(tǒng)通過對科研用戶使用電子資源的數(shù)據(jù)進行跟蹤、比對、分析和預(yù)測,結(jié)合每位科研用戶個性化特征和科研需求,實施學(xué)科知識和資源信息的主動推送,提供個性化和人性化的科研信息服務(wù)[15],達到提高科研效益的目的。
(2)統(tǒng)計數(shù)據(jù)共享和科研決策服務(wù)。高校圖書館、各科研團體和管理部門是科研活動的深度參與者,在科研支持、組織和決策等方面發(fā)揮著主要作用。因此在系統(tǒng)中設(shè)定包括圖書館、各科研團體、科研管理多部門和多級別(用戶/管理員)的數(shù)據(jù)共享權(quán)限,最大程度發(fā)揮電子資源使用統(tǒng)計的作用。具體表現(xiàn)在:圖書館利用統(tǒng)計系統(tǒng)的數(shù)據(jù)共享功能,掌握電子資源采集、分析、統(tǒng)計、推送等統(tǒng)計數(shù)據(jù),并對各數(shù)據(jù)庫進行評估,結(jié)合學(xué)校學(xué)科發(fā)展的特點和趨勢,優(yōu)化電子資源建設(shè);科研團體和管理部門可以實時獲取分析各部門、各學(xué)科、各級職稱人員使用電子資源的對比數(shù)據(jù),以此為基礎(chǔ)調(diào)整科研資源分配、制定相關(guān)科研政策,從而達到優(yōu)化高校科研環(huán)境,提升高校的科研水平的目的。
參考文獻:
1黃紅華,韓秋明.澳大利亞大學(xué)圖書館科研支持服務(wù)研究[J].圖書館建設(shè),2016(3):55-60.
2曾爾雷.電子資源使用統(tǒng)計的應(yīng)用實例研究[J].圖書館雜志,2007(6):26-29. Counter. Release 1 of the counter code of practice for books and reference works[EB/OL].[2014-08-29].http://www.projectCounter.org/cop/books/cop_books_ref.pdf.
3朱玲,崔海媛.高校圖書館電子資源使用監(jiān)控與統(tǒng)計系統(tǒng)數(shù)據(jù)獲取質(zhì)量評估方法探討[J].圖書情報工作,2016(5):51-57.Counter code of practice[EB/OL].[2012-02-05].http://www.projectcounter.org/.
About ScholarlyStats[EB/OL].[2012-03-15].http://www.Scholarlystats.com/sstats/default.htm.
CONYERS A. Building on sand:using statistical measures to assess the impact of electronic services[J].Performance Measurement and Metrics,2006,7(1):37-44.
BERTOT J C. E-metrics and performance、 indicators: availability and use[M]//Planning and Evaluating Library Networked Services and Resources. Westport: Libraries Unlimited Inc, 2004: 94-126.
4鐘克吟.圖書館數(shù)字資源訪問流量統(tǒng)計分析系統(tǒng)的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù), 2008(1):91-94.
5王政軍,董曉梅,俞小怡.基于旁路監(jiān)聽的數(shù)字資源評估系統(tǒng)的設(shè)計與實現(xiàn)[J].圖書情報工作,2015(9):52-57.
6周欣,陸康.基于圖書館數(shù)字資源訪問系統(tǒng)的讀者行為數(shù)據(jù)挖掘研究[J].現(xiàn)代情報,2016(1):51-56.
7韓佳.基于用戶使用行為分析的數(shù)字資源管理評估系統(tǒng)[J].圖書館學(xué)研究,2016(3):19-23.
8王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013(6):1125-1138.
Counter.Release 4 of the counter code of practice for e-resources[EB/OL].[2014-08-29].http://www.projectCounter.org/r4/COPR4.pdf.
9袁紅軍.學(xué)科服務(wù)中學(xué)科館員的知識流動模型構(gòu)建[J].圖書館學(xué)研究,2016(10):66-70.endprint