張云洋,胡志杰
(西藏大學(xué)圖書館,西藏 拉薩 850000)
互聯(lián)網(wǎng)時代,人們獲取信息的方式豐富多樣,信息檢索在很大程度上已經(jīng)不受時間和空間的限制[1]。圖書館在長期的信息服務(wù)中,缺乏對讀者需求的準(zhǔn)確定位。圖書館網(wǎng)站是師生讀者利用圖書館在線資源的統(tǒng)一入口,對圖書館網(wǎng)站利用的分析,是圖書館研究主動服務(wù)的有效方式。筆者在網(wǎng)站后臺增加行為記錄程序,用以記錄讀者訪問圖書館網(wǎng)站的日志數(shù)據(jù),在此基礎(chǔ)上進行數(shù)據(jù)挖掘分析,掌握讀者的信息需求,提升圖書館服務(wù)水平。
西藏大學(xué)圖書館網(wǎng)站的用戶是學(xué)校的學(xué)生、教師和其他職工。學(xué)生全部住校,教職員工大部分住在學(xué)校,少數(shù)員工住校外。在校師生員工通過學(xué)校的校園網(wǎng)訪問圖書館網(wǎng)站,校外的教職員工通過VPN方式訪問圖書館網(wǎng)站。校內(nèi)用戶使用校園網(wǎng)的固定IP段,利用校園網(wǎng)的IP地址分配表,可以通過來訪IP確定用戶操作時所在的樓宇或區(qū)域;校外用戶使用VPN方式間接登錄,通過識別VPN服務(wù)的主機IP,判斷訪問者來自校外。
1. 功能流程。在網(wǎng)站首頁中添加觸發(fā)程序,當(dāng)用戶訪問圖書館網(wǎng)站時,網(wǎng)站記錄來訪事件,識別來訪信息,將提取到的信息寫入訪問日志數(shù)據(jù)庫[2]。流程如圖1所示。
圖1 網(wǎng)站日志記錄流程
2. 技術(shù)細節(jié)。(1)來源IP。通過瀏覽器HTTP請求的REQUEST信息提取來源IP,實現(xiàn)時要考慮來訪者可能使用了代理服務(wù),所以要進行多輪判斷。用java編寫的提取來源IP地址的方法代碼如下:
(2)訪問時間。訪問的連接時間,在網(wǎng)站服務(wù)器端獲取當(dāng)前時間。(3)其他信息。使用Web訪問時,useragent字段包含有大量標(biāo)識客戶端瀏覽器、操作系統(tǒng)以及終端型號的信息,對后期的分析有重要意義。
將網(wǎng)頁后臺獲取的來訪信息,寫入后臺日志數(shù)據(jù)庫。
日志數(shù)據(jù)庫的數(shù)據(jù)表字段格式設(shè)置如下:
表1 訪問日志數(shù)據(jù)字段格式
由頁面后臺程序獲得的訪問信息是一些原始信息,在寫入數(shù)據(jù)庫之前,需要進行一些轉(zhuǎn)換等預(yù)處理操作。
重點是由“IP地址”計算“樓宇網(wǎng)絡(luò)”,這種推算是確定的。第一步,準(zhǔn)備完整的校園網(wǎng)IP地址表,將全部的有線網(wǎng)絡(luò)和無線網(wǎng)絡(luò)IP地址分段,并將IP段地對應(yīng)到某個樓宇甚至某個樓層。在對樓宇的命名上,要以“校區(qū)+功能+樓宇+樓層”的方式,如“納金校區(qū)-教工宿舍-5#”,方便識別和精確定位。第二步,通過IP地址表推算來訪IP所屬的樓宇或區(qū)域。還可以由agent信息提取來訪用戶的操作系統(tǒng)、瀏覽器和終端類型等信息,這些推算不完全確定。因為瀏覽器的版本信息過于繁雜,而且有的瀏覽器故意修改了agent信息的情況,個別用戶可能借助第三方工具修改了本機的user-agent信息[3]。
存取的訪問日志數(shù)據(jù)樣本如表2所示。
表2 訪問日志數(shù)據(jù)樣本
以西藏大學(xué)圖書館為例,在2017年4月至2018年3月期間,網(wǎng)站共收集到10萬余條訪問日志數(shù)據(jù)。通過對訪問日志的掌握,圖書館能直觀地了解用戶對資源的利用情況,并就一些關(guān)注的問題做進一步研究。
目前,西藏大學(xué)有納金、河壩林、財經(jīng)學(xué)院、醫(yī)學(xué)院四個校區(qū),師生主要集中在河壩林校區(qū)和納金校區(qū),財經(jīng)學(xué)院校區(qū)和醫(yī)學(xué)院校區(qū)的人數(shù)較少,使用校園網(wǎng)絡(luò)訪問圖書館資源的用戶也較少。校園網(wǎng)的每個IP地址可以定位到樓宇或者WIFI區(qū)域。
1. 校區(qū)分布。由表3可知,用戶訪問主要集中在納金校區(qū)與河壩林校區(qū),這與兩個校區(qū)實際的常住人數(shù)是相匹配的。目前,西藏大學(xué)大部分的師生集中在納金校區(qū),所以有接近70%的訪問來自納金校區(qū);而河壩林校區(qū)常住師生人數(shù)規(guī)模比醫(yī)學(xué)院校區(qū)和財經(jīng)學(xué)院校區(qū)大,后兩個分校區(qū)的訪問量與使用VPN的訪問量大致相當(dāng)。
表3 校園網(wǎng)用戶校區(qū)分布統(tǒng)計
2. 樓宇分布。數(shù)據(jù)分析顯示,IP來源訪問量排名前14名的樓宇中,圖書館樓占了5名,校園網(wǎng)WIFI占據(jù)了3名,說明圖書館是師生讀者集中學(xué)習(xí)的主要場所,校園網(wǎng)WIFI是聯(lián)網(wǎng)的重要方式;圖書館電子閱覽室排第7位,說明電子閱覽室仍然是讀者查閱資料的重要場所。
3. 網(wǎng)絡(luò)接入來源。使用有線網(wǎng)絡(luò)訪問圖書館網(wǎng)站的連接占比81.10%,使用校園網(wǎng)WIFI訪問連接占比18.90%,一方面說明校園網(wǎng)有線網(wǎng)絡(luò)仍然是讀者上網(wǎng)的主要方式,另一方面說明師生熱衷于使用學(xué)校新建的校園WIFI,圖書館等公共場所的校園網(wǎng)WIFI取得了較好的使用效果。
1. 按月分析。數(shù)據(jù)分析顯示,2017年9月至12月訪問量較大。原因有二:一是下半年有新生入學(xué),新生在接受圖書館的入館教育后對圖書館有大量的訪問;二是圖書館在全校范圍開展了學(xué)科服務(wù)進學(xué)院活動,廣泛深入地向師生推介了圖書館的各類資源,促進了師生對圖書館資源的訪問利用。
2. 按小時段分析。對上述訪問量較大的9月、10月、11月、12月的數(shù)據(jù)按小時段分析,發(fā)現(xiàn)每天的11點、15點、16點、17點讀者訪問最多。師生對圖書館網(wǎng)上資源的訪問,集中在每天的10點之后,下午及晚上的訪問量偏多,提示圖書館應(yīng)注重保證各閱覽室在下午段的開放。
更進一步,對每天的最早與最晚訪問時間進行追蹤發(fā)現(xiàn),每天最晚的訪問集中在凌晨0∶30至1∶30之間,每天最早的訪問在早晨7點至7點半之間,這表明每天的凌晨2點至5點是讀者利用圖書館在線資源的空閑段,技術(shù)部可以利用這段時間進行數(shù)據(jù)備份、維護等操作。每天最早訪問的樓宇是納金校區(qū)教工4棟、納金校區(qū)學(xué)生1棟和4棟、河壩林校區(qū)教工6棟等,說明每天最早起來查閱圖書館資料的師生主要集中在這幾棟樓。
通過來源IP來標(biāo)識讀者所在的樓宇,能夠在較大程度上區(qū)分教師用戶和學(xué)生用戶。在信息資源的獲取與需求方面,教師讀者與學(xué)生讀者之間存在明顯的差異,希望通過主動發(fā)現(xiàn)來為師生提供更加個性化的服務(wù)[4]。通過搜集圖書館網(wǎng)站訪問日志,我們用數(shù)據(jù)證明了讀者對圖書館在線資源的需求與利用,這對建設(shè)圖書館網(wǎng)站及在線資源庫的工作是一種肯定,也將激勵我們更好地做好信息推送工作[5]。從網(wǎng)絡(luò)流量數(shù)據(jù)分析讀者的需求導(dǎo)向,進而提升圖書館的主動服務(wù)能力,是“互聯(lián)網(wǎng)+”時代圖書館的一個重要研究方向。