孫 慧
(長春師范大學(xué) 圖書館, 長春 130032)
大數(shù)據(jù)環(huán)境背景下,高校圖書館數(shù)字資源建設(shè)是圖書館建設(shè)的最重要的組成部分,高校圖書館數(shù)據(jù)庫資源的建設(shè)情況不僅反映了高校資源建設(shè)的重視程度,更在一定層面反映了學(xué)校教學(xué)和科研的發(fā)展水平。此外,高校資源建設(shè)情況還與高校的學(xué)科建設(shè)和服務(wù)等級密不可分[1]。
通常情況下,按照數(shù)據(jù)來源,數(shù)據(jù)庫可分為購買數(shù)據(jù)庫、試用數(shù)據(jù)庫、自建數(shù)據(jù)庫和特色數(shù)據(jù)庫;按照數(shù)據(jù)庫的語種,可分為中文數(shù)據(jù)庫、英文數(shù)據(jù)庫、西文數(shù)據(jù)庫及多語種數(shù)據(jù)庫;按照數(shù)據(jù)庫資源類型,可分為數(shù)據(jù)、期刊、電子書、多媒體、參考工具、平臺、專利、報紙、古籍、技術(shù)標準、多出版類型等[2]。
本次研究搜集的數(shù)據(jù)庫資源數(shù)據(jù)主要來自于各高校圖書館網(wǎng)站中資源欄目,據(jù)教育部公示2016全國最新高校名單統(tǒng)計,共有2 879所高校,每所高校網(wǎng)站分別具有幾十到幾百個不等的電子資源數(shù)據(jù)庫[3]。本文有針對性地搜集了截至2017年8月國內(nèi)30所重點高校使用的數(shù)據(jù)庫作為數(shù)據(jù)分析樣本,主要搜集數(shù)據(jù)庫資源的名稱、語種、類型以及學(xué)科服務(wù)范圍等信息[4]。
本文研究處理的數(shù)據(jù)主要是通過八爪魚采集器對高校圖書館網(wǎng)站的資源模塊使用數(shù)據(jù)獲取方式得到的。八爪魚采集器是一款業(yè)界領(lǐng)先的新一代、智能、通用的網(wǎng)頁數(shù)據(jù)采集器,能迅速采集各種資源,使用簡單,而且全部可視化操作[5]。通過八爪魚數(shù)據(jù)采集器提取的數(shù)據(jù)可以導(dǎo)入/導(dǎo)出多種格式的數(shù)據(jù)文件,如:導(dǎo)入SqlServer、MySql數(shù)據(jù)庫、導(dǎo)出到excel或txt等。
本文數(shù)據(jù)獲取結(jié)果為30個國內(nèi)重點高校圖書館數(shù)據(jù)。結(jié)果中包括有:綜合類院校15個,理工類院校8個,師范類院校4個,財經(jīng)類院校3個,具體的數(shù)據(jù)獲取結(jié)果見表1所示。其中,資源種類是指該校圖書館網(wǎng)站上顯示的數(shù)據(jù)庫總個數(shù);學(xué)科分類是指是否可以根據(jù)學(xué)科來查看數(shù)據(jù)庫;語種分類是指是否可以根據(jù)數(shù)據(jù)庫語言類別來查看數(shù)據(jù)庫;類型分類是指使用數(shù)據(jù)庫時是否可以根據(jù)數(shù)據(jù)、期刊、電子書、多媒體、參考工具、平臺、專利、報紙、古籍、技術(shù)標準、多出版類型等來檢索數(shù)據(jù)庫[6]。
表1 30所國內(nèi)高校圖書館資源建設(shè)情況Tab. 1 Resources construction of 30 domestic university libraries
通過數(shù)據(jù)搜集得到的30所高校圖書館網(wǎng)站的數(shù)據(jù)庫列表,共采集到6 796條信息紀錄。
數(shù)據(jù)標準化主要是將數(shù)據(jù)進行規(guī)范化處理,轉(zhuǎn)換為有利于數(shù)據(jù)分析的數(shù)據(jù),本文的數(shù)據(jù)標準化研究主要可解析為如下設(shè)計內(nèi)容:
(1)去除重復(fù)數(shù)據(jù)。如:同一個圖書館數(shù)據(jù)庫列表中會出現(xiàn)“中國知網(wǎng)鏡像”與“中國知網(wǎng)主站”兩個電子資源,實質(zhì)為同一資源的2種存儲方式,需要去除重復(fù)的記錄。
(2)合并相同數(shù)據(jù)項。如:對于中國知網(wǎng)碩博論文、中國知網(wǎng)期刊全文數(shù)據(jù)庫,需要進行合并,統(tǒng)稱為中國知網(wǎng)數(shù)據(jù)庫。
(3)規(guī)范化數(shù)據(jù)庫命名法。如:“國務(wù)院發(fā)展研究中心信息網(wǎng)”與“國研網(wǎng)”雖然數(shù)據(jù)庫名稱文字標識不同,但屬于同一個數(shù)據(jù)庫,統(tǒng)稱為國研網(wǎng),而對于英文數(shù)據(jù)庫統(tǒng)一使用英文拼寫和簡寫方法命名,去除中文詞匯命名。
對于搜集得到的 6 796條數(shù)據(jù)庫信息,分析可知其中的很多信息記錄表征的都是同一數(shù)據(jù)庫,譬如很多學(xué)校都使用中國知網(wǎng)CNKI數(shù)據(jù)庫,復(fù)旦大學(xué)圖書館數(shù)據(jù)庫列表中對該數(shù)據(jù)庫命名為“中國知網(wǎng)”,而吉林大學(xué)圖書館數(shù)據(jù)庫列表中命名為“中國知網(wǎng)CNKI”,為此就需要一種有效的數(shù)據(jù)分析方法進行文字的相似度比較。本文即使用VBA語言實現(xiàn)了一種文本相似度比較的程序,實現(xiàn)數(shù)據(jù)的統(tǒng)計與分析?;A(chǔ)研究數(shù)據(jù)源如圖1所示。其中,Sheet1名字為數(shù)據(jù)源,Sheet2名字為相似度,用來保存比較結(jié)果[7]。
圖1 數(shù)據(jù)源信息表Fig. 1 Data source information table
文本比較相似度程序的關(guān)鍵功能可表述如下:
(1)自動獲取數(shù)據(jù)總行數(shù)。
(2)設(shè)置比較行,不包含表頭,設(shè)置從某幾行到某幾行進行比較。
(3)根據(jù)相似度閾值的設(shè)置,篩選符合相似度閾值的數(shù)據(jù)會被復(fù)制到圖1相似度的表中。
(4)設(shè)置復(fù)制行數(shù)是指保存相似度結(jié)果時,需要復(fù)制的源數(shù)據(jù)的行數(shù)。
(5)連續(xù)比較,程序每次運行不清空上次比較結(jié)果并設(shè)定數(shù)據(jù)追加,否則每次運行前將清空相似度表。
本文給出的文本相似度分析算法的研究原理是:從2個字符串的左邊開始比較,計算并記錄已經(jīng)比較過的子串的距離,然后進一步得到下一個字符位置時的距離,距離就是用來計算從源串s轉(zhuǎn)換到目標串t所需要的最少的插入、刪除和替換的數(shù)目,算法流程設(shè)計如圖2所示[8]。
計算相似度的數(shù)學(xué)表達式為:
Q=(rep/Longer)^2*L(L=1)
(1)
其中,Q為相似度百分比,取值范圍為0~100;rep為重疊率為1的情況下,計算不同字符的個數(shù),即為需要替換的字符個數(shù);Longer為需比較的2個字符串較長字符串的長度值[9]。
圖2 數(shù)據(jù)分析算法Fig. 2 Data analysis algorithm
本文分析結(jié)果設(shè)置程序的相似度閾值為60~100,目的是最大可能地去除相似度較高的數(shù)據(jù)庫信息,精確篩選結(jié)果。由于英文和外文期刊名稱的巨大區(qū)別性,及中文和外文期刊配置提供的服務(wù)有所不同,可以依據(jù)語種針對所得到的30所高校的數(shù)據(jù)庫列表中的數(shù)據(jù)展開統(tǒng)計分析,并分別給出如下研究處理結(jié)果[10]。
圖3顯示了在30所高校中排名前15的中文數(shù)據(jù)庫的使用情況信息,排名先后順序為中國知網(wǎng)(CNKI)、KUKE數(shù)字音樂圖書館、人大報刊復(fù)印資料、新東方多媒體學(xué)習(xí)庫、中文社會科學(xué)引文索引(CSSCI)、維普期刊資源整合平臺、讀秀搜索、國研網(wǎng)、NoteExpress參考文獻管理軟件、中國基本古籍庫、超星電子圖書、超星數(shù)字圖書館、EPS全球統(tǒng)計數(shù)據(jù)/分析平臺、超星學(xué)術(shù)視頻。
圖3 中文數(shù)據(jù)庫使用情況Fig. 3 Chinese database usage
由圖3結(jié)果可見,中文數(shù)據(jù)庫中使用以人文社會科學(xué)領(lǐng)域中的各個學(xué)科為主,而且是以期刊和電子圖書為主,高校比較注重英語、音樂、經(jīng)濟、古籍等方面資料的學(xué)習(xí)[11]。
圖4 顯示了在30所高校中排名前15的外文數(shù)據(jù)庫的使用情況信息。排名先后順序為:HeinOnline(著名的法學(xué)期刊全文數(shù)據(jù)庫)、Taylor & Francis、ACM Digital Library、 Science Online(即《科學(xué)》在線)、Wiley Online Library、ACS(美國化學(xué)學(xué)會)、Nature、Annual Reviews(專注于出版綜述期刊,回顧本學(xué)科最前沿的進展,為科學(xué)研究提供方向性指導(dǎo))、MyiLibrary(世界領(lǐng)先的集成性電子書平臺)、Encyclopedia Britannica Online(享有盛譽的綜合性英文百科全書)、Elsevier ScienceDirect、OCLC FirstSearch、Web of Science、Oxford Scholarship Online(專門收錄牛津大學(xué)出版社最優(yōu)秀的學(xué)術(shù)專著圖書)、MathSciNet(美國數(shù)學(xué)學(xué)會出版的《數(shù)學(xué)評論》)。
圖4 外文數(shù)據(jù)庫使用情況Fig. 4 Foreign language database usage
由圖4結(jié)果可以看出,外文數(shù)據(jù)庫主要以自然科學(xué)為主,人文科學(xué)為輔,并且是以高水平的期刊和圖書為主,各高校比較注重數(shù)學(xué)、計算機、化學(xué)、生物等學(xué)科的建設(shè)和發(fā)展。
通過本文的研究技術(shù)對國內(nèi)30所重點高校圖書館數(shù)據(jù)的分析,最終得到了有利于圖書館資源建設(shè)的很多數(shù)據(jù),可以將這些技術(shù)更好地應(yīng)用于以下工作中。
高校圖書館擁有豐富的數(shù)字資源和較為穩(wěn)定的高素質(zhì)用戶群。通過了解一家學(xué)校的重點學(xué)科并對其數(shù)字資源建設(shè)數(shù)據(jù)展開實時跟蹤,及對用戶使用行為進行統(tǒng)計,可以分析得到該校的重點學(xué)科的研究發(fā)展態(tài)勢,進而總結(jié)提煉為學(xué)科發(fā)展規(guī)律,可以利于有的放矢地制定學(xué)科資源建設(shè)和發(fā)展策略規(guī)劃,并對重點學(xué)科提供高質(zhì)量的服務(wù)[12]。
通過電子資源建設(shè)的相關(guān)數(shù)據(jù)來探尋各個高校學(xué)科發(fā)展態(tài)勢,分析院校之間使用電子資源的相似性,有助于高校之間學(xué)科聯(lián)合,為高校未來館際間的進一步資源整合和聯(lián)合采購提供了有效的基礎(chǔ)依據(jù)。
通過數(shù)據(jù)分析,以了解各個高校電子資源的建設(shè)情況,這樣就可以得到各高校圖書館資源的來源和渠道,有助于館際互借及文獻傳遞業(yè)務(wù)的順利開展。
通過采集提取各高校圖書館數(shù)據(jù)資源信息,可以對研究選擇的高校圖書館的已訂購的數(shù)字資源的瀏覽量、下載量等數(shù)據(jù)進行調(diào)查分析,為其它院校選購電子資源發(fā)揮有益的參考與借鑒作用。
到目前為止,國內(nèi)圖書館建設(shè)已經(jīng)步入正軌,數(shù)據(jù)挖掘與分析技術(shù)也陸續(xù)涌現(xiàn),并取得了長足進步。在以后的工作中,可以擴大數(shù)據(jù)采集的范圍,同時設(shè)計優(yōu)化文本相似度分析算法,得到更加準確的數(shù)字資源分析結(jié)果,再將其應(yīng)用于其它數(shù)據(jù)分析工作中,旨在為大數(shù)據(jù)環(huán)境下數(shù)字資源的建設(shè)與分析研究提供更多的可行性分析方法及途徑。
[1] 王飛. 基于數(shù)據(jù)挖掘的高校圖書館個性化推薦服務(wù)的應(yīng)用研究[D]. 呼和浩特: 內(nèi)蒙古工業(yè)大學(xué),2015.
[2] 曾路平. 基于相似度的文本聚類算法研究及應(yīng)用[D]. 鎮(zhèn)江: 江蘇大學(xué),2009.
[3] 許君寧. 基于知網(wǎng)語義相似度的中文文本聚類方法研究[D]. 西安:西安電子科技大學(xué),2010.
[4] 梁茹,李建霞,劉穎,等. 高校圖書館數(shù)字資源綜合服務(wù)能力評價[J]. 金融大學(xué)圖書館學(xué)報,2015(2): 38-46.
[5] 蔣巖波, 陳香珠. 國內(nèi)高等財經(jīng)院校圖書館數(shù)字資源建設(shè)問題研究—基于國內(nèi)45所財經(jīng)院校圖書館的調(diào)查分析[J]. 圖書情報工作,2015,59(8): 65-71.
[6] 何建新. 大數(shù)據(jù)時代高校圖書館的數(shù)字資源共享策略探討[J]. 現(xiàn)代情報,2014,34(9): 101-104,110.
[7] 李賀,袁翠敏,李亞峰. 基于文獻計量的大數(shù)據(jù)研究綜述[J]. 情報科學(xué),2014,32(6): 148-155.
[8] WANG Gang,ZHONG Guoxiang. Study on text clustering algorithm based on similarity measurement of ontology [J].Computer Science,2010,37(9): 222-224,228.
[9] 陳大慶,葉蘭,楊巍,等. 電子資源使用統(tǒng)計平臺USSER的設(shè)計與實現(xiàn) [J]. 圖書情報工作,2015,59(1):106-112.
[10]周婕. 高校圖書館電子資源建設(shè)實踐與研究 [J]. 情報理論與實踐,2006,29(6):715-718.
[11]陳妙鳳. 試論大數(shù)據(jù)時代高校圖書館電子資源特色化服務(wù)[J]. 才智,2017(5):101.
[12]常定姁. 基于微信的高校圖書館電子資源推廣調(diào)查與分析—以“985”高校圖書館為例[J]. 圖書館學(xué)研究, 2017(16): 69-77.