摘要:海量文獻(xiàn)形成圖書館重要的數(shù)據(jù)資源,充分利用大數(shù)據(jù)分析工具,挖掘其中的潛在價值是當(dāng)前的研究熱點。采用大數(shù)據(jù)分析的方法,通過對海量文獻(xiàn)數(shù)據(jù)的清洗、挖掘和可視化,研發(fā)出直觀、易用的軟件平臺,并提供精準(zhǔn)的文獻(xiàn)檢索工具,可以幫助讀者快速發(fā)現(xiàn)重要作者和文獻(xiàn),有效提升圖書館數(shù)據(jù)資源的使用效率。
關(guān)鍵詞:大數(shù)據(jù);文獻(xiàn)合作關(guān)系;數(shù)據(jù)可視化
中圖分類號:G255.9 文獻(xiàn)標(biāo)識碼:A
DOI:10.13897/j.cnki.hbkjty.2017.0040
1引言
隨著科研條件不斷改善,科技工作的不斷進(jìn)步,各領(lǐng)域的文獻(xiàn)資料數(shù)據(jù)加速形成,匯集成海量的數(shù)據(jù)資源,成為圖書館寶貴的數(shù)據(jù)資產(chǎn)。作為專業(yè)從事信息服務(wù)和信息管理的機(jī)構(gòu),圖書館與大數(shù)據(jù)技術(shù)具有天然的契合關(guān)系。如何合理利用大數(shù)據(jù)技術(shù)對海量文獻(xiàn)資源進(jìn)行有效利用,開發(fā)蘊(yùn)藏其中的潛在價值,具有重要的現(xiàn)實意義,也是近年來的研究熱點。目前各界學(xué)者有的將重點放在了關(guān)鍵詞引用關(guān)系網(wǎng)絡(luò)上,有的側(cè)重于文獻(xiàn)引用網(wǎng)絡(luò)研究,也有的進(jìn)行了文獻(xiàn)合作關(guān)系網(wǎng)絡(luò)方面的研究。這些研究都為幫助讀者提高文獻(xiàn)查找效率、發(fā)現(xiàn)領(lǐng)域熱點,改善圖書館服務(wù)起到了重要的推動作用。
本文以文獻(xiàn)合作關(guān)系為關(guān)注重點,從關(guān)系的發(fā)現(xiàn)、提煉和展現(xiàn)的角度切入,提出一個基于大數(shù)據(jù)分析技術(shù)的文獻(xiàn)合作關(guān)系挖掘方法,并研發(fā)了相應(yīng)的平臺軟件,使之能夠?qū)ψ髡吲c其發(fā)表的諸多文獻(xiàn)間的關(guān)系進(jìn)行提取和展現(xiàn),也能對文獻(xiàn)合作者之間的關(guān)系進(jìn)行提取和展現(xiàn),同時提供優(yōu)質(zhì)的檢索工具,為提高文獻(xiàn)利用效率提供有力的支持。
2面向文獻(xiàn)合作關(guān)系的大數(shù)據(jù)方法
2008年,國際頂尖的學(xué)術(shù)期刊Nature出版??癇ig Data”,從互聯(lián)網(wǎng)技術(shù)、網(wǎng)絡(luò)經(jīng)濟(jì)學(xué)、超級計算、環(huán)境科學(xué)、生物醫(yī)藥等多個方面介紹了海量數(shù)據(jù)帶來的挑戰(zhàn)。2011年Science推出關(guān)于數(shù)據(jù)處理的??癉ealing with data”D3,討論了數(shù)據(jù)洪流(Da-ta Deluge)所帶來的挑戰(zhàn),特別指出,倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機(jī)會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用。2012年3月22日,奧巴馬宣布美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃(Big Data Research and Development Initiative)”。迄今為止,國內(nèi)外“產(chǎn)、學(xué)、研、用”等各界都結(jié)合各自領(lǐng)域的實際情況,或者提出對大數(shù)據(jù)的概念或理論理解,或者提出大數(shù)據(jù)處理的技術(shù)或業(yè)務(wù)框架,或者構(gòu)建出各類大數(shù)據(jù)的軟硬件共享或處理平臺。
本節(jié)給出基于大數(shù)據(jù)分析技術(shù)的文獻(xiàn)合作關(guān)系挖掘方法。如圖1所示,自下而上,完成如下步驟:
首先,需要進(jìn)行文獻(xiàn)基礎(chǔ)數(shù)據(jù)(作者、機(jī)構(gòu)、郵箱、日期、來源等)采集工作,即將線下的文獻(xiàn)資源(圖書、文章、報告等等)進(jìn)行數(shù)字化,可通過人工錄入或OCR(Optical Character Recognition,光學(xué)字符識別)設(shè)備等進(jìn)行掃描、文字識別等完成;同時,將線上文獻(xiàn)資源在合法合規(guī)的前提下進(jìn)行采集。
繼而,對采集來的數(shù)據(jù)進(jìn)行清洗,該步驟是整個數(shù)據(jù)分析過程中不可缺少的一個環(huán)節(jié),其結(jié)果直接關(guān)系到模型效果和最終結(jié)論。在實際操作中,數(shù)據(jù)清洗通常會占據(jù)分析過程的50%—80%的時間。實現(xiàn)格式或內(nèi)容方面的錯誤識別(不該存在的字符、內(nèi)容與字段不符等)和糾正,完成除冗(清除不需要的或無效數(shù)據(jù))、規(guī)范化(格式、單位等)、補(bǔ)全(對缺失值進(jìn)行處理等)。同時,本步驟還可以進(jìn)一步結(jié)合用戶的業(yè)務(wù)需求,實現(xiàn)特殊內(nèi)容或要素的清洗。
采集來的文獻(xiàn)數(shù)據(jù)經(jīng)過以上步驟處理后,進(jìn)行人庫操作,為了達(dá)到數(shù)據(jù)處理的及時性要求,同時兼顧客觀的存儲成本和既有存儲形式,文獻(xiàn)大數(shù)據(jù)的存儲可以采用“內(nèi)存數(shù)據(jù)庫+磁盤數(shù)據(jù)庫”的存儲形式,這也是當(dāng)今主流的大數(shù)據(jù)存儲方式。磁盤數(shù)據(jù)庫的優(yōu)勢是成本較低,然而,在訪問過程中由于頻繁調(diào)取磁盤數(shù)據(jù),會導(dǎo)致程序的處理速度急劇降低;內(nèi)存數(shù)據(jù)庫,將全部數(shù)據(jù)都放在內(nèi)存中,具有新型的體系結(jié)構(gòu),并且在數(shù)據(jù)緩存、快速算法、并行操作方面也進(jìn)行了相應(yīng)的改進(jìn),所以數(shù)據(jù)處理速度比磁盤數(shù)據(jù)庫的數(shù)據(jù)處理速度要快很多,一般都在10倍以上,其劣勢在于成本較高。
針對文獻(xiàn)合作關(guān)系發(fā)現(xiàn)的需求,我們需要對文獻(xiàn)數(shù)據(jù)進(jìn)行要素提取和匹配,例如,姓名相同的作者是否是同一個人,名稱相近的文獻(xiàn)是否是同一篇文獻(xiàn);同一篇文獻(xiàn)的作者之間,是否聯(lián)合發(fā)表過其他的文獻(xiàn);在同一次會議或同一期刊物發(fā)表文章的作者;某位作者關(guān)聯(lián)的文獻(xiàn)集,等等。
當(dāng)把文獻(xiàn)合作關(guān)系提煉出來后,需要解決的下一個問題就是如何構(gòu)建科學(xué)、高效的大數(shù)據(jù)可視化分析系統(tǒng),這也是圖書館挖掘大數(shù)據(jù)價值、發(fā)現(xiàn)數(shù)據(jù)關(guān)系和實現(xiàn)知識清晰表現(xiàn)的前提。由于與圖書館相關(guān)的人員角色,包括讀者、館員、管理層、文獻(xiàn)提供商、信息系統(tǒng)分析和維護(hù)人員等等,所以,數(shù)據(jù)可視化系統(tǒng)做的效果如何,直接影響人機(jī)交互的最終結(jié)果,系統(tǒng)是否簡單易用,是否能夠讓用戶從種類繁多(文獻(xiàn)名、單位、作者、會議、期刊等)的海量數(shù)據(jù)中迅速發(fā)現(xiàn)自己的關(guān)切點,決定了大數(shù)據(jù)技術(shù)在文獻(xiàn)挖掘方面的最終效果。
3文獻(xiàn)合作關(guān)系挖掘系統(tǒng)
本節(jié)給出基于圖1方案的技術(shù)實現(xiàn),以實際研發(fā)的系統(tǒng)為例,解讀文獻(xiàn)合作關(guān)系挖掘的功用與效能。
3.1系統(tǒng)設(shè)計目標(biāo)
針對快速、有效的從大量文獻(xiàn)中發(fā)現(xiàn)合作關(guān)系的實際需求,建立標(biāo)準(zhǔn)化的數(shù)據(jù)規(guī)范機(jī)制,研發(fā)多源異構(gòu)數(shù)據(jù)的整合(統(tǒng)一格式、糾誤降噪、語義對齊等)子系統(tǒng)。以之為基礎(chǔ),綜合數(shù)據(jù)可視化、人機(jī)交互、Web開發(fā)等技術(shù)研發(fā)B/S(Browser/Server)架構(gòu)的Web平臺,既便于用戶通過互聯(lián)網(wǎng)訪問本軟件,也便于根據(jù)實際需要,不斷擴(kuò)充前后臺功能模塊、數(shù)據(jù)資源等。數(shù)據(jù)可視化階段,需要利用顏色、尺寸、線形、長度、寬度、點距等多種手段,刻畫影響合作關(guān)系的相關(guān)因素,并結(jié)合圖形、列表、搜索引擎、檢索框等工具,對各種要素進(jìn)行多維度全景式呈現(xiàn)。
3.2系統(tǒng)功能
針對文獻(xiàn)合作關(guān)系發(fā)現(xiàn)的需求,綜合網(wǎng)絡(luò)信息獲取、Web平臺開發(fā)、數(shù)據(jù)庫、搜索引擎等技術(shù)進(jìn)行開發(fā)。支持按姓名字母查詢作者、按作者查詢文獻(xiàn)、按文獻(xiàn)來源查詢文獻(xiàn)、合作關(guān)系展現(xiàn)、合作關(guān)系群落展現(xiàn)、高密度合作關(guān)系的作者突出展現(xiàn)等功能,對各種要素進(jìn)行多維度全景式呈現(xiàn)。
3.3技術(shù)架構(gòu)
前端采用HTML+JSP+CSS技術(shù),配合jQuery+Bootstrap框架,進(jìn)行數(shù)據(jù)可視化展示,實現(xiàn)人機(jī)交互;后臺數(shù)據(jù)庫采用開源關(guān)系型數(shù)據(jù)庫MySQL+內(nèi)存型數(shù)據(jù)庫Redis,前后臺采用SSH框架進(jìn)行數(shù)據(jù)交互;數(shù)據(jù)采集、清洗、入庫和關(guān)系發(fā)現(xiàn)等步驟,利用Java語言按照業(yè)務(wù)規(guī)則進(jìn)行程序?qū)崿F(xiàn)。
3.4功能示例
本節(jié)中,結(jié)合具體示例,對系統(tǒng)主要功能進(jìn)行展示。在IE地址欄中輸入網(wǎng)址:http:∥202.206.64.199/literature_min.html,展開如圖2所示頁面,節(jié)點代表作者(旁邊是姓名),點的大小代表合作關(guān)系的多少,邊線代表作者間的合作關(guān)系,點和點之間的距離代表合作關(guān)系的緊密程度等。該系統(tǒng)對3 437位作者,3 535個合作關(guān)系進(jìn)行了分析和展現(xiàn)。
對某個群落進(jìn)行重點分析,鼠標(biāo)點擊某個尺寸較大的點,或者滾動鼠標(biāo)軸,某個群落會放大展示。圖3中以Bing Liu節(jié)點為例,點擊該節(jié)點后,檢索框中會出現(xiàn)該名字。放大顯示后,可以看到,以其為中心的合作關(guān)系群落會完整清晰的展示出細(xì)節(jié),每個節(jié)點所代表的作者,其姓名會展示出來,其他作者和Bing Liu之間的合作關(guān)系,以邊線的形式予以刻畫。
點擊任意一個作者節(jié)點,會彈出窗口,里面展現(xiàn)出所有該作者發(fā)表過的文章,如圖4所示,點擊Bing Liu節(jié)點后,該作者發(fā)表的182篇文章逐一在彈出的窗口中予以展現(xiàn),可以通過右側(cè)的拖拽條,看到全部文章。
點擊左上角的下拉列表,如圖5所示,給出系統(tǒng)中的文獻(xiàn)總數(shù)3 942篇、文獻(xiàn)源(會議、期刊等)以及相應(yīng)的數(shù)量,例如GECCO(222),表示來自國際會議GECCO(The Genetic and Evolutionary Compu-tation Conference)的文章一共有222篇。在列表中,點擊選擇GECCO(222)后,數(shù)據(jù)可視化界面中只留下在該會議上發(fā)表過文章的作者節(jié)點群落一共有3個。
4結(jié)語
對文獻(xiàn)大數(shù)據(jù)的挖掘分析,是現(xiàn)代圖書館建設(shè)的重要環(huán)節(jié),是將數(shù)據(jù)累積和沉淀過程演化為數(shù)據(jù)資產(chǎn)形成過程的重要手段。本文給出的文獻(xiàn)關(guān)系合作挖掘系統(tǒng),以計算機(jī)信息科學(xué)中的3 942篇文獻(xiàn)為應(yīng)用樣例,通過大數(shù)據(jù)技術(shù),可以幫助讀者、館員、管理者、企業(yè)單位等,快速發(fā)現(xiàn)高頻合作關(guān)系的文獻(xiàn)和作者,實現(xiàn)按文本和分類的準(zhǔn)確檢索。該系統(tǒng)可發(fā)現(xiàn)海量文獻(xiàn)中的合作關(guān)系,構(gòu)建現(xiàn)實世界的合作關(guān)系,通過本系統(tǒng)可以發(fā)現(xiàn)某領(lǐng)域的合作網(wǎng)絡(luò),邀請相關(guān)人員構(gòu)建該領(lǐng)域的科研團(tuán)隊;并且,也可用于建設(shè)高價值文獻(xiàn)庫,例如,不斷導(dǎo)人所需文獻(xiàn),自動拓展文獻(xiàn)合作網(wǎng),形成知識庫等;同時,還可用于發(fā)現(xiàn)特定領(lǐng)域的團(tuán)隊力量,例如,邀請具有高合作關(guān)系的人員,構(gòu)建人才庫等。最后,希望本文能夠為關(guān)注以上命題的讀者和研究人員提供一定的幫助和參考。