由薇波
(黑龍江省社會科學(xué)院文獻(xiàn)信息中心,哈爾濱 150018)
大數(shù)據(jù)時(shí)代圖書館的挑戰(zhàn)及其應(yīng)對策略
由薇波
(黑龍江省社會科學(xué)院文獻(xiàn)信息中心,哈爾濱 150018)
隨著時(shí)代的發(fā)展及互聯(lián)網(wǎng)進(jìn)程的加速,數(shù)據(jù)量已經(jīng)呈現(xiàn)出直線上升的趨勢?;诖吮尘埃紫确治隽舜髷?shù)據(jù)的基本特征及其內(nèi)涵,然后指出大數(shù)據(jù)在圖書館工作中所占的重要性,重點(diǎn)分析大數(shù)據(jù)在以下幾個(gè)方面所帶來的便利:數(shù)據(jù)管理、數(shù)據(jù)存儲、數(shù)據(jù)挖掘等。從這幾個(gè)方面入手,提出了相應(yīng)的應(yīng)對策略,希望對相關(guān)單位的從業(yè)人員有所幫助。
大數(shù)據(jù)時(shí)代;圖書館;數(shù)據(jù)管理;數(shù)據(jù)存儲;數(shù)據(jù)挖掘;挑戰(zhàn);策略
隨著科學(xué)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)時(shí)代進(jìn)程的不斷加快,數(shù)據(jù)量也呈現(xiàn)出直線增長的態(tài)勢。拿Facebook來舉例,它每天的日志數(shù)據(jù)產(chǎn)出量就有300TB之多。此外,還有Google每個(gè)月的數(shù)據(jù)處理量,也超過了400PB。根據(jù)國際數(shù)據(jù)公司IDC在2011年所公布的數(shù)據(jù),可以了解到,當(dāng)時(shí)全球信息總量每過2年,就會增長1倍,預(yù)計(jì)到2020年,全球所產(chǎn)生的數(shù)據(jù)量會達(dá)到35ZB之多。這說明“大數(shù)據(jù)時(shí)代”已經(jīng)來臨,而且是大數(shù)據(jù)在云計(jì)算以及物聯(lián)網(wǎng)等領(lǐng)域又一個(gè)偉大的變革創(chuàng)舉。在這樣的背景下,如何以“大數(shù)據(jù)”為基礎(chǔ),使其更便捷快速的為用戶提供信息服務(wù),如何根據(jù)用戶的不同特征,實(shí)現(xiàn)個(gè)性化定制信息資源。這不僅是科技方面所要考慮的事情,而且也是圖書館所面臨的問題,更是今后我國圖書館發(fā)展的整體方向。此次主要是基于大數(shù)據(jù)的相關(guān)特征以及圖書館與大數(shù)據(jù)之間的關(guān)系,對在大數(shù)據(jù)時(shí)代下,圖書館如何抓住新的機(jī)遇和挑戰(zhàn)進(jìn)行了較為深入的分析,希望對有關(guān)部門的研究人員有所幫助。
都說“大數(shù)據(jù)時(shí)代”已經(jīng)來臨,那么何為“大數(shù)據(jù)”?到目前為止,不同的公司和機(jī)構(gòu)對大數(shù)據(jù)的定義不同,但還沒有一個(gè)較為簡潔、權(quán)威的定義。IBM公司認(rèn)為,所謂的大數(shù)據(jù)應(yīng)該具備“3V”特征,即速度快、種類多、容量大。IDC公司則認(rèn)為,應(yīng)該具備“4V”特征,即海量、高速、易變、多樣。但不管是IBM所認(rèn)為的“3V”,還是IDC公司所認(rèn)為的“4V”,我們都可以得到大數(shù)據(jù)以下的幾個(gè)基本特征:其一,大數(shù)據(jù)必須具備數(shù)據(jù)量大的特性,所謂的“大”,一般要求數(shù)據(jù)量要達(dá)到10TB以上。其二,大數(shù)據(jù)的“大”,還應(yīng)該占據(jù)樣式全面的特性,這些種類類型包括有結(jié)構(gòu)數(shù)據(jù)和非機(jī)構(gòu)數(shù)據(jù)兩種。其三,流動(dòng)性快和價(jià)值密度低。隨著時(shí)代的進(jìn)步,科學(xué)技術(shù)的快速發(fā)展,也許昨天剛興起的技術(shù),在今天已經(jīng)變得落后。而且由于數(shù)據(jù)量大,其中的信息資源可能會參差不齊,可用的、有價(jià)值的密度自然不會很高。
隨著科學(xué)技術(shù)的快速發(fā)展,全球化進(jìn)程的不斷推進(jìn),圖書館如今的發(fā)展不僅包含有大量的數(shù)字資源、電子資源,而且隨著云計(jì)算、語義網(wǎng)、社交網(wǎng)站等的普及,給圖書館帶來了廣泛的數(shù)據(jù)資源。所以圖書館應(yīng)該緊跟時(shí)代步伐,面對大數(shù)據(jù)時(shí)代帶來的機(jī)遇和挑戰(zhàn)。
2.1 海量的電子資源為圖書館提供了海量的數(shù)據(jù)
據(jù)不完全統(tǒng)計(jì),每年全球生產(chǎn)出來的信息含量以每三年翻一番的速度在增長,而這些信息數(shù)據(jù)基本上都是以數(shù)據(jù)的形式存儲的。而且漢語在國際上影響力不斷加深,使得中文網(wǎng)頁等不斷普及,在2011年年底,我國電子書的總量就已經(jīng)超過了115萬種之多,單獨(dú)出版的數(shù)字報(bào)也達(dá)到了700份以上。僅針對清華圖書館機(jī)房來說,光服務(wù)器就有100多臺以上,而國家圖書館的總資源量也是達(dá)到了500TB以上,這些資源都是分布在不同的系統(tǒng)當(dāng)中,并且以不同的形態(tài)、組織樣式進(jìn)行存儲,其中不僅包括有傳統(tǒng)的文獻(xiàn),還包括有多媒體資源、電子資源等,它們給圖書館提供了海量的數(shù)據(jù)。
2.2 云計(jì)算、語義網(wǎng)、社交網(wǎng)站的不斷發(fā)展給大數(shù)據(jù)提供了廣泛的來源
云計(jì)算的出現(xiàn)有效打破了傳統(tǒng)圖書館的發(fā)展局限性,并運(yùn)用強(qiáng)大的數(shù)據(jù)處理能力,通過對不同數(shù)據(jù)的整合,真正實(shí)現(xiàn)了資源的動(dòng)態(tài)配置,然后通過利用RFID技術(shù),實(shí)現(xiàn)了圖書資源的自動(dòng)借還機(jī)制,完成了數(shù)據(jù)資源自動(dòng)整合功能,創(chuàng)造出絕佳的用戶體驗(yàn)。而隨著科技的進(jìn)步,各種語義網(wǎng)、社交網(wǎng)站的普及,使信息的傳播發(fā)生了翻天覆地的變化,如今所謂的“知識爆炸時(shí)代”也由此而來。這些都給圖書館提供了海量的數(shù)據(jù),為圖書館提供了高速、便捷的信息來源通道,實(shí)現(xiàn)了圖書館的創(chuàng)新、突破。
信息時(shí)代的發(fā)展,大數(shù)據(jù)時(shí)代的到來,為圖書館提供了絕佳的機(jī)遇,為圖書館今后的發(fā)展指明了道路。但機(jī)遇與挑戰(zhàn)是并存的,圖書館要想把握機(jī)遇,就必須面對很多的挑戰(zhàn):其一,圖書館傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)不適于“大數(shù)據(jù)”時(shí)代。傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu),一般是以用戶端向服務(wù)端發(fā)送請求,然后根據(jù)請求在做出響應(yīng)。但在大數(shù)據(jù)時(shí)代,由于數(shù)據(jù)存儲廣泛,存儲地域不同,所以傳統(tǒng)的構(gòu)架難以滿足大數(shù)據(jù)的要求。其二,大數(shù)據(jù)下呈現(xiàn)的最大特點(diǎn)就是“大”,由于數(shù)據(jù)量大,其中不僅有機(jī)構(gòu)網(wǎng)的數(shù)據(jù),還充斥著各種非機(jī)構(gòu)化的數(shù)據(jù),這導(dǎo)致了圖書館的數(shù)據(jù)中心面臨極其巨大的挑戰(zhàn)。其三,如何更好地實(shí)現(xiàn)用戶體驗(yàn),讓用戶更快更便捷的獲取數(shù)據(jù)也是一個(gè)難題。
大數(shù)據(jù)技術(shù)主要是指從各種各樣的類型以及數(shù)據(jù)信息中,及時(shí)有效的獲取有價(jià)值的技術(shù)手段,解決大數(shù)據(jù)問題的核心就是大數(shù)據(jù)技術(shù)。在運(yùn)作大數(shù)據(jù)的時(shí)候,技術(shù)前傾才是關(guān)鍵。研究人員要將大數(shù)據(jù)作為一項(xiàng)系統(tǒng)性的工程來看待,從數(shù)據(jù)采集、數(shù)據(jù)存儲以及數(shù)據(jù)處理等多個(gè)方面進(jìn)行考慮,而構(gòu)成圖書館大數(shù)據(jù)架構(gòu)如圖1所示。
圖1 圖書館大數(shù)據(jù)架構(gòu)圖Fig.1 Big data architecture diagram of library
5.1 實(shí)現(xiàn)管理分層,實(shí)現(xiàn)標(biāo)準(zhǔn)統(tǒng)一
大數(shù)據(jù)存在信息量大,資源動(dòng)態(tài)等特性,根據(jù)這些特性必須建立相應(yīng)的運(yùn)行機(jī)制,要有專人負(fù)責(zé)數(shù)據(jù)管理,對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化劃分,實(shí)現(xiàn)數(shù)據(jù)獲取、使用、管理、分析一體化、標(biāo)準(zhǔn)化。如此有利于數(shù)據(jù)庫的管理、推介,方面為用戶提供服務(wù)。
5.2 構(gòu)建大數(shù)據(jù)架構(gòu),解決數(shù)據(jù)采集、存儲等問題
在大數(shù)據(jù)時(shí)代下,圖書名面臨的一個(gè)重要問題就是基本架構(gòu)不能適用在大數(shù)據(jù)之上,因此要建立大數(shù)據(jù)架構(gòu),解決數(shù)據(jù)的采集、存儲、處理等問題。要將大數(shù)據(jù)中不同格式的數(shù)據(jù)進(jìn)行統(tǒng)一、融合,使數(shù)據(jù)的結(jié)構(gòu)表現(xiàn)得更清晰明了。要滿足數(shù)據(jù)庫高可擴(kuò)展和高可用性的需求,可以采用云計(jì)算的分布式存儲技術(shù),保證對圖書館數(shù)據(jù)的統(tǒng)一整合。
5.3 培養(yǎng)高素質(zhì)的數(shù)據(jù)管理人員
圖書館要想抓住大數(shù)據(jù)時(shí)代的機(jī)遇,就必須具有這方面的人員,這些人員要具備圖書館管理的能力,還應(yīng)該具備圖書館數(shù)據(jù)服務(wù)需求這方面的素質(zhì),要成為學(xué)科信息資源的傳播者和教育者,為圖書館事業(yè)提供有效的幫助,為圖書館的發(fā)展而不斷的做出努力。
[1] 李鳳念.大數(shù)據(jù)時(shí)代高校圖書館受到的挑戰(zhàn)及其發(fā)展對策[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2014,(03):144-145.
[2] 王晴.云計(jì)算大數(shù)據(jù)時(shí)代圖書館的挑戰(zhàn)與機(jī)遇——兼論公共圖書館的應(yīng)對策略[J].公共圖書館,2013,(01):189-190.
[3] 韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報(bào),2012,(05):131-132.
[4] 周和平.加快實(shí)施推廣工程建設(shè)覆蓋全國的數(shù)字圖書館服務(wù)體系——在數(shù)字圖書館推廣工程館長培訓(xùn)班上的講話[J].國家圖書館學(xué)刊,2012,(05):175-176.
[5] 叢培民,龔立武.基于云計(jì)算的網(wǎng)站群架構(gòu)及安全性設(shè)計(jì)與實(shí)踐[C]//第26次全國計(jì)算機(jī)安全學(xué)術(shù)交流會論文集.2011.
[6] 張文華,馮凱,胡光林,等.云計(jì)算及其在圖書館中的應(yīng)用現(xiàn)狀和面臨的障礙[J].圖書情報(bào)工作,2010,(07):165-166.
[7] 熊筱熙,趙欣艷.商業(yè)視角的云計(jì)算服務(wù)研究綜述[C]//寬帶中國戰(zhàn)略與創(chuàng)新學(xué)術(shù)研討會(30)論文集.2012.
[8] 苑桂萍,杜慰純,馮花樸,等.基于云計(jì)算圖書館面臨的挑戰(zhàn)與服務(wù)創(chuàng)新[C]//圖書館聯(lián)盟建設(shè)與發(fā)展.2012.
Challenges and countermeasures of library in the era of big data
YOU Wei-bo
(Literature and Information Center, Heilongjiang Academy of Social Sciences, Harbin 150018, China)
With the development of the times and the acceleration of the Internet process, the amount of data has shown a linear upward trend. Based on this background, this paper firstly analyzes the basic characteristics and connotation of big data, and then points out its importance in library work. It mainly analyzes the convenience brought by big data in the following aspects: data management, data storage, data mining and so on. Corresponding coping strategies are put forward, hoping to make help for related practitioners.
Big data age; Library; Data management; Data storage; Data mining; Challenge; Strategy
G252
B
1674-8646(2016)24-0150-02
2016-09-22
由薇波(1965-),女,學(xué)士,副研究館員。