容春琳 (浙江師范大學(xué)圖文信息中心 浙江 金華 321004)
隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算和云服務(wù)、物聯(lián)網(wǎng)等技術(shù)的飛速發(fā)展,加之網(wǎng)絡(luò)視頻、智能服務(wù)終端、網(wǎng)上商店等的快速普及,全球數(shù)據(jù)量呈現(xiàn)爆炸式的增長(zhǎng)態(tài)勢(shì);對(duì)大規(guī)模數(shù)據(jù)的獲取、分析和應(yīng)用能力成為企業(yè)和管理機(jī)構(gòu)能否取得成功的關(guān)鍵。于是,“大數(shù)據(jù)”(Big Data)應(yīng)運(yùn)而生,其是繼Web3.0、云計(jì)算、關(guān)聯(lián)數(shù)據(jù)之后,近兩年網(wǎng)絡(luò)熱炒和媒體高度關(guān)注的關(guān)鍵詞之一。全球知名的咨詢公司麥肯錫最早提出“大數(shù)據(jù)”時(shí)代已經(jīng)到來(lái)[1]。自從“大數(shù)據(jù)”的概念提出以來(lái),國(guó)際上特別是美國(guó)等發(fā)達(dá)國(guó)家掀起了大數(shù)據(jù)研究和應(yīng)用的熱潮。美國(guó)將“大數(shù)據(jù)”作為一項(xiàng)全球性發(fā)展戰(zhàn)略計(jì)劃:2012年2月,奧巴馬政府宣布推出“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”并投資2億多美元,在美國(guó)國(guó)防部、美國(guó)國(guó)家科學(xué)基金等6家政府部門(mén)的協(xié)作下,大力推動(dòng)與大數(shù)據(jù)相關(guān)的采集、組織、分析及技術(shù)實(shí)現(xiàn)等[2]。Microsoft、IBM、Oracle等聲明顯赫的IT行業(yè)巨頭也都加入到大數(shù)據(jù)的行列,紛紛通過(guò)收購(gòu)與大數(shù)據(jù)相關(guān)的軟硬件技術(shù)供應(yīng)機(jī)構(gòu)來(lái)實(shí)現(xiàn)大數(shù)據(jù)的軟硬件技術(shù)融合和大數(shù)據(jù)信息處理的技術(shù)研發(fā),力圖在新的“大數(shù)據(jù)”時(shí)代、在新的信息競(jìng)爭(zhēng)環(huán)境中處于主導(dǎo)地位[3]。中國(guó)工程院院士李國(guó)杰先生指出,大數(shù)據(jù)將成為信息科技的新關(guān)注點(diǎn),并可能形成新型交叉學(xué)科——網(wǎng)絡(luò)數(shù)據(jù)科學(xué)[4]。圖書(shū)館歷來(lái)是新信息技術(shù)的研究和實(shí)踐重地之一,大數(shù)據(jù)不可避免地將會(huì)對(duì)圖書(shū)館產(chǎn)生一定的影響和沖擊。國(guó)外的圖書(shū)館學(xué)研究者參與了與數(shù)據(jù)有關(guān)的研究項(xiàng)目,如關(guān)聯(lián)開(kāi)放數(shù)據(jù)運(yùn)動(dòng)(Linked Open Data Initiative)和圖書(shū)館數(shù)據(jù)監(jiān)管(Library Data Curation)等。美國(guó)學(xué)者對(duì)圖書(shū)館員在大數(shù)據(jù)環(huán)境下的角色定位和專業(yè)技能做了調(diào)查與設(shè)想。另外,美國(guó)的密歇根州立大學(xué)、伊利諾伊州立大學(xué)等知名大學(xué)均開(kāi)設(shè)了與大數(shù)據(jù)相關(guān)的課程和研究方向[5]。國(guó)外的這些研究為我國(guó)圖書(shū)情報(bào)界研究大數(shù)據(jù)提供了較好的參考借鑒。
筆者通過(guò)檢索數(shù)據(jù)庫(kù)得知,國(guó)內(nèi)有關(guān)大數(shù)據(jù)的研究成果數(shù)量較多,大多集中在計(jì)算機(jī)科學(xué)類和企業(yè)管理類期刊,也有少部分發(fā)表于圖書(shū)情報(bào)類刊物。筆者現(xiàn)選取2012年發(fā)表的較新文獻(xiàn)進(jìn)行述評(píng)。楊海燕研究指出,從大量的數(shù)據(jù)中分析潛在的價(jià)值將成為大數(shù)據(jù)時(shí)代圖書(shū)館的一大主要業(yè)務(wù)[6]。韓翠峰認(rèn)為,在大數(shù)據(jù)時(shí)代,圖書(shū)館將在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等方面面臨巨大的挑戰(zhàn)與考驗(yàn),對(duì)大數(shù)據(jù)的分析與處理將成為圖書(shū)館的一大主要服務(wù)內(nèi)容[7]。張文彥等人研究指出,大數(shù)據(jù)時(shí)代的來(lái)臨給圖書(shū)館帶來(lái)了根本性的變革,大數(shù)據(jù)在圖書(shū)館中的應(yīng)用將會(huì)產(chǎn)生較多新問(wèn)題[8]。黃曉斌、鐘輝新則分析了大數(shù)據(jù)對(duì)企業(yè)競(jìng)爭(zhēng)情報(bào)研究的影響及大數(shù)據(jù)時(shí)代企業(yè)競(jìng)爭(zhēng)情報(bào)分析的發(fā)展方向[9]。楊繹從文獻(xiàn)計(jì)量的角度對(duì)大數(shù)據(jù)進(jìn)行了定量研究,并得出結(jié)論:目前國(guó)內(nèi)對(duì)“大數(shù)據(jù)”的接受程度不高,應(yīng)進(jìn)一步展開(kāi)研究[10]。樊偉紅等人探討了大數(shù)據(jù)可能給圖書(shū)館帶來(lái)的機(jī)遇和挑戰(zhàn)[11]。侯經(jīng)川、方靜怡重點(diǎn)探討了大數(shù)據(jù)時(shí)代數(shù)據(jù)引證的研究進(jìn)展與未來(lái)研究展望[12]。另外,國(guó)內(nèi)與大數(shù)據(jù)相關(guān)的研討會(huì)議主要有:2012年8月23—25日,中國(guó)國(guó)防科學(xué)技術(shù)信息學(xué)會(huì)情報(bào)研究專業(yè)委員會(huì)在黑龍江省漠河縣召開(kāi)了“大數(shù)據(jù)背景下的國(guó)防科技情報(bào)研究”學(xué)術(shù)研討會(huì),在學(xué)術(shù)界首次以學(xué)術(shù)論壇的形式探討大數(shù)據(jù)背景下的國(guó)防科技情報(bào)研究工作[13]。2012年11月30日—12月1日,中國(guó)IT界技術(shù)盛會(huì)——Hadoop與大數(shù)據(jù)技術(shù)大會(huì)(HBTC 2012)在北京隆重舉辦,大會(huì)以“大數(shù)據(jù)共享與開(kāi)放技術(shù)”為主題,展望了Hadoop和大數(shù)據(jù)璀璨的發(fā)展未來(lái)[14]。
在新信息化環(huán)境下,大數(shù)據(jù)將為圖書(shū)館對(duì)大規(guī)模數(shù)據(jù)的處理和分析、實(shí)現(xiàn)知識(shí)管理和知識(shí)服務(wù)模式的完善和創(chuàng)新、提升圖書(shū)館的業(yè)務(wù)服務(wù)水平等提供新的思路和方案。我國(guó)圖書(shū)情報(bào)界的學(xué)者基于不同的視角對(duì)大數(shù)據(jù)與圖書(shū)館的相關(guān)問(wèn)題進(jìn)行了研究,取得了一定成效,這對(duì)于加強(qiáng)大數(shù)據(jù)的研究、推動(dòng)圖書(shū)館應(yīng)用大數(shù)據(jù)的嘗試和探索具有較大的理論價(jià)值和現(xiàn)實(shí)指導(dǎo)意義。但目前國(guó)內(nèi)圖書(shū)情報(bào)界針對(duì)大數(shù)據(jù)的研究還存在一些缺陷,如大部分研究主要是對(duì)國(guó)外實(shí)踐的介紹,提出獨(dú)創(chuàng)性觀點(diǎn)的較少;理論研究較多,而有針對(duì)性的實(shí)踐研究偏少;大多是從宏觀上談?wù)摯髷?shù)據(jù)對(duì)圖書(shū)館的影響、挑戰(zhàn)等,顯得較寬泛,操作起來(lái)可行性不太強(qiáng);有些內(nèi)容前后重復(fù)。另外還有一個(gè)遺憾,那就是沒(méi)有專門(mén)針對(duì)公共圖書(shū)館應(yīng)用大數(shù)據(jù)的研究文獻(xiàn),這與時(shí)代的節(jié)拍不太相符。我國(guó)提出“文化強(qiáng)國(guó)”戰(zhàn)略,提出加強(qiáng)公共數(shù)字文化服務(wù)體系建設(shè),這對(duì)于公共圖書(shū)館來(lái)說(shuō)是義不容辭的職責(zé)。筆者認(rèn)為,在大數(shù)據(jù)背景下,加強(qiáng)公共圖書(shū)館應(yīng)用大數(shù)據(jù)的服務(wù)能力和策略的相關(guān)研究和實(shí)踐具有較大的參考價(jià)值和時(shí)代意義。巧合的是,2013年國(guó)家社科基金項(xiàng)目申報(bào)指南中的“圖書(shū)館、情報(bào)與文獻(xiàn)學(xué)”部分正好列有與大數(shù)據(jù)相關(guān)的研究主題[15]。這說(shuō)明,“公共圖書(shū)館應(yīng)用大數(shù)據(jù)”這一研究在國(guó)內(nèi)尚屬于較新的研究領(lǐng)域,具有較大的研究潛力。
自從大數(shù)據(jù)的概念提出以來(lái),學(xué)術(shù)界對(duì)于大數(shù)據(jù)含義的理解很難達(dá)成共識(shí),基本上是仁者見(jiàn)仁,智者見(jiàn)智;這一點(diǎn)與云計(jì)算的概念剛提出時(shí)的情況類似。目前,各種不同的定義基本上是從大數(shù)據(jù)的特征出發(fā),通過(guò)其特征的闡述歸納出來(lái)的。對(duì)于“大數(shù)據(jù)”,研究機(jī)構(gòu)Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)[16]。百度百科名片中這樣描述大數(shù)據(jù):大數(shù)據(jù),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊[17]。維基百科對(duì)大數(shù)據(jù)的定義較為簡(jiǎn)單:大數(shù)據(jù)是指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集[18]。
一般認(rèn)為,大數(shù)據(jù)具有4個(gè)主要特征,業(yè)界將其形象地概括為4個(gè)“V”:首先,數(shù)據(jù)體量巨大(Volume),從TB級(jí)別躍升到PB、ZB級(jí)別;其次,數(shù)據(jù)類型繁多(Variety),如流行的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等;第三,價(jià)值密度低(Value);以視頻為例,在連續(xù)不間斷的監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅才一兩秒;最后,處理速度快(Velocity),基本上貫徹1秒定律,這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別。
大數(shù)據(jù)的價(jià)值是通過(guò)數(shù)據(jù)共享、交叉復(fù)用獲取最大的數(shù)據(jù)價(jià)值;未來(lái)大數(shù)據(jù)將會(huì)如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者等,數(shù)據(jù)的交叉復(fù)用將可能使大數(shù)據(jù)變成一大產(chǎn)業(yè)。雖然大數(shù)據(jù)目前在國(guó)內(nèi)還處于初級(jí)階段,但是其商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來(lái)。首先,手中握有數(shù)據(jù)的公司處于有利的競(jìng)爭(zhēng)地位,基于數(shù)據(jù)交易即可產(chǎn)生很好的經(jīng)濟(jì)效益;其次,基于數(shù)據(jù)挖掘會(huì)有很多商業(yè)模式誕生。例如,數(shù)據(jù)分析人才幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫助企業(yè)更精準(zhǔn)地找到用戶,降低營(yíng)銷成本,提高企業(yè)銷售率,增加利潤(rùn)。另外,通過(guò)網(wǎng)絡(luò)工具挖掘用戶的行為習(xí)慣和喜好,從凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并對(duì)產(chǎn)品和服務(wù)進(jìn)行針對(duì)性地調(diào)整和優(yōu)化,這也是大數(shù)據(jù)的社會(huì)價(jià)值之一,大數(shù)據(jù)將日益顯現(xiàn)出對(duì)各個(gè)行業(yè)的推進(jìn)力[19]。
大數(shù)據(jù)技術(shù)的價(jià)值在于應(yīng)用,而目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。移動(dòng)互聯(lián)網(wǎng)與社交網(wǎng)絡(luò)的興起將大數(shù)據(jù)帶入新的征程。在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,公司從開(kāi)發(fā)者角度找到數(shù)據(jù)挖掘的方向,通過(guò)提供免費(fèi)的技術(shù)服務(wù),幫助開(kāi)發(fā)者了解應(yīng)用狀況;社交網(wǎng)絡(luò)產(chǎn)生了海量用戶以及實(shí)時(shí)和完整的數(shù)據(jù),同時(shí)社交網(wǎng)絡(luò)也記錄了用戶群體的信息,通過(guò)深入挖掘這些數(shù)據(jù)來(lái)了解用戶,然后將這些分析后的數(shù)據(jù)信息推送給需要的品牌商家或是微博營(yíng)銷公司。簡(jiǎn)言之,大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域主要包括商業(yè)智能、公共服務(wù)、市場(chǎng)營(yíng)銷等[8]。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)也吸引了越來(lái)越多的關(guān)注。大數(shù)據(jù)和云計(jì)算密不可分,云計(jì)算是大數(shù)據(jù)的基礎(chǔ)平臺(tái)與支撐技術(shù);大數(shù)據(jù)分析常和云計(jì)算聯(lián)系在一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要諸如Map-Reduce的框架來(lái)向云端的電腦分配指令和工作。但是,二者也存在一定的區(qū)別,如表1所示。
表1 云計(jì)算與大數(shù)據(jù)的比較明細(xì)表
由于各種新信息技術(shù)的迅速發(fā)展,社會(huì)網(wǎng)絡(luò)的知識(shí)傳播與利用方式也發(fā)生了變革,公共圖書(shū)館的基礎(chǔ)服務(wù)體系得到加強(qiáng);同時(shí),用戶不斷增長(zhǎng)的信息需求促使公共圖書(shū)館的拓展服務(wù)持續(xù)延伸,如讀者數(shù)據(jù)的深度分析和挖掘、知識(shí)服務(wù)的服務(wù)趨勢(shì)和競(jìng)爭(zhēng)力分析、知識(shí)創(chuàng)新分析與預(yù)測(cè)等。公共圖書(shū)館歷來(lái)是新信息技術(shù)應(yīng)用的重鎮(zhèn),在當(dāng)今的“大數(shù)據(jù)”時(shí)代也不例外。公共圖書(shū)館亦是大數(shù)據(jù)的主要來(lái)源地之一,其主要數(shù)據(jù)來(lái)源有:用戶借閱流通數(shù)據(jù)、館藏書(shū)目數(shù)據(jù)和電子數(shù)據(jù)庫(kù)、RFID(RadioFrequency IDentification,無(wú)線射頻識(shí)別)數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)、移動(dòng)互聯(lián)數(shù)據(jù)及各種傳感器數(shù)據(jù)等。大數(shù)據(jù)技術(shù)將給公共圖書(shū)館帶來(lái)較深刻的影響和創(chuàng)造性的變化,對(duì)其知識(shí)服務(wù)能力和知識(shí)服務(wù)機(jī)制產(chǎn)生較大的沖擊,可以幫助公共圖書(shū)館建立和完善新的知識(shí)服務(wù)方式。大數(shù)據(jù)為公共圖書(shū)館新型知識(shí)服務(wù)方式帶來(lái)的契機(jī)與幫助主要表現(xiàn)為:(1)幫助公共圖書(shū)館進(jìn)行用戶流失分析,應(yīng)對(duì)生存危機(jī)。由于諸多原因,公共圖書(shū)館的存在價(jià)值被逐漸淡化,用戶流失現(xiàn)象較為嚴(yán)重。公共圖書(shū)館借助大數(shù)據(jù)技術(shù)對(duì)用戶需求的數(shù)據(jù)進(jìn)行分析,不僅可以了解用戶的信息行為、需求意愿及知識(shí)運(yùn)用能力,還可以深度挖掘用戶在交互型知識(shí)服務(wù)過(guò)程中的潛在需求數(shù)據(jù),從而有針對(duì)性地開(kāi)展服務(wù)并吸引讀者,應(yīng)對(duì)生存危機(jī)。(2)幫助公共圖書(shū)館建立更智能、靈活的社會(huì)網(wǎng)絡(luò)知識(shí)服務(wù)組合方式。公共圖書(shū)館可以通過(guò)分析各種數(shù)據(jù)資源的狀況來(lái)采取相應(yīng)的對(duì)策,從圖書(shū)館的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)資源中抓取有用的知識(shí)和關(guān)聯(lián)關(guān)系等,完善新的知識(shí)服務(wù)方式。(3)幫助公共圖書(shū)館建立知識(shí)服務(wù)導(dǎo)航機(jī)制。如何利用大數(shù)據(jù)技術(shù)構(gòu)建公共圖書(shū)館的新型知識(shí)服務(wù)導(dǎo)航機(jī)制,將會(huì)是公共圖書(shū)館界研究大數(shù)據(jù)的主要議題之一。大數(shù)據(jù)有助于推動(dòng)公共圖書(shū)館建設(shè)新型知識(shí)服務(wù)導(dǎo)航機(jī)制,主要應(yīng)考慮到用戶知識(shí)需求預(yù)測(cè)導(dǎo)航、多維數(shù)據(jù)資源的組織和分析導(dǎo)航、用戶信息行為智能分析導(dǎo)航、學(xué)術(shù)資源搜索導(dǎo)航、數(shù)據(jù)資源的推薦服務(wù)導(dǎo)航等[11]。
公共圖書(shū)館作為我國(guó)現(xiàn)代社會(huì)公共數(shù)字文化服務(wù)體系中的重要組成部分,理應(yīng)審時(shí)度勢(shì),延伸和拓展對(duì)用戶的公共服務(wù),加強(qiáng)新信息技術(shù)的應(yīng)用,提升自身的服務(wù)水平和社會(huì)價(jià)值,助推文化強(qiáng)國(guó)建設(shè)。隨著公共圖書(shū)館開(kāi)展公共服務(wù)的不斷深入和完善,公共圖書(shū)館的服務(wù)基礎(chǔ)和社會(huì)民眾基礎(chǔ)也在逐漸擴(kuò)大,所擁有的數(shù)據(jù)量也在不斷增長(zhǎng)。對(duì)于公共圖書(shū)館而言,如何把握大數(shù)據(jù)帶來(lái)的技術(shù)優(yōu)勢(shì)與數(shù)據(jù)分析方法,提高公共圖書(shū)館能夠分析的數(shù)據(jù)比例,提高和加強(qiáng)公共圖書(shū)館的知識(shí)服務(wù)能力,顯得重要而迫切。大數(shù)據(jù)技術(shù)將不可避免地對(duì)公共圖書(shū)館產(chǎn)生影響,其中大家較為熟知的云計(jì)算則是大數(shù)據(jù)的基礎(chǔ)平臺(tái)與支撐技術(shù),主要牽涉到文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)、索引與查詢技術(shù)、數(shù)據(jù)分析技術(shù)等關(guān)鍵技術(shù)。目前最為流行的大數(shù)據(jù)處理平臺(tái)是Hadoop,另外還有較多大數(shù)據(jù)處理工具,如MapReduce等[16]。為了便于大數(shù)據(jù)的管理,公共圖書(shū)館需要建立優(yōu)質(zhì)的數(shù)據(jù)庫(kù)系統(tǒng)并構(gòu)建高質(zhì)量的索引,以便為讀者提供高效率的數(shù)據(jù)檢索功能,并且通過(guò)先進(jìn)的數(shù)據(jù)分析技術(shù)從公共圖書(shū)館的大數(shù)據(jù)中提取有用的知識(shí)。大數(shù)據(jù)技術(shù)可以幫助公共圖書(shū)館獲得準(zhǔn)確、及時(shí)的用戶數(shù)據(jù),為公共圖書(shū)館開(kāi)展公共服務(wù)提供強(qiáng)有力的技術(shù)支撐;同時(shí),大數(shù)據(jù)技術(shù)在公共圖書(shū)館的應(yīng)用有助于管理者及時(shí)了解圖書(shū)館最新知識(shí)服務(wù)的趨勢(shì)并作出決策、調(diào)整服務(wù)方向,進(jìn)而贏得用戶的支持,提高公共圖書(shū)館的核心競(jìng)爭(zhēng)力。
在新的信息化環(huán)境下,數(shù)據(jù)量急劇增長(zhǎng),數(shù)據(jù)類型不斷增多,用戶的社會(huì)網(wǎng)絡(luò)活動(dòng)產(chǎn)生出大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)信息,其數(shù)據(jù)的格式、類型、結(jié)構(gòu)及存在形態(tài)等都變得更加多樣,這就增加了大數(shù)據(jù)的復(fù)雜性。公共圖書(shū)館要想形成新的知識(shí)服務(wù)范式,則必須要善于對(duì)海量的用戶數(shù)據(jù)加以分析,從大數(shù)據(jù)中發(fā)掘出有價(jià)值的現(xiàn)實(shí)問(wèn)題。但目前公共圖書(shū)館的信息技術(shù)人才、數(shù)據(jù)處理技術(shù)和硬件基礎(chǔ)設(shè)施等難以滿足大數(shù)據(jù)的應(yīng)用及用戶的知識(shí)服務(wù)需求,大數(shù)據(jù)的存儲(chǔ)、分析計(jì)算和應(yīng)用等對(duì)公共圖書(shū)館提出新的嚴(yán)峻挑戰(zhàn)。首先,大數(shù)據(jù)對(duì)于公共圖書(shū)館的數(shù)據(jù)存儲(chǔ)能力和范圍、計(jì)算能力有著特別高的要求。公共圖書(shū)館自身?yè)碛泻A康臄?shù)據(jù),其存儲(chǔ)和運(yùn)算能力受限,與大數(shù)據(jù)對(duì)存儲(chǔ)能力的高要求存在一定的差距,這就直接決定了公共圖書(shū)館擁有大數(shù)據(jù)的質(zhì)量。其次,公共圖書(shū)館面臨硬件基礎(chǔ)設(shè)施和技術(shù)人才的挑戰(zhàn)。數(shù)據(jù)量的迅速增加對(duì)支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)及分析的硬件基礎(chǔ)設(shè)施提出了更高要求。大數(shù)據(jù)時(shí)代,公共圖書(shū)館要存儲(chǔ)和分析各類用戶及社會(huì)群體等的信息,需要擁有經(jīng)濟(jì)、高效的存儲(chǔ)和計(jì)算能力,而這則需要建立在較先進(jìn)、完備的硬件基礎(chǔ)設(shè)施和信息技術(shù)人才的基礎(chǔ)之上。因此,需要擁有復(fù)雜數(shù)據(jù)處理的網(wǎng)絡(luò)基礎(chǔ)設(shè)施、擁有大數(shù)據(jù)可靠分析和應(yīng)用的軟硬件基礎(chǔ)設(shè)施以及擁有技術(shù)較為熟練的信息人才是公共圖書(shū)館針對(duì)大數(shù)據(jù)研究與應(yīng)用的主要挑戰(zhàn)之一。
我國(guó)“十八大”的召開(kāi)將國(guó)家信息化提到了較高的戰(zhàn)略高度,其提出要加強(qiáng)社會(huì)管理信息化建設(shè)、加快公共數(shù)字文化服務(wù)體系建設(shè)和健全信息安全保障體系。這給新形勢(shì)下公共圖書(shū)館的發(fā)展提供了良好的機(jī)遇,公共圖書(shū)館理應(yīng)在社會(huì)信息化的浪潮中大展宏圖,發(fā)揮更積極的作用,如建設(shè)好特色數(shù)據(jù)庫(kù)、數(shù)字資源服務(wù)系統(tǒng)及富有個(gè)性的門(mén)戶網(wǎng)站等。近幾年,公共圖書(shū)館的數(shù)據(jù)處理也主要是限于將紙質(zhì)文獻(xiàn)資源等進(jìn)行數(shù)字化、網(wǎng)絡(luò)化處理,并購(gòu)買一些電子數(shù)據(jù)庫(kù)等。這其中牽涉到的大部分是結(jié)構(gòu)化的數(shù)據(jù)信息,可供分析的數(shù)據(jù)比例不大,要想從中挖掘出十分有價(jià)值的信息難度較大。大數(shù)據(jù)時(shí)代的到來(lái)促使社會(huì)公眾逐漸對(duì)大數(shù)據(jù)產(chǎn)生興趣,大數(shù)據(jù)的特征與優(yōu)勢(shì)促使用戶的信息化需求發(fā)生變化,用戶迫切需要公共圖書(shū)館提供智能化、個(gè)性化、較大范圍的知識(shí)服務(wù)。為了適應(yīng)國(guó)家信息化的發(fā)展,盡力滿足用戶不斷增長(zhǎng)的信息需求,公共圖書(shū)館應(yīng)該充分利用現(xiàn)有條件,挖掘潛力,改善基礎(chǔ)設(shè)施,提高對(duì)大數(shù)據(jù)的分析和處理能力,這是大數(shù)據(jù)時(shí)代公共圖書(shū)館發(fā)展的主旋律。在大數(shù)據(jù)時(shí)代,公共圖書(shū)館應(yīng)及時(shí)變革圖書(shū)館的數(shù)據(jù)處理范圍和方式,根據(jù)用戶服務(wù)數(shù)據(jù)和社會(huì)網(wǎng)絡(luò)數(shù)據(jù)對(duì)用戶的借閱記錄、信息行為、微博日志等各類數(shù)據(jù)進(jìn)行深入分析,挖掘出有價(jià)值的信息,改善和提高服務(wù)方案,提高服務(wù)效率。對(duì)大數(shù)據(jù)的分析、提煉與處理將成為新時(shí)代環(huán)境中公共圖書(shū)館的主要業(yè)務(wù)。
公共圖書(shū)館信息化建設(shè)程度的不斷提高,知識(shí)經(jīng)濟(jì)和知識(shí)社會(huì)的到來(lái)使得知識(shí)服務(wù)成為當(dāng)今公共圖書(shū)館服務(wù)體系中所崇尚和追求的理想服務(wù)模式之一。大數(shù)據(jù)促使公共圖書(shū)館服務(wù)方式和服務(wù)內(nèi)容發(fā)生了改變:現(xiàn)有的公共服務(wù)演變?yōu)閲@以數(shù)據(jù)為中心的知識(shí)創(chuàng)新型服務(wù),數(shù)據(jù)分析和挖掘成為公共圖書(shū)館知識(shí)服務(wù)體系創(chuàng)新與完善的戰(zhàn)略制高點(diǎn)。大數(shù)據(jù)客觀上要求公共圖書(shū)館不僅需要通過(guò)數(shù)據(jù)了解現(xiàn)在知識(shí)服務(wù)的過(guò)程發(fā)生了什么、用戶需要什么服務(wù),也需要利用數(shù)據(jù)對(duì)圖書(shū)館與用戶的交互關(guān)系進(jìn)行數(shù)據(jù)挖掘、分析和預(yù)測(cè)可能發(fā)生的信息行為,還需要利用數(shù)據(jù)對(duì)圖書(shū)館與科研機(jī)構(gòu)在合作交互型知識(shí)服務(wù)過(guò)程中將要發(fā)生的趨向進(jìn)行分析和預(yù)測(cè)。在大數(shù)據(jù)時(shí)代,公共圖書(shū)館應(yīng)該確立“以復(fù)雜的大數(shù)據(jù)為對(duì)象,以深度分析和數(shù)據(jù)挖掘?yàn)橐蟆钡闹R(shí)服務(wù)高標(biāo)準(zhǔn),以便建立和完善新型的知識(shí)服務(wù)模式和營(yíng)銷方式,積極應(yīng)對(duì)用戶流失和未知的挑戰(zhàn)等風(fēng)險(xiǎn)。
隨著互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的發(fā)展,社會(huì)公眾將在不同的地點(diǎn)留下越來(lái)越多的數(shù)據(jù)痕跡,這些數(shù)據(jù)具有關(guān)聯(lián)性和累積性;如果將個(gè)人的較多信息行為從不同的獨(dú)立地點(diǎn)聚集在一起,其隱私將很可能被暴露,這也是人們較關(guān)心的大數(shù)據(jù)的隱私問(wèn)題。大數(shù)據(jù)時(shí)代的隱私保護(hù)面臨人力和技術(shù)兩個(gè)層面的雙重考驗(yàn),應(yīng)該在不暴露用戶個(gè)人隱私的前提下進(jìn)行有效的數(shù)據(jù)分析和數(shù)據(jù)挖掘,這樣才能確保信息的安全和完整。公共圖書(shū)館將會(huì)面臨大數(shù)據(jù)的影響和挑戰(zhàn),可能也會(huì)遭到用戶的質(zhì)疑:“大數(shù)據(jù)時(shí)代公共圖書(shū)館能否有效地保護(hù)個(gè)人的隱私?”公共圖書(shū)館在保護(hù)讀者隱私權(quán)方面還是較令人滿意的:一向堅(jiān)持保護(hù)用戶的個(gè)人隱私權(quán)。但在大數(shù)據(jù)時(shí)代這一舉動(dòng)可能受到挑戰(zhàn),因?yàn)楣矆D書(shū)館為了改善服務(wù)方式、提供更優(yōu)質(zhì)的服務(wù),需要通過(guò)廣泛的渠道提取用戶的數(shù)據(jù)信息并加以分析,了解其閱讀愛(ài)好和常見(jiàn)的信息行為,以便量體裁衣。那么,新時(shí)代下的公共圖書(shū)館員應(yīng)該樹(shù)立良好的職業(yè)素養(yǎng),高度關(guān)注和重視大數(shù)據(jù)的隱私問(wèn)題,堅(jiān)決維護(hù)用戶的隱私權(quán),做到用戶的個(gè)人信息在合理、合法的范圍內(nèi)有效傳播;達(dá)到“既充分發(fā)揮大數(shù)據(jù)的優(yōu)勢(shì),又不侵犯用戶隱私”的雙贏目的。
新興信息技術(shù)的出現(xiàn)及新環(huán)境的誕生將無(wú)可避免地影響包括公共圖書(shū)館在內(nèi)的各類型圖書(shū)館服務(wù)的變革;大數(shù)據(jù)時(shí)代的來(lái)臨將促使用戶產(chǎn)生更高、更現(xiàn)實(shí)的知識(shí)服務(wù)需求。隨著信息通訊技術(shù)和社會(huì)網(wǎng)絡(luò)的發(fā)展,公共圖書(shū)館將日益產(chǎn)生規(guī)模越來(lái)越大的數(shù)據(jù),從大量的復(fù)雜數(shù)據(jù)中分析、挖掘出其潛在的價(jià)值,從而有針對(duì)性地開(kāi)展知識(shí)服務(wù)將成為大數(shù)據(jù)時(shí)代公共圖書(shū)館的一大主要業(yè)務(wù)和發(fā)展方向。筆者主要探討了大數(shù)據(jù)給公共圖書(shū)館帶來(lái)的契機(jī)與影響以及公共圖書(shū)館應(yīng)用大數(shù)據(jù)的策略建議。但諸如“大數(shù)據(jù)在公共圖書(shū)館應(yīng)用的前景如何?”、“公共圖書(shū)館應(yīng)用大數(shù)據(jù)如何經(jīng)受實(shí)踐的檢驗(yàn)?”等問(wèn)題,尚有待進(jìn)一步研究。
[1]The New York Times.The Age of Big Data [EB/OL].[2013-03-02].http://www.nytimes.com/2012/02/12/Sunday-review/big-datasimpact-in-the-world.html?pagewanted=all.
[2]The White House.Big Data Across the Federal Government[EB/OL].[2013-03-02].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet.pdf.
[3]The Wall Street Journal.Big-Data Success Stories: Splunk[EB/OL].[2013-03-02].http://blogs.wsj.com/venturecapital/2011/10/21/bigdata-success-stories-splunk/.
[4]中國(guó)科學(xué)院.李國(guó)杰院士:大數(shù)據(jù)成為信息科技新關(guān)注點(diǎn)[EB/OL].[2013-03-02].http://www.cas.cn/xw/zjsd/201206/t20120627_3605350.shtml.
[5]Corral S.Roles and Responsibilities: Libraries, Librarians and Data[G]// Pryor G.Managing Research Data.London: Facet Publishing,2012:212-218.
[6]楊海燕.大數(shù)據(jù)時(shí)代的圖書(shū)館服務(wù)淺析[J].圖書(shū)與情報(bào),2012(4):120-122.
[7]韓翠峰.大數(shù)據(jù)帶給圖書(shū)館的影響與挑戰(zhàn)[J].圖書(shū)與情報(bào),2012(5):37-40.
[8]張文彥,武瑞原,于 潔.大數(shù)據(jù)時(shí)代的圖書(shū)館初探[J].圖書(shū)與情報(bào),2012(6):15-21.
[9]黃曉斌,鐘輝新.大數(shù)據(jù)時(shí)代企業(yè)競(jìng)爭(zhēng)情報(bào)研究的創(chuàng)新與發(fā)展[J].圖書(shū)與情報(bào),2012(6):9-14.
[10]楊 繹.基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J].圖書(shū)館雜志,2012,31(9):29-32,37.
[11]樊偉紅,李晨暉,張興旺,等.圖書(shū)館需要怎樣的“大數(shù)據(jù)”[J].圖書(shū)館雜志,2012,31(11):63-68,77.
[12]侯經(jīng)川,方靜怡.大數(shù)據(jù)時(shí)代的數(shù)據(jù)引證研究:進(jìn)展與展望[EB/OL].[2012-03-02].http://www.cnki.net/kcms/detail/11.2746.G2.20121213.1730.002.html.
[13]“大數(shù)據(jù)背景下的國(guó)防科技情報(bào)研究”學(xué)術(shù)研討會(huì)在漠河召開(kāi)[EB/OL].[2013-03-02].http://d.wanfangdata.com.cn/Periodical_qbllysj201209031.aspx.
[14]HBTC 2012.2012 Hadoop與大數(shù)據(jù)技術(shù)大會(huì)圓滿落幕[EB/OL].[2013-03-02].http://hbtc2012.hadooper.cn/.
[15]全國(guó)哲學(xué)社會(huì)科學(xué)規(guī)劃辦公室.2013年國(guó)家社科基金申報(bào)指南:圖書(shū)館、情報(bào)與文獻(xiàn)學(xué)[EB/OL].[2013-01-28].http://www.npopss-cn.gov.cn/n/2012/1227/c219473-20030485.html.
[16]孟小峰,慈 祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[17]大數(shù)據(jù)[EB/OL].[2013-03-02].http://baike.baidu.com/view/6954399.htm.
[18]Big Data [EB/OL].[2013-03-02].http://www.en.wikipedia.org/wiki/Big Data.
[19]大數(shù)據(jù)定義[EB/OL].[2013-03-02].http://wenku.baidu.com/view/2db0c1de7f1922791688e8b6.html.