摘 要:大數(shù)據(jù)與云計(jì)算是近兩年IT界最為流行的兩個(gè)關(guān)鍵詞,各大IT廠商也都看到了大數(shù)據(jù)所蘊(yùn)含的商業(yè)價(jià)值并展開了一定的產(chǎn)品研發(fā)與商業(yè)應(yīng)用。在大數(shù)據(jù)時(shí)代,圖書館的數(shù)據(jù)處理及服務(wù)將會(huì)發(fā)生顯著的變化,從大量的數(shù)據(jù)集中去分析和挖掘潛在的價(jià)值,以便圖書館決策層及時(shí)做出相應(yīng)的建設(shè)方案調(diào)整將成為圖書館的一大主要業(yè)務(wù),圖書館服務(wù)也將隨著圖書館服務(wù)策略的調(diào)整而做出服務(wù)方式、途徑等方面的改變。
關(guān)鍵詞:大數(shù)據(jù) 云計(jì)算 數(shù)據(jù)處理 數(shù)據(jù)分析 信息服務(wù) 圖書館服務(wù) 數(shù)據(jù)挖掘
中圖分類號(hào):G253文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1003-6938(2012)04-0120-03“大數(shù)據(jù)”(Big data)是IT界繼“Web2.0”、“數(shù)據(jù)挖掘”和“云計(jì)算”之后近兩年最流行的詞,大數(shù)據(jù)革命也正以Apache Hadoop為中心如火如荼的進(jìn)行著,IBM、EMC、Oracle、VMware和Microsoft等商業(yè)機(jī)構(gòu)已看到了在這場革命中蘊(yùn)含的商業(yè)價(jià)值,并基于云計(jì)算等平臺(tái)開發(fā)了諸如BigInsights產(chǎn)品[1]的數(shù)據(jù)計(jì)算、數(shù)據(jù)收集等服務(wù)。實(shí)際應(yīng)用方面,EMC和VMware已經(jīng)做出了表率,EMC中國區(qū)總裁蔡漢輝介紹說,中信銀行在實(shí)施了EMC提供的大數(shù)據(jù)解決方案以后,取得了不錯(cuò)的效益,如中信銀行在2011年大概有1200多個(gè)營銷活動(dòng),以前他們舉辦一個(gè)營銷活動(dòng)大概需要兩周左右的時(shí)間做配置。但是通過運(yùn)用EMC提供的大數(shù)據(jù)解決方案后,只需要2~3天就可以配置成功[2]。美國政府也預(yù)測到了這場革命中的戰(zhàn)略價(jià)值,奧巴馬政府于2012年3月29日宣布推出“大數(shù)據(jù)的研究和發(fā)展計(jì)劃”,意在推進(jìn)和改善聯(lián)邦政府部門的數(shù)據(jù)收集、組織和分析工具及技術(shù),以提高從大量的、復(fù)雜的數(shù)據(jù)集合中獲取知識(shí)和洞見的能力[3],把大數(shù)據(jù)上升到了國家戰(zhàn)略的高度。但對(duì)于社會(huì)中以知識(shí)存貯、利用與開發(fā)為己任的圖書館來說,在這個(gè)“大數(shù)據(jù)”時(shí)代如何提高海量增長的文獻(xiàn)數(shù)據(jù)處理能力,搜尋新的數(shù)據(jù)計(jì)算、知識(shí)發(fā)現(xiàn)及信息服務(wù)的新途徑,是圖書館界學(xué)術(shù)研究的一大思考所在,而要真正解決這個(gè)問題,就要理性的認(rèn)識(shí)“大數(shù)據(jù)”及其帶給我們的環(huán)境與改變,逐層分析這些圖書館可以利用的理念、技術(shù)與工具,實(shí)現(xiàn)圖書館讀者信息服務(wù)能力的提升,進(jìn)而推動(dòng)我國圖書館事業(yè)的發(fā)展。
1 大數(shù)據(jù)概述
大數(shù)據(jù)目前尚沒有統(tǒng)一的定義,部分業(yè)界專家如《著云臺(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)過多的時(shí)間和金錢[4]。因此,大數(shù)據(jù)通常被認(rèn)為是一種數(shù)據(jù)量很大、數(shù)據(jù)形式多樣化的非結(jié)構(gòu)化數(shù)據(jù)[5]。
1.1 大數(shù)據(jù)的特點(diǎn)
隨著對(duì)大數(shù)據(jù)研究的進(jìn)一步深化,IT界對(duì)大數(shù)據(jù)的特點(diǎn)有了較為全面和統(tǒng)一的認(rèn)識(shí),即:(1)大數(shù)據(jù)的種類繁多,并在編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個(gè)方面存在差異性,多信息源并發(fā)形成了大量的異構(gòu)數(shù)據(jù);(2)通過各種設(shè)備產(chǎn)生的海量數(shù)據(jù),其數(shù)據(jù)規(guī)模極為龐大,遠(yuǎn)大于目前互聯(lián)網(wǎng)上的信息流量,PB級(jí)別將是常態(tài);(3)涉及到感知、傳輸、決策、控制開放式循環(huán)的大數(shù)據(jù),對(duì)數(shù)據(jù)實(shí)時(shí)處理有著極高的要求,通過傳統(tǒng)數(shù)據(jù)庫查詢方式得到的“當(dāng)前結(jié)果”很可能已經(jīng)沒有價(jià)值;(4)數(shù)據(jù)持續(xù)到達(dá),且只有在特定時(shí)間和空間中才有意義;(5)通過數(shù)據(jù)庫處理持久存儲(chǔ)的數(shù)據(jù)不再適用于大數(shù)據(jù)處理,需要有新的方法來滿足異構(gòu)數(shù)據(jù)統(tǒng)一接入和實(shí)時(shí)數(shù)據(jù)處理的需求[5]。
1.2 大數(shù)據(jù)的應(yīng)用領(lǐng)域與范圍
盡管大數(shù)據(jù)的概念形成較早,但對(duì)其技術(shù)的研發(fā)還是近幾年才發(fā)展起來的,從目前來看,大數(shù)據(jù)技術(shù)主要涵蓋的領(lǐng)域有可視化分析、數(shù)據(jù)挖掘算法、預(yù)測性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等,具體來說,目前主要有包括分布式緩存、基于MPP的分布式數(shù)據(jù)庫、分布式文件系統(tǒng)、各種NoSQL分布式存儲(chǔ)方案等。技術(shù)及應(yīng)用的不普及與不成形使得大數(shù)據(jù)的技術(shù)門檻較高,因此目前在該領(lǐng)域展開競爭的大都是在數(shù)據(jù)存儲(chǔ)、分析等領(lǐng)域有著傳統(tǒng)優(yōu)勢的IT廠商。如Oracle發(fā)布了Oracle大數(shù)據(jù)機(jī)、VMware推出了虛擬化架構(gòu)+云平臺(tái)的開源項(xiàng)目Serenget、EMC推出了EMC Hadoop等。IBM在大數(shù)據(jù)領(lǐng)域的優(yōu)勢則較為全面,而機(jī)器人“沃森”在人機(jī)大戰(zhàn)中獲勝,更成為IBM為其大數(shù)據(jù)分析解決方案加分的例證,此外,IBM還研發(fā)出了一系列大數(shù)據(jù)分析計(jì)算軟件,如基于云端Hadoop的分析軟件InfoSphere BigInsights、針對(duì)iPad用戶推出的全新移動(dòng)分析應(yīng)用軟件Cognos Mobile、擁有映射功能的全新預(yù)測分析軟件SPSS Statistics 20.0、全新的后臺(tái)數(shù)據(jù)篩選及維護(hù)軟件InfoSphere Information Server8.7等[6]。對(duì)其核心技術(shù)如Hadoop的應(yīng)用也主要是在一些企業(yè)的數(shù)據(jù)分析等領(lǐng)域,如百度的搜索日志分析,騰訊、淘寶和支付寶的數(shù)據(jù)倉庫等。
大數(shù)據(jù)最典型的另一應(yīng)用案例是大數(shù)據(jù)技術(shù)在沃爾瑪?shù)膽?yīng)用。沃爾瑪是最早通過利用大數(shù)據(jù)而受益的企業(yè)之一,早在2007年,沃爾瑪就建立了一個(gè)超大的數(shù)據(jù)中心,其存儲(chǔ)能力高達(dá)4PB以上。通過對(duì)數(shù)據(jù)中心中消費(fèi)者的購物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,沃爾瑪成為最了解顧客購物習(xí)慣的零售商,并創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例。大數(shù)據(jù)的另一應(yīng)用案例就是3月11日日本大地震發(fā)生后僅9分鐘,美國國家海洋和大氣管理局(NOAA)就發(fā)布了詳細(xì)的海嘯預(yù)警。通過對(duì)海洋傳感器獲得的實(shí)時(shí)數(shù)據(jù)進(jìn)行計(jì)算機(jī)模擬, NOAA隨即便制作出了海嘯影響模型并出現(xiàn)在YouTube等網(wǎng)站[7]。我國應(yīng)用大數(shù)據(jù)技術(shù)的企業(yè)當(dāng)前只是鳳毛麟角,目前僅有為數(shù)不多的企業(yè)正在開展相關(guān)的項(xiàng)目建設(shè)。如中國聯(lián)通正在通過采用基于云平臺(tái)及英特爾發(fā)行版Hadoop的大數(shù)據(jù)解決方案來構(gòu)建移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)。這一系統(tǒng)可為企業(yè)的客戶服務(wù)人員提供客戶上網(wǎng)記錄的快速查詢服務(wù),也可為客戶本人提供高效的異常大流量上網(wǎng)記錄自助查詢服務(wù),這將有助于解決流量投訴問題。該項(xiàng)目將在2012年10月結(jié)束,屆時(shí)除了為客戶服務(wù)人員提供服務(wù)外,系統(tǒng)還可以為企業(yè)的業(yè)務(wù)部門提供分析與決策服務(wù),并有望在未來幫助企業(yè)更為準(zhǔn)確地把握用戶偏好,從而讓中國聯(lián)通能更有效地制定市場策略和開發(fā)新業(yè)務(wù)[8]。
1.3 大數(shù)據(jù)與云計(jì)算
大數(shù)據(jù)常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作,因此對(duì)于云計(jì)算與大數(shù)據(jù)的關(guān)系,我們可以理解為云計(jì)算解決了目前大數(shù)據(jù)存儲(chǔ)及運(yùn)行的最大問題即提供了基礎(chǔ)架構(gòu)平臺(tái),而大數(shù)據(jù)則以分布式處理等手段應(yīng)用在這個(gè)平臺(tái)上,云計(jì)算的重點(diǎn)在于計(jì)算能力,大數(shù)據(jù)的重點(diǎn)是計(jì)算的對(duì)象,兩者之間是既相輔又互補(bǔ)的。 如果一定要找出云計(jì)算與大數(shù)據(jù)的顯著不同之處,那就是兩者的應(yīng)用不同。首先,從概念上來說,盡管大數(shù)據(jù)須以云作為基礎(chǔ)機(jī)構(gòu)才能運(yùn)營,但云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù);其次,大數(shù)據(jù)和云計(jì)算的目標(biāo)受眾不同,云計(jì)算是賣給信息主管高層的技術(shù)產(chǎn)品或解決方案,而大數(shù)據(jù)是賣給業(yè)務(wù)層的產(chǎn)品[9]。
2 大數(shù)據(jù)時(shí)代的圖書館數(shù)據(jù)處理與服務(wù)
2.1 圖書館具有了“大數(shù)據(jù)”特征
隨著圖書館信息資源的建設(shè)步伐加快及讀者服務(wù)要求的提高,圖書館在大數(shù)據(jù)時(shí)代已具有了一定的大數(shù)據(jù)特征。首先,圖書館的數(shù)據(jù)種類繁多,圖書館的數(shù)據(jù)資源有所藏文獻(xiàn)資源中的紙質(zhì)純印本、光盤資源、網(wǎng)絡(luò)資源、數(shù)據(jù)庫資源等結(jié)構(gòu)化信息,也有日常讀者信息、服務(wù)信息等非結(jié)構(gòu)化信息,更有圖書館自身建設(shè)的相關(guān)數(shù)據(jù),這些數(shù)據(jù)的編碼方式、數(shù)據(jù)格式、應(yīng)用特征即使是一所圖書館內(nèi)都無法統(tǒng)一,圖書館間更是存在較大差異,并形成了大量的異構(gòu)數(shù)據(jù);其次,圖書館的信息資源總量日益龐大且每天在迅速增長。如至2008年底,CALIS文獻(xiàn)數(shù)據(jù)總量達(dá)到180TB[10],至2010年底,國家圖書館數(shù)字資源總量已達(dá)480TB[11]、全國文化共享工程的數(shù)字資源總量達(dá)108TB[12],可以說每一所圖書館的資源總量并未達(dá)到PB級(jí),但全國總的圖書館數(shù)字資源總量卻是一個(gè)龐大的數(shù)據(jù)集;再次,隨著個(gè)性化、學(xué)科化等越來越專業(yè)、編輯服務(wù)的實(shí)施與出現(xiàn),用戶的服務(wù)要求也日益提高,圖書館必須根據(jù)用戶的服務(wù)信息等數(shù)據(jù)做出相應(yīng)的服務(wù)策略轉(zhuǎn)變,對(duì)大量數(shù)據(jù)的分析與潛在價(jià)值挖掘顯得不可避免;第四,圖書館24小時(shí)服務(wù)、網(wǎng)絡(luò)服務(wù)等新型服務(wù)方式的出現(xiàn),使得用戶的服務(wù)信息每時(shí)每刻都在遞增,但對(duì)這些數(shù)據(jù)的分析和挖掘需進(jìn)行相應(yīng)環(huán)境、條件的限定,如地域、時(shí)段、服務(wù)群體等;第五,盡管圖書館目前的自動(dòng)化建設(shè)水平較高且進(jìn)入到了一個(gè)新的發(fā)展階段,書目信息、用戶信息等都有大量的數(shù)據(jù)庫進(jìn)行記載與統(tǒng)計(jì),但對(duì)這些數(shù)據(jù)及未進(jìn)入數(shù)據(jù)庫的數(shù)據(jù)還需進(jìn)行異構(gòu)處理,以得出新的服務(wù)發(fā)現(xiàn)。
2.2 大數(shù)據(jù)時(shí)代的圖書館數(shù)據(jù)處理
當(dāng)前數(shù)字時(shí)代,圖書館的數(shù)據(jù)處理主要是將文獻(xiàn)資源等進(jìn)行數(shù)字化、網(wǎng)絡(luò)化、語義化處理,并在此基礎(chǔ)上盡力實(shí)現(xiàn)用戶的最大滿意和最大程度利用,數(shù)據(jù)庫建設(shè)、語義化建設(shè)、服務(wù)手段創(chuàng)新無一例外,但在大數(shù)據(jù)時(shí)代,圖書館的數(shù)據(jù)處理范圍、方式、對(duì)象、目的等將發(fā)生巨大的變化,如根據(jù)讀者服務(wù)數(shù)據(jù)對(duì)讀者借閱習(xí)慣、愛好等的數(shù)據(jù)分析,找出新的服務(wù)方案、策略。同時(shí),在大數(shù)據(jù)時(shí)代,圖書館的傳統(tǒng)業(yè)務(wù)將向數(shù)據(jù)分析、數(shù)據(jù)挖掘方向轉(zhuǎn)移,對(duì)大量數(shù)據(jù)的分析與處理將成為圖書館的主要業(yè)務(wù),圖書館資源數(shù)據(jù)量的擴(kuò)展、服務(wù)質(zhì)量的提升、服務(wù)策略的轉(zhuǎn)變不僅僅是依靠簡單如當(dāng)前的數(shù)據(jù)共享、豐富資源、創(chuàng)新方式、增加時(shí)間等,從大量數(shù)據(jù)中發(fā)現(xiàn)的規(guī)律越多、找出的潛在價(jià)值越大,圖書館的服務(wù)水平等也將提升的越快。
2.3 大數(shù)據(jù)時(shí)代的圖書館服務(wù)
技術(shù)的改變及用戶服務(wù)要求的變化推動(dòng)著圖書館服務(wù)的變遷,大數(shù)據(jù)時(shí)代的圖書館服務(wù)不管是服務(wù)的方式、途徑、模式等也都將發(fā)生改變,由于圖書館的服務(wù)策略是經(jīng)過大量數(shù)據(jù)捕獲、組織、分析和決策[13]而得來的,因此大數(shù)據(jù)時(shí)代的圖書館服務(wù)可能更具有針對(duì)性和鮮明性,服務(wù)手段、方式等也會(huì)隨著圖書館服務(wù)策略的調(diào)整而調(diào)整??梢灶A(yù)見的是,在調(diào)整文獻(xiàn)服務(wù)、信息咨詢、學(xué)科服務(wù)等這些圖書館必備的服務(wù)策略同時(shí),以信息的處理與服務(wù)為優(yōu)勢的圖書館的服務(wù)范圍及領(lǐng)域?qū)?huì)得到更大的擴(kuò)展,為社會(huì)機(jī)構(gòu)如政府、企業(yè)做一定的數(shù)據(jù)分析服務(wù)、數(shù)據(jù)挖掘服務(wù)將會(huì)成為大數(shù)據(jù)時(shí)代圖書館的常態(tài)服務(wù)內(nèi)容。
3 結(jié)語
每一種技術(shù)的出現(xiàn)及時(shí)代的誕生,都將影響或革新圖書館的服務(wù),用戶也會(huì)隨著社會(huì)的變遷而產(chǎn)生更新、更高的服務(wù)要求,大數(shù)據(jù)時(shí)代也是如此。目前圖書館現(xiàn)有數(shù)據(jù)來源多樣且龐大、結(jié)構(gòu)復(fù)雜等大數(shù)據(jù)特征會(huì)讓圖書館的大數(shù)據(jù)時(shí)代更快到來,從大量的數(shù)據(jù)中去分析潛在的價(jià)值將成為大數(shù)據(jù)時(shí)代圖書館的一大主要業(yè)務(wù),并且這些業(yè)務(wù)開展的水平也將決定著大數(shù)據(jù)時(shí)代的圖書館發(fā)展水平及方向。本文僅在探討大數(shù)據(jù)相關(guān)內(nèi)涵、概念、特點(diǎn)等基礎(chǔ)上,簡單的對(duì)大數(shù)據(jù)時(shí)代的圖書館數(shù)據(jù)處理業(yè)務(wù)及服務(wù)進(jìn)行了淺析,但在大數(shù)據(jù)真正來臨之際,圖書館的服務(wù)及數(shù)據(jù)處理還需更多的研究者去做深入細(xì)致和可行有效的學(xué)術(shù)研究與實(shí)踐探討。
參考文獻(xiàn):
[1]InfoSphere BigInsights[EB/OL].[2012-05-20]. http://www-01.ibm.com/software/data/infosphere/biginsights/.
[2]亞文輝.借云計(jì)算之力 大數(shù)據(jù)助企業(yè)創(chuàng)造價(jià)值[EB/OL].[2012-05-20].http://news.ccidnet.com/art/1032/20120827/4202457_3.html.
[3]賽迪智庫軟件與信息服務(wù)研究所.美國將發(fā)展大數(shù)據(jù)提升到戰(zhàn)略層面[J].中國電子報(bào),2012-07-17(003).
[4]Big data[EB/OL].[2012-05-20]. http://www.searchcloudcomputing.com.cn/word_5826.htm.
[5]大數(shù)據(jù)時(shí)代的特點(diǎn)[EB/OL].[2012-05-20].http://www.5lian.cn/html/2012/xueshu_0417/32237.html.
[6]IBM:積極推進(jìn)“大數(shù)據(jù)”時(shí)代革新[J].中國電子報(bào),2011,(22):116.
[7]案例解析:大數(shù)據(jù)應(yīng)用和方向[EB/OL].[2012-07-28]. http://www.enet.com.cn/article/2012/0720/A20120720139
303.shtml.
[8]沈建苗.大數(shù)據(jù)應(yīng)用:理想照進(jìn)現(xiàn)實(shí)[EB/OL].[2012-08-10].http://www.ccw.com.cn/weekly/cio/ciomethod/htm
2012/20120807_979394.shtml.
[9]CIO:云計(jì)算VS大數(shù)據(jù) 應(yīng)用各不相同[EB/OL].[2012
-07-28].http://www.enet.com.cn/article/2012/0820/A201
20820152536.shtml.
[10]2008年中國教育信息化十大事件[EB/OL].[2012-06-20].http://www.e-gov.org.cn/xinxihua/news004/2009
01/98561.html.
[11]國家圖書館“十二五”規(guī)劃綱要[EB/OL].[2012-06-20].http://www.nlc.gov.cn/dsb_footer/gygt/ghgy/
[12]全國文化信息資源共享工程介紹[EB/OL].[2012-06-20].http://www.ndcnc.gov.cn/libpage/gxgc/index.htm/.
[13]對(duì)于大數(shù)據(jù)應(yīng)用 你準(zhǔn)備好了嗎[EB/OL].[2012-06-12].http://www.d1net.com/cloud/news/96754.html.
作者簡介:楊海燕(1968-),女,棗莊學(xué)院圖書館副研究館員。