關(guān)鍵詞:大數(shù)據(jù);圖書館;信息服務(wù)
摘 要:文章通過分析大數(shù)據(jù)的特征與發(fā)展前景,結(jié)合圖書館信息服務(wù)的實(shí)際情況,重點(diǎn)探討大數(shù)據(jù)給圖書館帶來了哪些挑戰(zhàn)與機(jī)遇,并提出大數(shù)據(jù)環(huán)境下圖書館信息服務(wù)體系建設(shè)的構(gòu)想,包括可以幫助圖書館用戶分析、建立新型知識(shí)服務(wù)引擎、建立網(wǎng)絡(luò)化信息資源智能組合方式、對(duì)大數(shù)據(jù)的智能分析及智能輔助決策等,建立各類知識(shí)服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型。
中圖分類號(hào):G253 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2014)01-0111-03
作者簡(jiǎn)介:桂定君(1980-),深圳圖書館館員。
新形勢(shì)下,數(shù)據(jù)增長(zhǎng)宣告大數(shù)據(jù)時(shí)代的到來,但是社會(huì)各界對(duì)于大數(shù)據(jù)存在不一樣的認(rèn)知。就圖書館而言,圖書館作為信息中心,不可避免地面臨著大數(shù)據(jù)浪潮的沖擊,大數(shù)據(jù)環(huán)境下的圖書館服務(wù)體系轉(zhuǎn)型是圖書館發(fā)展的必然。
1 大數(shù)據(jù)概念的誕生及發(fā)展前景
麥肯錫曾經(jīng)預(yù)言數(shù)據(jù)將逐漸成為重要的生產(chǎn)因素,而大數(shù)據(jù)將預(yù)示生產(chǎn)率的增長(zhǎng)。通過分析大量數(shù)據(jù)獲取更多的知識(shí)與價(jià)值,是大數(shù)據(jù)時(shí)代的顯著特征,根據(jù)美國最近兩年的互聯(lián)網(wǎng)數(shù)據(jù)報(bào)告顯示,互聯(lián)網(wǎng)上的數(shù)據(jù)總量每年增長(zhǎng)將近一倍,目前90%的數(shù)據(jù)是近兩年產(chǎn)生的??梢灶A(yù)見的是,大數(shù)據(jù)時(shí)代即將到來,對(duì)于大數(shù)據(jù)價(jià)值的挖掘?qū)⒊蔀樾畔⒐ぷ髡呶磥砉ぷ鞯闹匾h(huán)節(jié)。美國政府于2012年啟動(dòng)“大數(shù)據(jù)研究發(fā)展計(jì)劃”,致力于研究發(fā)展大數(shù)據(jù)的采集、組織、分析、決策工具及技術(shù)[1]。
新的信息技術(shù)與利用形式在信息知識(shí)管理活動(dòng)中起重要作用[2],圖書館的知識(shí)服務(wù)體系包括知識(shí)提供者、知識(shí)接受者、知識(shí)運(yùn)營者及知識(shí)本身,還涉及數(shù)據(jù)的結(jié)構(gòu)、信息的深度、智能評(píng)價(jià)、知識(shí)價(jià)值與未來發(fā)展規(guī)律分析等高層次信息分析服務(wù)。為用戶提供系統(tǒng)性、預(yù)見性知識(shí)服務(wù)是圖書館在大數(shù)據(jù)時(shí)代背景下的新價(jià)值。
筆者通過分析大數(shù)據(jù)的基本特征、結(jié)合圖書館信息工作的實(shí)際,指出大數(shù)據(jù)時(shí)代給圖書館帶來的挑戰(zhàn)與機(jī)遇,提出建設(shè)適應(yīng)大數(shù)據(jù)時(shí)代的圖書館信息服務(wù)體系的構(gòu)想,為其他學(xué)者提供參考。
2 大數(shù)據(jù)給圖書館帶來的新挑戰(zhàn)
2.1 大數(shù)據(jù)的特征
顧名思義,大數(shù)據(jù)首先指數(shù)據(jù)的數(shù)量之大,比如:在圖書館領(lǐng)域中大數(shù)據(jù)的數(shù)據(jù)源來自植入在書本當(dāng)中的RFID圖書資源跟蹤技術(shù),RFID技術(shù)的普及將成為圖書館大數(shù)據(jù)的重要來源,還有社交網(wǎng)絡(luò)目前所產(chǎn)生的數(shù)據(jù)量在信息傳播媒介中穩(wěn)穩(wěn)占據(jù)的優(yōu)勢(shì)地位,社交網(wǎng)絡(luò)數(shù)據(jù)也將是圖書館大數(shù)據(jù)的主要來源之一。通信技術(shù)與移動(dòng)終端的發(fā)展使得圖書館多了一個(gè)獲取移動(dòng)電子設(shè)備、人員、資源、用戶行為和需求等信息的渠道[3]。如能對(duì)這些信息進(jìn)行有效的開發(fā),將能提高圖書館知識(shí)服務(wù)的作用,為用戶提供豐富的輔助決策信息。大數(shù)據(jù)的概念可以總結(jié)為4個(gè)特征:①容量。大數(shù)據(jù)的容量級(jí)別是過去的數(shù)據(jù)無法比擬的,它的起步容量已經(jīng)達(dá)到PB級(jí),一般的計(jì)算器已經(jīng)無法匹配數(shù)據(jù)的增長(zhǎng)速度。②多樣性。大數(shù)據(jù)是異構(gòu)數(shù)據(jù),它包含結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),并且它們之間是可轉(zhuǎn)化的,也就是說大數(shù)據(jù)結(jié)構(gòu)是可變的,甚至是隨時(shí)間變化。③速度。大數(shù)據(jù)的大部分內(nèi)容是交互式實(shí)時(shí)生成的內(nèi)容,用戶希望得到高于常規(guī)數(shù)據(jù)分析的預(yù)測(cè)性深度分析,以通過數(shù)據(jù)了解現(xiàn)在與未來。④價(jià)值。大數(shù)據(jù)的巨大價(jià)值在于將已有結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行融合和分析后,會(huì)挖掘出很多新的業(yè)務(wù)信息[4]。
2.2 大數(shù)據(jù)給圖書館帶來的挑戰(zhàn)
2.2.1 大數(shù)據(jù)帶來巨大的數(shù)據(jù)增量對(duì)圖書館現(xiàn)有的計(jì)算與存儲(chǔ)能力的挑戰(zhàn)。新的數(shù)據(jù)源一方面減低了數(shù)據(jù)的成本,另一方面多樣的數(shù)據(jù)類型與數(shù)據(jù)結(jié)構(gòu)加大了數(shù)據(jù)的復(fù)雜程度?,F(xiàn)有的數(shù)據(jù)技術(shù)無法匹配大數(shù)據(jù)的應(yīng)用需求,難以在海量數(shù)據(jù)中挖掘出有意義的社會(huì)與科學(xué)問題,為了使圖書館形成新的信息服務(wù)范式,圖書館的信息服務(wù)架構(gòu)改革勢(shì)在必行。首先,要解決的是數(shù)據(jù)存儲(chǔ)的問題,構(gòu)建合理的分級(jí)存儲(chǔ)架構(gòu)利于信息資源的管理。其次,信息服務(wù)的出發(fā)點(diǎn)以數(shù)據(jù)本身為中心,從過去以計(jì)算應(yīng)用為主,轉(zhuǎn)化為計(jì)算應(yīng)用服務(wù)與數(shù)據(jù)。最后,提高我們信息服務(wù)的軟硬件設(shè)施,包括高性能計(jì)算機(jī)、新的數(shù)據(jù)分析技術(shù)、新的數(shù)據(jù)表示方法等[5]。
2.2.2 大數(shù)據(jù)要求深化數(shù)據(jù)分析的挑戰(zhàn)。大數(shù)據(jù)背景下,數(shù)據(jù)分析是圖書館提供信息服務(wù)的基礎(chǔ),圖書館不僅需要通過數(shù)據(jù)分析出現(xiàn)階段的內(nèi)容與狀態(tài),還要對(duì)知識(shí)服務(wù)的內(nèi)容與狀態(tài)進(jìn)行預(yù)測(cè)分析,利用數(shù)據(jù)推測(cè)出未來發(fā)展方向與程度,進(jìn)而明確整個(gè)知識(shí)服務(wù)的過程,為知識(shí)服務(wù)架構(gòu)的改革做好準(zhǔn)備,順應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展要求。值得一提的是,數(shù)據(jù)的分析手段打破了常規(guī)的數(shù)據(jù)分析,深化的數(shù)據(jù)分析應(yīng)該包括大規(guī)模圖分析、關(guān)聯(lián)關(guān)系分析、社會(huì)網(wǎng)絡(luò)分析、時(shí)間序列分析、移動(dòng)平均線分析等。
2.2.3 大數(shù)據(jù)要求圖書館基礎(chǔ)設(shè)施升級(jí)的挑戰(zhàn)。大數(shù)據(jù)給圖書館帶來了大量數(shù)據(jù),其中非結(jié)構(gòu)化數(shù)據(jù)也在不斷增加,這就要求圖書館要不斷增大存儲(chǔ)能力與計(jì)算能力。目前,大多數(shù)的知識(shí)服務(wù)機(jī)構(gòu)為了節(jié)約成本,往往將大規(guī)模集群的中低端計(jì)算機(jī)來代替高端服務(wù)器[6],以應(yīng)對(duì)大數(shù)據(jù)對(duì)存儲(chǔ)和計(jì)算等設(shè)施的要求。具體的實(shí)施辦法是:利用大規(guī)模的分布式數(shù)據(jù)密集型應(yīng)用來處理大數(shù)據(jù)的存儲(chǔ)與計(jì)算要求[7];配置高效的計(jì)算能力,盡量減少大數(shù)據(jù)中壓縮、分層、重復(fù)等數(shù)據(jù)足跡;配置高速的網(wǎng)絡(luò),將大數(shù)據(jù)集快速分配給各個(gè)服務(wù)器節(jié)點(diǎn)進(jìn)行處理;高素質(zhì)的信息情報(bào)人員將是處理分析大數(shù)據(jù)的智力寶庫。
2.3 大數(shù)據(jù)給圖書館帶來機(jī)遇
麥肯錫全球研究所在2011年發(fā)布的大數(shù)據(jù)調(diào)查報(bào)告顯示,有將近88%的數(shù)據(jù)沒有得到利用,大多數(shù)的數(shù)據(jù)資源沒有轉(zhuǎn)化為知識(shí)信息[8]。圖書館在信息技術(shù)與知識(shí)服務(wù)的重要地位,在大數(shù)據(jù)時(shí)代愈加凸顯。哈佛大學(xué)率先將大數(shù)據(jù)引入到圖書館的服務(wù)當(dāng)中[9],并取得一定成效[10],哈佛的成功證明了圖書館在滿足結(jié)構(gòu)化數(shù)據(jù)需求的同時(shí)也能經(jīng)濟(jì)高效地分析非結(jié)構(gòu)化數(shù)據(jù),圖書館有能力利用大數(shù)據(jù)來橫向擴(kuò)展知識(shí)服務(wù),滿足用戶在大數(shù)據(jù)時(shí)代的知識(shí)服務(wù)需求。大數(shù)據(jù)包含著數(shù)量巨大的非結(jié)構(gòu)化數(shù)據(jù),這些還未被人利用的信息可以揭示出以往數(shù)據(jù)信息之間難以把握與確定的交互關(guān)系。圖書館的核心競(jìng)爭(zhēng)力在于提供準(zhǔn)備、豐富、深入的知識(shí)服務(wù),大數(shù)據(jù)應(yīng)用比過去的任何時(shí)候所提供的數(shù)據(jù)信息更具有敏感性、時(shí)效性、新穎性與獨(dú)特性,它能為信息情報(bào)人員帶來豐富的輔助決策信息與知識(shí)發(fā)展趨勢(shì)信息。圖書館要做好準(zhǔn)備,抓住大數(shù)據(jù)帶來的知識(shí)服務(wù)變革的機(jī)遇,努力提高圖書館在大數(shù)據(jù)應(yīng)用的水平與知識(shí)服務(wù)能力。endprint
3 基于大數(shù)據(jù)的圖書館信息服務(wù)體系
上文論述了圖書館信息服務(wù)體系轉(zhuǎn)變升級(jí)的方向,圖書館在新的信息服務(wù)體系中扮演著大數(shù)據(jù)的提供者、開發(fā)者、維護(hù)者以及使用者等多個(gè)角色[11]。目前,大數(shù)據(jù)技術(shù)及其相關(guān)服務(wù)的應(yīng)用范圍與方式都能夠被很好地借鑒到圖書館的信息服務(wù)體系中來,這些新型的信息服務(wù)方式對(duì)圖書館的信息服務(wù)體系構(gòu)建有重大意義。
3.1 圖書館用戶數(shù)據(jù)分析
圖書館的社會(huì)地位與存在價(jià)值正在不斷的弱化[12],用戶正在向其他文化信息機(jī)構(gòu)不斷流失。大數(shù)據(jù)技術(shù)能夠讓圖書館清晰把握用戶的信息需求及意愿,并能由數(shù)據(jù)分析出用戶的信息行為及其知識(shí)應(yīng)用能力,有利于圖書館對(duì)用戶的信息需求以及信息行為偏好進(jìn)行預(yù)測(cè),實(shí)現(xiàn)架構(gòu)以讀者個(gè)性化服務(wù)為核心的信息服務(wù)體系。大數(shù)據(jù)技術(shù)加強(qiáng)了圖書館對(duì)于讀者研究與交互數(shù)據(jù)分析、利用的能力,從海量數(shù)據(jù)中挖掘有用信息,建立用戶檔案與模型,在精確劃分讀者類別的基礎(chǔ)上,進(jìn)行跟蹤服務(wù)、知識(shí)關(guān)聯(lián)服務(wù)、先覺性服務(wù),提高用戶體驗(yàn),增加圖書館信息服務(wù)的競(jìng)爭(zhēng)力,留住用戶。
3.2 建立知識(shí)服務(wù)引擎
知識(shí)服務(wù)引擎技術(shù)一直以來都是圖書情報(bào)領(lǐng)域的主要研究課題,同時(shí)它也是圖書館信息服務(wù)的核心技術(shù)。利用大數(shù)據(jù)技術(shù)幫助圖書館構(gòu)建新的知識(shí)服務(wù)引擎,是圖書館升級(jí)信息服務(wù)體系的主要內(nèi)容。大數(shù)據(jù)知識(shí)服務(wù)引擎不同于傳統(tǒng)的知識(shí)引擎,既包含傳統(tǒng)意義上的資源及學(xué)術(shù)搜索引擎,還包括用戶行為智能分析引擎[13]、用戶信息需求預(yù)測(cè)引擎、網(wǎng)絡(luò)知識(shí)社區(qū)實(shí)體分析引擎、資源及服務(wù)推薦引擎、信息資源獲取引擎、資源組織引擎以及資源分析決策引擎等。值得一提的是,利用大數(shù)據(jù)架構(gòu)的網(wǎng)絡(luò)知識(shí)社區(qū)實(shí)體分析引擎為圖書館采編部門提供了豐富的資源評(píng)價(jià)意見與建議,圖書館可借此預(yù)測(cè)用戶關(guān)注熱點(diǎn),對(duì)圖書館評(píng)估資源以及資源建設(shè)提供支持。
3.3 建立網(wǎng)絡(luò)化信息資源靈活組合方式[14]
新的知識(shí)服務(wù)體系要求圖書館能在海量的數(shù)據(jù)當(dāng)中方便靈活地從結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)資源中提取出信息的關(guān)系、內(nèi)容、模式以及缺陷。目前為圖書館所廣泛使用的數(shù)據(jù)分析與工具有網(wǎng)絡(luò)分析、可視化分析、聚類分析、數(shù)據(jù)融合集成、聚類分析、數(shù)據(jù)挖掘等,但這些耳熟能詳?shù)募夹g(shù)與工具只能對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效的分析,并不能發(fā)現(xiàn)非結(jié)構(gòu)數(shù)據(jù)的存在以及聯(lián)系,更不能去分析數(shù)據(jù)背后的重大價(jià)值。圖書館利用大數(shù)據(jù)技術(shù)去采集網(wǎng)絡(luò)中用戶的日志數(shù)據(jù),就能在一定程度上揭示出數(shù)據(jù)的關(guān)系規(guī)則、數(shù)據(jù)分類,進(jìn)而定制數(shù)據(jù)模型,在宏觀上把握相關(guān)主題的發(fā)展趨勢(shì),預(yù)測(cè)知識(shí)服務(wù)過程以及未來發(fā)展動(dòng)向,為用戶提供更有價(jià)值的輔助決策服務(wù)。
3.4 建立智能化的信息服務(wù)
圖書館智能化信息服務(wù)不僅僅指的是解決對(duì)海量數(shù)據(jù)進(jìn)行智能收集及處理問題,還指對(duì)圖書館服務(wù)對(duì)象進(jìn)行智能化的信息服務(wù),包括信息服務(wù)應(yīng)用、工具、平臺(tái)的智能化推薦,讓用戶智能輕松獲取所需結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),如:文本、音頻、視頻、網(wǎng)絡(luò)社交信息、現(xiàn)實(shí)生活資料等數(shù)據(jù)。最為重要的是,智能化的信息服務(wù)還包括知識(shí)信息的流通過程中對(duì)于隱性知識(shí)信息轉(zhuǎn)變?yōu)轱@性知識(shí)信息的智能轉(zhuǎn)化,促進(jìn)知識(shí)信息由個(gè)體向多個(gè)主體進(jìn)行傳播和交流,利于知識(shí)的重新發(fā)現(xiàn)與組織。
3.5 建立知識(shí)服務(wù)及業(yè)務(wù)建設(shè)的風(fēng)險(xiǎn)模型
通過分析資源,包括知識(shí)資源、網(wǎng)絡(luò)資源、信息資源、軟硬件資源及服務(wù)資源等的實(shí)時(shí)狀態(tài)來預(yù)測(cè)未來可能出現(xiàn)的故障及數(shù)據(jù)資源可能出現(xiàn)的突變與波動(dòng),幫助圖書館預(yù)先制訂好應(yīng)對(duì)措施、策略以及圖書館的各類風(fēng)險(xiǎn)評(píng)估模型。在不久的將來,傳感器技術(shù)的普及應(yīng)用將為圖書館獲取大量的圖書館人文環(huán)境、自然環(huán)境以及技術(shù)環(huán)境的多維度數(shù)據(jù),借助大數(shù)據(jù)技術(shù)分析、預(yù)測(cè)建立有針對(duì)性的各類圖書館風(fēng)險(xiǎn)評(píng)估模型,實(shí)現(xiàn)圖書館管理的優(yōu)化升級(jí),保持圖書館穩(wěn)定的運(yùn)行狀態(tài)。
參考文獻(xiàn):
[1] The White House.Big Data Across the Federal Government[R/OL].[2012-8-10].http://www.whitehouse.gov/sites/default/files/ microsites/ostp/big_data_fact_sheet.pdf.
[2] 張曉林.研究圖書館 2020: 嵌入式協(xié)作化知識(shí)實(shí)驗(yàn)室[J].中國圖書館學(xué)報(bào),2012(1):11-20.
[3] 覃雄派,王會(huì)舉,杜小勇等.大數(shù)據(jù)分析――RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012(1):32-45.
[4] 百度百科.大數(shù)據(jù)[EB].[2012-8-10].http:// baike.baidu.com /view/6954399.htm.
[5] 詹劍輝,王磊,孫凝暉.高通量計(jì)算機(jī)的性能評(píng)價(jià)[J].中國計(jì)算學(xué)會(huì)通訊,2011(7):40-43.
[6] 張興旺,李晨暉,秦曉珠.構(gòu)建于廉價(jià)計(jì)算機(jī)集群上的云存儲(chǔ)的研究與初步實(shí)現(xiàn)[J].情報(bào)雜志,2011(11):166-171,182.
[7] 張興旺,李晨暉,秦曉珠.云計(jì)算環(huán)境下大規(guī)模數(shù)據(jù)處理的研究與初步實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2011(4):17-23.
[8] McKinsey Global Institute.Big Data:The Next Frontierfor Innovation,Competition and Productivity[EB/OL].2012-8-11.
http://www.mckinsey.com/insights/mgi/research/technology-nd -innovation/big-data-the-Next-frontie-for-innovation.
[9] The New York Times.Harvard Releases Big Data forBooks[EB].2013-8-11.
http://bits.blogs.ny-times.com/2012/04/24/harvard-releases-big-Data-for-books/.
[10] Audrey Watters.Strata Week:Harvard Library releasesbig data for its books: Harvard offers big data for books,Cloudera 's new Hadoop distribution,Splunk goespublic[EB/OL].2013-9-2.
http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html.
[11] 張興旺,李晨暉,秦曉珠.挑戰(zhàn)與創(chuàng)新:重新審視云圖書館未來發(fā)展的技術(shù)走向[J].情報(bào)資料工作,2012(4):37-41.
[12] James Michalko,Constance Malpas,Arnold Arcolio.Re-search Libraries, Risks, and Systemic Change[OL].2012-9-2.
http://www.oclc.org/research/publi-Cations/library/2010/2010-03.pdf.
[13] Digital Book World. New Start -Up Aims to Be Google Analytics for E-Books[OL].2012-8-13.
http://www.digitalbookworld.com/2012/new-start-up-aims-to-be-google -analytics-for-e-books/.
[14] 張興旺,李晨暉,秦曉珠.挑戰(zhàn)與創(chuàng)新:重新審視云圖書館未來發(fā)展的技術(shù)走向[J].情報(bào)資料工作,2012(4):37-41.
(編校:崔萌)endprint