韋曉凱
(南京理工大學(xué)圖書館 江蘇 南京 210094)
大數(shù)據(jù)是繼web2.0和云計(jì)算之后近年來最受關(guān)注的焦點(diǎn)之一,它受到了信息科技領(lǐng)域研究人員越來越多的關(guān)注。麥肯錫研究院于2011年在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)率的下一個(gè)前沿》[1]報(bào)告中,提出“大數(shù)據(jù)”時(shí)代已經(jīng)到來。2012年奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展計(jì)劃”[2]。聯(lián)合國在2012年6月專門發(fā)布了大數(shù)據(jù)發(fā)展戰(zhàn)略[3],這是聯(lián)合國首次就一個(gè)單獨(dú)技術(shù)問題發(fā)布報(bào)告。“大數(shù)據(jù)”已經(jīng)成為當(dāng)前研究熱點(diǎn)之一。
目前,對(duì)大數(shù)據(jù)還沒有統(tǒng)一的定義。大數(shù)據(jù)研究機(jī)構(gòu)Gartner對(duì)大數(shù)據(jù)的定義是:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。而維基百科對(duì)大數(shù)據(jù)的定義是:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊[4]。
首先,大數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的總和。據(jù)DCCI統(tǒng)計(jì),2010年全球數(shù)據(jù)量達(dá)到了1.2ZB(1ZB=1024EB,1EB=10億GB),在如此龐大的數(shù)據(jù)中,只有10%的數(shù)據(jù)是存儲(chǔ)在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),其余則是由郵件、視頻、微博等產(chǎn)生的大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[5]。
其次,大數(shù)據(jù)的“數(shù)據(jù)”并非數(shù)據(jù)存儲(chǔ),而是數(shù)據(jù)獲取和數(shù)據(jù)應(yīng)用。因?yàn)榇鎯?chǔ)的數(shù)據(jù)并不具備價(jià)值,而大數(shù)據(jù)的數(shù)據(jù)是進(jìn)行高速獲取和應(yīng)用的數(shù)據(jù)。目前美國需要14萬到19萬名以上具備“深度分析”專長的研究人員,而對(duì)具備數(shù)據(jù)知識(shí)的經(jīng)理的需求則超過了150萬[6]。
大數(shù)據(jù)主要有四個(gè)特點(diǎn):(1)大量化(volume):大數(shù)據(jù)的數(shù)據(jù)量巨大。據(jù)統(tǒng)計(jì),2011年全球產(chǎn)生的數(shù)據(jù)總量達(dá)到1.8ZB。預(yù)計(jì)到2020年這一數(shù)值將達(dá)到35ZB??梢姶髷?shù)據(jù)不但體量巨大而且增長速度極快。(2)多樣化(variety):大數(shù)據(jù)的數(shù)據(jù)類型很多,包括網(wǎng)絡(luò)日志、視頻、聲頻、圖片、地圖等。在海量的數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)所占的比例很高,如何獲取其中的價(jià)值,對(duì)傳統(tǒng)的數(shù)據(jù)分析處理方法和軟件提出了挑戰(zhàn)。(3)快速化(velocity):大數(shù)據(jù)要求對(duì)多樣化的海量數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,這對(duì)處理效率的要求非常高。這一點(diǎn)與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別。(4)密度低(veracity):價(jià)值是大數(shù)據(jù)的意義所在,大數(shù)據(jù)的價(jià)值雖然巨大,但其價(jià)值密度卻很低,比如用戶在查找資源時(shí),搜索引擎會(huì)提供海量資料,但對(duì)用戶有使用價(jià)值的可能只有少數(shù)幾條。這正是大數(shù)據(jù)分析的難點(diǎn),即對(duì)海量數(shù)據(jù)進(jìn)行挖掘分析。
隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,讀者獲取信息的途徑越來越多,高校圖書館很難像以往那樣僅靠館藏資源來吸引讀者。對(duì)大數(shù)據(jù)時(shí)代的高校圖書館而言,不但要提升館藏資源的種類和質(zhì)量,還要為不同類型的讀者提供具有針對(duì)性的個(gè)性化服務(wù),這樣才能真正吸引讀者,實(shí)現(xiàn)自身的可持續(xù)發(fā)展。
高校圖書館本身就擁有大數(shù)據(jù),工作人員應(yīng)注重對(duì)大數(shù)據(jù)的收集,高校圖書館的大數(shù)據(jù)主要包括:(1)數(shù)字化資源。目前數(shù)字化技術(shù)在高校圖書館的應(yīng)用較為普及,經(jīng)過多年的建設(shè)和維護(hù),高校圖書館擁有了大量的數(shù)據(jù)庫、電子書等資源,這些資源總量較大,而且增長速度也比較快,是大數(shù)據(jù)的重要組成部分。(2)讀者瀏覽歷史所形成的非結(jié)構(gòu)化數(shù)據(jù)。高校圖書館的館藏資源并不是大數(shù)據(jù)的全部,對(duì)讀者各種數(shù)據(jù)的收集就是大數(shù)據(jù)的空白。高校圖書館應(yīng)該重視對(duì)讀者數(shù)據(jù)的收集工作,讓這些數(shù)據(jù)為我們所用,從而提高自身的核心競爭力。
大數(shù)據(jù)時(shí)代的到來不但改變了傳統(tǒng)IT結(jié)構(gòu)和數(shù)據(jù)存儲(chǔ)、利用機(jī)構(gòu)的職能,也對(duì)作為存儲(chǔ)信息、提供信息服務(wù)的高校圖書館產(chǎn)生了巨大的沖擊和挑戰(zhàn)。
大數(shù)據(jù)時(shí)代信息的產(chǎn)生方式日益增多,數(shù)據(jù)信息量激增。高校圖書館對(duì)這些復(fù)雜的數(shù)據(jù)進(jìn)行存儲(chǔ)、管理和應(yīng)用存在諸多挑戰(zhàn)。在解決這些問題的過程中,可能會(huì)促使高校圖書館管理模式、文獻(xiàn)資源建設(shè)模式和發(fā)展模式的轉(zhuǎn)變,但是實(shí)現(xiàn)上述模式轉(zhuǎn)變上面臨著兩個(gè)問題:首先,云計(jì)算雖然解決了海量數(shù)據(jù)的存儲(chǔ)和運(yùn)算問題,但其自身存在的安全隱患等問題使用戶不能完全信任[7];其次,大數(shù)據(jù)對(duì)圖書館數(shù)據(jù)存儲(chǔ)范圍的要求極高。早在2007年,沃爾瑪就通過對(duì)消費(fèi)者的購物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,創(chuàng)造了“啤酒與尿布”的經(jīng)典案例[8]。因此,高校圖書館應(yīng)在大數(shù)據(jù)時(shí)代主動(dòng)嘗試掌握讀者、館員甚至社會(huì)人員的信息。
隨著社會(huì)信息化進(jìn)程的加快,數(shù)字化、網(wǎng)絡(luò)化、智能化服務(wù)已成為我國圖書館服務(wù)的主要內(nèi)容。截至目前,國內(nèi)圖書館大部分實(shí)現(xiàn)了信息化,這為圖書館拓展服務(wù)提供了資源基礎(chǔ)和機(jī)制保障。但同時(shí)也發(fā)現(xiàn)了一些問題,一方面,圖書館特別是公共圖書館的服務(wù)主要還是依靠紙質(zhì)資源的傳統(tǒng)服務(wù);另一方面,圖書館所提供的數(shù)字化服務(wù)主要是基于數(shù)據(jù)庫以及紙質(zhì)文獻(xiàn)資源的數(shù)字化,大部分都是結(jié)構(gòu)化數(shù)據(jù)[9]。因此,大數(shù)據(jù)時(shí)代的到來,圖書館所存的數(shù)據(jù)結(jié)構(gòu)將發(fā)生巨大變化,非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)將占據(jù)較大比例,大數(shù)據(jù)的特性與優(yōu)勢將在日常的生活中逐漸凸顯出其巨大的優(yōu)越性。民眾的需求也將隨著這些人性化、個(gè)性化的高滿意度服務(wù)出現(xiàn)而迫切希望圖書館等信息中心能提供大數(shù)據(jù)分析、處理等專業(yè)化知識(shí)服務(wù)。圖書館應(yīng)緊跟時(shí)代步伐,把握事業(yè)發(fā)展主旋律,通過改善基礎(chǔ)設(shè)施、提高人才素質(zhì),來拓展和完善圖書館的大數(shù)據(jù)分析、處理業(yè)務(wù)。
圖書館信息化程度的提高,使得信息服務(wù)成為了當(dāng)前圖書館服務(wù)的主要內(nèi)容之一,使得以互聯(lián)網(wǎng)信息搜索、查詢?yōu)榛A(chǔ)的知識(shí)信息服務(wù)逐漸被更多的圖書館所吸納與實(shí)踐。但不管是簡單的信息服務(wù)還是結(jié)合了信息檢索、組織、分析等高級(jí)業(yè)務(wù)素養(yǎng)去完成的知識(shí)服務(wù),都可歸納為只是就數(shù)據(jù)而進(jìn)行的服務(wù),盡管有了Web2.0等互動(dòng)技術(shù)的推動(dòng)后圖書館服務(wù)的個(gè)性化、人性化服務(wù)有了顯著提高,但交互性程度并不高,個(gè)性化、人性化服務(wù)也只是簡單的以用戶的結(jié)構(gòu)化數(shù)據(jù),如根據(jù)服務(wù)訴求、專業(yè)特長等數(shù)據(jù),去完成一定程度上的差異化服務(wù)。但大數(shù)據(jù)則要求圖書館不僅需要通過結(jié)構(gòu)化數(shù)據(jù)了解現(xiàn)在客戶需要什么服務(wù),也需要利用大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)在圖書館用戶的服務(wù)關(guān)系中去進(jìn)行數(shù)據(jù)挖掘,進(jìn)而分析可能發(fā)生的信息行為,還需要利用數(shù)據(jù)對(duì)圖書館與科研機(jī)構(gòu)在合作交互型知識(shí)服務(wù)過程中將要發(fā)生的趨勢進(jìn)行預(yù)測[9]。
隨著大數(shù)據(jù)時(shí)代的到來,高校圖書館傳統(tǒng)的服務(wù)模式以及文獻(xiàn)資源建設(shè)體系已逐漸跟不上發(fā)展潮流,對(duì)讀者的吸引力也日漸衰弱,導(dǎo)致到館人數(shù)和借閱量逐年遞減。為了提升圖書館的地位,充分利用館藏資源,配合學(xué)校工作,高校圖書館應(yīng)加強(qiáng)以下工作:
高校圖書館應(yīng)轉(zhuǎn)變觀念,改進(jìn)服務(wù)模式,增強(qiáng)主動(dòng)服務(wù)的意識(shí),不斷探索、拓展服務(wù)體系。要實(shí)現(xiàn)以上目標(biāo),高校圖書館首先應(yīng)該實(shí)現(xiàn)從“吸引讀者到圖書館來”到“將圖書館服務(wù)送到讀者中去”的轉(zhuǎn)變,針對(duì)不同類型讀者提供個(gè)性化的服務(wù),通過對(duì)用戶數(shù)據(jù)的分析,提高自身個(gè)性化服務(wù)水平,開展跟蹤服務(wù)、上門服務(wù)、相關(guān)知識(shí)服務(wù)以及宣傳推廣等服務(wù),做到能夠及時(shí)從海量數(shù)據(jù)中提取有價(jià)值的信息,建立用戶模型,從而提高服務(wù)質(zhì)量。同時(shí)加強(qiáng)組織管理,完善文獻(xiàn)資源建設(shè)管理以及培訓(xùn)、分析評(píng)價(jià)措施等科學(xué)管理體制,積極吸納用戶參與到圖書館的服務(wù)體系中,從而提高對(duì)讀者的吸引力,提高讀者對(duì)自身服務(wù)的滿意度。
高校圖書館應(yīng)該建立交互式信息共享平臺(tái)并設(shè)置用戶互助、論壇等欄目,為館員與用戶之間開辟交流渠道。開設(shè)上述欄目既可以發(fā)揮圖書館館員的咨詢作用,也可以吸納讀者參與到圖書館建設(shè)和管理工作中,同時(shí)也可以了解讀者的最實(shí)際需求,進(jìn)而切實(shí)地提高圖書館個(gè)性化服務(wù)的質(zhì)量,并通過對(duì)信息平臺(tái)中反饋的讀者數(shù)據(jù)進(jìn)行收集、分析,在宏觀上掌握科研熱點(diǎn)、教育重心等信息,為科研人員、學(xué)校教務(wù)部門提供決策支持,幫助他們盡早洞察科研和教育工作的最新走向,從而提高高校圖書館的作用和地位。
圖書館使用大數(shù)據(jù)分析可以更好地分析讀者偏好,對(duì)讀者進(jìn)行個(gè)性化服務(wù),提升服務(wù)品質(zhì)。由于大數(shù)據(jù)分析難度較高,需要強(qiáng)大的硬件作為后臺(tái)支持,而高校圖書館的經(jīng)費(fèi)以及人力物力有限,因此,高校圖書館可以通過加強(qiáng)與兄弟院校圖書館的合作來緩解這一矛盾,積極拓展高校圖書館館際資源共享的覆蓋范圍,在此基礎(chǔ)上掌握好資源質(zhì)量,以滿足讀者的需求,并且可以根據(jù)需要購買,以解決基礎(chǔ)設(shè)施以及人員方面的不足。
近年來,我國圖書館事業(yè)發(fā)展迅猛,數(shù)字化、智能化服務(wù)已成為高校圖書館發(fā)展的新方向,國家數(shù)字圖書館工程、CALIS、CADAL等數(shù)字資源建設(shè)項(xiàng)目極大地豐富了圖書館的館藏?cái)?shù)字資源,也為大數(shù)據(jù)時(shí)代高校圖書館的發(fā)展提供了物質(zhì)基礎(chǔ)和制度保障。圖書館應(yīng)緊跟時(shí)代步伐,把握事業(yè)發(fā)展主旋律,通過改善基礎(chǔ)設(shè)施、挖掘服務(wù)潛力、提高人才素質(zhì),來拓展和完善圖書館的大數(shù)據(jù)分析、處理業(yè)務(wù)。
傳統(tǒng)高校圖書館的服務(wù)方式僅將文獻(xiàn)信息檢索出來,不能為讀者提供價(jià)值參考。隨著大數(shù)據(jù)時(shí)代的到來,海量的信息使讀者難以分辨哪些是自己實(shí)際需要的,往往迷失在大量的檢索結(jié)果中,白白浪費(fèi)大量的時(shí)間和精力。針對(duì)諸如此類問題,高校圖書館需要在個(gè)性化需求和專業(yè)化資源組織之中尋求一個(gè)平衡點(diǎn),既不能為了迎合用戶的需求而使資源組織混亂,也不能只考慮規(guī)范問題而使資源組織專深化。圖書館需要在傳統(tǒng)的學(xué)科分類、主題分類之外,增加一些人性化的資源組織方法,適當(dāng)考慮用戶的用詞習(xí)慣。如提供自然語詞的檢索,在后臺(tái)對(duì)自然語詞和主題詞進(jìn)行匹配運(yùn)算,然后給用戶提供一些智能化的檢索提示,增強(qiáng)用戶的搜索體驗(yàn)。
大數(shù)據(jù)的產(chǎn)生使得高校圖書館的服務(wù)從以文獻(xiàn)資源為核心轉(zhuǎn)向以數(shù)據(jù)信息為核心的知識(shí)創(chuàng)新服務(wù),數(shù)據(jù)信息的相關(guān)服務(wù)成為高校圖書館創(chuàng)新服務(wù)的新動(dòng)力。但在轉(zhuǎn)變過程中,用戶將更加重視對(duì)于個(gè)人信息的保護(hù),如何解決好這個(gè)問題是高校圖書館將要解決的難題。高校圖書館在處理信息安全問題時(shí),必須遵守職業(yè)道德、建立完善的保障體系、提供高水準(zhǔn)的專業(yè)服務(wù)、進(jìn)行合法的數(shù)據(jù)信息利用和傳播,從而實(shí)現(xiàn)既充分發(fā)揮大數(shù)據(jù)的優(yōu)勢,又不侵犯用戶隱私的共贏目標(biāo)。
大數(shù)據(jù)是變革性的高端技術(shù),它對(duì)高校圖書館從業(yè)人員的素質(zhì)要求非常高,因此,如何培養(yǎng)本土的大數(shù)據(jù)人才是目前亟待解決的問題。高校圖書館應(yīng)該放開心態(tài),努力學(xué)習(xí)先進(jìn)技術(shù),改變原有信息服務(wù)方式,積極培養(yǎng)數(shù)據(jù)處理人才,同時(shí)開展對(duì)可獲取數(shù)據(jù)的收集工作,為日后的發(fā)展打好基礎(chǔ)。
大數(shù)據(jù)技術(shù)的出現(xiàn),改變了人們對(duì)數(shù)據(jù)的認(rèn)識(shí),人們可以憑借大數(shù)據(jù)技術(shù)探索隱藏在海量數(shù)據(jù)中的價(jià)值。高校圖書館在大數(shù)據(jù)時(shí)代的起步已經(jīng)晚于其他行業(yè)。盡管高校圖書館有豐富館藏資源的優(yōu)勢,但相比其他行業(yè),高校圖書館在技術(shù)、資金、人力等方面的劣勢約束了自身的發(fā)展,如何避免被邊緣化將是高校圖書館即將面臨的一個(gè)難題。
[1]Big data:The next frontier for innovation,competition,and productivity[EB/OL]. [2012-12-09].http://www.mckinsey.com/Features/Big_data.
[2]Big data is a Big Deal[EB/OL].[2012-11-19].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal.
[3]Big data for Development:Challenges&Opportunities[EB/OL].[2012-11-19].http://www.unglobalpilse.org/.sites/default/files/BigDataforDevelopment-UNGlobalPulseJune2012.pdf.
[4] 百度百科.大數(shù)據(jù) [EB/OL].[2012-09-10].http://baike.baidu.com/view/6954399.htm.
[5]海量數(shù)據(jù)爆發(fā) 大數(shù)據(jù)時(shí)代來臨的五個(gè)轉(zhuǎn)變[EB/OL].[2012-08-01].http://labs.chinamobile.com/news/76217.
[6]數(shù)據(jù)分析人才短缺問題造成當(dāng)前CIO必須面對(duì)的[EB/OL].[2012-08-01].http://cio.ctocio.com.cn/316/12322816/shtml.
[7]黎春蘭,鄧仲華.信息資源視角下云計(jì)算面臨的挑戰(zhàn)[J].圖書與情報(bào),2011,(3):17-22.
[8]高勇.啤酒與尿布:神奇的購物籃分析[M].北京:清華大學(xué)出版社,2008:2-5.
[9]王天泥.大數(shù)據(jù)視角下圖書館的發(fā)展對(duì)策[J].圖書館學(xué)刊,2013,35(3):42-44.