關(guān)鍵詞:大數(shù)據(jù);圖書(shū)館;影響
摘 要:文章從大數(shù)據(jù)給圖書(shū)館帶來(lái)的各種變化出發(fā),提出了圖書(shū)館應(yīng)轉(zhuǎn)變觀念、理解大數(shù)據(jù)理念、制定圖書(shū)館大數(shù)據(jù)管理機(jī)制、積極學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù)、加強(qiáng)大數(shù)據(jù)人才培養(yǎng)等建議,以期圖書(shū)館能夠更加從容地面對(duì)大數(shù)據(jù)時(shí)代的到來(lái)。
中圖分類號(hào):G25 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2014)01-0109-02
作者簡(jiǎn)介:安宗玉(1987-),河北大學(xué)管理學(xué)院圖書(shū)館學(xué)碩士。
關(guān)于大數(shù)據(jù)的概念目前尚無(wú)明確的定義,大家普遍認(rèn)可的定義是“無(wú)法在一定時(shí)間內(nèi)用傳統(tǒng)軟件對(duì)其進(jìn)行內(nèi)容抓取、管理和處理的數(shù)據(jù)集合”。而我們可以通過(guò)了解大數(shù)據(jù)的4個(gè)特征更好地理解大數(shù)據(jù),即規(guī)模大(volume)、類型多(variety)、速度快(velocity)、價(jià)值性(Value)。目前,關(guān)于大數(shù)據(jù)的實(shí)踐大多集中于企業(yè)如何通過(guò)大數(shù)據(jù)優(yōu)化其服務(wù),但是大數(shù)據(jù)之所以備受矚目是因?yàn)樗谏鐣?huì)的不同領(lǐng)域都能產(chǎn)生深刻的影響,如:預(yù)測(cè)疾病爆發(fā)、改善教育、評(píng)估風(fēng)險(xiǎn)等,大數(shù)據(jù)對(duì)國(guó)家治理模式、企業(yè)決策、個(gè)人生活方式等也將產(chǎn)生巨大的影響。
1 大數(shù)據(jù)與圖書(shū)館
目前,大數(shù)據(jù)的應(yīng)用多集中于企業(yè),數(shù)據(jù)多是交易數(shù)據(jù)、Web日志、多媒體信息等社交媒體數(shù)據(jù),卻鮮有提及文獻(xiàn)數(shù)據(jù)。事實(shí)上,圖書(shū)館所擁有的文獻(xiàn)信息完全具備“大數(shù)據(jù)”的特征,如:數(shù)據(jù)規(guī)模巨大、更新周期短、文獻(xiàn)類型多樣,載體數(shù)字化、語(yǔ)種多樣性、內(nèi)容交叉等,這些數(shù)據(jù)既有結(jié)構(gòu)化也有非結(jié)構(gòu)化。因此,對(duì)于圖書(shū)館來(lái)說(shuō),深刻了解大數(shù)據(jù)的內(nèi)涵和特征,清楚數(shù)據(jù)采集、存儲(chǔ)、分析和挖掘流程中的大數(shù)據(jù)技術(shù),發(fā)現(xiàn)大數(shù)據(jù)對(duì)圖書(shū)館產(chǎn)生的影響及圖書(shū)館該怎樣應(yīng)用大數(shù)據(jù)成了圖書(shū)館亟須思考和解決的問(wèn)題。
2 大數(shù)據(jù)時(shí)代下圖書(shū)館發(fā)生的變化
圖書(shū)館的宗旨是通過(guò)研究用戶、組織信息,將有價(jià)值的信息傳遞給用戶,以滿足用戶的信息需求。用戶的信息需求是圖書(shū)館存在和發(fā)展的根本,沒(méi)有用戶的信息需求,圖書(shū)館也就失去了存在的理由。在大數(shù)據(jù)時(shí)代下,圖書(shū)館的服務(wù)對(duì)象和目標(biāo)沒(méi)有發(fā)生變化,只是因?yàn)樵诓煌瑫r(shí)代下用戶需求上升而對(duì)圖書(shū)館有了更高的要求,這個(gè)時(shí)候圖書(shū)館唯有及時(shí)地了解用戶新的信息需求,改變信息處理方式及服務(wù)策略才能留住已有用戶、發(fā)展新的用戶,優(yōu)化服務(wù)方式和內(nèi)容,為用戶提供有價(jià)值的信息。
2.1 用戶需求發(fā)生變化
從服務(wù)的專業(yè)化、知識(shí)化水平來(lái)看,傳統(tǒng)的服務(wù)都只限于為用戶提供數(shù)據(jù)或信息,而大數(shù)據(jù)時(shí)代下用戶更在意圖書(shū)館是否能為自己解決具體某一問(wèn)題。因此,大數(shù)據(jù)時(shí)代下,用戶不再滿足于圖書(shū)館提供整篇的相關(guān)文獻(xiàn)、資料或其他知識(shí)產(chǎn)品,非結(jié)構(gòu)化的數(shù)據(jù)、學(xué)科態(tài)勢(shì)分析、熱點(diǎn)分析、關(guān)于某一專題不同載體的信息源或進(jìn)行過(guò)加工的知識(shí)產(chǎn)品將會(huì)更加受用戶歡迎。另外,用戶之間關(guān)系數(shù)據(jù)、用戶與群組、科研小組之間相互關(guān)系的數(shù)據(jù)和信息更是在大數(shù)據(jù)時(shí)代用戶需要的信息服務(wù)。
2.2 數(shù)據(jù)規(guī)模與類型擴(kuò)大
當(dāng)前,數(shù)據(jù)規(guī)模從以前的TB級(jí)別躍升到PB級(jí)別(P為1,000個(gè)T,E為100萬(wàn)個(gè)T,Z為10億個(gè)T)。而數(shù)據(jù)類型也更加的繁多,如:網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。統(tǒng)計(jì)數(shù)據(jù)顯示,世界結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率大約是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率則是63%,至2012 年,非結(jié)構(gòu)化數(shù)據(jù)占互聯(lián)網(wǎng)整個(gè)數(shù)據(jù)量的比例已達(dá)到75%以上。大量非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)更是對(duì)傳統(tǒng)信息處理能力的極大挑戰(zhàn)。
在圖書(shū)館界,非結(jié)構(gòu)化數(shù)據(jù)雖然一直存在,但是圖書(shū)館對(duì)于非結(jié)構(gòu)化數(shù)據(jù)并不重視,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的研究基本為零。而在大數(shù)據(jù)時(shí)代,圖書(shū)館可利用的非結(jié)構(gòu)化數(shù)據(jù)包括用戶檢索關(guān)鍵詞、瀏覽歷史、下載數(shù)據(jù)、流量數(shù)據(jù)及其博客、微博、移動(dòng)圖書(shū)館等各種社交媒體產(chǎn)生的交互信息等,只有將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)相結(jié)合進(jìn)行分析,才能充分發(fā)揮大數(shù)據(jù)的功能,發(fā)現(xiàn)其中的價(jià)值。
2.3 原有的信息采集模式和方法受到?jīng)_擊
信息采集是信息處理的第一步,是大數(shù)據(jù)價(jià)值挖掘最重要的一環(huán),其后的集成、分析、管理都基于信息采集。傳統(tǒng)的信息采集主要依靠網(wǎng)絡(luò)蜘蛛或其他網(wǎng)絡(luò)信息采集軟件,這些軟件可以以一個(gè)或一組指定的URL為瀏覽起點(diǎn), 按某種算法進(jìn)行遠(yuǎn)程數(shù)據(jù)的搜索與獲取,采集內(nèi)容一般是期刊、專著、學(xué)位論文、電子書(shū)、會(huì)議報(bào)告等結(jié)構(gòu)化的出版物。但是,大數(shù)據(jù)時(shí)代下多類型的數(shù)據(jù)大多用非結(jié)構(gòu)化數(shù)據(jù)庫(kù)來(lái)解決,因此,圖書(shū)館也必須挑戰(zhàn)信息采集模式,重新選擇、定義信息源、采集內(nèi)容、采集頻率、采集量、采集工具等。如何依據(jù)本機(jī)構(gòu)自身的數(shù)據(jù)特性,選擇合適的、有針對(duì)性的采集模式應(yīng)當(dāng)成為需要深入探索的話題。
2.4 信息存儲(chǔ)能力受到挑戰(zhàn)
在大數(shù)據(jù)時(shí)代來(lái)臨之際,我們面臨的挑戰(zhàn)還有存儲(chǔ)問(wèn)題。圖靈獎(jiǎng)獲得者吉姆·格雷(Jim Gray)和IDC公司曾預(yù)測(cè),全球數(shù)據(jù)量每18個(gè)月翻一番。目前,全球數(shù)據(jù)的存儲(chǔ)和處理能力已遠(yuǎn)落后于數(shù)據(jù)的增長(zhǎng)幅度。大數(shù)據(jù)中的大容量通??蛇_(dá)到PB級(jí)的數(shù)據(jù)規(guī)模,對(duì)于海量數(shù)據(jù)存儲(chǔ)系統(tǒng)擴(kuò)展能力的要求也會(huì)很高。而圖書(shū)館的數(shù)據(jù)存儲(chǔ)已不止于結(jié)構(gòu)化的期刊、圖書(shū)、雜志等,智能手機(jī)、平板電腦、社交媒體以及很多的傳感器和監(jiān)控器等非結(jié)構(gòu)化數(shù)據(jù)來(lái)源的不斷增加,使得傳統(tǒng)的存儲(chǔ)方式無(wú)力承擔(dān)。
2.5 信息組織模式發(fā)生變化
傳統(tǒng)的信息加工是利用一定的科學(xué)規(guī)則和方法,對(duì)信息內(nèi)外特征進(jìn)行表征、排序、細(xì)化、挖掘、加工整理并歸類的信息活動(dòng)。加工對(duì)象主要是文獻(xiàn)信息,目的是實(shí)現(xiàn)無(wú)序信息的有序化與優(yōu)質(zhì)化。從服務(wù)層級(jí)來(lái)說(shuō),傳統(tǒng)的信息組織模式是為用戶提供信息服務(wù)為目的。
大數(shù)據(jù)時(shí)代下的信息組織模式則是為用戶提供個(gè)性化、精準(zhǔn)化知識(shí)服務(wù)為目的的。一方面可以對(duì)采集、存取的數(shù)據(jù)進(jìn)行分析和挖掘,通過(guò)深入的分析和挖掘得出具有價(jià)值的信息,從而為決策提供支持或者預(yù)測(cè)事件的發(fā)展。另一方面大數(shù)據(jù)時(shí)代圖書(shū)館的組織和分析比傳統(tǒng)的信息組織更加重視用戶信息的分析和挖掘,通過(guò)分析用戶顯性行為和挖掘隱性行為,從而為用戶提供個(gè)性化、精準(zhǔn)化的知識(shí)服務(wù)。endprint
2.6 信息服務(wù)方式和內(nèi)容發(fā)生改變
傳統(tǒng)的信息服務(wù)模式和內(nèi)容雖然能夠滿足用戶的基本要求,但在大數(shù)據(jù)時(shí)代,由于信息源和信息處理技術(shù)的發(fā)展,圖書(shū)館的競(jìng)爭(zhēng)力已不再是其所占信息資源的數(shù)量、范圍等因素,而是在于所提供的信息產(chǎn)品的信息化、知識(shí)化及其基于知識(shí)的創(chuàng)新力競(jìng)爭(zhēng)。用戶面對(duì)海量的數(shù)據(jù)資源,很難方便、快捷、準(zhǔn)確地檢索、利用這些數(shù)據(jù),而對(duì)于圖書(shū)館來(lái)說(shuō),可以利用各種數(shù)據(jù)源的數(shù)據(jù),如:出版物、科技報(bào)告、數(shù)據(jù)庫(kù)、機(jī)構(gòu)知識(shí)庫(kù)、社交網(wǎng)站資源等,為用戶提供一站式的資源服務(wù),還可提供學(xué)科知識(shí)服務(wù)庫(kù)、數(shù)據(jù)管理服務(wù)、信息可視化服務(wù)等,尤其是在數(shù)據(jù)管理服務(wù)方面大有可為。
3 圖書(shū)館應(yīng)對(duì)大數(shù)據(jù)的策略
3.1 轉(zhuǎn)變觀念,理解大數(shù)據(jù)理念
雖然大數(shù)據(jù)這一概念已經(jīng)吵得沸沸揚(yáng)揚(yáng),但仍有不少專家提出質(zhì)疑,如:“大數(shù)據(jù)不能包治百病”、“大數(shù)據(jù),真的能改變大家的生活嗎”。目前,大數(shù)據(jù)應(yīng)用也多在商業(yè)領(lǐng)域,但具體效果如何,并未得出確切的答案。但是,反思之前的Web2.0、數(shù)字圖書(shū)館、移動(dòng)圖書(shū)館這些新生事物在開(kāi)始時(shí)總會(huì)受到質(zhì)疑和阻礙,作為傳播人類知識(shí)文明的圖書(shū)館如若再不緊跟時(shí)代潮流、轉(zhuǎn)變觀念,恐怕難以在未來(lái)受到用戶的垂青。為了更好地應(yīng)對(duì)大數(shù)據(jù)的到來(lái),圖書(shū)館首先應(yīng)該做好準(zhǔn)備。
3.2 制定圖書(shū)館大數(shù)據(jù)管理機(jī)制
首先,要進(jìn)行內(nèi)部大數(shù)據(jù)處理流程規(guī)劃:數(shù)據(jù)的采集、數(shù)據(jù)存取、數(shù)據(jù)分析挖掘、數(shù)據(jù)服務(wù)連接起來(lái)才是一個(gè)完整的大數(shù)據(jù)處理過(guò)程。因此,圖書(shū)館應(yīng)該建立統(tǒng)一的數(shù)據(jù)采集、存取、分析挖掘和應(yīng)用策略,堅(jiān)持以用戶需求為導(dǎo)向,確保大數(shù)據(jù)每一環(huán)節(jié)的有效連接。其次,圖書(shū)館作為國(guó)家大數(shù)據(jù)戰(zhàn)略中的一環(huán),應(yīng)與其他圖書(shū)館國(guó)家大數(shù)據(jù)戰(zhàn)略相吻合,這樣才能有助于信息資源的共建共享。
3.3 積極學(xué)習(xí)大數(shù)據(jù)相關(guān)技術(shù)
每一次技術(shù)的改變都會(huì)對(duì)圖書(shū)館形成巨大的影響,大數(shù)據(jù)技術(shù)是大數(shù)據(jù)整個(gè)流程的核心,圖書(shū)館若想進(jìn)行深層次分析, 以便更好地從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),就得跟上技術(shù)的發(fā)展腳步,只有借用新型的技術(shù),通過(guò)分析才能獲取更多智能的、深入的、有價(jià)值的信息。
大數(shù)據(jù)相關(guān)技術(shù)主要有數(shù)據(jù)采集技術(shù)、數(shù)據(jù)存取技術(shù)、統(tǒng)計(jì)分析技術(shù)和數(shù)據(jù)挖掘技術(shù)等幾個(gè)方面。
在數(shù)據(jù)采集階段,圖書(shū)館可以使用一些海量數(shù)據(jù)采集工具,如:Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,這些工具均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。
大數(shù)據(jù)存取包括關(guān)系數(shù)據(jù)庫(kù)、NOSQL(HDFS,HBASE,OceanBase,MongoDB等)、SQL等,基礎(chǔ)架構(gòu)有云存儲(chǔ)和分布式文件存儲(chǔ)等。其中分布式存儲(chǔ)受關(guān)注度最高。
數(shù)據(jù)分析和挖掘工作在大數(shù)據(jù)處理過(guò)程中具有十分重要的作用。傳統(tǒng)的數(shù)據(jù)挖掘?qū)﹃P(guān)系型數(shù)據(jù),非結(jié)構(gòu)化的、半結(jié)構(gòu)化的數(shù)據(jù)顯得力不從心,而大數(shù)據(jù)分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
與數(shù)據(jù)分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)(Predict)的效果,實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型的算法有用于聚類的Kmeans、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。這些大數(shù)據(jù)技術(shù)都可以被圖書(shū)館應(yīng)用到學(xué)科優(yōu)勢(shì)分析、影響力評(píng)估、可視化圖譜、科技發(fā)展態(tài)勢(shì)監(jiān)測(cè)等領(lǐng)域,進(jìn)而得到更能揭示事物發(fā)展本質(zhì)及規(guī)律的知識(shí)。
3.4 加強(qiáng)大數(shù)據(jù)人才培養(yǎng)
IDC認(rèn)為,大數(shù)據(jù)相關(guān)人才的欠缺將會(huì)成為影響大數(shù)據(jù)市場(chǎng)發(fā)展的一個(gè)重要因素。而據(jù)該機(jī)構(gòu)預(yù)測(cè),中國(guó)大數(shù)據(jù)技術(shù)與服務(wù)市場(chǎng)將會(huì)從2011年的7,760萬(wàn)美元快速增長(zhǎng)到2016年的6.16億美元。大數(shù)據(jù)職位相關(guān)的技能主要包括數(shù)學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)分析、商業(yè)分析和自然語(yǔ)言處理,數(shù)據(jù)科學(xué)家應(yīng)該是復(fù)合型人才,能夠綜合掌控?cái)?shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等多方面的知識(shí)。
目前,圖書(shū)館的人才隊(duì)伍大多由具有圖書(shū)館學(xué)專業(yè)、計(jì)算機(jī)專業(yè)背景的人員構(gòu)成,為了應(yīng)對(duì)大數(shù)據(jù)時(shí)代,一方面圖書(shū)館可以改變招聘方向,引進(jìn)一些具有統(tǒng)計(jì)學(xué)背景的復(fù)合型人才;另一方面,還可以對(duì)原有的員工進(jìn)行大數(shù)據(jù)相關(guān)技術(shù)培訓(xùn),比如:可以將計(jì)算機(jī)背景的人員往技術(shù)專家方向培訓(xùn),而對(duì)一般工作人員可以進(jìn)行一些基礎(chǔ)的統(tǒng)計(jì)、分析、挖掘方法培訓(xùn)。
參考文獻(xiàn):
[1] 維克托,盛楊燕.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2013.
[2] 王捷.大數(shù)據(jù)時(shí)代下圖書(shū)館開(kāi)展信息服務(wù)的對(duì)策[J].現(xiàn)代情報(bào),2013(3).
[3] 王天泥.大數(shù)據(jù)視角下圖書(shū)館的發(fā)展對(duì)策[J].圖書(shū)館學(xué)刊,2013(3).
[4] 王天泥.知識(shí)咨詢:大數(shù)據(jù)時(shí)代圖書(shū)館的知識(shí)服務(wù)增長(zhǎng)點(diǎn)[J].圖書(shū)與情報(bào),2013(2).
[5] 姜山,王剛.大數(shù)據(jù)對(duì)圖書(shū)館的啟示[J].圖書(shū)館工作與研究,2013(4).
[6] 朱靜薇,李紅艷.大數(shù)據(jù)時(shí)代下圖書(shū)館的挑戰(zhàn)及其應(yīng)對(duì)策略[J].現(xiàn)代情報(bào),2013(5).
[7] 吳金紅,張飛,鞠秀芳.大數(shù)據(jù): 企業(yè)競(jìng)爭(zhēng)情報(bào)的機(jī)遇、挑戰(zhàn)及對(duì)策研究[J].情報(bào)雜志,2013(1).
[8] 李奕.建立信息管理框架 應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)[N].中國(guó)計(jì)算機(jī)報(bào),2012-03-26.
(編校:崔萌)endprint