吳紅劉芳
(江漢大學(xué)圖書館,湖北 武漢430056)
與云計(jì)算息息相關(guān)的“大數(shù)據(jù)”是指互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)行為數(shù)據(jù)。目前,我國互聯(lián)網(wǎng)大型服務(wù)器已達(dá)370萬臺(tái),全國建立了45萬個(gè)以上的數(shù)據(jù)中心,數(shù)據(jù)中心總耗電量達(dá)到364億千瓦小時(shí),高達(dá)全國電力消耗的1%,我國已經(jīng)進(jìn)入了大數(shù)在大數(shù)據(jù)時(shí)代,圖書館將在數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、數(shù)據(jù)分析等方面面臨巨大挑戰(zhàn),復(fù)雜數(shù)據(jù)處理也將成為圖書館發(fā)展的主旋律。
通過大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)去尋找隱藏在數(shù)據(jù)背后的世界,進(jìn)而為圖書館服務(wù)模式、對(duì)未來發(fā)展趨勢提供分析與預(yù)測將成為大數(shù)據(jù)時(shí)代圖書館的一大主要服務(wù)內(nèi)容。未來時(shí)代將是大數(shù)據(jù)引領(lǐng)科技發(fā)展的時(shí)代,大數(shù)據(jù)技術(shù)應(yīng)用將是未來圖書館服務(wù)創(chuàng)新的重要領(lǐng)域。
大數(shù)據(jù)目前尚沒有統(tǒng)一的定義,部分業(yè)界專家如《著云臺(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于花費(fèi)過多的時(shí)間和金錢。[1]因此,大數(shù)據(jù)通常被認(rèn)為是一種數(shù)據(jù)量很大、數(shù)據(jù)形式多樣化的非結(jié)構(gòu)化數(shù)據(jù)。
盡管大數(shù)據(jù)的概念形成較早,但對(duì)其技術(shù)的研發(fā)還是近幾年才發(fā)展起來的。從目前來看,大數(shù)據(jù)技術(shù)主要涵蓋的領(lǐng)域有可視化分析、數(shù)據(jù)挖掘法、預(yù)測性分析能力、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理等。具體來說,目前主要有包括分布式緩存、基于MPP的分布式數(shù)據(jù)庫、分布式文件系統(tǒng)、各種NoSQL分布式方案等。技術(shù)及應(yīng)用的不普及與不形成使得大數(shù)據(jù)的門檻較高,因此目前在該領(lǐng)域展開競爭的大都是在數(shù)據(jù)存儲(chǔ)、分析等領(lǐng)域有著傳統(tǒng)優(yōu)勢的IT廠商。如百度的搜素日志分析,騰訊、淘寶和支付寶的數(shù)據(jù)倉庫等。
大數(shù)據(jù)技術(shù)另一典型應(yīng)用案例是在沃爾瑪。沃爾瑪是最早利用大數(shù)據(jù)而受益的企業(yè)之一,早在2007年,沃爾瑪就建立一個(gè)超大的數(shù)據(jù)中心,其存儲(chǔ)能力高達(dá)4PB以上。通過對(duì)數(shù)據(jù)中心消費(fèi)者的購物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,沃爾瑪成為最了解顧客購物行為習(xí)慣的零售商,并創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例。
我國應(yīng)用大數(shù)據(jù)技術(shù)的企業(yè)當(dāng)前只是鳳毛麟角,目前僅有為數(shù)不多的企業(yè)正在開展相關(guān)的項(xiàng)目建設(shè)。如中國聯(lián)通正在通過采用基于云平臺(tái)及英特爾發(fā)行版Hadoop的大數(shù)據(jù)解決方案來構(gòu)建移動(dòng)通信用戶上網(wǎng)記錄集中查詢與分析支撐系統(tǒng)。這一系統(tǒng)可為企業(yè)的客服服務(wù)人員提供客戶上網(wǎng)記錄自助查詢服務(wù),也可為客戶本人提供高效的異常大流量上網(wǎng)記錄自助查詢服務(wù),這將有助于解決流量投訴問題,并有望在未來幫助企業(yè)更為準(zhǔn)確地把握用戶偏好,從而讓中國聯(lián)通能更有效地制定市場策略和開發(fā)新業(yè)務(wù)。
隨著圖書館信息資源的建設(shè)步伐加快及讀者服務(wù)要求的提高,圖書館在大數(shù)據(jù)時(shí)代已經(jīng)具備了一定的大數(shù)據(jù)特征。首先,圖書館的數(shù)據(jù)種類繁多,圖書館的數(shù)據(jù)資源有所藏文獻(xiàn)資源中的紙質(zhì)印刷本、光盤、網(wǎng)絡(luò)資源、數(shù)據(jù)庫資源等結(jié)構(gòu)化信息,也有日常讀者信息、服務(wù)信息等非結(jié)構(gòu)化信息,更有圖書館自身建設(shè)的相關(guān)數(shù)據(jù)。
圖書館的信息資源總量龐大且日益增長。如至2010年底,國家圖書館數(shù)字資源問題已經(jīng)達(dá)到480TB[2],全國文化共享工程的數(shù)字資源總量達(dá)108TB[3]??梢哉f單體圖書館的資源總量雖然沒有達(dá)到PB級(jí),但全國總的圖書館數(shù)字資源總量卻是一個(gè)龐大的數(shù)據(jù)集。并且,伴隨著平板電腦、智能手機(jī)、SNS網(wǎng)站的出現(xiàn),諸如視頻、音頻、圖片、微博以及移動(dòng)終端用戶行為和服務(wù)等非結(jié)構(gòu)化數(shù)據(jù)量的逐年增加。依據(jù)發(fā)展趨勢,圖書館采集的非結(jié)構(gòu)化數(shù)據(jù)量最終將超過結(jié)構(gòu)化數(shù)據(jù)量。
知識(shí)分顯性知識(shí)和隱性知識(shí)兩種,也稱客觀知識(shí)和主觀知識(shí)。顯性知識(shí)是經(jīng)過文獻(xiàn)處理及公開的、結(jié)構(gòu)化的、內(nèi)容固定的知識(shí),它易于獲取、理解和交流,可以存儲(chǔ)在圖書館、局域網(wǎng)和數(shù)據(jù)庫中;而隱性知識(shí)則難以掌握,它集中存儲(chǔ)在個(gè)人的大腦或手工技能中,是高度個(gè)性化的,屬于經(jīng)驗(yàn)、訣竅、判斷、直覺、靈感以及組織行為習(xí)慣的那部分知識(shí)。[4]
個(gè)性化知識(shí)服務(wù)更強(qiáng)調(diào)圖書館員利用自己的知識(shí)能力,借助于館藏,對(duì)館藏信息進(jìn)行加工,將顯性知識(shí)內(nèi)化,將隱性知識(shí)外化,形成新的具有獨(dú)特價(jià)值的知識(shí)產(chǎn)品。個(gè)性化知識(shí)服務(wù)強(qiáng)調(diào)以知識(shí)創(chuàng)新為中心,以用戶為核心,注重動(dòng)態(tài)過程和服務(wù),注重解決問題、信息深加工、知識(shí)資源增值等知識(shí)服務(wù)理念。
高校圖書館的主要任務(wù)就是幫助讀者獲取最新的知識(shí)信息,直接參與教學(xué)和科研,促進(jìn)知識(shí)的傳播和交流,實(shí)現(xiàn)知識(shí)經(jīng)濟(jì)時(shí)代的知識(shí)創(chuàng)新。所以,積極推進(jìn)個(gè)性化知識(shí)服務(wù)是高校圖書館生存和發(fā)展的基礎(chǔ)。
2.3.1 對(duì)互聯(lián)網(wǎng)信息資源進(jìn)行組織管理
在當(dāng)今互聯(lián)網(wǎng)信息大爆炸的時(shí)代,每天都有大量的非結(jié)構(gòu)化信息產(chǎn)生,對(duì)信息的組織管理顯得日益重要。雖然互聯(lián)網(wǎng)提供多種信息開發(fā)工具,但大多停留在瀏覽功能,提供信息的簡單查詢階段,尚未深入到對(duì)網(wǎng)絡(luò)信息資源在信息單元、知識(shí)單元層面的開發(fā)與利用。圖書館理應(yīng)發(fā)揮在分類加工、組織整理文獻(xiàn)信息方面的專業(yè)特長,通過對(duì)網(wǎng)絡(luò)信息資源進(jìn)行有效的組織管理,改變網(wǎng)絡(luò)信息的無序狀態(tài),以滿足用戶個(gè)性化的需求。比如高校圖書館可以自己建立校園局域網(wǎng),為廣大師生提供搜索引擎服務(wù),以達(dá)到安全、有效、快速的信息檢索服務(wù)。
2.3.2 為高校師生提供學(xué)科知識(shí)導(dǎo)航
學(xué)科知識(shí)導(dǎo)航是將一些無序、有用的知識(shí)從浩如煙海的信息中提取出來,按學(xué)科主題或?qū)W術(shù)資源體系等對(duì)其進(jìn)行搜集、分類、組織和有序化整理,制作成導(dǎo)航網(wǎng)站上網(wǎng)服務(wù),供相關(guān)學(xué)科或相關(guān)專業(yè)、學(xué)術(shù)領(lǐng)域的用戶參照。學(xué)科知識(shí)導(dǎo)航是對(duì)知識(shí)的有效管理,是知識(shí)的導(dǎo)航系統(tǒng)。用戶通過訪問導(dǎo)航庫就可以較全面地了解某一學(xué)科或主題的相關(guān)資料,它是獲取專題信息的一條捷徑。[5]
高校圖書館必須完善學(xué)科館員制度,組織一批專業(yè)能力較強(qiáng)的館員分別承擔(dān)起專門為某一學(xué)科用戶提供深層次信息服務(wù)工作。學(xué)科館員水平的高低,是衡量圖書館個(gè)性化服務(wù)高低的標(biāo)志。通過對(duì)學(xué)科館員隊(duì)伍的建設(shè),帶動(dòng)其他館員素質(zhì)和能力的提高,對(duì)圖書館開展個(gè)性化知識(shí)服務(wù)至關(guān)重要。
2.3.3 建立特色數(shù)據(jù)庫和特色資源鏡像站點(diǎn)鏈接
現(xiàn)代圖書館以用戶為中心,為了滿足用戶對(duì)網(wǎng)絡(luò)中學(xué)術(shù)資源的需求,通過建立特色數(shù)據(jù)庫和特色資源鏡像站點(diǎn)鏈接,形成功能強(qiáng)大的檢索系統(tǒng),為用戶多途徑檢索,提高檢索效率提供便利。
高校師生,特別是承擔(dān)著國家和省市重大課題研究的研究人員,都希望在圖書館可以查詢到全面、系統(tǒng)、有序且方便使用的科研資料。圖書館自建的特色數(shù)據(jù)庫和遠(yuǎn)程訪問系統(tǒng)及鏡像站點(diǎn)鏈接正好滿足了用戶的這一需要。比如,我館建立的10個(gè)特色數(shù)據(jù)庫和27個(gè)外文數(shù)據(jù)庫的遠(yuǎn)程訪問系統(tǒng),旨在為我校的重點(diǎn)學(xué)科建設(shè)及教學(xué)、科研提供良好的信息服務(wù)。
站在科技信息的前沿,了解用戶的需求,對(duì)信息資源進(jìn)行深層次的揭示與整合,提供特色服務(wù)和有針對(duì)性的服務(wù),是高校圖書館在“大數(shù)據(jù)”時(shí)代所要面臨的重大轉(zhuǎn)型和主要任務(wù)。廣大館員必須嚴(yán)陣以待,不斷更新自身的知識(shí)結(jié)構(gòu),迎接日新月異的信息科技挑戰(zhàn)。
[1]Bigdata[EB/OL].[2012-05-20].http://www.search-cloudcomputing.com.cn/word-5826.htm.
[2]國家圖書館“十二五”規(guī)劃綱要[EB/OL].[2012-06-20].http://www.nlc.gov.cn/dsb-footer/gygt/ghgy/
[3]全國文化信息資源共享工程介紹[EB/OL].[2012-06-20].http://www.ndene.gov.cn/libpage/gxge/index.htm/.
[4]胡敏.論現(xiàn)代圖書館的知識(shí)服務(wù)[J].情報(bào)探索,2008(5):20-21.
[5]王捷.大數(shù)據(jù)時(shí)代下圖書館開展信息服務(wù)的對(duì)策[J].現(xiàn)代情報(bào),2013(3):81-83.