高 群
(江南大學(xué)圖書館 無錫 214122)
大數(shù)據(jù)技術(shù)在數(shù)字圖書館管理與服務(wù)中的應(yīng)用
高 群
(江南大學(xué)圖書館 無錫 214122)
隨著全球信息化的蓬勃發(fā)展,信息量的爆炸式增長(zhǎng),海量數(shù)據(jù)的出現(xiàn)催生了大數(shù)據(jù)技術(shù)的到來。同時(shí),信息數(shù)字化的發(fā)展趨勢(shì),驅(qū)使著現(xiàn)代圖書館的管理與服務(wù)模式需要進(jìn)行轉(zhuǎn)變。如何高效、安全的存儲(chǔ)圖書館海量的信息,如何快速返回用戶需要的有用信息?利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)數(shù)字圖書館的管理與服務(wù)必將成為大勢(shì)所趨?;诖髷?shù)據(jù)技術(shù)的數(shù)字圖書館的管理與服務(wù)能夠有效實(shí)現(xiàn)圖書館的信息資源整合與滿足現(xiàn)代讀者的個(gè)性化服務(wù)需求。
大數(shù)據(jù) 大數(shù)據(jù)技術(shù) 數(shù)字圖書館 管理服務(wù)
隨著信息化時(shí)代的到來,信息量的指數(shù)級(jí)增長(zhǎng)、信息技術(shù)的飛速發(fā)展、讀者閱讀需求的快速轉(zhuǎn)變,這一切都標(biāo)志著圖書館大數(shù)據(jù)時(shí)代的到來。圖書館在存儲(chǔ)圖書資料、管理系統(tǒng)、服務(wù)用戶的時(shí)候,會(huì)產(chǎn)生大量類型多樣的數(shù)據(jù)信息。大數(shù)據(jù)圖書館管理與服務(wù)是當(dāng)代圖書館所面臨的嚴(yán)峻挑戰(zhàn)。
當(dāng)今時(shí)代,信息數(shù)字化已是大勢(shì)所趨,人們每天都生活在數(shù)字化信息的包圍圈中。人們已經(jīng)由從傳統(tǒng)的書本、報(bào)紙上獲取信息轉(zhuǎn)變?yōu)閺木W(wǎng)絡(luò)上獲取數(shù)字化信息。圖書館作為人們獲取信息的重要場(chǎng)所,又由于現(xiàn)在的圖書館信息存取大多是以數(shù)字化的方式進(jìn)行,數(shù)字圖書館的誕生和繁榮便是順理成章的事了。數(shù)字圖書館的產(chǎn)生與計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)通信技術(shù)、存儲(chǔ)技術(shù)等快速發(fā)展是分不開的,數(shù)字圖書館轉(zhuǎn)變了人們讀取信息的方式,加快了讀取信息的速度,使人們獲取知識(shí)更加方便快捷、豐富多彩。
數(shù)量巨大、結(jié)構(gòu)不一,是當(dāng)前數(shù)字圖書館信息存在的特點(diǎn)。如何更好地生產(chǎn)、存儲(chǔ)、管理、分析、傳播、修改、創(chuàng)新、應(yīng)用好圖書館中的數(shù)字信息,更高效的為人們服務(wù),是人們更加關(guān)心和需要解決的問題。于是,大數(shù)據(jù)技術(shù)的應(yīng)用解決了這個(gè)難題。近年來,大數(shù)據(jù)技術(shù)的研究進(jìn)入了鼎盛時(shí)期,國外研究機(jī)構(gòu)紛紛投身其中[1]1。
1.大數(shù)據(jù)技術(shù)簡(jiǎn)介。大數(shù)據(jù)技術(shù)[2]91,就是從不同性質(zhì)的數(shù)據(jù)中快速挖掘出有用信息的一門綜合技術(shù)。目前,大數(shù)據(jù)技術(shù)已衍生出了許多新穎技術(shù),這些技術(shù)在大數(shù)據(jù)的采集、存儲(chǔ)、處理、呈現(xiàn)等環(huán)節(jié)提供了強(qiáng)有力的支撐。大數(shù)據(jù)處理核心技術(shù)主要有:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析/挖掘、大數(shù)據(jù)展現(xiàn)及應(yīng)用。大數(shù)據(jù)處理核心技術(shù)示意圖如圖1所示:
圖1 大數(shù)據(jù)處理核心示意圖
2.數(shù)字圖書館簡(jiǎn)介。數(shù)字圖書館[3]21(Digital Library)是用數(shù)字技術(shù)處理、存儲(chǔ)大量各式各樣文獻(xiàn)的圖書館。它利用數(shù)字技術(shù)存儲(chǔ)了許多不同載體和地理位置的數(shù)據(jù)資源,有利于針對(duì)不同區(qū)域、不同對(duì)象的網(wǎng)絡(luò)檢索與傳播。數(shù)字圖書館主要包含了數(shù)據(jù)資源處理、存儲(chǔ)、查詢、應(yīng)用這幾個(gè)部分。其實(shí),所謂數(shù)字圖書館則是虛擬的圖書館,它有別于傳統(tǒng)的圖書館,既是無“圍墻”的圖書館,也是依賴于網(wǎng)絡(luò)環(huán)境下的可無限擴(kuò)展的知識(shí)庫,還是規(guī)模龐大的、分布式的、便捷的、無時(shí)空約束的、可用于跨庫無縫對(duì)接、智能查詢的信息大中心。
具體而言,“數(shù)字圖書館”從概念上理解,主要可以引申為兩層意思:數(shù)字化圖書館與數(shù)字圖書館系統(tǒng)。它主要包含以下工作內(nèi)容:將傳統(tǒng)的紙質(zhì)圖書信息轉(zhuǎn)化為電子版的虛擬的數(shù)字圖書信息;電子版圖書資源的加工、存儲(chǔ)、流通。
3.大數(shù)據(jù)技術(shù)為數(shù)字圖書館管理與服務(wù)提供機(jī)遇。通過對(duì)大數(shù)據(jù)技術(shù)以及數(shù)字圖書館特征的介紹可知,大數(shù)據(jù)技術(shù)可應(yīng)用于數(shù)字圖書館資源管理、建設(shè)、服務(wù)等方方面面。一般來說,大數(shù)據(jù)技術(shù)主要用于數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用這五方面。引入大數(shù)據(jù)技術(shù)的數(shù)字圖書館結(jié)構(gòu)圖如圖2所示:
圖2 基于大數(shù)據(jù)的數(shù)字圖書館結(jié)構(gòu)圖
大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字圖書館,不僅可以提高信息資源的整合度,也可以提升信息服務(wù)水平,還可以轉(zhuǎn)變和改進(jìn)服務(wù)方式,使得數(shù)字圖書館的管理與服務(wù)更能滿足現(xiàn)代人們的需求[4]86。
(1)提高資源整合度。在當(dāng)今各個(gè)高校中,均能登錄校內(nèi)網(wǎng)免費(fèi)下載各種學(xué)習(xí)資源,而非校內(nèi)人員以及非校內(nèi)網(wǎng)則無法下載任何學(xué)習(xí)資源。由此可見我國數(shù)字化圖書館建設(shè)比較封閉,數(shù)字資源無法共享。這樣的現(xiàn)象容易引起資源浪費(fèi)、重復(fù)建設(shè)等問題。大數(shù)據(jù)技術(shù)的到來便可提高資源整合度,實(shí)現(xiàn)資源共享,加強(qiáng)各個(gè)高校圖書館之間的資源整合和共享。
(2)提升服務(wù)水平。在科學(xué)技術(shù)飛速發(fā)展的時(shí)代,圖書館建設(shè)要適應(yīng)大眾的各種個(gè)性化需求,則需要提升自身服務(wù)水平,拓寬服務(wù)內(nèi)容,才能與時(shí)代接軌,摸索出自己長(zhǎng)久發(fā)展之路。大數(shù)據(jù)技術(shù)應(yīng)用于圖書館建設(shè)中,能夠?qū)?shù)字化資源進(jìn)行處理、應(yīng)用,打造出各式服務(wù)。
(3)轉(zhuǎn)變服務(wù)方式。形成學(xué)科服務(wù)模式,即針對(duì)某一學(xué)科范疇,依據(jù)一定的信息選定規(guī)范對(duì)其進(jìn)行采集、描述,積累具備某些意義的電子信息,進(jìn)行處理應(yīng)用后再向用戶提供一些基本服務(wù)以及個(gè)性化服務(wù)[5]75。如定期向用戶提供信息推送服務(wù),即可依據(jù)用戶感興趣或近期搜索過的信息進(jìn)行信息推送。
1.數(shù)字圖書館管理與服務(wù)資源。所謂巧婦難為無米之炊,資源是管理與服務(wù)的基礎(chǔ)。大數(shù)據(jù)時(shí)代信息資源的特征要求我們通過一定的技術(shù)手段去挖掘和發(fā)現(xiàn)有用的資源。
首先,數(shù)字信息資源的主要來源有:(1)數(shù)字化的館藏資源。館藏資源主要包括:電子文獻(xiàn)、聲像資源;(2)下載的網(wǎng)絡(luò)資源;(3)購進(jìn)的電子資源;(4)用戶產(chǎn)生的信息資源。用戶產(chǎn)生的信息資源又分為用戶行為信息和用戶需求信息。用戶行為信息產(chǎn)生于用戶注冊(cè)登錄網(wǎng)站、瀏覽資源、問卷調(diào)查等方式;用戶需求信息則產(chǎn)生于元數(shù)據(jù)倉資源發(fā)現(xiàn)、用戶數(shù)據(jù)晚間和分析的數(shù)字資源發(fā)現(xiàn)、大數(shù)據(jù)決策的信息資源發(fā)現(xiàn)[6]76。
2.基于大數(shù)據(jù)技術(shù)的圖書館資源存儲(chǔ)。隨著數(shù)據(jù)的不斷增長(zhǎng)和積累,圖書館數(shù)字資源量也呈現(xiàn)指數(shù)級(jí)增長(zhǎng),且數(shù)據(jù)結(jié)構(gòu)多樣。怎樣有效存儲(chǔ)海量且結(jié)構(gòu)多樣的信息資源,大數(shù)據(jù)技術(shù)的到來解決了這一難題。大數(shù)據(jù)諸多技術(shù)中,目前被廣泛使用的技術(shù)主要有:Map Reduce技術(shù)、Hadoop技術(shù)[7]86、NoSQL、云計(jì)算等。基于大數(shù)據(jù)的數(shù)字圖書館存儲(chǔ)平臺(tái)結(jié)構(gòu)圖如圖3所示:
圖3 存儲(chǔ)平臺(tái)結(jié)構(gòu)示意圖
3.基于大數(shù)據(jù)技術(shù)的圖書館資源管理。由于數(shù)字圖書館信息資源存在著量大、結(jié)構(gòu)復(fù)雜的特點(diǎn),如何對(duì)資源進(jìn)行有效、合理的管理就顯得十分重要。
目前圖書館資源管理存在很多問題,如:資源管理具體操作中的不規(guī)范、資源管理的要求不統(tǒng)一、資源管理的方法不合理、資源管理的缺乏標(biāo)準(zhǔn)等。數(shù)字圖書館是由多個(gè)數(shù)據(jù)庫、知識(shí)庫構(gòu)成的大型信息系統(tǒng),如何構(gòu)建一個(gè)標(biāo)準(zhǔn)化平臺(tái)將各個(gè)不同的數(shù)據(jù)庫、知識(shí)庫中的數(shù)據(jù)流通是個(gè)難題?;诖髷?shù)據(jù)的資源管理流程圖如圖4所示:
大數(shù)據(jù)技術(shù)大大推動(dòng)了數(shù)字圖書館的發(fā)展,包括圖書館提供的信息資源量的增加以及服務(wù)模式的改善?;诖髷?shù)據(jù)技術(shù)的數(shù)字圖書館的管理與服務(wù)模式正在發(fā)生翻天覆地的變化,不久的將來大數(shù)據(jù)環(huán)境下的圖書館服務(wù)模式必將注重信息的集成化服務(wù)、數(shù)據(jù)分析與挖掘、新型資源的收集、服務(wù)內(nèi)容的時(shí)效性等[8]47。本文主要從數(shù)據(jù)、信息、知識(shí)、智慧這幾個(gè)方面進(jìn)行闡述數(shù)字圖書館的信息服務(wù)。
圖4 基于大數(shù)據(jù)的資源管理流程圖
1.一體化管理與服務(wù)模式。在當(dāng)代信息資源所獨(dú)有的大數(shù)據(jù)特征下,圖書館要全面采集各種信息資源是一項(xiàng)長(zhǎng)久工序。因?yàn)閳D書館的信息資源不僅僅包括已存在的館藏資源,如館藏書目數(shù)據(jù)庫、電子出版物、網(wǎng)上下載的信息資源,還包括一些虛擬的館藏資源,如網(wǎng)絡(luò)動(dòng)態(tài)信息、在線出版物等。如何將這些來源于不同數(shù)據(jù)庫的信息資源進(jìn)行整合,更好地服務(wù)于大眾?大數(shù)據(jù)技術(shù)很好地解決了這一難題。大數(shù)據(jù)技術(shù)主要采用了MapReduce、NoSQL、云計(jì)算等技術(shù)對(duì)海量信息做提取、分析、處理,達(dá)到在類型不一的資源中進(jìn)行查找,用統(tǒng)一的數(shù)據(jù)規(guī)范顯示查找結(jié)果,最終實(shí)現(xiàn)多種數(shù)據(jù)結(jié)構(gòu)的整合。
大數(shù)據(jù)技術(shù)在數(shù)字圖書館的建設(shè)與服務(wù)中的應(yīng)用主要體現(xiàn)在其對(duì)來源不同、結(jié)構(gòu)不同、數(shù)量龐大的信息資源進(jìn)行高效的采集、分析、處理、整合、存儲(chǔ)、應(yīng)用,最終達(dá)到去除冗余數(shù)據(jù)、存儲(chǔ)有用數(shù)據(jù),并使用合適的智能檢索方法為用戶提供一體化的資源管理與服務(wù)模式。
2.學(xué)科資源管理與服務(wù)模式。所謂學(xué)科資源管理與服務(wù)模式就是針對(duì)不同領(lǐng)域的人,根據(jù)其需求采集、分析、處理相關(guān)學(xué)科知識(shí),并提供給客戶相關(guān)學(xué)科知識(shí)的各種服務(wù)。完善和創(chuàng)新數(shù)字圖書館服務(wù)模式的有效方式就是為用戶提供個(gè)性化、精準(zhǔn)化的信息資源。精準(zhǔn)化的信息資源即學(xué)科化的信息資源,各個(gè)圖書館都應(yīng)該為客戶提供學(xué)科化的信息資源和服務(wù)。尤其是針對(duì)高校圖書館,更需要滿足老師、學(xué)生的學(xué)科化服務(wù)。高校中的老師、學(xué)生從事科研的比例大,他們需要更加精準(zhǔn)的學(xué)科知識(shí),而高校圖書館則是他們獲取學(xué)科知識(shí)最主要的渠道。所以,對(duì)于高校圖書館而言,提供其面向?qū)W科的信息服務(wù)是大勢(shì)所趨。
怎樣提供其面向?qū)W科的信息服務(wù)?首先,學(xué)科是學(xué)科信息服務(wù)的基石,通過海量用戶對(duì)某一學(xué)科的信息資源進(jìn)行檢索、瀏覽以及下載的頻率進(jìn)行分析,分析出某段時(shí)間內(nèi)用戶對(duì)某學(xué)科的哪些方向內(nèi)容關(guān)注度高,再利用數(shù)據(jù)挖掘或其他智能分析法,預(yù)先分析出某一學(xué)科研究的熱點(diǎn)以及學(xué)科與學(xué)科間的關(guān)聯(lián)內(nèi)容研究。利用每個(gè)圖書館已有的借閱系統(tǒng),對(duì)用戶借閱資源的類型、方向、內(nèi)容、頻率等指標(biāo)進(jìn)行相關(guān)統(tǒng)計(jì),挖掘分析出用戶、圖書、信息資源三者間的知識(shí)網(wǎng)絡(luò)。利用該知識(shí)網(wǎng)絡(luò)可提供給用戶更滿意的學(xué)科知識(shí)服務(wù)。
3.信息可視化管理與服務(wù)模式。隨著科技的發(fā)展,人們獲取信息的方式更加豐富多彩,人們對(duì)信息的呈現(xiàn)形式要求也更高。人們更加傾向于可視化的信息展現(xiàn)方式,這可以讓人們更加直觀的了解所需信息。所以,數(shù)字圖書館的信息服務(wù)也應(yīng)該緊跟時(shí)代步伐,努力將其提供的服務(wù)走向可視化。
所謂信息可視化是將抽象的信息通過可視化技術(shù)處理成為能直接觀看的形式。其中的信息可視化技術(shù)是為數(shù)據(jù)分析,規(guī)律發(fā)現(xiàn)和決策服務(wù)的。
可視化的服務(wù)能提高用戶的滿意度、使用速度、反饋速度、查準(zhǔn)率等。信息可視化主要體現(xiàn)在:檢索主題可視化、數(shù)據(jù)庫分布可視化。通過把學(xué)科計(jì)量學(xué)方法與信息可視化技術(shù)進(jìn)行有機(jī)結(jié)合,形成學(xué)科知識(shí)地圖,顯示出學(xué)科、作者以及著作間的關(guān)系,顯示學(xué)科知識(shí)結(jié)構(gòu),反映不同領(lǐng)域知識(shí)的發(fā)展態(tài)勢(shì)。利用可視化技術(shù)把集中的數(shù)據(jù)以及無法可視化的抽象數(shù)據(jù)的語義關(guān)系表示出來,反饋給用戶。用戶通過信息可視化技術(shù)挖掘出這些數(shù)據(jù)集中有用的潛在規(guī)律,為用戶在獲取、分析、處理、使用信息等方面提供捷徑。在大數(shù)據(jù)環(huán)境中,數(shù)字圖書館為了更好地滿足用戶的個(gè)性化信息需求為用戶提供基于數(shù)據(jù)應(yīng)用的信息可視化服務(wù)是基于大數(shù)據(jù)的數(shù)字圖書館信息服務(wù)的發(fā)展趨勢(shì)。
4.智慧化管理與服務(wù)模式。隨著信息量的爆炸式增長(zhǎng),人們獲取信息渠道的增多,人們獲取信息越發(fā)方便快捷。人們希望獲取信息能夠更加智能化,即最短的時(shí)間內(nèi)獲取最感興趣、最準(zhǔn)確的信息。數(shù)字圖書館則變被動(dòng)為主動(dòng),它通過分析用戶的個(gè)人信息、使用信息、瀏覽記錄等信息,對(duì)用戶的需求進(jìn)行分析處理,預(yù)測(cè)出用戶的需求,并實(shí)時(shí)提供信息推送服務(wù)。智慧化服務(wù)流程圖如圖5所示:
圖5 智慧服務(wù)流程圖
目前數(shù)字圖書館的資源量均十分龐大,要實(shí)現(xiàn)信息服務(wù)的智慧化,需引入大數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)集進(jìn)行整合、處理、發(fā)現(xiàn)出用戶直接需求以及潛在需求。對(duì)于用戶的各種需求提供個(gè)性、智慧的信息服務(wù)。智慧服務(wù)是更加高級(jí)的信息服務(wù),它是對(duì)對(duì)基礎(chǔ)知識(shí)服務(wù)的升華。
在當(dāng)今科技日益發(fā)達(dá),信息增長(zhǎng)快速、信息結(jié)構(gòu)不一、信息分布繁雜的態(tài)勢(shì)下,數(shù)字圖書館的服務(wù)內(nèi)容以及服務(wù)方式都在發(fā)生著變化。主要體現(xiàn)在信息資源發(fā)現(xiàn),信息資源存儲(chǔ),信息資源組織,信息資源檢索這幾個(gè)方面,本文則主要從這幾方面來闡述了構(gòu)建基于大數(shù)據(jù)的數(shù)字圖書館管理與服務(wù)。數(shù)字圖書館存有海量的數(shù)字化數(shù)據(jù)信息,數(shù)據(jù)結(jié)構(gòu)紛繁復(fù)雜,這些帶有大數(shù)據(jù)特征的數(shù)據(jù)信息正是大數(shù)據(jù)技術(shù)得以施展的原材料。當(dāng)前,大數(shù)據(jù)技術(shù)已經(jīng)發(fā)展成熟,將大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字圖書館的管理與服務(wù)中則能更好地為大眾服務(wù),讓圖書館的價(jià)值得到體現(xiàn)。
本文僅僅從理論上分析了大數(shù)據(jù)技術(shù)應(yīng)用于數(shù)字圖書館管理與服務(wù)的迫切性、必要性以及可行性,而在大數(shù)據(jù)處理的技術(shù)上沒有具體闡述,沒有基于大數(shù)據(jù)的數(shù)字圖書館信息服務(wù)的實(shí)例。本文存在的不足之處,后續(xù)的研究會(huì)進(jìn)行完善和補(bǔ)充。
[1]The White Horse.Big data across the federal government.[EB/O L].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_dat a_fact_sheet.pdf
[2]來紅梅.大數(shù)據(jù)時(shí)代圖書館信息服務(wù)面臨的挑戰(zhàn)與對(duì)策[J].圖書館學(xué)刊,2014(3).
[3]張春紅,唐勇,肖瓏.我國數(shù)字圖書館研究十年發(fā)展回顧[J].數(shù)字圖書館,2011(4).
[4]馬曉亭.大數(shù)據(jù)時(shí)代圖書館數(shù)據(jù)整合系統(tǒng)構(gòu)建研究[J].圖書館建設(shè),2014(6).
[5]陳臣.基于大數(shù)據(jù)的圖書館個(gè)性化智慧服務(wù)體系構(gòu)建[J].情報(bào)資料工作,2013(6).
[6]蘇蓉.基于大數(shù)據(jù)的數(shù)字圖書館信息服務(wù)研究[D].武漢:華中師范大學(xué),2014.
[7]王玲玲.大數(shù)據(jù)時(shí)代圖書館數(shù)字化服務(wù)的模式[J].圖書館學(xué)刊,2014(4).
[8]趙雪峰.大數(shù)據(jù)影響下的圖書館應(yīng)變策略[J].長(zhǎng)沙大學(xué)學(xué)報(bào),2015(1).
10.16565/j.cnki.1006-7744.2017.04.22
高群,江南大學(xué)圖書館館員,主要研究方向?yàn)閳D書館數(shù)字資源建設(shè)。
G250
A
2016-11-17