高 群
(江南大學圖書館 無錫 214122)
大數(shù)據(jù)技術在數(shù)字圖書館管理與服務中的應用
高 群
(江南大學圖書館 無錫 214122)
隨著全球信息化的蓬勃發(fā)展,信息量的爆炸式增長,海量數(shù)據(jù)的出現(xiàn)催生了大數(shù)據(jù)技術的到來。同時,信息數(shù)字化的發(fā)展趨勢,驅(qū)使著現(xiàn)代圖書館的管理與服務模式需要進行轉(zhuǎn)變。如何高效、安全的存儲圖書館海量的信息,如何快速返回用戶需要的有用信息?利用大數(shù)據(jù)技術實現(xiàn)數(shù)字圖書館的管理與服務必將成為大勢所趨?;诖髷?shù)據(jù)技術的數(shù)字圖書館的管理與服務能夠有效實現(xiàn)圖書館的信息資源整合與滿足現(xiàn)代讀者的個性化服務需求。
大數(shù)據(jù) 大數(shù)據(jù)技術 數(shù)字圖書館 管理服務
隨著信息化時代的到來,信息量的指數(shù)級增長、信息技術的飛速發(fā)展、讀者閱讀需求的快速轉(zhuǎn)變,這一切都標志著圖書館大數(shù)據(jù)時代的到來。圖書館在存儲圖書資料、管理系統(tǒng)、服務用戶的時候,會產(chǎn)生大量類型多樣的數(shù)據(jù)信息。大數(shù)據(jù)圖書館管理與服務是當代圖書館所面臨的嚴峻挑戰(zhàn)。
當今時代,信息數(shù)字化已是大勢所趨,人們每天都生活在數(shù)字化信息的包圍圈中。人們已經(jīng)由從傳統(tǒng)的書本、報紙上獲取信息轉(zhuǎn)變?yōu)閺木W(wǎng)絡上獲取數(shù)字化信息。圖書館作為人們獲取信息的重要場所,又由于現(xiàn)在的圖書館信息存取大多是以數(shù)字化的方式進行,數(shù)字圖書館的誕生和繁榮便是順理成章的事了。數(shù)字圖書館的產(chǎn)生與計算機技術、網(wǎng)絡通信技術、存儲技術等快速發(fā)展是分不開的,數(shù)字圖書館轉(zhuǎn)變了人們讀取信息的方式,加快了讀取信息的速度,使人們獲取知識更加方便快捷、豐富多彩。
數(shù)量巨大、結(jié)構(gòu)不一,是當前數(shù)字圖書館信息存在的特點。如何更好地生產(chǎn)、存儲、管理、分析、傳播、修改、創(chuàng)新、應用好圖書館中的數(shù)字信息,更高效的為人們服務,是人們更加關心和需要解決的問題。于是,大數(shù)據(jù)技術的應用解決了這個難題。近年來,大數(shù)據(jù)技術的研究進入了鼎盛時期,國外研究機構(gòu)紛紛投身其中[1]1。
1.大數(shù)據(jù)技術簡介。大數(shù)據(jù)技術[2]91,就是從不同性質(zhì)的數(shù)據(jù)中快速挖掘出有用信息的一門綜合技術。目前,大數(shù)據(jù)技術已衍生出了許多新穎技術,這些技術在大數(shù)據(jù)的采集、存儲、處理、呈現(xiàn)等環(huán)節(jié)提供了強有力的支撐。大數(shù)據(jù)處理核心技術主要有:大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析/挖掘、大數(shù)據(jù)展現(xiàn)及應用。大數(shù)據(jù)處理核心技術示意圖如圖1所示:
圖1 大數(shù)據(jù)處理核心示意圖
2.數(shù)字圖書館簡介。數(shù)字圖書館[3]21(Digital Library)是用數(shù)字技術處理、存儲大量各式各樣文獻的圖書館。它利用數(shù)字技術存儲了許多不同載體和地理位置的數(shù)據(jù)資源,有利于針對不同區(qū)域、不同對象的網(wǎng)絡檢索與傳播。數(shù)字圖書館主要包含了數(shù)據(jù)資源處理、存儲、查詢、應用這幾個部分。其實,所謂數(shù)字圖書館則是虛擬的圖書館,它有別于傳統(tǒng)的圖書館,既是無“圍墻”的圖書館,也是依賴于網(wǎng)絡環(huán)境下的可無限擴展的知識庫,還是規(guī)模龐大的、分布式的、便捷的、無時空約束的、可用于跨庫無縫對接、智能查詢的信息大中心。
具體而言,“數(shù)字圖書館”從概念上理解,主要可以引申為兩層意思:數(shù)字化圖書館與數(shù)字圖書館系統(tǒng)。它主要包含以下工作內(nèi)容:將傳統(tǒng)的紙質(zhì)圖書信息轉(zhuǎn)化為電子版的虛擬的數(shù)字圖書信息;電子版圖書資源的加工、存儲、流通。
3.大數(shù)據(jù)技術為數(shù)字圖書館管理與服務提供機遇。通過對大數(shù)據(jù)技術以及數(shù)字圖書館特征的介紹可知,大數(shù)據(jù)技術可應用于數(shù)字圖書館資源管理、建設、服務等方方面面。一般來說,大數(shù)據(jù)技術主要用于數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)應用這五方面。引入大數(shù)據(jù)技術的數(shù)字圖書館結(jié)構(gòu)圖如圖2所示:
圖2 基于大數(shù)據(jù)的數(shù)字圖書館結(jié)構(gòu)圖
大數(shù)據(jù)技術應用于數(shù)字圖書館,不僅可以提高信息資源的整合度,也可以提升信息服務水平,還可以轉(zhuǎn)變和改進服務方式,使得數(shù)字圖書館的管理與服務更能滿足現(xiàn)代人們的需求[4]86。
(1)提高資源整合度。在當今各個高校中,均能登錄校內(nèi)網(wǎng)免費下載各種學習資源,而非校內(nèi)人員以及非校內(nèi)網(wǎng)則無法下載任何學習資源。由此可見我國數(shù)字化圖書館建設比較封閉,數(shù)字資源無法共享。這樣的現(xiàn)象容易引起資源浪費、重復建設等問題。大數(shù)據(jù)技術的到來便可提高資源整合度,實現(xiàn)資源共享,加強各個高校圖書館之間的資源整合和共享。
(2)提升服務水平。在科學技術飛速發(fā)展的時代,圖書館建設要適應大眾的各種個性化需求,則需要提升自身服務水平,拓寬服務內(nèi)容,才能與時代接軌,摸索出自己長久發(fā)展之路。大數(shù)據(jù)技術應用于圖書館建設中,能夠?qū)?shù)字化資源進行處理、應用,打造出各式服務。
(3)轉(zhuǎn)變服務方式。形成學科服務模式,即針對某一學科范疇,依據(jù)一定的信息選定規(guī)范對其進行采集、描述,積累具備某些意義的電子信息,進行處理應用后再向用戶提供一些基本服務以及個性化服務[5]75。如定期向用戶提供信息推送服務,即可依據(jù)用戶感興趣或近期搜索過的信息進行信息推送。
1.數(shù)字圖書館管理與服務資源。所謂巧婦難為無米之炊,資源是管理與服務的基礎。大數(shù)據(jù)時代信息資源的特征要求我們通過一定的技術手段去挖掘和發(fā)現(xiàn)有用的資源。
首先,數(shù)字信息資源的主要來源有:(1)數(shù)字化的館藏資源。館藏資源主要包括:電子文獻、聲像資源;(2)下載的網(wǎng)絡資源;(3)購進的電子資源;(4)用戶產(chǎn)生的信息資源。用戶產(chǎn)生的信息資源又分為用戶行為信息和用戶需求信息。用戶行為信息產(chǎn)生于用戶注冊登錄網(wǎng)站、瀏覽資源、問卷調(diào)查等方式;用戶需求信息則產(chǎn)生于元數(shù)據(jù)倉資源發(fā)現(xiàn)、用戶數(shù)據(jù)晚間和分析的數(shù)字資源發(fā)現(xiàn)、大數(shù)據(jù)決策的信息資源發(fā)現(xiàn)[6]76。
2.基于大數(shù)據(jù)技術的圖書館資源存儲。隨著數(shù)據(jù)的不斷增長和積累,圖書館數(shù)字資源量也呈現(xiàn)指數(shù)級增長,且數(shù)據(jù)結(jié)構(gòu)多樣。怎樣有效存儲海量且結(jié)構(gòu)多樣的信息資源,大數(shù)據(jù)技術的到來解決了這一難題。大數(shù)據(jù)諸多技術中,目前被廣泛使用的技術主要有:Map Reduce技術、Hadoop技術[7]86、NoSQL、云計算等?;诖髷?shù)據(jù)的數(shù)字圖書館存儲平臺結(jié)構(gòu)圖如圖3所示:
圖3 存儲平臺結(jié)構(gòu)示意圖
3.基于大數(shù)據(jù)技術的圖書館資源管理。由于數(shù)字圖書館信息資源存在著量大、結(jié)構(gòu)復雜的特點,如何對資源進行有效、合理的管理就顯得十分重要。
目前圖書館資源管理存在很多問題,如:資源管理具體操作中的不規(guī)范、資源管理的要求不統(tǒng)一、資源管理的方法不合理、資源管理的缺乏標準等。數(shù)字圖書館是由多個數(shù)據(jù)庫、知識庫構(gòu)成的大型信息系統(tǒng),如何構(gòu)建一個標準化平臺將各個不同的數(shù)據(jù)庫、知識庫中的數(shù)據(jù)流通是個難題?;诖髷?shù)據(jù)的資源管理流程圖如圖4所示:
大數(shù)據(jù)技術大大推動了數(shù)字圖書館的發(fā)展,包括圖書館提供的信息資源量的增加以及服務模式的改善?;诖髷?shù)據(jù)技術的數(shù)字圖書館的管理與服務模式正在發(fā)生翻天覆地的變化,不久的將來大數(shù)據(jù)環(huán)境下的圖書館服務模式必將注重信息的集成化服務、數(shù)據(jù)分析與挖掘、新型資源的收集、服務內(nèi)容的時效性等[8]47。本文主要從數(shù)據(jù)、信息、知識、智慧這幾個方面進行闡述數(shù)字圖書館的信息服務。
圖4 基于大數(shù)據(jù)的資源管理流程圖
1.一體化管理與服務模式。在當代信息資源所獨有的大數(shù)據(jù)特征下,圖書館要全面采集各種信息資源是一項長久工序。因為圖書館的信息資源不僅僅包括已存在的館藏資源,如館藏書目數(shù)據(jù)庫、電子出版物、網(wǎng)上下載的信息資源,還包括一些虛擬的館藏資源,如網(wǎng)絡動態(tài)信息、在線出版物等。如何將這些來源于不同數(shù)據(jù)庫的信息資源進行整合,更好地服務于大眾?大數(shù)據(jù)技術很好地解決了這一難題。大數(shù)據(jù)技術主要采用了MapReduce、NoSQL、云計算等技術對海量信息做提取、分析、處理,達到在類型不一的資源中進行查找,用統(tǒng)一的數(shù)據(jù)規(guī)范顯示查找結(jié)果,最終實現(xiàn)多種數(shù)據(jù)結(jié)構(gòu)的整合。
大數(shù)據(jù)技術在數(shù)字圖書館的建設與服務中的應用主要體現(xiàn)在其對來源不同、結(jié)構(gòu)不同、數(shù)量龐大的信息資源進行高效的采集、分析、處理、整合、存儲、應用,最終達到去除冗余數(shù)據(jù)、存儲有用數(shù)據(jù),并使用合適的智能檢索方法為用戶提供一體化的資源管理與服務模式。
2.學科資源管理與服務模式。所謂學科資源管理與服務模式就是針對不同領域的人,根據(jù)其需求采集、分析、處理相關學科知識,并提供給客戶相關學科知識的各種服務。完善和創(chuàng)新數(shù)字圖書館服務模式的有效方式就是為用戶提供個性化、精準化的信息資源。精準化的信息資源即學科化的信息資源,各個圖書館都應該為客戶提供學科化的信息資源和服務。尤其是針對高校圖書館,更需要滿足老師、學生的學科化服務。高校中的老師、學生從事科研的比例大,他們需要更加精準的學科知識,而高校圖書館則是他們獲取學科知識最主要的渠道。所以,對于高校圖書館而言,提供其面向?qū)W科的信息服務是大勢所趨。
怎樣提供其面向?qū)W科的信息服務?首先,學科是學科信息服務的基石,通過海量用戶對某一學科的信息資源進行檢索、瀏覽以及下載的頻率進行分析,分析出某段時間內(nèi)用戶對某學科的哪些方向內(nèi)容關注度高,再利用數(shù)據(jù)挖掘或其他智能分析法,預先分析出某一學科研究的熱點以及學科與學科間的關聯(lián)內(nèi)容研究。利用每個圖書館已有的借閱系統(tǒng),對用戶借閱資源的類型、方向、內(nèi)容、頻率等指標進行相關統(tǒng)計,挖掘分析出用戶、圖書、信息資源三者間的知識網(wǎng)絡。利用該知識網(wǎng)絡可提供給用戶更滿意的學科知識服務。
3.信息可視化管理與服務模式。隨著科技的發(fā)展,人們獲取信息的方式更加豐富多彩,人們對信息的呈現(xiàn)形式要求也更高。人們更加傾向于可視化的信息展現(xiàn)方式,這可以讓人們更加直觀的了解所需信息。所以,數(shù)字圖書館的信息服務也應該緊跟時代步伐,努力將其提供的服務走向可視化。
所謂信息可視化是將抽象的信息通過可視化技術處理成為能直接觀看的形式。其中的信息可視化技術是為數(shù)據(jù)分析,規(guī)律發(fā)現(xiàn)和決策服務的。
可視化的服務能提高用戶的滿意度、使用速度、反饋速度、查準率等。信息可視化主要體現(xiàn)在:檢索主題可視化、數(shù)據(jù)庫分布可視化。通過把學科計量學方法與信息可視化技術進行有機結(jié)合,形成學科知識地圖,顯示出學科、作者以及著作間的關系,顯示學科知識結(jié)構(gòu),反映不同領域知識的發(fā)展態(tài)勢。利用可視化技術把集中的數(shù)據(jù)以及無法可視化的抽象數(shù)據(jù)的語義關系表示出來,反饋給用戶。用戶通過信息可視化技術挖掘出這些數(shù)據(jù)集中有用的潛在規(guī)律,為用戶在獲取、分析、處理、使用信息等方面提供捷徑。在大數(shù)據(jù)環(huán)境中,數(shù)字圖書館為了更好地滿足用戶的個性化信息需求為用戶提供基于數(shù)據(jù)應用的信息可視化服務是基于大數(shù)據(jù)的數(shù)字圖書館信息服務的發(fā)展趨勢。
4.智慧化管理與服務模式。隨著信息量的爆炸式增長,人們獲取信息渠道的增多,人們獲取信息越發(fā)方便快捷。人們希望獲取信息能夠更加智能化,即最短的時間內(nèi)獲取最感興趣、最準確的信息。數(shù)字圖書館則變被動為主動,它通過分析用戶的個人信息、使用信息、瀏覽記錄等信息,對用戶的需求進行分析處理,預測出用戶的需求,并實時提供信息推送服務。智慧化服務流程圖如圖5所示:
圖5 智慧服務流程圖
目前數(shù)字圖書館的資源量均十分龐大,要實現(xiàn)信息服務的智慧化,需引入大數(shù)據(jù)技術對海量數(shù)據(jù)集進行整合、處理、發(fā)現(xiàn)出用戶直接需求以及潛在需求。對于用戶的各種需求提供個性、智慧的信息服務。智慧服務是更加高級的信息服務,它是對對基礎知識服務的升華。
在當今科技日益發(fā)達,信息增長快速、信息結(jié)構(gòu)不一、信息分布繁雜的態(tài)勢下,數(shù)字圖書館的服務內(nèi)容以及服務方式都在發(fā)生著變化。主要體現(xiàn)在信息資源發(fā)現(xiàn),信息資源存儲,信息資源組織,信息資源檢索這幾個方面,本文則主要從這幾方面來闡述了構(gòu)建基于大數(shù)據(jù)的數(shù)字圖書館管理與服務。數(shù)字圖書館存有海量的數(shù)字化數(shù)據(jù)信息,數(shù)據(jù)結(jié)構(gòu)紛繁復雜,這些帶有大數(shù)據(jù)特征的數(shù)據(jù)信息正是大數(shù)據(jù)技術得以施展的原材料。當前,大數(shù)據(jù)技術已經(jīng)發(fā)展成熟,將大數(shù)據(jù)技術應用于數(shù)字圖書館的管理與服務中則能更好地為大眾服務,讓圖書館的價值得到體現(xiàn)。
本文僅僅從理論上分析了大數(shù)據(jù)技術應用于數(shù)字圖書館管理與服務的迫切性、必要性以及可行性,而在大數(shù)據(jù)處理的技術上沒有具體闡述,沒有基于大數(shù)據(jù)的數(shù)字圖書館信息服務的實例。本文存在的不足之處,后續(xù)的研究會進行完善和補充。
[1]The White Horse.Big data across the federal government.[EB/O L].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_dat a_fact_sheet.pdf
[2]來紅梅.大數(shù)據(jù)時代圖書館信息服務面臨的挑戰(zhàn)與對策[J].圖書館學刊,2014(3).
[3]張春紅,唐勇,肖瓏.我國數(shù)字圖書館研究十年發(fā)展回顧[J].數(shù)字圖書館,2011(4).
[4]馬曉亭.大數(shù)據(jù)時代圖書館數(shù)據(jù)整合系統(tǒng)構(gòu)建研究[J].圖書館建設,2014(6).
[5]陳臣.基于大數(shù)據(jù)的圖書館個性化智慧服務體系構(gòu)建[J].情報資料工作,2013(6).
[6]蘇蓉.基于大數(shù)據(jù)的數(shù)字圖書館信息服務研究[D].武漢:華中師范大學,2014.
[7]王玲玲.大數(shù)據(jù)時代圖書館數(shù)字化服務的模式[J].圖書館學刊,2014(4).
[8]趙雪峰.大數(shù)據(jù)影響下的圖書館應變策略[J].長沙大學學報,2015(1).
10.16565/j.cnki.1006-7744.2017.04.22
高群,江南大學圖書館館員,主要研究方向為圖書館數(shù)字資源建設。
G250
A
2016-11-17