郭雷
摘要:圖書館向來都是新技術(shù)應(yīng)用和普及較快的領(lǐng)域,而云計算和大數(shù)據(jù)技術(shù)的快速發(fā)展,更為圖書館領(lǐng)域的服務(wù)與應(yīng)用提供了新的發(fā)展方向。因此,在對云計算與圖書館大數(shù)據(jù)服務(wù)理念進(jìn)行詳細(xì)說明與介紹的基礎(chǔ)上,對現(xiàn)代圖書館管理中所采用的云計算與大數(shù)據(jù)技術(shù)進(jìn)行針對性分析,給出了基于云計算環(huán)境下的圖書館大數(shù)據(jù)服務(wù)體系架構(gòu)。
關(guān)鍵詞:云計算;圖書館;大數(shù)據(jù)
中圖分類號:TB文獻(xiàn)標(biāo)識碼:Adoi:10.19311/j.cnki.16723198.2017.33.095
1引言
作為近年來信息化技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展的主要方向,云計算與大數(shù)據(jù)成為相關(guān)領(lǐng)域?qū)W者和研究人員所關(guān)注的熱點(diǎn)。而在圖書館界,對新信息技術(shù)的追蹤與應(yīng)用則比較快,該領(lǐng)域的研究人員對云計算和大數(shù)據(jù)技術(shù)在圖書館服務(wù)中的重要性已經(jīng)有了深刻的認(rèn)識,開始啟動面向云計算和大數(shù)據(jù)應(yīng)用的圖書館資源建設(shè)與服務(wù)創(chuàng)新項目。不過,根據(jù)現(xiàn)有的研究文獻(xiàn),還未發(fā)現(xiàn)在現(xiàn)實的圖書館中采用比較成熟的云計算與大數(shù)據(jù)技術(shù)的例子。所以,本文選擇圖書館管理與服務(wù)中的云計算應(yīng)用為研究內(nèi)容,重點(diǎn)分析與研究圖書館領(lǐng)域的大數(shù)據(jù)應(yīng)用與服務(wù)實踐。
2面向云環(huán)境的圖書館大數(shù)據(jù)服務(wù)
2.1研究現(xiàn)狀分析
其實,早在2008年,大數(shù)據(jù)概念就已經(jīng)誕生,并很快受到各個領(lǐng)域研究人員與學(xué)者的廣泛關(guān)注。而對大數(shù)據(jù)特征最全面準(zhǔn)確的描述則可以概括為:數(shù)據(jù)大量化、各類更多、數(shù)據(jù)處理速度大幅提升、具有廣泛的應(yīng)用價值、相關(guān)數(shù)據(jù)的獲取與傳輸更加快速、數(shù)據(jù)準(zhǔn)確性以及處理分析難度大。具體到圖書館界,其對大數(shù)據(jù)應(yīng)用的關(guān)注程度也非常高,有該領(lǐng)域的研究重點(diǎn)與熱點(diǎn),則主要聚焦在圖書館行業(yè)中各類信息的大數(shù)據(jù)特征提取與內(nèi)涵分析、圖書館建設(shè)中需要重點(diǎn)考慮的大數(shù)據(jù)技術(shù)及其影響、基于大數(shù)據(jù)的圖書館服務(wù)方式的變革與發(fā)展,以及圖書館管理與服務(wù)中的大數(shù)據(jù)應(yīng)用策略研究等。
2.2圖書館大數(shù)據(jù)的服務(wù)實踐
在國外的圖書館領(lǐng)域中,最早在實際的圖書館服務(wù)中采用大數(shù)據(jù)理念與技術(shù),并切實應(yīng)用于實際工作的則為國際知名的哈佛大學(xué)。其實,早在2012年,哈佛大學(xué)所屬的數(shù)十所圖書館與分館,就已經(jīng)實現(xiàn)了館藏書目數(shù)據(jù)、多媒體資料進(jìn)行整理與共享,并積極向公眾開放,廣大社會民眾都可以通過數(shù)字公共圖書館進(jìn)行下載和使用。正是由于該服務(wù)措施的推行,才最終促進(jìn)了全球范圍內(nèi),圖書館領(lǐng)域所有館藏書目信息與數(shù)據(jù)的關(guān)聯(lián)與開放共享。不僅如此,美國的國會圖書館,更是在本世紀(jì)初期,以及政府網(wǎng)站內(nèi)所收集的數(shù)據(jù)為基礎(chǔ),通過大量的大數(shù)據(jù)整理與處理工作,實現(xiàn)了對相關(guān)數(shù)據(jù)的歸檔整理。而具體到我國國內(nèi)的圖書館服務(wù)領(lǐng)域,真正將大數(shù)據(jù)技術(shù)應(yīng)用于服務(wù)環(huán)節(jié)的例子還比較少,總體來說處于該研究領(lǐng)域的起步階段,其中,清華大學(xué)圖書館于2013年根據(jù)大數(shù)據(jù)技術(shù)發(fā)展需求,從數(shù)據(jù)集成、數(shù)據(jù)挖掘等層面進(jìn)行了嘗試性研究。
2.3云計算與大數(shù)據(jù)的關(guān)系解釋
其實,合為兩個內(nèi)容不同的概念,云計算和大數(shù)據(jù)存在區(qū)別,但也有關(guān)聯(lián),是一種相互依靠的關(guān)系。如果采用比較形象的說法,可以將云計算理論及其技術(shù)理解為計算機(jī)中的軟件操作系統(tǒng),能夠?qū)崿F(xiàn)對網(wǎng)絡(luò)中大量閑置資源的虛擬化調(diào)度與管理,并在虛擬化的基礎(chǔ)上進(jìn)行優(yōu)化使用;相應(yīng)的,則可以將大數(shù)據(jù)理解為網(wǎng)環(huán)境下的數(shù)據(jù)庫系統(tǒng)。可以說,云計算更多地關(guān)注數(shù)據(jù)的處理與計算能力,側(cè)重于對各類架構(gòu)與方案的解決,以便于能夠有效節(jié)約信息化系統(tǒng)的實際部署與應(yīng)用成本;相應(yīng)的,大數(shù)據(jù)理論與技術(shù)則更多地對數(shù)據(jù)本身的價值與應(yīng)用方式感興趣,主要目標(biāo)是在對數(shù)據(jù)進(jìn)行科學(xué)管理與分析的基礎(chǔ)上,實現(xiàn)對數(shù)據(jù)中潛在價值的深入挖掘。不過,云計算與大數(shù)據(jù)也是互相促進(jìn)的,特別是在實際的應(yīng)用中,即為了實現(xiàn)對大數(shù)據(jù)的深入分析,就可以利用云計算技術(shù),來為數(shù)據(jù)處理的高效處理以及信息使用與應(yīng)用提供全方位的保障。
3云計算與大數(shù)據(jù)環(huán)境下的圖書館服務(wù)特點(diǎn)分析
3.1便于整合數(shù)據(jù)資源
大數(shù)據(jù)環(huán)境下,圖書館界可以構(gòu)建和生成的大數(shù)據(jù)有多種,如包含了圖書、期刊、報紙、全文數(shù)據(jù)庫、媒體數(shù)據(jù)庫多種資源的資源大數(shù)據(jù);包含了圖書編目、文獻(xiàn)交流、參考與咨詢等相關(guān)的業(yè)務(wù)大數(shù)據(jù),此外,還有與用戶相關(guān)的數(shù)據(jù)等。同時,包括了整個行業(yè)的相關(guān)數(shù)據(jù),以及相關(guān)的Web站點(diǎn)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)等多種不同的數(shù)據(jù)源。所以這些數(shù)據(jù),都呈現(xiàn)一種幾何增長方式,數(shù)據(jù)總量異常龐大,且數(shù)據(jù)類型更加多樣,主要以異構(gòu)化的數(shù)據(jù)形式而存在,比如半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)等。利用大數(shù)據(jù)理念與技術(shù),可以將圖書館界相關(guān)的數(shù)據(jù)存儲到網(wǎng)絡(luò)環(huán)境中的云服務(wù)器上,構(gòu)建不同地區(qū)、不同類型圖書館資源的數(shù)據(jù)聚合中心。這樣,圖書館工作人員就只要利用網(wǎng)絡(luò)對云端資源進(jìn)行管理與操作,且可以在使用過程中,對各類資源進(jìn)行實時的完善與補(bǔ)充,有效解決大數(shù)據(jù)普及所帶來的一些問題,如數(shù)據(jù)類型復(fù)雜、垃圾數(shù)據(jù)量比較大、各類資源的分布比較散以及消耗的存儲成本較高等。
3.2便于把握用戶需求
根據(jù)現(xiàn)有的大數(shù)據(jù)應(yīng)用理論,用戶的各類行為信息都會在信息化系統(tǒng)與社交平臺中留下難以消除的痕跡,基于這些痕跡數(shù)據(jù),就能夠由圖書館管理人員對用戶行為大數(shù)據(jù)進(jìn)行更加分析的基礎(chǔ)上,從更精準(zhǔn)的層面對用戶的需求進(jìn)行了解,充分掌握圖書使用用戶的分布和行為特點(diǎn),實現(xiàn)對用戶行為的準(zhǔn)確預(yù)測,進(jìn)而為廣大社會用戶提供更加鮮明和針對性的個性化服務(wù)。不僅如此,還能夠以云計算技術(shù)的強(qiáng)大計算能力為依托,對圖書館大數(shù)據(jù)進(jìn)行更加高效與實時的分析;完成分析過程中,還可以利用云技術(shù)將得到的結(jié)果導(dǎo)入圖書館各類信息化系統(tǒng)中。
3.3便于擴(kuò)展服務(wù)功能
在大數(shù)據(jù)理論與技術(shù)的推動下,圖書館中所存儲的數(shù)據(jù)與信息資源也就更加多樣與豐富,隨著圖書使用者的需求隨著社會發(fā)展不斷變化,存在于傳統(tǒng)圖書館服務(wù)領(lǐng)域中的文獻(xiàn)借閱、科技查新、項目定題以及參考咨詢等,逐漸向云計算與大數(shù)據(jù)技術(shù)支持下的數(shù)據(jù)挖掘與應(yīng)用、數(shù)據(jù)分析、數(shù)據(jù)可視化等方向拓展,特別是網(wǎng)絡(luò)高度發(fā)展前提下的大數(shù)據(jù)與云計算技術(shù)的充分整合應(yīng)用,必然會為整個圖書館應(yīng)用與服務(wù)領(lǐng)域的智能化與個性化以及虛擬化提供全方位的技術(shù)支撐。而作為圖書館大數(shù)據(jù)服務(wù)中的主要構(gòu)成,館藏大數(shù)據(jù)、用戶大數(shù)據(jù)、業(yè)務(wù)大數(shù)據(jù)以及外部資源大數(shù)據(jù)等在深入分析的基礎(chǔ)上,還可以實現(xiàn)對圖書館用戶需求與相關(guān)業(yè)務(wù)發(fā)展的預(yù)測,大幅提高圖書館服務(wù)的整體水平,為廣大的圖書使用者提供性能更優(yōu)的體驗。endprint
4圖書館大數(shù)據(jù)服務(wù)系統(tǒng)架構(gòu)設(shè)計
在對云計算環(huán)境中的大數(shù)據(jù)進(jìn)行處理中,所采用的方法已經(jīng)有多種,但基本流程比較類似,可以簡單概括為:數(shù)據(jù)采集、數(shù)據(jù)導(dǎo)入與預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)分析與挖掘、結(jié)果可視化呈現(xiàn)等。根據(jù)前文中所闡述的云計算特點(diǎn),本著實現(xiàn)云計算效能最大化的考慮,可對云計算技術(shù)與大數(shù)據(jù)技術(shù)支持下的圖書館服務(wù)架構(gòu)進(jìn)行劃分,如圖1中所示,可以發(fā)現(xiàn),該架構(gòu)中包含了多個層次。根據(jù)圖1中所示,服務(wù)架構(gòu)中的數(shù)據(jù)存儲層,主要解決的問題是數(shù)據(jù)量與異質(zhì)異構(gòu)等綜合性問題;而架構(gòu)中的數(shù)據(jù)處理層,則對大數(shù)據(jù)進(jìn)行快速、高效的處理,數(shù)據(jù)分析層則實現(xiàn)大數(shù)據(jù)的深入分析與挖掘。這三個層次之間彼此配合,就可以實現(xiàn)圖書館大數(shù)據(jù)服務(wù)應(yīng)用的價值最大化。下面對這三個不同的層次進(jìn)行詳細(xì)的介紹。
4.1圖書館大數(shù)據(jù)存儲
網(wǎng)絡(luò)條件下的云存儲主要包括兩種部署方式,分別是:私有云和公有云。其中,公有云的部署方式,其可擴(kuò)展性與靈活性也更加優(yōu)化。實際應(yīng)用中,可以通過混合式的云存儲模式,來實現(xiàn)圖書館大數(shù)據(jù)的管理,應(yīng)用效果表明,混合存儲方式可以在與圖書館現(xiàn)有的基礎(chǔ)性設(shè)施進(jìn)行整合,使得圖書館中大數(shù)據(jù)的存儲效率得到全面提升。具體而言,就是在實現(xiàn)圖書館大數(shù)據(jù)的存儲過程上,針對圖書館經(jīng)營管理中的各種內(nèi)部數(shù)據(jù),主要通過私有云存儲來實現(xiàn),還可以依托局域網(wǎng)環(huán)境的高速傳輸性能,有效提升所存儲的數(shù)據(jù)在上傳、下載與訪問過程中的速度;這兩種存儲模式中的數(shù)據(jù)中心與公有云服務(wù)器之間還可以進(jìn)行連接。更具體的是,圖書館中所存儲的書目數(shù)據(jù)、各類開放型的數(shù)據(jù)資源、備份數(shù)據(jù)等則更傾向于公有云的方式進(jìn)行部署,而圖書館服務(wù)中所積累的業(yè)務(wù)數(shù)據(jù)、用戶靈氣、自建數(shù)據(jù)庫等資源則適用于通過私有云方式來進(jìn)行存儲管理。
4.2圖書館大數(shù)據(jù)處理
圖書館大數(shù)據(jù)的存儲,主要依托分布式的存儲來實現(xiàn);使得數(shù)據(jù)處理過程更加復(fù)雜;同時,大數(shù)據(jù)的海量數(shù)據(jù)特性,也對數(shù)據(jù)處理的時效性產(chǎn)生了新的要求。所有這些,都是圖書館服務(wù)架構(gòu)中的數(shù)據(jù)處理層,需要有針對性的進(jìn)行解決的問題。而運(yùn)行于傳統(tǒng)圖書館領(lǐng)域的自動化管理系統(tǒng),已經(jīng)與大數(shù)據(jù)處理中的各類需求相適應(yīng),也就促使云計算成為解決此類問題的最佳途徑。比如,在Map Reduce處理技術(shù)中,其關(guān)鍵的數(shù)據(jù)處理方式就是先分后合,其中,Map對應(yīng)于分解過程,可以將海量的業(yè)務(wù)數(shù)據(jù)劃分成多個不同的部分或?qū)哟?,并將其分配到其他處理器完成處理過程。已有的應(yīng)用實踐表明,圖書館大數(shù)據(jù)中的多種數(shù)據(jù)分析操作,如資源利用率分析、用戶行為分析等,都可以通過Map Reduce來完成計算過程。
4.3圖書館大數(shù)據(jù)分析
應(yīng)該重點(diǎn)說明的是,大數(shù)據(jù)環(huán)境下,最重要的資產(chǎn)還是所存儲與積累的數(shù)據(jù),利用大數(shù)據(jù)處理、分析與挖掘等綜合技術(shù),發(fā)現(xiàn)潛藏在大數(shù)據(jù)中的價值,則成為大數(shù)據(jù)應(yīng)用的最終目標(biāo)。所有的大數(shù)據(jù)應(yīng)用的目標(biāo)都是數(shù)據(jù)背后所潛在的價值,所以,在很好地解決圖書館大數(shù)據(jù)的存儲與處理環(huán)節(jié)所存在的問題后,就需要利用高效、準(zhǔn)確的大數(shù)據(jù)分析技術(shù),還獲取大數(shù)據(jù)中所潛在的、有價值的信息與知識。在傳統(tǒng)的數(shù)據(jù)分析方法中,圖書館領(lǐng)域能夠加以利用的方法也有多種,如:調(diào)查統(tǒng)計、樣本分析、文獻(xiàn)計量、引文分析、共現(xiàn)分析等,這些分析方法更多地針對結(jié)構(gòu)化的樣本數(shù)據(jù)。不可否認(rèn),大數(shù)據(jù)的分析與處理過程離不開專業(yè)技術(shù)的支持,而云計算技術(shù)則可以滿足大數(shù)據(jù)分析的各類需求。其實,在大數(shù)據(jù)的分析中,還可以采用混合云技術(shù),就是在對數(shù)據(jù)的原始分析環(huán)節(jié),可通過公有云基礎(chǔ)設(shè)施還完成;而通過私有云組件,將經(jīng)過處理后所得到的有用數(shù)據(jù)與信息存儲到圖書館內(nèi)部,這樣,不僅可以保證整個分析過程的高速度,還可以確保數(shù)據(jù)使用的安全性。在眾多對大數(shù)據(jù)進(jìn)行處理與分析平臺中,Hadoop已經(jīng)成為應(yīng)用最廣泛的平臺,該平臺能夠在對網(wǎng)絡(luò)頁面瀏覽日志、操作日志等非結(jié)構(gòu)化的數(shù)據(jù),以及包括多媒體文件與社交網(wǎng)絡(luò)在內(nèi)的非結(jié)構(gòu)化數(shù)據(jù)的深入分析,得到潛藏在數(shù)據(jù)背后的有價值信息;因此,可以利用Hadoop平臺中所提供的多種具體方法來實現(xiàn)大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)的高效處理與分析。
5結(jié)束語
其實,在圖書館服務(wù)行業(yè),采用云計算與大數(shù)據(jù)等先進(jìn)技術(shù)實現(xiàn)服務(wù)的優(yōu)化,是一個比較漫長的技術(shù)創(chuàng)新與積累過程,還應(yīng)該構(gòu)建起實現(xiàn)大數(shù)據(jù)服務(wù)的各項條件,建立起適用于圖書館領(lǐng)域的大數(shù)據(jù)服務(wù)應(yīng)用與保障機(jī)制。本文中,在對云計算與圖書館大數(shù)據(jù)服務(wù)理念進(jìn)行詳細(xì)說明與介紹的基礎(chǔ)上,對云計算和大數(shù)據(jù)相關(guān)技術(shù)與圖書館服務(wù)的整合應(yīng)用進(jìn)行深入分析,給出了基于云計算環(huán)境下的圖書館大數(shù)據(jù)服務(wù)體系架構(gòu)。
參考文獻(xiàn)
[1]何勝,熊太純,周冰等.高校圖書館大數(shù)據(jù)服務(wù)現(xiàn)實困境與應(yīng)用模式分析[J].圖書情報工作,2015,(22).
[2]董克,陶艷.基于內(nèi)容挖掘的國際大數(shù)據(jù)研究主題分析[J].圖書情報知識,2016,(01).
[3]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務(wù)研究[J].圖書情報知識,2016,(02).
[4]馬曉亭.基于用戶服務(wù)價值的圖書館大數(shù)據(jù)價值分析與服務(wù)質(zhì)量保證研究[J].圖書館,2014,(05).
[5]王春華,李維,文庭孝.我國圖書情報領(lǐng)域大數(shù)據(jù)研究熱點(diǎn)分析[J].圖書情報知識,2015,(04).
[6]張興旺,李晨暉.數(shù)字圖書館大數(shù)據(jù)知識服務(wù)體系協(xié)同設(shè)計研究[J].圖書與情報,2015,(03).endprint