韓翠峰 韓禮紅
(蘭州商學院圖書館 甘肅 蘭州 730020)
在大數(shù)據(jù)時代,數(shù)據(jù)作為一種資源,如何進行有效開發(fā)與利用,已成為社會普遍認同并關注的問題。對圖書館而言,其創(chuàng)新變革經(jīng)歷了數(shù)據(jù)圖書館(DL)、信息共享空間(IC)、IFRD、機構知識庫(IR)、移動圖書館(ML)、云計算等,數(shù)字資源的積累經(jīng)歷了傳統(tǒng)的數(shù)字化到原生數(shù)字資源的發(fā)展過程[1]??梢哉f,數(shù)據(jù)是未來的圖書館資源的主要組成部分。
大數(shù)據(jù)一詞源于麥肯錫公司在2011年5月的一篇報告Big data:The next frontier for innovation,competition,and productivity.報告指出大數(shù)據(jù)的應用將帶動新一波生產(chǎn)率的增長[2]。關于大數(shù)據(jù)的特點,已有文獻做了大量的總結與研究,如4V(Variety,Velocity,Volume,Value)[3]或 4V+1C(Variety,Velocity,Volume,VitalityandComplexity)[4]。
大數(shù)據(jù),顧名思義就是指數(shù)據(jù)的量之大?,F(xiàn)代圖書館隨著紙質資源的數(shù)字化,以及各種自動化管理設備的使用而產(chǎn)生的大量運行記錄,以及讀者使用圖書館留下的閱讀行為記錄等,都會產(chǎn)生大量的具有大數(shù)據(jù)特點的一些數(shù)據(jù)。具體來講,其大數(shù)據(jù)來源主要有以下幾方面:①數(shù)字資源的發(fā)展。美國研究圖書館協(xié)會(ARL)統(tǒng)計顯示,美國研究型大學圖書館的數(shù)字資源經(jīng)費占文獻總費的比率在2011年度就已達到了62.47%,超過了印本資源[5]。國內(nèi)大學圖書館近幾年對數(shù)字資源的發(fā)展亦有同樣的趨勢。②RFID圖書資源跟蹤技術產(chǎn)生的圖書流通數(shù)據(jù)。國內(nèi)大多數(shù)高校在新圖書館建設中,都將RFID技術的使用作為其現(xiàn)代化圖書館建設的重點來考慮。③圖書借閱及數(shù)字資源下載等產(chǎn)生的日志數(shù)據(jù)。④社交網(wǎng)絡產(chǎn)生的媒介傳播數(shù)據(jù)。通信技術與移動終端的發(fā)展使得圖書館多了一個獲取移動電子設備、人員、資源、用戶行為和需求等信息的渠道[6]。
以資源為核心的傳統(tǒng)圖書館,已發(fā)展到以讀者為中心的大數(shù)據(jù)圖書館,最重要的是如何針對不同讀者的需求,開展有針對性的個性化服務,讓讀者能夠快速、準確的獲得所需要的數(shù)據(jù)資源,是大數(shù)據(jù)時代圖書館服務應該重點研究的內(nèi)容之一。
1.云存儲技術。一提到大數(shù)據(jù)的存儲與管理,必然會聯(lián)系到云數(shù)據(jù)庫技術。由于大數(shù)據(jù)的半結構化、非結構化數(shù)據(jù)的特點,傳統(tǒng)的關系型數(shù)據(jù)庫對大數(shù)據(jù)的管理無能為力,于是就出現(xiàn)了NoSQL(即Not Only SQL)[7]。很多人把NoSQL叫做云數(shù)據(jù)庫(CloudDB),其一般意義的定義是部署和虛擬化在云計算環(huán)境中的數(shù)據(jù)庫[8]。文獻[9]對其特點及成熟的產(chǎn)品進行了詳細的描述。因為其處理數(shù)據(jù)的模式完全是分布式的,因此極為符合處理大數(shù)據(jù)。
2.虛擬化技術。虛擬化是資源的邏輯表示,這種表示不受物理限制的約束。通過虛擬化技術可以實現(xiàn)用資源的統(tǒng)一訪問,并且隱藏屬性和操作差異,且允許通過一種通用的方式來查看和維護資源。它將應用程序及數(shù)據(jù),在不同的層次以不同的面貌加以展現(xiàn),從而使得不同層次的使用、開發(fā)與管理者能夠方便快捷的使用計算機軟硬資源。對硬件資源的虛擬化,可節(jié)省硬件成本,提高硬件資源的使用效率;對軟件資源的虛擬化,可整合信息資源,提高信息資源的易用性等。
3.數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程的一個步驟,又稱作知識發(fā)現(xiàn)(Knowledge Discovery)。通俗來說,就是從大量的不完全的隨機數(shù)據(jù)中,提取出隱含在其中的事先不知道的但又具有潛在有用信息和知識的過程。通常由數(shù)據(jù)準備、規(guī)律尋找和規(guī)律(模型)表示三個階段組成。目前常用的大數(shù)據(jù)挖掘方法有分類、聚類、回歸分析、關聯(lián)規(guī)則、WEB挖掘以及神經(jīng)網(wǎng)絡方法等。
4.智能搜索技術。該技術是結合了人工智能技術的新一代搜索引擎技術?;诖髷?shù)據(jù)目標模式的爬蟲軟件必須是能夠針對大數(shù)據(jù)4V特點的智能搜索程序,可結合分布式處理、并行處理、網(wǎng)格計算以及云搜索等多種方式,來實現(xiàn)大數(shù)據(jù)的智能搜索功能。
5.智能Agent技術。Agent技術具有社會交互性和智能性,能在不需要或很少需要人為干預下持續(xù)自主執(zhí)行完成某一任務的智能軟件技術,具有自主性、交互性、自學習性、主動性等特點[10]。在大數(shù)據(jù)時代,信息爆炸與信息匱乏并存,一方面,大量的信息資源不能適時的提供給需要者。另一方面,真正需要某一信息者又不知從何處尋找到有用的信息。在這種情景下,由“人找信息”到“信息找人”的過渡尤為重要,智能Agent技術在開放的大數(shù)據(jù)環(huán)境下實現(xiàn)個性化主動信息服務顯的游刃有余。
6.本體論。簡單講,本體論就是探討世界上存在的一切,在背后是不是存在著一個抽象的、不依賴于現(xiàn)實世界的基礎。在描述事物本質的過程中,是共享概念模型明確的形式化規(guī)范說明[11]。本體論廣泛應用于知識管理、人工智能、圖書情報等領域具有大量需要歸類和劃分信息的領域,它不僅準確地描述了概念的含義和內(nèi)在聯(lián)系,而且能夠通過邏輯推理獲取概念之間的蘊含關系。本體技術具有豐富的語義及廣泛的關系,是實現(xiàn)圖書館基于大數(shù)據(jù)挖掘、知識提取、發(fā)現(xiàn)及應用的最佳技術手段之一。
根據(jù)大數(shù)據(jù)的特點,以及圖書館個性化信息服務的要求,融合上述主要技術手段,來構建基于大數(shù)據(jù)思維的圖書館個性化服務平臺,以實現(xiàn)基于大數(shù)據(jù)思維的圖書館個性化信息服務。該服務平臺主要包括基于大數(shù)據(jù)思維的資源整合與管理,大數(shù)據(jù)特征信息挖掘與建模,用戶行為信息收集與建模,個性化信息服務等四個相關主體,融合多種信息處理技術,來實現(xiàn)大數(shù)據(jù)時代圖書館信息資源與讀者需求的最佳匹配。
1.資源的虛擬化管理?,F(xiàn)代圖書館內(nèi)隨著信息化的發(fā)展,自動化程度越來越高,系統(tǒng)結構越來越復雜。比如各類電子資源數(shù)據(jù)庫系統(tǒng),公共查詢、RFID、一卡通、圖書館藏、網(wǎng)絡管理、出入門禁、WEB檢索、館際互借、自助借還、座位管理等,這些系統(tǒng)通過網(wǎng)絡呈現(xiàn)分布式管理狀態(tài),如何將分布在不同地方的不同資源進行有效整合,然后通過大數(shù)據(jù)綜合管理平臺進行統(tǒng)一管理與處理是關鍵。對數(shù)據(jù)資源的虛擬化管理,不但可以把所有納入圖書館管理中的硬件資源進行統(tǒng)一的虛擬化管理,根據(jù)需要來虛擬成存儲資源池、網(wǎng)絡資源池等;還能夠很好的把相關分散的信息資源也可有效整合起來,實現(xiàn)資源信息的統(tǒng)一管理與訪問,形成信息資源池。每種資源池只是邏輯意義上的統(tǒng)一,而實際物理屬性并未改變,訪問方式也未改變。
2.數(shù)據(jù)挖掘與智慧搜索功能?;诖髷?shù)據(jù)思維的個性化服務平臺要具備大數(shù)據(jù)特征信息的提取與管理,具體功能有三項:大數(shù)據(jù)的搜集、特征信息提取與建模、用戶信息提取與建模。對于分布在不同系統(tǒng)不同存儲介質上的數(shù)據(jù)進行收集與提取,可通過爬蟲程序來實現(xiàn)。它類似于搜索引擎中的“蜘蛛”(Spider)程序,不停地游歷于大數(shù)據(jù)信息資源點,對各數(shù)據(jù)源點進行遍歷并提取特征信息,并將這些特征信息進行分析與提取。其次,將爬蟲軟件收集到的特征數(shù)據(jù),通過本體論技術來提取特征,表達屬性,并建立特征模型,形成資源特征信息庫,用形式化語言來描述特征信息,確定數(shù)據(jù)間的聯(lián)系,根據(jù)聯(lián)系對特征信息進行組織,并存入特征信息云數(shù)據(jù)庫中。此外,需對用戶需求進行深度挖掘,從大數(shù)據(jù)搜集模塊收集到的讀者的信息數(shù)據(jù)后,采用基于內(nèi)容、協(xié)同過濾、關聯(lián)規(guī)則、讀者信息統(tǒng)計以及知識管理等多種數(shù)據(jù)挖掘技術,深度挖掘出讀者當前及潛在的需求,并建立讀者需求模型,形成讀者需求描述文件。讀者需求模型的建立主要從①讀者過往借閱行為數(shù)據(jù)以及閱讀內(nèi)容;②定題跟蹤;③同類讀者的興趣參考;④服務的反饋與定制等四方面的信息來綜合。
3.多種技術融合實現(xiàn)信息的匹配與過濾?;谟脩粜枨竽P?,對信息特征關聯(lián)數(shù)據(jù)庫中的數(shù)據(jù)資源進行匹配與過濾。主要有基于內(nèi)容的數(shù)據(jù)過濾及協(xié)同過濾等,前者主要是通過比較數(shù)據(jù)信息與讀者需求模型信息來推薦數(shù)據(jù),具有簡單有效的特點;后者是依據(jù)相似讀者、相似情景模式來推薦,這種方式能夠發(fā)現(xiàn)該讀者新的需求與興趣的特點?;旌蠎脙煞N過濾方式來克服某一方式的不足,來達到全面的信息匹配與過濾效果。
4.智慧化的主動信息推送技術實現(xiàn)個性化服務。采用Agent等技術,捕獲讀者的相關閱讀信息,并對讀者的信息行為等跟蹤與分析的基礎上,實現(xiàn)對讀者潛在需求信息的主動式推送服務。既可針對某一讀者的個體性推送;也可按需求類別實現(xiàn)群體性推送。
5.讀者需求定制與反饋。當讀者在接受個性化服務過程中,可根據(jù)讀者的實際需求對系統(tǒng)所提供的個性化服務進行反饋與更改,也可定制讀者所需要的服務?;贏gent的個性化服務定制、反饋與行為跟蹤分析模塊可根據(jù)讀者所提交的定制與反饋信息,以及對讀者閱讀行為的跟蹤服務信息進行綜合分析后,再進行對讀者需求的校正與更新。
從以上分析可以看出,大數(shù)據(jù)思維下融合多種技術的圖書館個性化信息服務的目標將是從傳統(tǒng)的“人找信息”到“信息找人”的轉變,始終堅持以人為本的服務理念,不斷優(yōu)化體系結構,綜合多種技術優(yōu)勢,改進圖書館的管理與服務方式,廣泛深入的開展從數(shù)字化到數(shù)據(jù)化的服務方式轉變。其創(chuàng)新策略主要包括:①在資源利用方面,采用虛擬化技術高度優(yōu)化與整合了現(xiàn)代圖書館各信息系統(tǒng)資源,搞高了資源利用的效率。②在管理方面,通過虛擬化及大數(shù)據(jù)挖掘,可進一步優(yōu)化現(xiàn)代圖書館的資源配置,使現(xiàn)代圖書館的管理與資源配置更加科學有效。③大數(shù)據(jù)思維下圖書館個性化信息服務平臺的構建,將進一步加強各大高校及公共圖書館及相關專業(yè)機構圖書館的開放,進一步促進資源的共建共享與開放。④大數(shù)據(jù)思維下的圖書館個性化信息服務,是建立在廣泛的信息資源收集之上的,同樣要求融合應用多種技術方法,以達到為讀者提供豐富而精準的個性化服務,這樣就克服了以往局限于某一類信息資源,或應用某一種技術方法來研究個性化信息服務的不足,以便能使圖書館工作者能從更寬更廣的思維去研究圖書館的服務與管理。
本文在分析了大數(shù)據(jù)與現(xiàn)代圖書館關系的基礎上,提出了融合多種技術方法來構建一種能充分發(fā)揮各技術優(yōu)勢,并具有自主性、自學習、自更新等特點的個性化信息服務平臺。該平臺充分整合各信息資源,充分挖掘具有大數(shù)據(jù)特點的信息源,來實現(xiàn)為讀者提供更精準化與智能化的個性化信息服務的目的。但就理論研究與技術實現(xiàn)而言,基于大數(shù)據(jù)思維的圖書館個性化信息服務系統(tǒng)是一項系統(tǒng)工程,需要綜合應用人工智能、系統(tǒng)工程等多學科多理論、多技術,在不斷深入研究所涉及的相關技術細節(jié)的基礎上,應用大數(shù)據(jù)思維來建設現(xiàn)代圖書館個性化信息服務系統(tǒng),才能更好的為讀者提供個性化服務。
[1]蔡新紅.大數(shù)據(jù)時代圖書館信息資源個性化服務模式研究[J].圖書館論壇,2014(17):195-196.
[2]Big Data:The Next Frontier for Innovation,Competition,and Produc-tivity[EB/OL].http: www.mckinsey.com/insights/bus-inesstech-nology/big datathenextfrontierforinnovation,2014-11-12.
[3]百度百科[EB/OL].http://baike.baidu.com/view/6954399.Htm,2014-10-02.
[4]張文彥.大數(shù)據(jù)時代的圖書館初探[J].圖書與情報,2012(6):15-21.
[5]秦鴻.決策支持視角下的數(shù)字資源使用統(tǒng)計分析實例研究[J].大學圖書館學報,2013(6):60-66.
[6]覃雄派,王會舉等.大數(shù)據(jù)分析——RDBMS與MapReduce 的競爭與共生[J].軟件學報,2012(1):32-45.
[7]百度百科[EB/OL].http://baike.baidu.com/view/2677528.htm?fr=aladdin,2014-10-12.
[8]Yoon JP.Access controland trustiness forresource management in cloud databases.In: Fiore S,Aloisio G,eds.Proc.of the Int’l Conf.on Grid and Cloud Database Management.Berlin:Springer-Verlag, 2011:109-131.
[9]林子雨,賴永炫等.云數(shù)據(jù)庫研究[J].軟件學報,2012(5):1148-1163.
[10]Gediminas Adomavicius,Alexander Tuzhilin,Toward the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Exten-sions [J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6):734-749.
[11]Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge Engineering:Principles and Methods[J] .Data and Knowledge Engineering,1998,(1-2):161-197.