●李 艷,李 瓏(1.中國科學院武漢文獻情報中心,武漢 430071;2.湖北省科學圖書館,武漢 430071)
大數(shù)據(jù)時代數(shù)字化圖書館建設探究
●李艷1,2,李瓏1,2
(1.中國科學院武漢文獻情報中心,武漢430071;2.湖北省科學圖書館,武漢430071)
[關鍵詞]大數(shù)據(jù);數(shù)字化圖書館;資源整合;資源開放
[摘要]對大數(shù)據(jù)時代數(shù)字化圖書館的特點、現(xiàn)狀與不足進行分析,重點探討下一代數(shù)字化圖書館建設的核心技術和管理系統(tǒng)發(fā)展趨勢,最后對圖書館中資源整合及資源開放問題進行了剖析和思考。
1.1大數(shù)據(jù)概述
大數(shù)據(jù)是結構化、半結構化和非結構化數(shù)據(jù)的集合。大數(shù)據(jù)的概念最早由麥肯錫公司發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》報告[1]提出。大數(shù)據(jù)并非是對數(shù)據(jù)量大小的描述,而是基于對龐大、多樣的數(shù)據(jù)種類中快速抽取數(shù)據(jù)信息的闡述。[2]大數(shù)據(jù)的特性可用“V+C”的模型進行概括:①多樣化(Variety),包含以事務為代表的結構化數(shù)據(jù),以網(wǎng)頁html、xml為代表的半結構化數(shù)據(jù),以語音、視頻為代表的非結構化數(shù)據(jù),類型呈現(xiàn)出多樣性;②海量性(Volume),數(shù)據(jù)基數(shù)(TB級)大且增量快(GB級);③快速性(Velocity),數(shù)據(jù)增長快,處理也要快,一部分數(shù)據(jù)具有時效性;④靈活性(Vitality),數(shù)據(jù)更新快,需要靈活的分析數(shù)據(jù)和構建處理模型;⑤準確性(Veracity),基于目標數(shù)據(jù)進行準備的分析及挖掘;⑥復雜性(Complexity),基于大數(shù)據(jù)上述的5V特性,對大數(shù)據(jù)的分析和處理難度和復雜度不斷增加,對目標數(shù)據(jù)的抽取,產(chǎn)生新的業(yè)務模式。
傳統(tǒng)的數(shù)字化圖書館數(shù)據(jù)構成主要以結構化和半結構化數(shù)據(jù)為主。
伴隨著圖書館用戶日益增強的“個性化”需求,以辦公文檔、文本、圖片、XML、HTML、報表、圖像和音頻/視頻信息等作為主要傳播介質(zhì)的非結構化數(shù)據(jù)在數(shù)字化圖書館數(shù)據(jù)資源中的比例逐漸增大。據(jù)2011年IDC企業(yè)外部存儲市場季度跟蹤報告顯示,預
計到2020年全球數(shù)據(jù)將達到35ZB,這個數(shù)據(jù)是2010數(shù)據(jù)的29倍之多。[2]其中,90%以上均是半結構化和非結構化數(shù)據(jù)。作為國內(nèi)圖書館中規(guī)模、信息量最大的中國國家圖書館,僅視頻等非結構數(shù)據(jù)存儲量就將達到800~900TB左右。[3,4]目前,數(shù)字化圖書館的發(fā)展將與大數(shù)據(jù)緊密掛鉤,多樣的信息數(shù)據(jù)類型和龐大的數(shù)據(jù)增長趨勢將給下一代數(shù)字化圖書館的建設帶來更多的挑戰(zhàn)與思考。
1.2數(shù)字化圖書館的建設現(xiàn)狀及存在的不足
1.2.1建設現(xiàn)狀
現(xiàn)階段我國數(shù)字化圖書館的建設成果較過去有了很大的進步。在如下方面表現(xiàn)出更多的優(yōu)勢:首先,伴隨著web2.0時代用戶需求的轉變和圖書館應用資源的豐富,數(shù)字化圖書館構建出基于資源共享的公共服務平臺,并能夠集館藏、資源、服務與人于一體,為用戶定制個性化的需求,實現(xiàn)用戶個性信息的實時推送;其次,數(shù)字化圖書館為構建嵌入式學科服務、地區(qū)/區(qū)域特色一體化體系提供了保障,為用戶的知識咨詢[5]提供了平臺;再次,作為一種基礎公共服務平臺,為數(shù)據(jù)資源的數(shù)字化,多媒體信息的轉儲、檢索等多種應用資源的整合和信息的推廣、資源的合理布局與共享提供了基礎。
1.2.2存在的不足
(1)自身建設發(fā)展的不足(內(nèi)因)。①缺乏對海量數(shù)據(jù)的深加工處理與管理服務。②數(shù)字資源的深層次開發(fā)亟待提升。對現(xiàn)有數(shù)據(jù)的實時采集、分析、挖掘、組織、存儲以及新業(yè)務模式的開發(fā)做得不夠。③對非結構化數(shù)據(jù)的持久化處理和決策數(shù)據(jù)的提煉與歸類待提升。④利用大數(shù)據(jù)分析、預測和智能輔助決策技術構建知識服務體系和風險評估模型方面技術差距待提升。⑤大數(shù)據(jù)中不同類別、屬性、顆粒度、重要度的數(shù)據(jù),結合低碳環(huán)保的政策,在實現(xiàn)備份、存儲、傳輸、復原等方面,構建數(shù)據(jù)中心的實施技術有待提升。⑥對大數(shù)據(jù)的安全保護、加密保護、知識產(chǎn)權保護有待提升。
(2)外部因素的制約和影響(外因)。①帶寬資源不足。帶寬是NetApp對大數(shù)據(jù)定義的三大要素之一。高帶寬指的是高速處理關鍵數(shù)據(jù),以支持快速有效的消化和處理大型數(shù)據(jù),是用戶數(shù)據(jù)通信的基礎條件。[2,6]國家信息中心發(fā)布的《沖出迷霧:中國信息社會測評報告(2013)》顯示,2012年中國信息社會指數(shù)(ISI)達到0.4391,比2010年提高了17%;盡管我國寬帶普及率大大提升,但網(wǎng)速仍然明顯落后于全球平均水平。[7]帶寬資源的不足阻礙了數(shù)字化圖書館的應用和發(fā)展。②“數(shù)據(jù)孤島”的存在。館與館、系統(tǒng)與系統(tǒng)內(nèi)的信息關聯(lián),同類系統(tǒng)間形成“數(shù)據(jù)孤島”,一定程度上影響了資源的共享和利用,阻礙了數(shù)字化圖書館的建設與發(fā)展。③對非結構化的靜態(tài)與動態(tài)數(shù)據(jù)的價值分析不夠,人力、物力等發(fā)展張力的投入回報方面的認識不夠。[8]
下一代數(shù)字化圖書館的建設與發(fā)展將承載計算機技術和網(wǎng)絡技術的大躍進步伐,依托云平臺、智能算法(智能數(shù)據(jù)挖掘和知識發(fā)現(xiàn))、無線傳感等新技術,實現(xiàn)真正意義上的“數(shù)字化”。下一代數(shù)字化圖書館建設的重心將圍繞下一代網(wǎng)絡、智能服務[9]和大數(shù)據(jù)幾個重要方面,對核心技術、管理系統(tǒng)、資源整合和資源開放方面提出更高的要求。
2.1下一代數(shù)字化圖書館核心技術的發(fā)展
2.1.1平臺架構
下一代數(shù)字化圖書館的平臺將依賴于面向服務的體系架構(Service Oriented Architecture, SOA)和云平臺架構。[10]SOA架構最大的特點在于可以對離散耦合的系統(tǒng)、組件實現(xiàn)互連,完成分布式的部署、組合及使用。SOA架構將作為一種跨組件、跨平臺的架構標準,為下一代數(shù)字化圖書館多系統(tǒng)之間的跨平臺、互操作,甚至是大數(shù)據(jù)間的分布式共享提供基礎。同時,在SOA框架下,工作任務和個性化的業(yè)務流之間可以靈活的組合、拆分或耦合,實現(xiàn)信息資源或服務的合理化配置,上述條件為下一代數(shù)字化圖書館的系統(tǒng)模塊的整合、調(diào)整以及平滑擴展,甚至是不同顆粒度介質(zhì)間的無縫銜接提供了必要的保障。云平臺是云計算和云服務的技術基礎,云計算和云服務將是下一代圖書館系統(tǒng)應用的基石。云平臺的典型架構是三層架構,即硬件-操作系統(tǒng)-軟件接口。
云計算和云服務為應用虛擬化、桌面虛擬化、移動虛擬化、服務器虛擬化、存儲虛擬化、網(wǎng)絡虛擬化等技術在下一代數(shù)字化圖書館中高性能的管理和調(diào)度資源起到了巨大的作用。[11,12]虛擬化突破了傳統(tǒng)物理機的局限性,能夠使CPU、內(nèi)存、磁盤、I/O等硬件變成動態(tài)管理的“資源池”,所有的底層硬件資源能夠根據(jù)需要合理化的調(diào)度甚至實現(xiàn)系統(tǒng)的“漂移”;云架構中間層通過類Cisco的數(shù)據(jù)中心虛擬化的vPC技術,將資源中心和網(wǎng)絡中心分開管理。同時,將多臺設備利用VRRP技術虛擬為一個網(wǎng)關地址(即可以認為虛擬為一臺設備),一方面利于保證數(shù)據(jù)中心域
的安全和穩(wěn)定,另一方面利于網(wǎng)絡域?qū)崿F(xiàn)跨設備的端口聚合并增加了鏈路帶寬。下一代數(shù)字化圖書館的建設目標將實現(xiàn)“單一配置結構適合所有客戶的多承租人架構”。[13]基于云架構的數(shù)字化圖書館平臺的最大優(yōu)點在于:在云架構頂層構建大型分布式的資源、服務共享的數(shù)字化圖書館網(wǎng)絡,對其資源和服務進行整合,并形成“云管理、云調(diào)度”的自適應新型服務體系。本地數(shù)字化圖書館一方面可以通過大云平臺提供各類服務;另一方面,可以主動利用大云平臺資源和服務來補充本地數(shù)字化的不足。SOA為各類系統(tǒng)提供標準的API接口,借助其標準實現(xiàn)分布式圖書館之間各種服務的動態(tài)管理和分配,實現(xiàn)館際透明地協(xié)作和服務獲取,更好地支持多館間的合作和資源共建,達到真正意義上的資源、服務的“趨公平共享化”。
2.1.2下一代數(shù)字化圖書館管理系統(tǒng)的發(fā)展
下一代數(shù)字化圖書館的管理重心將定位于以主動的知識發(fā)現(xiàn)和智能啟發(fā)滿足用戶需求來實現(xiàn)服務價值。管理的目標將是實現(xiàn)統(tǒng)一且規(guī)范的數(shù)據(jù)標準、數(shù)據(jù)管理和整合服務。[13]發(fā)展的方向主要包括以下10個方面。
(1)用戶的啟發(fā)式檢索。啟發(fā)式檢索需要對用戶關注的信息、用戶的研究方向和興趣愛好進行知識發(fā)現(xiàn)與智能分析,確定上述數(shù)據(jù)中有效、新穎、潛在有用的個性化數(shù)據(jù),將用戶經(jīng)常關注的“低層數(shù)據(jù)”轉化為高層知識,給出先驗的判斷后進行合理的信息推送,實現(xiàn)用戶的無感知檢索。
(2)多種復合系統(tǒng)資源高度集成與整合。原本數(shù)字化圖書館中的數(shù)據(jù)體系就龐大且結構多樣,將復合系統(tǒng)資源通過SOA進行集成,縮小系統(tǒng)間的無縫化管理,實現(xiàn)結構化、半結構化和非結構化數(shù)據(jù)的合理整合將顯得尤為重要。
(3)大數(shù)據(jù)的關聯(lián)支持。大數(shù)據(jù)中很大一類非結構化數(shù)據(jù)本身無關聯(lián)性。在做數(shù)據(jù)分析和處理時存在較多困難。利用分布式數(shù)據(jù)庫進行語義的流式推理,通過語義鏈接,支持資源描述框架(resource description framework, RDF)數(shù)據(jù)的處理,為大數(shù)據(jù)的術語和屬性進行資源命名、建模,實現(xiàn)詞表映射,同時進行規(guī)范控制,通過發(fā)布或復用領域本體,為各類實體建立起本體聯(lián)系,進而大數(shù)據(jù)實現(xiàn)關聯(lián)支持。[14]
(4)云架構管理。云架構是下一代數(shù)字化圖書館發(fā)展的基礎框架和核心技術,合理且健壯的云架構設計將成為圖書館管理系統(tǒng)發(fā)展的關鍵條件。
(5)多種資源發(fā)現(xiàn)系統(tǒng)的交互操作。下一代圖書館的各類資源系統(tǒng)需要基于SOA框架開發(fā),提供統(tǒng)一開放的API和標準協(xié)議,才能實現(xiàn)系統(tǒng)間的無縫集成和漫游管理。
(6)資源描述和檢索(resource description and access, RDA)標準。RDA將支持圖書館編目記錄與其他元數(shù)據(jù)領域所創(chuàng)建的編目記錄之間的整合,使得圖書館記錄能以新的方式被利用。[15]
(7)智能終端的移動App應用。移動終端的普及為下一代數(shù)字化圖書館的發(fā)展帶來了契機。電子資源和數(shù)字化圖書館服務可以全面移植到終端上,除了原有的借閱、查詢等功能外,移動終端更是增加諸如應用拍照、二維碼掃描、手機支付、推送提醒和短信通知等豐富的用戶體驗功能,為數(shù)字化圖書館的普及提供更多便利。
(8)IPv6或v4/v6雙棧網(wǎng)絡的應用。IPv6地址多,且具有較好的流媒體傳輸支持、組播功能、QoS (Quality of Service)和較高的安全性。IPv6或v4/v6雙棧網(wǎng)絡的應用,在節(jié)省公共帶寬的同時,也為數(shù)字化圖書館的應用推廣起到推波助瀾的作用。
(9)智能的信息推送和用戶互動體驗。下一代數(shù)字化圖書館的服務將不再是被動的服務模式,而是通過主動的智能啟發(fā)來滿足用戶需求。圖書館既是一種知識庫,也是用戶互動的平臺,它能夠根據(jù)用戶的研究方向、興趣愛好等信息推送相關的信息資源。
(10)大容量數(shù)據(jù)的安全存儲。下一代數(shù)字化圖書館的數(shù)據(jù)將以每月TB的速度增長,光存儲將逐漸成為數(shù)字化圖書館的數(shù)據(jù)存儲介質(zhì)。其主要特點表現(xiàn)在:首先,光存儲對數(shù)據(jù)存儲本身而言具備離線存儲功能,與現(xiàn)代硬盤相比數(shù)據(jù)量更加穩(wěn)定,不易遭到破壞與攻擊;其次,與下一代數(shù)字化圖書館的部署大數(shù)據(jù)戰(zhàn)略能夠完美的整合。[4]
2.2下一代數(shù)字化圖書館中資源整合和資源開放的思考
伴隨高校和社會電子資源公共基礎服務平臺的發(fā)展和開放,校際與校際之間、校際和社會電子資源公共服務平臺之間可以構筑LinL(即LAN in LAN,每個高?;蛏鐣娮淤Y源平臺原本是一個獨立的局域網(wǎng),LAN)。一方面,將多個LAN打通,形成多單元互聯(lián),逐步構建基于市與市網(wǎng)的LinL,基于省與省網(wǎng)的LinL,可以實現(xiàn)將局部資源整合到大型局域網(wǎng)(Big LAN, BLAN)中。這種模式的推廣和應用,能夠全面的將發(fā)達地區(qū)、發(fā)展中地區(qū)和落后地區(qū)的電子資源進行全局整合及分布式共享,讓電子資源得以合理化的利用;并且基于區(qū)域特點的特色電子資源能夠更好的
得以傳播和推廣。另一方面,在LinL的框架模式下,可以有效地降低電子化資源建設及維護成本。在BLAN中部分關鍵節(jié)點,可以考慮構建域網(wǎng)緩存節(jié)點(iCache),實現(xiàn)數(shù)據(jù)的智能緩存共享與分發(fā),這種方式將有效減少BLAN出口帶寬的消耗,實現(xiàn)電子資源服務器間的負載均衡。同時,滿足用戶與iCache服務器間的分布式通信及資源請求。更進一步說,通過新型的知識服務引擎和知識發(fā)現(xiàn)技術,智能地實現(xiàn)將與用戶的研究方向、興趣愛好等信息相近的電子資源進行無感知推送和一站式導航服務,并結合新一代的統(tǒng)一通信平臺技術,為實現(xiàn)新型的知識服務社區(qū)實體和豐富的用戶體驗提供了基礎。同時,下一代數(shù)字化圖書館將從現(xiàn)有的IPv4或IPv4/v6雙棧網(wǎng)絡逐步向IPv6架構發(fā)展,構建基于IPv6網(wǎng)絡的數(shù)字化圖書館平臺,大幅提高系統(tǒng)資源到用戶層間的數(shù)據(jù)吞吐,使電子資源的分布式管理優(yōu)勢更加明顯,尤其是非結構化數(shù)據(jù)資源(例如:Web網(wǎng)中的流媒體數(shù)據(jù)、圖片、異構腳本等)將具有性能更優(yōu)的傳輸效果和更高的安全性。
大數(shù)據(jù)作為圖書館電子資源的數(shù)據(jù)基礎,合理的采集、分析、挖掘、重組過程,將會為后期的智能語義分析、資源聚合、啟發(fā)式檢索,甚至是用戶的無感知信息服務提供必要的保障。構建健壯、跨平臺、安全、互動的數(shù)字化圖書館系統(tǒng)將成為“云圖書館”建設和發(fā)展的重點內(nèi)容。
[參考文獻]
[1]Big data:The next frontier for innovation,competition,andproductivity[EB/OL].[2014-05-17].http//www. mckinsey.com/Insights/MGI/Research/Technology_and_Inn ovation/Big_data_The_next_frontier_for_innovation.
[2]韓翠峰.大數(shù)據(jù)帶給圖書館的影響與挑戰(zhàn)[J].圖書與情報,2012(5):37-40.
[3]于洪波.大容量存儲技術和目前面臨的問題[EB/OL].[2012-11-28].http://news.chinabyte. com/211/12477711.shtml.
[4]于洪波.大數(shù)據(jù)時代下的數(shù)字圖書館[EB/OL]. [2012-12-21].http://info.chinabyte.com/203/12493 703.shtml.
[5]王天泥.知識咨詢:大數(shù)據(jù)時代圖書館的知識服務增長點[J].圖書與情報,2013(2):74-77.
[6]NetApp.Big data solutions for government[EB/OL]. [2012-12-21].http://economy.gmw.cn/201309/04/content_8791595.htm.
[7]我國網(wǎng)速仍落后于全球平均水平[EB/OL].[2013-09-04]. http://www.netapp.com/us/solutions/industry/gov ernment/bigdata.html.
[8]樊偉紅,等.圖書館需要怎樣的“大數(shù)據(jù)”[J].圖書館雜志, 2012, 31(11):63-68,77.
[9]周杰,等.下一代數(shù)字圖書館的發(fā)展思考[J].圖書情報工作, 2013, 57(8):35-39.
[10]殷紅,劉偉.新一代圖書館服務系統(tǒng):功能評價與愿景展望[J].中國圖書館學報, 2013,39 (5):26-33.
[11]陳臣.云計算環(huán)境下數(shù)字圖書館高性能虛擬化資源管理與調(diào)度策略[J].圖書館理論與實踐, 2013(7): 82-85.
[12]陳臣.基于云計算的數(shù)字圖書館虛擬化平臺的可信管理策略研究[J].圖書館理論與實踐, 2013, (8):82-85.
[13]包凌,趙以安.國外下一代圖書館自動化系統(tǒng)的實踐與發(fā)展趨勢研究[J].圖書館學研究, 2013(9):59-65.
[14]劉煒,等.大數(shù)據(jù)與關聯(lián)數(shù)據(jù):正在到來的數(shù)據(jù)技術革命[J].現(xiàn)代圖書情報技術, 2013, 232 (4):2-9.
[15]Resource description and access:the cataloguing standard for the 21st century[EB/OL].[2014-03-10].http://www.bengu.cn/homepage/library/rda_broch ure_v4_chinese.htm.
[收稿日期]2014-06-09 [責任編輯]李海燕
[作者簡介]李艷(1982-),女,碩士研究生,中國科學院武漢文獻情報中心館員,研究方向:科技檢索與查新;李瓏(1965-),女,湖北省科學圖書館副研究員,研究方向:科技檢索與查新。
[文章編號]1005-8214(2015)01-0081-04
[文獻標志碼]A
[中圖分類號]G250.76