文庭孝 李 維
(1.中南大學(xué)醫(yī)藥信息系,長沙,410013; 2.湘潭大學(xué)公共管理學(xué)院,湘潭,411105)
大數(shù)據(jù)環(huán)境下數(shù)字資源融合初探
文庭孝1李 維2
(1.中南大學(xué)醫(yī)藥信息系,長沙,410013; 2.湘潭大學(xué)公共管理學(xué)院,湘潭,411105)
大數(shù)據(jù)時代,分散分布與零碎存在的數(shù)據(jù)和小數(shù)據(jù)已經(jīng)沒有多大意義,“大數(shù)據(jù)”才有價值。數(shù)字資源融合是數(shù)字資源集成和整合的更高層次,通過數(shù)據(jù)公開和開放獲取,建立一個以全面的完整的數(shù)據(jù)為基礎(chǔ)的統(tǒng)一平臺,實(shí)現(xiàn)數(shù)據(jù)、技術(shù)、平臺、服務(wù)的融合,大數(shù)據(jù)時代的到來為其發(fā)展提供了契機(jī)。本文從大數(shù)據(jù)時代的特征及思維變革出發(fā),探討了大數(shù)據(jù)環(huán)境下數(shù)字資源融合的內(nèi)涵、特征、框架和模式,并分析了大數(shù)據(jù)環(huán)境下數(shù)字資源融合可能會面臨的問題。
大數(shù)據(jù) 數(shù)字資源 資源融合 資源共享
“大數(shù)據(jù)”(Big data)是繼云計算之后IT行業(yè)最火熱的詞匯。2007年,國外學(xué)者開始關(guān)注大數(shù)據(jù)。2008年9月,《自然》雜志發(fā)表了“Big Data: Science in the petabyte era”系列專題文章,最早提出了大數(shù)據(jù)的概念[1]。2011年,美國麥肯錫咨詢公司最早發(fā)布“大數(shù)據(jù)調(diào)查報告”,在IT行業(yè)和商業(yè)領(lǐng)域掀起了大數(shù)據(jù)狂潮[2]。2012年2月,奧巴馬政府宣布推出“大數(shù)據(jù)的研究和發(fā)展計劃”,并于3月29日在美國白宮網(wǎng)站發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,在政府管理和社會應(yīng)用領(lǐng)域掀起了大數(shù)據(jù)巨浪[3-4]。正如Steve Lohr在給美國《紐約時報》撰寫的《大數(shù)據(jù)時代(The Age of Big Data)》一文中宣布的那樣[5]:大數(shù)據(jù)時代已經(jīng)來臨!
在大數(shù)據(jù)時代,“大數(shù)據(jù)”才有價值,數(shù)據(jù)開放、信息公開、資源融合、無縫聯(lián)結(jié)是未來發(fā)展的必然趨勢,大數(shù)據(jù)開啟了數(shù)字資源融合的新方向。
1.1 大數(shù)據(jù)研究現(xiàn)狀
國外大數(shù)據(jù)研究主要集中在IT領(lǐng)域、商業(yè)領(lǐng)域、公共領(lǐng)域和科研領(lǐng)域等,正在向各行各業(yè)和各學(xué)科領(lǐng)域拓展。IT領(lǐng)域主要從技術(shù)、算法、模型和實(shí)現(xiàn)等角度研究大數(shù)據(jù),其中有關(guān)云計算、數(shù)據(jù)處理、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等的研究最引人注目。
我國從2011年開始引入大數(shù)據(jù),很快成為繼云計算之后的另一個關(guān)注熱點(diǎn)。大數(shù)據(jù)研究以翻譯和介紹國外研究成果為主,處于研究的初級階段,并且常常和云計算研究結(jié)合在一起,重點(diǎn)集中于商業(yè)經(jīng)濟(jì)和IT領(lǐng)域。
1.2 數(shù)字資源融合研究現(xiàn)狀
英文中的“融合、整合與集成”三詞都用“Integration”表達(dá),區(qū)別不明顯。國外基于數(shù)字信息資源整合、集成和共享的信息資源融合與服務(wù)相關(guān)研究已經(jīng)十分豐富和成熟,如數(shù)字信息資源集成與服務(wù),以數(shù)字圖書館、跨庫檢索系統(tǒng)、數(shù)據(jù)庫集成系統(tǒng)、搜索引擎等為代表;數(shù)字信息資源整合、共享與服務(wù),以文獻(xiàn)資源保障體系、圖書館聯(lián)盟、數(shù)字信息資源共享等為代表[6]。
我國數(shù)字資源融合研究始于20世紀(jì)末,以“數(shù)字資源集成”、“數(shù)字資源整合”、“數(shù)字資源共享”等形式出現(xiàn),而其中“數(shù)字資源整合”一詞最受關(guān)注。相關(guān)研究以理論研究為主,方法和技術(shù)研究次之,應(yīng)用研究相對較少。“數(shù)字資源整合”中關(guān)于圖書館、數(shù)字圖書館,尤其是高校圖書館的數(shù)字資源整合研究較為成熟。數(shù)字資源整合從整合層次上來看可分為物理層整合和邏輯層整合,從加工處理程度來看可分為數(shù)據(jù)整合、信息整合、知識整合,從整合模式來看主要有基于OPAC的整合(以館藏書目數(shù)據(jù)為核心)、基于資源導(dǎo)航的整合(將檢索入口整合在一起、學(xué)科導(dǎo)航)、基于跨庫檢索的整合(提供一站式的跨庫檢索服務(wù))、基于超級鏈接的整合(超文本網(wǎng)頁鏈接)和基于語義的整合(知識本體)等。從整合對象上來看主要有面向?qū)ο蟮恼?以用戶需求為重點(diǎn))、面向內(nèi)容的整合(以信息資源為重點(diǎn))和面向任務(wù)的整合(以功能分析為重點(diǎn))[6]。
1.3 研究現(xiàn)狀評述
從大數(shù)據(jù)研究來看,國外目前主要以技術(shù)和應(yīng)用研究為主,理論研究、系統(tǒng)研究和綜合研究不多。而國內(nèi)主要以翻譯和介紹國外研究成果為主,簡要介紹大數(shù)據(jù)的特征、內(nèi)涵、思維變革等,探討大數(shù)據(jù)給各行各業(yè)帶來的機(jī)遇和挑戰(zhàn),處于研究的初級階段。從數(shù)字資源融合研究來看,國外關(guān)于數(shù)據(jù)融合、信息融合、信息與信息資源整合等方面的研究較多,但沒有有效地解決數(shù)據(jù)資源和信息資源的分散分布、重復(fù)建設(shè)、利益沖突及低效利用等問題。國內(nèi)研究者混合使用整合、集成、融合等概念,而沒有明確區(qū)分。
2.1 大數(shù)據(jù)
目前學(xué)術(shù)界對大數(shù)據(jù)還沒有形成統(tǒng)一的認(rèn)識。IBM公司最早將大數(shù)據(jù)概括成4V,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)和潛藏價值(Value)[7]。由此可見,大數(shù)據(jù)不僅僅指其數(shù)量之大,更指它潛在的巨大價值,需要通過數(shù)據(jù)分析、數(shù)據(jù)挖掘等手段去發(fā)現(xiàn)。
大數(shù)據(jù)是一場數(shù)據(jù)革命,在眾多領(lǐng)域得到廣泛應(yīng)用,對我們的工作、生活和思維產(chǎn)生了巨大影響。大數(shù)據(jù)時代,我們可以分析更多的數(shù)據(jù),甚至是全體數(shù)據(jù),而不是隨機(jī)樣本;更多地發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)關(guān)系,而不是因果關(guān)系;當(dāng)擁有海量大數(shù)據(jù)時,絕對的精確度不再是我們追求的主要目標(biāo),而開始接受大數(shù)據(jù)的混雜性和模糊性[8]。
2.2 數(shù)字資源
數(shù)字資源指以數(shù)字形式存取、發(fā)布和利用的信息資源集合或總和。大數(shù)據(jù)環(huán)境賦予了數(shù)字資源新的內(nèi)涵,將數(shù)字資源從數(shù)字化轉(zhuǎn)換到數(shù)據(jù)化。數(shù)據(jù)化指將均勻、連續(xù)的數(shù)字比特結(jié)構(gòu)化和顆?;纬蓸?biāo)準(zhǔn)化、開放、非線性、通用的數(shù)據(jù)對象,并基于不同形態(tài)與類別的數(shù)據(jù)對象,實(shí)現(xiàn)相關(guān)應(yīng)用,開展相關(guān)活動,其本質(zhì)還是數(shù)字信息的內(nèi)容[9]。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)資源規(guī)模巨大,增長速度快,種類以圖片、聲音、視頻等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)為主。有統(tǒng)計顯示[7],全世界結(jié)構(gòu)化數(shù)據(jù)增長率大概是32%,而非結(jié)構(gòu)化數(shù)據(jù)增長率則是63%。用于產(chǎn)生智慧的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。
大數(shù)據(jù)時代數(shù)據(jù)資源的特征不只在大,更在于它潛在的大價值。當(dāng)數(shù)據(jù)量足夠大時,數(shù)據(jù)資源之間的相關(guān)關(guān)系將會更加明顯,通過識別有用的關(guān)聯(lián)物,分析相關(guān)關(guān)系,可以發(fā)現(xiàn)數(shù)據(jù)資源的潛在價值。大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快,而且不易受偏見的影響。
3.1 數(shù)字資源融合的內(nèi)涵
大數(shù)據(jù)時代,技術(shù)條件已經(jīng)有了很大的提高,我們擁有了收集和處理海量數(shù)據(jù)的能力,小數(shù)據(jù)時代收集樣本數(shù)據(jù)的做法已經(jīng)沒有多大意義,因此我們需要盡可能收集“全樣本”和“總體數(shù)據(jù)”。但數(shù)據(jù)總量的爆炸式增長也帶來了數(shù)據(jù)結(jié)構(gòu)復(fù)雜、分散分布、魚龍混雜等障礙,如何有效收集有價值的數(shù)據(jù)成為一大難題,這正是推動信息機(jī)構(gòu)進(jìn)行數(shù)字資源融合的一大動力。數(shù)字資源融合是指數(shù)字資源集成、共享和整合在大數(shù)據(jù)環(huán)境下的延伸與發(fā)展,通過數(shù)據(jù)公開和開放獲取,建立一個以完整的大數(shù)據(jù)為基礎(chǔ)的統(tǒng)一平臺,以實(shí)現(xiàn)數(shù)據(jù)、技術(shù)、平臺、服務(wù)的融合。數(shù)字資源融合強(qiáng)調(diào)的是基于同一平臺的異構(gòu)數(shù)據(jù)的融合,其目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)的無縫聯(lián)結(jié),并跨越時空和主體界線,將數(shù)據(jù)組合成一個有機(jī)整體。
3.2 數(shù)字資源融合的特征
數(shù)字資源融合與數(shù)字資源集成、共享與整合既有聯(lián)系,又有區(qū)別。數(shù)字資源融合具有以下明顯的特征:
(1)數(shù)據(jù)開放和信息公開是數(shù)字資源融合的基礎(chǔ)。大數(shù)據(jù)環(huán)境下,融合完整的 “大數(shù)據(jù)”才有價值,只有數(shù)據(jù)全面開放和信息無限公開,才有可能獲取有價值、完整的數(shù)據(jù),因此數(shù)據(jù)開放和信息公開是數(shù)字資源融合的前提和基礎(chǔ)。目前美國、英國等發(fā)達(dá)國家的數(shù)據(jù)開放運(yùn)動已取得較大進(jìn)展,主要體現(xiàn)在政府?dāng)?shù)據(jù)開放和信息公開方面,各國紛紛建立了政府?dāng)?shù)據(jù)開放和信息公開網(wǎng)站,致力于建立全世界統(tǒng)一的數(shù)據(jù)開放平臺和開放標(biāo)準(zhǔn),這也是大數(shù)據(jù)環(huán)境下的一大趨勢。
(2)數(shù)字資源融合既是數(shù)據(jù)資源的融合也是技術(shù)和服務(wù)的融合。大數(shù)據(jù)環(huán)境下,在一個統(tǒng)一的平臺上實(shí)現(xiàn)數(shù)據(jù)與多種技術(shù)的互操作,提供綜合服務(wù),將會在很大程度上節(jié)約成本。數(shù)字資源融合便是基于同一平臺的數(shù)據(jù)、技術(shù)和服務(wù)的融合,通過構(gòu)建數(shù)字信息資源融合及服務(wù)平臺,從而創(chuàng)新信息機(jī)構(gòu)開展信息服務(wù)的方式,如數(shù)據(jù)挖掘、關(guān)聯(lián)分析、個性化服務(wù)等。
(3)無縫聯(lián)結(jié)和數(shù)據(jù)網(wǎng)絡(luò)是數(shù)字資源融合的最終歸宿。大數(shù)據(jù)環(huán)境下,數(shù)字資源融合將分散分布、零碎存在的數(shù)據(jù)和信息融合成完整的“大數(shù)據(jù)”,數(shù)據(jù)與數(shù)據(jù)之間通過內(nèi)在的聯(lián)系掛起鉤來,“聯(lián)”在一起。這是基于數(shù)據(jù)的含義和屬性建立的關(guān)系,是數(shù)據(jù)本質(zhì)關(guān)系上的聯(lián)結(jié),所有的相關(guān)數(shù)據(jù)互相聯(lián)結(jié),構(gòu)成一個數(shù)據(jù)網(wǎng),數(shù)據(jù)將像網(wǎng)頁一樣,成為組織資源的單位[10]。
3.3 數(shù)字資源融合的演變
數(shù)字資源融合由數(shù)字資源集成、數(shù)字資源共享和數(shù)字資源整合演變而來,四者之間既有區(qū)別又有聯(lián)系,在數(shù)字資源建設(shè)中發(fā)揮著重要的作用。數(shù)字資源集成以計算機(jī)領(lǐng)域研究最廣,常用“信息集成”、“集成服務(wù)”表達(dá)。數(shù)字資源整合是網(wǎng)絡(luò)環(huán)境下圖書情報領(lǐng)域的一個重要研究內(nèi)容,整合基礎(chǔ)理論、整合方法及整合平臺等研究都已較為成熟。數(shù)字資源融合是大數(shù)據(jù)環(huán)境下集成和發(fā)展的新方向。
從研究對象來看,都是數(shù)字資源。但隨著網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)的發(fā)展,數(shù)字資源的內(nèi)涵不斷延伸。數(shù)字資源集成、共享和整合的對象是數(shù)字化資源,以數(shù)據(jù)庫和網(wǎng)絡(luò)信息資源為主。大數(shù)據(jù)環(huán)境下,完整的、數(shù)據(jù)化的大數(shù)據(jù)才有價值,其成為數(shù)字資源融合的主要對象。
從內(nèi)涵來看,數(shù)字資源集成對不同來源、格式和特性的異構(gòu)數(shù)字資源進(jìn)行統(tǒng)一表示、存儲和管理,以便為用戶提供數(shù)字資源的統(tǒng)一視圖,僅從形式上合并數(shù)字資源,是一個基礎(chǔ)性概念。數(shù)字資源整合[11]是數(shù)字資源優(yōu)化組合的一種存在狀態(tài),根據(jù)一定需要,對各個相對獨(dú)立的數(shù)字資源系統(tǒng)中的數(shù)據(jù)對象、功能結(jié)構(gòu)及其互動關(guān)系進(jìn)行類聚、重組,形成一個新的有機(jī)整體,實(shí)現(xiàn)了形式上和內(nèi)容上的整合,它是基于不同平臺的異構(gòu)數(shù)字資源的集成。數(shù)字資源融合是基于同一個平臺的異構(gòu)系統(tǒng),圍繞數(shù)字資源的集成與協(xié)作,包括數(shù)據(jù)融合、平臺融合和服務(wù)融合三個層次。
從目標(biāo)來看,無論是數(shù)字資源集成、共享、整合,還是融合,其目的都是為了數(shù)字資源的共享和有效利用。但信息集成、數(shù)字資源整合沒有有效解決數(shù)字資源分散分布、重復(fù)建設(shè)、利益沖突等問題,基于完整數(shù)據(jù)的數(shù)字資源融合將有利于解決這些問題。
4.1 融合內(nèi)容
大數(shù)據(jù)環(huán)境下,規(guī)模大、種類多是數(shù)字資源的首要特征,隨著海量數(shù)據(jù)處理技術(shù)的發(fā)展,使用一切數(shù)據(jù)讓我們更清楚地看到了大數(shù)據(jù)的價值。數(shù)字資源融合是大規(guī)模數(shù)據(jù)的融合,融合內(nèi)容為針對某個對象在時空兩個維度上的數(shù)據(jù),將信息和數(shù)據(jù)組成一個完整的有機(jī)整體進(jìn)行開發(fā)利用,以獲得更多更大的價值。從時間上來看,數(shù)字資源融合指融合有一定時間積累的完整數(shù)據(jù),即從時間上融合過去、現(xiàn)在和未來的數(shù)據(jù);從空間上來看,指融合不同區(qū)域、不同行業(yè)領(lǐng)域等的完整數(shù)據(jù)。這種完整數(shù)據(jù),在大數(shù)據(jù)環(huán)境下,還表現(xiàn)為“多源”,即有多個源頭在不同方向?qū)ν粋€對象進(jìn)行數(shù)據(jù)記錄,數(shù)據(jù)之間可以互相印證。所以,數(shù)字資源融合也包括同一主題而來源不同的數(shù)據(jù)的融合、同一組織主體而類型不同的數(shù)據(jù)的融合、不同信息機(jī)構(gòu)如圖書館、檔案館和博物館之間的數(shù)據(jù)融合等等。
4.2 融合層次
大數(shù)據(jù)環(huán)境下,數(shù)字資源融合體系可分為三個層次,即數(shù)據(jù)融合、平臺融合和服務(wù)融合,數(shù)據(jù)融合是基礎(chǔ),平臺融合是關(guān)鍵,服務(wù)融合是目的。將龐大的異構(gòu)數(shù)據(jù)融合在一個平臺上本身即是一種創(chuàng)新,以此為基礎(chǔ)建立的數(shù)字信息資源融合及服務(wù)平臺,將為信息機(jī)構(gòu)在大數(shù)據(jù)環(huán)境下開展信息服務(wù)提供新的活力,增強(qiáng)信息機(jī)構(gòu)開展信息服務(wù)的競爭力。
數(shù)據(jù)融合指在收集到的原始數(shù)據(jù)上進(jìn)行的融合,通過元數(shù)據(jù)將時間、空間、行業(yè)、地區(qū)、主體、主題等方面具有關(guān)聯(lián)性的所有數(shù)據(jù)互相聯(lián)結(jié),構(gòu)成一個大的數(shù)據(jù)庫;平臺融合指通過構(gòu)建一個集成平臺或云平臺,實(shí)現(xiàn)與多種技術(shù)、多種格式數(shù)據(jù)的互操作,將其融入到一個統(tǒng)一平臺中;服務(wù)融合指在數(shù)據(jù)融合和平臺融合的基礎(chǔ)上,通過對服務(wù)要素進(jìn)行動態(tài)優(yōu)化,構(gòu)建融合服務(wù)體系,實(shí)現(xiàn)服務(wù)內(nèi)容、形式與功能的融合。完整的數(shù)字資源融合體系如圖1所示。
圖1 數(shù)字資源融合體系
4.3 融合方法
大數(shù)據(jù)時代,數(shù)字化向數(shù)據(jù)化轉(zhuǎn)換,數(shù)據(jù)將成為資源組織的單位,一個數(shù)據(jù)可以像網(wǎng)頁一樣,獲得一個地址,利用統(tǒng)一的語義對它進(jìn)行描述。從資源組織和資源融合特征出發(fā),數(shù)字資源融合主要有以下四種方法:
(1)基于語義的融合。所謂“語義”,是指遵循一個統(tǒng)一的標(biāo)準(zhǔn),給每一片信息賦予一個計算機(jī)都能理解的“意義”,用術(shù)語說,則是“元數(shù)據(jù)”,也可以形象地理解為給信息貼上各種標(biāo)準(zhǔn)化的“標(biāo)簽”[10]。基于語義的融合,實(shí)際上是對數(shù)字資源進(jìn)行重新組織、加工、開發(fā)和創(chuàng)造新知識的過程。以元數(shù)據(jù)技術(shù)為基礎(chǔ)創(chuàng)建本體,對數(shù)字資源進(jìn)行概念化和標(biāo)準(zhǔn)化的描述,通過元數(shù)據(jù)標(biāo)簽,實(shí)現(xiàn)數(shù)字資源之間的自動聯(lián)結(jié),這樣就能最大程度地融合完整的數(shù)據(jù),解決資源分散和重復(fù)建設(shè)的問題。同時,也能發(fā)現(xiàn)數(shù)字資源之間的潛在關(guān)聯(lián),充分滿足用戶對數(shù)字資源的需求,使數(shù)字資源得到有效利用,從而創(chuàng)造新的知識和價值。
(2)基于主題的融合。主題法是直接從表達(dá)主題內(nèi)容的語詞出發(fā),對文獻(xiàn)信息進(jìn)行組織和檢索的重要方法,在大數(shù)據(jù)環(huán)境下也可得到較好的應(yīng)用[12]?;谥黝}的融合,指通過主題詞將有關(guān)聯(lián)關(guān)系的數(shù)字資源融合,便于用戶檢索與利用與某一主題相關(guān)的所有數(shù)字資源。如需要檢索與“大數(shù)據(jù)”有關(guān)的數(shù)字資源,則所有與“大數(shù)據(jù)”相關(guān)的圖書、期刊、網(wǎng)頁、技術(shù)等都能展現(xiàn)在一個頁面上?;谥黝}的融合方法的關(guān)鍵在于確定主題詞、主題詞之間的關(guān)聯(lián)關(guān)系以及與某一主題相關(guān)的語詞的組織。
(3)基于用戶的融合。數(shù)字資源融合的最終目的是為用戶提供信息服務(wù),以人為本是信息服務(wù)的關(guān)鍵所在。基于用戶的融合,即是在“用戶中心理念”基礎(chǔ)上的數(shù)字資源融合方法,它以用戶為中心和出發(fā)點(diǎn),按用戶的特定需求來融合數(shù)字資源。實(shí)際上,這種融合也可稱為個性化融合,其目標(biāo)是為用戶提供個性化服務(wù)。大數(shù)據(jù)環(huán)境下,面對多而雜的資源環(huán)境,信息機(jī)構(gòu)只有真正做到“以用戶為中心”,提供用戶所需要的數(shù)字資源,才能在信息服務(wù)提供中保持重要位置。
(4)基于應(yīng)用的融合。基于應(yīng)用的融合是指通過應(yīng)用層面的邏輯關(guān)聯(lián)來實(shí)現(xiàn)無縫實(shí)時的集成[13]。對于信息機(jī)構(gòu)的不同業(yè)務(wù)部門以及提供不同信息服務(wù)時,它們所需的數(shù)字資源都會實(shí)時傳到相關(guān)數(shù)據(jù)庫表中。這些數(shù)據(jù)庫表之間的關(guān)系是按照數(shù)字資源融合平臺應(yīng)用層面的邏輯定義,通過表之間的內(nèi)部和外部鍵而實(shí)現(xiàn)的實(shí)時關(guān)聯(lián)。這種融合方法的實(shí)時性更強(qiáng),其關(guān)鍵在于應(yīng)用層面的邏輯定義。
數(shù)字資源融合是大數(shù)據(jù)環(huán)境下數(shù)字資源整合與共享發(fā)展的新趨勢,是一次重要的突破,同時也面臨著眾多現(xiàn)實(shí)問題需要解決,成為未來數(shù)字資源融合研究和發(fā)展的重要方向。
5.1 觀念問題
如果說使用數(shù)據(jù)是一種文化、一種習(xí)慣,那么開放數(shù)據(jù)則是一種態(tài)度、一種觀念。大數(shù)據(jù)時代的到來,為各行各業(yè)帶來了機(jī)遇,但同時也帶來了擔(dān)憂,開放后的數(shù)字資源以及用戶數(shù)據(jù)是否會被濫用和惡用,數(shù)據(jù)安全成為一個重要問題。目前,在各國數(shù)據(jù)開放的實(shí)踐中,基本上已形成了不危及國家安全和不能侵犯公民隱私兩個界限[10],在這兩個界限之外的數(shù)據(jù)都應(yīng)該開放,數(shù)據(jù)開放是大數(shù)據(jù)時代無法阻擋的趨勢。因此,無論是政府、機(jī)構(gòu)還是用戶,都應(yīng)該從觀念上正確認(rèn)識和處理數(shù)據(jù)開放與數(shù)據(jù)安全的矛盾問題。
5.2 技術(shù)問題
近年來,隨著計算機(jī)技術(shù)、信息存儲技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,數(shù)字資源融合相關(guān)技術(shù)取得了突破性進(jìn)展,為數(shù)字資源融合實(shí)踐的開展提供了有力支持。但大數(shù)據(jù)時代的到來,數(shù)據(jù)規(guī)模的巨大性、數(shù)據(jù)種類的復(fù)雜性、數(shù)據(jù)模型的不確定性,對數(shù)字資源的存儲容量、保存技術(shù)、標(biāo)準(zhǔn)規(guī)范化以及數(shù)據(jù)安全保障等提出了更高的要求,這些技術(shù)問題是數(shù)字資源融合需要解決的重要問題,非關(guān)系型數(shù)據(jù)庫、本體技術(shù)、元數(shù)據(jù)、云計算技術(shù)、網(wǎng)格技術(shù)等將發(fā)揮重要作用。
5.3 經(jīng)濟(jì)問題
數(shù)字資源融合立足于整體功能大于部分功能之和,通過融合數(shù)字資源,能有效解決數(shù)字資源重復(fù)建設(shè)、分散分布、獲取難度大等問題,并有力促進(jìn)數(shù)字資源的共建共享與高效利用,這對信息機(jī)構(gòu)、用戶和信息服務(wù)的發(fā)展,無疑都是有益的。但數(shù)字資源融合及服務(wù)平臺的建設(shè)是一項耗資巨大的工程,需要投入大量的人力、物力和財力,成本較高,最終是收益顯著還是效益較小,具有較大風(fēng)險,需要進(jìn)行綜合衡量。政府應(yīng)大力鼓勵人才培養(yǎng)和提供財政支持。
5.4 管理問題
數(shù)字資源融合服務(wù)平臺的建設(shè)是一項系統(tǒng)工程,涉及眾多機(jī)構(gòu)、人力、財力與物力的協(xié)調(diào),甚至某些主體之間存在利益沖突,因此需要建立并完善數(shù)字資源融合的統(tǒng)一管理機(jī)制。首先,必須要有專門的負(fù)責(zé)機(jī)構(gòu)和人員,實(shí)施統(tǒng)一標(biāo)準(zhǔn),進(jìn)行合理規(guī)劃和科學(xué)布局。其次,鼓勵制度創(chuàng)新,通過創(chuàng)設(shè)新的、更有激勵性的制度和規(guī)范體系鼓勵信息機(jī)構(gòu)和信息人員積極參與。最后,完善數(shù)字資源融合的運(yùn)營機(jī)制,明確不同信息機(jī)構(gòu)的管理職能,對融合服務(wù)平臺的建設(shè)進(jìn)行定期審查和統(tǒng)一規(guī)范管理,保證數(shù)字資源融合的順利進(jìn)行。
5.5 法律問題
法律約束是促使數(shù)字資源融合更具合法性的重要保障。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)安全、個人隱私和知識產(chǎn)權(quán)是數(shù)字資源融合涉及的主要法律問題。政府相關(guān)部門應(yīng)盡快制定與大數(shù)據(jù)相關(guān)的法律法規(guī)體系,出臺具體措施,保障用戶的個人隱私和數(shù)據(jù)安全,完善數(shù)字資源知識產(chǎn)權(quán)保護(hù)政策,妥善處理好知識產(chǎn)權(quán)保護(hù)與知識傳播及共享的關(guān)系,為數(shù)字資源融合實(shí)踐提供制度保障。
大數(shù)據(jù)時代,數(shù)據(jù)和信息成為重要資產(chǎn),如何有效收集、存儲、組織和利用數(shù)字資源成為信息機(jī)構(gòu)的一大重要難題。數(shù)字資源融合是數(shù)字資源集成和整合的新方向,有利于解決傳統(tǒng)環(huán)境下存在的數(shù)據(jù)和信息資源分散分布、重復(fù)建設(shè)、利益沖突及低效利用等問題,對信息機(jī)構(gòu)抓住大數(shù)據(jù)環(huán)境帶來的機(jī)遇、有效開發(fā)利用數(shù)字資源和提供信息服務(wù)具有重要指導(dǎo)意義。但目前數(shù)字資源融合的研究大多還停留在理論層面,應(yīng)加強(qiáng)技術(shù)實(shí)現(xiàn)和服務(wù)平臺建設(shè)方面的研究,并在此基礎(chǔ)上探討數(shù)字資源融合服務(wù)對策。
[1] 王新才,丁家友.大數(shù)據(jù)知識圖譜:概念、特征、應(yīng)用與影響[J].情報科學(xué),2013(9):10-14
[2] 陸靜.我國圖書館界大數(shù)據(jù)研究評述與展望[J].圖書館雜志,2014(1):20-25
[3] Executive Office of the President. Big data across the federal government[EB/OL].[2014-04-20].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final.pdf
[4] Executive Office of the President. Obama administration unveils “big data” initiative:Announces $200 million in new R&D investments[EB/OL].[2014-04-20].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release_final_2.pdf
[5] Lohr S. The age of big data[EB/OL].[2014-04-20].http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html
[6] 肖希明,唐義.國外數(shù)字資源整合在多領(lǐng)域的研究進(jìn)展[J].中國圖書館學(xué)報,2013(1):26-33
[7] 郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版,2003:6
[8] [英]維克托·邁爾-舍恩伯格,肯尼斯·庫克耶著;盛楊燕,周濤譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013:29
[9] 數(shù)據(jù)化[EB/OL].[2014-04-20].維基百科,http://zh.wikipedia.org/wiki/
[10] 涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社,2012:7
[11] 馬文峰.數(shù)字資源整合研究[J].中國圖書館學(xué)報,2002(4):64-67
[12] 鄧三鴻,金瑩,秦嘉杭.基于知識管理的數(shù)字資源整合策略[J].情報科學(xué),2006(10):1490-1492
[13] 融合-企業(yè)應(yīng)用的未來趨勢[EB/OL].[2014-04-20].http://e.chinabyte.com/304/2179304_2.shtml
Preliminary Study of Digital Resources Fusion under Big Data Environment
Wen Tingxiao1Li Wei2
(1.Medicine Information Department, Central South University,Changsha 410013;2.School of Public Management, Xiangtan University, Xiangtan 411105)
In big data age, scattered distribution and fragmentary existing data and small data are without meaning, while only big data is valuable. Digital resources fusion is the higher level of digital resources integration and sharing. The coming of big data age offers chances for the fusion of data, technology, platform and service by data open and free access, and building unified platform based on whole data. This paper discusses the connotation, character, content, frame and model of digital resources fusion, and analyzes the confronting problems of digital resources fusion under big data environment.
Big data Digital resources Resources fusion Resources sharing
湖南省社科基金項目“大數(shù)據(jù)時代的數(shù)字資源融合及其服務(wù)研究”(13YBA347)、湖南省社科基金項目“基于網(wǎng)絡(luò)鏈接分析的企業(yè)競爭情報研究”(11YBA299)、中南大學(xué)教師研究基金“專利信息計量及其可視化展示研究”(2013JSJJ058)。
文庭孝,男,教授、博士,研究方向?yàn)樾畔⒐芾砼c科學(xué)評價,通訊作者Email:wtxsomebody@163.com;李維,女,碩士生,研究方向?yàn)樾畔⒐芾怼?/p>
G35
A
2095-2171(2015)02-0079-06
10.13365/j.jirm.2015.02.079
2014-09-01)