[摘要]本文引入了DataSpaces這一新的信息管理抽象模型,并對DataSpaces的應(yīng)用領(lǐng)域、當(dāng)前研究狀況、特征屬性、邏輯組件和服務(wù)、研究挑戰(zhàn)和前景展望進(jìn)行了介紹和闡述。
[關(guān)鍵字]數(shù)據(jù)空間 索引 個(gè)人信息系統(tǒng) 科學(xué)數(shù)據(jù)管理
一、 引言
信息技術(shù)的飛速發(fā)展使得信息成倍的增長,信息的存在形式已經(jīng)遠(yuǎn)遠(yuǎn)的脫離傳統(tǒng)的紙質(zhì)媒體,手機(jī)、數(shù)字電視、DVD、掌上設(shè)備、龐大的互聯(lián)網(wǎng)漸漸成為信息的主要載體。在現(xiàn)代生活中,信息已成為現(xiàn)代生活的重要基礎(chǔ),許多商業(yè)競爭,甚至戰(zhàn)爭都基于對信息的掌握。當(dāng)代數(shù)據(jù)有三個(gè)特點(diǎn):1.海量。數(shù)據(jù)量在以指數(shù)的趨勢迅猛增長,據(jù)保守估計(jì),目前每年全球至少將產(chǎn)生 15 億TB 的新數(shù)據(jù)產(chǎn)生。2.共享?;ヂ?lián)網(wǎng)和通訊設(shè)備的普及使人們享受在他人的數(shù)據(jù)帶來據(jù)庫之間因此也建立起越來越密切的聯(lián)系。3.多樣化?,F(xiàn)在數(shù)據(jù)已不再是在關(guān)系模式下純粹的結(jié)構(gòu)化的文本數(shù)據(jù),圖片、音頻、視頻乃至非結(jié)構(gòu)化的文檔都大量的涌入到人們應(yīng)用中來。
不可否認(rèn),關(guān)系型數(shù)據(jù)庫對于結(jié)構(gòu)化數(shù)據(jù)的管理做了不可磨滅的貢獻(xiàn),并且將為之繼續(xù)服務(wù)下去。對于不同的數(shù)據(jù)庫,我們雖然可以采用數(shù)據(jù)集成技術(shù),在保證各自的完整性和統(tǒng)一性的基礎(chǔ)上,向用戶提供統(tǒng)一的用戶訪問接口。然而,時(shí)代越來越告訴我們,我們的數(shù)據(jù)來自我們的身邊,來自點(diǎn)點(diǎn)滴滴,不再是那么幾個(gè)大的關(guān)系型數(shù)據(jù)庫所能包括。這些數(shù)據(jù)以各種形式存在著,有的是半結(jié)構(gòu)化的,有的是無結(jié)構(gòu)化的,對于這些零散紛雜存在的異構(gòu)數(shù)據(jù)源,傳統(tǒng)的關(guān)系數(shù)據(jù)庫顯得力不從心、疲于應(yīng)付,我們需要一個(gè)全新的管理方式,一種適應(yīng)我們時(shí)代發(fā)展的數(shù)據(jù)管理方式。
二、 數(shù)據(jù)管理的架構(gòu)
關(guān)系數(shù)據(jù)庫管理系統(tǒng)主要是對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲和查詢的。一個(gè)DBMS通過提供一組相關(guān)的服務(wù)確保開發(fā)者把精力都集中在來自應(yīng)用程序的挑戰(zhàn)上,而不是來自于數(shù)據(jù)存儲和查詢的處理上。然而,在上面的介紹中也提到了現(xiàn)在信息發(fā)展的情況,實(shí)際上開發(fā)人員在現(xiàn)在進(jìn)行一個(gè)項(xiàng)目的開發(fā),很少只面對僅僅一個(gè)DBMS,他們往往面對的是一組松散聯(lián)系的數(shù)據(jù)源,對于這些異構(gòu)的數(shù)據(jù)源,不得不分別的針對他們都進(jìn)行底層的與數(shù)據(jù)處理相關(guān)方面的開發(fā),這些挑戰(zhàn)包括:提供搜索和查詢的能力,規(guī)則、完整性約束、命名約定等的實(shí)施,族系追蹤,提供可用性、恢復(fù)、訪問控制的能力,管理數(shù)據(jù)和元數(shù)據(jù)的演化。這些挑戰(zhàn)廣泛存在于各大小企業(yè)、政府機(jī)關(guān)、大型科學(xué)聯(lián)合中心、圖書館、戰(zhàn)場、智能公寓等等的場所。
DBMS只是今天在數(shù)據(jù)管理上眾多解決方案的一種,DBMSs要求所有的數(shù)據(jù)都處在一個(gè)統(tǒng)一的管理區(qū)域下并遵循一個(gè)單一的數(shù)據(jù)模式。正因?yàn)檫@樣嚴(yán)格的約束,DBMSs才能為用戶提供強(qiáng)大的服務(wù)和保證,ACID便是它的能力的體現(xiàn)。表1展示數(shù)據(jù)空間與傳統(tǒng)數(shù)據(jù)庫之間的區(qū)別,他們之間最重要的區(qū)別在于傳統(tǒng)數(shù)據(jù)庫是“先有各式,后有數(shù)據(jù)”,而數(shù)據(jù)空間則是“淡化形式,凸現(xiàn)數(shù)據(jù)”。
三、 數(shù)據(jù)空間應(yīng)用的例子
1.個(gè)人信息管理系統(tǒng)(PIM)。在這樣一個(gè)充滿信息的世界中,人們生活狀態(tài)的好壞、工作效率的高低很大程度上依賴于信息處理的效率和及時(shí)性。特別是計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、web技術(shù)等的發(fā)展,為每個(gè)人提供了一個(gè)巨大的、共享的Web信息空間,使信息管理問題更加突出。除Web信息外,數(shù)據(jù)流、傳感器、數(shù)字影像、數(shù)字電器、移動(dòng)通信等技術(shù)的發(fā)展和應(yīng)用,使我們每天所面臨的信息更加豐富多樣。如何將遇到的信息及時(shí)分析、保存;如何在需要的時(shí)候快速找到所需要的信息;如何在自己忘記的時(shí)候及時(shí)得到提醒;如何在信息管理中保護(hù)自己的隱私等等,這些問題變得越來越重要,處理的好壞直接影響到我們的生活質(zhì)量和工作效率。如何解決這些問題,就引發(fā)產(chǎn)生了一個(gè)新的研究分支:個(gè)人信息管理(PIM)。
2.科學(xué)數(shù)據(jù)管理??紤]一個(gè)科學(xué)研究組織對環(huán)境進(jìn)行觀察和預(yù)測。他們可能正通過海岸和山頂天氣觀察站傳輸傳感數(shù)據(jù)和遠(yuǎn)程圖像來監(jiān)測海岸生態(tài)系統(tǒng)。另外他們還通過運(yùn)行一個(gè)氣候動(dòng)態(tài)流體模型來模擬在過去、現(xiàn)在、最近將來?xiàng)l件下的情況。因此這些計(jì)算需要導(dǎo)入來自河流監(jiān)測和大洋潮汐監(jiān)測方面的數(shù)據(jù),這些數(shù)據(jù)來自其他研究組織。模擬又會(huì)形成新的模擬的觀察數(shù)據(jù)。因此在這樣的情況下,一個(gè)科學(xué)組織經(jīng)過一些年,很容易就積聚上百萬條的數(shù)據(jù)產(chǎn)品。當(dāng)找到其中某一個(gè)文件,或許也有人知道這個(gè)文件的含義,但是絕沒有人知道所有文件以及每個(gè)文件所包含的意義。人們訪問這些數(shù)據(jù),特別是從外部組織來的,很可能搜索包含基本文件屬性的目錄,這些屬性包括時(shí)間段的覆蓋、地理區(qū)域、深度、高度和其它一些物理變量。某一需要的數(shù)據(jù)產(chǎn)品一旦被找到,相關(guān)族系的文件也將被拿出來分析:哪一個(gè)版本的數(shù)據(jù)被使用?哪一個(gè)是有限的單元格?同步的時(shí)間步驟要多長?哪一個(gè)氣候數(shù)據(jù)集被用于導(dǎo)入?
因此,這個(gè)科學(xué)組織需要建立一個(gè)跨越地區(qū)和國別的科學(xué)聯(lián)合的數(shù)據(jù)空間。他們能夠輕松的導(dǎo)出標(biāo)準(zhǔn)科學(xué)數(shù)據(jù)格式的數(shù)據(jù)。在查詢數(shù)據(jù)時(shí)不再需要在一堆相關(guān)文件中去反復(fù)比較,因?yàn)橐呀?jīng)建立整個(gè)數(shù)據(jù)空間內(nèi)的整合。并且科學(xué)數(shù)據(jù)空間的數(shù)據(jù)源除了本地存儲外還提供供快速搜索用的緩存索引。
四、 數(shù)據(jù)空間的邏輯組件和服務(wù)
一個(gè)數(shù)據(jù)空間應(yīng)該包含與一個(gè)特定組織相關(guān)的所有信息,而不管他們的格式和位置,而且在這些數(shù)據(jù)存儲的單元之間有一組充分的聯(lián)系。所以數(shù)據(jù)空間是由成員和聯(lián)系構(gòu)成的。
1.目錄和瀏覽
目錄包含數(shù)據(jù)空間內(nèi)所有的成員和成員間關(guān)系的信息。目錄能夠包含大量多樣化的數(shù)據(jù)源不同層次的關(guān)于數(shù)據(jù)源的結(jié)構(gòu)和容量的信息。特別是對于每一個(gè)數(shù)據(jù)源,目錄應(yīng)該包含該數(shù)據(jù)源的模式、統(tǒng)計(jì)信息、變換率、準(zhǔn)確性、完整性、反饋查詢的能力、數(shù)據(jù)源所有權(quán)和訪問隱私政策。關(guān)系同樣應(yīng)該被存儲包括:查詢轉(zhuǎn)換、依賴圖,甚至還有文本描述。
2.搜索和查詢
這個(gè)組件要具有以下幾個(gè)方面的能力:
(1)查詢一切。用戶能夠查詢?nèi)魏螖?shù)據(jù)項(xiàng)而不管數(shù)據(jù)的格式和數(shù)據(jù)所屬的模式。
(2)結(jié)構(gòu)化查詢。類似于傳統(tǒng)關(guān)系數(shù)據(jù)庫的結(jié)構(gòu)化查詢,能夠被一個(gè)通用的接口(中間模式)所支持,從而應(yīng)用于具有多個(gè)數(shù)據(jù)源的數(shù)據(jù)空間之上,當(dāng)然也能應(yīng)用于其中某一個(gè)具有某種特定模式的成員數(shù)據(jù)源上。查詢能夠以多種語言(潛在的數(shù)據(jù)模型)提出,然后通過盡可能好、準(zhǔn)確和近似的語義匹配,從而生成適應(yīng)于其他數(shù)據(jù)模型的查詢語言。
(3)元數(shù)據(jù)查詢
3.本地存儲和索引
DSSP的存儲和索引組件主要是為了下列目的:
(1)在不同成員的數(shù)據(jù)對象間建立有效的可查詢的聯(lián)系;(2)增進(jìn)對限定訪問模式的數(shù)據(jù)源的訪問;(3)使得能夠反饋一些查詢而不需要訪問實(shí)際的數(shù)據(jù)源;(4)支持高可用性和數(shù)據(jù)恢復(fù)。
4.發(fā)現(xiàn)組件
發(fā)現(xiàn)組件用來在數(shù)據(jù)空間中增加成員,建立成員間的關(guān)系,幫助管理員提煉和加緊這些關(guān)系。增加組件可以從一個(gè)目錄結(jié)構(gòu)的根部開始進(jìn)行遍歷,試圖增加企業(yè)網(wǎng)絡(luò)中的所有數(shù)據(jù)庫。發(fā)現(xiàn)組件應(yīng)該在最初根據(jù)成員的類型和內(nèi)容進(jìn)行分類。一旦成員被發(fā)現(xiàn),系統(tǒng)應(yīng)該提供一個(gè)半自動(dòng)建立關(guān)系和促進(jìn)維持成員間關(guān)系的環(huán)境。這涉及到那一對成員存在互相聯(lián)系的關(guān)系,然后提出關(guān)系(模式匹配、復(fù)制、容納關(guān)系)被人們提煉和驗(yàn)證。發(fā)現(xiàn)組件需要監(jiān)控?cái)?shù)據(jù)空間的內(nèi)容,隨時(shí)提出補(bǔ)充建立成員間的關(guān)系。
5.數(shù)據(jù)源擴(kuò)展組件
某些個(gè)數(shù)據(jù)源可能缺少一些重大的數(shù)據(jù)管理的功能。有一個(gè)數(shù)據(jù)源,可能是一個(gè)部門的文檔,它可能除了每個(gè)星期備份一次以外就不提供其它的功能服務(wù)了。DSSP應(yīng)該能夠浸透這樣一個(gè)數(shù)據(jù)成員,對它提供額外的功能:模式、目錄、恢復(fù)、關(guān)鍵字搜索和更新監(jiān)控。注意在原處提供這些擴(kuò)展是必須的,因?yàn)楝F(xiàn)存的應(yīng)用程序和工作平臺假設(shè)這當(dāng)前的格式和目錄結(jié)構(gòu)。
五、 小結(jié)
數(shù)據(jù)空間面向的是真正的“數(shù)據(jù)”,不再是眾多數(shù)據(jù)中的一部分了。這在理論上確實(shí)是數(shù)據(jù)管理的一場革命,它將繼承已有的各種數(shù)據(jù)管理模型和方法,將各種異構(gòu)的數(shù)據(jù)源置于統(tǒng)一的調(diào)控之下,無疑這將大大便利人們的數(shù)據(jù)的獲取和管理,減少大量的重復(fù)勞動(dòng)。然而我們也看到,數(shù)據(jù)空間是一個(gè)新生物種,還存在眾多的缺陷,需要我們不懈的努力,或許在幾十年之后,明日的DSSP就是今日的DBMS。
參考文獻(xiàn)
[1]Michael Franklin, Alon Halevy, David Maier. From Databases to Dataspaces: A New Abstraction for Information Management. To Appearin ACMSIGMOD Record, 2005.
[2]孟小峰.從數(shù)據(jù)庫到數(shù)據(jù)空間,從服務(wù)于企業(yè)到服務(wù)于大眾[R].中國人民大學(xué)信息學(xué)院網(wǎng)絡(luò)與移動(dòng)數(shù)據(jù)管理實(shí)驗(yàn)室