李明++馬梅娟++禹偉
摘要:網(wǎng)格是當(dāng)今信息社會(huì)一種基礎(chǔ)的網(wǎng)絡(luò)設(shè)施,它的功能是實(shí)現(xiàn)互聯(lián)網(wǎng)上所有資源的互聯(lián)互通,把物理上分散在各地的服務(wù)器聯(lián)合成一個(gè)抽象的整體,并轉(zhuǎn)化成一種隨手可得、統(tǒng)一標(biāo)準(zhǔn),并且經(jīng)濟(jì)上可行的能力。隨著時(shí)代發(fā)展,同時(shí)具有海量的數(shù)據(jù)規(guī)模、迅捷的數(shù)據(jù)傳輸、復(fù)雜多樣的數(shù)據(jù)類型和價(jià)值密度低為主要特征的大數(shù)據(jù)如雨后春筍般出現(xiàn),而網(wǎng)格恰恰提供了這樣一種平臺(tái),能提供身份授權(quán)識(shí)別、多數(shù)據(jù)資源的分配共享、進(jìn)程動(dòng)態(tài)調(diào)度。
關(guān)鍵詞:大數(shù)據(jù);網(wǎng)格服務(wù);大數(shù)據(jù)資源
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)07-0014-02
隨著大數(shù)據(jù)時(shí)代的到來(lái),各種應(yīng)用數(shù)據(jù)存儲(chǔ)的不斷增大。在生物計(jì)算、天文研究、天氣預(yù)報(bào)等科學(xué)研究領(lǐng)域,涉及的文件數(shù)量甚至達(dá)到TB或者PB量級(jí),如何減少訪問時(shí)間和提高訪問的效率,在普通網(wǎng)絡(luò)環(huán)境下對(duì)同時(shí)具有海量的數(shù)據(jù)規(guī)模、迅捷的數(shù)據(jù)傳輸、復(fù)雜多樣的數(shù)據(jù)類型和價(jià)值密度低為主要特征的大數(shù)據(jù)進(jìn)行訪問、并集成到應(yīng)用工作流變成一種不堪重負(fù)的包袱。當(dāng)要使用分析這些Big Data Source時(shí),用來(lái)進(jìn)行數(shù)據(jù)查詢、訪問和集成的數(shù)據(jù)結(jié)構(gòu)機(jī)制不再適應(yīng)現(xiàn)實(shí)工作的需要,出現(xiàn)了一些應(yīng)用系統(tǒng)一直處于超負(fù)荷狀態(tài),數(shù)據(jù)信息之間的交換和硬件資源的共享也存在缺陷,有些軟件和硬件資源得不到有效的應(yīng)用。本文通過設(shè)計(jì)新型層次結(jié)構(gòu)模型和訪問通道,較好的屏蔽底層計(jì)算處理的復(fù)雜性,更好的實(shí)現(xiàn)對(duì)大數(shù)據(jù)、海量數(shù)據(jù)的快速訪問和存儲(chǔ)。
1 構(gòu)建網(wǎng)格環(huán)境下的數(shù)據(jù)庫(kù)系統(tǒng)
網(wǎng)格[3]是作為當(dāng)今信息社會(huì)最基本的一種基礎(chǔ)網(wǎng)絡(luò)設(shè)施,能把物理上分散在不同區(qū)域的服務(wù)器聯(lián)合成一個(gè)抽象的整體,并轉(zhuǎn)化成一種隨手可得、統(tǒng)一標(biāo)準(zhǔn),并且經(jīng)濟(jì)上可行的能力。它支持身份授權(quán)識(shí)別、多數(shù)據(jù)資源的分配共享、進(jìn)程動(dòng)態(tài)調(diào)度。
構(gòu)建在網(wǎng)格中應(yīng)用數(shù)據(jù)庫(kù)系統(tǒng)[1],需要設(shè)計(jì)提供一個(gè)中間件,各種不同的應(yīng)用管理系統(tǒng)包裝成不同的Grid Service[1],方便網(wǎng)格應(yīng)用存取網(wǎng)格數(shù)據(jù)庫(kù),并根據(jù)數(shù)據(jù)的訪問標(biāo)準(zhǔn),設(shè)計(jì)出統(tǒng)一調(diào)度使用的數(shù)據(jù)接口(Data Interface),提供用統(tǒng)一方式來(lái)命名的關(guān)系數(shù)據(jù)庫(kù)、XML數(shù)據(jù)庫(kù)和文件數(shù)據(jù)庫(kù)中數(shù)據(jù)資源,提高了數(shù)據(jù)庫(kù)訪問的速度和效率。
2 數(shù)據(jù)訪問方式的新型層次結(jié)構(gòu)方案設(shè)計(jì)
從系統(tǒng)應(yīng)用的角度來(lái)看,網(wǎng)格環(huán)境下的大數(shù)據(jù)資源共享由網(wǎng)格數(shù)據(jù)服務(wù)(Grid Data Service)[1]為基礎(chǔ),最底層由SQL Server、Oracle、計(jì)算機(jī)等網(wǎng)絡(luò)硬件資源,第二層由相關(guān)各種應(yīng)用系統(tǒng)數(shù)據(jù)庫(kù)、文件系統(tǒng)等數(shù)據(jù)資源組成;第三層是實(shí)現(xiàn)海量大數(shù)據(jù)資源共享功能的關(guān)鍵,該層對(duì)外提供的服務(wù),都是由上一層GDS接口來(lái)對(duì)外發(fā)布。第四層是資源服務(wù)層及匯集層,能提供網(wǎng)格數(shù)據(jù)服務(wù)(Grid Data Service,GDS)[3]、網(wǎng)格數(shù)據(jù)仲裁服務(wù)(Grid Data Mediation Service,GDMS)[3] 、網(wǎng)格虛擬數(shù)據(jù)服務(wù)(Grid Virtual Data Service,GVDS)[3]及副本選擇,第五層應(yīng)用層為用戶提供高級(jí)的抽象服務(wù),實(shí)現(xiàn)大數(shù)據(jù)資源的共享和查詢,具體的網(wǎng)格環(huán)境下大數(shù)據(jù)訪問方式服務(wù)模型如下。
1)構(gòu)造層:新型層次結(jié)構(gòu)的最底層是以SQL Server、Oracle、計(jì)算機(jī)等位基本組成元素,為數(shù)據(jù)快速訪問提供物理資源保證。
2)資源層:該層由各種Application System Database和File System等組成,這些Big Data Resource都統(tǒng)一定位為抽象資源,具有獨(dú)立、不同形式的訪問方式。
3)接口層:該層主要是對(duì)各種訪問Grid Servers接口進(jìn)行描述,為用戶提供統(tǒng)一的訪問的大數(shù)據(jù)資源(Big Data Resource)接口,它包括各種不同應(yīng)用系統(tǒng)提供的接口。
4)資源管理服務(wù)層:本層功能是管理多個(gè)BDR,提供數(shù)據(jù)訪問和副本管理功能。包括GDS、網(wǎng)格數(shù)據(jù)仲裁服務(wù)(Grid Data Mediation Service,GDMS)[3],網(wǎng)格虛擬數(shù)據(jù)服務(wù)(Grid Virtual Data Service,GVDS)[2-3]。
5)用戶應(yīng)用層:第五層是與BDR共享應(yīng)用最為密切相關(guān)的一層,其核心作用是為客戶端提供更高級(jí)的抽象服務(wù),并且根據(jù)客戶端需求,通過GDS接口層向網(wǎng)格服務(wù)層提出查詢請(qǐng)求,查詢到滿足請(qǐng)求的結(jié)果并返給客戶端,更好的實(shí)現(xiàn)數(shù)據(jù)資源及相關(guān)數(shù)據(jù)資源間查詢和共享。
3 訪問速度提高解決方案
為了實(shí)現(xiàn)對(duì)BDR透明、開發(fā)的管理,快速訪問數(shù)據(jù)資源接口,每次運(yùn)行都需要不斷地重復(fù)讀取和連接BDR,造成用戶要訪問該BDR時(shí),雖然BDR空閑然而數(shù)據(jù)連接卻經(jīng)濟(jì)被占用,造成了BDR 已經(jīng)被使用的現(xiàn)象,影響了整個(gè)數(shù)據(jù)庫(kù)的服務(wù)和運(yùn)行性能,形成了BDR訪問效率不高的現(xiàn)象,這個(gè)問題可以通過Cache technology得到有效的解決。
在絕大多數(shù)不相同技術(shù)環(huán)境條件下,BDR的用盡,并不是由于應(yīng)用的正常負(fù)載過高,而是在于其他不同數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)使用共同一個(gè)資源的原因。在BDR之間的傳遞和共享過程中,BDR大部分是主要環(huán)節(jié)資源,各種不同的應(yīng)用系統(tǒng)都會(huì)使用相同的BDR,假設(shè)某個(gè)應(yīng)用用光了全部的BDR后,意味著其他的應(yīng)用程序也無(wú)法有效的進(jìn)行工作。在現(xiàn)在的OGSA-DAI數(shù)據(jù)存取和集成(Open Grid Services Architecture-Data Access and Integration)[1,3]集成中間件中,并沒有設(shè)置對(duì)不同數(shù)據(jù)庫(kù)進(jìn)行連接和訪問的緩沖區(qū),只提供了對(duì)關(guān)系型數(shù)據(jù)庫(kù)和XML數(shù)據(jù)庫(kù)的直接連接接口。在OGSA-DAI集成中間件[2]在網(wǎng)格數(shù)據(jù)服務(wù)組件支持下實(shí)現(xiàn)對(duì)BDR的控制,如果我們?cè)贕rid Data Service的讀取數(shù)據(jù)端建立一條訪問通道,就可以實(shí)現(xiàn)對(duì)BDR的控制,并有效提升訪問的速度和利用空閑的數(shù)據(jù)資源。具體方法如下:
1)我們通過繼續(xù)保留使用原來(lái)Grid service訪問數(shù)據(jù)源的通道。
2)在獲取該BDR的通道上,我們需要開辟一條虛擬的指向數(shù)據(jù)連接緩存的通道。
3)連接緩存區(qū)一邊指向BDR服務(wù),一邊指向其他不同的Physical Data Resource。
4)我們?cè)O(shè)計(jì)的通道間構(gòu)成“并聯(lián)”的關(guān)系,能有效提升訪問速度。
5)訪問不同數(shù)據(jù)源時(shí),可首先訪問Data source connection cache,只有當(dāng)緩存池中“數(shù)據(jù)連接”查詢不到或者不存在時(shí),才能直接查找Application DB信息。
6)對(duì)BDR數(shù)據(jù)訪問結(jié)束后,保存數(shù)據(jù)連接并進(jìn)入緩沖池,以獲取對(duì)緩存池中短時(shí)間沒有運(yùn)行過或剛剛被關(guān)閉的BDR的訪問,通過這種訪問方式,極大提升了對(duì)BDR使用效率,訪問方式如下圖所示:
4 發(fā)展展望
網(wǎng)格環(huán)境下對(duì)大數(shù)據(jù)存儲(chǔ)、管理和分析存在諸多挑戰(zhàn),其中大數(shù)據(jù)存儲(chǔ)和訪問已成為數(shù)據(jù)研究的熱點(diǎn)方向之一。如何在網(wǎng)格環(huán)境下,提升大數(shù)據(jù)訪問的速度和準(zhǔn)備高效的應(yīng)用分析能力是數(shù)據(jù)管理的關(guān)鍵問題。本文針對(duì)大數(shù)據(jù)進(jìn)行分析,提出了一種新型的層次結(jié)構(gòu)模型和數(shù)據(jù)訪問速度提升的方法,提升強(qiáng)大的海量數(shù)據(jù)處理能力,有效解決數(shù)據(jù)龐大、數(shù)據(jù)不精確帶來(lái)的諸多問題。
參考文獻(xiàn):
[1] 李明. 網(wǎng)格中機(jī)構(gòu)代碼數(shù)據(jù)訪問方式的研究與實(shí)現(xiàn)[D]. 東營(yíng): 中國(guó)石油大學(xué), 2010.
[2] 毛華堅(jiān). 云環(huán)境中的移動(dòng)文件存儲(chǔ)和時(shí)空數(shù)據(jù)分析關(guān)鍵技術(shù)研究[D]. 北京: 國(guó)防科技大學(xué), 2013.
[3] 公劍. 基于網(wǎng)格的異構(gòu)數(shù)據(jù)訪問與集成的研究與實(shí)現(xiàn)[D]. 上海: 上海大學(xué), 2006.