姜浩
摘要;云計算環(huán)境下的數(shù)據(jù)管理和存儲呈現(xiàn)出異構、分布式和動態(tài)等特點,為數(shù)據(jù)處理系統(tǒng)的設計和開發(fā)帶來一定挑戰(zhàn),數(shù)據(jù)處理過程的協(xié)同是解決上述問題的有效手段。因此,面對信息爆炸式增長,以及數(shù)據(jù)處理管理、數(shù)據(jù)任務流程、數(shù)據(jù)分布管理等,更深層次的對分布式數(shù)據(jù)處理系統(tǒng)機制進行研究是必不可少的。
關鍵詞:云計算;數(shù)據(jù)處理;協(xié)同
中圖分類號:TP3 文獻標識碼:A 文章編號:1009-3044(2017)07-0030-0c
1概述
1.1什么是云計算
“云”一般用來表示互聯(lián)網(wǎng)和底層基礎設施的一種抽象說法。目前最廣為人們所接受的定義是美國國家標準與技術研究院所指出的:云計算是一種按照使用量的情況進行計費,提供便捷可用,能夠滿足用戶滿足需求的網(wǎng)絡訪問模式,這種模式下,用戶可以進入計算機的資源共享地,包括網(wǎng)絡、服務器、應用軟件、存儲數(shù)據(jù)等資源,這些資源可以快速提取使用,并且管理工作量并不大,也不需要和服務供應商進行大量的交互任務。
1.2云計算與大數(shù)據(jù)
全球人口眾多,對于網(wǎng)絡的需求量也越來越廣,若所有人使用后存儲的大數(shù)據(jù)僅用一臺計算機處理,顯然是會對系統(tǒng)造成紊亂的,這時就需要分布式計算架構。就好比一棵大樹上結滿的果實如果全在一處上必然會壓斷枝丫,但如果分散來生長,樹也能越來越繁茂,協(xié)同處理機制就剛好成為互聯(lián)網(wǎng)這棵大樹之中牽連的果實。
1.3云計算環(huán)境下的變化
1)軟件技術、架構將發(fā)生顯著變化
一方面,所開發(fā)的軟件必須與云的存儲和計算能力相適應,能夠與虛擬化資源相結合;另一方面,軟件需要滿足大量用戶的使用,能夠具有很強的安全性要求,保護用戶的隱私信息,并且可以工作于電腦終端、手機端等各種環(huán)境。
2)軟件開發(fā)的環(huán)境、工作模式變化
軟件可以在線開發(fā),工作時能夠更加敏捷更加人性化以及實現(xiàn)知識積累和重復使用。
3)軟件表現(xiàn)形式變化
基于多用戶大數(shù)據(jù)的需求,軟件開發(fā)的形式也越來越豐富,可以是服務,也可以是網(wǎng)頁,也可能是在線應用商店中的軟件等。
2海量分布式數(shù)據(jù)存儲和管理技術
需要說明的是大數(shù)據(jù)不等同于海量數(shù)據(jù),而是包括海量交易數(shù)據(jù)和海量交互數(shù)據(jù)以及海量數(shù)據(jù)處理。
2.1數(shù)據(jù)分布式存儲技術
它是指通過網(wǎng)絡來實現(xiàn)對企業(yè)中的各個機器中的磁盤空間使用,同時可以將這些分散在不同磁盤上的存儲資源集合起來構成一個虛擬的存儲設備。數(shù)據(jù)分散在企業(yè)的各個設備上又可以構成虛擬的一個數(shù)據(jù)集合。而且它具有高可用性,高可靠性,經(jīng)濟性等優(yōu)點,它能為同一份數(shù)據(jù)存儲多個副本,這就保證了數(shù)據(jù)不會輕易丟失,用戶使用效率也大大提高。比如谷歌的GFS及時分布式存儲系統(tǒng)的典型代表,其利用就是冗余存儲的方式來從而達到數(shù)據(jù)存儲的可靠性能。每份數(shù)據(jù)都在系統(tǒng)上保存著至少3個的備份,對數(shù)據(jù)的所有修改都在備份上進行,并用版本號的方式確定數(shù)據(jù)都保持著一致的狀態(tài),確保了數(shù)據(jù)及其備份的一致性。相比于傳統(tǒng)分布式文件系統(tǒng),云計算環(huán)境下的分布式數(shù)據(jù)處理協(xié)同機制有很多的優(yōu)點,當組件管理失敗時,它并不會簡單的作為異常處理,而是采用特殊的檢測和數(shù)據(jù)寫方式時在文件末尾附加數(shù)據(jù),數(shù)據(jù)流和控制流分開。
2.2數(shù)據(jù)分布式管理技術
當用戶需要導人空間數(shù)據(jù)時,它會被分配到對應的服務器提交請求,有些系統(tǒng)在內存中建立緩存,提高了最近操作過的空間數(shù)據(jù)讀取和修改的效率,并且定期調用把緩存內容寫到硬盤中,再標記回去就導入完畢文件;隨后就開始讀取數(shù)據(jù),服務器會先進行緩存,如果緩存里面沒有該數(shù)據(jù)才會去磁盤上尋找直到找出為止,而且在啟動的時候檢查是否有新的更新寫入操作,如果有更新首先會把先把這些更新寫入系統(tǒng)的高速緩存里,然后再通過調用把更新數(shù)據(jù)調用到文件中,最后服務器會把舊文件刪除,并開始給用戶提供新的訪問數(shù)據(jù)。比如矢量數(shù)據(jù)管理中,存儲格式使用ESRI Shapefile,可以將Shapefile文件看成一張表,表中的行名是幾何對象的ID,每一行存儲著一個幾何對象的要素,表中同時包含著許多的列。這些列中,最主要的是描述屬性和幾何實體的兩個列,一般而言,幾何實體通常都是安排在最后一列。還有柵格數(shù)據(jù)管理等等。
3協(xié)同計算機制
3.1協(xié)同計算模型分析
協(xié)作模型研究是協(xié)同計算研究的熱點研究之一,其中包含有群成員共同協(xié)作完成任務的模型模式,其他的還有會話模式、會議模式、過程模式、活動模式和層次模式等。其中主要有如何進行群體成員間的工作,協(xié)作時的交互工作、協(xié)作的推進和協(xié)作的結束等。從理論的角度,海量數(shù)據(jù)下的分布式計算又可分為離線計算(針對海量的,對實時性要求不是很高的數(shù)據(jù))、實時流計算、列存儲、key-value(對半結構化,非結構化數(shù)據(jù)的實時查找)等。
3.2協(xié)同計算的應用分析
在基于協(xié)同計算應用系統(tǒng)的設計中,分層管理設計、靈活調度設計和易于擴充設計是系統(tǒng)架構設計的關鍵目的所在。系統(tǒng)架構設計的實現(xiàn)方式主要有集中式、分散式和混合式三種方法。
1)集中式架構,其實質是一種客戶式的服務器系統(tǒng)架構。服務器集中管理負責整個計算機應用系統(tǒng)的控制、管理和調度,以及其他和具體計算應用相關的程序邏輯設計管理和數(shù)據(jù)管理,客戶端服務主要指的是與用戶見交互工作的輸入輸出管理。集中式協(xié)同架構實現(xiàn)簡單、易維護,但協(xié)同應用對服務器依賴性強,容易成為阻礙。
2)分散式架構,其主要是將與系統(tǒng)相關的控制和管理模塊分散在系統(tǒng)的各個客戶端中,每個節(jié)點的在協(xié)同控制系統(tǒng)里擁有同等的控制管理地位。但數(shù)據(jù)的各自處理使得全局一致性難以維護。
3)混合式結構結合了前兩種優(yōu)點,極大減輕了服務器的工作壓力,具有較好的靈活性和較短的響應時間。
因此在實際計算機應用管理的任務安排調度中,一般多采用分散式的架構設計,而在數(shù)據(jù)系統(tǒng)協(xié)同管理多采取集中式的架構管理設計,從而實現(xiàn)計算應用系統(tǒng)的混合式架構設計。
3.3海量分布式數(shù)據(jù)處理協(xié)同機制的應用架構
海量分布式數(shù)據(jù)處理協(xié)同機制的應用架構模式主要有應用接口層、執(zhí)行調度層和數(shù)據(jù)控制管理層三個層面。
其中,在調度執(zhí)行層中,任務協(xié)同調度的管理常采用集中式的處理方式,根據(jù)規(guī)則和參數(shù)對數(shù)據(jù)處理的引擎及計算算法組合資源進行調節(jié),實現(xiàn)任務分工、同步參數(shù)、數(shù)據(jù)交互的協(xié)同機制。在協(xié)同機制的環(huán)境下,協(xié)同整個數(shù)據(jù)處理的冗余備份及容錯處理的過程,采用分布式的存儲方式處理規(guī)則數(shù)據(jù)和業(yè)務數(shù)據(jù),提供協(xié)同的數(shù)據(jù)給各種數(shù)據(jù)計算處理系統(tǒng)從而達到數(shù)據(jù)訪問時各項數(shù)據(jù)之間的負載均衡的目的。分布式的數(shù)據(jù)處理機制是數(shù)據(jù)協(xié)同管理的核心,采用分布式的數(shù)據(jù)管理,建立分布式的數(shù)據(jù)庫可以讓數(shù)據(jù)在分布存儲的同時進行存儲的容錯機制,將數(shù)據(jù)協(xié)同管理組件和應用的參數(shù)數(shù)據(jù)通過應用開發(fā)的接口和平臺傳輸?shù)椒植际降臄?shù)據(jù)庫達到保存的目的。
3.4海量分布式數(shù)據(jù)的協(xié)同管理機制的應用
在云計算環(huán)境下,海量分布式數(shù)據(jù)存儲和管理與數(shù)據(jù)集中自治結合可以控制數(shù)據(jù)機制,分布管理冗余數(shù)據(jù)和事物處理,這些管理和應用一般是通過分布式數(shù)據(jù)庫進行實際操作,從用戶角度來看,對分布式數(shù)據(jù)庫的訪問過程是透明,實際上,從用戶角度看來是單個的分布式數(shù)據(jù)庫其實質是存儲在多臺計算機上的一組數(shù)據(jù)庫結合而成。背后的分布式數(shù)據(jù)庫管理系統(tǒng)有著對數(shù)據(jù)存儲、數(shù)據(jù)查詢、數(shù)據(jù)調度、數(shù)據(jù)管理等多項應用事務管理。
4小結
本文結合云計算、海量數(shù)據(jù)存儲和管理技術、協(xié)同計算機制等幾個方面闡述了分布式數(shù)據(jù)處理的探究過程以及大致原理,從實際的一些案例中可以看出海量分布式數(shù)據(jù)處理協(xié)同機制是可行有效的。