王淵
摘要:云計算是一種新型的互聯(lián)網(wǎng)應(yīng)用模式,更新了傳統(tǒng)的IT產(chǎn)業(yè),為IT產(chǎn)業(yè)的帶來更大的發(fā)展空間,隨著云計算的應(yīng)用,對大規(guī)模圖數(shù)據(jù)處理的要求越來越高,在這一背景下,需要在云計算的環(huán)境下進行大規(guī)模圖數(shù)據(jù)處理技術(shù)的研究,從而提升大規(guī)模圖數(shù)據(jù)的處理能力,該文通過對云計算的概述,在大規(guī)模圖數(shù)據(jù)處理技術(shù)中應(yīng)用云計算的優(yōu)勢,大規(guī)模圖數(shù)據(jù)處理技術(shù)中云計算的應(yīng)用三個方面進行具體的闡述,希望對未來我國基于云計算的大規(guī)模圖數(shù)據(jù)處理技術(shù)更好的發(fā)展提供可參考性建議。
關(guān)鍵詞:云計算;大規(guī)模圖數(shù)據(jù);處理技術(shù)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)34-0244-02
在計算機科學(xué)中,應(yīng)用最常見的抽象類數(shù)據(jù)結(jié)構(gòu)之一就是圖,有著比線性表更復(fù)雜的語義,也更具有表述能力。所以,對當(dāng)前的大規(guī)模圖數(shù)據(jù)處理提出了更高的要求。要實現(xiàn)對大規(guī)模圖數(shù)據(jù)處理技術(shù)的優(yōu)化,更加高效的處理大規(guī)模圖數(shù)據(jù),在云計算環(huán)境下,運用大規(guī)模圖數(shù)據(jù)處理技術(shù)是非常重要的。
1 云計算的概述
云計算的概述主要從以下兩個方面進行具體的論述:(1)云計算的核心是互聯(lián)網(wǎng),是一種類型的應(yīng)用程序,也可以將其定義為一個系統(tǒng)平臺,主要具有以下特點:虛擬化,云計算不具有實體,是一種網(wǎng)絡(luò)工具;可擴展性和通用性,云計算的功能較多,可以支持不同的程序,使得云計算具有動態(tài)伸縮性,可以滿足不同的程序的要求;高經(jīng)濟性,云計算擁有超強的容錯性,在大規(guī)模的云計算過程中,可以應(yīng)用廉價的云計算集群服務(wù)器支撐,發(fā)揮計算機的作用;(2)云計算技術(shù),為保障云計算更廣泛的應(yīng)用,研究相關(guān)的云計算技術(shù)在其應(yīng)用的過程中有著重要的作用,云計算技術(shù)主要包括:海量分布式儲存技術(shù),這一技術(shù)是云計算中最重要的儲存數(shù)據(jù)的方式,具有高安全性、高經(jīng)濟性、高可用性的特點;數(shù)據(jù)管理技術(shù),在云計算的過程中,需要對大量的數(shù)據(jù)進行分析、比較和儲存等處理,在這一過程中需要更好的管理數(shù)據(jù)避免丟失;并行編程技術(shù),在云計算的編程模式有效的運行的基礎(chǔ)之上,提高云計算的運行質(zhì)量和運行效率。
2 在大規(guī)模圖數(shù)據(jù)處理技術(shù)中應(yīng)用云計算的優(yōu)勢
根據(jù)上述中對于云計算的了解,本文將簡要論述和分析基于云計算的大規(guī)模圖數(shù)據(jù)的處理技術(shù)的優(yōu)勢:(1)便于圖數(shù)據(jù)的儲存和維護。在應(yīng)用大規(guī)模圖數(shù)據(jù)處理技術(shù)的過程中,可以處理GB級別的圖數(shù)據(jù)量,甚至可以處理PB級別的數(shù)據(jù)量,遠(yuǎn)大于傳統(tǒng)的數(shù)據(jù)內(nèi)存,使其在數(shù)據(jù)庫中不能被運用[1]。但是,在云計算的過程中,采用的是分布式的儲存方式,可以儲存大規(guī)模的數(shù)據(jù)。在云計算環(huán)境下應(yīng)用大規(guī)模圖數(shù)據(jù)處理技術(shù),可以根據(jù)需要進行數(shù)據(jù)儲存,保護數(shù)據(jù)的一致性,從而保證大規(guī)模圖數(shù)據(jù)的儲存過程中的數(shù)據(jù)安全;(2)大規(guī)模圖數(shù)據(jù)的應(yīng)用性得到提高。在云環(huán)境下,運用云計算的特點,對圖數(shù)據(jù)進行分割處理,將圖數(shù)據(jù)分割為若干小圖,便于子圖的應(yīng)用,從根本上提高圖數(shù)據(jù)的應(yīng)用效果;(3)合理處理大規(guī)模的圖數(shù)據(jù)。在技術(shù)和經(jīng)濟的角度看,云計算有更好的靈活性和伸縮性,適合處理彈性變化較大的圖數(shù)據(jù)。
3 基于云計算的大規(guī)模圖數(shù)據(jù)處理技術(shù)研究
3.1 基于云計算的圖數(shù)據(jù)存儲方式
現(xiàn)階段,進行大規(guī)模圖數(shù)據(jù)的管理過程中,比較常用的數(shù)據(jù)模型一般包括兩種,一種是單數(shù)據(jù)模型,另一種是超圖數(shù)據(jù)模型,兩者均可進行有向圖和無向圖的處理工作,區(qū)別在于存儲的格式不相同。作為大規(guī)模圖數(shù)據(jù)的存儲基礎(chǔ),云計算的分布式存儲系統(tǒng)可以劃為分布式的文件系統(tǒng)和分布式的數(shù)據(jù)庫兩種形式。前一種形式的代表為GFS、HDFS,其可以直接實現(xiàn)諸如鄰接表、矩陣等不同結(jié)構(gòu)的存儲。后一種形式的代表為Big Table、Hbase,而其中的數(shù)據(jù)庫模型直接可以劃分為文檔儲存、列族存儲、KV存數(shù)模型等。其中,文檔存儲的模型具有靈活性強、便捷度高的存儲格式,比較適用于存儲非結(jié)構(gòu)化的數(shù)據(jù)內(nèi)容;KV存儲模型則比較適用于本文中研究的大規(guī)模圖數(shù)據(jù)存儲工作,并且其具有模式簡單、支持海量存儲的優(yōu)勢。當(dāng)進行諸如Page Rank等圖數(shù)據(jù)處理工作時,KV存數(shù)模型無需經(jīng)過繁雜、重復(fù)的查詢操作,就能夠完成數(shù)據(jù)的處理工作。例如:利用KV存儲模型進行處理鄰接表形式的圖數(shù)據(jù)時,就可以將Key設(shè)定為圖數(shù)據(jù)的源頂點,將Value設(shè)定為點的值與出邊信息,該種方式比較有助于圖數(shù)據(jù)的合并與遷移處理,從而提升空間原有的局部性,進而降低數(shù)據(jù)讀取在查詢處理期間的次數(shù),最終提高數(shù)據(jù)的讀取效率。
3.2 基于云計算的圖數(shù)據(jù)分割
一般情況下,進行基于云計算的大規(guī)模數(shù)據(jù)處理工作時,都需要針對圖數(shù)據(jù)開展分布式存儲并行處理工作,主要是根據(jù)圖數(shù)據(jù)原有的連通行、圖計算的強耦合性等特征進一步提升圖數(shù)據(jù)的處理工作效率,與此同時,為了使得處理效果更加,還需要降低各個子圖數(shù)據(jù)之間的耦合度,此時,就需要實行圖分割處理方法。具體過程為:(1)在圖數(shù)據(jù)基礎(chǔ)上,分割出一個邏輯、結(jié)構(gòu)都相對完整的大圖;(2)將上述分割出來的大圖分別放置在分布式存儲系統(tǒng)的每一個節(jié)點內(nèi);(3)展開數(shù)據(jù)處理工作,換而言之,即需要對所有的子圖分別啟動與之相對應(yīng)的計算任務(wù),全部子圖數(shù)據(jù)處理完成后,即代表著整體的大圖數(shù)據(jù)處理完成。在這一圖數(shù)據(jù)處理期間,關(guān)鍵點在于對大圖的分割工作,唯有分割效果合格,才能確保整個處理過程的成功,所以,為了確保分割的效果達(dá)標(biāo),進行分割時應(yīng)該充分考慮到大圖內(nèi)部的固有連通性、子圖規(guī)模均衡性這兩種因素。另外,分割的過程中,還需要最大程度保證大圖內(nèi)部的連通性,縮小子圖之間的連通性,才能有效提升云計算分布式并行處理機制的應(yīng)用效果,同時,還需要保證子圖規(guī)模的均衡性,避免偏斜出現(xiàn)問題對云計算任務(wù)的同步性造成影響。
4 大規(guī)模圖數(shù)據(jù)處理技術(shù)中云計算的應(yīng)用
4.1 在云計算節(jié)點的可靠性方面得以提升
在傳統(tǒng)的大規(guī)模圖數(shù)據(jù)的處理過程中,需要工作人員對數(shù)據(jù)以及計算任務(wù)進行較長時間的處理,在很大程度上降低了圖數(shù)據(jù)的處理效率,也不能保證云計算節(jié)點的可靠性。例如,最常見的[PageRank]的計算過程,需要三十次的迭代處理,在計算的過程中,消耗了大量的資源和時間,針對這一問題,技術(shù)人員及相關(guān)的研究人員在已有的處理手段上加以創(chuàng)新,結(jié)合當(dāng)下非常豐富的云計算環(huán)境,總結(jié)并分析當(dāng)前階段我國傳統(tǒng)的大規(guī)模圖數(shù)據(jù)處理中存在的問題[2]。云計算節(jié)點是由普通的計算機組成的,在進行多次的處理后,會有個別的節(jié)點出現(xiàn)故障的狀況,這些突發(fā)的狀況會導(dǎo)致大規(guī)模圖數(shù)據(jù)計算中的失誤[3]。在大規(guī)模圖數(shù)據(jù)的處理技術(shù)的實踐過程中,應(yīng)用合適的位置繼續(xù)執(zhí)行處理工作,避免因云計算節(jié)點故障之后的資源浪費狀況,也在很大程度上降低了處理圖數(shù)據(jù)過程中的干擾。
4.2 圖計算的強耦合性得以實現(xiàn)
圖數(shù)據(jù)的內(nèi)部信息是相互關(guān)聯(lián)的,圖計算的過程中也是相互關(guān)聯(lián)的狀態(tài),在進行圖數(shù)據(jù)的計算過程中,在圖內(nèi)存的訪問計算過程中,傳統(tǒng)的并行計算方法的運算狀態(tài)較低,存在一定的局限性。為更好的提升圖數(shù)據(jù)計算的準(zhǔn)確性,產(chǎn)生了云計算的大規(guī)模圖數(shù)據(jù)處理技術(shù),在實踐應(yīng)用的過程中,可以實現(xiàn)對圖數(shù)據(jù)的每一項信息進行計算,并可以將所有的數(shù)據(jù)進行子圖數(shù)據(jù)的分割處理,在很大程度上提升了圖數(shù)據(jù)計算的效率。在大規(guī)模圖數(shù)據(jù)處理的過程中,可以選取相應(yīng)的圖計算模型運算規(guī)模圖數(shù)據(jù)技術(shù)的處理,在實行圖數(shù)據(jù)分割的過程中,可以在很大程度上降低子圖數(shù)據(jù)之間的耦合性,在大規(guī)模數(shù)據(jù)處理的執(zhí)行階段,采用圖計算模型計算,降低開銷,在很大程度上解決了傳統(tǒng)的大規(guī)模圖數(shù)據(jù)計算中常出現(xiàn)的水桶效應(yīng)。
5 結(jié)論
綜上所述,在云計算的背景下,基于云計算處理圖數(shù)據(jù),通過對儲存方式、分割方式以及計算模型等應(yīng)用大規(guī)模的圖數(shù)據(jù)處理技術(shù),在充分發(fā)揮技術(shù)優(yōu)勢的同時,提高大規(guī)模數(shù)據(jù)的應(yīng)用性和處理效率。因此,在云計算的背景下,合理的應(yīng)用大規(guī)模圖數(shù)據(jù)處理技術(shù)是未來的發(fā)展方向。
參考文獻(xiàn):
[1] 李海燕,歐曉勇.云計算技術(shù)在計算機數(shù)據(jù)處理中的應(yīng)用分析與發(fā)展策略[J].激光雜志,2017,38(04):80-84.
[2] 于雙紅.云計算環(huán)境下大規(guī)模圖數(shù)據(jù)處理技術(shù)的應(yīng)用研究[J].信息與電腦:理論版,2016,12(01):6-7.
[3] 劉軍,張暉.公安大數(shù)據(jù)技術(shù)應(yīng)用研究——以山東公安警務(wù)云平臺建設(shè)為例[J].警察技術(shù),2015,22(03):4-7.endprint