• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    云計算與云數(shù)據(jù)管理

    2010-06-11 11:03:42周奇年陳玲玲
    電信科學 2010年1期
    關鍵詞:副本分塊數(shù)據(jù)管理

    周奇年 ,陳玲玲 ,李 革

    (1.浙江理工大學信息電子學院 杭州 310018;2.浙江理工大學機械與控制學院 杭州 310018)

    1 引言

    近年來,由于數(shù)據(jù)的快速增長以及用戶對計算機計算能力的要求越來越高,如何提高普通計算機快速處理復雜問題的能力變成了一個極其重要的問題,為此,云計算應運而生。云計算能夠改變普通用戶使用計算機的模式,為用戶提供按需分配的計算能力、存儲能力及應用服務能力,目的是方便用戶,大大降低用戶的軟、硬件采購費用[1]。

    云計算中的“云”就是指計算機群,每一個機群都包括幾十萬臺甚至上百萬臺計算機。在云計算中,用戶所處理的數(shù)據(jù)并不存儲在本地,而是存儲在“云端”,所需的應用程序并不是運行在個人計算機上,而是運行在“云端”。用戶可以通過任意一臺連接到互聯(lián)網(wǎng)的終端來訪問 “云”中的數(shù)據(jù)以及使用“云”中的應用軟件,而不必依賴某一臺特定的計算機來訪問處理自己的數(shù)據(jù)。云計算的應用無疑給我們的生活帶來了許多方便,我們不會再有由于硬盤壞損、斷電等造成資料丟失的困擾,也不用擔心計算機病毒,因為“云”會為我們存儲數(shù)據(jù),并且將數(shù)據(jù)備份到不同的機架上,在“云”端有專業(yè)人員對應用程序進行維護升級。但是,由此帶來的一些信息安全問題,我們也不能忽視,處理不好就會阻礙云計算的發(fā)展。

    近年來,各知名IT企業(yè)都在大力開發(fā)和推進云計算,如IBM推出的 “藍云”計劃,亞馬遜推出的彈性計算云(EC2)服務,Google推出Google Apps的企業(yè)服務平臺等。目前,初步的云計算產(chǎn)品已經(jīng)投入使用,但云計算還處在發(fā)展階段,各項技術還不夠成熟。

    2 云計算的概念

    云計算沒有統(tǒng)一的定義,不同的企業(yè)可根據(jù)自己強調(diào)的云計算服務模式而給出不同的定義,但是云計算的最終目的還是服務用戶。下面給出一種云計算的定義:云計算是由一系列可以動態(tài)升級和被虛擬化的資源組成,這些資源被所有云計算的用戶共享,并且可以方便地通過網(wǎng)絡訪問,用戶無需掌握云計算的技術,只需要按照個人或者團體的需要租賃云計算的資源[2]。在云計算中,用戶通過虛擬平臺來使用網(wǎng)絡資源、計算資源以及存儲資源等,這就相當于在操作自己的計算機。

    云計算是對分布式處理、并行處理、網(wǎng)格計算及分布式數(shù)據(jù)庫的改進處理,其前身是利用并行計算,解決大型文體的網(wǎng)格計算和將計算資源作為可計量的服務提供的功用計算,是在互聯(lián)網(wǎng)寬帶技術和虛擬化技術高速發(fā)展后萌生出來的[3]。云計算可為我們提供眾多的服務,如SaaS(軟件即服務)、PaaS(平臺即服務)以及 MSP(管理服務提供商)等,這些服務都可使得用戶更加專注于自己的創(chuàng)新,而不必擔心一些繁瑣的細節(jié),極大地降低了成本。

    3 兩種典型的云數(shù)據(jù)管理技術

    云計算的特點是要求云數(shù)據(jù)管理技術必須能管理大數(shù)據(jù)集,使得云數(shù)據(jù)管理具有一些共同的特點,如:計算資源的可伸縮性、數(shù)據(jù)具有備份以及數(shù)據(jù)存儲在大量的分布節(jié)點上等。

    3.1 BigTable技術

    現(xiàn)行最著名的云數(shù)據(jù)管理技術是Google提出的BigTable技術。 BigTable是建立在GFS、Scheduler、LockService和MapReduce之上的一個大型的分布式數(shù)據(jù)庫,它將所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來結(jié)構(gòu)化數(shù)據(jù)。Google給出了如下定義:“BigTable是一種為了管理結(jié)構(gòu)化數(shù)據(jù)而設計的分布式存儲系統(tǒng),這些數(shù)據(jù)可以擴展到非常大的規(guī)模,例如在數(shù)千臺商用服務器上的達到PB (Petabytes)規(guī)模的數(shù)據(jù)[4]?!爆F(xiàn)在,有很多Google的應用程序建立在BigTable之 上 ,例 如 Web Indexing、Personalized Search、Google Earth、Orkut和RSS 閱讀器等。

    從結(jié)構(gòu)上看,BigTable是一個有序、稀疏、多維度的映射表,在設計上具備很好的伸縮性以及高可用性等特點。主要包含三個基本元素,即行(row)、列(column)和時間戳(timestamps)。行是劃分BigTable內(nèi)容的標準,同時將多個行組成一個小表,保存到某一個服務器節(jié)點中,這一個小表就被稱為Tablet;列名具有兩層結(jié)構(gòu),即family:optional_qualifier,family是一個訪問控制單元,與數(shù)據(jù)類型有關,為了增強可讀性,optional_qualifier是在有必要時增加的索引;時間戳用來存儲數(shù)據(jù)的不同版本。BigTable管理數(shù)據(jù)的存儲結(jié)構(gòu)為:(row:string,column:string,time:int64)→string。BigTable 中的數(shù)據(jù)模型如圖1所示。

    BigTable的實現(xiàn)主要由3個部分組成,即一個鏈接到每個客戶端的庫、一個主服務器和多個Tablet服務器。主服務器主要負責給Tablet服務器分配任務并使其達到負載平衡,探測Tablet服務器的添加或終結(jié)狀態(tài)以及垃圾回收等。Tablet服務器可以被動態(tài)地添加或刪除。每個Tablet服務器管理10到1 000個Tablet,它負責處理Tablet的讀寫請求,并將非常大的Tablet進行分割,以滿足需要。在實現(xiàn)的過程中,客戶端數(shù)據(jù)并不通過主服務器,而是直接與Tablet服務器進行交互。事實上,大部分的客戶端并不與主服務器進行交互,而使得主服務器的負載很輕。

    BigTable利用三層模型來存儲Tablet的位置信息,如圖2所示。

    其中,Chubby中存儲著Root tablet的位置信息,Root table中存儲著Metadata tables中所有Tablet的位置信息,Root tablet是Metadata tables中的第一個表,且不會被分割,Metadata tables中存儲著許多User Table的位置信息。因此,當用戶讀取數(shù)據(jù)時,需先從Chubby中讀取Root tablet的位置信息,然后逐層往下讀取,直至找到所需數(shù)據(jù)為止。

    BigTable在執(zhí)行任務時,在任意時刻每個Tablet只被分配到一個Tablet服務器,主服務器對Tablet服務器的活動狀態(tài)進行監(jiān)控,及時處理出現(xiàn)故障的服務器,同時也對未分配任務的記錄板進行監(jiān)控,并且清楚地知道當前Tablet服務器對Tablet的分配情況,以調(diào)節(jié)Tablet服務器的負載平衡。

    3.2 Hadoop技術

    Hadoop主要包括兩個部分:Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)和MapReduce編程模型。Hadoop設計時有以下幾點的假設:服務器失效是正常的,存儲和處理的數(shù)據(jù)是海量的,文件不會被頻繁寫入和修改,機柜內(nèi)的數(shù)據(jù)傳輸速度大于機柜間的數(shù)據(jù)傳輸速度,在海量數(shù)據(jù)的情況下移動計算比移動數(shù)據(jù)更有效[1]。Hadoop文件系統(tǒng)的整體結(jié)構(gòu)如圖3所示。

    由圖3可知,HDFS是由一個Namenode(命名節(jié)點)和多個Datanode(數(shù)據(jù)節(jié)點)組成的。Namenode存儲著文件系統(tǒng)的元數(shù)據(jù),它的作用就像是文件系統(tǒng)的總指揮,維護文件系統(tǒng)命名空間、規(guī)范客戶對于文件的存取和提供對于文件目錄的操作;Datanode中存儲著實際的數(shù)據(jù),負責管理存儲結(jié)點上的存儲空間和來自客戶的讀寫請求。Datanode也執(zhí)行塊創(chuàng)建、刪除和來自Namenode的復制命令。

    由于Hadoop將服務器失效看成是一種常態(tài),因此,在大多數(shù)情況下,數(shù)據(jù)會有3個副本:HDFS采用的副本存放策略是將一個副本存儲在本地機架的一個節(jié)點上,一個副本存儲在同一機架的不同節(jié)點上,最后一個副本存儲在不同機架的一個節(jié)點上。由于機架的錯誤遠遠比節(jié)點的錯誤少,這個策略不會影響到數(shù)據(jù)的可靠性和有效性。三分之一的副本在一個節(jié)點上,三分之二在一個機架上,其他保存在剩下的機架中,這一策略最大限度地避免了數(shù)據(jù)丟失及在節(jié)點失效后的恢復。在執(zhí)行任務時,主節(jié)點會不斷地通過心跳檢測監(jiān)控子節(jié)點的狀態(tài),并對子節(jié)點進行管理。

    Hadoop在對數(shù)據(jù)處理上采用的是計算向存儲遷移的策略,在Hadoop中由于有HDFS文件系統(tǒng)的支持,數(shù)據(jù)是分布存儲在各個節(jié)點的,計算時各節(jié)點讀取存儲在自己節(jié)點上的數(shù)據(jù)進行處理,或?qū)⒂嬎氵w移到距離數(shù)據(jù)更近的位置,而不是將數(shù)據(jù)移動到應用程序運行的位置,從而避免了大量數(shù)據(jù)在網(wǎng)絡上的傳遞,實現(xiàn)了“計算向存儲遷移”。

    4 云數(shù)據(jù)管理技術所要注意的問題

    在云計算中,數(shù)據(jù)首先遇到的是數(shù)據(jù)分類問題,數(shù)據(jù)分類是將數(shù)據(jù)標志為是否需要分割存儲的數(shù)據(jù)類型,如需分割,則將數(shù)據(jù)進行分割存儲,分割信息存儲在一個表中,分割的小數(shù)據(jù)塊進行復制,存儲在系統(tǒng)的不同地方。當有任務時,將分割的數(shù)據(jù)塊進行整合,且計算向存儲遷移,數(shù)據(jù)不需要在網(wǎng)絡中傳送,若正在執(zhí)行任務的數(shù)據(jù)塊的服務器損壞,則計算很快地被遷移到該數(shù)據(jù)塊副本所在的服務器,如此循環(huán),直至完成任務,系統(tǒng)匯總后將計算結(jié)果反饋給用戶。具體過程如圖4所示。

    由此可知,在云計算中,對數(shù)據(jù)的主要操作有分類、分塊、計算與存儲,下面分別介紹數(shù)據(jù)副本的存放策略、文件的分塊以及數(shù)據(jù)的隔離技術。

    圖4 數(shù)據(jù)在云計算中的“旅程”

    4.1 數(shù)據(jù)副本的存放策略

    由于在同一個云計算系統(tǒng)中存在著不同類型的客戶(企業(yè)和個人)。不同用戶對數(shù)據(jù)安全性的要求不一樣,而且支付能力也不同,因此要求云計算系統(tǒng)能為不同用戶提供不同級別的數(shù)據(jù)安全保障。可將計算機文件的安全級別劃分為幾個等級,如單機級、跨服務器級、跨機柜級以及跨數(shù)據(jù)中心級[1]。對于未實行分塊存儲的小型文件,可以考慮采用安全級別不高的單機級存儲安全策略;而對于安全性要求高的文件,可以采用跨機柜級甚至是跨數(shù)據(jù)中心級的存儲安全策略。采用何種安全級別,需根據(jù)用戶對數(shù)據(jù)的不同要求而定,這體現(xiàn)了云計算按需服務的理念。

    4.2 文件的分塊技術

    何時該對文件進行分塊存儲以及怎樣分塊,需由文件的上傳和下載速度決定。對于小文件以及頻繁存取的數(shù)據(jù),我們可以不考慮分塊,因為分塊存儲后反而會使系統(tǒng)的效率大大降低。文件實現(xiàn)分塊存儲的原因主要是利用各硬盤的讀取速度,提高總體讀取數(shù)據(jù)的速度,減少讀取數(shù)據(jù)的時間。文件分塊運算的地點是集群主服務器,由主服務器來維護文件的分塊策略。

    4.3 數(shù)據(jù)的隔離技術

    在云計算中,數(shù)據(jù)都處于共享的環(huán)境中,在同一時刻,可能有許多用戶在共享著同樣的資源,要使這些用戶在云計算平臺中獨立地運行而不出現(xiàn)數(shù)據(jù)和計算的交叉,數(shù)據(jù)的隔離技術顯得至關重要。在云計算應用中,采用一種目錄映射的單向指針分層用戶隔離的方法,即通過設置文件目錄同一層和不同層節(jié)點的訪問權限來達到數(shù)據(jù)隔離的目的。

    5 云數(shù)據(jù)管理展望

    在云計算這種新型的商業(yè)模式下,公司和個人都可以進行存儲空間和計算能力的租借,只需要一個簡單的終端,而不需耗費大量的投資去構(gòu)造和準備大規(guī)模的計算機設備。現(xiàn)有的存儲系統(tǒng)和數(shù)據(jù)庫系統(tǒng)都存在著缺陷,如擴展性不好、成本高等,因此,如何有效地存儲和分析大規(guī)模的數(shù)據(jù),如何在海量數(shù)據(jù)中找到特定的數(shù)據(jù),變成了一個很有挑戰(zhàn)性的技術問題,迫切需要新一代的云存儲和云數(shù)據(jù)管理系統(tǒng)。同時,由于云存儲和云數(shù)據(jù)管理通常要面臨多種不同的應用,還需針對各種應用分別做出優(yōu)化,可以說,云計算和云數(shù)據(jù)管理技術還有很長的路要走。

    6 結(jié)束語

    云計算具有廣闊的應用前景、海量的存儲、高速的計算和數(shù)據(jù)安全等特點,這些也是云計算在今后的發(fā)展中需要努力的方向。云計算根據(jù)按需服務的理念而設計,必將得到更大的發(fā)展。

    1 王鵬.云計算的關鍵技術與應用示例.北京:人民郵電出版社,2010

    2 云計算和云數(shù)據(jù)管理中面臨的挑戰(zhàn),http://cloud.it168.com/a2010/0428/879/000000879838.shtml,2010

    3 王鵬.走進云計算.北京:人民郵電出版社,2009

    4 陳全,鄧倩妮.云計算及其關鍵技術.計算機應用,2009,29(9):2 562~2 567

    5 Chang F,Dean J,Ghemawat S,et al.BigTable:a distributed storage system forstructured data.ACM Transactions on Computer Systems,2008,26(2):1~26

    6 Dean J,Ghemawat S.MapReduce: simplified data processing on large clusters.In:Proceedings of the 6th Symposium on Operating System Design and Imp Lementation.New York ACM Press,2004

    7 Apache Hadoop,http://hadoop.apache.org,2009

    8 曹強,黃建忠,萬繼光等.海量網(wǎng)絡存儲系統(tǒng)原理與設計.武漢:華中科技大學出版社,2010

    9 孫少陵,羅治國,徐萌等.云計算及應用的研究與實現(xiàn).電信工程技術與標準化,2009(11):2~7

    10 葛慧.云計算的信息安全.硅谷,2009(2):42~43

    猜你喜歡
    副本分塊數(shù)據(jù)管理
    企業(yè)級BOM數(shù)據(jù)管理概要
    定制化汽車制造的數(shù)據(jù)管理分析
    海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
    CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
    分塊矩陣在線性代數(shù)中的應用
    面向流媒體基于蟻群的副本選擇算法①
    副本放置中的更新策略及算法*
    反三角分塊矩陣Drazin逆新的表示
    基于自適應中值濾波的分塊壓縮感知人臉識別
    基于多分辨率半邊的分塊LOD模型無縫表達
    乐清市| 达尔| 鄂尔多斯市| 霍林郭勒市| 长治县| 沐川县| 开化县| 阳东县| 兴海县| 霍城县| 卢龙县| 仁怀市| 农安县| 灌南县| 英德市| 利津县| 云林县| 潜江市| 富裕县| 荥阳市| 宣武区| 嘉峪关市| 行唐县| 万山特区| 皋兰县| 海兴县| 土默特右旗| 西峡县| 高碑店市| 苍南县| 淳安县| 银川市| 金堂县| 农安县| 龙川县| 山阴县| 天祝| 彩票| 北碚区| 通河县| 泾川县|