• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)分析的分布式MOLAP技術(shù)分析

      2018-01-01 00:00:00何建偉
      大科技·C版 2018年6期

      摘 要:隨著科學(xué)技術(shù)的進(jìn)步,計(jì)算機(jī)也得到了高速發(fā)展。但是,現(xiàn)階段由于大數(shù)據(jù)的規(guī)模影響,導(dǎo)致計(jì)算機(jī)對數(shù)據(jù)的存儲、分析以及管理還存在很多問題。分布式文件系統(tǒng)可以有效的解決計(jì)算機(jī)的這一問題,尤其是在大數(shù)據(jù)分析模式下,分布式MOLAP技術(shù)的應(yīng)用,有效的降低了計(jì)算機(jī)在進(jìn)行數(shù)據(jù)存儲和分析階段受到大數(shù)據(jù)規(guī)模的影響。本文將重點(diǎn)基于大數(shù)據(jù)分析的前提下,對分布式MOLAP技術(shù)進(jìn)行分析,為相關(guān)工作提供參考。

      關(guān)鍵詞:大數(shù)據(jù)分析;分布式MOLAP技術(shù);分析

      中圖分類號:TP311.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1004-7344(2018)17-0293-02

      1 引 言

      計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)以及大數(shù)據(jù)分析都是近年來科學(xué)技術(shù)發(fā)展的產(chǎn)物。但是,隨著時(shí)代的進(jìn)步與發(fā)展,數(shù)據(jù)信息呈現(xiàn)爆炸式的增長,給數(shù)據(jù)的處理和分析帶來了極大的挑戰(zhàn)。如果處理不當(dāng),會對相關(guān)企業(yè)造成巨大的經(jīng)濟(jì)損失。分布式MOLAP技術(shù)能夠?qū)Χ嗑S度的數(shù)據(jù)結(jié)構(gòu)實(shí)現(xiàn)信息分類分布,可以有效的處理大數(shù)據(jù)的規(guī)?;挠绊懀诖髷?shù)據(jù)分析領(lǐng)域應(yīng)用十分廣泛。因此,分析研究分布式MOLAP技術(shù)具有重要的現(xiàn)實(shí)意義。

      2 大數(shù)據(jù)分析的分布式MOLAP技術(shù)的重要性

      分布式MOLAP技術(shù)的實(shí)現(xiàn),需要通過程序編輯模型MapReduceh,因此MOLAP技術(shù)又被稱作DOLAP。雖然大數(shù)據(jù)分析的分布式MOLAP技術(shù)還存在很多的問題,在實(shí)際的使用階段,還存在很多制約因素導(dǎo)致其結(jié)果產(chǎn)生偏差,但該項(xiàng)技術(shù)在大數(shù)據(jù)分析當(dāng)中具有以下幾點(diǎn)重要作用:

      (1)確保了大數(shù)據(jù)分析的準(zhǔn)確性:由于大數(shù)據(jù)的內(nèi)容十分廣泛,包含了很多領(lǐng)域的數(shù)據(jù)信息,傳統(tǒng)的數(shù)據(jù)處理工作繁重復(fù)雜,很容易出現(xiàn)差錯(cuò),導(dǎo)致大數(shù)據(jù)分析的結(jié)果存在一定的誤差。采用分布式MOLAP技術(shù),通過將大數(shù)據(jù)進(jìn)行分類,可以有效的提升數(shù)據(jù)處理的工作效率,減少相關(guān)數(shù)據(jù)處理的工作量,確保了大數(shù)據(jù)分析的準(zhǔn)確性。

      (2)降低了大數(shù)據(jù)分析的難度:通過分布式MOLAP技術(shù),可以實(shí)現(xiàn)對大數(shù)據(jù)的分類簡化,將一些雜亂無用的數(shù)據(jù)信息進(jìn)行剔除,降低了大數(shù)據(jù)分析的難度。

      3 大數(shù)據(jù)分析的分布式MOLAP技術(shù)模型建立

      通過建立多維度的數(shù)據(jù)模型,可以實(shí)現(xiàn)大數(shù)據(jù)分析的分布式MOLAP技術(shù)。該項(xiàng)技術(shù)的主要工作內(nèi)容就是維和事實(shí)。利用這兩方面的相互結(jié)合的特點(diǎn),成為了大數(shù)據(jù)分析的理論基礎(chǔ)和便利條件。因此,分布式MOLAP的核心就是確定維和事實(shí)之間的映射關(guān)系。

      傳統(tǒng)的ROLAP技術(shù),通過關(guān)系數(shù)據(jù)庫以及星型模型,實(shí)現(xiàn)了對維和事實(shí)的區(qū)分,達(dá)到了將二者分開儲存的目的,最后借助外鍵,對維和事實(shí)的映射關(guān)系進(jìn)行確定。隨著科學(xué)技術(shù)的發(fā)展,數(shù)據(jù)的存儲量越來越龐大,大數(shù)據(jù)更加的多樣化和復(fù)雜化,采用傳統(tǒng)的ROLAP技術(shù),工作效率很低,無法滿足社會相關(guān)部門的對大數(shù)據(jù)分析的需求。分布式MOLAP技術(shù)的出現(xiàn),解決了這一問題,因此在大數(shù)據(jù)分析中應(yīng)用日益廣泛。在進(jìn)行分布式MOLAP數(shù)據(jù)模型建立時(shí),應(yīng)注意以下要點(diǎn):

      3.1 維信息

      通過建立多維度的數(shù)據(jù)模型,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行簡單的分類,維將所有的數(shù)據(jù)項(xiàng)分類至一個(gè)無重疊的數(shù)據(jù)結(jié)構(gòu)中,并且提供數(shù)據(jù)項(xiàng)的篩選、組織和標(biāo)識方法。因此,在建立分布式MOLAP數(shù)據(jù)模型時(shí),對維信息的內(nèi)容和數(shù)據(jù)進(jìn)行簡化,應(yīng)遵循以下約束條件:

      (1)維有且只有1個(gè)維層次;

      (2)維是由多個(gè)維級別組成的集合。可以記作{a1,a2,…am},設(shè)ai(i∈[1,m])為任意一個(gè)維級別,則,i僅包含1個(gè)維屬性,且包含ni個(gè)維值;

      (3)維可以被當(dāng)作是各維級別的屬性取值,所組成的屬性結(jié)構(gòu)。處于同一級別的節(jié)點(diǎn)存在相同數(shù)量的子節(jié)點(diǎn)。

      3.2 度 量

      度量是一個(gè)獨(dú)立變量,它是分布式MOLAP技術(shù)分析的參考維值分析對象。度量所參考的是指維當(dāng)中,最低級別的維值。

      3.3 單元格

      單元格,是由不同的度量組成的,且這些度量都是以相同的維值作為主要的參考對象。

      3.4 實(shí)例分析

      以廣東省某運(yùn)營商網(wǎng)絡(luò)的通話記錄為例,可以根據(jù)通話記錄的特點(diǎn),建立以下維度的設(shè)置:短信類型、品牌維度、城市維度、漫游標(biāo)志維度、通話類型維度、時(shí)間維度等。根據(jù)通話的長度以及收費(fèi)情況,作為分布式MOLAP的度量。

      (1)短信維度的分級設(shè)置:普通短信、短信批發(fā)、網(wǎng)站短信、彩信等四個(gè)維度;

      (2)品牌維度的分級設(shè)置:根據(jù)運(yùn)營商的套餐品牌進(jìn)行劃分,包含大概23個(gè)品牌維度;

      (3)城市維度的分級設(shè)置:按照廣東省的不同城市進(jìn)行劃分,包含廣州、深圳、珠海等22個(gè)城市維度;

      (4)漫游標(biāo)志維度的分級設(shè)置:根據(jù)客戶通話時(shí)的漫游標(biāo)志,包含不漫游、省內(nèi)漫游等7個(gè)漫游標(biāo)志維度;

      (5)通話類型維度的分級設(shè)置:根據(jù)客戶通話的類型進(jìn)行分級,包含省外長途、省內(nèi)長途、國際長途等9個(gè)通話類型維度;

      (6)時(shí)間維度的分級設(shè)置:按照小時(shí)進(jìn)行時(shí)間維度的分級設(shè)置。

      4 大數(shù)據(jù)分析的分布式MOLAP技術(shù)維編碼的算法及數(shù)據(jù)的存儲

      4.1 維編碼的算法

      一般情況下,維編碼的算法具有兩種表現(xiàn)形式:十進(jìn)制和二進(jìn)制。

      (1)二進(jìn)制:又稱為位圖編碼,它利用不同編碼的拼接,實(shí)現(xiàn)了對維級別信息的概括,對維的遍閱則通過位置的移動來實(shí)現(xiàn),但此種算法相比較十進(jìn)制,還存在計(jì)算不詳細(xì)的缺陷;

      (2)十進(jìn)制:采用這種算法,通過對每一個(gè)維級別的維值進(jìn)行編碼,數(shù)據(jù)編碼較為詳細(xì),但是無法實(shí)現(xiàn)編碼和維值之間的映射。一般情況下,為了避免細(xì)數(shù),降低錯(cuò)誤產(chǎn)生的幾率,分布式MOLAP技術(shù)都采用這種算法。

      例如:如果a是維信息d的一個(gè)維級別,采用十進(jìn)制進(jìn)行編碼方法如下:

      Input:Dimension d:A targel dimension;

      Function:Dimension Coding;

      1.FOR i=1 TO |a(d)|;

      2.FOR j=0 TO |md(ai)|-1;

      3.Dimension value of V■■∈md(ai)

      4.V■■.code=j;

      5.END FOR

      6.END FOR

      4.2 數(shù)據(jù)的存儲

      分布式MOLAP技術(shù),在進(jìn)行數(shù)據(jù)存儲工作時(shí),需要大量的存儲空間。一旦數(shù)據(jù)立方體(如圖1)存在多個(gè)維值,很容易造成存儲空間不足的情況,造成后續(xù)的數(shù)據(jù)無法進(jìn)行正常的存儲。在此背景下,DOLAP技術(shù)的應(yīng)用,借助計(jì)算得到的“多維組數(shù)”,不需要進(jìn)行數(shù)據(jù)的存儲工作,同時(shí)也降低了對數(shù)據(jù)存儲空間的需求。此外,DOLAP技術(shù)還能夠簡化維,確保同一級別的維在編碼方便處于一致裝填。因此,在進(jìn)行存儲時(shí),只需要對相應(yīng)級別的維信息進(jìn)行存儲,也對存儲空間的要求較低。

      5 結(jié)束語

      綜上所述,隨著科學(xué)技術(shù)的發(fā)展,人們對數(shù)據(jù)的需求越來越高,大數(shù)據(jù)已經(jīng)成為人們?nèi)粘I畋夭豢煞值囊徊糠帧,F(xiàn)階段,龐大的數(shù)據(jù)量導(dǎo)致傳統(tǒng)的技術(shù)手段已經(jīng)無法滿足時(shí)代的發(fā)展。分布式MOLAP技術(shù)的應(yīng)用,滿足了人們對大數(shù)據(jù)分析的需求。因此,相關(guān)工作者應(yīng)當(dāng)深入研究分布式MOLAP技術(shù),掌握并合理運(yùn)用這項(xiàng)技術(shù),推動大數(shù)據(jù)分析的進(jìn)步與發(fā)展。

      參考文獻(xiàn)

      [1]宋 杰,郭朝鵬,王 智,等.大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J].軟件學(xué)報(bào),2014,25(4):731~752.

      [2]楊明紅,楊振華.分布式MOLAP技術(shù)在大數(shù)據(jù)分析的分析[J].電腦迷,2017(2).

      [3]劉 磊.大數(shù)據(jù)分析的分布式MOLAP技術(shù)要點(diǎn)[J].電腦知識與技術(shù),2018(1).

      [4]張少榮.基于大數(shù)據(jù)分析的分布式MOLAP技術(shù)[J].數(shù)字通信世界,2016(11).

      收稿日期:2018-5-11

      桐梓县| 彰化县| 玉田县| 汤阴县| 富阳市| 信丰县| 成安县| 米易县| 嘉善县| 宕昌县| 淮南市| 弥勒县| 南昌县| 奇台县| 团风县| 双流县| 中牟县| 连平县| 洛隆县| 鞍山市| 商河县| 得荣县| 化隆| 奈曼旗| 本溪市| 濉溪县| 伊川县| 榆中县| 丰原市| 娄底市| 海盐县| 崇州市| 桃园县| 布尔津县| 星子县| 郴州市| 延庆县| 右玉县| 浪卡子县| 晋江市| 辽宁省|