• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Hodoop集群計(jì)算在電信業(yè)BI系統(tǒng)中的應(yīng)用

    2013-12-17 10:42:36高小普萬(wàn)麟瑞
    電子科技 2013年4期
    關(guān)鍵詞:電信業(yè)集群運(yùn)營(yíng)商

    高小普,萬(wàn)麟瑞

    (南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南京 210016)

    自從Hadoop在2008年作為Apache開(kāi)源項(xiàng)目發(fā)布以來(lái),于它結(jié)合了成本低、可擴(kuò)展性佳以及無(wú)需構(gòu)建預(yù)定義模式便能靈活地處理任何數(shù)據(jù)等優(yōu)點(diǎn)。

    商業(yè)智能(Business Intelligence,BI)。商業(yè)智能的概念于1996年提出。當(dāng)時(shí)將商業(yè)智能定義為一類由數(shù)據(jù)倉(cāng)庫(kù)、查詢報(bào)表、數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)備份和恢復(fù)等部分組成的、以幫助企業(yè)決策為目的技術(shù)及其應(yīng)用。目前,商業(yè)智能通常被理解為將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。商務(wù)智能系統(tǒng)中的數(shù)據(jù)來(lái)自企業(yè)其他業(yè)務(wù)系統(tǒng)[1-3]。

    為將企業(yè)的績(jī)效管理戰(zhàn)略轉(zhuǎn)化成切實(shí)可行的計(jì)劃,需要更高效的計(jì)劃方案、更優(yōu)化的資源配置、更透明的企業(yè)管理及更細(xì)化的責(zé)任分擔(dān),企業(yè)管理者分析和決策行為從“以定性為主”向“以定量為主”轉(zhuǎn)變成為必然。

    企業(yè)的信息化建設(shè)為從定性向定量的轉(zhuǎn)變提供了可能和基礎(chǔ)。特別是在電信業(yè),信息化歷程較長(zhǎng),信息化水平較高,其發(fā)展歷程伴隨著信息化的發(fā)展而一步步提升和加強(qiáng)。隨著電信業(yè)信息化的不斷深入,各大運(yùn)營(yíng)商計(jì)費(fèi)、營(yíng)賬、客服、網(wǎng)管等多種業(yè)務(wù)系統(tǒng)相繼建成,擁有并不斷產(chǎn)生大量的客戶和業(yè)務(wù)數(shù)據(jù),科學(xué)管理和合理開(kāi)發(fā)這些內(nèi)部和外部信息資源,將有助于正確決策,提高企業(yè)績(jī)效管理水平,增強(qiáng)企業(yè)競(jìng)爭(zhēng)力[4-7]。

    而監(jiān)控企業(yè)的運(yùn)行、給管理者提供深入的企業(yè)洞察力,最終達(dá)到提升企業(yè)績(jī)效目的的一種信息化手段就是將企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識(shí),作為幫助企業(yè)做出明智的業(yè)務(wù)經(jīng)營(yíng)決策的工具。BI是將企業(yè)中的內(nèi)部數(shù)據(jù)與外部相關(guān)數(shù)據(jù)通過(guò)收集、分析,轉(zhuǎn)變成信息,并將信息應(yīng)用于商業(yè)活動(dòng)的過(guò)程。在BI這個(gè)以統(tǒng)一的、綜合各類數(shù)據(jù)信息的平臺(tái)上,全面的、一致的企業(yè)信息視圖有助于企業(yè)在發(fā)現(xiàn)機(jī)會(huì)后迅速把握機(jī)會(huì),并將獲得的信息快速轉(zhuǎn)化為可以執(zhí)行的戰(zhàn)略戰(zhàn)術(shù)。

    1 相關(guān)知識(shí)

    1.1 Hadoop簡(jiǎn)介

    Hadoop由Apache基金會(huì)開(kāi)發(fā),用戶可以在不了解底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序,能夠充分利用集群的威力進(jìn)行高速運(yùn)算和數(shù)據(jù)存儲(chǔ)的一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu)。簡(jiǎn)單地說(shuō)來(lái),Hadoop是一個(gè)更容易開(kāi)發(fā)、運(yùn)行和處理大規(guī)模數(shù)據(jù)的軟件平臺(tái)。Hadoop包括一 系 列 子 項(xiàng) 目:HDFS、MapReduce、HBase、Hive、ZooKeeper、Pig等。Hadoop的主要特點(diǎn)有:擴(kuò)容能力、成本低、高效率、可靠性。

    Hadoop框架中最核心的兩個(gè)子項(xiàng)目是MapReduce和HDFS。MapReduce是 Google提出的一個(gè)軟件架構(gòu),是一個(gè)編程模型,用于大規(guī)模數(shù)據(jù)的并行運(yùn)算,MapReduce就是“任務(wù)的分解與結(jié)果的匯總”。Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),為分布式計(jì)算存儲(chǔ)提供了底層支持,是Java版本的GFS開(kāi)源實(shí)現(xiàn),HDFS有著高容錯(cuò)性的特點(diǎn),設(shè)計(jì)用來(lái)部署在低廉的硬件上,能夠提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。MapReduce的應(yīng)用方面一般包括:

    (1)分布式的Grep。如果輸入行匹配給定的樣式,map函數(shù)就輸出這一行,reduce函數(shù)負(fù)責(zé)把中間數(shù)據(jù)復(fù)制到輸出。(2)計(jì)算URL訪問(wèn)pv。map函數(shù)處理web頁(yè)面請(qǐng)求的記錄,輸出(URL,1),reduce函數(shù)把相同URL的value都加起來(lái),產(chǎn)生一個(gè)(URL,記錄總數(shù))的對(duì)。(3)倒排索引。map函數(shù)分析每個(gè)文檔,然后產(chǎn)生一個(gè)(詞,文檔號(hào))對(duì)的序列,reduce函數(shù)接受一個(gè)給定詞的所有對(duì),排序相應(yīng)的文檔ID,并且產(chǎn)生一個(gè)(詞,文檔ID列表)對(duì)。所有的輸出對(duì)集形成一個(gè)簡(jiǎn)單的倒排索引,它可以簡(jiǎn)單的增加跟蹤詞位置的計(jì)算。(4)TeraSort。map函數(shù)從每個(gè)記錄提取key,并且產(chǎn)生一個(gè)(key,record)對(duì),然后進(jìn)行分布式reduce實(shí)現(xiàn)排序。MapReduce一般的運(yùn)行示意圖如圖1所示。

    圖1 MapReduce運(yùn)行示意圖

    HDFS采用主從式架構(gòu),一個(gè)HDFS集群是由一個(gè)名字節(jié)點(diǎn)(Namenode)和一定數(shù)目的數(shù)據(jù)結(jié)點(diǎn)(Datanode)組成。名字節(jié)點(diǎn)是一個(gè)管理文件的命名空間和調(diào)節(jié)客戶端訪問(wèn)文件的主服務(wù)器,數(shù)據(jù)節(jié)點(diǎn)一般是一個(gè)節(jié)點(diǎn)一個(gè),負(fù)責(zé)管理節(jié)點(diǎn)上附帶的存儲(chǔ)。HDFS的內(nèi)部機(jī)制是將一個(gè)文件分割成一個(gè)或多個(gè)的塊(Block),這些塊存儲(chǔ)在一組數(shù)據(jù)節(jié)點(diǎn)中。名字節(jié)點(diǎn)負(fù)責(zé)操作文件命名空間的文件或進(jìn)行目錄操作,如打開(kāi),關(guān)閉,重命名等。它同時(shí)確定塊與數(shù)據(jù)節(jié)點(diǎn)的映射。數(shù)據(jù)節(jié)點(diǎn)負(fù)責(zé)來(lái)自文件系統(tǒng)客戶的讀寫請(qǐng)求。數(shù)據(jù)節(jié)點(diǎn)在名字節(jié)點(diǎn)指揮下執(zhí)行塊的創(chuàng)建、刪除和復(fù)制。名字節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)都設(shè)計(jì)成可以運(yùn)行在普通的機(jī)器上。HDFS體系架構(gòu)如圖2所示。

    圖2 HDFS體系架構(gòu)圖

    HDFS與MapReduce的結(jié)合為分布式處理大數(shù)據(jù)提供強(qiáng)大的支持,當(dāng)Hadoop集群中的某些服務(wù)器出現(xiàn)錯(cuò)誤時(shí),整個(gè)計(jì)算過(guò)程并不會(huì)立即終止,同時(shí)HFDS可保障在整個(gè)集群中發(fā)生故障錯(cuò)誤時(shí)的數(shù)據(jù)冗余。HDFS對(duì)存儲(chǔ)的數(shù)據(jù)格式并無(wú)苛刻的要求,數(shù)據(jù)可以是非結(jié)構(gòu)化或其它類別[8-10]。

    1.2 Hadoop應(yīng)用案例

    如今,Hadoop儼然已經(jīng)成為了互聯(lián)網(wǎng)公司的新寵,它是目前最受歡迎的在Internet上針對(duì)搜索關(guān)鍵字進(jìn)行網(wǎng)頁(yè)內(nèi)容分類的工具,同時(shí)它也可以應(yīng)用在解決許多要求較大伸縮性的問(wèn)題上。例如,如果要grep一個(gè)10 TB的巨型文件,會(huì)出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上,這將需要很長(zhǎng)的時(shí)間。如果采用了Hadoop并行執(zhí)行機(jī)制,能大幅提高執(zhí)行效率。

    百度,其Hadoop集群主要用于后端數(shù)據(jù)訓(xùn)練和計(jì)算,目前有4 000個(gè)節(jié)點(diǎn),超過(guò)10個(gè)集群,最大的集群規(guī)模在1 000個(gè)節(jié)點(diǎn)以上。每個(gè)節(jié)點(diǎn)由8核CPU以及16 GB內(nèi)存以及12 TB硬盤組成,每天的數(shù)據(jù)生成量在3 PB以上。規(guī)劃當(dāng)中的架構(gòu)將有超過(guò)1萬(wàn)個(gè)節(jié)點(diǎn),每天的數(shù)據(jù)生成量在10 PB以上。百度通過(guò)HCE對(duì)streaming作業(yè)的排序,壓縮,解壓縮,內(nèi)存控制進(jìn)行了優(yōu)化并提供了C++版的MapReduce接口。

    淘寶網(wǎng),目前有會(huì)員約2億,日均UV高達(dá)4 000萬(wàn),日交易量高達(dá)10億元,每天產(chǎn)生大量的數(shù)據(jù),所以部署了一系列不同規(guī)模的Hadoop集群。淘寶生產(chǎn)系統(tǒng)所使用的Hadoop集群為目前國(guó)內(nèi)規(guī)模最大的Hadoo集群之一。集群規(guī)模總?cè)萘窟_(dá) 9.3 PB,利用率77.09%,共有1 100臺(tái)機(jī)器,每天處理約18 000道作業(yè),用戶數(shù)474人,用戶組38個(gè)。

    2 Hadoop在電信業(yè)BI系統(tǒng)中的應(yīng)用

    云計(jì)算的出現(xiàn)對(duì)電信運(yùn)營(yíng)商是一個(gè)難得的機(jī)遇,開(kāi)放與融合已經(jīng)成為未來(lái)電信業(yè)的發(fā)展方向,傳統(tǒng)的電信產(chǎn)業(yè)鏈將會(huì)產(chǎn)生變革,未來(lái)會(huì)涌現(xiàn)出大量的云計(jì)算運(yùn)營(yíng)商,新型業(yè)務(wù)模式和新的市場(chǎng)細(xì)分將因?yàn)樵朴?jì)算技術(shù)而成為可能。電信運(yùn)營(yíng)商需要樹(shù)立客戶需求導(dǎo)向的經(jīng)營(yíng)戰(zhàn)略,為用戶提供集成化的信息和通信技術(shù)解決方案而不是單一的產(chǎn)品,才能加快從電信服務(wù)提供商向綜合信息服務(wù)提供商的轉(zhuǎn)型步伐,不斷為用戶提供高附加值的業(yè)務(wù),走向價(jià)值鏈的上游。為實(shí)現(xiàn)這樣的目標(biāo),利用Hadoop,電信運(yùn)營(yíng)商在未來(lái)BI系統(tǒng)中以下領(lǐng)域?qū)⒋笥锌蔀?(1)數(shù)據(jù)集成。(2)數(shù)據(jù)質(zhì)量。(3)關(guān)鍵KPI指標(biāo)計(jì)算。(4)流計(jì)算。(5)Web網(wǎng)頁(yè)存儲(chǔ)和處理。(6)社交媒體數(shù)據(jù)分析與應(yīng)用。(7)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充。(8)文本數(shù)據(jù)挖掘。

    3 結(jié)束語(yǔ)

    電信業(yè)BI系統(tǒng)的一個(gè)典型特征,就是大數(shù)據(jù)量,電信運(yùn)營(yíng)商存儲(chǔ)的數(shù)據(jù)已經(jīng)開(kāi)始用PB來(lái)計(jì)算,數(shù)據(jù)源也越來(lái)越呈現(xiàn)多樣化、多渠道的趨勢(shì),傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)在應(yīng)對(duì)數(shù)據(jù)激增的挑戰(zhàn)時(shí)顯現(xiàn)出較大的不足,而隨著Hadoop技術(shù)得到廣泛運(yùn)用,傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)不能解決的非結(jié)構(gòu)化數(shù)據(jù)將不再成為問(wèn)題,大數(shù)據(jù)概念也在不斷得到推廣,Hadoop與已有業(yè)務(wù)支撐系統(tǒng)的搭配將成為一種必然的趨勢(shì),對(duì)于電信運(yùn)營(yíng)商來(lái)說(shuō),需要抓住這一機(jī)遇,利用Hadoop等一系列云計(jì)算相關(guān)技術(shù),將企業(yè)各方面運(yùn)營(yíng)信息沉淀、提煉成知識(shí),以咨詢服務(wù)或輔助營(yíng)銷等手段,助力其業(yè)務(wù)發(fā)展,同時(shí)提升終端用戶的體驗(yàn)和粘性,最終促進(jìn)整個(gè)電信產(chǎn)業(yè)鏈的合作與共贏。

    [1]王鵬.云計(jì)算的關(guān)鍵技術(shù)與應(yīng)用實(shí)例[M].北京:人民郵電出版社,2010.

    [2]湯庸,冀高峰,朱君,等.協(xié)同軟件技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2007.

    [3]TOM W.Hadoop:The Definitive Guide[M].O'Reilly Media,Inc,2009.

    [4]陳國(guó)良,安虹,陳崚,等.并行算法實(shí)踐[M].北京:高等教育出版社,2004.

    [5]MICHAEL M.云計(jì)算[M].史美林,姜進(jìn)磊,孫瑞志,等,譯.北京:機(jī)械工業(yè)出版社,2007.

    [6]LIU Peng,SHI Yao,F(xiàn)RANCISCM,et al.Grid demo proposal:AntiSpamgird[C].Hong Kong:IEEE International Conference on Cluster Computing,2003.

    [7]Hadoop.Hadoop技術(shù)論壇[EB/OL].(2010-08-05)[2012 -10 -12]http://www.bbs.hadoopor.com.

    [8]DEAN J,GHEMAWAT S.MapReduce:simplifed data processing on large clusters[M].USA:Google,Inc,2004.

    [9]LRI.MoGo[EB/OL].(2011 -03 -12)[2012 -01 -01]http://www.lri.fr/~ teytaud/mogo.html.

    [10]徐志偉,馮百明,李偉.網(wǎng)格計(jì)算技術(shù)[M].北京:電子工業(yè)出版社,2005.

    猜你喜歡
    電信業(yè)集群運(yùn)營(yíng)商
    中國(guó)電信產(chǎn)業(yè)改革績(jī)效研究的新視角與方法創(chuàng)新
    海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
    一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
    電子制作(2018年11期)2018-08-04 03:25:40
    電信業(yè)新變局
    民生周刊(2018年10期)2018-06-07 09:46:20
    Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
    勤快又呆萌的集群機(jī)器人
    取消“漫游費(fèi)”只能等運(yùn)營(yíng)商“良心發(fā)現(xiàn)”?
    中國(guó)電信業(yè)增長(zhǎng)質(zhì)量評(píng)價(jià)及其基本特征
    第一章 在腐敗火上烤的三大運(yùn)營(yíng)商
    三大運(yùn)營(yíng)商換帥不是一個(gè)簡(jiǎn)單的巧合
    舟山市| 施甸县| 麻城市| 庐江县| 大邑县| 炉霍县| 漾濞| 乌鲁木齐市| 祁东县| 宁南县| 安顺市| 隆子县| 玛曲县| 措美县| 康乐县| 甘德县| 西乡县| 聂荣县| 景洪市| 潮州市| 洛阳市| 昌图县| 塔城市| 贵阳市| 定陶县| 和龙市| 江阴市| 禄劝| 黑水县| 五指山市| 万盛区| 江城| 广昌县| 周宁县| 苍山县| 铜梁县| 正阳县| 旬阳县| 潞城市| 平泉县| 和田县|