• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù)的IT運(yùn)營分析系統(tǒng)建設(shè)

      2018-05-02 03:25:46陳俊
      計算機(jī)時代 2018年3期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)大數(shù)據(jù)

      陳俊

      摘 要: 數(shù)字化時代,數(shù)據(jù)分析是原動力,數(shù)據(jù)中心每日產(chǎn)生的海量監(jiān)控數(shù)據(jù)、日志,散落于各運(yùn)維管理工具、服務(wù)器中。本項目旨在借助大數(shù)據(jù)、機(jī)器學(xué)習(xí)和分布式計算等技術(shù)建立IT運(yùn)營分析系統(tǒng)(簡稱ITOA),實現(xiàn)PB級運(yùn)維大數(shù)據(jù)的準(zhǔn)實時處理和探索平臺;創(chuàng)新動態(tài)基線算法發(fā)現(xiàn)歷史規(guī)律、預(yù)測未來趨勢,在故障診斷、告警決策和性能評估方面智能輔助運(yùn)維管理,大大提升監(jiān)控預(yù)警能力、故障處置速度和運(yùn)維服務(wù)質(zhì)量。

      關(guān)鍵詞: 大數(shù)據(jù); 機(jī)器學(xué)習(xí); ITOA; 動態(tài)基線

      中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2018)03-85-04

      Construction of ITOA system based on big data environment and machine learning

      Chen Jun

      (Shanghai Pudong Development Bank, Shanghai 200233, China)

      Abstract: In the digital age, data analysis is the driving force. The data center generates a large amount of monitoring data and logs on a daily basis, which are scattered in the operational management tools and servers. This project is designed to establish the IT analysis system (ITOA) by means of big data, machine learning, distributed computing and other emerging technologies, to realize the real-time processing and data exploration platform of the PB level data; the innovative dynamic baseline algorithm discovers the historical law and predicts the trend of the future, and is intelligent assistance operation and management in the aspects of fault diagnosis, alarm decision and performance evaluation, which greatly improves the monitoring and warning capability, the speed of troubleshooting, and the quality of the maintenance service.

      Key words: big data; machine learning; ITOA; dynamic baseline

      0 引言

      近年來大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的概念越來越熱門,與之相關(guān)的技術(shù)和應(yīng)用也呈現(xiàn)蓬勃發(fā)展的態(tài)勢,各行各業(yè)都將眼光投向了這一領(lǐng)域,期望利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)的手段來提升自身的企業(yè)核心競爭力。

      作為數(shù)據(jù)大集中地——數(shù)據(jù)中心,運(yùn)維了成千上萬的設(shè)備,每天產(chǎn)生著TB級乃至更大規(guī)模的數(shù)據(jù),本項目旨在利用開源大數(shù)據(jù)技術(shù),探索機(jī)器學(xué)習(xí)算法,通過對數(shù)據(jù)中心運(yùn)行的各個系統(tǒng)的性能容量監(jiān)測數(shù)據(jù)、日志數(shù)據(jù)進(jìn)行實時采集加工、分布式計算、貼合應(yīng)用場景的建模和調(diào)參,改進(jìn)傳統(tǒng)性能數(shù)據(jù)、日志分析做法,解決傳統(tǒng)運(yùn)維過程中一直存在難點(diǎn)或痛點(diǎn)問題。

      1 平臺體系架構(gòu)

      IT運(yùn)營關(guān)鍵在于對運(yùn)維數(shù)據(jù)的分析,業(yè)界還沒有成熟的產(chǎn)品或解決方案,本項目的架構(gòu)設(shè)計,參考了業(yè)務(wù)大數(shù)據(jù)及部分大數(shù)據(jù)日志分析平臺的做法,引入當(dāng)前主流的大數(shù)據(jù)組件,搭建起支持離線批量和實時兩種處理模式平臺,一方面支持運(yùn)維管理中的實時監(jiān)控、另一方面支持離線批量計算實現(xiàn)特征提取。

      系統(tǒng)物理架構(gòu)如圖1系統(tǒng)物理架構(gòu)圖所示。

      服務(wù)器方面,由38臺X86服務(wù)器組成,20臺數(shù)據(jù)節(jié)點(diǎn)和2臺管理節(jié)點(diǎn)組成CDH hadoop大數(shù)據(jù)集群,8臺服務(wù)器組成ES集群,其中包括兩臺管理節(jié)點(diǎn)合并部署,這些服務(wù)器每臺上配備大容量磁盤。4臺服務(wù)器用于運(yùn)行內(nèi)存數(shù)據(jù)庫、部署應(yīng)用程序和報表服務(wù)。2臺web集群用于負(fù)載均衡和前端頁面展示。2臺數(shù)據(jù)庫集群保存少量結(jié)果數(shù)據(jù)以及CDH組件的元數(shù)據(jù)等。

      網(wǎng)絡(luò)方面,大數(shù)據(jù)組件相關(guān)節(jié)點(diǎn)均部署于萬兆網(wǎng)絡(luò),以支持ES[1]和hadoop[2] 的數(shù)據(jù)副本復(fù)制。其他應(yīng)用服務(wù)器、數(shù)據(jù)庫服務(wù)器、管理節(jié)點(diǎn)等,部署于千兆網(wǎng)絡(luò)。系統(tǒng)邏輯架構(gòu)如圖2所示。

      圖中共分為IT基礎(chǔ)環(huán)境、數(shù)據(jù)源、數(shù)據(jù)采集清洗規(guī)整、分布式存儲及應(yīng)用共五層。

      ⑴ IT基礎(chǔ)環(huán)境,為本系統(tǒng)管理的對象,包括主機(jī)、系統(tǒng)、網(wǎng)絡(luò)等各個環(huán)節(jié);

      ⑵ 數(shù)據(jù)源,分為從運(yùn)維工具中抽取出來的結(jié)構(gòu)化數(shù)據(jù)、以及這些軟件、設(shè)備上的非結(jié)構(gòu)化日志數(shù)據(jù);

      ⑶ 數(shù)據(jù)采集清洗規(guī)整層,用到了支持實時采集的flume+kafka,以及sqoop\FTP\JDBC等非實時的數(shù)據(jù)采集方式;

      ⑷ 分布式存儲,使用了CDH社區(qū)版的組件、非結(jié)構(gòu)化分布式數(shù)據(jù)庫ES,所有節(jié)點(diǎn)可通過橫向擴(kuò)展以提升計算處理能力和數(shù)據(jù)存儲量;

      ⑸ 應(yīng)用,通過利用底層的大數(shù)據(jù)組件,通過JAVA調(diào)用接口,實現(xiàn)各種運(yùn)維支持服務(wù)。

      2 大數(shù)據(jù)機(jī)器學(xué)習(xí)助力IT運(yùn)營分析

      基于上述架構(gòu)搭建而成了實時和離線計算兩種數(shù)據(jù)分析平臺,實現(xiàn)三方面功能模塊支持IT運(yùn)營分析。

      2.1 PB級運(yùn)維大數(shù)據(jù)準(zhǔn)實時處理和探索平臺

      運(yùn)維數(shù)據(jù)分為系統(tǒng)運(yùn)作過程中自動產(chǎn)生的日志,包括性能容量監(jiān)測數(shù)據(jù)、系統(tǒng)日志,以及人在運(yùn)維過程中產(chǎn)生的行為和記錄,包括ITIL服務(wù)管理流程記錄、服務(wù)器登錄日志。

      基于開源的運(yùn)維大數(shù)據(jù)組件框架,搭建起海量運(yùn)維數(shù)據(jù)處理和存儲平臺,共計從60余種數(shù)據(jù)源中實時抽取每日300GB的運(yùn)維數(shù)據(jù),單節(jié)點(diǎn)支持?jǐn)?shù)據(jù)處理的速度峰值達(dá)每秒10萬條、均值約3萬條,架構(gòu)上支持橫向擴(kuò)展,實現(xiàn)數(shù)據(jù)的長久保存和計算能力的擴(kuò)充。數(shù)據(jù)探索功能上,支持使用類SQL語法進(jìn)行即時數(shù)據(jù)檢索,易于上手、檢索方式靈活,降低數(shù)據(jù)探索門檻,數(shù)據(jù)分析結(jié)果可直接轉(zhuǎn)化各種圖表,圖表可組成各式儀表盤,方便再次調(diào)閱和彼此共享。

      2.2 利用機(jī)器學(xué)習(xí)算法實現(xiàn)異常波動監(jiān)測

      創(chuàng)新自研基于歷史基線的動態(tài)監(jiān)測算法,針對CPU、Memory、SWAP、diskIO性能類KPI指標(biāo)異常抖動情況的監(jiān)控。

      首先,通過前端界面的人工標(biāo)注區(qū)分異常、熔斷、切換三種極大影響基線結(jié)果準(zhǔn)確度的事件:

      ⑴ 異常:當(dāng)系統(tǒng)發(fā)生異常時,可能出現(xiàn)性能容量陡增,走勢不符合日常規(guī)律的情況,基線的計算需要排除異常區(qū)間的指標(biāo)值;

      ⑵ 熔斷:當(dāng)系統(tǒng)因為異?;蛘哂媱潈?nèi)維護(hù),出現(xiàn)服務(wù)器重啟的情況,重啟后可能導(dǎo)致系統(tǒng)資源釋放,從而觀測到指標(biāo)值走勢整體下降,基線的計算需要從重啟后重新開始計算,歷史的值無參考價值;

      ⑶ 切換:當(dāng)主備高可用模式的雙機(jī)發(fā)生了切換時,原主機(jī)因資源包切換至新主機(jī)上,導(dǎo)致性能指標(biāo)值整體下降,新主機(jī)資源整體上升,切換后的新主機(jī)基線需要以老主機(jī)的歷史值計算獲得,老主機(jī)基線需要以新主機(jī)的歷史值計算獲得;

      另外,工作日和休息日的系統(tǒng)運(yùn)行指標(biāo)值因交易量不同,呈現(xiàn)出截然不同的特征,同樣需要有所區(qū)分。

      綜上兩種情況,計算出當(dāng)前時刻對應(yīng)的一組歷史當(dāng)前時刻指標(biāo)值,對這些值進(jìn)行均化獲得當(dāng)前時刻點(diǎn)基線值,如圖3基線圖所示。

      基線(μ)為n個歷史同一時點(diǎn)值的平均值,歷史日期為異常、熔斷、切換,公式為:

      圖3 基線圖

      其次,計算歷史當(dāng)前時刻指標(biāo)標(biāo)準(zhǔn)差并乘以系數(shù)獲得符合正態(tài)分布規(guī)律的波動區(qū)間,為了避免凌晨時間標(biāo)準(zhǔn)差非常小導(dǎo)致波動區(qū)間狹窄,而引起監(jiān)控報警過于敏感的情況,額外增加常量系數(shù),波動區(qū)間如圖4所示。

      圖4 波動區(qū)間圖

      波動區(qū)間的計算公式如下:

      經(jīng)過上述計算獲得波動區(qū)間后,引入大數(shù)據(jù)實時storm流式計算框架,將實時性能數(shù)據(jù)與波動區(qū)間上下限進(jìn)行對比,當(dāng)實時性能數(shù)據(jù)持續(xù)偏離波動區(qū)域連續(xù)超過預(yù)設(shè)的偏離次數(shù)閾值,則聯(lián)動郵件系統(tǒng)發(fā)出監(jiān)控告警。偏離次數(shù)閾值靈活可調(diào),根據(jù)每臺服務(wù)器的特性進(jìn)行設(shè)置。

      2.3 智能輔助運(yùn)維決策

      智能運(yùn)維決策共分為三個模塊,故障診斷、告警決策、性能評估:

      ⑴ 故障診斷功能可實時分析正在發(fā)生或已經(jīng)發(fā)生的事項,包括日志、性能、流程、人員操作等所有進(jìn)入大數(shù)據(jù)平臺的數(shù)據(jù);可編輯預(yù)置特征庫鎖定關(guān)注的相關(guān)信息,通過分高、中、低分級設(shè)定關(guān)鍵字或類SQL搜索條件,當(dāng)故障發(fā)生時,一鍵式點(diǎn)擊查看故障診斷報告,加快搜索定位過程。

      ⑵ 告警決策功能可根據(jù)中英文的日志告警內(nèi)容采用不同的分析策略,以此提升分詞準(zhǔn)確性和相似度準(zhǔn)確性。利用TF/IDF算法將告警內(nèi)容量化,對量化后文本矩陣相似度計算。新告警產(chǎn)生后,與知識庫匹配判斷關(guān)鍵等級進(jìn)行紅色、黃色顏色標(biāo)識,點(diǎn)開告警后,系統(tǒng)分析出歷史上本機(jī)和其他機(jī)器此類告警的出現(xiàn)分布,“此類告警”檢索技術(shù)是先對告警進(jìn)行中英文分詞,然后利用TF/IDF算法將告警量化并進(jìn)行文本矩陣相似度計算,把90%相似的告警列出,進(jìn)一步聯(lián)動自動化,對此主機(jī)發(fā)布命令獲得進(jìn)一步信息,整個過程無需登錄服務(wù)器。

      ⑶ 性能評估功能可自動進(jìn)行性能容量評估,將預(yù)定義的評估指標(biāo)、評估方式、評估閾值轉(zhuǎn)化至系統(tǒng)中形成評估規(guī)則庫,系統(tǒng)自動畫出性能評估報告,并每日自動產(chǎn)生全轄超過閾值的情況匯總清單,以一個100臺主機(jī)組成的渠道類系統(tǒng)為例,3人天的評估過程縮短至了10秒內(nèi)自動完成。

      3 應(yīng)用效果分析

      經(jīng)濟(jì)效益方面,每年約計可節(jié)約人力1628人天。

      ⑴ 自動性能容量評估,按350個系統(tǒng),一個系統(tǒng)一年4次,每次1人天計算,預(yù)計共節(jié)省1400人天;

      ⑵ 集約化系統(tǒng)監(jiān)控和告警處理,能減少晚間和雙休日值班告警轉(zhuǎn)通知,加速告警處理,按照每天5個告警節(jié)省1小時計算,預(yù)計共節(jié)省228人天。

      社會效益方面,大大提升數(shù)據(jù)中心運(yùn)維管理質(zhì)量。

      ⑴ 排障時間從小時縮短至分鐘;

      ⑵ 查詢效率從小時縮短至秒;

      ⑶ 獲取報表時間從天縮短至實時;

      ⑷ 數(shù)據(jù)可維護(hù)規(guī)模從MB提升至TB;

      ⑸ 數(shù)據(jù)持久存放時間從月擴(kuò)充至年;

      ⑹ 運(yùn)維管理視角從IT拓展至業(yè)務(wù),化被動運(yùn)維為主動運(yùn)營。

      4 總結(jié)

      綜上所述,IT運(yùn)營分析系統(tǒng)建設(shè)項目屬于運(yùn)維大數(shù)據(jù)新興領(lǐng)域的深入探索和應(yīng)用,項目通過搭建PB級運(yùn)維大數(shù)據(jù)準(zhǔn)實時處理和探索平臺,實現(xiàn)運(yùn)維數(shù)據(jù)的整合與關(guān)聯(lián)分析,通過創(chuàng)新研究動態(tài)基線算法,實現(xiàn)對性能指標(biāo)異動的提前預(yù)警,通過數(shù)據(jù)分析實踐智能輔助人在故障診斷、告警決策、性能容量評估方面決策,大大提升了運(yùn)維能力。

      參考文獻(xiàn)(References):

      [1] elastic. Elasticsearch Reference[EB/OL].www.elastic.co/guide.

      [2] Tom, Wbit. Hadoop:The Definitive Guid[M]. America:

      O'reilly,2010.

      [3] Jiawei Han and Micheline Kamber.Data Mining Concepts

      and Techniques[M].機(jī)械工業(yè)出版社,2001.

      [4] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, "Bigtable: A

      distributed storage system for structured data"[M].Seventh Symposium on Operating System Design and Implementation,2006.

      [5] Fay Chang et al., "Bigtable: A Distributed Storage System

      for Structured Data"[M], ACM TOCS,2008.26(6):1-4

      [6] L. Breiman. Random forests. Machine learning[M],

      2001.45(1):5-32

      猜你喜歡
      機(jī)器學(xué)習(xí)大數(shù)據(jù)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      時代金融(2016年27期)2016-11-25 17:51:36
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      桑日县| 浮山县| 泽州县| 西宁市| 甘泉县| 邓州市| 柏乡县| 浦县| 礼泉县| 长乐市| 黔江区| 岳西县| 长宁区| 沧源| 专栏| 山阳县| 朝阳区| 阆中市| 通辽市| 香港 | 台北县| 绥阳县| 双牌县| 原平市| 安丘市| 上犹县| 基隆市| 巴彦县| 内黄县| 噶尔县| 罗山县| 阿鲁科尔沁旗| 阳原县| 宁城县| 揭东县| 那曲县| 平安县| 芦溪县| 万源市| 和政县| 清镇市|