牛作元,張鋒軍
(中國電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
大數(shù)據(jù)技術(shù)在電信網(wǎng)絡(luò)故障管理中的應(yīng)用研究*
牛作元,張鋒軍
(中國電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
隨著電信網(wǎng)絡(luò)的不斷發(fā)展,現(xiàn)有管理技術(shù)無法滿足管理需求的不斷變化。大數(shù)據(jù)技術(shù)作為當(dāng)前的熱門技術(shù),得到了廣泛關(guān)注和研究。研究大數(shù)據(jù)在電信網(wǎng)絡(luò)故障管理中的應(yīng)用,分析總結(jié)了多源故障管理數(shù)據(jù),提出了基于大數(shù)據(jù)的故障管理架構(gòu),并對大數(shù)據(jù)在多源故障數(shù)據(jù)處理、面向用戶感知的業(yè)務(wù)質(zhì)量評估、業(yè)務(wù)質(zhì)量趨勢預(yù)測、故障定位及恢復(fù)等故障管理過程中的應(yīng)用進(jìn)行了分析。這對提高故障處理效率和提升用戶體驗具有重要意義。
大數(shù)據(jù);故障管理;業(yè)務(wù)故障;用戶感知
目前,信息化從基礎(chǔ)網(wǎng)絡(luò)建設(shè)、業(yè)務(wù)系統(tǒng)建設(shè),逐步進(jìn)入了業(yè)務(wù)和網(wǎng)絡(luò)融合發(fā)展、網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)復(fù)雜度和規(guī)模不斷成熟和擴(kuò)大、以智能化和業(yè)務(wù)導(dǎo)向為特點的新時期。電信運營正在經(jīng)歷以“網(wǎng)絡(luò)為中心”的運營模式向著以“業(yè)務(wù)和用戶為中心”的運營模式的深刻變化。因此,保障業(yè)務(wù)的高可用性,及時掌握業(yè)務(wù)質(zhì)量情況,主動發(fā)現(xiàn)業(yè)務(wù)故障,在業(yè)務(wù)出現(xiàn)故障時迅速查明故障的根本原因,并恢復(fù)業(yè)務(wù)的正常運行變得十分重要。
隨著電信網(wǎng)絡(luò)和業(yè)務(wù)的快速發(fā)展,電信網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)量(Volume)急劇增長,使得傳統(tǒng)數(shù)據(jù)倉庫的數(shù)據(jù)處理和存儲壓力增大。傳統(tǒng)的電信網(wǎng)絡(luò)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,但是當(dāng)前的業(yè)務(wù)發(fā)展和管理需求需要有效處理結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化等多樣化(Variety)的數(shù)據(jù),傳統(tǒng)數(shù)據(jù)倉庫難以完成。此外,在電信網(wǎng)絡(luò)管理中,為了滿足用戶體驗不斷提升的需求,需要保證數(shù)據(jù)處理速度(Velocity),而傳統(tǒng)數(shù)據(jù)倉庫根本無法滿足上述日益增長的管理需求。
故障管理是電信網(wǎng)絡(luò)和業(yè)務(wù)管理的重要組成部分,其管理過程同樣具有數(shù)據(jù)來源廣泛、數(shù)據(jù)量大、數(shù)據(jù)類型多樣、即時性要求高、處理邏輯復(fù)雜等典型的大數(shù)據(jù)特征。因此,本文將大數(shù)據(jù)技術(shù)引入到故障管理中,將網(wǎng)絡(luò)、用戶、終端和業(yè)務(wù)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、用戶地理信息數(shù)據(jù)、語音業(yè)務(wù)數(shù)據(jù)、視頻業(yè)務(wù)數(shù)據(jù)等各種形式的所有相關(guān)數(shù)據(jù)進(jìn)行多維度多層次的深入分析挖掘,在研究大量數(shù)據(jù)的過程中尋找業(yè)務(wù)故障影響和傳播模式、告警相關(guān)性規(guī)則等,從而發(fā)現(xiàn)隱藏在大量告警信息背后的有用知識,準(zhǔn)確地診斷和定位故障,快速完成故障的處理和恢復(fù),提升業(yè)務(wù)質(zhì)量和用戶體驗。
數(shù)據(jù)無疑是基于大數(shù)據(jù)進(jìn)行故障管理的核心。在網(wǎng)絡(luò)和業(yè)務(wù)的運行過程中,網(wǎng)絡(luò)、設(shè)備、業(yè)務(wù)、用戶及終端等都會產(chǎn)生大量的數(shù)據(jù)。這些數(shù)據(jù)能明確或潛在地反映出網(wǎng)絡(luò)運行狀況、業(yè)務(wù)質(zhì)量以及故障告警信息之間的關(guān)聯(lián)關(guān)系等。因此,明確電信業(yè)務(wù)運行過程中故障相關(guān)的數(shù)據(jù)非常重要。
根據(jù)eTOM功能劃分,電信故障主要包括用戶體驗類故障、業(yè)務(wù)故障以及網(wǎng)絡(luò)資源故障三類。故障管理在eTOM中的位置及相關(guān)數(shù)據(jù)[1-2]如圖1所示。
圖1 故障管理在eTOM中的位置及相關(guān)數(shù)據(jù)
1.1網(wǎng)絡(luò)資源故障相關(guān)數(shù)據(jù)
由于網(wǎng)絡(luò)資源類型多、分布廣,因此網(wǎng)絡(luò)資源數(shù)據(jù)是進(jìn)行電信故障管理的基礎(chǔ)和主要數(shù)據(jù)來源。網(wǎng)絡(luò)資源故障相關(guān)數(shù)據(jù)主要包括:
(1)網(wǎng)絡(luò)資源庫存信息,用于展示網(wǎng)絡(luò)資源之間的拓?fù)溥B接、物理分布及關(guān)聯(lián)關(guān)系。
(2)話單、信令等原始信息。
(3)各設(shè)備、EMS、NMS的日志文件。
(4)原始的故障信息,包括結(jié)構(gòu)化故障信息、故障現(xiàn)場的視頻、圖片、聲音等非結(jié)構(gòu)化信息。
(5)網(wǎng)絡(luò)資源的運行性能數(shù)據(jù)。
(6)網(wǎng)絡(luò)資源的配置信息。
(7)資源性能故障信息,是根據(jù)資源性能信息和網(wǎng)絡(luò)性能指標(biāo)閾值得出的數(shù)據(jù)。
(8)歷史經(jīng)驗知識、案例庫等。
1.2業(yè)務(wù)服務(wù)故障相關(guān)數(shù)據(jù)
業(yè)務(wù)服務(wù)故障是電信業(yè)務(wù)無法提供的直接原因,因此業(yè)務(wù)服務(wù)數(shù)據(jù)是電信業(yè)務(wù)故障定位的直接數(shù)據(jù)來源。業(yè)務(wù)服務(wù)故障相關(guān)數(shù)據(jù)主要包括:
(1)業(yè)務(wù)服務(wù)庫存信息,用于展示業(yè)務(wù)服務(wù)與網(wǎng)絡(luò)資源之間的承載關(guān)系、業(yè)務(wù)服務(wù)之間的關(guān)聯(lián)關(guān)系等。
(2)資源故障單,由資源故障管理產(chǎn)生。
(3)資源性能信息。
(4)用戶業(yè)務(wù)使用情況信息。
(5)業(yè)務(wù)服務(wù)性能數(shù)據(jù)。根據(jù)資源性能數(shù)據(jù)、業(yè)務(wù)與資源之間的關(guān)聯(lián)關(guān)系得出的數(shù)據(jù)。
(6)業(yè)務(wù)服務(wù)性能測試數(shù)據(jù),通過主動測試或定期測量主動獲取電信業(yè)務(wù)的使用性能獲取得到的數(shù)據(jù),可主動發(fā)現(xiàn)業(yè)務(wù)故障或業(yè)務(wù)性能下降趨勢。
(7)業(yè)務(wù)服務(wù)系統(tǒng)日志文件。
(8)用戶QoS/SLA合同。
(9)用戶業(yè)務(wù)故障單,根據(jù)用戶故障申告,人工或自動生成的故障工單。
(10)業(yè)務(wù)服務(wù)質(zhì)量違例信息,是根據(jù)業(yè)務(wù)使用情況、資源性能數(shù)據(jù)、業(yè)務(wù)與資源的關(guān)聯(lián)關(guān)系、用戶SLA合同、業(yè)務(wù)服務(wù)性能測試數(shù)據(jù)等進(jìn)行綜合分析得出的數(shù)據(jù)。
(11)歷史經(jīng)驗知識、案例庫等。
1.3用戶體驗類故障信息
用戶體驗類故障信息是用戶的直接感受,直接影響用戶體驗。用戶體驗類故障信息主要包括:
(1)用戶故障申告數(shù)據(jù),用戶在業(yè)務(wù)故障或SLA違反時通過多種方式進(jìn)行故障申告,系統(tǒng)采集到的網(wǎng)頁、文本、語音、視頻、圖片等故障數(shù)據(jù)。
(2)用戶SLA違反工單,用戶使用業(yè)務(wù)過程中自動產(chǎn)生的SLA違反工單。
(3)SLA評估報告,用戶使用業(yè)務(wù)過程中定期產(chǎn)生的SLA評估數(shù)據(jù)。
(4)用戶信息,用于展示用戶與業(yè)務(wù)之間的訂購關(guān)系、用戶的基本信息、用戶業(yè)務(wù)使用上下文信息、用戶使用行為習(xí)慣等信息。
(5)歷史經(jīng)驗知識、案例庫等。
傳統(tǒng)的故障管理系統(tǒng)分專業(yè)、分廠家建設(shè),故障數(shù)據(jù)源相對固定單一,且故障數(shù)據(jù)分散在各個煙囪式的故障管理系統(tǒng)中,導(dǎo)致不同專業(yè)的故障數(shù)據(jù)無法關(guān)聯(lián)分析,使得故障的響應(yīng)、定位、恢復(fù)以被動式的人工維護(hù)為主??梢姡瑐鹘y(tǒng)的故障管理架構(gòu)無法適應(yīng)當(dāng)前電信網(wǎng)絡(luò)和業(yè)務(wù)管理的需要。
因此,為了實現(xiàn)故障的準(zhǔn)確定位、智能預(yù)測和快速恢復(fù),提高主動服務(wù)能力,提升用戶體驗,本文在云計算技術(shù)基礎(chǔ)上,提出了基于大數(shù)據(jù)的故障管理架構(gòu),建立基于云和大數(shù)據(jù)的故障相關(guān)數(shù)據(jù)存儲、計算、挖掘、分析平臺,實現(xiàn)故障數(shù)據(jù)的集中統(tǒng)一存儲、分析和管理,并可以以云服務(wù)的形式向其他應(yīng)用系統(tǒng)提供故障數(shù)據(jù)存儲、查詢、統(tǒng)計和分析服務(wù)。管理架構(gòu)如圖2所示[3-6]。
圖2 基于大數(shù)據(jù)的故障管理架構(gòu)
2.1數(shù)據(jù)源
數(shù)據(jù)源負(fù)責(zé)通過各種采集手段(如探針采集、設(shè)備采集、撥打測試、投訴搜集、網(wǎng)絡(luò)爬蟲、系統(tǒng)接口等)從網(wǎng)絡(luò)、OSS、BSS、用戶等方面全面采集電信業(yè)務(wù)故障相關(guān)數(shù)據(jù)。除收集網(wǎng)絡(luò)業(yè)務(wù)數(shù)據(jù)外,還應(yīng)搜集企業(yè)內(nèi)部其他數(shù)據(jù)(如話單、用戶賬務(wù)數(shù)據(jù))及外部數(shù)據(jù)(氣候、重大事件、自然災(zāi)害等)。數(shù)據(jù)源應(yīng)保證底層數(shù)據(jù)的豐富完整,為大數(shù)據(jù)分析提供強大的數(shù)據(jù)支撐。
2.2數(shù)據(jù)存儲
數(shù)據(jù)存儲采用NoSQL技術(shù)對所有相關(guān)數(shù)據(jù)進(jìn)行集中統(tǒng)一存儲。存儲的數(shù)據(jù)既包括采集到的網(wǎng)絡(luò)資源故障數(shù)據(jù)、業(yè)務(wù)服務(wù)故障數(shù)據(jù)、用戶體驗類故障數(shù)據(jù)等各類結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化原始數(shù)據(jù),也包括產(chǎn)生的臨時性、過程性數(shù)據(jù),如故障產(chǎn)生的模式、故障恢復(fù)策略等。
數(shù)據(jù)存儲層與其他各層進(jìn)行數(shù)據(jù)交互,提供故障相關(guān)數(shù)據(jù)的存儲、查詢、訪問等功能。
2.3數(shù)據(jù)匯聚
數(shù)據(jù)匯聚主要用于建立與不同系統(tǒng)之間的連接,集成多數(shù)據(jù)源的數(shù)據(jù),并保證來自不同數(shù)據(jù)源的相同數(shù)據(jù)具有統(tǒng)一的數(shù)據(jù)格式,以便傳遞給上層使用。
2.4數(shù)據(jù)處理
數(shù)據(jù)處理用于對數(shù)據(jù)集施加一系列的處理功能,包括轉(zhuǎn)換、關(guān)聯(lián)、壓縮、處理以及數(shù)據(jù)質(zhì)量保證、數(shù)據(jù)安全保證等。
2.5數(shù)據(jù)分析
數(shù)據(jù)分析對數(shù)據(jù)進(jìn)行深度挖掘,是基于大數(shù)據(jù)進(jìn)行故障管理的重點。數(shù)據(jù)分析平臺采用Hadoop,由并行批處理計算框架(MapReduce)和實時流計算框架(Storm/Spark)組成,提供非實時大容量并行計算和實時流計算功能。而對于復(fù)雜邏輯的處理分析和數(shù)據(jù)挖掘,則以組件化的方式注入不同的分析挖掘算法和模型。
故障管理的數(shù)據(jù)分析內(nèi)容側(cè)重于以下方面。
用戶業(yè)務(wù)故障模型建立:建立用戶、業(yè)務(wù)服務(wù)、網(wǎng)絡(luò)資源之間的關(guān)聯(lián)關(guān)系模型,掌握業(yè)務(wù)故障的影響和傳播。
故障模式挖掘:基于歷史故障數(shù)據(jù)和實時數(shù)據(jù),采用使用機器學(xué)習(xí)、數(shù)據(jù)挖掘算法等分析電信業(yè)務(wù)故障趨勢和規(guī)律。
故障處理策略制定:結(jié)合歷史經(jīng)驗知識、案例庫、故障模型等制定故障恢復(fù)策略,并指導(dǎo)后續(xù)的故障恢復(fù)。
2.6數(shù)據(jù)監(jiān)管
數(shù)據(jù)監(jiān)管主要通過數(shù)據(jù)隱私保護(hù)、數(shù)據(jù)訪問控制、數(shù)據(jù)授權(quán)、法律法規(guī)遵從等手段,保護(hù)數(shù)據(jù)的安全性。
2.7數(shù)據(jù)應(yīng)用
數(shù)據(jù)應(yīng)用層是根據(jù)故障管理數(shù)據(jù)處理需求,結(jié)合各類應(yīng)用要求,實現(xiàn)故障數(shù)據(jù)服務(wù)能力的開放和共享,以云服務(wù)的形式對外提供故障定位、故障預(yù)測、故障恢復(fù)等故障數(shù)據(jù)應(yīng)用功能。
基于大數(shù)據(jù)的故障管理應(yīng)用技術(shù)是以提高用戶體驗為中心,通過對網(wǎng)絡(luò)和業(yè)務(wù)的端到端實時監(jiān)控、對用戶行為的細(xì)致洞察、對網(wǎng)絡(luò)-業(yè)務(wù)-終端-用戶的綜合關(guān)聯(lián),形成智能監(jiān)控、智能預(yù)測以及智能保障,對運營過程中涉及到的大量、復(fù)雜、快速生成的故障相關(guān)數(shù)據(jù)進(jìn)行收集、分析、共享和應(yīng)用,從而實現(xiàn)故障的準(zhǔn)確定位、快速恢復(fù),提高用戶服務(wù)質(zhì)量。
下面以某一用戶觀看移動視頻這一典型應(yīng)用為例,介紹通過利用大數(shù)據(jù)技術(shù)實現(xiàn)用戶業(yè)務(wù)質(zhì)量評估、預(yù)測及快速定位,從而實現(xiàn)主動服務(wù),提升用戶感知。面向用戶感知的故障管理流程[7]如圖3所示。
在面向用戶感知的故障管理流程中,大數(shù)據(jù)在多源故障數(shù)據(jù)處理、面向用戶感知的業(yè)務(wù)質(zhì)量評估、業(yè)務(wù)質(zhì)量趨勢預(yù)測、故障定位及恢復(fù)等步驟方面將發(fā)揮重要作用。
3.1多源故障數(shù)據(jù)處理
針對用戶觀看移動視頻這一典型應(yīng)用,系統(tǒng)在運行過程中需要從移動終端、移動網(wǎng)內(nèi)部和移動網(wǎng)到因特網(wǎng)的網(wǎng)關(guān),同時收集與業(yè)務(wù)使用有關(guān)的控制面與用戶面的信息,包括無線和核心網(wǎng)的信令數(shù)據(jù)、無線環(huán)境測量報告、網(wǎng)關(guān)的流量和應(yīng)用統(tǒng)計數(shù)據(jù);需要從運營支撐系統(tǒng)等采集用戶的服務(wù)質(zhì)量信息、用戶觀看視頻的歷史數(shù)據(jù)、故障申告描述、視頻馬賽克截屏等;甚至需要采集用戶的位置信息、天氣信息等。同時,要基于上述數(shù)據(jù)實現(xiàn)數(shù)據(jù)的初步處理,為進(jìn)一步的數(shù)據(jù)融合分析奠定基礎(chǔ)。
通過上文的分析可以看到,故障管理數(shù)據(jù)源眾多,采集方式各異。傳統(tǒng)的故障管理數(shù)據(jù)分散在各類系統(tǒng)中,往往也僅僅采集某一類或幾類數(shù)據(jù),而在大數(shù)據(jù)環(huán)境下,需要從各類系統(tǒng)采集業(yè)務(wù)運行相關(guān)的全部數(shù)據(jù),提供各類數(shù)據(jù)集成共享平臺并結(jié)合大數(shù)據(jù)的異構(gòu)性、冗余性和相關(guān)性等特性,建立多源多形態(tài)數(shù)據(jù)集成模型、異構(gòu)數(shù)據(jù)智能轉(zhuǎn)換模型、數(shù)據(jù)容錯閾值設(shè)置、整合數(shù)據(jù)的正確性驗證方法和可用性評估方法等一系列方法,來完成數(shù)據(jù)融合和數(shù)據(jù)質(zhì)量控制。
圖3 面向用戶感知的故障管理流程
3.2面向用戶感知的業(yè)務(wù)質(zhì)量評估
用戶觀看移動視頻時,系統(tǒng)需要實時監(jiān)控用戶業(yè)務(wù)體驗狀態(tài)如視頻的吞吐量、重傳、中斷等指標(biāo),并從運營支撐系統(tǒng)中獲取用戶業(yè)務(wù)服務(wù)等級信息,同時根據(jù)當(dāng)前網(wǎng)絡(luò)質(zhì)量數(shù)據(jù)、業(yè)務(wù)質(zhì)量數(shù)據(jù)、用戶業(yè)務(wù)服務(wù)等級等數(shù)據(jù),綜合評估用戶業(yè)務(wù)質(zhì)量,為保障用戶業(yè)務(wù)服務(wù)質(zhì)量提供決策。
傳統(tǒng)的信息采集或流量監(jiān)控,只注重運行設(shè)備和視頻的工作狀態(tài),很少涉及指標(biāo)與視頻服務(wù)質(zhì)量的關(guān)聯(lián)度,但是用戶感知才是用戶的直接體驗。因此,在大數(shù)據(jù)環(huán)境下,需要對檢測到的每項指標(biāo)都進(jìn)行服務(wù)質(zhì)量趨勢匹配,如IP丟包率上升,就意味著用戶點播出現(xiàn)馬賽克、卡頓等問題。
大數(shù)據(jù)環(huán)境下,面向用戶感知的業(yè)務(wù)質(zhì)量評估從用戶角度感知和分析網(wǎng)絡(luò)和業(yè)務(wù)信息,打通多個業(yè)務(wù)系統(tǒng),實現(xiàn)數(shù)據(jù)和資源共享,建立面向用戶感知的業(yè)務(wù)質(zhì)量評估體系,從網(wǎng)絡(luò)質(zhì)量、業(yè)務(wù)質(zhì)量、用戶感知[8]等多層次實現(xiàn)面向用戶服務(wù)的全局分析,以合理調(diào)配網(wǎng)絡(luò)資源,保障用戶業(yè)務(wù)服務(wù)質(zhì)量。
3.3業(yè)務(wù)質(zhì)量趨勢預(yù)測
上述場景中,系統(tǒng)需根據(jù)當(dāng)前網(wǎng)絡(luò)狀態(tài)、故障關(guān)聯(lián)數(shù)據(jù)、用戶觀看行為等信息,預(yù)測用戶業(yè)務(wù)質(zhì)量趨勢,并提前處理,主動服務(wù),提升用戶體驗。
大數(shù)據(jù)的核心是預(yù)測,業(yè)務(wù)質(zhì)量趨勢預(yù)測是充分利用大數(shù)據(jù)的機器學(xué)習(xí)等技術(shù),將從各個層面獲取的全體數(shù)據(jù)梳理出具有規(guī)律性的事件發(fā)生模型,并用于未來某些事件發(fā)生與否的預(yù)判和防范。
通過深度挖掘電信業(yè)務(wù)歷史數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)中蘊藏的價值,建立故障預(yù)測模式;通過全面分析和主動挖掘各類數(shù)據(jù),發(fā)現(xiàn)業(yè)務(wù)質(zhì)量變化規(guī)律,預(yù)測其發(fā)展趨勢,實現(xiàn)故障發(fā)生前的預(yù)警并處理,避免用戶體驗下降,實現(xiàn)由被動運維向主動運維的轉(zhuǎn)變。
3.4故障定位及恢復(fù)
傳統(tǒng)的故障定位方法有基于規(guī)則、事例推理、模型推理、編碼、貝葉斯網(wǎng)絡(luò)、模糊邏輯和神經(jīng)網(wǎng)絡(luò)算法等[9]。但是,由于業(yè)務(wù)的多樣性、動態(tài)性、用戶敏感性等特點,使得業(yè)務(wù)故障與傳統(tǒng)的網(wǎng)絡(luò)故障存在很大不同。傳統(tǒng)的故障定位方法主要存在以下問題:①只能適應(yīng)某種拓?fù)浣Y(jié)構(gòu)的網(wǎng)絡(luò)系統(tǒng),或只適應(yīng)某一種、某一類網(wǎng)絡(luò)設(shè)備和系統(tǒng)服務(wù)的問題;②集中于網(wǎng)絡(luò)層和網(wǎng)元層告警信息之間橫向規(guī)則的挖掘,而沒有涉及告警、相關(guān)基礎(chǔ)設(shè)施、特定用戶業(yè)務(wù)等多個層次的縱向關(guān)聯(lián)關(guān)系的研究。以上原因都對在短時間內(nèi)快速定位業(yè)務(wù)故障造成很大的困難。
與傳統(tǒng)故障定位相比,基于大數(shù)據(jù)分析的故障定位及恢復(fù)突破單一的數(shù)據(jù)源限制,通過引入用戶、業(yè)務(wù)、網(wǎng)絡(luò)等關(guān)聯(lián)數(shù)據(jù),實現(xiàn)多維數(shù)據(jù)綜合分析,全方位透視和分析故障傳播,建立故障影響分析模型,為故障定位和恢復(fù)提供更加準(zhǔn)確的數(shù)據(jù)支撐。
因此,上述場景中視頻服務(wù)出現(xiàn)故障或用戶服務(wù)質(zhì)量下降時,系統(tǒng)可根據(jù)關(guān)聯(lián)分析結(jié)果及時快速定位故障,并通過智能化專家知識庫系統(tǒng)等制定故障恢復(fù)策略,由運維人員及時高效完成服務(wù)恢復(fù)。
大數(shù)據(jù)技術(shù)逐步應(yīng)用于智能運營的實踐,是電信行業(yè)的共識和趨勢。國內(nèi)外很多運營商也已經(jīng)或計劃利用大數(shù)據(jù)技術(shù)改造現(xiàn)有的運營中心,以迎接數(shù)據(jù)和信息爆炸增長帶來的挑戰(zhàn)[10]。本文將大數(shù)據(jù)思想引入故障管理,通過挖掘蘊含在大量數(shù)據(jù)中的有用信息提高故障定位、故障預(yù)測、故障恢復(fù)的效率,從而提升用戶體驗。隨著兩者結(jié)合的不斷深入,相信其必將為未來網(wǎng)絡(luò)管理的發(fā)展帶來更多突破。
[1] TMF.GB921D ,V8.3, Enhanced Telecom Operations Map Addendum D:Process Decompositions and Descriptions [S].America:TM Forum,2008.
[2] Dave Raymer,Marc Flauw. JSR 263, 1.0,Fault Management API Overview[S].America:OSS through Java? Initiative,2007.
[3] TMF. TR202, V1.10, Big Data Analytics Reference Model[S].America:TM Forum,2013.
[4] TMF. GB979, V2.0.1,Big Data Analytics Guidebook Unleashing-Business Value in Big Data[S]. America:TM Forum, 2014.
[5] TMF. GB979 Addendum A, V2.0.1,Big Data Analytics Guidebook -Use Cases[S].America:TM Forum,2014.
[6] TMF. GB979 Addendum B, V1.0.2,Big Data Analytics Guidebook-Big Data Analytics Building Blocks[S]. America:TM Forum,2014.
[7] TMF. GB921F, V7.6, Enhanced Telecom Operations Map Addendum F:Process Flow Examples[S].America:TM Forum,2008.
[8] 劉露.異構(gòu)/融合網(wǎng)絡(luò)中端到端服務(wù)質(zhì)量控制與管理的研究[D].北京:北京郵電大學(xué),2010. LIU Lu.End-To-End QoS Control and Management Research in Heterogeneous/Convergence Network[D]. Beijing:Beijing University of Posts and Telecommunications,2010.
[9] 張成.增值業(yè)務(wù)的概率故障定位[D].北京:北京郵電大學(xué),2009. ZHANG Cheng.Probabilistic Fault Localization for Value-Added Services[D]. Beijing: Beijing University of Posts and Telecommunications,2010.
[10] C114中國通信網(wǎng).愛立信:大數(shù)據(jù)輔助智能運營[EB/ OL].(2014-08-28)[2016-06-09].http://ucwap.ifeng.com/ tech/news?aid=88574010&rt=1&p=2. C114 cn-comm.Ericsson:Big Data aids intelligent operations[EB/OL].(2014-08-28)[2016-06-09].http:// ucwap.ifeng.com/tech/news?aid=88574010&rt=1&p=2
牛作元(1983—),男,碩士,工程師,主要研究方向為網(wǎng)絡(luò)管理、軟件工程;
張鋒軍(1975—),男,學(xué)士,高級工程師,主要研究方向為網(wǎng)絡(luò)管理、軟件工程。
Application of Big-Data Technology in Telecommunications Nerwork Fault Management
NIU Zuo-yuan, ZHANG Feng-jun
(No.30 Institute of CETC,Chengdu Sichuan 610041,China)
With the development of telecom network, the existing management technology could not meet the changing management requirements. Big data,as a hot technology at present,attracts extensive attention and research.This paper discusses the application of big data technology in telecom network fault management, summarizes multi-source fault management data, presents a fault management architecture based on big data,analyses the application of big data in multi-source fault data processing, user perception-oriented service-quality evaluation, service-quality tendency prediction, fault locating and recovery. All this is of significant imprtance for improving the efficiency of fault management and user experience.
big data;fault management;service fault;user perception
TP311
A
1002-0802(2016)-08-01051-06
10.3969/j.issn.1002-0802.2016.08.018
2016-04-21;
2016-07-19
date:2016-04-21;Revised date:2016-07-19