隨著移動(dòng)通信產(chǎn)業(yè)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,SDN/NFV技術(shù)不斷成熟,5G技術(shù)應(yīng)運(yùn)而生。當(dāng)前,5G技術(shù)已經(jīng)成為通信行業(yè)關(guān)鍵性技術(shù)之一。5G技術(shù)對(duì)于車(chē)聯(lián)網(wǎng)與自動(dòng)駕駛,遠(yuǎn)程外科手術(shù),智能電網(wǎng)等全新技術(shù)的發(fā)展應(yīng)用有著至關(guān)重要的作用,隨著今年6月6日工信部發(fā)放5G牌照,10月31日三大運(yùn)營(yíng)商公布5G商用套餐,中國(guó)的5G商用已經(jīng)進(jìn)入倒計(jì)時(shí)。5G涉及全新的切片概念,從軟件到硬件,從邏輯到設(shè)備上與以往相比有了很大的變化。
與之前高度依賴大型基站的布建架構(gòu)不同,5G通訊網(wǎng)絡(luò)將使用高密度的小型基站,使運(yùn)營(yíng)商能夠以最具成本效益的方式進(jìn)行組網(wǎng)。而這樣的方式,也給運(yùn)維工作帶來(lái)了巨大的壓力。傳統(tǒng)的運(yùn)維通過(guò)大量重復(fù)的人工勞動(dòng)實(shí)現(xiàn),需要運(yùn)維人員全天候值守,且無(wú)法保證問(wèn)題的及時(shí)處理和反饋,面對(duì)全新的挑戰(zhàn),已經(jīng)不足以支撐服務(wù)的穩(wěn)定性。因此,5G時(shí)代的運(yùn)維必須采用全新的技術(shù),向自動(dòng)化,智能化發(fā)展,學(xué)習(xí)IT行業(yè)的運(yùn)維方式,擁抱IT。如何創(chuàng)新開(kāi)展運(yùn)維工作,提升運(yùn)營(yíng)效率,從而降低成本,成為運(yùn)營(yíng)商必須解決的問(wèn)題。
運(yùn)營(yíng)商的運(yùn)維工作主要包括:對(duì)業(yè)務(wù)的生命周期進(jìn)行管理,及時(shí)對(duì)網(wǎng)絡(luò)業(yè)務(wù)的變更進(jìn)行調(diào)整;故障修復(fù),及時(shí)有效地處理故障,將損失控制在最?。恢鲃?dòng)運(yùn)維,對(duì)可能存在的隱患進(jìn)行主動(dòng)排查,將故障解決在問(wèn)題出現(xiàn)之前;服務(wù)請(qǐng)求,根據(jù)各方面對(duì)功能和業(yè)務(wù)上的需求,進(jìn)行資源調(diào)配,等等。
現(xiàn)如今的網(wǎng)絡(luò),運(yùn)營(yíng)商的運(yùn)維模式仍然以人力運(yùn)維為主,處于“刀耕火種”的人工運(yùn)維和腳本運(yùn)維①腳本運(yùn)維:即使用編寫(xiě)好的腳本處理某些簡(jiǎn)單的日常運(yùn)維操作,但無(wú)法構(gòu)成完整體系,不屬于自動(dòng)運(yùn)維。的階段。在網(wǎng)絡(luò)運(yùn)維中心,為了保證各式各樣的設(shè)備正常運(yùn)行,運(yùn)維工程師們每天需要監(jiān)控成千上萬(wàn)的告警,面對(duì)不同的問(wèn)題,需要?jiǎng)?chuàng)建故障單來(lái)進(jìn)行跟蹤解決。
這樣的運(yùn)維方式,存在以下問(wèn)題:
(1)從人員角度來(lái)講,第一,培養(yǎng)運(yùn)維人才的時(shí)間長(zhǎng),一個(gè)優(yōu)秀的運(yùn)維人才往往需要幾年的時(shí)間才能夠?qū)I(yè)務(wù)邏輯和物理設(shè)備有充分的了解,但對(duì)當(dāng)前網(wǎng)絡(luò)的拓?fù)浜陀脩粽J(rèn)識(shí)的依賴也缺乏足夠的靈活性;第二,人工運(yùn)維存在著不確定因素,哪怕是一個(gè)有多年經(jīng)驗(yàn)的運(yùn)維人才,也有可能因?yàn)橐恍o(wú)心的操作失誤導(dǎo)致不可挽回的后果;第三,人工運(yùn)維的效率沒(méi)有足夠的保證,每個(gè)運(yùn)維人員往往管理著幾十臺(tái)甚至上百臺(tái)設(shè)備,隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,5G基站與設(shè)備數(shù)量飛速上升,人力成本也在快速增長(zhǎng)。運(yùn)維人員隨時(shí)有可能會(huì)從睡夢(mèng)中被緊急電話驚醒,匆忙趕到現(xiàn)場(chǎng),但即使這樣,也可能無(wú)法及時(shí)處理故障。
(2)而從流程上來(lái)講,目前的運(yùn)維模式大都使用煙囪式結(jié)構(gòu),這種垂直且不易拉通的組織結(jié)構(gòu),依靠固定的軟件關(guān)系,耦合程度很高,難以進(jìn)行拓展,功能上十分有限,不利于復(fù)用,無(wú)法給運(yùn)營(yíng)商帶來(lái)數(shù)字化轉(zhuǎn)型的收益。
(3)4G時(shí)代,運(yùn)營(yíng)商的設(shè)備多以廠家的專用一體化軟硬件設(shè)備為主,運(yùn)維上存在很大的局限性,依賴廠家進(jìn)行維護(hù)。每當(dāng)這些設(shè)備出現(xiàn)故障時(shí),運(yùn)營(yíng)商的運(yùn)維人員往往無(wú)法自行處理,需要聯(lián)系廠家的運(yùn)維人員解決問(wèn)題,這樣的方式存在時(shí)間,空間以及溝通上的效率問(wèn)題,也無(wú)法獲得處理問(wèn)題的自主權(quán)。
以上種種問(wèn)題都抑制著運(yùn)維工作的有效開(kāi)展,因此,進(jìn)入5G時(shí)代,面對(duì)全新的環(huán)境,運(yùn)維人員需要以嶄新的方式,從互聯(lián)網(wǎng)行業(yè)中汲取經(jīng)驗(yàn),通過(guò)更加高效敏捷的運(yùn)維模式,迎接挑戰(zhàn)。
5G時(shí)代即將到來(lái),因此對(duì)確保業(yè)務(wù)安全順暢的運(yùn)維工作也提出了新的要求。
5G引入了切片的概念。在5G網(wǎng)絡(luò)里,不僅承載著傳統(tǒng)的通話,上網(wǎng)類業(yè)務(wù),還增加了VR/AR,智慧城市、工業(yè)互聯(lián)網(wǎng)、無(wú)人駕駛、應(yīng)急安全等許多全新的應(yīng)用場(chǎng)景,為了更好地對(duì)這些應(yīng)用進(jìn)行分門(mén)別類地服務(wù),ITU從eMBB(增強(qiáng)型移動(dòng)寬帶)、mMTC(海量機(jī)器類通信)、uRLLC(超可靠、低時(shí)延通信)的三大應(yīng)用場(chǎng)景上做出了一定規(guī)劃。運(yùn)維人員需要對(duì)切片的整個(gè)生命周期進(jìn)行管理,如設(shè)計(jì)、部署、保障等,為用戶提供定制的切片服務(wù)。
與以往不同,5G網(wǎng)絡(luò)不再使用大型基站的布建架構(gòu),而是使用高密度的小型基站,這樣更有利于讓電信營(yíng)運(yùn)商能以最具成本效益的方式彈性組網(wǎng),從而提高網(wǎng)絡(luò)密度與覆蓋范圍。由于使用了新技術(shù)特性,基站復(fù)雜度大幅提升,維護(hù)成本和維護(hù)難度也隨之增大。針對(duì)這一點(diǎn),如何高效地進(jìn)行日常維護(hù),以及故障處理,成為運(yùn)營(yíng)商控制成本的關(guān)鍵。
在5G時(shí)代,SDN/NFV技術(shù)使得軟硬件解耦,運(yùn)營(yíng)商不再受制于廠家的專用一體化設(shè)備,使用通用的X86服務(wù)器代替專用設(shè)備,使得運(yùn)維的操作空間大大增加,運(yùn)維人員可以將精力更多地放在對(duì)于統(tǒng)一架構(gòu)的維護(hù)上,而不需要花費(fèi)大量資源對(duì)部分設(shè)備進(jìn)行單獨(dú)的處理。面對(duì)種類繁多的軟件,虛機(jī),網(wǎng)元,如何有效地保障其正常運(yùn)行,是5G新環(huán)境下的一個(gè)新挑戰(zhàn)。
5G時(shí)代,運(yùn)維最需要突破的思想便是從傳統(tǒng)的CT向IT靠攏,IT進(jìn)入各行各業(yè)已是大勢(shì)所趨,利用IT技術(shù)可以解決很多過(guò)去依靠人工重復(fù)勞動(dòng)才能處理的問(wèn)題,縮短時(shí)間的同時(shí)降低了成本。
現(xiàn)如今運(yùn)營(yíng)商也開(kāi)始加大自研力度,自主開(kāi)發(fā)運(yùn)維工具,因此更應(yīng)向IT行業(yè)學(xué)習(xí),例如將DevOps應(yīng)用于運(yùn)營(yíng)商的運(yùn)營(yíng)維護(hù)工作之中。如今,運(yùn)營(yíng)商運(yùn)維工作的一個(gè)痛點(diǎn),就是業(yè)務(wù)上線時(shí)間太長(zhǎng),傳統(tǒng)網(wǎng)絡(luò)的業(yè)務(wù)上線流程,從通過(guò)ITU標(biāo)準(zhǔn),到廠家測(cè)試,再到工信部測(cè)試入網(wǎng),最后進(jìn)行網(wǎng)元測(cè)試部署,整個(gè)過(guò)程,前后可能需要長(zhǎng)達(dá)8個(gè)月的時(shí)間,而且,通信網(wǎng)中存在不同廠家的網(wǎng)元,而不同廠家之間的開(kāi)發(fā)能力,測(cè)試能力也不盡相同,因此很容易影響運(yùn)營(yíng)商的業(yè)務(wù)[1]。這樣的復(fù)雜度,決定了運(yùn)營(yíng)商業(yè)務(wù)的上線難度將和IT企業(yè)完全不同。而由于5G帶來(lái)的硬件架構(gòu)改變,即軟硬件解耦,使用x86通用硬件,讓運(yùn)營(yíng)商的自研、自維有了更大的空間。因此,將DevOps的理念應(yīng)用于運(yùn)營(yíng)商的自主開(kāi)發(fā)運(yùn)維中,可以有效提升產(chǎn)品質(zhì)量,縮短開(kāi)發(fā)周期。
在過(guò)去,由于廠商之間設(shè)備的獨(dú)立性,各種維護(hù)、監(jiān)控操作都必須為不同的廠家進(jìn)行單獨(dú)的配套。而在5G時(shí)代,設(shè)備數(shù)量成倍增加,過(guò)去的方式難以承受如此大的運(yùn)維壓力,因此,需要一個(gè)將各廠商的設(shè)備統(tǒng)一起來(lái)的平臺(tái),方便運(yùn)營(yíng)商進(jìn)行統(tǒng)一的管理[2]。
在5G時(shí)代,網(wǎng)速有了質(zhì)的飛躍,因此許多過(guò)去因?yàn)榫W(wǎng)絡(luò)而收到限制的技術(shù)可以開(kāi)始使用。
切片是5G網(wǎng)絡(luò)的重中之重,如圖1所示,切片實(shí)例的生命周期管理包括設(shè)計(jì)、配置、激活、去激活、修改、終結(jié)等[3],因此,對(duì)于切片的運(yùn)維,需要包括切片生命周期管理的全部功能。
圖1 切片的生命周期
故障告警處理方面,在5G時(shí)代,設(shè)備數(shù)量大大增加,產(chǎn)生的告警數(shù)量也急劇增加,面對(duì)海量的告警,告警關(guān)聯(lián),告警壓縮就顯得格外重要,在層層疊疊的告警中尋找其根源成為了告警處理的關(guān)鍵。
對(duì)此,可以使用機(jī)器學(xué)習(xí)算法,利用歷史告警進(jìn)行分析,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取出與告警分析相關(guān)的信息,然后去噪,去重,聚合,并進(jìn)行二值化,時(shí)序化處理,將告警信息提煉為分析所使用的數(shù)據(jù)字典。
然后使用如Apriori,或者FP-Growth等相關(guān)算法[4],分析出告警之間的因果關(guān)系,提煉出關(guān)聯(lián)規(guī)則,建立告警關(guān)聯(lián)知識(shí)庫(kù),并進(jìn)行一定的人工干預(yù),結(jié)合已有的專家規(guī)則,對(duì)知識(shí)庫(kù)進(jìn)行完善和調(diào)整,構(gòu)建出告警關(guān)聯(lián)的規(guī)則模型。
將知識(shí)庫(kù)部署在網(wǎng)管系統(tǒng)中,之后產(chǎn)生新的告警時(shí),便可使用知識(shí)庫(kù)的規(guī)則和模型進(jìn)行處理判斷,實(shí)現(xiàn)告警關(guān)聯(lián)和壓縮,完整流程如圖2所示。這樣降低了對(duì)人工專家規(guī)則庫(kù)的依賴,能夠從數(shù)量龐大的告警中快速定位故障,迅速解決,也可以規(guī)避一些人工分析與操作帶來(lái)的意料之外的異常。
圖2 基于機(jī)器學(xué)習(xí)的規(guī)則挖掘
此外,機(jī)器學(xué)習(xí)同樣可以應(yīng)用于對(duì)故障的預(yù)測(cè)。設(shè)備在出現(xiàn)故障前,往往在性能數(shù)據(jù)中存在一些異常情況。通過(guò)對(duì)歷史告警、日志及性能數(shù)據(jù)進(jìn)行分析,可以得到故障出現(xiàn)的一些特征值,將其存入知識(shí)庫(kù)中。在日常巡檢中,通過(guò)定時(shí)主動(dòng)采集性能數(shù)據(jù),可以獲得當(dāng)前設(shè)備狀態(tài)的數(shù)值,與知識(shí)庫(kù)中分析得到的結(jié)果進(jìn)行比對(duì),對(duì)符合故障條件的情況進(jìn)行提前告警,預(yù)先消除故障,如圖3所示。
圖3 故障預(yù)測(cè)
與傳統(tǒng)的被動(dòng)發(fā)現(xiàn)異常,等待告警上報(bào)相比,主動(dòng)式異常檢測(cè)可以使異常的發(fā)現(xiàn)時(shí)間大大縮短,結(jié)合告警關(guān)聯(lián)和日志分析,降低故障的發(fā)生率,減少因故障發(fā)生而產(chǎn)生的工作量。
在實(shí)現(xiàn)了告警關(guān)聯(lián)和故障預(yù)測(cè)之后,便可以實(shí)施故障自愈。建立基于歷史故障處理的知識(shí)庫(kù),并制定處理策略。之后根據(jù)告警關(guān)聯(lián)獲得的結(jié)果,獲得故障預(yù)測(cè)得到的信息,選擇對(duì)應(yīng)的策略進(jìn)行處理。為此,可以制定一些操作的模板,如重啟,擴(kuò)容等重復(fù)性操作,可以通過(guò)建立模板來(lái)實(shí)現(xiàn)。在發(fā)現(xiàn)潛在的故障,或者出現(xiàn)故障之后,先通過(guò)故障自愈系統(tǒng)進(jìn)行處理,若處理策略使用后仍然無(wú)法解決問(wèn)題,再上報(bào)人工處理。這樣可以大幅減少運(yùn)維人員的工作量,也可以加快故障處理的速度。
在應(yīng)用開(kāi)始部署的時(shí)候,需要運(yùn)維人員對(duì)環(huán)境參數(shù)進(jìn)行配置,只有正確的配置才能發(fā)揮出應(yīng)用的全部功能,而不同的環(huán)境,不同的應(yīng)用所需的環(huán)境參數(shù)大相徑庭。而日后在5G環(huán)境下,大量應(yīng)用不斷上線,僅僅靠運(yùn)維人員進(jìn)行環(huán)境配置,將會(huì)需要非常長(zhǎng)的時(shí)間,而且在日后環(huán)境發(fā)生變化時(shí),依靠運(yùn)維人員手工修改也非常麻煩。因此,需要建立網(wǎng)絡(luò)環(huán)境的模型,實(shí)現(xiàn)參數(shù)的自動(dòng)配置,并且能夠根據(jù)業(yè)務(wù)情況進(jìn)行調(diào)整,實(shí)現(xiàn)網(wǎng)絡(luò)負(fù)載均衡[5]。
綜合告警關(guān)聯(lián),故障預(yù)測(cè),故障自愈等功能,可以建立一個(gè)故障監(jiān)控自動(dòng)處理的智能集成平臺(tái),對(duì)網(wǎng)絡(luò)進(jìn)行全方面的統(tǒng)一管理維護(hù)。
目前,距離實(shí)現(xiàn)5G自動(dòng)化、智能化運(yùn)維,仍然存在著一些問(wèn)題需要解決。
(1)自動(dòng)化,智能化必然離不開(kāi)機(jī)器學(xué)習(xí),AI等技術(shù)。而這些技術(shù)需要足夠的數(shù)據(jù)作為基礎(chǔ)[6]。然而,目前的告警、性能以及日志數(shù)據(jù)都缺乏足夠的標(biāo)注信息,在現(xiàn)有的生產(chǎn)環(huán)境中,并沒(méi)有儲(chǔ)備大量的故障根因類的標(biāo)注,通過(guò)聚類,運(yùn)算得出的根因判別難以有大量的驗(yàn)證集進(jìn)行驗(yàn)證。
因此,需要從基層設(shè)備開(kāi)始進(jìn)行更新,改變現(xiàn)有的數(shù)據(jù)采集方式,告警上報(bào)格式以及日志格式,實(shí)現(xiàn)采集存儲(chǔ)集中化、格式規(guī)范化、標(biāo)注有效化,使之符合未來(lái)數(shù)據(jù)分析的需求。
(2)AI技術(shù)無(wú)法獨(dú)立發(fā)揮價(jià)值,需要其它基礎(chǔ)能力的支撐。AI是決策的大腦,需要云,大數(shù)據(jù),SDN等基礎(chǔ)核心能力的支撐,才能發(fā)揮大腦的作用。因此,需要將AI與運(yùn)營(yíng)商相關(guān)技術(shù)結(jié)合起來(lái),才能最大程度發(fā)揮其作用,用足夠的基礎(chǔ)能力建設(shè)為AI保駕護(hù)航。
同時(shí),AI技術(shù)也有其局限性,例如,對(duì)場(chǎng)景較為敏感,部分條件的改變可導(dǎo)致需要建立一個(gè)全新的模型。對(duì)此,應(yīng)針對(duì)不同的環(huán)境,盡早建立相對(duì)應(yīng)的算法模型,從而支撐故障自愈的實(shí)現(xiàn)。
(3)使用x86服務(wù)器代替?zhèn)鹘y(tǒng)的廠商專用設(shè)備,雖然成本大幅降低,維護(hù)難度也減小,但勢(shì)必在性能上有所下降,因此需要使用更多的機(jī)器,需要運(yùn)營(yíng)商在設(shè)備、運(yùn)維成本與性能上進(jìn)行平衡。
無(wú)人值守化運(yùn)維,是自動(dòng)化,智能化運(yùn)維的最終目標(biāo),雖然在短期內(nèi)無(wú)法實(shí)現(xiàn),但可以逐步完成部分功能。在即將到來(lái)的5G時(shí)代,運(yùn)維工作會(huì)面對(duì)前所未有的壓力,但也將獲得全新的思想和技術(shù)迎接挑戰(zhàn)。
本文從運(yùn)維現(xiàn)狀,5G運(yùn)維的需求,新思想,新技術(shù)以及面臨的問(wèn)題進(jìn)行了分析。如今的運(yùn)維仍然以人工運(yùn)維為主,人工重復(fù)的工作量較大,且難以及時(shí)處理問(wèn)題。而在5G時(shí)代,面臨著工作量加大,處理時(shí)間減少,多廠商設(shè)備統(tǒng)一管理等困難,因此,需要從思想上進(jìn)行轉(zhuǎn)變,引入IT技術(shù),利用5G網(wǎng)絡(luò)的優(yōu)勢(shì),使用過(guò)去無(wú)法實(shí)現(xiàn)的運(yùn)維方式,如引入機(jī)器學(xué)習(xí),AI等技術(shù),實(shí)現(xiàn)告警關(guān)聯(lián)、故障預(yù)測(cè),故障自愈等方面的自動(dòng)化,智能化,從而滿足新時(shí)代的需求,助力運(yùn)營(yíng)商在5G新時(shí)代實(shí)現(xiàn)騰飛。