金建國, 范世權(quán), 董玉娟, 厲 煒
(浙江德塔森特?cái)?shù)據(jù)技術(shù)有限公司,寧波 315000)
隨著信息技術(shù)和信息化建設(shè)的快速發(fā)展,各行各業(yè)在數(shù)字化、智能化轉(zhuǎn)型中建設(shè)了大量網(wǎng)絡(luò)化的業(yè)務(wù)系統(tǒng),IT基礎(chǔ)架構(gòu)規(guī)模也隨之不斷擴(kuò)大,較之以往更為復(fù)雜化、異構(gòu)化。龐大且異構(gòu)的IT基礎(chǔ)架構(gòu)給運(yùn)維管理帶來更大的壓力和挑戰(zhàn),國內(nèi)多數(shù)網(wǎng)絡(luò)運(yùn)營主體單位都面臨以下幾類運(yùn)維管理難題。
(1)自主運(yùn)維單位依賴內(nèi)部IT人員的技術(shù)和經(jīng)驗(yàn)進(jìn)行純手工管理的被動(dòng)“救火式”運(yùn)維,缺乏可視化運(yùn)維監(jiān)管平臺,運(yùn)維效率低。運(yùn)維工作往往只有結(jié)果,缺少過程審計(jì),導(dǎo)致發(fā)生的運(yùn)維事件、問題難以溯源,責(zé)任無法追究,難以管理。
(2)隨著系統(tǒng)的不斷升級,IT基礎(chǔ)架構(gòu)中存在大量不同年代、品牌和型號的產(chǎn)品,需要協(xié)調(diào)不同廠商解決問題,增加運(yùn)維復(fù)雜度,IT技術(shù)人員壓力大。
(3)需投入大量財(cái)力人力培養(yǎng)專業(yè)IT技術(shù)人員組建自主運(yùn)維團(tuán)隊(duì),而技術(shù)人員一旦離職,可能會(huì)造成系統(tǒng)維護(hù)的困難。
(4)自主運(yùn)維團(tuán)隊(duì)需要的專業(yè)技術(shù)人才要有相應(yīng)的技能、工作經(jīng)驗(yàn)和管理經(jīng)驗(yàn),專業(yè)需要細(xì)分涵蓋硬件、網(wǎng)絡(luò)、虛擬化、操作系統(tǒng)、存儲、數(shù)據(jù)庫、信息安全等。運(yùn)營單位難以快速組建一支專業(yè)的運(yùn)維隊(duì)伍,技術(shù)人員短缺,導(dǎo)致運(yùn)維中出現(xiàn)復(fù)雜問題無法及時(shí)處理,甚至無法處理。
(5)一些單位依賴系統(tǒng)集成商的運(yùn)維服務(wù),而系統(tǒng)集成商通常專注于信息系統(tǒng)的集成建設(shè),核心能力并非IT基礎(chǔ)架構(gòu)的運(yùn)行優(yōu)化和故障排除,不同服務(wù)商的專業(yè)服務(wù)能力也參差不齊,存在資源協(xié)調(diào)難、缺乏監(jiān)管流程、服務(wù)質(zhì)量差異等問題。且服務(wù)商自身綜合運(yùn)營成本高,導(dǎo)致運(yùn)營單位運(yùn)維成本也很高。
面對日漸復(fù)雜化的IT基礎(chǔ)架構(gòu),集合了專業(yè)服務(wù)工程師團(tuán)隊(duì)的第三方運(yùn)維服務(wù)商的綜合能力優(yōu)勢愈發(fā)凸顯,運(yùn)營主體通過外包引入專業(yè)的第三方運(yùn)維服務(wù)商,負(fù)責(zé)IT基礎(chǔ)架構(gòu)的監(jiān)控運(yùn)維、優(yōu)化升級等工作,充分利用外部資源的優(yōu)勢以降低運(yùn)營風(fēng)險(xiǎn)、提高管理效率。因?yàn)榈谌竭\(yùn)維服務(wù)商專注于運(yùn)維服務(wù)領(lǐng)域,運(yùn)維對象能夠覆蓋各類主流的軟硬件產(chǎn)品,能提供本地化和一站式的運(yùn)維服務(wù),具有更高的性價(jià)比,第三方運(yùn)維將成為未來IT基礎(chǔ)架構(gòu)運(yùn)維服務(wù)的發(fā)展趨勢。
在各種運(yùn)維難題的困擾下,第三方運(yùn)維服務(wù)商提出了IT基礎(chǔ)架構(gòu)云運(yùn)維平臺方案?;谠朴?jì)算、大數(shù)據(jù)技術(shù)建成的集成運(yùn)維管理(包含硬件設(shè)施監(jiān)控、應(yīng)用性能監(jiān)控、網(wǎng)絡(luò)性能監(jiān)控、IT資產(chǎn)和IT服務(wù)管理等)、運(yùn)維分析等功能以業(yè)務(wù)為導(dǎo)向的綜合監(jiān)控管理平臺,是云運(yùn)維的核心。其中,IT運(yùn)維管理包括硬件設(shè)施監(jiān)控、應(yīng)用性能監(jiān)控、網(wǎng)絡(luò)性能監(jiān)控、IT資產(chǎn)和IT服務(wù)管理(如ITSM和CMDB)等,使用工具軟件對IT基礎(chǔ)架構(gòu)進(jìn)行實(shí)時(shí)有效的監(jiān)控、管理并提供反饋,保障IT基礎(chǔ)架構(gòu)以最佳狀態(tài)穩(wěn)定運(yùn)行;運(yùn)維分析通過運(yùn)用大數(shù)據(jù)、人工智能等技術(shù)手段,預(yù)先發(fā)現(xiàn)信息系統(tǒng)運(yùn)行中潛在的問題,協(xié)助運(yùn)營單位做出有效的業(yè)務(wù)決策,降低運(yùn)營管理風(fēng)險(xiǎn)。
建設(shè)綜合監(jiān)控管理平臺,能幫助運(yùn)營單位在網(wǎng)絡(luò)設(shè)備和業(yè)務(wù)應(yīng)用的運(yùn)行監(jiān)控管理的基礎(chǔ)上,實(shí)現(xiàn)統(tǒng)一運(yùn)維管理。云運(yùn)維平臺通過梳理業(yè)務(wù)資產(chǎn),搭建整體的業(yè)務(wù)系統(tǒng)資產(chǎn)管理系統(tǒng),可實(shí)現(xiàn)資產(chǎn)的全生命周期管理;加強(qiáng)運(yùn)維的主動(dòng)性,并構(gòu)建云運(yùn)維平臺內(nèi)各用戶獨(dú)立的管理監(jiān)控體系,通過云端的集中監(jiān)控與運(yùn)維審計(jì)系統(tǒng),可實(shí)現(xiàn)整個(gè)云運(yùn)維平臺的集中監(jiān)控和統(tǒng)一操作,改善被動(dòng)運(yùn)維的局面,加強(qiáng)整體運(yùn)維效率,將分散的業(yè)務(wù)系統(tǒng)統(tǒng)一集中管理。
云運(yùn)維平臺通過參照ITIL的規(guī)范,對云端的運(yùn)維管理工作進(jìn)行合理優(yōu)化、改善管理服務(wù)、建立有序高效的協(xié)同合作體系,使運(yùn)維服務(wù)具備更高的工作效率,同時(shí)把運(yùn)維過程中的運(yùn)維經(jīng)驗(yàn)形成云端知識庫,實(shí)現(xiàn)海量的知識積累和共享機(jī)制,讓云端運(yùn)維更好、更健全地發(fā)展。
云計(jì)算改變了傳統(tǒng)的數(shù)據(jù)處理模式,提升了計(jì)算效率的同時(shí)也給運(yùn)維管理工作帶來了更多挑戰(zhàn)。IT設(shè)備數(shù)量增加,業(yè)務(wù)系統(tǒng)愈發(fā)復(fù)雜,可視化、標(biāo)準(zhǔn)化、流程化、平臺化的綜合運(yùn)維管理必將成為IT基礎(chǔ)架構(gòu)運(yùn)維的新趨勢,其特點(diǎn)和優(yōu)勢包括以下幾點(diǎn)。
(1)基于B/S模型的可視化管理工作臺,用戶可隨需隨時(shí)提報(bào)故障和查閱服務(wù)信息,實(shí)時(shí)、全面掌握故障處理狀態(tài),在線閱覽或下載各種運(yùn)維服務(wù)報(bào)表。
(2)基于ITIL的運(yùn)維作業(yè)與流程管理,合理調(diào)度運(yùn)維工程師為用戶提供及時(shí)高效的服務(wù)體驗(yàn),用戶可隨時(shí)了解故障處理過程。
(3)基于云計(jì)算的數(shù)據(jù)接入和處理平臺,提供低延時(shí)、高性能、高可用的數(shù)據(jù)接入能力和數(shù)據(jù)處理能力。
(4)通過秒級的告警上傳、實(shí)時(shí)的運(yùn)維告警處理,可以實(shí)現(xiàn)在極短時(shí)間內(nèi)發(fā)現(xiàn)定位并解決問題,保障運(yùn)營單位業(yè)務(wù)系統(tǒng)正常運(yùn)轉(zhuǎn)。
(5)云運(yùn)維提供“7×24h遠(yuǎn)程監(jiān)控值守”“定期巡檢”服務(wù),管理人員能及時(shí)準(zhǔn)確得到報(bào)警信息并采取措施,提高了數(shù)據(jù)中心運(yùn)行的可靠性,減輕運(yùn)維管理人員壓力,節(jié)約運(yùn)營單位的用人成本。
(6)云運(yùn)維的“遠(yuǎn)程監(jiān)控值守”“運(yùn)行分析報(bào)告”等服務(wù),及時(shí)發(fā)現(xiàn)、提前預(yù)防,為保障IT設(shè)備、業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行起到重要作用,也為幫助運(yùn)營單位做到專業(yè)化、精細(xì)化運(yùn)維管理提供決策依據(jù)。
在物聯(lián)網(wǎng)、5G的發(fā)展和推動(dòng)下,運(yùn)維監(jiān)控?cái)?shù)據(jù)的采集渠道和涉及的數(shù)據(jù)類型會(huì)越來越多,數(shù)據(jù)采集端產(chǎn)生的數(shù)據(jù)量將會(huì)更大。完全基于云的傳統(tǒng)模型中,將大量可監(jiān)管設(shè)備產(chǎn)生的監(jiān)控?cái)?shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)轿恢幂^為集中的云平臺上,需要超大帶寬和回傳容量,數(shù)據(jù)處理也會(huì)產(chǎn)生成本。
基于邊緣計(jì)算構(gòu)建“云 + 邊 + 端”架構(gòu)的云運(yùn)維平臺(圖1),邊側(cè)更接近數(shù)據(jù)生成或使用數(shù)據(jù)的設(shè)備,負(fù)責(zé)計(jì)算、處理、存儲和網(wǎng)絡(luò)傳輸,將設(shè)備產(chǎn)生的大量無關(guān)緊要的數(shù)據(jù)在本地進(jìn)行篩選處理,減少需要傳輸?shù)臄?shù)據(jù)量,這會(huì)明顯提升數(shù)據(jù)處理的速度和保障數(shù)據(jù)的應(yīng)用邊界。而且邊緣計(jì)算能提供更多的通信路徑(相比于集中模型)以保障數(shù)據(jù)通信的彈性。
圖1 基于邊緣計(jì)算的云運(yùn)維平臺
(1) “端”側(cè)實(shí)現(xiàn)數(shù)據(jù)采集、實(shí)時(shí)監(jiān)控和告警感知,對IT基礎(chǔ)架構(gòu)進(jìn)行集中監(jiān)管,提升運(yùn)維管理效率進(jìn)而提高IT基礎(chǔ)架構(gòu)的可靠性和可用性。
1)集中監(jiān)控子系統(tǒng)利用多種遠(yuǎn)程運(yùn)維、管理協(xié)議或接口實(shí)現(xiàn)對各種設(shè)備、系統(tǒng)及應(yīng)用等的數(shù)據(jù)采集,感知獲取設(shè)備物理狀態(tài)、設(shè)備間鏈路狀態(tài)和鏈路質(zhì)量、應(yīng)用環(huán)境等性能指標(biāo)并進(jìn)行實(shí)時(shí)監(jiān)測和閾值告警,實(shí)時(shí)、準(zhǔn)確、全面地監(jiān)控當(dāng)前系統(tǒng)運(yùn)行狀況,實(shí)現(xiàn)集中監(jiān)控展示、實(shí)時(shí)告警通知。2)資產(chǎn)管理子系統(tǒng)實(shí)現(xiàn)對信息化資產(chǎn)全生命周期的管控。3)操作審計(jì)子系統(tǒng)實(shí)現(xiàn)對運(yùn)維過程的安全管控,確?!笆虑绊殞徍?,事后可追溯”得以落實(shí),降低人為失誤概率,提高事故補(bǔ)救率。
(2)“邊”側(cè)作為云運(yùn)維平臺近用戶側(cè)部署的數(shù)據(jù)處理節(jié)點(diǎn),負(fù)責(zé)各個(gè)業(yè)務(wù)區(qū)用戶端的上傳數(shù)據(jù)篩選處理、安全傳輸、遠(yuǎn)程運(yùn)維。
基于邊緣計(jì)算技術(shù),“邊”側(cè)系統(tǒng)節(jié)點(diǎn)對端側(cè)上傳的數(shù)據(jù)篩查、智能排錯(cuò)、誤報(bào)過濾等智能分析處理,刪除重復(fù)數(shù)據(jù)、精簡數(shù)據(jù)大小,提高數(shù)據(jù)處理和中轉(zhuǎn)傳輸能力。集成虛擬堡壘機(jī)功能,實(shí)現(xiàn)遠(yuǎn)程運(yùn)維準(zhǔn)入和安全審計(jì)管控。
(3)“云”側(cè)是云運(yùn)維平臺的能力中心,負(fù)責(zé)大數(shù)據(jù)分析、流程管理、人員管理、問題處理、7×24 h監(jiān)控等運(yùn)維能力。運(yùn)用人工智能數(shù)據(jù)模型,通過不斷學(xué)習(xí)和訓(xùn)練,將收集的數(shù)據(jù)進(jìn)行綜合分析,及時(shí)發(fā)現(xiàn)各個(gè)設(shè)備、業(yè)務(wù)存在的資源瓶頸和性能瓶頸,對可能產(chǎn)生的問題進(jìn)行預(yù)測分析,自動(dòng)檢測和故障定位、智能分析問題根源,識別設(shè)備、系統(tǒng)運(yùn)行潛在的故障風(fēng)險(xiǎn)并做出主動(dòng)預(yù)警。