張康宏,艾 林,張芳濤,段 波,陳 磊
(中國移動通信集團云南有限公司,云南 昆明 650000)
云服務平臺是運營商為提升通信服務質量所搭建的系統(tǒng)平臺,該平臺在互聯(lián)網框架的基礎上,通過層次化、模塊化的形式構建各業(yè)務的服務模塊。為促進云服務平臺的高效運作,更好地服務廣大用戶,在搭建平臺的同時,還應當制定配套的運維服務模式[1],結合云平臺的運作規(guī)律,制定完善的運維制度,以服務客戶為中心,形成持續(xù)的平臺質量控制,使云服務平臺始終處于穩(wěn)定的運行狀態(tài)。
云服務平臺的運維服務工作應當涵蓋平臺的各主要運行環(huán)節(jié),有效防控各環(huán)節(jié)中可能出現(xiàn)的問題,降低故障的發(fā)生率。當出現(xiàn)問題時,也有一套規(guī)范的應急預案,及時響應并按照應急預案加以處理,使問題以最快速度得到解決,將對云服務平臺的影響降至最低[2]。總之,運維服務就是以保障云服務平臺的穩(wěn)定運行為主要原則的基礎性工作,需要制定規(guī)范化的制度,各類問題的防控及應對辦法,為實際工作提供具有指導性的工作參考。
運維服務工作需要設置監(jiān)控警告崗位,負責云平臺的24小時監(jiān)控,及時監(jiān)控系統(tǒng)故障,以及受理隨時可能出現(xiàn)的客戶投訴問題,安排人員輪崗[3]。此外,還應設置負責硬件維護的崗位,負責平臺服務器、網絡等硬件的日常維護和故障維修,打造一個云支撐團隊。
4.1.1 售后模塊巡檢
定期巡檢。對云服務平臺資源池開展定期巡檢,防止因為故障問題使重要客戶資源信息受損,這些信息是售后服務的重要參考。在巡檢時主要針對相關軟硬件的運行狀態(tài)、資源使用狀況以及資源信息負載情況,定期清理多余的資源信息,避免占用空間。
故障處理。通過定期的巡檢工作,能夠及時發(fā)現(xiàn)存在故障的部分,運維人員崗前培訓內容包括各類故障的處理辦法,對于一些比較常見的故障可以自行處理。如果是技術難度比較大的故障需要立即上報,由技術人員進行處理。如果是硬件損壞,則需要盡快聯(lián)系原廠家。
設備運行狀態(tài)統(tǒng)計。云服務平臺能夠統(tǒng)計平臺的運行狀況,如空間占用率、資源使用率等,運維人員可通過這些信息了解動態(tài)的系統(tǒng)狀況,為運維工作提供參考。
4.1.2 售后支持
解答問題。在售后服務中,客戶常會遇到一些不明白的地方,就會向售后人員咨詢,運維人員接到客戶的咨詢后給予解答。這就要求運維人員能夠對常見的問題有一定了解,如果遇到自己難以解答的問題,應及時反饋給通信產品技術人員,為客戶給出更加專業(yè)的答案。
業(yè)務變更??蛻粲X得當前通信產品不太理想,或是想要添加或取消某項業(yè)務,就會提出業(yè)務變更的需求,運維人員根據客戶的變更需求進行處理,并審核客戶是否滿足使用某一新業(yè)務的條件,如果滿足條件,就為其變更業(yè)務,進行業(yè)務的開通、取消等操作。
故障協(xié)調處理。遇到客戶報修或是在日常運維工作中發(fā)現(xiàn)了系統(tǒng)存在的問題,需要及時反饋,如果技術難度比較大,就需要聯(lián)系云服務平臺研發(fā)廠家,由廠家專員指導,運維人員配合,盡快將故障問題予以解除。
4.2.1 云資源開通
資源規(guī)劃。結合客戶的需要為客戶提供合理的云資源服務規(guī)劃,配置相關的云資源服務資源。
開通。一是為客戶開通已有的固定云服務資源模板,通信公司本身就有一些備選的常用服務模板方案,客戶覺得有些模板就能滿足自己的需要,就可以直接為其開通。運維人員直接選取客戶所需要的某一模板方案,在配置過程中監(jiān)控是否存在故障,配置完成后檢查分配日志記錄等。二是為客戶開通自定義的云服務資源模式,這是通信公司本身沒有的模板方案,客戶想自定義添加功能、配置資源。按照客戶的需求請答案,將云資源逐項分配,在分配的過程中檢查是否存在問題,配置完成并檢查沒有問題后完成開通工作。
網絡配置。按照客戶的配置需求,為客戶分配網絡資源,如公網IP地址、內外網CDN以及負載均衡等相關網絡資源。當網絡資源配置結束后,檢查配置日志、測試資源狀態(tài),檢查沒有異常后再交給客戶。
4.2.2 專線開通及測試
專線開通。按照客戶的專線開通需要,協(xié)調專線接入的廠商為客戶開通專業(yè)服務,并全程監(jiān)督專線配置的工作進度,按照規(guī)定時間為客戶完成專線接入工作。
專線測試。開通完成后,對專線網絡進行運行測試,檢查是否存在問題,如果有問題就需要及時將問題向專線負責方反映,直到將問題有效解決。
硬件運行狀態(tài)檢查。定期對服務器的各項指示燈、CPU狀態(tài)、內存、硬盤、網卡以及HBA卡等的運行情況進行檢查,及時發(fā)現(xiàn)其中存在的問題。
系統(tǒng)檢查。對服務器的日志、磁盤、硬件驅動、交換分區(qū)、固件、補丁包版本等系統(tǒng)各部分進行定期的狀態(tài)檢查。
系統(tǒng)性能檢查。CPU利用率、內存占用率、網卡以及磁盤的使用性能等。
系統(tǒng)安全檢查。主要檢查系統(tǒng)日志、登錄日志、用戶操作日志,以及任務執(zhí)行日志,檢查各日常運行是否存在日常。
巡檢工作完成后,匯總存在的問題,或可能存在問題的部分,完成日常巡檢報告單的填寫。
操作系統(tǒng)的維護工作涵蓋操作系統(tǒng)管理、參數配置、性能優(yōu)化等內容。在日常中還應當做好備份工作,在進行系統(tǒng)參數重新配置、優(yōu)化前,應當先進行系統(tǒng)的備份,以預防配置和優(yōu)化出現(xiàn)錯誤。
工作流程見圖1。
圖1 服務器日常運維工作流程圖
(1)信息安全維護。云服務平臺中儲存著大量重要的客戶信息、系統(tǒng)信息等信息資源,為保證信息安全,系統(tǒng)中設置防火墻、VPN、漏洞掃查以及堡壘機等安全設備,通過這些設備來有效保護信息的安全。在為客戶開通服務、配置網絡資源的同時,需要啟動相關的安全設置,保護客戶的信息安全。
(2)安全漏洞掃查。運維人員需要定期對云服務平臺開展安全漏洞掃查工作,及時發(fā)現(xiàn)平臺中存在的安全漏洞,并對掃查結果進行分析。對于存在漏洞的部分,進行及時的漏洞修復、加固工作。對于新型漏洞問題,需要及時增加補丁,給予更高的技術支持。
4.7.1 數據備份
自動備份。云服務平臺會自帶自動備份功能,主要是配置文件、日志文件等,這類文件會由平臺自動完成備份。運維人員無須額外開展人工干預。但是需要定期檢查備份的存儲空間容量,為避免容量占用較多,應定期刪除較早的自動備份內容。如果存儲空間量不足,應當通過空間擴展、存儲介質升級等方式提高存儲容量。
手動備份。手動備份的目標主要是操作系統(tǒng)、系統(tǒng)軟硬件的配置文件、臨時文件以及一些不能由系統(tǒng)自動備份但也比較重要的數據。具體的備份方法就是利用磁盤、移動硬盤、光驅等保存介質,通過復制、拷貝等方式來及時完成備份工作。對于一些重要數據,務必要進行定期備份。在手動備份時,應當要有至少2個工作人員負責,如果是和客戶單位相關的信息備份,也應當由客戶單位代表一同陪同。為避免在備份工作中發(fā)生問題,還應當有技術人員參與,以應對可能出現(xiàn)的意外問題。
數據的恢復。當因出現(xiàn)使系統(tǒng)安全受到影響的大型事件,導致重要信息資源受到損壞時,可以通過自動備份和手動備份的數據進行修復,提取備份的數據來恢復系統(tǒng)平臺。
4.7.2 備份介質的管理
常用的備份介質主要包括有光盤、磁盤等,對這些存儲介質都需要進行妥善保存,并做好標記,由云服務平臺運維團隊集中專門保存。同時,要做好防潮、防蟲工作。為避免重要信息泄露,需要專人上鎖保管,不能私自調取。
(1)業(yè)務設備資產。這類設備資產主要有云主機、云網盤、物理主機以及云數據庫等支持云服務平臺正常運作的重要設備。
(2)網絡設備資產。這類設備資產主要有云平臺的虛擬網絡設備、SDN相關軟件以及網絡物理設備等。
(3)安全設備資產。這類資產主要有防火墻、堡壘機、漏洞掃查、VPN以及WAF等保護云服務平臺安全運行的設備硬件及軟件。運維人員需要定期對上述三方面的設備進行檢修,檢查設備的運行狀態(tài)等,對于老舊的設備需要及時上報,并重新采購,以維持正常的平臺運行安全。
云平臺的運維團隊在編制應急處置方案,方案中要包括常見突發(fā)故障的應急處置辦法,需要有細致、明確的內容,有參考性、指導性。此外,排班23小時監(jiān)控,建立通暢的聯(lián)絡通道,當出現(xiàn)突發(fā)事故時,要立即通知運維團隊啟動應急處置預案。各類故障的應急處置都是以解除故障、恢復使用為首要目標。
本文從云服務平臺的售中售后支撐、網絡運維、設備維護以及網絡安全等方面制定運維服務模式,在云服務平臺投入使用的同時,啟動配套的運維服務模式,有效防控云平臺各運作環(huán)節(jié)故障的。當出現(xiàn)突發(fā)事件時能快速響應,啟動應急處理方案,從而保障云服務平臺的穩(wěn)定運行,為廣大客戶提供更好的服務。■