吳道林
(貴州廣播電視臺,貴州 貴陽 550002)
據(jù)工業(yè)和信息化部數(shù)據(jù),截至2022年4月,我國IPTV總用戶數(shù)達3.61億戶,IPTV已正式進入主流媒體陣列。當前,IPTV具有播出結(jié)構(gòu)逐漸IP化,信號處理復雜化,傳輸方式多樣化,播出節(jié)目海量化等發(fā)展趨勢。在全IP化的系統(tǒng)中,每根線纜、每個設(shè)備均承載了大量的播出節(jié)目[1]。因此,國家廣播電視總局對IPTV集成播控平臺的安全播出要求越來越高。為進一步提高直播平臺的安全性和可靠性,減輕運維人員的工作壓力,提高故障應(yīng)急處置的效率,亟需建立綜合運維管理平臺?;诖?,本文對運維管理平臺的一般架構(gòu)和實際應(yīng)用進行詳細介紹。
綜合運維管理平臺主要由碼流質(zhì)量監(jiān)測系統(tǒng)、環(huán)境動力監(jiān)測系統(tǒng)及設(shè)備運行狀態(tài)監(jiān)測系統(tǒng)3大子系統(tǒng)組成。各子系統(tǒng)將數(shù)據(jù)實時采集匯總,經(jīng)過綜合判斷、處理分析過濾后,推送至綜合運維管理平臺,經(jīng)工作站圖形化處理后,以圖形化界面推送至監(jiān)控大屏進行直觀展示。整個管理平臺的構(gòu)成如圖1所示。
圖1 綜合運維管理平臺組成架構(gòu)
碼流監(jiān)測系統(tǒng)采用旁掛方式,將所有節(jié)點節(jié)目流,包含接收機、編碼器、切換器輸出的碼流數(shù)據(jù)采集后,經(jīng)過過濾分析匯總,送至綜合運維管理平臺,生成圖形化界面。任何一個節(jié)點的節(jié)目碼流質(zhì)量出現(xiàn)異常時,監(jiān)測界面會及時高亮告警,同時發(fā)出語音提示。
2.1.1 高質(zhì)量全方位監(jiān)測
信號質(zhì)量監(jiān)測系統(tǒng)采用IPMon視頻質(zhì)量監(jiān)測,4臺監(jiān)測服務(wù)器同時運行,監(jiān)測800余個組播地址對應(yīng)的節(jié)目。監(jiān)測探針軟件運行環(huán)境為X86 Windows/Linux系統(tǒng),主要監(jiān)測指標為CC連續(xù)計數(shù)錯誤、信號丟失、TR101-290P1、視頻畫面靜幀、EPSNR邊緣區(qū)域、組播碼流速率統(tǒng)計等;系統(tǒng)支持SPTS/MPTS分析、MPEG-2/H.264/H.265壓縮標準分析、HLS協(xié)議深度分析、TS 文件深度分析等功能[2]。
2.1.2 實時監(jiān)控+節(jié)點回查
信號質(zhì)量監(jiān)測系統(tǒng)全天7×24小時實時監(jiān)控運行,監(jiān)測界面以流水線的形式向左移動,界面支持多頻道和單個頻道面顯示。多頻道監(jiān)測界面以橫條顯示,每個橫條對應(yīng)一個節(jié)目信號,正常情況下橫條均是綠色,當節(jié)目信號有故障時,橫條上會有相應(yīng)的黃色豎條顯示。單頻道界面可以實時顯示碼流各項指標,包含碼率、視音頻參數(shù)等,如圖2所示。整個監(jiān)測系統(tǒng)支持告警情況以Email郵件形式發(fā)送給運維人員。
圖2 單個組播碼流監(jiān)測頁面
環(huán)境動力是整個IPTV集成播控直播平臺穩(wěn)定運行的基礎(chǔ)。傳統(tǒng)的機房環(huán)境狀態(tài)只能靠人工定時去巡查,這樣的巡查需大量的人力且不能全天24小時覆蓋,設(shè)備的穩(wěn)定運行存在一定的安全隱患。動力環(huán)境監(jiān)測系統(tǒng)的建設(shè),大大減少了人力定時去機房巡檢環(huán)境的頻率,為設(shè)備穩(wěn)定運行提供一個安全可靠的優(yōu)良環(huán)境。
整個動力監(jiān)測系統(tǒng)采用ARM架構(gòu)設(shè)計方案,在機房安裝具備RS-485、RS-232接口、紅外接口、模擬音頻采集接口,并支持TCP/IP、簡單網(wǎng)絡(luò)管 理 協(xié) 議(Simple Network Management Protocol,SNMP)、可 擴 展 標 記 語 言(Extensible Markup Language,XML)等協(xié)議的模塊來實現(xiàn)對環(huán)境數(shù)據(jù)的實時采集.采集數(shù)據(jù)包括整個機房不同位置的溫度、濕度、煙霧、水浸等,同時對不間斷電源(Uninterrupted Power Supply,UPS)、空調(diào)等動力設(shè)備的運行數(shù)據(jù)采集過濾分析匯總后,推送至綜合運維管理平臺,送至監(jiān)測大屏直觀展示。
運維人員可以根據(jù)實際需要,對溫濕度閾值進行設(shè)定。系統(tǒng)實時監(jiān)控溫濕度、煙感、水浸等數(shù)據(jù),如果其中一項或者多項數(shù)據(jù)超過設(shè)定閾值,觸發(fā)的報警信息會實時發(fā)送到主程序進行聲光報警,提醒運維人員及時處置,實際監(jiān)測界面如圖3所示。
圖3 動力環(huán)境實時監(jiān)測界面
直播平臺設(shè)備類型復雜,各種播出設(shè)備、網(wǎng)絡(luò)設(shè)備、傳輸設(shè)備等較多,每個設(shè)備的穩(wěn)定運行關(guān)乎著直播節(jié)目的安全播出。設(shè)備監(jiān)測系統(tǒng)對整個平臺設(shè)備運行數(shù)據(jù)進行實時采集,采集內(nèi)容包括各設(shè)備運行參數(shù)、溫度、內(nèi)存使用率、CPU占用率、端口流量峰值、端口狀態(tài)、鏈路狀態(tài)等。只要其中一項超過設(shè)定的閾值或者出現(xiàn)異常,系統(tǒng)都會及時發(fā)出聲光告警,提醒運維人員及時處置,同時發(fā)送遠程告警郵件,方便遠程維護管理。系統(tǒng)還重點監(jiān)測交換機和網(wǎng)絡(luò)安全設(shè)備的運行狀態(tài)。
2.3.1 交換機運行狀態(tài)監(jiān)測
交換機是整個直播平臺系統(tǒng)的核心設(shè)備,其運行的穩(wěn)定程度直接關(guān)系到所有節(jié)目的安全播出。交換機新上架后,運維人員只需將其對應(yīng)的型號寫在項目根目錄的xml文件夾中,即可在監(jiān)測界面查看到設(shè)備的基礎(chǔ)信息、端口流量、端口狀態(tài)、內(nèi)存及CPU占用率等?!岸丝跉v史流量統(tǒng)計”處,顯示端口近3小時、6小時、12小時、24小時的流量曲線圖,支持給單個端口配置流量閾值,可以配置端口最大最小閾值,也可以給端口起別名[3]。監(jiān)測界面如圖4所示。當端口時間流量超出最大閾值或者小于最小閾值時,系統(tǒng)均會發(fā)出聲光報警和遠程告警郵件。
圖4 交換機監(jiān)測界面
2.3.2 網(wǎng)絡(luò)安全設(shè)備監(jiān)測
在IP化播出環(huán)境中,網(wǎng)絡(luò)安全是整個直播平臺系統(tǒng)的重中之重。將網(wǎng)絡(luò)安全設(shè)備運行狀態(tài)納入綜合運維管理平臺,以圖形化的方式顯示,簡單明了,有異常時發(fā)出聲光報警,讓運維人員可以實時掌握系統(tǒng)的網(wǎng)絡(luò)安全性。
網(wǎng)絡(luò)安全設(shè)備監(jiān)測包含天清入侵防御系統(tǒng)、上網(wǎng)行為管理、天境脆弱性掃描與管理系統(tǒng)、數(shù)據(jù)庫審計系統(tǒng)等。對于防火墻設(shè)備,主要顯示CPU利用率、內(nèi)存使用率以及防火墻端口狀態(tài)。界面顯示的設(shè)備信息,包括名字、IP、CPU利用率和內(nèi)存使用率的閾值等都可以配置,可配置預(yù)警值和報警值兩級報警閾值。如果超過預(yù)警值,界面顯示的CPU利用率和內(nèi)存使用率會對應(yīng)顯示黃色標識;若是超過報警值,界面顯示的則是紅色標識。若監(jiān)測到端口故障,系統(tǒng)也會發(fā)出報警信息,同時向運維人員發(fā)送告警郵件[3]。監(jiān)測界面顯示如圖5所示。
圖5 網(wǎng)絡(luò)安全設(shè)備監(jiān)測界面
2.3.3 設(shè)備細節(jié)精準定位
設(shè)備監(jiān)測系統(tǒng)除對設(shè)備運行指標進行監(jiān)測外,同時將設(shè)備硬件信息全部納入運維平臺進行管理。運維人員可以方便快捷地查詢到每個設(shè)備所處的位置,包含地理位置、機房名稱、機架編號等,同時可以查詢到每個設(shè)備端口對應(yīng)的線纜編號、所屬組別地址段等[4]。為更方便地運維管理,綜合運維平臺中專門開發(fā)了設(shè)備二維碼管理系統(tǒng),將專用打印機連入系統(tǒng)后,即可選擇模板或者自定義編輯二維碼樣式,可以為每個設(shè)備生成獨立二維碼,運維人員只需將該二維碼貼在設(shè)備的機身上,需要了解設(shè)備業(yè)務(wù)信息時,只需使用掃描槍掃描二維碼,即可查看該設(shè)備的所有業(yè)務(wù)信息。
綜合管理運維平臺通過可視化拓撲呈現(xiàn),運行分析、故障決策等功能實現(xiàn)綜合管控,降低了播出運維的難度,使得運維統(tǒng)一化、簡便化、智能化、靈活化,直接提高了運營質(zhì)量和安全播出保障水平。系統(tǒng)采集信息通過大數(shù)據(jù)分析評估,對業(yè)務(wù)、設(shè)備、資源進行精細化管理,為系統(tǒng)的升級改造提供合理化的參考價值;從點到面實現(xiàn)了平臺的統(tǒng)一管理與控制,有效輔助運維人員工作,降低對值班人員的要求,進一步降低運維人力成本[5]。
將看不見業(yè)務(wù)信號指標、設(shè)備運行狀態(tài)等數(shù)據(jù)信息采集匯總,系統(tǒng)經(jīng)過分析過濾后以圖形化的界面進行展示,便于值班人員的判斷和處理。數(shù)據(jù)的實時采集打破傳統(tǒng)的運維方式,取代了只能靠人工定時定點去機房巡查設(shè)備、檢查環(huán)境的方式;多種終端如電腦手機等進行實時遠程監(jiān)控,有故障告警時可通過多種方式給運維人員發(fā)送告警信息,實現(xiàn)了移動運維;對過往歷史故障信息保留存儲,可以隨時在線分析故障檢索;監(jiān)測界面任何異常節(jié)點均高亮顯示、故障亮燈鎖定故障環(huán)節(jié)和發(fā)出語音告警提示,能讓運維人員快速定位到故障點,大大地提升運維效率,減少故障處理時間,保障節(jié)目的播出安全。
綜合運維平臺運行穩(wěn)定,功能可靠,通過對設(shè)備運行狀態(tài)、信號碼流質(zhì)量、動力環(huán)境的實時監(jiān)控,系統(tǒng)可以精準地定位各個故障信息,可以快速、高效地輔助運維人員定位故障、排除故障和解決故障。平臺輔助運維人員解決故障,彌補了運維人員不能及時巡檢所有設(shè)備信號的缺陷,大大提高了整個直播平臺的安全性,保障節(jié)目的安全播出。