楊宏宇
(江蘇有線數(shù)據(jù)網(wǎng)絡(luò)有限責(zé)任公司,江蘇 南京 210000)
關(guān)于建設(shè)OTT TV的遠(yuǎn)程故障診斷系統(tǒng)的設(shè)計(jì)思考
楊宏宇
(江蘇有線數(shù)據(jù)網(wǎng)絡(luò)有限責(zé)任公司,江蘇 南京 210000)
面對OTT業(yè)務(wù)的興起,深刻分析了基礎(chǔ)網(wǎng)絡(luò)運(yùn)營商建立遠(yuǎn)程故障系統(tǒng)診斷的必要性。將智能探測引入到故障診斷中,提出了一個(gè)全方位、多層面協(xié)同工作的遠(yuǎn)程故障診斷系統(tǒng)模型,對遠(yuǎn)程故障診斷系統(tǒng)的主要組成部分進(jìn)行了描述,并分析了實(shí)現(xiàn)遠(yuǎn)程故障診斷系統(tǒng)的關(guān)鍵技術(shù),以幫助網(wǎng)絡(luò)運(yùn)營商盡快適應(yīng)OTT TV業(yè)務(wù)的發(fā)展。
OTT TV;遠(yuǎn)程故障診斷;智能探測
自2011年底原廣電總局7張互聯(lián)網(wǎng)電視集成業(yè)務(wù)牌照的頒發(fā),OTT TV產(chǎn)業(yè)化的大幕正式拉開,憑借先天的開放性優(yōu)勢,形成了互聯(lián)網(wǎng)企業(yè)、運(yùn)營商、機(jī)頂盒廠商、電視機(jī)廠商和牌照商都在進(jìn)入OTT TV產(chǎn)業(yè)鏈的百花齊放局面。圍繞著OTT TV業(yè)務(wù)的競爭,目前逐步形成了電信運(yùn)營商的IPTV+OTT模式、廣電運(yùn)營商的DVB+OTT模式和互聯(lián)網(wǎng)企業(yè)的終端模式。
作為傳統(tǒng)的廣電網(wǎng)絡(luò)運(yùn)營商,在前些年三網(wǎng)融合的推動(dòng)下,各地都已建立起來廣播平面(A網(wǎng))之上的IP平面(B網(wǎng))。在IP平面上承載視頻業(yè)務(wù),尤其是面向OTT的業(yè)務(wù)承載已是實(shí)際網(wǎng)絡(luò)運(yùn)營之現(xiàn)實(shí)。但OTT TV業(yè)務(wù)需要通過多個(gè)參與方(包括內(nèi)容提供商、電信網(wǎng)絡(luò)運(yùn)營商、CDN服務(wù)商、用戶家庭網(wǎng)絡(luò)及OTT終端)的設(shè)備才能到達(dá)最終用戶,查障環(huán)節(jié)極為復(fù)雜。很多投訴內(nèi)容特別是視頻收視質(zhì)量下降的問題,運(yùn)營商僅憑用戶描述的現(xiàn)象根本無法定位故障環(huán)節(jié),即便是安排工作人員上門排查,因其故障診斷手段有限,定位問題也比較困難。一旦投訴內(nèi)容牽扯到多個(gè)責(zé)任方,勢必會(huì)要求多方共同排查,其結(jié)果將會(huì)大大延長投訴周期,給用戶體驗(yàn)帶來嚴(yán)重的影響,甚至造成基礎(chǔ)用戶的流失[1-4]。
為了適應(yīng)新一代視頻業(yè)務(wù)發(fā)展的需要,網(wǎng)絡(luò)運(yùn)營商急需建立一套全方位、多層面的OTT TV遠(yuǎn)程故障診斷系統(tǒng),從根本上分清責(zé)任段落、快速定位故障點(diǎn),極大縮短用戶投訴處理周期,還能減少外派人員投入的運(yùn)維成本,從而優(yōu)化網(wǎng)絡(luò)運(yùn)營能力、提高OTT業(yè)務(wù)承載競爭力。
遠(yuǎn)程故障診斷系統(tǒng)就是在用戶出現(xiàn)投訴后,借助部署在用戶終端和核心節(jié)點(diǎn)的智能診斷程序,通過一些簡單的指令及用戶操作,即可全方位、多層面地對用戶投訴故障進(jìn)行排查和定位的智能診斷平臺(tái)。
由于OTT TV運(yùn)營平臺(tái)融合了多家合作方,每家合作方的設(shè)備和服務(wù)出現(xiàn)問題,都可能導(dǎo)致用戶投訴的出現(xiàn)。傳統(tǒng)處理投訴的方法只能是通知各合作方排查自身問題并及時(shí)做出處理,故障涉及到用戶方時(shí),還需要安排經(jīng)驗(yàn)較為豐富的排障專家入戶調(diào)試,效率極為低下。遠(yuǎn)程故障診斷系統(tǒng)的目標(biāo)就是面對這些復(fù)雜而繁瑣的專業(yè)工作,只需要普通工作人員按照標(biāo)準(zhǔn)排障流程進(jìn)行幾步簡單的遠(yuǎn)程操作,即可快速定位故障。
遠(yuǎn)程故障診斷系統(tǒng)大致包含3部分:終端智能機(jī)器人(Client Intelligent Robot)、核心智能探測點(diǎn)(Core Intelligent Probe)和遠(yuǎn)程診斷中心(Remote Diagnosis Center)。當(dāng)用戶出現(xiàn)投訴時(shí),受理客服只需要按照標(biāo)準(zhǔn)排障流程,指導(dǎo)用戶或通過遠(yuǎn)程診斷中心發(fā)送指令進(jìn)行簡單的終端智能機(jī)器人操作,即可將用戶故障詳細(xì)信息發(fā)送回遠(yuǎn)程診斷中心,一些涉及用戶網(wǎng)絡(luò),機(jī)頂盒等終端的排查工作即可完成。當(dāng)用戶方無法確定問題時(shí),還可以通過遠(yuǎn)程診斷中心對核心智能探測節(jié)點(diǎn)進(jìn)行指令操作,完成一些涉及OTT源站(含視頻源服務(wù)器和EPG源服務(wù)器)網(wǎng)絡(luò)及服務(wù)質(zhì)量、CDN核心節(jié)點(diǎn)和邊緣節(jié)點(diǎn)的網(wǎng)絡(luò)及服務(wù)質(zhì)量的排查工作。
系統(tǒng)整體架構(gòu)如圖1所示。
2.1 終端智能機(jī)器人
終端智能機(jī)器人可以和OTT TV的客戶端應(yīng)用程序捆綁安裝,能夠較為真實(shí)地模擬用戶行為,并對用戶投訴故障進(jìn)行一鍵報(bào)障、業(yè)務(wù)自我診斷、多級帶寬測速(含鏈路測試)等。
圖1 系統(tǒng)架構(gòu)示意圖
當(dāng)用戶投訴后,客服受理人員可以指導(dǎo)用戶進(jìn)行一鍵報(bào)障,即可快捷有效地獲取到用戶的報(bào)障內(nèi)容,含用戶ID、報(bào)障視頻、網(wǎng)絡(luò)環(huán)境信息(IP地址、DNS等)、報(bào)障時(shí)間等,報(bào)障內(nèi)容存儲(chǔ)在遠(yuǎn)程診斷中心,可供排障和備案用。
當(dāng)用戶投訴視頻不能收看時(shí),一鍵業(yè)務(wù)自我診斷功能,基本上可以很快地診斷出視頻不能收看的根源,如DNS不能解析、視頻地址調(diào)度錯(cuò)誤或不能連接等。
當(dāng)視頻質(zhì)量下降,出現(xiàn)加載時(shí)間過長、卡頓、花屏等問題時(shí),多級帶寬測試和鏈路測試能有效測出用戶網(wǎng)絡(luò)到駐地運(yùn)營商網(wǎng)關(guān)、CDN邊緣及核心節(jié)點(diǎn)網(wǎng)絡(luò)的下載情況和延時(shí)情況,為排查網(wǎng)絡(luò)問題提供數(shù)據(jù)依據(jù)。
2.2 核心智能探測點(diǎn)
核心智能探測點(diǎn)可以部署在CDN網(wǎng)絡(luò)的接入層、核心層和邊緣層,對視頻流進(jìn)行多層面診斷。接入層一般對OTT的源站網(wǎng)絡(luò)和服務(wù)進(jìn)行診斷,核心層一般對CDN系統(tǒng)的接入層網(wǎng)絡(luò)和服務(wù)進(jìn)行診斷;邊緣層一般對CDN系統(tǒng)的核心節(jié)點(diǎn)、邊緣節(jié)點(diǎn)的網(wǎng)絡(luò)和服務(wù)進(jìn)行診斷。
核心智能探測點(diǎn)能夠?qū)崟r(shí)接收來自遠(yuǎn)程診斷中心的探測指令,根據(jù)探測要求,對指定OTT源站、CDN接入層設(shè)備、核心層設(shè)備和邊緣層設(shè)備的網(wǎng)絡(luò)性能(單連接下載速率、鏈路延遲及丟包)、解析及調(diào)度時(shí)間、連接媒體服務(wù)器時(shí)間、加載時(shí)間、緩沖時(shí)間及次數(shù)、簡要視頻質(zhì)量(丟包,亂序、重復(fù)、同步等)、連接錯(cuò)誤等網(wǎng)絡(luò)指標(biāo)和業(yè)務(wù)指標(biāo)進(jìn)行測量和分析,并將探測結(jié)果即時(shí)回傳至遠(yuǎn)程診斷中心。
2.3 遠(yuǎn)程診斷中心
遠(yuǎn)程診斷中心是遠(yuǎn)程故障診斷系統(tǒng)協(xié)同工作的橋梁,它將終端智能機(jī)器人、核心智能探測點(diǎn)、客服人員、專業(yè)排障人員及責(zé)任方有序結(jié)合起來。系統(tǒng)含專業(yè)診斷中心、調(diào)度及分發(fā)、數(shù)據(jù)存儲(chǔ)及處理等關(guān)鍵模塊。
當(dāng)用戶進(jìn)行投訴時(shí),客服人員需要登錄專業(yè)診斷中心,指導(dǎo)用戶進(jìn)行一鍵報(bào)障或手工錄入(終端無法自動(dòng)報(bào)障時(shí)),生成投訴故障單,隨后進(jìn)入專業(yè)診斷模塊。模塊中預(yù)先內(nèi)置了標(biāo)準(zhǔn)的排障流程,客服人員通過簡單的交互方式,借助終端智能機(jī)器人和核心智能探測節(jié)點(diǎn),對投訴內(nèi)容進(jìn)行一步步排查。
當(dāng)診斷系統(tǒng)自動(dòng)識(shí)別出故障根源時(shí),將自動(dòng)打包故障單發(fā)送到相關(guān)責(zé)任方。當(dāng)診斷系統(tǒng)不能智能識(shí)別故障根源時(shí),需要專業(yè)排障人員介入,通過得到的相關(guān)數(shù)據(jù)及同時(shí)段的其他故障內(nèi)容進(jìn)行綜合分析,確定故障根源后,再手動(dòng)打包故障單發(fā)送到相關(guān)責(zé)任方。
故障責(zé)任方處理完畢后,需將故障單打回,診斷系統(tǒng)根據(jù)故障單的權(quán)值和處理結(jié)果給出綜合評分,等待考核。客服人員及時(shí)反饋給投訴用戶,驗(yàn)證處理結(jié)果,如果通過則關(guān)閉故障單,如果不通過,重新打回故障責(zé)任方等待處理。系統(tǒng)根據(jù)處理情況再次給出故障單綜合評分,等待考核。
3.1 業(yè)務(wù)自我診斷
當(dāng)用戶投訴視頻內(nèi)容無法收看時(shí),傳統(tǒng)排障方法需要用戶協(xié)助工作人員,一步一步排查具體原因,比如本地DNS是什么,能不能解析到視頻地址,視頻地址能不能PING通等,對于不太懂互聯(lián)網(wǎng)的用戶來說,有很大難度。業(yè)務(wù)自我診斷,就是代替用戶來執(zhí)行這些比較專業(yè)的操作,它模擬用戶請求出現(xiàn)問題的視頻節(jié)目,分析每一個(gè)環(huán)節(jié)的具體情況,當(dāng)發(fā)現(xiàn)異常環(huán)節(jié)時(shí)給出提示,并將診斷結(jié)果直接返回到遠(yuǎn)程診斷中心。
業(yè)務(wù)自我診斷技術(shù)是智能探測技術(shù)的一種應(yīng)用,它通過OTT終端應(yīng)用程序內(nèi)置的相關(guān)接口獲取到用戶觀看的視頻地址,執(zhí)行探測任務(wù)。
3.2 多級帶寬測速
多級帶寬測速是當(dāng)用戶收視質(zhì)量下降時(shí),對用戶網(wǎng)絡(luò)、駐地運(yùn)營商網(wǎng)絡(luò)和CDN網(wǎng)絡(luò)的一種較為實(shí)用的排查方法。實(shí)現(xiàn)原理就是通過分別下載駐地運(yùn)營商節(jié)點(diǎn)和CDN網(wǎng)絡(luò)節(jié)點(diǎn)上的測速文件來達(dá)到測試目的。
如果用戶網(wǎng)絡(luò)到駐地運(yùn)營節(jié)點(diǎn)上的速率很低,即可證明是用戶自身網(wǎng)絡(luò)的問題,要么用戶帶寬被其他下載程序占用,要么就是家庭網(wǎng)絡(luò)設(shè)備運(yùn)行時(shí)間過長,需要重啟。如果用戶終端到駐地運(yùn)營商節(jié)點(diǎn)速率很高,到CDN的多個(gè)節(jié)點(diǎn)有的高有的低時(shí),可能是分配給用戶的服務(wù)節(jié)點(diǎn)不合理,而如果到CDN的所有節(jié)點(diǎn)都低時(shí),可能是由于駐地運(yùn)營商入口擁堵所致,這個(gè)時(shí)候還可以通過鏈路測試,或者從運(yùn)營系統(tǒng)中查看對應(yīng)區(qū)域的平均下載速率,進(jìn)行輔助確認(rèn)。
3.3 任務(wù)智能探測
故障排查的關(guān)鍵是還原用戶訪問的路徑,用戶出現(xiàn)問題時(shí)訪問節(jié)點(diǎn)設(shè)備,該設(shè)備數(shù)據(jù)流從何得來,只有進(jìn)行一層層的篩查測量,才能查出問題的真正根源。由于OTT TV業(yè)務(wù)的分發(fā)路徑較為復(fù)雜,而且可能同時(shí)存在多家CDN廠商,精準(zhǔn)的探測至關(guān)重要。
指定視頻地址、指定節(jié)點(diǎn)、指定測量指標(biāo)是智能探測的前提條件,但要指定目標(biāo)節(jié)點(diǎn)路徑精確測量,需要多方面的協(xié)調(diào)才能順利完成,包括各CDN廠商調(diào)度接口以及CDN內(nèi)部分層接口的提供。
3.4 專業(yè)診斷中心
專業(yè)診斷中心是一套融合了排障工作流、智能故障分析、故障考核的一套專業(yè)化故障診斷系統(tǒng),它可以有效地將客服人員、故障責(zé)任方、專業(yè)排障人員有序地結(jié)合起來。
排障工作流是一套適用于多數(shù)用戶投訴的標(biāo)準(zhǔn)處理流程,針對用戶投訴的內(nèi)容,可以調(diào)取對應(yīng)的處理流程,借助智能故障分析模塊,通過簡單的交互操作,就可以快速定位故障根源,分清責(zé)任方。
智能故障分析模塊,是通過分析及統(tǒng)計(jì)終端智能機(jī)器人和核心智能探測點(diǎn)返回的數(shù)據(jù),進(jìn)行智能化的考量,自動(dòng)匹配排障工作流,減少繁瑣的人工操作。
為了能夠監(jiān)督并考核各責(zé)任方故障處理的情況,加入了故障考核,采用預(yù)先劃定的權(quán)值和處理情況,給出綜合評分,然后按月進(jìn)行績效考核,給出獎(jiǎng)懲措施。
建設(shè)一套針對OTT TV業(yè)務(wù)的遠(yuǎn)程故障診斷系統(tǒng),是網(wǎng)絡(luò)運(yùn)營商高效承載OTT TV業(yè)務(wù)的基礎(chǔ)手段,是提高新時(shí)代下IP網(wǎng)絡(luò)運(yùn)維能力的又一重要舉措。通過此支撐系統(tǒng)的建設(shè)可實(shí)現(xiàn)基于網(wǎng)絡(luò)、面向應(yīng)用的端對端全程QoS保障,為三網(wǎng)融合下OTT業(yè)務(wù)的開展提供必要的運(yùn)維手段,確?;A(chǔ)網(wǎng)絡(luò)運(yùn)營商能更好地迎接OTT帶來的創(chuàng)新與挑戰(zhàn)。
[1] 許冬琦.2012年中國式OTT TV:多方力量的博弈[EB/OL]. [2013-10-04].http://www.cww.net.cn/tech/htm l/2013/1/4/2013141 047145622.htm.
[2] 張彥翔.理性回歸下的OTT TV思考[EB/OL].[2013-10-24].http:// www.lmtw.com/otv/vp/201305/90014.htm l.
[3]CSI.OTT and the QoS conundrum[J].CSI,2013(3):22-23.
[4] 楊宏宇.從傳統(tǒng)數(shù)據(jù)中心到VDC[J].電視技術(shù),2013,37(22):11-13.
TN949
A
?? 盈
2013-11-28
【本文獻(xiàn)信息】楊宏宇.關(guān)于建設(shè)OTT TV的遠(yuǎn)程故障診斷系統(tǒng)的設(shè)計(jì)思考[J].電視技術(shù),2014,38(12).
楊宏宇,現(xiàn)任江蘇有線數(shù)據(jù)網(wǎng)絡(luò)有限責(zé)任公司副總經(jīng)理。