趙京波
【摘 要】在當(dāng)前出現(xiàn)越來越多的互聯(lián)互通業(yè)務(wù)層面質(zhì)量問題的情況下,工業(yè)和信息化部,各運(yùn)營(yíng)商之間對(duì)互聯(lián)互通問題暫時(shí)沒有有效的解決方案,缺少相關(guān)技術(shù)支撐手段來實(shí)現(xiàn)快速發(fā)現(xiàn)、定位、取證、申告等一系列工作。另外,公司目前缺乏前瞻性的網(wǎng)絡(luò)性能測(cè)試手段,不能準(zhǔn)確預(yù)見提供的互聯(lián)網(wǎng)業(yè)務(wù)服務(wù)質(zhì)量及接入網(wǎng)網(wǎng)絡(luò)質(zhì)量,無法及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)瓶頸及故障。本文提出了互聯(lián)網(wǎng)業(yè)務(wù)質(zhì)量監(jiān)控平臺(tái)的方案設(shè)計(jì)。
【關(guān)鍵詞】互聯(lián)網(wǎng);業(yè)務(wù)質(zhì)量;監(jiān)控平臺(tái)
1.實(shí)現(xiàn)方案
1.1系統(tǒng)架構(gòu)
平臺(tái)包括測(cè)試部分、綜合管理部分和北向接口,測(cè)試部分負(fù)責(zé)互聯(lián)互通電路質(zhì)量的測(cè)試,測(cè)試結(jié)果在綜合管理部分進(jìn)行處理、入庫和呈現(xiàn),并且提供北向接口數(shù)據(jù)給綜合告警等其他系統(tǒng)。
平臺(tái)采用層次化設(shè)計(jì)的思想,包括測(cè)量層、測(cè)量分析和存儲(chǔ)層、測(cè)量任務(wù)管理層、系統(tǒng)管理層和外部接口:
(1)測(cè)量層實(shí)現(xiàn)對(duì)底層的測(cè)量模塊/板卡的管理和調(diào)度功能。提供了基于Java實(shí)現(xiàn)的WEB Agent、基于嵌入式系統(tǒng)的Embedded Agent 和基于硬件實(shí)現(xiàn)的高速網(wǎng)絡(luò)測(cè)量板卡。這些測(cè)量模塊和板卡之間可以測(cè)量互通。
(2)測(cè)量分析模塊對(duì)測(cè)量獲得的數(shù)據(jù)進(jìn)行處理,獲得最終的測(cè)量結(jié)果; 測(cè)量存儲(chǔ)模塊對(duì)測(cè)量結(jié)果進(jìn)行存儲(chǔ)管理, 這些積累的歷史數(shù)據(jù)可供運(yùn)營(yíng)商形成網(wǎng)絡(luò)“健康報(bào)告”。
(3)測(cè)量任務(wù)管理實(shí)現(xiàn)分布式的測(cè)量任務(wù)下發(fā)和控制,通過任務(wù)管理器將測(cè)量指令發(fā)送給各個(gè)測(cè)量器。
1.2功能架構(gòu)
平臺(tái)的功能主要包括以下九個(gè)部分:
(1)互聯(lián)網(wǎng)HTTP業(yè)務(wù)測(cè)試:進(jìn)行HTTP業(yè)務(wù)的質(zhì)量測(cè)試,同時(shí)可以自動(dòng)化進(jìn)行網(wǎng)絡(luò)層質(zhì)量診斷工具的聯(lián)動(dòng)調(diào)用,包括ping、traceroute和telnet等。通過HTTP業(yè)務(wù)測(cè)試,能夠診斷出當(dāng)前HTTP業(yè)務(wù)的質(zhì)量好壞,并且在出現(xiàn)質(zhì)量問題時(shí),進(jìn)行故障的定位。
(2)互聯(lián)網(wǎng)DNS業(yè)務(wù)測(cè)試:進(jìn)行DNS業(yè)務(wù)的質(zhì)量測(cè)試。
(3)互聯(lián)網(wǎng)MAIL測(cè)試:進(jìn)行SMTP和POP業(yè)務(wù)的質(zhì)量測(cè)試,同時(shí)可以自動(dòng)化進(jìn)行網(wǎng)絡(luò)層質(zhì)量診斷工具的聯(lián)動(dòng)調(diào)用,包括ping、traceroute和telnet等。通過SMTP和POP業(yè)務(wù)測(cè)試,能夠診斷出當(dāng)前SMTP和POP業(yè)務(wù)的質(zhì)量好壞,并且在出現(xiàn)質(zhì)量問題時(shí),進(jìn)行故障的定位。
(4)互聯(lián)網(wǎng)接入帶寬測(cè)試:可以實(shí)現(xiàn)端到端剩余帶寬的微流量測(cè)試。
(5)互聯(lián)網(wǎng)接入質(zhì)量測(cè)試:可以實(shí)現(xiàn)端到端的單雙向丟包、時(shí)延等指標(biāo)的測(cè)試
(6)互聯(lián)網(wǎng)網(wǎng)絡(luò)擁塞測(cè)試:可以進(jìn)行網(wǎng)絡(luò)擁塞點(diǎn)進(jìn)行測(cè)量定位,確定出現(xiàn)擁塞的位置。
(7)互聯(lián)網(wǎng)測(cè)試VOIP測(cè)試:進(jìn)行音頻傳輸層傳輸時(shí)延的測(cè)試。
(8)互聯(lián)網(wǎng)網(wǎng)元Rping測(cè)試:使用CISCO路由器Ping功能進(jìn)行測(cè)試的能力。
(9)測(cè)試任務(wù)管理:進(jìn)行測(cè)試任務(wù)進(jìn)行下發(fā)、任務(wù)狀態(tài)查詢、任務(wù)測(cè)試結(jié)果展現(xiàn)等測(cè)試任務(wù)的所有內(nèi)容的管理功能。
(10)告警管理:針對(duì)測(cè)試任務(wù)中測(cè)試指標(biāo)超過預(yù)設(shè)閥值,則會(huì)觸發(fā)相應(yīng)告警。告警管理則對(duì)告警進(jìn)行存儲(chǔ)、短信和郵件轉(zhuǎn)發(fā)、告警內(nèi)容展現(xiàn)等內(nèi)容管理。
(11)系統(tǒng)管理:平臺(tái)自身的管理功能。
(12)用戶管理:平臺(tái)自身用戶的用戶信息和權(quán)限的增加、修改、刪除的管理。
(13)報(bào)表:平臺(tái)測(cè)試結(jié)果的數(shù)據(jù)展現(xiàn)。
1.3主要技術(shù)創(chuàng)新點(diǎn)
A.實(shí)現(xiàn)了基于規(guī)則判定的互聯(lián)網(wǎng)業(yè)務(wù)服務(wù)質(zhì)量的自動(dòng)關(guān)聯(lián)測(cè)試方法
基于規(guī)則判定的互聯(lián)網(wǎng)業(yè)務(wù)服務(wù)質(zhì)量的自動(dòng)關(guān)聯(lián)測(cè)試方法的主要工作流程:
(1)遠(yuǎn)程下發(fā)一個(gè)本機(jī)PING測(cè)試任務(wù)讓客戶執(zhí)行,如果ping不通說明網(wǎng)絡(luò)不可達(dá)。
(2)啟用Traceroute測(cè)試,確認(rèn)網(wǎng)絡(luò)中斷節(jié)點(diǎn)位置。
(3)如果PING測(cè)試沒有問題,進(jìn)行telnet 80端口,確定端口是否有效,目的端口是否被限制。
(4)如果telnet 80端口測(cè)試正常,則進(jìn)行時(shí)延丟包測(cè)試,則確定端到端時(shí)延,時(shí)延丟包很大的話則診斷出問題。
(5)如果時(shí)延很大,則使用擁塞定位確定可能出現(xiàn)問題的位置。
(6)如果時(shí)延很小,則說明網(wǎng)絡(luò)層無問題。進(jìn)行http業(yè)務(wù)測(cè)試,判斷dns、首字節(jié)傳輸時(shí)間等來判斷是dns出現(xiàn)問題還是http服務(wù)器本身出現(xiàn)問題。
(7)自動(dòng)進(jìn)行下一步接入帶寬的測(cè)試,通過對(duì)單向的剩余帶寬和時(shí)延抖動(dòng)結(jié)果分析,是否是客戶本身問題(如服務(wù)器中毒、大量使用BT等),還是由于鏈路帶寬不夠,需要擴(kuò)容。
(8)根據(jù)所設(shè)置門限值彈出告警,生成報(bào)表,綜合各項(xiàng)指標(biāo)判定投訴問題所在。如果是互聯(lián)互通問題,根據(jù)所取結(jié)果證據(jù)收集,可以向相關(guān)部門提出申訴。
B.實(shí)現(xiàn)了基于HTTP業(yè)務(wù)的互聯(lián)互通故障定位技術(shù)
HTTP服務(wù)測(cè)試的流程和各參數(shù)意義說明如下:
(1)客戶端向DNS服務(wù)器發(fā)送DNS查詢請(qǐng)求WEB服務(wù)器的IP地址,DNS服務(wù)器返回查詢結(jié)果。這段時(shí)間為DNS查詢時(shí)間,該測(cè)試參數(shù)可定位DNS服務(wù)是否正常。
(2)客戶端獲得WEB服務(wù)器IP地址后,向該WEB服務(wù)器發(fā)送TCP SYN包,要求建立連接;WEB服務(wù)器做出應(yīng)答,完成三次握手,連接建立。這段時(shí)間為建立連接時(shí)間,可定位互聯(lián)互通故障采取的路由及端口限制手段。
(3)客戶端向WEB服務(wù)器發(fā)送GET請(qǐng)求,在收到服務(wù)器的ACK后,開始下載頁面。這段時(shí)間為首字節(jié)傳輸時(shí)間,可定位WEB服務(wù)是否正常。
(4)客戶端從收到第一個(gè)字節(jié)到接收完整的HTML文件的時(shí)間為頁面下載時(shí)間,頁面的大小為傳輸字節(jié)數(shù),吞吐量等于傳輸字節(jié)數(shù)和下載時(shí)間的比值,可定位互聯(lián)互通故障采取的訪問速率限制手段。
C.實(shí)現(xiàn)了微流量可用帶寬測(cè)量技術(shù)
鏈路帶寬是指一條通信鏈路的最大分組發(fā)送速率。瓶頸帶寬是指一條網(wǎng)絡(luò)路徑上各鏈路帶寬中的最小值,它決定了網(wǎng)絡(luò)路徑端到端最大發(fā)送速率。比如下圖,鏈路1為40Mbps,鏈路2為20Mbps, 則端到端的瓶頸帶寬為20Mbps。端到端剩余帶寬,由路徑上剩余帶寬最小的那段鏈路決定。就好像交通網(wǎng)絡(luò)中最為堵車的位置是整個(gè)交通網(wǎng)絡(luò)的瓶頸位置。剩余帶寬是用戶端到端的性能中最具決定性的因素。
2.解決問題及應(yīng)用情況
本項(xiàng)目解決的問題主要包括:
2.1實(shí)現(xiàn)了高效的互聯(lián)網(wǎng)網(wǎng)絡(luò)端到端性能及業(yè)務(wù)測(cè)試平臺(tái)
(1)實(shí)現(xiàn)主動(dòng)網(wǎng)絡(luò)性能測(cè)量功能,測(cè)量參數(shù)可靈活配置。
(2)實(shí)現(xiàn)微流量測(cè)量技術(shù),減少網(wǎng)絡(luò)負(fù)擔(dān)。
(3)能夠進(jìn)行擁塞定位,可主動(dòng)定位網(wǎng)絡(luò)瓶頸。
(4)提供集團(tuán)專線及個(gè)人寬帶用戶接入網(wǎng)絡(luò)質(zhì)量測(cè)試功能。
(5)HTTP,F(xiàn)TP,POP3/SMTP,DNS,VOIP業(yè)務(wù)服務(wù)質(zhì)量測(cè)試。
2.2實(shí)現(xiàn)了互聯(lián)網(wǎng)業(yè)務(wù)層面互聯(lián)互通障礙自動(dòng)申告技術(shù)體系
(1)實(shí)現(xiàn)互聯(lián)網(wǎng)業(yè)務(wù)層面互聯(lián)互通故障的自動(dòng)發(fā)現(xiàn),自動(dòng)定位。
(2)實(shí)現(xiàn)互聯(lián)網(wǎng)業(yè)務(wù)層面互聯(lián)互通故障的自動(dòng)證據(jù)收集,狀態(tài)跟蹤。
(3)實(shí)現(xiàn)通信管理局故障工單處理系統(tǒng)的自動(dòng)申告。
2.3互聯(lián)網(wǎng)業(yè)務(wù)服務(wù)質(zhì)量監(jiān)控平臺(tái)符合集團(tuán)ONE OSS要求
(1)實(shí)現(xiàn)“主動(dòng)測(cè)試、定位預(yù)警、閉環(huán)處理”的維護(hù)流程。
(2)實(shí)現(xiàn)豐富的數(shù)據(jù)報(bào)表統(tǒng)計(jì)及門戶站點(diǎn)展示功能。
(3)形成可測(cè)試、可考核的并實(shí)際反映網(wǎng)絡(luò)質(zhì)量的KPI指標(biāo)。
(4)開發(fā)高效的與網(wǎng)管系統(tǒng),通管局申告系統(tǒng)等外部系統(tǒng)接口。
3.經(jīng)濟(jì)和社會(huì)效益
互聯(lián)網(wǎng)業(yè)務(wù)服務(wù)監(jiān)控平臺(tái)上線以來,極大減少了日常質(zhì)量撥測(cè)及現(xiàn)場(chǎng)排障工作量,有效降低了客戶投訴崗位人員日常工作量。
(1)提升移動(dòng)寬帶業(yè)務(wù)服務(wù)質(zhì)量,提高用戶滿意度 互聯(lián)網(wǎng)業(yè)務(wù)服務(wù)監(jiān)控平臺(tái)可實(shí)現(xiàn)網(wǎng)絡(luò)質(zhì)量及各種業(yè)務(wù)的自動(dòng)撥測(cè)及定位,有利于及時(shí)發(fā)現(xiàn)故障,提升處理效率,避免以往用戶投訴先于故障告警的不良局勢(shì)。
(2)提供了互聯(lián)互通技術(shù)監(jiān)測(cè)手段,凈化互聯(lián)網(wǎng)競(jìng)爭(zhēng)環(huán)境。
目前,該平臺(tái)已可解決以往監(jiān)測(cè)手段缺乏的問題,為有效遏制競(jìng)爭(zhēng)對(duì)手在互聯(lián)互通限制行為,規(guī)范互聯(lián)網(wǎng)互聯(lián)互通保障行為。