(中國(guó)移動(dòng)通信集團(tuán)云南有限公司紅河分公司,紅河 661100)
TD-SCDMA數(shù)據(jù)業(yè)務(wù)的故障排查方法研究
陳捷
(中國(guó)移動(dòng)通信集團(tuán)云南有限公司紅河分公司,紅河 661100)
目前傳統(tǒng)運(yùn)營(yíng)商從話音經(jīng)營(yíng)向流量經(jīng)營(yíng)戰(zhàn)略轉(zhuǎn)型已是大勢(shì)所趨。假如設(shè)備故障導(dǎo)致TD-SCDMA用戶PS業(yè)務(wù)不暢,會(huì)嚴(yán)重影響用戶感知。本文針對(duì)以上問(wèn)題,通過(guò)信令跟蹤、指標(biāo)分析與灌包測(cè)試相結(jié)合,形成一套行之有效的故障排查方法,有助于TD-SCDMA系統(tǒng)的維護(hù)和優(yōu)化。
TD-SCDMA;數(shù)據(jù)業(yè)務(wù);故障排查
當(dāng)下數(shù)據(jù)業(yè)務(wù)收入超過(guò)話音業(yè)務(wù)已是產(chǎn)業(yè)發(fā)展到一定階段的必然趨勢(shì),中國(guó)移動(dòng)因此也迎來(lái)了從傳統(tǒng)話音經(jīng)營(yíng)向流量經(jīng)營(yíng)戰(zhàn)略轉(zhuǎn)型的契機(jī),作為“四網(wǎng)協(xié)同”(GSM/TD-SCDMA/TD-LTE/WLAN四網(wǎng)協(xié)同發(fā)展)網(wǎng)絡(luò)發(fā)展戰(zhàn)略中的重要一環(huán),TD-SCDMA網(wǎng)絡(luò)所承載的用戶數(shù)與數(shù)據(jù)業(yè)務(wù)量隨著網(wǎng)絡(luò)技術(shù)的成熟與TD-SCDMA終端的普及與日俱增,其分流作用也日趨顯著。
因此保障用戶數(shù)據(jù)業(yè)務(wù)的高速流暢也成為了網(wǎng)絡(luò)優(yōu)化與維護(hù)工作的重中之重,假如因?yàn)樵O(shè)備故障導(dǎo)致用戶PS業(yè)務(wù)受阻,有悖于流量經(jīng)營(yíng)宗旨,將極大影響用戶感知。
本文針對(duì)TD-SCDMA網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn),提出了一種信令跟蹤、指標(biāo)聯(lián)合分析與環(huán)回灌包測(cè)試相結(jié)合的故障排查方法,通過(guò)當(dāng)?shù)豑D-SCDMA網(wǎng)絡(luò)實(shí)踐驗(yàn)證確實(shí)有效,為TD-SCDMA網(wǎng)絡(luò)日常優(yōu)化與維護(hù)提供經(jīng)驗(yàn)總結(jié)。
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
TD-SCDMA網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。Node B是TD-SCDMA移動(dòng)基站,通過(guò)標(biāo)準(zhǔn)Iub接口與RNC相連,通過(guò)Uu接口與UE進(jìn)行通信,主要完成Uu接口物理層協(xié)議和Iub接口協(xié)議的處理。RNC是TD-SCDMA網(wǎng)絡(luò)的一個(gè)關(guān)鍵網(wǎng)元,主要完成對(duì)Node B的無(wú)線資源控制和移動(dòng)接入鏈路管理,處理移動(dòng)呼叫、切換和功率控制,同時(shí)管理RNC本身的各種資源。SGSN(Serving GPRS Support Node,服務(wù)GPRS節(jié)點(diǎn))作為GPRS/ TD-SCDMA核心網(wǎng)分組域的重要組成部分,主要完成分組數(shù)據(jù)包的路由轉(zhuǎn)發(fā)、移動(dòng)性管理、會(huì)話管理、邏輯鏈路管理、鑒權(quán)和加密、話單產(chǎn)生和輸出等功能,通過(guò)Iu-PS接口連接RNC。
Uu接口是UTRAN與用戶設(shè)備的接口,也稱無(wú)線接口或者空中接口,Iub口是Node B與RNC之間的接口,Iu-PS接口是RNC與SGSN之間的接口,如圖2 UTRAN接口通用協(xié)議模型所示,每個(gè)接口在無(wú)線網(wǎng)絡(luò)層均可分為用戶面和控制面,控制面用于控制無(wú)線接入承載及UE和網(wǎng)絡(luò)之間的連接,用戶面用于傳輸通過(guò)接入網(wǎng)的用戶數(shù)據(jù)。
圖1 TD-SCDMA網(wǎng)絡(luò)結(jié)構(gòu)圖
圖2 UTRAN接口通用協(xié)議模型
2.2 PS業(yè)務(wù)標(biāo)準(zhǔn)流程
PS業(yè)務(wù)標(biāo)準(zhǔn)信令流程如圖3所示,UE經(jīng)Uu口和Node B/RNC建立起RRC連接,向SGSN初始直傳業(yè)務(wù)請(qǐng)求,再經(jīng)Iu-PS口至SGSN建立信令連接,信道指派后建立起業(yè)務(wù)承載附帶用戶信息,CN和UE間進(jìn)行鑒權(quán)、加密信令交互,然后激活PDP上下文,SGSN和UE間通過(guò)RAB指派建立起承載,就開(kāi)始傳輸數(shù)據(jù),業(yè)務(wù)完成后,PDP去激活,釋放信道連接。
圖3 PS業(yè)務(wù)流程圖
從TD-SCDMA網(wǎng)絡(luò)結(jié)構(gòu)、接口協(xié)議與標(biāo)準(zhǔn)業(yè)務(wù)流程可知,在PS業(yè)務(wù)流程中,無(wú)線網(wǎng)起到傳輸通道的作用,通道在控制面建立,由用戶面承載,如若設(shè)備故障引起通道不順暢,排查工作就應(yīng)先從控制面入手,再對(duì)用戶面進(jìn)行檢測(cè)。
3.1 控制面排查思路
由圖1可知,網(wǎng)絡(luò)上游結(jié)構(gòu)復(fù)雜,涉及不同廠家、不同功能的多種網(wǎng)元實(shí)體,一些深層次的網(wǎng)絡(luò)故障隱蔽性強(qiáng),監(jiān)控系統(tǒng)未必能檢測(cè)出并上報(bào)告警提示,但上游的設(shè)備故障必然會(huì)引起下游終端用戶的業(yè)務(wù)不暢與相關(guān)指標(biāo)的異常波動(dòng),常見(jiàn)的表象有網(wǎng)速慢、無(wú)響應(yīng)、掉線等,由于商用網(wǎng)絡(luò)用戶數(shù)多,受眾面廣,業(yè)務(wù)故障必然引起用戶投訴數(shù)量激增,故可以根據(jù)用戶投訴統(tǒng)計(jì),提取相應(yīng)指標(biāo)進(jìn)行分析,在用戶投訴現(xiàn)場(chǎng)實(shí)地測(cè)試,結(jié)合后臺(tái)信令跟蹤,抓取異常信令進(jìn)行原因分析。
3.2 用戶面排查思路
上文中如若通道能夠在控制面建立,那傳輸不暢問(wèn)題就需要從用戶面各環(huán)節(jié)逐段進(jìn)行排查。如圖1所示,TD-SCDMA網(wǎng)絡(luò)中PS業(yè)務(wù)的端到端可認(rèn)為是從UE到SGSN,中間歷經(jīng)多個(gè)接口與網(wǎng)元設(shè)備。日常維護(hù)工作中可以根據(jù)異常現(xiàn)象出現(xiàn)的范圍、時(shí)間、地點(diǎn)、無(wú)線環(huán)境、終端類型等因素判斷故障環(huán)節(jié),不同網(wǎng)元故障的影響范圍、嚴(yán)重程度各有不同,越是處于網(wǎng)絡(luò)上游,故障影響越為嚴(yán)重與廣泛。在TD-SCDMA網(wǎng)絡(luò)PS域,RNC與CN間的用戶面組網(wǎng)結(jié)構(gòu)如圖4所示,RNC側(cè)ROMB板(RNC Operating & Maintenance Board,RNC 操作維護(hù)單板)主要負(fù)責(zé)RNC系統(tǒng)的全局過(guò)程處理與操作維護(hù)代理,各單板狀態(tài)的管理和信息的搜集,并維護(hù)整個(gè)RNC的全局性的靜態(tài)數(shù)據(jù)。ROMB單板有4條媒體面地址,板上運(yùn)行的RPU模塊負(fù)責(zé)路由協(xié)議處理。
RNC的GIPI板(GE IP Interface,吉比特以太網(wǎng)接口板)負(fù)責(zé)各種IP接口和OMCB網(wǎng)關(guān)功能,提供最大8×100Mbit/s以太網(wǎng)接口,2×吉比特以太網(wǎng)接口,主要實(shí)現(xiàn) IuPS/IuCS/ Iub 的IP化接口功能和OMCB網(wǎng)關(guān)功能,一般配置在RNC1架1框3、4、5、6槽位的GIPI板作用是IU接口。
CE(Customer Edge,用戶邊緣設(shè)備)用于匯接移動(dòng)核心網(wǎng)和接入網(wǎng)網(wǎng)元和業(yè)務(wù)系統(tǒng),并實(shí)現(xiàn)與IP承載網(wǎng)的隔離,減小兩者的耦合度。同時(shí),管理域和業(yè)務(wù)域也得到有效區(qū)分,IP承載網(wǎng)設(shè)備和CE設(shè)備分別單獨(dú)管理,維護(hù)界面變得更加清晰。
實(shí)際組網(wǎng)中,為了負(fù)荷分擔(dān)與業(yè)務(wù)保護(hù),GIPI板、近端/遠(yuǎn)端CE與SGSN媒體面均成對(duì)配置并相互連通,以本地實(shí)際組網(wǎng)為例,5槽GIPI板連接近端CE1,6槽GIPI板連接近端CE2。遠(yuǎn)近端CE如圖4互通,SGSN側(cè)分為兩個(gè)媒體面,每一平面與兩個(gè)遠(yuǎn)端CE均建立連接。
圖4 用戶面組網(wǎng)結(jié)構(gòu)圖
基于以上用戶面的組網(wǎng)結(jié)構(gòu),可將RNC的ROMB單板到SGSN媒體面間的通道劃分為多條路徑與多個(gè)分段,從ROMB單板開(kāi)始,逐路由逐路段進(jìn)行ROMB到GIPI、GIPI到近端CE、ROMB到近端CE、ROMB到 SGSN媒體面的灌包環(huán)回測(cè)試,就能夠有效縮小故障排查范圍甚至定位通道斷點(diǎn),有利于及時(shí)處理故障與恢復(fù)業(yè)務(wù)。
當(dāng)?shù)豑D-SCDMA網(wǎng)絡(luò)曾經(jīng)出現(xiàn)過(guò)大面積PS業(yè)務(wù)不暢的問(wèn)題,異常表現(xiàn)為PS業(yè)務(wù)信令連接能夠成功建立,但下行速率為零,視頻、網(wǎng)頁(yè)無(wú)法打開(kāi),斷開(kāi)重連多次有可能恢復(fù)正常。該問(wèn)題短時(shí)間就能引起大規(guī)模的用戶投訴,嚴(yán)重影響當(dāng)?shù)赜脩舾兄?,我們根?jù)上文思路,應(yīng)用信令、指標(biāo)聯(lián)合分析與灌包測(cè)試相結(jié)合的系統(tǒng)排查方法,快速定位到問(wèn)題所在,故障得到及時(shí)處理。
4.1 控制面排查過(guò)程
根據(jù)以上故障現(xiàn)象,從SGSN側(cè)通過(guò)網(wǎng)管系統(tǒng)軟件traffica在指定時(shí)間段內(nèi)對(duì)PS業(yè)務(wù)進(jìn)程統(tǒng)計(jì)(如表1所示)發(fā)現(xiàn),沒(méi)有下行流量的進(jìn)程數(shù)量極大,異常占比達(dá)到43.87%,與同SGSN下的Y市相比,遠(yuǎn)超正常范圍。
表1 統(tǒng)計(jì)指標(biāo)分析
選擇某用戶投訴地進(jìn)行現(xiàn)場(chǎng)測(cè)試,該故障復(fù)現(xiàn)幾率極高,結(jié)合后臺(tái)的信令跟蹤,發(fā)現(xiàn)歷經(jīng)RRC連接建立,業(yè)務(wù)發(fā)起、PDP上下文激活等正常步驟后,由于計(jì)數(shù)時(shí)間內(nèi)無(wú)下行速率,RNC發(fā)送Iu_ReleaseRequest釋放命令,釋放原因?yàn)閞adioNetwork=TRANAP_user_ inactivity,發(fā)起重連后可能恢復(fù)正常,也可能重復(fù)多次釋放與重連步驟,信令流程如表2所示。
4.2 用戶面排查過(guò)程
從用戶投訴的統(tǒng)計(jì)來(lái)看,該故障分布范圍廣,涉及多種不同品牌和類型的用戶終端,從市區(qū)的拉網(wǎng)路測(cè)來(lái)看,故障出現(xiàn)的時(shí)間地點(diǎn)較為隨機(jī),且無(wú)線環(huán)境大多較為良好,故可排除無(wú)線環(huán)境的質(zhì)差、干擾影響和單站或個(gè)別終端故障因素,推斷問(wèn)題誘因極可能在于RNC或更上游的設(shè)備上,故排查工作的重點(diǎn)轉(zhuǎn)向RNC至SGSN的用戶平面。
表2 異常信令分析
按照上文中的排查思路,分別用ROMB板的4條媒體面地址逐次Ping GIPI板、近端CE、SGSN媒體面地址,通過(guò)測(cè)試結(jié)果來(lái)確定故障環(huán)節(jié)。該段鏈路連接正常。
圖5 灌包測(cè)試示意圖
SGSN媒體面地址返回的數(shù)據(jù)分組減半(InMsgs:5),出現(xiàn)了嚴(yán)重的分組丟失情況,由此可以縮小排查范圍,故障點(diǎn)可能出現(xiàn)在近端CE到遠(yuǎn)端CE,或遠(yuǎn)端CE到SGSN通道段。
由于RNC的GIPI板采用負(fù)荷分擔(dān)的工作方式,分別連接近端CE1/2形成雙路由保護(hù)模式,關(guān)閉其中一條路由用戶業(yè)務(wù)不會(huì)中斷,于是先關(guān)閉RNC上5槽GIPI板接口地址,從路由2進(jìn)行灌包測(cè)試正常。之后關(guān)閉6槽GIPI板接口地址,倒換至路由1測(cè)試時(shí)分組丟失問(wèn)題依然存在。如圖6所示。
如圖5中虛線所示,具體操作為:順續(xù)用ROMB的4條媒體面地址“112.62.116.17-20”作為源地址,依次向5/6槽GIPI板(接口地址:112.62.116.26/30)、近端CE1/2(接口地址:112.62.116.25/29)、SGSN媒體面1/2(接口地址:112.62.112.132/133)發(fā)送10個(gè)數(shù)據(jù)分組(OutMsgs:10),觀察目標(biāo)地址數(shù)據(jù)分組返回情況,5/6槽GIPI板、近端CE1/2均返回10個(gè)數(shù)據(jù)分組(InMsgs:10),未出現(xiàn)數(shù)據(jù)分組異常,可判斷
圖6 CE關(guān)閉GIPI接口地址PING包測(cè)試
此前路由1上ROMB到5槽GIPI通道已通過(guò)檢驗(yàn),做5槽GIPI板到近端CE1的Ping分組測(cè)試,收發(fā)正常,故可定位故障通路在近端CE1到遠(yuǎn)端CE1段。由于目前GIPI單板功能不要求能Ping通遠(yuǎn)端CE、SGSN媒體面地址功能,故障范圍已縮小到CE側(cè),CE工程師對(duì)近端CE、遠(yuǎn)端CE設(shè)備進(jìn)行排查,確定最終問(wèn)題定位在近端CE1到遠(yuǎn)端CE1的端口上,對(duì)近端CE1進(jìn)行跳纖處理業(yè)務(wù)即恢復(fù)正常。
如今傳統(tǒng)運(yùn)營(yíng)商從話音經(jīng)營(yíng)向流量經(jīng)營(yíng)戰(zhàn)略轉(zhuǎn)型已是大勢(shì)所趨,運(yùn)營(yíng)商向用戶提供多元PS業(yè)務(wù)的同時(shí),必須保證業(yè)務(wù)通道的通暢無(wú)阻,才能提升用戶感知滿意度。
在處理PS業(yè)務(wù)問(wèn)題的過(guò)程中,關(guān)鍵步驟及故障點(diǎn)信息說(shuō)明如下:
(1)重視指標(biāo)分析與用戶投訴,由于網(wǎng)絡(luò)側(cè)涉及多個(gè)廠家、多種功能的設(shè)備元件,告警監(jiān)控系統(tǒng)不可能面面俱到,很多隱性故障需要從異?,F(xiàn)象與指標(biāo)波動(dòng)中尋找蛛絲馬跡,步步反推。現(xiàn)場(chǎng)測(cè)試可摸清無(wú)線環(huán)境,對(duì)異常現(xiàn)象的詳細(xì)記錄是排查處理的第一步。
(2)結(jié)合前臺(tái)業(yè)務(wù)驗(yàn)證測(cè)試,后臺(tái)需實(shí)時(shí)進(jìn)行信令跟蹤與分析。信令是設(shè)備交互的語(yǔ)言,建立聯(lián)系的協(xié)議,異常信令的出現(xiàn)往往預(yù)示著業(yè)務(wù)的中斷,從異常信令的含義、產(chǎn)生條件、設(shè)備來(lái)源、方向等方面進(jìn)行分析,可以大大縮小故障排查范圍。
(3)PS業(yè)務(wù)不暢極有可能是媒體面通道受阻,逐段進(jìn)行灌包測(cè)試是檢測(cè)數(shù)據(jù)流斷點(diǎn)的一種有效手段,結(jié)合有針對(duì)性的路徑選擇、設(shè)備重啟和配置修改等嘗試能更快的定位問(wèn)題所在,有利于故障排除。
綜上所述,只有明確業(yè)務(wù)流程的關(guān)鍵節(jié)點(diǎn),并掌握系統(tǒng)的故障排查方法,對(duì)可能出現(xiàn)的故障點(diǎn)做好經(jīng)驗(yàn)總結(jié),才能有助于更好地進(jìn)行網(wǎng)絡(luò)維護(hù)與優(yōu)化工作。
[1] 張玉勝, 陳欣偉, 高屹, 等. TD-SCDMA網(wǎng)絡(luò)設(shè)計(jì)、評(píng)估及優(yōu)化實(shí)踐[M]. 北京:北京郵電大學(xué)出版社, 2012.
[2] 萬(wàn)斌, 高峰, 李率信, 等. TD-SCDMA無(wú)線網(wǎng)絡(luò)評(píng)估與優(yōu)化[M]. 北京:人民郵電出版社, 2009.
[3] 金鑫. TD-SCDMA系統(tǒng)接入性能優(yōu)化[D]. 吉林:吉林大學(xué),2012.
[4] 趙光胤. TD-SCDMA協(xié)議一致性測(cè)試研究及其測(cè)試?yán)膶?shí)現(xiàn)[D]. 北京:北京交通大學(xué), 2011.
[5] 陳清華. TD-SCDMA微基站物理層信令處理研究與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué), 2009.
Research on troubleshooting method of TD-SCDMA date service
CHEN Jie
(China Mobile Group Yunnan Co., Ltd. Honghe Branch, Honghe 661100, China)
There's a great trend to change from voice to traff c operation of the traditional telecom operators. If the TD-SCDMA users were unable to enjoy the PS services smoothly, due to the equipment failures, it will have a bad inf uence on the user perception. In connection with the appearance above-mentioned, this paper has explored a series of troubleshooting methods, including follow signaling, index analysis and so on, which was meaningful in maintenance and optimization for the TD-SCDMA system.
TD-SCDMA; data service; troubleshooting
TN929.5
A
1008-5599(2014)07-0015-05
2014-06-13