岳彩青
(朔黃鐵路發(fā)展有限責任公司,河北滄州 062350)
朔黃鐵路公司(簡稱公司)寬帶移動通信LTE系統(tǒng)于2014年上線,由于鐵路用戶分布、業(yè)務對系統(tǒng)穩(wěn)定性要求等多方面因素制約,現(xiàn)網(wǎng)基站設備版本是針對公司實際情況定制開發(fā)的專用版本,與運營商的公共版本存在較大差異,不利于版本的向后演進??紤]到今后系統(tǒng)維護的方便,結(jié)合現(xiàn)網(wǎng)版本運行中存在的問題,公司嘗試對全網(wǎng)基站進行版本升級。
公司LTE系統(tǒng)采用TD-LTE制式,由無線承載網(wǎng)絡、業(yè)務應用系統(tǒng)、運行與支持系統(tǒng)和終端設備等4部分組成。
無線承載網(wǎng)采用雙網(wǎng)負荷分擔組網(wǎng)方式,分為無線核心網(wǎng)絡和無線接入網(wǎng)絡部分。其中無線核心網(wǎng)絡是由部署在中心機房的兩套核心網(wǎng)EPC設備組成,它們相互獨立,分別負責處理A、B兩張網(wǎng)絡數(shù)據(jù)。
無線接入網(wǎng)絡由沿鐵路線按鏈狀結(jié)構(gòu)敷設的eNodeB基站組成,eNodeB采用分布式基帶處理單元(BBU)+射頻拉遠單元(RRU)組網(wǎng)方式,考慮到安全性能,A網(wǎng)和B網(wǎng)BBU基站采用位置交錯部署,每個基站都設置A網(wǎng)的RRU和B網(wǎng)RRU各一套,分別接入不同核心網(wǎng)EPC,實現(xiàn)共站址雙網(wǎng)覆蓋。BBU設備至RRU設備采用雙光纖鏈路連接,每臺RRU利用敷設在鐵路上下行兩側(cè)光纜中的2對光纖與所歸屬的BBU連接,如圖1所示。
圖1 LTE系統(tǒng)無線接入部分組網(wǎng)Fig.1 Wireless access networking of LTE system
朔黃鐵路LTE系統(tǒng)目前承載的業(yè)務主要有機車同步操控無線重聯(lián)業(yè)務、列車調(diào)度語音通信業(yè)務、列車調(diào)度命令和無線車次號校核業(yè)務。這些業(yè)務在應用層面主要由無線重聯(lián)應用服務器、列車調(diào)度集群語音服務器、車地通用數(shù)據(jù)通信接口服務器來提供。其中無線重聯(lián)應用服務器負責提供列車同步操控和可控列尾等數(shù)據(jù)業(yè)務[1];集群語音服務器負責提供列車行車調(diào)度指揮語音業(yè)務;車地通用數(shù)據(jù)通信接口服務器主要實現(xiàn)調(diào)度命令下發(fā)到機車、無線車次號校核等業(yè)務。
運行與支撐子系統(tǒng)在中心機房設置網(wǎng)管系統(tǒng)及用戶管理系統(tǒng),用于網(wǎng)絡運營的維護及管理。
設備終端主要包括重載無線重聯(lián)車載通信設備、列尾車載通信設備、列車調(diào)度通信機車臺,移動人員配置手持終端。
1)硬件方面
公司LTE系統(tǒng)BBU基站設備主控板型號為UMPTa6和UMPTb2兩種,上聯(lián)核心網(wǎng)的接口只有一個電口和一個光口。為提高可靠性,利用一光一電兩個口配置Trunk功能,對端傳輸設備采用FE電口,速率為100 M,因此需在主控板上的光口插接光轉(zhuǎn)電模塊,與傳輸側(cè)速率和接口類型匹配。為減少轉(zhuǎn)換模塊帶來的故障風險,主控板需要更換為帶有兩個電口(實現(xiàn)Trunk功能)的UMPTe型。
2)軟件方面
公司LTE系統(tǒng)BBU基站使用的主控板版本是廠家根據(jù)公司LTE系統(tǒng)組網(wǎng)實際情況定制開發(fā),與運營商在用的公共版本不同,不利于版本的向后演進。
公司LTE系統(tǒng)運行3年以來,無線子系統(tǒng)多次上報不同基站基帶板“單板硬件故障告警”和“基站同步幀號異常告警” 兩類,通過現(xiàn)場掉電復位此基帶板后,告警恢復。通過對站點的故障日志分析來看,是由于FPGA內(nèi)存芯片軟失效導致單板硬件故障,進而導致基帶的BFN功能模塊異常引起基站同步幀號異常告警。如圖2所示。
圖2 故障基站日志Fig.2 Log of failure base station
目前業(yè)界公認芯片軟失效的發(fā)生存在一定概率,是集成電路由于外部粒子輻射等原因?qū)е滦酒腷it反轉(zhuǎn),從而觸發(fā)軟失效[2]。一般來說,F(xiàn)PGA的重要功能模塊影響FPGA局部功能運行,如果該模塊發(fā)生功能錯誤,將對FPGA某區(qū)域的功能模塊造成長時間的故障[3]。根據(jù)FPGA供應商給出的數(shù)據(jù),1萬塊單板每年會出現(xiàn)80次軟失效(SEU)問題。目前發(fā)生該問題時,系統(tǒng)默認自動進行設備自愈重啟,網(wǎng)管上不提示重啟原因,只上報重啟時引起的“單板硬件故障告警”和“基站同步幀號異常告警”。只有調(diào)用基站日志做進一步分析,才能判定故障原因,不利于維護人員對問題的快速定位。
鑒于以上情況,與廠家溝通在新版本中增加軟失效自愈開關(guān)、可調(diào)節(jié)的自愈延時設置、軟失效自愈告警提示功能。一旦設備發(fā)生軟失效,網(wǎng)管上報告警提示,技術(shù)人員根據(jù)提示決定是否重啟并且可手動調(diào)整自愈重啟的延時。
本次升級在更換基站主控板的同時,對新更換單板做先進性版本升級,然后加載轉(zhuǎn)換后的現(xiàn)網(wǎng)LICENSE文件和配置數(shù)據(jù)。
由于此次升級是在線對既有網(wǎng)絡進行操作,涉及到行車業(yè)務,本著盡量減少對現(xiàn)網(wǎng)業(yè)務影響的原則,經(jīng)過反復討論,確定以下實施步驟。
1)在模擬實驗室備用設備上對所有待換的新主控板進行軟件版本、License文件和配置數(shù)據(jù)加載,加載后確認單板狀態(tài)正常,并初步驗證業(yè)務正常。
2)為驗證此次升級的版本在現(xiàn)網(wǎng)中的運行狀態(tài),在沿線192個BBU基站中選定兩個具有代表意義的基站進行天窗點模擬升級試驗。
3)對試驗中存在的問題進行整改,整改后再次利用天窗點進行模擬升級試驗,直至試驗結(jié)果正常,符合現(xiàn)網(wǎng)指標要求。
4)利用天窗點分段錯開A/B網(wǎng)對全網(wǎng)進行批量升級,并安排專門的測試小組進行同步測試。
現(xiàn)網(wǎng)基站主控板軟件由BTS3900 V100R008 C10SPC350升級到BTS3900 V100R012C10SPC120版本;
現(xiàn)網(wǎng)基站主控板硬件由UMPTa6和UMPTb2更換成UMPTe單板。
由于LTE系統(tǒng)的穩(wěn)定運行直接關(guān)系到行車安全,所以升級前的測試工作要做到位、試驗要徹底。
3.3.1 測試區(qū)域選取
此次試驗選取兩個具有代表意義的基站,分別是4006-BUA(A網(wǎng)基站)與SNB-BUB(B網(wǎng)基站),原因為:
1)兩個基站下小區(qū)配置情況復雜,有3種情況:均為合并小區(qū)、分裂小區(qū)、合并小區(qū)和分裂小區(qū)同時存在;
2)由于是在天窗點進行升級試驗,在時間緊、測試項目多的情況下,選取便道寬闊,便于測試車輛通行的基站更合適;
3)測試基站離中心機房近,升級測試出現(xiàn)問題,便于技術(shù)支持人員迅速到場處理。
3.3.2 測試方案
測試階段需詳細對升級后小區(qū)的接入性能、端到端傳輸性能、移動性能、吞吐率及用戶感知等內(nèi)容進行全面驗證測試[4]。
此次升級重點區(qū)域測試以驗證升級后小區(qū)性能為目的,主要包括定點測試部分(接入測試、PING測試、吞吐率測試、通話感知測試)和路測部分(切換測試)。其中定點測試在升級后小區(qū)覆蓋范圍內(nèi)進行;路測在升級單個基站覆蓋范圍內(nèi)、升級基站間(同網(wǎng)、異網(wǎng))、升級站點與未升級站點間(同網(wǎng)、異網(wǎng))的切換帶區(qū)域進行[5],具體測試方法如表1所示。
經(jīng)過周密安排,升級測試采用四個天窗點時間段,分別對選定的4006-BUA(A網(wǎng)基站)與SNBBUB(B網(wǎng)基站)兩個基站的業(yè)務性能,按計劃內(nèi)容進行試驗。試驗中發(fā)現(xiàn)兩類主要問題:第一類為基站主控板升級后,設備運行正常,但個別小區(qū)無法正常建立;第二類為基站升級后,設備狀態(tài)、小區(qū)狀態(tài)均正常,但個別小區(qū)終端用戶無法正常接入。結(jié)合現(xiàn)場試驗結(jié)果,采集相應的系統(tǒng)日志對問題進行詳細分析。
表1 升級測試方法Tab.1 Update testing methods
4.1.1 問題描述
對兩個測試站點進行基站主控板更換升級操作,網(wǎng)管查看升級后的基站單板運行狀態(tài)、版本狀態(tài)均為正常,查看小區(qū)狀態(tài)發(fā)現(xiàn)4006-BUA(A網(wǎng)基站)基站下標識為2號的小區(qū)狀態(tài)為“未建立”,提示原因為“基帶資源分配失效,建議核查小區(qū)規(guī)格和基帶板規(guī)格是否匹配”,如圖3所示。
圖3 基帶資源不足導致個別小區(qū)未建立Fig.3 Fail to establish a cell due to deficient baseband recourses
4.1.2 問題詳細分析
針對4006-BUA基站2號小區(qū)無法激活問題進行如下分析。
1)基站配置排查
4006-BUA基站的小區(qū)資源配置情況為:基帶板LBBPd4兩塊,下掛3個RRU拉遠單元,每個RRU配置兩個定向天線,分別覆蓋鐵路線上下行方向區(qū)域。該基站總共配置6扇區(qū)、3小區(qū),其中0#和1#、2#和3#、4#和5#扇區(qū)兩兩進行了小區(qū)合并,以上配置符合現(xiàn)網(wǎng)需求,如圖4所示。
圖4 基站配置情況Fig.4 Base station configuration
2)基帶板日志分析
分析基帶板日志發(fā)現(xiàn),小區(qū)未激活就是由于基帶資源不足導致,對基帶板進行多次復位,發(fā)現(xiàn)每次都有一個小區(qū)不能正常建立,原因均為基帶資源不足。
3)問題原因分析
結(jié)合日志分析,與廠家研發(fā)人員進行詳細溝通,了解到新版本的基帶板LBBPd4具有以下特點:在扇區(qū)與基帶資源不綁定的情況下,每板只支持3個基帶資源,一個基帶資源支持一個扇區(qū);且同一個小區(qū)的基帶資源不能跨單板重建。
問題基站下3個小區(qū)均為合并小區(qū),每小區(qū)對應兩個扇區(qū)會占用1塊基帶板的兩個基帶資源,當前兩個小區(qū)建立后,兩塊基帶板每塊只剩一個基帶資源,而同一個小區(qū)的基帶資源不能跨板重建,導致基帶資源不足,最后一個小區(qū)無法激活[6]。
4.1.3 解決辦法
如果對扇區(qū)與基帶資源進行綁定,可以使基帶資源翻倍,即每基帶板的基帶資源由3個變?yōu)?個,具體操作命令如下。
1)激活所有小區(qū)
DEA CELL: LocalCellId=0(1、2);
2)增加基帶設備
ADD BASEBANDEQM: BASEBANDEQMID=0,BASEBANDEQMTYPE=ULDL, UMTSDEMMODE=NULL, SN1=3, SN2=2;
3)修改小區(qū)扇區(qū)設備
MOD EUCELLSECTOREQM: LocalCellId=0,SectorEqmId=0(1-5), BaseBandEqmId=0;
4)激活小區(qū)
ACT CELL: LocalCellId=0(1、2)。
4.1.4 實驗室驗證
實驗室按照現(xiàn)網(wǎng)數(shù)據(jù)配置進行鏡像驗證,未進行扇區(qū)和基帶資源綁定前現(xiàn)象和現(xiàn)網(wǎng)問題一致,存在小區(qū)激活失敗問題,原因為基帶資源不足。使用解決方案進行配置之后,小區(qū)激活成功,基帶資源占用正常。
4.2.1 問題描述
進行基站主控板更換升級操作后,SNB-BUB基站下263、264小區(qū)出現(xiàn)接入失敗問題,分別進行上下電復位RRU、BBU機框后,問題未解決;依次MML命令復位UMPT主控板、LBBP基帶板和RRU后問題解決。
4.2.2 問題分析
1)從現(xiàn)象方面分析
問題與上下電復位BBU框和MML命令依次掉電復位UMPT主控板、LBBP基帶板兩個復位方式的差異點相關(guān)。
2)從組網(wǎng)方面分析
經(jīng)現(xiàn)場調(diào)查發(fā)現(xiàn),公司LTE系統(tǒng)基站BBU與RRU連接采用的是熱環(huán)配置,即雙CPRI光鏈路連接,兩條鏈路為熱備工作模式,且普遍存在光口0和光口1 CPRI光纖長度相差較大場景,本次問題場景兩條光鏈路長度相差900 m左右。
3)從熱環(huán)原理分析
現(xiàn)網(wǎng)版本機制為:當業(yè)務在光口0上運行時取光口0的時延TN值,業(yè)務在光口1上時會取光口1的TN值,以便實現(xiàn)BBU和RRU的數(shù)據(jù)同步。
4)日志分析
在升級后的問題小區(qū)進行測試發(fā)現(xiàn),UE總是發(fā)生重建立,重建立的原因是上行消息達到最大重傳。查看對應的基站側(cè)日志,發(fā)現(xiàn)在問題時段,基站側(cè)檢測到終端上行的RSRP陡降。
5)問題原因分析
由于公網(wǎng)LTE系統(tǒng)組網(wǎng)基本為單鏈型組網(wǎng),每個RRU只接一個光口,所以新版本設計時默認按照兩個CPRI光鏈路等長設計,固定取光口1的TN值[7],但實際朔黃普遍存在兩個光鏈路長度差異較大的場景(大于100 m),當業(yè)務在光口0運行時,會取光口1的TN值,造成光鏈路時延偏差過大,配置給終端的TA值偏移嚴重,BBU和RRU數(shù)據(jù)不同步,出現(xiàn)終端接入失敗的情況。
6)解決方法
按照現(xiàn)網(wǎng)光鏈路不等長的實際場景,調(diào)整新版本的TN值,并且選擇部分基站進行測試,確保后續(xù)該問題不再復現(xiàn)。
7)實驗室復現(xiàn)
實驗室配置的鏡像環(huán)境,熱環(huán)配置下光纖不等長,問題可以穩(wěn)定復現(xiàn),日志分析表現(xiàn)為相同現(xiàn)象,此時長光纖光口0實際配置TN值為90,理論上應配置280。將版本中TN值按照實際情況配置為280,問題排除,終端能正常接入,查看日志各項指標正常。
對于部分基站出現(xiàn)FPGA軟失效的問題,由于沒有辦法徹底解決,為了便于今后維護,采取在新基站版本上打冷補丁的措施來增加以下功能。
4.3.1 增加自愈復位開關(guān)
若開關(guān)為開,在FPGA軟失效且業(yè)務異常時,復位RRU自愈,自愈后仍無法恢復,則上報硬件故障告警。若開關(guān)為關(guān),同時FPGA軟失效且業(yè)務異常時,只上報“單板軟件運行異常告警”和“射頻單元軟件運行異常告警”,不進行復位自愈,此時需人工干預。
4.3.2 增加自愈延遲開關(guān),在自愈開關(guān)為開時生效
若延遲開關(guān)為開,在FPGA軟失效且業(yè)務異常時,為了減少單板上承載的其他小區(qū)的業(yè)務影響,系統(tǒng)在凌晨2點左右發(fā)起復位自愈。若開關(guān)為關(guān),在FPGA軟失效且業(yè)務異常時,系統(tǒng)立即復位自愈,減少業(yè)務影響的時長。
4.3.3 增加業(yè)務檢測時長可配置功能
檢測業(yè)務異常時,按配置的時長進行判決,若業(yè)務異常持續(xù)到配置的時長后,則認為業(yè)務異常,即觸發(fā)自愈功能,避免系統(tǒng)誤判斷進而頻繁自愈重啟,影響在線業(yè)務。
隨著技術(shù)的不斷進步,軟硬件版本的不斷更新,LTE系統(tǒng)在運行中需要不斷進行升級優(yōu)化,為保證系統(tǒng)正常運行,尤其是保證鐵路LTE系統(tǒng)控車業(yè)務的可靠性,升級前需要進行全面反復試驗,并制定詳細周密的實施計劃,將可能發(fā)生的問題提前暴露出來,尋找出解決方案,才能使升級工作順利推進。
[1]高媛.基于LTE技術(shù)的無線重聯(lián)數(shù)據(jù)傳輸?shù)孛鎽孟到y(tǒng)的設計與研究[J].鐵道通信信號,2016,52(12):55-57.Gao Yuan.Design and research of ground application system for wireless reconnection data transmission based on LTE Technology[J].Railway Signalling & Communication,2016,52(12):55-57.
[2]馮軍宏,簡維廷,張榮哲,等.超深亞微米IC的宇宙射線輻射軟失效研究[J].半導體技術(shù) ,2010,35(6):555-559.Feng Junhong,Jian Weiting,Zhang Rongzhe,et al.Research on soft failure of cosmic ray radiation from ultra deep submicron IC[J].Semiconductor Technology,2010,35(6):555-559.
[3]周國昌,朱啟,巨艇,等.一種FPGA單粒子軟錯誤檢測電路設計[J].電子工程設計,2015,23(20):1-4.Zhou Guochang,Zhu Qi,Ju Ting,et al. A design of FPGA single particle soft error detection circuit [J].Electronic engineering design,2015,23(20):1-4.
[4]盧卓君,彭陳發(fā),岑曙煒.TD-LTE網(wǎng)絡優(yōu)化探討[J].電信技術(shù),2012(7):51-53.Lu Zhuojun,Peng Chenfa,Cen Shuwe.Optimization of TD-LTE network[J].Telecommunication technology,2012(7):51-53.
[5]李莉.鐵路下一代移動通信系統(tǒng)LTE-E技術(shù)指標體系研究[J].鐵路通信信號工程技術(shù),2013,10(s1):233-237.Li Li.Research on the LTE-R technical index system of the next generation railway mobile communication system[J].Railway Communication Signal Engineering Technology,2013,10 (s1):233-237.
[6]李德偉.華為小區(qū)服務能力下降告警排查方法及解決思路[J].電子世界,2016(11):186-187.Li Dewei.The method and solution of service capability decline in HUAWEI District [J].Electronic world,2016(11):186-187.
[7]霍曉莉,荊瑞泉.BBU集中部署時CPRI鏈路承載方案[J].電信科學,2015,31(8):161-165.Huo Xiaoli, Jing ruiquan.CPRI link bearing scheme for BBU centralized deployment[J].Telecommunications Science,2015,31(8):161-165.
[8]馬健康.神朔鐵路機車同步操控LTE系統(tǒng)規(guī)劃方案[J].鐵路通信信號工程技術(shù),2016,13(5):32-37.Ma Jiankang.LTE Networking Solution in Locomotive Synchronous Operation and Control Technology for Shenshuo Railway[J].Railway Signalling & Communication Engineering,2016,13(5):32-37.