鞠昊哲,王東明,胡 靜,劉 瑜,王海龍,陳建平
隨著鐵路通信系統(tǒng)對業(yè)務量、通信質量和安全性需求的日益增加,傳統(tǒng)的GSM-R 通信系統(tǒng)已無法完全滿足高鐵業(yè)務場景,對于5G-R 專網(wǎng)(5GR)部署的期望越來越迫切。基于鐵路通信場景對安全性、可靠性、容災能力的特定要求,接入網(wǎng)基站系統(tǒng)的可靠性設計成為重中之重。鐵路通信系統(tǒng)的基站設備采用冗余部署,組網(wǎng)冗余覆蓋[1]。一般射頻拉遠單元(RRU)在與基帶處理單元(BBU)連接時,采用環(huán)型組網(wǎng)冗余部署方式,以提高其可靠性,但在5G-R 新提出的集中式單元(CU)與分布式單元(DU)分離部署的場景下,就需對系統(tǒng)可靠性設計提出更高的要求[2]。
目前,針對5G-R 通信系統(tǒng)可靠性的研究多為設計方案探討,缺少定量分析計算。而對GSM-R 系統(tǒng)的可靠性分析,常采用系統(tǒng)模型的靜態(tài)分析、故障樹分析、馬爾可夫分析等方法[3-5]。雖然這些方法對5G-R 基站的可靠性定量研究具有借鑒意義,但是系統(tǒng)模型的靜態(tài)分析不適于可維修的動態(tài)場景。而傳統(tǒng)的動態(tài)故障樹分析、馬爾科夫分析在故障切換復雜、鏈路眾多的場景中,又存在模型建立困難和公式推導繁瑣等問題。為此本文在采用傳統(tǒng)可靠性分析方法的基礎上,將適用于大規(guī)模復雜系統(tǒng)可靠性分析的蒙特卡洛仿真法,應用在基站組網(wǎng)系統(tǒng)的可靠性分析中[6],將其與傳統(tǒng)可靠性分析方法進行對比研究,并分析組網(wǎng)系統(tǒng)的薄弱環(huán)節(jié),為優(yōu)化組網(wǎng)方案提供理論依據(jù)。
5G-R 接入網(wǎng)基站單元設備主要以分布式組網(wǎng)[7],包括BBU和RRU。RRU部分可采用星型或環(huán)型連接,由于環(huán)型連接的可靠性更高,因此本文考慮建立環(huán)型連接的組網(wǎng)模型。根據(jù)不同的硬件設備,1 臺BBU 可以級聯(lián)多臺RRU。為簡化計算,在不影響分析效果的前提下,每臺BBU 設備僅級聯(lián)2 臺RRU 設備。在5G-R 系統(tǒng)中,可用分離的CU 和DU 設備代替BBU 設備,以下將分別建立2種基站組網(wǎng)模型[8-9]。
BBU 設備包含基帶單元、主控單元以及背板等。其中,背板用于完成單板間通信和電源供給。5G 基站供應商可實現(xiàn)BBU 內(nèi)部關鍵板件的冗余部署,1 個BBU 背板可以插入多個基帶單元和主控單元。一種典型的分布式基站部署簡化模型見圖1。
圖1 典型分布式基站簡化模型
為實現(xiàn)5G-R 基站的統(tǒng)一管理和鐵路沿線基站設備的靈活部署,提出CU、DU 分離部署方式。先將DU 部署在鐵路沿線,再由部署在車站的CU統(tǒng)一調度。CU 和DU 分離部署方式具有以下3 個優(yōu)點:①有利于實現(xiàn)基帶資源的共享;②將實時性要求高的部分交給DU 分布部署,而實時性要求低的部分交給CU,CU 直接與核心網(wǎng)相連,有利于實現(xiàn)云化和切片服務;③部署更加靈活。
目前的大多數(shù)5G 基站只是將CU、DU 做邏輯劃分,后續(xù)部分應用場景下的部署趨勢是CU、DU 物理分離,這就對可靠性提出了更高的要求。為此CU 和DU 之間擬采用交叉連接方式進行部署,部署模型見圖2。
圖2 CU、DU分離部署模型
主備CU、DU 之間都具備建立F1 連接的能力,CU 之間和DU 之間建立心跳連接,可以實時監(jiān)測鏈路狀態(tài)。啟動時,主備CU、DU 均上電,建立流控制傳輸協(xié)議,但只有主CU、DU 之間建立F1 連接,一旦主用設備故障,備用設備立即接入,重新建立F1 連接。這是一種交叉連接熱備的設計方案。
可靠性也稱作可靠度,其定義為設備或系統(tǒng)在規(guī)定條件下和規(guī)定時間內(nèi)完成規(guī)定功能的能力,常用R(t)來表示產(chǎn)品壽命大于規(guī)定時間的概率,即
式中:t為規(guī)定時間,T為產(chǎn)品壽命。工程上,電子產(chǎn)品的壽命常服從指數(shù)分布,具有無記憶的特點,元件2次故障之間不存在聯(lián)系。其表達式為
式中:λ為失效率,指未失效的某產(chǎn)品經(jīng)過該時刻后,單位時間內(nèi)失效的概率,在可靠性動態(tài)分析中,常表示為
式中:MTBF為平均故障間隔時間,是系統(tǒng)發(fā)生多次可修復的故障,在每次修復后正常運行的平均時間。
對于動態(tài)系統(tǒng),還需要考慮系統(tǒng)的修復率μ,其定義為失效的某產(chǎn)品經(jīng)過該時刻后,單位時間內(nèi)修復的概率。在可靠性動態(tài)分析中常表示為
式中:MTTR為平均故障修復時間,是系統(tǒng)從發(fā)生故障到完成修復的平均時間。
在故障樹分析中,引入穩(wěn)態(tài)有效度A,其定義為系統(tǒng)到達穩(wěn)定狀態(tài)后,處在工作狀態(tài)的概率。某一時刻的有效度A(t),則指系統(tǒng)在某一時刻處于工作狀態(tài)的概率,即
引入故障頻度M,其定義為運行時間t內(nèi),系統(tǒng)故障次數(shù)除以總運行時間t。在故障樹分析中,常用穩(wěn)態(tài)有效度A和故障頻度M來計算系統(tǒng)的MTTR和MTBF。
靜態(tài)分析系統(tǒng)的可靠性時,元件(設備)常被建立為邏輯上的串聯(lián)或并聯(lián)結構。對于一個串聯(lián)系統(tǒng),其可靠性參數(shù)可表示為
式中:RC為整個串聯(lián)結構的可靠度;Ri為串聯(lián)結構中第i個元件的可靠度。同理,可以得到一個并聯(lián)系統(tǒng)的可靠度RB為
系統(tǒng)可靠性的靜態(tài)分析是一種簡單直觀的可靠性研究方法,但存在著無法反映系統(tǒng)動態(tài)變化的缺點。
動態(tài)故障樹分析是使用最廣泛的用于分析動態(tài)可維修冗余系統(tǒng)可靠性的研究方法。其中,系統(tǒng)的失效、修復、冗余等動態(tài)特性采用馬爾可夫分析方法計算[5]。
故障樹由邏輯門和事件組成,常用的邏輯門有與門、或門、熱備門等。故障樹常用邏輯門符號及其狀態(tài)轉移圖見表1。
表1 故障樹常用邏輯門符號及其狀態(tài)轉移圖
以熱備門為例,分析其馬爾可夫狀態(tài)轉移過程。初始0 狀態(tài)表示系統(tǒng)無故障運行;主備2 個元件中任意1 個元件失效則轉移到1 狀態(tài)(降級狀態(tài)),系統(tǒng)仍然能夠正常運行,轉移概率為2 個元件的失效率之和;當2 個元件均失效,則系統(tǒng)進入2狀態(tài)(故障狀態(tài))。
狀態(tài)轉移矩陣Q為
穩(wěn)態(tài)有效度應滿足
式中:πi為狀態(tài)i轉移概率,A為穩(wěn)態(tài)有效度。
通過求解穩(wěn)態(tài)有效度A可以求解MTTR和MTBF,將各模塊MTBF、MTTR的倒數(shù)作為整個模塊的失效率和修復率,代入到下一層系統(tǒng)中,以此類推,求解出頂事件的可靠性參數(shù)。
動態(tài)故障樹分析法能夠定量分析可維修系統(tǒng)的可靠性參數(shù),但仍舊只能處理簡單的故障邏輯,不適用于故障點疊加和設備切換復雜的場景。
蒙特卡洛仿真法又稱為概率模擬方法,或隨機抽樣統(tǒng)計試驗方法,是一種基于隨機試驗的模擬方法。它以大數(shù)定理為理論基礎,以隨機數(shù)為基本工具[6]。蒙特卡洛算法可以有效解決交叉連接的CU、DU 冗余模塊的故障仿真,借助計算機可以快速統(tǒng)計系統(tǒng)的可靠性參數(shù),定位系統(tǒng)中的薄弱環(huán)節(jié),以及影響系統(tǒng)可靠性的關鍵設備,計算出基本事件的重要度,為基站系統(tǒng)的故障分析提供有力支持。
蒙特卡洛仿真法的基本步驟是:先建立合理的概率模型,通過開展數(shù)值化的隨機試驗得到抽樣值;然后統(tǒng)計試驗的故障次數(shù),將結果作為工程中可靠性問題的解。生成隨機數(shù)是蒙特卡洛方法中的一個關鍵部分,隨機數(shù)滿足的分布不同,會很大程度上影響結果的準確性。本文中采用常見的指數(shù)方法生成隨機時間步長。
根據(jù)國鐵集團發(fā)布的《鐵路5G 專用移動通信(5G-R)系統(tǒng)總體技術要求》[10],并參考典型設備的相關數(shù)據(jù),所配置的失效率參數(shù)見表2。
表2 基站設備的失效率參數(shù)
《技術要求》規(guī)定:基站系統(tǒng)的MTTR應不大于1 h。為方便計算,系統(tǒng)中元件修復率均設置為1。鑒于背板作為BBU中的一部分,其可靠性參數(shù)沒有明確數(shù)據(jù),可將其分為理想情況和非理想情況進行討論。采用Matlab2020環(huán)境進行仿真[11]。
對于BBU/RRU 基站,每組中的2 個RRU 并聯(lián),組間串聯(lián),BBU 則建模為并聯(lián)的基帶單元、并聯(lián)的主控單元和背板串聯(lián),所建立的混聯(lián)框圖見圖3。對于該模型,基帶單元和主控單元全部插在背板上,背板的可靠性是影響系統(tǒng)整體可靠性的關鍵。根據(jù)該模型,可以列出求解可靠性參數(shù)的計算式
圖3 BBU模型混聯(lián)框圖
式中:RRRU為RRU 模塊可靠度,RRRU1為單個RRU 可靠度,R主為主控單元的可靠度,R基為基帶單元的可靠度,R背板為背板的可靠度,R為系統(tǒng)可靠度。
對于CU、DU 分離模型,RRU 部分相同,而CU、DU 之間的光傳輸模塊交叉連接,見圖4。對于一般性的混聯(lián)網(wǎng)絡,不能用串并聯(lián)公式表示,故采用最小路集法求解其可靠性參數(shù)。
圖4 CU、DU分離模型混聯(lián)框圖
式中:RCU為CU 可靠度,RDU為DU可靠度,Rt為傳輸模塊的可靠度,RS為CU/DU 模塊的可靠度,L1~L4為每條最小路徑的可靠度,RRRU為RRU 模塊的可靠度。
結合上述2 種模型,分別在理想情況下(背板失效率為0)做出可靠度R隨時間變化的曲線對比,見圖5(a)。在非理想情況下,當背板和傳輸模塊的可靠性處在同一量級時,可靠度R隨時間變化對比,見圖5(b)。
圖5 CU、DU分離模型與BBU模型的可靠度對比
由此看出,為達到同樣的系統(tǒng)可靠性,對背板設備的可靠性要求更高,這也是采用交叉冗余連接CU、DU 分離模型的優(yōu)勢,能夠降低對中間連接設備的可靠性要求。
直連CU、DU 分離模型與BBU 模型的可靠度對比見圖6。由圖6 可以看出,在靜態(tài)分析中,不考慮修復和熱備的動態(tài)場景時,當不采用CU、DU 交叉連接時,CU、DU 分離基站的可靠性與BBU 基站相比有較大的差距;當采用交叉連接時,可以大幅度提升系統(tǒng)的可靠性。在相同的單設備可靠性量級下,基站系統(tǒng)整體的可靠性可以超過BBU基站的可靠性。
圖6 直連CU、DU分離模型與BBU模型的可靠度對比
BBU 基站系統(tǒng)故障樹模型見圖7,基帶單元和主控單元均為冗余熱備,RRU 部分為環(huán)型連接結構。
圖7 BBU基站動態(tài)故障樹模型
CU、DU 分離基站系統(tǒng)的動態(tài)故障樹模型見圖8,CU、DU 冗余熱備,CU、DU 之間的光纖傳輸模塊交叉連接。在故障樹場景下,認為這是一種四冗余邏輯,即4 條光纖中任一條能正常工作,則整個光纖傳輸模塊處于工作狀態(tài)。一主三備的四冗余邏輯本質上仍然是熱備,可以用馬爾可夫方法分析其狀態(tài)。
圖8 CU、DU分離基站動態(tài)故障樹模型
假設背板不發(fā)生故障(失效率為0),計算2種基站系統(tǒng)的平均無故障工作時間(MUT)和平均修復時間(MDT),見表3。在故障樹分析中,常用MUT和MDT來近似MTBF和MTTR。
表3 2種基站系統(tǒng)的可靠性參數(shù)
分析表3 中數(shù)據(jù),BBU 系統(tǒng)的MUT為(10 533 079 130)h,CU、DU 分離系統(tǒng)的MUT為(10 471 642 790) h,兩系統(tǒng)的MUT相差僅0.58%。在實際情況(非理想)中,采用傳輸模塊的MTBF更高,而背板失效率不為0,CU、DU分離基站的可靠性不低于BBU 基站的可靠性,驗證了采用交叉冗余連接的CU、DU 分離部署的基站系統(tǒng)的可靠性得到大幅度提高。
動態(tài)故障樹模型具有較高的可靠性,卻難以處理故障疊加的場景。以圖9 所示對CU、DU 部分故障點進行分析。
圖9 CU、DU部分故障點分析
假設出現(xiàn)了故障1(DU 故障)和故障2(光纖鏈路)的疊加情況,那么光纖傳輸鏈路不再是一主三備邏輯,因為只要故障DU 的2 條對端pairF1(假設DU1 故障,DU2 的2 個F1 即為對端pairF1)都斷開,則整個系統(tǒng)故障。這種故障場景已經(jīng)無法用故障樹的邏輯進行建模,故基于CU、DU 冗余模塊的軟件架構,建立切換邏輯完整的蒙特卡洛模型,其仿真流程見圖10。
圖10 蒙特卡洛仿真流程
初始參數(shù)中包括試驗次數(shù)N、試驗時長T、初始的MTTR和MTBF。本例中的隨機數(shù)生成服從指數(shù)分布,試驗次數(shù)N是一個經(jīng)驗值,需要進行合理的選擇。如果選擇的次數(shù)過少,則仿真結果的準確性降低;如果次數(shù)過多,則計算量會大幅度增加。根據(jù)故障樹分析中計算得出的數(shù)值,滑動步長以1 h 為單位長度,則至少需要令N>1010,T>1010h。受限于計算資源,可通過增加滑動步長的單位時間來獲得理想曲線。
蒙特卡洛與馬爾可夫方法穩(wěn)態(tài)有效度對比見圖11??梢钥闯?,在失效率為0.2時,蒙特卡洛方法獲得的穩(wěn)態(tài)有效度隨時間變化曲線,同動態(tài)故障樹方法相比有小幅度下降,約降低0.02。這是由于在故障疊加的場景下導致可靠性降低,驗證了這種基于隨機試驗的仿真方法具有更高的準確性和真實性,且隨著試驗次數(shù)N的增加,其振蕩的幅度也會越來越小,逐漸接近理想光滑曲線。相較于故障樹方法,該方法可以直觀獲得可靠性隨時間變化曲線,而故障樹方法只能得到近似的穩(wěn)態(tài)有效度曲線。隨著事件層數(shù)增加,故障樹曲線誤差將越來越大,而蒙特卡洛仿真所得到的曲線則不會出現(xiàn)誤差增大的問題[12-13]。
圖11 蒙特卡洛與馬爾可夫方法穩(wěn)態(tài)有效度對比
圖12 和圖13 仿真了光纖傳輸模塊的MTTR、MTBF變化對該系統(tǒng)可靠性曲線的影響。光纖傳輸模塊的MTBF增加會使系統(tǒng)可靠性增強,但隨著其MTBF增加,系統(tǒng)可靠性的提高會逐漸達到極限。這是因為交叉冗余的連接方式使光纖傳輸模塊部分的可靠性得到了大幅度提高,而光纖傳輸模塊的可靠性遠高于CU、DU 設備部分,但受限于CU、DU 設備,系統(tǒng)可靠性不再隨著光纖傳輸模塊可靠性的提高而提高。這也說明,此時系統(tǒng)的可靠性取決于CU、DU 設備的可靠性。由圖13 可知,系統(tǒng)的可靠性也會隨著MTTR的增加而減小,因此,基站設備要求MTTR不大于1 h。
圖12 MTBF變化對系統(tǒng)可靠性的影響
圖13 MTTR變化對系統(tǒng)可靠性的影響
采用3 種方法對比分析,了2 種不同5G-R 接入網(wǎng)基站系統(tǒng)的可靠性指標。
1)通過采用系統(tǒng)靜態(tài)分析初步得到可靠性隨時間變化的曲線,在不考慮可維修動態(tài)場景的情況下,比較了CU、DU 分離組網(wǎng)和BBU 組網(wǎng)的系統(tǒng)可靠性。
2)通過采用動態(tài)故障樹方法,進一步求得可維修動態(tài)系統(tǒng)的可靠性參數(shù),結果更加符合實際,驗證了CU、DU 分離組網(wǎng)的可靠性和優(yōu)越性。在基站部署時可以根據(jù)不同應用場景進行選擇。
3)通過對比蒙特卡洛仿真法與動態(tài)故障樹分析法,驗證試驗參數(shù)和試驗方法的準確性和可行性。通過建立完整的故障切換邏輯模型,驗證了交叉冗余連接方式對于提高系統(tǒng)可靠性的有效性,分析了單元設備MTTR、MTBF變化對系統(tǒng)可靠性的影響。采用交叉冗余連接后,系統(tǒng)可靠性主要取決于CU、DU 設備本身,而傳輸單元的失效率變化對系統(tǒng)可靠性的影響較小,從而驗證了此時系統(tǒng)的薄弱環(huán)節(jié)是基站設備本身的可靠性參數(shù)。
本文只考慮了主備CU、DU 同站址場景,擬在未來研究中,建立異站址冗余部署場景下的可靠性分析模型,進行更全面的可靠性分析[14]。