王軍良,黃 寧,包盛花,武潤升
(1.北京航空航天大學(xué) a.可靠性與系統(tǒng)工程學(xué)院,北京 100191; b.云南創(chuàng)新研究院,昆明 650233;2.華為技術(shù)有限公司,上海 201206)
隨著第五代移動通信技術(shù)(5th Generation Mobile Communication Technology,5G)網(wǎng)絡(luò)等新興網(wǎng)絡(luò)的出現(xiàn)和在各個領(lǐng)域的應(yīng)用,網(wǎng)絡(luò)業(yè)務(wù)的可靠性問題越來越受到重視[1]。當前許多研究針對網(wǎng)絡(luò)可靠性試驗方法進行了設(shè)計[2-4],但這些研究在設(shè)計網(wǎng)絡(luò)試驗時,缺乏規(guī)劃網(wǎng)絡(luò)可靠性試驗所需要的試驗時長以及求解置信區(qū)間,導(dǎo)致最終的試驗結(jié)果可信度不高。
目前一些研究對于簡單網(wǎng)絡(luò)的置信度分析問題有相應(yīng)的解決方案。如文獻[5-10]假定網(wǎng)絡(luò)對象的底層設(shè)備為具有未知平均故障間隔時間的指數(shù)型產(chǎn)品,通過設(shè)備之間的故障相互獨立且服從泊松分布,推斷整網(wǎng)的時延和丟包等也符合該分布特征,由此基于傳統(tǒng)產(chǎn)品的置信度分析方法計算出試驗結(jié)果置信區(qū)間。此外,文獻[11]以威布爾分布計算了網(wǎng)絡(luò)試驗時長和置信區(qū)間問題。但對5G網(wǎng)絡(luò)系統(tǒng)而言,各個構(gòu)件產(chǎn)品的可靠不能保證上層網(wǎng)絡(luò)業(yè)務(wù)的可靠[12],且5G網(wǎng)絡(luò)業(yè)務(wù)具有復(fù)雜性、故障模式多樣性和部署方式動態(tài)性[13],使得5G網(wǎng)絡(luò)中業(yè)務(wù)的故障分布很可能不是泊松分布等固定分布形式,這就導(dǎo)致傳統(tǒng)的置信度分析方法難以再應(yīng)用于5G網(wǎng)絡(luò)試驗中。
在這種背景下,本文提出了一種基于業(yè)務(wù)故障分布統(tǒng)計的5G網(wǎng)絡(luò)業(yè)務(wù)可靠性試驗置信度分析方法,首先通過預(yù)試驗收集5G網(wǎng)絡(luò)試驗數(shù)據(jù),擬合出準確的5G網(wǎng)絡(luò)業(yè)務(wù)故障分布,然后在此基礎(chǔ)上對試驗時長進行規(guī)劃以及進行置信度分析,從而準確地求解出5G網(wǎng)絡(luò)業(yè)務(wù)的可靠性試驗時長及評估結(jié)果置信區(qū)間。
對于5G網(wǎng)絡(luò)業(yè)務(wù)故障而言,由于網(wǎng)絡(luò)中存在軟件的調(diào)用和業(yè)務(wù)的資源分配等,其故障分布規(guī)律往往與單純的硬件故障不同,難以直接確定故障符合何種分布規(guī)律。因此,這里首先進行一定量的預(yù)試驗,收集網(wǎng)絡(luò)可靠性數(shù)據(jù);然后從預(yù)試驗的故障數(shù)據(jù)中找出理論網(wǎng)絡(luò)故障分布的表達式;最后進行故障分布規(guī)律的驗證。
先進行多組預(yù)實驗,收集首次5G網(wǎng)絡(luò)故障時的預(yù)試驗數(shù)據(jù)。該步驟的目的主要是確定預(yù)試驗的單組試驗持續(xù)時間。
為了方便故障數(shù)據(jù)的收集,在每一組預(yù)試驗中,需要統(tǒng)計網(wǎng)絡(luò)首次故障發(fā)生時間作為網(wǎng)絡(luò)的故障間隔時間值,進行多組預(yù)試驗后得到單組預(yù)試驗需要進行的時間。網(wǎng)絡(luò)首次故障發(fā)生時間的統(tǒng)計方法如圖1所示。圖中,Dmax為網(wǎng)絡(luò)試驗中故障判據(jù)的參數(shù)閾值,單位依照參數(shù)類型確定;Δt為網(wǎng)絡(luò)參數(shù)采樣間隔,單位為s。
圖1 預(yù)實驗數(shù)據(jù)統(tǒng)計方法
在多個網(wǎng)絡(luò)首次故障時間中,選取一個最大的網(wǎng)絡(luò)首次故障時間作為單次預(yù)試驗的時間T0,然后再進行m組預(yù)試驗,每一組預(yù)試驗的時間為T0。m的取值會影響故障規(guī)律的精確度,因此其與后續(xù)置信度分析相關(guān)。進行完m組預(yù)試驗后,對整個預(yù)試驗時間區(qū)間T0,統(tǒng)計在每一個Δt間隔內(nèi)的故障發(fā)生頻率,通過常用的經(jīng)驗估計法(即使用頻率來代替故障發(fā)生概率),得到預(yù)試驗數(shù)據(jù)點集G:
式中:i為點的序號;pi為經(jīng)驗估計法獲得的頻率;ci為在時間段(i-1)Δt~iΔt內(nèi),有網(wǎng)絡(luò)故障發(fā)生的預(yù)試驗組數(shù)。顯然,Δt的取值會影響數(shù)據(jù)集G的數(shù)據(jù)量,從而影響擬合的精度。由中心極限定理,假設(shè)已經(jīng)擬合得到的故障規(guī)律為F,對應(yīng)真實故障規(guī)律為F*,當點集中的數(shù)據(jù)與真實分布的誤差獨立同分布,Δt的取值對擬合規(guī)律造成的誤差滿足:
式中:zC為置信度為C下的上分位數(shù);σ為點集中pi的均方差。由式(2)可知,故障規(guī)律的擬合精度與Δt的平方根呈反相關(guān)。
此外,使用頻率代替概率,也會不可避免地引入估計誤差,導(dǎo)致數(shù)據(jù)點集不精準的問題。假設(shè)pi對應(yīng)的真實概率值為qi,且其中狀態(tài)數(shù)k為2(正常和故障兩種),則估計誤差ε可表示為
在進行完一定量預(yù)試驗后,可以收集到少量的5G網(wǎng)絡(luò)可靠性試驗數(shù)據(jù)集G,這些數(shù)據(jù)需要被用來分析故障規(guī)律,同時用于對確定的故障規(guī)律進行驗證。為了保證驗證的客觀性,需要將預(yù)試驗數(shù)據(jù)集G切分出獨立的一組,即
式中:[FitSet]為擬合出的故障規(guī)律;[ValSet]為測試得到的故障規(guī)律對實際規(guī)律的擬合程度。
通常情況下需要進行多次故障規(guī)律的擬合。重復(fù)的數(shù)據(jù)利用可能會出現(xiàn)重復(fù)擬合和過擬合的現(xiàn)象,為避免出現(xiàn)這兩種情況,需要將[FitSet]分成多個小組,分別得到各個小組的故障規(guī)律,然后使用[ValSet]進行驗證,最后取出驗證結(jié)果最好的一個故障規(guī)律:
注意到,由于預(yù)試驗得到的試驗數(shù)據(jù)較少,如果如上述分組進行擬合,每組的數(shù)據(jù)量可能不足以得到準確的模型,這里可以使用交叉驗證的思想對數(shù)據(jù)進行充分利用,即某組擬合數(shù)據(jù)進行擬合后,可以再次被用作驗證數(shù)據(jù)。
擬合過程有兩種選擇。首選的擬合方式是根據(jù)預(yù)試驗中m組預(yù)試驗得到的故障數(shù)量統(tǒng)計,直接預(yù)估5G網(wǎng)絡(luò)故障分布所有可能的模型形式,如鐘形的曲線可以假設(shè)為符合正態(tài)分布等;然后根據(jù)這些預(yù)估的模型形式,仿照傳統(tǒng)的統(tǒng)計方案進行計算。該方法適合與傳統(tǒng)故障分布類似的網(wǎng)絡(luò),得到的分布準確性較高,適用于可以直接套用已有分布規(guī)律的情況。
根據(jù)以上得到的網(wǎng)絡(luò)故障分布規(guī)律,就可以按照給定的置信度信息確定出需要進行的5G網(wǎng)絡(luò)可靠性試驗時長。同時,根據(jù)試驗時長和置信度信息,進一步可以得到平均無故障間隔時間等可靠性參數(shù)在該置信度下區(qū)間的上下限。
在進行試驗時長計算之前,首先規(guī)定以下符號含義:θ0為生產(chǎn)方可接受質(zhì)量水平;θ1為使用方要求的平均無故障間隔時間(Mean Time Between Failure,MTBF);α為生產(chǎn)方風險;β為使用方風險。以上幾個數(shù)值在進行預(yù)實驗前需要根據(jù)客戶和網(wǎng)絡(luò)提供方的要求給定數(shù)值。θ為待確定MTBF的真實數(shù)值;最終的待求結(jié)果中R0為統(tǒng)計方案接收時的網(wǎng)絡(luò)故障數(shù);T為統(tǒng)計方案接收時進行的試驗時長。在已經(jīng)求得故障發(fā)生概率函數(shù)F(ω,t)的前提下,可以通過聯(lián)立方程求取試驗時長。
取R(ω,t)=1-F(ω,t)。根據(jù)數(shù)理統(tǒng)計原理,接受概率P(θ)為
依照風險系數(shù)的定義,有以下關(guān)系式成立:
在式(6)和(7)中,未知數(shù)為接收網(wǎng)絡(luò)故障數(shù)R0和試驗時長T,方程數(shù)與未知數(shù)相等,因此該式理論可解。通過求解方程,最終得到R0和T。
當P(θ)表達式復(fù)雜,難以直接求解方程時,可以采用迭代的方法計算R0和T。為方便計算,令拒收故障數(shù)為R1=R0+1。具體而言有以下步驟:
(1) 初始值R0= 0,R1=1。
(2) 將R0和規(guī)定的θ1與β值代入式(7)的第2個等式,得到可能的最小試驗時長T。
(3) 將T值、R1值與規(guī)定的θ0代入式(7)的第1個等式,計算出α′的值。
(4) 分支步驟。若計算出的α′大于規(guī)定值α,讓R0與R1的值都加1,并轉(zhuǎn)入步驟(2);若不大于,則轉(zhuǎn)入步驟(5)。
(5) 停止迭代,輸出要求的T、R0和R1。
通過上述迭代也可以得到R0和T。得到了這兩個數(shù)值之后,就可以合理地規(guī)劃網(wǎng)絡(luò)可靠性試驗并進行試驗,獲取更多的試驗數(shù)據(jù)。
一般而言,置信度C的建議值在(1-2β)×100%左右。5G網(wǎng)絡(luò)的試驗者也可根據(jù)客戶方面的要求適當提高或降低給定置信度,數(shù)值越高,得到的MTBF的置信區(qū)間會越大,而過大或過小的置信區(qū)間都不具備參考價值。
為了避免混淆,將上一節(jié)中得到的接受概率P(θ)設(shè)為Q(θ)。在給定置信度C后,對于待求置信下限θL和置信上限θU,滿足:
一般而言,當Q(θ)的表達式不符合泊松分布和正態(tài)分布等特殊情況時,θL和θU并不容易求得。為此,當故障規(guī)律函數(shù)F(ω,t)波動幅度不大時,根據(jù)概率統(tǒng)計原理,可以進行如下的近似計算:
(1) 收集可靠性試驗得到的故障時間間隔參數(shù)的點集H。在進行完試驗后,可以得到較大規(guī)模的待估計MTBF參數(shù)的樣本。
(2) 不斷從參數(shù)點集中隨機抽取樣本值,作為新的點集H*中的元素。
式中:n為收集到的故障樣本量;tC/2為C/2置信度下的t分布值。一般而言,當F(ω,t)波動不大時,建議采用直接計算的方式得到置信區(qū)間,得到的結(jié)果準確且耗費時間較少;只有當F(ω,t)波動較大時,才可采用Bootstrap方法,通過模擬抽樣,得到置信區(qū)間,其準確性依賴于點集H*的元素個數(shù),元素越多,準確性越好,計算耗費時間越多。
以部署于洋山港的一個基于5G網(wǎng)絡(luò)輪胎吊(Rubber Tired Gantry,RTG)遠程控制業(yè)務(wù)的可靠性試驗為例,說明上述方法的具體應(yīng)用方式。在進行可靠性試驗置信度分析之前,假定已對該網(wǎng)絡(luò)業(yè)務(wù)完成了網(wǎng)絡(luò)故障判據(jù)的確定和試驗剖面的設(shè)計?;谠撉疤幔涂梢酝ㄟ^上述方法對網(wǎng)絡(luò)試驗進行試驗時長計算和置信度分析。
在本節(jié)中,需要通過一定量的預(yù)試驗,確定出5G網(wǎng)絡(luò)上RTG遠程控制業(yè)務(wù)的故障分布規(guī)律,為之后試驗時長和置信區(qū)間的分析做準備。
圖2所示為確定網(wǎng)絡(luò)業(yè)務(wù)故障分布規(guī)律圖。首先進行k組實驗,對于確定累計故障分布的預(yù)實驗,實驗的組數(shù)k與每組時長N×Δt的選取要在滿足1.1節(jié)精度的要求下進行。這里k的取值為1 500次,已經(jīng)滿足精度要求。
圖2 確定網(wǎng)絡(luò)業(yè)務(wù)故障分布規(guī)律
對于每組實驗,收集業(yè)務(wù)參數(shù)(以RTG大車定位偏差D大車為例)的具體數(shù)值作為業(yè)務(wù)的故障判據(jù)。定義采樣時間間隔為Δt,且滿足精度要求的最小Δt為1 s。若在采樣時刻,采集的定位誤差數(shù)據(jù)大于定位誤差閾值,則認為故障發(fā)生。對于每組實驗,收集其初次故障時間,然后統(tǒng)計這k組實驗中初次故障時間在每個時間點上出現(xiàn)的頻率,確定業(yè)務(wù)故障的故障概率分布。
通過累計故障率分布的統(tǒng)計圖,進一步可以通過數(shù)據(jù)擬合的方式,計算擬合出該曲線的函數(shù)表達。根據(jù)Han的調(diào)研文獻中有關(guān)吊車故障的數(shù)據(jù)來進行擬合[15],擬合的圖形如圖3所示,圖中,橫軸是試驗時間,縱軸是業(yè)務(wù)正常運行的頻率值p_value,粉色點為模擬的故障數(shù)據(jù)點集,擬合出的曲線(藍色曲線)趨近于水平線。
圖3 擬合故障數(shù)據(jù)
通過3.1節(jié)的預(yù)試驗故障分布規(guī)律F(ω,t),注意到該函數(shù)幾乎趨近于水平線。因此,如果其網(wǎng)絡(luò)故障判據(jù)只取決于一個參數(shù)(如“大車定位偏差”),則故障分布服從二項分布。而在本案例中,故障判據(jù)取決于多個參數(shù),則其故障分布服從多維二項分布。
針對RTG遠程操控業(yè)務(wù)的可靠性,需要預(yù)先確定生產(chǎn)方風險α、使用方風險β、檢驗下限R1和檢驗上限R2。在本案例中,給定的α與β均為10%,R2為0.999 0。
根據(jù)2.1節(jié)中對試驗時長求取的方法描述,本案例中正式試驗所需的樣本量可通過以下方程組求得:
式中:c為接收拒收故障判據(jù);N為正式試驗所需樣本量;r為試驗中的故障個數(shù)。N必須為整數(shù),此聯(lián)立方程無普遍公式可解。通過對式(11)的迭代計算,可得到應(yīng)得試驗樣本量為206 000。假設(shè)網(wǎng)絡(luò)試驗數(shù)據(jù)采樣間隔為1 s,則得到c為5,總的試驗時長為206 000×1 s即57.2 h。
通過2.2節(jié)中的分析,可以將求得的試驗時長T和接收拒收判據(jù)c代入式(12),直接得到RTG遠程控制業(yè)務(wù)的平均無故障間隔時間置信區(qū)間為
為了驗證上述結(jié)果的正確性,參考5G實際案例[16],本文構(gòu)建了實際5G網(wǎng)絡(luò)RTG業(yè)務(wù)并進行了試驗(試驗編號為C3-C10),得到的可靠性試驗結(jié)果如圖4所示,由圖可見,試驗結(jié)果實際值基本在該區(qū)間內(nèi)(即上下兩條虛線內(nèi)),符合置信度分析的預(yù)期值。
圖4 可靠性試驗結(jié)果箱型圖與置信區(qū)間驗證
本文的網(wǎng)絡(luò)可靠性試驗置信度分析對5G網(wǎng)絡(luò)故障規(guī)律進行了預(yù)先的確定,在滿足精度要求的前提下,通過一定量的預(yù)試驗,擬合試驗結(jié)果數(shù)據(jù),得到故障分布函數(shù)F(ω,t)。傳統(tǒng)的置信度分析中往往直接采用泊松分布計算試驗時長,并進一步分析置信區(qū)間,而對于5G網(wǎng)絡(luò)這類復(fù)雜的網(wǎng)絡(luò)而言,其動態(tài)性和耦合性等特征致使故障分布往往不符合泊松分布等傳統(tǒng)分布,因此傳統(tǒng)產(chǎn)品的可靠性試驗置信度分析應(yīng)用于5G網(wǎng)絡(luò)時,必然會導(dǎo)致不精確的結(jié)果,而本文所提方法通過預(yù)試驗和故障規(guī)律的擬合,得到了相對精確的故障規(guī)律,由此通過置信度分析得到的試驗時長和結(jié)果置信區(qū)間等更為精確,更具可信性。