雷華舟,鐘 杰,呂升林
(1.中國科學(xué)院 空間光電精密測量技術(shù)重點實驗室,成都 610209; 2.中國科學(xué)院 光電技術(shù)研究所,成都 610209; 3.中國科學(xué)院大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,北京 100049; 4.中國人民解放軍 空軍裝備部駐成都地區(qū)第五軍事代表室,成都 610209)
近年來,由于商業(yè)需求在航天領(lǐng)域的不斷發(fā)展,商業(yè)載荷需求呈現(xiàn)爆發(fā)式增加。傳統(tǒng)的以科技載荷為需求的3~5年的載荷研制周期不能滿足商業(yè)航天的業(yè)務(wù)需求,而且航天級器件一般因為供貨周期長,價格昂貴而且性能往往落后于地面上的同級別器件的原因,所以采用高性能商業(yè)級現(xiàn)貨器件代替?zhèn)鹘y(tǒng)航天級器件作為商業(yè)航天公司在成本控制領(lǐng)域發(fā)展的一個方向。在宇航應(yīng)用中,計算單元能否長時間地穩(wěn)定、可靠工作對于目標任務(wù)的實現(xiàn)具有關(guān)鍵作用,由于高性能商業(yè)級器件不是為了宇航應(yīng)用而生產(chǎn),所以為了提升其在宇航應(yīng)用中的可靠性,利用適當(dāng)?shù)娜蒎e策略和冗余設(shè)計,使其達到所需的設(shè)計目標。[1]隨著計算技術(shù)的發(fā)展,在冗余設(shè)計上有傳統(tǒng)采用靜態(tài)的熱備、冷備的方式[2-3],也有較新的基于動態(tài)重構(gòu)的方式[4-5],不同的設(shè)計和策略因為應(yīng)用場景不同各有特點。因此各種冗余設(shè)計的可靠性是一個值得研究的重要問題。
目前針對冗余設(shè)計可靠性主要研究指向單一項目前對宇航電子設(shè)備進行設(shè)計前的預(yù)估,判斷宇航電子設(shè)備是否能夠滿足系統(tǒng)的可靠性設(shè)計,為系統(tǒng)方案提供必要的技術(shù)支撐[6-7]。另外,從理論角度采用新的理論進行新的可靠性模型搭建和軟硬件容錯策略設(shè)計也是學(xué)者們研究的另一方向[8-9]。為了更低成本的商業(yè)化應(yīng)用,部分學(xué)者嘗試將方向引向商業(yè)設(shè)計上計算單元架構(gòu)可靠性相互間比較研究[10]。
綜上所述,以往的研究主要集中為單一項目提供技術(shù)支撐和新可靠模型的搭建,對于架構(gòu)可靠性比較研究較少。本文在冗余設(shè)計可靠性理論基礎(chǔ)上,用馬爾可夫鏈模型數(shù)值分析計算方法,考慮計算單元的仲裁切換模塊,針對商業(yè)航天任務(wù)周期時長的背景,對幾種冗余設(shè)計架構(gòu)可靠性進行仿真、比較分析,為商業(yè)航天載荷的設(shè)計提供參考。
常見的基于COTS器件宇航計算單元一般采用“計算核心+FPGA”的異構(gòu)組合,近年來也出現(xiàn)了基于大容量FPGA構(gòu)成的可重構(gòu)計算單元[4,11-12]。對于常見的異構(gòu)組合需要考慮其仲裁切換模塊的可靠性,而對于基于FPGA構(gòu)成的計算單元還需要考慮由其系統(tǒng)的最大特點是可以通過重新配置,進行系統(tǒng)的重構(gòu),通過可重構(gòu)機制使得系統(tǒng)得以修復(fù)。
由于具有可修復(fù)能力的電子設(shè)備進行可靠性分析時過程相對比較復(fù)雜。本文以動態(tài)重構(gòu)三模冗余作為可修復(fù)設(shè)備的代表進行可靠性分析。主要針對比較常用的雙機冷備、雙機熱備、三模冗余以及兩熱一冷這幾種冗余結(jié)構(gòu)計算單元的可靠性進行分析。
雙機冷備份結(jié)構(gòu)設(shè)計原理如圖1所示,正常狀態(tài)下采用的主節(jié)點上電,備節(jié)點不上電。雙機冷備份結(jié)構(gòu)在仲裁切換模塊正常,沒有發(fā)生故障時,主節(jié)點正常工作進行運算處理,計算單元內(nèi)的備節(jié)點不會發(fā)生故障;當(dāng)主節(jié)點發(fā)生故障時,激活備節(jié)點,對主節(jié)點進行替換;當(dāng)備節(jié)點也發(fā)生故障時,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點發(fā)生故障時,主節(jié)點正常工作,備節(jié)點不會發(fā)生故障;當(dāng)主節(jié)點故障時,由于仲裁切換模塊發(fā)生故障無法切換,系統(tǒng)失效。
圖1 雙機冷備份重組結(jié)構(gòu)拓撲圖
雙機熱備份重構(gòu)設(shè)計原理如圖2所示,采用的雙機熱備份,熱備份與冷備份不同在于正常情況下,計算單元內(nèi)的備節(jié)點也有可能發(fā)生故障。雙機熱備份在仲裁切換模塊正常,主節(jié)點正常工作時,計算單元工作正常;當(dāng)備節(jié)點也發(fā)生故障時,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點發(fā)生故障時,主節(jié)點正常工作,備節(jié)點發(fā)生故障,系統(tǒng)正常工作;當(dāng)主節(jié)點故障時,由于仲裁切換模塊發(fā)生故障無法切換,系統(tǒng)失效。
圖2 雙機熱備份重組結(jié)構(gòu)拓撲圖
常規(guī)三模表決設(shè)計原理如圖3所示,采用的三模表決,正常狀態(tài)下3個節(jié)點均正常工作對輸入信號進行運算,仲裁切換模塊表決,系統(tǒng)正常輸出;當(dāng)其中1個節(jié)點發(fā)生故障,另2個節(jié)點正常工作時,仲裁切換節(jié)點將會屏蔽故障節(jié)點的影響;當(dāng)出現(xiàn)2個節(jié)點及以上節(jié)點發(fā)生故障時,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點出現(xiàn)故障時,由于無法進行仲裁或者仲裁出錯,系統(tǒng)失效。
圖3 三模表決冗余結(jié)構(gòu)拓撲圖
三模冗余重組結(jié)構(gòu)設(shè)計一般應(yīng)用在大容量可重構(gòu)FPGA上,其結(jié)構(gòu)如圖4所示,采用的三模表決的仲裁策略,正常狀態(tài)下3個節(jié)點均正常工作,系統(tǒng)正常輸出;當(dāng)其中1個節(jié)點發(fā)生故障,另2個節(jié)點正常工作時,仲裁切換節(jié)點屏蔽故障節(jié)點的影響,系統(tǒng)通過內(nèi)嵌的故障診斷、識別,然后進行故障清理等手段讓故障節(jié)點恢復(fù)正常,在不影響計算單元工作的情況下,將其接入系統(tǒng),恢復(fù)到三模表決的工作狀態(tài);當(dāng)出現(xiàn)2個節(jié)點及以上節(jié)點發(fā)生故障時,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點出現(xiàn)故障時,由于無法進行仲裁或者仲裁出錯,系統(tǒng)失效。
圖4 三模冗余重組結(jié)構(gòu)拓撲圖
兩熱一冷冗余結(jié)構(gòu)設(shè)計原理如圖5所示,采用1個雙節(jié)點熱備加一個節(jié)點冷備的節(jié)點架構(gòu),正常狀態(tài)下兩個熱節(jié)點均正常工作,系統(tǒng)正常輸出;當(dāng)其中1個熱節(jié)點發(fā)生故障,仲裁切換節(jié)點激活冷節(jié)點,與正常節(jié)點重新構(gòu)成雙節(jié)點熱備。
考慮仲裁切換節(jié)點出現(xiàn)故障的時間,其工作狀態(tài)分為:首先仲裁切換節(jié)點出現(xiàn)故障,當(dāng)其中1個熱節(jié)點發(fā)生故障,系統(tǒng)只能以單節(jié)點狀態(tài)工作;其中1個熱節(jié)點首先發(fā)生故障,之后仲裁切換節(jié)點出現(xiàn)故障,系統(tǒng)以雙節(jié)點熱備狀態(tài)工作。
圖5 兩熱一冷冗余結(jié)構(gòu)拓撲圖
由于計算單元的容錯設(shè)計結(jié)構(gòu)不一致,其在工作時遭受故障時的工作狀態(tài)會產(chǎn)生變化以保證系統(tǒng)的正常運行,針對計算單元不同的工作狀態(tài),采用馬爾科夫隨機過程對其可靠性進行建模,考慮到不同單元失效率λC、λAW和維修率μC,對不同結(jié)構(gòu)計算單元的可靠性指標進行評價。
由圖1所示的雙機冷備結(jié)構(gòu),正常狀態(tài)S11,沒有故障節(jié)點,主節(jié)點當(dāng)班;當(dāng)主節(jié)點發(fā)生故障,由狀態(tài)S11變?yōu)闋顟B(tài)S12,備節(jié)點被激活,作為當(dāng)班節(jié)點;當(dāng)仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S11變?yōu)闋顟B(tài)S13,主節(jié)點仍作為當(dāng)班節(jié)點工作。當(dāng)主節(jié)點、仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S12變?yōu)闋顟B(tài)S14,備節(jié)點被激活,作為當(dāng)班節(jié)點;當(dāng)主節(jié)點、備節(jié)點發(fā)生故障,由狀態(tài)S12變?yōu)闋顟B(tài)S16,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點、主節(jié)點發(fā)生故障,由狀態(tài)S13變?yōu)闋顟B(tài)S15,系統(tǒng)失效。當(dāng)所有節(jié)點故障,變?yōu)闋顟B(tài)S17,系統(tǒng)失效。其工作狀態(tài)如表1所示。
表1 雙機冷備份重組結(jié)構(gòu)工作狀態(tài)表
圖6 雙機冷備結(jié)構(gòu)系統(tǒng)狀態(tài)轉(zhuǎn)移圖
由圖2所示的雙機熱備結(jié)構(gòu),正常狀態(tài)S21,沒有故障節(jié)點,主節(jié)點當(dāng)班;當(dāng)主節(jié)點或者備節(jié)點發(fā)生故障,由狀態(tài)S21變?yōu)闋顟B(tài)S22,另一節(jié)點被激活,作為當(dāng)班節(jié)點;當(dāng)仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S21變?yōu)闋顟B(tài)S23,主節(jié)點仍作為當(dāng)班節(jié)點工作。當(dāng)主節(jié)點、仲裁切換節(jié)點或者備節(jié)點、仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S22變?yōu)闋顟B(tài)S24,另一節(jié)點被激活,作為當(dāng)班節(jié)點。當(dāng)仲裁切換節(jié)點、備節(jié)點發(fā)生故障,由狀態(tài)S23變?yōu)闋顟B(tài)S24,主節(jié)點仍作為當(dāng)班節(jié)點工作;當(dāng)仲裁切換節(jié)點、主節(jié)點發(fā)生故障,由狀態(tài)S23變?yōu)闋顟B(tài)S25,系統(tǒng)失效。當(dāng)主節(jié)點、備節(jié)點發(fā)生故障,由狀態(tài)S22變?yōu)闋顟B(tài)S26,無當(dāng)班節(jié)點,系統(tǒng)失效;當(dāng)所有節(jié)點故障,變?yōu)闋顟B(tài)S27,系統(tǒng)失效。其工作狀態(tài)如表2所示。
表2 雙機熱備份重組結(jié)構(gòu)工作狀態(tài)表
圖7 雙機冷備結(jié)構(gòu)系統(tǒng)狀態(tài)轉(zhuǎn)移圖
由圖3所示的三模表決冗余結(jié)構(gòu),正常狀態(tài)S31,沒有故障節(jié)點,仲裁節(jié)點3/3仲裁。當(dāng)某計算節(jié)點發(fā)生故障,由狀態(tài)S31變?yōu)闋顟B(tài)S32,仲裁節(jié)點2/3仲裁;當(dāng)仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S31變?yōu)闋顟B(tài)S35,系統(tǒng)失效。當(dāng)某計算節(jié)點再次發(fā)生故障,由狀態(tài)S32變?yōu)闋顟B(tài)S33,仲裁節(jié)點1/3仲裁,系統(tǒng)失效;當(dāng)某計算節(jié)點,仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S32變?yōu)闋顟B(tài)S36,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點、某計算節(jié)點發(fā)生故障,由狀態(tài)S35變?yōu)闋顟B(tài)S36,系統(tǒng)失效。當(dāng)所有計算節(jié)點發(fā)生故障,由狀態(tài)S33變?yōu)闋顟B(tài)S34,系統(tǒng)失效;當(dāng)某兩計算節(jié)點、仲裁切換節(jié)點發(fā)生故障,由狀態(tài)S33變?yōu)闋顟B(tài)S37,系統(tǒng)失效。當(dāng)仲裁切換節(jié)點、某兩計算節(jié)點發(fā)生故障,由狀態(tài)S36變?yōu)闋顟B(tài)S37,系統(tǒng)失效。當(dāng)所有節(jié)點發(fā)生故障,變?yōu)闋顟B(tài)S38,系統(tǒng)失效。其工作狀態(tài)如表3所示。
表3 三模表決冗余結(jié)構(gòu)工作狀態(tài)表
圖8 三模表決冗余結(jié)構(gòu)系統(tǒng)狀態(tài)轉(zhuǎn)移圖
由圖4所示的三模表決冗余結(jié)構(gòu),工作模式與三模表決冗余結(jié)構(gòu)基本一致,主要區(qū)別在于當(dāng)某一計算單元出現(xiàn)故障之后,將以某一修復(fù)率對該計算單元進行修復(fù),其工作狀態(tài)如表4所示。
表4 三模冗余重組結(jié)構(gòu)工作狀態(tài)表
圖9 三模冗余重組結(jié)構(gòu)系統(tǒng)狀態(tài)轉(zhuǎn)移圖
由圖5所示的兩熱一冷冗余結(jié)構(gòu),正常狀態(tài)S51,沒有故障節(jié)點,由主節(jié)點與備節(jié)點1構(gòu)成雙機熱備結(jié)構(gòu),主節(jié)點當(dāng)班。當(dāng)主節(jié)點或者備節(jié)點1發(fā)生故障,啟動備節(jié)點2,組成新的雙機熱備結(jié)構(gòu),由狀態(tài)S51變?yōu)闋顟B(tài)S52。當(dāng)任意兩個計算節(jié)點發(fā)生故障,轉(zhuǎn)化為單機系統(tǒng),由狀態(tài)S52變?yōu)闋顟B(tài)S53;當(dāng)一個計算節(jié)點和仲裁切換節(jié)點先后發(fā)生故障,由狀態(tài)S52變?yōu)闋顟B(tài)S54。當(dāng)仲裁切換節(jié)點和備節(jié)點1先后發(fā)生故障,主節(jié)點仍做當(dāng)班機,系統(tǒng)正常,由狀態(tài)S51變?yōu)闋顟B(tài)S55;當(dāng)仲裁切換節(jié)點和主節(jié)點先后發(fā)生故障,仲裁切換失效,系統(tǒng)失效,由狀態(tài)S51變?yōu)闋顟B(tài)S56。當(dāng)仲裁切換節(jié)點、主節(jié)點、備節(jié)點1先后發(fā)生故障,系統(tǒng)失效,由狀態(tài)S55、S56變?yōu)闋顟B(tài)S59。當(dāng)任意兩計算節(jié)點故障后,仲裁切換節(jié)點失效,系統(tǒng)由狀態(tài)S53變?yōu)闋顟B(tài)S57、S58;當(dāng)所有的3個計算節(jié)點故障后,系統(tǒng)由狀態(tài)S53變?yōu)闋顟B(tài)S5a。當(dāng)某計算節(jié)點和仲裁切換節(jié)點故障后,降為雙機系統(tǒng),此時如非當(dāng)班節(jié)點發(fā)生故障,則系統(tǒng)工作正常,系統(tǒng)由狀態(tài)S54變?yōu)闋顟B(tài)S58;此時如當(dāng)班節(jié)點發(fā)生故障,則系統(tǒng)工作失效,系統(tǒng)由狀態(tài)S54變?yōu)闋顟B(tài)S5b。當(dāng)所有節(jié)點發(fā)生故障,變?yōu)闋顟B(tài)S5c,系統(tǒng)失效。其工作狀態(tài)如表5所示。
表5 兩熱一冷冗余結(jié)構(gòu)工作狀態(tài)表
圖10 兩熱一冷冗余結(jié)構(gòu)系統(tǒng)狀態(tài)轉(zhuǎn)移圖
在研究系統(tǒng)的可靠性之前,首先對系統(tǒng)做如下假設(shè):
1)假設(shè)系統(tǒng)中除了處理器模塊和表決切換單元外,其他系統(tǒng)的可靠度均為1;
2)每個計算核心模塊的失效率為λC,維修率為μC,表決切換單元的失效率為λAW,同時假設(shè)失效分布和維修時間分布為指數(shù)分布;
3)某一時刻只有一個模塊發(fā)生故障;
4)系統(tǒng)開始工作時,各單元都為無故障狀態(tài),系統(tǒng)整體處于完好狀態(tài)。
基于以上假設(shè),對各結(jié)構(gòu)的可靠性進行研究。
根據(jù)圖6,其馬爾克夫狀態(tài)可做以下的數(shù)學(xué)描述:時刻t+Δt結(jié)構(gòu)狀態(tài)的條件概率與t時刻結(jié)構(gòu)狀態(tài)由全概率公式得到,考慮當(dāng)Δt→0時,得到如下狀態(tài)微分方程組:
(1)
考慮系統(tǒng)的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得雙機冷備重組結(jié)構(gòu)可信度:
R1(t)=PS11(t)+PS12(t)+PS13(t)+PS14(t)
(2)
根據(jù)圖7雙機熱備結(jié)構(gòu)的狀態(tài)轉(zhuǎn)移圖,其馬爾克夫狀態(tài)可做以下的數(shù)學(xué)描述:時刻t+Δt結(jié)構(gòu)狀態(tài)的條件概率與t時刻結(jié)構(gòu)狀態(tài)由全概率公式得到,考慮Δt→0當(dāng)時,得到如下狀態(tài)微分方程組:
(3)
考慮系統(tǒng)的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得雙機熱備重組結(jié)構(gòu)可信度:
R2(t)=PS21(t)+PS22(t)+PS23(t)+PS24(t)
(4)
根據(jù)圖8,其馬爾克夫狀態(tài)可做以下的數(shù)學(xué)描述:時刻t+Δt結(jié)構(gòu)狀態(tài)的條件概率與時刻t結(jié)構(gòu)狀態(tài)由全概率公式得到,考慮當(dāng)Δt→0時,得到如下狀態(tài)微分方程組:
(5)
考慮系統(tǒng)的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得三模表決冗余結(jié)構(gòu)可信度:
R3(t)=PS31(t)+PS32(t)
(6)
根據(jù)圖9,考慮三模重組一般采用大容量FPGA構(gòu)成的,其馬爾克夫狀態(tài)可做以下的數(shù)學(xué)描述:有λC=λAW,時刻t+Δt結(jié)構(gòu)狀態(tài)的條件概率與t時刻結(jié)構(gòu)狀態(tài)由全概率公式得到,考慮當(dāng)Δt→0時,得到如下狀態(tài)微分方程組:
(7)
考慮系統(tǒng)的約束條件:
初始條件:
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得三模表決冗余結(jié)構(gòu)可信度:
R4(t)=PS41(t)+PS42(t)
(8)
根據(jù)圖10三模冗余重組結(jié)構(gòu)的狀態(tài)轉(zhuǎn)移圖,其馬爾克夫狀態(tài)可做以下的數(shù)學(xué)描述:時刻t+Δt結(jié)構(gòu)狀態(tài)的條件概率與t時刻結(jié)構(gòu)狀態(tài)由全概率公式得到,考慮當(dāng)Δt→0時,得到如下狀態(tài)微分方程組:
(9)
考慮系統(tǒng)的約束條件:
初始條件:
PS51(0)=1,PS52(0)=PS53(0)=PS54(0)=PS55(0)=PS57(0)=PS58(0)=0
將上述方程組進行Laplace變換解出后,進行反Laplace變換可得三模表決冗余結(jié)構(gòu)可信度:
R5(t)=PS51(t)+PS52(t)+PS53(t)+PS54(t)+PS55(t)+
PS57(t)+PS58(t)
(10)
宇航計算單元對可靠性的要求非??量蹋陬A(yù)計壽命內(nèi)的可靠度不低于0.99[13]。經(jīng)過特別的處理和加固的宇航級或軍品級的電子元器件,其失效率λ一般在10-9~10-8/h之間,目前的商用VLSI技術(shù)所能達到的失效率為10-7/h,但一般的商業(yè)級或工業(yè)級的電子元器件,其失效率λ在10-6~10-5/h之間[14]。
根據(jù)式(2)、(4)、(6)、(8)、(10)可以分析與比較失效率和修復(fù)率對不同形式系統(tǒng)可靠性的影響,對這5類結(jié)構(gòu)組成的計算單元正常工作5年(4.38×104h)的可靠度進行比較。選取計算核心失效率λC=10-6/h,仲裁切換單元失效率λAW=10-6/h,恢復(fù)率μC=100λAW=10-4/h(恢復(fù)率主要對于三模冗余重組結(jié)構(gòu),其由大容量FPGA構(gòu)成,故λAW=λC,下文同理),所得曲線如圖11所示。
圖11 λC=10-6/h,λAW=10-6/h,μC=100 λAW=10-4/h各架構(gòu)可靠度變化曲線
取計算核心失效率λC=10-5/h,仲裁切換單元失效率λAW=10-5/h,恢復(fù)率μC=100λAW=10-3/h,所得曲線如圖12所示。
圖12 λC=10-5/h,λAW=10-5/h,μC=100λAW=10-3/h各架構(gòu)可靠度變化曲線
可以明顯由圖12看出,λC=10-5/h,λAW=10-5/h,失效率較大時,無論采取什么結(jié)構(gòu),系統(tǒng)保持可靠度不低于0.99的預(yù)期壽命不足1.2×104h,其中能保持可靠度不低于0.99最長結(jié)構(gòu)為兩熱一冷,時間為1.14×104h,最遠低于一般載荷正常工作5年(4.38×104h)的預(yù)期壽命;而當(dāng)選取的λC=10-6/h,λAW=10-6/h,失效率較小時,雙機熱備、雙機冷備和兩熱一冷結(jié)構(gòu)能夠保持可靠度不低于0.99的預(yù)期壽命超過一般載荷正常工作5年(4.38×104h)的預(yù)期壽命,分別達到8.6×104h、10.5×104h和11.3×104h。由圖12、圖13可明顯看出三模冗余重組結(jié)構(gòu)由于修復(fù)率的關(guān)系,相同工作時間內(nèi)明顯比一般三模冗余結(jié)構(gòu)系統(tǒng)可靠性更高,但無論是常規(guī)的三模冗余還是三模冗余重組結(jié)構(gòu)的計算單元其可靠度都極低,遠不能達到一般載荷正常工作的預(yù)期壽命。
分別選取計算核心失效率λC=10-6/h、λC=10-5/h,仲裁切換單元失效率λAW在10-7~10-5/h下,分析和比較不同架構(gòu)可靠性,所得曲線如圖13、圖14所示。
(a)λAW=10-5 h-1 (b)λAW=10-6h-1 (c)λAW=10-7h-1圖13 λC=10-6/h,不同λAW下各架構(gòu)可靠度變化曲線(t=2×105 h)
(a)λAW=10-5h-1 (b)λAW=10-6 h-1 (c)λAW=10-7 h-1圖14 λC=10-5/h,不同λAW下各架構(gòu)可靠度變化曲線(t=105 h)
在λC=10-6/h情況下,雙機冷備冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由4.6×104h先后提升至10.5×104h、14.1×104h;雙機熱備冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由4.4×104h先后提升至8.6×104h、10.2×104h;三模冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由0.1×104h先后提升至0.9×104h、4.4×104h;兩熱一冷冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由3.4×104h先后提升至11.1×104h、51.1×104h。
在λC=10-5/h情況下,雙機冷備冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由1.0×104h先后提升至1.4×104h、1.4×104h;雙機熱備冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由0.8×104h先后提升至1.0×104h、1.0×104h;三模冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由0.1×104h先后提升至0.4×104h、0.5×104h;兩熱一冷冗余結(jié)構(gòu)可靠度不低于0.99的運行時間由1.1×104h先后提升至5.5×104h、51.5×104h。
如表6所示,相同λAW下,λC的可靠度是決定系統(tǒng)可靠度的絕對因素,λC的提高能大幅提高系統(tǒng)的可靠性。在λC不變情況下,不同冗余結(jié)構(gòu)可靠度都隨著λAW提高能有效提升系統(tǒng)整體的可靠性,λAW在到達某一個值之后對系統(tǒng)可靠性的影響就會逐漸減弱。
本文對5種典型宇航計算單元冗余架構(gòu)建立了馬爾可夫模型,根據(jù)可靠性理論對各架構(gòu)的可靠性進行了計算、分析和比較。三模表決架構(gòu)雖具有實時性強、發(fā)生一次故障系統(tǒng)工作不間斷等優(yōu)點,但從分析結(jié)果看,無論是常規(guī)三模表決架構(gòu)還是動態(tài)重構(gòu)的三模表決架構(gòu)都不適合長時間任務(wù)。另一方面,在考慮制造成本、預(yù)期壽命、實時性和系統(tǒng)復(fù)雜度的不同影響的情況下,可以采取不同的冗余架構(gòu)或者在計算核心和仲裁單元采用不同失效率的器件。具有雙機冷備的冗余架構(gòu)在制造成本占有一定優(yōu)勢,既能夠滿足較長預(yù)期壽命相對而言可靠性也能夠達到要求;具有兩熱一冷的冗余架構(gòu)在制造成本優(yōu)勢較小,既能夠滿足長時間的預(yù)期壽命和相對而言較高的可靠性要求,但結(jié)構(gòu)相對復(fù)雜;具有雙機熱備的冗余架構(gòu)在制造成本上占有一定優(yōu)勢,既能夠滿足一般的預(yù)期壽命相對而言可靠性也能夠達到要求,并且在實時性上會表現(xiàn)較好。
表6 不同結(jié)構(gòu)不同失效率可靠度不低于0.99運行時間(104 h)