曹國震
(西安航空學院,西安 710077)
?
基于無維修使用期的計算機可靠性分析與評估*
曹國震
(西安航空學院,西安710077)
摘要:針對當前MTBF在計算機中可靠性設計分析和驗證方法的不足,基于無維修使用期這一新型指標,構建了計算機新型可靠性分析和評估方法。首先,基于MFOP提出了高可靠計算機的故障模式影響分析方法,在故障模式影響分析中引入了通用和專用設計兩個模塊,并對故障率重新定義。其次,針對MFOP指標,提出了基于步降應力加速試驗的非參數可靠性評估方法。最后,通過試驗仿真對試驗評估方法進行了驗證,仿真結果表明該試驗方法準確高效,能滿足可靠性評估的需求。
關鍵詞:無維修使用,故障模式影響分析,步降加速應力壽命試驗,可靠性評估
隨著計算機技術的發(fā)展和用戶體驗要求的提高,可靠性作為計算機通用質量特性的重要方面,越來越受到研制方和客戶的重視??煽啃允怯嬎銠C設計的一個重要范疇,一般認為計算機的可靠性指標用MTBF(平均故障間隔時間)來定義,目前MTBF也是計算機類電子產品可靠性設計和驗證的主要指標。但基于MTBF的可靠性理論認為產品存在的主要問題是隨機故障,這意味著在設計過程中對故障與產品設計缺陷難以建立強相關關系,也不利于產品設計過程中設計缺陷的有力剔除;在驗證過程認為計算機的可靠性服從指數分布,故障的發(fā)生具有隨機性且不可避免,因此,可能只關注計算機在運行狀態(tài)下和規(guī)定的時間和使用內的故障數,若故障數未超出范圍,就判定計算機可靠性達標,這可能導致設計和制造原因引起的故障不會被追溯到根源。顯然,在航空航天等需要高可靠計算機的領域,基于MTBF的可靠性設計分析和驗證方式并非完善,可靠性指標構建存在進一步拓展的潛力。
針對傳統(tǒng)可靠性指標提出的質疑,20世紀末在國際上開始使用無維修使用期(MFOP)取代原先的MTBF作為新型可靠性指標。MFOP是裝備能夠完成規(guī)定任務的使用周期。在該周期內,除少量必要的計劃維修,無需任何多余的維修活動,也沒有因系統(tǒng)故障或性能降級導致對用戶的使用限制,將裝備的維修需求保持在最低限度。無維修使用期指標包括兩個參數:
①MFOP:表征產品可接受無維修的時間周期;
②無維修使用度:表征該周期內免維修的概率。
即裝備在該MFOP這個周期內能夠以某一較高的概率免除維修工作,以滿足裝備在該周期內的使用可用度。若將MFOP指標應用于高可靠計算機,理論上依然能達到提升計算機該周期內使用可用度的目的,但計算機MFOP的設計分析與驗證等方法與傳統(tǒng)方法有所區(qū)別:一方面計算機類電子產品必然要盡可能克服隨機故障的發(fā)生,并構建故障發(fā)生時的使用補救措施;另一方面,在驗證工作中,同樣面臨失效判據和試驗方法的優(yōu)選問題。因此,本文基于高可靠計算機的MFOP展開兩方面的研究工作,包括基于MFOP開發(fā)的新型FMEA設計分析方法和基于步降應力加速試驗的MFOP評估方法兩方面,以解決上述兩方面的需求。
故障模式影響分析(Failure Mode and Effects Analysis,簡記為FMEA),是分析計算機系統(tǒng)中每一部件所有可能產生的故障模式及其對計算機系統(tǒng)造成的可能影響,并按每一個故障模式的嚴重程度,檢測難易程度以及發(fā)生頻度予以分類的一種歸納分析方法。其目的在于容易、低成本地對產品或過程進行修改,從而減輕事后修改的危機,找到能夠避免或減少這些潛在失效發(fā)生的措施。現用的FMEA一般包括設計FMEA和制造FMEA。其中設計FMEA又分為功能FMEA、硬件FMEA和軟件FMEA等。但這些傳統(tǒng)的FMEA方法并非完全適用于高可靠計算機的MFOP設計。傳統(tǒng)的FMEA的部件失效率一般定義為常數且是基本失效率,這與MFOP并不一致;另外傳統(tǒng)FMEA的失效補償措施和MFOP的設計思路并不完全相通。鑒于此,針對MFOP設計過程,設計FMEA工作流程如表1所示。
以上表格包括13個步驟,其中
①“分析對象”代表著計算機FMEA的分析對象:一般的分析對象包括主板、內存、電源、計算機整機等;
表1 基于MFOP的FMEA
②“代碼”表示了相應分析對象的故障模式的標識,代碼應覆蓋到分析對象所有的故障模式;
③“部件的功能標識”代表這一部件所實現的某一功能。如硬盤的功能,存儲數據和讀取數據可以用兩個功能標識;
④“功能”代表該功能標識下部件的具體功能說明;
⑤“故障模式”指該故障發(fā)生的形式;
⑥“故障率”指該故障發(fā)生的概率,值得注意的是該故障率指的是任務故障率而非基本故障率;
⑦“任務階段工作”指該部件在計算機運行過程的工作階段。如CPU顯然是全程工作;而光驅則只在需要讀取光盤時工作;
⑧“故障影響”表征的是該故障對分析對象和上次的影響形式。例如,USB接口故障導致功能降級,而CPU損毀則會導致計算機完全無法使用;
⑨“故障檢測方式”指該故障發(fā)生后,使用什么方式進行檢測;
⑩“通用設計改進措施”指為提升可靠性采取的通用設計措施,例如來料的選控、降額使用、PCB的布局設計、散熱設計、耐環(huán)境設計、參數容差等;
?“專用設計改進措施”指為提升MFOP采取的專用設計措施,例如采用狀態(tài)監(jiān)控,故障診斷和故障預測設計、引入余度和容錯設計、可重構性設計、故障軟化設計、可接受的任務降級設計。這些都是計算機出現故障后,避免維修或降低維修要求的專用設計措施。
?“故障率”指在使用通用和專用設計措施后該故障模式的MFOP周期任務故障率。
?“嚴酷度等級”指故障模式的影響程度,對嚴酷度等級高的,若故障率沒達到相應要求,則在“備注”中應明確進一步的設計更改措施或要求。
上述13個步驟就是基于MFOP的FMEA的一般設計分析流程。相比于傳統(tǒng)的FMEA,該方法引入了基于MFOP的專用設計更改方式和任務故障率,能夠對產品的MFOP進行專項分析和設計更改,具有較強的針對性。
進一步通過可靠性模型以及模型中每個模塊的MFOP周期任務故障率,通過可靠性模型計算就得到該計算機的無維修使用度,即完成了MFOP的定量預計工作。
與傳統(tǒng)的故障判別準則不同,在MFOP可靠性驗證試驗中,計算機故障只要不影響功能和性能,或者功能和性能只是導致了試驗前約定的可允許的功能或性能降級,沒達到必須采用維修措施的地步,則不記為失效且不進行維修,如計算機的電源故障,如果有備份電源可使用則不進行維修,且認為尚未達到MFOP。
在進行計算機可靠性驗證時,傳統(tǒng)方法是采用試驗室模擬使用環(huán)境下的周期性觀測,通過GJB899A等標準擬定的試驗方案判定計算機的MTBF是否達到了設計要求。既然MTBF的驗證試驗默認了計算機的故障發(fā)生的隨機性和平穩(wěn)性,這種試驗方案多采用多臺計算機的累計運行時間代替一臺計算機的運行時間以節(jié)省試驗時間。而MFOP指標不認可計算機故障發(fā)生的隨機性,則計算機的試驗時間顯然不能用多臺計算機累計代替單臺計算機的運行時間,這樣高可靠計算機用模擬使用環(huán)境試驗必然會產生漫長的試驗周期和昂貴的試驗費用。因此,利用加速試驗代替模擬使用環(huán)境試驗是必然的選擇。而常用的加速試驗分為恒定應力加速試驗、步變應力加速試驗。從充分利用試驗設備和節(jié)省試驗成本角度考慮,步變應力試驗是優(yōu)選。而根據文獻[1-2],步降應力試驗的試驗效率要高于步進應力試驗,因此,本文采用步降試驗方案。
對各型計算機來說,MFOP既不認可故障發(fā)生的隨機性,內部每個失效原因并不完全一致,則無法找出通用的失效統(tǒng)計規(guī)律,即無法對所有計算機找到一個完全準確的壽命分布類,因此,對試驗方案的統(tǒng)計評估只能采取非參數統(tǒng)計方法。
在進行試驗前加速系數往往是不明確的,通過多加速步降應力條件下樣機的失效數據的非參數統(tǒng)計,對樣機的MFOP進行保守估計,具體方法如下。
預設加速應力為S1,S2,…,Sk,而使用環(huán)境應力為S0,其中,S1>S2>…>Sk>S0,在加速應力s1下投入n臺樣機進行可靠性測試,當有r1臺樣機達到無維修使用期時,將應力水平降低至s2進行可靠性測試,當有r2臺樣機達到無維修使用期時,將加速應力水平降至s3,依次進行,直到應力Sk時,所有樣機達到無維修使用期。依此試驗方案,得到每個應力下的失效數r1,r2,…,rk,其中,每個應力結束后的失效總和為ni,每臺樣機的失效時間ti,1,,ti,2,…,ti,ri,i=1,2,…,k。試驗過程如圖1所示。
圖1 步降應力試驗
下面通過非參數統(tǒng)計方法進行可靠性預測。
直接選擇MFOP的算術平均值MFOP為計算機的壽命因子,壽命因子與試驗應力的關系通常采用以下模型:
其中a和b是待估參數,根據加速模型,加速因子
而計算機樣機在應力Si下達到MFOP的數量為ni,根據經驗分布的定義,可以有以下的近似估計方程:
以上非線性方程可由數值計算方法進行求解。
之所以要對參數b進行多次求解,是為了規(guī)避由于分布類不同造成的風險,進而用多個解的算術平均值作為最終估計值,即
根據式(1),每個加速應力下MFOP達到時間在常應力S0下的MFOP,即:
因此,MFOP在常應力S0下的最終估計值為
而無維修使用度即為折算為常應力下失效時間小于規(guī)定MFOP的樣品量與參試樣品總量之比。
某型車載計算機在定型階段要開展MFOP的驗證試驗。根據設計指標要求,要求MFOP≥40 000 h,無維修使用度為95%?,F對該車載計算機進行驗證試驗仿真與分析。由于對樣機的加速系數并不了解,但已知該計算機在工作環(huán)境(溫控室)的工作環(huán)境溫度為298 K(25℃)。根據計算機類產品的失效與工作環(huán)境溫度的關系可得加速模型為阿侖尼斯模型:
lnMFOPs=a+b/(K0S)
其中K0=0.861 3×10-4ev/℃為波爾茲曼常數。因此,預設加速應力條件為溫度,6個溫度加速應力條件343 K,338 K、333 K、328 K,323 K、318 K。在343 K下放置15臺樣機進行步降應力加速試驗,每5臺樣機達到MFOP,則P降低一級應力,直至318 K時所有樣機進入MFOP時結束試驗。試驗過程中按第2節(jié)的方法進行試驗數據采集。預設產品的加速模型參數
a=-17,b=0.72
而每臺樣機的MFOP的變化范圍為每個應力水平下的算數平均值的均勻分布(對于樣機MFOP的其余情況的,可按相應分布進行仿真處理,此處只為仿真過程方便將MFOP數據簡化為均勻分布)。在以上情形下,用蒙特卡羅模擬方法進行500次步降應力加速仿真試驗。根據仿真試驗失效數據按第1節(jié)的算法計算a和b的算術平均值及偏差。仿真試驗結果表1所示。
表1 a、b和MFOP的估計(15臺樣機)
由仿真結果可見該計算機MFOP的統(tǒng)計值在55 815±10 031,能滿足MFOP不低于40 000的指標要求,但同時看15臺樣機的MFOP驗證試驗風險過高,統(tǒng)計精度僅僅20%左右。因此,再應用30臺(60臺)樣機進行逢5臺(10臺)達MFOP步降一級應力的試驗仿真,同樣按照上述仿真方法進行500次蒙特卡羅仿真試驗并進行數據的統(tǒng)計分析。計算結果如表2和表3所示。
表2 a、b和MFOP的估計(30臺樣機)
表3 a、b和MFOP的估計(60臺樣機)
由上述表格可見隨著參試樣機的增多,試驗統(tǒng)計越來越精確,當樣機量達到60臺時,該試驗的統(tǒng)計偏差不高于10%的范圍,已經具備一定的統(tǒng)計有效性。在進行具體的工程驗證試驗時,可參照本仿真方法,在試驗前根據加速模型、試驗應力環(huán)境等因素進行預仿真,以確定最佳的試驗應力和試驗樣機量,以滿足試驗數據的統(tǒng)計精度為前提設計步降應力驗證試驗方案。另一方面,3種試驗方案下無維修使用度差異不大,也進一步驗證了本評估方法的有效性。
同時,計算以上1 500次步降應力加速仿真試驗的試驗結束時間的均值為tˉ1,r1=8 143.2 h。進一步在常應力298 K下,對15臺、30臺、60臺MFOP= 63 026的計算機樣機分別進行500次全數失效仿真試驗。統(tǒng)計得試驗結束時間平均值為78 635 h??梢娂铀俜抡嬖囼灂r間約為常應力全數仿真試驗時間的1/10。這說明步降應力加速試驗方案不但能預測出樣機的MFOP,且高效經濟,適合技術和市場更新迅速的計算機行業(yè)的可靠性驗證。
在對計算機可靠性設計分析及驗證現狀綜合分析的基礎上,針對傳統(tǒng)的基于MTBF的高可靠計算機設計和驗證方法的缺陷,本文提出了基于MFOP的高可靠計算機設計分析及評估的理念。進而研究了MFOP在高可靠計算機研制過程中的故障模式影響分析(FMEA)和指標驗證方法。基于MFOP的FMEA方法在傳統(tǒng)的FMEA基礎上,引入了為提升MFOP的設計改進相關專用方法。而在評估方法上,提出了基于步降應力加速試驗的非參數統(tǒng)計方法,并以蒙特卡羅仿真試驗說明了該試驗和評估方法的有效性和先進性。
參考文獻:
[1]張春華,陳循,溫熙林.步降應力加速壽命試驗(上篇)——方法篇[J].兵工學報,2005,26(5):661-665.
[2]張春華,陳循,溫熙林.步降應力加速壽命試驗(下篇——統(tǒng)計分析篇[J].兵工學報,2005,26(5):666-669.
[3]譚偉,師義民,孫玉東.步降應力加速壽命試驗的可靠性仿真[J].計算機仿真,2011,28(12):80-83.
[4]姜同敏.可靠性與壽命試驗[M].北京:國防工業(yè)出版社,2012.
[5]高憲軍,李德鑫.基于MFOP的軍機維護方案研究[J].航空計算技術,2008,38(4),29-31.
[6]吳海橋,劉毅等.航空維修的新概念:無維修使用期[J].航空維修,2004,49(1):19-20.
[7]茆詩松,王玲玲.加速壽命試驗[M].北京:科學出版社,1997.
[8]曹晉華,程侃.可靠性數學引論[M].北京:高等教育出版社,2006.
Reliability Analysis and Assessment of Computer Based on MFOP
CAO Guo-zhen (Xi’an Aviation Academy,Xi'an 710077,China)
Abstract:For the deficiencies of MTBF in high reliability computer design analysis and verification process,the paper put forward the idea of high reliability computer analysis and assessment methods based on MFOP.Firstly,a new FMEA method based on MFOP of high reliability computer is proposed,the general and special design modules are used in this FMEA,and the failure rate is redefined. secondly,a non -parametric statistical validation method for high reliability computer is proposed based on step -down stress accelerate test. Finally,the method is validated through test simulation,the simulation result shows that the test method is accurate and efficient,able to meet the demand of the reliability assessment.
Key words:MFOP,FMEA,step-down accelerate test,reliability assessment
中圖分類號:TP302.1;TB114.3
文獻標識碼:A
文章編號:1002-0640(2016)05-0112-04
收稿日期:2015-04-28修回日期:2015-05-28
*基金項目:國家青年科學基金資助項目(61201321)
作者簡介:曹國震(1980-),男,陜西榆林人,碩士,講師。研究方向:計算機應用技術、信息安全。