游達(dá)章 張敏 余煉 劉攀
摘 ?要: 為了更好地研究嵌入式系統(tǒng)硬件可靠性,提出一種針對(duì)嵌入式系統(tǒng)硬件的馬爾科夫模型分析方法。首先分析了嵌入式系統(tǒng)各模塊的失效形式和故障類(lèi)別,并根據(jù)故障類(lèi)別將系統(tǒng)定義為不同工作狀態(tài);其次,根據(jù)狀態(tài)轉(zhuǎn)移關(guān)系建立狀態(tài)轉(zhuǎn)移矩陣,并求解計(jì)算馬爾科夫狀態(tài)轉(zhuǎn)移方程,得到系統(tǒng)可靠度隨時(shí)間的變化關(guān)系;最后,對(duì)嵌入式系統(tǒng)硬件局部可靠性作了敏感性分析。仿真結(jié)果表明,馬爾科夫鏈模型能較為準(zhǔn)確地描述硬件失效過(guò)程和預(yù)測(cè)某型噴漆系統(tǒng)硬件的可靠度,此外,提高電源可靠性有利于提升整個(gè)嵌入式硬件系統(tǒng)的可靠性。
關(guān)鍵詞: 可靠性預(yù)測(cè); 模型分析; 失效形式分析; 工作狀態(tài)定義; 狀態(tài)轉(zhuǎn)移矩陣; 敏感性分析
中圖分類(lèi)號(hào): TN876?34; TP302.7; TP202+.1 ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? 文章編號(hào): 1004?373X(2020)23?0079?06
Abstract: In order to study the hardware reliability of the embedded system better, a Markov model analysis method for dealing with embedded system hardware is proposed. The failure form and fault category of each module in the embedded system are analyzed. The system is defined as different working state according to the fault category. The state?transition matrix is established according to the state transition relationship, and the Markov state transfer equation is calculated to obtain the relationship of variation of system reliability with time. A sensitivity analysis on the local reliability of the embedded system hardware is carried out. The simulation result shows that the Markov chain model can describe the failure process of the hardware and predict the reliability of the hardware of a certain type of paint spraying system, and improving power supply reliability is conducive to improving the reliability of the entire embedded hardware system.
Keywords: reliability prediction; model analysis; failure mode analysis; working status definition; state?transition matrix; sensitivity analysis
0 ?引 ?言
嵌入式系統(tǒng)的可靠性是指系統(tǒng)在規(guī)定的條件下和規(guī)定的時(shí)間內(nèi),完成規(guī)定功能的能力,而嵌入式系統(tǒng)硬件可靠性主要由印制電路板的可靠性來(lái)體現(xiàn)。為了預(yù)測(cè)和提高嵌入式系統(tǒng)的可靠性,不少學(xué)者投入很大的精力研究。文獻(xiàn)[1]針對(duì)嵌入式實(shí)時(shí)控制系統(tǒng)可靠性難以評(píng)估的難點(diǎn),通過(guò)使用Copula建立的ERCS軟硬件綜合可靠性模型,使得ERCS軟硬件綜合可靠性比獨(dú)立時(shí)有所提高。文獻(xiàn)[2]利用離散時(shí)間的馬爾科夫鏈和半馬爾科夫鏈分析了復(fù)雜多狀態(tài)可修復(fù)A/n系統(tǒng)元件的多樣性,導(dǎo)出了易行、有效的系統(tǒng)可靠度與可用度的預(yù)測(cè)模型。文獻(xiàn)[3]針對(duì)嵌入式系統(tǒng)設(shè)計(jì)只注重功能不注重系統(tǒng)整體的問(wèn)題,提出一種新的嵌入式可靠性評(píng)價(jià)方法,對(duì)于軟件故障問(wèn)題的預(yù)測(cè)描述更加全面。傳統(tǒng)的可靠性分析方法有故障樹(shù)分析法、貝葉斯網(wǎng)絡(luò)推理算法等,而馬爾可夫模型能夠計(jì)算出具有維修能力和多重降級(jí)狀態(tài)的系統(tǒng)可靠度,也常作為預(yù)測(cè)系統(tǒng)可靠性的主要手段。文獻(xiàn)[4]對(duì)光伏電站的可靠性模型,使用馬爾科夫鏈蒙特卡洛(MCMC)方法對(duì)其進(jìn)行評(píng)估,相比于傳統(tǒng)的蒙特卡洛方法,這種方法收斂速度和抽樣速度更快;文獻(xiàn)[5]在設(shè)備具備故障率指數(shù)分布特性前提下,應(yīng)用馬爾科夫鏈可以快速對(duì)電力系統(tǒng)進(jìn)行可靠性解析,通過(guò)歷史運(yùn)行狀態(tài)得到應(yīng)用狀態(tài)轉(zhuǎn)移矩陣與電力運(yùn)行狀態(tài),分析未來(lái)時(shí)間段電力系統(tǒng)平穩(wěn)狀態(tài)與運(yùn)行狀態(tài)下的轉(zhuǎn)移概率,確保準(zhǔn)確評(píng)估電力系統(tǒng)的運(yùn)行可靠性,相比傳統(tǒng)模型更加快速和準(zhǔn)確。文獻(xiàn)[6]針對(duì)鋰電池的壽命提出了一種馬爾科夫殘差滾動(dòng)優(yōu)化預(yù)測(cè)模型,在只有4個(gè)數(shù)據(jù)點(diǎn)的情況下比普通滾動(dòng)優(yōu)化模型的精度高很多。盡管這些研究通過(guò)使用馬氏鏈解決了一些問(wèn)題,但是,對(duì)于在工業(yè)設(shè)備頻繁運(yùn)用的嵌入式數(shù)控系統(tǒng)的硬件設(shè)計(jì)可靠性評(píng)估,依然是當(dāng)今世界嵌入式系統(tǒng)尋求進(jìn)一步發(fā)展亟需解決的問(wèn)題之一。
為了更好地研究嵌入式系統(tǒng)硬件可靠性,結(jié)合嵌入式系統(tǒng)和馬爾科夫模型,構(gòu)造一種由系統(tǒng)模塊分類(lèi)的可靠性模型,并考慮修復(fù)率問(wèn)題,提出一種針對(duì)硬件的馬爾科夫模型分析方法,分析了嵌入式系統(tǒng)各模塊的失效形式和故障類(lèi)別,根據(jù)狀態(tài)轉(zhuǎn)移關(guān)系建立狀態(tài)轉(zhuǎn)移矩陣,并對(duì)馬爾科夫狀態(tài)轉(zhuǎn)移方程進(jìn)行求解計(jì)算;最后對(duì)嵌入式系統(tǒng)硬件可靠性作了狀態(tài)預(yù)測(cè)和敏感性分析。
1 ?嵌入式系統(tǒng)的硬件模塊
以某型嵌入式自動(dòng)噴漆設(shè)備為例,如圖1所示,電路硬件包括時(shí)鐘電路、復(fù)位電路、MCU、通信模塊、電源和光耦隔離等。
為了便于研究,按照功能將以上電路硬件劃分為電源模塊、通信模塊、CPU模塊和控制模塊,如圖2所示。
2 ?硬件嵌入式系統(tǒng)失效模式
2.1 ?故障原因
硬件故障根據(jù)故障的持續(xù)時(shí)間又可分為永久性故障和暫時(shí)性故障。永久性故障是硬件物理性能隨著時(shí)間的推移而出現(xiàn)不可逆的退化;暫時(shí)性故障則是由外部或內(nèi)部不確定因素引起的短時(shí)間硬件故障。暫時(shí)性故障有時(shí)不通過(guò)維修就可以自行恢復(fù),電源電路故障或電路供電不穩(wěn)定造成芯片燒毀則屬于永久性故障,只能通過(guò)更換芯片實(shí)現(xiàn)系統(tǒng)正常運(yùn)行,否則無(wú)法實(shí)現(xiàn)正常功能。但是當(dāng)有器件接觸不良,例如電源插座接觸不良,與觸摸屏之間的串口線出現(xiàn)短時(shí)間的通信障礙,故障并不會(huì)長(zhǎng)時(shí)間持續(xù),一段時(shí)間后能自行恢復(fù)正常,此類(lèi)故障屬于暫時(shí)性故障。表1列出了該系統(tǒng)出現(xiàn)的主要故障原因。
2.2 ?故障模式
硬件失效主要由硬件的全局故障、未能及時(shí)恢復(fù)的暫時(shí)性故障與超過(guò)系統(tǒng)容錯(cuò)能力的硬件局部故障引起的。當(dāng)嵌入式系統(tǒng)出現(xiàn)全局故障時(shí),硬件系統(tǒng)無(wú)法工作,也就是硬件失效。為了消除硬件暫時(shí)性故障的影響,經(jīng)常采用重新燒寫(xiě)控制代碼、關(guān)上設(shè)備重新啟動(dòng)等方法,但是在系統(tǒng)運(yùn)行過(guò)程中,可能因?yàn)槲茨芗皶r(shí)從故障中恢復(fù)而造成系統(tǒng)失效;當(dāng)硬件局部故障發(fā)生時(shí),系統(tǒng)將會(huì)依舊執(zhí)行程序,但故障單元會(huì)導(dǎo)致整個(gè)系統(tǒng)無(wú)法工作,此時(shí)當(dāng)故障單元修復(fù)后,系統(tǒng)能立即投入工作,修復(fù)后的單元模塊還是屬于指數(shù)分布,而當(dāng)一系列指令、操作命令都無(wú)法執(zhí)行且整個(gè)系統(tǒng)硬件受到應(yīng)力影響,處于不可修復(fù)時(shí),則判斷系統(tǒng)處于失效,表2是本系統(tǒng)出現(xiàn)的主要故障模式。
3 ?硬件嵌入式系統(tǒng)的馬爾科夫模型
在嵌入式數(shù)控系統(tǒng)硬件中,先從單個(gè)的元器件開(kāi)始分析,當(dāng)某個(gè)元器件處于正常工作狀態(tài)時(shí),它從正常狀態(tài)轉(zhuǎn)移到故障狀態(tài)的轉(zhuǎn)移概率與其現(xiàn)在處于的狀態(tài)有關(guān),而電子元器件的故障分布是符合指數(shù)分布,具有無(wú)記憶性,而這也是馬爾科夫鏈的性質(zhì)。即此時(shí)由正常轉(zhuǎn)為故障的概率只與當(dāng)前的狀態(tài)有關(guān),與之前的無(wú)關(guān),狀態(tài)之間轉(zhuǎn)移隨機(jī)。此時(shí)假設(shè):
1) 每一個(gè)組成單元的壽命和維修時(shí)間的分布都遵循指數(shù)分布,也就是說(shuō)故障率和修復(fù)率都是常數(shù)。
2) [X(t)]表示嵌入式數(shù)控系統(tǒng)當(dāng)時(shí)處于時(shí)刻[t]的狀態(tài)。
3) 每個(gè)結(jié)構(gòu)單元處于什么狀態(tài)是相互獨(dú)立的,與其他結(jié)構(gòu)單元的狀態(tài)無(wú)關(guān)。
4) [Δt]足夠小,可以認(rèn)為在[Δt]時(shí)間內(nèi)一個(gè)故障重復(fù)一次以上的概率為0,也就是說(shuō)不考慮在同一時(shí)刻,組成部件出現(xiàn)兩次及兩次以上的故障情況。
當(dāng)一個(gè)單元在[t]與[t+Δt]這段很短的時(shí)間里面,故障率為[λ],修復(fù)率為[μ],對(duì)單個(gè)單元進(jìn)行狀態(tài)分析,此時(shí)該單元會(huì)有故障狀態(tài)和正常狀態(tài)這兩種狀態(tài),由此可以得出該單元的狀態(tài)轉(zhuǎn)移關(guān)系如圖3所示。
利用馬爾科夫模型能夠較為準(zhǔn)確地表示出該嵌入式硬件系統(tǒng)的工作情況。當(dāng)運(yùn)用馬爾科夫模型評(píng)估系統(tǒng)可靠性指標(biāo)時(shí),嵌入式系統(tǒng)硬件各個(gè)部分的狀態(tài)可以看作是一個(gè)離散時(shí)間、離散狀態(tài)的馬爾科夫過(guò)程,為了將馬爾科夫過(guò)程應(yīng)用到嵌入式硬件系統(tǒng)的可靠性模型中,作出以下假設(shè):
1) 該嵌入式控制系統(tǒng)的所有硬件器件失效率均獨(dú)立,服從指數(shù)分布。
2) 該系統(tǒng)共有 7 個(gè)狀態(tài)(正常及6個(gè)模塊失效,分別用0,1,2,…,6表示),用[λ]表示某個(gè)組成模塊的故障率,[μ]表示其修復(fù)率,由一個(gè)狀態(tài)轉(zhuǎn)移到另一個(gè)狀態(tài)是隨機(jī)的。
因此,在[Δt]時(shí)間內(nèi),系統(tǒng)各狀態(tài)間的狀態(tài)轉(zhuǎn)移如圖4所示。
由圖2可知,整個(gè)嵌入式系統(tǒng)的硬件主要由電源模塊、CPU模塊、通信模塊和控制模塊組成。其中,電源模塊主要是由兩塊降壓芯片、電容和電阻組成;CPU模塊主要是由STM32F103芯片和時(shí)鐘復(fù)位電路組成;通信模塊主要是由MAX232和電容組成;控制部分主要是由GPIO、光耦和串口組成。相關(guān)部件的故障數(shù)據(jù)可參考IEEE收集以及我國(guó)軍用手冊(cè)專(zhuān)門(mén)用于可靠性評(píng)估的數(shù)據(jù)標(biāo)準(zhǔn)與表3,其可靠性數(shù)據(jù)結(jié)果計(jì)算如表4所示。
通過(guò)表4和式(4)可得到系統(tǒng)工作狀態(tài)可靠度隨時(shí)間的變化關(guān)系,如圖5所示。
由圖5可以看出,該硬件系統(tǒng)的可靠性隨著時(shí)間的增大而減小,符合設(shè)備壽命實(shí)際變化規(guī)律。假設(shè)系統(tǒng)的可靠度大于0.8時(shí)硬件系統(tǒng)可靠,可知該硬件系統(tǒng)能可靠工作的時(shí)長(zhǎng)約為0.3×106 h。在設(shè)備處于正常工作的情況下,時(shí)間越長(zhǎng),設(shè)備的可靠性大于這一時(shí)間的概率就越小。
5 ?敏感性分析
由于各個(gè)模塊的失效率對(duì)系統(tǒng)的可靠度影響效果不同,因此在實(shí)際運(yùn)用中,要對(duì)影響較大的模塊加以考慮,即對(duì)各個(gè)模塊的失效率做敏感性分析。通過(guò)控制變量法逐個(gè)調(diào)整各個(gè)模塊的失效率,調(diào)整范圍控制在20%左右,并選定評(píng)判標(biāo)準(zhǔn)為可靠度變化幅值。仿真結(jié)果如圖6所示。
由圖6和表5可知:模塊失效率[λ1]的變化對(duì)可靠度的影響較大,當(dāng)[λ1]減少20%或者是增加20%時(shí),相比于其他模塊失效率對(duì)可靠度的影響,可知電源模塊對(duì)整個(gè)系統(tǒng)可靠性的影響更大,往后依次是時(shí)鐘電路、光隔電路、MCU、串口屏。因而,在硬件設(shè)計(jì)上電源模塊部分設(shè)計(jì)對(duì)整個(gè)系統(tǒng)的可靠性提高有一定的指導(dǎo)意義。
6 ?結(jié) ?語(yǔ)
為了更好地研究嵌入式系統(tǒng)硬件可靠性,以某型嵌入式自動(dòng)噴漆設(shè)備控制系統(tǒng)硬件為例,提出了基于馬爾科夫模型的硬件系統(tǒng)可靠性預(yù)測(cè)方法。首先對(duì)嵌入式自動(dòng)噴漆設(shè)備控制系統(tǒng)硬件進(jìn)行模塊劃分,分析了各模塊工作狀態(tài)轉(zhuǎn)移過(guò)程,得到整個(gè)硬件系統(tǒng)可靠性隨時(shí)間的變化關(guān)系,較好地描述了整個(gè)硬件系統(tǒng)的失效過(guò)程;其次,通過(guò)敏感性分析得知,對(duì)系統(tǒng)可靠性影響最大的模塊為電源模塊,為進(jìn)一步提高硬件系統(tǒng)可靠性提供了良好的解決思路。綜上所述,基于馬氏鏈的硬件可靠性預(yù)測(cè)模型對(duì)實(shí)際應(yīng)用中嵌入式系統(tǒng)的硬件設(shè)計(jì)和可靠性分析具有很大的價(jià)值。
參考文獻(xiàn)
[1] 郭榮佐.基于Copula的ERCS系統(tǒng)軟硬件綜合可靠性建模與分析[J].計(jì)算機(jī)科學(xué),2014,41(4):145?149.
[2] 方永鋒,陳建軍.多狀態(tài)可修復(fù)k/n系統(tǒng)的隨時(shí)間響應(yīng)可靠性研究[J].高技術(shù)通訊,2016,26(2):195?199.
[3] 李冬輝,蘇海嘯,馮中艷,等.ARM嵌入式系統(tǒng)模糊可靠性評(píng)價(jià)[J].測(cè)控技術(shù),2016,35(1):118?122.
[4] 朱曉榮,王羽凝,金繪民,等.基于馬爾科夫鏈蒙特卡洛方法的光伏電站可靠性評(píng)估[J].高電壓技術(shù),2017,43(3):1034?1042.
[5] 雷為民,羅瑋,苗友忠.馬爾科夫鏈的電力系統(tǒng)運(yùn)行可靠性評(píng)估研究[J].自動(dòng)化與儀器儀表,2016(3):110?111.
[6] 孔令達(dá),杜蜀薇,趙兵,等.基于馬爾科夫鏈蒙特卡洛仿真的智能電能表軟件可靠性仿真研究[J].電測(cè)與儀表,2018,55(1):114?120.
[7] 封二強(qiáng),鄭軍,藍(lán)新生.軟硬件可靠性綜合評(píng)價(jià)方法研究[J].電子技術(shù)應(yīng)用,2015,41(3):20?23.
[8] 秦昳.基于軟硬件故障競(jìng)爭(zhēng)失效模式的可靠性分析方法研究[J].電子技術(shù)與軟件工程,2014(13):197?198.
[9] 王樂(lè)胥.嵌入式電子信息系統(tǒng)可靠度優(yōu)化探究[J].信息與電腦(理論版),2018(8):23?24.
[10] 黃魯江,雷燁.基于Markov過(guò)程的二乘二取二計(jì)算機(jī)聯(lián)鎖系統(tǒng)的可靠性和安全性分析[J].鐵路通信信號(hào)工程技術(shù),2017,14(5):1?4.
[11] 潘剛,尚朝軒,梁玉英,等.相關(guān)競(jìng)爭(zhēng)失效場(chǎng)合雷達(dá)功率放大系統(tǒng)可靠性評(píng)估[J].電子學(xué)報(bào),2017,45(4):805?812.
[12] 高志,雷建和,張丹,等.應(yīng)用馬爾科夫模型分析起落架的可靠性[J].自動(dòng)化與儀器儀表,2014(5):146?149.