蹇彪
(工業(yè)和信息化部電子第五研究所軟件質(zhì)量工程中心,廣州511370)
隨著電子技術(shù)的發(fā)展,雷達(dá)等電子裝備逐漸軟件化,設(shè)備集成度、功能復(fù)雜度越來越高。在研發(fā)和使用過程中,設(shè)備發(fā)生故障時(shí),現(xiàn)場(chǎng)技術(shù)人員往往難以快速判斷故障成因,需要花費(fèi)大量時(shí)間和精力用于故障源定位和故障排除。憑經(jīng)驗(yàn)開展故障定位分析工作容易被思維定勢(shì)誤導(dǎo),僅適用于小型簡(jiǎn)單設(shè)備的維護(hù),已無(wú)法滿足現(xiàn)代復(fù)雜裝備發(fā)展需要,因此應(yīng)用一種方法論系統(tǒng)、全面地分析裝備故障影響因素十分必要。
故障樹分析簡(jiǎn)稱FTA(Fault Tree Analysis),是一種由上往下的演繹式失效分析方法,利用布爾邏輯組合低階事件,分析系統(tǒng)中不希望出現(xiàn)的狀態(tài)。最早由美國(guó)貝爾電話公司的電話實(shí)驗(yàn)室發(fā)展出來,逐漸成為可靠性工程領(lǐng)域內(nèi)進(jìn)行系統(tǒng)失效分析的重要方法之一,廣泛應(yīng)用在航空航天、核工業(yè)等對(duì)安全性和可靠性要求嚴(yán)苛的工業(yè)行業(yè)[1]。
故障樹分析方法通過結(jié)合診斷目標(biāo)的系統(tǒng)結(jié)構(gòu)和功能構(gòu)建故障分析模型,是一種從系統(tǒng)到部件,再到單元,按樹形結(jié)構(gòu)從上到下逐級(jí)遞推并根據(jù)事件因果而邏輯聯(lián)系的圖形化分析方法[2]。它將故障現(xiàn)象作為頂事件,將直接或間接導(dǎo)致頂事件發(fā)生的因素作為中間事件,將最基本的故障原因作為底事件,通過“與”“或”等邏輯門將頂事件、中間事件和底事件連接起來,形成一個(gè)樹狀圖,得到一個(gè)定性的因果模型。故障樹建立以后,從頂事件出發(fā),由上而下分析,最終實(shí)現(xiàn)對(duì)系統(tǒng)異常狀態(tài)的快速故障定位[3]。
故障樹分析法既考慮了設(shè)備中的硬件因素,又考慮了軟件程序缺陷,不僅可以對(duì)系統(tǒng)故障進(jìn)行定性分析,準(zhǔn)確定位系統(tǒng)中的故障源,也可以進(jìn)行定量分析,通過計(jì)算各事件的發(fā)生概率求出系統(tǒng)失效概率,可以為故障預(yù)測(cè)和健康管理研究提供參考。
建立故障樹的主要步驟包括:了解系統(tǒng)結(jié)構(gòu)、分析故障模式、確定頂事件、繪制故障樹、簡(jiǎn)化故障樹、求解故障樹事件發(fā)生概率。
(1)了解系統(tǒng)結(jié)構(gòu):該步驟主要是詳細(xì)了解系統(tǒng)結(jié)構(gòu)、主要工作狀態(tài)和參數(shù),必要時(shí)可繪制出工藝流程圖或系統(tǒng)結(jié)構(gòu)圖;
(2)確定頂事件:要分析的對(duì)象即為頂事件,通常將待診斷的故障作為頂事件;
(3)繪制故障樹:根據(jù)建立的系統(tǒng)組成結(jié)構(gòu),從頂事件開始向下逐層展開,將各個(gè)事件通過邏輯關(guān)系連接起來,繪制故障樹;
(4)分析故障樹:該步驟主要是分析故障樹中所有可能發(fā)生的事件,定量分析時(shí)給出各基本事件發(fā)生概率;
(5)簡(jiǎn)化故障樹:根據(jù)各基本事件發(fā)生的概率數(shù)據(jù),確定各基本事件對(duì)頂事件發(fā)生的影響程度,即結(jié)構(gòu)重要度,按結(jié)構(gòu)重要度對(duì)故障樹進(jìn)行簡(jiǎn)化;
(6)求解故障樹事件發(fā)生概率:確定所有事件發(fā)生概率,標(biāo)記在故障樹上,進(jìn)而求解出頂事件發(fā)生概率。
復(fù)雜裝備出現(xiàn)故障現(xiàn)象時(shí),通常需要快速排查,準(zhǔn)確進(jìn)行故障定位,屬于定性分析,因此僅需執(zhí)行步驟(1)到步驟(5),查找出故障源即可。
合成孔徑雷達(dá)(SAR)是一種高分辨率成像雷達(dá),具有分辨率高、全天候等特點(diǎn)。不同載具平臺(tái)的合成孔徑雷達(dá),主要功能不同,如機(jī)載SAR和星載SAR主要功能是成像,彈載SAR主要功能是成像、匹配和定位[4]。典型的合成孔徑雷達(dá)系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 典型的合成孔徑雷達(dá)系統(tǒng)結(jié)構(gòu)
雷達(dá)裝備的故障發(fā)生模式按照故障發(fā)生速度來分可分為漸發(fā)性故障和突發(fā)性故障。漸發(fā)性故障一般發(fā)生在交付使用階段,由于高溫、高濕、腐蝕等外部因素,以及機(jī)械震動(dòng)、電磁輻射、熱疲勞等內(nèi)部因素導(dǎo)致的元器件、組件失效而產(chǎn)生的故障,通常為硬件故障。突發(fā)性故障一般發(fā)生在研發(fā)設(shè)計(jì)階段,多屬于需求變更、功能升級(jí)等因素引入的設(shè)計(jì)缺陷,隨著電子裝備功能越來越復(fù)雜,軟件代碼規(guī)模越來越龐大,這類故障發(fā)生的條件越來越難以預(yù)測(cè)。合成孔徑雷達(dá)主要故障模式如表1所示。
表1 合成孔徑雷達(dá)主要故障模式
以圖1所示典型合成孔徑雷達(dá)系統(tǒng)為例,選擇無(wú)法成像故障作為頂事件,應(yīng)用故障樹分析對(duì)該故障進(jìn)行故障定位。
首先,了解系統(tǒng)結(jié)構(gòu),梳理系統(tǒng)主要功能和工作流程。該系統(tǒng)主要由天線模塊、電源模塊、綜合頻率模塊和綜合處理模塊組成。系統(tǒng)工作時(shí),由頻率綜合單元提供基準(zhǔn)時(shí)鐘,綜合處理模塊中的任務(wù)管理單元根據(jù)上位計(jì)算機(jī)發(fā)送的工作控制參數(shù),開啟工作流程,并發(fā)送給采集單元,該采集單元形成激勵(lì)信號(hào),經(jīng)綜合頻率模塊處理后進(jìn)入天線模塊,由天線單元驅(qū)動(dòng)放大,經(jīng)TR組件后輻射到空間,反射回來的回波經(jīng)綜合頻率模塊的收發(fā)單元接收通道后,形成接收信號(hào),由綜合處理模塊的采集單元打包成回波數(shù)據(jù)發(fā)送到接口單元,經(jīng)信號(hào)處理單元進(jìn)一步處理后得到成像結(jié)果。繪制出系統(tǒng)工作時(shí)主要數(shù)據(jù)流向如圖2所示。
圖2 系統(tǒng)主要工作流程
第二步,確定頂事件。將待診斷的無(wú)法成像故障作為頂事件。
第三步,繪制故障樹。根據(jù)系統(tǒng)結(jié)構(gòu),繪制出故障樹如圖3。
圖3 故障樹示意圖
第四步,分析故障樹。
天線模塊故障:天線單元故障或波束控制單元故障時(shí)會(huì)導(dǎo)致天線模塊故障,其中天線單元故障時(shí),會(huì)導(dǎo)致回波信號(hào)質(zhì)量下降或無(wú)回波,與無(wú)法成像故障現(xiàn)象不符,波束控制單元故障時(shí)會(huì)導(dǎo)致成像異常,也與無(wú)法成像故障現(xiàn)象不符,因此可以認(rèn)為底事件I0101或底事件I0102發(fā)生時(shí),頂事件發(fā)生概率為0。
綜合頻率模塊故障:收發(fā)單元故障或頻率綜合單元故障時(shí)會(huì)導(dǎo)致綜合頻率模塊故障,其中收發(fā)單元故障時(shí),會(huì)導(dǎo)致回波信號(hào)質(zhì)量下降,與無(wú)法成像故障現(xiàn)象不符,頻率綜合單元故障時(shí),會(huì)導(dǎo)致無(wú)回波,依然會(huì)產(chǎn)生噪聲圖像,與無(wú)法成像故障現(xiàn)象不符,因此可以認(rèn)為底事件I0201或底事件I0202發(fā)生時(shí),頂事件發(fā)生概率為0。
綜合處理模塊故障:任務(wù)管理單元故障、采集單元故障、信號(hào)處理單元故障或接口單元故障發(fā)生時(shí),均會(huì)導(dǎo)致綜合處理模塊故障,其中任務(wù)管理單元故障時(shí),系統(tǒng)無(wú)法執(zhí)行工作任務(wù),與無(wú)法成像故障現(xiàn)象不符,信號(hào)處理單元故障時(shí),會(huì)導(dǎo)致無(wú)回波數(shù)據(jù),與無(wú)法成像故障現(xiàn)象不符。因此可以認(rèn)為底事件I0301或底事件I0303發(fā)生時(shí),頂事件發(fā)生概率為0。進(jìn)一步分析采集單元故障子樹和接口單元故障子樹,采集單元硬件或駐留軟件故障時(shí),將導(dǎo)致無(wú)相應(yīng)數(shù)據(jù)處理,既無(wú)法產(chǎn)生圖像,與無(wú)法成像故障現(xiàn)象吻合。接口單元硬件或駐留軟件故障時(shí),將導(dǎo)致圖像數(shù)據(jù)無(wú)法輸出,與無(wú)法成像故障現(xiàn)象吻合。因此可以認(rèn)為底事件I030201、底事件I030202、底事件I030401或底事件I030402發(fā)生時(shí),頂事件發(fā)生概率為1。
電源模塊故障:天線供電故障、綜合頻率供電故障或綜合處理供電故障均會(huì)導(dǎo)致電源模塊故障,其中天線供電故障或綜合頻率供電故障時(shí),成像結(jié)果均為噪聲圖像,與無(wú)法成像故障現(xiàn)象不符,綜合處理供電故障時(shí),綜合處理模塊無(wú)法工作,系統(tǒng)無(wú)法工作,無(wú)法執(zhí)行工作任務(wù),與無(wú)法成像故障現(xiàn)象不符,因此可以認(rèn)為底事件I0401、底事件I0402或底事件I0403發(fā)生時(shí),頂事件發(fā)生概率為0。
第五步,簡(jiǎn)化故障樹。根據(jù)上一步分析故障樹的結(jié)果,簡(jiǎn)化故障樹如圖4。針對(duì)簡(jiǎn)化后的故障樹,進(jìn)一步排查分析,通過硬件BIT檢查和鏈路數(shù)據(jù)分析,排除采集單元故障和接口單元硬件故障,定位出本次故障源為接口單元駐留軟件故障。
圖4 簡(jiǎn)化后的故障樹示意圖
完成故障源定位后,通過對(duì)接口單元駐留軟件進(jìn)行源代碼審查分析,確認(rèn)本次故障為程序設(shè)計(jì)缺陷。
在裝備的設(shè)計(jì)研發(fā)和使用過程中,對(duì)故障的快速定位和排除具有重要意義,本文通過實(shí)例介紹了故障樹分析在合成孔徑雷達(dá)故障定位中的應(yīng)用,結(jié)果表明在結(jié)構(gòu)復(fù)雜的電子裝備系統(tǒng)中應(yīng)用故障樹可以實(shí)現(xiàn)快速準(zhǔn)確地定位故障源。通過歸納總結(jié)裝備系統(tǒng)的故障模式,不斷完善故障樹,可以進(jìn)一步開展設(shè)備健康管理研究。