羅繼光
(湖南中車時(shí)代通信信號有限公司,湖南 長沙 410005)
隨著高速鐵路的快速發(fā)展,列車運(yùn)行控制系統(tǒng)(簡稱“列控系統(tǒng)”)的安全性直接影響行車安全[1]。安全計(jì)算機(jī)平臺被廣泛應(yīng)用于列控系統(tǒng)中,列控系統(tǒng)為了達(dá)到規(guī)定的安全等級,其安全計(jì)算機(jī)平臺通常采用多通道冗余設(shè)計(jì),通過對多個(gè)相同或相似的并行通道或功能模塊的輸出結(jié)果進(jìn)行表決來實(shí)現(xiàn)功能安全。各通道的相似性使其較易由于共同原因而引發(fā)多個(gè)通道或功能模塊的失效。因此,在設(shè)計(jì)列控系統(tǒng)時(shí),除了應(yīng)該采取設(shè)置多樣性及其他方式來防止共因失效外,還應(yīng)在系統(tǒng)危險(xiǎn)側(cè)失效率的計(jì)算中充分考慮共因失效分?jǐn)?shù)。
現(xiàn)有列控系統(tǒng)共因失效研究通常借鑒核電和航空領(lǐng)域共因失效分析的經(jīng)驗(yàn),采用擴(kuò)展的故障樹法、馬爾科夫鏈和多參數(shù)模型等方法對系統(tǒng)進(jìn)行共因失效定量分析。上述計(jì)算模型的分析過程過于復(fù)雜,在系統(tǒng)設(shè)計(jì)和開發(fā)過程中不易識別共因失效及評估其所引發(fā)的危害程度[2];同時(shí),這些計(jì)算模型更多依賴專家經(jīng)驗(yàn)或者半經(jīng)驗(yàn)公式,沒有達(dá)成統(tǒng)一認(rèn)可的參數(shù)確認(rèn)方式;另外,列控系統(tǒng)由于缺少對共因失效歷史數(shù)據(jù)庫的積累和完善,導(dǎo)致計(jì)算結(jié)果因沒有相關(guān)數(shù)據(jù)支撐而存在較大誤差。為此,本文通過建立基于β因子的共因失效分析模型,選取計(jì)算機(jī)聯(lián)鎖系統(tǒng),對其進(jìn)行共因失效篩選和識別,發(fā)現(xiàn)系統(tǒng)設(shè)計(jì)過程中的薄弱環(huán)節(jié);同時(shí),結(jié)合β因子對系統(tǒng)共因失效進(jìn)行定量安全分析,并針對薄弱環(huán)節(jié)提出相應(yīng)的安全防御措施,進(jìn)一步改善系統(tǒng)的安全設(shè)計(jì)。
由同一種原因而導(dǎo)致的一個(gè)以上相同的部件、模塊、單元或者系統(tǒng)發(fā)生的失效被稱為共因失效[3]。
1.1.1 共因失效原因
共因失效產(chǎn)生的原因既可能由于設(shè)計(jì)錯誤、制造錯誤這樣的內(nèi)在原因,也可能來源于操作錯誤、維護(hù)錯誤以及外部環(huán)境這樣的外在原因。其中,操作錯誤指的是系統(tǒng)運(yùn)行期間錯誤的強(qiáng)置型指令或者停止指令等;維護(hù)錯誤指的是安裝錯誤、維修程序錯誤或者升級錯誤等;外部環(huán)境指的是振動沖擊、火災(zāi)/煙霧、腐蝕性氣體、鹽霧和潮濕等環(huán)境[4]。
1.1.2 共因失效防御措施
避免共因失效發(fā)生可以從以下3個(gè)角度對系統(tǒng)設(shè)計(jì)提出防御措施[5]:
1)冗余單元的物理隔離。將冗余單元安裝在不同的機(jī)箱內(nèi),保證其在物理和電氣上是相互隔離的,從而增加對共因失效的抵抗能力。
2)提升硬件和軟件設(shè)計(jì)的多樣性。例如,在軟件設(shè)計(jì)中采用異步操作模式以減小共因失效出現(xiàn)的可能性;采用不同廠商生產(chǎn)的電子元器件以提升硬件設(shè)計(jì)的多樣性。
3)強(qiáng)化設(shè)計(jì),以提高強(qiáng)度。例如,增強(qiáng)系統(tǒng)各模塊對環(huán)境的抗干擾能力并進(jìn)行抗干擾性測試;在系統(tǒng)開發(fā)過程中采用嚴(yán)格的質(zhì)量管理和安全管理流程,從而減少系統(tǒng)性失效和隨機(jī)性失效。
1.2.1β因子模型
β因子是導(dǎo)致共因失效發(fā)生的因子。根據(jù)IEC 61508-6Functionalsafetyofelectrical/electronic/programmableelectronicsafety-relatedsystems-part6:guidelinesontheapplicationofIEC61508-2andIEC61508-3附錄D.4的描述[6],對于執(zhí)行診斷測試的安全架構(gòu),由共因失效引起的總失效率為“λDUβ+λDDβD”。其中,λDU為每個(gè)通道不可檢測的危險(xiǎn)失效率;λDD為每個(gè)通道可檢測的危險(xiǎn)失效率;β為不可檢測的危險(xiǎn)失效的共因失效因子;βD為可檢測的危險(xiǎn)失效的共因失效因子。
1.2.2β因子估算方法
IEC 61508-6 標(biāo)準(zhǔn)附錄中提供了β因子估算方法,標(biāo)準(zhǔn)對8個(gè)影響共因失效的因素(分離/隔開、多樣性與冗余、復(fù)雜性/設(shè)計(jì)/應(yīng)用/老化/經(jīng)驗(yàn)、評估/分析及數(shù)據(jù)反饋、規(guī)程/人工接口、能力/培養(yǎng)/安全素養(yǎng)、環(huán)境的控制和環(huán)境測試)進(jìn)行了劃分說明[6]。為了最大限度地減小共因失效發(fā)生的概率,首先要結(jié)合這8 個(gè)因素對系統(tǒng)建立有效的防御措施(在系統(tǒng)中采用適當(dāng)?shù)陌踩烙胧?,能夠減少在估算因?yàn)楣惨蚴Фl(fā)系統(tǒng)失效時(shí)使用的β因子的數(shù)值)[7];其次,對照這8個(gè)因素涉及的問題,評估系統(tǒng)是否采用了有效的安全防御措施,從而對每個(gè)問題進(jìn)行打分;最后,計(jì)算所有問題的總分,并基于總分,得到β因子的數(shù)值。β和βD的估算方法在IEC 61508-6 附錄D.4 中有具體說明。估算方法中,參數(shù)S=X+Y;參數(shù)SD=X(Z+1)+Y。其中,X為所采用的措施對提高診斷測試有效性的貢獻(xiàn)值;Y為所采用的措施對降低共因失效的貢獻(xiàn)值;Z為綜合診斷覆蓋率和診斷測試間隔得出的結(jié)果。X和Y數(shù)值的確定,需要結(jié)合IEC61508-6 標(biāo)準(zhǔn)附錄D.5,對邏輯子系統(tǒng)與傳感器和最終元件中是否采用了安全防御措施進(jìn)行分析評估,即對照檢查項(xiàng),對系統(tǒng)的符合情況逐項(xiàng)進(jìn)行打分,分值相加可分別得到X和Y的數(shù)值。每種措施的X∶Y比值,表示了診斷測試能夠提高該措施對抗共因失效的作用程度[8]。Z值在IEC61508-6 的表D.2 和表D.3中進(jìn)行了說明。表D.2 為邏輯子系統(tǒng)中Z值的確定方法;表D.3為傳感器和最終元件中Z值的確定方法。
根據(jù)系統(tǒng)安全理論,本文提出基于β因子模型的共因失效分析模型,結(jié)合β因子和獨(dú)立性分析方法對系統(tǒng)可能的共因失效情況進(jìn)行分析評估,從而保證分析的系統(tǒng)性以及確認(rèn)共因失效的閉環(huán)控制[9]。共因失效分析模型如圖1所示。
圖1 共因失效分析模型Fig.1 Analysis model of common cause failure
共因失效分析步驟如下:
1)明確系統(tǒng)定義。確定共因失效分析范圍,包括明確系統(tǒng)邊界及接口。
2)建立系統(tǒng)架構(gòu)設(shè)計(jì)模型?;谙到y(tǒng)設(shè)計(jì)定義,確定系統(tǒng)所采用的架構(gòu)設(shè)計(jì)模型。
3)初步篩選分析。利用IEC 61508-6 標(biāo)準(zhǔn)附錄中涉及的8個(gè)影響共因失效因素的檢查表對系統(tǒng)進(jìn)行評審,識別分析系統(tǒng)的共因失效弱點(diǎn)。對照這8個(gè)因素涉及的問題,評估系統(tǒng)是否采用了有效的安全防御措施。
4)分析和控制共因失效。針對關(guān)鍵的共因失效進(jìn)行定性和定量分析,確定共因失效發(fā)生的根本原因,消除或控制共因失效[10]。
5)關(guān)閉共因失效。通過定性分析和定量分析,確定所有的共因失效已經(jīng)被降低到可以接受的范圍,系統(tǒng)達(dá)到規(guī)定的安全目標(biāo)。
計(jì)算機(jī)聯(lián)鎖系統(tǒng)是列車運(yùn)行控制系統(tǒng)的重要組成部分,本文選擇計(jì)算機(jī)聯(lián)鎖系統(tǒng)作為研究對象。圖2為計(jì)算機(jī)聯(lián)鎖系統(tǒng)中常見的2取2系統(tǒng)安全架構(gòu)。其中,計(jì)算機(jī)聯(lián)鎖系統(tǒng)中的主機(jī)插件、安全數(shù)字量輸入插件、安全數(shù)字量輸出插件均采用此架構(gòu)設(shè)計(jì)模型,在2取2(2oo2)架構(gòu)設(shè)計(jì)中CPU_A通道和CPU_B通道采用相同的硬件和軟件進(jìn)行邏輯運(yùn)算,各通道在進(jìn)行自檢的同時(shí)不斷地將控制計(jì)算結(jié)果進(jìn)行交互比較。最終通過通信總線將輸出命令發(fā)送至輸出模塊,由輸出模塊執(zhí)行輸出。
圖2 計(jì)算機(jī)聯(lián)鎖系統(tǒng)2 取2 架構(gòu)Fig.2 Architecture of 2-vote-2 in the computer interlocking system
在IEC 61508中,安全計(jì)算機(jī)包括輸入、邏輯計(jì)算和輸出3 個(gè)子系統(tǒng),安全計(jì)算機(jī)的平均危險(xiǎn)側(cè)失效率等于各個(gè)子系統(tǒng)的平均危險(xiǎn)側(cè)失效率之和,即
式中:PSYS——整個(gè)安全計(jì)算機(jī)的平均危險(xiǎn)側(cè)失效率;PS——輸入子系統(tǒng)(傳感器)的平均危險(xiǎn)側(cè)失效率;PFE——輸出子系統(tǒng)(最終元件)的平均危險(xiǎn)側(cè)失效率;PL——邏輯計(jì)算子系統(tǒng)的平均危險(xiǎn)側(cè)失效率。
計(jì)算機(jī)聯(lián)鎖系統(tǒng)中的采集部分、邏輯部分和驅(qū)動部分分別對應(yīng)安全計(jì)算機(jī)中的輸入子系統(tǒng)(傳感器)、邏輯計(jì)算子系統(tǒng)和輸出子系統(tǒng)(最終元件)。安全計(jì)算機(jī)冗余結(jié)構(gòu)通常采用圖3所示的2乘2取2架構(gòu)。
圖3 2 乘2 取2 架構(gòu)Fig.3 Architecture of double 2-vote-2
明確計(jì)算機(jī)聯(lián)鎖系統(tǒng)的系統(tǒng)定義和系統(tǒng)架構(gòu)設(shè)計(jì)后,結(jié)合IEC 61508-6標(biāo)準(zhǔn)附錄中8個(gè)影響共因失效因素的檢查表,對系統(tǒng)設(shè)計(jì)進(jìn)行對照評審,根據(jù)其邏輯計(jì)算和輸入/輸出3個(gè)子系統(tǒng)的設(shè)計(jì)要求,審視系統(tǒng)依據(jù)檢查表中的每一項(xiàng)是如何進(jìn)行安全設(shè)計(jì)的,從而對每個(gè)檢查項(xiàng)點(diǎn)進(jìn)行打分。表1是結(jié)合IEC 61508-6附錄中的“分離/隔開”因素,對計(jì)算機(jī)聯(lián)鎖系統(tǒng)在實(shí)際設(shè)計(jì)中采用的安全防御措施進(jìn)行評估和打分的結(jié)果。表1 的“計(jì)算機(jī)聯(lián)鎖中采用的安全防御措施”一欄中,列出了在系統(tǒng)實(shí)際設(shè)計(jì)中所采用的控制共因失效的安全防御措施。
表1 分離/隔開分析Table 1 Separation analysis
在完成共因失效篩選和識別后,分析各個(gè)潛在的共因故障,評估這些共因失效是否滿足獨(dú)立性要求。系統(tǒng)總的危險(xiǎn)側(cè)失效率包含由共因故障引起的失效以及獨(dú)立失效。
IEC 61508-6 標(biāo)準(zhǔn)中定義了不同冗余架構(gòu)的平均危險(xiǎn)側(cè)失效率計(jì)算方法。在計(jì)算機(jī)聯(lián)鎖系統(tǒng)中,2 取2(2oo2)的平均危險(xiǎn)側(cè)失效率P2oo2計(jì)算公式為
式(2)中,λDU=λD(1-FDC)。其中,F(xiàn)DC為診斷覆蓋率,λD為單通道危險(xiǎn)側(cè)失效率。
計(jì)算平均危險(xiǎn)側(cè)失效率時(shí),首先計(jì)算每個(gè)2oo2架構(gòu)的危險(xiǎn)側(cè)失效率,然后以該失效率作為1oo2 架構(gòu)每個(gè)通道的危險(xiǎn)側(cè)失效率,從而計(jì)算得到2 乘2 取2 架構(gòu)的平均危險(xiǎn)側(cè)失效率。IEC 61508-6 中定義的1oo2 的平均危險(xiǎn)側(cè)失效率P1oo2計(jì)算公式為
經(jīng)過對計(jì)算機(jī)聯(lián)鎖系統(tǒng)架構(gòu)設(shè)計(jì)中所采用的安全防御措施進(jìn)行分析和比對,得出計(jì)算機(jī)聯(lián)鎖系統(tǒng)架構(gòu)設(shè)計(jì)中涉及的邏輯子系統(tǒng)X值為50、Y值為46,傳感器和最終元件的X值為42、Y值為46。在計(jì)算機(jī)聯(lián)鎖系統(tǒng)架構(gòu)設(shè)計(jì)中,各個(gè)子系統(tǒng)的X、Y和Z的計(jì)算結(jié)果如表2所示。
表2 各子系統(tǒng)X、Y 和Z 值Table 2 X,Y,and Z values of each subsystem
根據(jù)表2所示,邏輯子系統(tǒng)中X值為50、Y值為46、Z為2.0,可計(jì)算得到參數(shù)S=96、參數(shù)SD=196;傳感器和最終元件中X值為42、Y值為46、Z為2.0,可計(jì)算得到參數(shù)S=88、參數(shù)SD=172。
表3為IEC 61508-6標(biāo)準(zhǔn)中定義的S與β及SD與βD的對應(yīng)關(guān)系。根據(jù)表3所示,可得計(jì)算機(jī)聯(lián)鎖系統(tǒng)中邏輯子系統(tǒng)β的值為1%、βD的值為0.5%;傳感器和最終元件的β的值為2%、βD的值為1%。
表3 β、βD 的取值Table 3 β or βD values
計(jì)算機(jī)聯(lián)鎖系統(tǒng)對單一故障、多故障和動態(tài)故障的診斷覆蓋率大于99%,計(jì)算機(jī)聯(lián)鎖系統(tǒng)中單通道都有自檢電路,能保證系統(tǒng)危險(xiǎn)故障發(fā)生時(shí)單通道能自動導(dǎo)向安全。進(jìn)行共因失效分析時(shí),由于可以檢測到的危險(xiǎn)失效概率對系統(tǒng)安全不會造成影響,可以忽視不計(jì)。
根據(jù)既有計(jì)算機(jī)聯(lián)鎖系統(tǒng)的可靠性數(shù)據(jù),通過對計(jì)算機(jī)聯(lián)鎖系統(tǒng)中采用2 乘2 取2 安全架構(gòu)進(jìn)行共因失效計(jì)算,采用β因子模型,計(jì)算得到共因失效分?jǐn)?shù)β和βD,然后帶入式(1)~式(3)中,可以分別得到由獨(dú)立失效(獨(dú)立故障原因)和共因失效(共因故障原因)導(dǎo)致的危險(xiǎn)側(cè)失效率。計(jì)算結(jié)果如表4所示。
表4 基于β 因子的計(jì)算結(jié)果Table 4 Calculation results based on β factors
定量計(jì)算結(jié)果表明,共因失效導(dǎo)致的危險(xiǎn)側(cè)失效率接近總的平均危險(xiǎn)側(cè)失效率的計(jì)算結(jié)果,這說明β和βD是決定平均危險(xiǎn)側(cè)失效率計(jì)算結(jié)果的重要參數(shù)??紤]并采用8 個(gè)影響共因失效因素的防御措施,能夠優(yōu)化系統(tǒng)安全設(shè)計(jì),并滿足系統(tǒng)獨(dú)立性設(shè)計(jì)要求。
本文根據(jù)系統(tǒng)安全理論,建立一種基于β因子的共因失效分析模型,利用共因失效檢查表對系統(tǒng)進(jìn)行初步篩選分析,識別分析系統(tǒng)設(shè)計(jì)過程中的薄弱環(huán)節(jié),并提出安全防御措施;同時(shí)結(jié)合β因子對共因失效進(jìn)行定量安全分析計(jì)算,判定系統(tǒng)危險(xiǎn)失效率是否在可接受的范圍并達(dá)到規(guī)定的安全目標(biāo),從而進(jìn)一步改善系統(tǒng)的安全設(shè)計(jì)。
通過分析共因失效的原因和耦合機(jī)制,能夠?qū)ο到y(tǒng)設(shè)計(jì)過程進(jìn)行審視,發(fā)現(xiàn)設(shè)計(jì)中的薄弱環(huán)節(jié)并制定相應(yīng)的安全防御措施,從而進(jìn)一步提升系統(tǒng)的安全性。相比多參數(shù)模型,β因子模型具有表達(dá)直觀、易于維護(hù)和可操作性強(qiáng)的優(yōu)勢。由定量計(jì)算結(jié)果可知,β因子越小,共因失效影響越小。因此,為了有效控制共因失效,在系統(tǒng)設(shè)計(jì)階段,需要盡量滿足IEC 61508-6附錄提出的相關(guān)安全防御措施要求。下一步將綜合考慮共因失效、故障檢測率和維修率對系統(tǒng)可靠性和安全性的影響。