周 煒 師 進(jìn) 韋 文 孟慶堯 江 明
(北京全路通信信號(hào)研究設(shè)計(jì)院有限公司,北京 100073)
智能N取M型高可靠安全計(jì)算機(jī)系統(tǒng)
周 煒 師 進(jìn) 韋 文 孟慶堯 江 明
(北京全路通信信號(hào)研究設(shè)計(jì)院有限公司,北京 100073)
通過分析指出傳統(tǒng)故障-安全系統(tǒng)在電子系統(tǒng)日趨復(fù)雜的背景下將遇到故障檢測(cè)復(fù)雜性劇增的問題,為解決系統(tǒng)設(shè)計(jì)的可持續(xù)發(fā)展問題,滿足用戶對(duì)可靠性和安全性不斷提高的需求,提出一種智能的N取M型高可靠安全計(jì)算機(jī)系統(tǒng),并在系統(tǒng)的可靠性、安全性、設(shè)計(jì)成本、可維護(hù)性以及系統(tǒng)容量方面同傳統(tǒng)安全系統(tǒng)進(jìn)行對(duì)比分析。性能仿真數(shù)據(jù)說明新的安全計(jì)算平臺(tái)不僅能夠完全滿足IEC61508中SIL4等級(jí)系統(tǒng)的要求,更重要的是,這一類型的安全計(jì)算結(jié)構(gòu)極大地降低了對(duì)單器件可靠性及安全性的要求,比傳統(tǒng)故障-安全結(jié)構(gòu)在設(shè)計(jì)和維護(hù)成本方面更加具備可持續(xù)發(fā)展的潛力。
高可靠;高安全;二乘二取二;三取二;N取M;智能退化;安全計(jì)算機(jī)
在傳統(tǒng)的故障-安全系統(tǒng)中,系統(tǒng)輸出危險(xiǎn)側(cè)的概率等于系統(tǒng)失效概率同失效后導(dǎo)向危險(xiǎn)側(cè)概率的乘積,即D=(1-R)d。為了在故障發(fā)生時(shí)能可靠地導(dǎo)向安全側(cè),故障-安全系統(tǒng)需要詳盡地分析系統(tǒng)中所有可能的故障模式,并設(shè)計(jì)相應(yīng)的故障檢測(cè)電路來處理各種類型的故障。目前幾乎所有的安全控制系統(tǒng)都已離不開高性能處理器,隨著半導(dǎo)體技術(shù)的進(jìn)步,處理器的計(jì)算速度、核心的數(shù)量、接口電路的復(fù)雜性都在飛速地增長(zhǎng),在這樣的前提下,要覆蓋檢測(cè)單套計(jì)算單元的各種失效(如內(nèi)存故障、IO故障、總線故障、寄存器故障、ALU單元故障等)已變得越來越困難。在高速條件下要實(shí)現(xiàn)這些復(fù)雜的檢測(cè)功能,其設(shè)計(jì)的復(fù)雜度甚至可能超過了設(shè)計(jì)一個(gè)新處理器的數(shù)據(jù)通路部分。另一方面,在故障-安全系統(tǒng)的設(shè)計(jì)中,也需要采用不同的策略在處理器間實(shí)現(xiàn)不同程度的同步,如基于時(shí)鐘同步或基于協(xié)處理硬件電路的同步[1,2]。隨著系統(tǒng)總線和時(shí)鐘頻率的提高,一個(gè)高速的輸出級(jí)硬件同步器的設(shè)計(jì)也變得日益困難。這些因素使得故障-安全系統(tǒng)采用硬件檢測(cè)來覆蓋所有危險(xiǎn)輸出故障模式的實(shí)現(xiàn)成本越來越高。有部分批評(píng)者甚至認(rèn)為,即使經(jīng)過仔細(xì)的設(shè)計(jì),由于目前處理器電路的晶體管數(shù)量都很龐大,在無法遍歷整個(gè)失效狀態(tài)空間的情況下,必然會(huì)出現(xiàn)故障檢測(cè)電路無法覆蓋的失效模式,所以無論故障檢測(cè)電路是否存在,系統(tǒng)都不可避免會(huì)存在潛在的輸出危險(xiǎn)側(cè)數(shù)據(jù)的可能。
另一種避免系統(tǒng)輸出危險(xiǎn)側(cè)的方法,就是盡可能地提高系統(tǒng)的可靠性。通過減少系統(tǒng)故障的概率,來減少輸出危險(xiǎn)側(cè)的概率,從而保障系統(tǒng)安全。在后續(xù)的討論中可以看到,在現(xiàn)有的技術(shù)條件下,通用計(jì)算機(jī)的可靠性同上個(gè)世紀(jì)相比已經(jīng)大為提高,采用通用計(jì)算機(jī)來搭建一個(gè)高可靠的安全系統(tǒng)的成本反而會(huì)比設(shè)計(jì)一個(gè)故障-安全的專用系統(tǒng)成本更低。本文提出一種新型的采用通用計(jì)算結(jié)構(gòu)的故障-安全計(jì)算系統(tǒng),由于大幅度簡(jiǎn)化了故障檢測(cè)電路的設(shè)計(jì),新系統(tǒng)不僅具有更加簡(jiǎn)潔的系統(tǒng)結(jié)構(gòu),同傳統(tǒng)的故障-安全的設(shè)計(jì)模式相比,還具備高可靠、高安全、低成本、易設(shè)計(jì)維護(hù)、可持續(xù)發(fā)展等特點(diǎn),更加適合在未來高度集成的有嚴(yán)格成本指標(biāo)要求的安全應(yīng)用中使用。
本文結(jié)構(gòu)如下,第二章介紹安全系統(tǒng)的分類;第三章介紹N取M系統(tǒng)的基本原理;第四章介紹N取M系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù);第五章詳細(xì)地對(duì)N取M系統(tǒng)各種RAMS指標(biāo)進(jìn)行分析并同幾種典型的故障-安全系統(tǒng)性能進(jìn)行比較;第六章介紹N取M系統(tǒng)在列控系統(tǒng)中的應(yīng)用;最后,第七章對(duì)全文進(jìn)行總結(jié)與展望。
2.1 故障-安全系統(tǒng)
根據(jù)計(jì)算系統(tǒng)的基本原理,任何一個(gè)計(jì)算系統(tǒng)的數(shù)據(jù)通路,在設(shè)計(jì)上都包括3個(gè)部分:1)輸入獲取;2)邏輯運(yùn)算;3)輸出控制。由于數(shù)據(jù)通路上的3種模塊(輸入模塊、邏輯模塊和輸出模塊)都可能失效,傳統(tǒng)的故障-安全系統(tǒng)都會(huì)設(shè)計(jì)相應(yīng)的故障檢測(cè)模塊來實(shí)時(shí)檢測(cè)數(shù)據(jù)通路上模塊的工作狀態(tài),一旦檢測(cè)到故障,檢測(cè)電路立即切斷該數(shù)據(jù)通路,防止錯(cuò)誤的輸出被驅(qū)動(dòng)到輸出線路上。
典型的故障-安全系統(tǒng)有1OO1D,1OO2D, 2OO2D,2OO3D,2×2OO2D等幾種構(gòu)型,不同的構(gòu)型具有不同的可靠性和安全性。假設(shè)單系故障率為p,故障后發(fā)生危險(xiǎn)側(cè)輸出概率為d,則1OO2D系統(tǒng)、2OO3D系統(tǒng)和2×2OO2D系統(tǒng)的可靠性和安全性如表1所示。
通過對(duì)各個(gè)系統(tǒng)性能的表達(dá)式分析可知, 2×2OO2D系統(tǒng)、2OO3D系統(tǒng)在開始時(shí)可靠性高于單系,但從3倍單系MTBF時(shí)間來看,在后期兩者都在一定程度上犧牲了可靠性,而三取二系統(tǒng)的可靠性比二乘二取二系統(tǒng)略高,安全性方面則是2×2OO2D系統(tǒng)最高。
表1 三種典型安全系統(tǒng)性能比較
2.2 高可靠系統(tǒng)
另一類安全系統(tǒng)通過采用提高系統(tǒng)的可靠性來避免系統(tǒng)輸出危險(xiǎn)側(cè),這類系統(tǒng)在航空航天控制領(lǐng)域被廣泛的使用。因?yàn)檫@類系統(tǒng)中對(duì)系統(tǒng)可用性的要求比鐵路控制系統(tǒng)更為苛刻,所以需要通過提高系統(tǒng)的可靠性和可用性來防止系統(tǒng)停止輸出,因此更加強(qiáng)調(diào)系統(tǒng)對(duì)容錯(cuò)性能的要求,如在機(jī)載系統(tǒng)中常用到三路冗余的安全系統(tǒng)。這類系統(tǒng)的安全性可以根據(jù)公式(1)進(jìn)行計(jì)算:
從公式(1)可以看出,這類系統(tǒng)的安全性完全同系統(tǒng)的可靠性成正比。
類似于故障-安全系統(tǒng),在航空中使用的機(jī)載的多路冗錯(cuò)系統(tǒng)對(duì)單系可靠性和安全性的要求都比較高,因此冗余的路數(shù)大都不多,一般取到3路,所采用的也往往是高可靠的硬表決器。隨著軟件技術(shù)的進(jìn)步,分布式表決器開始逐步進(jìn)入過程控制系統(tǒng)。在下面的章節(jié)中可以看到,通過提高系統(tǒng)中冗余的節(jié)點(diǎn)數(shù),結(jié)合分布式表決機(jī)制,同時(shí)采用智能退化策略所構(gòu)建的N取M系統(tǒng)將可以進(jìn)一步降低系統(tǒng)對(duì)單組件MTBF指標(biāo)的要求并提升系統(tǒng)整體的性能。
N取M系統(tǒng)去掉了故障-安全系統(tǒng)中復(fù)雜的故障檢測(cè)部分,轉(zhuǎn)而認(rèn)為單計(jì)算節(jié)點(diǎn)具備如下特點(diǎn)。
1)單計(jì)算節(jié)點(diǎn)失效是不可檢測(cè)的且任意時(shí)刻都可以發(fā)生;
2)單計(jì)算節(jié)點(diǎn)失效后,其輸出可以是任意可能的數(shù)值。
為了在以上條件下保證系統(tǒng)的可靠性和安全性能提升到比傳統(tǒng)故障-安全系統(tǒng)更高的水平,N取M系統(tǒng)必須在以下幾個(gè)方面進(jìn)行仔細(xì)的設(shè)計(jì)。
3.1 分布式表決
沒有了故障檢測(cè)的功能,也不能使用集中表決器(會(huì)產(chǎn)生單點(diǎn)失效的問題),因此N取M系統(tǒng)的安全性完全建立在分布式多路表決的基礎(chǔ)上,系統(tǒng)中大部分的節(jié)點(diǎn)如果通過分布式表決能夠獲得一致的結(jié)果,則可以形成多數(shù)派意見,系統(tǒng)最終采信該結(jié)果作為輸出。參與分布式表決的節(jié)點(diǎn)數(shù)量越多, N取M系統(tǒng)整體的可靠性和安全性就越高。
3.2 拜占庭容錯(cuò)
分布式多路表決能夠?qū)崿F(xiàn)安全的前提是必須保證多個(gè)獨(dú)立的計(jì)算通路獲得完全相同的輸入。由于拜占庭失效假設(shè)故障的計(jì)算單元可以向其他的計(jì)算單元發(fā)送任意的消息[3],并且假設(shè)這些消息可以是惡意的,這一特性嚴(yán)重破壞了分布式多路表決的前提條件。一個(gè)多節(jié)點(diǎn)參與表決的拜占庭失效場(chǎng)景如圖1所示。
圖1 拜占庭失效對(duì)分布式表決的影響
假設(shè)數(shù)據(jù)源S和P6發(fā)生拜占庭失效,S給各P1-P5發(fā)送不確定消息{1,0,1,0,1},P6給P1-P5節(jié)點(diǎn)發(fā)送不確定消息{1,0,1,0,1},在進(jìn)行節(jié)點(diǎn)間數(shù)據(jù)交換后,功能正常的P1-P5節(jié)點(diǎn)將得到表2中的所示數(shù)據(jù)。
表2 拜占庭失效對(duì)分布式表決的影響
從表2中可以看出,在進(jìn)行分布式表決時(shí),雖然系統(tǒng)中還有5個(gè)正常的節(jié)點(diǎn),但因?yàn)槊總€(gè)節(jié)點(diǎn)收到的數(shù)據(jù)不一致,判決的結(jié)果也不同,最后的表決結(jié)果無法形成一致的多數(shù)派意見,導(dǎo)致多節(jié)點(diǎn)多路表決無法完成。
從拜占庭失效假設(shè)可知,傳統(tǒng)的安全通信協(xié)議并不能防止拜占庭失效。為了防止拜占庭失效,在20世紀(jì)80年代發(fā)展起來了拜占庭容錯(cuò)技術(shù)。萊斯利·蘭伯特在其經(jīng)典論文[3]中通過嚴(yán)格的數(shù)學(xué)推導(dǎo)從邏輯上證明:假設(shè)一個(gè)系統(tǒng)中計(jì)算節(jié)點(diǎn)數(shù)量為N,發(fā)生拜占庭失效的節(jié)點(diǎn)數(shù)量為M,在采用非簽名數(shù)據(jù)傳輸消息的條件下,當(dāng)N<3M+1時(shí),要在剩下的正常節(jié)點(diǎn)中完成多數(shù)派表決并達(dá)成一致是不可能實(shí)現(xiàn)的,因此文獻(xiàn)[3]中提出了兩種不同的經(jīng)典拜占庭容錯(cuò)算法。
一種是基于節(jié)點(diǎn)間正常的通信,并假設(shè)通信鏈路是不可靠的和非簽名的OM算法,即通過在節(jié)點(diǎn)間采用M輪次的數(shù)據(jù)通信,可以保證系統(tǒng)中正常的N-M個(gè)節(jié)點(diǎn)能夠保證獲得一致的輸入數(shù)據(jù),并通過多路表決獲得正確的結(jié)果。
另一種容錯(cuò)算法在節(jié)點(diǎn)中采用帶簽名的消息傳輸機(jī)制,并假設(shè)在系統(tǒng)消息傳輸過程中簽名的數(shù)據(jù)是無法被其他失效節(jié)點(diǎn)所偽造的SM算法。SM算法可以保證在最少節(jié)點(diǎn)數(shù)N=M+2時(shí)能夠容忍M個(gè)節(jié)點(diǎn)發(fā)生拜占庭失效。
綜上所述,在N取M系統(tǒng)中必須采用拜占庭容錯(cuò)協(xié)議才能夠?qū)崿F(xiàn)分布式多路表決,而提高參與表決節(jié)點(diǎn)的數(shù)量將成為提高系統(tǒng)可用性和安全性的關(guān)鍵。
3.3 智能退化過程
在N取M系統(tǒng)中,通過系統(tǒng)設(shè)計(jì),在少量系統(tǒng)故障時(shí),可以采取智能退化的方式而非停機(jī)的方式來利用剩余的計(jì)算節(jié)點(diǎn)。例如:在10取8系統(tǒng)中,若有3系故障,剩下7系已無法滿足10取8操作。但是,通過分布式表決的結(jié)果系統(tǒng)可以判決并隔離與多數(shù)派意見不一致的3個(gè)節(jié)點(diǎn),因此可以將剩余7系智能退化成7取5系統(tǒng),此時(shí)仍然能夠保持一個(gè)高可靠、高安全的系統(tǒng),所以系統(tǒng)仍然能夠繼續(xù)正常工作。
采用智能退化設(shè)計(jì)的N取M系統(tǒng),最終可容忍僅剩余2系無故障的情況,所以系統(tǒng)可以視為具有與N取2系統(tǒng)相同的可靠性。假設(shè)系統(tǒng)可容忍從N取M退化到N取Me,則系統(tǒng)可靠性為:
從公式(2)可以看出,由于組合系數(shù)的存在,當(dāng)系統(tǒng)節(jié)點(diǎn)數(shù)N增加時(shí),系統(tǒng)的可靠性將快速增加。
在N取M系統(tǒng)不斷故障并智能退化的過程中,系統(tǒng)的安全性曲線不斷在下降。從N取M退化到Ne取Me時(shí),只有N系全Fail并且有至少M(fèi)e系輸出危險(xiǎn)側(cè)時(shí),系統(tǒng)才輸出危險(xiǎn)側(cè),因此退化后系統(tǒng)的安全性為:
從公式(3)可以看出,當(dāng)系統(tǒng)N增大時(shí),系統(tǒng)安全性將獲得指數(shù)級(jí)提升。
4.1 拜占庭容錯(cuò)技術(shù)
拜占庭容錯(cuò)技術(shù)是系統(tǒng)安全層的核心,容錯(cuò)協(xié)議高效的實(shí)現(xiàn)是各個(gè)獨(dú)立的計(jì)算單元能夠?qū)崿F(xiàn)分布式計(jì)算并保持一致性的基礎(chǔ)。所以該協(xié)議的實(shí)現(xiàn)也是軟件安全性要求最高的部件,需要綜合采用形式驗(yàn)證、大數(shù)據(jù)測(cè)試、等價(jià)性檢查、軟硬件協(xié)同仿真等多種技術(shù)手段來保障軟件質(zhì)量。
4.2 高速互聯(lián)技術(shù)
由于拜占庭容錯(cuò)協(xié)議需要大量的系統(tǒng)間通信開銷,如果不能保證系統(tǒng)間通信的速度,系統(tǒng)響應(yīng)的實(shí)時(shí)性將受到極大的影響,這也是之前拜占庭容錯(cuò)協(xié)議沒有獲得廣泛應(yīng)用的一個(gè)主要原因。最近十年以來,更加高效的拜占庭容錯(cuò)算法獲得了快速的發(fā)展[4~8],并且隨著千兆以太網(wǎng)的普及,已經(jīng)可以采用高速以太網(wǎng)作為N取M系統(tǒng)的內(nèi)部高速互聯(lián)總線,徹底解決了協(xié)議層面的關(guān)鍵問題。同時(shí)未來防止IO側(cè)可能引入的雷擊問題,在IO側(cè)可以考慮采用光介質(zhì)以太網(wǎng)作為高速互聯(lián)的通道。
4.3 動(dòng)態(tài)遷移技術(shù)
計(jì)算節(jié)點(diǎn)由于故障發(fā)生失效后,系統(tǒng)通過一致性協(xié)議能夠檢測(cè)到該失效的節(jié)點(diǎn)并且將其隔離,同時(shí)為了保證系統(tǒng)中可用的計(jì)算節(jié)點(diǎn)數(shù)量不隨著時(shí)間逐步減少,需要采用動(dòng)態(tài)重啟并上線同步的方式增加新的節(jié)點(diǎn)進(jìn)入系統(tǒng)。動(dòng)態(tài)遷移技術(shù)在虛擬機(jī)層面保留了足夠的配置數(shù)據(jù),使得可以在失效發(fā)生后很短的時(shí)間內(nèi)通過平臺(tái)的管理功能在其他物理節(jié)點(diǎn)上重啟之前運(yùn)行的虛擬機(jī)鏡像。新鏡像啟動(dòng)之后通過狀態(tài)機(jī)同步協(xié)議與現(xiàn)在服役的計(jì)算節(jié)點(diǎn)間獲得狀態(tài)上的同步,完成同步后新鏡像就作為一個(gè)新的計(jì)算節(jié)點(diǎn)投入使用,因此具備在很短時(shí)間內(nèi)動(dòng)態(tài)恢復(fù)節(jié)點(diǎn)數(shù)量的能力。在系統(tǒng)總的計(jì)算能力能夠負(fù)荷的情況下,計(jì)算節(jié)點(diǎn)不僅可以動(dòng)態(tài)產(chǎn)生,而且通過一致性協(xié)議具備快速同步到在線狀態(tài)的能力。這樣的特性使得不需要進(jìn)行額外的維護(hù)操作就能使在線的處理節(jié)點(diǎn)數(shù)量長(zhǎng)時(shí)間保持一個(gè)較高的值,使系統(tǒng)的MTTR時(shí)間可以降低到非常接近于0的水平。
4.4 安全輸入輸出技術(shù)
傳統(tǒng)的安全輸入輸出采用不同等級(jí)的安全協(xié)議來保障數(shù)據(jù)可以正確地實(shí)現(xiàn)端到端傳輸。但傳統(tǒng)安全傳輸協(xié)議并不具備拜占庭失效容錯(cuò)的特點(diǎn),這也是N取M系統(tǒng)中必須采用拜占庭容錯(cuò)協(xié)議而不是傳統(tǒng)安全協(xié)議作為安全輸入輸出技術(shù)的原因。幸運(yùn)的是,在輸入輸出節(jié)點(diǎn)上實(shí)現(xiàn)拜占庭容錯(cuò)并不比傳統(tǒng)安全協(xié)議需要更多的處理器資源。例如,傳統(tǒng)的輸出節(jié)點(diǎn)可能需要二乘二取二的結(jié)構(gòu)來完成安全輸出,而要求邏輯計(jì)算節(jié)點(diǎn)和輸出節(jié)點(diǎn)均采用二乘二取二的結(jié)構(gòu)。因此在輸入輸出端總共需要4個(gè)處理節(jié)點(diǎn)。
在N取M系統(tǒng)中, 假設(shè)輸入/輸出級(jí)至少具有X個(gè)處理器節(jié)點(diǎn),同時(shí)在邏輯計(jì)算級(jí),有Y個(gè)節(jié)點(diǎn)同輸入/輸入級(jí)進(jìn)行配合共同實(shí)現(xiàn)安全輸入輸出功能,拜占庭容錯(cuò)協(xié)議要求X+Y>M系+2(M系為發(fā)生拜占庭失效的節(jié)點(diǎn)個(gè)數(shù))。當(dāng)取X=2,Y=2 時(shí),系統(tǒng)輸入/輸出級(jí)最多可以容忍1個(gè)節(jié)點(diǎn)出現(xiàn)拜占庭失效,因此,同傳統(tǒng)的二乘二取二結(jié)構(gòu)相比,在處理器數(shù)量減半的情況下就可以實(shí)現(xiàn)對(duì)拜占庭失效的容錯(cuò)。
5.1 系統(tǒng)可靠性分析
假設(shè)N=10、20,并假設(shè)單系危險(xiǎn)側(cè)輸出概率d=0.05,分別用Matlab仿真計(jì)算M可容忍退化到4、3、2的情況,假設(shè)退化過程中作為Ne取(Ne-2)的系統(tǒng)來使用。結(jié)果如圖2所示。
從圖2中可以看出,N>10時(shí),采用單系MTBF為1 000天搭建的N取M系統(tǒng)在不同的時(shí)間點(diǎn)內(nèi)均超過了SIL4系統(tǒng)的可靠性指標(biāo)。在N>10時(shí),在單系MTBF時(shí)間點(diǎn)內(nèi),N取M系統(tǒng)結(jié)構(gòu)已經(jīng)具有比傳統(tǒng)的安全系統(tǒng)更高的可靠性,N>20時(shí),在2倍單系MTBF時(shí)間點(diǎn)內(nèi),N取M系統(tǒng)均具有比傳統(tǒng)安全系統(tǒng)更高的可靠性。
圖2 可靠性仿真結(jié)果對(duì)比
5.2 系統(tǒng)安全性分析
在系統(tǒng)不斷故障和智能退化的過程中,系統(tǒng)的安全性曲線不斷在下降。從N取M退化到Ne取Me時(shí),只有N系全Fail并且至少有Me系輸出危險(xiǎn)側(cè)時(shí),系統(tǒng)才輸出危險(xiǎn)側(cè)。N取M系統(tǒng)的安全性與傳統(tǒng)安全系統(tǒng)和歐標(biāo)參考系統(tǒng)仿真結(jié)果對(duì)比如圖3所示。
以上仿真結(jié)果表明,N取M系統(tǒng)(N≥10)已經(jīng)達(dá)到歐標(biāo)SIL4等級(jí)系統(tǒng)的安全性要求,并且超過了傳統(tǒng)故障-安全系統(tǒng)的性能。
5.3 系統(tǒng)成本分析
圖4給出了在系統(tǒng)性能下降時(shí)間點(diǎn)tX取不同值時(shí),對(duì)應(yīng)的(N,λ)曲線簇以及對(duì)應(yīng)的(c,N)曲線簇的仿真結(jié)果:
從圖4中可見,不管是增大N或是提高單系的MTBF,邊際收益都會(huì)逐漸變小。但是任意給定一個(gè)安全性能指標(biāo),采用N取M系統(tǒng)方案必定能使系統(tǒng)總成本達(dá)到極小值,而這一特性是傳統(tǒng)安全系統(tǒng)所無法做到的。
5.4 系統(tǒng)可維護(hù)性分析
在采用了硬件虛擬化技術(shù)之后,在計(jì)算能力足夠的情況下,整個(gè)系統(tǒng)的MTTR可以下降到接近0的水平,因?yàn)橄到y(tǒng)能夠通過重新分配資源快速實(shí)現(xiàn)新系統(tǒng)的上線和同步。因此從系統(tǒng)可用性的角度來講,N取M系統(tǒng)幾乎時(shí)刻都保證具有100%的可用性。另外通過定期維護(hù)系統(tǒng)中物理計(jì)算節(jié)點(diǎn),使得系統(tǒng)中新節(jié)點(diǎn)和老節(jié)點(diǎn)的數(shù)量維持一個(gè)合適的比例,可以使得整個(gè)系統(tǒng)能更長(zhǎng)時(shí)間的保持在5取3結(jié)構(gòu)之上,而不是退化為4取2的結(jié)構(gòu)。因此系統(tǒng)在更長(zhǎng)的使用時(shí)間內(nèi)都將維持較高的安全性曲線等級(jí)和可用性等級(jí)。
5.5 系統(tǒng)容量分析
圖3 安全性仿真結(jié)果對(duì)比
圖4 (N,MTBF)曲線簇與(c,N)曲線簇
采用N取M結(jié)構(gòu)的系統(tǒng)可以方便地通過增加計(jì)算節(jié)點(diǎn)N的數(shù)量來提升系統(tǒng)的計(jì)算能力,而不必像傳統(tǒng)安全系統(tǒng)一樣需要重新進(jìn)行安全認(rèn)證和硬件設(shè)計(jì)。前面已經(jīng)討論過,增加新的計(jì)算節(jié)點(diǎn)在采用硬件虛擬化技術(shù)的前提下,所增加的成本幾乎小到可以忽略不計(jì),因此總的來說,整個(gè)N取M系統(tǒng)的計(jì)算容量將具有相當(dāng)大的彈性,從管理一個(gè)車站到覆蓋一個(gè)區(qū)域內(nèi)的所有列車,這使得N取M的安全架構(gòu)有希望成為未來區(qū)控中心控制平臺(tái)的重要選擇之一。
通過上述分析,N取M系統(tǒng)在保障了高可靠性、高安全性,同時(shí)由于采用了通用處理節(jié)點(diǎn)和高速內(nèi)部總線,維持著很高的通用數(shù)據(jù)處理能力和通用性。
在地面應(yīng)用方面,通過采用虛擬化技術(shù)、分布式執(zhí)行等技術(shù),系統(tǒng)計(jì)算能力可以大幅度提升,原來需要若干安全計(jì)算機(jī)平臺(tái)來承載的工作將可以獲得整合。傳統(tǒng)按線路部署的控制機(jī)制也可以演進(jìn)為區(qū)域集中控制。例如武廣客運(yùn)專線,全線共設(shè)置了9套R(shí)BC系統(tǒng),每套R(shí)BC系統(tǒng)均為二乘二取二結(jié)構(gòu),共需36臺(tái)專用主機(jī)。任何一套R(shí)BC系統(tǒng)中,只要雙系各有一個(gè)主機(jī)出現(xiàn)故障,都會(huì)導(dǎo)致該RBC系統(tǒng)管轄區(qū)域無法進(jìn)行CTCS-3級(jí)控制,降低運(yùn)行效率。采用本文所述的安全計(jì)算平臺(tái)后,不僅整體造價(jià)下降,而且任何兩個(gè)主機(jī)故障,全線運(yùn)行均不會(huì)受到影響,保障了系統(tǒng)的可靠性和整體運(yùn)行效率。另一方面,系統(tǒng)計(jì)算能力的提升對(duì)于系統(tǒng)的業(yè)務(wù)邏輯也起到簡(jiǎn)化的作用,采用集中的區(qū)域控制中心后,不僅RBC移交行為可以大幅度獲得簡(jiǎn)化,而且車輛的跨線路作業(yè)將更加便捷,因此安全計(jì)算中心尤其適合于在北京、上海、廣州等多條線路匯聚的城市部署。類似地,其他地面控制系統(tǒng),如聯(lián)鎖系統(tǒng)、列控中心系統(tǒng)、臨時(shí)限速系統(tǒng)、軌道電路系統(tǒng)等都可以采用該形式進(jìn)行整合。僅需要在控制中心配置足夠數(shù)量的計(jì)算集群即可。
在車載應(yīng)用方面,通過進(jìn)一步采用空間冗余等可靠性提升技術(shù),N取M型安全計(jì)算體系結(jié)構(gòu)將推動(dòng)車載計(jì)算同移動(dòng)計(jì)算全面接軌。由于移動(dòng)計(jì)算的處理器具備經(jīng)濟(jì)規(guī)模的優(yōu)勢(shì),所以車載系統(tǒng)不僅在成本上可以逐步降低,在計(jì)算速度上也能跟上電子技術(shù)的發(fā)展。通過駁接更多的傳感器和車地?zé)o線通信系統(tǒng),車載控制系統(tǒng)將能為高速列車提供更為智能的控制服務(wù)。例如,未來的車載系統(tǒng)將能夠接入加速度傳感器、GIS傳感器、姿態(tài)傳感器、雷達(dá)傳感器、高速無線通信系統(tǒng),更加平穩(wěn)地控制速度更高的列車。
本文提出了一種新型的基于智能退化技術(shù)的N取M型安全計(jì)算系統(tǒng)。同傳統(tǒng)安全系統(tǒng)相比,該系統(tǒng)具有高可靠性、高安全性、低成本、高可維護(hù)性、通用性等特點(diǎn),基于該系統(tǒng)的列控系統(tǒng)應(yīng)用的開發(fā)、測(cè)試、驗(yàn)證均可以得到極大的簡(jiǎn)化。
隨著通信技術(shù)和移動(dòng)計(jì)算技術(shù)的發(fā)展,處理器將繼續(xù)保持性能大幅度提升、價(jià)格大幅度下降的趨勢(shì),在這樣的技術(shù)發(fā)展趨勢(shì)下,選擇N取M構(gòu)架作為安全系統(tǒng)的基礎(chǔ)構(gòu)架避免了傳統(tǒng)故障-安全系統(tǒng)的發(fā)展瓶頸問題,使整個(gè)系統(tǒng)具備了良好的性能擴(kuò)展性和不可比擬的規(guī)模經(jīng)濟(jì)優(yōu)勢(shì)。
在本文完成之際,國(guó)家鐵路總局正好修訂發(fā)布了《鐵路通信信號(hào)設(shè)備生產(chǎn)企業(yè)審批實(shí)施細(xì)則》,修訂后的鐵路通信信號(hào)設(shè)備目錄由原來的52種減少為26種,減少了50%,代表著未來列控系統(tǒng)一體化的趨勢(shì)已經(jīng)拉開帷幕。相信未來會(huì)有越來越多的列控應(yīng)用被遷移到統(tǒng)一的高可靠列控平臺(tái)上,而列控系統(tǒng)設(shè)備制造商也將逐步向列控服務(wù)提供商轉(zhuǎn)型,為用戶提供更可靠,更安全,更定制化的軌道交通智能控制服務(wù)。
This paper reveals the problem of the traditional fail-safe system in failure detection complexity with a sharp increase because of its components becoming more and more complex. In order to keep a sustained development in the system design and continually promote RAMS requirements of the system, it puts forward an intelligent safety-critical computer system with M out of N architecture and gives the comparison and analysis of this system and the traditional fail-safe system in RAMS performance and system capacity. The simulation results show that this system can not only satisfy the SIL4 requirement defined in IEC61508, but also lower greatly requirements for the basic computation unit in the reliability and safety, so this system is more suitable for future development than the traditional fail-safe architecture in the design and maintenance cost.
high reliability; safety critical; double 2 out of 2; 2 out of 3; M out of N; Smart regression; safety-critical computer
10.3969/j.issn.1673-4440.2014.04.001
2014-05-19)