林雪峰 曹子勇 曹家玉
(上海儀電物聯(lián)技術(shù)股份有限公司 上海市 200233)
軌道交通自動售檢票系統(tǒng)承擔(dān)著乘客售票、檢票,及系統(tǒng)的數(shù)據(jù)統(tǒng)計功能,自動售檢票系統(tǒng)的失效會直接影響乘客的進(jìn)出站。為了保證地鐵運營,自動售檢票系統(tǒng)需具備很高的可靠性。因此,在進(jìn)行系統(tǒng)設(shè)計時,需對整個系統(tǒng)的可靠性進(jìn)行估算,以確認(rèn)系統(tǒng)設(shè)計方案的可靠性指標(biāo)是否滿足可靠性要求。
傳統(tǒng)的可靠性設(shè)計模型為串聯(lián)模型、并聯(lián)模型和混合結(jié)構(gòu)模型。對于非云架構(gòu)的傳統(tǒng)自動售檢票系統(tǒng)而言,終端設(shè)備和車站計算機系統(tǒng)這些無冗余設(shè)計的系統(tǒng),用串聯(lián)模型來進(jìn)行建模,而線路中心和清分中心系統(tǒng)由于部分模塊存在冗余設(shè)計,因此在進(jìn)行可靠性設(shè)計和估算時,常使用混合模型。
隨著云架構(gòu)技術(shù)在軌道交通領(lǐng)域的廣泛應(yīng)用,自動售檢票系統(tǒng)從傳統(tǒng)的五層架構(gòu)向三層或者四層架構(gòu)發(fā)展。在三/四層架構(gòu)下,原有的車站計算機系統(tǒng)、線路中心系統(tǒng)和清分系統(tǒng)合并為一個數(shù)據(jù)管理中心系統(tǒng)。數(shù)據(jù)管理中心系統(tǒng)采用服務(wù)器集群組成資源池,使用虛擬機/容器等技術(shù)提高服務(wù)器機計算資源的利用率。
服務(wù)器資源池有別于傳統(tǒng)的冗余設(shè)計的服務(wù)器架構(gòu),傳統(tǒng)的可靠性設(shè)計模型無法應(yīng)用于新的系統(tǒng)架構(gòu),本文將提供一種針對服務(wù)器資源池的可靠性設(shè)計模型和可靠性指標(biāo)的估算方法。
在組成系統(tǒng)的所有單元中,只要有一個單元發(fā)生故障(失效)都會導(dǎo)致整個系統(tǒng)故障(失效)的系統(tǒng)為串聯(lián)系統(tǒng)。如圖1。
假設(shè)串聯(lián)系統(tǒng)中的n 個單元是相互獨立的,每個單元的可靠度為Ri(t),根據(jù)乘法規(guī)則,其數(shù)學(xué)模型為:
式中,Rs(t)——系統(tǒng)可靠度
Ri(t)——第i 個單元的可靠度;
整個系統(tǒng)的故障率:
由此可見:
(1)整個串聯(lián)系統(tǒng)的可靠度與n 的數(shù)量及Ri(t)有關(guān)。
(2)串聯(lián)系統(tǒng)中各單元壽命和系統(tǒng)的壽命都服從指數(shù)分布。
(3)由于0<Ri(t)<1,所以由公式(1)知,串聯(lián)單元越多系統(tǒng)可靠度越低,有公式(3)知,串聯(lián)單元越多系統(tǒng)的MTBF 值越小。
在組成系統(tǒng)的所有單元中,當(dāng)所有的單元發(fā)生故障(失效)時,才會導(dǎo)致整個系統(tǒng)故障(失效)或者只要有一個單元不失效,整個系統(tǒng)就能正常工作的系統(tǒng)為并聯(lián)系統(tǒng)。其結(jié)構(gòu)如圖2。
假設(shè)串聯(lián)系統(tǒng)中的n 個單元是相互獨立的,每個單元的可靠度為Ri(t),其失效概率為Fi(t),根據(jù)并聯(lián)結(jié)構(gòu)定義,根據(jù)乘法規(guī)則,其數(shù)學(xué)模型為:
圖1
圖2
圖3
圖4
圖5
式中,F(xiàn)s(t)——系統(tǒng)累積失效率(系統(tǒng)不可靠度)
系統(tǒng)的可靠度為:
式中,Rs(t)——系統(tǒng)可靠度
Ri(t)——第i 個單元的可靠度
當(dāng)系統(tǒng)中各個單元的可靠度相同時,系統(tǒng)的可靠度服從二項分布,即:
若n 個并聯(lián)的系統(tǒng)不僅可靠度相同,而且壽命都服從指數(shù)分布,則數(shù)學(xué)模型為:
由此可見:
(1)并聯(lián)系統(tǒng)中Fs(t)小于任一單元的Fn(t)。
(2)隨著系統(tǒng)單元的增加,系統(tǒng)地可靠度與系統(tǒng)平均時間間隔MTBF 都增大,Rs 比MTBF 增長都快。
(3)并聯(lián)系統(tǒng)中,若單元的壽命分布服從指數(shù)分布,則系統(tǒng)的壽命分布并不服從指數(shù)分布。
把若干個串聯(lián)結(jié)構(gòu)和并聯(lián)結(jié)構(gòu)組合在一起的結(jié)構(gòu)為混合結(jié)構(gòu),最簡單的混合結(jié)構(gòu)模型如圖3。
為得到混合結(jié)構(gòu)模型的數(shù)學(xué)表達(dá)式,先將混合結(jié)構(gòu)化簡為串聯(lián)結(jié)構(gòu),在按串聯(lián)結(jié)構(gòu)分析。如圖4。
在新的云平臺架構(gòu)下,原有的自動售檢票系統(tǒng)的通信服務(wù)器、數(shù)據(jù)庫服務(wù)器和應(yīng)用服務(wù)器的架構(gòu)被打破,代之以由一組服務(wù)器組成的計算資源池。服務(wù)器資源池需要兩臺固定的服務(wù)器作為資源池管理服務(wù)器,這兩臺服務(wù)器做冗余配置,為并聯(lián)模型。
剩余的服務(wù)器做集群,在服務(wù)器上開啟虛擬機或者容器來運行各個程序。由于單臺服務(wù)器的存儲資源和計算資源具有有限性,為了支撐整個系統(tǒng)的后臺業(yè)務(wù),往往至少需要不止一臺服務(wù)器才能覆蓋系統(tǒng)的業(yè)務(wù)。而且,因為資源池的特性,一臺物理機在失效后可以在剩余服務(wù)器的虛擬機或者容器中重新建立失效物理機中的虛擬機或者容器。系統(tǒng)業(yè)務(wù)最少需要的物理機可以是資源池剩余服務(wù)器中的任意的指定臺數(shù)。因此,服務(wù)器資源池中除了兩臺冗余的資源池管理服務(wù)器外的服務(wù)器并不是并聯(lián)模型,無法用并聯(lián)模型的計算方法來估算整個服務(wù)器資源池的可靠性指標(biāo)。
服務(wù)器資源池的架構(gòu)示意圖如圖5。
假設(shè)某個服務(wù)器資源池,共有服務(wù)器m 臺,其中,資源池管理服務(wù)器為2 臺,做冗余配置。支撐整個業(yè)務(wù)最少需要的服務(wù)器數(shù)量為n 臺,其中n ≤m。
單臺服務(wù)器的失效率=λ服務(wù)器
則兩臺資源池管理服務(wù)器的失效率
當(dāng)資源池中失效的服務(wù)器數(shù)量超過支撐業(yè)務(wù)最少需要的服務(wù)器數(shù)量(n)時,整個服務(wù)器資源池將失效。即這n臺服務(wù)器為串聯(lián)模型。
但是這n 臺服務(wù)器不是固定的,有可能是剩余的m-2 臺服務(wù)器中的任意n 臺,在這m-2 臺服務(wù)器中選擇任意n 臺服務(wù)器的組合數(shù)量p 為:
n 臺固定服務(wù)器的失效率:
則這n 臺不固定服務(wù)器的失效率:
剩余的m-n-2 臺服務(wù)器如果是固定的,可以認(rèn)為是并聯(lián)模型,其失效率:
在m 臺服務(wù)器中選擇m-n 臺服務(wù)器的組合數(shù)量:
則,剩余的不固定的m-n-2 臺服務(wù)器的失效率:
故,整個資源池服務(wù)器的失效率:
服務(wù)器資源池的MTBF:
對于MTBSF 而言,服務(wù)器資源池的核心設(shè)備為兩臺資源池管理服務(wù)器和支撐業(yè)務(wù)的最少數(shù)量的n 臺服務(wù)器。
故,服務(wù)器資源池的MTBSF:
服務(wù)器資源池的MTTR:
式中,λi為系統(tǒng)各個模塊的失效率
Ri為系統(tǒng)各個模塊的MTTR
由于服務(wù)器資源池的組成部分都是同型號的服務(wù)器,MTTR 為定值,故,服務(wù)器資源池的MTTR=MTTR服務(wù)器
服務(wù)器資源池的可用性:
本文通過組合學(xué)的方法對服務(wù)器資源池硬件的可靠性指標(biāo)估算提出了一種估算的方法。該方法結(jié)合了傳統(tǒng)的可靠性計算模型,未來需要結(jié)合云平臺技術(shù)的發(fā)展對該算法進(jìn)行進(jìn)一步的優(yōu)化和驗證。
本文提出的服務(wù)器資源池可靠性指標(biāo)的估算方法,地鐵自動售檢票系統(tǒng)的可靠性設(shè)計、驗證和估算提供了一個參考方法。