金敏玉 周振勇
【摘要】文章總結(jié)了資源需求的兩類基本模型,對BSS各子系統(tǒng)進行了模型歸類;并在綜合考慮系統(tǒng)的穩(wěn)定性、安全性、發(fā)展速度以及建設周期等因素的基礎(chǔ)上,給出了系統(tǒng)負載閾值和預警值的設定方法和參考數(shù)據(jù)。
【關(guān)鍵詞】BSS 資源需求模型 閾值 預警值
1 引言
近十年來,中國電信企業(yè)BSS系統(tǒng)超常規(guī)發(fā)展,如何準確估算硬件資源需求一直困擾著規(guī)劃設計人員。同時,各運營商BSS系統(tǒng)的建設管理工作逐步由粗放轉(zhuǎn)向精細,對資源需求預測的準確性及投資的有效性要求大大提高。BSS系統(tǒng)規(guī)劃設計人員不得不面對很多棘手的問題,如:
◆系統(tǒng)流程這么復雜,怎樣才能理清業(yè)務指標和硬件能力之間的關(guān)系?
◆系統(tǒng)負載波動這么大,如何確定利用率?
◆系統(tǒng)發(fā)展這么快,怎么選擇啟動建設的時機?配置多少冗余才能保證系統(tǒng)運行安全?
本文將給出一般性方法,以期有效解決硬件資源需求估算中的這幾個關(guān)鍵問題。
2 基本模型分析
BSS系統(tǒng)日趨復雜,一個省級系統(tǒng)就可能包括數(shù)十個子系統(tǒng)、上千個功能點。對如此龐大的系統(tǒng)直接進行資源需求分析會非常困難,如果能將系統(tǒng)分類,就會大大降低分析的難度。我們通過對不同運營商BSS系統(tǒng)的長期監(jiān)測、分析,總結(jié)出兩類基本的業(yè)務處理模型。
(1)OLTP類型系統(tǒng)
定義:聯(lián)機事務處理系統(tǒng),典型系統(tǒng)如營業(yè)系統(tǒng)。
特征:業(yè)務逐筆提交,實時性高。
OLTP類型系統(tǒng)的負荷與業(yè)務量的關(guān)聯(lián)如圖1所示。
圖1是某運營商營業(yè)系統(tǒng)中間件服務器的一組實測數(shù)據(jù)及對應時期的工單量數(shù)據(jù),不難看出OLTP類型的系統(tǒng)負載變化直接反映了業(yè)務量的變化情況。可以推定OLTP類型系統(tǒng)的負荷增長來源于與之相關(guān)的業(yè)務量的增長,并且這種關(guān)聯(lián)近似為簡單的一次函數(shù)關(guān)系。因此,只要分析業(yè)務量的增長趨勢就可以直接推導出系統(tǒng)的負載變化,即
資源需求量(負荷)Y=系數(shù)a*業(yè)務量X+常數(shù)項c
但是,從更長時間的監(jiān)測數(shù)據(jù)來看,a和c都不是恒定的,因為系統(tǒng)一直在建設發(fā)展,單筆業(yè)務的處理復雜度和處理效率都在變化。我們可以將OLTP類型的資源需求與處理的業(yè)務量之間的函數(shù)關(guān)系調(diào)整為:
Y=f(a)X+f(c)
其中:
Y表示資源需求;
X表示業(yè)務量,比如營業(yè)系統(tǒng)的工單量;
f(a)反映了系統(tǒng)處理效率以及復雜度的變動;
f(c)則反映了非線性相關(guān)的其他業(yè)務(比如系統(tǒng)監(jiān)控)處理能力的需求變動。
f(a)、f(c)在短期內(nèi)是常量,長期看卻是逐步變化的。
就某一特定系統(tǒng)而言,可以通過歷史數(shù)據(jù)推定f(a)和f(c)。其中,f(a)可以簡化為按照年度變化的一個系數(shù),例如1.1(n-2008),“1.1”表示忙時單筆業(yè)務的資源占用系數(shù),不同的系統(tǒng)取值不同;“n”表示資源估算的目標年份,如果需要估算2010年的資源需求,則n為2010,以此類推;“2008”表示基準年,如果以2007年的數(shù)據(jù)作為基準,則調(diào)整為2007,以此類推。相對而言,f(c)的變化要小很多,并且絕大部分系統(tǒng)中其所占比重也很小,可直接取定為一個常數(shù)甚至忽略。
(2)批處理類型系統(tǒng)
定義:批量業(yè)務處理系統(tǒng),典型系統(tǒng)如賬務處理系統(tǒng)。
特征:非實時性業(yè)務為主,通常要求在規(guī)定的時間內(nèi)處理完成,如月末月初的批量停開機、月底的集中出賬等。批處理的時間往往相對固定,并且系統(tǒng)負載在處理期間處于高位運行。
批處理類型系統(tǒng)的負荷變化如圖2所示:
圖2為某運營商賬務處理系統(tǒng)的實測數(shù)據(jù),可以看出批處理類型系統(tǒng)負載通常呈現(xiàn)突然的變化,進程啟動時負荷急速上升,進程結(jié)束負荷快速下降。這種變化規(guī)律短期看缺乏與業(yè)務量之間的有效關(guān)聯(lián),分析比較困難。但從長期看依然和業(yè)務量有直接的關(guān)系。比如賬務處理系統(tǒng)需要完成用戶的出賬工作,如果每次出賬完成的時間不變,那么用戶數(shù)和人均賬單的增長必然會引起系統(tǒng)負荷的上升。因此,批處理類型業(yè)務依然可以通過分析相關(guān)的業(yè)務量的增長間接分析系統(tǒng)負荷的增長。其基本函數(shù)與OLTP類型相似,但是增加了一個時間參數(shù)f(t):
Y=f(a)X/f(t)+f(c)
其中:
Y表示資源需求;
X表示業(yè)務量;
f(a)反映了系統(tǒng)處理效率、復雜度的變動;
f(t)反映了限定完成的時間的變動;
f(c)則反映了非線性相關(guān)的其他業(yè)務處理能力的需求變動。
f(a)、f(t)、f(c)在短期內(nèi)是常量,長期看卻是逐步變化的。
f(t)是指批處理限定完成的時間,如果保持不變,那么批處理類型系統(tǒng)和OLTP基本相同。但是如果f(t)發(fā)生了變化,那么資源需求Y會受到很大的影響。假設限定處理完成的時間縮短一半,那么資源需求就會增加一倍。實際上,對于大部分生產(chǎn)系統(tǒng)而言,f(t)的取定不是數(shù)據(jù)分析的結(jié)果,而是業(yè)務開展的實際需求,這個值通常都會在業(yè)務規(guī)范中予以明確。
(3)BSS系統(tǒng)模型歸類
分析了兩類基本模型后,需要將BSS系統(tǒng)進行模型歸類,但實際上大部分系統(tǒng)都是兩類基本模型的“復合體”,如表1所示:
注:不同運營商在功能設置上存在一定差異,因此表中分類僅供參考。
“復合體”資源需求的變化規(guī)律比單一的應用類型復雜,但通過分析會發(fā)現(xiàn),實際情況要容易處理得多。因為系統(tǒng)的利用率指標通常只是指忙時的負荷,以OLTP為主的系統(tǒng),都會把批處理進程放到閑時進行處理。因此,此類系統(tǒng)在資源估算時只需要考慮OLTP部分,融合計費就是一個典型例子。如果是以批處理為主的業(yè)務類型,在批處理運行期間OLTP部分資源需求所占比重往往很小,幾乎可以忽略,因此也只需要估算批處理部分即可。
3 閾值和預警值的設定
了解了系統(tǒng)處理模型之后,還沒有完成資源需求的估算。各系統(tǒng)的資源利用率都不可能達到100%,必須有一個合理的上限,并且何時啟動項目建設也是一個問題。這里首先引入兩個定義:
◆閾值:忙時系統(tǒng)的資源利用率門限值。
◆預警值:系統(tǒng)發(fā)展擴容需求時的利用率門限值。
閾值與預警值定義類似,但用處不同。閾值是系統(tǒng)處于最佳狀態(tài)的利用率上限,預警值則是系統(tǒng)發(fā)起擴容需求的觸發(fā)值,主要用于確保系統(tǒng)在利用率到達閾值前有足夠的建設時間。因此預警值通常明顯小于閾值。關(guān)于利用率門限值,還需要補充說明:利用率門限值不應包括極端峰值。因為極端峰值存在很大的隨機性,不能準確體現(xiàn)系統(tǒng)運行的狀態(tài),實際處理時建議去除極端峰值。每日超門限值的時間累計不應超過0.5小時(如果每5分鐘進行一次取樣,那么門限值應該是每日的第六峰值)。
3.1 閾值的設定
通常情況下,系統(tǒng)建設都會預留一定的資源以確保系統(tǒng)運行在最佳狀態(tài),同時為應對突發(fā)業(yè)務、到貨周期等不確定因素,也需要引入閾值。閾值的設定需要平衡兩方面因素:
(1)資源利用率:閾值設置偏低(嚴格),會導致資源利用率降低,使投資增加。
(2)穩(wěn)定性和響應速度:閾值設置偏高(寬松),可能導致系統(tǒng)壓力過大、系統(tǒng)反應變慢,增加系統(tǒng)故障風險。統(tǒng)計數(shù)據(jù)表明,IT系統(tǒng)50%以上的故障是由系統(tǒng)負載過高(超過70%)觸發(fā)的。
綜合分析兩方面的因素并參考國內(nèi)各省市實際使用的閾值數(shù)據(jù),我們給出如下建議,見表2:
說明:
(1)核心生產(chǎn)系統(tǒng)指影響范圍大、用戶感知明顯的系統(tǒng)。此類系統(tǒng)一旦出現(xiàn)故障,日常營運工作很多便不能正常進行,引發(fā)大量的用戶投訴,并可能導致重要數(shù)據(jù)丟失。例如:營業(yè)、計費、賬務等。
(2)其他系統(tǒng)是指非生產(chǎn)系統(tǒng)或影響小的生產(chǎn)系統(tǒng)。此類系統(tǒng)出現(xiàn)故障后,不明顯影響日常運營工作,不會被用戶察覺或是用戶覺得無所謂,也不會導致重要數(shù)據(jù)的丟失。例如:統(tǒng)計分析系統(tǒng)等。
3.2 預警值的設定
預警值的設定取決于兩個主要因素:
(1)發(fā)起需求到設備上線的建設周期
不同運營商、不同系統(tǒng)的建設周期不同,通常情況下,IT系統(tǒng)的建設周期超過6個月。
(2)系統(tǒng)所處的生命周期階段及負載增長的速度
一個系統(tǒng)發(fā)展將經(jīng)歷起步、成長、成熟、衰退四個主要階段,預警值主要適用于成長期?,F(xiàn)階段,國內(nèi)各省市運營商IT支撐系統(tǒng)基本都處于成長期,利用率增加很快,部分系統(tǒng)6個月增幅可達到20%以上。
這里舉例來說明預警值的計算方法。假定某個系統(tǒng)建設周期為6個月,通過預測分析系統(tǒng)負載6個月的增幅為20%,那么預警值就等于閾值減去20%。各個系統(tǒng)可以通過類似的簡單方式確定預警值,其關(guān)鍵是要估算建設周期內(nèi)系統(tǒng)負荷的增長率。
4 結(jié)束語
BSS系統(tǒng)作為核心業(yè)務支撐平臺和直接面向客戶的窗口,在電信企業(yè)的生產(chǎn)系統(tǒng)中扮演越來越重要的角色。在電信企業(yè)利潤普遍下降的情況下,如何在保障系統(tǒng)的穩(wěn)定性、安全性的前提下,提高投資的有效性成為關(guān)注的焦點。本文通過分析BSS系統(tǒng)的業(yè)務特征,確定了兩類基本資源需求模型,為提高系統(tǒng)資源需求估算準確性和提升投資有效性提供了參考;同時,通過設定BSS系統(tǒng)的閾值和預警值,保證了系統(tǒng)在建設、維護期間的穩(wěn)定性和安全性。 ★
【作者簡介】
金敏玉:工程師,畢業(yè)于浙江大學信息與電子技術(shù)專業(yè),現(xiàn)任職于華信郵電咨詢設計研究院有限公司網(wǎng)絡規(guī)劃研究院,主要從事信息系統(tǒng)的規(guī)劃與設計,負責并參與的多個信息系統(tǒng)規(guī)劃和工程項目設計榮獲部級優(yōu)秀咨詢成果獎和優(yōu)秀設計獎。
周振勇:高級工程師,博士,畢業(yè)于浙江大學計算機科學與技術(shù)專業(yè),現(xiàn)任職于華信郵電咨詢設計研究院有限公司網(wǎng)絡規(guī)劃研究院,主要從事數(shù)據(jù)通信網(wǎng)絡及信息系統(tǒng)的規(guī)劃與設計工作。負責并參與的多個工程項目榮獲全國優(yōu)秀咨詢成果獎和工信部部級優(yōu)秀設計獎,其中“中國電信CN2網(wǎng)絡工程可行性研究報告”榮獲全國優(yōu)秀咨詢成果一等獎,“中國電信CN2網(wǎng)絡工程設計”獲國家設計金獎。