周娜
?
IT系統(tǒng)性能監(jiān)控與優(yōu)化分析
周娜
廣東省電信規(guī)劃設(shè)計院有限公司,廣東 廣州 510630
伴隨現(xiàn)代信息技術(shù)的不斷提升,IT系統(tǒng)日漸被運用到公司業(yè)務(wù)之中,通過系統(tǒng)性能發(fā)揮,輔助公司各部門實現(xiàn)良好運營。為有效提升IT系統(tǒng)整體性能,需設(shè)計監(jiān)控系統(tǒng)軟件,實現(xiàn)對系統(tǒng)基礎(chǔ)架構(gòu)的性能監(jiān)控,保證整個系統(tǒng)安全、高效運行。通過分析數(shù)據(jù)庫與操作系統(tǒng)的參數(shù)構(gòu)成,找到參數(shù)間關(guān)聯(lián)缺陷,依此為突破點實現(xiàn)性能監(jiān)控的優(yōu)化。
IT系統(tǒng);性能監(jiān)控;數(shù)據(jù)庫;操作系統(tǒng)
IT系統(tǒng)是由諸多基礎(chǔ)設(shè)施構(gòu)成,比如說軟件設(shè)備、存儲設(shè)備、服務(wù)器等,基礎(chǔ)設(shè)施之間借助網(wǎng)絡(luò)架構(gòu)實現(xiàn)資源共享,從而促進業(yè)務(wù)運轉(zhuǎn)。要想保證整個體性能夠充分發(fā)揮其性能,減少各設(shè)備故障,促進各基礎(chǔ)設(shè)備性能正常發(fā)揮是首要條件,為此管理人員會根據(jù)參數(shù)變化獲得設(shè)備的運行與性能狀態(tài)。通過對參數(shù)的聯(lián)合分析減少故障發(fā)生,促進了整個IT系統(tǒng)的高效運行。
1.1 CPU
以Windows操作系統(tǒng)為例,CPU作為系統(tǒng)的最核心構(gòu)造,其性能監(jiān)控水平將決定整個系統(tǒng)性能的運行效率,通過對CPU的重要參數(shù)的分析,可梳理各參數(shù)之間的關(guān)聯(lián),實現(xiàn)對CPU性能的優(yōu)化[1]。由于Windows系統(tǒng)任務(wù)調(diào)度以線程為單位,調(diào)度采用高優(yōu)先級搶占,可依此分析CPU占用線程。
(1)具體參數(shù)
監(jiān)控CPU性能需要獲得如下幾點參數(shù)數(shù)據(jù),分別有CPU空閑時間、WIO、隊列長度、運行狀態(tài)時間、硬件中斷次數(shù)以及中斷時間等。其中CPU空閑時間可以獲知CPU的利用率,能夠直接反映性能發(fā)揮情況;而硬件中斷次數(shù),不能將所有的處理器中斷時間涵蓋,應(yīng)排除周期性中斷,比如常見的磁盤I/O終端中斷情況。
(2)監(jiān)控分析
依據(jù)以上參數(shù)值可以實現(xiàn)對CPU性能的監(jiān)控,依此判斷故障問題,分析問題發(fā)生的根源。若CPU利用率超過85%時,需根據(jù)ready隊列確定是否發(fā)生運行過載,若隊列長度=1,則為暫時忙碌,而隊列長度≥2時,則存在較多線程未處理,當(dāng)這種情況持續(xù)發(fā)生可確定為CPU處理能力不足。在確定CPU運行過載后,可依據(jù)上下文交換次數(shù)判斷是否存在多線爭用,以內(nèi)存轉(zhuǎn)換頁多少判斷是否發(fā)生內(nèi)存瓶頸,以硬件中斷參數(shù)具體分析線程問題。
(3)優(yōu)化措施
監(jiān)控優(yōu)化將從兩方面入手,其一是CPU性能參數(shù)的選擇,其二是對選擇的參數(shù)進行報警配置,確定參數(shù)的報警標(biāo)準(zhǔn)。主要以確定監(jiān)控參數(shù)以CPU空閑時間、WIO時間、就緒隊列長度三項為主[2]。由于CPU空閑時間并不能直接說明性能問題,因此最終的判斷標(biāo)準(zhǔn)為:空閑時間小于5%且ready隊列長度大于2或者WIO大于25%,以上狀態(tài)持續(xù)時間超過總統(tǒng)計時間的10%后,則說明CPU存在性能問題,需報警提示。
1.2 內(nèi)存
(1)具體參數(shù)
內(nèi)存管理中涉及的參數(shù)指標(biāo)較多,可將其分為三大類,分別是容量參數(shù)(可用量、使用率、被鎖定內(nèi)存等)、換頁操作參數(shù)、工作集參數(shù)、cache相關(guān)參數(shù)(延遲寫、刷新參數(shù)、cache fault等)等。
(2)優(yōu)化措施
內(nèi)存不足或者失效是常見的性能問題,頁面錯誤、內(nèi)存空間、讀/寫命中率等是重要的影響因素,可將以上參數(shù)指標(biāo)作為監(jiān)控的重點,推薦頁面錯誤數(shù)量420、內(nèi)存自由空間需穩(wěn)定在30萬KB以上,讀/寫命中率為50%,若以上參數(shù)的實際值長時間低于推薦指標(biāo),可進行報警提示。
1.3 磁盤
(1)具體參數(shù)
磁盤性能監(jiān)控需要分析的具體參數(shù)如下:磁盤利用率、可用空間、服務(wù)與等待時間、讀/寫次數(shù)、I/O拆分?jǐn)?shù)量。
(2)監(jiān)控分析
磁盤性能的監(jiān)控具體流程必須遵循一定的流程,磁盤性能降低存在兩方面原因,其一是由于自身功能出現(xiàn)障礙,其二則是由于利用率過高出現(xiàn)瓶頸。
(3)優(yōu)化措施
選取WIO、磁盤利用率,以及平均等待與服務(wù)時間等參數(shù),以80%作為利用率的最高標(biāo)準(zhǔn),若在WIO超過25%的情況下,利用率高達80%以上,同時平均服務(wù)時間還小于等待時間,說明磁盤性能不足,或者出現(xiàn)故障[3]。
(1)總體性能
吞吐量與用戶響應(yīng)時間是判斷總體性能的重要參數(shù),兩者之間存在密切關(guān)聯(lián),當(dāng)系統(tǒng)服務(wù)時間減少時,數(shù)據(jù)庫可完成更多的SQL語句。因IT系統(tǒng)本身存在差異,因此數(shù)據(jù)庫的響應(yīng)時間各系統(tǒng)并不相同,需要依據(jù)實際情況而定。以EIP系統(tǒng)為例,對響應(yīng)時間推薦參數(shù)為,用戶等待時間不得超過總時間的10%,該推薦參數(shù)可用于判斷總系統(tǒng)的爭用情況。
(2)數(shù)據(jù)庫操作系統(tǒng)性能
選用操作系統(tǒng)參數(shù),主要借助CPU相關(guān)參數(shù),比如利用率、WIO時間、核心態(tài)時間、用戶態(tài)時間等,分析操作系統(tǒng)應(yīng)用服務(wù)是否滿足數(shù)據(jù)庫需求,以及判斷數(shù)據(jù)庫是否存在緩沖區(qū)不足等問題。其監(jiān)控分析中,在CPU利用率高的情況下,可以判定數(shù)據(jù)庫磁盤或者是內(nèi)存緩沖區(qū)性能不足。若數(shù)據(jù)庫類型為DB2,可以80%作為CPU利用率的推薦參數(shù)。
綜上所述,IT系統(tǒng)性能監(jiān)控與優(yōu)化,主要是對操作系統(tǒng)與數(shù)據(jù)庫系統(tǒng)性能進行監(jiān)控,且由各基礎(chǔ)設(shè)備的參數(shù)指標(biāo)體現(xiàn)。經(jīng)研究總結(jié),CPU性能由空閑時間小、ready隊列長度、WIO值判定。內(nèi)存性能由頁面錯誤、內(nèi)存空間、讀/寫命中率判定,磁盤性能由WIO、磁盤利用率判定,數(shù)據(jù)庫性能則有其操作系統(tǒng)性能以及吞吐量與用戶響應(yīng)時間等判定。
[1]呂燕.信息系統(tǒng)的性能監(jiān)控分析與研究[J].有線電視技術(shù),2013(8):58-60.
[2]張勁男,孟炬.數(shù)據(jù)庫性能監(jiān)控分析系統(tǒng)的設(shè)計與實現(xiàn)[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013(10):70-74.
[3]黃碧雄.基于Oracle數(shù)據(jù)庫性能優(yōu)化及監(jiān)控研究[J].中國新通信,2015(5):126-127.
TP393.0 F832.39
A
1009-6434(2016)02-0031-01