在傳統(tǒng)的可視化看板中,普遍采用單一指標(biāo)告警進(jìn)行信息系統(tǒng)狀態(tài)管理,在一定程度上能夠保證信息系統(tǒng)的穩(wěn)定運(yùn)行。為了繼承發(fā)展既有運(yùn)維監(jiān)測(cè)可視化管理體系,本文從信息系統(tǒng)的角度對(duì)數(shù)據(jù)信息進(jìn)行進(jìn)一步規(guī)劃和分析,立足自主創(chuàng)新,融合業(yè)界最佳實(shí)踐與技術(shù),統(tǒng)一支撐信息系統(tǒng)運(yùn)維業(yè)務(wù),實(shí)現(xiàn)數(shù)據(jù)的融匯貫通,打造了一種新的信息系統(tǒng)可視化看板,全面的對(duì)信息系統(tǒng)運(yùn)行狀態(tài)進(jìn)行管理和展現(xiàn)。以自動(dòng)化、智能化和可視化為主線(xiàn),滿(mǎn)足一線(xiàn)運(yùn)維人員真實(shí)需求。
信息系統(tǒng)的組成具有多樣性,不同的信息系統(tǒng)構(gòu)成之間千差萬(wàn)別,而且內(nèi)部的業(yè)務(wù)邏輯、數(shù)據(jù)、接口的關(guān)聯(lián)關(guān)系錯(cuò)綜復(fù)雜。如何有效地對(duì)數(shù)據(jù)進(jìn)行整理分類(lèi)、特征提取和關(guān)聯(lián)分析,為運(yùn)維人員直觀展現(xiàn)最重要、最有價(jià)值的數(shù)據(jù),是信息系統(tǒng)運(yùn)行狀態(tài)可視化看板設(shè)計(jì)的根本要求和價(jià)值所在。
可視化看板重點(diǎn)展現(xiàn)的是信息系統(tǒng)的異常狀態(tài),但常規(guī)的指標(biāo)級(jí)異常展現(xiàn)體驗(yàn)較差,無(wú)法滿(mǎn)足用戶(hù)的真實(shí)需求。為了更好的展現(xiàn)信息系統(tǒng)的運(yùn)行情況,根據(jù)歷史運(yùn)維經(jīng)驗(yàn)和用戶(hù)實(shí)際痛點(diǎn),從業(yè)務(wù)層面抽象了斷(可用性)、閑(在用性)、卡(負(fù)載情況)和亂(波動(dòng)情況)四種異常狀態(tài),以一種全新的業(yè)務(wù)視角,為運(yùn)維人員提供信息系統(tǒng)運(yùn)行狀態(tài)的深度解讀。這種業(yè)務(wù)抽象不僅適用于信息系統(tǒng)整體,也可以具體細(xì)化到實(shí)體對(duì)象,包括但不限于各類(lèi)主機(jī)、數(shù)據(jù)庫(kù)、中間件、服務(wù)應(yīng)用、網(wǎng)絡(luò)設(shè)備和安全設(shè)備等,通過(guò)對(duì)實(shí)體對(duì)象的診斷分析,為信息系統(tǒng)的真實(shí)運(yùn)行狀態(tài)提供更多有力的依據(jù)。
可視化看板支持的四種異常狀態(tài)通過(guò)以下具體模型進(jìn)行定義和支持。
(1)負(fù)載模型-卡:通過(guò)梳理運(yùn)維對(duì)象的指標(biāo)中與性能相關(guān)的指標(biāo),對(duì)于網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備主要包括計(jì)算、網(wǎng)絡(luò)負(fù)載等;對(duì)于數(shù)據(jù)庫(kù)主要包括表負(fù)載、死鎖率、會(huì)話(huà)負(fù)載等;對(duì)于中間件主要包括JVM負(fù)載、會(huì)話(huà)數(shù)、使用率負(fù)載等;對(duì)于業(yè)務(wù)應(yīng)用主要包括業(yè)務(wù)訪(fǎng)問(wèn)、并發(fā)負(fù)載等。
(2)可用模型-斷:通過(guò)梳理運(yùn)維對(duì)象的指標(biāo)中與狀態(tài)相關(guān)的指標(biāo),對(duì)于網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備主要包括設(shè)備運(yùn)行狀態(tài)、采集狀態(tài)等;對(duì)于數(shù)據(jù)庫(kù)類(lèi)、中間件主要包括運(yùn)行狀態(tài)、訪(fǎng)問(wèn)狀態(tài)等;對(duì)于業(yè)務(wù)應(yīng)用主要包括業(yè)務(wù)運(yùn)行狀態(tài)、業(yè)務(wù)訪(fǎng)問(wèn)狀態(tài)等。
(3)在用模型-閑:在用模型與性能模型相似度較高,對(duì)于網(wǎng)絡(luò)設(shè)備、主機(jī)設(shè)備主要包括設(shè)備的計(jì)算、網(wǎng)絡(luò)性能等;對(duì)于數(shù)據(jù)庫(kù)主要包括表使用、死鎖異常、會(huì)話(huà)數(shù)性能等;對(duì)于中間件主要包括JVM使用、會(huì)話(huà)數(shù)、使用率性能等;對(duì)于業(yè)務(wù)應(yīng)用主要包括業(yè)務(wù)訪(fǎng)問(wèn)、并發(fā)性能等。
(4)波動(dòng)模型-亂:深入運(yùn)維對(duì)象的性能、流量指標(biāo)統(tǒng)計(jì),分析波動(dòng)規(guī)律,整理斷崖式的性能波動(dòng),如CPU、內(nèi)存陡然增長(zhǎng)或下跌;或不符合規(guī)律的網(wǎng)絡(luò)行為,包括IP異常、流量異常等。
可視化看板的卡斷閑亂四種狀態(tài)模型從數(shù)據(jù)層面為信息系統(tǒng)提供了統(tǒng)一的分析,為了更好的對(duì)信息系統(tǒng)的運(yùn)行狀態(tài)進(jìn)行展現(xiàn),需要從可視化的角度進(jìn)行簡(jiǎn)單、高效、直觀的展現(xiàn)。采用一套基于業(yè)務(wù)視角的層次化展現(xiàn)方式,以信息系統(tǒng)、系統(tǒng)對(duì)象、對(duì)象指標(biāo)的縱向維度進(jìn)行統(tǒng)一展現(xiàn),在各層級(jí)突出不同的展現(xiàn)重點(diǎn),幫助運(yùn)維人員快速的發(fā)現(xiàn)、定位和解決信息系統(tǒng)異常問(wèn)題。
可視化看板層次化展現(xiàn)具體采用多層下鉆式展現(xiàn)。第一層為信息系統(tǒng)整體狀態(tài)展現(xiàn),可以通過(guò)信息系統(tǒng)視角第一時(shí)間快速切入異常;第二層為信息系統(tǒng)內(nèi)部構(gòu)成狀態(tài)展現(xiàn),通過(guò)卡斷閑亂四種業(yè)務(wù)抽象幫助運(yùn)維人員快速定位異常根源,第三層為指標(biāo)狀態(tài)展現(xiàn),結(jié)合實(shí)時(shí)快照、診斷建議指導(dǎo)運(yùn)維人員解決問(wèn)題。
(1)抽象業(yè)務(wù)狀態(tài):可視化看板重點(diǎn)突出了斷(可用性)、閑(在用性)、卡(負(fù)載情況)和亂(波動(dòng)情況)等運(yùn)行狀態(tài),區(qū)別于告警僅單一的對(duì)指標(biāo)進(jìn)行監(jiān)測(cè)和越限提示,從業(yè)務(wù)的角度大大增強(qiáng)了關(guān)聯(lián)性,并根據(jù)歷史經(jīng)驗(yàn)定義了各指標(biāo)的計(jì)算權(quán)值,形成完整的業(yè)務(wù)模型。有效的描述了運(yùn)維對(duì)象的真實(shí)運(yùn)行情況,并其適用于同類(lèi)對(duì)象的擴(kuò)展。充分提高了運(yùn)維人員對(duì)運(yùn)行狀態(tài)的理解,降低對(duì)運(yùn)維內(nèi)容的學(xué)習(xí)成本。
(2)層次化業(yè)務(wù)視角:可視化看板從信息系統(tǒng)整體發(fā)出,打造了三層的業(yè)務(wù)視角,各層視角立足于不同的核心需求,切實(shí)的幫助運(yùn)維人員發(fā)現(xiàn)、定位和解決問(wèn)題,加強(qiáng)了數(shù)據(jù)的關(guān)聯(lián)融合,有效的突出了重要數(shù)據(jù),切實(shí)的量化信息系統(tǒng)的運(yùn)行狀態(tài),使信息系統(tǒng)變得能管、好管。
(3)掛撤牌合理分析:可視化看板采用了基于最近歷史權(quán)重的方式進(jìn)行掛撤牌分析,不僅著眼于一個(gè)時(shí)間點(diǎn)的運(yùn)行狀態(tài)情況,還有效地整合了歷史信息,能客觀地反映運(yùn)維對(duì)象的整體運(yùn)行狀態(tài),并通過(guò)掛撤牌方式進(jìn)行管理提示。
(4)信息系統(tǒng)快照:可視化看板以信息系統(tǒng)的視角,提供信息系統(tǒng)的整體快照,保留了異常時(shí)刻的運(yùn)行環(huán)境,為運(yùn)維人員追溯問(wèn)題和關(guān)聯(lián)分析提供了有力的支撐,相較傳統(tǒng)的單對(duì)象快照,意義更加豐富,數(shù)據(jù)更加有效。
通過(guò)信息系統(tǒng)遠(yuǎn)程診斷狀態(tài)可視化看板的建設(shè),實(shí)現(xiàn)對(duì)信息系統(tǒng)的遠(yuǎn)程狀態(tài)診斷,幫助運(yùn)維人員快速的發(fā)現(xiàn)、定位、解決問(wèn)題,從而保障信息系統(tǒng)的長(zhǎng)期穩(wěn)定運(yùn)行。
(1)在實(shí)際生產(chǎn)環(huán)境中,當(dāng)發(fā)生信息系統(tǒng)無(wú)法訪(fǎng)問(wèn)的情況時(shí),勢(shì)必造成部分生產(chǎn)事故,需要快速的投入人力進(jìn)行解決。通過(guò)信息系統(tǒng)遠(yuǎn)程診斷狀態(tài)可視化看板,在信息系統(tǒng)層面可以在第一時(shí)間發(fā)現(xiàn)問(wèn)題,比大部分的信息系統(tǒng)用
戶(hù)更快發(fā)現(xiàn),而不需要等待信息系統(tǒng)用戶(hù)反饋。發(fā)現(xiàn)信息系統(tǒng)問(wèn)題后,在信息系統(tǒng)內(nèi)部對(duì)象層面快速的定位到發(fā)生異常的具體對(duì)象,通??梢愿鶕?jù)卡(負(fù)載情況)和斷(可用性)來(lái)進(jìn)行具體的定位,當(dāng)某個(gè)對(duì)象在卡的狀態(tài)時(shí),有幾率因?yàn)樨?fù)載過(guò)高導(dǎo)致無(wú)法處理更多的請(qǐng)求;當(dāng)某個(gè)對(duì)象在斷的狀態(tài)時(shí),則無(wú)法提供任何服務(wù)。發(fā)現(xiàn)信息系統(tǒng)內(nèi)部對(duì)象的問(wèn)題后,通過(guò)定位到更加具體的指標(biāo)以解決實(shí)際問(wèn)題,通過(guò)快照數(shù)據(jù)對(duì)異常對(duì)象的各類(lèi)指標(biāo)進(jìn)行綜合分析,找到引起異常的具體的指標(biāo),并根據(jù)知識(shí)庫(kù)提供具體的解決建議,快速有效的解決信息系統(tǒng)無(wú)法訪(fǎng)問(wèn)的異常。
(2)信息系統(tǒng)無(wú)法訪(fǎng)問(wèn)的情況一般比較少,而大部分情況更多的是信息系統(tǒng)訪(fǎng)問(wèn)卡頓的問(wèn)題。通過(guò)信息系統(tǒng)遠(yuǎn)程診斷狀態(tài)可視化看板,關(guān)注在信息系統(tǒng)的健康情況,當(dāng)信息系統(tǒng)健康度持續(xù)下降時(shí),可能出現(xiàn)了訪(fǎng)問(wèn)卡頓的情況。在信息系統(tǒng)內(nèi)部對(duì)象層面快速的定位到可能引起卡頓的具體對(duì)象,通常可以根據(jù)卡(負(fù)載情況)和亂(波動(dòng)情況)來(lái)進(jìn)行具體的定位,當(dāng)某個(gè)對(duì)象在卡的狀態(tài)時(shí),有幾率因?yàn)樨?fù)載長(zhǎng)期居高不下造成處理的延時(shí);當(dāng)某個(gè)對(duì)象在亂的狀態(tài)時(shí),則在一定意義上出現(xiàn)了不符合規(guī)律的異常,相比其他同類(lèi)對(duì)象產(chǎn)生影響的機(jī)率更大。發(fā)現(xiàn)信息系統(tǒng)內(nèi)部對(duì)象的問(wèn)題后,通過(guò)定位到具體的指標(biāo),綜合快照數(shù)據(jù)和建議解決問(wèn)題。
(3)信息系統(tǒng)長(zhǎng)期穩(wěn)定正常運(yùn)行后,可以對(duì)信息系統(tǒng)進(jìn)行調(diào)優(yōu),釋放長(zhǎng)期閑置的資源。在信息系統(tǒng)內(nèi)部對(duì)象層面快速的定位到可以進(jìn)行調(diào)優(yōu)的具體對(duì)象,通??梢愿鶕?jù)閑(在用性)來(lái)進(jìn)行具體的定位。在信息系統(tǒng)之間,某信息系統(tǒng)對(duì)象的閑置時(shí)間明顯高于其他信息系統(tǒng),則該信息系統(tǒng)相對(duì)于其他信息系統(tǒng)則調(diào)整的可能性更大。當(dāng)某個(gè)對(duì)象處于閑的狀態(tài)時(shí),其資源的利用率處于較低的狀態(tài),該對(duì)象相比其他對(duì)象則調(diào)整的可行性更大。再結(jié)合具體的快照數(shù)據(jù)進(jìn)行分析,若該對(duì)象的各類(lèi)指標(biāo)的使用率長(zhǎng)期低于其他同類(lèi)設(shè)備,則可以對(duì)該對(duì)象進(jìn)行調(diào)優(yōu),釋放閑置的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)能力,使信息系統(tǒng)的配置最優(yōu)。
(1)可視化看板創(chuàng)新性的歸納總結(jié)了斷(可用性)、閑(在用性)、卡(負(fù)載情況)和亂(波動(dòng)情況)等運(yùn)行狀態(tài),并和對(duì)象的指標(biāo)進(jìn)行有機(jī)關(guān)聯(lián),通過(guò)掛牌的技術(shù)手段,合理建立運(yùn)行狀態(tài)模型,分析運(yùn)維對(duì)象的運(yùn)行情況,減少運(yùn)維人員的告警學(xué)習(xí)處理成本,提升對(duì)信息系統(tǒng)運(yùn)行狀態(tài)的理解,提高運(yùn)維的效率和體驗(yàn)。
(2)可視化看板基于信息系統(tǒng)視角,提供了一整套狀態(tài)診斷解決方案,其中包括狀態(tài)模型的定義和數(shù)據(jù)層級(jí)化展現(xiàn),以一種更直觀更動(dòng)態(tài)的方式,對(duì)信息系統(tǒng)及內(nèi)部的對(duì)象進(jìn)行監(jiān)控和管理,不僅在可視化的效果上大大加強(qiáng),也直接的提高了工作效率。
(3)可視化看板實(shí)現(xiàn)信息系統(tǒng)狀態(tài)異常發(fā)現(xiàn)、定位、解決的閉環(huán)管理,不局限在一個(gè)點(diǎn)上,而是深度滿(mǎn)足運(yùn)維人員工作需求,幫助運(yùn)維人員加速追溯問(wèn)題源頭,輕松定位問(wèn)題明細(xì),有效提供解決方案,確保有效的解決異常,保證信息系統(tǒng)穩(wěn)定運(yùn)行。