班華堂
(浪潮商用機(jī)器有限公司,山東 濟(jì)南 250000)
云集群服務(wù)器系統(tǒng)以云計(jì)算作為平臺,將各類服務(wù)器進(jìn)行聯(lián)動(dòng),使得服務(wù)器群可以在較短的時(shí)間內(nèi)快速處理各類信息,在很大程度上提高服務(wù)器的運(yùn)算處理能力。隨著技術(shù)經(jīng)驗(yàn)的逐步積累,云集群服務(wù)器系統(tǒng)適用范圍日益廣泛,逐步形成了支持各類異構(gòu)設(shè)備與異構(gòu)數(shù)據(jù)的網(wǎng)絡(luò)框架,可以根據(jù)用戶的使用需求實(shí)現(xiàn)信息數(shù)據(jù)的分類處理,在信息產(chǎn)業(yè)內(nèi)部形成了更為精細(xì)化的分工?;谠萍悍?wù)器的技術(shù)優(yōu)勢,在實(shí)際管理環(huán)節(jié)應(yīng)當(dāng)建立完善的監(jiān)控管理體系,形成實(shí)時(shí)化、立體化的監(jiān)控管理機(jī)制[1]。
通過對云計(jì)算、集群服務(wù)等技術(shù)概念的梳理,引導(dǎo)技術(shù)人員在思維層面形成準(zhǔn)確的觀念認(rèn)知,把握云集群服務(wù)器監(jiān)控管理的基本要求,明確監(jiān)控管理重點(diǎn)環(huán)節(jié),為后續(xù)設(shè)計(jì)要點(diǎn)的梳理語義技術(shù)應(yīng)用等提供方向性引導(dǎo)。
云計(jì)算利用信息網(wǎng)絡(luò)形成靈活共享的計(jì)算資源平臺,該平臺通過用戶訪問機(jī)制,使得用戶可以根據(jù)自身需求在較短的時(shí)間內(nèi)快速獲取各類資源,在滿足信息獲取需求的同時(shí)降低常規(guī)性信息獲取難度。同時(shí)云計(jì)算技術(shù)以分布式基礎(chǔ)架構(gòu)作為底層邏輯,其在很大程度上可以滿足服務(wù)器群拓展的需要,例如LaaS、PaaS以及SaaS等云計(jì)算架構(gòu)極大地提升了云計(jì)算的適用性[2]。根據(jù)實(shí)際使用需求,技術(shù)人員通過選擇合理的云計(jì)算技術(shù)框架、動(dòng)態(tài)添加各類物理設(shè)備以及融合相關(guān)應(yīng)用程序,可以有效控制集群服務(wù)器的使用成本。集群服務(wù)器將多個(gè)獨(dú)立的服務(wù)器串聯(lián)起來組建成單一化的系統(tǒng),這種系統(tǒng)構(gòu)成使服務(wù)器信息處理能力得到提升,避免集群服務(wù)器運(yùn)行出現(xiàn)過載的情況,造成系統(tǒng)崩潰。隨著相關(guān)技術(shù)經(jīng)驗(yàn)的持續(xù)積累,集群服務(wù)器系統(tǒng)的組成日趨完善,超級群服務(wù)器、PC服務(wù)器以及中檔服務(wù)器的使用兼顧了集群服務(wù)器運(yùn)算處理能力與服務(wù)器使用成本管控。近些年來,信息產(chǎn)業(yè)發(fā)展過程中,基于技術(shù)創(chuàng)新與產(chǎn)品研發(fā)等不同的需求,技術(shù)人員將云計(jì)算技術(shù)與集群服務(wù)器結(jié)合起來構(gòu)建了云集群服務(wù)器系統(tǒng)方案。由于系統(tǒng)結(jié)構(gòu)復(fù)雜,為確保云集群服務(wù)器系統(tǒng)的正常運(yùn)行,需要在系統(tǒng)內(nèi)部構(gòu)建起相應(yīng)的監(jiān)控與管理機(jī)制。通過監(jiān)控與管理機(jī)制的介入,確保云集群服務(wù)器系統(tǒng)穩(wěn)定運(yùn)轉(zhuǎn),減少設(shè)備故障的發(fā)生,實(shí)現(xiàn)持續(xù)性的信息處理、存儲(chǔ)服務(wù)。
由于云集群服務(wù)器系統(tǒng)監(jiān)控管理涉及多個(gè)對象,監(jiān)控管理任務(wù)體量較大,因此技術(shù)人員在云集群服務(wù)器系統(tǒng)監(jiān)控管理設(shè)計(jì)環(huán)節(jié)應(yīng)當(dāng)采取簡化設(shè)計(jì)的原則,著力提高監(jiān)控管理的容錯(cuò)率,通過基礎(chǔ)設(shè)施層、中間件層、顯示層以及運(yùn)維管理層等不同系統(tǒng)模塊的配合聯(lián)動(dòng)實(shí)現(xiàn)云集群服務(wù)器系統(tǒng)的動(dòng)態(tài)化監(jiān)控,根據(jù)監(jiān)控結(jié)果靈活調(diào)整系統(tǒng)狀態(tài),確保云集群服務(wù)器系統(tǒng)平穩(wěn)運(yùn)轉(zhuǎn)[3]。
由于云集群服務(wù)器系統(tǒng)監(jiān)控管理系統(tǒng)定位較為特殊且服務(wù)對象多元,為確保系統(tǒng)設(shè)計(jì)的有效性與合理性,技術(shù)人員有必要結(jié)合云集群服務(wù)器系統(tǒng)監(jiān)控管理的特點(diǎn),吸收借鑒過往有益經(jīng)驗(yàn),梳理并明確設(shè)計(jì)要求。
云集群服務(wù)器系統(tǒng)涵蓋大量的服務(wù)器,在運(yùn)行過程中形成了數(shù)量眾多的網(wǎng)絡(luò)節(jié)點(diǎn)。網(wǎng)絡(luò)節(jié)點(diǎn)作為監(jiān)控管理的關(guān)鍵區(qū)域,通過監(jiān)控管理架構(gòu)的合理搭建,可以實(shí)現(xiàn)對網(wǎng)絡(luò)節(jié)點(diǎn)的有效覆蓋,保證云集群服務(wù)器監(jiān)控管理活動(dòng)的有序開展。基于這種認(rèn)知,技術(shù)人員在監(jiān)控管理架構(gòu)組件環(huán)節(jié)可以從被監(jiān)控服務(wù)器集群、監(jiān)控管理服務(wù)器以及管理客戶端等模塊入手,設(shè)計(jì)完備的監(jiān)控管理機(jī)制[4]。具體來看,被監(jiān)控服務(wù)集群應(yīng)當(dāng)采取分布式部署的形式,根據(jù)技術(shù)能力劃定不同數(shù)量的子集群。子集群作為監(jiān)控管理的對象,最大程度地消除監(jiān)控管理盲區(qū),提升云集群服務(wù)器系統(tǒng)監(jiān)控管理的精準(zhǔn)性。由于監(jiān)控管理服務(wù)器主要功能在于對云集群服務(wù)器子集群開展持續(xù)的監(jiān)控,因此每一臺監(jiān)控管理往往對應(yīng)多個(gè)云集群服務(wù)器系統(tǒng)子集群。以監(jiān)控管理服務(wù)器為基礎(chǔ),將子集群服務(wù)器運(yùn)行過程中產(chǎn)生的各類監(jiān)測指標(biāo)進(jìn)行匯總,針對匯總后的監(jiān)控指標(biāo)開展信息評估,以確保云集群服務(wù)器系統(tǒng)的運(yùn)行狀態(tài)可以準(zhǔn)確呈現(xiàn)。技術(shù)人員根據(jù)獲取到的相關(guān)數(shù)據(jù),開展相應(yīng)的管理舉措,做好云集群服務(wù)器系統(tǒng)的調(diào)度,確保系統(tǒng)負(fù)載均衡,規(guī)避系統(tǒng)風(fēng)險(xiǎn)。管理客戶端作為監(jiān)控管理入口,用戶登陸客戶端后可以快速獲取云集群服務(wù)器的整體運(yùn)行狀態(tài),在此基礎(chǔ)上發(fā)出相應(yīng)的管理指令,對服務(wù)器子集群的負(fù)載做好科學(xué)調(diào)整,以防范服務(wù)器故障的發(fā)生。管理客戶端設(shè)置環(huán)節(jié),可以采用B/S框架,并設(shè)立Web監(jiān)控模塊,便于用戶采取靈活的操作方案對云集群服務(wù)器系統(tǒng)開展精準(zhǔn)管理。
在云集群服務(wù)器系統(tǒng)監(jiān)控管理環(huán)節(jié),技術(shù)人員需要有針對性地構(gòu)建監(jiān)控管理方案,對核心數(shù)據(jù)做好評估與分析。針對云集群服務(wù)器系統(tǒng)硬件系統(tǒng)、軟件程序運(yùn)行的特點(diǎn),選取監(jiān)控管理指標(biāo),提高監(jiān)控管理方案的可操作性。例如考慮到云集群服務(wù)器系統(tǒng)中服務(wù)器主機(jī)類型多樣,在監(jiān)控管理方案設(shè)計(jì)過程中需要選擇多元化直觀的性能指標(biāo),實(shí)現(xiàn)云集群服務(wù)器性能的綜合判定。除了做好上述技術(shù)指標(biāo)的選擇之外,還需要設(shè)置監(jiān)控管理層次,構(gòu)建完備化的監(jiān)控管理體系[5]。實(shí)際性能檢測采集環(huán)節(jié),技術(shù)人員依據(jù)檢測指標(biāo)開展服務(wù)器監(jiān)測、應(yīng)用監(jiān)測等工作,實(shí)現(xiàn)監(jiān)測指標(biāo)的有效覆蓋,減少監(jiān)測漏洞的出現(xiàn)。服務(wù)器監(jiān)測設(shè)計(jì)環(huán)節(jié),技術(shù)人員以服務(wù)器主機(jī)作為監(jiān)測管理對象,針對主機(jī)硬件、軟件的差異,采取相對應(yīng)的監(jiān)測措施。服務(wù)器類型與監(jiān)測主要指標(biāo)如表1所示。
表1 服務(wù)器類型與監(jiān)測主要指標(biāo)
技術(shù)人員通過設(shè)置不同的性能監(jiān)測指標(biāo)開展必要的監(jiān)測分析,實(shí)現(xiàn)云集群服務(wù)器系統(tǒng)模式下服務(wù)器運(yùn)行狀態(tài)的科學(xué)掌握,為后續(xù)服務(wù)器管理、維護(hù)等工作的開展奠定堅(jiān)實(shí)基礎(chǔ)。云集群服務(wù)器系統(tǒng)中的軟件應(yīng)用包括數(shù)據(jù)庫、Web服務(wù)以及應(yīng)用服務(wù),相應(yīng)程序運(yùn)行時(shí)會(huì)產(chǎn)生大量的數(shù)據(jù),技術(shù)人員可以按照實(shí)時(shí)數(shù)據(jù)、每天數(shù)據(jù)或每月數(shù)據(jù)開展軟件程序性能監(jiān)測以及管理等工作。在不同監(jiān)測數(shù)據(jù)采集環(huán)節(jié),利用數(shù)學(xué)模型針對性地完成指標(biāo)數(shù)據(jù)的獲取、分析等操作。以每天數(shù)據(jù)為例,技術(shù)人員采用數(shù)據(jù)采集模型進(jìn)行分析處理,即“hourvVauek=(,)/12,(0≤k≤23)”,其中hourvVauek表示一天內(nèi)第k個(gè)小時(shí)服務(wù)器監(jiān)測指標(biāo)的平均值。監(jiān)測周期為24 h,將每個(gè)監(jiān)測周期內(nèi)產(chǎn)生的各類監(jiān)測性能指標(biāo)以及相關(guān)戶數(shù)存儲(chǔ)到數(shù)據(jù)庫中,通過橫向?qū)Ρ戎鸩矫鞔_云集群服務(wù)器系統(tǒng)24 h內(nèi)的運(yùn)行狀態(tài),為后續(xù)系統(tǒng)管理活動(dòng)的開展提供引導(dǎo)。
云集群服務(wù)器監(jiān)控系統(tǒng)的實(shí)現(xiàn)要求技術(shù)人員從實(shí)際角度出發(fā),以科學(xué)性、實(shí)用性原則為基礎(chǔ),在劃定系統(tǒng)設(shè)計(jì)框架的前提下整合現(xiàn)有技術(shù)資源,積極穩(wěn)妥地推動(dòng)云集群服務(wù)器系統(tǒng)監(jiān)控管理工作的實(shí)現(xiàn),確保系統(tǒng)平穩(wěn)、高效運(yùn)行。
云集群服務(wù)器監(jiān)控管理系統(tǒng)運(yùn)行管理環(huán)節(jié),技術(shù)人員應(yīng)當(dāng)設(shè)立告警指標(biāo)和監(jiān)控管理閾值,同時(shí)設(shè)定監(jiān)測數(shù)據(jù)預(yù)警的上限及下限,在此基礎(chǔ)上形成科學(xué)化的監(jiān)控管理模式,確保云集群服務(wù)器的科學(xué)管理[6]。例如,當(dāng)監(jiān)測數(shù)據(jù)指標(biāo)連續(xù)超過次要警告閾值并達(dá)到規(guī)定次數(shù),則顯示為次級預(yù)警;當(dāng)監(jiān)測數(shù)據(jù)指標(biāo)連續(xù)超過告警閾值并達(dá)到規(guī)定次數(shù),則顯示為預(yù)警。技術(shù)人員根據(jù)預(yù)警信息,可以判定云集群服務(wù)器運(yùn)行狀態(tài),并有針對性地做好系統(tǒng)管理決策,確保云集群服務(wù)器系統(tǒng)平穩(wěn)運(yùn)行。
云集群服務(wù)器系統(tǒng)監(jiān)控管理對于提升服務(wù)器信息處理能力有著極大的幫助,是信息產(chǎn)業(yè)升級的重要路徑,實(shí)現(xiàn)了對信息產(chǎn)業(yè)硬件服務(wù)能力與服務(wù)成本的全面兼顧。本文從多個(gè)角度出發(fā),在明確云集群服務(wù)器系統(tǒng)基本特點(diǎn)的前提下,采取相應(yīng)技術(shù)舉措,加速實(shí)現(xiàn)云集群服務(wù)器系統(tǒng)監(jiān)控管理模式的構(gòu)建。