文/張方知
近年來,云計算在國內(nèi)外發(fā)展迅猛,并得以廣泛應(yīng)用,人工智能、區(qū)塊鏈、大數(shù)據(jù)、云計算、云存儲和云安全等熱門技術(shù)層出不窮,而其中云計算可以說是其他各門技術(shù)的基礎(chǔ)。隨著云計算技術(shù)的不斷創(chuàng)新,數(shù)據(jù)中心向整合化方向邁進(jìn),虛擬化技術(shù)向軟硬協(xié)同方向發(fā)展,大規(guī)模分布式存儲技術(shù)進(jìn)入創(chuàng)新高峰,分布式計算技術(shù)不斷完善和提升,云計算前景一片光明,IT世界進(jìn)入云計算時代。在IT技術(shù)變革演進(jìn)的過程中,云上運(yùn)維(Operation and maintenance on Cloud)應(yīng)運(yùn)而生。
云計算的蓬勃發(fā)展,使得用戶對云的接受度越來越高,特別是中小型企業(yè),其業(yè)務(wù)越來越多地向云端遷移。隨著更多的企業(yè)將應(yīng)用系統(tǒng)遷移到各類由云服務(wù)商提供的云計算平臺,諸如亞馬遜云、阿里云、騰訊云、華為云等,帶來了應(yīng)用系統(tǒng)開發(fā)和架構(gòu)部署的變化,傳統(tǒng)以網(wǎng)絡(luò)、主機(jī)、數(shù)據(jù)庫、中間件等基礎(chǔ)設(shè)施和獨(dú)立IT組件為核心的監(jiān)控系統(tǒng)已經(jīng)無法滿足對應(yīng)用系統(tǒng)性能、業(yè)務(wù)連續(xù)性和最終用戶體驗(yàn)等方面的管理需求,IT運(yùn)行維護(hù)模式需要適應(yīng)新的變化,因此對IT運(yùn)維也需要重新理解并通過實(shí)踐重構(gòu)認(rèn)識。
談到運(yùn)維,不得不先說說運(yùn)維工作的價值和目標(biāo)。個人認(rèn)為,無論傳統(tǒng)運(yùn)維還是云上運(yùn)維,運(yùn)維的核心價值和最終目標(biāo)都是在于保障業(yè)務(wù)系統(tǒng)的連續(xù)性、可用性、可靠性和安全性,并最大限度地提升系統(tǒng)的性能。
傳統(tǒng)運(yùn)維的工作以機(jī)房建設(shè)、網(wǎng)絡(luò)規(guī)劃、硬件采購、軟件選型測試、系統(tǒng)裝機(jī)、應(yīng)用部署、中間件維護(hù)、監(jiān)控處理、自動化運(yùn)維等多種形態(tài)存在。為了達(dá)到核心價值和目標(biāo),運(yùn)維人員需要花費(fèi)大量的人力、物力和時間參與底層IT基礎(chǔ)建設(shè)等諸多非業(yè)務(wù)事項(xiàng),這明顯偏離了運(yùn)維技術(shù)人員的專注點(diǎn)和特長。因此,很多局外人容易把運(yùn)維工作看作是一種打雜的工作,負(fù)責(zé)的都是重復(fù)又繁雜的工作,甚至很多運(yùn)維人也看不到自身的價值。相比而言,云上運(yùn)維或許更能體現(xiàn)運(yùn)維工程師的價值感。依托于云服務(wù)商提供的基礎(chǔ)設(shè)施資源,IT人員可以更加專注于業(yè)務(wù)系統(tǒng)的建設(shè)、日常維護(hù)、系統(tǒng)優(yōu)化等工作。
從服務(wù)器管理模式來講,傳統(tǒng)運(yùn)維一般是采用自有機(jī)房或IDC服務(wù)器托管方式管理服務(wù)器,云上運(yùn)維則是利用云服務(wù)提供商提供的云主機(jī)和云數(shù)據(jù)庫來管理服務(wù)器。從職能來講,無論是傳統(tǒng)運(yùn)維還是云上運(yùn)維,都非常關(guān)注穩(wěn)定、高效、安全、成本等因素。下面從多個角度逐一分析云上運(yùn)維和傳統(tǒng)運(yùn)維的不同。
機(jī)房方面。傳統(tǒng)運(yùn)維的機(jī)房要么自建要么租用,對于租用機(jī)房,運(yùn)維人員首先要做的工作就是IDC機(jī)房的調(diào)研、測試和選擇,要從機(jī)房位置、線路質(zhì)量、服務(wù)響應(yīng)時間、QoS等多方面進(jìn)行考量,同時要做多個機(jī)房的網(wǎng)絡(luò)性能對比測試,最后選擇一個適合自己企業(yè)的IDC機(jī)房。現(xiàn)在的IDC機(jī)房品質(zhì)參差不齊,在眾多IDC機(jī)房中選擇性價比高并適合自己企業(yè)業(yè)務(wù)特點(diǎn)的機(jī)房并不容易。而云上運(yùn)維機(jī)房的選擇工作已經(jīng)由云服務(wù)提供商為用戶做好了,一個成熟的云服務(wù)提供商提供的機(jī)房都是經(jīng)過專業(yè)團(tuán)隊(duì)嚴(yán)格測試才會上線運(yùn)營的,整體品質(zhì)一般要優(yōu)于運(yùn)維人員自己選擇的IDC機(jī)房,運(yùn)維人員只需要根據(jù)業(yè)務(wù)需要選擇合適的服務(wù)商和合適地域的機(jī)房即可,這就為運(yùn)維人員節(jié)省了大量時間,降低了成本。但缺點(diǎn)是運(yùn)維人員并不了解機(jī)房的內(nèi)部情況。
硬件方面。傳統(tǒng)運(yùn)維時,運(yùn)維人員需要考慮防火墻、路由器、交換機(jī)、服務(wù)器、存儲等設(shè)備的選型、采購、上架、日常維護(hù)、故障檢修、保修、保外維修等一系列硬件相關(guān)的問題。而云上運(yùn)維時,運(yùn)維人員不需要考慮硬件相關(guān)的事務(wù),這些事務(wù)是云服務(wù)提供商考慮的范疇,為運(yùn)維人員節(jié)省了時間,降低了成本。
軟件方面。傳統(tǒng)運(yùn)維時,運(yùn)維人員要申請進(jìn)入機(jī)房入室維護(hù),為服務(wù)器安裝操作系統(tǒng),既費(fèi)時又費(fèi)力。如果選擇遠(yuǎn)程安裝既需要硬件支持,同時IDC機(jī)房工作人員要配合操作,網(wǎng)絡(luò)安裝速度慢會耗費(fèi)更長的時間。對于數(shù)據(jù)庫來說,要部署和維護(hù)主主復(fù)制和自動接管這種高可用數(shù)據(jù)庫架構(gòu),則需要運(yùn)維人員完成部署、優(yōu)化、監(jiān)控、排錯等一系列復(fù)雜的工作。而云上運(yùn)維只需要在選擇云服務(wù)器的時候,選擇需要的操作系統(tǒng),在選擇云數(shù)據(jù)庫的時候選擇適合的數(shù)據(jù)庫版本,為企業(yè)降低了人力、維護(hù)和時間等成本。
網(wǎng)絡(luò)方面。傳統(tǒng)運(yùn)維時,對于租用多機(jī)柜、采用雙線或多線BGP線路的企業(yè)來說,運(yùn)維人員要設(shè)計合理高效的網(wǎng)絡(luò)架構(gòu)并配置合理的策略路由,當(dāng)出現(xiàn)網(wǎng)絡(luò)問題時還要有很強(qiáng)的網(wǎng)絡(luò)排錯能力。而云上運(yùn)維時,運(yùn)維人員只需要配置好VPC專有網(wǎng)絡(luò),選擇合適的帶寬,而網(wǎng)絡(luò)故障完全交給云服務(wù)提供商來解決。
安全方面。傳統(tǒng)運(yùn)維時,所有的IT基礎(chǔ)設(shè)施和數(shù)據(jù)都由用戶自己掌控,從心理上來講用戶感覺更安全,對公網(wǎng)的暴露面也更小。但運(yùn)維人員要考慮諸如病毒、黑客等不同形式的攻擊防范,有些IDC只支持小流量的流量清洗,遭遇大流量DDoS攻擊時只能關(guān)閉受攻擊的服務(wù)器以避免影響其他客戶。而云上運(yùn)維時,雖然用戶會感覺自己到了戰(zhàn)場一樣,但運(yùn)維人員只需要考慮云服務(wù)提供商是否提供防火墻、高防IP及大流量清洗等服務(wù)即可,防護(hù)和清洗工作交給云服務(wù)提供商來完成,有效降低了安全風(fēng)險和維護(hù)難度。
穩(wěn)定方面。無論是傳統(tǒng)運(yùn)維還是云上運(yùn)維,穩(wěn)定性都是運(yùn)維人員需要考慮的關(guān)鍵問題。傳統(tǒng)運(yùn)維時,要保證網(wǎng)絡(luò)穩(wěn)定和硬件環(huán)境穩(wěn)定,運(yùn)維人員要做好硬件選型、硬件評測和提前預(yù)警,同時要做好架構(gòu)容災(zāi),關(guān)鍵物理單元要有冗余,否則一旦發(fā)生硬件故障就會導(dǎo)致應(yīng)用服務(wù)中斷,企業(yè)會面臨經(jīng)濟(jì)損失、用戶體驗(yàn)下降和用戶評價度降低等風(fēng)險。如果企業(yè)保證了網(wǎng)絡(luò)和硬件環(huán)境穩(wěn)定,那勢必會增加IT成本,而成本也是運(yùn)維人員需要考慮的關(guān)鍵問題。而云上運(yùn)維時,穩(wěn)定性是由云服務(wù)提供商負(fù)責(zé)的。由于云自帶冗余屬性,企業(yè)在使用云服務(wù)時,無須考慮網(wǎng)絡(luò)和硬件故障導(dǎo)致的服務(wù)中斷,因此極大地提高了服務(wù)穩(wěn)定性,同時降低了IT成本。
監(jiān)控方面。傳統(tǒng)運(yùn)維時,運(yùn)維人員要構(gòu)建服務(wù)器監(jiān)控系統(tǒng),通過部署各種監(jiān)控工具,做到接口層、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層監(jiān)控并實(shí)現(xiàn)提前預(yù)警,這是一項(xiàng)復(fù)雜的工作,運(yùn)維人員技術(shù)水平和能力的高低也會影響監(jiān)控系統(tǒng)的準(zhǔn)確性和易用性。而云上運(yùn)維時,云服務(wù)提供商已經(jīng)為云產(chǎn)品提供了專業(yè)的監(jiān)測工具,全面、準(zhǔn)確地對多種指標(biāo)進(jìn)行監(jiān)控并實(shí)現(xiàn)提前預(yù)警,為用戶節(jié)省大量時間的同時提高了監(jiān)控的準(zhǔn)確性和易用性。
操作方面。傳統(tǒng)運(yùn)維需要大量人工干預(yù),實(shí)時性差。比如新增服務(wù)器時,運(yùn)維人員要考慮采購周期、上架、機(jī)柜空間、機(jī)柜電壓和電流是否超標(biāo)、交換機(jī)端口是否夠用、安裝操作系統(tǒng)等問題,整個流程耗費(fèi)時間比較長,如果企業(yè)對外提供的服務(wù)有時限性要求,傳統(tǒng)運(yùn)維模式就顯得力不從心了。在遇到業(yè)務(wù)升級和硬件更換時,通常會選擇在半夜進(jìn)行,且多少會造成業(yè)務(wù)中斷。而云上運(yùn)維徹底改變了傳統(tǒng)的高成本運(yùn)維服務(wù)模式,可以快速部署運(yùn)維。云服務(wù)提供商會提供給企業(yè)運(yùn)維人員操作界面友好的控制后臺,通過瀏覽器就可以對云主機(jī)進(jìn)行各種管理,新增云主機(jī)只需要很短的時間就可以完成租用、部署和上線工作,可以隨時隨地租用或刪除云主機(jī),操作更加便捷、高效、靈活。在方案準(zhǔn)備充足的情況下,可隨時進(jìn)行業(yè)務(wù)升級,平滑無中斷。
云運(yùn)維的不足與建議。說了這些云運(yùn)維的優(yōu)點(diǎn),有必要說點(diǎn)不足之處。世界上并無絕對安全可靠之地,云也如此。多年來,阿里云、騰訊云等坍塌事件時有發(fā)生,一旦崩潰,用戶則無能為力。俗話說得好,不要把所有的雞蛋放在一個籃子里!云平臺不同于傳統(tǒng)的自建物理平臺,客戶無法通過監(jiān)控工具進(jìn)行運(yùn)維的早期預(yù)警,它高度依賴云服務(wù)商宣稱的健壯性。表面上看,云節(jié)省了運(yùn)維成本,但故障一旦發(fā)生往往就是致命性的,對敏感和重要的業(yè)務(wù)而言,無疑是一個新的風(fēng)險點(diǎn),所以必須做好災(zāi)備方案。因此,使用云平臺承載重要業(yè)務(wù)時,盡可能選擇多個云服務(wù)商,做成主備模式,減少風(fēng)險。有條件的企業(yè)可以考慮“云+傳統(tǒng)”相結(jié)合的方式,采用自建機(jī)房或IDC服務(wù)器托管方式托管一批服務(wù)器,然后利用開源軟件如Open Stack或Cloud Stack等自行構(gòu)建私有云,充分利用現(xiàn)有硬件資源,通過吸收傳統(tǒng)運(yùn)維和云上運(yùn)維的優(yōu)勢,結(jié)合企業(yè)自身業(yè)務(wù)特點(diǎn)創(chuàng)建具有自身特色的私有云運(yùn)維模式,在降低IT成本和保障業(yè)務(wù)可靠兩個方面做個折中。
云時代給大家?guī)Я撕芏鄼C(jī)遇,同時也帶來了很多挑戰(zhàn)。有人認(rèn)為,隨著云的普及,運(yùn)維人員將會最終消失。雖然這個觀點(diǎn)不免有些偏激,但云時代的確給運(yùn)維帶來了很多不同,也讓運(yùn)維從業(yè)人員必須思考很多問題。
云環(huán)境下要求的運(yùn)維能力,不僅是技術(shù)能力,還要有先進(jìn)的運(yùn)維理念和方法,需要不斷積累豐富的經(jīng)驗(yàn),積累經(jīng)過反復(fù)測試的應(yīng)急預(yù)案,能夠快速發(fā)現(xiàn)故障點(diǎn)、準(zhǔn)確定位故障原因,最終達(dá)到快速恢復(fù)業(yè)務(wù)。所以,相比傳統(tǒng)運(yùn)維,運(yùn)維人員需要掌握的知識可能更多,需要的技能可能還要超過傳統(tǒng)運(yùn)維。云計算使運(yùn)維工作更加高效,也改變了傳統(tǒng)運(yùn)維的工作內(nèi)容。這是一場涉及運(yùn)維工作的變革,運(yùn)維人員必須跟上變革的腳步,需要思想的轉(zhuǎn)變和技能的提高,需要從操作性質(zhì)轉(zhuǎn)變到創(chuàng)新性質(zhì),個人綜合能力(專業(yè)技能、溝通能力、思維能力)必須升華。
云時代的機(jī)會。傳統(tǒng)運(yùn)維時,IT運(yùn)維人員經(jīng)常把精力都浪費(fèi)到設(shè)備選型、設(shè)備采購、設(shè)備上架、日常維護(hù)、故障檢修、部署優(yōu)化、設(shè)計維護(hù)IDC網(wǎng)絡(luò)、安全防范、構(gòu)建監(jiān)控系統(tǒng)等工作中,對付這些已經(jīng)疲于奔命,想要學(xué)些新知識則經(jīng)常有心無力。而云上運(yùn)維減少了傳統(tǒng)的機(jī)房、網(wǎng)絡(luò)設(shè)備、服務(wù)器、強(qiáng)弱電系統(tǒng)、UPS等設(shè)備維護(hù),使得IT運(yùn)維人員能從上述紛繁復(fù)雜的工作中解脫出來,利用云計算服務(wù)商提供的管理工具,可以更便捷、更高效、更靈活地完成基本運(yùn)維任務(wù),這樣就能抽出更多的時間學(xué)習(xí)Go、Python、Awk、Sed和Shell等編程語言和其他新技能,利用適用的開源工具實(shí)現(xiàn)運(yùn)維自動化、快速應(yīng)用部署和實(shí)時監(jiān)控。這種機(jī)會帶來了雙贏的效果,既提高了IT運(yùn)維人員自身的技術(shù)水平和業(yè)務(wù)能力,又充分提高了企業(yè)的服務(wù)質(zhì)量。
云時代的挑戰(zhàn)。云上運(yùn)維增加了新的維護(hù)內(nèi)容,如要求運(yùn)維人員在云平臺上實(shí)現(xiàn)應(yīng)用的快速部署、更新和實(shí)時監(jiān)控,這就需要了解和掌握運(yùn)維自動化技術(shù)和一些開發(fā)工具,才能做到云端輕松配置、部署和管理。公有云在基礎(chǔ)架構(gòu)安全性方面遠(yuǎn)超一般用戶自建IDC,但在某些方面也會面臨一些新的安全風(fēng)險和挑戰(zhàn),公有云的運(yùn)維管理工作都必須通過互聯(lián)網(wǎng)去完成,如何安全地運(yùn)維公有云上的系統(tǒng)也是運(yùn)維人員需要解決的問題。
云時代,運(yùn)維人員不光要有從事傳統(tǒng)運(yùn)維的理論知識基礎(chǔ)、靈活的應(yīng)變能力、快速的學(xué)習(xí)能力,還要具備業(yè)務(wù)思維、系統(tǒng)思維和運(yùn)營化、過程化管理能力。供給側(cè)改革才是治本,業(yè)務(wù)是企業(yè)發(fā)展的根本。從業(yè)務(wù)角度關(guān)注運(yùn)維,運(yùn)維人員應(yīng)該對業(yè)務(wù)有充分的了解,熟悉業(yè)務(wù)邏輯、數(shù)據(jù)流向和業(yè)務(wù)架構(gòu)及其短板。運(yùn)維人員應(yīng)具備整合各種資源輔助運(yùn)維工作,甚至獨(dú)立開發(fā)運(yùn)維工具的DevOps(開發(fā)+測試+運(yùn)維)能力,同時應(yīng)該深化推進(jìn)DevOps理念,把易運(yùn)維能力作為評價運(yùn)維開發(fā)質(zhì)量的重要因素。運(yùn)維人員要用運(yùn)營化、過程化管理來做運(yùn)維,做到提前預(yù)見故障,并推動開展運(yùn)維風(fēng)險評估和后續(xù)整改與應(yīng)急響應(yīng)工作,通過持續(xù)改進(jìn)和迭代,將運(yùn)維工作逐步標(biāo)準(zhǔn)化、自動化、智能化。
在云計算蓬勃發(fā)展的今天,IT運(yùn)維人員只有通過不斷學(xué)習(xí)和積累,才能在云計算的大潮中提升自身價值,適應(yīng)未來云計算運(yùn)維的發(fā)展要求。因此,運(yùn)維人員不能故步自封,要順應(yīng)運(yùn)維發(fā)展,不斷學(xué)習(xí)和構(gòu)建自己的知識體系,并結(jié)合業(yè)務(wù)實(shí)際有重點(diǎn)、有針對性地深入學(xué)習(xí)和提升專業(yè)技能,了解和學(xué)習(xí)KVM、Docker、Hadoop、Open Stack等運(yùn)維領(lǐng)域知識,學(xué)習(xí)和熟練掌握Shell、Python、Go等開發(fā)語言和工具,站在運(yùn)維技術(shù)前沿,提高自身生產(chǎn)力,這樣才能在云時代發(fā)展中不被淘汰,為企業(yè)創(chuàng)造更大的價值。
任爾風(fēng)起云涌,我自淡定從容;不驚去留寵辱,坐看云卷云舒。