IT已經(jīng)成為高科技的代名詞,但是歸根結(jié)底,它的背后只是“0”和“1”,因此說它容易也容易,說它復(fù)雜也復(fù)雜。
如何盡可能延長服務(wù)器正常運行時間,對于很多IT經(jīng)理們來說就是一個令人頭疼的事情。
幾乎所有數(shù)據(jù)中心的管理者都有一個共同的訴求,就是如何確保服務(wù)器處于良好的工作狀態(tài),所有的設(shè)備時刻準(zhǔn)備著、一旦有需要,就能立即運行起來,但是顯然這個問題“說起來容易做到難”。
絕大多數(shù)數(shù)據(jù)中心的IT經(jīng)理們不敢拍著胸脯說,自己已經(jīng)能夠力保系統(tǒng)正常運行,并且能夠保證正常運轉(zhuǎn)時間最大化。而事實上,他們中的很多人把時間和金錢往往浪費在了對幫助系統(tǒng)正常運行基本上沒有什么積極影響的技術(shù)和措施上。不過如果能從全面規(guī)劃、合理應(yīng)用管理軟件、加強安全防護等五方面入手,盡可能延長服務(wù)器正常運轉(zhuǎn)時間絕對不是一個“白日夢”。
全面規(guī)劃放首位
美國康涅狄格州斯坦福市金融數(shù)據(jù)提供商Six Telekurs USA負責(zé)IT和后勤的副總裁Walter Beddoe表示,實現(xiàn)服務(wù)器正常運行時間最大化的目標(biāo),既是一門科學(xué),也是一門管理藝術(shù)?!斑@要結(jié)合多方面的要素,不但需要你擁有稱職的員工,選對能夠?qū)崿F(xiàn)容錯目標(biāo)的硬件,采用動態(tài)的安全做法,而且還要能夠積極接受良好的維護和變更管理做法?!背酥?,Beddoe還認為,作為管理者,還需要有盡力做好一切的決心。
大多數(shù)管理著服務(wù)器的IT經(jīng)理都會認為,精心規(guī)劃從采購、管理到更換的與服務(wù)器相關(guān)的所有工作,是保障系統(tǒng)可靠性的關(guān)鍵步驟。
喬治?華盛頓大學(xué)的IT運營和工程經(jīng)理Raoul Gabiam就認為,生命周期管理是維持服務(wù)器正常運行的一個必要工作。“知道何時及如何更換、升級硬件和軟件很重要,因為這影響著服務(wù)器性能、可持續(xù)性和總體的正常運行時間?!?/p>
Gabiam舉例說,在升級軟件的時候,就需要了解硬件需求和當(dāng)前現(xiàn)有硬件的狀態(tài)。因為,為了保證軟件能夠得以順利升級,很有可能需要額外購買新的硬件,所以需要確保相應(yīng)的需求得到滿足,從而避免進一步停運,或者是盡量減少變更數(shù)量。
除了強調(diào)軟硬件的生命周期管理外,Gabiam還主張標(biāo)準(zhǔn)化和協(xié)調(diào),他認為后者也是確保服務(wù)器可靠運行的一個重要手段?!霸谟腥税惭b硬件或?qū)τ布M行改動之前,一定要有能夠作為參考的變更管理流程?!?/p>
“變更管理意味著服務(wù)器管理員能夠了解各個系統(tǒng)是如何搭建和配置的,并且在進行變更之前,評估一下會帶來怎樣的影響。”Gabiam說,“這樣一來,管理員就能知道系統(tǒng)應(yīng)該怎么樣、它們彼此會如何聯(lián)系。借助變更管理方法,就可以預(yù)測當(dāng)服務(wù)器以某些方式配置或放置到新環(huán)境后,會出現(xiàn)怎樣的情況?!?/p>
Online Resources公司的總部設(shè)在弗吉尼亞州尚迪利市,它專門為金融機構(gòu)提供交易服務(wù)。公司首席技術(shù)官Paul Franko表示,除了技術(shù)之外,管理者的態(tài)度也起到了重要作用。
“我們部署了一套制衡體系,確保我們的政策得到了遵守。” Franko說,他會讓手下的經(jīng)理們定期檢查員工的管理工作,并反復(fù)核對。
他認為這樣有助于將人為失誤的影響減小到最低限度,“誰都會犯錯,特別是一旦你沒有多重核對機制,某些方面就更加容易疏忽或遺漏?!?/p>
進行預(yù)防性維護
常規(guī)的預(yù)防性維護也許是提高服務(wù)器可靠性最容易、最不費力的方法,就像有些舊車維修廣告中提醒的那樣,“不是現(xiàn)在掏錢,就是以后掏錢”。
“根據(jù)木桶原理,服務(wù)器正常運行時間有多長,完全取決于相關(guān)維護服務(wù)交付鏈中最薄弱的那個部分?!盉eddoe說。
Beddoe堅信,只要定期執(zhí)行一系列必要維護工作,例如更新系統(tǒng)軟件、提供有保障的電源以及確保足夠的冷卻能力,就能夠打造一個順暢運行的數(shù)據(jù)中心,而且既不會超出預(yù)算,又不會增加員工的負擔(dān)。
Franko表示,為了確保所有必要工作能夠在需要時得到執(zhí)行,應(yīng)該確認服務(wù)器維護任務(wù)的時間表?!翱梢愿鶕?jù)任務(wù)的輕重緩急,確定相關(guān)工作的優(yōu)先級。例如像安全更新這樣的工作,就可以立馬著手開展,而例如改進非關(guān)鍵功能的軟件更新,就可以分批處理,按固定的間隔時間來開展?!?/p>
Franko還補充說,進行維護工作時不應(yīng)該占用服務(wù)器的正常運行時間?!拔覀儾粫驗榫S護工作而讓系統(tǒng)停運?!?/p>
在實際工作中,當(dāng)Franko的團隊非要拆下某臺服務(wù)器進行維護時,他們會安排在用戶需求較低的晚間或周末時間段來進行?!爸挥心切┥婕暗疥P(guān)鍵更新的工作時,我們才會在正常工作時間拆下運行中的服務(wù)器,進行相關(guān)維護?!?/p>
合理使用管理工具
不可否認,服務(wù)器管理在過去的幾年間變得越來越復(fù)雜,涌現(xiàn)出了大量旨在提高服務(wù)器效率和利用率的虛擬化及相關(guān)技術(shù)和做法。虛擬化技術(shù)本身有助于保護數(shù)據(jù)中心免受服務(wù)器停機的影響,虛擬化技術(shù)通過合并服務(wù)器,并將它們連接到共享環(huán)境,允許多個虛擬機可以在不同的主機上運行。一旦某個主機出現(xiàn)故障,它上面的工作負載就會重新分配到其余的主機上。Gabiam說:“你可能會遇到服務(wù)器故障,但不是說故障就肯定會影響服務(wù)?!?/p>
為了管理這種日益虛擬化的環(huán)境,Xenos Software、Uptime Software、Nimsoft和Nagios Enterprises等廠商提供了各自的工具,旨在幫助數(shù)據(jù)中心的工作人員監(jiān)控服務(wù)器性能、查找出現(xiàn)的問題,并且充分利用提升性能的機會。
新澤西州普林斯頓市診斷醫(yī)學(xué)成像公司Princeton Radiology的IT主管Alan Howard的實際工作經(jīng)驗告訴他,在服務(wù)器虛擬化時代,別把時間和資源浪費在不能直接有助于延長正常運行時間的活動和工具上。
“比如說,投入到集群上的努力可以說就是無用功,而使用提供完全自動化的工具能更有效地獲得冗余性?!盚oward表示,“不是自動化的集群(即手動完成同步工作)帶來的問題遠多于它能夠帶來的好處,例如主節(jié)點失效可能會帶來嚴重后果。因此,與其主節(jié)點失效還不如備用節(jié)點失效,因為前者恢復(fù)起來更容易?!?/p>
目前,Howard的部門就管理著Windows Server集群?,F(xiàn)在他們面臨的情況是,一旦進行故障切換,這個集群上的應(yīng)用程序就會崩潰,因為對應(yīng)用配置文件所作的改變沒有移植到備用服務(wù)器上。 “排查應(yīng)用程序崩潰的根源往往比排查集群節(jié)點故障的根源要費力得多?!?Howard說。
針對這樣的情況,Howard讓手下不再配置傳統(tǒng)意義上的集群服務(wù)器,而是有一個由多臺獨立服務(wù)器組成的“集群”——所有服務(wù)器映射到一個雙控制器Compellent存儲中心存儲區(qū)域網(wǎng)(SAN)上,“這樣我們就能根據(jù)需要,相當(dāng)順暢地在服務(wù)器之間遷移虛擬機。”
因此,如果沒有適當(dāng)?shù)谋O(jiān)管,服務(wù)器管理者根本也許無法查明影響正常運行時間的根源,也無法衡量停機對關(guān)鍵業(yè)務(wù)服務(wù)帶來的影響。
Beddoe覺得必要的服務(wù)器監(jiān)管工具必不可少,他說:“你要做到讓人放心,你的所有服務(wù)器在任何時候都在正常運行?!?/p>
Beddoe還在使用Uptime Software公司的正常運行時間管理軟件,他認為這類工具屬必備的工具,因為只要服務(wù)器的運行條件超過特定的閥值(比如出現(xiàn)內(nèi)存過載或處理器使用率過高時),這些工具就會觸發(fā)警報。
雖然大多數(shù)此類工具都附帶內(nèi)置的報警功能,但Beddoe更看重那些可以對報警條件進行設(shè)置的產(chǎn)品,“因為你需要掌握有意義的信息,以便能采取必要的措施進行糾正,包括在大屏幕顯示器上向操作人員發(fā)出警報。”
Carfax公司位于美國弗吉尼亞州森特維爾市,專門制作車輛歷史報告。運營經(jīng)理Jerry Gregg表示,許多性能測量工具計算出來的服務(wù)器正常運行時間只是個近似值, “這個值充其量只能用來參考一下?!?/p>
Gregg說,一些基本的正常運行時間測量工具測得的數(shù)值實際上可能有欺騙性,因為這些工具不能完全區(qū)別所有故障的不同。這個時候,數(shù)據(jù)中心的管理者就需要有一套能夠提供基于時間和事件的分析功能的測量工具。
為了讓對正常運行時間的分析顯得更有意義,Gregg目前使用的是可以顯示服務(wù)器故障對關(guān)鍵業(yè)務(wù)服務(wù)所產(chǎn)生影響的測量工具。Gregg使用的是BMC Software公司的ProactiveNet性能管理軟件,這個軟件能夠直接把服務(wù)器停機時間與銷售交易及其他類型的面向服務(wù)的業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)起來?!斑@樣我不僅可以通過時間來量化停機帶來的影響,還可以通過金錢來量化影響?!?/p>
Gregg表示,在使用了這款軟件后,他發(fā)現(xiàn),系統(tǒng)生成的信息可以幫助他確定故障模式是否有可能嚴重影響到公司的利潤,從而能證明有無必要花錢購買新服務(wù)器、更好的網(wǎng)絡(luò)設(shè)備或能夠增強可靠性的其他技術(shù)和服務(wù)。Gregg說:“要是沒有這些信息,我可能就要在不知道具體成本的情況下進行成本效益決策。”
別讓安全問題
成為絆腳石
確保系統(tǒng)的安全性,在保證服務(wù)器正常運行方面也起到重要作用,因為惡意軟件或不安全的網(wǎng)絡(luò)會危及服務(wù)器的正常運轉(zhuǎn)。
Beddoe認為,數(shù)據(jù)中心的管理者首先需要從物理安全著手來保證服務(wù)器能夠正常工作,也就是說要從數(shù)據(jù)中心的基礎(chǔ)建設(shè)入手,確保“物理安全性”。接下來,再制定服務(wù)器訪問規(guī)則并確保執(zhí)行的力度。至于其他的安全手段,諸如反病毒程序、防火墻和訓(xùn)練有素的管理員,都屬于常規(guī)安全手段?!?/p>
Superior Technology Solutions是紐約的一家IT咨詢公司和定制軟件開發(fā)商,公司負責(zé)監(jiān)管服務(wù)器運行的John Luludis表示,他認為要真正確保服務(wù)器的正常運行時間最大化,重要的是不能僅僅滿足于基本的安全措施,更需要進行定期的獨立安全審計。平日,他就常對自己的網(wǎng)絡(luò)定期進行滲透測試。
雖然Princeton Radiology的Howard也極力主張進行常規(guī)的服務(wù)器維護,但他指出,盡管經(jīng)理和員工都盡了最大的努力,有些故障還是在所難免。Howard建議,要建立相應(yīng)的規(guī)范,以避免因為服務(wù)器故障而引起的任何數(shù)據(jù)丟失,“所以要制定與企業(yè)的綜合業(yè)務(wù)連續(xù)性戰(zhàn)略相互配合的數(shù)據(jù)保護方案?!盤rinceton就使用了Compellent Technologies公司的異地存儲解決方案來復(fù)制所有已存儲的數(shù)據(jù)。
與Princeton Radiology的Howard不一樣,Gabiam喜愛集群技術(shù),他使用Novell集群服務(wù)來提供另一層冗余性。他解釋,如果集群中的某個節(jié)點失效,或者需要停機以便維護,那么在該節(jié)點上運行的集群應(yīng)用程序或服務(wù)組件就可以在集群中的另一個節(jié)點上無縫運行。
Gabiam很相信內(nèi)置在數(shù)據(jù)中心網(wǎng)絡(luò)基礎(chǔ)設(shè)施中的負載均衡技術(shù),以此來防范突如其來的服務(wù)器故障。“如果某臺服務(wù)器崩潰,或某個應(yīng)用程序沒有響應(yīng),那么其流量就會重新定向到能處理負載的其他類似服務(wù)器上?!?/p>
Gabiam說:“萬一發(fā)生軟、硬件故障,我通常希望應(yīng)用程序會自動切換到下一個優(yōu)先節(jié)點上,當(dāng)然管理員也可以手動配置這個遷移過程?!?/p>
關(guān)注硬件質(zhì)量
“一分錢,一分貨”,性能優(yōu)良的軟硬件設(shè)備,往往價格不菲。但是采用高質(zhì)量的服務(wù)器而不是質(zhì)量低劣的設(shè)備,顯然能夠保證服務(wù)器更長時間地可靠運轉(zhuǎn)。
IT服務(wù)提供商E-N Computers的運營主管Jeffrey Driscoll說:“改用中檔或高端服務(wù)器后,硬件壽命肯定會不一樣?!?/p>
不過在實際情況下,預(yù)算緊張的IT經(jīng)理們常常面臨痛苦的選擇:是用低成本的產(chǎn)品滿足業(yè)務(wù)需求?還是購買質(zhì)量更好、更可靠的系統(tǒng)來滿足既定的性能標(biāo)準(zhǔn)?
Driscoll建議:“購買要明智,應(yīng)物色物美價廉的產(chǎn)品,盡量爭取到滿足實際運營需求的預(yù)算,一定要向管理層表明不可靠的服務(wù)器可能造成經(jīng)濟損失的不爭事實,用簡單的數(shù)字和預(yù)測就很容易證明這一點。”
除此之外,慘痛的經(jīng)驗表明,不要試圖從老化的服務(wù)器上榨出最后一點價值,那樣只會浪費時間、精力和金錢。
“硬件畢竟是硬件,總會壞掉?!盙abiam說,“重要的是汲取之前的經(jīng)驗教訓(xùn),并且準(zhǔn)備好方案,萬一問題再次發(fā)生,可以從容應(yīng)對?!?/p>
關(guān)注硬件來確保正常運轉(zhuǎn)時間,這就意味著IT經(jīng)理們還要精確掌握整個系統(tǒng)的更新周期,知道該在什么時候棄用舊設(shè)備,改用新設(shè)備?!叭绻愕腎T人員有25%的工作時間用于到處救火和維護過時系統(tǒng),這是最嚴重的浪費時間的行為?!癇eddoe說。