黃浩
在過去的一年里,國內的數(shù)據(jù)中心市場,獲得了高速的發(fā)展。來自IDC的數(shù)據(jù)顯示,2012年中國數(shù)據(jù)中心建設IT投資規(guī)模達1190億元,同比2011年1018億元增長16.9%;中國數(shù)據(jù)中心服務市場規(guī)?;驅⑦_248.7億元,相比2011年的174.3億元,增長率為42.7%。
這些數(shù)字從一定程度上反映出了社會信息化的進程,也暗含了“兩化深度融合”的國家戰(zhàn)略的萌發(fā)。可以說,在這一背景下,企業(yè)發(fā)展到一定程度大多將擁有IT的屬性。這種屬性,一方面優(yōu)化了企業(yè)的管理、生產流程,便捷了企業(yè)服務,然而另一方面,一旦IT系統(tǒng)出現(xiàn)問題,企業(yè)的服務、生產、管理都要受到不同程度的影響,尤其是企業(yè)的數(shù)據(jù)中心,一旦宕機往往意味著業(yè)務中斷。
服務器宕機,業(yè)務中斷,這不僅僅是一個令企業(yè)IT運維人員極度頭疼的概念,CFCA副總經理曹小青表示,如果銀行系統(tǒng)中斷1小時,將直接影響該行的基本支付業(yè)務;中斷1天,將對其聲譽造成極大傷害;中斷2天以上不能恢復,將直接危及其他銀行乃至整個金融系統(tǒng)的穩(wěn)定。而調研機構Qualix Group曾有一組數(shù)字量化了不同行業(yè)關鍵業(yè)務中斷帶來的經濟損失:服務器宕機1分鐘,平均會使運輸業(yè)損失15萬美元,銀行業(yè)損失27萬美元,通信業(yè)損失35萬美元,制造業(yè)損失42萬美元,證券業(yè)損失45萬美元。這也從直接經濟效益的角度解釋了關鍵業(yè)務平臺對穩(wěn)定性和可靠性的要求。
因此,在遍及2012全年的服務器宕機事件中,我們從中梳理了一些有代表性的事件,希望通過剝繭抽絲的方式,能夠找到一些應對措施。
事件因果
從服務器宕機事件的起因上來看,至少分為5種:災害性天氣、停電、黑客入侵、系統(tǒng)bug、運維失誤。并且每一種起因的背后都會找到長長的一串名單。
災害性天氣。
2012年10月24至30日,超級颶風桑迪橫掃了大西洋,古巴、多米尼加、牙買加、巴哈馬、海地、美國等國家和地區(qū)。這些區(qū)域的數(shù)據(jù)中心受到了嚴重的影響。其中,紐約市Datagram公司的服務器機房被洪水淹沒,導致《赫芬頓郵報》和Gawker等多家媒體網站宕機。颶風桑迪所帶來的影響超出了一般單一的中斷事故,為受災地區(qū)數(shù)據(jù)中心產業(yè)帶來了規(guī)??涨暗臑碾y。
問題:在災害性天氣已經準確預報的前提下,數(shù)據(jù)中心為何沒有制定相應的應急措施?
停電。
由于停電,凡客五周年的線上慶典活動被迫中斷了至少3個小時。2012年10月18日,由于北京酒仙橋附件區(qū)域出現(xiàn)大面積停電,導致凡客在此的服務器宕機,進而網站無法正常訪問。而隨后,凡客為彌補給用戶帶來的不便,決定將原本僅限于10月18日的滿200減50的店慶促銷活動,延長一天至次日24點。但業(yè)內人士分析,3個小時的服務中斷,至少讓凡客損失了幾千萬元的利潤。
在當日停電風波中,遇到同樣問題的電子商務網站還有亞馬遜中國、維棉等。
問題:當日8時左右酒仙橋出現(xiàn)大面積停電,經電力公司搶修9點20分恢復供電,但實際上凡客截至10點45分依然無法訪問,為什么?
系統(tǒng)BUG。
域名巨頭GoDaddy是一家重要的DNS服務器供應商,其擁有500萬個網站,管理超過5000萬的域名。這也解釋了為什么2012年9月10日宕機事故會是全年最具破壞性的代表。GoDaddy官方聲明該事件的起因是,由于內部的一系列路由器的數(shù)據(jù)表造成的網絡事件損壞。
問題:這次宕機事件持續(xù)T6個小時,盡管最后GoDaddy給出了免費一個月的補償,但是,恢復速度還是太慢了。
黑客入侵。
2012年6月21日,Twitter中斷了數(shù)小時,而五周后,7月26日,用戶在登錄Twitter的網站上只看到一則不完整的提示信息:“Twitter目前不可用,預計稍后恢復。”而后一名名為Cosmo黑客表示,他對UGNazi進行了一項針對社交網站的拒絕服務攻擊。
問題:黑客入侵與安全防護之間的關系,就像是矛與盾。不過,拒絕服務攻擊(DDoS)已不是啥新鮮的手法了。
運維失誤。
2012年7月28日Hosting.com被迫停運。停機事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進行UPS系統(tǒng)預防性維護,“服務供應商執(zhí)行斷路器操作順序不正確造成的UPS關閉是造成數(shù)據(jù)中心套房內的設施損失的關鍵因素之一?!盚osting.com首席執(zhí)行官ArtZeile說?!皼]有任何重要的電力系統(tǒng)或備用電源系統(tǒng)出現(xiàn)故障,完全是一種人為的錯誤造成的”。
問題:人為錯誤通常被認為是數(shù)據(jù)中心停機的主導因素之一,因此管住人、規(guī)范人很重要。
不只是“馬后炮”
說到應對服務器宕機,保持業(yè)務連續(xù)性,似乎上至企業(yè)CIO下至普通的IT運維人員,都能講出一堆套路:不差錢的就搞兩地三中心,一般的也至少會在容災段做軟容災,設置應急庫;在技術操作手冊上,也會列個幾十條須知。
然而,宕機事件還是頻頻發(fā)生。究竟是為什么?
2012年12月15日下午,中國銀行信用卡服務器宕機4小時。而按照銀監(jiān)會的要求,其必然已經做了兩地三中心的容災備份。問題的關鍵在于,持續(xù)4小時的宕機本身就是一個問題。
那么,很多人會問,為什么不做備份切換呢?
關于這個問題,記者并沒有得到中國銀行方面的正面回答。而隨后在記者的采訪過程中,日立一位負責金融行業(yè)的系統(tǒng)工程師表示,如果啟用備份系統(tǒng),由于存在應用上的未知性,沒人知道啟動之后會出現(xiàn)什么問題。事實上,任何時候銀行系統(tǒng)出現(xiàn)問題,都需要一把手拍板做決定,其他人沒有這個責任和膽量啟動預備系統(tǒng)。由此也不難理解為什么本次中國銀行宕機事件沒有迅速解決的原因了。
因此,問題的關鍵不在于是否做了容災備份,而是平時演練是否到位,關鍵時刻才能頂上去。同時,也要防止關鍵應用因系統(tǒng)開發(fā)和歷史延續(xù)等問題而綁死在某一服務器上。