呂蘊藉
從安全漏洞到軟件工程失敗,這些備受矚目的IT災難在2021年對現實世界造成了嚴重破壞。對于任何規(guī)模的公司來說,IT都是業(yè)務運營的代名詞。因此,當技術出現故障時,公司可能會隨之倒閉。
IT故障,無論是復雜的系統還是項目,都越來越多地登上了商業(yè)新聞版塊,其負面影響可能變得更加具有威脅,而且令人尷尬。這里收集了2021年的7場最大的技術危機,以突出各種近乎災難性的IT問題,這些問題不僅會出現,而且會對業(yè)務產生巨大影響。
為什么應該設計更好的用戶界面
許多公司傾向于對IT工具采取“如果它沒有壞,就不要進行修復”的態(tài)度,如果你曾經參與過拙劣的升級或部署,就會知道這是為什么了。
花旗銀行的一個后端系統就是這樣的一個例子,也是造成5億美元業(yè)務失誤的主要原因之一。故事是這樣的:花旗銀行試圖代表其客戶之一的露華濃向露華濃的幾個債權人支付780萬美元的利息。在Flexcube系統中這樣做是一個繁瑣笨重的過程,要將大部分付款發(fā)送到花旗銀行內部賬戶,而只有利息部分支付給債權人。盡管3個不同的人簽署了露華濃的這筆交易,但是沒有檢查所有適當框架,并款項發(fā)出了9億美元,其中大部分是直到2023年才要歸還于債權人。
可能這種錯誤并非聞所未聞———而且受益方通常會將錯誤發(fā)送的錢退還給犯錯的公司。但這一次情況有所不同,發(fā)出的一半以上的錢都流向了各種對沖基金,對露華濃有利。他們說,他們認為這筆錢是提前償還欠下的債務,2021年法官裁定他們不必歸還。
這里的重要教訓是至少要使機構的UI現代化,以確保員工能夠以通暢、連貫的方式履行他們的職責。
法國銀行客戶看到彼此的賬戶
法國銀行LCL的客戶于2021年2月23日登錄了自己的銀行應用程序,卻發(fā)現他們正在查看別人的信息。這個消息很快在Twitter上傳播開來,許多人猜測這可能是網絡攻擊的結果。但據銀行本身稱,這實際上是一天內更新軟件的錯誤結果。
當然,這類開發(fā)失誤是公司內部失敗的征兆,尤其不應該發(fā)生在銀行業(yè)。后果說明了此類錯誤的典型表現,該公司有責任將事情最小化,LCL表示沒有透露任何個人信息,客戶只能看到其他客戶的賬戶而不能轉賬,也許只有數百名客戶受到影響。業(yè)內人士指出,交易信息可以用來推測客戶身份,并且當漏洞在實時代碼上運行時,潛在的數萬用戶正在登錄。最后,LCL不得不積極采取措施以避免受到歐洲隱私監(jiān)管機構的巨額罰款。
當軟件保持牢房門鎖定時
2019年,亞利桑那州立法機關通過了一項法律,允許某些被判犯有非暴力罪行的囚犯在州監(jiān)獄中完成服刑,以加快他們的釋放。但2月份的告密者透露,一年多后,跟蹤囚犯釋放資格的軟件仍未更新以適應新法律。雖然國家堅持認為符合條件的囚犯可以手動重新計算他們的刑期,但事實是許多人可能不知道他們有資格獲釋,或者沒有外界的支持者來推動他們的案件,因此他們在監(jiān)獄中苦苦掙扎,其實法律已經規(guī)定他們當有權自由。
這里有幾個IT關鍵,一個是在任何系統中構建靈活性和可擴展性的重要性;另一個是,軟件不僅僅是軟件,它對人類生活有著真實而深遠的影響。最后,還有一個問題是如何以代碼的形式實施法律,以及執(zhí)法算法是否應該在立法過程中開發(fā),而不是在法律已經通過之后再寫出來。
緬因州古老的人力資源系統
正如《波特蘭新聞先驅報》所描述的那樣,緬因州的人力資源和工資單由“一個40歲的系統運行,該系統用過時的語言編程,只有一名州雇員知道如何使用”。
ERP系統和類似平臺的推出是出名的容易發(fā)生災難,緬因州的工資需求非常復雜(例如,如果州警察攜帶武器、使用K9工作或穿著潛水裝備,他們的每小時工資就會不同)。爭議的核心是一個故事,任何參與過這樣的大項目的人都知道,緬因州系統上線時有50 %的錯誤率,Workday說緬因州導入系統的數據是無可救藥地充滿了錯誤,雙方爭吵不休,最終Workday退出了該項目。
更根本的是,緬因州似乎正在雇傭不具備所需技能的員工來從事該項目,而該州不愿意支付足夠的工資來尋找能夠達到要求的工人。加上一些其他問題就會遇到真正的IT管理混亂,導致緬因州仍在使用其已有40年歷史的人力資源系統。
亞馬遜的休假問題
如果從前2個項目中得出的結論是當地政府沒有能力進行稱職的項目管理,但其實2021年在一家私營企業(yè)中爆發(fā)了一場同樣的危機。
《紐約時報》的一項調查顯示,亞馬遜為員工提供各種休假的內部流程極其混亂。這導致了一系列影響白領和藍領工人的恐怖故事,例如員工因在批準休假期間不上班而被解雇,休產假的新媽媽看到他們的薪水神秘減少,以及一名受傷的傷殘工人被迫賣掉他的結婚戒指換取現金,因為他的支票不再出現。
事實證明,亞馬遜使用來自不同供應商的多種軟件產品管理休假系統,這是其最初快速增長時期的“遺產”。所以這里的教訓是,在公司歷史早期做出的選擇可能會在數年或數十年后產生影響。就像亞利桑那州的監(jiān)獄系統一樣,亞馬遜試圖通過人工來彌補IT功能障礙———67名全職員工致力于輸入員工休假數據,這項工作壓力很大,而且許多人自己也還需要請假。
吃自己的狗糧
2021年10月4日,世界各地的人們都無法訪問Facebook,Instagram,WhatsApp,因為該公司在Meta上運行的所有服務都與互聯網斷開了連接。我們不會深入了解危機的實際原因,其中涉及邊界網關協議中的錯誤,該錯誤基本上將Facebook服務與互聯網的DNS系統的其余部分切斷了聯系。相反,我們希望關注可能與IT商店相關細節(jié)。
在停電初期,有媒體報道稱,Facebook員工無法進入公司總部,因為他們的身份證不再能開門。這反過來又阻止了技術人員對問題服務器的訪問。不可思議的是,Facebook的電子門鎖是由Facebook驅動的。Facebook似乎相當癡迷于在Facebook自己的基礎設施上運行其所有內部系統,這意味著其內部通信系統也出現了故障,無法應對危機。這樣做的公司的行業(yè)術語是“吃自己的狗糧”,這通常被視為對自己產品的信任投票,但Facebook的災難表明企業(yè)需要方便的備用供應服務。
迅速取締潛伏的錯誤
2021年6月8日,數百萬試圖訪問英國政府部門網站的用戶發(fā)現自己遇到了503錯誤代碼,這表明托管該網站的服務器無法處理請求。這么多不同的網站怎么會同時下線?事實證明,答案與內容交付網絡的興起有關,這些網絡在互聯網上的戰(zhàn)略是為其客戶部署代理服務器,以確保超快的加載時間。如今,幾乎每個大型內容站點都使用CDN,而這個領域的參與者并不多,因此當一個站點出現故障時,可能會導致大量互聯網問題隨之而來。
在這種情況下,單點故障是Fastly,這是一家CDN業(yè)務蓬勃發(fā)展的邊緣計算提供商。2021年5月12日推出的軟件更新,其中包含一個錯誤,該錯誤可能由特定客戶配置在合適的條件下觸發(fā)。2021年6月8日,一位客戶在不知不覺中更新了他們的配置,并在軟件開發(fā)和行業(yè)整合的交匯處引發(fā)了一場危機。