本刊特約記者 李含茹(中國工商銀行數(shù)據(jù)中心(上海)辦公室)
單慧寧 趙永田 高建華:生產(chǎn)運維的“特種兵”
SAN HUINING,ZHAO YONGTIAN,GAO JIANHUA:THE"SPECIAL TROOP"OF OPERATION AND MAINTENANCE OF ICBC
本刊特約記者 李含茹(中國工商銀行數(shù)據(jù)中心(上海)辦公室)
或許不曾有人留意,當(dāng)工商銀行遍布全球42個國家、超過1.7萬個的網(wǎng)點為5億多個人客戶和500多萬公司客戶提供優(yōu)質(zhì)高效的金融服務(wù)的時候,有一個“日不落”機(jī)構(gòu),憑借著一支800多名能打硬仗、善打硬仗的生產(chǎn)運維“特種兵”隊伍,全年365天,全天24小時不停不歇地提供著全球信息系統(tǒng)一體化、標(biāo)準(zhǔn)化的IT服務(wù)支持。
這里的人,這里的故事,肯定能豐富你對保障生產(chǎn)運維“特種兵”的認(rèn)識和理解。
SAN HUINING單慧寧 E C C訓(xùn)練營的頂尖高手“太多工行科技人已用他們的實際行動甚至生命為我樹立了榜樣,讓我明白人活著要有方向,只有每個人都積極進(jìn)取,才能保持我們在金融科技領(lǐng)域的領(lǐng)先優(yōu)勢。”
如果我們把數(shù)據(jù)中心比喻為銀行業(yè)務(wù)運行的心臟,那么ECC總控中心就可謂數(shù)據(jù)中心的大腦。這里是7×24小時連續(xù)運行保障的主戰(zhàn)場,永遠(yuǎn)燈火通明,人流不斷。
ECC總值班,是總控中心第一責(zé)任人,全面負(fù)責(zé)ECC現(xiàn)場管理工作,除了要對應(yīng)用系統(tǒng)架構(gòu)有全面的了解,更要能適當(dāng)合理地對現(xiàn)場人員的工作任務(wù)進(jìn)行調(diào)配、靈活協(xié)調(diào)各種突發(fā)情況下的應(yīng)急處置。
因工作特性,班次安排對常人作息有著巨大的挑戰(zhàn):白班從8∶30開始持續(xù)12個小時,夜班從20∶30開始持續(xù)12個小時。第一批主動報名、接受挑戰(zhàn)的員工中就有一位身材嬌小的女性,她叫單慧寧。
第一次見單慧寧很難對她留下印象,學(xué)生式小平頭、衣著樸素、話語輕柔、步履匆匆。但同行只要一和她交談,馬上會覺得“這個女的不簡單!”在科技戰(zhàn)線奮斗了十八年,讓她對工行信息化建設(shè)過程中歷次關(guān)鍵性重大工程如數(shù)家珍;在生產(chǎn)調(diào)度一線的堅守,讓她熟稔生產(chǎn)運維管理的全流程。
2012年10月2日凌晨2∶16,單慧寧在ECC值班時接到運行部門反映某境外分行168地區(qū)3710(柜面取款)交易報錯的報告。她立即組織現(xiàn)場應(yīng)用支持部門的值班人員進(jìn)行分析,并請運行部門提示分行先引導(dǎo)客戶通過ATM取款。
在應(yīng)用支持值班人員抓緊問題分析的時候,單慧寧片刻沒有停止思考,她從ServiceDesk(科技服務(wù)臺)事件單附件的報錯信息推斷可能CTS新終端環(huán)境存在異常,因此同時督促主機(jī)系統(tǒng)部門檢查CTS環(huán)境。在主機(jī)專業(yè)人員比對該分行167、168地區(qū)CTS文件并發(fā)現(xiàn)168地區(qū)的某終端文件不正確后,單慧寧請應(yīng)用值班經(jīng)理聯(lián)系開發(fā)人員確認(rèn)是否可將167地區(qū)該文件覆蓋到168地區(qū),得到肯定答復(fù)后立即組織主機(jī)系統(tǒng)部門值班人員實施,凌晨3∶10左右故障最終解決,從主機(jī)側(cè)以及分行側(cè)均確認(rèn)業(yè)務(wù)恢復(fù)正常。
從ECC總值班的崗位上成長,如今單慧寧已是生產(chǎn)調(diào)度辦公室副主任,負(fù)責(zé)全行生產(chǎn)管理的一體化調(diào)度。她提出了生產(chǎn)管理專業(yè)一條龍的思路,減少重復(fù)環(huán)節(jié),壓縮管理成本。優(yōu)化后單個技術(shù)變更的平均受理時間由29.8小時壓縮至6.14小時,效率提升4倍以上。她推動建立了9991科技服務(wù)熱線與總行95588坐席熱線在生產(chǎn)應(yīng)急情況下的聯(lián)動響應(yīng)機(jī)制,為突發(fā)大面積生產(chǎn)故障時做好與客戶、合作單位的溝通提供支持。
ZHAO YONGTIAN趙永田 大師級運維骨干“每個人都像夜空中的星星,孤零零一顆星沒什么特別,唯有群星閃耀才有無限光彩。”
科技領(lǐng)先是工行為之驕傲的一張名片,工行科技一直以來就被奉為中國金融科技的“黃埔軍?!薄?/p>
趙永田,2009年畢業(yè)入行;2011年獲得“全國金融青年崗位明星”稱號;2013年通過 ORACLE最高級別認(rèn)證——大師級認(rèn)證OCM,成為中心自主培養(yǎng)的數(shù)據(jù)庫領(lǐng)域的高層次人才;2015年成為中心“進(jìn)取”文化形象代言。
他和所帶領(lǐng)的專業(yè)團(tuán)隊管理包括Oracle 、SQL Server、Teradata、Sybase等各類平臺數(shù)據(jù)庫超過1000套,外置存儲容量超過3000T,其中主流Oracle數(shù)據(jù)庫超過700套。這些數(shù)量眾多的數(shù)據(jù)庫所屬應(yīng)用特點各不相同,既有金卡前置等時效性要求較高的聯(lián)機(jī)應(yīng)用,又有綜合統(tǒng)計、績效考核管理等數(shù)據(jù)量龐大的經(jīng)營分析類系統(tǒng),可以說管理對象的數(shù)量、規(guī)模和運維難度均居業(yè)界前列,而他和團(tuán)隊通過努力使各類系統(tǒng)均保持超過99%的系統(tǒng)可用率。
大師之路并無捷徑,趙永田以行為家,每年加班時間都超過300小時,這一習(xí)慣已保持了七年。從入行開始,他幾乎每天都主動留下來學(xué)習(xí)專業(yè)技術(shù)知識,了解中心系統(tǒng)的運作機(jī)制;幾乎每次版本投產(chǎn)都在一線進(jìn)行實施和技術(shù)支持,按質(zhì)保量完成多個生產(chǎn)系統(tǒng)的改造和新應(yīng)用上線;憑借扎實的技術(shù)積累和豐富的運維經(jīng)驗,在通知消息數(shù)據(jù)損壞、第三方存管響應(yīng)緩慢等故障事件發(fā)生時,都是他在現(xiàn)場第一時間定位故障、果斷采取措施,及時恢復(fù)系統(tǒng)。有他在,領(lǐng)導(dǎo)同事們都非常放心,親切稱他為老趙。
老趙的愛好是鉆研新技術(shù)、新方法,這些年來,他牽頭完成了開放平臺Oracle RAC改造、MOVA一體機(jī)上線等多個重大技術(shù)攻堅項目實施;自行研究的RAC數(shù)據(jù)庫多IP切換技術(shù),廣泛使服務(wù)器置換與應(yīng)用配置解耦,最大限度降低了遷移置換風(fēng)險;首創(chuàng)了會話模擬解析技術(shù),填補(bǔ)了綁定變量管理的技術(shù)空白,確保系統(tǒng)升級的穩(wěn)定;主導(dǎo)了基于多節(jié)點RAC進(jìn)行小微應(yīng)用整合部署,在資源節(jié)約、提高彈性供應(yīng)能力等方面取得良好成效,為應(yīng)用架構(gòu)轉(zhuǎn)型提供了有益借鑒。
老趙曾說:“每個人都像夜空中的星星,孤零零一顆星沒什么特別,唯有群星閃耀才有無限光彩?!惫ぷ髌吣陙恚掷m(xù)對安裝部署、問題定位、應(yīng)急處理等方面進(jìn)行悉心總結(jié),形成數(shù)百篇技術(shù)文檔,他還為中心與分行培養(yǎng)了十多名數(shù)據(jù)庫運維骨干人才。
GAO JIANHUA高建華 系統(tǒng)一定要好用“系統(tǒng)要為業(yè)務(wù)服務(wù),不能因為系統(tǒng)的原因讓業(yè)務(wù)受到影響。”
2002年大學(xué)畢業(yè)即加入工行科技戰(zhàn)線的高建華一直從事著應(yīng)用及系統(tǒng)的維護(hù)工作,“要讓系統(tǒng)好用”是她始終不變的初心。由她負(fù)責(zé)測試、投產(chǎn)和推廣的信貸管理系統(tǒng)、固定資產(chǎn)管理系統(tǒng)、網(wǎng)上銀行系統(tǒng)、電話銀行系統(tǒng)等等,不少都是直接面對客戶,要求極高。
2003年,信貸管理系統(tǒng)的全國推廣投產(chǎn)是當(dāng)年全行的重點項目,項目實施過程中,高建華和同事們時常吃住在單位,辦公室的電話幾乎沒斷過。經(jīng)過1個多月5次連續(xù)上線,實現(xiàn)了39家分行400多臺服務(wù)器的上收,并成功解決了系統(tǒng)全國推廣后性能不佳的問題。信貸管理系統(tǒng)在全行的成功投產(chǎn)使工行在國內(nèi)銀行系統(tǒng)中率先成為信貸業(yè)務(wù)操作全流程電子化的銀行,可實現(xiàn)高度信息共享和信貸業(yè)務(wù)的無紙化處理。
從2006年開始,高建華就和工行電話銀行、網(wǎng)上銀行,以及互聯(lián)網(wǎng)金融類應(yīng)用的運維工作結(jié)下不解之緣。十年光陰,她以特殊的方式見證并親歷了工行在互聯(lián)網(wǎng)金融發(fā)展浪潮中的華麗升級。
2008年以前,工行開放平臺關(guān)鍵數(shù)據(jù)庫普遍采用ORACLE DATAGUARD技術(shù),存在故障切換時容易導(dǎo)致業(yè)務(wù)中斷等問題,單機(jī)資源擴(kuò)展能力也非常受限。高建華提出使用數(shù)據(jù)庫集群技術(shù),能大幅提升系統(tǒng)的高可用性和擴(kuò)展能力,減少系統(tǒng)停機(jī)維護(hù)時間。
在她的大力推動之下,該技術(shù)率先在網(wǎng)銀內(nèi)部管理系統(tǒng)數(shù)據(jù)庫上實現(xiàn),成效顯著,不久便被確立為工行開放平臺關(guān)鍵數(shù)據(jù)庫的標(biāo)準(zhǔn)技術(shù)規(guī)范,從2009年開始,工行用了三年時間完成數(shù)據(jù)中心開放平臺生產(chǎn)環(huán)境的全部推廣工作,惠及了包括企業(yè)網(wǎng)銀、個人網(wǎng)銀、金卡等在內(nèi)的所有四級及以上應(yīng)用。
如今作為數(shù)據(jù)中心系統(tǒng)四部的負(fù)責(zé)人,高建華的心始終被工行“e-ICBC”戰(zhàn)略的落地實施所牽動。
面對網(wǎng)上銀行數(shù)據(jù)庫服務(wù)器操作系統(tǒng)升級,停機(jī)時間短,風(fēng)險高的問題,她在行內(nèi)首次提出和使用alt_disk_copy方式實施,升級停機(jī)時間由100分鐘縮短到10分鐘。
融e購電商平臺剛上線時,包括“秒殺”在內(nèi)的不少功能都還不完善。她組織相關(guān)人員共同完善,提出了符合我行科技情況的建議。她還組織開發(fā)了融e購交易的入庫和展示等面向業(yè)務(wù)的監(jiān)控視圖,能使行內(nèi)員工直觀掌握融e購的交易量變化趨勢,并和系統(tǒng)性能指標(biāo)相結(jié)合來動態(tài)評估應(yīng)用的承載能力。
為了保證工銀融e聯(lián)億級用戶推廣實施,高建華又積極推動對融e聯(lián)應(yīng)用進(jìn)行園區(qū)部署優(yōu)化,首次使用華為盤機(jī)異步復(fù)制和oracle數(shù)據(jù)庫主備雙RAC DG技術(shù)進(jìn)行遷移,完成京滬兩地數(shù)千個操作系統(tǒng)、數(shù)百TB數(shù)據(jù)跨千公里級異步傳輸,將融e聯(lián)應(yīng)用從數(shù)據(jù)中心(上海)西三旗園區(qū)平穩(wěn)遷移到嘉定園區(qū),可滿足未來發(fā)展。
近年來,數(shù)據(jù)中心(上海)每年要接待100場以上的交流參觀團(tuán)隊。當(dāng)他們看到園區(qū)準(zhǔn)軍事化的安防設(shè)施和管理,宏偉的ECC總控中心、高端的中心機(jī)房、一體化的高效運維管理流程,無不贊嘆“國際一流”。這支不舍晝夜、不知疲倦的生產(chǎn)運維特種兵部隊,用責(zé)任和智慧鋪就了工行科技的寬闊道路。