□ 孟士清
自互聯(lián)網(wǎng)公司加入金融創(chuàng)新競爭中以來,銀行不僅要面臨同業(yè)間激烈競爭,還要應(yīng)對互聯(lián)網(wǎng)金融的挖角,為此銀行的業(yè)務(wù)產(chǎn)品和信息技術(shù)迭代達到前所未有的速度。作為銀行的科技部門,一方面要做好開發(fā)工作來支持業(yè)務(wù)創(chuàng)新,另一方面還要做好運維工作來保障傳統(tǒng)業(yè)務(wù)和創(chuàng)新業(yè)務(wù)的持續(xù)穩(wěn)定運行。產(chǎn)品開發(fā)對底層技術(shù)架構(gòu)依賴較少,轉(zhuǎn)型和創(chuàng)新速度快;與開發(fā)相比,作為科技后臺支持的運維工作受限于底層軟、硬件架構(gòu),無法快速實現(xiàn)轉(zhuǎn)型,現(xiàn)有資源和管理方式已經(jīng)難以滿足開發(fā)部門快速部署、快速迭代和持續(xù)運行的需求。
云平臺也被稱為按需平臺(on-dema nd platform),顧名思義,是根據(jù)使用部門實際需求定制的管理平臺,通過開放平臺技術(shù)池化底層物理資源,使用自動化手段替代手工部署和運維等相關(guān)操作。云平臺的出現(xiàn)為銀行IT系統(tǒng)架構(gòu)轉(zhuǎn)型指明了方向,已有不少銀行就云平臺建設(shè)進行探索,監(jiān)管部門也鼓勵銀行根據(jù)自身情況搭建云平臺,提升IT運維、管理工作水平。
農(nóng)行江蘇分行作為系統(tǒng)和同業(yè)內(nèi)的業(yè)務(wù)大行和體量大行,其科技工作具有較強代表性。本文以江蘇農(nóng)行為例,分析了當(dāng)前銀行IT運維工作中普遍存在的問題,并據(jù)此對銀行云平臺構(gòu)建提出建議。
(一)日益增長的軟硬件設(shè)備數(shù)量同有限運維人力之間的矛盾。近年來,銀行管理的IT系統(tǒng)和硬件設(shè)備數(shù)量不斷增加,就江蘇農(nóng)行實際情況來看,其原因主要有兩個:一是金融業(yè)務(wù)不斷發(fā)展創(chuàng)新,技術(shù)層面的迭代導(dǎo)致系統(tǒng)迭代更加頻繁,銀行需要根據(jù)應(yīng)用架構(gòu)升級不斷部署新系統(tǒng),且業(yè)務(wù)創(chuàng)新不斷涌現(xiàn),亟需更多的測試和生產(chǎn)系統(tǒng)支持。另一方面,銀行的系統(tǒng)架構(gòu)正逐步轉(zhuǎn)型,計算資源由幾年前的小型機為主向開放平臺轉(zhuǎn)變,小型機數(shù)量不斷縮減,X86服務(wù)器的數(shù)量快速增加;同時存儲資源則隨著數(shù)據(jù)量的增加不斷擴張,分行存儲設(shè)備如NAS和SAN設(shè)備的數(shù)量也在逐漸增加。運維人員不但要投入到硬件設(shè)備部署、應(yīng)用系統(tǒng)變更上線上,還要應(yīng)對突發(fā)的軟硬件故障。在運維規(guī)模持續(xù)擴張的情況下,這些勞動密集型的工作消耗了愈來愈多的人力資源。而銀行系統(tǒng)運維人員數(shù)量基本維持不變,長此以往,運維壓力繼續(xù)增加,系統(tǒng)運維工作將陷于疲于應(yīng)對的不利局面。
(二)日益增強的業(yè)務(wù)連續(xù)性要求同傳統(tǒng)系統(tǒng)架構(gòu)之間的矛盾。作為金融企業(yè),確保業(yè)務(wù)的連續(xù)運行至關(guān)重要,尤其是自助機具、網(wǎng)銀、掌銀上部署的業(yè)務(wù),更是要求24小時無間斷運行。銀行業(yè)務(wù)系統(tǒng)極短時間的中斷也可能會給客戶帶來嚴重的經(jīng)濟損失,進而導(dǎo)致聲譽風(fēng)險。目前江蘇農(nóng)行重要的業(yè)務(wù)系統(tǒng)大多實現(xiàn)了通過負載均衡系統(tǒng)接入應(yīng)用服務(wù)器,這在應(yīng)用層面保證了業(yè)務(wù)的連續(xù)性,但是底層的sybase數(shù)據(jù)庫大多以單實例方式部署在小型機分區(qū)上,得益于小型機的穩(wěn)定工作,大部分時間數(shù)據(jù)庫的連續(xù)工作是能夠保證的。而停機窗口的數(shù)據(jù)庫維護仍將不可避免地造成一段時間的業(yè)務(wù)中斷。分行的數(shù)據(jù)庫維護均在總行的停機窗口進行(一般為周末凌晨2點),雖然從時間上選擇了業(yè)務(wù)量較少的時段,但無法確保此期間內(nèi)沒有客戶使用相關(guān)系統(tǒng)。2018年以來,分行已經(jīng)提出了不停機維護的明確要求,但就目前的架構(gòu)來看,尚無可能實現(xiàn)完全的不停機、不停業(yè)務(wù)的維護。
(三)日益提升的系統(tǒng)安全性要求同有限的災(zāi)備技術(shù)手段之間的矛盾。系統(tǒng)的安全性要求所有的系統(tǒng)和數(shù)據(jù)都要有備份,理想的災(zāi)備手段是使災(zāi)備切換時間盡量短、恢復(fù)的時點盡量接近。銀行現(xiàn)有的備份和災(zāi)難恢復(fù)工作中包含了大量人工操作的部分,因此備份更新頻率和切換速度均不太理想。從江蘇農(nóng)行具體情況來看,虛擬服務(wù)器備份方面,運維人員每個季度通過腳本對全量虛擬機進行手工備份,備份周期為季度,備份的粒度過大,對于數(shù)據(jù)庫來說,每天晚上對生產(chǎn)上的數(shù)據(jù)庫進行導(dǎo)出操作,結(jié)束后導(dǎo)入到備份數(shù)據(jù)庫中,備份周期為一天。上述備份方式不僅自動化程度不高,而且備份周期過長,如遇到生產(chǎn)數(shù)據(jù)庫恢復(fù),則會丟失當(dāng)天的交易數(shù)據(jù),這是不能容忍的。在災(zāi)備恢復(fù)方面,一般流程包括“故障發(fā)現(xiàn)——故障判斷——備份切換”三部分,目前后面兩個流程完全依賴運維人員判斷和操作,導(dǎo)致切換時間過長,影響應(yīng)急切換的效率。整體來看,在災(zāi)備方式上,分行現(xiàn)有技術(shù)手段比較單一,災(zāi)難恢復(fù)效率低,愈發(fā)無法滿足IT系統(tǒng)安全性要求。
(四)日益精細化、集約化的管理要求同手工管理之間的矛盾。傳統(tǒng)銀行運維工作中,由于缺少自動化管理軟件,一般依靠文本和表格記錄資源申請、部署和變更情況。目前江蘇農(nóng)行所有的系統(tǒng)部署、變更申請基本上通過IT服務(wù)平臺進行申請、審批,同時填寫紙質(zhì)系統(tǒng)部署申請表,這一套流程僅僅實現(xiàn)了系統(tǒng)申請部分的信息化,而對于系統(tǒng)部署和變更操作以及后續(xù)資料管理上較為粗放,基本上是依靠手工記臺賬,僅系統(tǒng)信息采集類的臺賬表格就多達十幾張,每次系統(tǒng)操作之后,維護對應(yīng)項目的臺賬占用了運維人員相當(dāng)一部分時間,形成了額外的工作壓力。此外,依靠手工維護的臺賬在準確性和規(guī)范性方面存在不足,這也給以此為基礎(chǔ)的統(tǒng)計和管理工作帶來困難。除臺賬之外,系統(tǒng)的變更和部署操作也多為手工完成,缺乏自動化手段。人工部署交付的系統(tǒng)在參數(shù)、環(huán)境以及配置方面普遍存在細微差異,這種差異在投產(chǎn)后很可能導(dǎo)致服務(wù)器性能無法達到最優(yōu)水平,且在部署時如果不能嚴格按照總行安全和配置規(guī)范實施,則會引發(fā)系統(tǒng)安全問題,給未來的生產(chǎn)運行埋下隱患。
綜上所述,銀行現(xiàn)有的運維體系在應(yīng)對新形勢下的運維需求上存在諸多不足。云平臺技術(shù)的出現(xiàn)和日臻成熟為銀行走出現(xiàn)有架構(gòu)下的運維困境提供了思路。目前,政府部門和大型企業(yè)紛紛就建設(shè)私有云平臺做出探索,系統(tǒng)內(nèi)農(nóng)行和建行已在測試環(huán)境下試用了云平臺。在此背景下,銀行構(gòu)建符合實際運維需求的金融云平臺、實現(xiàn)傳統(tǒng)架構(gòu)轉(zhuǎn)型是必行之路。根據(jù)銀行目前的系統(tǒng)架構(gòu)和實際工作需求,筆者認為可初步構(gòu)建如圖1所示的云平臺架構(gòu)。
圖1 分行云平臺架構(gòu)簡圖
(一)資源層——構(gòu)建物理設(shè)備資源池。實現(xiàn)不同品牌的異構(gòu)物理資源的池化是云平臺建設(shè)的一項基礎(chǔ)工作,資源池化(IaaS,基礎(chǔ)結(jié)構(gòu)即服務(wù)),即把最底層不同類型的物理設(shè)備通過平臺或接口進行統(tǒng)一調(diào)度,使運維人員從學(xué)習(xí)和掌握各類不同類型、不同品牌設(shè)備具體操作的復(fù)雜工作中脫身,從而能夠更加專注于統(tǒng)籌規(guī)劃和日常管理等方面的工作。從各行實際情況來看,每年采購的設(shè)備品牌不斷變化,多年積累下來,銀行現(xiàn)有服務(wù)器品牌多達幾十種,主流存儲品牌超過10種,還有各種品牌的交換機、小型機等硬件設(shè)備,分門別類地進行管理工作量大,單個運維人員很難做到熟練操作所有硬件設(shè)備,因此構(gòu)建物理資源池意義重大。IaaS在構(gòu)建方式上可以通過OpenStack等開源平臺對接實現(xiàn),也可以通過創(chuàng)建定制接口池來實現(xiàn)。通過開源平臺調(diào)用底層物理設(shè)備的優(yōu)點是功能強大、可擴展型好、兼容性佳,但前期開發(fā)成本高和工作量大,實現(xiàn)周期較長??紤]到銀行現(xiàn)有主流的Vmware虛擬化架構(gòu)短期內(nèi)不會改變的情況,筆者認為構(gòu)建物理資源池可以分兩步走,短期內(nèi)通過調(diào)用Vmware接口實現(xiàn)初步的基于VMware的計算資源、存儲資源和網(wǎng)絡(luò)資源的統(tǒng)籌管理調(diào)度,以滿足當(dāng)前的運維需要;與此同時,使用部分測試用物理設(shè)備來開發(fā)和測試基于開源平臺的物理資源的池化技術(shù),為未來系統(tǒng)架構(gòu)轉(zhuǎn)型做技術(shù)儲備。
(二)調(diào)度層——實現(xiàn)自動化部署、自動化災(zāi)備恢復(fù)和自動化運維機制。資源池化是云平臺建設(shè)的基礎(chǔ),而在調(diào)度層實現(xiàn)自動化則是云平臺構(gòu)建的核心技術(shù)。筆者認為,分行金融云應(yīng)爭取實現(xiàn)部署、災(zāi)備恢復(fù)和運維三類自動化工作。自動化部署是第一步,是云平臺根據(jù)管理員的指令自動部署各類資源包括服務(wù)器、負載均衡、標準化軟件等。與手工部署相比,自動化部署通過事先設(shè)定部署參數(shù)和組件實現(xiàn)標準化、規(guī)范化部署,避免了部署過程中的人為差錯,縮短了部署過程中各環(huán)節(jié)工作的銜接時間,部署的質(zhì)量和效率均可得到顯著提升。災(zāi)備切換是IT運維工作中的重要環(huán)節(jié),其包括自動備份和自動恢復(fù)兩項工作。自動備份是按照事先約定的規(guī)則對應(yīng)用、數(shù)據(jù)庫和配置等分別進行備份;自動恢復(fù)則是平臺定期根據(jù)檢測條件進行健康檢查,如檢測異常可提示運維人員切換,或根據(jù)規(guī)則自動切換。云平臺能夠提供多種災(zāi)備切換方式,通過合理的設(shè)置完全可以實現(xiàn)秒級切換,可靠保證了業(yè)務(wù)的連續(xù)性。自動化運維是云平臺建設(shè)的高層次目標,其致力于打造一個能夠自動發(fā)現(xiàn)問題并自動修復(fù)問題的智能運維平臺。由于生產(chǎn)中出現(xiàn)的問題種類多樣,同一問題的原因可能各不相同,實現(xiàn)完全的自動化運維較為困難。前期可以實現(xiàn)一些簡單的自動化運維工作,解決一些常見的簡單問題,也可以在一定程度上降低運維人員的工作壓力。在云平臺架構(gòu)中,調(diào)度層將根據(jù)實際工作中的需求進行“量身”打造,力爭覆蓋運維工作中占用精力多、簡單、重復(fù)的勞動,既要切實減輕運維人員壓力,又要提升運維工作質(zhì)量。
(三)管理層——打造高效的綜合管理平臺。管理層是云平臺的展現(xiàn)層和操作層,通過Web界面實現(xiàn)與用戶之間的交互,也被稱為云管平臺。用戶通過Web界面訪問云平臺提出資源申請、變更請求等;管理員登陸運管平臺對所有申請進行審批、發(fā)送指令進行資源部署,并能對所有系統(tǒng)資源進行統(tǒng)一管理。在分行云管平臺設(shè)計上,首先要實現(xiàn)操作留痕,平臺應(yīng)保存所有對底層資源的操作記錄,做到每一筆部署和變更均有據(jù)可查。第二,要實現(xiàn)資源從申請、審批、部署、變更、回收的全流程關(guān)聯(lián),做到所有資源有名有主、所有操作有憑有據(jù),從而達到流程管理的規(guī)范性。第三,依托云管平臺建立分行的IT架構(gòu)配置信息庫(CMDB),取代手工維護的excel表格,通過平臺抽取底層資源的詳細信息,并根據(jù)部署、變更記錄實現(xiàn)配置庫自動更新,同時還可提供多維度的查詢展示功能,方便相關(guān)的管理工作??傮w來看,云管平臺聯(lián)接了申請、變更/部署、配置庫更新等工作,自動化采集的數(shù)據(jù)更加精確,其可以把寶貴人力資源從維護復(fù)雜的表格等枯燥的日常工作解放出來,運維人員可以專注于平臺管理和資源運行狀態(tài)監(jiān)控等相對重要的工作。
未來,隨著傳統(tǒng)系統(tǒng)架構(gòu)向開放平臺轉(zhuǎn)型,銀行IT基礎(chǔ)設(shè)施建設(shè)的復(fù)雜度將陡然增加;同時金融創(chuàng)新和線上業(yè)務(wù)規(guī)模不斷擴張,IT系統(tǒng)需求也將更加旺盛,銀行信息系統(tǒng)運維工作正面臨空前的壓力,轉(zhuǎn)型和創(chuàng)新勢在必行。云平臺的出現(xiàn)為解決傳統(tǒng)運維痛點提供了思路,通過云平臺建設(shè),將大幅提升傳統(tǒng)運維工作的效率和質(zhì)量,加快系統(tǒng)需求的響應(yīng)速度。作為傳統(tǒng)金融業(yè)的支柱,農(nóng)業(yè)銀行應(yīng)走在時代前沿,抓住這一跨越式發(fā)展的寶貴機遇,提升IT運維水平,為金融業(yè)務(wù)發(fā)展提供更有力的科技支持。
[1]李小慶,《銀行云數(shù)據(jù)中心的構(gòu)建》,《金融科技時代》,2016年第8期。
[2]劉鋒,《央行分支機構(gòu)私有云平臺的應(yīng)用研究》,《電腦編程技巧與維護》,2017年第22期。
[3]張正、王孚瑤、張玉明,《云創(chuàng)新與互聯(lián)網(wǎng)金融生態(tài)系統(tǒng)構(gòu)建——以阿里金融云為例》,《經(jīng)濟與管理研究》,2017年第3期。
[4]周衡昌,《商業(yè)銀行金融云發(fā)展之路》,《金融電子化》,2016年第12期。
[5]朱文生,《大數(shù)據(jù)時代商業(yè)銀行面臨的挑戰(zhàn)及對策》,《中國金融電腦》,2015年第12期。