王一凡 郭旭龍

Bank4.0 時代,“無科技不金融”已經(jīng)成為業(yè)內(nèi)共識。
Bank4.0 時代,“無科技不金融”已經(jīng)成為業(yè)內(nèi)共識。從2017 年中信銀行數(shù)據(jù)中心積極嘗試和探索網(wǎng)絡(luò)新技術(shù),不斷研究云計算、云網(wǎng)絡(luò)、智能運(yùn)維等相關(guān)技術(shù)與應(yīng)用實踐,在2019 年率先成功上線新一代云平臺與安全可控智能云網(wǎng)絡(luò),大幅度提升資源利用率和運(yùn)營效率,并在 2019 年底,開啟以SDN 網(wǎng)絡(luò)架構(gòu)為基礎(chǔ)、基于大數(shù)據(jù)和 AI技術(shù)的智能數(shù)據(jù)中心網(wǎng)絡(luò)的探索和實踐。
智能數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)背景
中信銀行全面啟動了云平臺建設(shè)工作,并在如下四個方面進(jìn)行了大量工作。
云架構(gòu)轉(zhuǎn)型 :將傳統(tǒng)煙囪式基礎(chǔ)架構(gòu)轉(zhuǎn)向分布式云架構(gòu),打造安全、敏捷、彈性、分布式兼顧的基礎(chǔ)平臺,支持業(yè)務(wù)系統(tǒng)快速擴(kuò)容及業(yè)務(wù)創(chuàng)新,實現(xiàn)資源自主服務(wù),簡化運(yùn)維流程,將生產(chǎn)系統(tǒng)環(huán)境準(zhǔn)備時間從周級縮短到小時級。
分行、子公司資源集約化管理 :可以為分行、子公司提供云服務(wù),資源集中管控,降低風(fēng)險和管理成本,提高資源利用率。
信用卡中心的云核心 :支撐卡中心的核心及外圍系統(tǒng)整體遷移到云平臺,支持信用卡業(yè)務(wù)快速擴(kuò)容及創(chuàng)新,實現(xiàn)“千人千面”的智能營銷、智能風(fēng)控和智能運(yùn)營等?;旌显频挠J?:支持混合云的模式對外提供云服務(wù),為 IT 從成本中心向利潤中心轉(zhuǎn)變提供基礎(chǔ)平臺。
根據(jù)中信銀行云平臺的整體規(guī)劃,基礎(chǔ)網(wǎng)絡(luò)應(yīng)具備如下能力。
網(wǎng)絡(luò)架構(gòu)的可用性:云網(wǎng)絡(luò)架構(gòu)具有感知網(wǎng)絡(luò)流量路徑的時延、帶寬、丟包和網(wǎng)絡(luò)故障分鐘級可自愈的能力,支持網(wǎng)絡(luò)級、控制器級、設(shè)備級等多維度高可靠設(shè)計,滿足業(yè)務(wù) 7×24 運(yùn)行的要求。
網(wǎng)絡(luò)架構(gòu)的開放性 :控制器網(wǎng)絡(luò)北向開放豐富的 API 接口,實現(xiàn)網(wǎng)絡(luò)資源靈活調(diào)度和編排能力,云平臺和云管平臺的賦能能夠結(jié)合業(yè)務(wù)需求實現(xiàn)網(wǎng)絡(luò)資源開通的自動化調(diào)度,能夠用業(yè)務(wù)語言開通網(wǎng)絡(luò)資源。
網(wǎng)絡(luò)架構(gòu)的可信性 :軟件和硬件具備安全開放創(chuàng)新逐步實現(xiàn)網(wǎng)絡(luò)芯片開放創(chuàng)新能力。
安全可控的整體網(wǎng)絡(luò)架構(gòu)
中信銀行新一代安全可控智能云網(wǎng)絡(luò)架構(gòu),首次實現(xiàn)了控制層、轉(zhuǎn)發(fā)層和流量分析層從交換機(jī)到芯片、從服務(wù)器到數(shù)據(jù)庫、操作系統(tǒng)全部采用了安全可控的軟硬件進(jìn)行搭建,交換機(jī)內(nèi)置 AI 芯片實現(xiàn)了網(wǎng)絡(luò)流量智能采集與分析,SDN 管控平臺部署在國芯服務(wù)器、國產(chǎn)操作系統(tǒng)和國產(chǎn)數(shù)據(jù)庫,在確保整體架構(gòu)自主可控的同時,實現(xiàn)自運(yùn)維、自管理、自調(diào)優(yōu),高性能計算能力足以支撐數(shù)據(jù)中心智能網(wǎng)絡(luò)中的 AI 和機(jī)器學(xué)習(xí)等技術(shù) ;管控析平臺包括管理、控制功能和大數(shù)據(jù)智能分析組件,實現(xiàn)全生命周期自動化部署和智能運(yùn)維, 同時支持 OpenStack、VMware 和Kubernetes 等異構(gòu)資源池。
中信銀行新一代網(wǎng)絡(luò)架構(gòu)核心思想之一是 SDN,通過將網(wǎng)絡(luò)控制與轉(zhuǎn)發(fā)解耦合,構(gòu)建開放可編程的網(wǎng)絡(luò)體系結(jié)構(gòu)。該架構(gòu)包括控制層和轉(zhuǎn)發(fā)層 :控制層是網(wǎng)絡(luò)的控制中心,負(fù)責(zé)網(wǎng)絡(luò)的配置與策略自動部署,控制層通過服務(wù) API 接口跟中信云平臺對接,以滿足多應(yīng)用直接編排網(wǎng)絡(luò) ;轉(zhuǎn)發(fā)層完成數(shù)據(jù)報文的實際轉(zhuǎn)發(fā),基于網(wǎng)絡(luò)上構(gòu)建 overlay 轉(zhuǎn)發(fā)層。
網(wǎng)絡(luò)即服務(wù):中信銀行新一代網(wǎng)絡(luò)架構(gòu),首先引入 SDN Overlay 技術(shù),在網(wǎng)絡(luò)架構(gòu)上采用大二層設(shè)計理念,通過 VxLAN 組網(wǎng)方式,將物理承載網(wǎng)絡(luò)與邏輯業(yè)務(wù)網(wǎng)絡(luò)分離,通過 SDN 控制器對網(wǎng)絡(luò)進(jìn)行集中管理和自動化部署。
網(wǎng)絡(luò)靈活編排 :SDN 方案實現(xiàn)了面向應(yīng)用的網(wǎng)絡(luò)編排,基于不同業(yè)務(wù)組定義,實現(xiàn)不同業(yè)務(wù)組間的策略編排,當(dāng)計算資源發(fā)生變更時,網(wǎng)絡(luò)策略自動遷移,無需人工參與。Fabric 網(wǎng)絡(luò)采用 Spine-Leaf 架構(gòu),通過 VxLAN 技術(shù)構(gòu)建大二層網(wǎng)絡(luò),分布式 VxLAN 組網(wǎng)架構(gòu),可以支持業(yè)務(wù)靈活擴(kuò)展,流量轉(zhuǎn)發(fā)路徑最優(yōu),消除了未知單播和廣播流量,極大增強(qiáng)了網(wǎng)絡(luò)可靠性和擴(kuò)展性。VxLAN 業(yè)務(wù)網(wǎng)段的路由通過 BGP EVPN 打通,BGP EVPN 作為VxLAN 控制面,觸發(fā) VTEP 間自動建立VxLAN 隧道,實現(xiàn) VxLAN 和非 VxLAN網(wǎng)絡(luò)的互通 , 實現(xiàn)應(yīng)用業(yè)務(wù)間高性能互訪、虛擬機(jī)靈活遷移、網(wǎng)絡(luò)資源自動適配。
網(wǎng)絡(luò)自動部署 :SDN 方案將網(wǎng)絡(luò)分為物理網(wǎng)絡(luò) Underlay 和邏輯網(wǎng)絡(luò) Overlay,均可以實現(xiàn)自動化部署。網(wǎng)絡(luò)自動化部署,可以減少網(wǎng)絡(luò)人員變更改端口相關(guān)配置的重復(fù)勞動,網(wǎng)絡(luò)人員更可聚焦網(wǎng)絡(luò)優(yōu)化等工作。通過自主研發(fā)的 Zero Touch Provisioning功能實現(xiàn) Underlay網(wǎng)絡(luò)即插即用,當(dāng)設(shè)備規(guī)劃完成后,無需到安裝現(xiàn)場對設(shè)備進(jìn)行軟件調(diào)試,設(shè)備上電后即可被 SDN 控制器自動納管,自動加入到網(wǎng)絡(luò) Fabric,完成 Underlay 網(wǎng)絡(luò)搭建 ;通過 SDN 控制器的拖拽式界面化操作實現(xiàn) Overlay 網(wǎng)絡(luò)所見即所得的自動化部署, 通 過 VPC實現(xiàn)邏輯劃分,提供安全的網(wǎng)絡(luò)邊界防護(hù),以及基于 VPC提供的一系列增值業(yè)務(wù)。
網(wǎng)絡(luò)智能部署和運(yùn)維
數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維包括網(wǎng)絡(luò)規(guī)劃建設(shè)、安裝部署、業(yè)務(wù)發(fā)布與變更、日常運(yùn)維監(jiān)控和網(wǎng)絡(luò)調(diào)優(yōu)等環(huán)節(jié),SDN 架構(gòu)解決了網(wǎng)絡(luò)安裝部署和業(yè)務(wù)發(fā)放自動化,還缺乏網(wǎng)絡(luò)規(guī)劃仿真、業(yè)務(wù)發(fā)放仿真校驗和網(wǎng)絡(luò)智能分析,在日常業(yè)務(wù)變更和運(yùn)維過程中還會遇到各類網(wǎng)絡(luò)問題。如何才能讓SDN 網(wǎng)絡(luò)的管理運(yùn)維變得更加簡捷與智能,實現(xiàn)網(wǎng)絡(luò)故障快速定位與恢復(fù),中信銀行在 SDN 架構(gòu)基礎(chǔ)上,基于意圖驅(qū)動網(wǎng)絡(luò)技術(shù)進(jìn)行了嘗試和探索。
意圖驅(qū)動網(wǎng)絡(luò)不僅要求網(wǎng)絡(luò)具備高性能、大帶寬能力,網(wǎng)絡(luò)組件還要能實時提供相關(guān)的數(shù)據(jù)采集信息,借助 AI 和機(jī)器學(xué)習(xí)等技術(shù)進(jìn)行有效分析,更好地掌握網(wǎng)絡(luò)的運(yùn)行狀態(tài),在故障發(fā)生前就能提前預(yù)知并提供相應(yīng)的解決方案,網(wǎng)絡(luò)具有自我調(diào)整與優(yōu)化的能力。數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)劃分為手工配置、腳本執(zhí)行、SDN 自動化和智能運(yùn)維四個階段,中信銀行數(shù)據(jù)中心智能網(wǎng)絡(luò)建設(shè)的最終目標(biāo)是構(gòu)建一套基于業(yè)務(wù)意圖和借助 AI 技術(shù)構(gòu)建可自愈的網(wǎng)絡(luò)運(yùn)維架構(gòu)。
中信銀行通過意圖驅(qū)動網(wǎng)絡(luò)以及SDN 控制器相結(jié)合,在配置變更校驗、決策分析等場景起著重要的作用,實現(xiàn)了業(yè)務(wù)變更下發(fā)事前的仿真分析,驗證其可行性以及影響性,對 ACL、路由表項等資源占用分析,自動計算當(dāng)前業(yè)務(wù)的資源消耗以及當(dāng)前網(wǎng)絡(luò)的總體資源情況,并對業(yè)務(wù)意圖配置和當(dāng)前配置進(jìn)行沖突檢查,輔助操作人員進(jìn)行影響分析以及決策。同時,事后仿真驗證可以對網(wǎng)絡(luò)新增配置參數(shù)進(jìn)行檢查,自動驗證網(wǎng)絡(luò)的連通性和發(fā)現(xiàn)路由環(huán)路、路由黑洞等問題。同時,中信銀行通過 SDN 網(wǎng)絡(luò)的智能網(wǎng)絡(luò)分析組件,實現(xiàn)數(shù)據(jù)中心內(nèi)部應(yīng)用和網(wǎng)絡(luò)的關(guān)聯(lián)分析,故障快速感知與修復(fù)。該組件采用大數(shù)據(jù)和機(jī)器學(xué)習(xí)算法訓(xùn)練網(wǎng)絡(luò)行為模型,呈現(xiàn)設(shè)備、隊列、端口的動態(tài)基線并主動監(jiān)測異常,實現(xiàn)光模塊等故障預(yù)測,轉(zhuǎn)被動運(yùn)維為主動運(yùn)維,網(wǎng)絡(luò)先于業(yè)務(wù)發(fā)現(xiàn)隱患。
通過新一代數(shù)據(jù)中心交換機(jī)的 AI 芯片能覆蓋控制報文和數(shù)據(jù)報文的全流檢測,基于 Telemetry 實時采集全量信息,快速感知網(wǎng)絡(luò)健康度,包括流量可視化、流量統(tǒng)計及流的時延和丟包等指標(biāo)。在中信銀行的數(shù)據(jù)中心智能網(wǎng)絡(luò)中通過多維度實時評估網(wǎng)絡(luò)狀態(tài),包括設(shè)備維度如物理器件運(yùn)行狀態(tài),網(wǎng)絡(luò)維度如互聯(lián)端口和隊列狀態(tài),路由協(xié)議分析維度,業(yè)務(wù)網(wǎng)絡(luò)管理面和轉(zhuǎn)發(fā)面維度等。依托設(shè)備高性能 AI 芯片和分析器本地強(qiáng)大的 AI分析引擎,全面評估整網(wǎng)健康狀況,實時或定期發(fā)送網(wǎng)絡(luò)體檢報告,極大地提高巡檢效率,降低人力成本。
最后,通過故障根因分析引擎和基于AI 算法構(gòu)建網(wǎng)絡(luò)知識圖譜,能夠?qū)崿F(xiàn)故障的快速定位,特別是能夠識別業(yè)務(wù)偶發(fā)少量丟包等疑難類問題,可以快速故障回放定位,典型故障可做到 1 分鐘識別,3分鐘定位根因,通過與 SDN 控制器聯(lián)動自閉環(huán)處理,達(dá)到 5 分鐘快速恢復(fù)。