姜青云 王參參
摘要
在人工智能時代,IT運維管理成為數(shù)據(jù)中心發(fā)展的重要部分,傳統(tǒng)方法已無法滿足高質(zhì)量運維要求,近幾年來商業(yè)銀行正積極探索智能化IT運維管理方法,本文介紹了智能IT運維在銀行數(shù)據(jù)中心的應用場景,并對智能運維技術案例進行淺析。
【關鍵詞】數(shù)據(jù)中心 IT運維管理 人工智能
1引言
隨著商業(yè)銀行信息科學技術的不斷發(fā)展,數(shù)據(jù)中心已經(jīng)由原來數(shù)據(jù)、系統(tǒng)及運營分散的管理模式轉型為異地多活分布式架構,資源利用率和靈活性顯著提升,運維工作量也明顯提升,傳統(tǒng)的“救火式”運維己不能保證數(shù)據(jù)中心應用系統(tǒng)的安全穩(wěn)定運行,因此越來越多的商業(yè)銀行數(shù)據(jù)中心開始探索高效的IT運維管理模式。
從宏觀上看,IT設施種類各異、組成復雜,包括機房動力環(huán)境、基礎網(wǎng)絡、存儲、小型機及主機等平臺、中間件、應用系統(tǒng)等,從微觀上看,特定IT設施品牌及指標繁多,以存儲為例,品牌涉及IBM、HP、EMC、華為、Netapp等,指標包括系統(tǒng)配置、電源、風扇、控制器、硬盤狀態(tài)、實時性能,以及存儲交換機的電池、映射關系等,銀行業(yè)數(shù)據(jù)中心一般通過廠商提供的監(jiān)控管理工具查看各IT設施運行狀態(tài)和性能指標,但是這樣零散的監(jiān)控方式不僅會增加運維工作量,冗余告警還會對運維人員產(chǎn)生極大干擾,降低運維工作效率,從而影響故障點發(fā)現(xiàn)的及時性,因此傳統(tǒng)運維方式面臨的主要問題包括錯綜復雜的IT元素難以有效監(jiān)控、傳統(tǒng)運維工具單一無法集中監(jiān)控、運維過程流轉不成體系等。面對復雜的異構環(huán)境,數(shù)據(jù)中心對數(shù)據(jù)分析和運維自動化的要求越來越高,IT運維人員也希望能夠借助海量的運維數(shù)據(jù)優(yōu)化改進當前工作方法,建立在大數(shù)據(jù)分析和自動化運維基礎上的智能化運維時代即將到來。
2人工智能在金融業(yè)的應用
當前人工智能技術在金融業(yè)務領域的主要應用包括風控及反欺詐、精準營銷、智能投顧、智能客服等,在金融IT領域的主要應用是智能運維。風控及反欺詐是通過申請貸款的客戶社會關系數(shù)據(jù),建立與現(xiàn)有黑名單/灰名單庫的關聯(lián)強度,預測申請客戶的欺詐概率;精準營銷主要是針對用戶的行為、已有的認知習慣等數(shù)據(jù)進行挖掘分析,將符合用戶個性及偏好的產(chǎn)品適時的推薦到用戶面前;智能投顧依賴于用戶提供的風險承受水平、風險偏好等信息,通過不斷的自學習和分析模塊,為用戶提供投資參考及預警提醒;智能客服為銀行與海量用戶之間的溝通建立了一種基于自然語言的快捷有效手段。
對人工智能技術的研究和應用已經(jīng)與金融業(yè)務深度融合,其中大型商業(yè)銀行銀行已經(jīng)成立人工智能實驗室,投入專門資源開展機器學習、GPU處理等相關技術的研究工作,在信用卡、快捷支付等業(yè)務中運用人工智能技術甄別潛在欺詐風險,并提供交易阻斷、短信提醒等措施,保障客戶資金安全,同時適時引入人臉識別、聲紋識別、語音導航等技術,搭建智能柜臺業(yè)務和客服中心,中小型銀行也紛紛打造智慧廳堂服務機器人,處理客戶提出的簡單問題。對于銀行數(shù)據(jù)中心而言,人工智能在IT運維管理方面的應用研究也日趨明顯。
3智能IT運維
3.1 IT運維管理
IT運維管理是指數(shù)據(jù)中心采用相關方法、技術、制度、流程、文檔等,對軟硬件生產(chǎn)運行環(huán)境、業(yè)務應用系統(tǒng)和運維人員進行的綜合管理,主要包括數(shù)據(jù)庫管理、應用管理、可用性和性能管理、網(wǎng)絡管理、故障事件管理、日志管理、配置管理、服務臺、資產(chǎn)管理、作業(yè)調(diào)度平臺管理、硬件設備管理等。
3.2智能IT運維
智能IT運維本質(zhì)是將人工智能、大數(shù)據(jù)分析等技術應用到運維管理場景中,實現(xiàn)運維活動的標準化及自動化,進而提升機器輔助運維決策等能力,比如對業(yè)務應用系統(tǒng)提供自動化故障智能檢測,幫助運維人員進行故障根源判斷和處理等,在《中國銀行業(yè)信息科技“十三五”發(fā)展規(guī)劃監(jiān)管指導意見》分列章節(jié)“提高運維自動化水平,打造智能化運維體系”中,對智能化運維相關內(nèi)容進行了描述,包括環(huán)境部署、運維監(jiān)控、容量管理、共享協(xié)作、數(shù)據(jù)分享等。由于智能化運維的重要作用,銀行業(yè)數(shù)據(jù)中心正積極開展智能化運維的建設工作,但是由于技術架構復雜,普遍針對特定智能化場景進行技術研究、原型測試和試點建設,目前還沒有整體規(guī)劃設計,典型智能運維場景如圖1所示。
3.3智能IT運維技術
智能運維平臺是將大數(shù)據(jù)和機器學習功能相結合的軟件系統(tǒng),用以增強或部分取代廣泛的IT運維流程和任務,包括可用性和性能監(jiān)視、事件相關性和分析、IT服務管理和自動化,智能化IT運維的共性特征包括以運維數(shù)據(jù)為驅動、以動態(tài)算法為核心、以機器學習為手段,主要包括以下方面功能技術:
(1)運維數(shù)據(jù)抓取,允許從業(yè)務應用服務、中間件及硬件設備生成的日志文件中捕獲可二次處理的價值數(shù)據(jù),以及用于訪問和分析的數(shù)據(jù),為方便訪問可以為日志存儲編入索引。
(2)文檔文本輸入,允許對可讀文檔進行輸入、解析和語法語義索引。
(3)運維數(shù)據(jù)存儲,允許對日志數(shù)據(jù)、軟硬件設備參數(shù)和文檔數(shù)據(jù)進行持久存儲。
(4)自動模式發(fā)現(xiàn)和預測,基于獲取到的一種或多種類型的歷史運維數(shù)據(jù),得出數(shù)學結構模型,來描述可能被推斷出的新型關聯(lián)關系。
(5)異常檢測,使用己建立的發(fā)現(xiàn)模型確定什么是正常的系統(tǒng)行為,然后從正常的系統(tǒng)行為中辨別出偏離。
(6)根源決定,通過自動模式發(fā)現(xiàn)和預測模型建立的關聯(lián)關系網(wǎng)絡刪除依賴關系的鏈接,以提供有效干預的方法。
4智能IT運維技術案例
4.1智能容量預測
對于各應用系統(tǒng)容量管理方面,傳統(tǒng)運維平臺無法預測當前系統(tǒng)配置能否撐過業(yè)務高峰期,以及系統(tǒng)存在的瓶頸位置,而智能化的容量管理結合了大數(shù)據(jù)分析預測技術,將銀行數(shù)據(jù)中心各物理資源(如服務器、存儲和網(wǎng)絡等資源)的實時容量快照、負載情況和未來擴容趨勢呈現(xiàn)出來。智能容量管理首先采集應用系統(tǒng)交易量、操作系統(tǒng)性能指標、中間件性能指標等,基于機器學習算法,對交易量進行預測分析,找出交易量與各指標之間的關聯(lián),最終評估當前系統(tǒng)承受交易量上限及瓶頸,在容量告警之前幫助維護人員及時制定有效地采購和擴容計劃,滿足用戶未來資源的高效利用。
4.2智能異常檢測
傳統(tǒng)的異常告警管理一般使用固定閥值并且需要運維人員手動設置,這種方式不僅工作量巨大且十分依賴運維人員的經(jīng)驗,若閥值設置不當可能導致告警風暴或者告警漏報等后果,異常檢測是智能運維系統(tǒng)中一項基礎且重要的功能,是在眾多可能引起故障的因素中,追溯到導致故障發(fā)生的癥結所在,旨在通過算法自動發(fā)現(xiàn)KPI時間序列中數(shù)據(jù)的異常波動,為后續(xù)的告警、根源分析提供決策依據(jù)。在實際場景中,批量時段性能指標超閥值、交易量峰值時段性能指標超閥值等成為日常告警的難點,通過時間序列分析和移動指數(shù)平均、LSTM算法等機器學習算法,進行系統(tǒng)指標的動態(tài)基線告警,并基于指標告警實現(xiàn)故障樹的構建,輔助完成故障定位。
5展望
近年來,機器學習理論研究迅猛發(fā)展,不斷取得突破,促進了人工智能技術的飛躍,基于機器學習的智能運維今后會在銀行數(shù)據(jù)中心全面發(fā)展,因為銀行業(yè)擁有得天獨厚的大數(shù)據(jù)和應用場景,最終成為運維人員高效可靠的助手。
參考文獻
[1]袁俊德.人工智能與生產(chǎn)運維[R].農(nóng)信銀支付清算系統(tǒng)會議,蘇州,2 018.
[2]王雄.云時代IT運維面臨哪些新的挑戰(zhàn)[J].計算機與網(wǎng)絡.2018 (21): 40
[3]袁俊德,以“七臺兩庫”領銜智能化運維[J].金融電子化.2017 (08):75-77.