許經(jīng)偉,李公平,王文學,余 娜,涂賀元
(中國電信股份有限公司安徽分公司,合肥 230000)
對于電信運營商來講,大數(shù)據(jù)時代中充滿了機遇。特別是如今,對于電信運營商來講,從運營商業(yè)務(wù)模式轉(zhuǎn)向為數(shù)據(jù)資產(chǎn)運營商已經(jīng)成為了一種必然的發(fā)展趨勢。特別是典型運營商所擁有的海量行為數(shù)據(jù),使得其擁有者突出的數(shù)據(jù)優(yōu)勢。在這個優(yōu)勢之上,電信運營商可以通過各種大數(shù)據(jù)技術(shù)來打造電信大數(shù)據(jù)能力開放平臺。這樣電信運營商不僅僅是能夠?qū)崿F(xiàn)精準化、個性化的營銷服務(wù),還能夠為企業(yè)的經(jīng)營管理提供幫助。2018年,安徽電信將大數(shù)據(jù)風險管理作為企業(yè)管理創(chuàng)新的抓手,通過數(shù)據(jù)匯聚、數(shù)據(jù)建模、機器學習、風險識別、派單管控建立了一套完成的大數(shù)據(jù)風險管理系統(tǒng)與流程,發(fā)現(xiàn)了企業(yè)經(jīng)營管理過程中大量的風險問題,挽回大量的損失。
隨著移動互聯(lián)網(wǎng)的快速發(fā)展,越來越多的用戶和代理商享受到線上業(yè)務(wù)的便利。然而系統(tǒng)運營在開放式的互聯(lián)網(wǎng)環(huán)境中,所面臨的風險來自各方面。薅羊毛、惡意訂單、營銷欺詐、腳本訪問等惡意欺詐行為既對活動推廣和業(yè)務(wù)運行造成惡劣影響,也對公司的資金安全構(gòu)成巨大風險。
安徽電信很早就已開展內(nèi)部業(yè)務(wù)稽核方面的工作,包括業(yè)務(wù)稽核、審計集市、固化方式、金庫系統(tǒng),但離高水平的業(yè)務(wù)風險管理還有不小差距。差距主要體現(xiàn)在兩方面:一是尚未在公司層面建立起對風險統(tǒng)一管理的流程、框架、策略。二是目前的風險管理不成熟及風險覆蓋范圍不足,主要依靠傳統(tǒng)風控手段靠經(jīng)驗、分段稽核,缺乏全流程全視角的風控管理,對非業(yè)務(wù)類、流程類風險,識別滯后,未能有效防范風險發(fā)生。
通過大數(shù)據(jù)風控工作逐步實踐,建立完善業(yè)務(wù)風險防護系統(tǒng),建立健全風控制度,形成完整體系。
大數(shù)據(jù)風控是通過業(yè)務(wù)風控風險識別技術(shù)算法,對一線人員、外部客戶、技術(shù)人員的業(yè)務(wù)行為進行分析建立風險模型,根據(jù)風險模型設(shè)定風險規(guī)則,快速識別業(yè)務(wù)風險,并且對業(yè)務(wù)行為的歷史數(shù)據(jù)建立通過機器學習的方法勾勒風險畫像,將日常業(yè)務(wù)行為和風險畫像進行比對,通過K-means 算法聚類出異常點并對有差異性的行為進行風險分析,通過持續(xù)迭代過程不斷發(fā)現(xiàn)業(yè)務(wù)風險。
同時將風險清單,進行派單管控,派單后續(xù)反饋跟蹤、效果評估,進一步提高對風險原因與風險處理成效等情況的掌控,更加準確地定義和掌握各類風險的危害程度和變化趨勢。
逐步建立包含風險額度評估、風險指數(shù)評估、派單處理評估和風險處理成效評估及決策支撐體系,實現(xiàn)業(yè)務(wù)風險現(xiàn)狀可視化展現(xiàn),為領(lǐng)導決策提供數(shù)據(jù)支撐。
逐步完善風險案例知識庫,提煉各類典型風險案例,實現(xiàn)面向省市公司風險知識共享。
大數(shù)據(jù)風控重點完成風險識別和風險應對,主要是解決風險識別和通過相關(guān)系統(tǒng)實現(xiàn)風險派單和反饋,具體完成下列功能模塊實施:
(1)完善風險視圖,支持按日、按小時的展現(xiàn),也支持風險的派單和評估。子菜單功能包括風險識別情況、風險派單情況、風險應對情況、風險庫情況可視化展現(xiàn)。
圖1 風險視圖
(2)建立風險庫,能夠?qū)︼L險點和風險場景進行定義,目前已完成已有風險庫和為安徽電信三種監(jiān)控對象(代理商、用戶、技術(shù)人員)特殊定義的風險點案例錄入。
(3)大數(shù)據(jù)平臺進行風險數(shù)據(jù)加工:即風險數(shù)據(jù)的采集、抽取、清洗、轉(zhuǎn)換和存儲。支持采用非監(jiān)督算法進行數(shù)據(jù)的分類,采用監(jiān)督算法進行模型的適配。支持采用統(tǒng)計學算法進行數(shù)據(jù)指標的采集和計算,支持各種基于規(guī)則的數(shù)據(jù)采集、計算方法,以形成代理商、用戶、技術(shù)人員的模型。
(4)形成閉環(huán)風險管控流程,對識別的風險規(guī)則固化,產(chǎn)生風險清單,進行清單級派單,跟蹤和優(yōu)化,對風險的應對處理進行驗證、效果評估,提煉各類典型風險案例,共享各類風險知識。實現(xiàn)風險信息管理,風險知識的一點共享,確保風險及時發(fā)現(xiàn)、解決。
近年來,武漢商學院就教風的建設(shè)采取了多樣化的措施。比如采取“新進教師助教制度”,用“以老帶新”的方式傳承教學技藝和教學方法;開展教學質(zhì)量月活動,通過微課比賽、教案比賽促進教學質(zhì)量的提高;在教學環(huán)節(jié)上,對課堂提出高標準、對教學質(zhì)量提出嚴要求;在科研上,加大力度獎勵做出了突出貢獻的老師等等。
圖2 智慧風控流程圖
(5)按月輸出風險分析報告,對風險管理活動進行記錄,描述風險分析的過程,為業(yè)務(wù)活動和業(yè)務(wù)安全性評估提供相關(guān)依據(jù),同時對風險模型迭代優(yōu)化、梳理業(yè)務(wù)場景進行建模分析提供支持。
(6)輸出風險模型,持續(xù)跟蹤:結(jié)合特定的業(yè)務(wù)場景,選擇合適的分析方法建設(shè)規(guī)則模型和機器學習模型,主要分為三類:
第一,面向一線人員:代理商風控模型,基于代理商的繳費、業(yè)務(wù)辦理日志進行聚類分析,輸出異常代理商行為;異常用戶發(fā)展分析模型,對發(fā)展的用戶的進行收入、活躍度、業(yè)務(wù)使用等數(shù)據(jù)進行關(guān)聯(lián)分析,輸出異常發(fā)展用戶。
第二,面向外部客戶:增量用戶價值模型,對用戶業(yè)務(wù)訂購、使用、繳費進行用戶價值分類預測,輸出用戶價值分檔;反欺詐模型,根據(jù)歷史欺詐號碼的特征行為,進行建模分析,輸出疑似欺詐號碼清單。
第三,面向技術(shù)人員:基于技術(shù)人員的業(yè)務(wù)風險模型,對技術(shù)人員使用本網(wǎng)業(yè)務(wù)情況、生產(chǎn)系統(tǒng)操作數(shù)據(jù)進行關(guān)聯(lián)分析,輸出異常行為數(shù)據(jù)。
通過項目實施,總結(jié)出來“四步法”,建立起風險識別與處理的閉環(huán)管理:
(1)數(shù)據(jù)建模:風險數(shù)據(jù)的采集、抽取、清洗、轉(zhuǎn)換和存儲。采用非監(jiān)督算法進行數(shù)據(jù)的分類,采用監(jiān)督算法進行模型的適配。采用統(tǒng)計學算法進行數(shù)據(jù)指標的采集和計算,實現(xiàn)各種基于規(guī)則的數(shù)據(jù)采集、計算方法,以形成風險模型。
(2)風險識別:通過感知、判斷或歸類的方式對現(xiàn)實的和潛在的風險性質(zhì)進行鑒別的過程。風險識別是風險管理的第一步,也是風險管理的基礎(chǔ)。
(4)整改防范:對風險進行定級評級,建立風險視圖持續(xù)展示、預警各風險點發(fā)生情況;通過派單確認后固化風險模型,運營穩(wěn)定后納入日?;肆鞒踢M行整改。
項目實施過程中使用的大量的機器學習算法,針對不同的場景,通過無監(jiān)督算法做初步篩選,有監(jiān)督算法進行深度分析的模式建設(shè)9個風險分析模型,識別12類風險場景,發(fā)現(xiàn)多起業(yè)務(wù)操作違規(guī)問題,挽回直接經(jīng)濟損失近600萬,算法使用建議如下:
4.2.1 無監(jiān)督學習算法
(1)Kmeans 聚類算法:是一種基于樣本間相似性度量的間接聚類方法,算法以k 為參數(shù),把n 個對象分為k 個簇,以使簇內(nèi)具有較高的相似度,而且簇間的相似度較低。是一種較典型的逐點修改迭代的動態(tài)聚類算法,其要點是以誤差平方和為準則函數(shù)。缺點在于不同的劃分個數(shù)和不同的初始點的選取將導致不同的結(jié)果,所以算法結(jié)果難以比較。
(2)DBSCAN 聚類算法:核心概念是core samples,指位于高密度區(qū)域的樣本。算法將聚類視為被低密度區(qū)域分隔的高密度區(qū)域。DBSCAN 發(fā)現(xiàn)的聚類可以是任何形狀的,與假設(shè)聚類是convex shaped 的K-means 相反。缺點在于DBSCAN 對用戶定義的參數(shù)很敏感,細微的不同都可能導致差別很大的結(jié)果,而參數(shù)的選擇無規(guī)律可循,只能靠經(jīng)驗確定。
(3)孤立森林算法:它是一個基于Ensemble 的快速異常檢測方法,具有線性時間復雜度和高精準度,是符合大數(shù)據(jù)處理要求的state-of-the-art 算法。iForest 是一種適用于連續(xù)數(shù)據(jù)的無監(jiān)督異常檢測方法,即不需要有標記的樣本來訓練,但特征需要是連續(xù)的。對于如何查找哪些點容易被孤立(isolated),iForest 使用了一套非常高效的策略。在孤立森林中,遞歸地隨機分割數(shù)據(jù)集,直到所有的樣本點都是孤立的。在這種隨機分割的策略下,異常點通常具有較短的路徑。直觀上來講,那些密度很高的簇是需要被切很多次才能被孤立,但是那些密度很低的點很容易就可以被孤立。缺點在于iForest 對于特別高維的數(shù)據(jù)不適用(因為每一次對數(shù)據(jù)空間進行切割都是隨機選取的一個維度,當建完樹之后仍然會有大量的維度信息得不到使用,這就使得算法的可靠性得不到保障。同時高維度空間還有可能存在有大量的噪音維度或者是無關(guān)維度,會對樹的構(gòu)建產(chǎn)生影響),此外iForest 僅對全局稀疏點敏感,不擅長處理局部的相對稀疏點。
4.2.2 有監(jiān)督學習算法
(1)決策樹算法(decisiontree):它是一種典型的分類算法,在分類問題中,表示基于特征對實例進行分類的過程。它可以認為是if-then 規(guī)則的集合,也可以認為是定義在特征空間與類空間上的條件概率分布,其主要優(yōu)點是模型具有可讀性、分類速度快。學習時,利用訓練數(shù)據(jù)根據(jù)損失函數(shù)最小化的原則建立決策樹模型;預測時,對新的數(shù)據(jù)利用決策樹模型進行分類。
(2)Logistic 回歸:它是一種分類方法,用于二分類領(lǐng)域,可以得出概率值,適用于根據(jù)分類概率排名的領(lǐng)域,如搜索排名等。Logistic 回歸的擴展softmax 可以應用于多分類領(lǐng)域,如手寫字識別等。其優(yōu)點是計算代價不高,易于理解和實現(xiàn);缺點是容易產(chǎn)生欠擬合且分類精度不高。