鐘弘杰,巴繼東
(1.武漢郵電科學研究院 湖北武漢430070;2.武漢長江通信智聯(lián)技術(shù)有限公司湖北武漢430070)
基于離群檢測模型的反洗錢系統(tǒng)設(shè)計
鐘弘杰1,巴繼東2
(1.武漢郵電科學研究院 湖北武漢430070;2.武漢長江通信智聯(lián)技術(shù)有限公司湖北武漢430070)
洗錢犯罪已經(jīng)是國際社會共同面臨的一個難題,給各國的經(jīng)濟帶來了嚴重的損害和影響。在中國,不僅需要完善法律法規(guī)來建立反洗錢機制,更應(yīng)該通過技術(shù)手段來識別洗錢活動。這是一個基于離群行為檢測模型的反洗錢系統(tǒng)的設(shè)計與實現(xiàn),通過使用真實傳銷案件的交易流水數(shù)據(jù)來驗證離群檢測模型可疑識別的有效性以及實用性。
反洗錢;離群行為檢測;傳銷;交易流水
從20世紀80年代開始,洗錢活動已經(jīng)突破了傳統(tǒng)模式,全球經(jīng)濟一體化使得跨國洗錢成為新一代洗錢活動的主要形式。在中國,經(jīng)歷了法律上對洗錢犯罪定義的從無到有,再到法律和制度的不斷完善,在反洗錢方面取得了重大成就。但是,國際上金融機構(gòu)技術(shù)上不斷提升,全球資金流動更加快速便捷,加上投資環(huán)境寬松,洗錢的方式、地域和技術(shù)手段以及參與洗錢活動的人員都發(fā)生了巨大變化,洗錢活動呈現(xiàn)出更加猖獗的勢頭[1-2]。因此,對洗錢活動進一步的打擊和防范,已經(jīng)成為了國際共識。
在如今的大數(shù)據(jù)時代,傳統(tǒng)的數(shù)據(jù)偵查方法已經(jīng)不能滿足反洗錢工作的需要,從海量的金融交易數(shù)據(jù)中發(fā)現(xiàn)其少量的隱秘的洗錢特征已經(jīng)成了影響打擊洗錢犯罪順利開展的關(guān)鍵問題之一,異常交易數(shù)據(jù)的發(fā)現(xiàn)是進行反洗錢工作的基礎(chǔ)。文中基于離群檢測模型的反洗錢系統(tǒng),通過使用真實傳銷案件的交易流水數(shù)據(jù)來驗證離群檢測模型識別可疑交易的有效性和實用性,為該系統(tǒng)投入到實際使用提供了重要的參考價值。
離群點是數(shù)據(jù)集中極少數(shù)與主流數(shù)據(jù)顯著不同的數(shù)據(jù)點,它們往往比主流數(shù)據(jù)更具潛在價值。離群檢測在許多領(lǐng)域都有著廣泛的應(yīng)用,吸引了包括數(shù)據(jù)挖掘、知識學習、統(tǒng)計學、模式識別和信息論等眾多學科研究人員的共同關(guān)注[4]。
目前主流離群檢測方法大致可以分為一下幾種類型:1)基于統(tǒng)計學的方法,包括基于分布的方法、基于深度的方法。2)基于聚類的方法,包括基于索引的方法、嵌套—循環(huán)算法、基于單元的算法。3)基于密度的方法。4)基于偏離的方法,包括序列異常技術(shù)、OLAP數(shù)據(jù)立方體技術(shù)。5)基于聚類的方法[5-6]。
基于聚類的離群數(shù)據(jù)挖掘算法將離群數(shù)據(jù)挖掘看做是聚類分析的附屬工作,把不能聚類的數(shù)據(jù)看做是離群點。在金融交易識別里,把交易異常的數(shù)據(jù)聚類在一起稱為離群類[7]。
基于反洗錢工作的特殊應(yīng)用場景,反洗錢工作的數(shù)據(jù)源具有大量和復(fù)雜的特點,常見的基于聚類的離群檢測方法,都是先對整個數(shù)據(jù)源進行基于距離的聚類,然后將不能聚類的點判斷為離群點,將具有相似交易特點的數(shù)據(jù)對象劃分為一類,忽視了個體交易可疑的差別以及類與類之間關(guān)鍵節(jié)點的作用?;谶@種考慮,可以先對數(shù)據(jù)源進行聚類,將具有類似的交易特征的數(shù)據(jù)對象歸類,然后針對每個聚類分別進行異常程度檢測,再對整個聚類交易網(wǎng)絡(luò)運用鏈接發(fā)現(xiàn)技術(shù),這樣將更加具有針對性與全面性,提高離群檢測的準確性[8]。
金融交易分析網(wǎng)絡(luò)系統(tǒng)是公安偵查和信息技術(shù)專家會同銀行、審計等相關(guān)工作人員,根據(jù)當前特大經(jīng)濟犯罪案件特征,研發(fā)的一套智能金融數(shù)據(jù)分析系統(tǒng)[9]。該系統(tǒng)采用了大數(shù)據(jù)分析挖掘、模式識別等技術(shù)處理賬目交易流水,主要有3個功能:一是梳理涉案賬戶的資金流向,構(gòu)建資金流向圖,找出資金的最終來源和去向;二是對涉案所有賬戶賬戶自動匯聚,挖掘出重點嫌疑賬戶或者嫌疑團伙;三是構(gòu)建金融網(wǎng)絡(luò)拓撲圖,掌握涉案賬戶交易基本特征,從全局上分析案件形勢。在實際使用過程中有主要有3個優(yōu)點:一是可以處理交易流水量大的案件,支持交易流水的樣式較多;二是全局分析交易資金,快速匯聚團伙成員,構(gòu)建資金全局拓撲圖;三是網(wǎng)銀IP、MAC數(shù)據(jù)分析便捷,精準度高。其中的離群檢測模塊,我們研究提出了BTS(Best Two Step)聚類算法、基于聚類的異常分析模型,BTS聚類算法可以把具有相似交易特征的交易賬戶聚集在一起,并且可以去除一些噪聲數(shù)據(jù)以及一些異常交易賬戶名單,基于聚類的異常分析是在聚類結(jié)果集的基礎(chǔ)上對類內(nèi)以及類間的關(guān)系進行全面分析,確定類的賬戶嫌疑程度以及類間的關(guān)鍵嫌疑賬戶[10-11],所以結(jié)合BTS聚類算法和基于聚類的異常分析模型提出一個離群模型。該模型的建立主要有三步建立數(shù)據(jù)源、BTS聚類、異常分析模型,最后得出最終結(jié)果。其系統(tǒng)框架如圖1所示。
圖1 系統(tǒng)框架
本系統(tǒng)各模塊的主要功能如下:
數(shù)據(jù)處理模塊:將數(shù)據(jù)源進行統(tǒng)一封裝,提供一個統(tǒng)一的設(shè)置接口給使用用戶和系統(tǒng)使用,使數(shù)據(jù)源與系統(tǒng)發(fā)生隔離關(guān)系,系統(tǒng)對數(shù)據(jù)的操作不會破壞數(shù)據(jù)源的完整性,并可以根據(jù)用戶的需求提取需要具體的字段數(shù)據(jù),更換數(shù)據(jù)源的標準不需要對系統(tǒng)做出更改,只需要在設(shè)置接口進行相關(guān)的配置即可。
數(shù)據(jù)管理模塊:提供了豐富的搜索功能,系統(tǒng)能夠按照用戶需要的具體字段去檢索交易記錄。此外,該模塊還具有統(tǒng)計功能,比如交易頻率、交易次數(shù)、交易金額以及交易時間等等。
可視化分析模塊:根據(jù)選定的條件實時將數(shù)據(jù)庫中的交易信息轉(zhuǎn)換為資金流向圖,資金流向圖支持人機交互,可以查看圖中任一交易賬戶的的交易詳細信息,也可以查看圖中邊的詳細交易信息;可操作性非常強,可以放縮、拖拽;根據(jù)用戶關(guān)注的指定賬戶的交易詳細信息,生成包含資金流向序列圖的交易預(yù)警報告;具有資金流向圖的過濾功能,將圖中除指定交易節(jié)點外無關(guān)的交易節(jié)點和交易邊剔除掉,使關(guān)注的交易路徑清晰清楚化。
離群檢測模塊:在數(shù)據(jù)處理以及后期的數(shù)據(jù)統(tǒng)計合并的基礎(chǔ)上,選取用戶關(guān)注的屬性形成新的交易數(shù)據(jù)集,對該交易數(shù)據(jù)集進行嫌疑賬戶的歸類以及嫌疑賬戶的嫌疑程度排序,最后針對歸類的嫌疑賬戶集合進行鏈接發(fā)現(xiàn)可疑約減交易網(wǎng)絡(luò),發(fā)現(xiàn)交易網(wǎng)絡(luò)圖的關(guān)鍵交易節(jié)點,為用戶辦案提供清晰明了的線索。
離群檢測模塊分為4個子模塊:
1)數(shù)據(jù)預(yù)處理:先將實驗所用真實的交易流水數(shù)據(jù)導(dǎo)入到Mysql數(shù)據(jù)庫中,將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫時進行數(shù)據(jù)預(yù)處理。對無效的數(shù)據(jù)進行剔除,剔除規(guī)則主要有兩點:將賬號不存在或者對方賬號不存在的數(shù)據(jù)進行剔除;將手續(xù)費扣除以及手續(xù)費返還等正常銀行交易的數(shù)據(jù)剔除掉。然后根據(jù)洗錢的操作過程以及銀行的交易流水特點,聚類方法中的屬性應(yīng)包括對存取資金的數(shù)量、存取資金的次數(shù)和交易情況的描述。在結(jié)合銀行流水交易的賬戶特征的基礎(chǔ)上進行數(shù)據(jù)探索,在此定義六個特征:賬號、資金收付標志、交易次數(shù)、交易數(shù)額、對方賬號、總資產(chǎn),對數(shù)據(jù)庫中的所有交易流水數(shù)據(jù)按照賬號、資金收付標志、對方賬號進行統(tǒng)計得到后續(xù)需要使用數(shù)據(jù)集,其中即使交易對方是同一個賬戶,但是資金收付標記不一樣,被視為兩條不同的數(shù)據(jù)對象。
2)BTS聚類模塊:該模塊主要的作用是發(fā)現(xiàn)作案團伙,這在傳銷案件中非常有用,并且為后續(xù)的模塊進行數(shù)據(jù)集剪枝,減小后續(xù)模塊處理的時間復(fù)雜度。該模塊是對數(shù)據(jù)集Dk進行聚類,把具有相似交易特征的賬戶聚集在一起,并且把一些異常交易賬戶放入交易嫌疑名單中,為用戶對案件分析提供有效的線索[12]。
3)MDLOF 檢測:MDLOF(Mahalanobis distance based local outlier factor)馬氏距離局部離群因子算法通過計算各類數(shù)據(jù)點間的馬氏距離來判斷數(shù)據(jù)點的離群程度。該模塊對兩階段聚類模塊得到的各類數(shù)據(jù)集進行異常程度計算,并且輸出每個類中各賬戶的嫌疑程度排名,為辦案人員按線索調(diào)查案件的順序與重視程度提供有價值的參考借鑒[13]。
4)鏈接發(fā)現(xiàn)模塊:對BTS聚類模塊得到的數(shù)據(jù)集構(gòu)成的交易網(wǎng)絡(luò)用鏈接發(fā)現(xiàn)技術(shù)發(fā)現(xiàn)交易網(wǎng)絡(luò)中的關(guān)鍵節(jié)點,最后約減網(wǎng)絡(luò)得到各個聚類集中的關(guān)鍵節(jié)點[13],通過關(guān)鍵節(jié)點所占的比重可以發(fā)現(xiàn)聚類集的嫌疑重要性。進一步為辦案人員理清辦案方向。
離群檢測模型建立過程:從數(shù)據(jù)源中讀取數(shù)據(jù),過濾掉數(shù)據(jù)中不相關(guān)的屬性,設(shè)置數(shù)據(jù)的類型并進行NChameleon聚類,將生成的NChameleon聚類模型加到流中,導(dǎo)出NChameleon聚類中得到的結(jié)果數(shù)據(jù)集[14-15]。NChameleon聚類算法流程圖如圖2所示。
根據(jù)結(jié)果數(shù)據(jù)集發(fā)現(xiàn)需要剔除的異常值,并將需要剔除的異常值添加到可疑名單,然后把聚類后的數(shù)據(jù)集作為NK-Means聚類的原始數(shù)據(jù)再次進行NK-Means聚類,得到NK_Means的聚類結(jié)果數(shù)據(jù)集;最后對聚類結(jié)果數(shù)據(jù)集按類進行孤立點的挖掘,計算每個數(shù)據(jù)對象的MDLOF,即每個類中數(shù)據(jù)節(jié)點的異常值或者異常程度[16],可以確定調(diào)查對象的順序,但是每個類中的嫌疑賬戶有嫌疑程度不一樣,針對NK-Means聚類的結(jié)果集,對結(jié)果集的交易網(wǎng)絡(luò)進行鏈接發(fā)現(xiàn),發(fā)現(xiàn)關(guān)鍵節(jié)點,關(guān)鍵節(jié)點一般都是洗錢交易中重要的角色,可以進一步為反洗錢工作提供調(diào)查方向線索。
通過以上4步的離群檢測模型過程,把具有異常及交易特征的賬戶列入到了可疑名單列表中,例如交易金額大但是總資產(chǎn)少、交易頻繁、總資產(chǎn)總是為零但是交易對手多的賬戶等特征都能被發(fā)現(xiàn)為可疑賬戶,并且最后還能確定嫌疑程度以及交易網(wǎng)絡(luò)的關(guān)鍵節(jié)點,可以十分有效的為反洗錢工作提供調(diào)查線索以及調(diào)查方向,減輕工作人員人工辦案的人力與財力。
圖2 NChameleon流程圖
隨著信息網(wǎng)絡(luò)的發(fā)展,國內(nèi)各地所面臨的打擊洗錢犯罪的壓力越來越大,但是大部分地區(qū)對于一些經(jīng)濟案件的辦理還處于比較落后的狀態(tài),在應(yīng)對如傳銷案件、網(wǎng)絡(luò)金融詐騙、貪污受賄、資產(chǎn)轉(zhuǎn)移等嚴重的經(jīng)濟犯罪案件時常面臨缺少指引線索和辦案效率較低等問題。同時金融交易的數(shù)據(jù)量也在爆發(fā)式的增長,涉案數(shù)據(jù)達到PB級已經(jīng)非常常見,如何從PB級的大數(shù)據(jù)交易中發(fā)現(xiàn)可疑賬戶,并給出可疑賬戶具體的嫌疑程度,從而準確的發(fā)現(xiàn)洗錢犯罪活動中的關(guān)鍵賬戶,是具有很重大的研究意義的。
[1]梅德祥,高增安.中國產(chǎn)生的洗錢規(guī)模及其流出研究[J].經(jīng)濟學家,2015(1):64-72.
[2]童文俊.互聯(lián)網(wǎng)金融洗錢風險與防范對策研究[J].
金融會計,2014(8):71-76.
[3]嚴立新.中國反洗錢戰(zhàn)略(2013-2018)的升級轉(zhuǎn)型及其實施機制的建立[J].管理世界,2013(9):1-8.
[4]楊茂林.離群檢測算法研究[D].武漢:華中科技大學,2012.
[5]劉康明.離群檢測模型在反洗錢中的應(yīng)用研究[D].武漢:華中科技大學,2015.
[6]徐翔,劉建偉,羅雄麟.離群點挖掘研究[J].計算機應(yīng)用研究,2009(1):34-40.
[7]周虹.基于自適應(yīng)粒子群的k-中心聚類算法研究[D].長沙:長沙理工大學,2012.
[8]王茜,劉書志.基于密度的局部離群數(shù)據(jù)挖掘方法的改進[J].計算機應(yīng)用研究,2014(6):1693-1696,1701.
[9]矯彥,金融行業(yè)中復(fù)雜事件處理的應(yīng)用研究[D].上海:上海交通大學,2012.
[10]韓俊,談健,黃河,等.基于改進K-means聚類算法的供電塊劃分方法[J].電力自動化裝備,2015(6):123-128.
[11]梅孝輝,龍淵,張健博.基于聚類合并的局部離群點挖掘算法在入侵檢測中的應(yīng)用[J].計算機與現(xiàn)代化,2015(8):67-70.
[12]白雪.聚類分析中的相似性度量及其應(yīng)用研究[D].北京:北京交通大學,2012.
[13]張俊溪,楊海粟.基于層次聚類的離群點分析方法[J].計算機技術(shù)與發(fā)展,2014(8):81-83.
[14]諸彤宇,王奇,高夢丹.離群點挖掘技術(shù)在交通事件檢測中的應(yīng)用,2014(01):111-120.
[15]趙學良,朱慶生.基于距離的數(shù)據(jù)流離群點快速檢測[J].世界科技研究與發(fā)展,2013(4):462-464.
[16]吳鵬飛.數(shù)據(jù)場在聚類分析中的應(yīng)用[D].內(nèi)蒙古:內(nèi)蒙古科技大學,2013.
[17]陳曉勇,顧暉,彭志娟.數(shù)據(jù)挖掘中K-均值聚類算法的缺陷及工作效率改進的實驗研究[J].科學技術(shù)與工程,2013(34):10359-10363.
The anti-money laundering system based on outlier detection model
ZHONG Hong-jie1,BA Ji-dong2
(1.Wuhan Research Institute of Posts and Telecommunications,Wuhan430070,China;2.Wuhan YCIG ILink Technology Co.Ltd,Wuhan430070,China)
The international community is faced a common problem about money laundering crime,which has brought serious damage and impact to the economy of each country.In China,not only need to improve laws and regulations to establish anti-money laundering mechanism,but also through technical means to identify money laundering activities.This is a design and implementation of an anti-money laundering system based on the outlier detection model,which verifies the validity and practicability of the suspicious identification of the outlier detection model by using transaction flow data of real MLM cases.
anti-money laundering;outlier detection model;MLM;transaction flow
TP302
A
1674-6236(2017)23-0052-03
2016-10-19稿件編號:201610101
鐘弘杰(1991—),男,江西吉安人,碩士研究生。研究方向:通信與信息系統(tǒng),軟件設(shè)計。