徐宏寧,李代平,何利明,熊建斌
(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)
在金融業(yè),反洗錢不僅是一個(gè)世界性難題,也是一個(gè)公眾持續(xù)關(guān)注的話題。洗錢這一犯罪活動(dòng)給社會(huì)管理帶來極大障礙,影響了社會(huì)的穩(wěn)定,擾亂了金融秩序,阻礙了經(jīng)濟(jì)發(fā)展。為了打擊違法犯罪的洗錢活動(dòng),近幾年來,我國制定了相關(guān)法律法規(guī),成立了反洗錢監(jiān)測(cè)分析中心,展開反洗錢業(yè)務(wù)工作。隨著反洗錢工作的深入,洗錢的新渠道層出不窮,而相關(guān)反洗錢的法律法規(guī)不健全不完善,這給反洗錢工作帶來巨大壓力。一個(gè)銀行每天交易的數(shù)據(jù)量非常大,用人工的方式統(tǒng)計(jì)數(shù)據(jù)向中國人民銀行上報(bào)已不再可能,必須建立一個(gè)集中式管理的反洗錢數(shù)據(jù)報(bào)送系統(tǒng)。數(shù)據(jù)挖掘技術(shù)是反洗錢系統(tǒng)中應(yīng)用的核心技術(shù)。
反洗錢法的確立,使相關(guān)的反洗錢數(shù)據(jù)報(bào)送管理辦法及反洗錢現(xiàn)場(chǎng)、非現(xiàn)場(chǎng)監(jiān)管辦法等監(jiān)管制度成為銀行反洗錢系統(tǒng)設(shè)計(jì)的依據(jù),這些依據(jù)說明了大額特征、可疑特征、報(bào)送數(shù)據(jù)格式、報(bào)送方式及報(bào)文處理流程等。根據(jù)監(jiān)管部門對(duì)反洗錢數(shù)據(jù)報(bào)送工作的要求,一個(gè)銀行的反洗錢系統(tǒng)還必須結(jié)合本行的實(shí)際情況建立一套集中式管理的反洗錢數(shù)據(jù)報(bào)送系統(tǒng)。在采購人現(xiàn)有反洗錢數(shù)據(jù)報(bào)送系統(tǒng)的基礎(chǔ)上實(shí)現(xiàn)大額交易及可疑交易的自動(dòng)統(tǒng)計(jì)分析、篩選和及時(shí)報(bào)送,提供數(shù)據(jù)補(bǔ)正、人行回執(zhí)處理及補(bǔ)正、相關(guān)的數(shù)據(jù)統(tǒng)計(jì)、查詢、復(fù)核、打印等功能,才能滿足反洗錢數(shù)據(jù)報(bào)送的要求和監(jiān)管要求。
銀行反洗錢系統(tǒng)在銀行網(wǎng)絡(luò)總體架構(gòu)中的位置如圖1所示。一個(gè)銀行有多個(gè)業(yè)務(wù)系統(tǒng),而這些系統(tǒng)的所有數(shù)據(jù)都是反洗錢系統(tǒng)的數(shù)據(jù)源,反洗錢系統(tǒng)負(fù)責(zé)從這些數(shù)據(jù)源中挖掘出大額交易與可疑交易數(shù)據(jù)并以報(bào)文形式上報(bào)給中國人民銀行上報(bào)系統(tǒng)。
圖1 反洗錢系統(tǒng)位置圖
反洗錢系統(tǒng)分為兩部分:數(shù)據(jù)處理部分和應(yīng)用管理部分。數(shù)據(jù)處理部分結(jié)構(gòu)如圖2所示,該部分負(fù)責(zé)從銀行不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中提取原始賬戶數(shù)據(jù)、交易數(shù)據(jù)、客戶數(shù)據(jù)等,并對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,最后根據(jù)可疑交易與大額交易特征規(guī)則挖掘出大額交易數(shù)據(jù)與可疑交易數(shù)據(jù)。原始數(shù)據(jù)集是以增量方式從分布在不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫提取出來的數(shù)據(jù)集,用統(tǒng)一形式存儲(chǔ)。應(yīng)用管理部分中一次性柜臺(tái)錄入的當(dāng)天所有數(shù)據(jù)存儲(chǔ)到原始數(shù)據(jù)集中;錯(cuò)誤數(shù)據(jù)集是錯(cuò)誤的數(shù)據(jù)信息的集合,需要通過應(yīng)用管理部分中補(bǔ)錄模塊對(duì)該信息補(bǔ)正并審批,審批通過的數(shù)據(jù)遷移到整合數(shù)據(jù)集中。原始數(shù)據(jù)集只存儲(chǔ)當(dāng)天數(shù)據(jù),整合數(shù)據(jù)集存儲(chǔ)固定時(shí)間內(nèi)的數(shù)據(jù),挖掘數(shù)據(jù)庫中的表增加了特征化屬性,由挖掘引擎提取的數(shù)據(jù)為大額交易與可疑交易數(shù)據(jù),大額交易與可疑交易數(shù)據(jù)上報(bào)給人行后轉(zhuǎn)移到已上報(bào)數(shù)據(jù)中,上報(bào)成功的數(shù)據(jù)遷移到歸檔數(shù)據(jù)中備份。
應(yīng)用管理部分完成錯(cuò)誤信息的補(bǔ)錄審批功能、一次性柜臺(tái)錄入、參數(shù)錄入、報(bào)文管理、報(bào)表監(jiān)管等功能,當(dāng)然還有權(quán)限管理、日志管理、信息發(fā)部等其他應(yīng)用功能。
圖2 數(shù)據(jù)處理部分結(jié)構(gòu)圖
傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)基于預(yù)處理數(shù)據(jù),也就是說在對(duì)所有數(shù)據(jù)進(jìn)行數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換、特征化后,再通過數(shù)據(jù)挖掘引擎來挖掘有用的知識(shí)。本文鑒于具體的挖掘規(guī)則提出了分步挖掘的思想,不僅減少了挖掘引擎的壓力和系統(tǒng)中的數(shù)據(jù)流量,同時(shí)提高了部分大額交易與可疑交易數(shù)據(jù)的上報(bào)速度。根據(jù)大額交易與可疑交易特征,部分大額與可疑交易數(shù)據(jù)可直接在原始數(shù)據(jù)集中挖掘,如圖2中挖掘引擎1所示。錯(cuò)誤信息通過應(yīng)用管理部分更正后同樣可直接挖掘部分大額交易與可疑交易數(shù)據(jù),如圖2中挖掘引擎2所示。比如單筆人民幣交易20萬美元以上或者外幣交易值1萬美元以上的現(xiàn)金繳存、現(xiàn)金結(jié)售匯、現(xiàn)鈔兌換、現(xiàn)金匯款、現(xiàn)金票據(jù)解付及其他形式的現(xiàn)金收支,只需要對(duì)單筆交易的金額、幣種、交易方式等屬性進(jìn)行判斷即可。
數(shù)據(jù)挖掘的數(shù)據(jù)通常是從不同的數(shù)據(jù)庫中收集在一起的數(shù)據(jù),因此挖掘系統(tǒng)應(yīng)該可以分析不完整的、含噪音的、并且不一致的數(shù)據(jù)。所以首先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,添加一些必要的感興趣的屬性,去除不感興趣的屬性,修正錯(cuò)誤值,去掉重復(fù)記錄和重復(fù)值等。
2.2.1 屬性過濾
根據(jù)大額交易與可疑交易特征分析相關(guān)屬性,添加一些與反洗錢業(yè)務(wù)特征有關(guān)的屬性,去掉已有的與反洗錢業(yè)務(wù)特征沒有任何關(guān)系的屬性。比如對(duì)大額交易特征進(jìn)行分析得出以下感興趣的屬性:交易方式、交易幣種、賬戶類型、交易金額、當(dāng)天交易總額、交易日期、固定時(shí)間內(nèi)交易次數(shù)等,其中固定時(shí)間內(nèi)交易次數(shù)、當(dāng)天交易總額是交易表中沒有的屬性,而這些屬性恰是感興趣的屬性。
2.2.2 數(shù)據(jù)清理
數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲、識(shí)別或刪除離群點(diǎn)并解決不一致性來清理數(shù)據(jù)[1]。在反洗錢系統(tǒng)中將未發(fā)生交易的客戶、賬戶信息去除,對(duì)于客戶號(hào)相同的客戶根據(jù)系統(tǒng)優(yōu)先級(jí)進(jìn)行重復(fù)。將原始數(shù)據(jù)集中錯(cuò)誤及重復(fù)客戶數(shù)據(jù)導(dǎo)入客戶錯(cuò)誤信息表及客戶重復(fù)信息表中,提供給應(yīng)用管理部分中補(bǔ)錄模塊由補(bǔ)錄人員進(jìn)行修正。
2.2.3 數(shù)據(jù)特征化
在反洗錢系統(tǒng)中有很多感興趣的屬性值在數(shù)據(jù)庫中不能直接取得,需要對(duì)目標(biāo)數(shù)據(jù)特征化。數(shù)據(jù)特征化是目標(biāo)類數(shù)據(jù)的一般特性或特征的匯總[1]?;跀?shù)理統(tǒng)計(jì)的方法是數(shù)據(jù)特征提取的主要方法,分布式度量與代數(shù)度量是必不可少的度量,通常在預(yù)計(jì)算中保留分布式度量值作為感興趣屬性值,再運(yùn)用這些分布式度量值來計(jì)算代數(shù)度量值,總數(shù)統(tǒng)計(jì)量xi與個(gè)數(shù)統(tǒng)計(jì)量都是分布式度量。均值是代數(shù)度量,代數(shù)公式為:
在應(yīng)用中有些度量對(duì)應(yīng)于關(guān)系數(shù)據(jù)庫中提供的內(nèi)部聚集函數(shù),如 sum()、count()、avg()等。 均值代數(shù)度量可通過代數(shù)公式avg()=sum()/count()來計(jì)算。反洗錢系統(tǒng)中度量數(shù)據(jù)的計(jì)算舉例如下:(1)當(dāng)日累計(jì)人民幣大額交易數(shù)據(jù)的提取。需要統(tǒng)計(jì)所有賬號(hào)當(dāng)日交易的總金額,SQL語句表示為:SELECT SUM(交易額)AS交易總額 FROM交易表GROUP BY賬號(hào)WHERE交易日期=當(dāng)天日期。(2)集中轉(zhuǎn)入分散轉(zhuǎn)出和分散轉(zhuǎn)入集中轉(zhuǎn)出賬號(hào)的提取。首先統(tǒng)計(jì)出一個(gè)賬號(hào)在當(dāng)日前有限日內(nèi)的貸記交易次數(shù)與借記交易次數(shù),再計(jì)算兩者的比值,最后將此比值與根據(jù)可疑特征分析得出的比值的閾值進(jìn)行比較,區(qū)分是否為分散轉(zhuǎn)入集中轉(zhuǎn)出還是集中轉(zhuǎn)入分散轉(zhuǎn)出或是正常資金周轉(zhuǎn)。(3)對(duì)連續(xù)頻繁交易賬號(hào)的提取。首先統(tǒng)計(jì)出當(dāng)日前固定時(shí)間內(nèi)該賬號(hào)發(fā)生交易的次數(shù),再計(jì)算平均每天交易次數(shù),最后將平均每天的交易次數(shù)與根據(jù)可疑特征分析得出的閾值進(jìn)行比較,判斷是否為頻繁交易。
分類方法在反洗錢系統(tǒng)中是必不可少的方法,規(guī)則是表示知識(shí)與信息的有效手段,也是分類器的一種表示方法。本文以單筆大額交易特征為例說明基于規(guī)則分類算法的應(yīng)用,基本步驟如下:
(1)根據(jù)人民銀行規(guī)定的大額交易特征進(jìn)行相關(guān)屬性分析,確定屬性名稱與值的表示方式,為了論文寫作的方便與信息保密性對(duì)其作了一些調(diào)整,制作成表1。如果對(duì)當(dāng)日累計(jì)形成大額交易特征的記錄進(jìn)行篩選應(yīng)將交易金額換為當(dāng)日累計(jì)金額。
表1 屬性及屬性值表示形式表
圖3 單筆大額交易決策樹
(2)構(gòu)造分類器。分類器是分離數(shù)據(jù)類的映射或函數(shù),通常該映射用分類規(guī)則、決策樹或數(shù)學(xué)公式的形式提供。單筆大額交易特征可表示成一些規(guī)則,這些規(guī)則相當(dāng)于一個(gè)分類器。與大額交易相關(guān)的屬性之間有一種相互依賴關(guān)系,比如不同的交易方式形成大額交易的交易金額閾值不一樣,用不同幣種核算的交易其交易金額閾值不同,如果是非現(xiàn)金方式的交易還要考慮賬戶類型,法人賬戶與自然人賬戶構(gòu)成大額交易的交易金額不同。根據(jù)這些依賴關(guān)系選擇分裂屬性,制作一棵如圖3所示的決策樹,決策樹的每條分枝是一條規(guī)則,每個(gè)規(guī)則之間蘊(yùn)含著析取(邏輯OR),也是互斥的和窮舉的。用IF_THEN規(guī)則表達(dá)形式如下:
(3)編碼實(shí)現(xiàn)。為了提高算法執(zhí)行的效率,用數(shù)據(jù)庫語言編寫分類算法。
算法:SetIsLarge.
輸入:Attribute_list,候選相關(guān)屬性集合
輸出:屬性IsLarge的值
方法:
對(duì)算法SetIsLarge的調(diào)用方法如下:
①For從數(shù)據(jù)表中取得交易數(shù)據(jù)記錄。
② 得到交易記錄的相關(guān)屬性值。
③ 設(shè)置交易數(shù)據(jù)記錄islarge的值為算法SetIs-Large的執(zhí)行結(jié)果,其中算法SetIsLarge的輸入?yún)?shù)為第②步中取得的值。
(4)分類結(jié)果。分類算法準(zhǔn)確率是由相關(guān)屬性分析的準(zhǔn)確率與完整性所決定的。如果能完整提取大額交易與可疑交易的所有相關(guān)屬性,只要對(duì)這些屬性設(shè)置一個(gè)閾值就能對(duì)交易數(shù)據(jù)進(jìn)行準(zhǔn)確分類。本反洗錢系統(tǒng)采用以上分類步驟與算法對(duì)交易數(shù)據(jù)的分類準(zhǔn)確率達(dá)到100%。
本系統(tǒng)提供功能齊全、界面友好的應(yīng)用管理功能模塊,方便用戶作業(yè),同時(shí)實(shí)現(xiàn)自動(dòng)運(yùn)作的數(shù)據(jù)處理功能。系統(tǒng)不僅能滿足上報(bào)功能,而且能與銀行的其他業(yè)務(wù)系統(tǒng)融合。
后續(xù)研究可考慮以下改進(jìn)思路:(1)采用在線聯(lián)機(jī)分析處理技術(shù)提高從不同系統(tǒng)數(shù)據(jù)庫抽取源數(shù)據(jù)的速度。(2)實(shí)現(xiàn)實(shí)時(shí)監(jiān)控挖掘技術(shù),首先對(duì)實(shí)時(shí)抽取的數(shù)據(jù)進(jìn)行數(shù)據(jù)清理,確保一致性與信息的準(zhǔn)確性。其次,以交易數(shù)據(jù)的相關(guān)屬性值作輸入?yún)?shù)調(diào)用不同的挖掘算法,其中有的算法除了能實(shí)現(xiàn)分類功能外還可實(shí)現(xiàn)數(shù)據(jù)特征化處理功能。
[1]HAN Jia Wei,KAMBER M.Data Mining Concepts and Techniques[M].Morgan Kaufmann Publisher, 2000:10-200.
[2]中國人民銀行.銀行業(yè)大額交易和可疑交易報(bào)告數(shù)據(jù)報(bào)送接口規(guī)范 (2008修訂版)[DB/OL].http∶//www.pbc.gov.cn/fanxiqian/.
[3]張焱,歐陽一鳴,王浩,等.數(shù)據(jù)挖掘在金融領(lǐng)域中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2004(18):208-211.
[4]陶維,馬吉明,張素智.決策樹算法分析及應(yīng)用[J].電腦知識(shí)與技術(shù),2009(5):3352-3354.
[5]劉瓊瑤.我國金融業(yè)反洗錢現(xiàn)狀分析及對(duì)策研究[J].華南金融電腦,2009(7):96-97.