• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的信用卡交易欺詐檢測(cè)研究綜述

      2023-11-20 10:58:50蔣洪迅江俊毅
      關(guān)鍵詞:欺詐信用卡交易

      蔣洪迅,江俊毅,梁 循

      中國(guó)人民大學(xué) 信息學(xué)院,北京 100872

      信用卡當(dāng)前持卡規(guī)模和使用頻度,其日常交易已經(jīng)成為一種海量流數(shù)據(jù),人工驗(yàn)證解決信用卡反欺詐顯然不現(xiàn)實(shí),只能采用基于機(jī)器學(xué)習(xí)的全自動(dòng)化檢測(cè)[1],如圖1所示。目前機(jī)器學(xué)習(xí)在人臉識(shí)別、無(wú)人駕駛等工程領(lǐng)域獲得非常廣泛的應(yīng)用。然而,在信用卡反欺詐領(lǐng)域,由于有人的智力介入,機(jī)器學(xué)習(xí)所面臨的挑戰(zhàn)遠(yuǎn)比工程領(lǐng)域的難度更高。大規(guī)模信用卡交易欺詐犯罪通常與暗網(wǎng)、有組織犯罪、國(guó)際販毒、恐怖組織融資等社會(huì)深層問(wèn)題相關(guān)聯(lián),使得任務(wù)更加復(fù)雜困難。隨著國(guó)際互聯(lián)網(wǎng)以及移動(dòng)網(wǎng)絡(luò)的普及,新技術(shù)為欺詐者提供了更便利的匿名環(huán)境、更大的覆蓋范圍和更快的嘗試速度。鑒于機(jī)器學(xué)習(xí)對(duì)于信用卡欺詐識(shí)別至關(guān)重要,制訂適當(dāng)?shù)牟呗曰蜷_(kāi)發(fā)智能判別算法,將合法交易與欺詐交易區(qū)分開(kāi)來(lái),以阻止?jié)撛谄墼p交易的完成。

      圖1 包含反欺詐檢測(cè)的信用卡交易過(guò)程Fig.1 Credit card transaction process with anti-fraud detection

      信用卡交易欺詐檢測(cè)的機(jī)器學(xué)習(xí)方法,是指在信用卡交易反欺詐場(chǎng)景中利用機(jī)器學(xué)習(xí)模型動(dòng)態(tài)識(shí)別欺詐行為的計(jì)算機(jī)程序或軟件系統(tǒng),以阻斷欺詐交易進(jìn)行或中止結(jié)算,降低欺詐發(fā)生概率或減少欺詐產(chǎn)生的損失。信用卡交易反欺詐系統(tǒng),按干預(yù)實(shí)時(shí)性劃分,包含欺詐預(yù)防和欺詐識(shí)別兩大部分,如圖2所示。當(dāng)新交易抵達(dá)時(shí),欺詐預(yù)防自動(dòng)執(zhí)行一系列規(guī)則審查,諸如PIN 是否正確、信用額度是否充足等;欺詐識(shí)別屬于深度檢測(cè),通過(guò)歷史交易數(shù)據(jù)訓(xùn)練欺詐特征識(shí)別模型,一旦當(dāng)前交易行為的欺詐概率超過(guò)預(yù)設(shè)閾值,系統(tǒng)將干預(yù)該交易[2]。比較而言,雖說(shuō)欺詐預(yù)防采取了一些較高級(jí)技術(shù)機(jī)制,諸如數(shù)據(jù)加密、防火墻、地址驗(yàn)證、驗(yàn)證碼等[1],但受制于實(shí)時(shí)響應(yīng)要求,只能局限于有限規(guī)則而無(wú)法進(jìn)行復(fù)雜運(yùn)算,欺詐者只要采取針對(duì)性手段就能穿透系統(tǒng)。欺詐識(shí)別是更重要的反欺詐手段,按在線與否劃分,將其分為在線和離線檢測(cè)兩個(gè)部分,前者通常是實(shí)時(shí)的、同步的即時(shí)反饋;后者是非實(shí)時(shí)的、異步的事后反饋[1]。在線即時(shí)反饋受到終端算力不足的限制和交易執(zhí)行的即時(shí)性要求之間的矛盾,以及交易信息不完備性的影響,沒(méi)有可能完成大量復(fù)雜計(jì)算,因此欺詐識(shí)別主要工作就只能交給具有巨大計(jì)算資源的后端非實(shí)時(shí)的離線系統(tǒng)[3]。

      圖2 信用卡反欺詐系統(tǒng)的交易檢測(cè)一般過(guò)程Fig.2 General process of transaction detection for credit card anti-fraud systems

      不同類型的信用卡欺詐,機(jī)器學(xué)習(xí)思維角度和訓(xùn)練方法亦有不同。以犯罪主體劃分,信用卡欺詐分為兩類,即第一方(持卡人)和第三方(非持卡人)欺詐[4]。第一方欺詐是指使用虛假信息申請(qǐng)新卡或持卡人本人的惡意透支;第三方欺詐是盜刷他人信用卡騙取財(cái)物的行為?;谄墼p規(guī)模性和組織性,本文重點(diǎn)研究第三方欺詐。第三方欺詐又可以具體分為盜卡欺詐、偽造卡欺詐、無(wú)卡欺詐(網(wǎng)絡(luò)釣魚(yú))、卡ID盜竊欺詐以及未達(dá)卡欺詐等類型。不同類型欺詐行為也各具特征。譬如,盜卡欺詐通常會(huì)短時(shí)間內(nèi)盡可能花多的錢,其特點(diǎn)是交易間隔通常很短;偽造卡欺詐通常次數(shù)不太頻繁,盡量拖延受害者發(fā)現(xiàn);電子交易中無(wú)需使用實(shí)體卡,欺詐者利用非法手段獲得信用卡信息被稱為網(wǎng)絡(luò)釣魚(yú)或無(wú)卡欺詐;當(dāng)欺詐者非法接管他人信用卡賬戶時(shí)發(fā)生的欺詐稱為卡ID 盜竊欺詐;當(dāng)銀行寄出信用卡之后到持卡人收到卡片之前被盜刷的現(xiàn)象稱為未達(dá)卡欺詐。隨著時(shí)代發(fā)展、用戶習(xí)慣、外部環(huán)境改變,欺詐行為特征發(fā)生相應(yīng)的變化。英國(guó)金融協(xié)會(huì)統(tǒng)計(jì)顯示,各種類型發(fā)生比例差異很大,如表1所示[5]。20世紀(jì)70年代最常見(jiàn)盜卡欺詐;80 至90 年代,電話訂購(gòu)以及郵購(gòu)興起,偽造卡欺詐大行其道;近年來(lái),消費(fèi)交易逐漸在線化,無(wú)卡欺詐量逐年增加。

      表1 信用卡欺詐的類別及占比Table 1 Types and percentage of credit card fraud單位:%

      面向欺詐判別的機(jī)器學(xué)習(xí)主要面臨以下幾個(gè)方面的困難:第一是數(shù)據(jù)規(guī)模大且正負(fù)樣本比例極端不平衡:刷卡交易數(shù)量巨大,且合法交易遠(yuǎn)遠(yuǎn)多于欺詐數(shù)量,許多研究[1,3,6]都提出欺詐比例低于0.5%;第二是犯罪有組織性,當(dāng)前信用卡欺詐主流趨勢(shì)已發(fā)展成為一種長(zhǎng)期的、國(guó)際的、隱蔽的有組織犯罪行為,某張信用卡一旦被盜,將出現(xiàn)在多個(gè)欺詐或非法交易場(chǎng)景中,某些商戶甚至發(fā)卡機(jī)構(gòu)也深陷犯罪網(wǎng)絡(luò)之中;第三個(gè)難點(diǎn)是特征重疊,欺詐者會(huì)竭力表現(xiàn)正常交易特征以掩飾非法交易[7];第四個(gè)難點(diǎn)是概念漂移,技術(shù)的發(fā)展、時(shí)間的流逝和消費(fèi)者支出模式的改變,欺詐方式會(huì)隨之發(fā)生變化。欺詐手段與反欺詐技術(shù)也是一個(gè)彼此演進(jìn)的過(guò)程。隨著各機(jī)構(gòu)紛紛上線部署反欺詐系統(tǒng),欺詐者也不斷調(diào)整其行為模式以逃避監(jiān)管[8],因此信用卡欺詐識(shí)別研究需要日益創(chuàng)新,是監(jiān)管機(jī)構(gòu)和學(xué)術(shù)界經(jīng)久不衰的一個(gè)熱點(diǎn)課題。

      信用卡反欺詐領(lǐng)域雖然已經(jīng)存在一些綜述性文章,諸如文獻(xiàn)[9-14],但它們或失于年代過(guò)于久遠(yuǎn)沒(méi)有機(jī)器學(xué)習(xí)的最新進(jìn)展[9-10]、或失于內(nèi)容過(guò)于寬泛沒(méi)有專精于信用卡欺詐檢測(cè)[11,14]、或關(guān)注范圍太窄只針對(duì)網(wǎng)絡(luò)釣魚(yú)[13]、或失于方法聚焦不夠?qū)е路怯?jì)算機(jī)技術(shù)占用了篇幅太多[12]。本文專注于機(jī)器學(xué)習(xí)相關(guān)領(lǐng)域的新方法和新成果,綜述信用卡欺詐檢測(cè)的發(fā)展進(jìn)程與變化趨勢(shì),對(duì)比分析各種模型算法的歷史及現(xiàn)狀,系統(tǒng)地刻畫(huà)信用卡交易欺詐識(shí)別研究的總體發(fā)展情況,給出一個(gè)截至目前最新、最全面的研究綜述。本文余下部分如圖3所示。

      圖3 本文各部分內(nèi)容以及相互關(guān)系Fig.3 Content and their interrelationship of each part of this paper

      1 綜述研究框架

      針對(duì)信用卡行為欺詐識(shí)別研究的機(jī)器學(xué)習(xí)領(lǐng)域文獻(xiàn),本文構(gòu)建了一個(gè)包含研究定義層、方法層和分析層的綜述框架,如圖4 所示。在研究定義層,本文首先確定了以機(jī)器學(xué)習(xí)為中心的文獻(xiàn)成果;其次,確定了預(yù)期目標(biāo)是專注于信用卡行為欺詐識(shí)別這個(gè)唯一主題,梳理過(guò)去、綜述現(xiàn)在和提議未來(lái);基于此,選定2000 至2020年間發(fā)表的所有重要學(xué)術(shù)成果。在研究方法層面,根據(jù)前述研究定義層的輸出—重要學(xué)術(shù)成果—確定了搜索范圍及文章篩選條件,即以“機(jī)器學(xué)習(xí)”“信用卡欺詐”“credit card fraud detection”為關(guān)鍵詞,檢索范圍為在中國(guó)計(jì)算機(jī)學(xué)會(huì)期刊會(huì)議目錄和國(guó)家自然科學(xué)基金委員認(rèn)定重要期刊上發(fā)表的學(xué)術(shù)成果,只考慮了長(zhǎng)文而不包括評(píng)論、通信、技術(shù)說(shuō)明、勘誤表等形式的短文,在會(huì)議論文中只納入了全文或長(zhǎng)文,而不考慮會(huì)議上其他形式發(fā)表的論文,諸如短文、Demo、技術(shù)簡(jiǎn)報(bào)、摘要以及作為伴隨會(huì)議的工作坊文章等。在保證源刊權(quán)威性之后,進(jìn)一步手工剔除主題無(wú)關(guān)文章?;诖?,本文最終獲得101篇具有代表性的科學(xué)文獻(xiàn),可謂機(jī)器學(xué)習(xí)領(lǐng)域信用卡交易欺詐檢測(cè)研究“近20 年來(lái)最重要的百篇文章”。在研究分析層面,本文提出了一篇好的綜述文章應(yīng)該分析、討論并回答的具體問(wèn)題,譬如,過(guò)往的此類研究都?xì)w結(jié)在哪些領(lǐng)域、研究范式經(jīng)歷了什么變化、這些變化發(fā)生的原因、各自的其高潮期與低谷期、各種方法優(yōu)勢(shì)和局限、該領(lǐng)域研究未來(lái)的發(fā)展趨勢(shì)等。本文將在后續(xù)各節(jié)中逐一分析討論這些問(wèn)題,嘗試給出該領(lǐng)域最新的趨勢(shì)和進(jìn)展分析。

      圖4 本文的研究框架Fig.4 Research framework of this paper

      根據(jù)作者團(tuán)隊(duì)、研究機(jī)構(gòu)以及國(guó)家劃分,觀察20年來(lái)信用卡行為欺詐檢測(cè)的101 篇文獻(xiàn),圖5 展示了各國(guó)學(xué)者發(fā)文量及其相互間合作關(guān)聯(lián)圖,顯示出在信用卡欺詐檢測(cè)領(lǐng)域中國(guó)學(xué)者的發(fā)文總量獨(dú)占鰲頭,美國(guó)學(xué)者次之、印度第三。從合作關(guān)系角度講,美國(guó)學(xué)者仍然處于這個(gè)領(lǐng)域的研究中心位置,具有更多的跨國(guó)合作關(guān)聯(lián)。從核心作者角度看,Oliver、Gianluca、Liu、Jiang 等學(xué)者的成果數(shù)量領(lǐng)先,其中Oliver處于本領(lǐng)域研究合作網(wǎng)絡(luò)的中心點(diǎn)位置,Shamik、Gianluca、Andrea 和Yann-Ael 也處于各個(gè)區(qū)域網(wǎng)絡(luò)的領(lǐng)導(dǎo)者地位。相比之下,Liu、Jiang等中國(guó)學(xué)者自成體系且發(fā)文量較多,領(lǐng)導(dǎo)了一個(gè)獨(dú)立的合作子網(wǎng),能夠在嚴(yán)格的同行通信評(píng)審中錄用并發(fā)表頗具規(guī)模的科研成果,顯然也具有較強(qiáng)的科學(xué)影響力。

      圖5 信用卡欺詐檢測(cè)領(lǐng)域各國(guó)學(xué)者間合作關(guān)系統(tǒng)計(jì)Fig.5 Statistics on cooperation between academics in credit card fraud detection field of various countries

      基于發(fā)表年份分布統(tǒng)計(jì),可以發(fā)現(xiàn)2015 年前后研究進(jìn)入高峰期,如圖6所示,相關(guān)文章頻發(fā)、成果數(shù)量井噴。究其原因,首先得益于信用卡應(yīng)用不斷擴(kuò)大;其次是研究方法不斷進(jìn)步。前者來(lái)源于電子商務(wù)、移動(dòng)支付、互聯(lián)網(wǎng)金融的快速發(fā)展,大量業(yè)務(wù)帶來(lái)大量交易,為行為欺詐檢測(cè)提供了數(shù)據(jù)積累;后者得益于大數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)算法興起,人工智能新算法為信用卡行為欺詐檢測(cè)提供了新的研究契機(jī)。從圖6 歷史發(fā)展時(shí)間線來(lái)看,本領(lǐng)域研究從十幾年緩慢積累期逐漸步入了最近幾年的一個(gè)突破期,未來(lái)若干年這個(gè)領(lǐng)域還應(yīng)處于一個(gè)持續(xù)高原期。

      圖6 文獻(xiàn)年度發(fā)表量分布圖Fig.6 Distribution of annual publication volumes of literature

      分析信用卡欺詐檢測(cè)研究文獻(xiàn)引用關(guān)系,如圖7所示,冷色為較早期文獻(xiàn),暖色為近期文獻(xiàn),可以發(fā)現(xiàn)高被引論文、高影響力文獻(xiàn)集中出現(xiàn)在2016—2021 的五年間,其中Bahnsen、Jurgovsky、Fior等學(xué)者的研究成果,是信用卡欺詐檢測(cè)領(lǐng)域研究的新熱點(diǎn)。

      圖7 文獻(xiàn)引用統(tǒng)計(jì)分析Fig.7 Statistical analysis of literature citations

      對(duì)文獻(xiàn)關(guān)鍵詞進(jìn)行聚類分析,如圖8 所示,可以看出信用卡欺詐檢測(cè)研究始終圍繞機(jī)器學(xué)習(xí)算法、代價(jià)敏感性學(xué)習(xí)、異常檢測(cè)、概念漂移等主題,近期的文獻(xiàn)也開(kāi)始凸顯大數(shù)據(jù)信息安全相關(guān)的視角。

      圖8 信用卡欺詐檢測(cè)文獻(xiàn)關(guān)鍵詞聚類分析Fig.8 Keyword clustering analysis of credit card fraud detection literature

      對(duì)關(guān)鍵詞進(jìn)行突現(xiàn)分析,如圖9 所示,自1997 年起神經(jīng)網(wǎng)絡(luò)便是研究者關(guān)注的熱點(diǎn)且經(jīng)久不衰,而數(shù)據(jù)挖掘與異常檢測(cè)方法主要流行于2000至2010年間。最近10年來(lái),集成模型和特征工程方面的研究突現(xiàn),譬如特征選擇和特征融合,并逐漸成為信用卡欺詐檢測(cè)領(lǐng)域的若干熱點(diǎn)方向。

      圖9 信用卡欺詐檢測(cè)文獻(xiàn)關(guān)鍵詞突現(xiàn)分析Fig.9 Analysis of keyword emergence in credit card fraud detection literature

      2 技術(shù)架構(gòu)概述

      縱觀信用卡欺詐檢測(cè)系統(tǒng)的發(fā)展歷史,欺詐檢測(cè)的技術(shù)架構(gòu)可分為基于專家知識(shí)或基于數(shù)據(jù)驅(qū)動(dòng)兩種類型,如圖10所示。前者判定的規(guī)則由領(lǐng)域?qū)<抑朴?,基于理論解釋和領(lǐng)域知識(shí)判別欺詐行為,適合于特定欺詐場(chǎng)景;后者從大量歷史數(shù)據(jù)中挖掘交易行為模式,捕獲欺詐行為特征。隨著發(fā)卡規(guī)模不斷擴(kuò)大,持卡人日益多樣性,刷卡交易量劇增,依賴于專家知識(shí)的規(guī)則檢測(cè)系統(tǒng)難以為繼,再加之電子商務(wù)應(yīng)用場(chǎng)景多樣化,傳統(tǒng)經(jīng)驗(yàn)顯然無(wú)法適應(yīng)快速發(fā)展的需要,大數(shù)據(jù)驅(qū)動(dòng)的欺詐識(shí)別方法日益成為學(xué)界和業(yè)界的主流體系。

      圖10 欺詐檢測(cè)技術(shù)架構(gòu)分類與發(fā)展Fig.10 Fraud detection technology architecture classification and development

      2.1 基于專家規(guī)則的架構(gòu)

      信用卡反欺詐早期多數(shù)是基于規(guī)則的專家系統(tǒng)架構(gòu)。判定規(guī)則一般是“if-then”或“if-else-then”觸發(fā)條件[15]。專家系統(tǒng)將規(guī)則集成在規(guī)則池,一個(gè)規(guī)則池內(nèi)通常包含幾百甚至數(shù)千條規(guī)則,通過(guò)AND/OR運(yùn)算符對(duì)其進(jìn)行集成或匯總。規(guī)則數(shù)量越多,欺詐鑒別的覆蓋范圍也就越大,召回率越高。20 世紀(jì)90 年代欺詐申請(qǐng)檢測(cè)系統(tǒng)TRAP 和信用卡欺詐識(shí)別系統(tǒng)Fraudwatch 均是基于專家規(guī)則構(gòu)建的系統(tǒng),這類專家系統(tǒng)結(jié)構(gòu)比較簡(jiǎn)單,通過(guò)可重用的專業(yè)知識(shí)模型庫(kù),短時(shí)間內(nèi)即可從大量交易中篩選出可疑交易,在當(dāng)時(shí)信用卡反欺詐中獲得了很大的成功[16]。

      隨著時(shí)代發(fā)展、技術(shù)變化、應(yīng)用多樣性,欺詐模式也不斷改變,系統(tǒng)需要不斷調(diào)整規(guī)則池,以維持分類性能和效率。其中,博弈論為探索新規(guī)則提供了一個(gè)重要思路。Vatsa等學(xué)者將欺詐者與反欺詐系統(tǒng)建模為兩個(gè)對(duì)手之間的多輪次交互重復(fù)博弈,以試圖最大化其收益。然而并非規(guī)則越多越好,數(shù)量越多計(jì)算復(fù)雜度越高,系統(tǒng)需要在分類性能、計(jì)算效率以及系統(tǒng)敏捷性之間進(jìn)行權(quán)衡[17]。Gianini 等研究了欺詐檢測(cè)規(guī)則的效率管理問(wèn)題,提出一種基于Shapley值的有用性量化原則,即對(duì)每條規(guī)則的貢獻(xiàn)進(jìn)行排名以解決于規(guī)則庫(kù)管理與規(guī)則評(píng)估問(wèn)題[15]??傊瑢<乙?guī)則算法的優(yōu)點(diǎn)和缺點(diǎn)都非常明顯。其優(yōu)點(diǎn)是以較低的精度實(shí)現(xiàn)了較高的召回水平;其缺點(diǎn)是預(yù)定義專家規(guī)則沒(méi)有辦法識(shí)別出新涌現(xiàn)的欺詐模式。

      2.2 基于數(shù)據(jù)挖掘的架構(gòu)

      數(shù)據(jù)挖掘是實(shí)踐證明更加卓有成效的欺詐檢測(cè)方法。相比于專家規(guī)則,數(shù)據(jù)挖掘具有一些獨(dú)到優(yōu)勢(shì)[18]:從歷史數(shù)據(jù)中自動(dòng)捕獲欺詐模式;刻畫(huà)每個(gè)交易“潛在欺詐”的概率,從而安排對(duì)可疑案件調(diào)查的優(yōu)先級(jí);挖掘出未定義的新欺詐類型。實(shí)踐中欺詐行為普遍存在多樣性和復(fù)雜性,需要數(shù)據(jù)挖掘開(kāi)發(fā)不同的應(yīng)對(duì)方法[10]。

      面向信用卡反欺詐的數(shù)據(jù)挖掘方法可以劃分為六類,包括分類、聚類、預(yù)測(cè)、回歸、異常檢測(cè)和可視化等。從趨勢(shì)上講,近年來(lái)反欺詐數(shù)據(jù)挖掘逐步向基于入侵和異常的檢測(cè)方法發(fā)展,或二者相集成[19]。所謂入侵檢測(cè),是指針對(duì)欺詐簽名而其他特征正常的特定交易[20],通常利用基于規(guī)則的統(tǒng)計(jì)揭示可疑交易;所謂異常檢測(cè),是對(duì)每個(gè)持卡人行為模式進(jìn)行建模,以監(jiān)控當(dāng)前交易行為是否偏離規(guī)范,也可稱為離群值檢測(cè)[21]。異常行為特征數(shù)據(jù)挖掘包含三種類型,即監(jiān)督、無(wú)監(jiān)督和半監(jiān)督的異常檢測(cè)[22]。基于異常的檢測(cè)方法實(shí)踐中表現(xiàn)強(qiáng)大的潛力[21,23-25]。有些學(xué)者集成異常和入侵兩類檢測(cè)方法以期獲得更好效果,既克服入侵檢測(cè)不擅發(fā)現(xiàn)新模式欺詐的缺陷,又規(guī)避異常檢測(cè)欠缺泛化能力和誤報(bào)率較高的弊端[8,26]。

      面向欺詐檢測(cè)的數(shù)據(jù)挖掘流程包含特征工程、模型選擇、效果評(píng)價(jià)等三個(gè)主要環(huán)節(jié)。表2總結(jié)了在這三個(gè)環(huán)節(jié)上最近20年來(lái)發(fā)表的文獻(xiàn)數(shù)量其發(fā)展趨勢(shì)。在特征工程環(huán)節(jié),采取恰當(dāng)?shù)募夹g(shù)處理、轉(zhuǎn)換或匯總原始交易記錄的行為信息,篩選數(shù)據(jù)和提取特征。鑒于隱私保護(hù)的需要,交易記錄往往字段簡(jiǎn)單、特征單一,需要系統(tǒng)采集更多、更廣義的相關(guān)數(shù)據(jù),挖掘數(shù)據(jù)間的關(guān)聯(lián),以期構(gòu)造出新的特征變量。特征工程這部分涉及計(jì)算機(jī)智能技術(shù)、經(jīng)濟(jì)管理科學(xué)、統(tǒng)計(jì)學(xué)、法學(xué)、心理學(xué)、數(shù)學(xué)等眾多理論與方法,不同理論研究框架可以解釋和解決不同的問(wèn)題,從各個(gè)側(cè)面為欺詐檢測(cè)提供思路。其次,在模型訓(xùn)練及選擇環(huán)節(jié),探尋高精度、高性能算法以自動(dòng)判別交易記錄流中的異常個(gè)案。在效果評(píng)價(jià)環(huán)節(jié),重點(diǎn)在于評(píng)價(jià)指標(biāo)的設(shè)計(jì),為模型改進(jìn)明確優(yōu)化的方向。好的評(píng)價(jià)指標(biāo)不僅能無(wú)偏反映模型效果,還適應(yīng)信用卡欺詐的特殊應(yīng)用場(chǎng)景,即權(quán)衡準(zhǔn)確率、召回率以及模型效率(即算法復(fù)雜度),還需考慮欺詐檢測(cè)的成本與收益。

      表2 各環(huán)節(jié)研究情況及其年度分布Table 2 Research by segment and its annual distribution

      總的來(lái)說(shuō),數(shù)據(jù)驅(qū)動(dòng)的、日新月異的機(jī)器學(xué)習(xí)方法已經(jīng)成為信用卡反欺詐檢測(cè)算法中一種中堅(jiān)力量,也是此領(lǐng)域未來(lái)最重要、最有前途的發(fā)展方向。特征工程、模型選擇、效果評(píng)價(jià)等環(huán)節(jié)是所有數(shù)據(jù)挖掘算法的一般性過(guò)程,后面各節(jié)將依次展開(kāi)專題性文獻(xiàn)綜述,以清晰梳理基于數(shù)據(jù)挖掘的機(jī)器學(xué)習(xí)檢測(cè)模型的歷史沿革、最新進(jìn)展和未來(lái)方向。從技術(shù)架構(gòu)的發(fā)展趨勢(shì)上看,信用卡欺詐檢測(cè)系統(tǒng)的相關(guān)研究反映了三大特點(diǎn):其一是從小數(shù)據(jù)處理到大數(shù)據(jù)處理能力的演進(jìn);其二是從檢測(cè)功能的實(shí)現(xiàn),到準(zhǔn)確率的考量,再到算法效率的追求;其三是數(shù)據(jù)處理能力與模型性能的演進(jìn),以及對(duì)提升樣本集利用率和概念漂移等復(fù)雜因素的考慮。

      3 特征工程

      特征質(zhì)量對(duì)于機(jī)器學(xué)習(xí)模型性能至關(guān)重要,全面采集、仔細(xì)篩選、精心創(chuàng)建捕獲異常的特征,是啟動(dòng)信用卡欺詐檢測(cè)的一個(gè)重要步驟。然而,信用卡交易具有其特殊性。為了保護(hù)用戶隱私和持卡人資產(chǎn)安全,信用卡發(fā)卡機(jī)構(gòu)與結(jié)算平臺(tái)都竭力限制信息披露的范圍和程度。目前各種研究數(shù)據(jù)即便來(lái)源不同,手段也各異,但是都是從信用卡支付記錄和持卡人賬戶等基礎(chǔ)信息出發(fā)。由于原始數(shù)據(jù)字段稀少、特征單一,特征工程的一個(gè)直觀改進(jìn)方向,就是挖掘新類型特征,諸如視頻、圖像、聲音、文字等多模態(tài)特征融合及其網(wǎng)絡(luò)特征;亦或?qū)ΜF(xiàn)有特征進(jìn)行不同維度的聚合,各種角度挖掘交易行為的同質(zhì)與異質(zhì)性、動(dòng)態(tài)變化等特點(diǎn),以發(fā)現(xiàn)當(dāng)前數(shù)據(jù)字段所隱含的、尚未能解釋的潛在行為特征,如圖11所示。

      圖11 面向交易欺詐檢測(cè)的特征工程架構(gòu)Fig.11 Feature engineering architecture for transaction fraud detection

      3.1 基礎(chǔ)數(shù)據(jù)特征

      信用卡交易基本特征包括該交易的支付記錄、持卡人賬戶以及商家信息。表3 總結(jié)了典型信用卡交易原始特征?;诮灰字Ц队涗浀幕A(chǔ)特征,判斷一單交易是否異常,例如,某張卡在特殊時(shí)間(諸如深夜時(shí)段)與特定商戶(諸如在線博彩)突然發(fā)生一筆大額交易,就會(huì)引起懷疑。初級(jí)數(shù)據(jù)挖掘也是直接利用交易數(shù)據(jù)構(gòu)建欺詐檢測(cè)特征,例如文獻(xiàn)[27]直接選取一小部分歷史交易記錄訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,既未考慮關(guān)聯(lián)帳戶的歷史數(shù)據(jù),也未考慮其他的類似交易。當(dāng)然,從現(xiàn)實(shí)的可行性看,在當(dāng)時(shí)技術(shù)條件下直接采用所有帳戶所有歷史數(shù)據(jù)訓(xùn)練模型是不可行的,若僅揀選部分交易數(shù)據(jù)訓(xùn)練模型,又勢(shì)必導(dǎo)致歷史交易中的關(guān)聯(lián)信息丟失。基于持卡人賬戶信息的基礎(chǔ)特征,反欺詐系統(tǒng)根據(jù)持卡人在一段時(shí)間內(nèi)的交易行為數(shù)據(jù)刻畫(huà)其“行為模式”以鑒別異常交易。例如客戶X消費(fèi)習(xí)慣都是線下實(shí)體店刷卡,若某個(gè)時(shí)刻帳上突然出現(xiàn)一筆大額在線交易,因不符合其以往行為模式,將被歸于可疑交易。不過(guò),這種行為模式策略僅僅考慮帳戶歷史記錄,實(shí)質(zhì)上是行為特征變化的檢測(cè),而非欺詐識(shí)別,某些情況下持卡人正常行為改變也可能導(dǎo)致誤報(bào)。

      表3 信用卡交易數(shù)據(jù)的基本特征舉例Table 3 Examples of basic characteristics of credit card transaction data

      隨著特征工程技術(shù)的發(fā)展,僅采用基礎(chǔ)特征的反欺詐研究已非主流趨勢(shì)。少量專精算法設(shè)計(jì)的研究仍在使用這些樸素的基礎(chǔ)數(shù)據(jù)特征[20,26,28-29],究其原因,既是受制于周邊數(shù)據(jù)可獲取性的局限,也是為了統(tǒng)一數(shù)據(jù)維度以方便各類模型間性能的對(duì)比分析。

      3.2 外部數(shù)據(jù)特征

      外部數(shù)據(jù)特征是指超出支付記錄、持卡人賬戶的、來(lái)自外部數(shù)據(jù)源的額外特征。從內(nèi)容角度講,外部數(shù)據(jù)內(nèi)容非常廣泛,不一而足;從形式角度講,主要分為網(wǎng)絡(luò)結(jié)構(gòu)特征和多模態(tài)特征。網(wǎng)絡(luò)結(jié)構(gòu)特征是指持卡人、商戶、支付平臺(tái)和發(fā)卡機(jī)構(gòu)之間的一個(gè)異構(gòu)網(wǎng)絡(luò),如圖12所示,通過(guò)信用卡交易記錄相互關(guān)聯(lián)。在現(xiàn)實(shí)中欺詐交易通常集中于特定商戶或特定持卡人,針對(duì)網(wǎng)絡(luò)特征挖掘顯然可提供有利信息。Van Vlasselaer 等[1]構(gòu)建了一個(gè)二部圖網(wǎng)絡(luò),以指數(shù)衰減方式定義時(shí)間特征,提出了一種迭代評(píng)分算法以計(jì)算結(jié)點(diǎn)的風(fēng)險(xiǎn)敞口并判定交易的可疑性。隨著網(wǎng)絡(luò)深度學(xué)習(xí)的快速發(fā)展,基于圖神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)設(shè)傳播的這類算法,可以通過(guò)挖掘結(jié)點(diǎn)風(fēng)險(xiǎn)敞口以預(yù)判潛在的交易風(fēng)險(xiǎn),未來(lái)有望能取得更廣闊的研究前景。

      圖12 信用卡交易的異構(gòu)網(wǎng)絡(luò)Fig.12 Heterogeneous networks for credit card transactions

      多模態(tài)特征是指不同格式、不同來(lái)源的信息融合,可為欺詐檢測(cè)帶來(lái)新的增量信息。多模態(tài)機(jī)器學(xué)習(xí)(multi-modal machine learning,MMML)具有處理和理解圖像、視頻、音頻、文本等多模態(tài)特征的能力,已逐漸成為內(nèi)容分析與理解的主要手段。Li 等[30]借助社交媒體分析分析客戶評(píng)論情感和對(duì)商戶廣告主體建模,來(lái)識(shí)別違規(guī)商戶,捕獲違規(guī)商戶在諸如產(chǎn)品類型、付款方式、聯(lián)系渠道等方面特征,以防止?jié)撛谄墼p行為。Nascimento等[31]利用訂購(gòu)電話聲音分析得到九個(gè)聲學(xué)指標(biāo)特征,結(jié)合買家基本信息構(gòu)造欺詐分類器,結(jié)果表明聲學(xué)特征加入能夠提高檢測(cè)準(zhǔn)確性。多模態(tài)特征為欺詐檢測(cè)帶來(lái)新的思路,但受限于用戶隱私保護(hù),很多數(shù)據(jù)難以獲得,此類研究目前相對(duì)比較稀少。

      3.3 數(shù)據(jù)特征聚合策略

      對(duì)于行為欺詐的識(shí)別,一組交易數(shù)據(jù)顯然能夠比相互隔離的單個(gè)交易記錄提供更多信息。比如,連續(xù)數(shù)筆可疑交易比單獨(dú)一筆更易發(fā)現(xiàn)其中的欺詐行為。對(duì)于反欺詐系統(tǒng)來(lái)說(shuō),隨著時(shí)間推移和歷史交易數(shù)據(jù)不斷累積,系統(tǒng)的判斷應(yīng)該變得更加準(zhǔn)確和可信。例如某在線商戶突然出現(xiàn)大額充值并緊接一系列購(gòu)買操作,顯然可能存欺詐,如果割裂開(kāi)單獨(dú)來(lái)看,無(wú)論充值還是采購(gòu)的每一筆交易并無(wú)可疑之處。在一定時(shí)間間隔內(nèi)針對(duì)某些賬戶、平臺(tái)收集數(shù)據(jù),挖掘跨交易之間關(guān)聯(lián)特征中通常能發(fā)現(xiàn)更多有價(jià)值的信息。批量交易整合采集數(shù)據(jù)特征,即數(shù)據(jù)特征聚合。通過(guò)一段時(shí)間內(nèi)一系列交易數(shù)據(jù)的匯總統(tǒng)計(jì)可獲新特征,如最大值、平均值和標(biāo)準(zhǔn)差等。此類研究最早可追溯到Whitrow等[32]的交易聚合策略,該策略在不同時(shí)間窗按不同維度(商家類型、交易發(fā)生的國(guó)家/地區(qū))匯總每張信用卡交易量和金額。結(jié)果表明,3 天或7 天時(shí)間窗的隨機(jī)森林模型可獲得最好預(yù)測(cè)效果。許多研究驗(yàn)證了交易特征聚合策略的有效性[33-35],表4 列舉了常用的多模態(tài)融合特征和交易聚合特征。通過(guò)交易聚合截取特征,具備與時(shí)俱進(jìn)的優(yōu)勢(shì),即特征隨時(shí)間流逝不斷更新,譬如不同時(shí)間窗內(nèi)攝取持卡人行為特征快照;還具備不需要精確標(biāo)記的優(yōu)勢(shì),對(duì)持卡人群漂移(population drift)的處理更加穩(wěn)健。然而,交易聚合策略并非萬(wàn)無(wú)一失,有些信息在匯總過(guò)程中難免會(huì)湮滅,譬如交易順序信息。另外,交易聚合后單個(gè)欺詐交易遭到稀釋,聚合時(shí)間窗越長(zhǎng)則隱患越大。

      表4 各文獻(xiàn)使用的特征工程舉例Table 4 Examples of feature engineering used in each literature

      動(dòng)態(tài)行為模式特征挖掘。現(xiàn)實(shí)中欺詐行為通常是人為設(shè)計(jì)的、策略性的和動(dòng)態(tài)性的,欺詐者經(jīng)常更改其行為,對(duì)欺詐檢測(cè)研究提出了新的挑戰(zhàn)。盡管交易聚合可以提供持卡人行為快照,但它無(wú)法捕獲行為動(dòng)態(tài)變化。Bahnsen等[40]認(rèn)為人們往往在相似時(shí)間進(jìn)行特定交易,交易聚合采用交易時(shí)間算術(shù)平均值并不恰當(dāng),沒(méi)有考慮時(shí)間特征周期性。他們將交易時(shí)間建模為周期變量,應(yīng)用Von Mises分布提取周期性行為特征,顯著提高了檢測(cè)性能。當(dāng)然,Bahnsen 方法僅捕獲了固定周期行為(例如每周末固定消費(fèi)),也忽略了其他與時(shí)間相關(guān)的非規(guī)律行為(例如大筆交易后若干小筆交易)。Wu等[42]通過(guò)函數(shù)型特征分析算法(functional data analysis,F(xiàn)DA)捕獲持卡人隨時(shí)間變化的動(dòng)態(tài)行為模式,使用一條曲線來(lái)估算每張卡交易量的動(dòng)態(tài)變化,并提取曲線主成分作為新特征,實(shí)驗(yàn)結(jié)果表明,行為快照和動(dòng)態(tài)特征的結(jié)合可以獲得更優(yōu)性能。不過(guò),該FDA 方法核心是主成分分析(principal component analysis,PCA),顯然對(duì)動(dòng)態(tài)行為模式的分析缺乏良好的可解釋性。

      同質(zhì)性行為模式特征挖掘。多數(shù)特征聚合都使用三個(gè)維度,即頻率(Frequency,給定時(shí)間窗內(nèi)發(fā)生的交易數(shù)量)、金額(Monetary,給定時(shí)間窗內(nèi)交易總金額)、新近度(Recency,給定時(shí)間窗內(nèi)前后兩次交易之間的時(shí)間間隔)。Van Vlasselaer 認(rèn)為該策略符合營(yíng)銷學(xué)的新近度-頻率-貨幣模型框架(recency-frequency-monetary,RFM)[1]。RFM 框架作為一種營(yíng)銷分析手段,適合于分析消費(fèi)者的歷史購(gòu)買行為。信用卡應(yīng)用有所不同,其交易是異質(zhì)性的,存在支付、退款、提現(xiàn)和積分換購(gòu)等多類型交易,不同的交易類型應(yīng)該對(duì)應(yīng)不同的行為模式[44]。正常情況下,提現(xiàn)交易頻率顯著低于支付交易頻率。不加選擇地分析用戶所有類型交易,既耗時(shí)又徒勞。交易聚合如果忽略了交易異質(zhì)性,反而會(huì)給特征工程帶來(lái)更多的噪聲。同質(zhì)性行為模式特征挖掘應(yīng)運(yùn)而生。Zhang等[4]提出了一種面向同質(zhì)性的行為分析(homogeneityoriented behavior analysis,HOBA),針對(duì)具有相同類型的歷史交易進(jìn)行行為分析。它將信用卡交易視為由交易特征、時(shí)間、地理空間和貨幣價(jià)值構(gòu)成的超空間中一個(gè)點(diǎn)。在同一子空間中,HOBA應(yīng)用交易聚合和基于規(guī)則的策略提取歷史交易數(shù)據(jù)的特征變量,獲得1 410 個(gè)變量輸入深度學(xué)習(xí)模型。實(shí)驗(yàn)結(jié)果表明HOBA 相比于RFM 框架為欺詐預(yù)測(cè)提供了更好的特征變量。不過(guò),鑒于該框架構(gòu)造了更大的變量集,勢(shì)必耗費(fèi)更多的計(jì)算資源,從而影響其實(shí)踐應(yīng)用的可行性,但該研究中沒(méi)有明確評(píng)估HOBA特征工程框架的計(jì)算成本。

      3.4 特征工程的趨勢(shì)與未來(lái)

      表5 列舉了面向特征工程的文獻(xiàn)統(tǒng)計(jì)。從趨勢(shì)上看,早期研究多數(shù)采用基礎(chǔ)數(shù)據(jù)特征,并未過(guò)多關(guān)注特征工程,只需致力模型改進(jìn)便可帶來(lái)可觀效果;近年來(lái)特征工程研究逐漸進(jìn)入高峰期,以2009年Whitrow的工作為標(biāo)志,大量聚合策略研究不斷涌現(xiàn),在這個(gè)階段特征工程帶來(lái)的增量超過(guò)了模型改進(jìn)的效果[32]。通過(guò)先驗(yàn)知識(shí)的加入,可以更加高效地貼近欺詐行為模式。信用卡欺詐檢測(cè)的特征工程發(fā)展,反映了心理學(xué)、行為學(xué)等多學(xué)科理論的貢獻(xiàn),反映了當(dāng)前機(jī)器學(xué)習(xí)研究中多學(xué)科融合的趨勢(shì)。 特征工程發(fā)展的另一個(gè)趨勢(shì)是發(fā)掘新的特征類。隨著自然語(yǔ)言處理、復(fù)雜網(wǎng)絡(luò)處理、多媒體技術(shù)的發(fā)展,更多含新信息量的多模態(tài)特征開(kāi)始被大量使用,例如文本、圖片、聲音、視頻以及網(wǎng)絡(luò)關(guān)系等逐漸在特征工程研究中綻放異彩,多模態(tài)特征突破了傳統(tǒng)數(shù)據(jù)形式的限制,進(jìn)一步拓寬了信用卡欺詐檢測(cè)的數(shù)據(jù)采集范圍。

      表5 面向特征工程的文獻(xiàn)比較Table 5 Comparison of feature-oriented literature

      特征重要性排序、冗余特征剔除也是特征工程研究的重點(diǎn)。特征并非越多越好,冗余特征降低了機(jī)器學(xué)習(xí)的效率,帶來(lái)的噪聲又影響模型的精確性。近年來(lái)并行計(jì)算和云平臺(tái)的發(fā)展逐漸減輕了特征維度的限制。高維特征的自適應(yīng)深度學(xué)習(xí)也有助于克服噪聲、冗余的影響,可以獲得更好的檢測(cè)效果。

      4 模型與算法

      面向交易欺詐檢測(cè)的機(jī)器學(xué)習(xí),其核心是數(shù)據(jù)驅(qū)動(dòng)的欺詐挖掘模型或行為識(shí)別模型。一般來(lái)說(shuō),機(jī)器學(xué)習(xí)的理論基礎(chǔ)來(lái)自于統(tǒng)計(jì)學(xué)、信息論、控制論及其他學(xué)科,對(duì)數(shù)據(jù)依賴性很強(qiáng),從歷史數(shù)據(jù)中挖掘知識(shí)、學(xué)習(xí)經(jīng)驗(yàn),被稱為“新經(jīng)驗(yàn)主義”。通過(guò)挖掘欺詐者的行為模式特征,提高模型的欺詐識(shí)別能力。早期研究采用單一基礎(chǔ)性模型,諸如邏輯回歸和線性判別分析[9,33];后期文獻(xiàn)廣泛應(yīng)用新型計(jì)算智能[26,45-47],諸如隨機(jī)森林等;除了從經(jīng)驗(yàn)中學(xué)習(xí)知識(shí)之外,還可以創(chuàng)造性地“跳躍型學(xué)習(xí)”,例如半監(jiān)督甚至無(wú)監(jiān)督學(xué)習(xí);近年來(lái)人工智能算法備受研究者青睞,相關(guān)文獻(xiàn)大量涌現(xiàn)[48-50]。人工智能模仿人類或其他生物的信息處理模式,包括人工神經(jīng)網(wǎng)絡(luò)、人工免疫系統(tǒng)等,使得模型在解決問(wèn)題時(shí)能夠“不依賴于量變”產(chǎn)生“質(zhì)變”,達(dá)到更好的效果。

      從解決問(wèn)題角度,機(jī)器學(xué)習(xí)模型可以劃分為分類、聚類、預(yù)測(cè)、異常值檢測(cè)、回歸等類別。分類指利用模型來(lái)預(yù)測(cè)未知對(duì)象的分類標(biāo)簽,以區(qū)分對(duì)象的類別,如文獻(xiàn)[51];聚類用于將所有對(duì)象分為概念上的若干集群,群內(nèi)的對(duì)象彼此相似,不同群對(duì)象差別很大,如文獻(xiàn)[52];預(yù)測(cè)指基于數(shù)據(jù)集模式預(yù)估未來(lái)值,如文獻(xiàn)[44];異常值檢測(cè)指測(cè)量數(shù)據(jù)對(duì)象之間的“距離”以檢測(cè)與其他對(duì)象不同或不一致的特殊對(duì)象,如文獻(xiàn)[53];回歸指揭示一個(gè)或多個(gè)自變量與因變量之間的關(guān)系,如文獻(xiàn)[54]。

      從數(shù)據(jù)標(biāo)簽角度講,機(jī)器學(xué)習(xí)模型可以劃分為監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí),如圖13 所示[55]?;谛庞每ń灰子涗浭欠褚褬?biāo)識(shí)為先決條件,使用標(biāo)簽數(shù)據(jù)訓(xùn)練模型稱為監(jiān)督學(xué)習(xí),完全沒(méi)有標(biāo)簽數(shù)據(jù)的訓(xùn)練稱為無(wú)監(jiān)督學(xué)習(xí),使用少部分標(biāo)簽和大部分無(wú)標(biāo)簽的混合訓(xùn)練稱為半監(jiān)督學(xué)習(xí)。還有其他一些標(biāo)簽數(shù)據(jù)的使用方式,包括聯(lián)邦學(xué)習(xí)、遷移學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等。

      圖13 面向信用卡交易欺詐檢測(cè)的機(jī)器學(xué)習(xí)模型分類Fig.13 Machine learning model classification for credit card transaction fraud detection

      4.1 監(jiān)督學(xué)習(xí)

      監(jiān)督學(xué)習(xí)模型優(yōu)勢(shì)在于其輸出是有意義、可解釋的,劣勢(shì)首先在于難以獲得全標(biāo)簽數(shù)據(jù)集,數(shù)據(jù)量越大成本越大;其次有些場(chǎng)景下研究問(wèn)題存在模糊性,對(duì)應(yīng)不到合適的標(biāo)簽;再次,監(jiān)督學(xué)習(xí)只能識(shí)別已知標(biāo)簽的欺詐模型而不能檢測(cè)新型欺詐[9]。早期信用卡欺詐檢測(cè)研究多采用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,其簡(jiǎn)單、高效、具有較強(qiáng)解釋性,但預(yù)測(cè)準(zhǔn)確性相對(duì)不足,難以從復(fù)雜欺詐行為中捕獲欺詐模式。表6 總結(jié)了面向信用卡欺詐檢測(cè)的各類統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法及其應(yīng)用場(chǎng)景。

      表6 各類有監(jiān)督統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法對(duì)比總結(jié)Table 6 Comparison of supervised statistical ML methods

      基于人工智能的先進(jìn)信用卡欺詐識(shí)別方法,通過(guò)復(fù)雜的非線性模型架構(gòu)對(duì)數(shù)據(jù)進(jìn)行分類、分組和分段,檢測(cè)可疑行為的類別、集群和模式,以搜索海量信用卡交易以查找模式檢測(cè)欺詐,具體包括人工神經(jīng)網(wǎng)絡(luò)、人工免疫系統(tǒng)、遺傳算法、卷積神經(jīng)網(wǎng)絡(luò)、膠囊網(wǎng)絡(luò)、長(zhǎng)短記憶網(wǎng)絡(luò)等。

      4.1.1 人工免疫系統(tǒng)(artificial immune system,AIS)

      AIS是一種生物學(xué)自然免疫模式的人工智能方法,通過(guò)模仿生物免疫系統(tǒng)檢測(cè)抗原行為起作用。AIS 包含否定選擇、克隆選擇、免疫網(wǎng)絡(luò)和樹(shù)突狀細(xì)胞四個(gè)算法,應(yīng)用真實(shí)數(shù)據(jù)將欺詐交易檢測(cè)模擬為抗原檢測(cè)行為,通??蓪?shí)現(xiàn)較高檢測(cè)精度。文獻(xiàn)[48]將疫苗接種的理念引入AIS,為每個(gè)異常實(shí)例保留一定數(shù)量的內(nèi)存檢測(cè)器,開(kāi)發(fā)了一種保持檢測(cè)器類型的適當(dāng)比率算法,對(duì)特定類別的異常交易進(jìn)行分布式免疫接種,適應(yīng)了親和力成熟和體細(xì)胞超突變機(jī)制,通過(guò)交叉反應(yīng)進(jìn)化為防御機(jī)制,最大限度地減少了信息的丟失。類似地,文獻(xiàn)[56]對(duì)改進(jìn)了信用卡欺詐檢測(cè)的人工免疫系統(tǒng),在生成存儲(chǔ)單元時(shí)納入了否定選擇和模型更新,更改了距離函數(shù)以及數(shù)據(jù)集屬性,顯著提高了預(yù)測(cè)精度同時(shí)降低了計(jì)算成本和系統(tǒng)訓(xùn)練時(shí)間。

      4.1.2 遺傳算法(genetic algorithm,GA)

      GA 是一種不需要利用先驗(yàn)的領(lǐng)域知識(shí),通過(guò)使用種群進(jìn)化不斷迭代地檢測(cè)交易之間潛在關(guān)系的解決方案。文獻(xiàn)[23]將GA和分散搜索(scatter search,SS)兩種元啟發(fā)算法結(jié)合,構(gòu)建GASS模型用于信用卡欺詐檢測(cè),大幅提高分類性能;文獻(xiàn)[57]則利用遺傳規(guī)劃(genetic programming,GP)識(shí)別異常模式,從序列數(shù)據(jù)中構(gòu)建候選特征集實(shí)現(xiàn)自動(dòng)特征設(shè)計(jì);文獻(xiàn)[47]也利用GA 實(shí)現(xiàn)了信用卡交易最優(yōu)聚合特征的自動(dòng)化選擇。

      4.1.3 人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)

      ANN是由一組相互連接的神經(jīng)元和突觸構(gòu)成的模仿人腦功能的算法。神經(jīng)網(wǎng)絡(luò)將輸入變量建模為頂點(diǎn)層,為圖中每條邊分配權(quán)重,將其他頂點(diǎn)置于單獨(dú)級(jí)別反映其與輸入節(jié)點(diǎn)的距離,并通過(guò)反向傳播更新權(quán)重以對(duì)信用卡交易實(shí)現(xiàn)最終的分類或聚類。文獻(xiàn)[27]提出了一種基于神經(jīng)分類器的在線信用卡欺詐檢測(cè)系統(tǒng),結(jié)合使用非線性Fisher 判別分析以應(yīng)對(duì)不平衡問(wèn)題;文獻(xiàn)[58]構(gòu)建了一個(gè)收益驅(qū)動(dòng)的神經(jīng)網(wǎng)絡(luò),基于實(shí)例個(gè)體的重要性在ANN 中引入一個(gè)新的懲罰函數(shù),為信用卡交易的錯(cuò)誤分類提供可變的懲罰,實(shí)現(xiàn)了最優(yōu)的利潤(rùn)驅(qū)動(dòng)的績(jī)效指標(biāo);文獻(xiàn)[35]提出了基于ANN級(jí)聯(lián)集成的一個(gè)端到端的欺詐檢測(cè)解決方案,解決了樣本不平衡數(shù)據(jù)的影響。神經(jīng)網(wǎng)絡(luò)的不足之處在于參數(shù)較多,需要選擇、調(diào)整網(wǎng)絡(luò)結(jié)構(gòu);對(duì)于超大型輸入數(shù)據(jù),訓(xùn)練神經(jīng)網(wǎng)絡(luò)非常耗時(shí)、耗資源;反向傳播訓(xùn)練的多層感知器容易過(guò)擬合;ANN分類器是一種“黑匣子”,其結(jié)果也難以具備可解釋性。

      4.1.4 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)

      CNN是一類深度結(jié)構(gòu)且包含卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò),按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類,適合賬戶、用戶、時(shí)間、空間等關(guān)聯(lián)性的二、三維數(shù)據(jù)形式。文獻(xiàn)[4]實(shí)證了CNN 在信用卡反欺詐領(lǐng)域的有效性。卷積神經(jīng)網(wǎng)絡(luò)主要包括卷積計(jì)算層、池化層和連接層三層結(jié)構(gòu),如圖14 所示。卷積計(jì)算層的組成元素是若干卷積單元,通過(guò)反向傳播不斷更新優(yōu)化參數(shù),提取局部特征;池化層也稱為下采樣層,通常采用均值采樣和最大值采樣,通過(guò)壓縮數(shù)據(jù)規(guī)模、特征降維避免過(guò)擬合,提高模型的訓(xùn)練速度和容錯(cuò)性;全連接層將前述獲得的二維特征按行展開(kāi)連接成向量,以便最終分類。CNN局限在需要大數(shù)據(jù)集,若數(shù)據(jù)量較小會(huì)無(wú)法收斂;“平移不變性”池化策略忽略了局部與整體之間關(guān)聯(lián)性,對(duì)關(guān)鍵對(duì)象的平移、縮放、旋轉(zhuǎn)都不敏感;CNN沒(méi)有記憶功能,對(duì)交易時(shí)序數(shù)據(jù)的學(xué)習(xí)處理能力較差。

      圖14 卷積神經(jīng)網(wǎng)絡(luò)示意圖Fig.14 Convolutional neural network diagram

      圖15 神經(jīng)元結(jié)構(gòu)比較Fig.15 Comparison of neuronal structures

      4.1.5 膠囊網(wǎng)絡(luò)(Capsnet)

      膠囊網(wǎng)絡(luò)的優(yōu)勢(shì)包括所需訓(xùn)練數(shù)據(jù)較少,較少的數(shù)據(jù)即可得到泛化,使其更接近人類的大腦行為;膠囊網(wǎng)絡(luò)結(jié)構(gòu)明確,網(wǎng)絡(luò)訓(xùn)練中能保存細(xì)節(jié)信息,微小的改變會(huì)帶來(lái)輸出值的變化;膠囊網(wǎng)絡(luò)有效識(shí)別重疊對(duì)象,通過(guò)高級(jí)膠囊獲得多重疊類別更清晰的解析。文獻(xiàn)[59]采用膠囊網(wǎng)絡(luò)挖掘信用卡欺詐的深層特征,在時(shí)間維度上擴(kuò)展交易特征以描述正常用戶和欺詐者的不同支付習(xí)慣。針對(duì)于信用卡欺詐檢測(cè)中廣泛存在的標(biāo)注數(shù)據(jù)少、交易行為模式復(fù)雜多變以及數(shù)據(jù)重疊等的問(wèn)題,膠囊網(wǎng)絡(luò)有望在未來(lái)研究中發(fā)揮更大的作用。

      4.1.6 長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)

      LSTM是一種在RNN基礎(chǔ)上的升級(jí)改造,引入了輸入門、輸出門和遺忘門三類門控單元,如圖16 所示,分別有對(duì)應(yīng)RNN記憶控制以建立信用卡交易序列的長(zhǎng)短期依賴。 遺忘門以一定的概率Zf控制遺忘上一層隱藏單元狀態(tài)Ct-1;輸入門處理當(dāng)前序列位置的輸入以更新單元狀態(tài),由sigmoid激活函數(shù)的輸出Zi和tanh激活函數(shù)的輸出Z兩者結(jié)果相乘;輸出門通過(guò)Zo來(lái)控制哪些狀態(tài)輸出。將遺忘門和輸入門的結(jié)果相加,得到傳輸給下一個(gè)單元狀態(tài)的Ct。

      圖16 LSTM門控機(jī)制概念圖Fig.16 Conceptual diagram of LSTM gating mechanism

      在LSTM狀態(tài)更新中h為短期記憶單元,C為長(zhǎng)期記憶單元。當(dāng)梯度流經(jīng)h時(shí)經(jīng)歷ht→Ct→ht-1連環(huán)相乘路徑,該路徑隨時(shí)產(chǎn)生梯度爆炸并導(dǎo)致記憶的消失;梯度通過(guò)C時(shí)存在一條無(wú)連環(huán)相乘的路徑以避免梯度消失,并有遺忘門避免激活函數(shù)和梯度飽和,從而很大程度上解決了RNN長(zhǎng)期依賴問(wèn)題,LSTM整體結(jié)構(gòu)如圖17 所示。 LSTM 網(wǎng)絡(luò)對(duì)時(shí)序數(shù)據(jù)學(xué)習(xí)的優(yōu)化,使其成為目前應(yīng)用最主流且最成功的循環(huán)神經(jīng)網(wǎng)絡(luò)模型。文獻(xiàn)[49]構(gòu)造了一個(gè)LSTM模型并驗(yàn)證了時(shí)序特征深度挖掘?qū)π庞每ㄆ墼p檢測(cè)的作用;文獻(xiàn)[60]結(jié)合LSTM 與概率圖模型(probabilistic graphical model,PGM),挖掘交易、標(biāo)簽間隱藏順序依賴性,顯著改善了欺詐檢測(cè)的效果。

      圖17 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM示意圖Fig.17 Schematic diagram of LSTM, long and short-term memory neural network

      當(dāng)序列長(zhǎng)度超過(guò)一定限度后,LSTM模型的效率和效果都會(huì)急劇下降。對(duì)LSTM的優(yōu)化包括并行化計(jì)算、減少門的數(shù)量等等。其中門控循環(huán)單元(gate recurrent unit,GRU)網(wǎng)絡(luò)是其中一種,它沒(méi)有記憶單元,只有更新門(update gate)和重置門(reset gate)兩個(gè)門,具備更少的參數(shù)量。文獻(xiàn)[61]分別構(gòu)造了LSTM與GRU模型,基于深度模型投票實(shí)現(xiàn)了面向欺詐檢測(cè)的集成模型的更優(yōu)效果。

      4.1.7 注意力機(jī)制(attention mechanism)

      Attention 借鑒了人類視覺(jué)研究中的注意力機(jī)制以解決信息處理瓶頸的問(wèn)題。人類通常先快速掃描全局,獲得需要重點(diǎn)關(guān)注的目標(biāo)區(qū)域,對(duì)這一區(qū)域投入更多注意力以獲取目標(biāo)的更多細(xì)節(jié)信息。在深度神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制,在算力有限情況下使網(wǎng)絡(luò)獲得更專注于特定子集的能力,為信用卡欺詐檢測(cè)的信息超載問(wèn)題提供了新思路。文獻(xiàn)[62]在欺詐檢測(cè)深度學(xué)習(xí)中引入了分層注意力機(jī)制,在連續(xù)空間中嵌入分類特征,使用注意力機(jī)制將特征組合為單個(gè)向量,通過(guò)序列級(jí)別注意力執(zhí)行欺詐檢測(cè)。文獻(xiàn)[63]基于時(shí)空注意力提出了一種用于欺詐檢測(cè)的神經(jīng)網(wǎng)絡(luò)(spatial-temporal attentionbased neural network,STAN),通過(guò)注意力和三維卷積機(jī)制,集成信用卡交易的空間和時(shí)間行為信息共同學(xué)習(xí)注意力權(quán)重,取得了良好的效果且具備很好的可解釋性。

      表6、表7 分別總結(jié)并比較了各類面向信用卡欺詐檢測(cè)的有監(jiān)督統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法與人工智能算法,其中統(tǒng)計(jì)學(xué)習(xí)模型大多有著良好的解釋性計(jì)算快捷,但普遍精度不及人工智能算法,其當(dāng)前與未來(lái)的發(fā)展方向聚焦于通過(guò)代價(jià)敏感性改造以適應(yīng)信用卡欺詐檢測(cè)任務(wù)、與其他模型融合發(fā)展提升精度及增進(jìn)算法解釋性的研究;而人工智能算法有著清晰的發(fā)展思路,例如人工神經(jīng)網(wǎng)絡(luò)為擴(kuò)展鄰域感知效果發(fā)展出CNN,為克服CNN 的數(shù)據(jù)計(jì)算與泛化的缺點(diǎn)發(fā)展出Capsnet,為獲取時(shí)間序列信息開(kāi)始采用RNN,以及克服RNN 長(zhǎng)期依賴而發(fā)展LSTM/GRU 等,總體是向著廣度、深度、效率等多方面進(jìn)行發(fā)展。無(wú)監(jiān)督學(xué)習(xí)則主要致力于利用降維、HMM、異常檢測(cè)等發(fā)現(xiàn)信用卡欺詐檢測(cè)數(shù)據(jù)中的隱藏行為模型,發(fā)展趨勢(shì)是將無(wú)監(jiān)督模式發(fā)掘與有監(jiān)督模型分類相結(jié)合,以得到更好的檢測(cè)效果。

      表7 各類有監(jiān)督人工智能方法對(duì)比Table 7 Comparison of supervised AI methods

      4.2 無(wú)監(jiān)督學(xué)習(xí)

      無(wú)監(jiān)督學(xué)習(xí)包括聚類、降維、異常值檢測(cè)和隱馬爾可夫模型等。它們優(yōu)勢(shì)在于避免了對(duì)海量數(shù)據(jù)標(biāo)簽的需求,而且有可能挖掘出新的欺詐類型;劣勢(shì)在于較高的誤報(bào)率。

      4.2.1 聚類方法

      聚類是指通過(guò)相似性度量將交易記錄聚集到不同的類或者簇的過(guò)程,使得簇中對(duì)象相似性最大而簇間差異最大。雖然在欺詐檢測(cè)中單獨(dú)聚類并不很有效,但將其與其他監(jiān)督學(xué)習(xí)方法結(jié)合使用,通常能獲得較好效果[64]。文獻(xiàn)[65]提出了一種對(duì)等組分析的欺詐檢測(cè)模型,對(duì)類似交易進(jìn)行聚類,任何開(kāi)始偏離對(duì)等組的交易都會(huì)被標(biāo)記為疑似交易,該模型不足是屬性維度爆炸;文獻(xiàn)[66]采用了噪聲密度空間聚類方法(density-based spatial clustering of applications with noise,DBSCAN),結(jié)合Dempster-Shafer加法器、基于規(guī)則的篩選器以及貝葉斯學(xué)習(xí)器,相比于基準(zhǔn)模型顯著提升了信用卡欺詐檢測(cè)的性能;文獻(xiàn)[21]提出了一種改進(jìn)的凝聚層次聚類異常檢測(cè)方法(improved agglomerative hierarchical clustering,IAHC),實(shí)現(xiàn)動(dòng)態(tài)調(diào)整最優(yōu)聚類數(shù),根據(jù)cophenetic相關(guān)系數(shù)確定最優(yōu)聚類距離模式,在信用卡欺詐數(shù)據(jù)集上表現(xiàn)很強(qiáng)的敏感性且具備很好的泛化能力。

      4.2.2 降維方法

      交易特征的高維數(shù)據(jù)是欺詐檢測(cè)的主要挑戰(zhàn)之一,降維可以幫助識(shí)別其中最重要的特征,再基于這些特征聚類或分類交易記錄,可以更加清楚地顯示異常行為。降維變換的標(biāo)準(zhǔn)函數(shù)也可以用于進(jìn)行欺詐疑似性的概率評(píng)分,包括主成分分析(principal component analysis,PCA)、獨(dú)立成分分析(independent component analysis,ICA)、探索性投影追蹤(exploratory projection pursuit,EPP)、多維標(biāo)度(multidimensional scaling,MDS)等[67]。文獻(xiàn)[68]使用PCA 從原始特征中提取滿足累積貢獻(xiàn)需求的主要成分,在保留欺詐有效關(guān)鍵特征的前提下減小了樣本的維數(shù),提高了模型訓(xùn)練效率;文獻(xiàn)[69]提出了一種在線過(guò)采樣的PCA 算法,不存儲(chǔ)整個(gè)數(shù)據(jù)矩陣或協(xié)方差矩陣,根據(jù)產(chǎn)生的主導(dǎo)特征向量變化來(lái)確定目標(biāo)實(shí)例的異常,適用于具有計(jì)算或內(nèi)存限制的在線應(yīng)用程序。

      4.2.3 異常值檢測(cè)

      跳脫于任何已有聚類的游離觀察值記錄在數(shù)據(jù)集中被稱為異常值。在欺詐檢測(cè)中,異常值通常對(duì)應(yīng)為疑似交易。文獻(xiàn)[70]改進(jìn)了基于距離(distance-based)的異常值檢測(cè),提出了一種基于單元(cell-based)的方法用于優(yōu)化異常值檢測(cè)中距離的計(jì)算;文獻(xiàn)[67]通過(guò)總結(jié)了表征用戶行為的多特征變量,將總距離度量定義為在每個(gè)特征上距離的線性組合;文獻(xiàn)[71]基于模糊局部離群因子(LOF)提出了一種信用卡交易數(shù)據(jù)集的異常檢測(cè)算法;文獻(xiàn)[72]不同于傳統(tǒng)基于密度的方法,提出了一種基于相互強(qiáng)化的局部異常值檢測(cè)方法,未將局部異常值定義為噪聲而是嘗試在中心識(shí)別異常,實(shí)證表明了方法穩(wěn)定性與解釋性;文獻(xiàn)[73]比較了基于距離、基于密度(density-based)兩種異常值檢驗(yàn)的區(qū)別,發(fā)現(xiàn)當(dāng)數(shù)據(jù)集包含不同特征模式時(shí)后者優(yōu)于前者,引入了一種基于連接(connectivity-based)的方案提升了基于密度方案的有效性;此外還有諸如快速分布式異常值檢測(cè)[74]、基于邊界和距離的異常值檢測(cè)[75]、基于NADI(non-almost derivable itemsets)的異常值檢測(cè)[76]、基于時(shí)空的異常值檢測(cè)[77]、基于粒度計(jì)算和粗糙集的異常值檢測(cè)[78]、基于自然離群因子的異常值檢測(cè)[79]、基于平均散度差的異常值檢測(cè)[53]等的研究。離群值檢測(cè)算法的缺陷在于,無(wú)論基于密度還是距離的異常值檢測(cè)都必須定義一個(gè)距離度量,然而海量數(shù)據(jù)高維點(diǎn)之間距離需要耗費(fèi)大量計(jì)算資源。優(yōu)化的距離計(jì)算性能是異常值檢測(cè)相關(guān)算法研究的難點(diǎn)和重點(diǎn)。

      4.2.4 隱馬爾可夫模型

      隱馬爾可夫模型(hidden Markov model,HMM)是一種時(shí)序數(shù)據(jù)建模的概率統(tǒng)計(jì)模型,描述一組連續(xù)有限狀態(tài),每個(gè)狀態(tài)與一個(gè)概率分布關(guān)聯(lián)。在欺詐檢測(cè)中應(yīng)用HMM時(shí),持卡人支出信息,包括每筆交易花費(fèi)、商品購(gòu)買時(shí)間、商品類型、商家名稱和支付位置等都可以描述為一組有限的狀態(tài),HMM 根據(jù)持卡人的正常行為進(jìn)行訓(xùn)練,若模型不接受新交易的狀態(tài)數(shù)據(jù),則該交易被視為疑似交易。文獻(xiàn)[80]使用HMM對(duì)信用卡交易中操作序列進(jìn)行建模,驗(yàn)證了HMM 的有效性。文獻(xiàn)[81]引入HMM 實(shí)現(xiàn)了一個(gè)動(dòng)態(tài)創(chuàng)建和更新交易行為的自動(dòng)檢測(cè)欺詐模型。文獻(xiàn)[43]利用多視角HMM 方法,采用自動(dòng)特征工程方法建模信用卡交易間的時(shí)間相關(guān)性,并結(jié)合其他基于專家的信用卡欺詐特征工程策略,提高了分類的有效性。

      4.2.5 自組織映射神經(jīng)網(wǎng)絡(luò)

      自組織特征映射神經(jīng)網(wǎng)絡(luò)(self-organizing feature map,SOM)是一種無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,適用于高維數(shù)據(jù)的分析和可視化。文獻(xiàn)[52]利用SOM 的聚類和過(guò)濾功能檢測(cè)信用卡交易欺詐,無(wú)需相關(guān)先驗(yàn)信息即可識(shí)別輸入數(shù)據(jù)中新的隱藏模式,實(shí)現(xiàn)對(duì)用戶交易行為的破譯、過(guò)濾和檢測(cè)。文獻(xiàn)[82]提出了一種SOM用戶帳戶可視化的欺詐檢測(cè)方法,在SOM 網(wǎng)格上可視化矩陣并結(jié)合基于somu 矩陣的檢測(cè)閾值設(shè)置方法,實(shí)現(xiàn)對(duì)信用卡欺詐的有效識(shí)別。

      4.3 半監(jiān)督學(xué)習(xí)

      半監(jiān)督學(xué)習(xí)方法只需少量已標(biāo)記數(shù)據(jù)和大量未標(biāo)記數(shù)據(jù)來(lái)實(shí)現(xiàn)欺詐檢測(cè),即從標(biāo)記和未標(biāo)記的數(shù)據(jù)中訓(xùn)練分類器[83]。半監(jiān)督學(xué)習(xí)的優(yōu)勢(shì)在于只需要少量標(biāo)記的實(shí)例即可獲得良好分類性能。由于輸入數(shù)據(jù)多數(shù)是無(wú)標(biāo)簽的,半監(jiān)督學(xué)習(xí)通常被認(rèn)為更貼近人類的學(xué)習(xí)模式。文獻(xiàn)[84]研究了非平衡分類問(wèn)題中半監(jiān)督學(xué)習(xí)的性能,使用數(shù)據(jù)代位法對(duì)少數(shù)類進(jìn)行擴(kuò)充以降低估計(jì)方差,在欺詐檢測(cè)應(yīng)用取得了良好的效果。

      4.3.1 生成模型

      生成模型的思想是半監(jiān)督學(xué)習(xí)的重要分支之一,文獻(xiàn)[29,85]分別訓(xùn)練了一個(gè)生成模型以輸出少數(shù)類的模擬樣本,將其與原始數(shù)據(jù)合并為一個(gè)增廣訓(xùn)練數(shù)據(jù)集以提高分類有效性。實(shí)驗(yàn)表明,生成模型的效果優(yōu)于欠采樣或過(guò)采樣等方法。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)也是一種半監(jiān)督學(xué)習(xí)領(lǐng)域中多層結(jié)構(gòu)深度學(xué)習(xí)技術(shù),由一個(gè)生成模型和一個(gè)判別模型組成,兩個(gè)模型相互競(jìng)爭(zhēng)進(jìn)行零和minimax 博弈[86]。文獻(xiàn)[87]為解決GAN訓(xùn)練不穩(wěn)定以及采樣限制的影響,引入WGAN模型(Wasserstein-GAN)實(shí)現(xiàn)了更好的效果。

      4.3.2 主動(dòng)學(xué)習(xí)

      主動(dòng)學(xué)習(xí)(active learning)是一種篩選訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)方法,通過(guò)算法查詢最有用的未標(biāo)記樣本交由專家人工標(biāo)記,訓(xùn)練模型提高分類精確度。在信用卡欺詐檢測(cè)領(lǐng)域,邀請(qǐng)專家為數(shù)據(jù)標(biāo)簽成本過(guò)高。對(duì)比于全部數(shù)據(jù)人工標(biāo)注,主動(dòng)學(xué)習(xí)方法只需花費(fèi)一小部分時(shí)間即可構(gòu)建出更好的數(shù)據(jù)集。不同于被動(dòng)的接受知識(shí),主動(dòng)學(xué)習(xí)能夠選擇性地獲取知識(shí)來(lái)修正模型。文獻(xiàn)[88]研究了主動(dòng)學(xué)習(xí)策略對(duì)信用卡欺詐檢測(cè)準(zhǔn)確性的影響,分析和比較各種不同策略,包括標(biāo)準(zhǔn)主動(dòng)學(xué)習(xí)、探索性主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)及其組合應(yīng)用,實(shí)驗(yàn)結(jié)果表明信用卡欺詐檢測(cè)中無(wú)監(jiān)督的異常檢測(cè)準(zhǔn)確性非常低;將欺詐行為的基線主動(dòng)學(xué)習(xí)與隨機(jī)半監(jiān)督學(xué)習(xí)相結(jié)合,顯著地提升性能。不過(guò),數(shù)據(jù)中正負(fù)樣本比例的高度不平衡,導(dǎo)致探索性主動(dòng)學(xué)習(xí)未能改善欺詐檢測(cè)的精確度。

      4.3.3 群智能算法

      群智能算法也是一種較強(qiáng)魯棒性的仿生型算法,通常配合無(wú)監(jiān)督學(xué)習(xí)選擇實(shí)例以縮小范圍,或結(jié)合監(jiān)督學(xué)習(xí)減輕正負(fù)樣本不平衡性。在信用卡欺詐檢測(cè)的半監(jiān)督學(xué)習(xí)研究中,群智能算法常用于模型的優(yōu)化、參數(shù)調(diào)優(yōu)等環(huán)節(jié),還可采用分布式計(jì)算提高效率。文獻(xiàn)[50]將K-means 和人工蜂群算法(artificial bee colony,ABC)結(jié)合,其中ABC 將鄰域搜索與全局搜索相結(jié)合,解決K-means對(duì)初始條件敏感問(wèn)題。實(shí)驗(yàn)結(jié)果表明,能夠有效提高對(duì)可疑交易風(fēng)險(xiǎn)的分類準(zhǔn)確率,且顯著加快模型收斂速度。文獻(xiàn)[89]利用蟻群優(yōu)化實(shí)例選擇算法(ant colony optimization instance selection algorithm,ACOISA)提出了一種SVM 速度優(yōu)化的檢測(cè)算法,采用ACOISA進(jìn)行邊界檢測(cè),采用KNN進(jìn)行邊界實(shí)例選擇,既提高了SVM訓(xùn)練速度又沒(méi)有顯著損失分類質(zhì)量。文獻(xiàn)[90]將布谷鳥(niǎo)搜索算法(cuckoo search,CS)、粒子群算法(particle swarm optimization,PSO)用于SVM參數(shù)優(yōu)化,有效提升了檢測(cè)效率。

      4.4 強(qiáng)化學(xué)習(xí)

      強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)來(lái)源于行為心理學(xué)的啟發(fā),代表著智能體(agent)和環(huán)境(environment)之間的交互問(wèn)題。強(qiáng)化學(xué)習(xí)無(wú)須事先給定數(shù)據(jù),而在通過(guò)接收環(huán)境對(duì)動(dòng)作的獎(jiǎng)勵(lì)不斷循環(huán)更新模型參數(shù),以獲取最大收益。目前,RL在信用卡交易行為欺詐檢測(cè)領(lǐng)域也有著很大的用武之地。信用卡交易行為欺詐可以顯然地建模為發(fā)卡行與欺詐者之間的博弈過(guò)程。通過(guò)模擬兩者之間的交互可以動(dòng)態(tài)地學(xué)習(xí)到欺詐行為的變化,以更好地解決概念漂移問(wèn)題,發(fā)掘尚未發(fā)現(xiàn)甚至尚未發(fā)生的欺詐行為模型。文獻(xiàn)[91]利用強(qiáng)化學(xué)習(xí)將欺詐者與發(fā)卡行之間的交互作為馬爾可夫決策過(guò)程(Markov decision process,MDP),通過(guò)采取行動(dòng)(交易)并獲得獎(jiǎng)勵(lì)(與交易是否相關(guān))來(lái)考慮與環(huán)境(商人和欺詐分類器)進(jìn)行交互以模擬欺詐事件,研究發(fā)現(xiàn),與靜態(tài)分類器相比,定期細(xì)微更改欺詐分類器會(huì)改善智體學(xué)習(xí)最佳策略的能力。此外還可利用強(qiáng)化學(xué)習(xí)進(jìn)行決策服務(wù),通過(guò)對(duì)環(huán)境的監(jiān)控和模擬,優(yōu)化實(shí)時(shí)欺詐交易的攔截執(zhí)行過(guò)程,在較短的時(shí)間內(nèi)提供較好的決策。

      馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)求解的基本思路。按照馬爾可夫決策過(guò)程中的信息是否完全存儲(chǔ)可以將馬爾可夫決策過(guò)程分為兩類,即基于模型的強(qiáng)化學(xué)習(xí)和無(wú)模型的強(qiáng)化學(xué)習(xí),其中基于模型的強(qiáng)化學(xué)習(xí)已知全部馬爾可夫決策過(guò)程的信息,可以用動(dòng)態(tài)規(guī)劃的方法對(duì)問(wèn)題進(jìn)行解決,而無(wú)模型的強(qiáng)化學(xué)習(xí)對(duì)上述信息未知,需要自行探索馬爾可夫過(guò)程。在實(shí)際的問(wèn)題中,狀態(tài)轉(zhuǎn)移信息往往無(wú)法獲得屬于無(wú)模型的強(qiáng)化學(xué)習(xí)方法,常用的方法有蒙特卡洛(Monte Carlo)方法和時(shí)序差分(temporal difference)方法,如圖18 所示。三種選擇最優(yōu)策略中的第一個(gè)為動(dòng)態(tài)規(guī)劃方法,另外兩個(gè)從左到右分別為蒙特卡洛方法和時(shí)序差分方法。圖中白色的圓圈代表狀態(tài),藍(lán)色的圓圈代表動(dòng)作,綠色圓圈代表該狀態(tài)為本次測(cè)試結(jié)束,藍(lán)色的陰影部分為每次更新需要的信息。對(duì)于動(dòng)態(tài)規(guī)劃方法,在對(duì)策略進(jìn)行更新時(shí),需要獲取整個(gè)模型的信息,這也是這種方法適用于基于模型的強(qiáng)化學(xué)習(xí)問(wèn)題的原因。對(duì)于無(wú)模型的強(qiáng)化學(xué)習(xí)問(wèn)題,蒙特卡洛算法需要的信息要比時(shí)序差分方法更多,蒙特卡洛方法需要知曉一個(gè)完整的樣本,即一條完整的路徑才可以對(duì)策略進(jìn)行更新,每次只能更新一條路徑。而時(shí)序差分方法所需要信息最少,只需要一條路徑的部分信息即可以對(duì)策略進(jìn)行更新,對(duì)于蒙特卡洛和時(shí)序差分方法來(lái)講,模型都是未知的,這兩種方法都是通過(guò)不斷地嘗試來(lái)對(duì)真實(shí)值進(jìn)行近似。

      圖18 三種強(qiáng)化學(xué)習(xí)方法對(duì)比圖Fig.18 Comparison chart of three reinforcement learning methods

      在強(qiáng)化學(xué)習(xí)中也可以使用深度學(xué)習(xí)模型。將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)結(jié)合后的機(jī)器學(xué)習(xí)方法被稱作深度強(qiáng)化學(xué)習(xí),對(duì)于一些復(fù)雜的深度強(qiáng)化學(xué)習(xí)算法,可以作為用來(lái)解決發(fā)展問(wèn)題的通用智能,但聚焦到信用卡欺詐檢測(cè)領(lǐng)域,該類研究還尚未涉足。

      4.5 模型融合

      模型融合是指集成多種模型的一種組合算法,通過(guò)揀選每種方法的有益屬性,揚(yáng)長(zhǎng)避短、取長(zhǎng)補(bǔ)短,構(gòu)造針對(duì)特定問(wèn)題的高效算法。常用的一種模型融合方法是混合級(jí)聯(lián)方式,譬如將第一種方法的輸出提供為第二種方法的輸入[66],或者一種方法用作預(yù)處理步驟,修改數(shù)據(jù)以進(jìn)行分類準(zhǔn)備[92],亦或?qū)⑺惴ǖ母鱾€(gè)步驟交織在一起,從而創(chuàng)建出一些新的混合算法[23]。混合級(jí)聯(lián)常用于針對(duì)單個(gè)問(wèn)題域定制解決方案,針對(duì)提升模型性能的具體某方面,包括分類能力,易用性和計(jì)算效率等。在欺詐檢測(cè)模型融合研究中,混合級(jí)聯(lián)目前處于應(yīng)用的上升階段,文獻(xiàn)[23]結(jié)合使用了散點(diǎn)搜索和遺傳算法,在遺傳算法架構(gòu)上針對(duì)散點(diǎn)搜索的特性(例如較小的種群和重組)將其作為復(fù)制方法。文獻(xiàn)[66]首先利用Depster-Schaefer 方法來(lái)組合規(guī)則,然后使用貝葉斯學(xué)習(xí)器來(lái)檢測(cè)欺詐。一些研究人員應(yīng)用模糊邏輯將變異引入樣本,然后再部署另一種技術(shù)來(lái)實(shí)施欺詐檢測(cè)[93],實(shí)驗(yàn)結(jié)果表明,對(duì)欺詐檢測(cè)問(wèn)題應(yīng)用“模糊性”方法可以提高原方案的性能。

      模型融合的另一個(gè)思路是集成學(xué)習(xí),也就是分類器集成,構(gòu)建多個(gè)學(xué)習(xí)器后通過(guò)合并來(lái)完成學(xué)習(xí)任務(wù)。通常按以下兩個(gè)步驟操作:首先根據(jù)互補(bǔ)性選擇一系列不同的算法,然后將各弱分類器的結(jié)果通過(guò)采用共識(shí)標(biāo)準(zhǔn)進(jìn)行合并,例如多數(shù)投票、加權(quán)、置信和排名投票等。文獻(xiàn)[94]提出一種基于深度信念神經(jīng)網(wǎng)絡(luò)的集成學(xué)習(xí)算法來(lái)解決信用欺詐問(wèn)題,結(jié)果表明在處理極端不均衡數(shù)據(jù)時(shí)所提算法效果更優(yōu)。文獻(xiàn)[95]采用XGBoost 算法構(gòu)建了一個(gè)信用卡交易欺詐預(yù)測(cè)模型,通過(guò)網(wǎng)格搜索的方式對(duì)XGBoost參數(shù)調(diào)優(yōu)。文獻(xiàn)[3]表明集成方法是有效解決類不平衡問(wèn)題的最有效方法之一,集成模型顯示出比非集成模型更好的性能。文獻(xiàn)[96]研究了信用卡欺詐集成模型的投票機(jī)制,表明不同的集成方式(例如基于樂(lè)觀、悲觀、加權(quán)等)將導(dǎo)致不同結(jié)果,因此銀行或監(jiān)管機(jī)構(gòu)可根據(jù)不同的需求選擇不同的集成方式。文獻(xiàn)[97]對(duì)比評(píng)估了集成學(xué)習(xí)方法與深度學(xué)習(xí)的效果,發(fā)現(xiàn)集成學(xué)習(xí)模型在準(zhǔn)確性指標(biāo)上不及深度學(xué)習(xí),但集成學(xué)習(xí)模型具有更快的訓(xùn)練速度和更高的算法效率。文獻(xiàn)[98-99]分別針對(duì)信用卡欺詐檢測(cè)的數(shù)據(jù)分布、實(shí)例檢測(cè)難度等問(wèn)題,“因地制宜”地提出了基于數(shù)據(jù)分布的異構(gòu)集成學(xué)習(xí)模型(heterogeneous ensemble learning model based on data distribution,HELMDD)以及基于實(shí)例難度不變性的boosting集成學(xué)習(xí)模型(boosting with instance difficulty invariance,BIDI),均表明了集成學(xué)習(xí)于信用卡欺詐檢測(cè)場(chǎng)景的優(yōu)越性。

      4.6 檢測(cè)模型的趨勢(shì)與未來(lái)

      表8展示了各類模型發(fā)表年份的分布,可以看出信用卡交易欺詐檢測(cè)方法的總體趨勢(shì)是逐步向深度與智能發(fā)展,同時(shí)表現(xiàn)出各種機(jī)器學(xué)習(xí)方法跨界使用、多類方法融合使用、多目標(biāo)優(yōu)化的趨勢(shì)等。

      表8 各類模型與算法的研究文獻(xiàn)分布與比較Table 8 Distribution and comparison of research literature on models and algorithms

      從各類機(jī)器學(xué)習(xí)范式來(lái)看,整體上反映了由“小數(shù)據(jù)”到“大數(shù)據(jù)”再到“小數(shù)據(jù)”的趨勢(shì)。具體來(lái)說(shuō),早期研究使用的模型算法多集中于有監(jiān)督的統(tǒng)計(jì)機(jī)器學(xué)習(xí)和無(wú)監(jiān)督的異常檢測(cè)中,主要由于早期模型相對(duì)簡(jiǎn)單、計(jì)算性能不足、可用數(shù)據(jù)有限,導(dǎo)致無(wú)法對(duì)于數(shù)據(jù)進(jìn)行深度挖掘,只能利用少量的標(biāo)簽數(shù)據(jù)進(jìn)行簡(jiǎn)單的有監(jiān)督學(xué)習(xí)或進(jìn)行無(wú)標(biāo)注的異常檢測(cè);隨著人工智能技術(shù)的發(fā)展、海量信用卡交易數(shù)據(jù)的積累以及計(jì)算性能的不斷提升,面向信用卡欺詐檢測(cè)的人工智能算法研究開(kāi)始大量涌現(xiàn),致力于從更大數(shù)據(jù)量、更廣特征類型中深度挖掘有效信息并不斷提升計(jì)算性能;而昂貴的有標(biāo)注數(shù)據(jù)、正負(fù)樣本極度傾斜、由于用戶隱私帶來(lái)的數(shù)據(jù)孤島等問(wèn)題始終存在,不斷擴(kuò)大數(shù)據(jù)廣度和深度帶來(lái)的邊際效益在遞減而成本在遞增,此時(shí)半監(jiān)督學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等拓寬數(shù)據(jù)限制的機(jī)器學(xué)習(xí)范式給信用卡欺詐檢測(cè)帶來(lái)了新的思路和增量,不再追求“大數(shù)據(jù)”而回歸“小數(shù)據(jù)”的深入研究,相信在未來(lái),對(duì)于數(shù)據(jù)受限的前提下進(jìn)行的深度挖掘仍舊大有可為。

      從各類機(jī)器學(xué)習(xí)方法來(lái)看,模型的跨界融合已成為大勢(shì)所趨。不僅體現(xiàn)于模型混合級(jí)聯(lián)與集成,也表現(xiàn)在跨任務(wù)的模型借鑒與使用:例如信號(hào)處理領(lǐng)域經(jīng)典運(yùn)用的小波變換/傅里葉變換、計(jì)算機(jī)視覺(jué)領(lǐng)域常用的卷積神經(jīng)網(wǎng)絡(luò)/循環(huán)神經(jīng)網(wǎng)絡(luò)/注意力機(jī)制、自然語(yǔ)言處理領(lǐng)域的預(yù)訓(xùn)練遷移學(xué)習(xí)模型等均在信用卡欺詐檢測(cè)任務(wù)中大展身手,未來(lái)的研究也可大膽嘗試其他機(jī)器學(xué)習(xí)領(lǐng)域中的先進(jìn)模型,加以在信用卡欺詐檢測(cè)因地制宜地改進(jìn)以發(fā)揮創(chuàng)新優(yōu)勢(shì)。模型算法的發(fā)展不僅是跨界融合,也在朝著各自細(xì)分領(lǐng)域的分化發(fā)展。例如目標(biāo)是利用少數(shù)標(biāo)簽完成信用卡欺詐檢測(cè)的半監(jiān)督學(xué)習(xí)、解決數(shù)據(jù)孤島和隱私問(wèn)題的聯(lián)邦學(xué)習(xí)、解決非平穩(wěn)數(shù)據(jù)環(huán)境下快速?gòu)?fù)用的遷移學(xué)習(xí)、挖掘?qū)共┺倪^(guò)程的強(qiáng)化學(xué)習(xí)、為解決概念漂移而產(chǎn)生的動(dòng)態(tài)模型和增量學(xué)習(xí),以及部分研究犧牲準(zhǔn)確度換取更好的可解釋性等的各種不同的新興研究趨勢(shì)。面向信用卡欺詐檢測(cè)的機(jī)器學(xué)習(xí)算法與模型可謂是多點(diǎn)開(kāi)花,未來(lái)的發(fā)展充滿無(wú)限的想象空間與可能性。

      5 評(píng)價(jià)指標(biāo)

      信用卡交易欺詐判別是一個(gè)二元分類問(wèn)題。當(dāng)被系統(tǒng)阻止的交易事后被證明非欺詐時(shí),則為誤報(bào);沒(méi)被阻止的交易時(shí)候被證明是欺詐時(shí),則為漏報(bào)。漏報(bào)產(chǎn)生經(jīng)濟(jì)損失,誤報(bào)導(dǎo)致?lián)p害用戶體驗(yàn)、降低商譽(yù)。理想情況下,模型評(píng)價(jià)應(yīng)該根據(jù)真實(shí)數(shù)據(jù)驗(yàn)證得出,然而現(xiàn)實(shí)世界中真實(shí)、全面、完整的完美標(biāo)簽數(shù)據(jù)集是不存在的。邀請(qǐng)領(lǐng)域?qū)<覟槿繑?shù)據(jù)記錄做標(biāo)記,這是一個(gè)耗時(shí)、費(fèi)力、昂貴的過(guò)程。作為一個(gè)折衷,多數(shù)研究使用部分標(biāo)注的數(shù)據(jù)集評(píng)估模型,設(shè)定一個(gè)閾值以便控制標(biāo)記數(shù)據(jù)量于可承受水平之內(nèi),即閾值依賴型指標(biāo),也可稱為混淆矩陣指標(biāo)。若每次交易的誤判代價(jià)不同,又產(chǎn)生了代價(jià)矩陣指標(biāo)。還有一些研究為了克服閾值設(shè)定的局限,進(jìn)一步衍生出了非閾值依賴型指標(biāo),如圖19所示。

      圖19 面向信用卡交易欺詐分類的評(píng)價(jià)指標(biāo)Fig.19 Evaluation indicators for classification of credit card transaction fraud

      5.1 閾值型指標(biāo)

      在實(shí)踐中欺詐檢測(cè)系統(tǒng)中通常給定交易的風(fēng)險(xiǎn)概率而非二進(jìn)制標(biāo)簽。鑒于交易核查人力有限,也避免對(duì)正常持卡人的過(guò)度騷擾,信用卡機(jī)構(gòu)傾向于只核查少量的高風(fēng)險(xiǎn)交易,因此通常設(shè)定一個(gè)閾值以便控制警報(bào)數(shù)量,將其置于可承受水平之內(nèi)。很多研究將可疑交易按概率降序排列,取前k個(gè)高風(fēng)險(xiǎn)交易分類,即“top-k方法”。顯然該方法僅適用于一段時(shí)間內(nèi)的累計(jì),而無(wú)法實(shí)時(shí)評(píng)價(jià),一般設(shè)定一個(gè)閾值δ來(lái)衡量效果。具體來(lái)說(shuō),設(shè)xi是第i個(gè)交易的特征向量,yi∈{0,1}表示其是否為欺詐交易。訓(xùn)練欺詐檢測(cè)模型y^ =f(x),當(dāng)欺詐分?jǐn)?shù)y^ ≥δ時(shí)為欺詐,即{xi:y^i≥δ}則將標(biāo)簽ci記為1,即確定閾值δ之后,可得表9的混淆矩陣。

      表9 欺詐識(shí)別的混淆矩陣Table 9 Confusion matrix for fraud identification

      混淆矩陣指標(biāo)包括準(zhǔn)確性(accuracy)、精確度(precision)、召回率(recall)、特異度(specificity)、F1值等,其中召回率也被稱為靈敏度(sensitivity)或真陽(yáng)性率(true positive rate,TPR),特異度也被稱為真陰性率(true negative rate,TNR)。大多數(shù)研究都使用精確度、召回率、特異度、F1 值[3,33,43,100]等評(píng)價(jià)指標(biāo)。在信用卡欺詐場(chǎng)景中檢測(cè)準(zhǔn)確性不是一個(gè)合適單一指標(biāo)[1,38,80],欺詐檢測(cè)通常面對(duì)一個(gè)正負(fù)樣本極度不平衡的數(shù)據(jù)集,即便取得了極高的準(zhǔn)確性,也可能大比例漏報(bào),即高準(zhǔn)確低召回[97]。

      混淆矩陣指標(biāo)簡(jiǎn)單把分類錯(cuò)誤視為等同代價(jià),事實(shí)并非如此。欺詐檢測(cè)的兩種錯(cuò)誤類型,一種是錯(cuò)誤分類導(dǎo)致的誤報(bào)(FP),另一種是遺漏欺詐導(dǎo)致的漏報(bào)(FN)。相比之下,后者代價(jià)要高得多。表10 列出了欺詐檢測(cè)的代價(jià)矩陣,欺詐誤判(CFP)成本為人工電話核實(shí)產(chǎn)生的代價(jià)(CCall),而漏報(bào)(CFN)成本為欺詐金額損失(li)。通常后者單次成本是前者百倍以上[40],不過(guò),過(guò)于敏感的檢測(cè)系統(tǒng)頻繁誤報(bào)會(huì)不斷騷擾正常持卡人,導(dǎo)致機(jī)構(gòu)商譽(yù)受損甚至市場(chǎng)份額降低。另外,漏報(bào)很可能是當(dāng)前模型不能識(shí)別的新欺詐模式,其損失可能會(huì)持續(xù)發(fā)生,直到該欺詐模式被發(fā)現(xiàn)為止??傊档虵N比降低FP更重要,即召回率Recall比精確度Precision更有經(jīng)濟(jì)價(jià)值。

      表10 欺詐識(shí)別的代價(jià)矩陣Table 10 Cost matrix for fraud identification

      5.2 非閾值型指標(biāo)

      非閾值型指標(biāo)包括Kolmogorov-Smirnov 指標(biāo)[101]、曲線下面積(area under curve)[2,3,102]等,如圖20所示。

      圖20 非閾值型指標(biāo)示例Fig.20 Example of non-threshold indicator

      常用AUC指標(biāo)包含AU-ROC與AU-PR。AU-ROC接收器操作特性曲線(receiver operating characteristic curve)通過(guò)構(gòu)圖揭示了靈敏度和特異度連續(xù)變量二者的相互關(guān)系,以靈敏度為縱坐標(biāo)、(1-特異度)為橫坐標(biāo)繪制成曲線,如圖20(b)所示。AU-ROC是x軸和曲線之間的歸一化積分,范圍介于0(最壞)和1(最好)之間,曲線下面積越大,則檢測(cè)準(zhǔn)確性越高。在AU-ROC曲線上,一個(gè)理想分類器應(yīng)該在左上角(0,1)處,代表最完美的靈敏度和特異度;隨機(jī)猜測(cè)則是一條對(duì)角線,如圖中虛線所示。一般來(lái)說(shuō),AU-ROC值大于0.8,則可認(rèn)為模型的欺詐區(qū)分能力較佳。AU-ROC 優(yōu)點(diǎn)是不受正負(fù)樣本分布比例的影響。但在信用卡欺詐檢測(cè)情境中,交易數(shù)據(jù)集都是正負(fù)樣本極度不平衡的,當(dāng)負(fù)樣本數(shù)量遠(yuǎn)超正樣本,偽陽(yáng)性FP大幅增長(zhǎng)只能換來(lái)FPR微小改變。即便大量誤報(bào),ROC曲線卻無(wú)法直觀表現(xiàn),呈現(xiàn)出一個(gè)虛假樂(lè)觀的效果估計(jì)。AU-PR 曲線展示的則是Precision vs Recall 的曲線,如圖20(c)所示,AU-PR 也采用曲線下面積來(lái)衡量分類器的效果。不同點(diǎn)在于AU-ROC 橫坐標(biāo)為FPR而AU-PR為recall,因此AU-PR曲線橫縱兩個(gè)坐標(biāo)都聚焦于正樣本。在信用卡欺詐數(shù)據(jù)集正負(fù)樣本比例極度不平衡條件下,學(xué)者普遍認(rèn)為AU-PR 指標(biāo)優(yōu)于AU-ROC。

      綜上所述,AU-PR 完全聚焦于正樣本,而K-S 與AU-ROC比較兼顧正負(fù)樣本,適用于評(píng)估分類器的整體性能。其中,K-S 值取TPR 和FPR 間最大差值,給出最佳的劃分閾值;AU-ROC反映了模型判別正負(fù)樣本的整體情況。若存在多個(gè)數(shù)據(jù)集且各自正負(fù)樣本比例不同,則AU-ROC、K-S 比較適合;若考慮分類器對(duì)較少數(shù)量正樣本的識(shí)別性能響,則AU-PR更為適合。

      表11列舉了上述各類評(píng)價(jià)指標(biāo)的含義、計(jì)算方法、優(yōu)劣勢(shì),以及使用場(chǎng)景。

      表11 各評(píng)價(jià)指標(biāo)對(duì)比Table 11 Comparison of evaluation indicators

      5.3 評(píng)價(jià)指標(biāo)研究的趨勢(shì)與未來(lái)

      表12 統(tǒng)計(jì)了20 年來(lái)領(lǐng)域文獻(xiàn)采用的評(píng)價(jià)指標(biāo)分布,混淆矩陣指標(biāo)因其概念簡(jiǎn)單、計(jì)算方便而占據(jù)信用卡欺詐檢測(cè)的評(píng)價(jià)主流,但近年來(lái)代價(jià)矩陣指標(biāo)和非閾值依賴型指標(biāo)正以極快速度發(fā)展逐漸占據(jù)了更大比例。究其原因,非閾值指標(biāo)的多閾值、多角度綜合評(píng)價(jià),更能反映模型整體表現(xiàn),更具客觀性;代價(jià)矩陣指標(biāo)真正關(guān)注信用卡欺詐檢測(cè)初衷,即最大程度降低損失而非最多數(shù)量發(fā)現(xiàn)欺詐。目前多數(shù)研究都開(kāi)始從降低損失總額角度提出模型的優(yōu)化方向。此外,欺詐檢測(cè)模型評(píng)價(jià)還有很多潛在的研究方向和角度,譬如模型評(píng)估維度、算法性能、持卡人用戶體驗(yàn)等方面。其中評(píng)估維度改變是指現(xiàn)有研究大多數(shù)都是從交易維度而非信用卡維度評(píng)價(jià)模型。實(shí)際上,同一張卡多次疑似交易更應(yīng)該被視為一次警報(bào)[34],實(shí)踐中交易核查人員電話聯(lián)系持卡人時(shí),通常也會(huì)核實(shí)其最近所有交易。因?yàn)槠墼p者獲取信用卡信息后,伎倆一旦得逞,通常會(huì)持續(xù)盜刷。未來(lái)欺詐檢測(cè)研究可以更多嘗試在卡級(jí)別進(jìn)行,一旦確認(rèn)一筆新的欺詐交易,應(yīng)該立即暫停支付以防止進(jìn)一步損失。

      表12 主要評(píng)價(jià)指標(biāo)分布Table 12 Distribution of main evaluation metrics

      6 困難與挑戰(zhàn)

      基于機(jī)器學(xué)習(xí)的信用卡交易欺詐檢測(cè)是一個(gè)非常困難的任務(wù),諸多研究均面臨著一些共同的挑戰(zhàn),包括海量數(shù)據(jù)產(chǎn)生的計(jì)算復(fù)雜性、正負(fù)樣本極度不平衡的樣本偏斜、欺詐模式隨時(shí)間變化的概念漂移等問(wèn)題。

      6.1 海量數(shù)據(jù)與計(jì)算實(shí)時(shí)性

      古人云“工欲善其事,必先利其器”?;跈C(jī)器學(xué)習(xí)的欺詐識(shí)別方法普遍存在著過(guò)度消耗計(jì)算資源的弊端。由于交易流量的增加、算法結(jié)構(gòu)的復(fù)雜,欺詐檢測(cè)變得困難而復(fù)雜,嚴(yán)重拖慢了檢測(cè)速度。然而欺詐檢測(cè)實(shí)質(zhì)上是一個(gè)時(shí)間價(jià)值函數(shù)[9],即欺詐識(shí)別速度越快,挽回的損失就越多?,F(xiàn)有研究開(kāi)始著力解決檢測(cè)模型的效率問(wèn)題,在不影響檢測(cè)準(zhǔn)確性前提下,采取適當(dāng)手段約簡(jiǎn)數(shù)據(jù)、分布式計(jì)算以減少處理時(shí)間,如圖21所示。

      圖21 在線欺詐系統(tǒng)應(yīng)對(duì)海量數(shù)據(jù)的常用手段Fig.21 Common means for online fraud systems to cope with massive amounts of data

      數(shù)據(jù)約簡(jiǎn)包括數(shù)據(jù)壓縮、特征選擇、特征構(gòu)造和數(shù)據(jù)降維等手段,以減少計(jì)算時(shí)間、利于實(shí)時(shí)處理[103]。其中,數(shù)據(jù)壓縮通過(guò)壓縮技術(shù)以減少計(jì)算量[68];特征選擇包括過(guò)濾器方法、包裝器方法和嵌入方法,選擇最重要、最相關(guān)的特征構(gòu)建模型[47,51,97,104];特征構(gòu)造是指從原始數(shù)據(jù)集中派生一小部分特征,使得數(shù)據(jù)以較小的形式表示,譬如交易聚合策略既能約簡(jiǎn)數(shù)據(jù)、又能有效捕獲每筆交易之前的消費(fèi)者購(gòu)買行為,將這些聚合用于模型估計(jì)以識(shí)別欺詐交易[3,33-34];數(shù)據(jù)降維對(duì)原始數(shù)據(jù)進(jìn)行約簡(jiǎn)降維,有效減少信用卡訓(xùn)練數(shù)據(jù)集的尺寸[68-69]。

      面向分布式計(jì)算的機(jī)器學(xué)習(xí)算法研究日益增長(zhǎng),譬如Hadoop/MapReduce框架[105-107];有研究表明,在云計(jì)算架構(gòu)下分配和處理數(shù)據(jù)利于加快知識(shí)提取過(guò)程[108];文獻(xiàn)[56]使用云計(jì)算架構(gòu)并行化處理數(shù)據(jù),實(shí)現(xiàn)了基于人工免疫系統(tǒng)的信用卡欺詐檢測(cè)系統(tǒng),并測(cè)試了云服務(wù)性能,提供了準(zhǔn)確性測(cè)量;文獻(xiàn)[109]提出了一個(gè)分布式異常檢測(cè)系統(tǒng),使用批量同步并行模型(bulk synchronization parallel,BSP)改進(jìn)嵌套循環(huán)算法(nested-loop,NL),有效提升了檢測(cè)性能;文獻(xiàn)[110]提出了一個(gè)可擴(kuò)展實(shí)時(shí)欺詐檢測(cè)(scalable real-time fraud finder,SCARFF)開(kāi)源平臺(tái)來(lái)處理和分析流數(shù)據(jù),測(cè)試了190 萬(wàn)張信用卡/800萬(wàn)筆交易流數(shù)據(jù),SCARFF能夠在非平穩(wěn)、類別不平衡、驗(yàn)證延遲的環(huán)境下提供較為準(zhǔn)確的分類;另外一些文獻(xiàn)[111-112]也考慮了系統(tǒng)性能限制,提出了各自的可擴(kuò)展實(shí)現(xiàn)。

      6.2 樣本偏斜

      正負(fù)樣本比例極度不平衡也是欺詐檢測(cè)面臨的主要挑戰(zhàn)之一。類別失衡嚴(yán)重的監(jiān)督學(xué)習(xí)中,少數(shù)類的模式往往被多數(shù)類數(shù)據(jù)所淹沒(méi),嚴(yán)重影響分類效果[67]。欺詐交易在所有交易中所占比例很小,極大地影響了欺詐檢測(cè)模型的性能。均衡正負(fù)樣本比例失調(diào)問(wèn)題的方法,按處理階段的不同,可分為兩個(gè)不同的研究方向,如圖22所示,即數(shù)據(jù)級(jí)和算法級(jí)機(jī)制。比較而言,數(shù)據(jù)級(jí)方法的使用總體上要多于算法級(jí)方法,主要由前者更易于實(shí)現(xiàn),也不會(huì)延長(zhǎng)訓(xùn)練時(shí)間或加重計(jì)算負(fù)擔(dān)。未來(lái),主動(dòng)學(xué)習(xí)、生成模型等半監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)也有望給解決樣本偏斜問(wèn)題帶來(lái)新的思路。

      圖22 不同類別的樣本平衡處理方法Fig.22 Balanced treatment of different categories of samples

      數(shù)據(jù)級(jí)方法是指在模型訓(xùn)練之前,預(yù)處理樣本數(shù)據(jù)集以平衡正負(fù)樣本比例。數(shù)據(jù)級(jí)平衡技術(shù)包括欠采樣和過(guò)采樣方法。欠采樣指從數(shù)據(jù)集中剔除一部分多數(shù)類樣本,以平衡兩類樣本比例[3,23];過(guò)采樣指復(fù)制少數(shù)類樣本以增加其在數(shù)據(jù)集中的比例[33]。欠采樣的缺點(diǎn)是有可能丟失一些重要信息,影響分類器的學(xué)習(xí);過(guò)采樣的缺陷是大量重復(fù)樣本容易導(dǎo)致對(duì)噪聲的過(guò)擬合。許多學(xué)者轉(zhuǎn)為研究二者的組合與更新。譬如,合成少數(shù)類的過(guò)采樣技術(shù)(synthetic minority oversampling technique,SMOTE),在被觀察樣本附近生成額外的少數(shù)類樣本進(jìn)行過(guò)采樣[28];還有先基于數(shù)據(jù)分布欠采樣,再聚類創(chuàng)建平衡數(shù)據(jù)子集,以解決正負(fù)樣本不平衡,取得了超越SMOTE 的效果[98];還有文獻(xiàn)實(shí)驗(yàn)對(duì)比各種數(shù)據(jù)級(jí)平衡技術(shù)(Under、SMOTE、EasyEnsemble等),分析各種數(shù)據(jù)采樣技術(shù)的有效性[6]。

      算法級(jí)方法是指通過(guò)代價(jià)敏感改進(jìn)算法,以應(yīng)對(duì)有偏的樣本分布。具體來(lái)說(shuō),創(chuàng)建代價(jià)矩陣以使模型有偏,假陰性或假陽(yáng)性不同類型的誤判,其代價(jià)不同,最終求解代價(jià)最小化或收益最大化。還有一些算法本身對(duì)類別失衡不敏感,或改進(jìn)后使其對(duì)類別失衡不敏感,以應(yīng)對(duì)樣本的偏斜。文獻(xiàn)[45]提出了一種成本敏感決策樹(shù)方法,在選擇每個(gè)非終端節(jié)點(diǎn)的分割屬性時(shí)最小化誤分類成本,實(shí)現(xiàn)了更好的準(zhǔn)確率和真陽(yáng)性率。文獻(xiàn)[34]構(gòu)造了一個(gè)成本敏感的隨機(jī)森林,進(jìn)一步提升了性能。文獻(xiàn)[68]改造SVM 算法提出了一種不平衡類加權(quán)支持向量機(jī)(ICW-SVM)來(lái)處理樣本不平衡。文獻(xiàn)[82]利用SOM 矩陣分解,通過(guò)矩陣分類閾值設(shè)置應(yīng)對(duì)樣本偏斜。文獻(xiàn)[113]基于對(duì)抗生成網(wǎng)絡(luò)和集成學(xué)習(xí)方法,提出一種新的針對(duì)二類不平衡數(shù)據(jù)集的分類方法。文獻(xiàn)[94]提出一種深度信念神經(jīng)網(wǎng)絡(luò)集成算法來(lái)解決類極度不均衡的信用欺詐問(wèn)題。此外,一些異常檢測(cè)模型[21,74]、集成模型[8,96]以及深度學(xué)習(xí)模型[4,60]均可有效減輕數(shù)據(jù)偏斜的影響。

      6.3 概念漂移

      概念漂移是指研究對(duì)象隨著時(shí)間的推移其統(tǒng)計(jì)特性以不可預(yù)見(jiàn)的方式變化的現(xiàn)象,或是在動(dòng)態(tài)環(huán)境中研究對(duì)象的行為不斷變化所產(chǎn)生的各種問(wèn)題[114]。在信用卡欺詐檢測(cè)領(lǐng)域,由于各種外部原因持卡人行為可能發(fā)生變化,若系統(tǒng)無(wú)法正確處理,將誤觸警報(bào)中止正常交易;此外,各種欺詐新模式不斷涌現(xiàn),檢測(cè)模型必須動(dòng)態(tài)學(xué)習(xí)、自動(dòng)適應(yīng)、捕獲新的欺詐類型。隨時(shí)間流逝,輸入數(shù)據(jù)特征與目標(biāo)變量之間聯(lián)系不斷變化,概念漂移為監(jiān)督學(xué)習(xí)模型構(gòu)建帶來(lái)了很大的挑戰(zhàn)[114],特別是對(duì)于在線學(xué)習(xí),新數(shù)據(jù)不斷到達(dá)會(huì)導(dǎo)致模型產(chǎn)生更多誤報(bào)。

      自適應(yīng)學(xué)習(xí)算法是面向求解概念漂移的一種先進(jìn)的增量學(xué)習(xí)算法,能夠隨著時(shí)間更新流數(shù)據(jù)[65]。增量學(xué)習(xí)的每個(gè)時(shí)刻t,通過(guò)全部數(shù)據(jù)或部分Xhistory=(X1,X2,…,Xt)標(biāo)記數(shù)據(jù)訓(xùn)練學(xué)習(xí)器Lt,如圖23所示,當(dāng)新進(jìn)交易輸入Xt+1時(shí),其任務(wù)是預(yù)測(cè)標(biāo)簽yt+1。當(dāng)標(biāo)簽yt+1變?yōu)榭捎脮r(shí),增量學(xué)習(xí)過(guò)程將Xt+1成為后續(xù)預(yù)測(cè)Xt+2的歷史數(shù)據(jù)的一部分。

      圖23 面向概念漂移的增量學(xué)習(xí)示意圖Fig.23 Schematic diagram of incremental learning for concept drift

      自適應(yīng)學(xué)習(xí)器可分為基于進(jìn)化的與基于規(guī)范的兩類方法?;谶M(jìn)化的方法是指自適應(yīng)學(xué)習(xí)器通過(guò)自動(dòng)調(diào)整其行為,包括集成學(xué)習(xí)或特定的模型參數(shù)設(shè)置,來(lái)保持與數(shù)據(jù)流動(dòng)態(tài)的最新行為模式。文獻(xiàn)[6]在遺忘和每日更新的增量學(xué)習(xí)基礎(chǔ)上提出了一種自適應(yīng)的信用卡欺詐檢測(cè)系統(tǒng),比較了變化環(huán)境中處理不平衡問(wèn)題前提下靜態(tài)方法、更新方法和遺忘方法三種方法的優(yōu)劣。文獻(xiàn)[34]構(gòu)造了一個(gè)反饋隨機(jī)森林,在反饋和延遲的監(jiān)督樣本下訓(xùn)練分類器,能夠自進(jìn)化地學(xué)習(xí)概念漂移。文獻(xiàn)[100]提出了一個(gè)交易窗口集成(transaction window bagging,TWB)模型,通過(guò)并行增量學(xué)習(xí)處理信用卡交易數(shù)據(jù),有效解決概念漂移和數(shù)據(jù)不平衡。文獻(xiàn)[61]使用深層序列神經(jīng)模型和滑動(dòng)窗口應(yīng)對(duì)概念漂移。基于規(guī)范的方法是指構(gòu)造概念漂移檢測(cè)器,在欺詐模式變化時(shí)做標(biāo)記再采取相應(yīng)措施。文獻(xiàn)[39]構(gòu)造了一個(gè)關(guān)聯(lián)規(guī)則分析器,提取正常和異常交易行為的關(guān)聯(lián)規(guī)則,通過(guò)監(jiān)控學(xué)習(xí)兩種不同的關(guān)聯(lián)規(guī)則來(lái)處理概念漂移。文獻(xiàn)[92]構(gòu)造了一個(gè)兩階段模型檢測(cè)欺詐交易,第一階段建立了一個(gè)交易時(shí)間相似性度量,為近期交易賦予更大的權(quán)重,在第二階段應(yīng)用動(dòng)態(tài)隨機(jī)森林算法結(jié)合最小風(fēng)險(xiǎn)模型檢測(cè)欺詐行為?;谝?guī)范的方法的優(yōu)勢(shì)在于對(duì)概念漂移的具有適應(yīng)性且提供了有關(guān)漂移的所需信息,但目前相關(guān)研究數(shù)量遠(yuǎn)少于基于進(jìn)化的方法。

      針對(duì)概念漂移,當(dāng)前解決方式都是針對(duì)已發(fā)生的模式變化的挖掘,無(wú)法即時(shí)檢測(cè)全新的欺詐模式。這就導(dǎo)致新欺詐模式出現(xiàn)初期持卡人勢(shì)必產(chǎn)生損失。為了降低欺詐的金額和持續(xù)時(shí)間,系統(tǒng)需要投入大量資源不斷更新模型。 概念漂移問(wèn)題作為信用卡欺詐檢測(cè)的重難點(diǎn)問(wèn)題之一,基于遷移學(xué)習(xí)和基于強(qiáng)化學(xué)習(xí)的方法有望為問(wèn)題解決帶來(lái)新的思路和發(fā)展方向。

      7 結(jié)語(yǔ)

      本文回顧了面向信用卡欺詐檢測(cè)的機(jī)器學(xué)習(xí)領(lǐng)域研究,從技術(shù)框架、特征工程、模型算法、評(píng)價(jià)指標(biāo)等幾個(gè)方面綜述了最近20 年來(lái)國(guó)內(nèi)外研究的最新成果,對(duì)比了模型算法的優(yōu)劣與適用范圍,歸納了發(fā)展過(guò)程并總結(jié)了發(fā)展趨勢(shì)。就技術(shù)框架而言,從專家規(guī)則到機(jī)器學(xué)習(xí)的系統(tǒng)架構(gòu)演進(jìn),從小數(shù)據(jù)處理到大數(shù)據(jù)分析的計(jì)算能力演進(jìn);就特征工程而言,文本、圖片、音頻、視頻、網(wǎng)絡(luò)等多模態(tài)特征突破了傳統(tǒng)的數(shù)據(jù)形式限制,動(dòng)態(tài)、同質(zhì)性行為的特征聚合,拓寬邊界、跨領(lǐng)域融合是研究關(guān)注的重點(diǎn);就模型算法而言,數(shù)據(jù)挖掘模型呈現(xiàn)從“小數(shù)據(jù)”到“大數(shù)據(jù)”再回歸“小數(shù)據(jù)”的趨勢(shì),各種機(jī)器學(xué)習(xí)算法跨界使用、多類方法融合逐步向深度、智能發(fā)展的趨勢(shì),在半監(jiān)督學(xué)習(xí)、聯(lián)邦學(xué)習(xí)、遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等各個(gè)細(xì)分領(lǐng)域和目標(biāo)分化方向還有廣闊空間亟待后續(xù)研究填補(bǔ)空白;就評(píng)價(jià)指標(biāo)而言,基于混淆矩陣和代價(jià)矩陣的評(píng)價(jià)指標(biāo)占據(jù)了當(dāng)前研究的主流,面向商譽(yù)損失和用戶體驗(yàn)的指標(biāo)設(shè)計(jì)也是非常有潛力的研究方向之一。

      本文歸納了信用卡反欺詐的機(jī)器學(xué)習(xí)研究必須面對(duì)的三個(gè)困難和挑戰(zhàn),即海量數(shù)據(jù)與計(jì)算實(shí)時(shí)性、樣本偏斜和概念漂移的問(wèn)題。本領(lǐng)域未來(lái)工作就是不斷直面這些挑戰(zhàn)、不斷突破思維限制、不斷擴(kuò)展特征邊界、不斷改善分類模型、不斷提升算法性能。此外,機(jī)器學(xué)習(xí)的生命之源在于大數(shù)據(jù),而大數(shù)據(jù)價(jià)值的產(chǎn)生機(jī)理和轉(zhuǎn)換規(guī)律具有高度的應(yīng)用領(lǐng)域依賴性。每個(gè)領(lǐng)域的欺詐模式都有其獨(dú)有的特點(diǎn),有必要面向管理與決策情景將多源異構(gòu)和非結(jié)構(gòu)化大數(shù)據(jù)進(jìn)行關(guān)聯(lián),開(kāi)展全景分析、實(shí)時(shí)動(dòng)態(tài)計(jì)算、挖掘模型構(gòu)建等跨平臺(tái)、跨學(xué)科、跨行業(yè)的研究融合。

      對(duì)未來(lái)信用卡反欺詐可能出現(xiàn)的新場(chǎng)景和新問(wèn)題,本文也提出幾點(diǎn)設(shè)想:首先消費(fèi)場(chǎng)景改變,電子商務(wù)與全球跨境貿(mào)易使得信用卡支付行為模式今時(shí)不同往日;其次商品本身的轉(zhuǎn)變,未來(lái)更多的交易商品具備獨(dú)特的純數(shù)字屬性而非實(shí)物或服務(wù);再次信貸形式的改變,“白條”“借唄”等互聯(lián)網(wǎng)小額借貸或成新的信用卡欺詐檢測(cè)領(lǐng)域之一;第四貨幣性質(zhì)的改變,數(shù)字貨幣與區(qū)塊鏈的運(yùn)用給信用卡欺詐檢測(cè)帶來(lái)新的變量和抓手;最后空間背景的改變,“元宇宙”純數(shù)字場(chǎng)景下的消費(fèi)、借貸與欺詐可能出現(xiàn)全新的命題??傊嫦蛐庞每ㄆ墼p檢測(cè)的機(jī)器學(xué)習(xí)方法研究方興未艾,技術(shù)上有不斷探索的空間,應(yīng)用場(chǎng)景上也存在無(wú)限可能,都會(huì)帶來(lái)新的更大挑戰(zhàn),信用卡反欺詐也將是需要持續(xù)關(guān)注和研究的熱點(diǎn)問(wèn)題。

      猜你喜歡
      欺詐信用卡交易
      關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
      關(guān)于假冒網(wǎng)站及欺詐行為的識(shí)別
      警惕國(guó)際貿(mào)易欺詐
      信用卡資深用戶
      信用卡詐騙
      網(wǎng)購(gòu)遭欺詐 維權(quán)有種法
      辦信用卡透支還債夫妻均獲刑10年
      公民與法治(2016年6期)2016-05-17 04:10:39
      交易流轉(zhuǎn)應(yīng)有新規(guī)
      大宗交易
      《吃飯的交易》
      红原县| 香港 | 沙坪坝区| 江北区| 栾城县| 施甸县| 会泽县| 七台河市| 黔南| 永宁县| 开远市| 历史| 高邑县| 阿荣旗| 隆安县| 井陉县| 东山县| 平泉县| 个旧市| 阜南县| 东光县| 商水县| 佛坪县| 杭锦后旗| 华蓥市| 霍州市| 十堰市| 尼木县| 昌吉市| 长春市| 南靖县| 嘉义市| 额敏县| 多伦县| 嫩江县| 饶阳县| 阿拉善盟| 天镇县| 北辰区| 永兴县| 精河县|