摘要:隨著在線交易的普及,交易欺詐問題日益嚴重,給消費者帶來了巨大的損失。文章提出了一種基于機器學習的交易欺詐能分析在線系統(tǒng),通過分析交易數(shù)據(jù)和用戶行為模式來識別潛在的欺詐交易。文章采用機器學習算法,如決策樹和神經(jīng)網(wǎng)絡(luò),對大規(guī)模交易數(shù)據(jù)進行訓練并評估系統(tǒng)在真實數(shù)據(jù)集上的性能。結(jié)果表明,該智能分析系統(tǒng)在準確性、召回率和F1分數(shù)等指標上表現(xiàn)出色,能夠有效地識別潛在的欺詐交易并進行實時預(yù)警。
關(guān)鍵詞:交易欺詐;機器學習;決策樹;神經(jīng)網(wǎng)絡(luò);實時預(yù)警
中圖分類號:TP18""文獻標志碼:A
0"引言
隨著數(shù)字支付的發(fā)展,網(wǎng)絡(luò)犯罪行為也越來越嚴重。研究發(fā)現(xiàn),接近66%的被調(diào)查者曾使用同一賬號注冊不同類型的平臺賬戶,而其中幾乎大部分用戶都有被電信詐騙的經(jīng)歷,少數(shù)甚至遭受嚴重的損失。隨著移動支付產(chǎn)品的創(chuàng)新加快,各種移動支付方式在消費群體中呈現(xiàn)分化趨勢,第三方支付的移動應(yīng)用又很受年輕人群的偏愛,多樣的支付方式也導致個人信息很容易被不法分子盜取。因此,開發(fā)一個自動化的詐騙檢測系統(tǒng)成為一項緊迫而重要的任務(wù)。
1"基于機器學習的交易欺詐檢測綜述
1.1"欺詐檢測的主要方法
目前應(yīng)用于數(shù)字交易欺詐檢測場景的機器學習技術(shù)包括有監(jiān)督方法和無監(jiān)督方法2類[1]。在有監(jiān)督的機器學習方法中,欺詐模式的建立主要依賴于大量的歷史交易數(shù)據(jù),然后通過訓練模型對最近的交易數(shù)據(jù)進行行為分析。無監(jiān)督的機器學習方法則是直接檢測交易數(shù)據(jù)中的異常值并發(fā)現(xiàn)交易數(shù)據(jù)的規(guī)律。常見的基于有監(jiān)督方法的是人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Nets,ANN),這種檢測技術(shù)可以處理海量數(shù)據(jù),性能相對較好。無監(jiān)督機器學習方法適用于對存在數(shù)據(jù)集的數(shù)據(jù)所屬類別不了解的情況,通過異常值檢測出可疑交易。采用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的無監(jiān)督機器學習方法,可檢測出信用卡交易的欺詐行為,在對國外信用卡數(shù)據(jù)集的欺詐交易行為檢測中準確率相對較高。
1.2"交易欺詐檢測的機器學習
機器學習目前被廣泛應(yīng)用于大數(shù)據(jù)的處理。由于信用卡、網(wǎng)上支付等大規(guī)模的使用,形成了海量的日常交易數(shù)據(jù),使用人工方法去驗證解決交易欺詐行為顯然已經(jīng)不現(xiàn)實,只能依靠智能技術(shù)實現(xiàn)自動化檢測。因此,本文旨在利用機器學習技術(shù)構(gòu)建一個自動化的詐騙檢測系統(tǒng),以提高詐騙檢測的準確性和效率。機器學習算法能夠通過對大量數(shù)據(jù)的學習和模式識別,自動發(fā)現(xiàn)隱藏的詐騙模式并根據(jù)交易特征進行預(yù)測。機器學習技術(shù)與實時交易系統(tǒng)的結(jié)合可以實現(xiàn)對實時交易的自動分析和實時預(yù)警,及時防范潛在的詐騙行為,提高金融機構(gòu)和客戶的交易安全性。
2"基于機器學習的交易欺詐智能分析在線系統(tǒng)
用于交易欺詐行為檢測的機器學習方法,主要是通過分析大量的數(shù)據(jù)從而建立欺詐檢測模型或者行為分析模型,通過挖掘欺詐者的行為模式特征,提高模型的欺詐識別能力。
2.1"系統(tǒng)綜述
基于機器學習的分布式詐騙行為分析系統(tǒng)提供了系統(tǒng)管理、模型訓練、在線預(yù)測等功能,以供用戶根據(jù)自己的需求進行相應(yīng)的選擇。系統(tǒng)的架構(gòu)主要包括數(shù)據(jù)與計算、Web服務(wù)、渲染技術(shù)以及終端展示4大模塊。
本文重點研究數(shù)據(jù)與計算中的數(shù)據(jù)集、算法模型的選擇與訓練以及最終的詐騙行為分析。本交易欺詐智能分析在線系統(tǒng)中智能檢測的核心思想是首先通過決策樹算法處理異常的數(shù)據(jù);然后使用 Sequential 模型構(gòu)建全連接的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)包含多個Dense 層和一個輸出層以提取不同層次的數(shù)據(jù)特征信息;最后神經(jīng)網(wǎng)絡(luò)模型引入非線性特征的激活函數(shù),以便能夠更好地輸出二分類結(jié)果,從而提高線上交易欺詐行為檢測的準確性。
2.2"數(shù)據(jù)集的選擇
機器學習的優(yōu)點是可以很好地處理大數(shù)據(jù),因此,本節(jié)介紹數(shù)據(jù)集的分析處理以及針對數(shù)據(jù)集的特征工程,選用決策樹和神經(jīng)網(wǎng)絡(luò)結(jié)合進行數(shù)據(jù)的建模。
系統(tǒng)中所使用的數(shù)據(jù)集card_transdata來自一些匿名的數(shù)據(jù)采集結(jié)構(gòu)。數(shù)據(jù)集中共有100萬條數(shù)據(jù),每條數(shù)據(jù)共有7個特征和1列類標簽,每條數(shù)據(jù)的內(nèi)容如表1所示。
2.3"模型的選擇與評估
根據(jù)數(shù)據(jù)集的特點,本文分析機器學習中常用的算法,最終系統(tǒng)選用決策樹和全連接神經(jīng)網(wǎng)絡(luò)的混合模型。
2.3.1"決策樹的模型
決策樹(Decision Tree)算法是機器學習中常見的一類算法,是一種以樹結(jié)構(gòu)形式表達的預(yù)測分析模型。
常用的機器學習的模型有邏輯回歸、支持向量機(Support Vector Machine,SVM)、隨機森林以及決策樹模型。本系統(tǒng)中數(shù)據(jù)集在這幾個模型中的得分如表2所示,對比選擇了決策樹模型。
2.3.2"全連接神經(jīng)網(wǎng)絡(luò)
本文根據(jù)數(shù)據(jù)集的特征采用多層不同神經(jīng)元數(shù)量的全連接神經(jīng)網(wǎng)絡(luò),構(gòu)建深度模型來提取數(shù)據(jù)的特征。神經(jīng)網(wǎng)絡(luò)模型中的全連接網(wǎng)絡(luò)層的每一層都采用了ReLU激活函數(shù)。模型的第1層有16個神經(jīng)元,第2層有32 個神經(jīng)元,之后依次為 64、256、64、32、16個神經(jīng)元。神經(jīng)網(wǎng)絡(luò)模型的最后1層有8個神經(jīng)元,采用Sigmoid激活函數(shù)用于輸出最終檢測出來的分類結(jié)果。全連接神經(jīng)網(wǎng)絡(luò)的模型如圖1所示。
2.3.3"模型評估
應(yīng)用該模型進行評估,首先須要采用合適的數(shù)據(jù)集來訓練模型。在此過程中,使用訓練好的模型對測試用的交易數(shù)據(jù)進行預(yù)測,根據(jù)得到的預(yù)測結(jié)果和設(shè)定的閾值來檢測判斷欺詐行為。然后通過準確率(Precision)、召回率(Recall)、幾何平均值(Geometric mean,G-mean)和調(diào)和平均數(shù)F1值(F1-Score)等對訓練好的模型的預(yù)測結(jié)果進行評估。最后分析數(shù)據(jù)模型的性能并提出改進調(diào)整參數(shù)的策略。
3"實驗結(jié)果與分析
3.1"實驗數(shù)據(jù)
本文采用的數(shù)據(jù)集card_transdata共有1000000條數(shù)據(jù),前5條數(shù)據(jù)如表3所示。
3.2"實驗對比方法
為了證明決策樹與全連接神經(jīng)網(wǎng)絡(luò)的預(yù)測效果,本文模型與 S-XGB-SMOTE[2]、XGBOOST[3]、AdaBoost[4]"、GBDT[5]和SVM進行性能對比。
3.3"實驗結(jié)果
本文主要采用評價指標研究中最常用的ROC曲線下的面積(Area Under Curve,AUC)、G-mean、F1-Score、Recall、Precision這5個指標來進行判斷性能,如表4所示。從表可知,本系統(tǒng)混合模型的預(yù)測性能均為最優(yōu)的,這表明本系統(tǒng)的混合模型對數(shù)據(jù)有較強的處理能力和預(yù)測性。
本文設(shè)置EPOCH為10,對本系統(tǒng)的混合模型進行訓練和測試,都能得到比較高的準確率。雖然在測試驗證集時,測試集中的準確率高于訓練集中的準確率,但是在訓練測試集時,混合模型的準確率達到98%以上。基于上述實驗結(jié)果,本系統(tǒng)混合模型的損失取值范圍在[0.06,0.08],沒有很明顯的波動,模型的性能基本趨于穩(wěn)定。
4"結(jié)語
本文提出了基于決策樹和全連接神經(jīng)網(wǎng)絡(luò)混合模型的交易欺詐智能分析在線系統(tǒng),重點介紹了智能分析系統(tǒng)的模型選擇和訓練,首先通過決策樹的機器學習算法來平衡訓練數(shù)據(jù)集,然后為了提取大量的交易數(shù)據(jù)的特征,構(gòu)建了深度全連接神經(jīng)網(wǎng)絡(luò)模型,最后通過模型來訓練和評估測試集。實驗表明,與傳統(tǒng)的線上交易欺詐分析方法相比,本文提出的智能分析方法有更高的準確性。當然該系統(tǒng)也存在一些不足,所采用的決策樹模型容易產(chǎn)生一個過于復(fù)雜的模型,可以進一步采取最小樣本數(shù)或者設(shè)置數(shù)的最大深度等策略對模型進一步優(yōu)化。全連接神經(jīng)網(wǎng)絡(luò)可以通過多樣的數(shù)據(jù)集,從而進一步優(yōu)化神經(jīng)網(wǎng)絡(luò)的層數(shù)和每層的神經(jīng)元數(shù)量等。
參考文獻
[1]XU J,CHEN H.Criminal network analysis and visualization[J].Communications of "the ACM,2005(6):100-107.
[2]徐明.基于時序不均衡數(shù)據(jù)的在線交易欺詐檢測研究[D].成都:電子科技大學,2019.
[3]楊琳坤,何培宇,潘帆,等.基于XGBoost-RFE-CBR的心電信號情緒識別研究[J].成都信息工程大學學報,2023(3):258-263.
[4]徐文倩.基于ADASYN-AdaBoost-CNN的信用風險評估模型[J].現(xiàn)代計算機,2021(28):39-44.
[5]王仕楊.基于一種新數(shù)據(jù)不平衡處理方法的銷量預(yù)測研究[D].南昌:南昌大學,2022.
(編輯"王雪芬)
Intelligent analysis of transaction fraud based on machine learning
LIU "Xiaoqun, LI "Ning, HE "Guangwei
(Communication University of China, Nanjing 211172, China)
Abstract: "With the increasing prevalence of online transactions, transaction fraud has become a growing concern, causing substantial losses to consumers. This paper presents a machine learning-based transaction fraud analysis system that identifies potential fraudulent transactions by analyzing transaction data and user behavior patterns. The system employs machine learning algorithms, such as decision trees and neural networks, to train on large-scale transaction data and evaluates its performance on real-world datasets. The results demonstrate that this intelligent analysis system exhibits outstanding performance in terms of accuracy, recall, and F1 score, effectively identifying potential fraudulent transactions and providing real-time alerts.
Key words: transaction fraud; machine learning; decision trees; neural networks; real-time alerts