劉卉芳
(中國聯(lián)通廣東分公司,廣東 廣州 510627)
近年來,我國通訊詐騙案件每年以20%~30%的速度快速增長,2013年至今,全國共發(fā)生千萬元以上的電信詐騙案件94起,百萬元以上的案件2085起。通信信息詐騙已經(jīng)成為信息社會久治不愈的頑疾,嚴(yán)重危害公眾的財(cái)產(chǎn)安全和社會的誠信體系,同時對運(yùn)營商的企業(yè)形象產(chǎn)生負(fù)面的影響。要想有效治理通信信息詐騙,運(yùn)營商的主動介入是其中不可或缺的環(huán)節(jié),從源頭上進(jìn)行治理,將通信信息詐騙攔截在發(fā)生之前,可以幫助有效減少通信信息詐騙。對欺詐用戶和過度營銷用戶的識別是運(yùn)營商介入的首要前提條件。因此,本文提出一個反欺詐模型,通過運(yùn)營商大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法,對電信欺詐用戶和過度營銷用戶進(jìn)行甄別。模型上線以來,日均輸出移網(wǎng)疑似詐騙用戶2000左右,模型查準(zhǔn)率可達(dá)95%以上,12321網(wǎng)站投訴量較應(yīng)用上線前下降150%,模型應(yīng)用效果顯著。
在現(xiàn)有的研究中,電信反欺詐模型以業(yè)務(wù)經(jīng)驗(yàn)規(guī)則居多[1,2]。其中,韓利強(qiáng)[3]通過對用戶短時間內(nèi)撥打連續(xù)號段號碼個數(shù)超限等作為判斷條件進(jìn)行識別,利用相應(yīng)監(jiān)控識別系統(tǒng)對騷擾電話進(jìn)行攔截;石強(qiáng)[5]通過手機(jī)號前2位,手機(jī)號前3位,歸屬運(yùn)營商及省分地市等特征進(jìn)行多維度組合分析,得到欺詐用戶的明顯特征,用于反欺詐模型的建立。但是,以上研究僅從用戶號碼及呼叫行為進(jìn)行識別,數(shù)據(jù)源類型較為單一,這可能會導(dǎo)致模型的識別精度下降[6]。
另外,在近幾年的研究中,機(jī)器學(xué)習(xí)算法被廣泛應(yīng)用于反欺詐場景。在電信領(lǐng)域,李夢琳[7]通過構(gòu)建決策樹模型匯總了詐騙用戶的分類規(guī)則,并且結(jié)合實(shí)際情況,給出了運(yùn)營商關(guān)于電話詐騙的防治建議。在決策樹的基礎(chǔ)上,吳錫松等人[8]使用隨機(jī)森林算法進(jìn)一步提升模型精確度。在金融領(lǐng)域,仵偉強(qiáng)等人[9]以及吳駿一[10]將邏輯回歸算法應(yīng)用于金融欺詐識別領(lǐng)域,取得較好的工程應(yīng)用效果。
本文基于上述研究,提出一個基于電信用戶大數(shù)據(jù)的電信反欺詐模型。主要貢獻(xiàn)在于:
(1)利用運(yùn)營商大數(shù)據(jù)優(yōu)勢,在使用常規(guī)用戶通話數(shù)據(jù)基礎(chǔ)上,引入用戶流量使用、位置信息、終端數(shù)據(jù)等多域數(shù)據(jù)源,綜合評估選取建模因子。
(2)在關(guān)聯(lián)分析的基礎(chǔ)上,通過邏輯回歸算法構(gòu)建詐騙用戶識別規(guī)則,并結(jié)合兩者的結(jié)果,提升模型精準(zhǔn)度。
(3)由于詐騙用戶數(shù)量遠(yuǎn)小于正常用戶,正負(fù)樣本比例極端不平衡。本文使用360對判別結(jié)果進(jìn)行驗(yàn)證,將打標(biāo)為“騷擾/詐騙”的用戶加入模型正樣本中,豐富正樣本數(shù)量,并通過反復(fù)迭代提升模型性能。
本節(jié)詳細(xì)介紹了特征選擇及數(shù)據(jù)處理流程。主要包括:基于業(yè)務(wù)知識篩選詐騙用戶相關(guān)因子;對數(shù)據(jù)集進(jìn)行預(yù)處理,清除臟數(shù)據(jù);對數(shù)據(jù)集進(jìn)行欠采樣以消除極端不平衡數(shù)據(jù)的影響;對特征進(jìn)行關(guān)聯(lián)分析,提取重要特征及關(guān)聯(lián)規(guī)則。
結(jié)合地市分公司業(yè)務(wù)經(jīng)驗(yàn)以及初步數(shù)據(jù)統(tǒng)計(jì)的判斷分析表明,一般涉詐號碼會有以下幾種異常行為及特征:首先,涉詐號碼的流量使用異常,具體表現(xiàn)為詐騙號碼流量使用的天數(shù)較少,且多為零流量用戶。其次,涉詐號碼的通話行為異常,表現(xiàn)為涉詐號碼主叫地點(diǎn)比較集中,交互基站少且位置集中。涉詐號碼的漫游通話記錄也有著聚集性的特點(diǎn),另外,漫游詐騙用戶往往有著不詐騙該漫游地用戶的特點(diǎn),如長期漫游在茂名的詐騙用戶詐騙時撥打歸屬地為茂名的用戶較少。并且涉詐號碼的呼叫頻率較高,表現(xiàn)為單位時間內(nèi)撥打用戶數(shù)多,撥打重復(fù)號碼極少、并且與之交互的號碼也極少。最后,由于被叫用戶在識破詐騙分子后,涉詐方往往會盡快掛斷電話,因此涉詐號碼有著平均通話時間較短的特點(diǎn)。
據(jù)此,初步確定以下五個行為因子,分別為位置特征(如主叫通話常在地區(qū)、使用基站數(shù)量等)、交往圈特征、通話特征(如主叫通話次數(shù)、被叫通話次數(shù)、主叫呼叫次數(shù)等)、終端特征和流量特征。
為了防止模型過度擬合,也為了提高關(guān)鍵因子的重要度,需要對因子進(jìn)行降維處理,故將某些原始因子進(jìn)行轉(zhuǎn)換,生成一些衍生因子,如:主被叫占比=被叫通話次數(shù)/主叫通話次數(shù)、主叫接通率=主叫通話次數(shù)/主叫呼叫次數(shù)、主叫重復(fù)撥打率=對端號碼個數(shù)/總通話次數(shù)。
此外,需要對空值和存在邏輯問題的數(shù)據(jù)進(jìn)行處理,例如將空值轉(zhuǎn)0、提出存在邏輯問題的數(shù)據(jù)等。
由于本次模型訓(xùn)練中正樣本用戶僅占總用戶數(shù)的萬分之0.033,正負(fù)樣本極端不平衡。當(dāng)遇到不平衡數(shù)據(jù)時,以總體分類準(zhǔn)確率為學(xué)習(xí)目標(biāo)的傳統(tǒng)分類算法會過多地關(guān)注多數(shù)類,從而使得少數(shù)類樣本的分類性能下降。絕大多數(shù)常見的機(jī)器學(xué)習(xí)算法對于不平衡數(shù)據(jù)集都不能很好地工作。因此,本文對正樣本進(jìn)行欠抽樣,從負(fù)樣本中刪除屬于多數(shù)類別的樣本,使正負(fù)樣本比例達(dá)到1:1。
通過分析數(shù)據(jù),可以將用戶特征提取為如下幾類:
(1)欺詐電話的呼叫次數(shù)
圖2和圖3的橫軸表示號碼主叫呼叫次數(shù),縱軸為該呼叫次數(shù)的號碼統(tǒng)計(jì)人數(shù)。從中我們可以看出,非被投訴號碼主叫呼叫次數(shù)基本上都在20次以內(nèi),而被投訴號碼的呼叫次數(shù)更偏向高頻呼叫。
圖2 被投訴號碼主叫呼叫次數(shù)分布圖
圖3 非被投訴號碼主叫呼叫次數(shù)分布圖
(2)欺詐電話信令對端號碼個數(shù)
圖4和圖5分別顯示了被投訴號碼信令對端和非被投訴號碼信令對端的號碼個數(shù)統(tǒng)計(jì)特征,其中非被投訴號碼信令對端號碼個數(shù)基本在20個以內(nèi),而被投訴號碼的信令對端號碼個數(shù)大多數(shù)在40個以上。
圖4 被投訴號碼信令對端號碼個數(shù)分布圖
圖5 非被投訴號碼信令對端號碼個數(shù)圖
(3)欺詐電話信令使用基站數(shù)
圖6和圖7顯示了被投訴號碼信令使用基站和非被投訴號碼信令使用基站的個數(shù)統(tǒng)計(jì),可以看到,被投訴號碼的信令使用基站數(shù)基本上都在20個以內(nèi)。
圖6 被投訴號碼信令使用基站數(shù)分布圖
圖7 非投訴號碼信令使用基站數(shù)分布圖
(4)欺詐電話的通話次數(shù)
圖8和圖9分別顯示了被投訴號碼和非被投訴號碼的通話次數(shù)統(tǒng)計(jì),其中非被投訴號碼的通話次數(shù)基本在20個以內(nèi),而被投訴號碼的通話次數(shù)傾向于高頻通話。
圖8 被投訴號碼通話次數(shù)分布圖
圖9 非投訴號碼通話次數(shù)分布圖
(5)欺詐漫游用戶呼叫非漫游地號碼次數(shù)
圖10和圖11分別顯示了被投訴號碼和非被投訴號碼呼叫非漫游地號碼的次數(shù)??梢钥吹?,非被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)基本都在10次以內(nèi),而被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)基本都在20次以上。
圖1 反欺詐模型構(gòu)建流程
圖10 被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)
圖11 非被投訴號碼漫游用戶呼叫非漫游地號碼次數(shù)
(6)欺詐電話詳單對端號碼個數(shù)
從圖12和圖13中可以看到,非被投訴號碼對端號碼個數(shù)基本上都在10個以內(nèi),而被投訴號碼對端號碼個數(shù)基本上都在20個以上。
圖12 被投訴號碼對端號碼個數(shù)
圖13 非被投訴號碼對端號碼個數(shù)
(7)欺詐電話主被叫占比
圖14和圖15分別顯示了被投訴號碼和非被投訴號碼呼叫非漫游地號碼的主被叫次數(shù)。被投訴號碼主被叫占比基本在0.15以內(nèi),非被投訴號碼主被叫占比則無明顯特征。
圖14 被投訴號碼主被叫占比分布圖
圖15 非投訴號碼主被叫占比分布圖
(8)欺詐電話撥打不同號碼率
從圖16和圖17中可以看到,被投訴號碼撥打不同號碼率基本在0.9以上,非被投訴號碼撥打不同號碼率沒有明顯特征。
圖16 被訴號碼撥打不同號碼率分布圖
圖17 非被訴號碼撥打不同號碼率分布圖
基于上一節(jié)的分析,可以得知主叫通話次數(shù)、對端號碼個數(shù)、信令使用基站數(shù)、漫游用戶呼叫非漫游地號碼次數(shù)、同一號碼更換終端次數(shù)、流量、主叫接通率、主被叫占比、撥打不同號碼率這些特征對識別欺詐用戶有較高的區(qū)分能力。因此,基于這些特征作為輸入,訓(xùn)練詐騙用戶識別模型。另外,根據(jù)業(yè)務(wù)部門經(jīng)驗(yàn),茂名市電白區(qū)某幾個村是電信詐騙分子集中地,因此在模型擬合用戶特征時,將茂名市用戶單獨(dú)建模。具體建模過程如下:
首先,通過上述特征分析,將三個子模型用到的主叫通話次數(shù)、對端號碼個數(shù)、信令使用基站數(shù)、漫游用戶呼叫非漫游地號碼次數(shù)、同一號碼更換終端次數(shù)、流量、主叫接通率、主被叫占比、撥打不同號碼率等因子作為輸入因子導(dǎo)入模型,使用邏輯回歸算法訓(xùn)練模型,將特征系數(shù)進(jìn)行標(biāo)準(zhǔn)化,得到三個子模型的因子重要性如圖18,19,20所示。
圖18 漫游到茂名子模型因子權(quán)重圖
其次,利用邏輯回歸算法,使用最大似然估計(jì),估算相關(guān)系數(shù)。針對上述漫游到茂名、省內(nèi)欺詐、省外欺詐三種情況進(jìn)行模型訓(xùn)練,分別得到回歸方程f1、f2和f3如下:
f1=0.1447×主叫呼叫次數(shù)-0.1423×信令對端號碼個數(shù)
-0.0974×信令使用基站數(shù)-11.19×同一號碼換終端次數(shù)
+0.1415×漫游用戶呼叫非漫游地號碼次數(shù)-0.0000001987
×流量-1.411×主叫接通率-1.875×主被叫占比+0.247
×撥打不同號碼率-3.103
f2=-0.7316×同一號碼換終端次數(shù)+0.00000000003203
×流量+0.06849×主叫呼叫次數(shù)-0.0008352
×信令對端號碼個數(shù)-0.02053×信令使用基站數(shù)+0.7791
×主叫接通率+0.05728×主被叫占比-2.811
×撥打不同號碼率+0.005241×被叫通話次數(shù)-0.5864
f3=-0.4707×同一號碼換終端次數(shù)-0.2152×主叫通話次數(shù)
+0.02281×被叫通話次數(shù)+0.2496
×漫游用戶呼叫非漫游地號碼次數(shù)+0.3004
×對端號碼個數(shù)-0.00000001255×流量+0.1705
×主被叫占比-3.664×撥打不同號碼率-2.359
隨后,我們建立計(jì)算函數(shù)p,p的表達(dá)式如下所示:
其中:i=1,2,3,分別代表漫游到茂名、省內(nèi)欺詐、省外欺詐三種情況。并對不同的詐騙情況使用fi進(jìn)行計(jì)算,并代入函數(shù)p中得到判斷因子。
圖19 省內(nèi)欺詐子模型因子權(quán)重圖
圖20 省外欺詐子模型因子權(quán)重圖
最終,結(jié)合關(guān)聯(lián)規(guī)則和上述訓(xùn)練好的邏輯回歸公式,判斷用戶是否為欺詐用戶:
(1)對于漫游到茂名情況,取p>=0.9為疑似欺詐用戶,或主叫接通率≤0.18且信令對端號碼個數(shù)≥43且信令使用基站數(shù)≤20,或主叫呼叫次數(shù)≥65且漫游用戶呼叫非漫游地號碼次數(shù)≥29且信令對端號碼個數(shù)≥43且信令使用基站數(shù)≤20,或主叫呼叫次數(shù)≥65且主被叫占比≤0.0625且信令使用基站數(shù)≤20,或主叫呼叫次數(shù)≥65且撥打不同號碼率≥0.91且信令使用基站數(shù)≤20,或漫游用戶呼叫非漫游地號碼次數(shù)≥29且主叫接通率≤0.18且信令使用基站數(shù)≤20,或漫游用戶呼叫非漫游地號碼次數(shù)≥29且主被叫占比≤0.0625且流量為0,或漫游用戶呼叫非漫游地號碼次數(shù)≥29且撥打不同號碼率≥0.91。
(2)對于省內(nèi)欺詐和省外欺詐的情況,均取p=1為疑似欺詐用戶。
(1)數(shù)據(jù)輸出
根據(jù)上述規(guī)則輸出模型數(shù)據(jù),對于7、8月被投訴號碼查全率:漫游到茂名:96.9%,省內(nèi):67.8%,漫游到省外:33.8%。
每日輸出數(shù)據(jù)量如表1所示。
表1 反欺詐日模型輸出數(shù)據(jù)量
(2)自核驗(yàn)方法
針對業(yè)務(wù)部門反饋的模型結(jié)果難以核驗(yàn)的問題,引入360標(biāo)記驗(yàn)證模型的準(zhǔn)確性。如圖21所示。
圖21 反欺詐模型部署圖
圖21 爬蟲邏輯圖(360平臺標(biāo)記驗(yàn)證)
利用12321平臺中被投訴詐騙的號碼歷史數(shù)據(jù),分別在360、百度、搜狗三家網(wǎng)絡(luò)平臺查詢號碼的標(biāo)記情況。結(jié)果發(fā)現(xiàn),在12321平臺中被投訴的惡意號碼與360的號碼標(biāo)記庫匹配率較高,也就是說,這批惡意號碼在360平臺號碼標(biāo)記庫中標(biāo)記為非正常號碼的比率大于其余兩家平臺的標(biāo)記比率。綜合考慮,我們決定在防電信詐騙模型當(dāng)中加入360平臺號碼標(biāo)記情況作為篩選條件,利用互聯(lián)網(wǎng)公信力作為參考,使得模型更能準(zhǔn)確地判斷疑似號碼的類型以及惡意程度。
經(jīng)測試,360平臺目前對號碼的標(biāo)記類型主要有:詐騙電話、廣告推銷、房產(chǎn)中介、騷擾電話、快遞送餐、招聘獵頭、響一聲電話、保險(xiǎn)理財(cái)、出租車。其中:詐騙電話、騷擾電話以及響一聲電話是影響最為惡劣,是投訴高發(fā)風(fēng)險(xiǎn)號碼;保險(xiǎn)理財(cái)、廣告推銷、房產(chǎn)中介類,存在被投訴騷擾的風(fēng)險(xiǎn)。
因?yàn)楸煌对V號碼只是欺詐用戶的一部分,所以用360標(biāo)記用戶核驗(yàn)?zāi)P偷牟闇?zhǔn)率,核驗(yàn)查準(zhǔn)率:漫游到茂名:25.8%,省內(nèi):92.1%,漫游到省外:96.8%。
本文提供的欺詐用戶識別模型,如圖22所示,已應(yīng)用于“電信欺詐用戶智能識別”應(yīng)用。該應(yīng)用包括:數(shù)據(jù)抽取、數(shù)據(jù)加工、模型規(guī)則加工、每日調(diào)度、輸出模型數(shù)據(jù)、數(shù)據(jù)展示。在實(shí)際應(yīng)用中,監(jiān)控人員可以通過反欺詐監(jiān)控平臺獲取廣東省整體反欺詐情況,并通過下載具體疑似詐騙號碼,在核驗(yàn)后進(jìn)行關(guān)停操作。
“電信欺詐用戶智能識別”應(yīng)用上線以來,日均輸出移網(wǎng)疑似詐騙用戶2000左右,模型查準(zhǔn)率可達(dá)95%以上。累計(jì)監(jiān)控可疑電信欺詐用戶上千萬,并對上萬級的高危涉詐用戶進(jìn)行關(guān)停處置,對百萬級的過度營銷用戶進(jìn)行警告并給出轉(zhuǎn)集團(tuán)專屬號段建議。12321網(wǎng)站投訴量較應(yīng)用上線前下降150%,模型應(yīng)用效果顯著。該項(xiàng)應(yīng)用實(shí)踐后,通過客服勸阻成功的電信欺詐受害者共計(jì)1300戶,共挽回財(cái)產(chǎn)損失約1000萬左右。
針對日益嚴(yán)重的通信欺詐行為,運(yùn)營商防控任務(wù)艱巨。本文通過分析詐騙號碼的特征,結(jié)合實(shí)際情況選取相關(guān)的特征因子,采用邏輯回歸和關(guān)聯(lián)分析訓(xùn)練樣本,對測試樣本進(jìn)行分類,通過迭代訓(xùn)練不斷提高分類器的精準(zhǔn)度,建立了電信防欺詐模型,取得了較高的查全和查準(zhǔn)結(jié)果。降低了詐騙號碼誤判率,可以有效減少員工的工作量,在實(shí)際應(yīng)用中取得了良好的效果。此外,在反欺詐防控過程中,因?yàn)樗惴ň瓤赡艽嬖诓糠钟脩籼柎a偏差,更復(fù)雜的數(shù)據(jù)類型也會導(dǎo)致部分用戶滿意度下降。因此,未來可在以下兩方面進(jìn)一步提高反欺詐模型的精度:(1)不斷迭代模型適應(yīng)不斷變化的欺詐場景;(2)嘗試通過孤立森林、GBDT等算法進(jìn)一步調(diào)優(yōu)模型。