高雅詩,李靜林
(北京郵電大學(xué) 計(jì)算機(jī)學(xué)院,北京 100876)
近年來,頻發(fā)的電信欺詐犯罪給百姓造成了巨大的財(cái)產(chǎn)損失,為此,司法機(jī)關(guān)和電信企業(yè)采取各種措施來防范電信欺詐,從大數(shù)據(jù)技術(shù)方面入手,運(yùn)用人工智能方法以求遏制電信欺詐行為。
早期欺詐檢測(cè)使用基礎(chǔ)機(jī)器學(xué)習(xí)的算法進(jìn)行用戶通話特征分析[1-2],之后又引入自然語言處理,通過用戶通話內(nèi)容進(jìn)行欺詐預(yù)測(cè)[3]。一些學(xué)者還使用了神經(jīng)網(wǎng)絡(luò)與其他相關(guān)模型相結(jié)合來完成欺詐檢測(cè)[4]。以上方法均可以有效地幫助識(shí)別電信欺詐用戶,但主要使用用戶的通話內(nèi)容,所需的數(shù)據(jù)存在特征維度大、需求時(shí)間跨度長(zhǎng)等問題。
如今,對(duì)于欺詐的預(yù)測(cè)逐漸利用到了社交網(wǎng)絡(luò)。目前,基于社交網(wǎng)絡(luò)結(jié)構(gòu)的方法可以分為2類:基于隨機(jī)游走(Random Walk,RW)的方法和基于循環(huán)置信傳播(Loopy Belief Propagation,LBP)的方法。RW主要是以邊權(quán)對(duì)邊緣概率的相對(duì)重要性(信任等級(jí))建模[5-8];LBP則是用邊權(quán)模擬共享相同標(biāo)簽的趨勢(shì)[9-11]。RW一般無法同時(shí)鑒別正常異常,LBP一般不可擴(kuò)展,不能保證收斂。
目前,大部分電信欺詐行為檢測(cè)主要針對(duì)用戶的通話數(shù)據(jù)特征進(jìn)行檢測(cè),少有利用用戶社交關(guān)系進(jìn)行分類的情況,且后者大多利用用戶社交網(wǎng)絡(luò)的拓?fù)潢P(guān)系劃分社區(qū)的方法,忽略了用戶自身的數(shù)據(jù)特征。
面對(duì)大規(guī)模的電信用戶欺詐行為預(yù)測(cè)分析,仍存在以下挑戰(zhàn):① 通信社交網(wǎng)絡(luò)的建立。通信用戶節(jié)點(diǎn)多,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)復(fù)雜,計(jì)算復(fù)雜度隨之指數(shù)型增加,需要找到合適的網(wǎng)絡(luò)數(shù)據(jù)計(jì)算方法。② 將概率理論與社交網(wǎng)絡(luò)結(jié)合。主流的電信欺詐檢測(cè)利用有監(jiān)督的分類器進(jìn)行二分類分析,生成離散型結(jié)果,誤差影響較大,需要利用概率方式在社交網(wǎng)絡(luò)中計(jì)算電信欺詐用戶的欺詐概率,形成半監(jiān)督式分類模型。③ 將用戶數(shù)據(jù)的統(tǒng)計(jì)特征與社交網(wǎng)絡(luò)結(jié)合。社交網(wǎng)絡(luò)的相關(guān)算法主要利用了社交網(wǎng)絡(luò)的拓?fù)潢P(guān)系,忽視了數(shù)據(jù)本身的特征,需要將用戶的數(shù)據(jù)特征置入到社交網(wǎng)絡(luò)中,幫助優(yōu)化預(yù)測(cè)模型。
針對(duì)以上問題,可以用概率圖模型來嘗試解決。利用概率圖模型中的馬爾科夫隨機(jī)場(chǎng)(Markov Random Field,MRF)對(duì)通信用戶社交網(wǎng)絡(luò)進(jìn)行建模,根據(jù)通話用戶的欺詐行為特征設(shè)計(jì)相關(guān)的圖結(jié)構(gòu)及相應(yīng)的概率分布關(guān)系,對(duì)用戶的行為特征與用戶間親密度關(guān)系加以描述,最終利用相關(guān)算法進(jìn)行分析預(yù)測(cè)。
MRF是概率圖模型中的一種生成式模型[12],利用概率論中的貝葉斯原理,建立數(shù)據(jù)間的概率分布關(guān)系。根據(jù)電信用戶的社交特點(diǎn),利用MRF模型來設(shè)計(jì)相應(yīng)的邏輯結(jié)構(gòu),搭建電信用戶欺詐行為的概率分布,以輔助完成對(duì)欺詐行為的分析預(yù)測(cè)。電信用戶的MRF可設(shè)為G(V,E),節(jié)點(diǎn)V表示通信網(wǎng)絡(luò)中的各個(gè)用戶,擁有各自的數(shù)據(jù)特征,設(shè)為先驗(yàn)概率;邊E表示各個(gè)節(jié)點(diǎn)間的相關(guān)關(guān)系,利用整體社交網(wǎng)絡(luò)關(guān)系,形成MRF的聯(lián)合概率,從而構(gòu)成整體的概率分布。由此在隨機(jī)場(chǎng)中傳遞節(jié)點(diǎn)的特征信息,獲得各節(jié)點(diǎn)的后驗(yàn)概率來判斷最終的分類預(yù)測(cè)結(jié)果。電信欺詐檢測(cè)流程如圖1所示。
圖1 電信欺詐檢測(cè)流程Fig.1 Telecom fraud detection flow
社交網(wǎng)絡(luò)中,一般存在5種用戶的相關(guān)特征:屬性特征、網(wǎng)絡(luò)特征、內(nèi)容特征、活動(dòng)特征與輔助特征[13]。本文使用電信通話用戶的通話數(shù)據(jù),根據(jù)電信用戶的通話情況,可以提取出如下特征:
屬性特征:基于用戶的長(zhǎng)期用戶詳單,可以據(jù)此分析用戶的日常通話行為,作為代表用戶屬性的特征。
網(wǎng)絡(luò)特征:利用用戶間的通話關(guān)系,可以構(gòu)建出電信用戶的通信社交網(wǎng)絡(luò),并在網(wǎng)絡(luò)中總結(jié)出相關(guān)網(wǎng)絡(luò)特征,例如度、中心性和聚類系數(shù)等。
活動(dòng)特征:根據(jù)用戶間的通信活動(dòng)情況,例如用戶間通話時(shí)長(zhǎng)、通話頻次和呼損原因,作為活動(dòng)特征計(jì)入在特征范圍內(nèi)。
根據(jù)以上特征可以為節(jié)點(diǎn)特征、節(jié)點(diǎn)間特征添加對(duì)應(yīng)的計(jì)算因子,最終通過信度傳播來更新聯(lián)合概率,推算出節(jié)點(diǎn)的預(yù)測(cè)值。
MRF中節(jié)點(diǎn)的先驗(yàn)概率一般由該節(jié)點(diǎn)的特征來表示,此模型利用電信用戶的屬性特征來進(jìn)行計(jì)算。將節(jié)點(diǎn)u的分類情況設(shè)為Xu,當(dāng)Xu=1時(shí),該用戶為正常用戶;反之,該用戶為欺詐用戶。同時(shí),將電信用戶的長(zhǎng)期特征設(shè)為cu,主要包括通信用戶的通話頻度、通話平均時(shí)長(zhǎng)和通話時(shí)間區(qū)間等,作為行為向量特征。在此基礎(chǔ)上,使用邏輯回歸來進(jìn)行先驗(yàn)概率的計(jì)算:
(1)
在社交網(wǎng)絡(luò)中,用戶間存在相互影響的相互關(guān)系??稍O(shè)置根據(jù)前期對(duì)電信用戶的調(diào)研工作,總結(jié)以下基本情況:
① 雙向:經(jīng)常相互通信的用戶雙方有相似的通信特征,存在同構(gòu)相似,符合社交網(wǎng)絡(luò)中社區(qū)集中的特點(diǎn)。
② 單入:欺詐用戶通常不會(huì)作為被叫用戶接到正常用戶的通話,所以一般情況下,欺詐用戶的主叫用戶為欺詐用戶。
③ 單出:正常用戶通常不會(huì)主動(dòng)與欺詐用戶通話,所以一般情況下,正常用戶的被叫用戶為正常用戶。
根據(jù)此情況,可以設(shè)計(jì)出在鄰居用戶影響下,節(jié)點(diǎn)u的先驗(yàn)概率的情況。根據(jù)社交網(wǎng)絡(luò)中的有向邊情況,設(shè)置節(jié)點(diǎn)u的雙向鄰居集合N(u)、單向被叫鄰居集合I(u)、單向主叫鄰居集合O(u),每一個(gè)鄰居都對(duì)節(jié)點(diǎn)有不同影響力設(shè)為Yuv。據(jù)此可根據(jù)鄰居節(jié)點(diǎn)不同情況,設(shè)計(jì)不同的先驗(yàn)概率計(jì)算方法。
面對(duì)雙向通話的用戶,二者間存在相互影響,會(huì)將自身的信譽(yù)度傳播給其鄰居,使其逐漸同質(zhì)化,由此可得:
(2)
面對(duì)單向被叫用戶,如果鄰居為正常用戶,則可以推出該用戶大概率為正常用戶;反之,則不能確定該用戶是否為欺詐用戶。所以,單向被叫用戶只受正常用戶的信譽(yù)度影響。面向單向主叫用戶,如果鄰居為欺詐用戶,則可以推出該用戶大概率為欺詐用戶;反之,則不能確定該用戶是否為欺詐用戶,所以,單向主叫用戶只受欺詐用戶的信譽(yù)度影響。據(jù)此可以得到,根據(jù)鄰居影響的用戶節(jié)點(diǎn)的先驗(yàn)概率分布φu(xu)為:
(3)
MRF中節(jié)點(diǎn)的先驗(yàn)概率確定后,再考慮邊的表達(dá)方式。網(wǎng)絡(luò)中的邊表示的是用戶之間的相關(guān)關(guān)系,在傳導(dǎo)過程中根據(jù)之前確定的欺詐用戶與正常用戶之間的關(guān)系,可以設(shè)計(jì)用戶間的勢(shì)函數(shù)。由文獻(xiàn)[15]中的雙向邊勢(shì)函數(shù)可推導(dǎo)出單向邊的勢(shì)函數(shù)為:
(4)
式中,wuv為兩用戶節(jié)點(diǎn)間的親密關(guān)系程度。根據(jù)社交網(wǎng)絡(luò)的情況,可以利用二者的相似關(guān)系來確定二者的親密度關(guān)系,本文使用了皮爾森相似度來進(jìn)行計(jì)算:
(5)
基于上述設(shè)計(jì)電信用戶的MRF,G=(V,E)中先驗(yàn)函數(shù)φu(xu)與勢(shì)函數(shù)φuv(xu,xv),可以求得MRF中的聯(lián)合概率分布:
(6)
置信傳播算法利用節(jié)點(diǎn)與節(jié)點(diǎn)之間相互傳遞信息更新當(dāng)前整個(gè)MRF的標(biāo)記狀態(tài),是基于MRF的一種近似計(jì)算。該算法是一種迭代的方法,可以解決概率圖模型概率推斷問題,而且所有信息的傳播可以并行實(shí)現(xiàn)。經(jīng)過多次迭代后,所有節(jié)點(diǎn)的信度不再發(fā)生變化,就稱此時(shí)每一個(gè)節(jié)點(diǎn)的標(biāo)記即為最優(yōu)標(biāo)記,MRF也達(dá)到了收斂狀態(tài),從而得到最優(yōu)的聯(lián)合概率,最終求出節(jié)點(diǎn)的后驗(yàn)概率,作為該節(jié)點(diǎn)的欺詐預(yù)測(cè)概率。
置信傳播算法一般分為sum-product和max-product兩種傳播模式,本文使用max-product進(jìn)行相關(guān)計(jì)算。
具體消息傳播公式為:
(7)
式中,包含所有其他傳入節(jié)點(diǎn)u的消息乘積;L(v)/u表示節(jié)點(diǎn)v的MRF一階鄰域中排除目標(biāo)節(jié)點(diǎn)u的鄰域;mvu(xu)可以通過網(wǎng)絡(luò)中的消息傳播不斷迭代,用自身上次迭代的消息結(jié)果結(jié)合節(jié)點(diǎn)u自身的先驗(yàn)概率和節(jié)點(diǎn)u與鄰居v之間的勢(shì)函數(shù),計(jì)算出此次迭代mvu(xu)的結(jié)果。理想情況下,當(dāng)節(jié)點(diǎn)間的消息傳遞不再變化,則達(dá)到完全收斂,此時(shí)會(huì)得到MRF的最優(yōu)聯(lián)合概率分布。根據(jù)聯(lián)合概率分布求得各個(gè)節(jié)點(diǎn)的后驗(yàn)概率:
(8)
式中,zu為歸一化函數(shù)。在具體實(shí)驗(yàn)過程中,循環(huán)置信傳播不能保證在有限次循環(huán)之后能夠完全收斂,所以設(shè)置收斂線α∈[10-4,10-7],2次消息變化較小時(shí),則可以認(rèn)為該過程已實(shí)現(xiàn)收斂。
為簡(jiǎn)化最終的函數(shù)表達(dá)方式,算法中設(shè)pu表示Pr(xu=1),qu表示φu(xu=1),mvu表示mvu(xu=1)。因?yàn)闅w一化不影響先驗(yàn)概率的計(jì)算和消息傳遞的效果,所以φu(xu=1)+φu(xu=-1)=1,mvu(xu=1)+mvu(xu=-1)=1,化簡(jiǎn)后為:
(9)
置信傳播算法中,仍存在可擴(kuò)展性不足,主要是因?yàn)樗惴ㄖ性谏缃痪W(wǎng)絡(luò)圖的每一個(gè)邊緣都在進(jìn)行信息上的維護(hù),其關(guān)鍵原因在于2個(gè)節(jié)點(diǎn)不能同時(shí)向?qū)Ψ絺鬟f消息,實(shí)質(zhì)上是當(dāng)用戶節(jié)點(diǎn)v向其鄰居節(jié)點(diǎn)u準(zhǔn)備消息時(shí),它排除了鄰居節(jié)點(diǎn)u發(fā)送給用戶節(jié)點(diǎn)v本身的消息。文獻(xiàn)[15]指出,計(jì)算節(jié)點(diǎn)(v,u)間消息傳遞mvu中沒有排除鄰居節(jié)點(diǎn)u給用戶節(jié)點(diǎn)v的消息,并不影響MRF的收斂性。算法優(yōu)化時(shí),消息傳播可以允許當(dāng)v為u準(zhǔn)備消息時(shí),u發(fā)送給v的消息。消息傳播公式變換為:
(10)
本模型采用運(yùn)營商的真實(shí)數(shù)據(jù)集,其中記錄了從2019年5月27日-6月8日所有的cdr呼叫詳單,共計(jì)4 582 674條數(shù)據(jù),欺詐行為數(shù)據(jù)82 133條,并且數(shù)據(jù)集中僅包含在采樣期內(nèi)活躍的用戶。具體用戶特征如表1所示。
表1 用戶特征
在實(shí)驗(yàn)前,首先進(jìn)行數(shù)據(jù)預(yù)處理,了解數(shù)據(jù)的分布情況,對(duì)數(shù)據(jù)進(jìn)行清理工作。對(duì)通話記錄按照時(shí)間長(zhǎng)度進(jìn)行數(shù)據(jù)劃分并特征提取,將整合處理后的數(shù)據(jù)分為3類。目前,將特征分為3部分:一是單條數(shù)據(jù)下的通話特征,例如通話時(shí)間區(qū)間、通話時(shí)長(zhǎng)和呼損原因等,用于2節(jié)點(diǎn)間的關(guān)系計(jì)算;二是單個(gè)主叫用戶在單日的通話特征,通話次數(shù)、通話平均時(shí)長(zhǎng),通話高頻區(qū)間等,用于該節(jié)點(diǎn)的主要屬性特征計(jì)算;三是單個(gè)主叫用戶的長(zhǎng)期的通話特征,其時(shí)間跨度較長(zhǎng),后期可加入時(shí)間特征進(jìn)行迭代更新。此外,對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)采樣處理,其中70%數(shù)據(jù)用于訓(xùn)練,10%數(shù)據(jù)用于驗(yàn)證,20%數(shù)據(jù)用于測(cè)試。
在設(shè)置MRF勢(shì)函數(shù)的過程中,主要利用了節(jié)點(diǎn)間的親密度關(guān)系進(jìn)行計(jì)算。計(jì)算用戶間的親密度主要利用用戶間的相似關(guān)系或者社交關(guān)系,例如余弦相似性、歐氏距離相似性和皮爾森相似性等;或利用用戶間的信任度計(jì)算,其中,直接信任度計(jì)算主要通過節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系進(jìn)行,在網(wǎng)絡(luò)G中若u和v有直接聯(lián)系,則u對(duì)v有直接信任關(guān)系,直接信任度T(u,v)為1,否則為0。歸一化處理后得到的直接信任度:
(11)
本文就以上幾種方式進(jìn)行對(duì)比,各相似度關(guān)系計(jì)算結(jié)果對(duì)比如圖2所示。
圖2 各相似度關(guān)系計(jì)算結(jié)果對(duì)比Fig.2 Comparison of similarity relationship calculation results
僅利用節(jié)點(diǎn)間的社交關(guān)系,在歸一化后結(jié)果差距不明顯,導(dǎo)致最終結(jié)果欠佳。皮爾森與優(yōu)化余弦相似性算法相同,只是歸一化方法不同,3種相似性準(zhǔn)確度結(jié)果差距不明顯,僅僅在召回率上有較小差別。利用歐氏距離相似性計(jì)算用戶間的親密度,效果更好。
實(shí)驗(yàn)中采用基礎(chǔ)的分類器模型進(jìn)行比較:
邏輯回歸:對(duì)數(shù)幾率模型,使用其固有的logistic函數(shù)估計(jì)概率,完成二分類任務(wù)。
決策樹:決策分類樹,利用樹節(jié)點(diǎn)代表數(shù)據(jù)屬性特征,進(jìn)行分類決策。
隨機(jī)森林:多個(gè)決策樹的分類器。
XGBoost:提升樹模型,boosting算法中的一種,將許多CART回歸樹模型集成在一起,形成一個(gè)強(qiáng)分類器。
MRF:先驗(yàn)函數(shù)為用戶標(biāo)簽,勢(shì)函數(shù)均為常數(shù)值>0.5。
LR+MRF:利用邏輯回歸方式將用戶特征轉(zhuǎn)換為用戶節(jié)點(diǎn)的先驗(yàn)概率,將用戶間的親密關(guān)系程度作為用戶間的勢(shì)函數(shù)。
將用戶詳單數(shù)據(jù)置入各模型中,結(jié)果如表2所示。
表2 各模型分類結(jié)果
由表2可以看出,基于MRF的欺詐用戶分析模型可以有效地對(duì)存在欺詐行為的用戶加以區(qū)分。其中,精確率較基礎(chǔ)分類模型有了較大提高,主要是因?yàn)槟P蛯⒂脩舻幕咎卣骱陀脩糸g關(guān)系特征利用概率圖算法連接起來,從而提高了模型的精確率。而模型的召回率較低,主要原因在于數(shù)據(jù)中的欺詐用戶占比較小,分布較為分散,欺詐用戶二者間連通性較弱,導(dǎo)致召回率比沒有利用網(wǎng)絡(luò)關(guān)系的模型低。綜上,通過基于MRF的社交網(wǎng)絡(luò)模型,能夠?qū)τ脩羝墼p行為進(jìn)行較好的預(yù)測(cè)。
提出了一種基于MRF的電信欺詐行為分析模型,在此隨機(jī)場(chǎng)中利用邏輯回歸對(duì)用戶節(jié)點(diǎn)賦特征值,設(shè)計(jì)節(jié)點(diǎn)間親密度表示節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,之后利用循環(huán)置信傳播方式計(jì)算MRF的消息傳播得到最終的后驗(yàn)概率,完成欺詐用戶行為的預(yù)測(cè)判斷。通過將真實(shí)數(shù)據(jù)集置入MRF模型中,與其他欺詐檢測(cè)方法進(jìn)行比對(duì),對(duì)本文模型進(jìn)行評(píng)估。實(shí)驗(yàn)證明,利用概率圖MRF與邏輯回歸相結(jié)合對(duì)電信欺詐行為進(jìn)行檢測(cè),能夠獲得較優(yōu)的結(jié)果。之后的研究中,可以通過引入更多的通話特征,對(duì)具體算法進(jìn)一步優(yōu)化,以更好地完成電信欺詐行為的預(yù)測(cè)。