周俊杰,許鴻奎,2,盧江坤,張子楓,李振業(yè),郭文濤
1(山東建筑大學(xué) 信息與電氣工程學(xué)院,濟南 250000)
2(山東建筑大學(xué) 山東省智能建筑技術(shù)重點實驗室,濟南 250000)
據(jù)CNNIC(China Internet Network Information Center)發(fā)布報告,截止2021年6月,我國網(wǎng)民規(guī)模達10.11億,較2020年12月增長2175萬,智能設(shè)備使用規(guī)模也隨之增加,如今擁有全球最為龐大的數(shù)字群體.在手機和互聯(lián)網(wǎng)普及的今天,手機詐騙案件頻頻發(fā)生,科技給人們的生活帶來了便利,但也增加了與科技相關(guān)的犯罪隱患,無意之間接到的電話可能蘊含著詐騙的風(fēng)險.據(jù)相關(guān)數(shù)據(jù)顯示排名前10的詐騙手法分別為交易詐騙、兼職詐騙、交友詐騙、返利詐騙、低價利誘詐騙、金融信用詐騙、仿冒詐騙、色情詐騙、免費詐騙和盜號詐騙.這些手段被交叉運用在電話詐騙之中,頗具威脅[1].因此,有必要對電話詐騙進行研究與治理.
早期對詐騙電話的識別一般基于詐騙號碼庫[2]、詐騙語音模板和用戶通信行為[3]數(shù)據(jù).國內(nèi)的一些運營商通過構(gòu)建詐騙電話號碼庫,在運營商的服務(wù)端對詐騙電話號碼進行標(biāo)記,在一定程度上遏制了電話詐騙,但這種方法的成本過高,并且當(dāng)詐騙分子修改電話號碼便可繼續(xù)實施詐騙;基于語音模板進行匹配識別詐騙電話,其核心思想為匹配呼入電話的語音內(nèi)容,如若匹配到詐騙語音數(shù)據(jù),則對其進行攔截,這需要一定數(shù)量的詐騙語音模板數(shù)據(jù),較為依賴詐騙語音的數(shù)量與質(zhì)量,并且對一些表述變化的詐騙語音不易識別;通過用戶的通信行為即呼出號碼、呼出地點等信息結(jié)合機器學(xué)習(xí)可以分析判斷呼入用戶是否為詐騙用戶,具有靈活的特點,但這種方法依靠大量的用戶行為數(shù)據(jù)且無法檢測通話內(nèi)容的語義,對于一個全新的號碼并不能識別.運營商也采用了基于大數(shù)據(jù)的詐騙電話分析技術(shù)[4]用以防范電話詐騙.文獻[5]提出了一種高效的基于并行圖挖掘的詐騙電話檢測框架,能夠自動為詐騙電話號碼貼上詐騙標(biāo)簽,從而生成電話號碼信任值.
含有詐騙語義的語句屬于文本的范疇,其內(nèi)容與文本的前后文、語句序列、局部相關(guān)內(nèi)容以及顯著關(guān)鍵詞語相關(guān),本文采用深度學(xué)習(xí)的方式,通過對詐騙電話文本進行分類在用戶端識別詐騙電話.文本分類[6]根據(jù)文本內(nèi)容,按照規(guī)則依次將文本歸屬于一類或多類,整個分類過程可以看作是一種函數(shù)關(guān)系,對于詐騙文本,文本分類可以將其歸屬于詐騙類別,從而達到識別的目的.
本文的主要工作總結(jié)如下:
1)引入了位置編碼,將文本中各類字詞所處位置的信息表示出來,體現(xiàn)出文本空間方面的信息,從而更為準(zhǔn)確的表示出句子的語義,豐富了文本的特征表示,這對具有詐騙語義的文本極為重要;
2)文本的詐騙語義體現(xiàn)在前后文的相關(guān)內(nèi)容,或與句子本身的結(jié)構(gòu)有關(guān).為提取電話文本的前后文相關(guān)性、文本序列特征以及局部相關(guān)性等多種深層文本信息,將雙向門控循環(huán)單元與多尺度卷積神經(jīng)網(wǎng)絡(luò)的輸出融合,使得模型通過訓(xùn)練能夠?qū)W習(xí)到豐富的詐騙語義知識.
3)將包含關(guān)鍵信息的向量表示賦予較大的權(quán)重可以使得詐騙文本更容易被識別出來.通過Attention機制將神經(jīng)網(wǎng)絡(luò)提取出的信息重新分配權(quán)重,突出關(guān)鍵詞語的作用,提高模型分類性能.
4)在兩個數(shù)據(jù)集上進行實驗,驗證提出的模型相比于對比模型在分類性能上的提升,對詐騙電話文本分類的各項指標(biāo)均在0.91以上,顯示出對詐騙電話文本識別的有效性.
詐騙電話文本本質(zhì)上是一些包含詐騙語義的文本內(nèi)容,可通過文本分類的方法捕捉詐騙語義信息,從而識別詐騙電話文本.分布表示方法通過神經(jīng)網(wǎng)絡(luò)技術(shù)對上下文,以及上下文與目標(biāo)詞之間的關(guān)系進行建模,相比獨熱編碼和TF-IDF[7](Term Frequency-Inverse Document Frequency)等分布式表示方法,獲得的詞向量更加豐富了文本的語義信息,使得語言特征表示更為準(zhǔn)確,且解決了維度災(zāi)難[8]和數(shù)據(jù)稀疏帶來的問題,這一方法又被稱為詞嵌入,采用詞嵌入的方式能夠?qū)㈦娫捨谋镜男畔?nèi)容準(zhǔn)確的表示出來.具有代表性的模型如Word2Vec[9]、GloVe[10],其中Word2Vec采用兩種不同的訓(xùn)練方式,即CBOW(Continuous Bag-of-words)用一個單詞的上下文來預(yù)測該單詞,Skip-Gram用一個單詞來預(yù)測該單詞的上下文.Zhou等人[11]將Word2Vec做為詞嵌入結(jié)合雙向長期記憶模型處理微博情感分析任務(wù).
位置編碼[12]可以捕獲到文本的位置信息,這一能力在Transformer[13]中得到了應(yīng)用,使其能夠?qū)W習(xí)句子的結(jié)構(gòu)信息,從而提升模型性能.常見的位置編碼有正弦、余弦位置編碼以及學(xué)習(xí)位置編碼,正弦、余弦位置編碼首先對句子的每個字符編號,處于偶數(shù)位置的字符采用正弦函數(shù)編碼,處于奇數(shù)位置的字符則采用余弦函數(shù)編碼,以此表示字符的位置信息,模型Transformer中應(yīng)用的正是這種編碼;學(xué)習(xí)位置編碼與詞向量的生成方式有些類似,每個位置上的字符都學(xué)習(xí)一個向量,這種方法的句子長度不能超出位置編碼范圍,并且數(shù)據(jù)集中短句子較多的情況下影響長句子的位置表達.
門控循環(huán)單元[14]通過更新門、重置門兩個特殊的門結(jié)構(gòu)解決了遞歸循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的梯度爆炸、梯度消失等問題,擁有更簡單的網(wǎng)絡(luò)結(jié)構(gòu),節(jié)省訓(xùn)練時間,采用雙向門控循環(huán)單元通過每一時間步中前向隱藏層輸出和后向隱藏層的輸出能夠提取出文本的上下文相關(guān)性以及文本的長距離依賴關(guān)系,這有利于提取出文本的詐騙語義信息.Yang 等人[15]對金融領(lǐng)域的文本進行提取,通過實驗表明BiGRU相比于BiLSTM在信息提取方面更加有效;文獻[16]提出一種分層和橫向結(jié)構(gòu)相結(jié)合的門控循環(huán)單元,將其結(jié)構(gòu)中的慢速單元和快速單元組合,用以解決長文本分類問題;文獻[17]基于雙向門控循環(huán)單元構(gòu)建了一個4層的自動編碼器網(wǎng)絡(luò),用于情感分析任務(wù).
Kim[18]在2014年提出了TextCNN模型,該模型采用卷積操作對文本局部特征進行提取,取得了不錯的效果.不少研究將CNN與RNN相結(jié)合,通過將全局依賴信息與局部相關(guān)信息融合的方式,將兩種模型的優(yōu)勢共同發(fā)揮出來,提升分類性能.Li等人[19]將BiLSTM與CNN相結(jié)合,采用一種綜合性表達法表示語義,并用于新聞文本分類;Zhou等人[20]首先采用不同卷積核處理文本向量,之后的組合處理后的向量,對照原始文本的順序輸入LSTM中得到結(jié)果;王凱麗等人[21]提出了一種結(jié)合多通道卷積與雙向門控循環(huán)單元的多特征融合方法用以處理新聞推薦任務(wù).
Attention源于對大腦處理信息過程的研究,人腦從大量接收到的信息中重點關(guān)注一部分較為重要的信息,同時弱化其他信息的重要程度,這便是Attention[22].從本質(zhì)上講,Attention機制實現(xiàn)了信息資源的高效分配.Attention機制能夠進一步增強模型捕獲遠程依賴信息的能力,在減少層次深度的同時提升模型精度[23].Liu等人[24]提出了一個層次化的注意網(wǎng)絡(luò),通過兩層Attention捕獲到重要的、全面的以及多粒度的語義信息;Rina等人[25]通過將Attention機制與CNN、RNN以及LSTM組合進不同的子模塊,構(gòu)建出多模態(tài)的假新聞檢測框架,實現(xiàn)多模態(tài)信息共享表示;文獻[26]在卷積神經(jīng)網(wǎng)絡(luò)的卷積層前后嵌入Attention機制,將高、低維特征重新分配權(quán)值,以此優(yōu)化特征提取過程,提升分類性能;文獻[27]對Attention在自然語言處理任務(wù)訓(xùn)練時的變化進行了可視化,描述了最深層的基于分類的Attention以及各層Attention如何在輸入單詞中流動.
本文結(jié)合位置編碼、雙向門控循環(huán)單元、卷積神經(jīng)網(wǎng)絡(luò)以及Attention機制,提出一種用于識別詐騙電話文本的模型PEAGCNN,首先構(gòu)建詐騙電話文本的數(shù)據(jù)集,Word2Vec詞向量用于表示詐騙電話文本,不同頻率的正弦、余弦函數(shù)將文本中各個字詞的位置進行編碼并融入詞嵌入向量,分別利用BiGRU和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本前后文的關(guān)系、句子的序列結(jié)構(gòu)以及句子中詞語之間的局部相關(guān)性從而理解句子的語義;Attention機制對上層網(wǎng)絡(luò)學(xué)習(xí)提取出的信息重新分配權(quán)重,突出關(guān)鍵信息的作用,最后將兩種信息融合,將含有詐騙語義的特征信息多層次的表示出來,從而提升模型的分類性能.
電話文本的詐騙語義較于一般的語義信息相對難以分辨,故而需要多層次的語義特征挖掘.模型PEAGCNN整體結(jié)構(gòu)如圖1所示.模型主要分為4個部分,即詞嵌入層、特征提取層、注意力層和分類層.
圖1 PEAGCNN整體結(jié)構(gòu)圖Fig.1 Overall structure diagram of PEAGCNN
模型PEAGCNN在詞嵌入向量中加入位置編碼信息生成新的詞嵌入向量,采用Word2vec作為詞嵌入向量.文本中包含m個字詞的語句可以表示為x=[x1,x2,…,xm],經(jīng)過詞嵌入層后,字詞序列將被轉(zhuǎn)化為詞向量,即w=[w1,w2,…,wm],wi∈Rd,表示第i個詞的維度為d的向量,w∈Rn×d為句子的輸入詞向量表示.
一個相同的字詞在一句話中所處的位置不一樣,表達的整句話的意思就會大不一樣,如“我欠了他500元”與“他欠了我500元”,在這句話中我們可以看出,字詞的所處位置對句子語義的表達是極為重要的.為了捕獲到文本的位置信息,模型加入了位置信息編碼.
對于位置信息的編碼,模型中采用sin函數(shù)和cos函數(shù)來計算,其計算公式如式(1)、式(2)所示:
(1)
(2)
在式(1)、式(2)中,pe表示字詞在句子中所處的位置,如“我欠了他500元”,“我”的pe此時為0,“欠”的pe為1,“了”的pe為2,其余字詞都以這種方式表示;e表示位置參數(shù),處于句子中的偶數(shù)位置用式(1)計算,處于句子中的奇數(shù)位置用式(2)計算,dmodel表示位置向量的維數(shù).每個維度位置上的編碼表示都有一個正弦波或者余弦波與之對應(yīng),波長有規(guī)律的周期性變化,以此記錄位置信息,波長從2π~10000·2π,通過正弦和余弦函數(shù)便可以得到位置向量的編碼,以此讓模型學(xué)習(xí)到相對位置信息.最終形成的詞嵌入向量如式(3)所示:
T=w⊕p
(3)
⊕表示按位加,p=[p1,p2,…,pm]為文本位置編碼后的向量,T=[T1,T2,…,Tm]表示加入位置編碼后的詞嵌入向量.
模型的輸入一般是由語料產(chǎn)生的詞庫組成,這樣的形式僅僅是淺層的表示,并不能將文本深層次的隱含關(guān)系表示出來,面對詐騙語句難以分辨的語義,特征提取層主要采用神經(jīng)網(wǎng)絡(luò)對文本的輸入詞嵌入向量多層次處理,提取出深層次的文本信息,雙向門控循環(huán)單元用以挖掘文本的上下文相關(guān)性以及文本序列特征,卷積神經(jīng)網(wǎng)絡(luò)用以提取文本的局部相關(guān)特征,即詐騙語句中不同長度的短語特征.
GRU采用更新門與重置門兩個門結(jié)構(gòu),相較于LSTM的結(jié)構(gòu)更加簡單,以此提升了訓(xùn)練速度,圖2為其單元結(jié)構(gòu).
圖2 GRU單元結(jié)構(gòu)Fig.2 Structure of GRU unit
式(4)~式(7)為GRU的相關(guān)計算公式:
Ri=σ(TiWir+Hi-1Whr+br)
(4)
Zi=σ(TiWiz+Hi-1Whz+bz)
(5)
(6)
(7)
如圖2中的GRU單元結(jié)構(gòu),本文將該單元最后時刻的前向隱藏層輸出與后向隱藏層輸出連接,提取出前后兩個方向的傳遞信息,從而獲取上下文相關(guān)性以及文本序列信息.式(8)為雙向門控循環(huán)單元的輸出表示.
(8)
詐騙文本中短語所包含的信息對文本的語義同樣重要,如“在我們網(wǎng)站上修改密碼”,倘若拆開來看,單個詞向量并不能表示整句語義,而對詞向量進行卷積可以得到短語向量,利用多種類型的卷積核,便會得到多種長度不一的短語級特征向量,融合這些短語的特征向量之后會得到相比于單詞更加豐富的文本信息,卷積神經(jīng)網(wǎng)絡(luò)利用不同大小的卷積核對輸出向量進行卷積操作,從而提取出詞語間的相關(guān)性,其卷積過程如圖3所示.
圖3 卷積過程Fig.3 Convolution process
采用卷積核K來對輸入向量T∈Rd×m卷積如公式(9)所示,K∈Kd×h,h表示為卷積核的寬度,d為輸入向量的維數(shù).
gi=tanh(
(9)
其中,<·>為卷積計算,gi為所得卷積特征,i∈{1,2,…,m-h+1}.
卷積之后,進行池化運算,采用公式(10).
(10)
其中yi∈R.
s個不同的卷積核,K1∈Kd×h1,K2∈Kd×h2,…,Ks∈Kd×hs,經(jīng)過卷積操作后得到s個不同的輸出y1,y2,…,ys.連接這些輸出得到不同尺度的融合特征Y=[y1,y2,…,ys],Y∈RS.
Attention機制可以將提取出的信息重新分配權(quán)重,突出關(guān)鍵信息的作用.Attention機制源于人類大腦信號特有的處理機制,人類通過這種機制能夠高效地分配有限的注意力資源以關(guān)注重要的信息,文本分類中的Attention機制也采用了這樣的思想,主要的作用是為了突出當(dāng)前任務(wù)目標(biāo)的關(guān)鍵信息.
Attention機制如圖4所示.多個鍵值對
圖4 Attention機制Fig.4 Attention mechanism
(11)
(12)
其中,Query和各個Key的相似性計算采用余弦相似度,如式(11)所示.
在訓(xùn)練過程中雙向門控循環(huán)單元每個時刻的隱藏層輸出以及卷積神經(jīng)網(wǎng)絡(luò)的池化輸出被Attention機制動態(tài)的調(diào)整權(quán)重,計算提取信息的權(quán)重系數(shù),對于關(guān)鍵信息分配較大權(quán)重,從而突出其作用.計算過程如下所示.
Mt=tanh(Hi)
(13)
(14)
(15)
其中,Hi表示雙向門控循環(huán)單元各時刻隱藏層的輸出,為訓(xùn)練所得權(quán)重矩陣的轉(zhuǎn)置,αt表示注意力權(quán)重系數(shù),St為Attention機制作用后的輸出.
Mtc=tanh(yi)
(16)
(17)
(18)
為了融合上述網(wǎng)絡(luò)層輸出的多種深層信息,將來自注意力層的輸出向量進行拼接處理,如式(19)所示:
(19)
(20)
其中WT為訓(xùn)練參數(shù)矩陣,bo為偏置參數(shù),此時形成融合多種文本信息并經(jīng)Attention機制加權(quán)后的輸出向量O,同時降低了向量的維度,減少了模型的參數(shù),最后通過softmax函數(shù)實現(xiàn)分類.
實驗基于Windows10 64位操作系統(tǒng),CPU為Intel(R)Core(TM)i7-10700H CPU @2.90GHz,內(nèi)存容量為16GB,GPU為NVIDIA GeForce RTX 2060,顯存容量為6GB,Python版本為3.7.9,基于Pytorch深度學(xué)習(xí)框架.
本文在兩個數(shù)據(jù)集上進行了實驗,用以驗證PEAGCNN模型的效果.
THUCNews數(shù)據(jù)集:公開數(shù)據(jù)集THUCNews,共 10 個類別的新聞標(biāo)題,共20萬條數(shù)據(jù),每個類別數(shù)據(jù)1萬條,其中訓(xùn)練集18萬條,驗證集1萬條,測試集1萬條.
詐騙電話文本數(shù)據(jù)集:從百度、知乎、微博、搜狐等各大網(wǎng)站獲取數(shù)據(jù),同時人工編寫修改部分詐騙文本數(shù)據(jù)集,內(nèi)容包括金融、教育、郵遞、銀行、交友、刷單、中彩票、冒充警察等多類詐騙事件,幾乎涵蓋了所有的詐騙類型.數(shù)據(jù)共10200條,數(shù)據(jù)分為詐騙和正常兩種類別,詐騙類數(shù)據(jù)5101條,正常類數(shù)據(jù)5099條,其中訓(xùn)練集6000條,驗證集3000條,測試集1200條.詐騙電話文本數(shù)據(jù)集統(tǒng)計如表1所示.
表1 詐騙電話文本數(shù)據(jù)集統(tǒng)計Table 1 Fraudulent phone text data set statistics
本文采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1-Score來對模型進行評價.
經(jīng)過大量實驗確定了超參數(shù),實驗設(shè)置的超參數(shù)如表2所示.
表2 實驗超參數(shù)Table 2 Experimental hyperparameters
在設(shè)置上述超參數(shù)之后,在兩個數(shù)據(jù)集上進行了實驗,實驗在訓(xùn)練集和驗證集上擬合數(shù)據(jù),在測試集上評估模型的性能.詐騙電話文本數(shù)據(jù)上模型PEAGCNN分類結(jié)果的混淆矩陣如圖5所示,圖中表示了模型PEAGCNN對各類數(shù)據(jù)的分類具體情況.
圖5 模型PEAGCNN混淆矩陣圖(詐騙電話文本數(shù)據(jù)集)Fig.5 Confusion matrix chart of model PEAGCNN (fraudulent phone text data set)
從圖6、圖7中可以看出,模型在兩個數(shù)據(jù)集的測試集上均取得不錯的實驗結(jié)果.在詐騙電話文本測試集的分類結(jié)果中,精確率、召回率以及F1值都在0.90以上,這說明模型對詐騙電話文本的分類性能出色.在THUCNews數(shù)據(jù)集上股票、科技以及時政的召回率和F1值都在0.82~0.90之間,其余幾類數(shù)據(jù)的精確率、召回率以及F1值則都在0.90以上,分析數(shù)據(jù)的內(nèi)容,科技和時政的內(nèi)容較為抽象且描述并不直接,股票則與其他類別的聯(lián)系密切,如與財經(jīng)、房產(chǎn)有部分內(nèi)容極為相似,容易產(chǎn)生分類錯誤,因此這幾類的評價指標(biāo)較低.
圖6 詐騙電話文本數(shù)據(jù)集實驗結(jié)果Fig.6 Classification result on fraudulent phone text data set
圖7 THUCNews數(shù)據(jù)集實驗結(jié)果Fig.7 Classification result on THUCNews data set
為探究位置編碼信息對實驗結(jié)果的影響,進行了去除位置編碼信息的實驗,以準(zhǔn)確率作為評價指標(biāo)進行比較,結(jié)果如表3所示.詐騙電話文本訓(xùn)練過程中驗證集上有無位置編碼準(zhǔn)確率曲線如圖8所示,圖中Position Embedding代表加入位置編碼信息的準(zhǔn)確率曲線,Non Position Embedding代表不加入位置編碼信息的準(zhǔn)確率曲線,橫軸代表迭代次數(shù),縱軸代表準(zhǔn)確率的值,從圖8中可以看出加入位置編碼信息模型準(zhǔn)確率的提升較為緩慢,模型需要更多次數(shù)的迭代學(xué)習(xí)位置信息,但在最終訓(xùn)練完成之后模型較無位置編碼的模型準(zhǔn)確率高.
表3 位置編碼嵌入準(zhǔn)確率Table 3 Accuracy of position embedding
圖8 準(zhǔn)確率曲線對比圖(詐騙電話文本數(shù)據(jù)集)Fig.8 Comparison diagram of accuracy curve (fraudulent phone text data set)
從位置編碼準(zhǔn)確率在兩個數(shù)據(jù)集上的對比實驗結(jié)果中可以看出,位置編碼信息的嵌入能夠提升文本分類準(zhǔn)確率,文本中每一句話的字詞經(jīng)過位置編碼都有一個正弦、余弦波長與之對應(yīng)并形成位置向量,波長周期性的變化記錄了不同的位置信息,將這些信息加入到文本的表示當(dāng)中,使得文本表示更加豐富,通過訓(xùn)練,模型學(xué)到這些相對位置信息,從而提升了分類準(zhǔn)確率.
本文采用幾種經(jīng)典的深度學(xué)習(xí)模型進行了試驗,以下是對這些模型的介紹.
BiGRU[15]:將神經(jīng)網(wǎng)絡(luò)的最后時刻的前向隱藏層輸出與后向隱藏層輸出拼接,全連接層輸出分類結(jié)果.該文獻中的實驗表明BiGRU相比于BiLSTM在信息提取方面更加有效.
CNN[18]:一種多通道的TextCNN模型,由Kim提出,卷積核大小選擇(2,3,4,5),用以提取不同尺度的文本局部特征,將各卷積核提取之后的特征向量經(jīng)過池化處理進行向量拼接,通過全連接層和Softmax層輸出結(jié)果.
BiLSTM[28]:將雙向長短時記憶網(wǎng)絡(luò)的前向隱藏層輸出和后向隱藏層輸出拼接,通過全連接層和Softmax層輸出結(jié)果.
BiLSTM-ATT[29]:采用與BiLSTM相同的結(jié)構(gòu),引入注意力機制突出關(guān)鍵信息,通過全連接層和Softmax層輸出結(jié)果.
BiGRU-ATT[30]:采用與BiGRU相同的結(jié)構(gòu),之后通過注意力計算突出關(guān)鍵信息,通過全連接層和Softmax層輸出結(jié)果.
RCNN[31]:雙向長短時記憶網(wǎng)絡(luò)的前向隱藏層輸出和后向隱藏層輸出拼接向量,之后經(jīng)過最大池化層,再經(jīng)全連接層和Softmax層輸出結(jié)果.
PEAGCNN:本文提出的雙向門控循環(huán)單元與多尺度卷積融合并引入位置信息和Attention機制的神經(jīng)網(wǎng)絡(luò)模型.
各模型分類準(zhǔn)確率和F1值如表4、表5所示.
表4 不同模型在兩個數(shù)據(jù)集上的準(zhǔn)確率Table 4 Accuracy of different models on two data sets
表5 不同模型在兩個數(shù)據(jù)集上的F1值Table 5 F1-Score of different models on two data sets
從表4和表5可以看出本文提出的模型PEAGCNN在準(zhǔn)確率和F1值上均取得了高于0.90的結(jié)果.在詐騙電話文本數(shù)據(jù)集上模型PEAGCNN的準(zhǔn)確率為0.9258,F1值為0.9258,在THUCNews數(shù)據(jù)集上模型PEAGCNN的準(zhǔn)確率為0.9110,F1值為0.9107,均高于其他對比模型.
CNN通過不同大小的卷積核提取文本的局部相關(guān)特征,BiLSTM則提取文本的上下文相關(guān)性以及文本序列信息,這兩種模型單獨使用在文本分類的結(jié)果上較為接近.在詐騙電話文本數(shù)據(jù)集的實驗結(jié)果中,BiLSTM的準(zhǔn)確率和F1值比CNN分別高出0.0033和0.0034,而在THUCNews數(shù)據(jù)集的實驗結(jié)果中,CNN的準(zhǔn)確率和F1值比BiLSTM分別高出0.0128和0.0127.這是因為THUCNews是一個短文本標(biāo)題數(shù)據(jù)集,而詐騙電話文本數(shù)據(jù)則相對較長,因而在兩個數(shù)據(jù)集上模型的分類性能不同.
RCNN利用BiLSTM提取文本的特征并經(jīng)過最大池化層輸出文本的最終特征向量,在THUCNews數(shù)據(jù)集的實驗結(jié)果中較BiLSTM分類性能有提升,而在詐騙電話文本數(shù)據(jù)集的結(jié)果中,RCNN的準(zhǔn)確率和F1值均低于BiLSTM,表明該模型并沒有提升分類性能,在處理詐騙電話文本的分類任務(wù)時,BiLSTM性能更高.
BiLSTM與BiGRU在兩個數(shù)據(jù)集上的實驗結(jié)果極為接近,在詐騙電話文本數(shù)據(jù)集的實驗結(jié)果中,BiGRU的準(zhǔn)確率和F1值比BiLSTM分別高出0.0033和0.0036,在THUCNews數(shù)據(jù)集的實驗結(jié)果中,BiGRU的準(zhǔn)確率和F1值比BiLSTM分別高出0.0080和0076.BiLSTM通過遺忘門、輸入門和輸出門3個門結(jié)構(gòu)提取文本上下文相關(guān)性以及文本序列信息;BiGRU的結(jié)構(gòu)則更為簡單,只采用更新門和重置門兩個門結(jié)構(gòu)提取特征,這使得BiGRU能夠節(jié)省訓(xùn)練的時間,從數(shù)據(jù)可以看出,BiGRU的分類性能略高于BiLSTM.
兩個數(shù)據(jù)集上的實驗結(jié)果中,BiLSTM-ATT的準(zhǔn)確率和F1值均高于BiLSTM,BiGRU-ATT的準(zhǔn)確率和F1值也都高于BiGRU.其中在詐騙數(shù)據(jù)集的實驗結(jié)果中,BiLSTM-ATT的準(zhǔn)確率和F1值比BiLSTM分別高出0.0108和0.0111,BiGRU-ATT的準(zhǔn)確率和F1值比BiGRU分別高出0.0034和0.0033.這體現(xiàn)出了Attention機制的作用,Attention機制在訓(xùn)練過程中對向量序列包含的信息進行加權(quán),將關(guān)鍵信息賦予較大權(quán)重,突出其作用,從而提升了分類的效果.
從實驗數(shù)據(jù)可以看出,本文提出的模型PEAGCNN在準(zhǔn)確率和F1值上均是最高的,與對比模型中的BiGRU-ATT相比,在詐騙電話文本數(shù)據(jù)集的實驗結(jié)果中,PEAGCNN的準(zhǔn)確率和F1值分別比其高出0.0166和0.0170,在THUCNews數(shù)據(jù)集的實驗結(jié)果中,PEAGCNN的準(zhǔn)確率和F1值分別比其高出0.0134和0.0135,有效的提升了分類的性能.模型PEAGCNN在詐騙電話文本的訓(xùn)練過程中,電話文本在詞嵌入向量表示之后,首先融入了位置編碼信息,此時文本有了空間上的信息,這使得詐騙電話文本的特征增加了一個層次的表示,再分別經(jīng)過CNN和BiGRU神經(jīng)網(wǎng)絡(luò)進行特征提取,CNN提取出文本的局部相關(guān)性特征,捕獲詐騙語句中的短語信息,BiGRU則提取出上下文相關(guān)性特征以及文本的時序特征,分別經(jīng)過Attention機制的作用,將關(guān)鍵特征信息加權(quán)突出,之后將這兩部分的特征進行拼接處理,文本在經(jīng)過模型PEAGCNN的特征提取之后,最終輸出富含詐騙電話文本信息以及加權(quán)關(guān)鍵信息的特征向量,因此本文提出的模型較其他幾種對比模型能夠具有最高的分類性能.這也體現(xiàn)出在處理詐騙電話文本分類任務(wù)上,模型PEAGCNN的有效性.
本文通過文本分類的方法對電話文本進行分類從而識別詐騙電話,提出了雙向門控循環(huán)單元與多尺度卷積融合并引入位置信息和Attention機制的神經(jīng)網(wǎng)絡(luò)模型,首先構(gòu)建詐騙電話文本數(shù)據(jù)集,數(shù)據(jù)從各大互聯(lián)網(wǎng)網(wǎng)站獲取以及人工編寫修改部分詐騙數(shù)據(jù),本文提出的模型在詐騙電話文本數(shù)據(jù)集上性能較好,評價指標(biāo)均高于其他對比模型,在公開的數(shù)據(jù)集上也驗證了本文提出模型的優(yōu)越性.詐騙案件一直在社會中發(fā)生,其詐騙手段一直多變,今后將持續(xù)關(guān)注社會中的詐騙案件,更新數(shù)據(jù)內(nèi)容,近年來預(yù)訓(xùn)練模型在處理自然語言的任務(wù)中有著出色的表現(xiàn),今后將嘗試中文預(yù)訓(xùn)練模型在詐騙電話文本分類任務(wù)上的應(yīng)用.