• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合自注意力機制的詐騙電話分類模型*

    2022-11-10 06:40:10姜彤彤許鴻奎周俊杰張子楓盧江坤胡文燁
    計算機時代 2022年11期
    關鍵詞:詐騙注意力卷積

    姜彤彤,許鴻奎,2,周俊杰,張子楓,盧江坤,胡文燁

    (1.山東建筑大學信息與電氣工程學院,山東 濟南 250000;2.山東省智能建筑重點實驗室)

    0 引言

    隨著科學技術的發(fā)展,我國通信行業(yè)迅速崛起。在智能設備使用規(guī)模和網(wǎng)民數(shù)量不斷增加的同時,電信網(wǎng)絡詐騙犯罪也在不斷升級,給國家和人民帶來了巨大損失,更是在社會上造成極其惡劣的影響,盡管近幾年國家對電信詐騙的治理力度不斷加大,但個別地區(qū)形勢依舊嚴峻。

    電話詐騙是指以電話為載體,犯罪分子通過冒充淘寶客服、冒充熟人、冒充公檢法等手段對受害人實施詐騙的一類犯罪行為,具有詐騙套路多、詐騙金額大、詐騙成功率高的特點。盡管各種治理手段不斷地更新、迭代,但當今社會,個人信息保護意識薄弱,姓名、銀行卡、手機號碼等個人隱私信息的泄露嚴重,人們往往防不勝防,尤其在老年人群體中,電話詐騙仍占有很高的比重,因此,不斷完善對電話詐騙的治理方案、加大打擊力度刻不容緩。

    傳統(tǒng)的電話詐騙治理方式主要是基于信令數(shù)據(jù),通過對主叫號碼的結構進行分析,以及結合投訴數(shù)據(jù),建立黑白名單庫進行實時分析,實現(xiàn)對詐騙號碼的攔截處理,但此種方式只能實現(xiàn)對有一定規(guī)律性的號碼進行攔截,犯罪分子通過頻繁更換號碼或使用改號軟件模擬真實號碼等手段可輕松繞開這種反詐騙手段,可見傳統(tǒng)的攔截方式無法實現(xiàn)精準、實時攔截,已無法適應當前的嚴峻形勢。

    機器學習的迅速發(fā)展,為電話詐騙的治理打開了新思路。文獻[1]針對傳統(tǒng)的騷擾電話識別誤報問題,提出一種基于用戶呼叫行為的識別算法,并引入隨機森林,識別精度有較大的提升。文獻[2]提出基于大數(shù)據(jù)的詐騙電話分析技術,通過建立分析模型,對海量呼叫信令進行分析,實現(xiàn)了通話結束后3~5min內輸出疑似受害用戶號碼,通過及時回訪達到事前預防的目的。文獻[3]通過提取詐騙電話特征、分析通信行為探索結果等建立基于隨機森林的詐騙電話普適模型,對詐騙電話號碼進行了有效識別。文獻[4]等通過對用戶通話行為、上網(wǎng)行為、用戶基本屬性、手機終端信息等進行綜合分析,建立基于機器學習的詐騙電話識別模型,有效提高了詐騙電話的識別率。

    機器學習的相關技術和工具在詐騙電話治理上的應用,使得反詐騙手段有了較大的提升,而神經網(wǎng)絡算法較傳統(tǒng)的機器學習算法,具有算法更強大、準確率更高的優(yōu)勢,因此,提出了一種基于自然語言處理技術(Natural Language Processing,NLP)的詐騙電話識別模型,首先將電話語音轉成文本,本文的研究是對語音識別后的文字進行處理,利用文本分類技術對文本進行預處理、特征提取、分類等操作,達到識別詐騙電話的目的,為詐騙電話的治理提供了一種新的技術選擇。

    1 相關工作

    自然語言處理技術是近幾年的研究熱點,已廣泛應用于情感分析、垃圾郵件檢測、詞性標注、智能翻譯等領域?;ヂ?lián)網(wǎng)的迅速崛起,也伴隨產生了大量的數(shù)據(jù)信息,包括文字、圖片、聲音等,其中,文本資源占據(jù)了一大部分,我們獲取的信息有很大一部分都來自于文本,文本分類的目標是自動對文本進行分門別類,幫助人們從海量的文本中挖掘出有用的信息。文本分類的研究大致分為三類:基于規(guī)則、基于機器學習和基于深度學習的方法。基于規(guī)則的方法是通過人工定義的規(guī)則對文本進行分類,但這種方法依賴于專家的領域知識,須耗費大量的人力物力,且編寫的規(guī)則只適用一個領域,遷移性差;基于機器學習的方法以支持向量機、樸素貝葉斯、決策樹等為代表,較基于規(guī)則的方法,機器學習的方法有了很大的進步,但是由于文本表示巨大的數(shù)據(jù)量,對機器學習算法的運行效率提出了新的挑戰(zhàn);深度學習的快速發(fā)展,為學者在文本領域的研究打開了新的大門,文獻[5]首次提出將卷積神經網(wǎng)絡應用于文本分類。文獻[6]提出一種基于多通道卷積神經網(wǎng)絡的分類模型來提取微博情感分析任務中特有的情感信息。文獻[7]將卷積神經網(wǎng)絡用于Twitter的極性判斷任務。

    注意力機制源于人類大腦的視覺信號處理機制,本質是對信息資源的高效分配,被廣泛應用在圖像處理、自然語言處理等領域,谷歌在2017 年提出了Transformer 模型[8],將注意力機制的優(yōu)勢發(fā)揮到了極致,同時具有并行計算和抽取長距離特征的能力。Transformer 僅由自注意力機制和前饋連接層疊加組成,具有良好的特征抽取能力。很多學者將自注意力機制用于不同的研究領域,并且取得了不錯的效果,文獻[9]將其用于解決長文本的相似度計算問題,提高了對深層次的語義信息抽取能力,文獻[10]將其用于推薦系統(tǒng)來提取不同子空間的特征信息。受此啟發(fā),本文將自注意力機制與卷積神經網(wǎng)絡結合,用于詐騙電話的識別任務,CNN 具有捕捉文本的局部語義特征和并行計算的優(yōu)勢,利用自注意力機制對CNN輸出的淺層特征進一步提取其序列的內部依賴關系,提高模型的表征能力,分類效果更好。

    2 系統(tǒng)模型

    2.1 模型總體架構

    本文構建了一種基于融合自注意力機制和CNN的詐騙電話識別模型CNN-SA,結構如圖1所示,由詞嵌入層、卷積層、自注意力層和分類層組成。

    圖1 CNN-SA結構圖

    2.2 詞嵌入層

    電話文本輸入分類模型之前,首先需要進行文本預處理,獲取文本的詞向量表示。目前常用的主流方法是以Word2Vec[11]和GloVe[12]為代表的詞語的分布式表示,這種方法可以表示出詞與詞之間的相似性關系,且向量維度低,避免了維度爆炸問題。本文的詞嵌入層選擇的是基于Word2Vec 的預訓練詞向量表示,向量維度為300 維,該模型按訓練方式分為Skip-Gram和CBOW 兩種,Skip-Gram是由當前詞來預測上下文詞,而CBOW 正相反,是由上下文詞來預測當前詞,其結構分別如圖2和圖3所示。

    圖2 Skip-gram

    圖3 CBOW

    2.3 卷積層

    TextCNN 的原理是將卷積神經網(wǎng)絡應用到文本分類任務中,通過設置不同大小的卷積核可以更好地捕捉句子的局部特征。TextCNN 的網(wǎng)絡結構如圖4所示,包括卷積層、池化層和全連接層。卷積層的輸入是用Word2Vec 或者GloVe 方法預訓練好的詞向量組成的嵌入層;在卷積層中,卷積核的寬度與詞向量的維度一致,高度可以自行設置為2、3、4等,實現(xiàn)對不同局部大小的特征進行提取。

    圖4 TextCNN結構圖

    卷積操作的過程可以表述為:

    其中,X為輸入詞向量,W為權重向量,b為偏移量,?表示卷積運算,f(·)為激活函數(shù)。

    在池化層中,為減少重要信息丟失,放棄最常用的最大池化操作,選擇平均池化,可以更加突出整體信息,通過池化運算對卷積層輸出進行下采樣,一方面達到特征降維的作用,另一方面也極大減小了參數(shù)量,可以防止過擬合。經過池化層后,每個卷積核得到一個值,最后將這些值拼接起來通過全連接層輸入softmax層進行分類。

    2.4 自注意力層

    注意力機制的提出,大大提高了人類對信息處理的效率和利用率,自注意力機制是注意力機制的一種特殊形式,較注意力機制,它更擅長捕捉特征的內部相關性,減少了對外部信息的依賴,其原理是通過縮放點積注意力(Scaled Dot-Product Attention,SDA)和通過向量點積進行相似度計算得到注意力值來實現(xiàn)的。SDA 的結構如圖5 所示,首先Q、K 通過點積運算,進行相似性計算,然后使用softmax 函數(shù)進行歸一化計算,最后結果乘以V,得到輸出,計算過程表示為:

    圖5 SDA結構圖

    其中,Q、K、V分別為查詢矩陣、鍵矩陣、值矩陣,為調節(jié)因子,使得Q、K的內積不至于過大。

    3 實驗

    3.1 數(shù)據(jù)集

    本文采用的數(shù)據(jù)集為自己構建的電話文本數(shù)據(jù)集,包含詐騙文本和非詐騙文本各約5000 條,是從微博、知乎、百度等網(wǎng)站抓取整理的,其中詐騙文本包含近幾年頻繁出現(xiàn)的網(wǎng)絡貸款、網(wǎng)絡刷單、冒充客服退款、虛假購物、注銷“校園貸”、買賣游戲幣等各類電話詐騙類型。本文實驗的訓練集、驗證集和測試集大小分別劃分為6000、3000和1200。

    3.2 實驗環(huán)境及實驗參數(shù)設置

    實驗的硬件環(huán)境為:操作系統(tǒng)為Windows 10,GPU 為NVIDIA GTX1650,CPU 為i5-10300H;軟件環(huán)境為:Python 3.7,學習框架Pytorch 1.5。

    在電話文本數(shù)據(jù)集上,采用Word2vec詞嵌入方法訓練詞向量,詞向量的維度設置為300維。CNN-SA的參數(shù)設置為:卷積核的大小為(2,3,4),數(shù)量為256,步長為1,卷積層后采用relu 激活函數(shù),池化層采用平均池化。經過反復實驗,提出模型的最優(yōu)學習率為0.0001,batch為128,epochs為30,dropout的比率為0.5。

    3.3 實驗結果

    為驗證本文提出CNN-SA 的有效性,將電話文本數(shù)據(jù)集分別在以下幾種模型上進行對比實驗分析。

    ⑴ TextCNN:單一TextCNN 模型提取序列局部特征,參數(shù)設置與CNN-SA中TextCNN模型相同。

    ⑵ BiLSTM 與BiGRU:單一雙向LSTM 與雙向GRU結構,參數(shù)設置兩者相同。

    ⑶ BiLSTM-attention 與BiGRU-attention:在雙向LSTM 和雙向GRU 結構后,引入傳統(tǒng)的attention 機制,提取關鍵特征。

    ⑷CNN-SA:本文提出的一種的融合自注意力機制和CNN的混合分類模型。

    實驗采用的評價指標為準確率Accuracy、精確率Precision、召回率Recall和F1值,在電話文本上的實驗結果如表1所示。

    表1 實驗結果

    3.4 結果分析

    從表1 可以看出,提出模型CNN-SA 的各項衡量指標均明顯優(yōu)于單一TextCNN、BiLSTM 和BiGRU 模型以及BiLSTM-attention 和BiGRU-attention 模型,這表明融合模型CNN-SA 提取的特征信息更充分,因而分類效果最好。

    在準確率方面,BiGRU模型的性能要優(yōu)于BiLSTM模型,有0.42%的提升;BiLSTM-attention較單一BiLSTM模型提高了0.58%,BiGRU-attention 較單一BiGRU模型提高了0.33%,這表明,引入attention 機制可以使模型更好地提取關鍵信息,從而提升分類性能;而所提模型CNN-SA 比單一TextCNN 模型提高了1.75%,這是因為引入自注意力機制,可以使模型更好地關注序列的內部依賴關系,彌補了TextCNN 模型只關注局部信息的不足。

    4 結束語

    本文針對目前電信詐騙中案發(fā)率比較高的電話詐騙問題,提出了一種基于NLP 的識別方案,建立融合自注意力機制和卷積神經網(wǎng)絡的詐騙電話識別模型CNN-SA。首先利用詞嵌入模型Word2vec 獲取預處理后的文本的詞向量,并將其輸入TextCNN 模型,捕捉文本的局部特征信息,再利用自注意力機制進一步提取電話文本序列內部的依賴關系,最后將其輸入softmax層進行分類。

    猜你喜歡
    詐騙注意力卷積
    讓注意力“飛”回來
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    合同詐騙
    電信詐騙
    A Beautiful Way Of Looking At Things
    擦亮雙眼,謹防招生詐騙
    詐騙
    小說月刊(2014年10期)2014-04-23 08:54:20
    利津县| 禹城市| 永寿县| 酒泉市| 察隅县| 新竹市| 芮城县| 辽阳县| 巨野县| 五华县| 比如县| 屏东市| 湘西| 黄陵县| 绥阳县| 内江市| 驻马店市| 乌拉特后旗| 肇东市| 额尔古纳市| 吉水县| 开原市| 黔西| 新津县| 界首市| 巨鹿县| 丘北县| 闽侯县| 教育| 清远市| 南通市| 平乡县| 桃源县| 翼城县| 三穗县| 开原市| 文山县| 靖宇县| 镇赉县| 营口市| 乡宁县|