胡娟 蔣雷
關(guān)鍵詞:網(wǎng)頁指紋識別;TextRank;Single-pass;BERT;TextCNN;FastText
0引言
隨著電信互聯(lián)網(wǎng)的迅猛發(fā)展,電信網(wǎng)絡(luò)詐騙案件高發(fā),手段多樣,對社會安全構(gòu)成嚴重威脅。特別是在校大學生,由于安全意識薄弱,成為詐騙的高發(fā)群體,導致重大的人身及財產(chǎn)損失,給學校安全管理帶來挑戰(zhàn)。針對校園詐騙問題,雖然高校和相關(guān)部門努力應(yīng)對,但是缺乏有效的預防和應(yīng)對措施,安全教育不足,實時風險預警和疏導支撐體系亟須加強。
2021年10月,廣州市反詐中心公布一則警情通報:本市學生被騙警情以4類詐騙手法為主[1](占比84%):冒充客服(占比接近30%)、購物交易(約25%)、刷單兼職(約17%)、冒充熟人(約12%),如圖1所示。學生被騙單案金額萬元以上的警情占25%,被騙金額千元以上的警情占55%,其中單案最大被騙金額為60余萬元。學生被騙警情中未成年人約占14%,19~23歲年齡段占比66%,新生占比約20%。2021年12月,廣州公安發(fā)布一則警情通報:近期,全市電信網(wǎng)絡(luò)詐騙警情有所下降,但在校學生群體的警情占比略有提升[2]。為了滿足學校和公安部門的反詐需求,保護在校師生的財產(chǎn)安全,本著預防勝于治療的理念,高校反電信網(wǎng)絡(luò)詐騙模型研究項目應(yīng)運而生。
2電信網(wǎng)絡(luò)詐騙網(wǎng)站的特征
2.1冒充客服類詐騙網(wǎng)站特征
上文圖1顯示約30%的學生遭受了假冒平臺客服的詐騙影響。詐騙者技巧多變,常常模仿正規(guī)身份。詐騙團伙靈活運用當前社會熱點,不斷刷新欺詐策略,加大了識別難度。假冒平臺客服詐騙主要具有3種典型特征:1)通過假冒官方客服發(fā)送虛假網(wǎng)址,誘使受害者泄漏個人信息以盜取資金。2)構(gòu)建假的充值平臺,通過冒充客服的形式誤導受害者輸入敏感信息,從而盜竊資金。3)發(fā)送帶有假網(wǎng)站鏈接的釣魚郵件,冒充客服指導受害者登錄,以竊取財產(chǎn)。這類仿冒網(wǎng)站設(shè)計高度還原官網(wǎng),通過混入真實元素來混淆視聽,提高了識別的難度,并且這些網(wǎng)站可迅速更換圖片,以適應(yīng)新的時事,使得追蹤和識別變得異常復雜。
2.2虛假購物交易類詐騙網(wǎng)站特征
上文圖1數(shù)據(jù)顯示約25%的學生遭受了虛假購物交易詐騙的侵害。隨著線上購物成為日常生活的一部分,這一便捷的購物方式不僅受到廣大消費者的歡迎,也為不法分子提供了可乘之機。這類詐騙網(wǎng)站通常具有2種特征:1)詐騙者通過發(fā)送包含虛假鏈接的信息,誘導消費者進行充值或購買不存在的商品。這種方式直接誘騙用戶付款,而商品或服務(wù)實際上是虛構(gòu)的。2)他們先引導消費者瀏覽看似正規(guī)的在線商城,然后巧妙地誘使消費者轉(zhuǎn)至正規(guī)平臺之外的交易環(huán)境,以更高的折扣或特別優(yōu)惠為誘餌進行交易,最終實現(xiàn)詐騙的目的。這種詐騙不僅損害了學生的財產(chǎn)安全,也嚴重影響了網(wǎng)絡(luò)購物環(huán)境的健康發(fā)展。因此,提高警惕、識別并防范這些詐騙手段對于保護學生的權(quán)益至關(guān)重要。
2.3刷單兼職返利類詐騙網(wǎng)站特征
上文圖1中顯示學生通過參與虛假刷單兼職任務(wù)而遭遇欺詐的情況占比約17%。詐騙團伙利用招聘信息作為誘餌,通過社交媒體平臺和群組散播大量廣告,宣稱完成簡單任務(wù)即可獲得回報,以此吸引學生加入。他們常常通過創(chuàng)建假冒的在線商城,假裝提供兼職刷單、組團購買或搶單等任務(wù)來獲取利益,誘使受害者投資。當資金累積到一定數(shù)額后,這些不法分子會關(guān)閉網(wǎng)站并消失,導致受害者資金損失。這類詐騙網(wǎng)站通常具有2種特征:1)以非常吸引人的高額返利或者獎勵承諾來誘惑受害者參與刷單活動。這些承諾往往不切實際,比如承諾極短時間內(nèi)獲得高額收益,或者以小搏大的投資回報率。這種策略的目的是利用人們對快速賺錢的渴望,誘使他們加入并投入資金;2)是直接發(fā)布虛假刷單任務(wù)的網(wǎng)站,這些網(wǎng)站往往只有少量的商品頁面,并在頁面中插入虛假的用戶收益信息,以吸引受害者參與。
3反欺詐檢測模型
3.1網(wǎng)站結(jié)構(gòu)檢測模型
詐騙網(wǎng)站精心運用HTML、CSS和JavaScript這三大網(wǎng)頁構(gòu)建技術(shù),創(chuàng)建出具有欺騙性的網(wǎng)站界面。HTML定義了網(wǎng)頁的基本結(jié)構(gòu),CSS負責美化頁面布局和樣式,而JavaScript則添加了動態(tài)交互功能。這些元素共同構(gòu)建出文檔對象模型(DOM),形成了網(wǎng)頁的動態(tài)視圖,使得網(wǎng)站能夠響應(yīng)用戶的操作。
在此基礎(chǔ)上,詐騙網(wǎng)站利用DOM的靈活性,通過JavaScript腳本修改網(wǎng)頁內(nèi)容,來假冒正規(guī)網(wǎng)站的外觀和行為,進而誘導用戶泄露個人信息。網(wǎng)頁指紋算法在識別詐騙網(wǎng)站方面起到了至關(guān)重要的作用。通過分析網(wǎng)頁的DOM結(jié)構(gòu)和其他特征,生成網(wǎng)頁的唯一標識(即指紋)。這種技術(shù)可以幫助識別和區(qū)分詐騙網(wǎng)站,為網(wǎng)絡(luò)安全提供一種有效的防護手段,減少學生受到的欺詐風險。
網(wǎng)頁指紋的生成和應(yīng)用流程如圖2所示。
在探索網(wǎng)頁結(jié)構(gòu)的基礎(chǔ)知識及常見網(wǎng)站模式后,可以利用網(wǎng)頁結(jié)構(gòu)信息識別潛在的詐騙類網(wǎng)站。
1)首先需要收集大量的網(wǎng)站數(shù)據(jù),積累詐騙網(wǎng)站樣本。隨后,通過提取這些網(wǎng)站的模板指紋集合,并在大規(guī)模的網(wǎng)站數(shù)據(jù)中執(zhí)行相似度計算,以識別出詐騙網(wǎng)站。
2)構(gòu)建網(wǎng)頁結(jié)構(gòu)指紋需要對網(wǎng)頁進行預處理,合理提取轉(zhuǎn)換為指紋的標簽節(jié)點,然后構(gòu)建指紋生成算法,使用合適的方法將提取的標簽節(jié)點轉(zhuǎn)換為字符串。
3)有多種方法用于提取網(wǎng)頁結(jié)構(gòu),選擇最佳的方法需要根據(jù)業(yè)務(wù)需求和數(shù)據(jù)屬性進行。在提取過程中,關(guān)鍵在于移除生成指紋冗余的信息,以避免對相似性評估造成干擾。同時,文本的長度對指紋的相似度計算具有顯著影響,過長的文本不僅增大了異常指紋庫的存儲和計算負擔,而過短的文本可能無法捕獲必要的信息,從而增加錯誤判斷的風險。為了精確提取關(guān)鍵特征,應(yīng)當基于問題的具體關(guān)注焦點,對文本的不同分割粒度賦予適當?shù)臋?quán)重。
4)將預處理后的數(shù)據(jù)轉(zhuǎn)換為一個標準格式的字符串,以便于進行哈希計算。使用哈希函數(shù)(如MD5、SHA-1、SHA-256等)對序列化后的字符串進行計算,生成一個固定長度的哈希值。
5)將這個哈希值作為網(wǎng)頁的“指紋”。最終生成的哈希值(即網(wǎng)頁指紋)可以用來表示網(wǎng)頁的特征。在實際應(yīng)用中,網(wǎng)頁指紋會考慮更多的元素和細節(jié),比如標簽的屬性、樣式信息、腳本內(nèi)容等,會生成更為復雜和獨特的指紋。
6)網(wǎng)頁指紋生成之后,其存儲方式取決于使用場景、存儲效率和訪問速度。
7)為了維護和更新異常指紋庫,需要定期進行指紋的添加和移除。添加新的異常指紋主要依賴于人工檢查和自動檢測機制。考慮到人工檢查成本較高,時間較長,自動檢測機制顯得尤為關(guān)鍵。該機制的開發(fā)包括數(shù)據(jù)的準備、網(wǎng)頁指紋特性的定義以及模型的訓練。一旦模型訓練完成,就可以將新采集到的指紋與庫中的異常指紋進行比對來識別潛在的詐騙網(wǎng)站。同時,定期清理長時間未被匹配的失效指紋,也是異常指紋庫管理的一個重要方面。通過實施最近最少使用(LRU)策略,可以有效減少所需的存儲空間和計算力,從而提升系統(tǒng)的整體識別效率。
8)通過將待檢測指紋與異常指紋庫進行匹配及相似度分析,能夠識別出潛在的詐騙網(wǎng)站。這一識別流程還嵌入了基本的過濾機制,例如采用白名單策略,以確保合法的正規(guī)網(wǎng)站不會被錯誤地標記為詐騙網(wǎng)站,有助于提高詐騙網(wǎng)站識別結(jié)果的準確性。
此模型結(jié)合了網(wǎng)頁內(nèi)容預處理、指紋生成算法和異常指紋庫的維護,創(chuàng)建了一套系統(tǒng)化的詐騙網(wǎng)站識別機制。
3.2網(wǎng)站文本檢測模型
在當今數(shù)字化時代,文本作為網(wǎng)絡(luò)中出現(xiàn)頻率較高的信息載體,發(fā)揮著至關(guān)重要的作用。網(wǎng)站的大部分內(nèi)容都是由文本構(gòu)成,比如產(chǎn)品描述、評論和論壇帖子等。然而,這種信息的普遍性和易獲取性也使其成為電信網(wǎng)絡(luò)詐騙活動的溫床。詐騙集團利用文本傳播虛假信息、實施欺詐等非法行為。文本形式和語義的多樣性增加了識別詐騙網(wǎng)站的復雜度。
為了檢測出詐騙網(wǎng)站,首先要獲取網(wǎng)頁文本數(shù)據(jù),主要有以下幾種方式:從HTML文本文件中提取。從HTML頁面中提取各個標簽的文本內(nèi)容,包括文章、標題、評論等直接顯示的信息。從網(wǎng)頁圖片中提取文本內(nèi)容。一些關(guān)鍵的信息,如廣告、產(chǎn)品等,可能以圖像的形式呈現(xiàn)。光學字符識別(OCR)技術(shù)可以用來識別圖像中的文本內(nèi)容,從而提取圖像信息。網(wǎng)址文本數(shù)據(jù),電信網(wǎng)絡(luò)詐騙活動時常涉及使用高度相似的網(wǎng)站域名和網(wǎng)址參數(shù)。通過分析這些網(wǎng)址的文本數(shù)據(jù),如域名、站點路徑和URL參數(shù)等,可以獲得用于識別和過濾可疑網(wǎng)站的信息。
獲取了網(wǎng)頁文本數(shù)據(jù)之后,探索有效的技術(shù)手段來識別和阻止電信網(wǎng)絡(luò)詐騙活動顯得尤為重要。在這一背景下,敏感詞規(guī)則模型、文本聚類模型和文本分類模型成為網(wǎng)絡(luò)安全領(lǐng)域的重要工具。這些模型各自具有獨特的優(yōu)勢,在識別不同類型的網(wǎng)絡(luò)詐騙活動中發(fā)揮著關(guān)鍵作用。通過深入分析和應(yīng)用這些模型,可以更有效地保護學生免受網(wǎng)絡(luò)詐騙的侵害。
1)敏感詞規(guī)則模型[3]。敏感詞規(guī)則模型通過設(shè)置敏感詞和短語列表,這種基于規(guī)則的方法可以識別潛在的欺詐內(nèi)容。雖然此方法依賴于不斷更新的敏感詞庫,但它為快速篩選提供了一個有效的起點。在處理特定類型的網(wǎng)絡(luò)詐騙,如刷單兼職返利類詐騙網(wǎng)站時,敏感詞規(guī)則模型展現(xiàn)出了特別的價值。這類詐騙網(wǎng)站通常會使用一系列特定的詞匯和短語來吸引用戶參與,比如“高回報”“零風險”“兼職賺錢”等,這些都可以作為敏感詞納入監(jiān)測列表中。
TextRank算法作為一種自動提取文本關(guān)鍵詞和短語的方法,可以分析詐騙文本的內(nèi)容結(jié)構(gòu)。在刷單兼職返利類詐騙網(wǎng)站的場景下,TextRank算法能夠從大量的宣傳和招募文本中,自動識別出關(guān)鍵信息,揭示出詐騙者常用的語言模式和策略。這不僅加強了敏感詞規(guī)則模型的有效性,還提供了一種動態(tài)學習和適應(yīng)新出現(xiàn)的詐騙手段的能力。通過結(jié)合這兩種技術(shù),可以構(gòu)建出一個更加強大、靈活且具有自適應(yīng)性的網(wǎng)絡(luò)詐騙檢測系統(tǒng),能夠有效地識別和防范刷單兼職返利類詐騙網(wǎng)站,保護學生的財產(chǎn)安全。
2)文本聚類模型[4]。文本聚類模型利用聚類技術(shù),通過將文本分為基于相似性的不同組或類別,有效地幫助識別大量未標記文本數(shù)據(jù)中的模式和趨勢。這種技術(shù)特別適合于揭示異?;虿粚こ5膬?nèi)容集群,這些內(nèi)容集群往往是欺詐活動的指示器。在應(yīng)對虛假購物交易類詐騙網(wǎng)站的場景中,文本聚類模型的價值尤為突出。這類詐騙網(wǎng)站常常發(fā)布大量看似合法但實際為虛假的商品交易信息,誘騙消費者進行購買。
Single-pass算法是一種快速的文本聚類方法,它通過單遍掃描數(shù)據(jù)集,即時地將文本分配到已有的或新創(chuàng)建的聚類中。這種算法特別適合處理大規(guī)模數(shù)據(jù)集,能夠迅速識別出包含虛假購物交易信息的文本聚類。在虛假購物交易類詐騙網(wǎng)站的檢測中,Single-pass算法可以快速處理和分析大量網(wǎng)站文本數(shù)據(jù),識別出具有相似欺詐特征的文本群體,從而有效揭示和預防詐騙行為。文本聚類模型的訓練流程如圖3所示。
結(jié)合文本聚類模型和Single-pass算法,能夠高效地監(jiān)測和識別虛假購物交易類詐騙網(wǎng)站,及時發(fā)現(xiàn)新的詐騙模式和趨勢。這種方法不僅提高了檢測的速度和精確度,也為學生提供了更為安全的購物環(huán)境。通過不斷優(yōu)化這些技術(shù),可以進一步強化網(wǎng)絡(luò)安全防護,有效遏制虛假購物交易類詐騙活動的蔓延。
3)文本分類模型[5]。文本分類模型通過學習已標記的數(shù)據(jù)集,能夠識別文本的具體類別,如區(qū)分正常文本、廣告、欺詐信息等。深度學習技術(shù),特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),已經(jīng)在提高文本分類的準確性方面取得了顯著成果。隨著BERT算法(BidirectionalEncoderRepresentationsfromTrans?formers)、TextCNN算法和FastText算法的引入,文本分類模型在處理復雜文本數(shù)據(jù),尤其是識別仿冒平臺類詐騙網(wǎng)站方面的能力得到了極大的增強。識別詐騙類網(wǎng)站的文本檢測流程如圖4所示。
在處理待檢測的可疑網(wǎng)站文本以識別仿冒平臺類詐騙網(wǎng)站的過程中,首先需要收集和準備待檢測的網(wǎng)站文本數(shù)據(jù)。這是檢測流程的起點,涉及從可疑網(wǎng)站提取文本內(nèi)容,包括網(wǎng)站描述、商品信息、用戶評論等,作為后續(xù)分析的基礎(chǔ)數(shù)據(jù)。
接下來,使用基于規(guī)則的模型對收集到的文本數(shù)據(jù)進行初步篩選。這一步的目的是快速過濾掉明顯屬于正規(guī)網(wǎng)站的文本,減少后續(xù)處理的數(shù)據(jù)量。規(guī)則模型依賴于預定義的敏感詞和短語列表,通過匹配這些敏感詞來識別潛在的欺詐內(nèi)容。
經(jīng)過規(guī)則模型過濾后,使用TextCNN算法對剩余的文本數(shù)據(jù)進行深度分析。TextCNN是一種利用卷積神經(jīng)網(wǎng)絡(luò)對文本進行分類的算法,它通過提取文本中的局部特征來識別網(wǎng)站是否為仿冒或詐騙性質(zhì)。
之后可以應(yīng)用FastText算法進一步地檢測。Fast?Text在處理文本分類時特別高效,因為它考慮了詞匯的n-gram特征,能夠快速識別文本模式,對于識別具有特定詞匯和表達模式的仿冒網(wǎng)站非常有效。
最后,利用BERT算法進行深層次的文本分析。BERT通過理解文本的雙向上下文關(guān)系,能夠捕捉到更加復雜和細微的語義信息,進一步提高識別仿冒平臺類詐騙網(wǎng)站的準確性。
在輸出檢測結(jié)果后,整個檢測流程完成,匯總各階段的檢測結(jié)果,輸出最終的分析報告,明確指出哪些網(wǎng)站被識別為仿冒或詐騙網(wǎng)站。通過這樣的先后順序,可以有效地結(jié)合不同技術(shù)的優(yōu)勢,從而提高檢測仿冒平臺類詐騙網(wǎng)站的準確率和效率。
結(jié)合這些深度學習技術(shù),文本分類模型在識別仿冒平臺類詐騙網(wǎng)站方面的性能大幅提升。這些算法不僅提高了模型對文本的理解深度,還增強了其在處理大量和復雜數(shù)據(jù)時的效率和準確性。
4結(jié)論
本研究針對廣州市高校學生群體面臨的電信網(wǎng)絡(luò)詐騙問題,通過深入分析詐騙類網(wǎng)站及其特點,開發(fā)了一套高效的反電信網(wǎng)絡(luò)詐騙檢測模型。該模型主要包括網(wǎng)站結(jié)構(gòu)檢測模型和網(wǎng)站文本檢測模型,目的是為了有效識別和防范冒充客服、虛假購物交易以及刷單兼職返利等主要詐騙手段。通過利用網(wǎng)頁指紋算法分析網(wǎng)站的DOM結(jié)構(gòu)來識別具有欺騙性的網(wǎng)站,結(jié)合敏感詞規(guī)則模型(TextRank算法)、文本聚類模型(Single-pass算法)以及文本分類模型(BERT算法、TextCNN算法和FastText算法)對網(wǎng)站文本進行深度分析,構(gòu)建出一套系統(tǒng)化的詐騙網(wǎng)站識別機制。這些技術(shù)的綜合應(yīng)用,不僅提高了識別準確率,還為保護高校師生的財產(chǎn)安全提供了有力支撐,體現(xiàn)了“預防勝于治療”的理念。