引言
網(wǎng)絡(luò)釣魚攻擊是當(dāng)今信息安全領(lǐng)域中最常見的威脅之一。攻擊者通過偽造可信網(wǎng)站、電子郵件等方式,誘騙用戶泄露敏感信息,這不僅對(duì)個(gè)人隱私構(gòu)成嚴(yán)重威脅,還可能造成企業(yè)數(shù)據(jù)泄露和金融損失。近年來(lái),隨著技術(shù)的不斷進(jìn)步,網(wǎng)絡(luò)釣魚攻擊的形式變得更加多樣化和隱蔽化,傳統(tǒng)的基于規(guī)則的檢測(cè)方法已難以應(yīng)對(duì)新型攻擊
在此背景下,人工智能技術(shù)憑借其在海量數(shù)據(jù)處理、模式識(shí)別和異常檢測(cè)中的強(qiáng)大能力,為網(wǎng)絡(luò)釣魚攻擊檢測(cè)提供了新的解決思路。本文將圍繞人工智能技術(shù)在網(wǎng)絡(luò)釣魚攻擊檢測(cè)中的應(yīng)用,以及如何通過基于深度學(xué)習(xí)的網(wǎng)絡(luò)釣魚檢攻擊測(cè)方法處理相關(guān)安全威脅開展研究。
1.網(wǎng)絡(luò)釣魚攻擊的現(xiàn)狀
當(dāng)前,網(wǎng)絡(luò)釣魚攻擊正滲透到人們生產(chǎn)生活的方方面面?!痘趫?bào)告分析的2024年全球網(wǎng)絡(luò)安全趨勢(shì)研究》顯示,在對(duì)21份全球權(quán)威報(bào)告進(jìn)行綜合剖析后發(fā)現(xiàn),網(wǎng)絡(luò)釣魚這一關(guān)鍵詞的出現(xiàn)比例高達(dá)17.28% (如圖1所示),凸顯了其在網(wǎng)絡(luò)安全領(lǐng)域的高發(fā)性。
隨著ChatGPT、DeepSeek等先進(jìn)大語(yǔ)言模型的發(fā)展,以及移動(dòng)設(shè)備、二維碼和深度偽造語(yǔ)音技術(shù)的普及,網(wǎng)絡(luò)釣魚誘餌的欺騙性與日俱增。通過生成高度逼真的文本、語(yǔ)音和圖像內(nèi)容,釣魚郵件攻擊具備了強(qiáng)大的欺騙性。
2.網(wǎng)絡(luò)釣魚攻擊的特點(diǎn)與挑戰(zhàn)
2.1網(wǎng)絡(luò)釣魚攻擊的特點(diǎn)
2.1.1偽裝性強(qiáng)
釣魚網(wǎng)站與釣魚郵件在外觀設(shè)計(jì)上與合法的網(wǎng)站及郵件極為相似,常令用戶難以辨別真?zhèn)?。例如,涉及中?guó)香港郵政及銀行系統(tǒng)的“釣魚”詐騙案中,受害人均收到相關(guān)虛假電子郵件或手機(jī)短信,訛稱有包裹無(wú)法派遞要求支付郵費(fèi),或銀行賬戶有異樣,要求補(bǔ)充信用卡或網(wǎng)上銀行密碼等資料,乘機(jī)騙取金錢,近百人受騙,合計(jì)損失近300萬(wàn)港元2]。
2.1.2多樣化的媒介
網(wǎng)絡(luò)釣魚攻擊廣泛借助各類通信平臺(tái)傳播。郵件是常見方式,攻擊者發(fā)送偽裝成官方通知、客服反饋或好友求助的郵件;短信也常被利用,以中獎(jiǎng)信息、賬戶異常提醒等誘騙用戶;在社交媒體平臺(tái)上,虛假的促銷活動(dòng)鏈接或好友推薦信息也可能隱藏釣魚陷阱;即時(shí)通信(IM)應(yīng)用中,偽裝成群組消息或好友私聊的釣魚信息也常出現(xiàn),全面滲透用戶的網(wǎng)絡(luò)社交空間3。
2.1.3攻擊規(guī)模廣
釣魚攻擊技術(shù)門檻和成本低,攻擊者借助自動(dòng)化工具批量生成釣魚內(nèi)容,并大量傳播。例如,Bleeping Computer網(wǎng)站披露了一項(xiàng)大規(guī)模網(wǎng)絡(luò)釣魚活動(dòng),針對(duì)這一事件,一家專注于人工智能的網(wǎng)絡(luò)安全公司PIXM對(duì)其展開研究,研究人員未經(jīng)身份驗(yàn)證,成功訪問了網(wǎng)絡(luò)釣魚活動(dòng)統(tǒng)計(jì)頁(yè)面,經(jīng)過對(duì)數(shù)據(jù)信息分析后發(fā)現(xiàn),在2021年,有270萬(wàn)用戶訪問了其中一個(gè)網(wǎng)絡(luò)釣魚門戶,這個(gè)數(shù)字在2022年上升到850萬(wàn),側(cè)面反映了釣魚活動(dòng)在大規(guī)模增長(zhǎng)
2.1.4快速變異
攻擊者為躲避檢測(cè),動(dòng)態(tài)生成釣魚頁(yè)面,變換域名、統(tǒng)一資源定位符(uniformresourcelocator,URL)結(jié)構(gòu)、頁(yè)面內(nèi)容和攻擊手法。例如,采用域名系統(tǒng)(domainnamesystem,DNS)解析快速切換域名指向,傳統(tǒng)黑名單難以追蹤;利用代碼混淆技術(shù)改變頁(yè)面腳本,給網(wǎng)絡(luò)安全防護(hù)帶來(lái)極大挑戰(zhàn)。
2.2網(wǎng)絡(luò)釣魚攻擊檢測(cè)的挑戰(zhàn)
2.2.1高誤報(bào)率
傳統(tǒng)檢測(cè)方法,如基于規(guī)則的過濾和簽名匹配,往往無(wú)法準(zhǔn)確區(qū)分網(wǎng)絡(luò)釣魚攻擊的內(nèi)容和正常內(nèi)容,導(dǎo)致大量的誤報(bào)。
2.2.2數(shù)據(jù)多樣
網(wǎng)絡(luò)釣魚攻擊的形式和內(nèi)容極具多樣性,包括使用不同的語(yǔ)言、內(nèi)容、URL和偽裝手段等,難以制定統(tǒng)一且有效的檢測(cè)規(guī)則。
2.2.3實(shí)時(shí)性要求
網(wǎng)絡(luò)釣魚攻擊具有高度的時(shí)效性,一旦發(fā)現(xiàn)威脅,須迅速采取措施進(jìn)行處置。
2.2.4對(duì)抗性攻擊
隨著網(wǎng)絡(luò)釣魚攻擊技術(shù)的不斷發(fā)展,攻擊者開始利用對(duì)抗樣本技術(shù)來(lái)繞過檢測(cè)系統(tǒng),影響檢測(cè)系統(tǒng)的有效性。
3.人工智能技術(shù)的網(wǎng)絡(luò)釣魚攻擊檢測(cè)方法
3.1基于特征提取的機(jī)器學(xué)習(xí)方法
傳統(tǒng)機(jī)器學(xué)習(xí)在網(wǎng)絡(luò)釣魚攻擊檢測(cè)中依賴人工定義特征。例如,在URL特征上,會(huì)考量URL長(zhǎng)度,通常的網(wǎng)絡(luò)釣魚攻擊URL較長(zhǎng)且復(fù)雜,包含大量隨機(jī)字符或疑似惡意的參數(shù);域名復(fù)雜度也是關(guān)鍵因素,如是否存在二級(jí)域名過多、域名與知名品牌相似但存在細(xì)微拼寫差異等情況。
在網(wǎng)頁(yè)內(nèi)容特征上,會(huì)檢查是否有常見的網(wǎng)絡(luò)釣魚攻擊關(guān)鍵詞,如“立即登錄”“限時(shí)免費(fèi)”“賬戶凍結(jié)需緊急處理”等具有誘導(dǎo)性和緊迫感的詞匯,以及是否存在可疑的外部鏈接。這些人工定義的特征構(gòu)成訓(xùn)練數(shù)據(jù),輸入分類器中,常見的如支持向量機(jī)(support vector machine,SVM)、決策樹或隨機(jī)森林等。
3.2深度學(xué)習(xí)方法
深度學(xué)習(xí)是人工智能技術(shù)的重要分支,能夠從海量數(shù)據(jù)中提取高維特征,減少人工干預(yù)。在網(wǎng)絡(luò)釣魚攻擊檢測(cè)中,深度學(xué)習(xí)方法具有顯著的優(yōu)勢(shì)。常用的模型包括卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork,RNN)和基于自注意力機(jī)制的深度學(xué)習(xí)模型Transformer三種。其中,CNN用于提取郵件內(nèi)容、URL或頁(yè)面截圖的視覺特征。通過卷積運(yùn)算和池化操作,捕捉圖像中的局部特征,如顏色、紋理等,從而實(shí)現(xiàn)對(duì)釣魚頁(yè)面的有效識(shí)別。RNN用于處理時(shí)間序列數(shù)據(jù),如URL字符流和郵件內(nèi)容的語(yǔ)言模式。RNN通過循環(huán)連接的方式,捕捉數(shù)據(jù)中的時(shí)序依賴關(guān)系,從而對(duì)釣魚郵件進(jìn)行準(zhǔn)確分類。Transformer模型則能夠結(jié)合自然語(yǔ)言處理技術(shù),理解郵件或頁(yè)面中的語(yǔ)義信息。該模型通過自注意力機(jī)制和位置編碼,插捉文本的全局依賴關(guān)系,實(shí)現(xiàn)對(duì)釣魚文本的深入理解。
3.3自然語(yǔ)言處理
自然語(yǔ)言處理(naturallanguageprocessing,NLP)技術(shù)在網(wǎng)絡(luò)釣魚攻擊檢測(cè)中發(fā)揮著關(guān)鍵作用,可深入分析文本的語(yǔ)義結(jié)構(gòu)和語(yǔ)言特征。在關(guān)鍵詞分析方面,除了常見的“緊急”“賬號(hào)凍結(jié)”等詞匯外,還會(huì)關(guān)注如“安全驗(yàn)證失敗”“系統(tǒng)升級(jí)需重新登錄”等關(guān)鍵詞組合。同時(shí),檢測(cè)語(yǔ)法和拼寫錯(cuò)誤也是重要環(huán)節(jié)。釣魚郵件因制作倉(cāng)促或故意偽裝,可能存在較多語(yǔ)法錯(cuò)誤、拼寫不規(guī)范或詞匯使用不當(dāng)?shù)那闆r。此外,NLP技術(shù)還能分析文本的情感傾向和語(yǔ)言風(fēng)格,釣魚文本通常帶有較強(qiáng)的緊迫感或誘導(dǎo)性,通過與正常郵件的語(yǔ)言風(fēng)格對(duì)比,可有效識(shí)別潛在的欺騙行為,為判斷郵件是否為釣魚內(nèi)容提供有力依據(jù)。
3.4行為分析
行為分析結(jié)合用戶的歷史行為數(shù)據(jù)和正常操作習(xí)慣模型,利用機(jī)器學(xué)習(xí)算法建立異常行為檢測(cè)模型,如使用聚類分析將用戶行為劃分為不同的簇,當(dāng)新的行為數(shù)據(jù)偏離正常簇時(shí),即可判定為異常行為,發(fā)現(xiàn)并防范網(wǎng)絡(luò)釣魚攻擊。例如,正常瀏覽網(wǎng)頁(yè)時(shí),對(duì)不同頁(yè)面的訪問時(shí)間通常呈現(xiàn)規(guī)律分布,在遭受網(wǎng)絡(luò)釣魚攻擊時(shí),可能會(huì)在某個(gè)可疑頁(yè)面上停留過長(zhǎng)時(shí)間或頻繁點(diǎn)擊來(lái)自未知來(lái)源的鏈接。對(duì)于攻擊者行為,重復(fù)訪問某一URL可能是其在測(cè)試釣魚頁(yè)面的有效性或準(zhǔn)備發(fā)動(dòng)大規(guī)模攻擊的前奏;點(diǎn)擊率異常高的鏈接往往是網(wǎng)絡(luò)釣魚攻擊的重要線索,表明該鏈接可能被大量用戶誤點(diǎn)擊或受到惡意推廣。
4.人工智能技術(shù)進(jìn)行網(wǎng)絡(luò)釣魚檢測(cè)的流程
4.1數(shù)據(jù)收集與預(yù)處理
數(shù)據(jù)收集是構(gòu)建有效網(wǎng)絡(luò)釣魚攻擊檢測(cè)系統(tǒng)的基礎(chǔ)。需要廣泛獲取相關(guān)的多源數(shù)據(jù),包括釣魚網(wǎng)站的URL、網(wǎng)頁(yè)內(nèi)容、源代碼、交互記錄以及相關(guān)的流量數(shù)據(jù)等。
收集到的數(shù)據(jù)通常存在噪聲和不完整性,需要進(jìn)行清洗和預(yù)處理。清洗過程包括去除無(wú)關(guān)信息,這些信息可能干擾后續(xù)的特征提取和模型訓(xùn)練。同時(shí),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將文本數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的編碼格式,并進(jìn)行歸一化操作,使不同特征的數(shù)據(jù)統(tǒng)一在同一量綱下,從而確保模型訓(xùn)練的穩(wěn)定性和準(zhǔn)確性。
4.2特征提取
從收集到的網(wǎng)頁(yè)數(shù)據(jù)中提取出有助于判斷是否為釣魚網(wǎng)站的特征。這些特征可能包括:
(1)URL特征。如URL中是否包含可疑的域名、異常字符等。
(2)網(wǎng)頁(yè)內(nèi)容特征。網(wǎng)頁(yè)的文本內(nèi)容是否包含網(wǎng)絡(luò)釣魚攻擊常見的關(guān)鍵詞,如“立即登錄”“免費(fèi)”“贈(zèng)送”等,以及是否存在大量的外部鏈接。
(3)頁(yè)面布局特征。釣魚網(wǎng)站通常模仿真實(shí)網(wǎng)站的設(shè)計(jì),但可能在布局上有所不同。機(jī)器學(xué)習(xí)模型可以通過分析頁(yè)面的CSS、HTML標(biāo)簽等判斷是否為仿冒網(wǎng)站。
(4)交互行為特征。例如,釣魚網(wǎng)站可能通過彈窗、表單等方式誘導(dǎo)用戶輸入個(gè)人信息,這些行為可以被追蹤和分析。
4.3模型訓(xùn)練
利用提取的特征,使用機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練模型。這一過程通常需要有標(biāo)注的訓(xùn)練數(shù)據(jù)集,包括標(biāo)明“釣魚”與“非釣魚”的數(shù)據(jù)。訓(xùn)練的目標(biāo)是讓模型能夠識(shí)別出釣魚網(wǎng)站的典型特征,從而在實(shí)際應(yīng)用中進(jìn)行有效的判斷8。
4.4模型評(píng)估與優(yōu)化
在訓(xùn)練完成后,需要通過測(cè)試集對(duì)模型進(jìn)行評(píng)估。根據(jù)評(píng)估結(jié)果,可以進(jìn)一步調(diào)整模型參數(shù)或選擇不同的算法來(lái)提高檢測(cè)性能[9]
4.5實(shí)時(shí)檢測(cè)
經(jīng)過訓(xùn)練和優(yōu)化的模型可以集成到網(wǎng)絡(luò)安全防護(hù)工具中,進(jìn)行實(shí)時(shí)檢測(cè)。當(dāng)用戶訪問某個(gè)網(wǎng)站時(shí),系統(tǒng)會(huì)根據(jù)該網(wǎng)站的特征與訓(xùn)練模型進(jìn)行比對(duì),判斷該網(wǎng)站是否可能為釣魚網(wǎng)站。如果是釣魚網(wǎng)站,系統(tǒng)會(huì)及時(shí)警告用戶并阻止訪問。
4.6持續(xù)學(xué)習(xí)與更新
由于網(wǎng)絡(luò)釣魚攻擊的手法不斷演變,原有的釣魚網(wǎng)站特征可能不再適用。因此,基于人工智能的檢測(cè)系統(tǒng)需要定期更新訓(xùn)練數(shù)據(jù),重新訓(xùn)練模型,確保檢測(cè)系統(tǒng)的有效性。
5.人工智能技術(shù)在網(wǎng)絡(luò)釣魚檢測(cè)中的實(shí)際應(yīng)用
以PayPal為例,用戶所收到的電子郵件看似簡(jiǎn)單,郵件以“Hallo”開頭,主要內(nèi)容為:你的賬戶存在異常活動(dòng),需要你點(diǎn)擊郵件中的身份驗(yàn)證鏈接,進(jìn)行驗(yàn)證。因此,郵件中包含一個(gè)鏈接,指向一個(gè)偽造的登錄頁(yè)面,網(wǎng)址為“www.paypal-security.com”。該域名中的“T”被替換為了數(shù)字“1”。如果用戶信以為真,點(diǎn)擊該鏈接后,進(jìn)人幾乎與真實(shí)PayPal登錄頁(yè)面外觀一致的網(wǎng)頁(yè),當(dāng)用戶在這個(gè)假網(wǎng)站上輸入賬號(hào)密碼時(shí),用戶的賬戶信息就落人了騙子的手中。
此時(shí),人工智能技術(shù)在識(shí)別并檢驗(yàn)釣魚網(wǎng)站方面發(fā)揮了巨大作用。首先,基于URL特征分析,人工智能技術(shù)會(huì)識(shí)別出該域名存在欺騙性拼寫(typosquatting),并且該網(wǎng)站的注冊(cè)信息顯示其歸屬于未知實(shí)體,而非PayPal官方。其次,通過網(wǎng)頁(yè)內(nèi)容分析,人工智能技術(shù)發(fā)現(xiàn)該頁(yè)面包含諸如“您的賬戶存在安全風(fēng)險(xiǎn),請(qǐng)立即驗(yàn)證”之類的高危關(guān)鍵詞,同時(shí),該頁(yè)面沒有安全套接層(secure sockets layer,SSL)證書或使用了低信譽(yù)的安全證書。再次,在頁(yè)面布局特征分析方面,人工智能技術(shù)通過超文本標(biāo)記語(yǔ)言(hypertext mark language,HTML)和串聯(lián)樣式表(cascading stylesheets,CSS)代碼對(duì)比發(fā)現(xiàn),該網(wǎng)站的頁(yè)面結(jié)構(gòu)與PayPal官方頁(yè)面有所不同,如按鈕樣式、表單字段名稱等存在細(xì)微差異。此外,交互行為特征檢測(cè)顯示,該網(wǎng)站在用戶輸入登錄憑據(jù)后,立即嘗試重定向到一個(gè)非PayPal域名,并通過JavaScript代碼收集用戶輸入的信息,這種異常行為進(jìn)一步加大了釣魚風(fēng)險(xiǎn)的可能性。最后,結(jié)合上述檢測(cè)方法,人工智能技術(shù)綜合判斷該網(wǎng)站為釣魚網(wǎng)站,并實(shí)時(shí)向用戶發(fā)出警告,阻止用戶提交任何敏感信息。人工智能技術(shù)的持續(xù)學(xué)習(xí)能力還允許其自動(dòng)更新釣魚網(wǎng)站的特征數(shù)據(jù)庫(kù),以應(yīng)對(duì)不斷變化的攻擊手法。
結(jié)語(yǔ)
人工智能技術(shù)在網(wǎng)絡(luò)釣魚攻擊的檢測(cè)與防范領(lǐng)域展現(xiàn)出巨大潛力,通過深度學(xué)習(xí)和自然語(yǔ)言處理等技術(shù)的運(yùn)用,不僅顯著提升了檢測(cè)的準(zhǔn)確性和效率,還使檢測(cè)方法變得更智能、更精準(zhǔn)、更全面。盡管目前人工智能技術(shù)在實(shí)施過程中還面臨諸多挑戰(zhàn),但隨著技術(shù)的不斷進(jìn)步與成熟,其在信息安全領(lǐng)域的應(yīng)用前景將更加廣闊,未來(lái)有望為網(wǎng)絡(luò)安全提供更加全面、高效和智能的保障。
參考文獻(xiàn):
[1]吳坤,陳蔓,鐘海濤.基于報(bào)告分析的2024年全球網(wǎng)絡(luò)安全趨勢(shì)研究[J].信息安全與通信保密,2024(7):1-11.
[2]界面新聞.“釣魚”郵件冒充郵政或銀行騙錢,香港警方:逾百人中招,已有9人被捕[EB/OL].(2021-03-10)[2025-03-05]https://news.sina.com.cn/c/2021-03-10/doc-ikknscsi0377634.shtml.
[3]巨騰飛,呂麗萍.高級(jí)網(wǎng)絡(luò)釣魚攻擊的研究與防范[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2023(12):22-23.
[4]安全圈.攻擊者利用Facebook進(jìn)行網(wǎng)絡(luò)釣魚,獲取大量非法收益[EB/OL].(2022-06-10)[2025-03-05].https://www.163.com/dy/article/H9HC79JP0511A5GF.html.
[5]王輝,劉暢.機(jī)器學(xué)習(xí)在釣魚郵件識(shí)別中的應(yīng)用分析[J].信息安全研究,2017,3(5):412-417.
[6]丁海杰.基于深度學(xué)習(xí)的文本關(guān)系分類與生成機(jī)制研究及系統(tǒng)構(gòu)建[D].南京:南京郵電大學(xué),2022.
[7]李陽(yáng),孫悅.融合自然語(yǔ)言處理與行為分析的網(wǎng)絡(luò)釣魚檢測(cè)系統(tǒng)[J].計(jì)算機(jī)科學(xué),2020,47(11):143-148.
[8]陳浩.網(wǎng)絡(luò)釣魚攻擊的檢測(cè)和防御研究[D].南京:東南大學(xué),2023.
[9]陳鵬,郭云飛,張建朋,等.一種面向未知攻擊檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)預(yù)處理方法[].信息工程大學(xué)學(xué)報(bào),2021,22(2):200-207.
[10]德國(guó)吃喝玩樂.警惕!德國(guó)PayPal新 騙局:收到“Hallo”郵件要小心![EB/OL]. (2024-11-18)[2025-03-05].https://baijiahao. baidu.com/s?id 1816053240926655344amp;wfr= spideramp;for=pc.
作者簡(jiǎn)介:康樂,碩士研究生,工程師,kangle@qianxin.com,研究方向:網(wǎng)絡(luò)安全體系與企業(yè)安全建設(shè);尚杰,碩士研究生,研究方向:網(wǎng)絡(luò)安全體系與企業(yè)安全建設(shè);通信作者:盛浩月,本科,shenghaoyueO1@qianxin.com,研究方向:網(wǎng)絡(luò)安全體系與企業(yè)安全建設(shè)。