• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于單詞匹配和編輯距離的釣魚貝葉斯檢測(cè)器研究

      2015-05-30 10:48:04朱超群等
      計(jì)算機(jī)時(shí)代 2015年5期

      朱超群等

      摘 要: 網(wǎng)絡(luò)釣魚是目前信息安全領(lǐng)域的一個(gè)研究熱點(diǎn),基于域名信息的釣魚檢測(cè)是使用較為廣泛的一種方法。文章利用編輯距離尋找與已知正常域名相近的域名,根據(jù)域名信息提取域名單詞最大匹配特征、域名分割特征和URL分割特征,利用這些特征訓(xùn)練貝葉斯分類器,根據(jù)給定特征屬于哪一類的概率來(lái)判斷此URL是否為釣魚URL,實(shí)驗(yàn)結(jié)果表明該方法能有效提高判斷準(zhǔn)確性。

      關(guān)鍵詞: 釣魚檢測(cè); 單詞匹配; 編輯距離; 貝葉斯分類器

      中圖分類號(hào):TP309 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)05-16-03

      Abstract: Phishing is one of the research hotspot in the field of information security at present, and URL based phishing detection is a method used widely. This paper proposes a phishing detection method which searches approximate normal domain names by calculating edit distance firstly. Then domain name word maximum match features, domain name segmentation features and URL segmentation features are extracted according to the domain name information. Finally, a bayes binary classifier, which is trained by using these features, can distinguish whether a URL is phishing URL or not. The experimental results show that this method can effectively improve the judgment accuracy.

      Key words: phishing detection; words matching; edit distance; bayes classifier

      0 引言

      目前電子商務(wù)、網(wǎng)絡(luò)銀行逐漸走入人們的日常生活,商務(wù)類應(yīng)用呈上升趨勢(shì),與此同時(shí),互聯(lián)網(wǎng)絡(luò)安全問(wèn)題十分嚴(yán)峻,其中網(wǎng)絡(luò)釣魚攻擊作為當(dāng)今在線交易和電子商務(wù)所面臨的最危險(xiǎn)的欺詐形式已越來(lái)越成為關(guān)注的焦點(diǎn)。

      反釣魚技術(shù)涉及領(lǐng)域極廣,應(yīng)用場(chǎng)景和問(wèn)題領(lǐng)域多種多樣,目前并沒(méi)有統(tǒng)一的、權(quán)威的研究視角和方法。研究人員從多個(gè)層面出發(fā),提出了反釣魚的方法和機(jī)制。

      ⑴ 基于人工判定和質(zhì)量評(píng)價(jià)的黑名單技術(shù)

      該類技術(shù)通過(guò)維護(hù)一個(gè)黑名單來(lái)阻止用戶對(duì)已發(fā)現(xiàn)的釣魚網(wǎng)站的訪問(wèn)。黑名單的建立主要通過(guò)人工舉報(bào)和審查,或者用戶群對(duì)網(wǎng)站質(zhì)量評(píng)價(jià)來(lái)完成,例如:Cloudmark的黑名單是由大量用戶對(duì)網(wǎng)站的評(píng)級(jí)來(lái)維護(hù),IE和Firefox等瀏覽器通過(guò)用戶舉報(bào)實(shí)時(shí)更新釣魚網(wǎng)頁(yè)黑名單[1]。

      ⑵ 基于規(guī)則的啟發(fā)式檢測(cè)技術(shù)

      利用釣魚網(wǎng)站的特征自動(dòng)判斷網(wǎng)站真?zhèn)?,如SpoofGuard分析釣魚網(wǎng)站啟發(fā)式特征,包括主機(jī)域名、網(wǎng)頁(yè)圖片、頁(yè)面鏈接等判斷真假;Zhang等人提出通過(guò)對(duì)網(wǎng)頁(yè)文本內(nèi)容的特征定義網(wǎng)站身份,然后利用搜索引擎的結(jié)果來(lái)判斷網(wǎng)站真?zhèn)?;Fu等人提出的EMS算法是通過(guò)計(jì)算兩個(gè)網(wǎng)頁(yè)的視覺(jué)相似性來(lái)判斷是否為釣魚網(wǎng)頁(yè)[2]。

      ⑶ 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的模式分類技術(shù)

      該類技術(shù)是將釣魚攻擊檢測(cè)視為一個(gè)二元分類問(wèn)題,即如何判定未知網(wǎng)頁(yè)為正常網(wǎng)頁(yè)或釣魚網(wǎng)頁(yè)。一般采用統(tǒng)計(jì)學(xué)習(xí)的方法建立分類模型,如Likarish等人借鑒垃圾郵件的檢測(cè)方法,建立釣魚特征貝葉斯過(guò)濾器;Ma等人通過(guò)對(duì) URL黑白名單的字符串特征的統(tǒng)計(jì)學(xué)習(xí),形成基于URL的分類器[3]。

      以上三類方法各有利弊。黑名單檢測(cè)結(jié)果準(zhǔn)確可靠,但實(shí)時(shí)性差,并浪費(fèi)大量人工資源;啟發(fā)式檢測(cè)方法可實(shí)時(shí)檢測(cè)釣魚網(wǎng)站,若檢測(cè)規(guī)則加入人工干預(yù)后準(zhǔn)確性極高,但魯棒性稍差;基于機(jī)器學(xué)習(xí)的模式分類技術(shù)有很好的魯棒性,檢出率也較高,但是準(zhǔn)確性不如啟發(fā)式檢測(cè),且需要大量釣魚樣本訓(xùn)練分類器。本文提出一種基于URL的貝葉斯二值分類方法,首先利用編輯距離尋找與已知域名相近的域名,提取域名單詞最大匹配特征、域名分割特征和URL分割特征,然后用上述特征訓(xùn)練貝葉斯分類器,根據(jù)給定特征屬于哪一類的概率判斷是否為釣魚URL。

      1 基于URL的釣魚檢測(cè)方法

      基于URL的釣魚檢測(cè)主要分為兩種:一是根據(jù)URL檢索與之相似的域名,以發(fā)現(xiàn)潛在釣魚網(wǎng)站;二是用機(jī)器學(xué)習(xí)的方法判斷URL是否為釣魚URL。

      1.1 基于域名分割的相似度判斷

      許多釣魚網(wǎng)站采用混淆域名的方法蒙蔽用戶,如中國(guó)工商銀行(www.icbc.com.cn)的一個(gè)釣魚網(wǎng)站就是www.1cbc.com.cn。通過(guò)分析二者的相似度可判斷是否為釣魚網(wǎng)站。首先利用“.”對(duì)網(wǎng)站域名分割域名,如對(duì)www.icbc.com.cn分割為:“www”、“icbc”、“com”、“cn”;然后對(duì)各部分相似度匹配,匹配原則為判斷域名長(zhǎng)度是否一致,并將各部分的相似度相加,結(jié)果若與分割后的部分越接近說(shuō)明相似度越高。這種方法會(huì)造成一個(gè)域名可能產(chǎn)生大量相似域名,因而只能作為初步判斷之用[4]。

      1.2 基于字符串編輯距離的相似度判斷

      編輯距離表示一個(gè)字符串經(jīng)過(guò)多少次增加、刪除及修改轉(zhuǎn)化為另一字符串,編輯距離越小,字符串越相似。如果2個(gè)字符串為空,則編輯距離為0;如果2個(gè)字符串中一個(gè)是空,則ed(ε,s)=|s|;其余情況用式⑴計(jì)算:

      1.3 域名單詞最大匹配得到的單詞特征

      一般地,釣魚網(wǎng)站的域名包含英文單詞,本方法是與中文切詞的最大匹配方法類似,其算法流程如圖1所示。其中,域名分割單元是指用“.”把一個(gè)域名分割的部分。

      2 基于貝葉斯分類器的釣魚檢測(cè)方法

      本文用貝葉斯分類器檢測(cè)釣魚URL。貝葉斯分類器的理論基礎(chǔ)是貝葉斯理論,它根據(jù)給定樣本屬于某個(gè)類的概率進(jìn)行分類[6]。假設(shè)在給定類別的情況下,數(shù)據(jù)x服從一定的概率分布,如果類型為正,則x出現(xiàn)的概率為P(x|class=+1)。因此,后驗(yàn)概率Pr(class=+1|x)可用下式計(jì)算:

      其中,xj是向量x的第j個(gè)元素。

      根據(jù)一個(gè)類別在訓(xùn)練數(shù)據(jù)中出現(xiàn)的頻率計(jì)算先驗(yàn)概率P(x|class=+1)和Pr(class=-1),對(duì)于x,P(x)是一個(gè)常數(shù),樸素貝葉斯算法僅給出類型元素分布的估計(jì),用以下兩種方式估計(jì)該分布。

      ⑴ 正規(guī)密度。給定一個(gè)類別,假定元素值趨于正態(tài)分布。對(duì)每個(gè)xj,P(xj|class=+1)和P(xj|class=-1)為帶均值和方差的正態(tài)分布,僅需估計(jì)均值和方差。由于已經(jīng)訓(xùn)練了樣本,可用訓(xùn)練結(jié)果估計(jì)參數(shù),用訓(xùn)練數(shù)據(jù)的最大似然估計(jì)來(lái)獲得每個(gè)類型元素樣本的均值和方差。

      ⑵ 核密度。如果去除正態(tài)分布的假設(shè),就可得到另一種估計(jì)P(xj|class=+1)和P(xj|class=-1)分布更強(qiáng)大的模型。

      計(jì)算完P(guān)(xj|class=+1)和P(xj|class=-1)后,即可對(duì)x分類。如果Pr(class=+1|x)>Pr(class=-1|x),則x的類別為正,否則類別為負(fù)。

      貝葉斯分類釣魚URL檢測(cè)流程如下:

      具體步驟如下:

      ⑴ 獲取大量釣魚網(wǎng)站URL作為測(cè)試樣本;

      ⑵ 抽取URL特征;

      ⑶ 在抽取完特征值后生成訓(xùn)練樣本,對(duì)貝葉斯分類器進(jìn)行訓(xùn)練;

      ⑷ 生成特征向量,用貝葉斯分類器作分類檢測(cè),最終判斷是否為釣魚網(wǎng)站的URL地址。

      3 實(shí)驗(yàn)與結(jié)果分析

      實(shí)驗(yàn)所用數(shù)據(jù)中釣魚 URL數(shù)據(jù)來(lái)自安全聯(lián)盟和http://www.phishtank.com共計(jì)有19247個(gè),而正常URL的個(gè)數(shù)是15145。通過(guò)編寫爬蟲程序,從網(wǎng)站下載網(wǎng)頁(yè)后把網(wǎng)頁(yè)解析為DOM樹,然后將網(wǎng)站中的URL信息提取出來(lái)。本文采用僅單詞匹配和單詞匹配與URL分割二者結(jié)合后,釣魚網(wǎng)站檢測(cè)的準(zhǔn)確率對(duì)比圖如圖3所示,其中X坐標(biāo)代表測(cè)試中URL數(shù)據(jù)所占百分?jǐn)?shù),Y坐標(biāo)代表準(zhǔn)確率,WM表示采用僅單詞匹配的實(shí)驗(yàn)結(jié)果,WM+US表示單詞匹配與URL分割二者結(jié)合后的實(shí)驗(yàn)結(jié)果。從圖3中可看出,采用WM+US的檢測(cè)準(zhǔn)確率更高。

      4 結(jié)束語(yǔ)

      目前網(wǎng)絡(luò)釣魚檢測(cè)已是電子商務(wù)發(fā)展的需要,其科學(xué)意義和應(yīng)用價(jià)值正受到世界各國(guó)學(xué)術(shù)界、工業(yè)界的普遍重視。本文介紹了當(dāng)前釣魚檢測(cè)所涉及的相關(guān)技術(shù),對(duì)基于編輯距離和單詞匹配的貝葉斯釣魚分類檢測(cè)技術(shù)進(jìn)行了深入研究。該分類器根據(jù)編輯距離找出與給定域名的相似域名,從域名信息中提取域名單詞最大匹配特征、域名分割特征和URL分割特征訓(xùn)練貝葉斯釣魚分類器,用來(lái)判定未知的URL是否為釣魚URL。實(shí)驗(yàn)結(jié)果表明,該方法能有效提高判斷的準(zhǔn)確性。

      參考文獻(xiàn):

      [1] Cao Jiuxin, Dong Dan, Mao Bo, Wang Tianfeng,Phishing detection method based on URL features[J].Journal of Sourtheast University,2013.2(29):134-138

      [2] Ma J, Saul L K, Savage S, et al. Beyond Blacklists: Learning to Detect Malicious Web Sites from Suspicious URLs[C]//Proc. of the 15th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.Paris, France: [s. n.],2009:1245-1254

      [3] Bilge L, Kirda E, Kruegel C, et al. EXPOSURE: Finding

      Malicious Domains Using Passive DNS Analysis[C]//Proc. of the 18th Annual Network & Distributed System Security Symposium. California,USA: [s. n.],2011:1-17

      [4] 鄭禮雄,李青山,李素科,袁春陽(yáng).基于域名信息的釣魚URL探測(cè)[J].計(jì)算機(jī)工程,2012.38(10):108-110

      [5] 藺亞?wèn)|.基于URL特征的釣魚網(wǎng)站檢測(cè)方式[J].電子測(cè)試,2014.3:70-72

      [6] 鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計(jì)算機(jī)應(yīng)用研究,2009.26(9):3418-3421

      陇西县| 若尔盖县| 温州市| 山西省| 临江市| 罗田县| 定安县| 静海县| 襄城县| 克什克腾旗| 来凤县| 六枝特区| 含山县| 灵璧县| 澜沧| 太和县| 红安县| 渝中区| 乡城县| 民乐县| 通辽市| 锡林浩特市| 汉沽区| 文水县| 龙州县| 高唐县| 鹤岗市| 公安县| 东丽区| 邹平县| 惠来县| 游戏| 九江县| 大同县| 娄烦县| 余庆县| 湘潭市| 岳池县| 老河口市| 师宗县| 凭祥市|