魏琴芳,李林樂(lè),張 峰,胡向東
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.中國(guó)移動(dòng)研究院,北京 100033;3.重慶郵電大學(xué) 自動(dòng)化學(xué)院,重慶 400065)
一種安卓系統(tǒng)手機(jī)惡意軟件鏈接串行聯(lián)合檢測(cè)方法
魏琴芳1,李林樂(lè)1,張 峰2,胡向東3
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.中國(guó)移動(dòng)研究院,北京 100033;3.重慶郵電大學(xué) 自動(dòng)化學(xué)院,重慶 400065)
惡意軟件鏈接將給人們的財(cái)產(chǎn)甚至生命安全帶來(lái)極大威脅。為了保障移動(dòng)終端通信的安全性,提出了一種安卓系統(tǒng)手機(jī)惡意軟件鏈接串行聯(lián)合檢測(cè)方法,該方法設(shè)計(jì)了基于域名的黑白名單檢測(cè)模塊、敏感關(guān)鍵詞檢測(cè)模塊及基于邏輯回歸算法的檢測(cè)模塊。邏輯回歸檢測(cè)模型基于6種鏈接特征構(gòu)建;3個(gè)檢測(cè)模塊以串行的方式遞進(jìn)工作,一旦得出檢測(cè)結(jié)論即終止本次檢測(cè)。實(shí)驗(yàn)測(cè)試結(jié)果表明,該方法可有效識(shí)別安卓系統(tǒng)手機(jī)惡意軟件下載鏈接,檢測(cè)準(zhǔn)確率達(dá)98.5%以上;且檢測(cè)速度較快,一個(gè)典型鏈接的平均檢測(cè)時(shí)間約0.181 s。
惡意鏈接;檢測(cè);黑白名單;敏感關(guān)鍵詞;邏輯回歸
手機(jī)等智能終端的功能越來(lái)越豐富,極大地方便了人們的通信、學(xué)習(xí)、購(gòu)物、娛樂(lè)等,移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展在帶給人們便利的同時(shí),卻面臨著多種信息安全威脅,如頻繁出現(xiàn)的手機(jī)惡意軟件鏈接就給人們的財(cái)產(chǎn)造成了巨大損失,甚至進(jìn)一步危及人們的生命安全。
Android是目前最流行的智能手機(jī)軟件平臺(tái),報(bào)告稱(chēng),2014年,Android的銷(xiāo)售量占到全球份額的81%的絕對(duì)優(yōu)勢(shì),與此同時(shí),Android智能手機(jī)的日益流行也引起了黑客的攻擊興趣,導(dǎo)致Android惡意軟件大量增加[1]。360互聯(lián)網(wǎng)安全報(bào)告指出,因手機(jī)惡意鏈接導(dǎo)致的財(cái)產(chǎn)損失比重逐年增多,其中,使用Android系統(tǒng)的手機(jī)約占66%。據(jù)《2016年第二季度中國(guó)手機(jī)安全狀況報(bào)告》統(tǒng)計(jì),360互聯(lián)網(wǎng)安全中心共截獲安卓平臺(tái)新增惡意程序樣本426萬(wàn)個(gè),累計(jì)監(jiān)測(cè)到移動(dòng)端用戶(hù)感染惡意程序6 180萬(wàn)人次。手機(jī)惡意程序常以短信的方式出現(xiàn),即在短信中附帶一個(gè)網(wǎng)址鏈接,而這些鏈接往往都是經(jīng)過(guò)騙子偽裝的apk惡意軟件鏈接,用戶(hù)點(diǎn)擊后惡意軟件將直接侵入手機(jī),造成手機(jī)信息被竊或手機(jī)被遠(yuǎn)程控制,從而導(dǎo)致用戶(hù)的財(cái)產(chǎn)被盜。因此,對(duì)安卓手機(jī)惡意軟件下載鏈接的檢測(cè)有十分重要的意義。
目前國(guó)內(nèi)外就惡意軟件檢測(cè)均展開(kāi)了相關(guān)研究,但針對(duì)惡意軟件鏈接的研究涉及較少。
文獻(xiàn)[2]提出一種綜合考慮Android多類(lèi)行為特征的3層混合系綜算法THEA(triple hybrid ensemble algorithm),用于檢測(cè)Android未知惡意應(yīng)用,但其檢測(cè)復(fù)雜度較高。文獻(xiàn)[3]通過(guò)分析內(nèi)核運(yùn)行過(guò)程中內(nèi)核數(shù)據(jù)對(duì)象的訪問(wèn)過(guò)程構(gòu)建內(nèi)核數(shù)據(jù)對(duì)象訪問(wèn)模型,并利用EPT監(jiān)控內(nèi)存訪問(wèn)操作構(gòu)建數(shù)據(jù)特征,提出了一種基于數(shù)據(jù)特征的內(nèi)核惡意檢測(cè)方法,但對(duì)未知惡意應(yīng)用誤檢率較高且開(kāi)銷(xiāo)相對(duì)較大。文獻(xiàn)[4]設(shè)計(jì)了一種基于權(quán)限頻繁模式挖掘算法的Android惡意應(yīng)用檢測(cè)方法,能夠自動(dòng)挖掘出權(quán)限之間的關(guān)聯(lián)性,但實(shí)驗(yàn)表明誤報(bào)率較高。文獻(xiàn)[5]提出了一種基于差分系數(shù)激勵(lì)的惡意軟件檢測(cè)方法,通過(guò)惡意軟件引起的異常變化作為研究目標(biāo),從而進(jìn)行危險(xiǎn)信號(hào)的定義,進(jìn)而實(shí)現(xiàn)檢測(cè),但隨著惡意軟件變化快、表現(xiàn)出新的特征,會(huì)導(dǎo)致較嚴(yán)重的漏檢率。文獻(xiàn)[6]提出一種基于混合集的前饋神經(jīng)網(wǎng)絡(luò)的惡意軟件行為檢測(cè)方法,但準(zhǔn)確率僅有83.9%。文獻(xiàn)[7]結(jié)合靜態(tài)分析和動(dòng)態(tài)分析,提出通過(guò)統(tǒng)計(jì)API函數(shù)和跟蹤敏感信息流動(dòng)以及通過(guò)系統(tǒng)日志分析記錄敏感行為,從而進(jìn)行軟件檢測(cè),但由于未能處理好數(shù)據(jù)流跟蹤特征,因此檢測(cè)效果并不好。文獻(xiàn)[8]提出一種基于新型機(jī)器學(xué)習(xí)的惡意軟件檢測(cè)方法,通過(guò)挖掘權(quán)限和API函數(shù)功能來(lái)提取特征,并組合多個(gè)機(jī)器學(xué)習(xí)算法來(lái)檢測(cè),檢測(cè)準(zhǔn)確率較高,但復(fù)雜度仍有待改善。文獻(xiàn)[9]采用監(jiān)控移動(dòng)設(shè)備獲取各種特征,然后用改進(jìn)的樸素貝葉斯分類(lèi)算法進(jìn)行惡意或正常軟件分類(lèi),但準(zhǔn)確率并不高。
本文提出一種新的安卓系統(tǒng)手機(jī)惡意軟件下載鏈接檢測(cè)方法,具體設(shè)計(jì)了基于域名的黑白名單檢測(cè)、敏感關(guān)鍵詞檢測(cè)及基于邏輯回歸算法構(gòu)建的模型檢測(cè)3個(gè)模塊,它們基于串行的模式工作,可有效提高移動(dòng)通信的安全性。
針對(duì)手機(jī)短信等文本中攜帶的惡意軟件鏈接進(jìn)行安全性檢測(cè),所提出的安卓系統(tǒng)手機(jī)軟件鏈接聯(lián)合檢測(cè)方法涉及3個(gè)模塊。模塊1是基于鏈接域名構(gòu)建的黑白名單檢測(cè)模塊,白名單是由正常鏈接的域名構(gòu)成,黑名單由惡意鏈接的域名構(gòu)成;模塊2是基于對(duì)短信等文本信息分析構(gòu)建的;模塊3是基于邏輯回歸算法構(gòu)建的檢測(cè)模型,該檢測(cè)模型基于提出的6種鏈接特征構(gòu)建而成。具體檢測(cè)流程如圖1所示。
圖1 手機(jī)惡意軟件鏈接串行聯(lián)合檢測(cè)流程Fig.1 Process of serial joint detection of malicious software links for mobile phone
2.1 基于鏈接域名的黑白名單檢測(cè)
通常,手機(jī)用戶(hù)一般通過(guò)手機(jī)應(yīng)用商店,如豌豆莢、百度下載助手、360手機(jī)助手等手機(jī)應(yīng)用商店下載手機(jī)應(yīng)用軟件,通過(guò)短信發(fā)送鏈接的方式讓他人下載手機(jī)軟件是非常罕見(jiàn)的?;诖?,構(gòu)建基于鏈接域名的黑白名單庫(kù),其中白名單由常用網(wǎng)址域名及手機(jī)熱門(mén)應(yīng)用商店的網(wǎng)址域名構(gòu)成,黑名單[10]主要由安全聯(lián)盟等權(quán)威機(jī)構(gòu)曝光的手機(jī)惡意軟件下載鏈接域名構(gòu)成。檢測(cè)過(guò)程中將待測(cè)域名先后與2種鏈接域名庫(kù)進(jìn)行匹配,若與白名單匹配成功,則判定為正常鏈接;若與黑名單匹配成功,則判定為惡意鏈接;否則,該待測(cè)域名暫且無(wú)法確定,需轉(zhuǎn)下一個(gè)模塊檢測(cè)。
2.2 基于敏感關(guān)鍵詞檢測(cè)
對(duì)攜帶手機(jī)惡意軟件下載鏈接的大量短信等文本信息分析發(fā)現(xiàn),存在對(duì)鏈接起到誘導(dǎo)點(diǎn)擊作用的關(guān)鍵詞與鏈接內(nèi)容不吻合的情形,如“×××,12號(hào)我結(jié)婚,要來(lái)喝我喜酒哦,電子請(qǐng)柬和我們的結(jié)婚照在這里面t.cn/RqEMOFK”,恢復(fù)短信中鏈接后的原始鏈接為:shu168.u7.86sudu.net/請(qǐng)柬1111.apk;實(shí)際上,真實(shí)的電子請(qǐng)柬鏈接不會(huì)為.apk形式。據(jù)統(tǒng)計(jì),手機(jī)惡意軟件鏈接短信中有47%冒充學(xué)校發(fā)送學(xué)生信息,38%冒充熟人發(fā)送相冊(cè)或視頻,其余主要為冒充交警發(fā)送交通違法記錄、冒充親友發(fā)送宴會(huì)請(qǐng)?zhí)取R虼?,可以建立關(guān)于冒充信息的敏感關(guān)鍵詞庫(kù)。
對(duì)待測(cè)樣本信息進(jìn)行預(yù)處理,如刪除文本中的空格、下劃線、括號(hào)、標(biāo)點(diǎn)符號(hào)、鏈接等,將預(yù)處理后的文本信息與敏感關(guān)鍵詞庫(kù)進(jìn)行正則匹配,若匹配成功,說(shuō)明待測(cè)樣本中含敏感關(guān)鍵詞,則判定所包含鏈接為惡意鏈接;否則轉(zhuǎn)下一模塊檢測(cè)。
2.3 基于邏輯回歸算法的鏈接檢測(cè)
2.3.1 鏈接特征提取與處理
通過(guò)對(duì)大量惡意鏈接進(jìn)行觀察分析,發(fā)現(xiàn)惡意鏈接與正常鏈接存在特征上的區(qū)別,可以通過(guò)提取惡意鏈接敏感特征[11]形成特征向量,基于邏輯回歸算法,構(gòu)建惡意鏈接檢測(cè)模型??梢岳玫膼阂怄溄用舾刑卣靼ǎ孩冁溄娱L(zhǎng)度X1:正常手機(jī)軟件下載鏈接長(zhǎng)度一般在60到130 之間,而惡意鏈接長(zhǎng)度主要分布在20左右。②鏈接域名中的“.”數(shù)X2:一般手機(jī)惡意軟件下載鏈接域名的 “.”數(shù)為1-4個(gè),而正常手機(jī)軟件下載鏈接的域名“.”數(shù)很少為1個(gè)。③鏈接中路徑級(jí)數(shù)X3:正常手機(jī)軟件下載鏈接的路徑級(jí)數(shù)主要為3-7級(jí),而手機(jī)惡意軟件下載鏈接的路徑數(shù)通常為1或2級(jí)。④鏈接中含有中文X4:正常手機(jī)軟件下載鏈接中很少出現(xiàn)中文字符,而惡意手機(jī)軟件下載鏈接樣本中有超過(guò)一半的鏈接含中文字符。若鏈接中含有中文字符,X4=1,否則,X4=0。⑤鏈接頂級(jí)域名中有不常用頂級(jí)域名X5:正常手機(jī)軟件下載鏈接的頂級(jí)域名一般為“.com”,而手機(jī)惡意軟件下載鏈接中的頂級(jí)域名中常見(jiàn)“.cc”、“.pw”、“.top”、“.xyz”、“.tk”、“.hk”等不常用的頂級(jí)域名。若鏈接域名中含有不常用的頂級(jí)域名,X5=1,否則,X5=0。⑥鏈接域名注冊(cè)時(shí)間與當(dāng)前時(shí)間的時(shí)間差X6:正常手機(jī)軟件下載通常源于相對(duì)較成熟的手機(jī)軟件網(wǎng)站,其域名注冊(cè)時(shí)間一般較早,而手機(jī)惡意軟件下載鏈接域名的注冊(cè)時(shí)間普遍較晚,故可將域名注冊(cè)時(shí)間與當(dāng)前時(shí)間的時(shí)間差作為一項(xiàng)特征。若待測(cè)鏈接域名注冊(cè)時(shí)間與當(dāng)前時(shí)間的時(shí)間差小于閾值,X6=1,否則,X6=0。
根據(jù)上述分析,本文主要從鏈接長(zhǎng)度、鏈接域名中的點(diǎn)數(shù)、鏈接中路徑級(jí)數(shù)、鏈接中含有中文字符、鏈接頂級(jí)域名有不常用頂級(jí)域名以及鏈接域名注冊(cè)時(shí)間與當(dāng)前時(shí)間的時(shí)間差這6個(gè)特征進(jìn)行分析。在搜集樣本的過(guò)程中發(fā)現(xiàn),短信等攜帶的手機(jī)惡意軟件鏈絕大部分是以短鏈接的形式呈現(xiàn),短鏈接即為將較長(zhǎng)的網(wǎng)址轉(zhuǎn)換為簡(jiǎn)短的網(wǎng)址字符串。在提取鏈接特征的過(guò)程中,若為短鏈接,需先恢復(fù)成原始鏈接再提取。
2.3.2 邏輯回歸模型建立
邏輯回歸算法用于估計(jì)某種事物的可能性[12],該算法可用于處理回歸或分類(lèi)問(wèn)題,本文涉及的內(nèi)容為待測(cè)鏈接為正常鏈接還是惡意鏈接的二分類(lèi)問(wèn)題[13]。模型構(gòu)建過(guò)程如圖2所示。
圖2 邏輯回歸模型構(gòu)建Fig.2 Building logistic regression model
在介紹邏輯回歸模型之前,本文先引入sigmoid函數(shù),如(1)式所示。
(1)
對(duì)應(yīng)的函數(shù)曲線如圖3所示。
從圖3可以看出,sigmoid函數(shù)是一個(gè)S形曲線,取值在[0,1]。在遠(yuǎn)離x=0的2個(gè)方向,函數(shù)值很快接近0或1,這個(gè)性質(zhì)能夠以概率的方式來(lái)解釋。
圖3 sigmoid函數(shù)曲線Fig.3 Curve of sigmoid function
假設(shè)樣本是{X,y},y是0或者1,這里設(shè)定1表示惡意鏈接,0為正常鏈接,其中,X是m維的鏈接特征向量。提取某樣本的鏈接特征向量X,邏輯回歸模型假設(shè):
(2)
(2)式中:θ是模型參數(shù),即回歸系數(shù);σ是sigmoid函數(shù)。相應(yīng)的決策函數(shù)為
y*=1,P(y=1|X;θ)>0.5
(3)
本文選取0.5作為閾值;值得指出的是,特定應(yīng)用的閾值可能不同。
接下來(lái)求解模型中的參數(shù)。在邏輯回歸模型中,回歸參數(shù)的求解即通過(guò)最大似然法[14],即使得似然函數(shù)值最大時(shí)的系數(shù)取值θ*。由于每個(gè)樣本都是獨(dú)立的,則n個(gè)獨(dú)立樣本出現(xiàn)的似然函數(shù)可表示為
(4)
在優(yōu)化求解過(guò)程中,需要借助梯度下降算法:
(5)
(5)式中,參數(shù)α為學(xué)習(xí)率。本文采用隨機(jī)梯度算法,每次迭代時(shí)隨機(jī)選擇樣本來(lái)更新回歸系數(shù)。
特別說(shuō)明,在邏輯回歸模型中,待測(cè)鏈接為手機(jī)惡意軟件下載鏈接的可能性與自變量(即特征X1,X2,X3,X4,X5,X6)的關(guān)系可以表示為
Z=θ0+θ1X1+θ2X2+...+θnXn
(6)
為了得到待測(cè)鏈接為惡意鏈接的可能性,基于(7)式得到待測(cè)鏈接是惡意鏈接的概率[15]。
p=1/(1+e-Z)
(7)
(7)式中:p表示待測(cè)鏈接為惡意鏈接的概率;Z表示基于權(quán)重的所有特征變量之和;θi(i=0,1,…,n)表示基于訓(xùn)練樣本得到的回歸系數(shù);n表示參與回歸分析的自變量的數(shù)量;Xi(i=1,2,…,n)表示自變量;輸出概率值為0~1。
在構(gòu)建邏輯回歸模型訓(xùn)練樣本過(guò)程時(shí),將樣本為惡意鏈接時(shí)設(shè)置為1,正常鏈接設(shè)置為0。訓(xùn)練完成后,得到各個(gè)特征的回歸系數(shù)θ0,θ1,θ2,θ3,θ4,θ5,θ6,以及將提取待測(cè)鏈接的特征X1,X2,X3,X4,X5,X6的值代入(6)式,得到Z值;最后,基于(7)式得到樣本為惡意鏈接的概率,并根據(jù)決策函數(shù)判定為惡意鏈接或正常鏈接。
3.1 實(shí)驗(yàn)數(shù)據(jù)集的選取
實(shí)驗(yàn)數(shù)據(jù)集的惡意鏈接來(lái)自安全聯(lián)盟和12321網(wǎng)絡(luò)不良與垃圾信息舉報(bào)受理中心確認(rèn)的手機(jī)惡意軟件下載鏈接;實(shí)驗(yàn)數(shù)據(jù)集的正常鏈接主要來(lái)自各大手機(jī)應(yīng)用商店及手機(jī)軟件下載網(wǎng)站的軟件下載鏈接。試驗(yàn)用826條惡意鏈接和800條正常鏈接樣本分別標(biāo)記為malicious和normal。首先提取出這1 626條鏈接的特征向量,形成實(shí)驗(yàn)所使用的特征向量集。隨機(jī)選擇其中500條惡意鏈接和500條正常鏈接作為訓(xùn)練集使用。
3.2 實(shí)驗(yàn)測(cè)試和結(jié)果分析
仿真條件是一臺(tái)CPU主頻為3.20 GHz、內(nèi)存為4 GB、硬盤(pán)為500 GB的個(gè)人電腦,基于Linux系統(tǒng)通過(guò)安裝Eclipse軟件及PyDev插件搭建Python語(yǔ)言的開(kāi)發(fā)運(yùn)行環(huán)境。實(shí)驗(yàn)過(guò)程中,首先利用標(biāo)記好的一部分鏈接作為訓(xùn)練集、訓(xùn)練出邏輯回歸分類(lèi)器模型;然后利用訓(xùn)練好的模型檢測(cè)余下部分待測(cè)樣本。模型訓(xùn)練結(jié)果如表1所示。
表1 邏輯回歸系數(shù)訓(xùn)練結(jié)果
表1中模型回歸參數(shù)θ1,θ2,θ3,θ4,θ5,θ6分別為特征X1,X2,X3,X4,X5,X6的回歸系數(shù),其中,θ0為常變量的回歸系數(shù)。
為驗(yàn)證所提出檢測(cè)方法的有效性,首先對(duì)每個(gè)模塊進(jìn)行單獨(dú)測(cè)試。將1 626條樣本用模塊1的方法進(jìn)行檢測(cè),模塊1使用的黑名單有800條記錄,白名單有1 000條記錄。仿真測(cè)試結(jié)果表明,采用模塊1方法的檢測(cè)時(shí)間需2.357 s,未超出設(shè)定的黑白名單庫(kù)的樣本檢測(cè)準(zhǔn)確率100%,說(shuō)明采用模塊1方法能快速而準(zhǔn)確地檢測(cè)到在黑名單庫(kù)中的惡意鏈接,并能有效過(guò)濾掉正常鏈接,其缺點(diǎn)是對(duì)于新出現(xiàn)的惡意鏈接卻無(wú)能為力。為驗(yàn)證模塊2方法的有效性,將以上1 626條惡意樣本用模塊2的方法進(jìn)行檢測(cè)。仿真結(jié)果表明,基于模塊2的檢測(cè)時(shí)間需0.499 s,檢測(cè)準(zhǔn)確率為94.95%;優(yōu)點(diǎn)是檢測(cè)效率高,缺點(diǎn)是過(guò)分依賴(lài)敏感關(guān)鍵詞庫(kù),對(duì)于缺失敏感詞的信息文本將導(dǎo)致誤判。為驗(yàn)證模塊3的有效性,將采用相同數(shù)量的訓(xùn)練樣本基于樸素貝葉斯算法進(jìn)行訓(xùn)練。實(shí)驗(yàn)將以上1 626條樣本采用邏輯回歸算法測(cè)試,檢測(cè)1 626條樣本耗時(shí)485.340 s,因此,模塊3平均檢測(cè)一個(gè)鏈接需要0.298 s,其檢測(cè)準(zhǔn)確率為98.55%,而采用樸素貝葉斯算法進(jìn)行測(cè)試發(fā)現(xiàn),檢測(cè)準(zhǔn)確率僅有95.88%。
接著,基于同樣的實(shí)驗(yàn)樣本,將3個(gè)模塊結(jié)合起來(lái)進(jìn)行聯(lián)合檢測(cè),得到的實(shí)驗(yàn)總耗時(shí)為294.365 s,平均每個(gè)鏈接的檢測(cè)時(shí)間為0.181 s;且分別有4個(gè)正常鏈接樣本和4個(gè)惡意鏈接樣本被誤判,檢測(cè)準(zhǔn)確率為99.5%,誤判率為0.5%。
不同方法的檢測(cè)準(zhǔn)確率統(tǒng)計(jì)如圖4所示。
圖4 不同方法檢測(cè)準(zhǔn)確率對(duì)比Fig.4 Comparison of accuracy rate of detection for diffident methods
通過(guò)對(duì)仿真生成的log日志進(jìn)行誤判結(jié)果的分析發(fā)現(xiàn),誤判來(lái)自于模塊3,被誤判的4個(gè)正常鏈接特征表現(xiàn)為鏈接長(zhǎng)度較短、路徑級(jí)數(shù)較少,與惡意鏈接特征接近;被誤判的4個(gè)惡意鏈接表現(xiàn)為鏈接長(zhǎng)度較長(zhǎng)、路徑級(jí)數(shù)較多、域名注冊(cè)時(shí)間較早,都與正常鏈接特征接近。
手機(jī)惡意軟件下載鏈接具有很強(qiáng)的欺騙性和破壞性,極大地威脅著人們的財(cái)產(chǎn)甚至生命安全。本文針對(duì)安卓系統(tǒng)手機(jī)中的惡意軟件下載鏈接,基于已知鏈接域名建立黑白名單、基于惡意鏈接樣本文本信息建立敏感關(guān)鍵詞庫(kù)、基于樣本鏈接特征建立邏輯回歸模型,構(gòu)建起基于3個(gè)檢測(cè)模塊的安卓系統(tǒng)手機(jī)惡意軟件下載鏈接串行聯(lián)合檢測(cè)模型。基于真實(shí)數(shù)據(jù)記錄的實(shí)驗(yàn)測(cè)試結(jié)果表明:所提出的安卓系統(tǒng)手機(jī)惡意軟件下載鏈接串行聯(lián)合檢測(cè)方法實(shí)用性強(qiáng),檢測(cè)準(zhǔn)確率可達(dá)98.5%以上;且檢測(cè)效率高,典型地,一個(gè)鏈接的檢測(cè)平均耗時(shí)約0.181 s,能夠?qū)崿F(xiàn)對(duì)手機(jī)惡意軟件下載鏈接的快速檢測(cè)。該方法有助于提升移動(dòng)通信用戶(hù)的信息安全并保護(hù)其財(cái)產(chǎn)安全。
[1] 卿斯?jié)h.Android安全研究進(jìn)展[J]. 軟件學(xué)報(bào),2016,27(1) :45-71. QING S H. Research progress on Android security [J]. Journal of Software,2016, 27(1) :45-71.
[2] 楊歡,張玉清,胡予濮,等. 基于多類(lèi)特征的Android應(yīng)用惡意行為檢測(cè)系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):15-27. YANG Huan, ZHANG Yuqing, HU Yupu,et al. A Malware Behavior Detection System of Android Applications Multi-Class Features[J]. Chinese Journal of Computers,2014, 37(1) :15-27.
[3] 陳志鋒,李清寶,張平,等.基于聚類(lèi)分析的內(nèi)核惡意軟件特征選擇[J]. 電子與信息學(xué)報(bào),2015,37(12): 2821-2829. CHEN Zhifeng,LI Qingbao,ZHANG Ping, et al. Signature Selection for Kernel Malware Based on Cluster Analysis [J]. Journal of Electronics & Information Technology, 2015, 37(12): 2821-2829.
[4] 楊歡,張玉清,胡予濮,等.基于權(quán)限頻繁模式挖掘算法的Android惡意應(yīng)用檢測(cè)方法[J].通信學(xué)報(bào),2013,34(Z1) :106-115. YANG Huan,ZHANG Yuqing,Hu Yupu, et al. Android Malware Detection Method Based on Permission Sequential Pattern Miming Algorithm [J]. Journal on Communications,2013,34(Z1):106-115.
[5] LIANG Yiwen,YANG He,LI Tao, et al.A Differential Coefficient Inspired Method for Malicious Software Detection[C]//Intelligent Information Technology Application(IITA),2009 Third International Symposium on.Nanchang:IEEE Press,2009:130-133.
[6] WANG Y,GU D,WEN M,et al.Classification of malicious software behaviour detection with hybrid set based feed forward neural network[C] //Advances in Neural Networks Isnn 2010,International Symposium on Neural Networks.Shanghai,China:IEEE Press,2010:556-565.
[7] LIU Jinxin,WU Hao, WANG Huabin. A detection method for malicious codes in Android apps[C]//Wireless Communications,Networking and Mobile Computing,10th International Conference on.Beijing:IEEE Press,2014:514-519.
[8] QIAO M,SUNG A H, LIU Q. Merging Permission and API Features for Android Malware Detection[C]//2016 5th IIAI International Congress on Advanced Applied Informatics (IIAI-AAI).Kumamoto:IEEE Press,2016:566-571.
[9] UPCHURCH J, ZHOU X. First byte:Force-based clustering of filtered block N-grams to detect code reuse in malicious software[C]//Malicious and Unwanted Software: "The Americas" (MALWARE),2013 8th International Conference on.Fajardo:IEEE Press,2013:68-76.
[10] 宋明秋,曹曉蕓.基于敏感特征的網(wǎng)絡(luò)釣魚(yú)網(wǎng)站檢測(cè)方法[J].大連理工大學(xué)學(xué)報(bào),2013,53(6) :903-907. SONG Mingqiu,CAO Xiaoyun. Phishing Detection Method Based on Sensitive Characteristics of Phishing Webpage [J].Journal of Dalian University of Technology,2013,53(6) : 903-907.
[11] 王燕,王興芬,任俊玲.面向釣魚(yú)網(wǎng)站敏感特征項(xiàng)選取的IIGAIN算法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2016,33(4) :297-301. WANG Yan,WANG Xingfen,REN Junling. IIGAIN Algorithm Oriented to Fishing Websites Sensitive Feature Items Selection [J]. Computer Applications and Software,2016,33(4) :297-301.
[12] 吳含前,朱云杰,謝玨.基于邏輯回歸的中文在線評(píng)論有效性檢測(cè)模型[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2015,45(3) :433-437. WU Hanqian,ZHU Yunjie,XIE Jue. Detection Model of Chinese Online Reviews Based on Logistic Regression [J].Journal of SouthEast University (Natural Science Edition).2015, 45(3) :433-437.
[13] OKAMURA H,ETANI Y, DOHI T. A Multi-factor Software Reliability Model Based on Logistic Regression[C] //2010 IEEE 21st International Symposium on Software Reliability Engineering.San Jose,CA:IEEE Press, 2010:31-40.
[14] 毛毅,陳穩(wěn)霖,郭寶龍,等.基于密度估計(jì)的邏輯回歸模型[J]. 自動(dòng)化學(xué)報(bào), 2014,40(1):62-72. MAO Yi,CHEN WenLin,GUO Baolong, et al.A Novel Logistic Model Based on Density Estimation [J].Acta Automatica Sinica, 2014,40(1):62-72.
[15] HU W, QIAN Y, SOONG F K. A new Neural Network based logistic regression classifier for improving mispronunciation detection of L2 language learners[C] //Chinese Spoken Language Processing (ISCSLP),2014 9th International Symposium on.Singapore:IEEE Press,2014:245-249.
(編輯:王敏琦)
A serial joint detection method of malicious software links for Android phone
WEI Qinfang1, LI Linle1, ZHANG Feng2, HU Xiangdong3
(1. College of Communications and Information Engineering, Chongqing University of Posts and Telecommunications,Chongqing 400065, P.R.China;2. Research Institute of China Mobile, Beijing 100033,P.R.China;3. College of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065,P.R.China)
Malicious software links may bring a great threat to people’s property and even their lives. In order to ensure the security of communication for mobile terminals, a method of serial joint detection of malicious software links in Android system is proposed, which integrated a black and white list detection module based on domain name, a sensitive keyword detection module and a detection module based on logistic regression algorithm. The logistic regression detection model is constructed based on six kinds of link features. The three detection modules work in a serial way and the whole detection is stopped on reaching any conclusion. The experimental results show that the proposed method can effectively identify malicious software download links in Android system, its accuracy rate of detection is over 98.5%. And the detection speed is fast, typically, the average detection time of any link is about 0.181s.
malicious links; detection; a black and white list; sensitive keywords; logical regression
10.3979/j.issn.1673-825X.2017.02.017
2016-11-13
2017-03-04 通訊作者:魏琴芳 weiqf@cqupt.edu.cn
教育部—中國(guó)移動(dòng)聯(lián)合研究基金(MCM20150202);重慶市教委科研項(xiàng)目(KJ1602201)
Foundation Items:The Joint Research Foundation of the Ministry of Education of the People’s Republic of China and China Mobile(MCM20150202);The Science and Technology Project Affiliated to Chongqing Education Commission(KJ1602201)
TP309
A
1673-825X(2017)02-0251-06
魏琴芳(1971-),女,云南人,高級(jí)工程師,主要研究方向?yàn)闊o(wú)線通信技術(shù)。E-mail: weiqf@cqupt.edu.cn。
李林樂(lè)(1991-),女,安徽合肥人,碩士研究生,主要研究方向移動(dòng)通信安全。E-mail:lilinle260@qq.com。
張 峰(1977-),男,湖北孝感人,高級(jí)工程師,博士,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息安全技術(shù)應(yīng)用。
胡向東( 1971-) ,男,四川廣安人,教授,博士,主要研究方向?yàn)榫W(wǎng)絡(luò)化測(cè)控及其信息安全,物聯(lián)網(wǎng)與智慧空間安全,復(fù)雜系統(tǒng)建模、仿真與優(yōu)化。E-mail: huxd@cqupt.edu.cn。