呂少卿,張玉清,2,劉東航,張光華,3
(1. 西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安710071;2. 中國科學(xué)院大學(xué)國家計(jì)算機(jī)網(wǎng)絡(luò)入侵防范中心,北京 100190;3. 中國科學(xué)院信息工程研究所物聯(lián)網(wǎng)信息安全技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100097)
在線社交網(wǎng)絡(luò)中Spam相冊檢測方案
呂少卿1,張玉清1,2,劉東航1,張光華1,3
(1. 西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,陜西 西安710071;2. 中國科學(xué)院大學(xué)國家計(jì)算機(jī)網(wǎng)絡(luò)入侵防范中心,北京 100190;3. 中國科學(xué)院信息工程研究所物聯(lián)網(wǎng)信息安全技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100097)
提出一種針對(duì)Spam相冊的檢測方案。首先分析了Photo Spam的攻擊特點(diǎn)以及與傳統(tǒng)Spam的差異,在此基礎(chǔ)上構(gòu)造了12個(gè)提取及時(shí)且計(jì)算高效的特征。利用這些特征提出了有監(jiān)督學(xué)習(xí)的檢測模型,通過2 356個(gè)相冊的訓(xùn)練形成Spam相冊分類器,實(shí)驗(yàn)表明能夠正確檢測到測試集中100%的Spam相冊和98.2%的正常相冊。最后將訓(xùn)練后的模型應(yīng)用到包含315 115個(gè)相冊的真實(shí)數(shù)據(jù)集中,檢測到89 163個(gè)Spam相冊,正確率達(dá)到97.2%。
社交網(wǎng)絡(luò)安全;Photo Spam;Spam檢測;人人網(wǎng)
隨著在線社交網(wǎng)絡(luò)(以下簡稱為社交網(wǎng)絡(luò))的快速發(fā)展,人們的生活越來越依賴于社交網(wǎng)絡(luò),人們每天都在社交網(wǎng)絡(luò)中查看好友最近的經(jīng)歷、分享自己的新鮮事以及獲取最新資訊等。
社交網(wǎng)絡(luò)給人們?nèi)粘I顜肀憷耐瑫r(shí),也帶來了新的安全問題[1]。Spam攻擊就是其中最主要的安全威脅[2,3]。攻擊者利用社交網(wǎng)絡(luò)提供的各項(xiàng)功能來進(jìn)行Spam攻擊,如利用微博(狀態(tài))[4,5]、#[6]、@[7]和評(píng)論[8]等功能來傳播廣告、色情以及釣魚等惡意信息,嚴(yán)重威脅到用戶的個(gè)人信息安全以及社交網(wǎng)絡(luò)的信譽(yù)體系。針對(duì)這些問題,學(xué)術(shù)界和工業(yè)界都提出了大量的方案來檢測或防御 Spam攻擊[9~13]。但在利益的驅(qū)動(dòng)之下,攻擊者又提出了新的攻擊方式來躲避或繞過這些檢測和防御方案,Photo Spam就是其中之一。Photo Spam是攻擊者利用社交網(wǎng)絡(luò)中照片的分享功能來存儲(chǔ)和傳播 Spam信息的新式Spam攻擊。
Photo Spam最早是Wang等[14]提出,他們發(fā)現(xiàn)人人網(wǎng)中的攻擊者通過上傳Spam照片,并在其中嵌入Spam信息來推廣衣服、鞋子等物品。之后Cao等[15]發(fā)現(xiàn)在 Facebook中攻擊者通過短時(shí)間內(nèi)上傳大量照片來推銷減肥藥。同時(shí)這些工作針對(duì) Photo Spam提出了相應(yīng)的檢測方案,如Wang等[15]利用用戶的鼠標(biāo)點(diǎn)擊模型來檢測Spam賬號(hào),Cao等[15]利用賬號(hào)的行為模式和登錄IP地址來檢測Spam賬號(hào)。這些工作雖然能夠檢測到一定的Photo Spam賬號(hào),但是這些方案都是針對(duì)Spam賬號(hào)進(jìn)行檢測,而不是Spam相冊本身。針對(duì)Spam賬號(hào)進(jìn)行檢測的方案需要基于賬號(hào)長期的行為數(shù)據(jù),即需要在 Spam賬號(hào)執(zhí)行大量的惡意行為操作之后才能夠判斷為Spam賬號(hào),而此時(shí)Spam賬號(hào)的行為已經(jīng)對(duì)正常用戶造成了損害。而針對(duì)Spam相冊的檢測方案能夠在用戶上傳照片之后就對(duì)相冊進(jìn)行檢測,能夠在攻擊者傳播Spam信息之前就檢測到Spam相冊,從而阻止Spam相冊對(duì)正常用戶的影響。
本文通過分析 Photo Spam的特征提出了一種針對(duì) Spam相冊的檢測方案。首先,詳細(xì)分析了Photo Spam的攻擊策略,并對(duì)比了Photo Spam與傳統(tǒng)Spam攻擊的區(qū)別;基于此分析構(gòu)造了12個(gè)提取及時(shí)且計(jì)算高效的特征,并對(duì)比了Spam相冊與正常相冊在這些特征方面的不同。之后利用這些特征設(shè)計(jì)了基于有監(jiān)督學(xué)習(xí)的檢測方案并通過包含2 356個(gè)相冊的數(shù)據(jù)集進(jìn)行訓(xùn)練,形成了針對(duì)Spam相冊的分類器。實(shí)驗(yàn)表明本文的分類器能夠正確區(qū)分測試集中100%的Spam相冊以及98.2%的正常相冊。隨后本文分析了分類器在不同的訓(xùn)練樣本比例、不同的分類算法以及不同特征子集情況下的分類結(jié)果。最后本文將訓(xùn)練后的分類器應(yīng)用到包含有315 115個(gè)未標(biāo)識(shí)相冊的真實(shí)數(shù)據(jù)集中,檢測到89 163個(gè)Spam相冊,人工驗(yàn)證正確率為97.2%。
雖然本文的實(shí)驗(yàn)只是針對(duì)人人網(wǎng),但是本文的特征和模型只需要微小調(diào)整就能適用于所有的社交網(wǎng)絡(luò)(如Facebook等)。
Photo Spam是一種新的Spam攻擊方式。在Photo Spam中攻擊者首先利用控制的賬號(hào)(攻擊者創(chuàng)建的虛假賬號(hào)或盜用的賬號(hào))在社交網(wǎng)絡(luò)中創(chuàng)建一個(gè)相冊,然后在相冊中上傳 Spam照片,并在照片的描述中加入惡意信息,如廣告、釣魚等URL,最后攻擊者通過分享該相冊或其中的照片進(jìn)行傳播。攻擊者為了吸引更多的用戶,會(huì)用有吸引性的名稱來命名相冊,而且為了提高相冊中 Spam照片的訪問量以及躲避檢測,攻擊者會(huì)在 Spam相冊中加入一些正常照片來偽裝成正常相冊。
具體的攻擊實(shí)例如下。攻擊者創(chuàng)建了一個(gè)標(biāo)題為“世界100位用演技詮釋電影的男人”的相冊。在該相冊中除了與相冊名稱符合的照片之外,還包含有Spam照片,這些Spam照片的描述中包含指向出售照片中商品的超鏈接。攻擊者還可以通過對(duì)該相冊進(jìn)行分享來傳播Spam信息,也可以用控制的多個(gè)賬號(hào)分享該相冊。任何正常用戶如果被該分享的標(biāo)題所吸引并訪問該相冊,就會(huì)在瀏覽的過程中不斷接收到Spam照片以及Spam信息。這將會(huì)嚴(yán)重?fù)p害用戶對(duì)社交網(wǎng)絡(luò)的使用體驗(yàn)。
與傳統(tǒng)Spam攻擊相比,Photo Spam具有以下特點(diǎn)。首先,Photo Spam攻擊中惡意信息的載體更加豐富。傳統(tǒng)Spam攻擊中攻擊者將微博、評(píng)論、私信等作為惡意信息載體,每次傳播都是將惡意信息文本進(jìn)行復(fù)制。而在Photo Spam攻擊中,攻擊者可以將惡意信息存儲(chǔ)在照片的描述、評(píng)論以及標(biāo)題中,甚至可以作為水印直接嵌入到照片中。這種惡意信息的多種存在形式讓 Photo Spam更難被檢測到。其次,Photo Spam與傳統(tǒng)Spam攻擊在惡意信息的傳播方式上也有區(qū)別。Photo Spam進(jìn)行傳播的主要方式是分享,而傳統(tǒng)Spam進(jìn)行傳播主要是將惡意信息進(jìn)行多次重復(fù)發(fā)送。分享是一種有效的傳播手段,因?yàn)榉窒碇划a(chǎn)生一個(gè)正常的鏈接,并不產(chǎn)生更多的惡意信息,而多次發(fā)送的方式每次都復(fù)制惡意信息,所以更容易被檢測到,因此這種傳播方式的不同使Photo Spam攻擊更難被檢測到。再次,在Photo Spam中惡意信息的存儲(chǔ)與傳播可以分離。由于Photo Spam的傳播方式主要是分享,因此,攻擊者可以利用新創(chuàng)建的賬號(hào)來上傳Spam照片,然后利用擁有更多好友的Spam賬號(hào)來分享Spam相冊,這樣能夠有效避免一些擁有更多好友的 Spam賬號(hào)被檢測到,降低了攻擊者的損失并使 Photo Spam威脅到更多正常用戶。最后,在Photo Spam中正常用戶可能會(huì)無意參與到Spam信息的傳播。攻擊者為了增加Spam照片的訪問量會(huì)在Spam相冊中混雜正常照片,正常用戶可能會(huì)分享這些正常照片而沒有察覺到在該相冊中存在Spam內(nèi)容,這樣更加擴(kuò)大了Photo Spam的危害范圍。
通過以上分析,本文發(fā)現(xiàn)與傳統(tǒng)Spam攻擊相比,Photo Spam對(duì)正常用戶的危害更大而且更難被檢測到。而Spam相冊是Photo Spam整個(gè)攻擊過程的核心,所有惡意信息的存儲(chǔ)與傳播都是基于Spam相冊。因此,針對(duì)Spam相冊的檢測方案能夠有效降低Photo Spam攻擊對(duì)正常用戶的影響,這就是本文工作的主要出發(fā)點(diǎn)。
本文的實(shí)驗(yàn)數(shù)據(jù)獲取自人人網(wǎng)。人人網(wǎng)是中國最大的社交網(wǎng)絡(luò)之一,2015年,人人網(wǎng)的注冊用戶數(shù)已經(jīng)達(dá)到2.26億,月活躍用戶數(shù)為4 600萬。人人網(wǎng)與國外的Facebook具有類似的功能和特性,它們都屬于實(shí)名制注冊網(wǎng)站,用戶在其中能夠創(chuàng)建個(gè)人賬號(hào)、填寫個(gè)人信息、與其他用戶建立雙向好友關(guān)系,并能夠發(fā)布自己的新鮮事、創(chuàng)建相冊、上傳照片,以及將各種有趣的事情分享到自己的新鮮事等。
本文獲取數(shù)據(jù)的流程如圖1所示。為了有效地獲取數(shù)據(jù)并降低可能的取樣誤差[16,17],本文首先在人人網(wǎng)的用戶 ID范圍(1000~808834939)中隨機(jī)抽取10 000個(gè)ID,然后利用應(yīng)用程序接口(API,application program interface)獲取這些ID的個(gè)人信息。在這些ID中共有4 875個(gè)ID能夠返回正確信息。然后通過API對(duì)這些賬號(hào)ID獲取相應(yīng)的相冊ID。為了使樣本具有代表性,本文沒有獲取網(wǎng)站自動(dòng)創(chuàng)建的頭像相冊和應(yīng)用相冊,只獲取用戶自己創(chuàng)建的普通相冊。同時(shí)為了保證樣本的多樣性,對(duì)于有多個(gè)普通相冊的賬號(hào),本文隨機(jī)選取其中3個(gè)相冊ID。通過用戶ID和相冊ID共同獲取這些相冊的具體信息以及相冊中照片的絕對(duì) URL地址。最后通過定制的爬蟲獲取這些相冊中所有的照片。本文數(shù)據(jù)獲取的時(shí)間是從2014年11月至2015年2月。
接下來需要確定這些相冊是否為正常相冊或Spam相冊。邀請3位志愿者手動(dòng)確定這些相冊的分類,這3位志愿者使用人人網(wǎng)或其他社交網(wǎng)絡(luò)超過3年。3位志愿者通過訪問這些相冊并瀏覽照片的內(nèi)容和照片的信息來確定相冊的分類。如果在相冊中包含有惡意URL,如指向廣告、釣魚、色情等網(wǎng)站,那么這個(gè)相冊就被判斷為Spam相冊,否則為正常相冊。每個(gè)志愿者都需要判斷所有的相冊,然后根據(jù)3位志愿者的綜合評(píng)價(jià)來最終確定一個(gè)相冊的分類。3位志愿者如果對(duì)同一個(gè)相冊的分類一致,那么就采用這個(gè)分類,如果對(duì)于一個(gè)相冊的分類有分歧,那么就舍棄這一相冊。最終共獲得了1 178個(gè)Spam相冊以及5 693個(gè)正常相冊。
為了降低數(shù)據(jù)集中正常相冊和 Spam相冊比例不同所帶來的偏差,本文從5 693個(gè)正常相冊中抽取了與Spam相冊數(shù)相同的1 178個(gè)正常相冊。這1 178個(gè)正常相冊與1 178個(gè)Spam相冊組成了本文的數(shù)據(jù)集Ⅰ。本文分別隨機(jī)抽取了數(shù)據(jù)集Ⅰ中70%的正常相冊和70%的Spam相冊作為模型的訓(xùn)練集,剩余30%的數(shù)據(jù)作為測試集。數(shù)據(jù)集Ⅰ的具體情況如表1所示。
表1 數(shù)據(jù)集Ⅰ匯總
圖1 數(shù)據(jù)獲取流程
根據(jù)對(duì)Photo Spam的分析,Spam相冊與正常相冊存在多種差異。首先,相冊使用目的不同,攻擊者創(chuàng)建相冊的目的是吸引更多用戶的訪問來更廣泛地傳播Spam信息,而正常用戶創(chuàng)建相冊的目的是與好友分享照片。其次,相冊中照片性質(zhì)不同,正常相冊中的照片一般是通過相機(jī)、手機(jī)等設(shè)備對(duì)自然景象的記錄,而Spam照片大都是攻擊者通過計(jì)算機(jī)軟件人工合成。最后,相冊后續(xù)操作不同,攻擊者通常都是通過自動(dòng)化工具對(duì)賬號(hào)進(jìn)行操作,因此在相冊創(chuàng)建完成后很少有后續(xù)操作,而正常用戶創(chuàng)建相冊后會(huì)不定時(shí)上傳照片。因此Spam相冊和正常相冊本身存在差異。
基于以上分析,本文設(shè)計(jì)了相關(guān)特征。這些特征可以分為2類,一類為相冊相關(guān)的特征;一類為照片內(nèi)容相關(guān)的特征。
相冊相關(guān)特征主要是抽取與相冊本身屬性相關(guān)的信息,包含以下內(nèi)容。
1) 相冊標(biāo)題長度:此特征是相冊標(biāo)題的字符長度。
2) 相冊間隔時(shí)間:相冊間隔時(shí)間是指從相冊創(chuàng)建時(shí)間到相冊最近更新時(shí)間的間隔天數(shù)。
3) 相冊中照片數(shù):即相冊中包含的照片數(shù)。
4) 照片描述比率:即在相冊中照片描述不為空的照片個(gè)數(shù)與相冊中照片數(shù)的比值。
5) 照片描述 URL比率:即照片描述中包含URL的照片數(shù)與相冊中照片總數(shù)的比值。
6) 照片描述長度均值:相冊中照片描述字符長度的均值。
7) 照片描述長度方差:相冊中照片描述字符長度的方差。
照片內(nèi)容相關(guān)特征是抽取相冊中照片的內(nèi)容相關(guān)屬性,本文主要考慮以下特征。
1) 顏色均值:顏色均值包含3個(gè)值,即相冊中所有照片紅、綠、藍(lán)三原色的均值。單張照片顏色均值中紅色定義如式(1)所示,其中,L和W分別為照片的長和寬,單位為像素,Rjk為像素點(diǎn)(j, k)中紅色的值。整個(gè)相冊的紅色顏色均值定義如式(2)所示,其中,N為相冊中照片數(shù)。綠色和藍(lán)色的計(jì)算方式與紅色類似。
2) 色飽和度均值:飽和度是指色彩的鮮艷程度。在 RGB彩色圖像中可以通過計(jì)算圖片像素點(diǎn)中max(R,G,B)與min(R,G,B)的差值大于閾值T的像素點(diǎn)的數(shù)量與整體像素點(diǎn)數(shù)量的比值來表示飽和度[18],如式(3)所示。單張照片飽和度S定義如式(4)所示,在實(shí)驗(yàn)中本文選取T為50[19]。整個(gè)相冊的飽和度均值特征FS定義如式(5)所示,Si為相冊中第i張照片的飽和度。
3) 主色覆蓋范圍均值:主色就是照片中出現(xiàn)頻率較高的顏色值。在實(shí)驗(yàn)中本文將出現(xiàn)頻率最高的前 20個(gè)顏色定義為主色[19]。主色覆蓋范圍主要是計(jì)算照片中出現(xiàn)頻率最高的顏色所占的比例[20],它可以捕捉到照片中大片的色塊。由于 Spam照片是通過軟件創(chuàng)建,因此一般有大塊的同色背景。如式(6)所示,其中,單張照片的主色覆蓋范圍U定義為式(7),整個(gè)相冊的主色覆蓋范圍均值 FU通過式(8)計(jì)算得到,其中,Ui為相冊中第i張照片的主色覆蓋范圍。
本文檢測方案的目的是盡早地檢測到攻擊者上傳的Spam相冊,因此所設(shè)計(jì)的特征需要在照片上傳之后就能夠提取,所以舍棄了一些有良好的區(qū)分度,但需要經(jīng)過一段時(shí)間才能夠形成的特征的照片,如照片的訪問次數(shù)以及評(píng)論數(shù)等,并且社交網(wǎng)絡(luò)每一時(shí)刻都有大量照片上傳,因此本文需要計(jì)算高效的特征,所以也舍棄了一些需要很大計(jì)算量的特征,如照片的角點(diǎn)、紋理等特征。
圖2展示了Spam相冊與正常相冊在4個(gè)特征上的不同。為了更好地展示,本文從數(shù)據(jù)集Ⅰ中隨機(jī)抽取了500個(gè)Spam相冊以及500個(gè)正常相冊,并分別編號(hào)為1~500,然后對(duì)這些相冊的相關(guān)特征進(jìn)行了展示。
從圖2(a)中可以看出,Spam相冊的標(biāo)題字符長度大于正常相冊的標(biāo)題長度。87.6%的Spam相冊的標(biāo)題長度大于45個(gè)字符,而正常相冊中只有38.8%的相冊標(biāo)題長度大于 45個(gè)字符。這是因?yàn)楣粽邽榱宋嘤脩粼L問相冊,會(huì)將相冊命名為吸引用戶的標(biāo)題,因此標(biāo)題長度比正常相冊長。從圖 2(b)中可以看出正常相冊的間隔時(shí)間大于Spam 相冊。79.6%的正常相冊的間隔時(shí)間超過 1天,而Spam相冊中只有20.8%的相冊間隔時(shí)間超過 1天。這是由于攻擊者通過自動(dòng)化工具操作賬號(hào),在上傳照片后基本沒有后續(xù)操作,所以相冊的間隔時(shí)間小于正常相冊。圖2(c)展示了Spam相冊與正常相冊在照片描述長度方面的差別。82.6%的Spam相冊的照片描述長度均值超過90個(gè)字符,而在正常相冊中只有 42.6%的照片描述長度均值大于90個(gè)字符。這是因?yàn)楣粽咝枰谡掌枋鲋刑砑覵pam信息,因此照片描述的長度大于正常相冊中照片描述。圖2(d)展示了Spam相冊與正常相冊在照片顏色均值中紅色的差異。其中,Spam相冊中紅色均值大于150的占78.2%,而正常相冊中只有22.4%的照片顏色均值中紅色大于150。這是由于攻擊者人工合成的Spam照片整體顏色更加亮麗,而且為了吸引更多正常用戶,其所添加的正常照片也色度較高,因此Spam相冊中照片的顏色均值更高。
從圖2中可以看出,正常相冊與Spam相冊在這些特征上都具有差異,因此能夠利用這些精心設(shè)計(jì)的特征來區(qū)分正常相冊和Spam相冊。
根據(jù)數(shù)據(jù)集Ⅰ和所提出的特征,本文設(shè)計(jì)了基于有監(jiān)督學(xué)習(xí)的Spam相冊檢測模型。有監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)算法中的一類,它根據(jù)標(biāo)識(shí)過的訓(xùn)練集來訓(xùn)練模型[21]。訓(xùn)練集中包含有多條訓(xùn)練樣本,每條訓(xùn)練樣本都包括多個(gè)輸入特征以及一個(gè)結(jié)果標(biāo)識(shí)。通過對(duì)訓(xùn)練集的學(xué)習(xí),有監(jiān)督學(xué)習(xí)能夠形成相應(yīng)的分類器來對(duì)新的樣本進(jìn)行分類。
圖2 Spam相冊和正常相冊在不同特征的區(qū)別
本文所提出的Spam相冊檢測模型如圖3所示。首先利用社交網(wǎng)絡(luò)提供的應(yīng)用程序接口API從社交網(wǎng)絡(luò)中獲取原始數(shù)據(jù)。然后通過樣本標(biāo)識(shí)對(duì)原始數(shù)據(jù)中的樣本進(jìn)行分類。接著利用特征抽取從標(biāo)識(shí)后的樣本中提取出相應(yīng)的特征。這些特征樣本集被隨機(jī)分為訓(xùn)練集和測試集。通過訓(xùn)練集對(duì)分類器進(jìn)行訓(xùn)練,最后通過測試集對(duì)訓(xùn)練后的分類器進(jìn)行測試,獲取相應(yīng)的檢測結(jié)果。
通過第4節(jié)的分析,Spam相冊和正常相冊擁有不同的特征,本文采用第4節(jié)所設(shè)計(jì)的12個(gè)特征來區(qū)分正常相冊和Spam相冊。
圖3 Spam相冊檢測模型
本文主要采用支持向量機(jī)(SVM,support vector machine)[22]作為分類器,因?yàn)?SVM 在之前的工作中取得了很好的檢測結(jié)果[9,10,14]。SVM的最終目標(biāo)是找到一個(gè)超平面能夠以最大間隔將訓(xùn)練集中N維數(shù)據(jù)分為 2類。在實(shí)驗(yàn)中本文采用非線性的 RBF(radial basis function)核來使SVM獲得更好的效果。最終的算法采用R語言中e1071程序包的相關(guān)函數(shù)來實(shí)現(xiàn)。采用RBF核的SVM算法有2個(gè)訓(xùn)練參數(shù):C和gamma。其中,C控制模型的過載,gamma控制模型的非線性度。本文采用e1071程序包所提供的參數(shù)選擇函數(shù)來自動(dòng)選取參數(shù)。該函數(shù)采用網(wǎng)格搜索策略,通過不同的C和gamma對(duì)來計(jì)算分類結(jié)果,然后選擇獲得最高準(zhǔn)確率的參數(shù)對(duì)。最后,針對(duì)本文的訓(xùn)練集,獲得的最優(yōu)C和gamma值分別為215.5和0.075。
為了提高模型訓(xùn)練結(jié)果的可信度,本文在訓(xùn)練時(shí)采用十折交叉驗(yàn)證法。十折交叉驗(yàn)證是將訓(xùn)練集平均分為10份,對(duì)其中9份進(jìn)行訓(xùn)練,另一份做測試,循環(huán)進(jìn)行10次實(shí)驗(yàn)。最后的結(jié)果是這10次實(shí)驗(yàn)結(jié)果的平均。
為了評(píng)價(jià)本文的檢測結(jié)果,本文采用如表2所示的混淆矩陣,其中,a表示原本是Spam相冊被預(yù)測為Spam相冊的個(gè)數(shù);b表示原本是Spam相冊但被預(yù)測為正常相冊的個(gè)數(shù);c表示原本是正常相冊但被預(yù)測為Spam相冊的個(gè)數(shù);d表示原本是正常相冊且被正確預(yù)測的個(gè)數(shù)。
根據(jù)表2的混淆矩陣,本文同時(shí)采用機(jī)器學(xué)習(xí)中的評(píng)價(jià)指標(biāo)即準(zhǔn)確率、召回率和F1值。準(zhǔn)確率(P)是指對(duì)于指定的一類,正確分類的個(gè)數(shù)與被分為這類的總體個(gè)數(shù)的比率。如在表2中Spam相冊的準(zhǔn)確率可以表示為。召回率(R)是指一類數(shù)據(jù)被正確分類的數(shù)量除以真實(shí)的屬于這一類的數(shù)量。如表2中Spam相冊的召回率即為。F1值是準(zhǔn)確率與召回率的綜合。表2中Spam相冊F1值的計(jì)算式為
表2 混淆矩陣示例
起初本文使用訓(xùn)練集中所有的樣本對(duì)分類器進(jìn)行訓(xùn)練,并且取得了Spam相冊與正常相冊的F1值分別為0.982和0.988,但這個(gè)結(jié)果不一定是最優(yōu)結(jié)果。為了獲得最優(yōu)結(jié)果,本文對(duì)訓(xùn)練集中的樣本采用下采樣[23]的方式使Spam相冊與正常相冊的比例分別從1:1到1:10,并且重復(fù)這個(gè)過程10次。在圖4中本文展示了每次不同比例采樣時(shí)相應(yīng)的宏F1值。宏F1值是2類樣本F1值的算術(shù)平均值。從圖4中可以看出,雖然每次同一比例采樣的結(jié)果并不相同,但在整體趨勢上,隨著Spam相冊與正常相冊比例的降低,宏F1值也在降低。其中,最優(yōu)值是在第7次的1:3采樣中獲得,最大的宏F1值為0.991。因此,在之后的實(shí)驗(yàn)中,本文采用的訓(xùn)練集即為獲得最大宏F1值的訓(xùn)練集。
本文采用 SVM算法獲得的最優(yōu)結(jié)果如表 3所示??梢钥闯?,本文的檢測模型非常有效,能夠正確區(qū)分測試集中 100%的 Spam相冊以及98.2%正常相冊,只有小部分的正常相冊分類錯(cuò)誤。表4中列出了準(zhǔn)確率、召回率、F1的值??梢钥闯鯯pam相冊和正常相冊的F1都高達(dá)0.991。進(jìn)一步,本文比較了不同分類算法的檢測結(jié)果。如表5所示。本文比較了Na?ve Bayes、Decision Tree、Random Forest和 Neural Network分類算法。這些算法分別采用R語言中程序包e1071[24]、rpart[25]、randomForest[26]和 nnet[27]實(shí)現(xiàn)。對(duì)于每一種分類算法,本文都采用相同的評(píng)價(jià)指標(biāo)(準(zhǔn)確率、召回率、F1值)分別計(jì)算Spam相冊和正常相冊??梢钥闯?,SVM算法獲得了最高F1值,同時(shí)其他算法也都能獲得較好的分類結(jié)果,這主要是因?yàn)楸疚母鶕?jù)Photo Spam的特點(diǎn)設(shè)計(jì)了合適的特征。
圖4 不同樣本比例的分類結(jié)果
表3 混淆矩陣
表4 分類結(jié)果評(píng)價(jià)
為了分析本文所設(shè)計(jì)的特征對(duì)檢測結(jié)果的重要性,本文分別用卡方檢驗(yàn)(Chi-square test)和信息增益(information gain)計(jì)算特征的重要性。表6列出了2種計(jì)算方式中對(duì)檢測結(jié)果貢獻(xiàn)最大的10個(gè)特征。其中,對(duì)檢測結(jié)果貢獻(xiàn)率最大的2個(gè)特征分別為照片描述URL比率和相冊中照片數(shù)。照片描述URL比率說明Spam賬號(hào)會(huì)在照片描述中嵌入惡意URL來存儲(chǔ)Spam信息,與Wang等[14]的發(fā)現(xiàn)相符合。相冊中照片數(shù)說明攻擊者為了吸引更多用戶會(huì)在相冊中上傳大量照片,與 Gao等的發(fā)現(xiàn)相符合[15]。
表5 SVM與其他分類算法比較
表6 特征貢獻(xiàn)排名TOP10
為了進(jìn)一步分析這 10個(gè)特征對(duì)檢測結(jié)果的影響,本文將這 10個(gè)特征按卡方驗(yàn)證結(jié)果的順序每次從所有特征中移除一個(gè)特征,然后計(jì)算檢測結(jié)果。圖5所示為計(jì)算了不同特征子集的檢測結(jié)果??梢钥闯?,每次移除一個(gè)特征都會(huì)造成宏F1值的微小降低。而影響最大是移除特征照片描述 URL比率,不過即使在最差情況下,本文的分類器也能夠獲得很好的分類結(jié)果,Spam相冊和正常相冊的F1值分別達(dá)到0.977和0.979。
為了驗(yàn)證本文所設(shè)計(jì)的特征集和所提出算法的有效性,本文將訓(xùn)練好的分類器應(yīng)用到一個(gè)真實(shí)的數(shù)據(jù)集中。為了區(qū)分,本文將其命名為數(shù)據(jù)集Ⅱ。數(shù)據(jù)集Ⅱ采用與數(shù)據(jù)集Ⅰ相同的獲取方式。首先,本文從人人網(wǎng)的所有用戶ID空間中隨機(jī)抽取 100 000個(gè)ID,然后通過 API來獲取這些 ID的個(gè)人信息和相冊信息。本文過濾掉無效的ID、已經(jīng)被禁用的 ID以及在數(shù)據(jù)集Ⅰ中已經(jīng)包含的ID等,共獲得了49 156個(gè)用戶以及315 115個(gè)相冊,將這315 115個(gè)相冊作為數(shù)據(jù)集Ⅱ的樣本,并抽取相應(yīng)的特征。
本文利用已經(jīng)訓(xùn)練好的檢測模型對(duì)數(shù)據(jù)集Ⅱ進(jìn)行檢測。檢測的結(jié)果如表7所示,其中,89 163個(gè)相冊被判斷為Spam相冊,剩余225 952個(gè)相冊被判斷為正常相冊。這些Spam相冊分別屬于5 242個(gè)Spam賬號(hào)。對(duì)所有相冊進(jìn)行人工驗(yàn)證需要耗費(fèi)大量的時(shí)間,因此本文從判斷為 Spam相冊的樣本以及判斷為正常相冊的樣本中分別抽取1 000個(gè)相冊,然后讓3位志愿者采用與第3節(jié)中相同的方法進(jìn)行人工驗(yàn)證。結(jié)果如表8所示,其中,972個(gè)Spam相冊以及969個(gè)正常相冊判斷正確。這一結(jié)果更進(jìn)一步說明本文的檢測方案是有效的。
圖5 不同特征子集的分類結(jié)果F1值
表7 數(shù)據(jù)集Ⅱ匯總
表8 數(shù)據(jù)集Ⅱ分類結(jié)果
隨著社交網(wǎng)絡(luò)的快速發(fā)展,社交網(wǎng)絡(luò)中 Spam攻擊也吸引了大量科研工作者的關(guān)注。因此有大量與Spam檢測相關(guān)的工作。
在檢測傳統(tǒng)Spam攻擊方面。Stringhini等[11]利用機(jī)器學(xué)習(xí)和6個(gè)特征,如好友數(shù)、文本相似性等來檢測Facebook和Twitter中發(fā)送Spam信息的賬號(hào)。Benevenuto等[9]利用39個(gè)基于內(nèi)容的特征和23個(gè)用戶行為特征來檢測在Twitter熱門事件中發(fā)布Spam信息的賬號(hào)并針對(duì)Spam賬號(hào)和正常賬號(hào)分別獲得了0.79和0.912的F1值。Zheng等[10]通過SVM分類器以及18個(gè)特征來檢測新浪微博中發(fā)布 Spam信息的賬號(hào)。Lee等[12]通過在Twitter中部署蜜罐來獲取Spam賬號(hào)信息并利用機(jī)器學(xué)習(xí)技術(shù)和設(shè)計(jì)的特征,如推文中@的比率、URL比率等來檢測Spam賬號(hào)。與本文的工作類似,這些工作都是利用機(jī)器學(xué)習(xí)技術(shù)來檢測Spam賬號(hào)。但是這些工作都是針對(duì)傳統(tǒng) Spam進(jìn)行檢測而且檢測的對(duì)象是 Spam賬號(hào),而本文的工作是檢測Photo Spam中Spam相冊。與傳統(tǒng)Spam相比,Photo Spam更難被檢測到,本文針對(duì)Photo Spam設(shè)計(jì)了相應(yīng)的特征,而且本文的工作能夠獲得更高的檢測精度。
在檢測Photo Spam方面,如前所述,Wang等[14]通過將鼠標(biāo)點(diǎn)擊模式相似的賬號(hào)聚為一類來將賬號(hào)分為不同的類別,即正常賬號(hào)和Spam賬號(hào)。通過這種方法檢測到一類鼠標(biāo)點(diǎn)擊行為集中在照片分享的Spam賬號(hào),并發(fā)現(xiàn)這些照片中包含指向出售鞋子、衣服等購物網(wǎng)站的URL。Cao等[15]根據(jù)用戶行為的相似性將用戶聚為不同的類別來檢測Spam賬號(hào),他們發(fā)現(xiàn)Facebook中一些Spam賬號(hào)通過在短時(shí)間內(nèi)上傳大量照片來推廣減肥藥,并且這些賬號(hào)共用少量IP地址。這2個(gè)工作都是針對(duì)Photo Spam中Spam賬號(hào)進(jìn)行檢測,而本文的工作是針對(duì)Photo Spam中Spam相冊進(jìn)行檢測。針對(duì)Spam賬號(hào)進(jìn)行檢測需要在賬號(hào)執(zhí)行一定行為之后才能夠?qū)pam賬號(hào)檢測到,而此時(shí)Spam賬號(hào)的惡意行為已經(jīng)對(duì)正常用戶造成了威脅。而本文針對(duì)Spam相冊進(jìn)行檢測是在賬號(hào)上傳照片之后進(jìn)行,能夠在 Spam內(nèi)容傳播之前就檢測到,從而避免Spam內(nèi)容對(duì)正常用戶的危害。Wang等的工作只是利用了Photo Spam的傳播特性,即分享操作,因此只能檢測到傳播Spam相冊的賬號(hào),而無法檢測到上傳 Spam相冊的賬號(hào)。通過本文檢測到的大量Spam相冊也表明,Wang等的工作并不全面。針對(duì)Cao等的檢測,攻擊者同樣可以通過代理來更換IP地址以及將照片上傳行為分布在不同的時(shí)間段來繞過。本文的工作利用了Photo Spam中Spam信息存儲(chǔ)和傳播的核心,即Spam相冊進(jìn)行檢測,構(gòu)造了相冊相關(guān)特征,并且這些特征都是易于計(jì)算且在照片上傳之后就能提取的特征,能夠在Spam信息傳播之前就進(jìn)行檢測,從而有效避免Photo Spam對(duì)正常用戶的威脅。
本文提出了一種利用有監(jiān)督學(xué)習(xí)方法來檢測Photo Spam中Spam相冊的方案,與之前針對(duì)Spam賬號(hào)的檢測方案不同,本文針對(duì)Spam相冊進(jìn)行檢測,能夠及時(shí)檢測到Spam相冊并有效降低Photo Spam對(duì)正常用戶的不良影響。本文首先分析了 Photo Spam的攻擊方式并對(duì)比了Photo Spam與傳統(tǒng)Spam的區(qū)別,發(fā)現(xiàn)Photo Spam更難被檢測到并且危害更大?;诖朔治?,本文設(shè)計(jì)了12個(gè)提取及時(shí)且計(jì)算高效的特征。然后提出了基于SVM分類算法的檢測模型。通過包含有2 356個(gè)標(biāo)記后相冊的數(shù)據(jù)集的訓(xùn)練,檢測模型能夠?qū)y試集中Spam相冊和正常相冊分別獲得0.991的F1值,隨后本文分析了在訓(xùn)練集中不同樣本比率、不同分類算法以及不同特征子集情況下的檢測結(jié)果。最后,本文將檢測模型應(yīng)用到包含315 115個(gè)未標(biāo)記相冊的真實(shí)數(shù)據(jù)集中,共檢測到89 163個(gè)Spam相冊,人工驗(yàn)證正確率為97.2%。
[1] GAO H, HU J, HUANG T. Security issues in online social networks[J].IEEE Internet Computing, 2011, 15(4): 56-63.
[2] FIRE M, GOLDSCHMIDT R, ELOVICI Y. Online social networks:threats and solutions survey[J]. IEEE Communications Surveys and Tutorials, 2013, 16(4): 2019-2036.
[3] CAVIGLIONE L, COCCOLI M, MERLO A. A taxonomy–based model of security and privacy in online social networks[J]. International Journal of Computational Science and Engineering, 2014, 9(4): 325-338.
[4] GAO H, HU J, WILSON C. Detecting and characterizing social Spam campaigns[C]//The 10th ACM SIGCOMM conference on Internet Measurement. Melbourne, Australia, 2010: 35-47.
[5] LEE K, EOFF B D, CAVERLEE J. Seven months with the devils: a long-term study of content polluters on twitter[C]//The Fifth International AAAI Conference on Weblogs and Social Media. Barcelona,Spain, 2011: 185-192.
[6] MARTINEZ-ROMO J, ARAUJO L. Detecting malicious tweets in trending topics using a statistical analysis of language[J]. Expert Systems with Applications, 2013, 40(8): 2992-3000.
[7] MILLER Z, DICKINSON B, DEITRICK W. Twitter Spammer detection using data stream clustering[J]. Information Sciences, 2014, 260:64-73.
[8] ZHANG J, GU G. NEIGHBORWATCHER: A content-agnostic comment spam inference system[C]//Network amp; Distributed System Security Symposium. San Diego, CA, United States, 2013.
[9] BENEVENUTO F, MAGNO G, RODRIGUES T. Detecting spammers on twitter[C]//The Collaboration, Electronic Messaging, Anti-abuse and Spam Conference. Redmond, USA, 2010:6-12.
[10] ZHENG X, ZENG Z, CHEN Z. Detecting spammers on social networks[J]. Neurocomputing, 2015, 159(2): 27-34.
[11] STRINGHINI G, KRUEGEL C, VIGNA G. Detecting spammers on social networks[C]//The 26th Annual Computer Security Applications Conference. TX, USA, 2010: 1-9.
[12] LEE K, CAVERLEE J, WEBB S. Uncovering social Spammers: social honeypots+ machine learning[C]//The 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval.Geneva, Switzerland, 2010: 435-442.
[13] ZHU Y, WANG X, ZHONG E. Discovering Spammers in social networks[C]//The 26th AAAI Conference on Artificial Intelligence. Toronto, Canada, 2012: 171-177.
[14] WANG G, KONOLIGE T, WILSON C. You are how you click: clickstream analysis for sybil detection[C]//The 22rd USENIX Security Symposium. Washington, USA, 2013: 241-256.
[15] CAO Q, YANG X, YU J. Uncovering large groups of active malicious accounts in online social networks[C]//The 2014 ACM SIGSAC Con-ference on Computer and Communications Security. Scottsdale, USA,2014: 477-488.
[16] LESKOVEC J, FALOUTSOS C. Sampling from large graphs[C]//The 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Philadelphia. USA, 2006: 631-636.
[17] GJOKA M, KURANT M, BUTTS C. Walking in facebook: a case study of unbiased sampling of OSNs[C]//IEEE Proceedings of INFOCOM. California, USA, 2010: 1-9.
[18] HU J, BAGGA A. Categorizing images in Web documents[J]. Multi-Media, IEEE, 2004, 11(1):22-30.
[19] WAN C, GENG J, CHENG H. Image spam identifying algorithm based on color and corner feature[J]. Computer Engineering, 2009, 35(15): 209-211.
[20] DREDZE M, GEVARYAHU R, ELIAS B A. Learning fast classifiers for image spam[C]//In Conference on Email and Anti-Spam(CEAS).California, USA, 2007: 1-9.
[21] GONEN M, ALPAYDIN E. Supervised learning of local projection kernels[J]. Neurocomputing, 2010, 73(10): 1694-1703.
[22] CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273-297.
[23] KUBAT M, MATWIN S. Addressing the curse of imbalanced training sets: one-sided selection[C]//International Conference on Machine Learning. Tennessee, USA, 1997:179-186.
[24] e1071: misc functions of the department of statistics, probability theory group[EB/OL]. http://CRAN.R-project.org/package=e1071. 2015.10.11.
[25] Rpart: recursive partitioning and regression trees[EB/OL]. http://CRAN.R-project.org/package=rpart. 2015.10.11
[26] RandomForest: breiman and cutler's random forests for classification and regression[EB/OL]. http://CRAN.R-project.org/package= randomForest. 2015.10.11.
[27] Nnet: feed-forward neural networks and multinomial log-linear models[EB/OL].http://CRAN.R-project.org/package=nnet.2015.10.11.
Detecting Spam albums in online social network
LYU Shao-qing1, ZHANG Yu-qing1,2, LIU Dong-hang1, ZHANG Guang-hua1,3
(1. Information Security Research Center of State Key Laboratory of Integrated Services Networks, Xidian University, Xi'an 710071, China;2. National Computer Network Intrusion Protection Center, University of Chinese Academy of Sciences, Beijing 100190, China;3. Beijing Key Laboratory of IOT Information Security Technology, Institute of Information Engineering, CAS, Beijing 100097, China)
A supervised learning solution to detect Spam albums instead of spammers in Photo Spam was proposed. Specifically, the characteristics of Photo Spam and the differences between Photo Spam and traditional Spam were analyzed.Then 12 features which were extracted easily and calculated efficiently were constructed based on the analysis. Next a classification model was built with a dataset of 2 356 labeled albums to identify Spam albums. The model provided excellent performance with true positive rates of Spam albums and normal albums, reaching 100% and 98.2% respectively.Finally, the detection model were applied to 315 115 unlabeled albums and detected 89 163 spam albums with a true positive rate of 97.2%.
social network security, Photo Spam, Spam detection, RenRen
s: The National Natural Science Foundation of China (No.61572460, No.61272481, No.61303239), Open Fund of Beijing Key Laboratory of IOT Information Security Technology, China Postdoctoral Science Foundation (No.2015M582622)
TP393
A
10.11959/j.issn.1000-436x.2016180
2016-03-14;
2016-06-14
國家自然科學(xué)基金資助項(xiàng)目(No.61572460, No.61272481, No.61303239);物聯(lián)網(wǎng)信息安全技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室開放課題基金資助項(xiàng)目;中國博士后科學(xué)基金資助項(xiàng)目(No.2015M582622)
呂少卿(1987-),男,山西五寨人,西安電子科技大學(xué)博士生,主要研究方向?yàn)樵诰€社交網(wǎng)絡(luò)安全。
張玉清(1966-),男,陜西寶雞人,博士,中國科學(xué)院大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榫W(wǎng)絡(luò)與信息系統(tǒng)安全。
劉東航(1990-),男,山西太原人,西安電子科技大學(xué)碩士生,主要研究方向?yàn)榫W(wǎng)絡(luò)和信息安全。
張光華(1979-),男,河北石家莊人,博士,西安電子科技大學(xué)博士后在站,主要研究方向?yàn)樾湃喂芾?、無線網(wǎng)絡(luò)安全。