鄒明
摘要:隨著移動互聯網時代的到來,針對各大網站產生的海量發(fā)帖信息,該文設計了一個惡意發(fā)帖檢測系統,將海量的帖子進行分析整理,找到惡意發(fā)帖信息。本系統采用文本情感分析和數據挖掘技術,對互聯網中的帖子信息進行分類整理,建立帖子庫,接著對帖子進行文本情感分析,聚類惡意發(fā)帖信息,最后采用SVM算法對惡意發(fā)帖進行分類,識別出具體的惡意發(fā)帖并進行預警處理,具有較高的實際應用價值。
關鍵詞:惡意發(fā)帖檢測;文本情感分析;SVM;分類;聚類
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2014)07-1403-04
隨著互聯網( Internet)的蓬勃發(fā)展,網絡作為一種新的媒介形式,已被人們廣泛使用?;ヂ摼W的發(fā)展過程“是一個時時處處有人參與的、不斷演化的、自適應的、不斷涌現出新的整體特性的過程,是一個開放的、人在其中與社會系統緊密耦合的復雜巨系統[1]”,其業(yè)務流量自相似、拓撲結構無尺度等特性的發(fā)現為人們正確認識和管理互聯網起到了重要作用。
網絡論壇是網絡輿論形成的一股重要力量,廣大網民通過網絡來表達觀點,一旦遇到社會熱點問題,瞬間就能形成巨大網絡的輿論。網民通過“發(fā)帖”發(fā)表意見、參與輿論形成,與論壇網站共同構成了人機結合的虛擬系統[2]。以網絡水軍為主體的惡意發(fā)帖能主導輿論走勢,產生錯誤的輿論導向以及消極的影響,所以對惡意發(fā)帖的檢測就顯得尤為重要。
本文通過對大量論壇發(fā)帖信息進行收集分析,形成帖子庫,并對帖子內容進行文本情感分析,產生惡意發(fā)帖聚類,接著使用支持向量機(SVM)對惡意帖子進行分類,實時產生預警信息,并對發(fā)帖源頭進行干預。
1 理論背景
基于情感分析的惡意發(fā)帖檢測系統的分析與研究中,涉及到的理論主要有三個方面,分別是數據挖掘技術,文本情感分析和支持向量機。
1.1 數據挖掘技術
數據挖掘(Data Mining,DM)又稱數據庫中的知識發(fā)現(Knowledge Discover in Database,KDD),是目前人工智能和機器學習領域的熱點問題,所謂數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的過程[3]。
數據挖掘的分類、聚類、關聯規(guī)則、預測算法能很好的應用到惡意發(fā)帖的分析檢測與追蹤之中。主要處理如下:
1) 可以對帖子庫中的惡意帖子根據惡意的等級不同進行分類處理;
2) 可以對惡意帖子進行聚類分析,找出它們的團伙關系;
3) 利用關聯規(guī)則,找出發(fā)帖人與不同帖子之間的關聯關系;
4) 利用預測技術預測出哪些發(fā)帖人有惡意發(fā)帖的趨勢;
5) 利用帖子間的文本的近似的比對,找出某個人多次改變手法發(fā)帖。
1.2 文本情感分類
文本情感分類是指通過挖掘和分析文本中的立場、觀點、看法、好惡等主觀信息,對文本的情感傾向做出類別判斷[4]。文本情感分析使用文本極性分析將帖子分為正面或負面,論壇發(fā)帖文本情感分析具體工作流程如圖1所示。
1) 觀點摘要。從一個或若干包含主觀性信息的文本文檔中概述出其中主觀性信息的主要內容?;谟^點的摘要分為兩種,一種是單文檔摘要,另一種是多文檔摘要。
2) 文本極性分類。針對給定的文本,使用情感分類方法,識別其中主觀性信息的傾向是正面還是負面的。Naive Bayes、最大熵分類(Maximum Entropy Classification)和支持向量機是常用的情感分類方法。
3) 主觀和客觀識別或分類。識別文本是對事實的描述(客觀的文本)還是包含有意見、評價等主觀性信息(主觀性文本)。
1.3 支持向量機
支持向量機(SVM)是由Vapnik在1963年解決模式識別問題時提出了支持向量方法,這種方法從訓練集中選擇一組特征子集,使得對特征子集的劃分等價于對整個數據集的劃分[5]。
SVM從線性可分情況下的最優(yōu)分類面發(fā)展而來,廣泛應用于數據分類、手寫識別等領域。SVM考慮尋找一個滿足分類要求的超平面,并且使訓練集中的點距離分類面盡可能的遠,也就是尋找一個分類面使它兩側的空白區(qū)域(Margin)最大。
3 系統功能分析
整個系統的設計與實現,包括網絡發(fā)帖采集系統,網絡發(fā)帖傾向性分析,惡意發(fā)帖分析檢測引擎和惡意發(fā)帖分析監(jiān)測與監(jiān)控追蹤系統,下面就四個系統的功能進行分析。
3.1網絡發(fā)帖采集系統
網絡發(fā)帖采集系統主要功能是完成網絡發(fā)帖數據的實時采集整理,其中負責采集數據的是網絡爬蟲,其運行具體步驟如下:
1) 用戶通過配置管理界面配置爬蟲的數據源、頁面解析邏輯、數據存取邏輯和高級設置,配置數據將保存在爬蟲配置數據庫中;
2) 用戶在數據抓取監(jiān)控界面開始運行數據抓取任務時,系統通過讀取頁面表中配置數據利用爬蟲裝配器組裝爬蟲執(zhí)行體,讀取高級配置爬蟲控制器為爬蟲執(zhí)行體分配執(zhí)行線程、URL隊列等運行時參數,爬蟲將在爬蟲控制器的管理下運行,可進行任務調度、定時執(zhí)行、自動更新、實時監(jiān)控等操作;
3) 爬蟲抓取的數據將根據配置自動保存到相應數據庫中,用戶可以通過數據庫管理界面進行查看、導出等操作。
3.2網絡發(fā)帖傾向性分析
網絡發(fā)帖傾向性分析主要文本情感分析的方法進行帖子分析,因為一個發(fā)帖主體可能在多個評論地點(論壇)上進行評論,本系統在文檔情感分析的基礎上,結合語義傾向,基于LDA模型,使用SVM方法對惡意發(fā)帖進行分類。其具體算法流程描述如下。
1) 文檔集合預處理。將每個文檔中的文本分割為句子,以句子為單位進行詞性標注,得到句子中每個詞的詞性。
2) LDA構建。將句子集合中的每個句子當作LDA模型中的文檔,為整個句子文檔集合建立一個LDA模型。
3) 主題重要度計算。根據LDA模型得到句子的主題分布和主題詞匯分布,計算每個潛在主題的重要度。
4) 句子重要度計算。根據主題重要度,結合主題詞分布和語義傾向,計算主題中每個句子的權重。
5) 語句排序。根據句子權重對句子進行排序,如果權重相同,非停用詞在句子占比重大的排在前面。
6) 帖子分類。按照句子排序順序結果使用SVM方法對帖子的惡意情況進行分類。
3.3惡意發(fā)帖分析檢測引擎
惡意發(fā)帖分析檢測引擎為本系統的核心,其主要包括以下功能:熱點識別能力、自動分類、聚類分析、傾向性分析與統計、主題跟蹤、信息自動摘要功能、截取證據、趨勢分析、突發(fā)事件分析、報警系統、統計報告。
惡意發(fā)帖分析檢測的核心技術在于惡意發(fā)帖分析檢測引擎,涉及最主要的技術包括文本分類、聚類、觀點傾向性識別、主題檢測與跟蹤等技術。惡意發(fā)帖分析檢測引擎是惡意發(fā)帖分析與檢測系統的核心,主要功能如下:
1) 熱點(敏感)話題識別與追蹤。利用關鍵詞布控和語義分析,識別敏感話題。
2) 情感傾向分析。對于每個話題,對每個發(fā)貼人發(fā)表帖子的觀點、傾向性(正負面、褒貶義)進行分析與統計。
3) 主題跟蹤。分析新發(fā)表文章、貼子的話題是否與已有主題相同。
4) 帖子自動摘要。對各類主題,各類傾向能夠形成自動摘要。
5) 發(fā)帖趨勢分析。分析某個主題在不同的時間段內,網民的關注程度。
6) 突發(fā)事件分析。對突發(fā)事件進行跨時間、跨空間綜合分析,獲知事件發(fā)生的全貌并預測事件發(fā)展的趨勢。
7) 實時預警。對突發(fā)事件、涉及敏感話題及時發(fā)現并發(fā)出預警信息。
8) 統計報告。根據輿情分析引擎處理后的結果庫生成報告,用戶可以瀏覽、檢索。根據指定條件對熱點話題、傾向性進行查詢,提供決策支持。
3.4惡意發(fā)帖分析監(jiān)測與追蹤系統
惡意發(fā)帖分析監(jiān)測與追蹤系統主要是對指定網站的帖子進行數據采集存儲到數據庫中,再對庫中的帖子情況進行分析,實現實時監(jiān)測和追蹤。主要功能如下:
1) 對庫中的帖子提取關鍵詞,進行文本傾向性分析。
2) 根據極性不一樣,利用分類算法為帖子指定不同的惡意等級,并根據等級不一樣發(fā)布不同的預警信息。
3) 利用聚類算法對帖子實現自動歸類,挖掘出發(fā)帖人之間的團伙關系。
4) 文本近似度分析,發(fā)現改變手法多次發(fā)帖的發(fā)帖人。
5) 利用IP地址及發(fā)帖人之間的關系定位發(fā)帖人,實現對惡意發(fā)帖的檢測與追蹤。
帖子檢測是本系統的核心,即帖子按惡意度分級,將一定級別的惡意帖子收集到一個庫中,然后進行統計,分為兩種情況:
1) 完全相同的人發(fā)帖(同一個人用一個賬號多次發(fā)帖和同一個人用多個賬號一次發(fā)帖,如果多個賬號發(fā)的是同一個帖子,那么應該是同一個人)。
2) 類似的人發(fā)帖(一個人改變手法,多次發(fā)帖),或者可以看成是一個團伙。
惡意帖子檢測流程如圖4所示。
建立惡意帖子庫后,利用相應的字段信息,例如:發(fā)帖者,發(fā)帖網站,發(fā)帖者賬號,帖子內容,跟帖者,跟帖內容。利用數據挖掘的關聯規(guī)則挖掘技術以及其他技術,實現如下功能。
1) 找出同一個賬號多次發(fā)出同一惡意帖子,進而定位這個賬號,進行跟蹤,同IT部門和技術部門合作,找出發(fā)帖者的IP地址,確認發(fā)帖者的位置和身份。
2) 直接根據發(fā)帖內容進行比對,如果是內容相同的帖子,來自于不同和和不同賬號,根據這些賬號是否由同一個IP地址發(fā)出,確認是否為同一個人用多個賬號發(fā)帖;如果IP不同就有可能是一個同伙或組織用多個賬號發(fā)出同一個帖子。
3) 根據內容的相似度,找出類似的發(fā)帖,找出其賬號之間的關聯,確定是否為一個人改變手法,多次發(fā)帖。
4) 找出惡意帖子庫中的跟帖關系,建立關系網絡圖,利用網絡理論中子圖發(fā)現和查詢技術,找出密集型子圖,發(fā)現惡意發(fā)帖團伙。
5) 根據密集子圖的密集程度和活躍程度,確定發(fā)帖信息的危害程度以及突發(fā)事件的可能性,以便及時預警。
4 結束語
本系統建立面向主題的、關鍵詞的、行業(yè)的、主流網絡平臺的惡意發(fā)帖信息的語料庫;搭建了惡意發(fā)帖檢測分析平臺,及時識別惡意發(fā)帖信息,使用網絡發(fā)帖分析檢測引擎,對惡意發(fā)帖信息進行分析處理;制定通用的惡意發(fā)帖分級制度,建立惡意發(fā)帖監(jiān)控預警標準。建立惡意發(fā)帖控制處理平臺,建立惡意發(fā)帖信息的追蹤和預警體系。系統運行穩(wěn)定正常,具有良好的實際價值。
參考文獻:
[1] 山秀明.互聯網復雜性研究進展[J].北京郵電大學學報, 2006,29 (1): 1-8.
[2] 謝新洲,肖雯.我國網絡信息傳播的輿論化趨勢及其所帶來的問題分析[J].情報理論與實踐,2006,29 (6) :645-649.
[3] Jiawei Han.數據挖掘概念與技術[M].北京.機械工業(yè)出版社,2012.
[4] 慧豐,譚松波,程學旗.基于監(jiān)督學習的中文情感分類技術比較研究[J].中文信息學,2007,21(6):88-94.
[5] Nello Cristianini等.支持向量機導論[M].北京.電子工業(yè)出版社.2004.