賈志娟,趙 靚,周 娜
(鄭州師范學院 信息科學與技術學院,河南 鄭州 450044)
根據2015年發(fā)布的《中國互聯(lián)網發(fā)展狀況統(tǒng)計報告》,截至2016年6月,中國網民規(guī)模達7.10億,互聯(lián)網普及率達到51.7%,超過全球平均水平3.1個百分點。同時,國內微博用戶總量從12年的2.74億增長到15年底的5.03億,可見增長之迅速。作為一種新興的社交媒體,微博作為信息發(fā)布和傳播的主流平臺,正在逐漸改變著人們的生活方式。網民們熱衷于在微博上分享自己的心情,評論當前流行的元素,探討當今的社會熱點,并關注自己的喜好,這給微博的數據挖掘帶來了相當大的價值,同時也使得詐騙團體的行動更加便利[1-2]。
社會網絡以用戶為基礎,具有主體繁多、用戶影響力差異顯著、用戶特征與信息資源復雜且事件突發(fā)性強等特性。中國社會網絡環(huán)境比較復雜,尤其是詐騙謠言等信息對社會的影響較大,引導不當極易引發(fā)社會矛盾。微博的出現(xiàn)進一步推動了社會網絡的發(fā)展。而且微博具有較為活躍的用戶量,若僅僅依靠傳統(tǒng)的統(tǒng)計方法無法高效地提取有價值的信息,這就急需一種更高效的技術能對海量文本數據進行分析和挖掘,社會網絡分析和數據挖掘技術應運而生。因此利用社會網絡分析和數據挖掘技術對微博中詐騙團體的語言行為進行研究是可行的而且是很有必要的[3-4]。
對此,國內外相關學者做了大量研究。張劭捷等將垂直搜索的技術、文本分析和挖掘的技術應用于微博的輿情分析,分析了網絡熱點話題的發(fā)現(xiàn)模型等,并設計了一個基于微博設計網絡的輿情分析系統(tǒng)[5];繆茹一等對微博進行細粒度情感分析,將情感分為七種類別,提出了融合微博顯性和隱形特征的情感聚類方法,開發(fā)出一個情感分析與監(jiān)控系統(tǒng)[6]。國外微博的發(fā)展始于2006年,是由Evan Williams推出的Twitter把人們引入微博的世界,從而一系列關于微博的研究相應出現(xiàn)[7]。
鑒于國內外對微博中詐騙團體的挖掘方面的研究較少,因此在前人研究的基礎上,通過結合社會網絡分析方法和數據挖掘算法,分析出詐騙團體應該具備的特征屬性,從而挖掘出微博上潛在的詐騙團體,幫助網民減少受騙。
社會網絡是指社會行動者及其關系的集合。一般情況下,社會網絡的形式化界定用點和線來表示網絡,社會網絡可簡單地理解為各種社會關系交織成的結構[8-9]。社會網絡的形式化可表達包括社群圖和矩陣兩種方法。其中社群圖用于表示一個社會群體成員之間的復雜關系,由表示社會成員的點和線連成的圖構成。舉例說明,圖1為一個簡單的微博傳播的社群圖,抽象出關系為:用戶A發(fā)一條微博消息M0,然后B進行轉發(fā)生成M1,繼而C、D、E進行轉發(fā)M1分別生成M2、M3、M4,然后博主F轉發(fā)M2生成M5,G轉發(fā)M5生成M6。
圖1 微博的傳播社群圖
社會網絡分析是一個針對社會網絡的內部結構和節(jié)點之間的關系進行分析和解釋的重要工具。通過社會網絡分析可以了解社會網絡的內部特性和節(jié)點之間的角色關系。其中用來表示社會網絡內部特征的組件包括社會網絡的密度、中間程度、各節(jié)點的角色等,以此為基礎來分析社會網絡的內部結構[10-12]。
特征選擇的過程是一個挑選文本特征的過程,首先要查找能夠表示訓練文本的特質集合,然后按照評估函數從中挑選出對分類有較高貢獻的特征項構成特征子集。最常用的方法有TF*IDF、互信息/信息增益、期望交叉熵等,文中使用應用較為廣泛的TF*IDF法。
Salton在1988年提出使用TF*IDF法計算單詞權重,其中TF為詞頻,即特征詞在文本中出現(xiàn)的頻率,用于表示該詞描述文檔內容的能力;IDF為反文檔頻率,即lg(N/n+0.01)(其中N是文本總數,n是出現(xiàn)該詞的文本數),用于計算該詞區(qū)分文檔的能力。該方法認為:如果某個單詞在一個文本中頻繁出現(xiàn),那么它在另一個相同類型的文本中出現(xiàn)的次數也會很多,反之也成立。同時,如果一個單詞出現(xiàn)的文本頻率越小,則認為該單詞的文檔區(qū)別能力越強,因此引入反文檔頻率,最終以TF和IDF的乘積來定義特征空間坐標系的值[13-15]。
利用社會網絡分析與數據挖掘算法分析出微博中詐騙團體應該具備的特征,并挖掘出新浪微博上潛在的詐騙團體。為了實現(xiàn)這個目的,文中的實證主要分為以下四個步驟:微博數據采集:網絡爬蟲程序的開發(fā);文本數據清洗;詐騙團體的社會網絡特征和文本特征的挖掘;詐騙團體預測及評估。流程如圖2所示。
圖2 研究流程
要分析微博平臺上的詐騙團體,首先要對微博上關于詐騙的熱點、文章和相關評論數據進行采集,對比多種網絡上的爬蟲工具。選用C#自己開發(fā)出一款爬蟲軟件,對比C#的網絡庫采集數據。設定微博為新浪微博,通過關鍵詞“仇恨”字段獲取相關的URL,使用C#的httpwebrequest類庫訪問URL獲取返回結果,解析出需要的數據。
取到文本信息后,首先要對文本數據進行清洗。文本數據里存在大量的冗余雜亂的數據,好多基本上是沒有任何價值的,如果將這些數據也引入到詞頻統(tǒng)計里,必然對模型的最終結果產生深遠的影響。因此在建模之前需要對文本數據進行預處理,刪除掉大量無價值的信息,包括去重、機械壓縮去詞和短句刪除。
數據經過預處理之后,在進行數據挖掘之前還需要對文本數據進行分詞處理,即將連續(xù)的字序列按照一定的標準重新組合成詞的過程。而且不同的分詞效果會直接影響到詞語在文本中的重要程度,因此采用Python中評價較高的中文分詞包“jieba”對文本數據進行斷詞,最后整理成有字詞組成的數據集。
生成數據集之后,還需要計算一個詞對于一個文本的重要程度,最常用的方法就是TF-IDF算法。某個詞對文章的貢獻度越大,它的TF-IDF值就越大,所以按TF-IDF值從大到小排序,排在最前面的就是文章的關鍵詞,也就是特征值。其中:
TF=單詞在文章中出現(xiàn)的次數/文章的總次數
IDF=log(文章總數/包含該詞的文章數+1)
TF-IDF=TF*IDF
2.3.1 通過社會網絡分析特征獲取
首先從整體社會網絡的角度對詐騙團體進行社會特征值的挖掘,主要從兩個方面進行分析,一是網絡密度,二是平均最短路徑。
通過網絡密度分析可以對詐騙團體的訓練集中社會網絡之內部節(jié)點互動鏈接的強度進行大致的了解,密度高的社會網絡通常代表與中心高度密集或高度相關而且信息傳遞速度更快。平均最短路徑可用于衡量社會網絡中,信息在節(jié)點與節(jié)點之間的傳播效率,路徑越短,傳遞信息的效率越高。
其次從網絡節(jié)點的角度進行分析,主要對節(jié)點的連接度和中心性進行分析。通過分析節(jié)點與節(jié)點之間的連接度,可以了解節(jié)點在整個社會網絡中的活動范圍,而對中心性進行分析,主要是用于衡量單個節(jié)點在網絡中的重要程度,可以借此來掌控整個社會網絡的主要信息流向等,其目的就是為了挖掘出社會網絡中的重要節(jié)點。
通過對詐騙團體的中心性進行分析,可以挖掘出詐騙團體內部各節(jié)點之間的角色擔當以及詐騙團體內部各節(jié)點的結構,以此來擔任詐騙團體的特征值,方便后續(xù)挖掘研究。
2.3.2 通過文本挖掘獲取特征關鍵詞
在對訓練集中的數據進行處理之后,對得到的數據集計算所有字詞的TF-IDF特征值,然后進行排序。此外,從對詐騙團體的分析觀察中發(fā)現(xiàn),詐騙團體的目的在于傳播詐騙信息,從而讓更多的人上當受騙,其用詞多半強烈且頻繁。因此該研究只取微博中關于詐騙的訓練樣本集中TF-IDF排名前10的詞作為關鍵詞,即此微博的內容特征詞。
該步驟的目的是為了驗證上述特征值的確立可否通過對比挖掘出潛在的詐騙團體。主要包括兩步:內容特征對比和社會網絡特征對比。
2.4.1 內容特征對比
在進行社會網絡特征對比之前,需要先比對訓練集中得到的內容特征向量與測試集中的內容特征向量的相關程度,判斷測試集中的內容特征值與既有的訓練集中的內容特征之間的相似度(similarity)。通過上述分析,可以得到測試集中與詐騙內容高度相似的族群,并將此族群列為潛在的詐騙團體。
2.4.2 社會網絡特征對比
對于上述分析得到的潛在的詐騙團體,通過分析比對這些潛在的詐騙團體所構成的社會網絡特征與訓練集中得到的社會網絡特征是否存在高度相關性,判斷該族群是否真的是詐騙團體。
首先對潛在的詐騙團體進行社會網絡構建和分析,建立相同的社會網絡特征向量,然后進行特征向量之間的相似度對比,進而判斷是否為真的詐騙團體。整體社會網絡特征向量Gn=[平均連接度,網絡密度,平均最短路徑],n=1,2,其中1表示訓練集中的社會網絡特征向量,2表示測試集中的社會網絡特征向量。
通過對詐騙團體的中心性進行分析,可以挖掘出詐騙團體內部各節(jié)點之間的角色擔當以及詐騙團體內部各節(jié)點的結構,這些角色在網絡中的特征向量可以表示為:Fi=[網絡中擔任領導者角色的比率,網絡中擔任中間者角色的比率],i=1,2,其中1表示訓練集中的社會網絡特征向量,2表示測試集中的社會網絡特征向量。
用向量空間模型中的余弦相似性(cosine similarity)來比較特征向量之間的相似度。對于余弦相似性,可以想象空間中的兩條從原點出發(fā)指向不同方向的線段,形成一個夾角,如果夾角是0°,這就意味著這兩條線段方向相同,線段完全重合;如果夾角為180°,則說明方向完全相反。因此,可以用夾角的大小來衡量向量的相似性,夾角越小就代表向量越相似。假定A=[A1,A2,…,An]和B=[B1,B2,…,Bn]是兩個n維向量,則A與B的夾角θ的余弦等于:
通過這個公式可以得到社會網絡特征向量G1和G2和節(jié)點角色組成的特征向量F1和F2之間的余弦,余弦值越接近1,說明夾角越接近0,則這兩個向量越相似。當這幾個特征向量的相似度都較高時,則可以判定此潛在團體為詐騙團體。
通過一個小案例樣本,分析已經存在的詐騙團體與一般的社會網絡團體之間在內容特征和社會網絡特征上的差異性。
通過網絡爬蟲技術搜集新浪微博平臺上已經存在的詐騙團體和討論女排相關話題的一般社會網絡團體的信息,其中詐騙團體的社會網絡包含15個獨立節(jié)點和17條連接,而一般社會網絡團體包含19個獨立節(jié)點和21條連接。
通過獲取到的詐騙團體和非詐騙團體的信息,經過上述介紹的數據清洗和處理,得到兩個只包含字和詞的數據集,然后分別計算它們的TF-IDF值;之后再根據TF-IDF值從大到小排序,各取前10個關鍵詞作為代表社會網絡的內容特征,其結果如下:
詐騙團體:[騙子、非法、獲利、個人消息、曝光、詐騙、隱蔽、電話、短信、拉黑]
一般社會團體:[郎平、中國、女排、冠軍、鐵榔頭、一米八、夢想、奪冠、驕傲、奧運會]
針對不同的熱點搜索詞所產生的社群獲取到的內容特征詞便有很大的不同,通過這種性質便可以作為辨別詐騙團體的依據。
通過Pajek32軟件對上面兩種社會網絡團體進行構建并計算各自的社會網絡特征,由此來觀察兩者之間的差別。Pajek是包含上千及至數百萬個節(jié)點大型網絡的分析和可視化操作。
圖2和圖3分別表示詐騙團體和一般社會網絡團體(女排相關)所呈現(xiàn)的網絡圖(不帶方向)。
圖3 詐騙團體網絡圖
從圖3可以看出,詐騙團體的網絡圖擁有兩個主要的領袖,網絡圖中其他成員或者節(jié)點之間傳遞信息大多都要經過這兩個領袖進行。
圖4 一般社會團體網絡圖
而從一般社會網絡團體的網絡圖來看,角色大多不是很鮮明,各節(jié)點之間大多直接進行信息傳遞。
如表1、表2所示,從這兩個團體的社會網絡特征值來看,這兩個團體在社會網絡角色中存在明顯的差異性。詐騙團體存在非常明顯的領袖節(jié)點,統(tǒng)一社會網絡信息的傳播和控制。而一般社會團體(女排相關)各節(jié)點直接比較松散,各節(jié)點內部之間大多直接進行交流,這與詐騙團體的社會網絡組成有著顯著的差異。
表1 詐騙團體的社會網絡特征值
表2 一般社會團體的社會網絡特征值
文中利用社會網絡分析法和數據挖掘技術對微博中的詐騙團體進行分析和研究,挖掘出微博平臺上潛在的詐騙團體,從而幫助人們減少受騙的機會。雖然對微博中的詐騙熱點數據進行了分析和挖掘,但是由于該模型的復雜性,尚存在一些不足之處:首先,由于
數據的局限性,只研究了微博中的詐騙團體,對于其他平臺的和溝通工具的詐騙團體有待進一步挖掘;其次,采用結巴分詞進行斷詞,產生了大量的數據集,影響了運行效率,因此提高該算法的效率是后續(xù)的研究方向。
參考文獻:
[1] 孫 孟.微博營銷-新媒體時代的營銷寵兒[J].通信企業(yè)管理,2011(7):38-39.
[2] 吳繼飛,鄧安平.基于互聯(lián)網時代微博營銷的SWOT分析[J].中國集體經濟,2011,21:52-53.
[3] 王 利.基于數據挖掘技術的微博營銷系統(tǒng)的設計與實現(xiàn)[D].武漢:華中科技大學,2013.
[4] 邵 笑.新媒體詐騙的言語行為研究[D].錦州:渤海大學,2014.
[5] 張劭捷.基于微博社交網絡的輿情分析模型及實現(xiàn)[D].廣州:華南理工大學,2011.
[6] 繆茹一.基于文本數據挖掘的微博情感分析與監(jiān)控系統(tǒng)[D].杭州:浙江工業(yè)大學,2015.
[7] ZHOU X,CHEN L.Event detection over twitter social media streams[J].VLDB Journal,2014,23(3):381-400.
[8] 康澤東,余旌胡,丁義明.微博社交網絡的對稱程度實證分析[J].計算機應用,2014,34(12):3405-3408.
[9] FARINE D R,WHITEHEAD H.Constructing,conducting and interpreting animal social network analysis[J].Journal of Animal Ecology,2015,84(5):1144-1163.
[10] 孫怡帆,李 賽.基于相似度的微博社交網絡的社區(qū)發(fā)現(xiàn)方法[J].計算機研究與發(fā)展,2014,51(12):2797-2807.
[11] 范超然,黃曙光,李永成.微博社交網絡社區(qū)發(fā)現(xiàn)方法研究[J].微型機與應用,2013,31(23):67-70.
[12] NASON G J,FARDOD O,KELLY M E,et al.The emerging use of Twitter by urological journals[J].Bju International,2015,115(3):486-490.
[13] CHEN P,FU X,TENG S,et al.Research on micro-blog sentiment polarity classification based on SVM[C]//International conference on human centered computing.[s.l.]:Springer International Publishing,2014:392-404.
[14] FLEUREN WW M,ALKEMA W.Application of text mining in the biomedical domain[J].Methods,2015,74:97-106.
[15] IRFAN R,KING C K,GRAGES D,et al.A survey on text mining in social networks[J].Knowledge Engineering Review,2015,30(2):157-170.