黃德勝
(廣州衛(wèi)生職業(yè)技術(shù)學(xué)院 基礎(chǔ)學(xué)院, 廣東 廣州 510925)
實(shí)現(xiàn)快速準(zhǔn)確的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析,有利于及時(shí)發(fā)現(xiàn)熱點(diǎn)信息。眾所周知,社交網(wǎng)絡(luò)是用戶在線交流、傳播信息的重要場(chǎng)所。社交網(wǎng)絡(luò)可以讓所有用戶都能夠自由注冊(cè)賬戶,與其他人建立聯(lián)絡(luò),同時(shí)還能夠查看其他好友的動(dòng)態(tài),為人們帶來(lái)了很大便利。然而任何事情都有兩面性,在社交網(wǎng)絡(luò)用戶以及信息不斷增長(zhǎng)的同時(shí),去中心化問(wèn)題也尤為突出。社交網(wǎng)絡(luò)中的信息具有稀疏性、高維性、主題不均勻等特點(diǎn),這些特點(diǎn)導(dǎo)致用戶難以獲取自己感興趣的話題以及某一時(shí)間段內(nèi)的熱點(diǎn)話題。因此,如何從雜亂無(wú)章的海量社交網(wǎng)絡(luò)信息中提取到熱點(diǎn)話題是一個(gè)巨大的挑戰(zhàn)。
當(dāng)前常使用的關(guān)于社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析的方法有兩種,一種是基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法;另一種是基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法。其中基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法主要是將一定情況、場(chǎng)景或者某一個(gè)統(tǒng)計(jì)維度在不同時(shí)刻點(diǎn)上的各個(gè)數(shù)據(jù),按照時(shí)間的先后順序排列而成的序列,能夠研究隨機(jī)數(shù)據(jù)序列所服從的統(tǒng)計(jì)特征,從而對(duì)社交網(wǎng)絡(luò)的熱點(diǎn)進(jìn)行分析?;谑录P(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法主要對(duì)采集的大量網(wǎng)絡(luò)安全事件信息進(jìn)行分析,從中查找到關(guān)聯(lián)數(shù)據(jù),從而分析社交網(wǎng)站數(shù)據(jù)熱點(diǎn)。
盡管這兩種方法在社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析中分別具有一定優(yōu)勢(shì),但依舊存在部分問(wèn)題,為了提高社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析的速度以及準(zhǔn)確性,本研究設(shè)計(jì)了一種社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法。首先進(jìn)行社交網(wǎng)絡(luò)數(shù)據(jù)的采集與預(yù)處理,再通過(guò)計(jì)算社交網(wǎng)站數(shù)據(jù)語(yǔ)義相似度對(duì)相關(guān)數(shù)據(jù)進(jìn)行檢索,最后計(jì)算社交網(wǎng)站中的數(shù)據(jù)熱度,完成社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析。實(shí)驗(yàn)證明,本研究設(shè)計(jì)的社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法能夠及時(shí)發(fā)現(xiàn)熱點(diǎn)信息。
數(shù)據(jù)采集通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取指定社交網(wǎng)絡(luò)平臺(tái)上的原始數(shù)據(jù)[1-2],下載到計(jì)算機(jī)中作為社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)分析的數(shù)據(jù)源,并從這些數(shù)據(jù)源中抽取有價(jià)值的信息,主要包括用戶信息、發(fā)布時(shí)間、文本內(nèi)容、評(píng)論信息以及關(guān)注人數(shù)等,將這些信息轉(zhuǎn)化為結(jié)構(gòu)數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。網(wǎng)絡(luò)爬蟲(chóng)可以自動(dòng)采集所有其能夠訪問(wèn)到的頁(yè)面內(nèi)容,為搜索引擎和大數(shù)據(jù)分析提供數(shù)據(jù)來(lái)源。在抓取工作中,首先選取一部分種子統(tǒng)一資源定位符(Uniform Resource Location、URL),將其放入待抓取URL隊(duì)列中,從中取出待抓取URL,解析DNS得到主機(jī)的IP地址,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái)存儲(chǔ)到已下載網(wǎng)頁(yè)庫(kù)中。此外,將以上URL放進(jìn)已抓取URL隊(duì)列,再分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊(duì)列,在此基礎(chǔ)上進(jìn)入下一個(gè)循環(huán)。網(wǎng)絡(luò)爬蟲(chóng)工作流程,如圖1所示。
圖1 網(wǎng)絡(luò)爬蟲(chóng)工作流程
由于本研究采集的數(shù)據(jù)中包含重復(fù)數(shù)據(jù),因此需要對(duì)采集的數(shù)據(jù)進(jìn)行分詞處理與過(guò)濾。處理流程,如圖2所示。
圖2 社交網(wǎng)站數(shù)據(jù)分詞處理流程圖
在此基礎(chǔ)上,選取社交網(wǎng)站數(shù)據(jù)特征,其處理流程如下所示。
Step1:采用TF-IDF(Term Frequency-inverse Document Frequency)權(quán)值計(jì)算方法,計(jì)算經(jīng)過(guò)分詞的社交網(wǎng)站數(shù)據(jù)詞頻。其中TF-IDF權(quán)值計(jì)算方法的主要思想是分析某個(gè)數(shù)據(jù)在一個(gè)網(wǎng)站中出現(xiàn)的頻率值[4],如果該數(shù)據(jù)在其他數(shù)據(jù)中很少出現(xiàn),則認(rèn)為此數(shù)據(jù)具有很好的類別區(qū)分能力;
Step2:將數(shù)據(jù)高維向量空間[5]進(jìn)行降維縮減;
Step3:提取最能反映社交網(wǎng)站數(shù)據(jù)的特征向量;
Step4:存儲(chǔ)特征數(shù)據(jù)。
以此,通過(guò)上述過(guò)程完成社交網(wǎng)絡(luò)數(shù)據(jù)分詞的處理,通過(guò)分詞可得到每個(gè)數(shù)據(jù)對(duì)應(yīng)句子的權(quán)重,其流程如下所示。
第一:特征數(shù)據(jù)存儲(chǔ);
第二:社交網(wǎng)站特征數(shù)據(jù)加權(quán)處理;
第三:按照上述權(quán)重計(jì)算結(jié)果對(duì)原文數(shù)據(jù)排序,完成數(shù)據(jù)分詞權(quán)重的處理。
在上述社交網(wǎng)站數(shù)據(jù)采集的基礎(chǔ)上,對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)進(jìn)行分析。在分析過(guò)程中,需要將獲取的數(shù)據(jù)轉(zhuǎn)換為計(jì)算機(jī)內(nèi)部能理解的形式以進(jìn)行數(shù)值運(yùn)算[6]。因此建立向量空間模型,即對(duì)文本數(shù)據(jù)建模[7]。向量空間模型的主要思想是將數(shù)據(jù)看成孤立的、互不相關(guān)的部分,以將文本數(shù)據(jù)轉(zhuǎn)化為多維度的空間向量。向量空間模型中文本與空間存在的關(guān)系,如圖3所示。
圖3 向量空間模型中文本與空間存在的關(guān)系
將社交網(wǎng)站文本數(shù)據(jù)轉(zhuǎn)換為空間向量后,就可以進(jìn)行相關(guān)計(jì)算,通過(guò)向量空間模型將整個(gè)數(shù)據(jù)映射為一個(gè)特征向量,如式(1)。
Q=D+R/x
(1)
式中,D表示社交網(wǎng)站文本數(shù)據(jù)中互不相同的詞條項(xiàng);R表示社交網(wǎng)站文本數(shù)據(jù)詞頻函數(shù);x表示數(shù)據(jù)在文檔中出現(xiàn)的次數(shù)。
在此基礎(chǔ)上,計(jì)算數(shù)據(jù)語(yǔ)義相似度[8],這是由于社交網(wǎng)絡(luò)數(shù)據(jù)熱點(diǎn)分析過(guò)程中,數(shù)據(jù)之間具有相關(guān)性,因此采用語(yǔ)義相似度的方法度量數(shù)據(jù)相關(guān)性。語(yǔ)義相似度方法主要以信息特征為計(jì)算基礎(chǔ),通過(guò)分析兩個(gè)概念在知識(shí)庫(kù)中共享信息情況,計(jì)算二者所有信息的比率[9],如式(2)。
(2)
式中,X表示最小上層詞語(yǔ)的深度;y表示詞語(yǔ)包含的語(yǔ)義信息;d表示同義詞集合中元素集合中的部分。
尋找社交網(wǎng)站中熱點(diǎn)數(shù)據(jù),需要依據(jù)語(yǔ)義相似度計(jì)算結(jié)果建立事件關(guān)聯(lián)圖[10],以分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。對(duì)相關(guān)數(shù)據(jù)檢索通過(guò)兩個(gè)方面展開(kāi),如圖4所示。
圖4 相關(guān)數(shù)據(jù)檢索流程
本地事件檢索主要應(yīng)用了特征詞提取技術(shù)[11],其具體表達(dá)式,如式(3)。
F=H/k+l
(3)
式中,H表示社交網(wǎng)站數(shù)據(jù)詞頻;k表示數(shù)據(jù)長(zhǎng)度;l表示數(shù)據(jù)特征參數(shù)。
在互聯(lián)網(wǎng)事件檢索上,借助互聯(lián)網(wǎng)上的搜索引擎[12]對(duì)數(shù)據(jù)進(jìn)行處理,將檢索到的文檔分類到在本地?cái)?shù)據(jù)庫(kù)中獲得的相關(guān)話題中,從而獲得新的相關(guān)話題。
將上述獲得的相關(guān)話題文檔按照時(shí)間進(jìn)行劃分,根據(jù)各個(gè)事件的數(shù)據(jù)文檔衡量數(shù)據(jù)的熱度[13]。數(shù)據(jù)熱度計(jì)算涉及的主要內(nèi)容,如圖5所示。
圖5 數(shù)據(jù)熱度計(jì)算主要內(nèi)容
從圖5可知,社交網(wǎng)站的數(shù)據(jù)紛繁復(fù)雜,數(shù)據(jù)量極為龐大,而且各種各樣的話題涉及到的內(nèi)容不同,但只有部分?jǐn)?shù)據(jù)是用戶重點(diǎn)關(guān)注的話題。因此以衡量數(shù)據(jù)的重要度來(lái)確定數(shù)據(jù)的影響力[14],綜合考慮網(wǎng)民關(guān)注度與媒體關(guān)注度[15],計(jì)算數(shù)據(jù)熱度,如式(4)。
w=At*Et+B
(4)
式中,At表示社交網(wǎng)站數(shù)據(jù)在時(shí)間t內(nèi)的總點(diǎn)擊次數(shù),即表示數(shù)據(jù)的評(píng)論數(shù);w表示社交網(wǎng)站數(shù)據(jù)的權(quán)威度;Et表示社交網(wǎng)站數(shù)據(jù)在時(shí)間t內(nèi)的報(bào)道總數(shù);B表示調(diào)整因子。
通過(guò)上述過(guò)程,完成社交網(wǎng)站中數(shù)據(jù)熱點(diǎn)的分析。
為了更好地證明本研究方法的有效性,本研究使用Chrome瀏覽器,并利用網(wǎng)上一綜合性大型網(wǎng)站為實(shí)驗(yàn)對(duì)象進(jìn)行相關(guān)實(shí)驗(yàn),通過(guò)網(wǎng)絡(luò)爬蟲(chóng)抓取實(shí)驗(yàn)使用的4個(gè)數(shù)據(jù)集,其中主要包括娛樂(lè)類數(shù)據(jù)、體育類數(shù)據(jù)、美食類數(shù)據(jù)和美妝類數(shù)據(jù),其大小分別為45 kB、125 kB、256 kB和452 kB,實(shí)驗(yàn)分析了該網(wǎng)站總計(jì)8天的數(shù)據(jù)。將每小時(shí)對(duì)該帖子的評(píng)論數(shù)作為熱度值,采用此次設(shè)計(jì)的社交網(wǎng)站的數(shù)據(jù)采集與熱點(diǎn)分析方法識(shí)別這4個(gè)數(shù)據(jù)集中的熱點(diǎn)話題。為了增強(qiáng)實(shí)驗(yàn)的對(duì)比性,將傳統(tǒng)的基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法、基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法對(duì)比。此次設(shè)計(jì)的方法發(fā)現(xiàn)在這4個(gè)數(shù)據(jù)集上的熱點(diǎn)數(shù)據(jù)的時(shí)間。
三種方法發(fā)現(xiàn)娛樂(lè)數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表1所示。
表1 娛樂(lè)類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間
由表1可知,所設(shè)計(jì)的方法能夠在短時(shí)間內(nèi)識(shí)別社交網(wǎng)站的數(shù)據(jù)。傳統(tǒng)的基于時(shí)間序列的社交網(wǎng)站數(shù)據(jù)與熱點(diǎn)分析方法、基于事件關(guān)聯(lián)的社交網(wǎng)絡(luò)數(shù)據(jù)采集與熱點(diǎn)分析方法的娛樂(lè)類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間顯著高于所設(shè)計(jì)的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析方法。
三種方法發(fā)現(xiàn)美食類數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表2所示。
表2 美食類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間
由表2可知,美食類數(shù)據(jù)多于娛樂(lè)類數(shù)據(jù),在此類數(shù)據(jù)識(shí)別上,傳統(tǒng)兩種方法發(fā)現(xiàn)美食類數(shù)據(jù)熱點(diǎn)的時(shí)間呈增加的趨勢(shì)。并經(jīng)過(guò)對(duì)比可知,所設(shè)計(jì)方法發(fā)現(xiàn)美食類數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間較短。
美妝類數(shù)據(jù)為452 kB,數(shù)據(jù)量多于上述兩種對(duì)比內(nèi)容的數(shù)據(jù),三種方法在此數(shù)據(jù)下的發(fā)現(xiàn)時(shí)間,如表3所示。
表3 美妝類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間
由表3可知,此次設(shè)計(jì)的方法發(fā)現(xiàn)熱點(diǎn)的時(shí)間沒(méi)有明顯變化,花費(fèi)時(shí)間依舊較少。而傳統(tǒng)兩種方法的美妝類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間仍然高于所設(shè)計(jì)的社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析方法。
三種方法發(fā)現(xiàn)體育類數(shù)據(jù)熱點(diǎn)內(nèi)容的時(shí)間對(duì)比結(jié)果,如表4所示。
表4 體育類數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間
由表4可知,所設(shè)計(jì)方法發(fā)現(xiàn)體育類數(shù)據(jù)熱點(diǎn)的時(shí)間較短,明顯低于傳統(tǒng)兩種方法。或許是傳統(tǒng)方法在分詞、特征提取、權(quán)重計(jì)算與聚類處理等方面上耗費(fèi)了大量時(shí)間,導(dǎo)致數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間延長(zhǎng)。因此,通過(guò)上述實(shí)驗(yàn)?zāi)軌蜃C明,所設(shè)計(jì)的方法數(shù)據(jù)熱點(diǎn)發(fā)現(xiàn)時(shí)間短于傳統(tǒng)兩種分析方法,能夠及時(shí)向社交網(wǎng)站用戶推送熱門內(nèi)容。
社交網(wǎng)站數(shù)據(jù)采集與熱點(diǎn)分析是一個(gè)隨著時(shí)代變化不斷發(fā)展的研究領(lǐng)域,還有許多問(wèn)題有待進(jìn)一步探索與研究。針對(duì)此次研究?jī)?nèi)容的不足,今后將重點(diǎn)研究三方面內(nèi)容,分別為如何有效及時(shí)獲取網(wǎng)絡(luò)中的最新消息;如何挖掘社交網(wǎng)站數(shù)據(jù)中蘊(yùn)含的語(yǔ)義信息以提高熱點(diǎn)數(shù)據(jù)挖掘能力;如何對(duì)音頻、視頻等多媒體信息進(jìn)行處理以進(jìn)一步提高社交網(wǎng)站數(shù)據(jù)熱點(diǎn)分析效果,及時(shí)為用戶提供熱點(diǎn)數(shù)據(jù)。