摘" 要: 微博熱點(diǎn)反映一個(gè)社會對某一事件的看法,其受到許多因素的影響,具有一定的規(guī)律性,同時(shí)具有一定的隨機(jī)性,數(shù)據(jù)規(guī)模龐大,傳統(tǒng)方法無法準(zhǔn)確、客觀描述,微博熱點(diǎn)預(yù)測錯(cuò)誤大,為此設(shè)計(jì)基于大數(shù)據(jù)分析方法的微博熱點(diǎn)建模與預(yù)測方法。首先對微博熱點(diǎn)變化特點(diǎn)進(jìn)行分析,找到引起微博熱點(diǎn)預(yù)測錯(cuò)誤大的原因,然后收集微博熱點(diǎn)歷史數(shù)據(jù),通過聚類分析選擇最優(yōu)樣本點(diǎn)組成訓(xùn)練樣本,減少數(shù)據(jù)的規(guī)模,最后引入大數(shù)據(jù)分析方法建立微博熱點(diǎn)預(yù)測模型,并與其他微博熱點(diǎn)預(yù)測方法進(jìn)行對比測試,所提方法的微博熱點(diǎn)預(yù)測精度超過95%,預(yù)測誤差遠(yuǎn)小于當(dāng)前其他微博熱點(diǎn)預(yù)測方法,而且建模與預(yù)測時(shí)間明顯減少,加快了微博熱點(diǎn)建模與預(yù)測效率,具有更高的實(shí)際應(yīng)用價(jià)值。
關(guān)鍵詞: 微博熱點(diǎn)分析; 網(wǎng)絡(luò)管理; 大數(shù)據(jù)分析; 預(yù)測模型; 微博熱點(diǎn)建模; 預(yù)測效率
中圖分類號: TN911.1?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " 文章編號: 1004?373X(2019)21?0073?04
Abstract: A microblog hotspot modeling and forecasting method based on large data analysis method is designed. The characteristics of microblog hotspot change are analyzed to find out the reasons for the large errors in microblog hotspot prediction. The historical data of microblog hotspots is collected. The optimal sample points are selected by clustering analysis to form training samples and reduce the size of data. The prediction model of microblog hotspots is established by introducing big data analysis method, and is tested and compared with other microblog hotspot forecasting methods. The accuracy of this method is more than 95%, and its prediction error is much less than that of other micro?blog hotspot prediction methods. Moreover, the time of modeling and prediction is obviously reduced, which speeds up the efficiency of microblog hotspot modeling and prediction, and has high practical application value.
Keywords: microblog hotspot analysis; network management; large data analysis; prediction model; microblog hotspot modeling; prediction efficiency
0" 引" 言
近年來,隨著互聯(lián)網(wǎng)應(yīng)用的不斷深入,網(wǎng)絡(luò)成為一個(gè)多元開放平臺,網(wǎng)絡(luò)上的輿情直接影響人們生活、工作以及社會的穩(wěn)定。在網(wǎng)絡(luò)輿情中,微博熱點(diǎn)是一種描述社會熱點(diǎn)問題突發(fā)事件等的觀點(diǎn)和建議[1?3]。一些積極的微博熱點(diǎn)可以推動社會的前進(jìn),另一些負(fù)面的微博熱點(diǎn)如反動的思想、虛假的信息迅速擴(kuò)散,會影響社會穩(wěn)定和人身安全,因此對微博熱點(diǎn)的預(yù)測及監(jiān)控成為當(dāng)前一個(gè)重大的研究課題[4?6]。
準(zhǔn)確的微博熱點(diǎn)建模和預(yù)測可以幫助政府對負(fù)面事件進(jìn)行及時(shí)控制,維持社會的穩(wěn)定,相對于一般的博客,微博內(nèi)容的實(shí)時(shí)性更強(qiáng),同時(shí)其與移動終端結(jié)合,擴(kuò)散速度更快,傳統(tǒng)微博熱點(diǎn)建模和預(yù)測方法為多元回歸分析,多元回歸分析從微博熱點(diǎn)數(shù)據(jù)中提取一些特征項(xiàng),研究特征之間的變化關(guān)系,然后建立一種描述特征之間變化關(guān)系的數(shù)學(xué)表達(dá)式,從而實(shí)現(xiàn)微博熱點(diǎn)的預(yù)測[7]。但是多元回歸分析主要反映特征之間的線性變化關(guān)系,實(shí)際上微博熱點(diǎn)特征之間同時(shí)存在著非線性變化關(guān)系,這樣使得多元回歸分析的微博熱點(diǎn)預(yù)測準(zhǔn)確性差。隨后提出基于聚類分析的微博熱點(diǎn)建模方法,其是一種定量分析方法,聚類分析方法可以對微博熱點(diǎn)數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行挖掘,首先提取微博熱點(diǎn)問題中的關(guān)鍵詞,并對關(guān)鍵詞進(jìn)行打分,然后對微博熱點(diǎn)類別進(jìn)行劃分,該方法只能區(qū)別微博熱點(diǎn)的類型,對微博熱點(diǎn)將來變化的趨勢無法預(yù)測,因此缺陷十分明顯[8]。隨后出現(xiàn)了基于灰色理論的微博熱點(diǎn)預(yù)測方法、基于神經(jīng)網(wǎng)絡(luò)的微博熱點(diǎn)預(yù)測方法,灰色理論需要的微博熱點(diǎn)樣本小,預(yù)測速度快,但是其微博熱點(diǎn)預(yù)測誤差比較大[9]。神經(jīng)網(wǎng)絡(luò)需要的微博熱點(diǎn)樣本數(shù)據(jù)多,此時(shí),其微博熱點(diǎn)預(yù)測精度高;反之,如果微博熱點(diǎn)樣本數(shù)量少,那么預(yù)測結(jié)果不穩(wěn)定,而且建模時(shí)間比較長[10?11]。隨著現(xiàn)代統(tǒng)計(jì)學(xué)理論的發(fā)展,近年來出現(xiàn)了大數(shù)據(jù)分析方法,通過對問題的原始數(shù)據(jù)進(jìn)行分析,然后采用機(jī)器學(xué)習(xí)算法對數(shù)據(jù)進(jìn)行分析,找到隱藏在其中的變化規(guī)律,在網(wǎng)絡(luò)流量、電力負(fù)荷預(yù)測等領(lǐng)域得到了成功的應(yīng)用[12]。
本文結(jié)合微博熱點(diǎn)的周期性、隨機(jī)性、數(shù)據(jù)規(guī)模大等特點(diǎn),針對當(dāng)前微博熱點(diǎn)建模與預(yù)測方法存在的缺陷,提出基于大數(shù)據(jù)分析方法的微博熱點(diǎn)建模與預(yù)測方法,并與其他微博熱點(diǎn)預(yù)測方法進(jìn)行仿真對比測試,本文方法的微博熱點(diǎn)單步預(yù)測精度超過95%,多步預(yù)測誤差也處于實(shí)際范圍內(nèi),相對于當(dāng)前其他微博熱點(diǎn)預(yù)測方法,預(yù)測誤差更小,建模與預(yù)測效率得到提升。
1" 建模與預(yù)測原理
基于大數(shù)據(jù)分析方法的微博熱點(diǎn)建模與預(yù)測原理為:首先收集微博熱點(diǎn)的相關(guān)數(shù)據(jù),如歷史點(diǎn)擊率、回帖數(shù)等,然后對數(shù)據(jù)進(jìn)行聚類分析,找到與待預(yù)測點(diǎn)相關(guān)的樣本作為訓(xùn)練樣本,最后采用極限學(xué)習(xí)機(jī)對訓(xùn)練樣本進(jìn)行學(xué)習(xí),并確定極限學(xué)習(xí)機(jī)相關(guān)參數(shù),構(gòu)建微博熱點(diǎn)預(yù)測模型,并對其性能進(jìn)行分析,具體如圖1所示。
2.1" 微博熱點(diǎn)數(shù)據(jù)的聚類分析算法
當(dāng)前聚類分析的方法很多,如模糊聚類算法、K均值聚類算法等,相對于其他聚類算法,K均值聚類算法的迭代次數(shù)少,可以很好地將微博熱點(diǎn)原始數(shù)據(jù)根據(jù)聚類中心劃分為多種類型,其具體工作步驟為:
Step1:設(shè)原始微博熱點(diǎn)數(shù)據(jù)集合為[I={xi,i=1,2,…,n}],共有[K]個(gè)類別,它們均有一個(gè)聚類中心,即[Zj(I)," "j=1,2,…,k]。
Step2:根據(jù)式(1)計(jì)算微博熱點(diǎn)樣本和每一個(gè)聚類中心之間的距離[D(xi,Zj(I))]:
Step3:如果滿足條件[D(xi,Zk(I))=min{D(xi,Zj(I))}],則表示樣本[xi]屬于該類樣本集合。
Step4:采用式(2)對聚類結(jié)果好壞進(jìn)行評價(jià)。
Step5:如果滿足[JC(I)-JC(I-1)lt;ζ],那么聚類終止,否則迭代次數(shù)增加,采用式(3)計(jì)算新聚類中心,并轉(zhuǎn)到Step2繼續(xù)迭代。
經(jīng)過以上步驟,可以將待預(yù)測的微博熱點(diǎn)樣本劃歸到相應(yīng)的微博熱點(diǎn)類別中,將該類別中所有的微博熱點(diǎn)樣本作為訓(xùn)練樣本。
2.2" 極限學(xué)習(xí)機(jī)的微博熱點(diǎn)建模與預(yù)測
構(gòu)建微博熱點(diǎn)的訓(xùn)練樣本,那么采用極限學(xué)習(xí)機(jī)可以建立如下預(yù)測模型:
要建立最優(yōu)微博熱點(diǎn)預(yù)測模型,首先要得到權(quán)值[βN],根據(jù)KKT最優(yōu)化條件解得:
由于微博熱點(diǎn)變化具有非線性、隨機(jī)性,因此引入滿足Mercer′s條件的核矩陣,具體為:
式中[K(xi,xj) ]表示核函數(shù)。
由于徑向基核函數(shù)具有通用性,而且十分簡單,因此選擇其為[K(xi,xj) ],具體為:
基于極限學(xué)習(xí)機(jī)的微博熱點(diǎn)輸出結(jié)果為:
3" 微博熱點(diǎn)建模與預(yù)測性能的驗(yàn)證
3.1" 微博熱點(diǎn)原始數(shù)據(jù)
為了分析大數(shù)據(jù)分析方法的微博熱點(diǎn)建模與預(yù)測效果,選擇當(dāng)前一個(gè)微博熱點(diǎn)話題作為研究對象,其為“公交車搶方向盤事件”,其變化曲線如圖2所示,最后200個(gè)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù),其他作為訓(xùn)練數(shù)據(jù)。為了使本文方法的實(shí)驗(yàn)說服力更強(qiáng),選擇文獻(xiàn)[13?14]的微博熱點(diǎn)預(yù)測模型進(jìn)行對比實(shí)驗(yàn)。
3.2" 微博熱點(diǎn)預(yù)測結(jié)果分析
三種方法的“公交車搶方向盤事件”數(shù)據(jù)預(yù)測結(jié)果如圖3所示,對“公交車搶方向盤事件”數(shù)據(jù)預(yù)測結(jié)果進(jìn)行分析可知:
1) 文獻(xiàn)[13?14]的“公交車搶方向盤事件”數(shù)據(jù)預(yù)測誤差大,“公交車搶方向盤事件”數(shù)據(jù)預(yù)測精度低,無法準(zhǔn)確描述“公交車搶方向盤事件”數(shù)據(jù)的隨機(jī)性變化態(tài)勢,難以獲得理想的微博熱點(diǎn)預(yù)測效果。
2) 本文方法的“公交車搶方向盤事件”數(shù)據(jù)預(yù)測精度高,預(yù)測誤差低于文獻(xiàn)[13?14]的微博熱點(diǎn)預(yù)測方法,主要是因?yàn)楸疚姆椒ㄊ紫纫肓司垲惙治鰧Α肮卉嚀尫较虮P事件”數(shù)據(jù)進(jìn)行處理,選擇了最優(yōu)訓(xùn)練樣本,然后引入極限學(xué)習(xí)機(jī)對“公交車搶方向盤事件”的變化特點(diǎn)進(jìn)行建模,提高了“公交車搶方向盤事件”的預(yù)測精度。
統(tǒng)計(jì)三種方法的訓(xùn)練和測試時(shí)間(單位:ms),結(jié)果如表1所示。從表1可知,本文方法的微博熱點(diǎn)建模的訓(xùn)練和測試時(shí)間更短,這是因?yàn)橥ㄟ^引入聚類分析對微博熱點(diǎn)樣本數(shù)據(jù)進(jìn)行預(yù)處理,減少了訓(xùn)練樣本的規(guī)模,加快了聚類分析對微博熱點(diǎn)建模速度。
3.3" 本文方法的通用性測試
為了分析本文方法的微博熱點(diǎn)預(yù)測通用性,采用當(dāng)前9個(gè)典型微博熱點(diǎn)作為測試對象,預(yù)測精度如表2所示。從表2可以看出,本文方法的微博熱點(diǎn)預(yù)測精度平均值超過了95%,達(dá)到了網(wǎng)絡(luò)輿情監(jiān)控的要求,具有較好的通用性,但是對比方法的微博熱點(diǎn)預(yù)測結(jié)果不穩(wěn)定,微博熱點(diǎn)平均預(yù)測精度低,難以獲得較好的微博熱點(diǎn)結(jié)果預(yù)測。
4" 結(jié)" 論
為了解決當(dāng)前微博熱點(diǎn)建模與預(yù)測過程中存在的不足,本文提出了基于大數(shù)據(jù)分析方法的微博熱點(diǎn)建模與預(yù)測方法,并采用具體數(shù)據(jù)對其進(jìn)行測試。通過引入聚類分析對微博熱點(diǎn)樣本數(shù)據(jù)進(jìn)行預(yù)處理,選擇重要的樣本組成訓(xùn)練樣本,減少微博熱點(diǎn)建模計(jì)算復(fù)雜度,建模時(shí)間大幅度減少,解決了當(dāng)前方法對大規(guī)模微博熱點(diǎn)數(shù)據(jù)建模效率低的缺陷。通過引入極限學(xué)習(xí)機(jī)對微博熱點(diǎn)樣本數(shù)據(jù)的周期性、隨機(jī)性變化特點(diǎn)進(jìn)行擬合,全面描述微博熱點(diǎn)的發(fā)展趨勢,使得微博熱點(diǎn)的預(yù)測精度得到提高,微博熱點(diǎn)的預(yù)測誤差變小,充分說明了本文方法的微博熱點(diǎn)預(yù)測效果要優(yōu)于當(dāng)前微博熱點(diǎn)的建模與預(yù)測方法,解決了當(dāng)前方法微博熱點(diǎn)預(yù)測誤差大的缺陷。本文方法是一種預(yù)測精度高、速度快的微博熱點(diǎn)建模方法,同時(shí)為其他具有相似變化特點(diǎn)的問題提供了一種建模預(yù)測思想,具有廣泛的應(yīng)用前景。
參考文獻(xiàn)
[1] 孫念,李玉強(qiáng),劉愛華,等.基于松散條件下協(xié)同學(xué)習(xí)的中文微博情感分析[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2018,52(8):1452?1460.
SUN Nian, LI Yuqiang, LIU Aihua, et al. Microblog sentiment analysis based on collaborative learning under loose conditions [J]. Journal of Zhejiang University (Engineering science), 2018, 52(8): 1452?1460.
[2] 葉永君,李鵬,周美林,等.面向領(lǐng)域的高質(zhì)量微博用戶發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2018,32(7):109?115.
YE Yongjun, LI Peng, ZHOU Meilin, et al. Domain specific high?quality microblogging user detection [J]. Journal of Chinese information processing, 2018, 32(7): 109?115.
[3] 金海.基于改進(jìn)神經(jīng)網(wǎng)絡(luò)算法的微博熱點(diǎn)預(yù)測系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2018,41(12):157?160.
JIN Hai. Design of micro?blog hot spot prediction system based on improved neural network algorithm [J]. Modern electronics technique, 2018, 41(12): 157?160.
[4] 朱海龍,云曉春,韓志帥.傳播加速度的微博流行度預(yù)測方法[J].計(jì)算機(jī)研究與發(fā)展,2018,55(6):1282?1293.
ZHU Hailong, YUN Xiaochun, HAN Zhishuai. Weibo popula?rity prediction method based on propagation acceleration [J]. Journal of computer research and development, 2018, 55(6): 1282?1293.
[5] 朱顥東,楊立志,丁溫雪,等.基于主題標(biāo)簽和CRF的中文微博命名實(shí)體識別[J].華中師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,52(3):316?321.
ZHU Haodong, YANG Lizhi, DING Wenxue, et al. Named entity recognition of Chinese microblog based on theme tag and CRF [J]. Journal of Central China Normal University (Natural sciences), 2018, 52(3): 316?321.
[6] 劉培磊,唐晉韜,王挺,等.基于詞向量語義聚類的微博熱點(diǎn)挖掘方法[J].計(jì)算機(jī)工程與科學(xué),2018,40(2):313?319.
LIU Peilei, TANG Jintao, WANG Ting, et al. A twitter hotspot mining method based on sematic clustering of word vectors [J]. Computer engineering science, 2018, 40(2): 313?319.
[7] 李依霖,朱嘉奇,吳云坤,等.一種微博熱點(diǎn)事件子話題的可視分析方法[J].中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2017,47(1):48?56.
LI Yilin, ZHU Jiaqi, WU Yunkun, et al. A visualization method for analyzing sub?topics of hot events in microblogs [J]. Journal of University of Science and Technology of China, 2017, 47(1): 48?56.
[8] 劉培玉,侯秀艷,朱振方,等.基于熱度聯(lián)合排序的微博熱點(diǎn)話題發(fā)現(xiàn)[J].計(jì)算機(jī)科學(xué)與探索,2016,10(4):573?581.
LIU Peiyu, HOU Xiuyan, ZHU Zhenfang, et al. Micro?blog hot topic detection based on heat co?ranking [J]. Journal of frontiers of computer science and technology, 2016, 10(4): 573?581.
[9] 孫曰昕,馬慧芳,師亞凱,等.融合詞語關(guān)聯(lián)關(guān)系的自適應(yīng)微博熱點(diǎn)話題追蹤算法[J].計(jì)算機(jī)應(yīng)用,2014,34(12):3497?3501.
SUN Yuexin, MA Huifang, SHI Yakai, et al. Self?adaptive microblog hot topic tracking method using term correlation [J]. Journal of computer applications, 2014, 34(12): 3497?3501.
[10] 謝思發(fā),林琛,蘇旋,等.Hadoop平臺的微博熱點(diǎn)事件挖掘[J].小型微型計(jì)算機(jī)系統(tǒng),2014,35(4):797?801.
XIE Sifa, LIN Chen, SU Xuan, et al. Mining hot event from microblog with Hadoop [J]. Mini?micro systems, 2014, 35(4): 797?801.
[11] 張貴紅,李中華.基于數(shù)據(jù)挖掘技術(shù)的微博熱點(diǎn)話題預(yù)測[J].現(xiàn)代電子技術(shù),2017,40(15):52?55.
ZHANG Guihong, LI Zhonghua. Micro?blog hot topic forecas?ting based on data mining technology [J]. Modern electronics technique, 2017, 40(15): 52?55.
[12] 蔣玉婷.支持向量機(jī)修正ARIMA誤差的微博熱點(diǎn)預(yù)測[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(9):187?190.
JIANG Yuting. Microblogging hot topic prediction based on correcting ARIMA error by support vector machine [J]. Computer applications and software, 2014, 31(9): 187?190.
[13] 姬建新.捕魚算法優(yōu)化核極限學(xué)習(xí)機(jī)的微博熱點(diǎn)話題預(yù)測[J].激光雜志,2015,36(1):128?131.
JI Jianxin. Hot topic prediction of micro?blog based on kernel extreme learning machine and fishing algorithm [J]. Laser journal, 2015, 36(1): 128?131.
[14] 饒浩,文海寧,林育曼,等.改進(jìn)的支持向量機(jī)在微博熱點(diǎn)話題預(yù)測中的應(yīng)用[J].現(xiàn)代情報(bào),2017,37(3):46?51.
RAO Hao, WEN Haining, LIN Yuman, et al. Application of optimized support vector machine in microblog hot topic prediction [J]. Journal of modern information, 2017, 37(3): 46?51.