程克非,鄧先均,周 科,羅 昭,陳旭東
(1.重慶郵電大學(xué) 網(wǎng)絡(luò)智能與網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.重慶市公安局 網(wǎng)絡(luò)安全保衛(wèi)總隊(duì),重慶 401120)
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China internet network information center, CNNIC)在京發(fā)布第42次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]顯示,截至2018年6月30日,中國(guó)網(wǎng)民規(guī)模達(dá)到8.02億,互聯(lián)網(wǎng)普及率為57.7%。越來越多的網(wǎng)民可以隨時(shí)隨地方便快捷地借助網(wǎng)絡(luò)來自由表達(dá)對(duì)輿情事件的看法、態(tài)度和主張。如今網(wǎng)民可以自由地在互聯(lián)網(wǎng)平臺(tái)上暢所欲言,正所謂人人都是新聞?dòng)浾?,人人具有發(fā)言權(quán),正如人人面前都有一個(gè)“麥克風(fēng)”,互聯(lián)網(wǎng)已然成為群眾維權(quán)和表達(dá)民意較為快捷方便、有效的平臺(tái)之一。自然而然,網(wǎng)絡(luò)輿情對(duì)于社會(huì)的發(fā)展影響也就越來越重要。
微博作為網(wǎng)絡(luò)輿情的主戰(zhàn)場(chǎng)之一,對(duì)微博中的網(wǎng)絡(luò)輿情進(jìn)行研究具有重要意義。與傳統(tǒng)的話題檢測(cè)相比(如在線新聞和報(bào)紙),微博具有傳播方式簡(jiǎn)單、傳播速度快、影響力大、參與性和互動(dòng)性強(qiáng)等特點(diǎn),而且微博對(duì)熱點(diǎn)話題非常敏感,這些使得微博對(duì)熱點(diǎn)事件的傳播起到了很大的作用。
微博熱點(diǎn)話題檢測(cè)不僅具有深遠(yuǎn)的經(jīng)濟(jì)和社會(huì)價(jià)值,而且也為各種商業(yè)和社交應(yīng)用提供了更加強(qiáng)大和靈活的支撐。用戶可以實(shí)時(shí)地了解重大事件、掌握社會(huì)熱點(diǎn)、追蹤社會(huì)動(dòng)態(tài)[2];企業(yè)可以了解相關(guān)領(lǐng)域的發(fā)展動(dòng)態(tài),在對(duì)用戶有吸引力的熱點(diǎn)話題中尋找機(jī)會(huì);相關(guān)部門可以及時(shí)了解當(dāng)前社會(huì)熱點(diǎn)事件和社會(huì)輿論的方向,對(duì)于幫助其及時(shí)有效地引導(dǎo)輿論、落實(shí)相應(yīng)政策具有較大意義。
本文的貢獻(xiàn)包括:①提出一個(gè)多維度熱點(diǎn)話題度量模型,對(duì)話題熱度進(jìn)行多方位度量,能夠更準(zhǔn)確地對(duì)話題進(jìn)行熱度度量;②引入熱度變化率,高效地過濾掉熱度值較低的話題,再?gòu)奈⒉┚W(wǎng)絡(luò)輿情演化理論出發(fā),使用回復(fù)加速度過濾掉已處于衰退、消亡階段的話題,從而提高突發(fā)性熱點(diǎn)話題檢測(cè)的準(zhǔn)確性;③提出的方法可以準(zhǔn)確地檢測(cè)出突發(fā)性熱點(diǎn)話題,并跟蹤其發(fā)展趨勢(shì),從而將較新的、有價(jià)值的熱點(diǎn)話題推薦給用戶,具有較高的應(yīng)用價(jià)值。
微博中的大部分?jǐn)?shù)據(jù)都是關(guān)于人們的日常生活,只有部分微博含有流行事件信息。因此,面對(duì)復(fù)雜多樣的微博信息,如何從中準(zhǔn)確地提取出熱點(diǎn)話題變得越來越重要。
圍繞熱點(diǎn)話題檢測(cè)準(zhǔn)確度低的問題,國(guó)內(nèi)外諸多學(xué)者展開了相關(guān)方面的研究。Berardinelli等[3]提出了一種基于多維句子建模和時(shí)間線分析的熱點(diǎn)話題檢測(cè)方法;Steinbuch等[4]提出了一個(gè)名為潛在狄氏分配(latent Dirichlet allocation, LDA)的3級(jí)分層貝葉斯模型,這是一個(gè)生成離散數(shù)據(jù)集合的生成概率模型,如文本語料庫(kù)。Bigeard等[5]根據(jù)查詢中的術(shù)語改進(jìn)相關(guān)文檔的檢測(cè),提出了一種自動(dòng)索引和檢索的方法,該方法利用了術(shù)語與文檔關(guān)聯(lián)中的隱式高階結(jié)構(gòu);Golub等[6]基于計(jì)數(shù)數(shù)據(jù)因子分析的統(tǒng)計(jì)潛在類模型,提出了一種新穎的自動(dòng)文件索引方法;Sahu等[7]提出了一個(gè)在線主題模型,該模型識(shí)別文本流的新主題以及這些新主題隨時(shí)間的變化規(guī)律,并自動(dòng)捕獲主題模式;W.Ou等[8]提出了一個(gè)正則化的主題模型,通過使用單詞共現(xiàn)信息統(tǒng)計(jì)來增強(qiáng)主題學(xué)習(xí);Kilany等[9]提出了一個(gè)名為時(shí)間區(qū)分概率模型(time discrimination probability model, TDPM)的主題檢測(cè)模型,該模型在理論上等同于具有時(shí)間區(qū)分和權(quán)重特征選擇的經(jīng)典向量空間模型。所有上述研究成功應(yīng)用于處理正常文本(如學(xué)術(shù)論文和新聞文章),但他們沒有考慮到微博文本的特殊性。
根據(jù)微博的特點(diǎn),現(xiàn)有的話題檢測(cè)方法有很多都是針對(duì)微博設(shè)計(jì)的。Giacoumidis等[10]提出了一種改進(jìn)的單通道聚類技術(shù),該技術(shù)使用LDA模型代替?zhèn)鹘y(tǒng)的向量空間模型,可以提取隱藏的微博主題信息;Z.Yang等[11]提出了一種增量聚類框架,該框架可以基于時(shí)間特征和一系列內(nèi)容快速檢測(cè)熱點(diǎn)話題;Jafariakinabad等[12]采用了一個(gè)名為核心項(xiàng)潛在狄利克雷分配模型的微博話題檢測(cè)模型;Pang等[13]開發(fā)了一種新穎的主題模型,可以通過在整個(gè)語料庫(kù)中明確建模詞匯共現(xiàn)模式來捕捉短文內(nèi)的主題;C.Zhang等[14]開發(fā)了一種高效的熱點(diǎn)話題檢測(cè)算法,可以在線處理大量推文。
但上述研究并沒有考慮到微博熱點(diǎn)話題度量的復(fù)雜性以及其在社交網(wǎng)絡(luò)中的傳遞問題,從而導(dǎo)致熱點(diǎn)話題檢測(cè)精度低,在對(duì)突發(fā)性熱點(diǎn)話題進(jìn)行檢測(cè)時(shí)尤為明顯。
針對(duì)上述存在的問題,本文從多角度考慮影響微博話題熱度的因素,提出一種多維度熱點(diǎn)話題度量模型。該模型首先對(duì)話題進(jìn)行篩選,得到一個(gè)熱點(diǎn)話題初始集,再通過深入分析微博熱點(diǎn)話題在社交網(wǎng)絡(luò)中的傳遞機(jī)制,融入話題熱度的影響力因子,計(jì)算各話題的綜合權(quán)值,將話題的綜合權(quán)值按照一定的權(quán)重與多維度熱點(diǎn)話題度量模型進(jìn)行有效融合得到基于微博多維度及綜合權(quán)值的熱點(diǎn)話題檢測(cè)算法(hot topic detection algorithm based on multi-dimensions and comprehensive weights of microblog, HTDAMCW),通過對(duì)話題綜合權(quán)值的考量來提高熱點(diǎn)話題檢測(cè)的質(zhì)量。
微博熱點(diǎn)話題度量的準(zhǔn)確度會(huì)影響其檢測(cè)質(zhì)量。話題度量越準(zhǔn)確,得到的熱點(diǎn)話題初始集就越精確,否則就難以保證對(duì)微博熱點(diǎn)話題的高質(zhì)量檢測(cè)。本文提出的多維度熱點(diǎn)話題度量模型,包括點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等[15-16]度量維度,然后根據(jù)實(shí)際情況賦予它們不同的權(quán)值,進(jìn)行線性加權(quán)得到該話題的熱度值,并且引用回復(fù)加速度[17]的概念來識(shí)別和量化話題熱度隨時(shí)間的變化特性。
通過對(duì)話題的熱度度量和熱度隨時(shí)間變化特性的識(shí)別和量化,不僅可以過濾掉熱度值較低或已處于衰退、消亡階段的微博,保留處于加速或成長(zhǎng)階段的話題,還可以對(duì)回復(fù)加速度急劇增加的話題給予足夠的關(guān)注,而這些話題往往容易發(fā)展成為突發(fā)性熱點(diǎn)話題。
對(duì)微博話題的熱度值進(jìn)行度量,可以從微博的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等方面考慮。某個(gè)微博有高的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論不一定含有熱點(diǎn)話題,但如果該微博的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等指標(biāo)不高或者偏低,那么可以肯定該條微博不包含熱點(diǎn)信息[18]。所以通過計(jì)算話題熱度值,給話題進(jìn)行熱度評(píng)分,可以有效過濾掉熱度值低的話題。
讓C={top1,top2,…,topM}成為一個(gè)微博話題集,其中,M是話題的數(shù)量。讓Heat(topi)表示topi的熱度,可以表示為
Heat(topi)=αLN(topi)+βFN(topi)+γCN(topi)
(1)
(1)式中:LN(topi)表示topi的點(diǎn)贊數(shù)量;FN(topi)和CN(topi)是topi的轉(zhuǎn)發(fā)和評(píng)論數(shù)量;α,β,γ分別表示LN(topi),F(xiàn)N(topi),CN(topi)的權(quán)重系數(shù),α+β+γ=1。
話題熱度降序排列1和話題熱度降序排列2分別如圖1和圖2。從圖1和圖2可以看出,如果選擇前10個(gè)話題作為熱點(diǎn)話題:對(duì)于圖1而言,前16個(gè)話題熱度差距不大,則會(huì)過濾掉部分熱點(diǎn)話題;對(duì)于圖2而言,只有前3個(gè)話題熱度很高,其他話題熱度都偏低,則會(huì)造成熱點(diǎn)話題集中非熱點(diǎn)話題過多。
圖1 話題熱度降序排列1Fig.1 Topic ranking in descending order 1
圖2 話題熱度降序排列2Fig.2 Topic ranking in descending order 2
針對(duì)上述問題,本文引入熱度變化率來解決。通過對(duì)圖1和圖2的觀察可以看出,當(dāng)話題熱度較低時(shí),其Heat(topi)值會(huì)跳變。話題熱度的跳躍點(diǎn)被定義為熱度變化率的突變點(diǎn),用Rate(topi)表示topi的熱度變化率,計(jì)算式為
(2)
然后,根據(jù)話題的熱度變化率進(jìn)行過濾,設(shè)定閾值δ,如果熱度變化率Rate(topi)>δ,那么熱度小于或等于跳躍點(diǎn)值的話題將被過濾,否則,topi將作為高頻話題變量保留,以便進(jìn)一步聚類。
根據(jù)微博網(wǎng)絡(luò)輿情演化理論,微博話題的生命周期可分為突發(fā)、成長(zhǎng)、衰退和消亡4個(gè)階段[19]。處于衰退階段的話題即使其熱度值很高,已不可能演變成具有時(shí)間突發(fā)性的熱點(diǎn)話題。因此,本文采用回復(fù)加速度的概念來識(shí)別和量化微博話題熱度隨時(shí)間的變化特性,表示為
(3)
(3)式中:a(topi)t是話題topi點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論加速度;Heat(topi)t為話題topi在時(shí)間t的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論數(shù);Δt為介于Heat(topi)t之間的時(shí)間粒度。
同時(shí),定義一個(gè)狀態(tài)函數(shù)S(topi):S(topi)→{acc,growth,dec,death},以標(biāo)識(shí)微博生命周期中的不同階段,該函數(shù)定義為
(4)
(4)式中:acc表示微博生命周期的突發(fā)期;growth表示微博生命周期的成長(zhǎng)期;dec表示微博生命周期的衰退期;death表示微博生命周期的消亡期;θ1和θ2為預(yù)先設(shè)定的閾值;Heat(topi)t為常量0。
在突發(fā)和衰退期,微博的轉(zhuǎn)發(fā)、點(diǎn)贊或急劇增加(a(topi)>>0)或強(qiáng)烈衰減(a(topi)<<0);在成長(zhǎng)期,微博在單位時(shí)間內(nèi)的轉(zhuǎn)發(fā)和點(diǎn)贊基本不變;而在衰亡期,微博點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論數(shù)趨近于0。
對(duì)微博進(jìn)行熱度度量在一定程度上能反應(yīng)微博的熱度,但如果要更深入探討微博話題的熱度,還要引入其他因子,如微博的質(zhì)量(是否為認(rèn)證用戶所發(fā))、話題參與人數(shù)等[20]。另外還要對(duì)微博的影響力進(jìn)行度量,一個(gè)話題在整個(gè)話題集中占的比重越高,則他的影響力就越大,那么它的熱度自然也就更高[21]。
本文利用話題的原創(chuàng)微博數(shù)量、參與人數(shù)、認(rèn)證用戶微博數(shù)量這3個(gè)因子來衡量話題的權(quán)值,為了方便計(jì)算,采用最大最小值歸一化方法[22]對(duì)這3個(gè)特征因子作歸一化處理。假設(shè)特征因子量化后為y,最大值為ymax,最小值為ymin,則歸一化后的yn為
(5)
對(duì)原創(chuàng)微博數(shù)量、參與人數(shù)、認(rèn)證用戶微博數(shù)量分別進(jìn)行歸一化后,表示如下
(6)
(7)
(8)
(6)—(8)式中,y1,y2,y3分別表示對(duì)話題topi下的原創(chuàng)微博數(shù)量,參與人數(shù),認(rèn)證用戶微博數(shù)量歸一化后的結(jié)果。
取這3個(gè)特征因子歸一化后數(shù)值的平均值,作為該話題的權(quán)值
W(topi)=(y1+y2+y3)/3
(9)
然后,本文再構(gòu)建融入話題的影響力因素,構(gòu)造如下公式來計(jì)算每個(gè)熱點(diǎn)話題的綜合權(quán)值
(10)
(9)—(10)式中:W(topi),W(topj)分別表示topi,topj的權(quán)值;n表示話題集中的話題總數(shù);λ,μ表示權(quán)重系數(shù),且λ+μ=1。
在此基礎(chǔ)之上,對(duì)保留下來的微博建立話題集合TP={top1,top2,…,topm},其中,m為話題總量。
由于多條微博所討論的話題可能是同一個(gè)熱點(diǎn)話題,因此,在對(duì)主題詞進(jìn)行聚類處理時(shí),定義2個(gè)集合間的Jaccard系數(shù)作為它們的相似度度量,即
(11)
(11)式中:topi∈TP;topj∈TP。
HTDAMCW算法主要針對(duì)突發(fā)性熱點(diǎn)話題進(jìn)行檢測(cè),該算法的實(shí)現(xiàn)過程主要分為5個(gè)步驟:微博熱度值計(jì)算、話題熱度變化率計(jì)算、微博話題回復(fù)加速度計(jì)算、主題相似度計(jì)算及選擇、微博綜合權(quán)值計(jì)算及熱點(diǎn)提取。以下為該算法的具體實(shí)施步驟。
輸入:R={R1,R2,…,Rn}(輿情話題集合)
輸出:TP={th1,th2,…,thp}(熱點(diǎn)話題集合)
步驟1對(duì)話題集R里面的微博進(jìn)行分詞處理,得到話題集H={top1,top2,…,topi};
步驟2利用(1)式計(jì)算輿情話題集H中每個(gè)話題的熱度值Heat(topi),并按熱度值降序排列,得到初始話題集H1={H1(topi)};
步驟3利用(2)式計(jì)算話題集H1里面每個(gè)話題的熱度變化率Rate(topi),如Rate(topi)>δ則過濾,得到話題集H2={H2(topi)};
步驟4利用(3)式計(jì)算話題集H2里面每個(gè)微博話題的回復(fù)加速度a(topi)t,直接過濾掉a(topi)t<0的話題,得到話題集合ST={th1,th2,…,thn};
步驟5對(duì)于th1,th2,…,thn,選取最大話題max|thi|,利用(11)式計(jì)算相似度,當(dāng)sim(max|thi|,thj)≥κ,則加入到話題集合H(thi)={thi,thj}中,否則轉(zhuǎn)入步驟6;
步驟6ST=ST-H(thi),迭代計(jì)算轉(zhuǎn)入步驟5,從ST中再次選擇最大話題max|thi|,直到集合ST為空;
步驟7利用(9)式對(duì)熱點(diǎn)話題集合H(thi)中每個(gè)話題的綜合權(quán)值Wp(topi)進(jìn)行計(jì)算;
步驟8按綜合權(quán)值Wp(topi)降序排列熱點(diǎn)話題,取前P個(gè)話題作為最終熱點(diǎn)話題集合TP={th1,th2,…,thp}。
首先,本文利用新浪微博API抓取并收集了2018年1月20日—9月30日共20 678條微博數(shù)據(jù)進(jìn)行微博熱點(diǎn)分析。該數(shù)據(jù)集來源于“人民網(wǎng)”、“新周刊”、“環(huán)球時(shí)報(bào)”、“環(huán)球網(wǎng)”、“頭條新聞”、“微媒熱點(diǎn)”、“齊魯晚報(bào)”7大官媒微博平臺(tái),其字段為微博ID、關(guān)注數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)等。其次,本文利用關(guān)鍵詞篩選跟蹤爬取了9月1日—9月30日關(guān)于“順風(fēng)車”事件、“霸座”事件的微博數(shù)據(jù)用以熱點(diǎn)話題走勢(shì)分析。
本文將基于詞頻和基于word2vec的檢測(cè)和提取方法作為參照,利用準(zhǔn)確率(precision)、召回率(recall rate)、和F-度量(F-measure)對(duì)熱點(diǎn)話題檢測(cè)的結(jié)果進(jìn)行評(píng)價(jià)[23],具體計(jì)算公式如下。
1)準(zhǔn)確率(Precision,P):提取的關(guān)鍵詞中被確認(rèn)為正確關(guān)鍵詞的比率,計(jì)算式為
(12)
(12)式中:numi表示提取到的能正確反映微博主題的熱點(diǎn)話題數(shù)量;numj表示提取到的不能反映微博主題的熱點(diǎn)話題數(shù)量。
2)召回率(Recall,R):提取的正確關(guān)鍵詞占所有正確關(guān)鍵詞的比率,計(jì)算式為
(13)
(13)式中,numk表示沒有提取到的但卻能反映微博主題的熱點(diǎn)話題數(shù)量。
3)系統(tǒng)綜合性能(F-measure,Fm):為了量化系統(tǒng)的精確度,本文用F-measure(Fm)來分析實(shí)驗(yàn)結(jié)果,計(jì)算式為
(14)
(14)式中:Fm表示系統(tǒng)的綜合性能;R表示召回率;P表示準(zhǔn)確率;ω的值取1,F(xiàn)m值越高,準(zhǔn)確度越高,ω的值是召回率與準(zhǔn)確率之間的相對(duì)權(quán)重,如果準(zhǔn)確率更重要,ω的值大于1,如果召回率更重要,則ω的值小于1。在本文實(shí)驗(yàn)中設(shè)定召回率與準(zhǔn)確率同等重要,因此,將ω設(shè)為1。
1)微博熱點(diǎn)分析。為了證明本文所提出方法的有效性,針對(duì)前面的數(shù)據(jù)集,本實(shí)驗(yàn)抽取了10個(gè)微博熱點(diǎn)話題,使用基于詞頻、基于word2vec和HTDAMCW這3種檢測(cè)方法進(jìn)行對(duì)比分析如表1。表1中第1列是10個(gè)微博熱點(diǎn)話題的標(biāo)號(hào);第2列為這些話題的名稱;第3列給出了話題的生成時(shí)間;第4—6列分別為使用基于詞頻,word2vec,HTDAMCW 3種檢測(cè)方法得到的這10個(gè)話題的排名。
通過表1可以看出,在微博熱點(diǎn)話題檢測(cè)中,基于詞頻的方法排在前面的為兩會(huì)、世界杯、高考等話題,因?yàn)榛谠~頻的方法主要計(jì)算關(guān)鍵詞的頻率;基于word2vec的檢測(cè)方法引入詞向量訓(xùn)練模型,挖掘文本之間的關(guān)聯(lián),因此,其檢測(cè)準(zhǔn)確度更高。但以上2種方法都并沒有考慮到話題的時(shí)間維度和突發(fā)性。本文提出的HTDAMCW算法從多個(gè)維度對(duì)話題進(jìn)行了度量,通過熱度變化率高效地過濾掉低頻話題,再使用回復(fù)加速度過濾掉進(jìn)入衰退或消亡期的話題(兩會(huì)、世界杯、高考等),最后結(jié)合微博的綜合權(quán)值,有效檢測(cè)出突發(fā)性熱點(diǎn)話題。從實(shí)驗(yàn)結(jié)果可以看出,HTDAMCW算法在檢測(cè)突發(fā)性熱點(diǎn)話題時(shí)具有更高的準(zhǔn)確性。
表1 抽取微博熱點(diǎn)話題并排序
2)準(zhǔn)確率、召回率和系統(tǒng)綜合性能對(duì)比。對(duì)于爬取的20 678條微博信息,本文將HTDAMCW算法與其他傳統(tǒng)的檢測(cè)和提取算法(基于詞頻和基于word2vec的檢測(cè)和提取算法)進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,相較于其他2種算法,HTDAMCW算法準(zhǔn)確性有明顯提高,如圖3。
圖3 HTDAMCW算法與其他算法對(duì)比實(shí)驗(yàn)結(jié)果Fig.3 Comparison of experimental results between HTDAMCW algorithm and other algorithms
3)突發(fā)性熱點(diǎn)話題走勢(shì)分析。為了進(jìn)一步驗(yàn)證HTDAMCW算法對(duì)微博突發(fā)性熱點(diǎn)話題檢測(cè)的有效性,本文以“順風(fēng)車”、“霸座”2個(gè)事件為例,利用該算法,在不同時(shí)間點(diǎn)跟蹤計(jì)算其綜合權(quán)值。為了便于做圖,本實(shí)驗(yàn)等比例放大了其綜合權(quán)值,得到如圖4和圖5虛線所示的事件熱度趨勢(shì)圖,實(shí)線表示9月1日—9月30日2大事件的微博官方指數(shù)。
圖4 “順風(fēng)車”事件HTDAMCW與官方微指數(shù)對(duì)比試驗(yàn)Fig.4 Comparative test of “free ride” event based on HTDAMW and official micro-index
圖5 “霸座”事件HTDAMCW與官方微指數(shù)對(duì)比試驗(yàn)Fig.5 Comparative test of “seat robber” event based on HTDAMW and official micro-index
圖4虛線為從9月1日開始就持續(xù)跟蹤“順風(fēng)車”事件的結(jié)果,從中可以看出事件很快就發(fā)展成為突發(fā)性熱點(diǎn)事件。通過與官方微指數(shù)對(duì)比可知,“順風(fēng)車”事件走勢(shì)基本擬合了微博官方走勢(shì)。圖5虛線為從9月1日開始就持續(xù)跟蹤“霸座”事件的結(jié)果,通過與官方微指數(shù)對(duì)比可知,“霸座”事件走勢(shì)也整體擬合了微博官方走勢(shì)。
從以上分析可以看出,本文提出的方法可以準(zhǔn)確檢測(cè)出突發(fā)性熱點(diǎn)話題,并跟蹤其發(fā)展趨勢(shì),從而將較新的、有價(jià)值的熱點(diǎn)話題推薦給用戶。
傳統(tǒng)熱點(diǎn)檢測(cè)算法僅從單一維度衡量話題的熱度,導(dǎo)致熱點(diǎn)話題檢測(cè)精度低,在對(duì)突發(fā)性熱點(diǎn)話題進(jìn)行檢測(cè)時(shí)尤為明顯。鑒于此,本文提出一種多維度熱點(diǎn)話題度量模型。該模型首先對(duì)話題進(jìn)行篩選,得到一個(gè)熱點(diǎn)話題初始集,再融入話題熱度的影響力因子,計(jì)算話題的綜合權(quán)值,將話題的綜合權(quán)值按照一定的權(quán)重與多維度熱點(diǎn)話題度量模型進(jìn)行有效融合,最終得到一種基于微博多維度及綜合權(quán)值的熱點(diǎn)話題檢測(cè)模型。實(shí)驗(yàn)結(jié)果表明,本文提出的算法模型在對(duì)突發(fā)性熱點(diǎn)話題的檢測(cè)中,其檢測(cè)準(zhǔn)確度相比于傳統(tǒng)算法有了較大提高,整體性能表現(xiàn)穩(wěn)定,從而改善了突發(fā)性熱點(diǎn)話題檢測(cè)的質(zhì)量。然而,本模型也存在一些不足之處,對(duì)于大型文本數(shù)據(jù)集來說,該方法在提取熱點(diǎn)話題時(shí)的時(shí)間復(fù)雜度較高,因此,優(yōu)化本模型,使其更加高效運(yùn)行將是未來的工作。