周 劍 峰
(廣東外語(yǔ)外貿(mào)大學(xué)圖書館 廣東 廣州 510420)
據(jù)新浪微博數(shù)據(jù)中心的《2017微博用戶發(fā)展報(bào)告》顯示,截至2017年9月,新浪微博月活躍用戶共3.76億,相對(duì)2016年增長(zhǎng)了27%,其中移動(dòng)端比例達(dá)到了92%。2017年中的“#杭州保姆縱火案件#、#校園欺凌#、#厲害了我的國(guó)#”等事件均凸顯了微博作為網(wǎng)絡(luò)新興媒體在社會(huì)輿情傳播中的重要地位及其對(duì)國(guó)家和社會(huì)穩(wěn)定的深遠(yuǎn)影響力。相對(duì)普通微博,熱門微博更容易成為網(wǎng)絡(luò)輿情的發(fā)酵源,本文分析了熱門微博的影響因素,構(gòu)建量化微博熱度評(píng)價(jià)指標(biāo)體系,采用因子分析法進(jìn)行特征選擇,最終結(jié)合SVM算法獲取熱門微博預(yù)測(cè)方法。研究對(duì)于網(wǎng)絡(luò)輿情監(jiān)控研究、企業(yè)營(yíng)銷、政府輿情監(jiān)控具有重要意義。
目前國(guó)內(nèi)外的微博輿情研究方法主要分為兩個(gè)方向:
1) 一類是對(duì)微博文本及其評(píng)論內(nèi)容的研究,主要表現(xiàn)為基于微博文本內(nèi)容的話題發(fā)現(xiàn)以及基于評(píng)論情感傾向及強(qiáng)度的熱點(diǎn)挖掘兩種。Puvipadaw等[1]針對(duì)Twitter中的文本特征,提出一種的突發(fā)新聞檢測(cè)、排列及跟蹤算法。楊亮等[2]提出情感分布語(yǔ)言模型ELM(emotion distribution language model)來(lái)發(fā)現(xiàn)微博中的熱點(diǎn)事件。吳青等[3]基于微博短文本特點(diǎn),根據(jù)高頻微博詞實(shí)現(xiàn)微博聚類,并分析熱點(diǎn)話題的情感強(qiáng)度,跟蹤及預(yù)測(cè)微博輿情。葉成緒等[4]結(jié)合最長(zhǎng)公共子串和維基百科知識(shí),基于中文微博主題詞進(jìn)行熱點(diǎn)話題發(fā)現(xiàn)研究。
2) 另一類主要基于微博傳播路徑中的用戶、轉(zhuǎn)發(fā)等因素進(jìn)行分析研究。在文獻(xiàn)[5]中提出了一種基于地理空間信息的熱點(diǎn)事件檢測(cè)方法,但是該方法基于用戶的位置信息,在用戶不允許分享位置時(shí)容易失去效用。文獻(xiàn)[6-7]針對(duì)Twitter提出基于粉絲、轉(zhuǎn)發(fā)帖數(shù)、回復(fù)數(shù)、被轉(zhuǎn)發(fā)數(shù)等因素計(jì)算個(gè)人用戶的影響力,發(fā)現(xiàn)話題的關(guān)鍵用戶,為熱點(diǎn)話題發(fā)現(xiàn)提供參考。上述研究沒有針對(duì)單條微博熱度評(píng)價(jià)的研究,并且特征覆蓋并不全面,受到一定局限。
在單條熱門微博預(yù)測(cè)研究方面,鄭志蘊(yùn)等[8]從微博內(nèi)容特征、傳播特征、博主特征出發(fā),利用信息增益算法對(duì)微博熱度進(jìn)行度量結(jié)合神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)微博的傳播特征從而預(yù)測(cè)微博是否能成為熱門微博。陳夢(mèng)秋等[9]結(jié)合微博博主特征、微博傳播特征,采用SVM模型進(jìn)行熱門微博預(yù)測(cè)研究。其成果忽略了微博受眾特征,且沒有對(duì)特征進(jìn)行進(jìn)一步的選擇研究。
針對(duì)上述問題,本文提出一套多層級(jí)多維度可量化的微博熱度評(píng)指標(biāo)體系,全面考慮熱門微博影響因素,采用因子分析法進(jìn)行特征選擇研究,降低特征維度,消除噪聲,獲取公共因子;以公共因子作為向量特征,采用支持向量機(jī)算法訓(xùn)練熱門微博預(yù)測(cè)模型,對(duì)單條微博是否能成為熱門進(jìn)行預(yù)測(cè),為微博輿情研究提供參考。
圖1 微博熱度評(píng)價(jià)指標(biāo)體系
微博的吸引力主要來(lái)自于內(nèi)容的信息量,據(jù)課題組對(duì)新浪熱門微博數(shù)據(jù)集的分析統(tǒng)計(jì),熱門微博的文本平均長(zhǎng)度達(dá)到了117個(gè)字,且長(zhǎng)度與熱門程度呈正相關(guān)態(tài)勢(shì),內(nèi)容均含有圖片或者視頻,其中46%含有URL鏈接,61%含有話題標(biāo)簽。同時(shí)情感詞的增多可以使文本內(nèi)容更活潑更容易引起共鳴,基于大連理工情感本體庫(kù)進(jìn)行統(tǒng)計(jì),90%以上的熱門微博均包含情感詞。基于上述統(tǒng)計(jì),課題擬定了一級(jí)指標(biāo)微博信息量(B1),其特征選取依據(jù)主要為微博內(nèi)容及其情感信息量的豐富程度。
文本信息量(C1),文本即微博的核心內(nèi)容,長(zhǎng)度越大內(nèi)容越豐富,才能完整清晰地傳達(dá)事情的全貌,因此以微博文本的長(zhǎng)度即字符數(shù)作為特征。文本情感信息量(C2),情感詞是文本情感分析的基礎(chǔ),是文本情感信息量的代表,把文本中的情感詞詞頻作為分析指標(biāo)。主題信息量(C3),話題標(biāo)簽是微博內(nèi)容的縮影,對(duì)微博傳播有直接影響,因此把微博文本中標(biāo)簽的個(gè)數(shù)作為分析指標(biāo)。附加媒體信息量(C4),圖片、視頻、URL鏈接均是對(duì)微博內(nèi)容的補(bǔ)充,均有提高微博內(nèi)容信息量及吸引力的能力,因此把圖片、視頻、鏈接的合計(jì)量作為分析指標(biāo)。
一級(jí)指標(biāo)微博傳播(B2)指微博的傳播特征,主要包括時(shí)間、方式、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、表態(tài)數(shù)等,為了消除時(shí)間的累積效應(yīng),使其能夠在實(shí)際情況中評(píng)估微博的傳播能力,研究采用自微博發(fā)布時(shí)間起至被抓取的時(shí)間的統(tǒng)計(jì)數(shù)據(jù)均值作為指標(biāo),即:數(shù)量/每小時(shí)。
根據(jù)濮小燕等[10]研究,新浪微博在線人數(shù)和活躍度在每天的時(shí)間序列上呈現(xiàn)一定的規(guī)律,不同時(shí)間的活躍用戶數(shù)會(huì)對(duì)熱門微博的產(chǎn)生有直接的影響。課題組對(duì)熱門微博發(fā)表的時(shí)間進(jìn)行了統(tǒng)計(jì),發(fā)現(xiàn)熱門微博的發(fā)表時(shí)間集中于中午(午休)、傍晚(交通)、夜晚(文娛)三個(gè)時(shí)間段,即非工作時(shí)間段,用戶活躍度較高,根據(jù)統(tǒng)計(jì)結(jié)果對(duì)每日24個(gè)小時(shí)進(jìn)行切分,將發(fā)表時(shí)間指標(biāo)(C5)分為工作時(shí)段(7∶00-12∶00,14∶00-18∶00)、文娛時(shí)段(12∶00-13∶00,18∶00-23∶00)、睡眠時(shí)段(23∶00-7∶00)。
(1)
同時(shí)以平均轉(zhuǎn)發(fā)數(shù)(C6),平均評(píng)論數(shù)(C7),平均表態(tài)數(shù)(C8)作為傳播路徑上的分析指標(biāo)。相對(duì)手機(jī)客戶端而言,PC端及第三方應(yīng)用產(chǎn)生的微博發(fā)布步驟相對(duì)復(fù)雜,并且具有審核功能,具有更高的公信力,更容易產(chǎn)生社會(huì)輿情,因此將發(fā)布渠道(C9),作為分析指標(biāo)之一, 計(jì)算方式如公式所示:
(2)
自媒體是以人為核心,通過公眾用戶自我傳播的。微博博主的影響力對(duì)微博的傳播、熱度有直接的影響。基于新浪微博采集的數(shù)據(jù),博主的屬性主要有認(rèn)證、粉絲數(shù)、微博數(shù)等。其中認(rèn)證代表著博主權(quán)威性指標(biāo)(C10),權(quán)威性越高則博主微博內(nèi)容的可信度越高,越容易被受眾接受并傳播,已受到官方認(rèn)證的博主權(quán)威性更高,量化計(jì)算方式如公式所示:
(3)
粉絲數(shù)指關(guān)注該博主的人數(shù),粉絲越多,該博主的累積影響力越大,所發(fā)布的微博也容易被更多人閱讀及轉(zhuǎn)發(fā),成為熱門微博,因此將粉絲數(shù)作為博主影響力指標(biāo)(C11)。相對(duì)粉絲數(shù)而言,博主的近期微博數(shù)(C12)不僅反映了博主的活躍度,也反映博主的近期影響力。活躍度較高的博主更容易受到注意,并且對(duì)粉絲有更強(qiáng)的影響力。
微博是自媒體網(wǎng)絡(luò)社交平臺(tái),在自媒體平臺(tái)上,人人皆可成為媒體,也可以稱為“個(gè)人媒體”,意味著微博的受眾,即微博信息的接受者和傳播者均成為了輿情傳播的重要環(huán)節(jié)。因此將微博受眾(B4)作為一級(jí)指標(biāo)進(jìn)行分析。
微博受眾與博主分析指標(biāo)類似,主要計(jì)算其在傳播節(jié)點(diǎn)中的影響力,相對(duì)博主而言,受眾具有較為龐大的數(shù)量,為了平衡微博受眾間的數(shù)量及影響力差異,采用其平均數(shù)作為分析指標(biāo)。
(4)
式中:C為指標(biāo)Cn的統(tǒng)計(jì)數(shù)。
與博主指標(biāo)類似,受眾權(quán)威度(C13)來(lái)自于其受眾博主的平均認(rèn)證數(shù),已認(rèn)證的微博用戶對(duì)自己的言論更慎重,對(duì)自己所參與轉(zhuǎn)發(fā)、評(píng)論的微博也較為謹(jǐn)慎,其轉(zhuǎn)發(fā)、評(píng)論的微博會(huì)具有較高的可信度。微博受眾影響力(C14)來(lái)自于其微博受眾用戶的平均粉絲數(shù)量,反映傳播路徑上受眾的影響力及水平。傳播路徑上較活躍的節(jié)點(diǎn)具有更高的影響力,受眾活躍度(C15)則通過受眾用戶的平均微博數(shù)獲取,平均微博數(shù)越多路徑活躍度越高,其傳播節(jié)點(diǎn)也越大,也對(duì)微博傳播具有更深遠(yuǎn)的影響力。受眾的平均情感信息量(C16),根據(jù)文獻(xiàn)[2]的研究,人們往往對(duì)于能夠讓自身產(chǎn)生情感的事件更關(guān)注,熱門微博的回復(fù)評(píng)論當(dāng)中,均呈現(xiàn)出大幅度的情感波動(dòng)。因此當(dāng)回復(fù)評(píng)論中出現(xiàn)大量情感波動(dòng)時(shí),則微博更容易成為熱門微博?;谏鲜隼碚摴P者基于研究小組提出的方法[11]計(jì)算回復(fù)及評(píng)論文本情感傾向,采用線性加和的方式計(jì)算總情感信息量。
微博熱度評(píng)價(jià)體系中的多維特征能夠覆蓋微博本身及其影響力所涉及的各項(xiàng)因素。但各項(xiàng)評(píng)價(jià)指標(biāo)之間有差異性也存在一定的關(guān)聯(lián)性,其對(duì)微博熱度評(píng)價(jià)的結(jié)果都存在正向或負(fù)向影響力,其影響力程度也呈不同水平,直接采用原始評(píng)價(jià)指標(biāo)作為特征有時(shí)難以反映真實(shí)情況,增加了數(shù)據(jù)處理的難度和計(jì)算復(fù)雜度,容易對(duì)評(píng)價(jià)結(jié)果產(chǎn)生負(fù)面影響。
為了減少特征中的噪聲,降低對(duì)熱門微博預(yù)測(cè)的負(fù)面影響,使其能有效地應(yīng)用于海量的熱門微博識(shí)別中,本文采用因子分析法對(duì)指標(biāo)進(jìn)行降維處理,消除噪聲指標(biāo)的影響力,獲取公共因子。
因子分析是一種能夠?qū)⒃甲兞哭D(zhuǎn)化成幾個(gè)綜合變量的多元統(tǒng)計(jì)分析方法[12],其通過研究眾多變量數(shù)據(jù)之間的信息關(guān)系,將相同本質(zhì)的變量歸入同一個(gè)綜合變量,這幾個(gè)綜合變量被稱作“因子”,其代表了多個(gè)原始變量的信息及結(jié)構(gòu),既實(shí)現(xiàn)了指標(biāo)歸總及特征降維,也有利于提高分類精確率及計(jì)算效率。
以公共因子作為特征向量,筆者擬采用支持向量機(jī)SVM訓(xùn)練熱門微博預(yù)測(cè)模型。支持向量機(jī)[13]以統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理為基礎(chǔ),根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折中,是一種有監(jiān)督學(xué)習(xí)模型,它在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出許多特有的優(yōu)勢(shì),有較好的較好泛化性能?;赟VM的單條熱門微博預(yù)測(cè)模型就是將微博能否成為熱門微博的預(yù)測(cè)轉(zhuǎn)換為一個(gè)二分類問題,即將單條微博分為熱門微博及非熱門微博。
本文以新浪微博作為研究對(duì)象,以16個(gè)熱度評(píng)價(jià)指標(biāo)作為輸入,獲取熱門微博分類結(jié)果及其評(píng)價(jià)作為期望輸出。研究框架如圖2所示。
圖2 FA-SVM熱門微博研究框架
本文采集了新浪微博共500條,其中包含來(lái)自新浪微博熱門排行榜的數(shù)據(jù)150條,其余350條為新浪微博熱度值較高,但又未入榜單的微博數(shù)據(jù)。數(shù)據(jù)集中共包含633 110條微博用戶數(shù)據(jù)以及702 135條評(píng)論數(shù)據(jù)。實(shí)驗(yàn)中所使用的情感詞典來(lái)自于大連理工大學(xué)信息檢索研究室(DUTIR)的情感詞匯本體庫(kù),共27 466條情感詞匯。
實(shí)驗(yàn)中的原始指標(biāo)數(shù)據(jù)生成工具由課題小組基于C#語(yǔ)言進(jìn)行開發(fā),同時(shí)使用SPSS 20進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理及因子分析研究。SVM預(yù)測(cè)模型則采用基于python語(yǔ)言的sklearn包進(jìn)行構(gòu)建。
本文采用IBM SPSS 軟件進(jìn)行因子分析處理,其中因子提取方法為主成分分析法,因子旋轉(zhuǎn)采用最大方差法。獲取的KMO檢驗(yàn)的結(jié)果為0.717,根據(jù)KMO度量標(biāo)準(zhǔn)(KMO值越接近于1,意味著變量間的相關(guān)性越強(qiáng)。通常認(rèn)為的度量標(biāo)準(zhǔn)是:0.6~0.9,這意味此時(shí)運(yùn)用因子分析法是適當(dāng)?shù)摹?/p>
從公因子方差表中可以看到,因子可提取到的原始變量信息成分最低為0.58,其中博主影響力指標(biāo)(C11)、博主的近期微博數(shù)(C12)、受眾活躍度(C15)均未超過0.6,即其在公因子中被提取的信息量均在60%以下;其中文本信息量(C1)、平均評(píng)論數(shù)(C7)、平均表態(tài)數(shù)(C8)、博主權(quán)威性指標(biāo)(C10)等變量提取的信息成分均超過0.8,即公因子提取了該變量80%或以上信息量。平均信息提取量比例為70.9%,說(shuō)明了即將產(chǎn)生的幾個(gè)主成分因子可提取到的原始變量信息的比例達(dá)到70%以上。
因子分析法共生成了16個(gè)公因子,基于因子分析理論,特征值大于1 的因子才能解釋所有數(shù)據(jù)的方差,因此提取前6個(gè)公因子作為分析對(duì)象,其貢獻(xiàn)率如表1所示。
表1 公因子累計(jì)貢獻(xiàn)率
由表1中顯示出前6個(gè)因子的累計(jì)方差貢獻(xiàn)率已經(jīng)達(dá)到70.916%,說(shuō)明了前6個(gè)公因子可以將原始指標(biāo)中超過70.9%的信息保存了下來(lái),其具有解釋原始指標(biāo)的評(píng)價(jià)能力,可以反映原始指標(biāo)的大部分信息。最終確定主成分個(gè)數(shù)為6個(gè),將原來(lái)的16個(gè)指標(biāo)進(jìn)行壓縮后用6個(gè)因子特征來(lái)代替。
從成分得分系數(shù)矩陣可獲知,每個(gè)公因子中,不同指標(biāo)均有不同的權(quán)重,權(quán)重值范圍為-1至1,代表著公因子中各指標(biāo)所占重要程度。例如公因子F1的權(quán)重中C6-C8的權(quán)重均為負(fù)0.6以上,意味著在公因子F1中,這幾個(gè)指標(biāo)所提供的信息量極少,而C12、C14指標(biāo)的權(quán)重則均超過了0.5,意味著該指標(biāo)在公因子F1中占比相對(duì)較高。而在其他公因子中,指標(biāo)均呈現(xiàn)不同的權(quán)重。
從圖3可以看出,在各公因子中,C5-C9均占比較低,而C11-C14平均占比較高。證明在公因子中,主要信息量及影響力來(lái)自于后者,在熱度指標(biāo)中,后者的重要程度更高。最終采用線性加權(quán)方法計(jì)算公因子特征值,如公式:
Fi=C1×wi1+C2×wi2+C3×wi3+…+C16×wi16
(5)
式中:Fi是第i個(gè)公因子的特征值,wi1是第i個(gè)公因子中C1的權(quán)重。實(shí)驗(yàn)以該6個(gè)公因子特征作為下一步預(yù)測(cè)模型的輸入特征向量。
圖3 成分矩陣
基于SVM的熱門微博預(yù)測(cè)研究即將預(yù)測(cè)問題轉(zhuǎn)為一個(gè)二分類問題,把微博分為熱門或非熱門類別,模型構(gòu)建及評(píng)價(jià)流程如圖2所示。實(shí)驗(yàn)因子分析的結(jié)果獲取公因子特征數(shù)據(jù)集,以公因子作為輸入向量,采用訓(xùn)練數(shù)據(jù)集結(jié)合SVM算法訓(xùn)練熱門微博預(yù)測(cè)模型(FA-SVM),使用測(cè)試語(yǔ)料集來(lái)評(píng)價(jià)模型的效果。
為了有效地體現(xiàn)FA 特征選擇方法的有效性,實(shí)驗(yàn)同時(shí)以16個(gè)原始指標(biāo)作為特征向量,采用SVM算法訓(xùn)練熱門微博預(yù)測(cè)模型(SVM)作為對(duì)比。實(shí)驗(yàn)采用準(zhǔn)確率、召回率對(duì)分類結(jié)果進(jìn)行評(píng)價(jià),得到結(jié)果如表2所示。
表2 熱門微博預(yù)測(cè)模型評(píng)價(jià) %
從表2可以看出,本文提出的FA-SVM模型相對(duì)單純SVM方法而言有效地提高了分類準(zhǔn)確率及召回率,證明因子分析法能夠有效地提取多個(gè)指標(biāo)中的潛在信息,形成公因子特征,在降低特征維度的同時(shí),能更準(zhǔn)確地識(shí)別出單條熱門微博。從召回率來(lái)看,F(xiàn)A-SVM方法同時(shí)提高了熱門微博的召回率及非熱門微博的召回率,也意味著因子分析所提取的公因子特征中,不僅降低了特征維度,同時(shí)也消除了特征中的噪音,有效地提高了熱門微博的識(shí)別能力。
經(jīng)實(shí)驗(yàn)證明,F(xiàn)A-SVM方法結(jié)合微博熱度評(píng)價(jià)指標(biāo)體系,能夠獲取熱門微博的共性特征,并應(yīng)用于熱門微博預(yù)測(cè)研究領(lǐng)域。
單條微博是微博輿情的起點(diǎn),熱門微博預(yù)測(cè)研究有助于微博輿情監(jiān)控研究。本文以新浪微博為研究對(duì)象,從微博內(nèi)容、微博博主、微博傳播、微博受眾四個(gè)方面提出一套可量化的微博熱度評(píng)價(jià)指標(biāo)體系,采用因子分析法對(duì)指標(biāo)進(jìn)行分析,獲取其公共因子,并以公共因子作為特征,結(jié)合SVM算法訓(xùn)練熱門微博預(yù)測(cè)模型。實(shí)驗(yàn)表明該方法能有效地提取指標(biāo)特征的共性因子,并提高熱門微博的預(yù)測(cè)概率。