段淑鳳,朱立谷
(1.中國(guó)傳媒大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,北京 100024; 2.石家莊鐵道大學(xué) 信息科學(xué)與技術(shù)學(xué)院,石家莊 050043)
隨著互聯(lián)網(wǎng)的興起和相關(guān)軟硬件的高速發(fā)展,尤其智能手機(jī)的出現(xiàn),全球的網(wǎng)民人數(shù)日益增多,而相關(guān)技術(shù)在近二十年也得到了快速提高,尤其Web2.0時(shí)代的到來,社交媒體快速興起,信息傳播開始步入自媒體時(shí)代,因此網(wǎng)絡(luò)傳播學(xué)作為傳播學(xué)的一個(gè)分支應(yīng)運(yùn)而生。由于網(wǎng)絡(luò)用戶的結(jié)構(gòu)復(fù)雜,并出于不同的傳播目的,在傳播過程中會(huì)產(chǎn)生大量的人為噪音,造成信息混亂。為達(dá)到穩(wěn)定社會(huì)氛圍,形成良性的傳播影響的目的,從新聞的傳播態(tài)勢(shì)中析取實(shí)際的傳播效果,并分析發(fā)現(xiàn)規(guī)律,始終是社交媒體網(wǎng)絡(luò)傳播研究的熱點(diǎn)問題,而本研究的目標(biāo)是基于微博事件的流行度演化過程挖掘網(wǎng)絡(luò)傳播過程的基本規(guī)律。
傳播過程的定性分析主要包括宏觀和微觀兩個(gè)角度。對(duì)整個(gè)傳播過程宏觀的分析,即單純考慮傳播結(jié)果,根據(jù)某個(gè)指標(biāo)將傳播過程量化,建立傳播曲線,通過數(shù)學(xué)模型尋找指標(biāo)間的規(guī)律,用于傳播趨勢(shì)的預(yù)測(cè)。比如,文獻(xiàn)[1]中運(yùn)用馬爾可夫分析方法建立網(wǎng)絡(luò)輿情熱度趨勢(shì)模型,即根據(jù)之前的流行度值預(yù)測(cè)當(dāng)前的傳播階段,但是這種方法泛化性比較弱。而微觀分析,則從動(dòng)力學(xué)角度,基于網(wǎng)絡(luò)特征,從成因角度建立數(shù)學(xué)模型,擬合最終的傳播結(jié)果。傳染病SIR模型[2]是最廣泛應(yīng)用的模型,其核心思想是S 定義為易感染節(jié)點(diǎn),I定義為傳染節(jié)點(diǎn),R定義為免疫節(jié)點(diǎn),節(jié)點(diǎn)之間相互轉(zhuǎn)化,通過概率規(guī)則進(jìn)行演化仿真。在此基礎(chǔ)上一些改進(jìn)模型,如SEIR[3]、SIRS[4]和SEIRS[5]等,通過融入潛在節(jié)點(diǎn)E或是改變節(jié)點(diǎn)感染流程進(jìn)而獲得改良。這些模型為理想化模型,網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容固定,并不適用于實(shí)際分析。此外,文獻(xiàn)[6]中將Galton-Waston過程模型引入流行度分析中,該模型是一種分支隨機(jī)過程,原用于模擬家族姓氏的演化和滅絕。而隨著機(jī)器學(xué)習(xí)技術(shù)研究的流行,文獻(xiàn)[7]中提出了一個(gè)多元線性回歸模型,把流行度分成N種類別,根據(jù)用戶活躍度及傳播加速度進(jìn)行預(yù)測(cè)。后兩種方法建立了微觀特征與宏觀結(jié)果的聯(lián)系,但是對(duì)數(shù)據(jù)的清潔度有很高的要求。
目前我們?cè)诜治鲞^程中利用爬蟲所獲取到的數(shù)據(jù),包含多種噪音成分,因此在進(jìn)行實(shí)際分析時(shí)擬合和分類效果比較差,人工分析雖然能夠提高準(zhǔn)確度,但是耗費(fèi)大量的人力物力。因此,本研究提出將去噪自編碼器引入傳播流行度分析,可直接使用粗糙數(shù)據(jù)集挖掘共性傳播特征,感知異常節(jié)點(diǎn),削減處理和分析工作量。
流行度是給定某則網(wǎng)絡(luò)信息i和某時(shí)刻t,該信息的流行度yi(t)定義為人們?cè)跁r(shí)刻t對(duì)其的關(guān)注程度,多數(shù)工作中,研究者通常將流行度量化為人們?cè)谀硶r(shí)刻采取在網(wǎng)絡(luò)信息上的積極的網(wǎng)絡(luò)行為(觀看、點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論)的次數(shù)[8]。在本研究中,流行度的主要觀測(cè)指標(biāo)則是在該時(shí)刻人們針對(duì)該事件進(jìn)行討論所發(fā)布的相關(guān)微博的個(gè)數(shù)。
流行度演化則是某個(gè)新聞在微博上傳播時(shí),基于時(shí)間維度的流行度數(shù)值序列。流行度的演化過程反映了社會(huì)熱點(diǎn)事件在網(wǎng)絡(luò)中的傳播態(tài)勢(shì)發(fā)展,可以得知網(wǎng)絡(luò)群體對(duì)該事件的關(guān)注程度的變化經(jīng)過,對(duì)傳播過程中趨勢(shì)和規(guī)律的分析起著非常重要作用。
隨著計(jì)算機(jī)的運(yùn)算能力和并行處理能力的增強(qiáng),人工神經(jīng)網(wǎng)絡(luò)模型由于其高度的并行性,良好的容錯(cuò)和學(xué)習(xí)能力,以及聯(lián)想記憶功能等優(yōu)點(diǎn),已經(jīng)成為當(dāng)前的研究熱門。自編碼器[9]是神經(jīng)網(wǎng)絡(luò)的一種,同樣是通過正向傳播獲取計(jì)算結(jié)果數(shù)據(jù),用反向傳播優(yōu)化網(wǎng)絡(luò)參數(shù),只不過與用于一般用于識(shí)別和分類的神經(jīng)網(wǎng)絡(luò)不同的時(shí),它是一種無監(jiān)督的神經(jīng)網(wǎng)絡(luò),分成編碼和解碼兩個(gè)部分,編碼部分即編碼器用于從輸入數(shù)據(jù)中提取特征,解碼部分即解碼器則根據(jù)特征還原輸入數(shù)據(jù),整個(gè)網(wǎng)絡(luò)的輸入和輸出在數(shù)據(jù)結(jié)構(gòu)上是一致的,并且輸出和輸入應(yīng)該非常近似,網(wǎng)絡(luò)參數(shù)的優(yōu)化方向即使輸出和輸入的差值最小,其結(jié)構(gòu)如圖1所示。
圖1 自編碼器結(jié)構(gòu)圖
去噪自編碼器是在自編碼器的基礎(chǔ)上,為了防止直接將輸入轉(zhuǎn)換成輸出所提出的一種新型編碼器,主要方法是在輸入部分增加一些噪聲,最終訓(xùn)練結(jié)果使輸出更接近與原始輸入。即去噪自編碼器可以過濾噪聲獲得更為基礎(chǔ)的特征表示,因此利用這一特性,本實(shí)驗(yàn)直接將包含噪聲成分的流行度演化數(shù)據(jù)作為輸入來獲取真正的傳播特征,并獲取真實(shí)的傳播效果。
(1)訓(xùn)練集
訓(xùn)練集為利用爬蟲技術(shù)在微博中采集的1446條新聞發(fā)帖數(shù)據(jù),發(fā)帖時(shí)間從2015年1月2日到2017年7月12日之間,共計(jì)923天。其中包含娛樂、財(cái)經(jīng)、政治、科技等多種事件類型,最少新聞發(fā)帖總量為2篇,最多總量為69528篇,每個(gè)新聞都是以小時(shí)為單位進(jìn)行發(fā)帖數(shù)量的統(tǒng)計(jì),在事件基本平息后進(jìn)行采集。為了從中了解到基本的網(wǎng)絡(luò)傳播特征,分別對(duì)不同時(shí)間段的平均發(fā)帖量和時(shí)間的持續(xù)時(shí)間進(jìn)行了統(tǒng)計(jì),其結(jié)果如圖2所示。
上圖為發(fā)帖量的統(tǒng)計(jì)結(jié)果,橫向坐標(biāo)為小時(shí),縱向?yàn)槲⒉?shù)目,不同顏色的曲線代表不同的周目。如圖所示,在每周的不同日子里,隨時(shí)間變化的數(shù)目均值曲線基本相似,只是具體數(shù)值會(huì)有區(qū)別,而在同一天變化則比較劇烈。右圖為新聞持續(xù)時(shí)間統(tǒng)計(jì),根據(jù)圖可知,最短的持續(xù)時(shí)間為1天,最長(zhǎng)的持續(xù)時(shí)間是142天,持續(xù)時(shí)間新聞數(shù)最多的是6天,在2-10天內(nèi)完成的事件占74%,3-7天之內(nèi)完成的事件占57%。
圖2 基礎(chǔ)傳播特征統(tǒng)計(jì)
(2)測(cè)試集
發(fā)生在2017年1月1日到2017年9月16日之間的78條娛樂新聞相關(guān)詳情數(shù)據(jù),包含發(fā)帖人和發(fā)帖時(shí)間以及發(fā)帖內(nèi)容。同樣是在事件平息后進(jìn)行采集,與訓(xùn)練集有33條新聞重合。最少新聞發(fā)帖數(shù)為12篇,最多為13114篇。最短持續(xù)時(shí)間為2天,最長(zhǎng)為79天。
(1)數(shù)據(jù)預(yù)處理
A.不同時(shí)值流行度指標(biāo)標(biāo)準(zhǔn)化
不同時(shí)間微博在線用戶數(shù)不同,導(dǎo)致微博發(fā)帖總量會(huì)產(chǎn)生很大的變化,而流行度應(yīng)該反映出當(dāng)前信息的影響能力,使事件的不同時(shí)間段待分析流行度值應(yīng)該具有相同的意義,即表示在同等用戶條件下所產(chǎn)生的微博數(shù)量。因此,為了進(jìn)行一致性分析,以圖2在對(duì)不同時(shí)間特點(diǎn)的發(fā)帖量統(tǒng)計(jì)結(jié)果為基準(zhǔn),最終分析的流行度是各自時(shí)刻的相對(duì)值。
B.橫縱坐標(biāo)歸一化
為了方便對(duì)其進(jìn)行統(tǒng)一訓(xùn)練,簡(jiǎn)化分析過程,需要將所有新聞在時(shí)間維度和指標(biāo)維度上進(jìn)行歸一化。在指標(biāo)維度上進(jìn)行同步縮放,保持最大值為1。而為保證波形的完整形,對(duì)于持續(xù)時(shí)間較短的事件,用0進(jìn)行填充,而對(duì)于持續(xù)事件較長(zhǎng)的波形,則對(duì)相鄰數(shù)據(jù)進(jìn)行均值計(jì)算的方法獲取實(shí)際波形。同時(shí)為了方便對(duì)比,并盡可能的保留細(xì)節(jié)信息,根據(jù)圖2的持續(xù)時(shí)間統(tǒng)計(jì)結(jié)果,實(shí)驗(yàn)分別選擇7天和10天進(jìn)行時(shí)間方向上的歸一化。
(2)去噪自編碼器
本算法的去噪自編碼器含有三個(gè)隱含層,除了必須的內(nèi)部表示層之外,編碼器和解碼器均為包含一個(gè)隱含層的全連接神經(jīng)網(wǎng)絡(luò),即在圖1的基礎(chǔ)上,在中間層的上下兩側(cè)各增加了一個(gè)隱含層。內(nèi)部表示層的節(jié)點(diǎn)數(shù)目在本實(shí)驗(yàn)中設(shè)置為72,另外兩個(gè)隱含層的節(jié)點(diǎn)個(gè)數(shù)設(shè)置為100,每一批的樣本個(gè)數(shù)batch_size設(shè)置為64,隨機(jī)從訓(xùn)練數(shù)據(jù)集中無重復(fù)選擇,而訓(xùn)練輪數(shù)epoch設(shè)置為1000。參數(shù)利用Xavier[10]進(jìn)行初始化,激活函數(shù)設(shè)置為softplus函數(shù),損失函數(shù)選擇平方誤差,優(yōu)化器是Adam,學(xué)習(xí)速率為0.001。
訓(xùn)練損失即為噪聲,計(jì)算噪聲率,即噪音和信號(hào)的比值,根據(jù)結(jié)果分成了最低(<0.01)、低(<0.05)、高(<0.1)、最高(>0.1)四種類型,將實(shí)驗(yàn)結(jié)果根據(jù)分解效果、年份、持續(xù)時(shí)間等條件分別統(tǒng)計(jì)對(duì)應(yīng)的新聞比例之后,再根據(jù)不同時(shí)間維度的歸一化值進(jìn)行統(tǒng)一對(duì)比分析,7天為高歸一化程度,10天為低歸一化程度。
(1)時(shí)間維度歸一化對(duì)噪聲提取影響分析
表1中的數(shù)據(jù)是在當(dāng)前列所對(duì)應(yīng)的歸一化程度下,所對(duì)應(yīng)的行代表的噪音率的新聞數(shù)量占所有數(shù)據(jù)集中新聞數(shù)量的百分比。從表中我們可以發(fā)現(xiàn),隨著歸一化程度的降低,噪聲率低的新聞數(shù)量開始增加,因?yàn)樵跁r(shí)間維度高歸一化程度的條件下,更多的新聞是通過降采樣的方式獲得訓(xùn)練數(shù)據(jù),而降采樣可以降低隨機(jī)噪聲。
表1 時(shí)間維度歸一化程度對(duì)噪聲影響對(duì)比
(2)噪聲在不同年份的對(duì)比分析
表2是在表1的基礎(chǔ)上重新根據(jù)發(fā)生年份進(jìn)行的細(xì)化,即顯示的不再是在全部新聞中的比率,而是在當(dāng)前行對(duì)應(yīng)的年份中當(dāng)前噪聲率的新聞數(shù)的占比,用于觀察不同年份的噪音情況。我們可以看到在同一歸一化程度下不同年份的新聞,噪音率較低的占比有所下降,而其他噪聲率都有所上升,這與我們實(shí)際的情況一致,越來越多的用戶開始使用人為噪音來增加新聞的流行度。
表2 不同年份的噪聲對(duì)比
(3)噪聲與持續(xù)時(shí)間的關(guān)系分析
表3則是根據(jù)持續(xù)時(shí)間的不同而進(jìn)行的分類統(tǒng)計(jì),數(shù)值表示在不同的歸一化程度下,不同持續(xù)時(shí)間的新聞具有對(duì)應(yīng)行的噪聲率的比值。從中可以看出,越長(zhǎng)持續(xù)時(shí)間的新聞噪聲率高的占比越多,越短持續(xù)時(shí)間的新聞噪聲率低的占比越多,同樣也符合實(shí)際的新聞傳播情況。
表3 噪聲與新聞持續(xù)時(shí)間的關(guān)系對(duì)比
(1)綜合分析
以表2中2017年的全類新聞不同噪聲率的占比作為基準(zhǔn),與測(cè)試集的噪聲率占比情況做對(duì)比,從而綜合分析娛樂類新聞的噪聲特點(diǎn)。通過表4的對(duì)比結(jié)果可知,娛樂新聞的噪音率明顯高于基準(zhǔn),說明娛樂新聞中人為推動(dòng)因素較多。而且,時(shí)間維度歸一化程度越低,具有最高噪音率的娛樂新聞增多越明顯。
表4 測(cè)試集與訓(xùn)練集噪聲率對(duì)比
(2)應(yīng)用分析
將利用自編碼器所生成去噪波形與原始波形進(jìn)行對(duì)比,其中藍(lán)色波形為預(yù)處理的原始訓(xùn)練波形,黃色波形為生成波形。分別在低噪聲波形新聞和高噪聲波形新聞中選擇一個(gè)實(shí)例進(jìn)行分析,每個(gè)實(shí)例會(huì)展示兩個(gè)圖像,左圖將顯示高時(shí)間維度歸一化結(jié)果,右圖顯示低時(shí)間維度歸一化結(jié)果,并對(duì)高噪聲波形中差異明顯位置進(jìn)行噪聲產(chǎn)生原因分析。
A.低噪聲新聞波形
圖3為林肯公園樂隊(duì)主唱自殺相關(guān)微博流行度波形,該事件為測(cè)試集新增新聞,可以發(fā)現(xiàn)生成波形與原始波形基本匹配,包括相鄰的雙峰值。因此推斷出該新聞的噪聲較少,基本符合正常的新聞網(wǎng)絡(luò)傳播特征,人為有意介入的概率比較低。
B.高噪聲新聞波形
圖4為第36屆香港電影金像獎(jiǎng)?lì)C獎(jiǎng)典禮的相關(guān)新聞流行度波形,該事件為測(cè)試集與訓(xùn)練集重合新聞。從中可以發(fā)現(xiàn)中期的峰值波形匹配差異比較顯著,根據(jù)時(shí)間維度的偏移值確定高峰值時(shí)間應(yīng)該為2017年4月9日23時(shí)到2017年4月10日01時(shí)之間,通過查找細(xì)節(jié)微博數(shù)據(jù)并結(jié)合實(shí)際情況,確定因該時(shí)刻典禮結(jié)束,各公眾號(hào)頻發(fā)新聞而引發(fā)。
圖3 低噪聲新聞生成波形與原始波形對(duì)比圖
圖4 高噪聲新聞生成波形與原始波形對(duì)比圖
本研究采用的去噪自編碼器來分析流行度演化波形,在對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和歸一化后,首先利用包含全類新聞的訓(xùn)練集數(shù)據(jù)優(yōu)化網(wǎng)絡(luò)參數(shù),挖掘傳播的基礎(chǔ)特征,并通過對(duì)其此數(shù)據(jù)集的噪聲結(jié)果分析,發(fā)現(xiàn)與實(shí)際傳播特點(diǎn)相符,進(jìn)而驗(yàn)證了該模型的泛化性和可行性。之后利用娛樂新聞的測(cè)試集數(shù)據(jù),對(duì)當(dāng)前模型進(jìn)行應(yīng)用測(cè)試,即綜合分析挖掘出娛樂新聞的噪音特點(diǎn),還利用生成結(jié)果,針對(duì)具體新聞對(duì)高異常噪音分析爆發(fā)原因,從而驗(yàn)證了該模型的可用性。只是當(dāng)前自編碼模型比較簡(jiǎn)單,并沒有考慮過擬合問題,后續(xù)研究需要進(jìn)一步改進(jìn)的地方是,對(duì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,尤其考慮如何體現(xiàn)時(shí)間先后的流行度關(guān)聯(lián)。