◆黃克敏 先 科 李 帥 魏洪凱 馮建鞏
?
網(wǎng)絡(luò)輿情熱點(diǎn)新聞發(fā)現(xiàn)技術(shù)研究
◆黃克敏 先 科 李 帥 魏洪凱 馮建鞏
(貴州航天計量測試技術(shù)研究所 貴州 550000)
隨著互聯(lián)網(wǎng)逐漸邁入移動化時代,智能手機(jī)和平板電腦等智能設(shè)備的廣泛使用成為移動互聯(lián)網(wǎng)時代的重要標(biāo)志。網(wǎng)絡(luò)新聞在成為移動互聯(lián)時代重要信息來源的同時,網(wǎng)絡(luò)熱點(diǎn)新聞則成為網(wǎng)絡(luò)輿論和社會輿論的重要源泉。因此,對網(wǎng)站發(fā)布的網(wǎng)絡(luò)新聞內(nèi)容進(jìn)行監(jiān)管及時發(fā)現(xiàn)熱點(diǎn)新聞評論內(nèi)容意見的傾向性,準(zhǔn)確把握網(wǎng)絡(luò)輿論動向顯得尤為重要。為了實(shí)現(xiàn)熱點(diǎn)新聞的發(fā)現(xiàn)及對不同領(lǐng)域熱點(diǎn)新聞分級監(jiān)管的需求,需要建立熱點(diǎn)新聞發(fā)現(xiàn)規(guī)則及對熱點(diǎn)新聞按照報道內(nèi)容的不同進(jìn)行領(lǐng)域分類。熱點(diǎn)新聞發(fā)現(xiàn)及分類技術(shù)是網(wǎng)絡(luò)輿情檢測系統(tǒng)中的一項(xiàng)重要技術(shù)。本文在研究新聞結(jié)構(gòu)及特點(diǎn)的基礎(chǔ)上,針對大眾和政府部門都比較關(guān)注的熱點(diǎn)新聞,在深入研究新聞結(jié)構(gòu)和特點(diǎn)的基礎(chǔ)上改進(jìn)熱點(diǎn)新聞發(fā)現(xiàn)算法,并通過大量實(shí)驗(yàn)樣本對改進(jìn)算法的有效性進(jìn)行了驗(yàn)證。
網(wǎng)絡(luò)輿情;新聞結(jié)構(gòu);熱點(diǎn)新聞;熱點(diǎn)新聞發(fā)現(xiàn)規(guī)則
互聯(lián)網(wǎng)是一把雙刃劍。一方面,互聯(lián)網(wǎng)為人們的生活、工作、學(xué)習(xí)、娛樂帶來巨大的便利;另一方面,一些不法分子利用熱點(diǎn)新聞事件的巨大影響力發(fā)表不當(dāng)言論,煽動群眾情緒,制造社會動蕩,極大影響社會公共秩序和社會穩(wěn)定。因此,為互聯(lián)網(wǎng)建立一個合理的監(jiān)管機(jī)制,對非法的網(wǎng)絡(luò)言論進(jìn)行監(jiān)管。通過對熱點(diǎn)新聞評論的內(nèi)容進(jìn)行意見挖掘進(jìn)而掌握輿論傾向性,對不良的網(wǎng)絡(luò)輿論導(dǎo)向進(jìn)行合理引流和正確引導(dǎo),無論是對于維護(hù)社會穩(wěn)定,打擊利用網(wǎng)絡(luò)違法犯罪活動,還是對凈化網(wǎng)絡(luò)環(huán)境,保護(hù)公民的身心健康都具有重要意義。
當(dāng)前,對網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)及評論傾向性研究已成為信息安全研究中信息內(nèi)容安全研究的一個重要部分。本文在研究網(wǎng)絡(luò)新聞結(jié)構(gòu)和特點(diǎn)的基礎(chǔ)上建立熱點(diǎn)新聞特征規(guī)則,研究并改進(jìn)熱點(diǎn)新聞發(fā)現(xiàn)算法,并對網(wǎng)絡(luò)熱點(diǎn)新聞進(jìn)行發(fā)現(xiàn);為了方便對不同領(lǐng)域的熱點(diǎn)新聞事件進(jìn)行分級監(jiān)管,需對發(fā)現(xiàn)的熱點(diǎn)新聞進(jìn)行領(lǐng)域劃分,以方便輿情系統(tǒng)中對不同領(lǐng)域的熱點(diǎn)新聞事件的網(wǎng)絡(luò)評論做傾向性分析,掌握網(wǎng)民的網(wǎng)絡(luò)輿論傾向,對公共的輿論進(jìn)行正確及時的引導(dǎo),減少消極輿論傾向帶來的負(fù)面影響,從而確保互聯(lián)網(wǎng)內(nèi)容安全,使互聯(lián)網(wǎng)這把雙刃劍真正做到趨利避害。
1.1網(wǎng)絡(luò)新聞結(jié)構(gòu)
無論是網(wǎng)站根據(jù)用戶對新聞閱讀數(shù)或參與討論的評論數(shù),還是百度風(fēng)云榜根據(jù)用戶搜索量作為判斷熱點(diǎn)新聞事件的標(biāo)準(zhǔn)都不能體現(xiàn)普通新聞事件轉(zhuǎn)換為熱點(diǎn)新聞事件的發(fā)展趨勢的強(qiáng)度及過程,因此存在一定的不合理性。由于本節(jié)針對手機(jī)客戶端的新聞APP產(chǎn)生的新聞進(jìn)行熱點(diǎn)新聞的發(fā)現(xiàn),因此首先要分析新聞的結(jié)構(gòu)。下面以鳳凰新聞APP新聞“大學(xué)生掏鳥案被告父親自首稱9次行賄辦案人員”為例,分析新聞結(jié)構(gòu),其新聞內(nèi)容如圖1所示。
由圖1可知,新聞內(nèi)容包括新聞標(biāo)題、新聞來(轉(zhuǎn)載)源、新聞發(fā)布的時間、新聞評論數(shù)目、新聞?wù)膬?nèi)容等部分組成。
由圖2 可知,新聞評論包括熱門評論和最新評論。熱門評論主要是指評論點(diǎn)贊數(shù)超過一定數(shù)目的評論數(shù)。熱門評論包括熱門評論數(shù)、評論者的頭像、評論者的昵稱、評論距當(dāng)前時間、評論內(nèi)容、評論點(diǎn)贊數(shù),如果開啟允許地理位置分享的話,還會有地理位置信息。最新評論和熱門評論包括的部分幾乎相同,就不再做過多介紹。
1.2熱點(diǎn)新聞判別標(biāo)準(zhǔn)
由于熱點(diǎn)新聞能夠在短時間內(nèi)吸引網(wǎng)民的關(guān)注、引起網(wǎng)絡(luò)輿論熱議,形成以一定的輿論傾向,因此對熱點(diǎn)新聞進(jìn)行判斷檢測顯得尤為重要。根據(jù)哪些條件判斷當(dāng)前新聞是否為熱點(diǎn)新聞。表1中選取部分參數(shù)作為判斷新聞是否為熱點(diǎn)新聞的參考標(biāo)準(zhǔn):
圖1 新聞內(nèi)容
圖2 新聞評論
表1 判斷熱點(diǎn)新聞的參考參數(shù)
1.3 熱點(diǎn)新聞發(fā)現(xiàn)算法
影響熱點(diǎn)新聞因素可以分為兩個方面:一個是從媒體角度考慮;另一個是從網(wǎng)民角度考慮。目前常用關(guān)注度來描述某事件當(dāng)前的狀態(tài)和熱度,即某事件被關(guān)注的程度。百度借助百度指數(shù)描述某個關(guān)鍵詞用戶關(guān)注度(用戶熱度)和媒體關(guān)注度(媒體熱度)來表示某個關(guān)鍵詞的重要程度,因此本文借用百度指數(shù)的思想用熱點(diǎn)新聞的關(guān)注度描述當(dāng)前新聞被關(guān)注的程度,用媒體關(guān)注度和網(wǎng)民關(guān)注度來表示熱點(diǎn)新聞關(guān)注度。本文提出的熱點(diǎn)新聞發(fā)現(xiàn)過程為:首先對參數(shù)進(jìn)行定量化表示,在此基礎(chǔ)上提出熱點(diǎn)新聞發(fā)現(xiàn)算法,并用實(shí)驗(yàn)對算法有效性進(jìn)行檢驗(yàn)。
1.3.1媒體關(guān)注度的數(shù)學(xué)描述
媒體關(guān)注度指新聞被媒體報道關(guān)注的程度。某一新聞被媒體報道越多或重復(fù)轉(zhuǎn)載性越高,說明該新聞受媒體關(guān)注程度越高;新聞只有被報道且為大眾所熟悉并引起廣泛關(guān)注才能成為熱點(diǎn)新聞,因此媒體對新聞從普通新聞到成為熱點(diǎn)新聞起著重要的推動作用,對于這種推動作用用媒體關(guān)注度表示。用來衡量媒體關(guān)注度的標(biāo)準(zhǔn)主要包括:單位時間新聞報道數(shù)(新聞報道頻率)、新聞報道持續(xù)時間、新聞報道總數(shù),以上三個標(biāo)準(zhǔn)都是針對某一段時間內(nèi)的統(tǒng)計量或計算量。
在話題的熱度分析中,Khoo Khyou Bun提出TF*PDF(Term Frequency*Proportional Document Frequency)算法用于熱點(diǎn)話題的發(fā)現(xiàn),此種方法并沒有考慮特征項(xiàng)出現(xiàn)的頻率因素。因此本文在TF*PDF基礎(chǔ)上,將某一段時間內(nèi)新聞報道時間越多則該新聞越重要這一事實(shí)考慮在內(nèi),提出改進(jìn)媒體關(guān)注度計算方法,其方法的數(shù)學(xué)描述如下所示:T(i,t)為某段時間t內(nèi),信息i在網(wǎng)站上的媒體關(guān)注度。1式中指數(shù)描述的是某一信息報道數(shù)量越多,該新聞的PDF越大;新聞報道的時間越多則新聞越重要。公式如下:
RF(t)數(shù)學(xué)表達(dá)式為:
(2)
其中,時間t是任一時間段,如幾個小時、一天、一周等;RF(t)為在時間段t內(nèi)新聞i的報道總數(shù),即新聞i報道的頻數(shù);RT(t)為在時間段t內(nèi)報道的新聞i的總數(shù);TR(t)為時間t內(nèi)有新聞i報道時間,以天為計算單位;TS(t)從第一條新聞報道到當(dāng)前統(tǒng)計的時間間隔;N為新聞i報道總數(shù)。
1.3.2用戶關(guān)注度的數(shù)學(xué)描述
用戶關(guān)注度指新聞被用戶關(guān)注的程度。影響用戶關(guān)注度主要有三個參數(shù):新聞閱讀數(shù)、新聞評論數(shù)、單位時間評論數(shù)。新聞閱讀數(shù)用RN(Reader Number)表示,新聞評論數(shù)用CN(Comment Number)表示。新聞閱讀人數(shù)越多說明用戶對此新聞越感興趣。新聞評論人數(shù)越多說明新聞受關(guān)注程度和重要程度越高。
新聞評論數(shù)和新聞閱讀數(shù)對熱點(diǎn)新聞形成所起的作用大小不同,應(yīng)該對其設(shè)定不同的權(quán)重。通常情況下如果用戶對某個新聞比較感興趣,則會在閱讀后對新聞進(jìn)行評論,所以認(rèn)為新聞評論人數(shù)對熱點(diǎn)新聞的形成比新聞閱讀數(shù)更要要,應(yīng)賦以較高的權(quán)重。本文經(jīng)過多次試驗(yàn)發(fā)現(xiàn)新聞閱讀數(shù)的權(quán)重是新聞評論數(shù)兩倍時,熱點(diǎn)新聞的發(fā)現(xiàn)效果達(dá)到最佳。因此得到用戶關(guān)注度的計算公式如下3式所示:
其中a為:
(4)
計算公式為:
計算公式為:
(6)
其中: 表示在時間段t內(nèi)用戶對新聞i的關(guān)注度;表示對新聞i評論人數(shù)所占的比例;λ為動態(tài)調(diào)整因子,用于平衡相關(guān)因子對公式的影響;表示新聞i閱讀人數(shù)所占的比例;CN為時間段t內(nèi)新聞評論數(shù);時間段t為任意一段時間:可以為幾個小時、一天、一周等。
熱點(diǎn)新聞關(guān)注度用媒體關(guān)注度和用戶關(guān)注度表示。因上面討論媒體關(guān)注度和用戶關(guān)注度的數(shù)學(xué)描述,所以熱點(diǎn)新聞關(guān)注度應(yīng)將媒體關(guān)注度計算公式和用戶關(guān)注度的計算公式結(jié)合起來。因此得到熱點(diǎn)新聞關(guān)注度的計算公式如下7式所示:
公式中參數(shù)a和b為調(diào)整參數(shù),主要作用是調(diào)整媒體關(guān)注度和用戶關(guān)注度的數(shù)值因子差異,防止出現(xiàn)因一方數(shù)值過大把另一方給淹沒的可能性。
1.3.3熱點(diǎn)新聞的獲取實(shí)驗(yàn)
利用采集的新聞和評論數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)源,利用熱點(diǎn)新聞發(fā)現(xiàn)算法作為熱點(diǎn)新聞發(fā)現(xiàn)方法,通過實(shí)驗(yàn)驗(yàn)證熱點(diǎn)新聞發(fā)現(xiàn)算法的有效性。
(1)實(shí)驗(yàn)數(shù)據(jù)源
實(shí)驗(yàn)選擇從騰訊網(wǎng)站采集的2016年11月和12月兩個月的新聞數(shù)據(jù),其數(shù)據(jù)大小如表2所示。
表2 熱點(diǎn)新聞發(fā)現(xiàn)數(shù)據(jù)源
(2) 實(shí)驗(yàn)方法和步驟
為了保證公式7中用戶關(guān)注度T(i,t)中的值隨著用戶閱讀數(shù)和評論數(shù)增加,用戶關(guān)注度呈現(xiàn)正相關(guān)變化,對數(shù)的底數(shù)a>1,此處λ值取λ=1。另外新聞的評論中并沒有直接給出評論閱讀數(shù),此處把新聞評論數(shù)和點(diǎn)贊數(shù)之和作為新聞的閱讀數(shù)。
首先需要對媒體關(guān)注度和用戶關(guān)注度的權(quán)值因子:即公式7中的a和b進(jìn)行確定。通過隨機(jī)選取11月份和12月份各500條新聞數(shù)據(jù)及對應(yīng)的評論,對式子中a、b值進(jìn)行從[0,1]遍歷,遍歷步長為0.01,并對篩選出的結(jié)果進(jìn)行統(tǒng)計,最終選擇篩選出結(jié)果時所對應(yīng)的a和b值。
其次利用公式12對熱點(diǎn)新聞關(guān)注度計算,最后對實(shí)驗(yàn)結(jié)果的結(jié)果進(jìn)行統(tǒng)計分析,將得到的熱點(diǎn)新聞與同時間段內(nèi)百度搜索風(fēng)云榜新聞排行數(shù)據(jù)對比。
(3) 實(shí)驗(yàn)結(jié)果
根據(jù)(2)的實(shí)驗(yàn)方法,得出7式子中a=0.65,b=0.27,此時發(fā)現(xiàn)熱點(diǎn)新聞發(fā)現(xiàn)效果最佳。
按照上述實(shí)驗(yàn)步驟,最終得到實(shí)驗(yàn)數(shù)據(jù)如表3所示。
表3 熱點(diǎn)新聞發(fā)現(xiàn)結(jié)果統(tǒng)計表
將上述實(shí)驗(yàn)發(fā)現(xiàn)的熱點(diǎn)新聞與同一時間段內(nèi)的百度搜索風(fēng)云榜排行新聞對比可知此種方法與百度風(fēng)云榜熱點(diǎn)新聞的重合度在85%以上,說明此方法有效。
[1]劉星星,何婷婷等.網(wǎng)絡(luò)熱點(diǎn)事件發(fā)現(xiàn)系統(tǒng)的設(shè)計[J].中文信息學(xué)報,2008.
[2]宋雙永,李秋丹,路冬媛.面向微博客的熱點(diǎn)事件情感分析方法[J].計算機(jī)科學(xué),2012.
[3]王國華,鄧海峰,王雅蕾等.網(wǎng)絡(luò)熱點(diǎn)事件中輿情關(guān)聯(lián)問題研究[J].情報雜志,2012.
[4]龔凱,唐明,尚明生等.在線熱點(diǎn)事件的時空演變規(guī)律[J].物理學(xué)報,2012.
[5]焦超,劉功申.網(wǎng)絡(luò)突發(fā)熱點(diǎn)事件的熱點(diǎn)分布[J].信息安全與通信保密,2012.