王詩(shī)宜
摘要:微博是當(dāng)代年輕人表達(dá)觀點(diǎn)的主要平臺(tái)之一,如何利用微博信息進(jìn)行精準(zhǔn)化思政教育是一個(gè)值得研究的課題。文章將微博的傳播特性和時(shí)間特性與聚類算法進(jìn)行融合,同時(shí)根據(jù)時(shí)間序列將微博集合分為多個(gè)增量子集,實(shí)現(xiàn)K值的動(dòng)態(tài)自適應(yīng)和增量化聚類。并分析了微博的點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)特性,提出合適的微博熱度計(jì)算公式,更好地描述微博熱度,進(jìn)而合理地進(jìn)行熱點(diǎn)發(fā)現(xiàn)。
關(guān)鍵詞:聚類;自適應(yīng);輿情發(fā)現(xiàn);思政教育
中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)32-0064-04
1 概述
微博是當(dāng)代年輕人表達(dá)觀點(diǎn)的主要平臺(tái)之一,如何利用微博信息進(jìn)行精準(zhǔn)化思政教育是一個(gè)值得研究的課題。微內(nèi)容[1]的興起,因其在時(shí)間效率和空間效率上的優(yōu)勢(shì),快速改變著信息的生產(chǎn)和傳播。其中,微博就是互聯(lián)網(wǎng)微內(nèi)容中一種主流媒介形式[2],提供了一個(gè)開放的平臺(tái),其簡(jiǎn)短的寫作風(fēng)格,使用戶發(fā)布信息的門檻極度降低,爆炸式信息的產(chǎn)生成為可能;加上微博強(qiáng)大的可操作性、快速評(píng)論、一鍵轉(zhuǎn)發(fā),使得信息接收用戶可以短時(shí)間內(nèi)完成信息的獲取和觀點(diǎn)的互動(dòng),并且通過(guò)用戶關(guān)系網(wǎng)以幾何的增長(zhǎng)速度散布出去,這種便捷性、即時(shí)性、互動(dòng)性也進(jìn)一步加快了微內(nèi)容形勢(shì)的發(fā)展。雖然微博對(duì)于熱點(diǎn)話題的排名與推薦[3],但是主要是根據(jù)詞頻進(jìn)行簡(jiǎn)單的統(tǒng)計(jì),效果不理想,對(duì)于發(fā)起的熱門話題,是按時(shí)間進(jìn)行倒序排序,較早的有影響力的微博被最新的微博擠壓下去,難以再現(xiàn),更有甚者,廣告推銷的微博借助熱門話題的標(biāo)簽,擠進(jìn)熱門話題榜,大大降低了話題質(zhì)量。
2017年教育部印發(fā)的《高校思想政治工作質(zhì)量提升工程實(shí)施綱要》中指出高校思想政治教育要“堅(jiān)持問(wèn)題導(dǎo)向,注重精準(zhǔn)施策?!彪S著時(shí)代在變遷,社會(huì)在變化,大學(xué)生正確價(jià)值觀的樹立作為思想政治教育的一部分,也應(yīng)與時(shí)俱進(jìn)、不斷創(chuàng)新才能更好地落到實(shí)處。微博是及時(shí)了解和發(fā)現(xiàn)大學(xué)生價(jià)值觀的重要場(chǎng)所,在新冠肺炎疫情的大背景下,如何利用微博平臺(tái)的碎片化信息,正確引導(dǎo)大學(xué)生的價(jià)值觀,提升大學(xué)生思想政治教育成效是高校亟待解決的一項(xiàng)重要課題。本文通過(guò)對(duì)微博不同于一般文本的特性的研究,比如轉(zhuǎn)發(fā)評(píng)論這種社交性強(qiáng)的傳播特點(diǎn),以及熱點(diǎn)爆發(fā)時(shí)微博所呈現(xiàn)出來(lái)的時(shí)間特性,將之于熱點(diǎn)發(fā)現(xiàn)技術(shù)相結(jié)合,以更好地發(fā)現(xiàn)熱門話題。本文貢獻(xiàn)如下:(1)提出了一種微博熱度的計(jì)算方法;(2)對(duì)K-means聚類算法進(jìn)行了優(yōu)化;(3)探索了在新媒體的環(huán)境下大學(xué)生思政教育的改革方法。
2 相關(guān)工作
針對(duì)新浪微博、騰訊微博等有多方面的研究與應(yīng)用,大多集中在輿論監(jiān)控、情感分析、信息推薦和熱點(diǎn)發(fā)現(xiàn)等方面[4-11]。蔣洪梅分析了微博在輿論傳播中的影響力,總結(jié)了微博客與輿論的相關(guān)性[12],探討使用微博引導(dǎo)民眾的輿論傾向。楊亮等[13]察覺(jué)到當(dāng)一件重大事情發(fā)生,民眾微博中會(huì)出現(xiàn)較多的情感詞匯,反映了民眾的態(tài)度,并以此提出了情感分布語(yǔ)言模型,通過(guò)語(yǔ)段里的語(yǔ)氣詞等表達(dá)感情的特征來(lái)發(fā)掘熱門話題。在繁雜的信息中想要快速發(fā)掘有用信息是很難的,所以利用信息傳播論總結(jié)了一種微博話題推薦方法,在綜合考慮了信息量、閱讀成本和閱讀時(shí)效性的因素之后,針對(duì)性進(jìn)行微博熱點(diǎn)推薦。
金瀏河等[14]對(duì)多個(gè)主流網(wǎng)絡(luò)媒體與“新冠肺炎疫情”相關(guān)的話題展開輿情分析,可視化、縱深化地對(duì)本次疫情沖擊下的大學(xué)生輿情素養(yǎng)、輿情特征、輿情趨勢(shì)等問(wèn)題進(jìn)行探索。苗瑞丹等[15]提出對(duì)海量數(shù)據(jù)的挖掘分析,定性與定量結(jié)合的畫像方式以及畫像標(biāo)簽的建立模式,為精準(zhǔn)思政提供了技術(shù)可能。周琴等[16]針對(duì)2018年~2021年高校突發(fā)事件網(wǎng)絡(luò)輿情進(jìn)行文本分析后發(fā)現(xiàn),高校網(wǎng)絡(luò)輿情突發(fā)性強(qiáng)、涉及面廣、影響性大,社交媒體平臺(tái)加速網(wǎng)絡(luò)輿情的生成與傳播,處置不當(dāng)極易催生二次輿情。劉純嘉[17]對(duì)10000條微博評(píng)論數(shù)據(jù)進(jìn)行情感極性標(biāo)注工作,制作出一個(gè)高校輿情數(shù)據(jù)集,并對(duì)熱點(diǎn)問(wèn)題的高校輿情進(jìn)行了分析,取得很好的效果。
3 方法
3.1 微博熱度計(jì)算
微博作為網(wǎng)絡(luò)話題的一種重點(diǎn)表現(xiàn)形式,可以理解為一種隨著時(shí)間推移的信息流,熱點(diǎn)話題就蘊(yùn)含在其中,當(dāng)一條微博發(fā)布后,由于一系列原因,可能是用戶的影響力或是內(nèi)容的流行性,微博被廣泛關(guān)注,存著大量點(diǎn)贊轉(zhuǎn)發(fā)評(píng)論現(xiàn)象,或者其他用戶發(fā)表同主題微博,當(dāng)大量同主題微博爆發(fā)式出現(xiàn)時(shí),就形成了熱點(diǎn)話題??偨Y(jié)影響微博熱度的因素,主要分為兩大方面:微博的傳播特性和微博的時(shí)間效應(yīng)。
3.1.1微博的傳播特性
不同于新聞網(wǎng)站、博客、論壇等其他的網(wǎng)絡(luò)信息平臺(tái),微博最重要的特點(diǎn)就是其強(qiáng)大的社交屬性,它以用戶的社交圈為傳播途徑完成覆蓋面極廣的網(wǎng)狀傳播,并且除了文本信息之外,還有豐富的元數(shù)據(jù)信息,比如點(diǎn)贊、評(píng)論和轉(zhuǎn)發(fā)。微博傳播特性包括:
(1) 點(diǎn)贊數(shù):反映了其他用戶對(duì)微博的喜愛(ài)和認(rèn)可,這是最簡(jiǎn)單省時(shí)的方式,反應(yīng)用戶之間的互動(dòng)和對(duì)話題的共鳴,但程度只是一般級(jí)別;
(2) 評(píng)論數(shù):反映了微博用戶對(duì)于此話題的互動(dòng)程度,這是比點(diǎn)贊更高一層的互動(dòng)行為,當(dāng)對(duì)話題達(dá)到一定喜愛(ài)的程度才會(huì)與博主進(jìn)行進(jìn)一步的互動(dòng),也是在話題熱度的重要體現(xiàn);
(3) 轉(zhuǎn)發(fā)數(shù):反映了此話題的傳播熱度,這種用戶行為直接造成話題的傳播,也是形成熱點(diǎn)話題的基礎(chǔ)。
根據(jù)以上微博熱度影響因素的分析,微博的熱度可以分為靜態(tài)因素和動(dòng)態(tài)因素,靜態(tài)是指點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)等自有因素,動(dòng)態(tài)是隨著時(shí)間的變化,因此,本文提出一種單條微博熱度計(jì)算如公式(1):
[H=u?H0]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
其中,[u]為微博時(shí)間效應(yīng)因子,[H0]為微博靜態(tài)基礎(chǔ)熱度。
a. 時(shí)間效應(yīng)因子[u]
[u]是隨著微博的發(fā)表時(shí)間越久遠(yuǎn),時(shí)間效應(yīng)越小,具體如公式(2):
[u=et-t0α]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
其中,[t]為微博的發(fā)表時(shí)間,[t0]為當(dāng)前時(shí)間,[α]為時(shí)間系數(shù)。
b. 靜態(tài)基礎(chǔ)熱度[H0]
[H0]是不隨時(shí)間變化的,只跟微博的點(diǎn)贊評(píng)論轉(zhuǎn)發(fā)情況有關(guān),具體如公式(3):
[H0=logf+1+r-r0r-r0+c]? ? ? ? ? ? ? ? ?(3)
其中,[f]為關(guān)注者個(gè)數(shù),[r]為轉(zhuǎn)發(fā)數(shù),[c]是評(píng)論數(shù),[r0]是平衡因子,取[f]的千分之一,表明當(dāng)用戶的粉絲數(shù)越高時(shí),轉(zhuǎn)發(fā)量要達(dá)到一個(gè)基礎(chǔ)的轉(zhuǎn)發(fā)數(shù)才能算是一條有意義的微博,以此在一定程度上減弱名人效應(yīng)。
3.1.2微博的時(shí)間效應(yīng)
除了微博的傳播機(jī)制不同,微博還有明顯的時(shí)間效應(yīng)。微博對(duì)用戶來(lái)說(shuō)是一個(gè)關(guān)注事物的展示和內(nèi)心情緒的表達(dá)平臺(tái),用戶發(fā)布的永遠(yuǎn)是他當(dāng)前最關(guān)注的或最新發(fā)現(xiàn)的內(nèi)容,以求在社交平臺(tái)上獲得好友的共鳴。而當(dāng)熱點(diǎn)事件的過(guò)去,其熱度會(huì)隨之趨于平淡最終降低,也就是隨著熱點(diǎn)事件的爆發(fā)、演變和消亡的時(shí)間過(guò)程,微博的熱度是會(huì)變化的,而且變化是以一種較為急劇的形式呈現(xiàn)的,這將成為微博熱點(diǎn)發(fā)現(xiàn)的重要突破口。
3.2 自適應(yīng)的增量聚類算法
微博話題是一個(gè)演變的過(guò)程,每天都會(huì)產(chǎn)生大量的微博,有新的話題,有前段時(shí)間的熱點(diǎn),在通過(guò)聚類來(lái)發(fā)現(xiàn)微博熱點(diǎn)的過(guò)程中,后續(xù)的微博不斷加入,聚類必須以增量的形式進(jìn)行,而K-means聚類的[k]值也必須隨著后續(xù)微博的主題數(shù)而變化,根據(jù)以上需求,本文改進(jìn)了經(jīng)典算法,解決初始[k]值、增量聚類和[k]值自適應(yīng)的問(wèn)題。算法整體流程圖如圖1所示。
結(jié)合上文所述微博特點(diǎn)進(jìn)行的改進(jìn),主要有以下幾點(diǎn):
3.2.1初始[k]值和聚類中心
K-means算法,[k]值的選取很關(guān)鍵,而聚類之前微博主題的個(gè)數(shù)是無(wú)從得知的,所以需要通過(guò)其他途徑獲取[k]值,本文采用最基本的層次聚類,設(shè)定一定閾值,將微博凝聚成若干個(gè)類簇,這樣對(duì)于每條微博都是局部最優(yōu),然后以此作為K-means的輸入,迭代獲得全局最優(yōu)解。
3.2.2增量聚類
微博具有時(shí)序性,為了發(fā)現(xiàn)微博話題的變化情況,需要每隔一個(gè)時(shí)間觀察一次熱點(diǎn)的變化,所以本文將一定時(shí)間跨度的微博集按照固定時(shí)間間隔劃分為若干個(gè)增量,使用第一個(gè)進(jìn)行層次凝聚,形成初始類簇中心,之后的子集在此基礎(chǔ)上進(jìn)行K-means聚類,每次迭代后都會(huì)對(duì)熱點(diǎn)的變化完成記錄。
3.2.3[ k]值自適應(yīng)
隨著新產(chǎn)生的微博的加入,微博的話題內(nèi)容和話題個(gè)數(shù)都會(huì)隨之變化,所以在聚類的過(guò)程中,[k]也不是固定不變的,本文通過(guò)設(shè)定閾值,在每次迭代的過(guò)程中,如果一條微博和類簇間的相似度小于閾值θ,則不進(jìn)行歸類,而是加入臨時(shí)列表,在一次迭代完成后,通過(guò)計(jì)算與現(xiàn)有類簇的相異度來(lái)決定是否產(chǎn)生新的話題,即如果臨時(shí)列表里的某條微博與現(xiàn)有類簇的相異度大于閾值[α],則形成一個(gè)新的類簇,[k]值加1,直至所有增量完成聚類。
4 實(shí)驗(yàn)
4.1 數(shù)據(jù)集
本文的測(cè)試數(shù)據(jù)集來(lái)自新浪微博,通過(guò)爬蟲程序按選定關(guān)鍵詞進(jìn)行爬取,時(shí)間范圍為2020年1月1日到2021年12月31日。通過(guò)對(duì)這些微博初步篩選,保留原創(chuàng)消息,去除少于10個(gè)字的消息,刪除重復(fù)微博和廣告微博,再?gòu)慕Y(jié)果中挑選12個(gè)主題,總計(jì)44869條微博,以此作為測(cè)試集語(yǔ)料。
4.2 數(shù)據(jù)預(yù)處理
4.2.1中文分詞
分詞器ICTCLAS[48]是中科院推出的中文分詞器,包括中文分詞、詞性標(biāo)注等模塊。本次實(shí)驗(yàn)的中文分詞工具就是選用了中科院分詞器的Java版實(shí)現(xiàn)。此外ICTCLAS分詞工具還提供自定義用戶詞典功能,以達(dá)到具體領(lǐng)域內(nèi)的更好分詞效果,本文中選用搜狗輸入法詞庫(kù)中的領(lǐng)域詞匯,共149568個(gè),以提高分詞效果。
4.2.2去停用詞
停用詞選取網(wǎng)上整理的3000多個(gè)詞匯,包括標(biāo)點(diǎn)符號(hào)、無(wú)意義數(shù)字、語(yǔ)氣助詞,稱謂詞等,對(duì)微博分詞之后的結(jié)果,進(jìn)行去停用詞,并過(guò)濾掉詞頻低于5的詞語(yǔ),形成最后的單條微博特征詞集合。
4.2.3計(jì)算權(quán)值
將分詞并去停用詞之后的詞語(yǔ)集合,計(jì)算TF-IDF值,形成初步處理后的原始VSM向量,這也是本次實(shí)驗(yàn)各個(gè)對(duì)比方法改進(jìn)前的文檔向量。
4.3 實(shí)驗(yàn)結(jié)果
以微博的#每日高速路況#熱度作為實(shí)驗(yàn)的基線,對(duì)比熱點(diǎn)發(fā)現(xiàn)的效果。首先,我們以3天為單位,將上述預(yù)料分為11個(gè)增量,第一個(gè)增量進(jìn)行層次聚類,得到[K=2],閾值取[α=0.3],[θ=0.8],每次增量集迭代完成計(jì)算和記錄類簇?zé)岫?,結(jié)果如圖2所示。其中,藍(lán)色線條表示#疫情大學(xué)生返鄉(xiāng)#話題,灰色線條表示#每日高速路況#。通過(guò)實(shí)驗(yàn),我們發(fā)現(xiàn)2020年1月13日至25日之間,微博關(guān)于疫情大學(xué)生返鄉(xiāng)的事件有過(guò)激烈的討論,短期內(nèi)微博熱度升高。
接著,對(duì)時(shí)間進(jìn)行了更細(xì)粒度的劃分,以1天為單位分為13個(gè)增量,時(shí)間范圍2020年4月3日至2020年4月15日,聚類和閾值與之前相同。每次增量集迭代完成計(jì)算和記錄類簇?zé)岫?,結(jié)果如圖3所示。其中,藍(lán)色線條表示#山東理工大學(xué)虐貓事件#話題,灰色線條表示#每日高速路況#。圖中顯示,4月9日和4月10日熱度明顯升高,并成為熱點(diǎn)事件。通過(guò)對(duì)比微博熱搜榜,發(fā)現(xiàn)4月10日時(shí),#山東理工大學(xué)虐貓事件#進(jìn)入了熱搜榜,而筆者的算法在9日便發(fā)現(xiàn)了該熱點(diǎn),體現(xiàn)了算法的先進(jìn)性。
大學(xué)生在虛擬世界和現(xiàn)實(shí)交織生活,以微博為首的網(wǎng)絡(luò)信息對(duì)其的思維、生活、學(xué)習(xí)以及行為等各方面影響頗深,尤以價(jià)值觀的樹立為甚。這種影響是雙面的,一方面若能明辨網(wǎng)絡(luò)上的信息并合理吸收,可以正面引導(dǎo)大學(xué)生的思維,樹立大學(xué)生正確的價(jià)值觀;另一方面,若是對(duì)網(wǎng)絡(luò)上的信息不假思索地輕信,則可能會(huì)導(dǎo)致大學(xué)生偏離、否定主流意識(shí)形態(tài),形成錯(cuò)誤的價(jià)值觀。通過(guò)筆者的方法可以第一時(shí)間發(fā)現(xiàn)熱點(diǎn),及早掌握輿論風(fēng)向,并為大學(xué)思政工作提供有效幫助。
5 總結(jié)
本文提出了微博熱點(diǎn)發(fā)現(xiàn)的改進(jìn)方向,結(jié)合微博特性,將傳統(tǒng)的K-means聚類算法改成了增量的形式,并且完成了K值自適應(yīng)。同時(shí),結(jié)合層次聚類,解決了K-means啟動(dòng)時(shí)依賴人為設(shè)定K值和初始聚類中心的不足。此外還提出了微博熱度計(jì)算公式,以便更準(zhǔn)確地描述微博類簇的熱度。最后,通過(guò)設(shè)計(jì)實(shí)驗(yàn),定性地驗(yàn)證了話題發(fā)掘的結(jié)果,實(shí)驗(yàn)表明本文方法可以有效發(fā)現(xiàn)熱點(diǎn)。
參考文獻(xiàn):
[1] 張靜. 基于微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)模型及平臺(tái)研究[D]. 華中科技大學(xué), 2010.
[2] 李巖.基于微博的網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)研究[D].鎮(zhèn)江:江蘇科技大學(xué),2013.
[3] 李永道.微博熱點(diǎn)話題發(fā)現(xiàn)方法研究[D].南京:南京師范大學(xué),2013.
[4] Beil F, Ester M, Xu X. Frequent term-based text clustering[C]//Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2002: 436-442.
[5] 王永恒,賈焰,楊樹強(qiáng).海量短語(yǔ)信息文本聚類技術(shù)研究[J].計(jì)算機(jī)工程,2007,33(14):38-40.
[6] 胡吉祥,許洪波,劉悅,等.重復(fù)串特征提取算法及其在文本聚類中的應(yīng)用[J].計(jì)算機(jī)工程,2007,33(2):65-67.
[7] Gabrilovich E.Feature generation for textual information retrieval using world knowledge[J].ACM SIGIR Forum,2007,41(2):123.
[8] Hotho A,Staab S,Stumme G.Ontologies improve text document clustering[C]//Third IEEE International Conference on Data Mining.Melbourne,F(xiàn)L,USA.IEEE,2003:541-544.
[9] Brusco M J,K?hn H F.Comment on “Clustering by passing messages between data points”[J].Science,2008,319(5864):726.
[10] 徐戈,王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.
[11] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research,2003,3(1):993-1022.
[12] 蔣洪梅.微博客的特點(diǎn)及其輿論影響力[J].新聞愛(ài)好者,2011(5):85-86.
[13] 楊亮,林原,林鴻飛.基于情感分布的微博熱點(diǎn)事件發(fā)現(xiàn)[J].中文信息學(xué)報(bào),2012,26(1):84-90,109.
[14] 金瀏河,施健.疫情沖擊下大學(xué)生網(wǎng)絡(luò)輿情演化趨勢(shì)與高校思政引導(dǎo)——基于互聯(lián)網(wǎng)多平臺(tái)數(shù)據(jù)的計(jì)量分析[J].高教學(xué)刊,2022,8(21):1-7.
[15] 苗瑞丹,王真.大數(shù)據(jù)畫像技術(shù)助推精準(zhǔn)思政的技術(shù)可能、現(xiàn)實(shí)挑戰(zhàn)和對(duì)策思考[J].思想教育研究,2022(7):41-46.
[16] 周琴,夏友福.高校突發(fā)事件網(wǎng)絡(luò)輿情的應(yīng)對(duì)策略探析——基于2018—2021年141個(gè)高校輿情事件的分析[J].傳媒論壇,2022,5(16):82-84.
[17] 劉純嘉.面向高校輿情的中文文本情感傾向性分析[D].南昌:江西師范大學(xué),2020.
【通聯(lián)編輯:王力】