摘 要:通過改進的標簽傳播算法研究了輿情社交網(wǎng)絡(luò)中的社交主題發(fā)現(xiàn)。針對傳統(tǒng)算法容易陷入局部最優(yōu)的問題,依據(jù)節(jié)點間相似度選擇標簽傳播時的鄰居節(jié)點;針對傳統(tǒng)算法標簽更新時的隨機性問題,通過結(jié)合輿論動力學模型HK的觀點交互過程,依據(jù)節(jié)點影響力的大小更新標簽。實驗結(jié)果表明,該方法在最好情況下(k=0.9)相較于原算法,在穩(wěn)定性和模塊度指標兩方面分別提高了31%和78%,并且優(yōu)于其他幾種改進算法。由此可見,該算法相較于原算法及其他改進算法在輿情社交網(wǎng)絡(luò)的主題社區(qū)發(fā)現(xiàn)中表現(xiàn)更好。
關(guān)鍵詞:標簽傳播算法;輿情社交網(wǎng)絡(luò);HK模型;主題社區(qū)發(fā)現(xiàn)
中圖分類號:TP391.1"" 文獻標志碼:A"" 文章編號:1001-3695(2025)01-007-0048-08
doi: 10.19734/j.issn.1001-3695.2024.06.0194
Community discovery of public opinion social network based on improved label propagation algorithm
Abstract: This paper studied the discovery of social topics in social networks using an improved label propagation algorithm. To address the problem of traditional algorithms easily falling into local optima, it selected neighbor nodes during label propagation based on the similarity between nodes. To solve the randomness issue in label updates of traditional algorithms, it used the node influence to update labels by incorporating the opinion interaction process from the HK opinion dynamics model. The experimental results show that the proposed method, in the best case (k=0.9), improves stability by 31% and modularity by 78% compared to the original algorithm and outperforms several other improved algorithms. It demonstrates that the proposed algorithm performs better in discovering topic communities in social opinion networks compared to the original algorithm and other improved algorithms.
Key words:label propagation algorithm; public opinion social network; HK model; topic community discovery
0 引言
隨著計算機科學和信息科學的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)全面跨入以用戶生成內(nèi)容為主要特征的時代。在此趨勢下,各種移動社交應(yīng)用使得人們所發(fā)布的信息以極快的速度傳播到社會各個角落,因此社交網(wǎng)絡(luò)輿情的發(fā)生已經(jīng)成為了不可忽視的社會事實。以2023年為例,截至12月21日影響力較高的輿論事件包括體育、民生、消費等社會熱點事件38起、時政熱點事件19起、自然災(zāi)害或突發(fā)事故類事件13起、國際事務(wù)11起[1],這些事件的傳播速度和影響范圍之廣,凸顯了社交媒體在現(xiàn)代社會中的重要作用。為了系統(tǒng)地分析輿情,了解當前輿情的形勢,就需要準確獲悉當前社交網(wǎng)絡(luò)輿情中存在哪些主要討論的主題。在突發(fā)事件或危機發(fā)生時,識別出輿情社交網(wǎng)絡(luò)中的主題社區(qū),政府和公共安全機構(gòu)就可以針對當前社交網(wǎng)絡(luò)輿情中大家最為關(guān)心的問題,進行疏導和解答,這有助于采取預(yù)防措施,制定有效的應(yīng)對策略,減少不良信息的傳播,維護社會秩序。
1 研究綜述
1.1 社交網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)算法
社區(qū)發(fā)現(xiàn)是社交網(wǎng)絡(luò)的一個重要研究內(nèi)容。所謂社區(qū),就是指一組在網(wǎng)絡(luò)中內(nèi)部連接緊密、外部連接稀疏的節(jié)點,它們往往擁有相同的特性或功能。社區(qū)發(fā)現(xiàn)的概念最早由Girvan等人[2]提出,并基于邊介數(shù)提出了著名的GN算法。在此以后,來自各領(lǐng)域的研究學者提出了許多新的思想與算法,并用于解決各學科領(lǐng)域的具體問題。輿情網(wǎng)絡(luò)作為一種社交網(wǎng)絡(luò),其具有社交網(wǎng)絡(luò)所具有的普遍屬性——社區(qū)結(jié)構(gòu),網(wǎng)絡(luò)輿情中的主題就是社交網(wǎng)絡(luò)中的社區(qū),要識別社交網(wǎng)絡(luò)輿情中的主題,就需要對輿情社交網(wǎng)絡(luò)這樣一個大規(guī)模的社交網(wǎng)絡(luò)進行社區(qū)發(fā)現(xiàn)。現(xiàn)有的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)研究方法主要包括以下三類。
1.1.1 基于相似性聚類的社區(qū)發(fā)現(xiàn)方法
這種方法基于網(wǎng)絡(luò)節(jié)點間的相似性對節(jié)點執(zhí)行聚類操作。在計算得到節(jié)點間的相似性指標之后,便能利用各類聚類技術(shù)(如層次聚類、譜聚類等)根據(jù)既定的判斷準則,將節(jié)點分配到對應(yīng)的社區(qū)中去。Li等人[3]通過構(gòu)建節(jié)點屬性圖,并在此基礎(chǔ)上進行相似性增強隨機游走,以更好地區(qū)分和捕捉節(jié)點的群落結(jié)構(gòu)。Agrawal等人[4]基于K-medoids框架,使用協(xié)同相似性度量檢測社區(qū),該度量采用平衡屬性相似性和距離函數(shù)。Wu等人[5]提出了一種有效的層次聚類方法HCNN,該方法利用數(shù)據(jù)集最近鄰圖中的兩種結(jié)構(gòu)相似性,將相似數(shù)據(jù)分組為聚類, 將最大相似性視為兩個聚類之間的傳遞和閉合關(guān)系,通過應(yīng)用高級數(shù)據(jù)結(jié)構(gòu),可以更有效地合并聚類。Paul等人[6]提出了局部群體同化(LGA)算法,該算法通過鄰域相似性度量比較兩個相鄰節(jié)點,并選取最高值對,然后以這樣一種方式組合在一起,以生成各種大小的初始聚類,最后以迭代方式進一步合并,從而最大化它們之間的簇間邊緣密度。劉井蓮等人[7]采用模糊關(guān)系來描述兩個節(jié)點之間的相似度,然后通過極大連通子圖算法計算節(jié)點所屬的社區(qū)。Jiang等人[8]為了應(yīng)對現(xiàn)有基于相似性的社區(qū)劃分算法存在的節(jié)點區(qū)分度低、社區(qū)聚合參數(shù)選擇復(fù)雜、劃分結(jié)果具有隨機性等問題,提出了一種基于公共鄰居聚類熵節(jié)點相似性的靜態(tài)社區(qū)劃分算法。Sahu等人[9]提出了一種基于鄰域相似性的社區(qū)檢測算法NBCD ,該算法基于兩種新的相似度量,使用相似性參數(shù) α和一組基本規(guī)則,該算法是一個兩步過程,即社區(qū)檢測和節(jié)點移動。
1.1.2 基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)方法
模塊度函數(shù)的概念最初是由Newman等人[10]提出的, 基于模塊度優(yōu)化的方法旨在最大化模塊度函數(shù)Q,以此來實現(xiàn)更優(yōu)的社區(qū)劃分。模塊度函數(shù)Q的得分較高,意味著檢測到的社區(qū)結(jié)構(gòu)更加接近于實際情況。Sobolevsky等人[11]針對大多數(shù)可用的模塊化優(yōu)化方法都依賴于特定的離散優(yōu)化啟發(fā)式方法,將其構(gòu)建為連續(xù)二次優(yōu)化,提出了一種循環(huán)圖神經(jīng)網(wǎng)絡(luò)算法,通過模塊化優(yōu)化進行無監(jiān)督網(wǎng)絡(luò)社區(qū)檢測。Gibson等人[12]基于模塊化最大化的目標函數(shù)與特定度校正種植分區(qū) SBM 的統(tǒng)計推斷之間存在的等價性,將模塊度優(yōu)化與可接受模塊化分區(qū)凸包 (CHAMP)算法相結(jié)合,提出了一種新的社區(qū)發(fā)現(xiàn)算法。Rustamaji等人[13]基于模塊度優(yōu)化的思想提出了一種反匯編策略的社區(qū)發(fā)現(xiàn)算法,該算法首先將每個節(jié)點初始化為一個社區(qū),然后在每次迭代中通過開發(fā)和探索來增加模塊度。在每次迭代中探索和開發(fā)的可能性以百分比表示。Shang等人[14]提出了基于模塊化和改進的遺傳的社區(qū)劃分算法(MIGA),該算法采用基于模塊度Q優(yōu)化的遺傳算法,并針對爬坡算法存在的易陷入局部最優(yōu)解的缺點,使用模擬退火來幫助尋找更優(yōu)解,盡量跳出局部最優(yōu)解的局限。
1.1.3 基于標簽傳播的社區(qū)發(fā)現(xiàn)方法
標簽傳播算法(LPA)[15]是基于傳播的方法,它首先給每個節(jié)點標記唯一的標簽,然后以隨機順序遍歷所有節(jié)點。當每個節(jié)點與其大多數(shù)鄰居具有相同的標簽時,LPA停止傳播。劉鑄等人[16]針對消費者網(wǎng)絡(luò)的局部性特點,從節(jié)點的相似度判斷和標簽傳播距離兩方面對LPA進行了改進,研究了消費者的類別劃分。付立東等人[17]通過刻畫節(jié)點局部相似性指標,并用此度量節(jié)點間距離和解決標簽的隨機選擇問題,然后通過引入密度峰值聚類算法由中心向外圍節(jié)點傳播標簽,最終得到社區(qū)劃分結(jié)果。Liu等人[18]針對傳統(tǒng)標簽傳播算法中隨機性導致的社區(qū)劃分穩(wěn)定性差、準確率低的問題,提出一種結(jié)合種子節(jié)點影響力和鄰域相似性的社區(qū)發(fā)現(xiàn)算法。Douadi等人[19]定義了一種新的基于中心性和共同鄰居的相似性度量指標并基于標簽傳播算法來提取社區(qū)結(jié)構(gòu)。高兵等人[20]結(jié)合 node2vec模型對節(jié)點進行低維向量表示,構(gòu)建節(jié)點之間的權(quán)重值矩陣,根據(jù)權(quán)重值計算標簽歸屬系數(shù),據(jù)此選擇標簽,避免了隨機選擇問題,大幅提高了算法的穩(wěn)定性。
基于相似性的聚類方法依據(jù)節(jié)點間相似度將它們歸入不同的社區(qū),忽略了節(jié)點本身的屬性及其相互影響,而應(yīng)該借鑒一些用于計算空間物體相互作用的方法?;谀K度優(yōu)化的方法通常受到分辨率限制的影響,這意味著在某些情況下,它們可能無法識別小規(guī)模的社區(qū)。基于模塊度指標,可以有效地將社區(qū)發(fā)現(xiàn)問題轉(zhuǎn)換為最優(yōu)解問題,但當網(wǎng)絡(luò)的社區(qū)規(guī)模較大時,算法中需計算的解空間也十分巨大?;跇撕瀭鞑サ纳鐓^(qū)發(fā)現(xiàn)方法僅是基于網(wǎng)絡(luò)的拓撲結(jié)構(gòu)信息進行社區(qū)結(jié)構(gòu)的劃分,缺乏對于網(wǎng)絡(luò)現(xiàn)實場景的考量,但是該方法更適合模擬輿情交互的動態(tài)過程。
2 LPA及其改進策略
標簽傳播算法最初由Zhu等人[21]提出,它的主要思路是使用已標注的實例來預(yù)測那些未標注的實例,即利用已經(jīng)標記的節(jié)點標簽信息來推斷那些尚未標記節(jié)點的標簽。在2007年,Raghavan等人[15]將此算法首次運用于圖數(shù)據(jù)的社區(qū)檢測領(lǐng)域。該算法速度快、邏輯簡單、時間效率高,可用于分析大規(guī)模網(wǎng)絡(luò),目前已經(jīng)成為社交網(wǎng)絡(luò)領(lǐng)域主流的社區(qū)發(fā)現(xiàn)算法。
2.1 LPA及其不足分析
2.1.1 LPA
標簽傳播算法是一種基于圖的半監(jiān)督學習方法,算法的核心思想是: 每個節(jié)點會根據(jù)其鄰接節(jié)點標簽出現(xiàn)的頻率來更新自己的標簽,即選擇最常見的標簽作為自己的新標簽。
算法1 傳統(tǒng)標簽傳播算法LPA
輸入:社交網(wǎng)絡(luò)G=(V,E)。
輸出:社區(qū)發(fā)現(xiàn)C。
a)每個節(jié)點被賦予一個唯一的標簽(通常是一個數(shù)字或顏色),這個標簽代表該節(jié)點的初始社區(qū)歸屬。
b)在每次迭代中,節(jié)點會根據(jù)其鄰居節(jié)點的標簽更新自己的標簽。具體來說,任取一個節(jié)點,該節(jié)點選擇鄰居標簽中出現(xiàn)次數(shù)最高的標簽作為自己的標簽。若鄰居節(jié)點使用的標簽一樣多,采用隨機原則。
c)當所有節(jié)點的標簽在數(shù)次迭代之后保持不變,則算法停止執(zhí)行。在這個階段,那些擁有同一個標簽的節(jié)點被視作構(gòu)成一個共同的社區(qū)。
2.1.2 LPA算法不足分析
1)標簽傳播的節(jié)點選擇方式的不足
學界在對輿情社交網(wǎng)絡(luò)關(guān)系的構(gòu)建中,一般采用的是以相互關(guān)注、博文轉(zhuǎn)發(fā)或相互@的關(guān)系數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),并由此分析網(wǎng)絡(luò)結(jié)構(gòu)與群體屬性,該方法能夠直接呈現(xiàn)結(jié)果。但是基于關(guān)注或轉(zhuǎn)發(fā)等構(gòu)建的網(wǎng)絡(luò)更多地反映了社交關(guān)系和信息傳播的過程,可能無法充分捕捉到語義內(nèi)容層面的深層次聯(lián)系,并不適用于輿情社交網(wǎng)絡(luò)中的主題社區(qū)發(fā)現(xiàn)研究。而基于語義相似度構(gòu)建的網(wǎng)絡(luò)更加關(guān)注內(nèi)容本身的相似性,而非僅僅依賴社交關(guān)系,它可以跨越不同的社交群體,識別出跨群體的共同關(guān)注點和觀點,即使這些文本的作者之間沒有直接的社交聯(lián)系?;谡Z義相似度構(gòu)建的網(wǎng)絡(luò)又稱為語義社交網(wǎng)絡(luò)[22]。
LPA作為一種啟發(fā)式算法,僅是依據(jù)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)特征進行社區(qū)發(fā)現(xiàn),節(jié)點標簽的傳播對象為所有的鄰居節(jié)點。選擇性接觸理論在社會學實踐中指出,人們通常會傾向于依據(jù)自身已有的觀點和興趣來選擇接觸大眾信息,這種有目的性地選擇那些與自己信念相符的信息會導致接收到的信息變得片面化,并進一步強化個人先前的觀點。根據(jù)該理論,當人們接觸到能增強其原有觀點的信息時,他們會產(chǎn)生積極的情感,然而盡管個體傾向于與觀點相近的個體交互,但社交平臺的開放性和信息的海量性意味著個體還會不可避免地接觸到很多不同的觀點,這種信息的多樣性可能會對個體原有的觀點產(chǎn)生影響,使得個體的觀點發(fā)生改變。LPA的標簽傳播方式忽略了現(xiàn)實社交網(wǎng)絡(luò)輿情中個體隨機選擇性接觸的影響,使得算法缺乏探索性和適應(yīng)性,容易陷入局部最優(yōu),因此還需要對LPA標簽傳播的節(jié)點選擇方式進行改進。
2)標簽更新隨機性的不足
受身份地位的影響不同,不同的實體或個人的影響力很顯然是不同的,如政府、主流媒體、權(quán)威專家和當事人的影響力較高,而一般個人觀點的影響力則較低。LPA在標簽傳播過程中隨機確定節(jié)點標簽更新的順序,沒有考慮到輿情社交網(wǎng)絡(luò)中不同節(jié)點的重要性對標簽更新過程的影響,可能會導致“逆流”現(xiàn)象[23],即不太重要的節(jié)點依次影響到一些重要的節(jié)點。另外,在輿情社交網(wǎng)絡(luò)中,每個節(jié)點都會持有對某輿情事件的一個觀點。在傳統(tǒng)的LPA中,節(jié)點在標簽更新階段會傾向于選擇其鄰居節(jié)點中出現(xiàn)次數(shù)最多的標簽作為其更新后的標簽,如果有多個標簽出現(xiàn)次數(shù)相同,則節(jié)點會隨機選取一個作為新的標簽,這也被稱為標簽傳播算法的“平局”問題[27]。該問題已被確定為不穩(wěn)定的來源之一,因為隨機更新會導致每次運行時產(chǎn)生不同的結(jié)果,甚至可能還會產(chǎn)生“雪崩效應(yīng)”,即傳播初期一個小的錯誤被不斷放大,最終影響社區(qū)發(fā)現(xiàn)的質(zhì)量。因此,在標簽更新時為每個節(jié)點提供一個觀點值,標簽需要依據(jù)節(jié)點的觀點值進行更新,能最大限度地避免隨機更新帶來的影響。
綜上所述,傳統(tǒng)LPA無復(fù)雜的目標函數(shù)、具有接近線性的復(fù)雜度[15],但LPA標簽傳播的對象為所有的鄰居節(jié)點,而在社交網(wǎng)絡(luò)輿情的交互過程中節(jié)點更愿意與觀點相近的節(jié)點接觸,同時受社交平臺的開放性和信息的海量性影響,又不可避免地接觸其他不同的觀點,只有具有接觸的節(jié)點間才可能發(fā)生標簽的傳播。此外,算法標簽更新時具有隨機性,但在輿情社交網(wǎng)絡(luò)中,每個節(jié)點不同的影響力和對輿情事件持有的觀點對于標簽的更新,也是一個重要的影響因素。因此,在進行輿情社交網(wǎng)絡(luò)的主題社區(qū)發(fā)現(xiàn)時還需要結(jié)合輿情網(wǎng)絡(luò)的現(xiàn)實場景,對LPA標簽傳播的節(jié)點選擇方式以及標簽更新時的隨機性進行改進。
2.2 改進LPA
2.2.1 標簽傳播的節(jié)點選擇方式改進
1)節(jié)點選擇方式改進
doc2vec 是由Le等人[24]提出的一種無監(jiān)督訓練模型,它能夠?qū)⒉煌L度的文本內(nèi)容映射到一個固定長度的向量空間中。這種方法能有效地提取文本的語義特征,并簡化文本的內(nèi)容表示,目前它已經(jīng)在短文本的向量化表示方面得到了廣泛應(yīng)用。
基于doc2vec模型對文本進行向量化,采用余弦相似度公式計算兩個文本的內(nèi)容相似度,如下:
其中:X和Y分別表示節(jié)點u和節(jié)點v的文本;Suv表示節(jié)點u和節(jié)點v之間的內(nèi)容相似度。
根據(jù)前述隨機選擇性接觸分析可知,在社交網(wǎng)絡(luò)輿情交互過程中,每個節(jié)點都會持有對輿情事件的一個觀點傾向,受觀點相似程度的影響,節(jié)點更愿意與觀點相近的節(jié)點接觸,因此標簽傳播的可能性相應(yīng)較大,同時又不可避免地接觸其他不同的觀點,只有發(fā)生接觸的鄰居節(jié)點間才可能發(fā)生標簽的傳播。假設(shè)節(jié)點v按照與鄰居節(jié)點u的內(nèi)容相似度的大小進行標簽傳播,節(jié)點v選擇鄰居節(jié)點ui作為標簽傳播對象的概率表示如下:
其中:Puiv為節(jié)點v選擇與鄰居節(jié)點ui進行標簽傳播的概率;N(v)表示節(jié)點v的鄰居節(jié)點集合;Suiv表示節(jié)點v和ui的相似度。
同時,設(shè)RN(v)表示選擇作為標簽傳播的鄰居節(jié)點集,其定義如下:
RN(v)={ui∈N(v)|random()∈Jui}(3)
其中:random()是一個隨機函數(shù),它能夠根據(jù)節(jié)點v的度值產(chǎn)生k(0lt;k≤1)倍鄰居數(shù)的節(jié)點,該比例參數(shù)k表示選擇接觸的隨機性特點。Jui表示每個鄰居節(jié)點ui被選擇的區(qū)間,Jui的定義如下:
2)標簽傳播方式對傳統(tǒng)LPA社區(qū)模塊度的影響分析
傳統(tǒng)LPA將所有鄰居節(jié)點作為標簽傳播的對象,這種標簽傳播方式忽略了隨機選擇性接觸的影響。所提出的方法基于節(jié)點的內(nèi)容相似度構(gòu)建輿情社交網(wǎng)絡(luò),以鄰居節(jié)點間文本的內(nèi)容相似程度作為標簽傳播的節(jié)點選擇依據(jù),不同相似程度的節(jié)點具有不同的標簽傳播概率,越相似的節(jié)點越有可能被選擇作為標簽傳播的對象,符合個體的同質(zhì)性和選擇性接觸理論。同時,對于相似度高的節(jié)點具有較小的可能性不發(fā)生交互,而對于相似度較小的鄰居節(jié)點依然具有較小的可能性發(fā)生交互,符合實際個體觀點交互過程中多方面采集信息的不確定性。該標簽傳播的節(jié)點選擇方式更加真實地模擬了社交網(wǎng)絡(luò)輿情中標簽傳播的過程,在選擇性接觸時引入了隨機的因素,這樣可以保證即使不是最優(yōu)的節(jié)點也有一定概率被選中, 這種隨機性在一定程度上增加了搜索空間的多樣性,在一定程度上可以避免算法陷入局部最優(yōu)解,增強了算法的探索性和適應(yīng)性。
為驗證標簽傳播時節(jié)點選擇方式對傳統(tǒng)LPA的影響,這里以模塊度函數(shù)Q作為社區(qū)發(fā)現(xiàn)質(zhì)量的評價指標,在輿情社交網(wǎng)絡(luò)數(shù)據(jù)集上對應(yīng)不同的節(jié)點選擇比例k運行一百次取平均值。參數(shù)k表示選擇用于進行標簽傳播的鄰居節(jié)點的比例,其取值位于0~1。統(tǒng)計分析可知輿情社交網(wǎng)絡(luò)的節(jié)點平均度值為8,表明網(wǎng)絡(luò)平均度較小,由于用于進行標簽傳播的鄰居節(jié)點個數(shù)以整數(shù)計,若參數(shù)k取值間隔過小,則用于進行標簽傳播的鄰居節(jié)點的數(shù)量甚至會相同,導致實驗對比不明顯,若間隔過大則可能會遺漏最佳參數(shù)值,所以這里參數(shù)k的取值間隔取0.05為宜。關(guān)于網(wǎng)絡(luò)數(shù)據(jù)集以及模塊度指標的介紹將分別在4.1節(jié)和4.2節(jié)中詳細闡述,這里分別統(tǒng)計出了平均模塊度Qavg和標準差Qstd的變化,如圖1所示。
由于k值小于0.3時算法或多數(shù)無法收斂,故不再對其進行統(tǒng)計分析。由圖1可知,當k值為0.85和0.9時,模塊度平均值Qavg分別為0.476和0.485,比k值為1(傳統(tǒng)LPA采用的節(jié)點選擇方式)時的模塊度平均值0.471要高,這說明適當?shù)膋值在滿足現(xiàn)實交互情景的同時,在一定程度上可以避免傳統(tǒng)LPA陷入局部最優(yōu)解,提高社區(qū)的劃分質(zhì)量。由于在此引入了隨機性,為驗證其所帶來的穩(wěn)定性問題,對應(yīng)不同的k值統(tǒng)計了一百次實驗的Qstd,實驗發(fā)現(xiàn)不同k值所對應(yīng)的Qstd相較于k值為1時的Qstd接近,說明節(jié)點選擇方式對于傳統(tǒng)算法的穩(wěn)定性并無明顯的影響。同時發(fā)現(xiàn),不同的k值所對應(yīng)的Qstd較大,可知這種不穩(wěn)定性更多來源于LPA標簽更新時的隨機性。
2.2.2 標簽更新的隨機性改進
1)節(jié)點標簽更新順序的確定
在輿情社交網(wǎng)絡(luò)中,個體并不是一個單純的節(jié)點,而是擁有許多屬性,比如粉絲數(shù),發(fā)表博文的點贊、轉(zhuǎn)發(fā)、評論數(shù)。為避免標簽更新過程中“逆流”現(xiàn)象的影響,首先結(jié)合節(jié)點的屬性特征,節(jié)點粉絲數(shù)、博文的點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評論數(shù)四個指標采用層次分析法計算節(jié)點的屬性指標權(quán)重,最后結(jié)合各指標數(shù)據(jù)計算節(jié)點的屬性值m。
根據(jù)數(shù)據(jù)場理論,網(wǎng)絡(luò)可以被視為一個眾多節(jié)點相互作用的系統(tǒng),其中每個節(jié)點都會對其一定范圍內(nèi)(拓撲場)的節(jié)點施加拓撲勢,這些節(jié)點的拓撲勢會隨著與該節(jié)點網(wǎng)絡(luò)距離的增加而迅速衰減。節(jié)點的拓撲勢可以反映該節(jié)點在網(wǎng)絡(luò)拓撲結(jié)構(gòu)中受到自身以及附近節(jié)點影響的大小,根據(jù)拓撲勢值可細分復(fù)雜網(wǎng)絡(luò)中節(jié)點的重要程度。給定一個無向網(wǎng)絡(luò)G=(V,E),V表示節(jié)點集,E表示邊集,節(jié)點v的拓撲勢公式如下:
其中:mu≥0,代表節(jié)點v影響范圍內(nèi)的節(jié)點u的質(zhì)量,在此處表示節(jié)點的屬性值;duv表示兩個節(jié)點u和v之間的最短路徑長度;σ為影響因子,用于控制節(jié)點的影響范圍,可根據(jù)節(jié)點拓撲勢熵進行優(yōu)選。
有研究表明,最后更新的節(jié)點傳播其標簽的概率較小[25]。根據(jù)計算出的節(jié)點屬性值結(jié)合節(jié)點的拓撲勢公式計算出節(jié)點影響力ω,最后按照影響力大小降序排列作為節(jié)點標簽更新的順序。
2)標簽更新的隨機性改進
為貼合社交網(wǎng)絡(luò)輿情的現(xiàn)實場景,在對輿情社交網(wǎng)絡(luò)進行社區(qū)發(fā)現(xiàn)研究時,離不開對于網(wǎng)絡(luò)中節(jié)點觀點演化的研究,輿情的觀點演化和節(jié)點的標簽更新具有密不可分的聯(lián)系。目前研究者們提出了許多的輿論動力學模型,這類模型關(guān)注的核心是在社會環(huán)境普遍無序的背景下,探討信息如何傳播以及觀點如何演化,其目標是理解和預(yù)測個體在社交互動中觀點如何隨時間變化并最終形成共識或分歧的過程。HK模型作為一種連續(xù)型輿論動力學模型,已被廣泛應(yīng)用于社交網(wǎng)絡(luò)輿情的觀點演化研究中。HK模型的表達式如式(6)所示。
其中:Ou(t)表示鄰居u在時間t的觀點;Nv(t)表示節(jié)點v可以與之通信的鄰居集合,Nv(t)={u‖Ov(t)-Ou(t)|≤ε,v≠u},在這種情況下,節(jié)點只會考慮那些意見在它自己信任范圍ε內(nèi)的鄰居。
由該輿論動力學公式可知,節(jié)點通過平均鄰居的觀點來更新它的觀點。同時該輿論動力學模型假設(shè)節(jié)點在下一時刻的觀點與它當前持有的觀點沒有任何關(guān)系,從認知角度來看,代表了場依存的認知方式,在這種情況下,場獨立的認知風格就被忽略了,這是對真實社會現(xiàn)象的過分簡化,不符合真實的社會和生活中觀點的影響過程;另外,該模型在交互過程中認為交互節(jié)點的影響力相同,節(jié)點的觀點總是更新至其信任閾值內(nèi)的所有觀點的平均值,沒有考慮鄰居節(jié)點之間的差異,實際上節(jié)點會考慮觀點提供者的可信度,面對各種海量的網(wǎng)絡(luò)信息,信任影響的是節(jié)點在觀點交互過程中對于其他節(jié)點的真實觀點的接受程度。為獲得節(jié)點更加真實的觀點值,根據(jù)以上描述對HK模型作出適當?shù)膬?yōu)化,社區(qū)標簽在更新時將會參照鄰居節(jié)點的觀點進行更新。對HK模型優(yōu)化后的公式如下:
其中:RN(v)表示節(jié)點v用作標簽傳播的鄰居節(jié)點集合;Wuv表示節(jié)點v對u的影響力;λ∈(0,1)表示場獨立系數(shù)且服從標準正態(tài)分布。同時,在觀點交互過程中考慮到節(jié)點傾向于與同一社區(qū)結(jié)構(gòu)內(nèi)的其他節(jié)點交互,而不是與社區(qū)結(jié)構(gòu)外的節(jié)點交互。因此,節(jié)點v對u的信任權(quán)重Wuv定義如下:
其中:ωu(t)表示節(jié)點的影響力;labelv(t)表示在t時刻節(jié)點v的標簽;labelu(t)表示在t時刻節(jié)點v的鄰居交互節(jié)點u的標簽。
基于以上交互過程在得到節(jié)點觀點后,節(jié)點v的標簽根據(jù)標簽傳播節(jié)點u∈RN(v)的觀點進行動態(tài)更新。每次選擇標簽傳播節(jié)點中與其觀點值平均更接近的標簽作為自己的標簽。節(jié)點v的標簽更新如下:
3)標簽更新方式對傳統(tǒng)LPA社區(qū)模塊度的影響分析在無向網(wǎng)絡(luò)中,網(wǎng)絡(luò)的拓撲勢熵為
拓撲勢熵的大小與節(jié)點位置差異不確定性的程度有關(guān),能夠反映節(jié)點在網(wǎng)絡(luò)中的拓撲結(jié)構(gòu)特征,當各節(jié)點的拓撲勢值均不相等時,節(jié)點位置差異具有最小的不確定性,勢熵達到最??;當各節(jié)點的拓撲勢值均相等時,節(jié)點位置差異具有最大的不確定性,勢熵也達到最大。
該輿情社交網(wǎng)絡(luò)中的拓撲勢熵與影響因子的關(guān)系如圖2所示。由圖2可知熵值H先減小后增大,存在一個最優(yōu)的影響因子σ′為0.858 1,使得勢熵達到最小,此時節(jié)點拓撲勢分布最不均勻,同時具有最小的不確定性。在得到最優(yōu)影響因子σ′后,依據(jù)節(jié)點的屬性值m結(jié)合節(jié)點的拓撲勢公式可以計算出網(wǎng)絡(luò)中各節(jié)點之間的影響力。
為了評估標簽更新方式對傳統(tǒng)LPA的影響,這里同樣將LPA在輿情社交網(wǎng)絡(luò)數(shù)據(jù)集上運行一百次,統(tǒng)計出模塊度平均值Qavg和模塊度標準差Qstd,同時給出了使用改進標簽更新方式的LPA的模塊度Q。
表1顯示,傳統(tǒng)LPA的社區(qū)模塊度平均值為0.469,改進標簽更新方式的LPA在輿情主題社區(qū)發(fā)現(xiàn)時模塊度的模塊度為0.602,模塊度值得到了顯著提高,這是由于:首先,此時的改進算法采用的仍是傳統(tǒng)算法的節(jié)點選擇方式(k=1),由圖1可知該節(jié)點選擇方式僅稍遜于k值為0.85和0.9的情況;其次,該方法結(jié)合了節(jié)點本身的外部屬性信息和網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息衡量節(jié)點的影響力,通過影響力確定節(jié)點的標簽更新順序,在標簽更新時按照節(jié)點影響力大小的先后順序進行更新;最后,改進的標簽更新方式在節(jié)點標簽的更新時考慮了鄰居的觀點,節(jié)點每次選擇與其觀點最接近的鄰居標簽作為自己的標簽,可以有效避免標簽更新過程中隨機性帶來的誤差放大的問題,同時節(jié)點觀點在更新時也考慮了當前時刻節(jié)點標簽的影響,標簽的傳播伴隨著群體觀點的演變,兩者相互影響使得標簽的更新更加具有準確性。同時LPA的Qstd為0.045,這也進一步說明了LPA的不穩(wěn)定性主要是由于標簽更新的隨機性引起的,使用改進的標簽更新方式可以完全避免標簽更新時隨機性帶來的影響。
3 基于改進LPA的輿情社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法
該研究首先使用基于情感詞典的SnowNLP對文本進行情感分析。SnowNLP是一個基于Python寫的工具庫,它將給定文本中的單詞與情感詞典中的單詞配對,并計算它們的情感值,情感值位于0~1,權(quán)重越接近1表示情緒是積極的,越接近0表示情緒是消極的。鑒于用戶的情緒可以直觀地反映其對輿論事件的立場[26],故將這些情緒評分作為用戶對事件觀點的數(shù)值指標。
3.1 算法步驟
基于改進LPA的輿情社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)過程如下:
輸入:輿情社交網(wǎng)絡(luò)G=(V,E);節(jié)點選擇比例k;觀點差距閾值ε。
輸出:社區(qū)發(fā)現(xiàn)C。
a)為網(wǎng)絡(luò)中每個節(jié)點賦予一個唯一的標簽和觀點值。
b)根據(jù)2.2.2節(jié)1)中提出的方法,依據(jù)節(jié)點的屬性特征和拓撲勢計算各節(jié)點的影響力,按照節(jié)點的影響力大小確定標簽的更新順序,并按降序存儲到更新列表中。
c)選取標簽更新列表未處理節(jié)點中優(yōu)先級最高的節(jié)點,根據(jù)2.2.1節(jié)1)中提出的方法,依據(jù)節(jié)點的度值按照與鄰居節(jié)點的相似度大小選擇比例為k的鄰居節(jié)點作為標簽傳播的對象。
d)依據(jù)選擇出的鄰居節(jié)點,根據(jù)2.2.2節(jié)2)中提出的優(yōu)化后輿論動力學模型HK的式(7)和(8)更新節(jié)點的觀點;根據(jù)選擇出的鄰居節(jié)點的觀點值依據(jù)式(9)選擇出距離其觀點平均最接近的節(jié)點標簽作為自身的標簽,并將該節(jié)點標記為已處理。
e)重復(fù)步驟c)d),直至列表中的節(jié)點全部被標記為已處理。
f)當所有節(jié)點的觀點演化前后觀點差距都小于某個閾值ε,且所有節(jié)點的標簽都不在變化時,迭代結(jié)束,否則轉(zhuǎn)步驟c)。
改進的LPA在社區(qū)發(fā)現(xiàn)中引入了節(jié)點觀點交互機制,更加真實地模擬了社交網(wǎng)絡(luò)輿情中的個體交互過程,可以同時揭示輿情社交網(wǎng)絡(luò)的最終意見模式和社區(qū)結(jié)構(gòu)。其流程如圖3所示。
3.2 算法分析
3.2.1 時間復(fù)雜度分析
步驟a)中為每個節(jié)點賦予一個觀點值和一個標簽,時間復(fù)雜度為O(n)。步驟b)中節(jié)點影響力的計算時間復(fù)雜度主要取決于拓撲勢的計算,最壞情況為O(n2),根據(jù)計算出的節(jié)點影響力采用快速排序算法進行降序排序,在平均情況下,快速排序的時間復(fù)雜度為O(n·log n)。因此,在初始化階段的時間復(fù)雜度為O(n+n2+n·log n),總的時間復(fù)雜度為O(n2)。步驟c)~f)中,步驟c)和d)每循環(huán)一次,時間復(fù)雜度為k·d,k表示交互節(jié)點選擇的比例,d表示節(jié)點的平均度,迭代結(jié)束時間復(fù)雜度為Lnkd,其中L表示總的迭代次數(shù)。因此,算法總的時間復(fù)雜度為O(n2+Lnkd)。
3.2.2 收斂性分析
推理1 設(shè)數(shù)列滿足遞推公式xn+1=f(xn),若f(x)可微分,且存在常數(shù)r∈(0,1)使得|f′(x)|≤r,則數(shù)列{xn}收斂。
證明 由于f(x)可微,由拉格朗日中值定理可得|f(xn)-f(a)|=|f′(ξ)|·|xn-a|,由于|f′(x)|≤r,故|f′(ξ)|·|xn-a|≤r|xn-a|,由定理1可知數(shù)列{xn}收斂。
收斂性證明:根據(jù)改進的輿論動力學公式(7)可將其簡化為如下形式:
Ov(t+1)=λOv(t)+b(12)
f(x)=λx+b(13)
對式(12)兩邊取極限可知,存在常數(shù)a=b/(1-λ)使得f(a)=a。同時,顯然式(13)是可微的,且f′(x)=λ,由前可知0lt;λlt;1,由推理1可知節(jié)點v的觀點序列O收斂。根據(jù)標簽更新式(9)可知,節(jié)點的標簽在向著相近觀點的節(jié)點標簽變化,當任意節(jié)點在觀點更新前后的意見差值小于閾值,并且所有節(jié)點的標簽都與距離其觀點值最近的鄰居節(jié)點的標簽相同時,迭代結(jié)束。此時節(jié)點相應(yīng)的標簽即為節(jié)點所屬社區(qū),同一社區(qū)的節(jié)點將會具有相近的觀點值,通過觀察觀點的分布情況也可自然地揭示出主題社區(qū)的分布。
4 實證研究
4.1 數(shù)據(jù)集
目前在社交網(wǎng)絡(luò)輿情領(lǐng)域并沒有權(quán)威的公開數(shù)據(jù)集,因此使用Python爬蟲工具從新浪微博平臺獲取實驗數(shù)據(jù),對該研究內(nèi)容進行驗證。2022年6月10日凌晨,中國河北省唐山市一家燒烤店發(fā)生一起暴力毆打他人事件,隨后在微博上引發(fā)熱議。針對該起事件搜集了從10日至30日共計78 401條相關(guān)微博數(shù)據(jù)。針對該實驗研究,選取了24日至30日輿情發(fā)展后期的文本數(shù)據(jù)共達4 374條,將熱度較高的博文作為輿情社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的文本集,選擇標準為文本的點贊轉(zhuǎn)發(fā)以及評論數(shù)較高的文本,依據(jù)該標準最終選取了1 526條文本。
為了方便構(gòu)建網(wǎng)絡(luò),對式(1)計算出的結(jié)果進行標準化:
其中:du,v為網(wǎng)絡(luò)中節(jié)點u和節(jié)點v的距離,如果du,vgt;1, 則記為無窮大,相當于兩點之間不可達;N為文本集合;n為文本數(shù)量。生成的網(wǎng)絡(luò)拓撲結(jié)構(gòu)如圖4所示。
4.2 評價指標
1)模塊度函數(shù)
模塊度函數(shù)是在真實社區(qū)結(jié)構(gòu)未知的情況下進行社區(qū)質(zhì)量評價的關(guān)鍵指標,因此這里采用模塊度函數(shù) Q作為所提算法社區(qū)發(fā)現(xiàn)結(jié)果的評價指標,Q的取值是[0,1],其定義公式為
其中:M是網(wǎng)絡(luò)中邊的數(shù)量;A代表網(wǎng)絡(luò)構(gòu)成的鄰接矩陣,當節(jié)點vi和vj間存在連接邊時,Aij的值為1,否則其值為0;deg(vi)和deg(vj)分別為節(jié)點vi和節(jié)點vj的度數(shù);Li和Lj分別表示節(jié)點vi和vj所屬的社區(qū)標簽;δ(Li,Lj)為Kronecker函數(shù),當節(jié)點vi和節(jié)點vj位于同一個社區(qū)時,δ(Li,Lj)的值為1,否則為0。
2)標準化互信息(NMI)
標準化互信息是一種相似性度量方法,其源于信息論。這種方法認為如果兩個劃分越相似,則需要越少的附加信息來推斷另一個劃分的分配。它的定義如下:
其中:I(X;Y)表示劃分X和Y之間的互信息;H(X)表示X的熵;NMI的取值是0~1。當預(yù)測的社區(qū)劃分完全獨立于真實的社區(qū)劃分時,NMI=0;相反,當預(yù)測的社區(qū)與真實社區(qū)劃分完全匹配時,NMI=1。
3)ARI指標
ARI指標是兩個聚類之間相似性的另一種衡量標準,定義如下:
其中:RI是兩個劃分之間的相似性度量,它考慮了所有樣本對。通過計算分配給預(yù)測的社區(qū)劃分和真實的社區(qū)劃分的相同和不同樣本對的數(shù)量來評價社區(qū)發(fā)現(xiàn)的質(zhì)量。具體表現(xiàn)形式如下:
4.3 實驗結(jié)果分析
4.3.1 改進LPA社區(qū)劃分質(zhì)量對節(jié)點選擇比例k的敏感度分析
為研究節(jié)點選擇比例參數(shù)k對改進算法的社區(qū)模塊度的影響,針對不同參數(shù)k實驗一百次統(tǒng)計結(jié)果如圖5所示,其中,誤差棒表示標準差,同時由于無法獲悉該輿情社交網(wǎng)絡(luò)真實的社區(qū)結(jié)構(gòu),這里NMI和ARI指標均以Louvain算法的劃分結(jié)果作為真實的社區(qū)標準。
由圖5可知,隨著k的增大,模塊度Q、NMI和ARI指標值不斷提高,當達到臨界值0.7左右時,之后的增長變化較為緩慢。這是因為當k較小時,交互節(jié)點的數(shù)量是影響社區(qū)發(fā)現(xiàn)的主要因素,較小的節(jié)點選擇比例限制了節(jié)點之間的交流,導致觀點交互和標簽傳播只發(fā)生在較少的節(jié)點之間,社區(qū)發(fā)現(xiàn)質(zhì)量并不理想,提高節(jié)點的選擇比例可以顯著提高社區(qū)發(fā)現(xiàn)質(zhì)量,當k逐漸增加到一個臨界值之后,節(jié)點之間達到了充分的交互使得模塊度增長緩慢。同時無論k值為多少,改進算法的各指標值的標準差都很接近,這說明節(jié)點選擇的隨機性對算法穩(wěn)定性的影響有限,而且節(jié)點的更新順序和基于輿論動力學模型HK的觀點交互機制能夠很大程度上提高算法的穩(wěn)定性。當k等于0.85和0.9時社區(qū)模塊度Q、NMI和ARI指標均高于其他情況,以模塊度指標為例,當k等于0.85和0.9時,模塊度平均值分別達到0.616和0.629均高于其他情況(k等于1時的模塊度值為0.602),這也進一步驗證了適當?shù)墓?jié)點選擇比例可以提高社區(qū)的發(fā)現(xiàn)質(zhì)量,避免了算法陷入局部最優(yōu)的情形。
4.3.2 改進LPA的社區(qū)劃分質(zhì)量對比分析
由4.3.1節(jié)的實驗分析可知,當k值取0.85或者0.9時,三種評價指標均達到最好的效果,因此這里將參數(shù)k等于0.85和0.9時提出的算法與傳統(tǒng)LPA和其他三種改進算法ITSLR[27]、WILPAS[28]、TS[29]進行比較,實驗結(jié)果如圖6所示。
從圖6中可知,當k取值0.85和0.9時,所提算法的社區(qū)發(fā)現(xiàn)質(zhì)量明顯好于傳統(tǒng)的LPA算法以及ITSLR、WILPAS、TS三種改進算法,穩(wěn)定性和另外三種改進算法一樣顯著優(yōu)于傳統(tǒng)的LPA算法。所提算法在穩(wěn)定性方面的提升主要源于標簽更新時確定的節(jié)點更新順序和節(jié)點的觀點值;社區(qū)發(fā)現(xiàn)質(zhì)量方面的提升主要源于適當?shù)墓?jié)點選擇方式和標簽更新時結(jié)合了觀點交互的機制,而傳統(tǒng)算法和ITSLR、WILPAS、TS三種改進算法僅是依據(jù)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)特征進行社區(qū)發(fā)現(xiàn),缺乏輿情網(wǎng)絡(luò)現(xiàn)實場景的考量,因此表現(xiàn)并不理想。其中由于ITSLR算法完全排除了算法隨機性的影響,所以算法的模塊度值、NMI和ARI值均不再變化。所提算法與ITSLR算法最主要的區(qū)別就在于所提算法在標簽傳播時引入了隨機性,因此算法并不穩(wěn)定,但是相較于傳統(tǒng)算法標簽傳播方式(k=1)在社區(qū)發(fā)現(xiàn)質(zhì)量上有所提升,避免了算法陷入局部最優(yōu),這里從圖5也可以看出。此外,k等于0.9時的社區(qū)發(fā)現(xiàn)質(zhì)量要稍好于k等于0.85時的社區(qū)發(fā)現(xiàn)質(zhì)量,但穩(wěn)定性方面要稍遜色于后者。
4.4 社區(qū)發(fā)現(xiàn)與觀點分布情況分析
為研究改進算法迭代結(jié)束時,輿情社交網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)結(jié)果與節(jié)點觀點真實分布情關(guān)系,針對每組參數(shù)k在相同條件下實驗一百次,統(tǒng)計出實驗結(jié)果最頻繁獲得的數(shù)據(jù),如圖7所示,其中φ表示社區(qū)發(fā)現(xiàn)的數(shù)量,δ表示觀點一致的社區(qū)數(shù)量,這里假設(shè)若兩個節(jié)點之間的觀點值不超過0.01,則認為它們屬于同一社區(qū),誤差棒表示社區(qū)數(shù)量的標準差。圖7顯示,隨著k的增加,社區(qū)在達到穩(wěn)定狀態(tài)后,社區(qū)數(shù)量呈減少趨勢。當k達到臨界值時,社區(qū)數(shù)量保持一致。此外,實驗結(jié)果還顯示,k值在達到0.8以后社區(qū)數(shù)量保持一致且不再變化,這表明在社區(qū)演化達到穩(wěn)定后,屬于同一社區(qū)的節(jié)點持有近乎相同的觀點。
這里選取了k值為0.85和0.9的社區(qū)發(fā)現(xiàn)結(jié)果如圖8(a)和(b)所示。其社區(qū)發(fā)現(xiàn)個數(shù)均為四個,其中,紫色、黃色、藍色、綠色社區(qū)(見電子版)分別表示主題①、②、③、④,具體來說:①指責此次暴力打人事件,要求嚴懲;②對警方通報中的受害者“輕傷”認定表示質(zhì)疑;③黑惡勢力活動頻繁,批評地方“保護傘”的存在;④女性安全成為焦點,討論女性如何能有效地自我保護。以圖8(b)為例,主題①約占網(wǎng)絡(luò)規(guī)模的29%,其社區(qū)觀點值穩(wěn)定在0.17附近;主題②約占網(wǎng)絡(luò)規(guī)模的24%,其社區(qū)觀點值穩(wěn)定在0.32附近;主題③約占網(wǎng)絡(luò)規(guī)模的26%,其社區(qū)觀點值穩(wěn)定在0.21附近;主題④約占網(wǎng)絡(luò)規(guī)模的21%,其社區(qū)觀點值穩(wěn)定在0.43附近。分析來看,網(wǎng)民主題比較尖銳且觀點呈現(xiàn)消極情緒,急需相關(guān)部門下場維護社會和網(wǎng)絡(luò)生態(tài)環(huán)境穩(wěn)定。針對本算法的實驗分析,進一步給出如下建議:
a)識別關(guān)鍵主題,把握輿情發(fā)展態(tài)勢。圖5實驗分析表明,綜合了適當?shù)墓?jié)點選擇比例和觀點交互機制的LPA算法相較于傳統(tǒng)算法可以顯著地提高主題社區(qū)發(fā)現(xiàn)的質(zhì)量,這有助于準確了解公眾關(guān)注的核心問題和觀點。政府和相關(guān)機構(gòu)應(yīng)密切關(guān)注這些關(guān)鍵主題,并針對性地制定引導策略。對于積極正面的主題社區(qū),可以通過增加相關(guān)信息的傳播力度來強化其影響力,鼓勵公眾參與討論,形成正面的社會氛圍。對于負面情緒較多的主題社區(qū),如指責暴力事件或批評現(xiàn)象,需要通過有效的溝通和引導,將公眾情緒轉(zhuǎn)換為建設(shè)性的意見,促進社會問題的解決。
b)減少信息不對稱,促進形成和諧的社會共識。輿情事件發(fā)生后,網(wǎng)民受非理性因素的影響,網(wǎng)絡(luò)空間中最初往往充斥著各種言論,通過對不同參數(shù)k的觀點分布情況的實驗分析可知,充分的交互是輿論達成共識的關(guān)鍵,要控制輿情朝向有利的方向發(fā)展就需要在尊重民意和信息自由的基礎(chǔ)上,確保信息的真實性和公正性,避免以訛傳訛。因此,應(yīng)建立官方核實渠道,通過權(quán)威機構(gòu)對輿論焦點或熱點問題進行及時、準確的信息發(fā)布與澄清,減少信息不對稱。例如,針對網(wǎng)民提到的如對警方通報的質(zhì)疑等負面情緒,相關(guān)部門應(yīng)及時作出回應(yīng),提供準確信息,減少誤解和猜疑,維護社會穩(wěn)定。
5 結(jié)束語
通過以上實驗分析可知,本算法能對輿情社交網(wǎng)絡(luò)中的主題社區(qū)進行有效發(fā)現(xiàn)并能夠反映出節(jié)點間的觀點分布情況,對于社交網(wǎng)絡(luò)輿情的治理能夠提供有力的參考,但還存在以下問題:a)算法無法識別出具有重疊的節(jié)點,即對于多個主題均具有討論的節(jié)點;b)在解決原算法容易陷入局部最優(yōu)問題的過程中,為了增強算法的探索性,引入了一定的隨機因素,導致本文算法的不穩(wěn)定性無法完全避免,但相較于原算法,本文算法的穩(wěn)定性依然得到了較大的提升,這里從圖6中也可以明顯看到。
參考文獻:
[1]祝華新, 潘宇峰, 廖燦亮. 2023年中國互聯(lián)網(wǎng)輿情分析報告 [M]// 李培林, 陳光金, 王春光, 等. 2024年中國社會形勢分析與預(yù)測. 北京: 社會科學文獻出版社, 2023: 262-277. (Zhu Huaxin, Pan Yufeng, Liao Canliang. China Internet public opinion analysis report 2023 [M]// Li Peilin, Chen Guangjin, Wang Chunguang, et al. Analysis and Forecast of China’s Social Situation in 2024. Beijing: Social Sciences Academic Press, 2023: 262-277.)
[2]Girvan M, Newman M E J. Community structure in social and biological networks [J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821-7826.
[3]Li Qingqing, Ma Huifang, Li Ju, et al. Attributed multi-query community search via random walk similarity [J]. Information Sciences, 2023, 631: 91-107.
[4]Agrawal S, Patel A. SAG cluster: an unsupervised graph clustering based on collaborative similarity for community detection in complex networks [J]. Physica A: Statistical Mechanics and its Applications, 2021, 563: 125459.
[5]Wu Chunrong, Peng Qinglan, Lee Jia, et al. Effective hierarchical clustering based on structural similarities in nearest neighbor graphs [J]. Knowledge-Based Systems, 2021, 228: 107295.
[6]Paul A, Dutta A. Community detection using local group assimilation [J]. Expert Systems with Applications, 2022, 206: 117794.
[7]劉井蓮, 王大玲, 馮時, 等. 一種基于模糊相似關(guān)系的局部社區(qū)發(fā)現(xiàn)方法 [J]. 軟件學報, 2020, 31(11): 3481-3491. (Liu Jinglian, Wang Daling, Feng Shi, et al. Local community discovery approach based on fuzzy similarity relation [J]. Journal of Software, 2020, 31(11): 3481-3491.)
[8]Jiang Wanchang, Zhang Xiaoxi, Zhu Weihua. Community detection using closeness similarity based on common neighbor node clustering entropy [J]. KSII Trans on Internet amp; Information Systems, 2022, 16(8):2587-2605.
[9]Sahu S, Rani T S. A neighbour-similarity based community discovery algorithm [J]. Expert Systems with Applications, 2022, 206: 117822.
[10]Newman M E J, Girvan M. Finding and evaluating community structure in networks [J]. Physical Review E, 2004, 69(2): 026113.
[11]Sobolevsky S, Belyi A. Graph neural network inspired algorithm for unsupervised network community detection [J]. Applied Network Science, 2022, 7(1):00500.
[12]Gibson R A, Mucha P J. Finite-state parameter space maps for pru-ning partitions in modularity-based community detection [J]. Scien-tific Reports, 2022, 12(1): 15928.
[13]Rustamaji H C, Kusuma W A, Nurdiati S, et al. Community detection with greedy modularity disassembly strategy [J]. Scientific Reports, 2024, 14(1): 4694.
[14]Shang Ronghua, Bai Jing, Jiao Lichen, et al. Community detection based on modularity and an improved genetic algorithm [J]. Physica A: Statistical Mechanics and its Applications, 2013, 392(5): 1215-1231.
[15]Raghavan U N, Albert R, Kumara S. Near linear time algorithm to detect community structures in large-scale networks [J]. Physical Review E, 2007, 76(3): 036106.
[16]劉鑄, 錢曉東. 基于改進LPA算法的去中心化電子商務(wù)網(wǎng)絡(luò)消費者類別劃分算法 [J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(10): 25-36. (Liu Zhu, Qian Xiaodong. A decentralized classification algorithm for online consumers based on improved LPA [J]. Data Analysis and Knowledge Discovery, 2023, 7(10): 25-36.)
[17]付立東, 劉佳會, 王秋紅. 基于密度峰值的標簽傳播社區(qū)發(fā)現(xiàn)算法 [J]. 計算機應(yīng)用研究, 2023, 40(8): 2323-2328. (Fu Lidong, Liu Jiahui, Wang Qiuhong. Label propagation community discovery algorithm based on density peak [J]. Application Research of Computers, 2023, 40(8): 2323-2328.)
[18]Liu Miaomiao, Yang Jinyun, Guo Jingfeng, et al. A label propagation community discovery algorithm combining seed node influence and neighborhood similarity [J]. Knowledge and Information Systems, 2024, 66(4): 2625-2649.
[19]Douadi A, Kamel N, Sais L. Label propagation algorithm for community discovery based on centrality and common neighbours [J]. The Journal of Supercomputing, 2024,80(8):11816-11842.
[20]高兵, 宋敏, 鄒啟杰, 等. 基于圖嵌入和多標簽傳播的重疊社區(qū)檢測算法 [J]. 計算機應(yīng)用研究, 2024, 41(5): 1428-1433. (Gao Bing, Song Min, Zou Qijie, et al. Overlapping community detection based on graph embedding and multi-label propagation algorithm [J]. Application Research of Computers, 2024, 41(5): 1428-1433.)
[21]Zhu Xiaojin, Ghahramani Z. Learning from labeled and unlabeled data with label propagation [EB/OL]. (2002). https://www.semanticscholar.org/paper/Learning-from-labeled-and-unlabeled-data-with-label-Zhu-Ghahramani/2a4ca461fa847e8433bab67e7bfe4620371c1-f77?p2df.
[22]辛宇, 謝志強, 楊靜. 基于話題概率模型的語義社區(qū)發(fā)現(xiàn)方法研究 [J]. 自動化學報, 2015, 41(10): 1693-1710. (Xin Yu, Xie Zhiqiang, Yang Jing. Semantic community detection research based on topic probability models [J]. Acta Automatica Sinica, 2015, 41(10): 1693-1710.)
[23]Yan Rong, Yuan Wei, Su Xiangdong, et al. FLPA: a fast label propagation algorithm for detecting overlapping community structure [J]. Expert Systems with Applications, 2023, 234: 120971.
[24]Le Q, Mikolov T. Distributed representations of sentences and documents [C]// Proc of International Conference on Machine Learning. 2014: 1188-1196.
[25]ubelj L, Bajec M. Robust network community detection using ba-lanced propagation [J]. The European Physical Journal B, 2011, 81: 353-362.
[26]蘇辀恒, 張敏, 王錦. 圖書情報領(lǐng)域情感研究現(xiàn)狀述評 [J]. 圖書情報工作, 2022, 66(6): 137-147. (Su Zhouheng, Zhang Min, Wang Jin. Review on the current status of emotion research in the field of library and information science [J]. Library and Information Service, 2022, 66(6): 137-147.)
[27]Liu Miaomiao, Yang Jinyun, Guo Jingfeng, et al. An improved two-stage label propagation algorithm based on LeaderRank [J]. PeerJ Computer Science, 2022, 8: 981.
[28]Arab M, Hasheminezhad M. Efficient community detection algorithm with label propagation using node importance and link weight [J]. International Journal of Advanced Computer Science and Applications, 2018, 9(5): 090566.
[29]You Xuemei, Ma Yinghong, Liu Zhiyuan. A three-stage algorithm on community detection in social networks [J]. Knowledge-Based Systems, 2020, 187: 104822.