徐 春, 王 昭, 孫 彬
(新疆財經(jīng)大學 信息管理學院, 烏魯木齊 830011)
在自媒體新技術日益進步發(fā)展的形勢下,網(wǎng)絡空間治理問題已受全球各地廣泛矚目.網(wǎng)民行為及心智傾向的鏈路預測問題成為推進網(wǎng)絡空間共同體建設的重要內(nèi)容.在網(wǎng)絡新技術形勢下,網(wǎng)民交互行為與心智傾向檢測涉及到網(wǎng)絡輿情鏈路預測、網(wǎng)民交互行為密度測算、網(wǎng)絡資源密度聚類和分布式架構等多個技術層面.當前輿情檢測及鏈路預測方案較多依賴“網(wǎng)絡流量異?!焙汀拔谋娟P鍵字比較”等檢測技術,檢測指標單一、適用面窄、效率不高,有預測滯后和結論不準確等缺陷.隨著大數(shù)據(jù)聚類和人工智能等技術的發(fā)展,網(wǎng)絡輿情形勢越來越復雜,傳統(tǒng)輿情監(jiān)管及網(wǎng)民行為傾向的預測方法呈現(xiàn)許多適用性不足的問題.
網(wǎng)絡輿情檢測與異常網(wǎng)絡活動、網(wǎng)絡資源聚類特征緊密關聯(lián).現(xiàn)有的典型研究有:1)基于輿情信息、輿情主體、輿情傳播、網(wǎng)民行為的網(wǎng)絡輿情演化機制.例如:基于輿情主題、輿情內(nèi)容、傳播過程、傳播媒介及輿情受眾等建構指標體系和輿情演化機制[1];基于在線檢測與自動識別實現(xiàn)網(wǎng)絡檢測的動態(tài)聚合機制[2];一種集識別、監(jiān)控、預測、評級、治理于一體的網(wǎng)絡集群行為的監(jiān)測及預警模型[3];利用LDA(latent dirichlet allocation)方法構建研究模型,挖掘出輿情傳播的主題結構、觀點脈絡和特征[4];在人群密集場景中,通過標注真實圖譜的方法,實現(xiàn)有效的網(wǎng)民密度監(jiān)督等[5].2)應用網(wǎng)絡輿情監(jiān)測來反映網(wǎng)民交互行為與心智變化的傾向,輿情密度聚類算法被廣泛應用.例如基于網(wǎng)絡活動敏感密度的輿情評價方法[6]、基于不同時空窗口對網(wǎng)民行為密度進行量化監(jiān)測[7]、網(wǎng)民復雜交互情境下的輿情博弈分析[8]等.3)利用大數(shù)據(jù)輿情聚類算法提取聚簇中心與聚類效率.例如基于K近鄰的多類合并密度峰值聚類算法[9]、基于平均差異度的輿情聚類算法與信息熵聚簇中心選取模型[10]、不設定聚類個數(shù)的大規(guī)模數(shù)據(jù)聚簇中心算法[11]和簡易提取密度峰值聚類中心算法[12]等.4)輿情聚類采用分布式架構進行研究.例如基于R+Hadoop的微信平臺輿情挖掘框架[13]、分布式K-menus聚類算法與Spark并行架構的大數(shù)據(jù)聚類[14]和分布式網(wǎng)絡協(xié)同的并行聚類模型[15]等.
通過上述梳理可知,網(wǎng)民行為及心智傾向監(jiān)測方法存在較大技術瓶頸,亟需改良輿情信息聚類算法.主要表現(xiàn)在:1)提升網(wǎng)民行為及心智傾向的鏈路檢測實效;2)提升輿情數(shù)據(jù)密度聚類的適用性和聚類質(zhì)量;3)進一步探究快速定位輿情聚簇中心的有效辦法,升級輿情網(wǎng)絡的鏈路檢測效率.
基于網(wǎng)民行為傾向的關鍵特征,設計傾向集指標,實現(xiàn)適用性輿情密度聚類架構,助力自媒體網(wǎng)絡的新觀念、新苗頭預測工作.
基于體驗式交互風格的自媒體空間,形成了眾多網(wǎng)民行為指標.在不同軟件空間和不同地域環(huán)境下,人們所關注的輿情指標差異性較大,許多網(wǎng)民行為指標未被充分重視.
1) 關鍵指標與檢測圖.抽取關鍵部分的輿情信息指標,形成輿情監(jiān)測的關鍵測算指標覆蓋.通過關鍵子集的飽和度檢測,把控全局輿情信息可靠度,圍繞網(wǎng)民行為傾向的核心指標,以具體的交互端“軟件應用操作”為“觀測節(jié)點”,以用戶行為異常傳播為“觀測邊”、以用戶流量為“觀測權重”構建網(wǎng)狀的輿情監(jiān)測有向圖.基于輿情監(jiān)測有向圖的鏈路檢測過程,要求約簡次要指標,形成關鍵要素子集,以提升鏈路預測的實效.
2) 傾向度.在網(wǎng)民行為傾向的有向圖中,基于多項關鍵性輿情監(jiān)測目標,構建傾向度參量.輿情信息集有向圖描述為T={Gij},其中,Gij表示第j個軟件應用系統(tǒng)的第i個網(wǎng)民行為(發(fā)帖、舉贊、時長、頻率和敏感文本等觀察指標).有向圖節(jié)點Gij正?;顒影l(fā)生量為vij,而實際發(fā)生量為uij,定義傾向度的計算公式為
(1)
一系列網(wǎng)民行為的傾向度描述構成網(wǎng)民心智傾向的有向圖描述.在網(wǎng)民行為有向圖中,將效能邊上的n種網(wǎng)絡行為進行傾向度的負載合計,即
(2)
式中,ci為流量權重系數(shù),∑ci=1.
3) 輿情分布.對一個具體軟件系統(tǒng)而言,聚合在該軟件系統(tǒng)上的網(wǎng)民,可以實現(xiàn)自由度較大的信息傳播活動.對第j種應用軟件系統(tǒng)而言,一條輿情傳播鏈路可表示為xj,該傳播鏈路相對于m種應用軟件系統(tǒng)的輿情分布.
對輿情信息有向圖中的任意兩個輿情鏈路(x,y),可以分別計算其輿情分布:P(x)、P(y)和P(x,y).基于輿情數(shù)據(jù)集T,可計算信息熵損失量為
(3)
參量SM能體現(xiàn)出兩條輿情鏈路聯(lián)合分布的關聯(lián)性.當鏈路x和鏈路y的輿情相互獨立(無相關性)時,SM將為0.使用SM能高效估計鏈路x和鏈路y之間熵值差異.根據(jù)最大熵原理啟示,一個網(wǎng)絡節(jié)點上各種應用軟件系統(tǒng)的輿情傾向熵值較大,則標志著各種軟件系統(tǒng)之間的傳播狀態(tài)接近,發(fā)生群體觀念極化的可能性較低;相反,各種軟件系統(tǒng)之間的傾向熵值較小,標志著各個鏈路的行為觀念差異較大,輿情異常傳播(群體極化)的可能較大.使用“輿情傾向熵”能分析出輿情鏈路的群體觀念差異性,用dxy表示網(wǎng)民心智觀念的傾向距離為
dxy=|SMT-{y}(x,y)-SMT-{x}(x,y)|
(4)
式中:T-{y}為去除鏈路y后的輿情數(shù)據(jù)集;T-{x}為去除鏈路x后的輿情數(shù)據(jù)集.
4) 輿情密度.在自媒體網(wǎng)絡環(huán)境下,網(wǎng)民行為數(shù)據(jù)稀疏性較大,需要約簡數(shù)據(jù)集.一方面,通過密度指標來約簡輿情監(jiān)測的指標數(shù)量;另一方面,通過密度來保障輿情動向的全覆蓋,以便捕捉量小而行為特征典型的輿情監(jiān)測指標.設傾向觀念距離的閾值參量為dc,統(tǒng)計輿情數(shù)據(jù)集中超越預定閾值的鏈路數(shù)量.定義輿情鏈路的密度ρx為
(5)
(6)
式中:k為輿情鏈路總數(shù);E為判別函數(shù).輿情密度ρx表征與鏈路x同類的鏈路數(shù)量,密度值越大,所聚集的鏈路數(shù)就越多.
5) 聚簇中心.具有密度極大值的節(jié)點,即為該類的聚簇中心.在密度聚類過程中,閾值參量dc取值過小,會造成聚簇中心太多的情況;閾值參量dc過大,會造成中心捕捉失敗、聚類失敗.針對閾值參量dc往往需要較多的實驗來確定的情況,通過對2 427條輿情鏈路的密度測算,對已有鏈路的傾向距離升序排列,結果如圖1所示.觀察適用聚簇中心所處的閾值參量定位發(fā)現(xiàn)dc取6.6%~6.7%位序處所對應的距離數(shù)值、準確率指數(shù)和蘭德指數(shù)均達到較好的狀態(tài),準確率達到94.2%.
圖1 距離參量效用Fig.1 Distance parameter utility
6) 疑似強度與權值參量.為快速完成輿情聚類,區(qū)分聚簇中心鏈路與一般輿情鏈路的密度差別,構建疑似強度參量.如果一個輿情鏈路的密度高于預定鏈路的密度,則認為聚簇中心的疑似強度較大.定義δx為聚簇中心疑似強度,即
(7)
式中,參量max(ρ)為局域的密度極值.
聚簇中心疑似強度標識出一個輿情鏈路x與其他多條輿情鏈路y的密度差距.通過對1 948條交互軟件鏈路進行嫌疑強度比較,結果如圖2所示.圖2的結果表明,δx具有較好的聚簇中心(局部中心)甄別作用.
為進一步提升聚簇中心的甄別效率,設置輿情鏈路的權值參量為
ξx=ρxδx
(8)
通過對1 846條鏈路數(shù)據(jù)實測發(fā)現(xiàn)權值參量ξx具有高效甄別聚簇中心的作用,權值參量曲線如圖3所示.
圖2 密度與嫌疑度分布關系Fig.2 Distribution relationship between density and suspicion
圖3 權值參量曲線Fig.3 Weight parameter curve
在自媒體網(wǎng)絡環(huán)境下,網(wǎng)民行為傾向數(shù)據(jù)集規(guī)模龐大,需要構建分布式聚類架構,克服單機聚類的困境.分布式架構的關鍵問題是將龐大數(shù)據(jù)計算任務負載均衡地劃分為并行子任務.通常情況下,需要實現(xiàn)合理的數(shù)據(jù)塊分布,基于數(shù)據(jù)耦合,保障各個數(shù)據(jù)塊的負載均衡性,以便發(fā)揮出分布式計算的優(yōu)勢.面對網(wǎng)民行為傾向數(shù)據(jù)集,分布式聚類架構包括數(shù)據(jù)塊劃分、耦合設計和聚簇流存儲等3個主要部分.
1) 數(shù)據(jù)塊劃分.圍繞網(wǎng)絡流量特征,可以把網(wǎng)民行為數(shù)據(jù)集T分解為N個子集si,并要求每個數(shù)據(jù)塊子集消耗的網(wǎng)絡傳輸流量基本相當,以均衡負載各個子集的計算任務.在數(shù)據(jù)塊劃分中,每個數(shù)據(jù)項需要保持獨立性,即任意一個數(shù)據(jù)鏈路項只能屬于1個實際的數(shù)據(jù)塊.
2) 耦合設計.每個計算單元均由兩個“數(shù)據(jù)塊”耦合而成,數(shù)據(jù)塊Si和Sj耦合成計算單元Wij,記為Wij=〈Si,Sj〉.將計算單元的組合映射過程和聚簇中心參量的匯聚過程組合,形成分布式MapReduce架構,數(shù)據(jù)塊耦合過程如圖4所示.
分布式耦合計算過程為:將每個計算單元Wij優(yōu)化布局到不同服務器Map,并完成所屬塊內(nèi)的密度聚簇任務;基于計算單元Wij獲得本域輿情密度序列ρij和疑似中心強度序列δij;用f(Si)流存儲匯集計算單元內(nèi)數(shù)據(jù)塊Si的各個聚簇結果和權值參量序列ξx;將各個數(shù)據(jù)塊Si的聚簇中心參量ξx整合,形成全局性密度聚簇中心的權值參量序列;最后依據(jù)聚簇中心權值參量序列,實現(xiàn)網(wǎng)民行為傾向的密度聚類.
圖4 數(shù)據(jù)塊耦合Fig.4 Data block coupling process
3) 聚簇流存儲.為提高聚簇運算實際效能,設計聚簇流存儲機制,以降低網(wǎng)絡傳輸?shù)拈_銷.在計算單元完成各自的聚簇中心鑒別任務后,將各個數(shù)據(jù)塊所涉及的聚簇參量進行存儲地址規(guī)劃,有序地實現(xiàn)高效率全局性匯聚.聚簇流存儲以鍵值對〈Key,Value〉結構來快速檢索聚簇節(jié)點密度序列ρx和疑似中心強度序列δx,其中,Key是計算單元Wij的聚簇地址Idij,Value是對應的權值參量ξx.計算單元聚簇地址為
(9)
式中:i和j分別為Wij耦合數(shù)據(jù)塊編號(i 依據(jù)聚簇流存儲結構,能高效完成各個數(shù)據(jù)塊的權值參量序列ξx的全局性合并,為輿情數(shù)據(jù)的高效歸集奠定基礎. 本文利用虛擬網(wǎng)民行為來仿真信息傳播鏈路,實現(xiàn)鏈路預測效用.鏈路預測的實際目標就是鑒別輿情新動向和新苗頭.仿真網(wǎng)民行為、仿真輿情鏈路的主要過程是:在某些網(wǎng)民活動相對集中的軟件系統(tǒng)中,提取典型網(wǎng)民行為(或網(wǎng)絡節(jié)點),加載到傾向密度較低的輿情鏈路中,估算輿情密度的變化情況;或者虛擬構建一種軟件交互場景,吸引特殊嗜好的網(wǎng)民進行蜜罐監(jiān)護,測試新輿情類別產(chǎn)生的可能性.由此,通過虛擬輿情鏈路或虛擬網(wǎng)民行為仿真出新輿情事件的發(fā)生過程,為面對輿情新動向、新苗頭及早制定預案. 在自媒體網(wǎng)絡環(huán)境中,網(wǎng)民行為復雜、輿情鏈路多變.以網(wǎng)絡社區(qū)個體網(wǎng)民為調(diào)查對象,采集相關性網(wǎng)民活動內(nèi)容,包括微信交互、今日頭條、QQ群、微博交互、朋友圈、網(wǎng)站貼吧和熱文評論等交互端活動,并涉及異常流量、評價、敏感文本、發(fā)帖、跟帖、贊和刪帖等行為特征.在輿情網(wǎng)絡有向圖中,形成200多萬個網(wǎng)民活動節(jié)點.為保障輿情密度聚類運算需要,集群服務器部署Hadoop 2.7.18和Spark 2.11.8系統(tǒng),通過Standalone配置,實現(xiàn)1個主節(jié)點和9個從節(jié)點的集群架構,共為集群服務器分配720 GB內(nèi)存和1 000 Mb/s連接速度.追蹤調(diào)查網(wǎng)民52 685人,形成大規(guī)模的網(wǎng)民行為與心智傾向數(shù)據(jù)集,完成分布式網(wǎng)民行為與心智傾向的分布式密度聚類與仿真實驗分析. 1) 分布式聚類效率分析.實驗中,按照可信傳播流量的硬件條件,將網(wǎng)民數(shù)據(jù)集劃分成4~10個數(shù)據(jù)塊進行網(wǎng)民行為傾向的密度聚類.通過權值參量強化聚簇實效,獲得輿情中心節(jié)點26~233個.對比不同聚簇中心數(shù)的單機聚類的運算效果,分布式算法的效率明顯升高,結果對比如表1所示.當輿情數(shù)據(jù)集不斷擴大時,分布式運算的優(yōu)勢越顯著,分布式密度聚類的準確度也越高,而單機聚類的劣勢比較明顯. 2) 輿情鏈路聚類效果分析.在網(wǎng)民行為傾向的聚類分析過程中,結合仿真性鏈路檢測技術,檢驗預測輿情新動向和新苗頭.在10個數(shù)據(jù)塊的聚類規(guī)模情景下,面對網(wǎng)民自媒體交互行為,檢測出輿情鏈路5.2萬多條.虛擬增加或刪除部分網(wǎng)民行為和部分網(wǎng)絡節(jié)點,輿情聚類結果變化顯著,聚類結果如表2所示. 通過分布式密度聚類計算和虛擬仿真過程,目標網(wǎng)絡的輿情動向得到掌控.測試結果表明:①輿情鏈路數(shù)量與聚簇中心數(shù)量沒有線性關系,仿真網(wǎng)絡新節(jié)點或網(wǎng)民交互行為有利于輿情新動向、新苗頭的發(fā)現(xiàn).②對于自媒體下的輿情鏈路而言,網(wǎng)民行為傾向的密度極值越大,發(fā)生群體觀念極化的可能性越大,產(chǎn)生負向消極影響的可能性也越大.③輿情鏈路數(shù)量較少的網(wǎng)絡,不意味著群體觀念極化的可能性低.④潛在的輿情新苗頭、新動向數(shù)量與聚簇的極大密度類值有近似正向線性關系. 3) 運算效能比較.將聚類準確度限定在85%以上的水平,比較分布式密度聚類、單機密度聚類、DisAP近鄰傳播聚類和PK-Means聚類等算法的實效,效能對比情況如圖5所示.總體上看,分布式架構的網(wǎng)民行為傾向密度聚類,對網(wǎng)民輿情數(shù)據(jù)集密度聚類的適用性最好. 隨著輿情數(shù)據(jù)集的擴大,各種聚類算法耗用時間均呈現(xiàn)較快攀升態(tài)勢.在限定1萬個節(jié)點的規(guī)模下,分布式架構與單機架構的耗用時間大體相當;在限定2萬個節(jié)點的規(guī)模條件下,分布式架構的耗用時間是單機架構的1/3;在限定2.5萬個節(jié)點的規(guī)模條件下,分布式架構的耗用時間增加量不大,但單機架構耗用時間遠遠超出適用的范圍.由于PK-Means聚類算法迭代運算特點,在節(jié)點規(guī)模超過2萬個以上時,才能呈現(xiàn)出分布式的優(yōu)勢,而DisAP聚類算法在節(jié)點規(guī)模超過2萬個以上時,已經(jīng)不具備適用性,耗時超出可用范圍.在大規(guī)模數(shù)據(jù)集情境下,分布式密度聚類的實效強于PK-Means聚類.單機密度算法及傳統(tǒng)DisAP聚類算法均不適用于大規(guī)模數(shù)據(jù)集的聚類任務.分布式密度聚類算法的優(yōu)勢在于高效提取聚簇中心,而PK-Means聚類算法的優(yōu)勢是數(shù)據(jù)歸集,有充分融合的優(yōu)化潛力. 分布式密度聚類架構具有時耗優(yōu)化的優(yōu)勢,能保障自媒體網(wǎng)絡下的網(wǎng)民行為與心智傾向的大規(guī)模聚類和輿情鏈路預測任務,能發(fā)現(xiàn)潛在的輿情新動向和新苗頭.與傳統(tǒng)聚類方法相比,基于網(wǎng)民行為與心智傾向的分布式密集聚類算法表現(xiàn)出提取聚簇中心快速和模擬仿真節(jié)點靈活等優(yōu)點.面對網(wǎng)民行為傾向性的分布式密度聚類和針對網(wǎng)民行為的仿真實驗,豐富了自媒體網(wǎng)絡情境下輿情鏈路預測技術的探究視角.1.3 鏈路檢測
2 實踐結果分析
3 結 論