• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于組話題模型的政務(wù)微博話題預(yù)測

      2021-05-20 15:35:09李文黃克文
      荊楚理工學(xué)院學(xué)報 2021年6期
      關(guān)鍵詞:社會網(wǎng)絡(luò)微博

      李文 黃克文

      摘要:為了提高政府部門應(yīng)對網(wǎng)絡(luò)輿情的處理效率,采用一種產(chǎn)生式的組話題模型對微博政務(wù)話題進(jìn)行挖掘與分析。組話題模型對每個話題產(chǎn)生一個多項式分布,對相似性質(zhì)事件進(jìn)行合并生成相關(guān)矩陣。由于每個實體可以屬于多個話題,并且網(wǎng)絡(luò)規(guī)模大,用Gibbs采樣對提出的模型進(jìn)行了驗證,并與其他話題預(yù)測模型進(jìn)行對比分析。實驗結(jié)果表明:本文提出的組話題模型不僅執(zhí)行時間短、效率高,而且具有很高的準(zhǔn)確率。

      關(guān)鍵詞:微博;話題模型;社會網(wǎng)絡(luò)

      中圖分類號: TP393? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號:1008-4657(2021)06-0089-05

      引言

      微博作為當(dāng)前最熱門的新媒體之一,其影響力已經(jīng)遠(yuǎn)遠(yuǎn)超過電視,報紙等傳統(tǒng)媒體。在微博中,每個注冊用戶都可以談?wù)撟约焊信d趣的話題,這種交互是自發(fā)的,往往能表達(dá)發(fā)言者的真實情感。隨著微博的普及和應(yīng)用,越來越多的用戶已經(jīng)把微博當(dāng)成生活中必不可少的一部分。在微博的注冊用戶中,不僅有影視明星、商人、普通群眾、也有國家的公務(wù)人員或機(jī)構(gòu)。這些代表國家權(quán)力的公務(wù)人員或機(jī)構(gòu)通過微博傳達(dá)黨和政府的聲音及時公布相關(guān)數(shù)據(jù)和事件,同時也可以傾聽人民心聲訴求排解與政府管理有關(guān)的實際問題。然而,在微博中,不僅有健康積極的內(nèi)容,也充斥著損害黨和國家形象的言論。因此,及時的發(fā)現(xiàn)這些損害黨和國家形象的話題,并加以監(jiān)督和引導(dǎo)對維護(hù)社會的穩(wěn)定有著重要的作用。隨著數(shù)據(jù)量的激增,傳統(tǒng)的話題預(yù)測模型已不適用,如何有效挖掘和分析微博政務(wù)話題,預(yù)測輿情趨勢進(jìn)而提前采取防治措施已成為相關(guān)管理部門亟待解決的問題。

      1? ? ? ? 相關(guān)工作

      向量空間模型是最早的話題挖掘與分析的工具。在向量空間中,通過尋找單詞同時出現(xiàn)的模式,例如TF或TF-IDF,可以將同時出現(xiàn)的相關(guān)單詞構(gòu)成話題模型?;趩卧~的頻率,Hearst? M[ 1 ]通過計算兩個單詞塊的余弦相似性來區(qū)分不同的話題。Choi? F[ 2 ]通過矩陣的秩的模式將不同的單詞進(jìn)行聚類,從而進(jìn)行話題的區(qū)分。Xiang? ?J等[ 3 ]對重復(fù)的單詞進(jìn)行加權(quán),然后應(yīng)用詞匯鏈對話題進(jìn)行分析。Utiyama? ?M等[ 4 ]提出一種概率話題分析方法,該方法應(yīng)用動態(tài)規(guī)劃以最小的代價對話題進(jìn)行區(qū)分。此外,Malioutov? ?I等[ 5 ]將話題區(qū)分轉(zhuǎn)換成圖的分割問題。話題模型的另一個研究方向是應(yīng)用產(chǎn)生式對話題進(jìn)行建模,例如LDA[ 6 ]模型。PLDA[ 7 ]是一種無監(jiān)督的概率話題建模方法。該模型對LDA模型進(jìn)行了擴(kuò)展,將話題分布表示為馬爾科夫結(jié)構(gòu),該模型將多個LDA模型表示成一個馬爾科夫鏈。在PLDA中,Yi W等[ 7 ]人將每個文本信息附加了一個二元話題轉(zhuǎn)換變量。其中第j個文本的二元轉(zhuǎn)換變量表示該文本是否與第j-1個文本共享相同的話題分布。與PLDA相似,Nguyen? V等[ 8 ]也將話題分布表示成一個馬爾科夫結(jié)構(gòu),差別在于SITS中的每一個話題為HDP-LDA[ 9 ]。此外SITS認(rèn)為每個文本消息都有一個作者,并且這個作者與二元轉(zhuǎn)換變量相關(guān)。Rubin? ?T? ?N等[ 10 ]認(rèn)為一個數(shù)據(jù)集中的文檔可能不共享相同的話題,認(rèn)為每個單詞片段來自于單獨的話題,并應(yīng)用多項式語言模型對文檔中的詞匯進(jìn)行建模。在此基礎(chǔ)上,Chen? ?Z等[ 11 ]又進(jìn)行了擴(kuò)展,認(rèn)為每個單詞片段即可能來自于一個話題,也可能來自于這個話題的父話題。此外,Lee? ?S等[ 12 ]、Pan? ?S等[ 13 ]、Riedl? ?M等[ 14 ]將話題模型的輸出作為輸入來進(jìn)行話題的進(jìn)一步分析。然而,當(dāng)前話題模型大多存在預(yù)測精度不高,對大規(guī)模數(shù)據(jù)處理效率低,時變性不強(qiáng)等缺陷[ 15 ]。由于微博中含有大量的話題,政務(wù)話題往往會湮沒于海量的信息之中。組話題模型為大數(shù)據(jù)時代網(wǎng)絡(luò)數(shù)據(jù)挖掘與分析提供了新的思路,本文采用組話題模型對微博中的政務(wù)話題挖掘進(jìn)行研究,對每一個指定的話題產(chǎn)生一個多項式分布,生成相關(guān)矩陣,并應(yīng)用Gibbs采樣進(jìn)行分析。

      2? ? ? ? 組話題模型

      微博文本具有文本短,信息量大,用詞不規(guī)范等特點。在微博中,文本是由一個個詞匯實體連接而成的。在實體的識別中,先去掉“#”格式信息,“@”格式信息以及虛詞。對于用戶用詞的不規(guī)范,先通過余弦相似性識別出詞匯及其縮寫形式并看做一個實體,對于近義詞則采用手工識別出實體。

      組話題模型通過實體之間的關(guān)系將實體進(jìn)行聚類分析。實體之間的關(guān)系可以是有向的,也可以是無向的,還可以包含多個屬性。本文關(guān)注的是實體間的無向關(guān)系,并且關(guān)系之間的屬性是若干個詞匯,組話題模型的結(jié)構(gòu)如圖1。

      在實體間的每個關(guān)系的產(chǎn)生過程中,該模型首先產(chǎn)生話題t,然后產(chǎn)生所有描述該話題的詞匯。其中每個詞匯都是通過多項式離散分布?覬t獨立產(chǎn)生的,并且是和話題t相關(guān)的。在網(wǎng)絡(luò)的關(guān)系結(jié)構(gòu)的產(chǎn)生過程中,對于每個話題t,從特定的多項式分布θt中產(chǎn)生一個組gst,并將之分配該話題。在給事件進(jìn)行了組分配后,可以得到矩陣V(b),其中每個元素V■■代表了實體i和j是否屬于相同的事件b。矩陣V中的每個元素都來自于二項分布γ。如果認(rèn)為所有的事件都反應(yīng)一個話題,那么該模型可以簡化為隨機(jī)塊結(jié)構(gòu)模型[ 16 ]。為了和塊模型相匹配,每個事件定義為一個關(guān)系。例如在該事件中,兩個實體的話題組是否相同。然而,在本文的模型中,一個關(guān)系可以包含多個屬性(每個事件是由多個詞匯描述的),并且是多項式離散分布生成的。當(dāng)考慮多個話題存在的情況下,數(shù)據(jù)集被劃分為T個子塊,每個子塊與相應(yīng)的話題對應(yīng)。組話題模型的相關(guān)參數(shù)見表1。

      該模型應(yīng)用實體間的關(guān)系及關(guān)系的屬性來挖掘話題敏感的組成員。由于微博網(wǎng)絡(luò)中往往含有大量的用戶及事件,因此本文采用Gibbs采樣分析。在模型中,可以將參數(shù)θ,?覬和γ結(jié)合起來降低不確定性,這樣做同樣可以簡化Gibbs采樣對參數(shù)θ,?覬和γ的確定。于是組話題模型就是求出下面兩個條件概率:

      其中,ntg表示在話題t中組g的實體個數(shù),m表示組g和h是否屬于同一個事件b(k=1或k=2),I(tb=t)是一個指示函數(shù),d表示m中實體s被分到組gst中的部分(如果I(tb=t)=0,那么忽略與事件b相關(guān)的部分)。

      其中,e表示單詞v在事件b中出現(xiàn)的次數(shù)。m是一個隨著tb的賦值而變化的變量,因為tb影響著事件b中的所有實體的組分配。

      3? ?實驗分析

      實驗采集的政務(wù)數(shù)據(jù)來源于新浪微博公開數(shù)據(jù),包含330 657個用戶構(gòu)成的網(wǎng)絡(luò)及用戶的發(fā)言內(nèi)容。我們對網(wǎng)民關(guān)注度比較高的“新冠疫情”“鐵鏈女”“離婚冷靜期”教育業(yè)“雙減”政策“二胎政策”等事件的發(fā)言進(jìn)行了收集,并將這些事件作為數(shù)據(jù)集的真實話題。同時,對參與這些話題討論的用戶的其它發(fā)言也進(jìn)行了收集。本次實驗的硬件測試環(huán)境采用Microsoft Windows10操作系統(tǒng),CPU為Inter Core i9 12900k,3.6GHz,內(nèi)存為16GB,編程語言為MATLAB R2020a。

      實驗采用話題檢測的缺失概率PMiss,錯誤提示概率 PFA以及二者的組合CDet三個指標(biāo)來評價話題挖掘的性能。CDet用如下公式表示:

      在參數(shù)的選擇上,令CMiss = 1.0,CFA = 0.1, Ptarget = 0.02,進(jìn)一步對CDet進(jìn)行規(guī)范化,可得

      將本文提出的組話題模型表示為GM,將GM模型與主流的LDA模型[ 17 ]和Kmeans模型[ 18 ]的話題預(yù)測結(jié)果進(jìn)行對比。從圖2的預(yù)測結(jié)果來看,本研究提出的GM模型能對微博政務(wù)熱點話題進(jìn)行刻畫,預(yù)測誤差較小,預(yù)測結(jié)果可為相關(guān)管理者把握網(wǎng)絡(luò)輿情走勢,提前采取措施提供決策依據(jù)。對比了三種算法在缺失概率、錯誤提示率及CDet,結(jié)果如圖3所示,LDA算法在新浪數(shù)據(jù)集上的話題預(yù)測性能優(yōu)于Kmeans算法,而GM算法的話題預(yù)測性能要高于LDA和Kmeans算法。

      對比了三種算法在這5個不同大小(依次遞增)數(shù)據(jù)集下的執(zhí)行效率。不同算法運行時間對比如圖4所示,從圖4所示的結(jié)果中可以看出,三種算法在小數(shù)據(jù)集上所需要的執(zhí)行時間較短,并且差異不大,隨著測試機(jī)的增大,GM算法所需要的執(zhí)行效率要明顯優(yōu)于其它兩種算法。這是因為GM模型對原始數(shù)據(jù)進(jìn)行了分組,將相似事件分配到同一個矩陣進(jìn)行計算,大大縮小了計算時間。從上述結(jié)果可知,本文提出的組話題模型在保持較高的話題預(yù)測準(zhǔn)確性的同時具有較高的執(zhí)行效率,更適合大規(guī)模數(shù)據(jù)的話題挖掘和分析。

      4? ? 結(jié)論

      受數(shù)據(jù)量激增及時變性強(qiáng)等因素作用,傳統(tǒng)話題預(yù)測模型不能滿足當(dāng)前微博政務(wù)話題預(yù)測的需要。為此,提出一種基于組話題模型(GM)的數(shù)據(jù)挖掘技術(shù),對每一個指定的話題產(chǎn)生一個多項式分布并生成相關(guān)矩陣,應(yīng)用Gibbs采樣進(jìn)行分析,并與LDA模型和Kmeans模型進(jìn)行對比,實驗結(jié)果表明GM模型具有更好的預(yù)測精度,更優(yōu)的缺失檢測概率及錯誤提示率,同時由于其采用相似分組模式,當(dāng)數(shù)據(jù)集較大時具有更高的運算效率,能更好的服務(wù)于新時代網(wǎng)絡(luò)輿情預(yù)測。

      參考文獻(xiàn):

      [1] Hearst M. Texttiling: Segmenting text into multi-paragraph subtopic passage[J]. Computational linguistics,1997,23(1): 33-64.

      [2] Choi F. Advances in domain independent linear text segmentation[C]. Proceedings of the 1st North American chapter of the Association for Computational Linguistics conference. Seattle: Association for Computational Linguistics, 2000: 26-33.

      [3] Xiang J,Zha H. Domain-independent text segmentation using anisotropic diffusion and dynamic programming[J]. ACM? Sigir Forum,2003: 322-329.

      [4] Utiyama M, Isahara H. A statistical model for domain-independent text segmentation[C]. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2001: 499-506.

      [5] Malioutov I, Barzilay R. Minimum cut model for spoken lecture segmentation[C]. Proceedings of the 21st International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Seattle: Association for Computational Linguistics,2006: 25-32.

      [6] Lienou M, Maitre H, Datcu M. Semantic annotation of satellite images using latent dirichlet allocation[J]. IEEE Geoscience & Remote Sensing Letters,2010,7(1):28-32.

      [7] Yi W,Bai H, Stanton M,et al. PLDA: Parallel latent dirichlet allocation for Large-scale applications[C]. Proceedings of the 5th International Conference on Algorithmic Aspects in Information and Management. Berlin-Heidelberg: Springer,1970.

      [8] Nguyen V, Boydgraber J,Resnik P. SITS: A hierarchical nonparametric model using speaker identity for topic segmentation in multiparty conversations[C]. Meeting of the Association for Computational Linguistics: Long Papers. Seattle: Association for Computational Linguistics,2012.

      [9] Wang E,Silva J,Willett R,et al. Dynamic relational topic model for social network analysis with noisy links[C]. Statistical Signal Processing Workshop. Piscataway: IEEE, 2011.

      [10] Rubin T N, Chambers A, Smyth P, et al. Statistical topic models for multi-label document classification[J]. Machine Learning,2012,88(1-2):157-208.

      [11] Chen Z, Mukherjee A, Liu B, et al. Leveraging multi-domain prior knowledge in topic models[C]. Proceedings of the Twenty-Third international joint conference on Artificial Intelligence. Palo Alto: AAAI Press, 2013: 2 071-2 077.

      [12] Lee S,Belkasim S, Zhang Y. Multi-document text summarization using topic model and fuzzy logic[C]. Machine Learning and Data Mining in Pattern Recognition. Berlin-Heidelberg: Springer,2013: 159-168.

      [13] Pan S , Zhou M X,Song Y,et al. Optimizing temporal topic segmentation for intelligent text visualization[C]. International Conference on Intelligent User Interfaces. New York: ACM,2013.

      [14] Riedl M, Biemann C. Topictiling: A text segmentation algorithm based on LDA[C]. Proceedings of ACL 2012 Student Research Workshop. Seattle: Association for Computational Linguistics,2012: 37-42.

      [15] 夏一雪.網(wǎng)絡(luò)話題傳播規(guī)律建模與預(yù)測問題研究[J].現(xiàn)代情報,2019,39(4):3-12.

      [16] Du L, Buntine W, Johnson M. Topic segmentation with a structured topic model[C]. Proceedings of NAACL-HLT. Atlanta: Naacl. 2013: 190-200.

      [17] 許睿,龍丹,劉佳,等.基于LDA模型的電力投訴文本熱點話題識別[J].云南大學(xué)學(xué)報(自然科學(xué)版),2020,42(S2):26-31.

      [18] 郭順利,步輝,何宏國.基于G-Kmeans的網(wǎng)絡(luò)問答社區(qū)話題用戶信息需求聚合方法及應(yīng)用研究[J].情報理論與實踐,2022(4):1-16.

      [責(zé)任編輯:鄭筆耕]

      收稿日期:2021-10-08

      基金項目:廣東省科技廳科學(xué)研究項目(NO.163-2019-XMZC-0009-02-0066)

      作者簡介:李文(1963-),男,廣西欽州人,廣東科貿(mào)職業(yè)學(xué)院副教授,碩士。主要研究方向:網(wǎng)絡(luò)安全、數(shù)據(jù)庫。

      猜你喜歡
      社會網(wǎng)絡(luò)微博
      青少年數(shù)字素養(yǎng)的社會與文化內(nèi)涵及其教育啟示
      中國“面子”文化情境下領(lǐng)導(dǎo)政治技能對團(tuán)隊領(lǐng)導(dǎo)社會網(wǎng)絡(luò)的作用機(jī)制研究
      預(yù)測(2016年3期)2016-12-29 18:34:36
      城市新移民社會適應(yīng)與社會網(wǎng)絡(luò)協(xié)同模擬框架研究
      大數(shù)據(jù)時代社會區(qū)域創(chuàng)新網(wǎng)絡(luò)學(xué)習(xí)與能力建構(gòu)
      旅游目的地合作中網(wǎng)絡(luò)治理模式研究
      “985工程”高校圖書館閱讀推廣的調(diào)查與分析
      中國市場(2016年38期)2016-11-15 23:47:47
      事實與流言的博弈
      人間(2016年26期)2016-11-03 18:19:04
      基于微博營銷的企業(yè)推廣模式研究
      企業(yè)管理中社會網(wǎng)絡(luò)的運用及相關(guān)問題闡述
      中小企業(yè)金融支持路徑的研究
      吴堡县| 隆安县| 溧阳市| 嘉黎县| 昌黎县| 凌源市| 东城区| 常熟市| 饶河县| 洪江市| 临朐县| 宁城县| 拜泉县| 弥渡县| 松溪县| 京山县| 清远市| 镇江市| 宁国市| 根河市| 萝北县| 崇左市| 浏阳市| 阿巴嘎旗| 江孜县| 来安县| 开平市| 孝感市| 宾阳县| 茌平县| 霍林郭勒市| 新乡市| 钦州市| 广宁县| 阿合奇县| 昆山市| 教育| 临沧市| 惠来县| 孝义市| 天峨县|