摘 要:微博因其信息傳播快、交互性強(qiáng)成為公眾參與民主政治討論的新渠道;各級(jí)政府紛紛通過(guò)開設(shè)政務(wù)微博加深與民眾之間的交流。對(duì)政務(wù)微博的評(píng)論數(shù)據(jù)進(jìn)行情感分析,及時(shí)掌握公眾對(duì)熱點(diǎn)輿情事件的情感傾向,能提升政民交互水平,也能在互聯(lián)網(wǎng)環(huán)境下有效改善政府服務(wù)質(zhì)量。在Word2vec構(gòu)建詞向量的基礎(chǔ)上,運(yùn)用SVM和RF對(duì)文本進(jìn)行情感分析。實(shí)驗(yàn)表明,SVM在進(jìn)行政務(wù)微博評(píng)論分類具有更高的分類效能。
關(guān)鍵詞:機(jī)器學(xué)習(xí);政務(wù)微博;情感分析
中圖分類號(hào):D9 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2020.11.079
0 引言
政務(wù)微博是指政府在互聯(lián)網(wǎng)上開設(shè)的用于開展政務(wù)活動(dòng)的微博。第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中數(shù)據(jù)表明:截至2018年12月中國(guó)網(wǎng)民規(guī)模達(dá)8.29億,互聯(lián)網(wǎng)普及率達(dá)到59.6%,3.94億網(wǎng)民使用線上政務(wù)辦事,占整體網(wǎng)民的47.5%。網(wǎng)絡(luò)問(wèn)政時(shí)代下,政務(wù)微博因其實(shí)時(shí)性、便捷性、交互性等特點(diǎn),成為政務(wù)機(jī)構(gòu)實(shí)踐政務(wù)管理的主要媒介和公眾獲取信息和表達(dá)意見的重要平臺(tái)。
通過(guò)對(duì)政務(wù)微博的評(píng)論數(shù)據(jù)進(jìn)行情感分析,了解公眾在熱點(diǎn)話題中的情感傾向,掌握公眾觀點(diǎn)和微博輿論的發(fā)展趨勢(shì),有利于提升政民交互水平。本文研究不同的分類器對(duì)公眾參與政務(wù)微博的在線評(píng)論文本情感分類的準(zhǔn)確率,以便政務(wù)微博在熱點(diǎn)輿情事件中掌握公眾的情感傾向。
1 相關(guān)技術(shù)
1.1 Word2vec
利用Word2vec分布式的詞向量訓(xùn)練方法,將詞匯以向量形式展現(xiàn)出來(lái),從而達(dá)到將目標(biāo)文本用于向量運(yùn)算的目的,然后更好地完成情感分析的任務(wù)。
1.2 SVM
支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,廣泛應(yīng)用于許多領(lǐng)域?;赟VM的分類方法主要用于二元模式分類問(wèn)題。經(jīng)SVM分類后,屬于不同類數(shù)據(jù)集中的點(diǎn)正好位于一個(gè)最優(yōu)超平面的不同側(cè)面,而且訓(xùn)練集中的正例點(diǎn)和負(fù)例點(diǎn)間的邊距(margin)最大化,使得兩類的分類間隔最大。
1.3 RF
隨機(jī)森林算法首先需要在訓(xùn)練集中隨機(jī)選擇一個(gè)子集,再根據(jù)決策樹算法構(gòu)造子集分類器。決策樹分類器的數(shù)量K需要在運(yùn)行前指定生成,然后確定子集的數(shù)量。
2 用戶評(píng)論情感分析
2.1 微博數(shù)據(jù)采集
由于政務(wù)微博下的評(píng)論具有明顯的情感傾向,故本文針對(duì)政務(wù)微博,基于Python網(wǎng)絡(luò)爬蟲技術(shù)獲取了2019年受到廣泛關(guān)注的熱點(diǎn)輿情事件下“@中國(guó)警方在線”“@中國(guó)警察網(wǎng)”“@平安洛陽(yáng)”“@平安北京”等政務(wù)微博下的評(píng)論信息,在完整的URL請(qǐng)求發(fā)送后,利用Lxml對(duì)網(wǎng)頁(yè)信息進(jìn)行解析,獲取在重大輿情事件下政務(wù)微博的回復(fù)、留言等評(píng)論信息,并以此為基礎(chǔ)進(jìn)行情感分類研究。
2.2 數(shù)據(jù)預(yù)處理
2.2.1 數(shù)據(jù)清洗
在微博的評(píng)論中存在一些網(wǎng)絡(luò)鏈接、在博主發(fā)文下方@其他的明星或者網(wǎng)友以及“轉(zhuǎn)發(fā)微博”“轉(zhuǎn)發(fā)圖片”等,對(duì)情感分析的結(jié)果會(huì)產(chǎn)生干擾,予以刪除。
2.2.2 數(shù)據(jù)集和人工標(biāo)注
經(jīng)數(shù)據(jù)清洗后,得到9395條微博評(píng)論,包括4869條正向評(píng)論,4526條負(fù)向評(píng)論,部分?jǐn)?shù)據(jù)如表1。語(yǔ)料庫(kù)中隨機(jī)選取80%作為訓(xùn)練集,20%作為測(cè)試,用于政務(wù)微博情感分類模型的構(gòu)建,語(yǔ)料分布情況如表2所示。
2.2.3 對(duì)評(píng)論文本進(jìn)行分詞和去停用詞處理
在文本中使用頻率很高,但不具有檢索意義、不能表達(dá)文本中心思想的詞語(yǔ)即為停用詞。本文利用哈工大停用詞表,在利用結(jié)巴分詞處理時(shí),將得到的結(jié)果與停用詞匹配,若匹配成功,就將這個(gè)詞去掉,否則就保留下來(lái)。經(jīng)去停用詞后的部分評(píng)論文本分詞后的結(jié)果如表3。
2.3 基于Word2vec的詞向量訓(xùn)練
在進(jìn)行Word2vec的評(píng)論文本向量表達(dá)時(shí),Skip-gram模型的性能在判定詞語(yǔ)間的語(yǔ)義關(guān)系時(shí)的表現(xiàn)比CBOW模型更好,因此采用Skip-gram模型對(duì)詞庫(kù)進(jìn)行向量表達(dá),并轉(zhuǎn)化成特征向量的格式。步驟如下:
(1)對(duì)于上下文窗口的取值,實(shí)驗(yàn)中將窗口值設(shè)定為5。
(2)基于精確度的考慮,詞向量維度選擇300。例如:“可怕”的詞向量如圖1所示。
(3)在大規(guī)模語(yǔ)料庫(kù)中訓(xùn)練出合適的詞向量的基礎(chǔ)上,評(píng)論文本本身的特征向量由對(duì)每條微博評(píng)論文本中所有詞語(yǔ)的詞向量累加后求平均得到。
2.4 情感模型分析與訓(xùn)練
2.4.1 分類模型評(píng)價(jià)指標(biāo)
為了對(duì)兩種不同的分類方法進(jìn)行比較,首先確定模型的評(píng)價(jià)指標(biāo)。在本文中,微博評(píng)論情感極性分析為二分類問(wèn)題,模型評(píng)價(jià)指標(biāo)需要考慮正向和負(fù)向兩個(gè)方面的模型效果,考慮訓(xùn)練模型不同預(yù)測(cè)結(jié)果的數(shù)量如表4。
查準(zhǔn)率、召回率、F1值和準(zhǔn)確率四種評(píng)價(jià)指標(biāo)是數(shù)據(jù)挖掘任務(wù)中常用的模型評(píng)價(jià)標(biāo)準(zhǔn)。下面對(duì)這四種評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行詳細(xì)介紹:
準(zhǔn)確率(Accuracy)表示訓(xùn)練模型對(duì)樣本的分類性能,公式如(1):
查準(zhǔn)率(Precision)表示某一類別中訓(xùn)練模型預(yù)測(cè)數(shù)量占實(shí)際數(shù)量的比例,公式如(2):
召回率(Recall)表示某一類別中訓(xùn)練模型預(yù)測(cè)數(shù)量占該類別實(shí)際記錄數(shù)量的比例。公式如(3):
統(tǒng)計(jì)學(xué)領(lǐng)域,F(xiàn)1值(F-core)是對(duì)二分類模型的精度進(jìn)行衡量的一種評(píng)價(jià)標(biāo)準(zhǔn),該指標(biāo)兼具準(zhǔn)確率與召回率的特點(diǎn),F(xiàn)1值在0至1之間,對(duì)模型評(píng)價(jià)效果良好。例如對(duì)于正面情感,計(jì)算公式如(4):
2.4.2 政務(wù)微博評(píng)論情感分類結(jié)果
(1)支持向量機(jī)情感分類模型。
應(yīng)用上文建立的訓(xùn)練數(shù)據(jù)集,采用Python平臺(tái)下的sklearn算法模塊實(shí)現(xiàn)支持向量機(jī)模型,測(cè)試數(shù)據(jù)集預(yù)測(cè)后的結(jié)果分布情況如表5所示。
根據(jù)SVM模型的預(yù)測(cè)結(jié)果,應(yīng)用上文中設(shè)定的準(zhǔn)確率、查準(zhǔn)率、召回率和F1評(píng)分值公式,可以得到基于SVM模型的微博評(píng)論情感極性分類模型的評(píng)估情況。
(2)隨機(jī)森林情感分類模型。
應(yīng)用上文建立的訓(xùn)練數(shù)據(jù)集,采用sklearn算法模塊實(shí)現(xiàn)隨機(jī)森林模型,該模型函數(shù)在Decision Tree Classifier類下,部分模型參數(shù)按照系統(tǒng)默認(rèn)值處理,對(duì)測(cè)試數(shù)據(jù)集預(yù)測(cè)后的結(jié)果分布情況如表7所示。
基于RF模型的微博評(píng)論情感極性分類結(jié)果如表8所示。
3 結(jié)語(yǔ)
從評(píng)估結(jié)果的對(duì)比可以發(fā)現(xiàn),SVM算法與RF算法相比,SVM方法各項(xiàng)指標(biāo)的結(jié)果評(píng)估值均優(yōu)于RF,見表6與表8比較。因此,Word2vec與SVM相結(jié)合情感分析模型,能更準(zhǔn)確的判斷政務(wù)微博評(píng)論的情感傾向。在熱點(diǎn)輿情事件中,政府管理部門可利用這些半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),對(duì)其加以利用掌握相關(guān)的輿情態(tài)勢(shì)以支持政府決策。
參考文獻(xiàn)
[1]陳婷,陳文春.基于用戶體驗(yàn)的便民類政務(wù)微博質(zhì)量提升策略[J].管理觀察,2019,(02):92-94,97.
[2]汪祖柱,阮振秋.基于關(guān)聯(lián)規(guī)則的政務(wù)微博公眾評(píng)論觀點(diǎn)挖掘[J].情報(bào)科學(xué),2017,35(08):19-22.
[3]王宇澄,薛可,何佳.政務(wù)微博議程設(shè)置對(duì)受眾城市形象認(rèn)知影響的研究——以微博“上海發(fā)布”為例[J].電子政務(wù),2018,(06):55-62.
[4]牛雪瑩,趙恩瑩.基于Word2Vec的微博文本分類研究[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(08):256-261.
[5]Li S, Wang Z, Zhou G, et al. Semi-Supervised Learning for Imbalanced Sentiment Classification[C]. Proceedings of International Joint Conference on Artificial Intelligence,2011:1826-1831.
[6]Liu S, Li F, Li F, et al. Adaptive co-training SVM for sentiment classification on tweets[C]. ACM International Conference on Information & Knowledge Management. ACM,2013:2079-2088.
[7]陳珂,黎樹俊,謝博.基于半監(jiān)督學(xué)習(xí)的微博情感分析[J].計(jì)算機(jī)與數(shù)字工程,2018,46(09):1850-1855.
[8]彭陶.基于微博的情感傾向分析系統(tǒng)的研究與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2016.
作者簡(jiǎn)介:魏姮清(1995-),女,漢族,湖北宜昌人,碩士,武漢理工大學(xué),研究方向:信息管理與信息系統(tǒng)。