孫 冉 安 璐,2
(1.武漢大學(xué)信息管理學(xué)院,武漢,430072; 2. 武漢大學(xué)信息資源研究中心,武漢,430072)
社交媒體傳播和在線討論的普及深刻改變了大眾間的交流互動方式,在疫情期間,社交媒體平臺的輿情信息呈爆炸式增長。網(wǎng)絡(luò)輿情的本質(zhì)是一種言語行為,言語行為分析可以超越用戶話語的字面意義,例如反諷屬于一種間接言語行為,其言外之意是對其文本字面意義的否定或者對立。以往研究指出,主題分析和文本情感傾向分析等在政府輿情檢測和治理中發(fā)揮著重要作用[1-2],然而從語言粒度出發(fā)對用戶在文本中表達(dá)意圖和心理狀態(tài)進(jìn)行細(xì)粒度分析的研究較少。言語行為理論(Speech Act Theory)是文本分析中最重要的語言學(xué)理論之一,可用于理解社交媒體中用戶的行為、顯式和隱式語言特征,例如機(jī)器人檢測[3]、在線評論情感分析[4]、人格分類[5]、謠言識別[6]。在突發(fā)事件情境下,對網(wǎng)絡(luò)各類言語行為進(jìn)行網(wǎng)絡(luò)輿論監(jiān)督是十分必要的。由此,本文擬解決三個問題:①如何提高判定社交媒體用戶進(jìn)行言語交流過程中言語行為性質(zhì)的準(zhǔn)確性;②影響言語行為識別的特征有哪些以及它們?nèi)绾斡绊懩P托Ч?③不同言語行為在其影響力和情感上有何差異。
本文以新冠疫情期間推特平臺上大眾對疫苗的討論為數(shù)據(jù)集,基于言語行為理論構(gòu)建適用于社交媒體平臺的用戶言語行為分類體系,結(jié)合神經(jīng)網(wǎng)絡(luò)方法和機(jī)器學(xué)習(xí)方法構(gòu)建突發(fā)事件情境下社交媒體用戶言語行為自動分類模型,探究用戶特征、文本向量特征、情感特征等在言語行為分類上的表現(xiàn),分析不同言語行為在影響力和情感上的差異性。自動識別網(wǎng)絡(luò)輿情中的言語行為,可以幫助更好地理解在突發(fā)事件情境下用戶自生成內(nèi)容背后的含義和意圖,從而進(jìn)一步揭示社交媒體用戶心理狀態(tài)和用戶之間豐富的情感交互。
言語行為理論認(rèn)為話語者不僅通過語言來傳達(dá)其言內(nèi)之意,還通過言外行為和言后行為對接受者產(chǎn)生影響[7-8]。Searle[8]首先將言語行為分為直接言語行為和間接言語行為,進(jìn)一步根據(jù)基本條件、真誠條件、先決條件和命題條件將施事行為劃分為闡述類或者斷言類、承諾類、指令類、聲明類和表達(dá)類。其中,闡述類或斷言類主要是指話語者陳述或描述其認(rèn)為的真實情況(如推測、斷定等),承諾類是話語者對自己未來的行為進(jìn)行承諾,指令類是指話語者試圖通過言語使聽者采取特定行動(如請求、命令和建議等),表達(dá)類是話語者表達(dá)自身的心理狀態(tài)(如開心、感謝和抱怨等),聲明類是指話語者試圖通過話語改變世界。
目前,將言語行為理論應(yīng)用到網(wǎng)絡(luò)輿情領(lǐng)域的研究較多。大部分學(xué)者直接依照Searle言語行為理論進(jìn)行分類[5],也有學(xué)者進(jìn)一步將其分為陳述、提問、建議、評論、混合類[9],或者考慮到推文特征將其劃分為闡述、推薦表達(dá)、提問、請求和其他[10],還有學(xué)者充分考慮了在線交流特征將言語行為劃分為詢問、請求、指令、邀請、告知、聲稱、期望、接受/拒絕、道歉、感謝等[11]。社交媒體用戶自生成內(nèi)容最常由表達(dá)性言語行為組成,其次是闡述[12]。不同事件或者話題下的推文具有不同的言語行為分布[9-10]。社交媒體意見領(lǐng)袖在與不同的用戶群體交談時,傾向于使用不同的言語行為[11]。李嘉等[13]基于SVM算法提出了網(wǎng)絡(luò)輿情環(huán)境中的沖突類言語行為分類模型,發(fā)現(xiàn)句法特征和結(jié)構(gòu)特征在言語行為分類上的積極效果。特別是在沖突性網(wǎng)絡(luò)環(huán)境下,用戶多采用批評、嘲諷等冒犯性言語行為去反駁對方[14]。Jahanbakhsh-Nagadeh等[15]驗證了言語行為特征在謠言識別中的重要性,并且發(fā)現(xiàn)社交媒體謠言中常見的言語行為類別為敘述、質(zhì)詢和威脅。Zhao等[16]發(fā)現(xiàn)社交媒體用戶傾向于評論包含表達(dá)和自信行為的帖子。Ordenes等[17]通過評估承諾類、表達(dá)類和指令類等信息對消費者分享的影響發(fā)現(xiàn),與闡述類或表達(dá)性信息相比,指令性信息引起的消費者分享較少,而且推文情感的積極性與消費者分享具有顯著的正相關(guān)關(guān)系。Argyris等[18]基于言語行為理論研究互動、話語、表達(dá)和訴求對引發(fā)投訴人積極情緒的影響發(fā)現(xiàn),在投訴人的回應(yīng)中使用言語行為可以引發(fā)積極的情緒。除了常見的五種言語行為分類,不少學(xué)者對社交媒體自夸[19]、反諷[20]、抱怨[21]、幽默[22]等言語行為進(jìn)行了自動識別和分類。本文關(guān)注突發(fā)事件情境下社交媒體文本中語用特征,從語用學(xué)視角以言語行為的相關(guān)理論為指導(dǎo),對社交媒體平臺上文本語用功能進(jìn)行劃分,構(gòu)建適用于社交媒體的言語行為分類體系。
言語行為分類體系及自動分類的應(yīng)用研究主要集中在電子郵件[23]、對話系統(tǒng)[24]、機(jī)器翻譯[25]等。對社交媒體內(nèi)容采用自動分析方法能有效理解用戶行為,但基于日常對話式語料和電子郵件的言語行為分類方法,不能直接應(yīng)用于微博、推特等社交網(wǎng)絡(luò)上的言語行為識別。已有學(xué)者將樸素貝葉斯、決策樹、邏輯回歸等機(jī)器學(xué)習(xí)算法應(yīng)用于社交媒體言語行為分類中[26,10]。模型選取的特征大多為詞性標(biāo)注、語義特征、句法特征、情感特征等,如話語中的第一個單詞可以準(zhǔn)確預(yù)測其言語行為類別[26]。Zhang等[9]構(gòu)建了基于單詞和符號特征的SVM言語行為分類器;Vosoughi等[10]通過對比分析決策樹、樸素貝葉斯、SVM和LR模型的言語行為分類效果發(fā)現(xiàn),邏輯回歸分類器的性能最優(yōu)。
近年來,循環(huán)神經(jīng)網(wǎng)絡(luò)模型及其變體等深度學(xué)習(xí)算法逐漸成為言語行為分類的重要研究方法。Algotiml等[27]對比多種機(jī)器學(xué)習(xí)方法發(fā)現(xiàn),與SVM相比,LSTM、Bi-LSTM等深度學(xué)習(xí)方法在推文言語識別任務(wù)上具有其優(yōu)越性;Yoo等[28]基于詞性標(biāo)注和依存關(guān)系,采用基于深度學(xué)習(xí)模型對言語行為進(jìn)行分類。為更好地理解推文的內(nèi)容和用戶交流意圖,Saha等[29]采用基于 CNN 的算法對聲明、表達(dá)、建議、請求、問題、威脅這七種常見的推文行為進(jìn)行分類。隨后,他們又驗證了結(jié)合BERT預(yù)訓(xùn)練語言模型和神經(jīng)網(wǎng)絡(luò)方法的推文言語行為分類器優(yōu)于其他基線方法[30]。然而,現(xiàn)有基于深度學(xué)習(xí)的言語行為分類算法忽略了用戶、時間、文本結(jié)構(gòu)等特征在確定言語行為中的作用。
綜上所述,直接以突發(fā)事件情境下社交媒體用戶言語行為為對象的研究十分有限,并且大部分研究所采用的言語行為分類體系局限于五大類,沒有對適用于社交媒體的言語行為分類進(jìn)行細(xì)分。因此,對突發(fā)事件情境下社交媒體言語行為分類開展研究,將言語行為識別與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)相結(jié)合,有助于了解突發(fā)事件中公眾的行為規(guī)律,幫助相關(guān)部門做出準(zhǔn)確的決策分析。
本研究擬結(jié)合神經(jīng)網(wǎng)絡(luò)模型和XGBoost模型,提取用戶特征、文本特征和時間特征,訓(xùn)練基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的分類器,并且選擇多種基線模型的性能進(jìn)行比較。隨后,利用SHapley Additive exPlanation(SHAP)[31]算法分析突發(fā)事件情境下社交媒體用戶的言語行為分類模型中不同特征的解釋能力,可視化單一特征變量對言語行為分類的定量影響,討論突發(fā)事件情境下用戶言語行為分類主要影響因素。最后,利用非參數(shù)檢驗方法Kruskal-Wallis對不同言語行為的情感、影響力等差異性進(jìn)行檢驗。研究框架如圖1所示。
圖1 突發(fā)事件情境下社交媒體言語行為分類方法框架
依據(jù)Searle[8]提出的言語行為理論,并結(jié)合以往對言語行為的分類規(guī)則[5,9-11],本文將所有語料的言語行為分為闡述類、表達(dá)類、指令類、承諾類和其他,每一類的具體描述如表1所示。由于在社交媒體中,大部分輿情無法通過話語來實施權(quán)利,因而本文不考慮聲明類言語行為。闡述類話語可以包含有斷定、贊揚、批評、推測、析因等語用能力[32],因此除了陳述和引述,本文將闡述類進(jìn)一步細(xì)分為斷定、質(zhì)詢、析因等。
表1 社交媒體言語行為分類體系
本文在構(gòu)建突發(fā)事件情境下社交媒體用戶言語行為分類的特征體系時,考慮了以往言語行為分類研究中所考慮到的文本特征,如文本向量表示[30]、情感特征[10]、詞性特征[28]、文本結(jié)構(gòu)特征[13],另外,有研究發(fā)現(xiàn),發(fā)布在周末和工作日的推文具有不同的情感分布模式[33],發(fā)布在星期六星期天的推文數(shù)量較低,周一開始逐漸增加,直到周三達(dá)到最高后開始下降。為了分析時間特征在用戶言語行為分類的重要性,本文考慮到了信息發(fā)布的時間特征。由于不同話題下的推文具有不同的言語行為分布[9-10],不同用戶在其發(fā)布信息時會有不同的言語風(fēng)格[34],本文還將文本主題特征、用戶特征(用戶基本屬性和用戶行為特征)考慮在內(nèi),如表2所示。
表2 社交媒體言語行為分類的特征體系
3.2.1 文本特征
(1)文本向量表示:應(yīng)用 BERT 模型[35]來生成文本向量表示。BERT模型的輸入為每條推文文本,進(jìn)行向量化表示并用于BERT模型的訓(xùn)練,最終得到每條推文的特征向量與分類標(biāo)簽共同組成分類器的輸入進(jìn)行最終的分類。
(2)文本主題特征:利用 BERTopic[36]主題建模算法對推文進(jìn)行話題提取,與經(jīng)典的LDA、NMF 和 Top2Vec 等主題算法相比,BERTopic在 Twitter 數(shù)據(jù)上具有更好的主題建模效果[37-38]。BERTopic 主題建模包括以下三個步驟:①采用基于RoBERTa的大規(guī)模語言模型BERTweet[39]獲取輸入文本的嵌入向量,其中,本文采用的bertweet-covid-19-base-uncased預(yù)訓(xùn)練模型的語料庫是由230萬條Covid-19相關(guān)的推文組成;②采用UMAP 降維算法降低文本嵌入向量的維度,并且利用HDBSCAN自動選擇最優(yōu)的主題聚類結(jié)果;③使用基于聚類的 TF-IDF (c-TF-IDF) 來提取和減少主題數(shù)量。BERTopic允許為主題表示選擇不同的 n-gram 模型,在實驗中設(shè)置的n_gram取值范圍為1—3。通過對上下文信息進(jìn)行編碼,并在使用 UMAP 進(jìn)行文檔聚類的過程中保留局部結(jié)構(gòu),從而提高了主題分析的質(zhì)量。為了選擇最佳的主題數(shù)量,調(diào)用gensim包中的連貫性得分(C_V coherence)衡量主題模型的性能,主題連貫性得分越高,代表主題模型越好[40]。
(3)文本情感特征:本文采用基于BERTweet預(yù)訓(xùn)練模型的 TweetEval分類器[41]進(jìn)行推文的文本情感分析,TweetEval評估框架由七個異構(gòu)的分類任務(wù)組成,包括情緒分類(悲傷、開心、悲觀、憤怒)、情感分類(正、負(fù)、中)、表情符號、反諷、仇恨、攻擊性語言識別。通過模型得到的各類情感得分將作為情感特征輸入到分類器中。
(4)文本詞性特征:不同類型的言語行為在詞匯類型、標(biāo)點符號上有所不同,如感嘆詞可以用來表達(dá)情感[25]。本文采用Python中的textblob詞性標(biāo)注工具包對推文進(jìn)行詞性
標(biāo)注,可以得到每條推文中分別包含35類詞性的詞語個數(shù)。此外,本文統(tǒng)計了每條推文中感嘆號和問號的個數(shù)。
(5)文本結(jié)構(gòu)特征:推文內(nèi)容中的各類符號可以加強(qiáng)語義的表達(dá),本研究將是否有鏈接、鏈接的位置、哈希標(biāo)簽個數(shù),是否包含圖片、視頻、提及(@)個數(shù)、表情符號納入文本結(jié)構(gòu)特征中。
3.2.2 用戶特征
用戶的基本屬性包含是否認(rèn)證、所在國家、用戶粉絲數(shù)、用戶關(guān)注數(shù)、用戶發(fā)布微博總數(shù)、用戶注冊年齡。用戶行為特征包括用戶近期影響力和用戶近期活躍度,其中,用戶近期影響力是指用戶在數(shù)據(jù)采集的前一個月內(nèi)(2021年1月1日—2021年1月31日)的被點贊數(shù)、被轉(zhuǎn)發(fā)數(shù)、被評論數(shù);用戶近期活躍度是指用戶在數(shù)據(jù)采集的前一個月內(nèi)的發(fā)帖數(shù)、發(fā)帖平均間隔天數(shù)。
本文將言語行為識別看成多分類問題,基于主題特征、情感特征、文本詞性特征、用戶特征等,分別訓(xùn)練并構(gòu)建支持向量機(jī)、邏輯回歸模型、隨機(jī)森林、XGBoost等分類方法,采用SMOTE算法[42]來減少樣本不均衡對分類模型的影響。其中,XGBoost算法[43]是基于集成學(xué)習(xí)的提升樹模型,其基礎(chǔ)樹結(jié)構(gòu)為CART回歸樹,通過正則項和列抽樣可以有效提升模型的穩(wěn)健性。BERT模型中包含雙向transformer編碼層,能有效獲取語句中的雙向關(guān)系,因此,本文還利用BERT模型提取推文的上下文信息,將生成的文本特征向量分別輸入到CNN、RNN等深度學(xué)習(xí)模型進(jìn)行分類。
特征重要性排序可用于評估預(yù)測模型中輸入特征的相對重要性。SHAP算法通過計算每個特征對預(yù)測模型的邊際貢獻(xiàn),以及該特征在所有特征序列中不同的邊界貢獻(xiàn),最后該特征所有邊際貢獻(xiàn)的均值即為SHAP值。SHAP具有模型解釋性較好、缺失無影響等多個優(yōu)點,并且可以反映出每個特征對預(yù)測結(jié)果的正負(fù)影響力。
假設(shè)模型基準(zhǔn)分(所有樣本的目標(biāo)變量的均值)為ybase,第i個樣本為xi,第i個樣本的第j個特征為xij,特征的邊際共現(xiàn)為msij,邊的權(quán)重為wk,模型對樣本i的預(yù)測值為yi,則第i個樣本的第j個特征的SHAP值f(xij)如公式(1)所示,同時SHAP值要服從公式(2)。
(1)
(2)
推特是最重要的在線社交媒體平臺之一,因此本文的研究數(shù)據(jù)是從Twitter收集的與Covid-19疫苗相關(guān)的公開數(shù)據(jù)[44],數(shù)據(jù)選擇的時間區(qū)間為2021年2月1日至28日,經(jīng)過數(shù)據(jù)抽取和清洗后得到237674條推文,我們利用NLTK工具包中的emoji包將表情符號翻譯成文本字符串,用戶提及和url鏈接分別轉(zhuǎn)化為特殊標(biāo)記來規(guī)范化推文,隨后對整個數(shù)據(jù)集進(jìn)行主題聚類和情感分析。隨機(jī)選擇4000條推文進(jìn)行言語行為分類標(biāo)注,標(biāo)注結(jié)果如表3所示。在突發(fā)事件情境下,社交媒體平臺上闡述類言語行為占據(jù)最大比例,其次是表達(dá)類,承諾類言語行為的比例最低。
表3 推文的言語行為分布
基于連貫性得分的主題聚類的評估結(jié)果如圖2所示,橫軸代表設(shè)定不同的主題數(shù),縱軸代表連貫性得分隨著主題數(shù)的變化。結(jié)果顯示,當(dāng)主題的個數(shù)為23時,連貫性得分最高為0.4295。
圖2 主題聚類模型的效果評估
主題聚類得到的23個主題及其關(guān)鍵詞的情感分布如圖3所示,通過人工分析,將這23個主題劃分為五大類:疫苗接種(主題1、2、3、4)、全球性疫苗問題(主題5、6、7、8、9、10、11)、疫苗知識(主題12、13、14、15)、公眾對疫苗的態(tài)度和情緒(主題16、17、18、22、23)、疫苗接種服務(wù)和管理(主題19、20、21)。其中,反對疫苗運動(主題16)和需要接種疫苗(主題17)的討論數(shù)最多。主題16、主題17、主題18(不想接種疫苗)、主題20(疫苗接種站點)、主題12(基因療法)、主題2(給老師、工人接種疫苗)、主題5(各國疫苗推出)、主題8(疫苗分配)等在消極情感上的占比要遠(yuǎn)遠(yuǎn)高于在積極情感上的占比。一方面,社交媒體上充斥著大量反疫苗主義者,另一方面,因疫苗短缺大量用戶表達(dá)出其強(qiáng)烈的接種愿望。主題1 (人們接種新冠疫苗)、主題23(開心)、主題22(感恩)的積極情感占比要高于消極情感占比。主題10(接種疫苗后的不良反應(yīng))、主題13(疫苗的有效性)、主題7(各類疫苗緊急使用授權(quán))等的中立情感占最大比例。
圖3 主題的情感分布
本文選擇已有研究中采用的支持向量機(jī)(SVM)[9]、邏輯回歸(LR)[10]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[28]、BERT預(yù)訓(xùn)練結(jié)合神經(jīng)網(wǎng)絡(luò)模型[30],以及主流的文本分類模型TextCNN、FastText、Transformer作為基線模型。利用十折交叉驗證和網(wǎng)格搜索方法進(jìn)行分類器的參數(shù)優(yōu)化。采用精確率、召回率、F1值的加權(quán)平均(weighted avg)和準(zhǔn)確度(accuracy)來評估模型的分類效果。深度學(xué)習(xí)模型設(shè)置參數(shù)學(xué)習(xí)率為5e-5、隨機(jī)失活率為0.1、批大小為128。采取Adam 優(yōu)化器,通過設(shè)置早停法來避免模型過擬合的問題。實驗環(huán)境為2* Intel(R) Xeon(R) E5-2640 v4 x86_64,2.4GHz,20核心,Nvidia Tesla V100,內(nèi)存16G。模型的分類結(jié)果如表4所示,基于多特征融合的XGBoost模型在精確率、F1值和準(zhǔn)確度上效果最佳。
表4 言語行為分類模型評估結(jié)果
根據(jù)特征重要性對言語行為分類的影響因素進(jìn)行排序發(fā)現(xiàn),文本特征、用戶特征、時間特征的重要性依次降低。通過SHAP值可以對每一類言語行為的影響因素進(jìn)行解釋分析,其中,特征的重要性由SHAP絕對值的平均值來計算。如圖4所示,除了文本向量特征(V),情感傾向為中性、是否包含鏈接、反諷、文本長度、人稱代詞、攻擊性言語等特征的差異對分類模型的影響較為顯著。
圖4 社交媒體言語行為分類中前30個特征的重要性排序
圖5中可以看出,在闡述類中,是否包含鏈接的特征重要性最高,包含鏈接的推文以及仇恨性、攻擊性、反諷得分較低的推文更容易被歸為闡述類。情感特征在表達(dá)類言語行為識別中具有重要作用,中性得分較低和反諷得分、攻擊得分較高的推文更容易被歸為表達(dá)類。當(dāng)預(yù)測推文為表情符號emoji_7和emoji_5的得分較低時,推文不容易被歸為表達(dá)類。中性和動詞基本形式、問號的個數(shù)在指令類中的特征重要性較高,其中,推文的情感越中立,問號數(shù)量越多,越可能是指令類言語行為。文本向量特征、人稱代詞在承諾類中的重要性較高。
本文選擇效果最好的XGboost模型對待分類的推文數(shù)據(jù)集進(jìn)行言語行為分類。對不同言語行為的轉(zhuǎn)發(fā)數(shù)、點贊數(shù)等進(jìn)行方差齊性檢驗,結(jié)果顯示,數(shù)據(jù)不符合方差齊性,因此,本文采用Kruskal-Wallis檢驗對不同推文言語行為的轉(zhuǎn)發(fā)數(shù)、點贊數(shù)、情感傾向進(jìn)行分析。由表5可以看出,按照α=0.05的檢驗標(biāo)準(zhǔn),Kruskal-Wallis檢驗結(jié)果顯示,不同推文言語行為在轉(zhuǎn)發(fā)數(shù)上沒有顯著差別,在點贊數(shù)和情感傾向上具有顯著差異。通過查看原始數(shù)據(jù)樣本發(fā)現(xiàn),闡述類通常會產(chǎn)生較高轉(zhuǎn)發(fā),表達(dá)類則容易獲得較高點贊。因此,當(dāng)相關(guān)部門需要擴(kuò)大信息的傳播范圍時,比如發(fā)布辟謠信息或者求助信息等,需要更注重于采用闡述類話語策略,當(dāng)需要提高用戶的認(rèn)可度時,則可以采用表達(dá)類話語策略。
表5 Kruskal-Wallis H檢驗輸出結(jié)果
本文基于言語行為理論,構(gòu)建社交媒體用戶言語行為分類體系,提出了融合文本向量表示、主題特征、用戶特征、時間特征的社交媒體言語行為分類方法,并在標(biāo)注數(shù)據(jù)集上評估不同分類方法的性能。研究結(jié)果發(fā)現(xiàn),基于XGBoost模型的分類效果最好,準(zhǔn)確度達(dá)到0.792。文本向量特征在言語行為識別中的重要性最高,情感特征也能很好地識別不同的言語行為,但用戶特征的重要性較低。不同的推文言語行為在轉(zhuǎn)發(fā)數(shù)上沒有顯著差別,在點贊數(shù)和情感傾向上具有顯著差異。
通過分析對言語行為預(yù)測有重要影響的特征,本文根據(jù)研究結(jié)果提出以下建議:①隨機(jī)抽樣的標(biāo)注樣本集在不同言語行為上的分布顯示,突發(fā)事件情境下構(gòu)成社交媒體疫苗辯論的言語行為的比例不同,政府部門應(yīng)該有針對性地對大眾不同類別的言語行為采用不同的應(yīng)對策略,以滿足其中用戶所反映出來的信息需求和心理需求,比如指令類信息中通常會包含對疫苗短缺、疫苗有效性等問題的提問或者建議;②根據(jù)言語行為分類的影響因素分析結(jié)果,有關(guān)部門可以通過結(jié)合文本情感特征、詞性標(biāo)注特征等實現(xiàn)網(wǎng)絡(luò)輿情的言語行為自動分類,比如包含鏈接的推文會更容易被歸為闡述類,中性得分較低和反諷得分、攻擊得分較高的推文更容易被歸為表達(dá)類等;③不同言語行為的差異性檢驗表明,社交媒體文本中采用不同的言語策略所獲得的用戶認(rèn)可(點贊)程度是不相同的,因此,突發(fā)事件情境下政務(wù)新媒體在發(fā)布信息時,可以從語言學(xué)視角出發(fā),總結(jié)出符合當(dāng)前輿情狀態(tài)的應(yīng)急言語策略,比如需要擴(kuò)大辟謠或者求助等信息的傳播范圍時,可以采用闡述類話語策略陳述或描述真實情況,當(dāng)需要提高用戶的認(rèn)可度時,則可以采用表達(dá)類話語策略。
(a)闡述類(b)表達(dá)類(c)指令類(d)承諾類圖5 四類言語行為中特征的SHAP影響
本文存在以下不足:首先,承諾類等類別下的文本數(shù)量較少,而樣本不均衡也會影響分類結(jié)果,未來需要在更多的數(shù)據(jù)集上驗證模型的效果。其次,闡述類中請求、質(zhì)詢、批評等不屬于表達(dá)類的文本也具有一定的情感傾向,未來應(yīng)聚焦于突發(fā)事件社交媒體上的負(fù)面信息識別,如批評、抱怨、攻擊等,從政府部門角度分析哪種言語行為更能引導(dǎo)輿論走向,從而減少突發(fā)事件中負(fù)面輿論的影響。
致謝:感謝圖書情報國家級實驗教學(xué)示范中心為本研究提供的實驗支持!