王淼 劉家委 朱鑫奕 劉樹林 余愛玲
摘要:互聯(lián)網(wǎng)用戶發(fā)表觀點具有傳播能力強、范圍廣的特點,對其他社交用戶的影響極大,研究用戶的社會影響力意義重大,已成為當前輿情研究的熱點。通過用戶畫像和文本情感分析的方法,從不同維度對社會影響力進行細致梳理,揭示了研究社會影響力的不同方法,并總結(jié)了各類方法的特點與發(fā)展趨勢,最后給出研究社會影響力的相關(guān)啟示。
關(guān)鍵詞:用戶畫像;文本情感分析;社會影響力;輿情
中圖分類號:TP311文獻標識碼:A
文章編號:1009-3044(2020)25-0071-02
網(wǎng)絡(luò)通信平臺是當前人們獲取信息的主要方式,通過微博、微信等社交平臺人們不僅獲取訊息而且可以發(fā)表自己的觀點,這些平臺使用門檻低,傳播能力強且范圍廣,每天會有百萬以上的評論產(chǎn)生,通過這些媒體平臺發(fā)表言論,可能對相關(guān)事件造成一定影響。當公共事件發(fā)生時,往往伴隨著聲音出現(xiàn)在評論中,有利有弊,當某一個評論流量達到足以改變公共事件發(fā)展方向時,輿情便從中產(chǎn)生。而當今社交平臺又是影響政務(wù)、商業(yè)、信息的平臺,每一次的輿情控制都是對相關(guān)政務(wù)機構(gòu)、商業(yè)機構(gòu)、信息機構(gòu)的寶貴財富。
1文本情感分析與社會影響力
1.1文本情感分析概述
文本情感分析作為自然語言處理的重要分支,是統(tǒng)計學(xué)、人工智能、語言學(xué)等領(lǐng)域的深度交叉融合。文本情感分析是利用計算機技術(shù)對文本進行主客觀分類與意見挖掘的理論與方法,以分類、判斷文本的情感傾向性為主要目的。文本情感分析首先需要對源文本進行分類處理,分類處理的對象是主觀性文本與客觀性文本[1],目的是抽取出主觀性文本進行下一步情感分析工作。在得出主觀性文本后,需要對其進行情感極性分析和情感極性強度分析。
廣義文本情感分析,被稱為意見挖掘、情感分析等 [1],主要對文本中表現(xiàn)出的態(tài)度、情感、傾向等主觀性內(nèi)容進行辨別、分類、標注、分析等處理,從而生成新的情感總結(jié)和傾向性分析。廣義文本情感分析將情感分為多種不同元素,包括個人的情緒狀態(tài)、心理思想和主觀傾向性等,通過提取自然語言文本中的情感元素來挖掘文本中的主觀傾向、立場、態(tài)度等。
狹義文本情感分析則與之相反,將情感傾向性分為正面、反面或中性,主要對文本情感進行分類、對情緒與傾向性進行分析。當前,對狹義文本情感分析的主要研究方法主要有基于深度學(xué)習(xí)的方法、基于語義情感規(guī)則的分類方法,以及融合的分類方法。
1.2文本情感分析方法
文本情感分析可以分為詞語、句子和篇章三個層面的分析[2]。其中,情感分析的基礎(chǔ)是詞語,詞語的情感分析可以依賴情感詞抽取、建立語料庫和情感詞典等方法來實現(xiàn)。句子的情感分析是在詞語的基礎(chǔ)上,直接得出文本中某一整句的情感分析結(jié)果,是詞語情感分析的綜合,也將直接決定篇章級別情感分析的好壞。篇章級別的情感分析是文本情感分析中的重難點,受多種分析因素的綜合影響,分析結(jié)果難以穩(wěn)定在理想范圍。
文本情感分析應(yīng)用的方法[3],主要有機器學(xué)習(xí)和詞典兩種方法?;跈C器學(xué)習(xí)的方法以監(jiān)督學(xué)習(xí)的方法為主,主要有決策樹分類器、線性分類器、規(guī)則分類器和概率分類器。其中,線性分類器包括支持向量機與神經(jīng)網(wǎng)絡(luò),概率分類器包括樸素貝葉斯、貝葉斯網(wǎng)絡(luò)和最大熵?;谠~典的方法分為基于字典方法和基于語料庫方法。其中,字典方法即構(gòu)建情感詞典,基于語料庫方法包括統(tǒng)計方法和語義方法。
當前,文本情感分析工作更多使用機器學(xué)習(xí)算法去完成。同時,融合的方法成為未來發(fā)展的趨勢和突破方向,算法的融合、字典與機器學(xué)習(xí)算法的混合使用等往往比單一處理方法更加高效。
1.3文本情感分析與社會影響力的應(yīng)用實例
社會影響力是用戶或商家在互聯(lián)網(wǎng)中發(fā)表觀點、評論和文章所帶來的輿情影響,社會影響力分析對輿情監(jiān)控、虛假評論、情感傾向性判斷等工作具有重要參考價值。目前,國內(nèi)外學(xué)者已經(jīng)成功將文本情感分析廣泛應(yīng)用于各類與社會影響力相關(guān)的場景中。
羅昌銀等基于用戶狀態(tài)和行為,利用機器學(xué)習(xí)算法應(yīng)用于虛假評論識別[4]。具體提出一種虛假評論方法,結(jié)合PU學(xué)習(xí)算法完成識別工作,并運用SVM分類器和邏輯回歸模型完成主觀分類和情感分析。此方法能夠成功識別虛假評論,但沒有具體呈現(xiàn)出虛假評論與正常評論兩者之間的異同。張凌等基于特征分析與機器學(xué)習(xí)方法具體分析負面微博特征[5],同時提出負面微博識別的不同思路。首先分析了負面微博的具體特征,并通過正面微博運用機器學(xué)習(xí)方法對識別工作進行驗證。此研究在負面微博識別中,將不同主題的負面微博分類,以負面詞為研究核心,為微博情感分析提供了新思路。但實驗中微博樣本數(shù)量不足,同時對句子與篇章級別的負面微博識別研究較少。
崔彥琛等基于情感分析具體研究了消防突發(fā)事件網(wǎng)絡(luò)輿情情感詞典構(gòu)建工作[6]。此研究基于情感分析中的詞典方法,分析情感詞典構(gòu)建工作之后,綜合了消防情感詞典、網(wǎng)絡(luò)用語詞典和通用詞典三種詞典,構(gòu)建了新的消防輿情情感詞典。構(gòu)建的消防輿情情感詞典可以準確、高效地應(yīng)用于突發(fā)消防事件的輿情監(jiān)控,是情感分析應(yīng)用于輿情和社會影響力的成功案例之一。伍靜等提出一種結(jié)合文本情感的微博僵尸粉識別模型[7],首先定義了微博用戶的11個特征,然后對微博文本進行情感分析,最后對實驗?zāi)P瓦M行評價。此模型實現(xiàn)過程完成了對微博僵尸粉識別工作,但不能完成對僵尸粉和不活躍用戶的區(qū)分。
2用戶畫像與社會影響力
2.1用戶畫像分析概述
用戶畫像,作為一種刻畫目標用戶、聯(lián)系用戶,和發(fā)現(xiàn)用戶的意向趨勢的需求工具,用戶畫像在各領(lǐng)域行業(yè)與領(lǐng)域得到了廣泛的應(yīng)用。宋美琦,陳燁,張瑞認為在單個用戶畫像和群體用戶畫像的分類的基礎(chǔ)上用戶畫像的內(nèi)涵有三個要素:用戶屬性、用戶特征,用戶標簽具有標簽化、時效性、動態(tài)性三個屬性,針對用戶社會影響力用戶畫像的構(gòu)建需要根據(jù)具體的場景來進一步細化才能產(chǎn)生精準的使用價值[8]。
2.2用戶畫像分類
不同的用戶需求則需要這需要不同的用戶畫像構(gòu)建方法。劉海鷗,孫晶晶,蘇妍嫄,張亞明提出了4種模型與方法:基于用戶行為的畫像方法、基于用戶興趣偏好的畫像方法、基于主題的畫像方法、基于人格特性與用戶情緒的畫像方法[9]。
基于用戶行為的畫像方法,本類數(shù)據(jù)大多都是動態(tài)的,用戶在社交平臺上或是現(xiàn)實中會留下自己的一些行為痕跡,這些行為痕跡數(shù)據(jù)的實效性較短,所以針對動態(tài)收集的時間間隔要求較高,且通常常見的有效數(shù)據(jù)有用戶瀏覽記錄,用戶日志記錄,購買記錄。從此類數(shù)據(jù)中可以提取出一些有效標簽例如:周期行為規(guī)律,行為動態(tài)速度,變化過程等。此類數(shù)據(jù)產(chǎn)生價值對數(shù)據(jù)采集與數(shù)據(jù)分析的速度要較高。
基于用戶興趣偏好的畫像方法,此類數(shù)據(jù)部分是動態(tài)的,用戶的興趣愛好可能會持續(xù)很長一段時間,目前用戶畫像普遍是運用這類方法來提供推薦或是意向分析,同時根據(jù)直接的興趣愛好數(shù)據(jù)通過主觀分析計算,可以獲取一些潛在的用戶興趣偏好。但當用戶的興趣較少時,提供價值的精度則會變低,并且挖掘此類數(shù)據(jù),會從情感分析入手,所以難度的偏向性也比較大。若需要提供有效的價值需要較復(fù)雜的數(shù)據(jù)采集和數(shù)據(jù)分析手段。
基于主題的畫像方法,此類用戶畫像主要針對的是群體用戶,用戶多,特征廣是他的主要特點,若主題單一數(shù)據(jù)來源比較單一,有降低收集、分析的要求的特點,但是主題與主題之間的無關(guān)聯(lián),很容易導(dǎo)致此類數(shù)據(jù)無價值。
基于人格特性與用戶情緒的畫像方法,此類數(shù)據(jù)具有很大的主觀性,一般通過用戶的問卷調(diào)查,當面訪問獲得數(shù)據(jù),可以通過人格、性格、情緒、行為分類來預(yù)測出用戶的情感偏向。并且目前的網(wǎng)絡(luò)環(huán)境,用戶的情緒比現(xiàn)實中的情緒更加豐富,所以獲得此類數(shù)據(jù)的來源很多,但是由于此類數(shù)據(jù)的主觀性很強,通過欺騙等手段,獲取數(shù)據(jù)的正確性會下降。所以導(dǎo)致數(shù)據(jù)的不真實性很大,從而導(dǎo)致用戶畫像刻畫不清晰。
2.3用戶畫像構(gòu)建流程分析
高廣尚論述了三個主要步驟:收集用戶數(shù)據(jù),研究用戶信息,細分標簽[10]。同時他也根據(jù)不同的用戶需求總結(jié)了6種不同的構(gòu)建方法:基于設(shè)計與思維,基于本體或概念,基于主題和話題,基于興趣或偏好,基于行為與日志,基于多維或融合。社會輿情本是一個復(fù)雜的且雜質(zhì)信息比較多的環(huán)境,所以在社會影響力分析時可以針對不同的平臺環(huán)境來改變用戶畫像的構(gòu)建方法或是多個用戶畫像構(gòu)建方法同時使用。
用戶畫像的構(gòu)建分為靜態(tài)和動態(tài),靜態(tài)用戶畫像刻畫后不會改變,對于目前大多數(shù)用戶畫像的使用環(huán)境來說,用戶的信息以及環(huán)境是會隨著時間改變的,靜態(tài)的構(gòu)建方法有局限性,所以動態(tài)的用戶畫像構(gòu)建更為適用,所以大多數(shù)特定的用戶畫像需要一定時間間隔定時的去更新標簽。
3結(jié)束語
針對用戶在社交平臺的影響力分析,國內(nèi)外均缺乏針對性的研究,目前研究大多將研究重點放在信息本身的傳播過程,研究輿情的傳播過程而非研究社交平臺的用戶影響力對信息傳播的影響力。而目前的用戶畫像算法大多也著重于將用戶畫像用于推薦算法當中,缺少將其用于信息傳播判斷當中。在傳統(tǒng)的針對網(wǎng)絡(luò)社交平臺用戶畫像的研究當中,常用基于用戶行為的畫像用于研究用戶的在社交網(wǎng)絡(luò)的行為,從而分析用戶在社交平臺當中的行為,進而判斷用戶的社會影響力。而在有關(guān)文本分析的研究中,文本分析常用于文本情感研究,用于研究用戶的對事件的情感傾向,或者用于對文本內(nèi)容進行分類研究,而對研究用戶發(fā)表的文本對社會的影響力方向,還缺乏實際應(yīng)用研究與應(yīng)用場景。
后續(xù)研究可以結(jié)合用戶畫像與文本分析,將用戶特征與文本信息進行關(guān)聯(lián),研究某一類的用戶在當前環(huán)境下,其表達的內(nèi)容具有怎樣的社會影響力。
參考文獻:
[1] 楊立公,朱儉,湯世平.文本情感分析綜述[J].計算機應(yīng)用,2013,33(6):1574-1578,1607.
[2] 楊開漠,吳明芬,陳濤.廣義文本情感分析綜述[J].計算機應(yīng)用,2019,39(S2):6-14.
[3] 魏韡,向陽,陳千.中文文本情感分析綜述[J].計算機應(yīng)用,2011,31(12):3321-3323.
[4] 譚熒,張進,夏立新.社交媒體情境下的情感分析研究綜述[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(1):1-11.
[5] 羅昌銀,但唐朋,李艷紅,等.基于虛假評論識別的微博評論情感分析的研究與應(yīng)用[J].計算機應(yīng)用與軟件,2019,36(4):55-62.
[6] 張凌,譚毅,朱禮軍,等.負面微博特征分析研究[J].情報理論與實踐,2019,42(7):132-137,170.
[7] 崔彥琛,張鵬,蘭月新,等.消防突發(fā)事件網(wǎng)絡(luò)輿情情感詞典構(gòu)建研究[J].情報雜志,2018,37(10):154-160.
[8] 宋美琦,陳燁,張瑞.用戶畫像研究述評[J].情報科學(xué),2019,37(4):171-177.
[9] 劉海鷗,孫晶晶,蘇妍嫄,等.國內(nèi)外用戶畫像研究綜述[J].情報理論與實踐,2018,41(11):155-160.
[10]高廣尚. 用戶畫像構(gòu)建方法研究綜述[J].現(xiàn)代圖書情報技術(shù),2019(3):25-35.
【通聯(lián)編輯:梁書】