• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于情感常識的微博事件公眾情感趨勢預(yù)測

      2017-06-01 11:29:47任巨偉吳曉芳林鴻飛
      中文信息學報 2017年2期
      關(guān)鍵詞:細粒度常識極性

      任巨偉,楊 亮,吳曉芳,林 原,林鴻飛

      (大連理工大學 信息檢索研究室,遼寧 大連 116023)

      基于情感常識的微博事件公眾情感趨勢預(yù)測

      任巨偉,楊 亮,吳曉芳,林 原,林鴻飛

      (大連理工大學 信息檢索研究室,遼寧 大連 116023)

      微博日益成為一個巨大而復(fù)雜的互聯(lián)網(wǎng)輿論平臺。分析微博中特定話題的情感趨勢對于了解網(wǎng)絡(luò)輿情、分析產(chǎn)品銷量趨勢顯得尤為重要。該文使用微博進行真實事件公眾情感趨勢預(yù)測: 首先,考慮到微博特征稀疏、上下文缺失的特性,借助詞語上下位語義關(guān)系對其進行語義擴充;其次,使用語義特征和情感常識知識構(gòu)造雙層分類方法進行情感分析;最后,對特定事件在連續(xù)時間段內(nèi)的微博使用時序情感分析方法進行公眾情感趨勢預(yù)測。實驗證明,該情感分析方法準確率相對于傳統(tǒng)分類方法有明顯的提高,在此基礎(chǔ)上的情感趨勢預(yù)測符合事件的真實發(fā)展狀況。

      微博;情感分析;語義擴充;情感常識;公眾情感趨勢

      1 引言

      微博,作為Web2.0技術(shù)下的最新社交網(wǎng)絡(luò)應(yīng)用,逐漸成為網(wǎng)民對當前社會現(xiàn)象表達觀點的主流平臺。眾所周知,Twitter是目前國外比較流行的網(wǎng)絡(luò)微博服務(wù)平臺。在國內(nèi),新浪微博是一個繼Twitter之后為人所熟知的中文微博平臺,允許用戶每次發(fā)表少于140字的原創(chuàng)和非原創(chuàng)內(nèi)容表達自己的觀點、心情和實時動態(tài)?,F(xiàn)實世界中,社會事件的演變,以及隨之產(chǎn)生的公眾情緒波動會通過一條條微博映射到虛擬世界中。以微博為橋梁,分析微博虛擬世界中的公眾情感趨勢變化,可以反映人們對于社會現(xiàn)象的真實情緒,甚至預(yù)測人們的下一步情緒變化。因此,分析事件在某一連續(xù)時間段內(nèi)的微博情感趨勢對于了解網(wǎng)絡(luò)輿情甚至預(yù)測產(chǎn)品銷量意義重大。預(yù)測某一特定話題的情感趨勢包括兩個步驟: 情感分析和趨勢預(yù)測。

      傳統(tǒng)的情感分析也即傾向性分析,是將文本分為褒、貶、中三種情感,更細粒度的情感分析是指將文本分為“喜”“怒”“哀”“惡”“懼”“驚”“無情感”七大類。目前已經(jīng)有不少學者專注于產(chǎn)品評論及微博的情感分析研究中。Bo Pang和Bing Liu對當前的情感分析方法通過綜述方式進行總結(jié)[1-2]。傳統(tǒng)的情感分析方法有以下幾種: 機器學習方法[3];基于詞典的模式匹配方法[2];基于圖論中最小割原理的傾向性分析方法[4]。除此之外,Bollen提出使用目前心理學中比較成熟的情緒度量工具(profile of mood states,POMS)將文本分為六大類[5]。機器學習方法例如樸素貝葉斯、最大熵、支持向量機已經(jīng)被應(yīng)用于電影評論分析[6]和微博分析領(lǐng)域,其中Alec Go使用基于互信息特征選擇技術(shù)的貝葉斯分類方法,在Twitter二元褒貶分類方法中[7],其準確率達到了81%,但是該方法在三元分類(褒、貶、中)表現(xiàn)欠佳(準確率只有40%)。在中文微博情感分析領(lǐng)域,謝麗星等人[8]提出了一種基于SVM的三元情感分類方法,結(jié)合主題相關(guān)和無關(guān)特征(比如表情符號、情感詞典、情感短語及上下文),使用多層分類模型進行情感傾向性分類,效果良好。而Li等人結(jié)合社會網(wǎng)絡(luò)分析,在使用詞典的模式匹配方法的同時,考慮微博中鄰居用戶(關(guān)注和粉絲)的觀點傾向性影響,最終確定當前微博的情感傾向性[9]。上述方法關(guān)注點在于微博內(nèi)容本身及相關(guān)的元數(shù)據(jù)信息,但是考慮微博的簡短性,不可避免地會造成上下文缺失和特征稀疏,由此造成的歧義為情感分析帶來了挑戰(zhàn)。一個微博在不同的背景知識下可能顯現(xiàn)不同的情感。如: (1)“為期兩天的高考開始了……”(2)“2010年世界杯即將開始!”同一時間、區(qū)間內(nèi),同樣是兩個事件的開始,第一個微博表達的是悲傷的情感,而第二條卻透漏著喜悅。一個合理的解釋: 在大眾常識知識中,高考通常會給人帶來緊張和不快,而世界杯則常常與“歡樂”和“干杯”相伴。因此,結(jié)合上下文背景信息進行情感分析顯得尤為重要,通過營造微博存在的外部環(huán)境幫助讀者理解一條微博的真實含義。綜上所述,常識知識(e.g. ConceptNet[10])特別是情感常識知識對于輔助微博的情感分析有重要意義。情感趨勢預(yù)測,特別是傾向性趨勢預(yù)測,已經(jīng)廣泛應(yīng)用于股市交易決策[11]、選舉預(yù)測[12]、票房預(yù)測[13]等領(lǐng)域。傳統(tǒng)基于文本的預(yù)測多使用統(tǒng)計回歸模型,例如線性回歸、自回歸(AR)、移動平均自回歸(ARMA),除此之外,分類模型(SVM)也可以應(yīng)用于預(yù)測[14]。

      本文通過對新浪微博特定事件的情感分析探索公眾情感趨勢的變化。首先,針對微博特征稀疏的特點,對微博內(nèi)容進行上下位語義特征的擴充;其次,將情感常識知識引入到細粒度情感分類中,以提高分類準確率;最后,使用基于時間序列的情感分析方法預(yù)測情感趨勢走向,以百度指數(shù)作為基準,對預(yù)測結(jié)果進行評價。

      文章的組織結(jié)構(gòu)如下: 第二部分介紹微博語義擴充、情感常識的構(gòu)成以及在極性分析和細粒度情感分析中的使用方法;第三部分介紹基于情感常識庫的情感分析技術(shù)及實驗結(jié)果對比;第四部分是基于時間序列的大眾情感趨勢預(yù)測及結(jié)果分析;最后一部分為文章結(jié)論。

      2 情感常識知識的構(gòu)造及使用方法

      目前,比較經(jīng)典的情感分析問題常常被看作分類問題,使用SVM和Na?ve Bayes等分類工具解決。本文借助上下位語義擴展和情感常識知識為微博添加細粒度情感標簽;隨后使用細粒度情感和極性之間的映射關(guān)系進行微博的極性判斷。

      2.1 微博上下位語義擴充

      作為短文本,微博上下文缺失和特征稀疏的特性會影響情感分析的準確性。為彌補這一缺點,本文在外部數(shù)據(jù)源中挖掘上下位語義關(guān)系,對微博進行語義擴充。通過使用當前詞的上位詞對原有詞語進行替代和泛化,達到通過背景知識擴充微博語義的效果。例如“這臺寶馬X5很酷!”,而通過從外部語料的上下位語義抽取得知“寶馬X5”的上位詞是“汽車”,于是,該句子就可以泛化為“這臺汽車很酷!”,這樣將“寶馬X5是汽車”這一背景常識加入到微博中,再使用情感常識知識進行情感判斷就顯得簡單。

      上下位關(guān)系抽取使用的是模式匹配技術(shù)[15]??紤]到模式匹配在規(guī)范化文本中的效果顯著,因此,本文選用百度百科*http://baike.baidu.com/語料作為上下位抽取來源,該語料涵蓋了230 000條百科詞條及相關(guān)的詞條解釋。模式匹配方法從中抽取了5 300條上下位詞對,如表1所示。

      表1 上下位詞對舉例

      2.2 情感常識知識構(gòu)造

      常識知識作為背景知識的一種,對短文本理解有重要意義。為了讓機器擁有人的知識背景,輔助決策是智能化發(fā)展的趨勢,因此,常識知識的形式化和構(gòu)造一直是人工智能領(lǐng)域的一個熱門研究話題,其在專家系統(tǒng)和問答系統(tǒng)中扮演著重要的角色[16]。目前,有許多經(jīng)典的常識知識庫,包括WordNet[17]、ConceptNet[18]和HowNet*http://www.keenage.com/html/c_index.html。但是,這些常識知識都與情感無關(guān),無法應(yīng)用于文本情感分析中。本文在目前已有的二元情感常識庫[19]基礎(chǔ)上進行規(guī)范化,提出了一種更加簡單、易擴展的情感常識知識構(gòu)造方法。該情感常識知識包括三個主要部分: 二元情感常識、情感圖式[16]、網(wǎng)絡(luò)熟語或連續(xù)的字符串(如“稀飯”“3Q”“bt”“O(∩_∩)O”)??紤]到使用的方便性和可擴展性,本文用如下形式表示情感常識(CS):CS: (CS_category(CS_content),CS_sentiment)

      CS_content: (“w1”, “w2”,”w3”)or

      (1)

      2.3 情感常識知識在情感分析中的應(yīng)用

      2.3.1 微博細粒度情感分析

      對于經(jīng)過上下位語義擴展后的微博,本文從情感常識知識入手,輔助以情感詞典,進行細粒度情感分類(六類)。將每條微博使用一個六維的向量S表示,每一維代表一類情感,每一維的情感得分都由兩部分組成: 情感常識知識得分Scs和情感詞典得分

      (2)

      (3) 本文使用模式匹配和統(tǒng)計的方法實現(xiàn)情感計算,這里面要用到情感常識知識的三個組成部分: 二元情感常識知識庫、情感圖式和網(wǎng)絡(luò)熟語。考慮到每個部分的表示形式不同,二元情感常識知識庫由二元有序?qū)M成,網(wǎng)絡(luò)熟語為單個詞語或者連續(xù)的字符串(“O(∩_∩)O”),而情感圖式中每個節(jié)點都是一個常識條目,常識之間具有上下位語義關(guān)系,是一種結(jié)構(gòu)化常識[16]。三種常識類別需要設(shè)置三種不同的計算函數(shù)。

      除了情感常識知識和情感詞典(下文統(tǒng)稱為“情感標識”),微博中的否定詞和轉(zhuǎn)折詞在情感分析中也扮演著重要的角色。結(jié)合中文的語法習慣,如果否定詞修飾情感標識(即在情感標識詞所在的滑動窗口中出現(xiàn)),原有的情感標識所表達的情感會有一定的概率發(fā)生轉(zhuǎn)移,該轉(zhuǎn)移概率的獲取是通過對Yang等人的中文情感語料庫[20]統(tǒng)計而來。統(tǒng)計表明,否定詞修飾時,“喜”會轉(zhuǎn)移為“惡”,而“驚”“哀”“怒”“懼”“無情感”有較大概率會轉(zhuǎn)移為“無情感”。此外,在中文語法習慣中,轉(zhuǎn)折詞的出現(xiàn)多意味著對其后出現(xiàn)內(nèi)容的強調(diào),如“但是”“然而”,因此本文處理時使用其后出現(xiàn)的情感標識作為情感分析依據(jù)。

      本文中,微博情感分析以句子為單位,通過標點符號(“?!薄??”“!”“;”)將微博劃分為長句,之后,使用標點符號(“,”“:”“…”)將每個長句劃分為短句。通過短句情感的加和、歸一化計算微博整體情感向量值S。短句中,計算一元情感常識知識和情感詞典時,第i維的情感(ei)統(tǒng)計得分(NS1(ei))可做如下計算。情感詞典是使用的大連理工大學信息檢索實驗室發(fā)布的情感本體[20],包括26 000個帶有情感標簽的詞語。

      (4)

      其中,Vn是否定詞集;win(w)為當前詞w所在的滑動窗口?;瑒哟翱诖笮〉慕?jīng)驗值一般選擇為3[21],即當前情感標識前后3個詞范圍內(nèi)出現(xiàn)否定詞,則當前情感會發(fā)生轉(zhuǎn)移(ei→ej),轉(zhuǎn)移之后的ej類情感得分會增加1。

      二元或者三元情感常識知識(w1,…,wn)(2≤n≤3)情感得分(NS2(ei))計算如下。

      (5)

      其中,常識知識(w1,…,wn)必須在同一個短句中出現(xiàn)??紤]到情感圖式是上下文語義關(guān)系的結(jié)構(gòu)化常識,在計算機中以樹形結(jié)構(gòu)存儲,故在進行模式匹配過程中,采用的是從葉子節(jié)點向根節(jié)點的后序遍歷過程,即從下位詞到上位詞的語用推理過程[16],直到找到匹配節(jié)點為止,若遍歷至根節(jié)點仍不存在匹配節(jié)點,則當前短句沒有情感。

      通過統(tǒng)計打分函數(shù)得到的情感統(tǒng)計得分經(jīng)過對應(yīng)維加和后,需要進行歸一化處理。

      (6)

      其中NSx(ei)為一條微博所有子句情感標識在ei維的情感打分之和,最終的情感標簽即為對應(yīng)向量中的最大值:

      (7)

      2.3.2 微博極性分析

      微博極性分析在細粒度情感分析的基礎(chǔ)上進行,通過極性和情感之間的映射關(guān)系實現(xiàn)極性和細粒度情感的對接。

      表3 極性和細粒度情感之間的映射關(guān)系

      在前文情感統(tǒng)計得分NSx(ei)的基礎(chǔ)上,句子極性得分的計算方法如下。

      (8)

      其中,P+為正向得分,P-為負向得分,最終極性得分P為兩者中的較大值,如果兩者相同且非零,則最終極性決定于微博中最后一個長句的極性;若兩者同為零,則最終極性為中性。

      (9)

      3 基于情感常識知識的情感分類模型

      在前文方法基礎(chǔ)上,本文提出了基于情感常識知識的情感分析方法(sentiment analysis based on affective commonsense knowledge, SAACK),并將其應(yīng)用于極性分類(三類)和細粒度情感分類(七類)中。

      中文微博極性分類使用的是統(tǒng)計分類技術(shù),分類效果較好的是基于信息增益(IG)特征選擇方法的SVM分類技術(shù)[22]。為證明情感常識知識在微博短文本分析中的重要性,本文使用基于情感常識知識的規(guī)則匹配技術(shù)進行極性分類, 并以SVM分類方法[22]作為對比實驗。

      典型的細粒度文本情感計算方法是使用語義特征和本體的方法[23]。另外,在認知角度,一個新的文本情感認知模型(簡稱TACM)被提出[16],該模型使用基于情感圖式和情感詞典的規(guī)則匹配方法進行細粒度情感分析,實驗證明在規(guī)范文本(文摘、課本、博客等)的情感分析中,該方法效果要好于前者。為證明情感常識知識和語義擴展在微博情感分析中的重要性,本文結(jié)合經(jīng)典分類模型(SVM)和情感常識知識規(guī)則匹配方法,構(gòu)造了雙層情感分類模型,并以TACM作為Baseline進行實驗驗證。

      本文使用的語料來自Yang等人[21]情感語料庫中的微博部分,是包含51 000條帶有極性和細粒度情感標簽的新浪微博語料,微博涉及教育、體育、經(jīng)濟等領(lǐng)域。

      3.1 極性分類模型

      為證明情感常識知識在微博極性分析中的有效性,本文采用基于信息增益(IG)特征選擇方法的SVM分類技術(shù)作為Baseline,其中信息增益計算公式如下。

      (10)

      其中,P(c)表示類別分布;H(C) 表示分布P(C)的熵;H(C|w)為條件熵;特征詞w的信息增益的計算方法為發(fā)現(xiàn)詞w前后類別分布P(C)的熵值變化,熵值改變越大表明該特征詞越重要。最后根據(jù)信息增益值進行排序,選擇排序靠前的K個特征作為分類特征進行SVM分類。實驗采用五倍交叉驗證方法。結(jié)果如圖1所示。

      圖1 極性分析準確率

      其中,IG_2000表示使用IG特征選擇方法挑選前2 000個作為分類特征?;谇楦谐WR知識的情感分析方法(SAACK)相對于信息熵得到方法有比較明顯的提升(3%)。結(jié)果表明機器學習方法與模式匹配方法是有區(qū)別的。機器學習方法(比如SVM)作為一個判別式模型,可以通過文本中的顯性特征詞進行分類,對于訓(xùn)練語料比較依賴。它無法從語料中學習深層次的特征或者知識。這就導(dǎo)致“考試開始了”這句話在使用不同的訓(xùn)練語料時顯現(xiàn)出不同的情感。SAACK方法作為一種模式匹配方法,將常識知識作為先驗加入到文本判斷中,豐富了文本的背景知識和語義,在這點上其優(yōu)于SVM。但是,這種方法也有一個不足之處在于情感常識的獲取是有限的,對于未登錄常識或者文本,其無法進行判斷。

      3.2 細粒度情感分類模型

      細粒度情感分類使用的是雙層分類模型。

      第一層,將微博分為有情感和無情感。此二元分類問題使用的是基于IG特征選擇方法的SVM分類技術(shù)(SVM_IG)。為驗證情感常識知識的作用,在分類過程中融合了情感常識特征和IG篩選的特征(CS+IG)。情感和無情感微博分類準確率如圖2所示。兩種方法在不同的特征數(shù)量情況下準確率相當,但是,當特征數(shù)量到達3 000時,兩者都達到峰值,這表明情感常識知識在過濾有情感和無情感微博時存在較大的噪聲,無法凸顯其作用。在特征數(shù)量較少時,存在一定的優(yōu)勢,但并不明顯。

      第二層,將有情感句子劃分為六小類,對于多元分類來說,使用機器學習方法分類準確率比較低,主要與訓(xùn)練語料的大小和各類別之間的規(guī)模有關(guān)。在這層分類中,本文以文本情感認知模型(TACM)[16]作為對比實驗,同時為了驗證情感常識知識中每個模塊的重要程度(貢獻度),實驗設(shè)計中使用排除法分別排除三個模塊中的一個進行實驗驗證。

      實驗表明,基于情感常識知識的情感分析方法(SAACK)結(jié)果要好于對比實驗(TACM),提升度為6.41%(表4)。原因在于情感常識知識作為一種隱藏的先驗知識,可以彌補情感詞典等顯性情感標識的缺陷,豐富微博的內(nèi)在含義,輔助分類。而在情感常識知識的三個模塊中,各模塊的重要性順序為: 二元情感常識>網(wǎng)絡(luò)熟語>情感圖式。這是由于情感圖式作為結(jié)構(gòu)化常識,其構(gòu)造來源于手工標注和同義擴展,是對多數(shù)公認情感誘因的描述總結(jié),對于規(guī)范化文本的情感分析更有意義,對于微博這種形式自由、原創(chuàng)表達較多的文本,其意義不明顯。

      圖2 情感和無情感微博分類準確率

      Sadness/%Surprise/%Angry/%Disgust/%Joy/%Fear/%Micro?Average/%TACM13.363.9210.1830.9067.7221.0147.81SAACK?NetworkIdiom18.116.6011.0636.7474.2819.6553.50SAACK?Schema20.806.9512.7140.6472.6015.7653.54SAACK18.515.8811.7437.3575.2418.6854.22

      4 基于時序的情感預(yù)測及實驗分析

      4.1 微博情感時序分析方法

      微博事件情感趨勢的預(yù)測采用的是時序分析方法。通過對特定事件在同一時間段的微博情感分析,進而預(yù)測現(xiàn)實世界在當前時間段內(nèi)大眾對于此事件所持有的主要情感,對下一步輿論走向或者商品口碑做預(yù)估。預(yù)測結(jié)果的準確性很大部分依賴于時間段的劃分。目前,研究界對于時間段的長度選擇沒有指導(dǎo)性規(guī)則。常用的時間片切分方法是使用自然時間(小時、天、周)。本文使用天和小時作為切分單位,由于時間段過小會造成數(shù)據(jù)稀疏,而時間段過長則會造成過擬合。結(jié)合八小時工作制,本文分別選用半工作日(4小時)和一天作為一個時間片。在一個時間片Δt內(nèi)的情感ei的得分(SRei(Δt))可做如下計算,如式(11)所示。

      (11)

      其中,Nei(Δt)為當前時間片內(nèi)情感為ei的微博數(shù)量,N(Δt)為當前時間片的微博總數(shù)。同理,一個時間片內(nèi)的極性得分PR(Δt)如式(12)所示,其中P(Δt)是當前時間片內(nèi)褒義微博的數(shù)量減去貶義微博的數(shù)量。

      (12)

      對于情感趨勢的評價標準,目前還沒有統(tǒng)一的規(guī)定。本文選用百度指數(shù)*http://index.baidu.com/作為參考標準,判斷情感的走勢是否符合大眾的關(guān)注趨勢。百度指數(shù)(Rindex)是一個反應(yīng)用戶對事件關(guān)注度的指標。它的計算方法是以百度搜索引擎為依托,通過百度新聞中關(guān)于此事件的報道數(shù)量和用戶關(guān)于此事件的實際檢索數(shù)量計算得到。

      (13)

      其中,Nuser(T) 是當前時間片內(nèi)事件T的搜索量;Nnew(T)是百度新聞中過去30天關(guān)于該事件的報道量。之后將該比值除以事發(fā)時間段內(nèi)的最大值,進行歸一化。

      4.2 預(yù)測結(jié)果分析

      預(yù)測使用的語料是新浪微博公共主頁中2010年6月7日-2010年6月13日及2011年8月21日—2011年8月27日兩個時間段的全量微博。微博的內(nèi)容如表5所示,每條微博都有話題標簽“topic”、轉(zhuǎn)發(fā)微博的標簽“ttopic”以及時間信息??紤]到預(yù)測與微博事件有關(guān),本文選擇關(guān)注度較高的公眾事件,過濾掉由某些企業(yè)或組織發(fā)起的宣傳和公益事件,例如“在四大洲享受美味Pizza!”“iPhone美圖應(yīng)用”等,最終我們保留了六個事件作為實驗數(shù)據(jù)(見表6)。下文以“2010年高考”“2010年世界杯”和“謝霆鋒和張柏芝離婚事件”為例進行情感趨勢和關(guān)注度分析。同時,我們將情感趨勢圖與百度指數(shù)趨勢圖一并對比加以解讀,前者表明用戶對于事件的情感變化趨勢,后者表示事件受關(guān)注的程度。

      表5 數(shù)據(jù)集樣例

      圖3為2010年高考情感趨勢圖,圖4為同一時間段的百度指數(shù)趨勢圖。從圖3可以看出整個高考的情感基調(diào)是“喜”,包括前期的“祝福 加 油”和 后 期

      表6 數(shù)據(jù)集詳情

      的“解放釋懷”。6月7日高考開始,百度指數(shù)顯示這天用戶的關(guān)注度達到了峰值(見圖4)。圖3中7號當天“喜”的情感占據(jù)了一半的比例,另一半是無情感,無情感這部分旨在報道事件本身,如“2010年全國#高考#今日拉開大幕,將有957萬考生走進考場。6月7日,廣西南寧多云,氣溫25~29℃,各項氣象條件非常適宜考生的正常發(fā)揮……”而“喜”的情感多為祝福加油“高考的童鞋們,加油加油加油,為你祈禱。黎明的曙光已經(jīng)到來!”8號和9號關(guān)注度和情感比例都有所下滑,10號關(guān)注度到達波谷,而這時正值高考題目討論的時刻,由情感曲線可知,公眾情感由“喜”轉(zhuǎn)“哀”。11號達到另一個關(guān)注度高峰,對應(yīng)這時的情感基調(diào)是“喜”,表達的多為高考后的釋懷和對之后而來的“2010世界杯”的期待,如 “世界杯終于要開始了,哈哈,最近快憋死我了”。

      圖3 2010年高考情感趨勢圖

      圖5為2010年世界杯情感趨勢圖,圖6為同一時間段的百度指數(shù)趨勢圖。主情感基調(diào)是“喜”。整個過程傳遞的是“狂歡”和“放松”的心情,例如, “世界杯月開始,讓我們深呼吸下,準備開始”。世界杯開幕式在6月11日晚22:00,兩圖分別于11號和12號達到一個峰值。10號之前用戶關(guān)注度有上升趨勢,但情感曲線有些波動,具體表現(xiàn)為闡述對各個隊伍的立場,“斗牛士軍團最后一場熱身賽展示了自己作為本屆世界杯最大熱門,其強大的實力和華麗麗的足球風格。熱愛西班牙??!”“南非世界杯,我選擇支持英格蘭隊!快來披上你支持的球隊國旗吧,讓大家知道你的世界杯立場!”

      圖4 2010年高考百度指數(shù)趨勢圖

      圖5 2010年世界杯情感趨勢圖

      圖6 2010年世界杯百度指數(shù)趨勢圖

      圖7為謝霆鋒和張柏芝離婚事件情感趨勢圖,圖8為同一時間段的百度指數(shù)趨勢圖。對比圖7和圖8,該事件被媒體報道發(fā)生在2011年8月21日凌晨0點左右。以24號為分界,前半段表達的是負向“遺憾”的情感,而后半段多為正向的“祝福希望”。用戶的關(guān)注度在22號達到一個小高峰,而情感趨勢顯示該時刻為負向情感高峰,主要表達遺憾的情感,如“從‘鋒芝戀’到‘鋒芝婚變’五年婚姻會毀于一旦么?”25號微博開始出現(xiàn)另一個關(guān)注高峰,情感趨勢線也出現(xiàn)了正向情感高峰,如“兩個糾結(jié)的人 不糾結(jié)了?!薄爸x霆鋒我挺你,你要有更好的人來照顧你?!?/p>

      圖7 謝霆鋒和張柏芝離婚事件情感趨勢圖

      圖8 謝霆鋒和張柏芝離婚事件百度指數(shù)圖

      5 結(jié)束語

      微博作為互聯(lián)網(wǎng)新型公眾輿論平臺正在被越來越多的研究者關(guān)注。本文試圖通過新浪微博預(yù)測現(xiàn)實事件的情感趨勢,為輿論監(jiān)督、產(chǎn)品營銷和優(yōu)化提供更好的理論依據(jù)??紤]到微博的上下文缺失和特征稀疏的特點,理解微博需要一定的背景或常識知識。本文首先通過上下位語義擴展微博的語義表達,其次,結(jié)合手工標注和自動擴展的方法構(gòu)造情感常識庫,并在此基礎(chǔ)上提出了基于情感常識知識的情感分析方法(SAACK)進行文本的極性分類和細粒度情感分類。在真實微博語料中的實驗表明,該方法現(xiàn)相對于目前的分類方法(SVM)和文本情感認知模型(TACM)有明顯的提升。同時,在該方法的基礎(chǔ)上進行的情感時序分析(即情感趨勢預(yù)測)和百度關(guān)注指數(shù)具有較高的吻合度。通過百度關(guān)注和情感趨勢可以發(fā)現(xiàn)不同時間段用戶的關(guān)注度及所持有的主流情感基調(diào)。

      本文研究的前提是話題中途沒有發(fā)生偏移,但在微博事件中話題會發(fā)生偏移。如何發(fā)現(xiàn)話題中的突發(fā)性子話題并預(yù)測子話題情感趨勢是本文的下一步研究工作。同時,如何使用非監(jiān)督和眾包機制實現(xiàn)情感常識的動態(tài)擴展也是本文的下一步的研究方向。

      [1] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135. [2] Liu B. Sentiment analysis and subjectivity[J]. Handbook of natural language processing, 2010, 2: 627-666.

      [3] Pang B, Lee L,Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[C]// Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. Association for Computational Linguistics, 2002: 79-86.

      [4] Pang B, Lee L. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts[C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2004: 271.

      [5] Bollen J, Mao H, Pepe A. Modeling public mood and emotion: Twitter sentiment and socio-economic phenomena[C]//ICWSM 2011: 450-453.

      [6] Joshi M, Das D,Gimpel K, et al. Movie reviews and revenues: An experiment in text regression[C]//Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 293-296.

      [7] Alec G, Lei H, Richa B. Twitter sentiment analysis[R]. Final Projects from CS224N for Spring 2008/2009, The Stanford Natural Language Processing Group, June 6, 2009.

      [8] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1): 73-83.

      [9] Li D,Shuai X, Sun G, et al. Mining topic-level opinion influence in microblog[C]//Proceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012: 1562-1566.

      [10] Singh P. The public acquisition of commonsense knowledge[C]//Proceedings of AAAI Spring Symposium: Acquiring (and Using) Linguistic (and World) Knowledge for Information Access. 2002.

      [11] Oh C, Sheng O. Investigating predictive power of stock micro blog sentiment in forecasting future stock price directional movement[C]// Proceedings of the ICIS. 2011.

      [12] Tumasjan A, Sprenger T O, Sandner P G, et al. Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment[J]. ICWSM, 2010, 10: 178-185.

      [13] Liviu L, Mihaela T. Predicting Product Performance with Social Media[J]. Informatica Economica,2011, 15(2): 46-56.

      [14] Gupta M,Gao J, Zhai C X, et al. Predicting future popularity trend of events in microblogging platforms[J]. Proceedings of the American Society for Information Science and Technology, 2012, 49(1): 1-10.

      [15] Hearst M A. Automatic acquisition of hyponyms from large text corpora[C]// Proceedings of the 14th conference on Computational linguistics-Volume 2. Association for Computational Linguistics, 1992: 539-545.

      [16] 任巨偉, 楊亮, 林鴻飛. 情感圖式構(gòu)造及其在文本情感計算中的應(yīng)用[J]. 江西師范大學學報: 自然科學版, 2013, 37(2): 130-135.

      [17] Fellbaum C. WordNet: an electronic lexical database[R]. Cambridge: MIT Press, 1999.

      [18] Liu H, Singh P. ConceptNet—a practical commonsense reasoning tool-kit[J]. BT technology journal, 2004, 22(4): 211-226.

      [19] 任巨偉, 楊源, 王昊, 等. 二元情感常識庫建設(shè)及其在文本情感分析中的應(yīng)用[J]. 中國科技論文在線精品論文, 2014, 7(4): 291-299.

      [20] Yang L,Lin H F. Construction and application of chinese emotional corpus[C]// Proceedings of lecture notes in computer science(springer),2013(7717): 122-133.

      [21] Wang S, Fan X, Chen X. Chinese short text classification based on hyponymy relation[J]. Journal of Computer Applications, 2010, 30(3): 603-606.

      [22] 陳建美,林鴻飛,基于語法的情感詞匯自動獲取,智能系統(tǒng)學報[J], 2009,4(2): 100-106.

      [23] 劉志明, 劉魯. 基于機器學習的中文微博情感分類實證研究[J]. 計算機工程與應(yīng)用, 2012, 48(1): 1-4.

      [24] 徐琳宏, 林鴻飛. 基于語義特征和本體的語篇情感計算[J]. 計算機研究與發(fā)展, 2007, 44(S2): 356-360.

      Public Sentiment Trend Prediction of Microblog Events Based onAffective Commonsense Knowledge

      REN Juwei, YANG Liang, WU Xiaofang, LIN Yuan, LIN Hongfei

      (Information Retrieval Laboratory, Dalian University of Technology,Dalian, Liaoning 116023, China)

      Microblog is a large and complicated public opinion platform on the Internet. In this paper, we demonstrate how microblogs can be used to predict real world public sentiment trends of events. Firstly, considering the special properties of microblogs, absence of context and sparseness of feature, we use the hyponymy relationship between words to do semantic extension for each microblog. Secondly, with the help of semantic feature and affective commonsense knowledge, we can decide the sentiment of each microblog through constructing a double-layer text classifier. Finally, public sentiment trend prediction of each event is performed by using time series sentiment analysis of microblogs. The experiment results show that our sentiment analysis method has a better performance than state-of-the art classification methods. Besides, the sentiment trends of events are consistent with the development of the real world situation to a large degree.

      microblog; sentiment analysis; semantic expansion; affective commonsense knowledge; public sentiment trend

      任巨偉(1988—),碩士研究生,主要研究領(lǐng)域為情感計算,文本挖掘。E?mail:jwren1988@mail.dlut.edu.cn楊亮(1986—),講師,主要研究領(lǐng)域為情感計算,文本挖掘。E?mail:liang@dlut.edu.cn吳曉芳(1989—),碩士研究生,主要研究領(lǐng)域為知識發(fā)現(xiàn),文本挖掘。E?mail:xfwu@mail.dlut.edu.cn

      2015-01-21 定稿日期: 2015-05-20

      國家自然科學基金(61632011,61562080);遼寧省自然科學基金(201202031,201402003)

      1003-0077(2017)02-0169-10

      TP391

      A

      猜你喜歡
      細粒度常識極性
      融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
      細粒度的流計算執(zhí)行效率優(yōu)化方法
      靠不住的常識
      文苑(2020年11期)2020-11-19 11:45:11
      跟蹤導(dǎo)練(四)
      基于雙線性卷積網(wǎng)絡(luò)的細粒度圖像定位
      近視600度以上,這5條常識務(wù)必知道
      支持細粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      表用無極性RS485應(yīng)用技術(shù)探討
      一種新型的雙極性脈沖電流源
      回歸常識
      河南電力(2015年5期)2015-06-08 06:01:56
      南郑县| 永福县| 怀集县| 闽侯县| 沂源县| 嘉禾县| 大同县| 马边| 牙克石市| 瓦房店市| 涟水县| 南陵县| 通化县| 庆元县| 丰镇市| 黑山县| 苏尼特左旗| 深州市| 博乐市| 冕宁县| 远安县| 钦州市| 江川县| 兰考县| 新化县| 延川县| 南丹县| 吴川市| 湖北省| 平湖市| 武强县| 重庆市| 丹江口市| 广饶县| 沅陵县| 威远县| 土默特右旗| 慈利县| 铁岭县| 辽中县| 屯留县|