• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大規(guī)模情感詞典的構(gòu)建及其在情感分類中的應(yīng)用

      2017-06-01 11:29:47趙妍妍石秋慧
      中文信息學(xué)報(bào) 2017年2期
      關(guān)鍵詞:褒義語(yǔ)料詞典

      趙妍妍,秦 兵,石秋慧,劉 挺

      (1. 哈爾濱工業(yè)大學(xué) 媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;2. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,黑龍江 哈爾濱 150001)

      大規(guī)模情感詞典的構(gòu)建及其在情感分類中的應(yīng)用

      趙妍妍1,秦 兵2,石秋慧2,劉 挺2

      (1. 哈爾濱工業(yè)大學(xué) 媒體技術(shù)與藝術(shù)系,黑龍江 哈爾濱 150001;2. 哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,黑龍江 哈爾濱 150001)

      以微博為代表的社會(huì)媒體的飛速發(fā)展為情感分析方向帶來(lái)巨大的資源,同時(shí)也對(duì)情感分析算法的性能提出了更大的挑戰(zhàn)。其中,現(xiàn)有的情感詞典尤其是中文情感詞典規(guī)模不足是影響情感分析性能的一個(gè)重要因素。為此,該文基于海量的微博數(shù)據(jù),使用簡(jiǎn)單的文本統(tǒng)計(jì)算法,構(gòu)建了一個(gè)十萬(wàn)詞語(yǔ)/詞組的大規(guī)模情感詞典。我們以情感分析的基礎(chǔ)任務(wù)——情感分類為例,將大規(guī)模情感詞典作為特征用于該任務(wù)上,實(shí)驗(yàn)結(jié)果表明大規(guī)模詞典有助于情感分類性能的提高。

      情感詞典; 情感分析; 情感分類; 微博

      1 引言

      社會(huì)媒體,例如,論壇、博客、微博的出現(xiàn),將以往媒體一對(duì)多的傳播方式改變?yōu)橛脩魠⑴c多對(duì)多的“對(duì)話”。因此,隨著社會(huì)媒體的深入發(fā)展和用戶的不斷參與,用戶在互聯(lián)網(wǎng)上產(chǎn)生的數(shù)據(jù)(User Generated Content,UGC)呈爆發(fā)式增長(zhǎng)。根據(jù)新浪的統(tǒng)計(jì)數(shù)據(jù),目前用戶每日發(fā)博量約一億條。UGC信息多是評(píng)論信息,表達(dá)了網(wǎng)民對(duì)某個(gè)事件、某個(gè)人或某款產(chǎn)品的情緒和情感傾向性。UGC信息量的劇增迫切需要情感分析技術(shù)幫助用戶快速獲取和整理這些相關(guān)評(píng)價(jià)信息以了解大眾輿論。因此,海量數(shù)據(jù)給網(wǎng)民的生活提供豐富的信息,為情感分析方向帶來(lái)了巨大的數(shù)據(jù)資源的同時(shí),也對(duì)情感分析算法的性能提出了更大的挑戰(zhàn)。

      (1) 詞典的規(guī)模太小。絕大部分詞典的規(guī)模在一萬(wàn)詞以下,無(wú)法很好的涵蓋瞬息萬(wàn)變的UGC信息。

      (2) 詞典中的詞太過正式。UGC信息的特點(diǎn)是口語(yǔ)化,與詞典中太過正式的詞不符。情感詞典應(yīng)多涵蓋一些網(wǎng)絡(luò)詞匯,例如,“進(jìn)水”(貶義)、“給力”(褒義)等。

      (3) 詞典中僅包括詞語(yǔ),而沒有詞組。很多詞語(yǔ)單獨(dú)來(lái)看沒有極性,然而,合并到一起就具有一定的情感傾向性,例如,“早知道”(貶義)、“怎么又”(貶義)等。

      由于以上問題的存在,為情感分析的很多研究任務(wù)帶來(lái)了困擾。海量的微博數(shù)據(jù)為擴(kuò)大已有的情感詞典規(guī)模提供了新的契機(jī)。在英文詞典方面,Google公司的研究者提出了一種基于圖傳播的算法,在網(wǎng)絡(luò)上挖掘出17萬(wàn)余詞的大規(guī)模的情感詞典,在情感分類任務(wù)上取得了很好的效果[3]。Mohammad等人從tweets中生成了一個(gè)122萬(wàn)詞/詞組的大規(guī)模的情感詞典[4]。然而,在中文情感詞典方面,還沒有類似的大規(guī)模詞典出現(xiàn)?;诖耍疚奶岢隽艘惶酌嫦蚝A课⒉┑拇笠?guī)模情感詞典構(gòu)建算法,并將其應(yīng)用于情感分析的經(jīng)典任務(wù)——情感分類上,實(shí)驗(yàn)證明了該詞典的有效性。

      2 相關(guān)研究

      情感詞語(yǔ)又稱極性詞、評(píng)價(jià)詞,特指帶有情感傾向性的詞語(yǔ)。顯然,情感詞語(yǔ)在情感文本中處于舉足輕重的地位,情感詞語(yǔ)的抽取和極性判斷在情感分析領(lǐng)域創(chuàng)建伊始就引起了人們極大的興致。基于前人大量的研究工作,情感詞語(yǔ)的抽取和判別主要分為基于語(yǔ)料庫(kù)、基于詞典及基于圖模型三種方法。

      基于語(yǔ)料庫(kù)的方法主要是利用大語(yǔ)料庫(kù)的統(tǒng)計(jì)特性,觀察一些現(xiàn)象來(lái)挖掘語(yǔ)料庫(kù)中的情感詞語(yǔ)并判斷極性,例如,由連詞(如and 或but)連接的兩個(gè)形容詞的極性往往存在一定的關(guān)聯(lián)性[5-7]。該方法最大的優(yōu)點(diǎn)在于簡(jiǎn)單易行,缺點(diǎn)則在于可利用的評(píng)論語(yǔ)料庫(kù)有限,同時(shí)情感詞語(yǔ)在大語(yǔ)料庫(kù)中的分布等現(xiàn)象并不容易歸納。

      基于詞典的方法主要是使用詞典中的詞語(yǔ)之間的詞義聯(lián)系來(lái)挖掘情感詞語(yǔ)。這里的詞典一般是指使用WordNet或HowNet等[8-9]?;谠~典的方法的優(yōu)點(diǎn)在于獲取的情感詞語(yǔ)的規(guī)模非常可觀,但是由于很多詞存在一詞多義現(xiàn)象,構(gòu)建的情感詞典往往含有較多的歧義詞。

      基于圖的方法主要將要分類的詞語(yǔ)作為圖上的點(diǎn),利用詞語(yǔ)之間的聯(lián)系形成邊來(lái)構(gòu)建圖,繼而采用各種基于圖的迭代算法來(lái)完成詞語(yǔ)的分類[3,10]?;趫D的方法是一種新穎的方法,它可以靈活地將詞語(yǔ)間的各種聯(lián)系作為特征融入圖中,繼而進(jìn)行迭代計(jì)算。然而,尋找更為有效的詞語(yǔ)間特征以及如何選取圖算法是值得深入研究的問題。

      大部分現(xiàn)有的情感詞典規(guī)模都在一萬(wàn)詞語(yǔ)以下,給情感分析的很多研究任務(wù)帶來(lái)了困擾。為了解決情感詞典的規(guī)模問題,在英文詞典方面,Google公司的研究者提出了一種基于圖傳播的算法在網(wǎng)絡(luò)上挖掘出17萬(wàn)余詞的大規(guī)模的情感詞典[3];此外,還有研究者從tweets中生成了一個(gè)大規(guī)模的情感詞典,包含62 468詞語(yǔ)、677 698二元詞組和480 010不連續(xù)的二元對(duì)[4]。這些詞典均在英文情感分類任務(wù)上取得了很好的結(jié)果。然而,在中文情感詞典方面,情感詞典的規(guī)模依然很有限。例如,北京大學(xué)情感詞典共有449個(gè)詞,大連理工大學(xué)情感詞典共包括27 466個(gè)詞[11],清華大學(xué)情感詞典共包括10 036個(gè)詞[12]。基于此,本文致力于構(gòu)建大規(guī)模的中文情感詞典。

      3 算法介紹

      3.1 總體流程

      面向微博領(lǐng)域的大規(guī)模情感詞典的構(gòu)建流程如圖1所示。該情感詞典構(gòu)建算法包含兩個(gè)步驟。

      (1) 表情符種子獲取: 利用提前構(gòu)建好的情感詞語(yǔ)種子,在一個(gè)較小規(guī)模的微博語(yǔ)料上,為所有的表情符進(jìn)行情感歸類及重要性排序,從而為每類情感選擇出一些相關(guān)性較高的、具有代表性的表情符。

      (2) 情感詞語(yǔ)/詞組情感分值計(jì)算: 利用上一步獲得的表情符種子,在一個(gè)較大規(guī)模的微博語(yǔ)料上,為所有候選情感詞語(yǔ)計(jì)算情感分值(本文使用unigram、bigram和trigram作為候選情感詞語(yǔ)),最后根據(jù)求得的所有候選情感詞語(yǔ)的情感分值的符號(hào)與量級(jí)來(lái)構(gòu)建情感詞典。

      圖1 面向微博領(lǐng)域的大規(guī)模情感詞典的構(gòu)建流程

      根據(jù)調(diào)研,有許多研究者直接使用情感詞語(yǔ)做種子來(lái)構(gòu)建情感詞典。然而,種子情感詞語(yǔ)的規(guī)模畢竟有限,其覆蓋率較低,而表情符的覆蓋率要遠(yuǎn)遠(yuǎn)超過種子情感詞典,使用表情符做種子可以大大提高最終構(gòu)建的情感詞典的規(guī)模。因此,本文在前人工作的基礎(chǔ)上又增加了一步,先利用情感詞語(yǔ)種子來(lái)獲取表情符種子,然后利用獲取的表情符種子來(lái)構(gòu)建情感詞典。接下來(lái)就對(duì)本文使用的面向微博的大規(guī)模情感詞典構(gòu)建算法中包含的兩個(gè)核心模塊進(jìn)行詳細(xì)介紹。

      3.2 表情符種子獲取

      在新浪微博中,用戶可以使用的表情符的數(shù)量達(dá)上千個(gè)。然而,真正被用戶所廣泛使用且能夠較準(zhǔn)確代表用戶情感的表情符卻只有很少的一部分。因此,我們不僅需要對(duì)所有的表情符進(jìn)行分類,以確定它們的情感傾向,而且需要對(duì)每種類別的表情符的重要性進(jìn)行排序,以獲取最能夠代表對(duì)應(yīng)情感傾向的表情符,移除情感傾向模糊的表情符。受LI等人工作的啟發(fā)[13],我們使用式(1)來(lái)衡量表情符ej屬于情感傾向i(i∈{positive, negative})的概率。

      (1)

      其中,COF(ej,wk)表示表情符ej與情感傾向i的詞典(有兩個(gè)種子詞典: 褒義種子詞典和貶義種子詞典)中第k個(gè)情感詞wk在微博語(yǔ)料中的共現(xiàn)頻次;freq(ej)代表表情符ej在語(yǔ)料中出現(xiàn)的頻次;分母的作用是歸一化。參數(shù)n代表了情感傾向i的詞典的種子詞語(yǔ)的個(gè)數(shù),m代表了情感傾向詞典的個(gè)數(shù),在本文中,m=2。

      為了統(tǒng)計(jì)wk的頻次和ej與wk的共現(xiàn)頻次,我們需要爬取一定數(shù)量的微博語(yǔ)料。本文使用微博爬蟲通過新浪微博提供的API接口爬取到的2013年3月的數(shù)據(jù),經(jīng)過過濾、去除廣告等預(yù)處理后,得到約400萬(wàn)條的微博數(shù)據(jù)。本文用到的種子情感詞典來(lái)自于北京大學(xué)發(fā)布的情感資源,共包括褒義詞86個(gè),貶義詞396個(gè),褒義表情符11個(gè),貶義表情符17個(gè)。

      基于這些微博語(yǔ)料和詞典資源,我們可以為上千個(gè)微博表情符計(jì)算他們屬于褒義傾向和貶義傾向的概率,并根據(jù)概率值進(jìn)行排序。我們?nèi)斯ぬ暨x了一些排序靠前的表情符來(lái)代表對(duì)應(yīng)的情感傾向,具體如表1所示。

      表1 表情符及其情感傾向

      3.3 情感詞語(yǔ)/詞組情感分值計(jì)算

      為了能夠獲取更大規(guī)模的情感詞典,單使用表情符來(lái)代替情感詞語(yǔ)做種子是遠(yuǎn)遠(yuǎn)不夠的,更重要的是必須有一個(gè)大規(guī)模的語(yǔ)料集。為此,本文整合了通過微博爬蟲爬取的從2013年4月到2014年3月共12個(gè)月的微博數(shù)據(jù)作為生成情感詞典的語(yǔ)料,約14.6億條微博數(shù)據(jù),大小約360GB。獲取情感詞典的種子使用的則是我們前文所述的已經(jīng)構(gòu)建好的種子表情符。

      我們假設(shè)微博中使用的表情符的情感傾向和微博文本本身的情感傾向是一致的,那么如果一條微博中包含任意一個(gè)褒義的表情符種子,那么我們就認(rèn)為這條微博是褒義的;同樣的,如果一條微博中包含任意一個(gè)貶義的表情符種子,那么我們就認(rèn)為這條微博是貶義的;如果一條微博中同時(shí)包含褒義和貶義的表情符種子,那么我們就棄用該微博。根據(jù)這種方法,我們共收集了約4GB的褒義微博數(shù)據(jù),約2.5GB的貶義微博數(shù)據(jù)。后文將在這個(gè)數(shù)據(jù)集的基礎(chǔ)上來(lái)生成情感詞典。

      我們從上述微博語(yǔ)料中抽取N-gram(unigram、bigram和trigram)作為候選情感詞,目的即為候選情感詞進(jìn)行情感分值的計(jì)算以從候選情感詞中抽取出真正的具有情感傾向性的詞語(yǔ)。在計(jì)算N-gram的情感分值的過程中,我們主要使用到了點(diǎn)互信息。點(diǎn)互信息( pointwise mutual information,PMI),常用于衡量?jī)蓚€(gè)變量x和y之間的相關(guān)性。點(diǎn)互信息的數(shù)學(xué)表達(dá)如式(2)所示。

      (2)

      每一個(gè)候選情感詞w與對(duì)應(yīng)情感傾向的相關(guān)性分值可以使用式(3)計(jì)算得到。

      (3)

      其中,w為候選情感詞,Ep代表所有情感極性為褒義的表情符種子,En代表所有情感極性為貶義的表情符種子。SCORE的極性表示w與哪種情感類別相關(guān),具體的,正值為褒義,負(fù)值為貶義;SCORE的量級(jí)則表示w與相應(yīng)情感類別相關(guān)的程度,具體的,值越大,越相關(guān)。

      基于以上簡(jiǎn)單的文本統(tǒng)計(jì)算法,本文得到了一個(gè)較大規(guī)模的情感詞典。該詞典的詳細(xì)信息見表2。表中數(shù)據(jù)顯示,該方法獲取的情感詞典的規(guī)模非常大,在后續(xù)實(shí)驗(yàn)中,我們發(fā)現(xiàn)該詞典的大規(guī)模為計(jì)算帶來(lái)了較大困難。此外,SCORE絕對(duì)值比較小的一些候選情感詞很多不具有情感傾向性。因此,在實(shí)驗(yàn)部分,我們將通過設(shè)置閾值來(lái)對(duì)該詞典進(jìn)行過濾,以獲取一個(gè)有效的大規(guī)模情感詞典。

      表2 過濾前的大規(guī)模情感詞典

      4 實(shí)驗(yàn)與分析

      為了驗(yàn)證本文構(gòu)建的大規(guī)模情感詞典的有效性,我們將其用在情感分析的經(jīng)典任務(wù)——情感分類上面。具體為,判斷一條微博的情感傾向?yàn)榘x、貶義還是中性。

      4.1 數(shù)據(jù)

      為了反映微博數(shù)據(jù)的真實(shí)情況,我們從新浪微博的數(shù)據(jù)中隨機(jī)選擇了8 512條微博,并請(qǐng)三位標(biāo)注者同時(shí)對(duì)這些微博數(shù)據(jù)進(jìn)行了人工標(biāo)注。標(biāo)注者根據(jù)微博文本的情感傾向?qū)⑺形⒉┓譃榘x、貶義和中性三個(gè)類別,若有標(biāo)注結(jié)果不一致的情況,則使用投票的方法決定微博文本的情感類別。這些微博數(shù)據(jù)的人工標(biāo)注結(jié)果統(tǒng)計(jì)如表3所示。

      表3 人工標(biāo)注結(jié)果統(tǒng)計(jì)

      鑒于語(yǔ)料規(guī)模有限,我們使用五折交叉驗(yàn)證的方法來(lái)進(jìn)行驗(yàn)證,實(shí)驗(yàn)使用支持向量機(jī)模型,對(duì)語(yǔ)料進(jìn)行褒義、貶義或中性的三元情感分類。

      4.2 詞典規(guī)模有效性驗(yàn)證

      由表2可知,本文構(gòu)建的情感詞典的規(guī)模是非常龐大的。為了獲取有效的情感詞典,我們將其應(yīng)用于情感分類任務(wù)上,并選擇了簡(jiǎn)單有效的基于特征分類的情感分類算法[14]。具體的,針對(duì)一條微博,提取的特征除了BOW(bag of words)特征外,根據(jù)大規(guī)模詞典還加入了兩維特征,分別是該微博中包含詞典中的褒義詞的個(gè)數(shù)與貶義詞的個(gè)數(shù)。由于本文構(gòu)建的情感詞典由unigram、bigram和trigram構(gòu)成,我們分別就這三個(gè)部分對(duì)情感分類性能的影響進(jìn)行了實(shí)驗(yàn),以確定詞典中這三個(gè)部分的規(guī)模。

      我們依次累積增大三個(gè)詞典的使用規(guī)模,以驗(yàn)證詞典規(guī)模對(duì)情感分類性能的影響。圖2、圖3及圖4分別展示了情感分類的準(zhǔn)確率隨unigram、best unigram + bigram*best unigram是指我們?cè)跍y(cè)試bigram情感詞典規(guī)模的時(shí)候,是在最優(yōu)的unigram的基礎(chǔ)上進(jìn)行測(cè)試的。和best unigram + best bigram + trigram*best unigram+best bigram是指我們?cè)跍y(cè)試trigram情感詞典規(guī)模的時(shí)候,是在最優(yōu)的unigram和bigram的基礎(chǔ)上進(jìn)行測(cè)試的。情感詞典規(guī)模的變化而變化的趨勢(shì)。其中,縱軸表示微博情感分類的準(zhǔn)確率,橫軸表示使用的情感詞典的規(guī)模(例如,BOW+2 000表示除了使用BOW特征以外,還使用褒義、貶義各2 000個(gè)詞語(yǔ),即總共4 000個(gè)情感詞語(yǔ))。

      圖2 情感分類的性能與unigram情感詞典規(guī)模的相關(guān)性

      圖3 情感分類的性能與bigram情感詞典規(guī)模的相關(guān)性

      圖4 情感分類的性能與trigram情感詞典規(guī)模的相關(guān)性

      通過分析可知: (1)對(duì)于unigram情感詞典,隨著對(duì)其使用規(guī)模的增加,情感分類的準(zhǔn)確率有顯著提升;當(dāng)其褒義、貶義情感詞語(yǔ)各使用20 000時(shí)分類準(zhǔn)確率達(dá)到最大,比單獨(dú)使用BOW提高了1.84%;當(dāng)其褒義、貶義情感詞各使用28 000時(shí)性能開始急速下降,這可能與后續(xù)加入的unigram的情感分值較低,以至于引入大量噪聲有關(guān)。(2)對(duì)于bigram情感詞典,當(dāng)其褒義、貶義情感詞各使用18 000時(shí)性能達(dá)到最優(yōu),在BOW+unigram獲取的最優(yōu)性能的基礎(chǔ)上又進(jìn)一步提高了0.56%;當(dāng)其褒義、貶義情感詞語(yǔ)各使用22 000時(shí)性能明顯下降;進(jìn)一步加大使用規(guī)模后雖然性能稍有提升,但普遍較低。(3)對(duì)于trigram情感詞典,當(dāng)其褒義、貶義情感詞各使用12 000時(shí)性能達(dá)到最優(yōu),在BOW+unigram+bigram獲取的最優(yōu)性能的基礎(chǔ)上又進(jìn)一步提高了0.26%;進(jìn)一步加大使用規(guī)模后的分類性能也同bigram一樣,雖然局部有所提升,但準(zhǔn)確率普遍較低,我們認(rèn)為這與新加入的情感詞語(yǔ)的質(zhì)量較差有很大關(guān)系。

      基于以上的分析,最終我們的大規(guī)模情感詞典的分布情況如表4所示。

      表4 過濾后的大規(guī)模情感詞典

      4.3 與其他詞典的對(duì)比

      除了我們自己構(gòu)建的面向微博的大規(guī)模情感詞典以外,本文還使用了其他四個(gè)開源的情感詞典資源,它們分別來(lái)自清華、北大、大連理工及知網(wǎng),詳見表5。為了對(duì)比我們自己構(gòu)建的情感詞典與其他的情感詞典資源的性能,本文進(jìn)行了如下的實(shí)驗(yàn),其中:

      表5 詞典規(guī)模統(tǒng)計(jì)

      (1) BOW(bag of words)+ALL(all lexicon feature): 表示在BAG OF WORDS特征的基礎(chǔ)上使用全部的情感詞典資源(包括我們自己構(gòu)建的詞典以及其他的四個(gè)詞典資源);

      (2) BOW+ALL-Our: 表示在BAG OF WORDS特征的基礎(chǔ)上使用除了我們自己構(gòu)建的情感詞典以外的全部詞典資源;

      (3) BOW+ALL-HowNet: 表示在BAG OF WORDS特征的基礎(chǔ)上使用除了知網(wǎng)的情感詞典以外的全部詞典資源;

      (4) BOW+ALL-DUT: 表示在BAG OF WORDS特征的基礎(chǔ)上使用除了大連理工的情感詞典以外的全部詞典資源;

      (5) BOW+ALL-Peking: 表示在BAG OF WORDS特征的基礎(chǔ)上使用除了北大的情感詞典以外的全部詞典資源;

      (6) BOW+ALL-Tsinghua: 表示在BAG OF WORDS特征的基礎(chǔ)上使用除了清華的情感詞典以外的全部詞典資源。

      各詞典的性能對(duì)比詳見表6。

      表6 各情感詞典性能對(duì)比

      通過分析表6可知,本文構(gòu)建的情感詞典的性能要顯著得優(yōu)于其它四類情感詞典。但是從表6也可以發(fā)現(xiàn),本文的情感詞典并不能夠完全替代其他四類情感詞典。在使用了本文構(gòu)建的情感詞典的基礎(chǔ)上再使用這些情感詞典資源,對(duì)情感分類的性能仍能有一定的提升。

      4.4 在情感分類任務(wù)上的應(yīng)用

      本文選取了情感分類任務(wù)作為構(gòu)建的大規(guī)模情感詞典的應(yīng)用點(diǎn)。為了測(cè)試該詞典的有效性,我們借鑒最經(jīng)典的英文情感分類系統(tǒng)NRC-Canada[10]來(lái)構(gòu)建我們的基于SVM分類器的情感分類系統(tǒng)。對(duì)比實(shí)驗(yàn)設(shè)計(jì)如下:

      (1) Baseline: 使用NRC-Canada系統(tǒng)中適用于中文微博的特征,其中,在詞典部分,我們使用了表6中除了我們的詞典的所有四個(gè)詞典作為特征進(jìn)行微博情感分類;

      (2) Baseline + Our(我們的詞典): 在Baseline系統(tǒng)的基礎(chǔ)上,引入兩維特征,分別是該微博中包含詞典中的褒義詞的個(gè)數(shù)與貶義詞的個(gè)數(shù),基于此進(jìn)行微博情感分類。

      對(duì)比實(shí)驗(yàn)結(jié)果如表7所示。

      表7 在情感分類任務(wù)上的對(duì)比實(shí)驗(yàn)

      通過分析表7可知,本文構(gòu)建的面向微博的大規(guī)模情感詞典能夠顯著得提升微博情感分類的性能(1.13%),充分證明了該詞典的有效性。

      5 結(jié)論

      為了解決現(xiàn)有的中文情感詞典的規(guī)模小、口語(yǔ)化詞語(yǔ)少以及缺少情感詞組等問題,本文面向海量的微博數(shù)據(jù),提出了一種簡(jiǎn)單的構(gòu)建大規(guī)模情感詞典的方法,并構(gòu)建了一個(gè)規(guī)模為10萬(wàn)詞語(yǔ)/詞組的情感詞典。本文將該詞典應(yīng)用于情感分類任務(wù)上,實(shí)驗(yàn)結(jié)果表明: 本文構(gòu)建的大規(guī)模情感詞典的性能要遠(yuǎn)超其他中文情感詞典;此外,將本文的情感詞典融入經(jīng)典的微博情感分類算法中,能夠顯著的提高該算法的實(shí)驗(yàn)性能。

      [1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8): 1834-1848.

      [2] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval. 2008,2(1-2): 1-135.

      [3] L Velikovich, S Blair-Goldensohn, K. Hannan, R McDonald. The viability of web-derived polarity lexicons[C]//Proceedings of the NAACL, 2010: 777-785.

      [4] S Mohammad, S Kiritchenko, X Zhu. NRC-Canada: Building the state-of-the-art in sentiment analysis of tweets[C]//Proceedings of the Second Joint Conference on Lexical and Computational Semantics (*SEM), 2013: 321-327.

      [5] V Hatzivassiloglou, K McKeown. Predicting the semantic orientation of adjectives[C]//Proceedings of the EACL, 1997: 174-181.

      [6] J Wiebe. Learning subjective adjectives from corpora[C]//Proceedings of the AAAI, 2000: 735-740.

      [7] P Turney, M Littman. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Trans. on Information Systems, 2003,21(4): 315-346.

      [8] SKim, E Hovy. Automatic detection of opinion bearing words and sentences[C]//Proceedings of the IJCNLP, 2005: 61-66.

      [9] S Kim, E Hovy. Identifying and analyzing judgment opinions[C]//Proceedings of the NAACL, 2006: 200-207.

      [10] D Rao, D Ravichandran. Semi-Supervised polarity lexicon induction[C]//Proceedings of the EACL, 2009: 675-682.

      [11] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.

      [12] 李軍. 中文評(píng)論的褒貶義分類實(shí)驗(yàn)研究[D].清華大學(xué)碩士學(xué)位論文,2008.

      [13] F Li, S Pan, O Jin, et al. Cross-Domain Co-Extraction of Sentiment and Topic Lexicons[C]//Proceedings of the 50th ACL, 2012: 410-419.

      [14] B Pang, L Lillian, V Shivakumar. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of the EMNLP, 2002: 79-86.

      Large-scale Sentiment Lexicon Collection and Its Applicationin Sentiment Classification

      ZHAO Yanyan1, QIN Bing2, SHI Qiuhui2, LIU Ting2

      (1. Department of Media Technology and Art, Harbin Institute of Technology, Harbin, Heilongjiang 150001, China;2. Department of Computer Science and Technology, Harbin Institute of Technology,Harbin, Heilongjiang 150001, China)

      Rapid development of social media, such as Micro-blog, brings lots of information as well as challenges for sentiment analysis. The limited size of Chinese sentiment lexicon is one critical influence on the performances of sentiment analysis. This paper proposes a simple statistical method to mine large amounts of sentiment words or phrases to construct a large scale 100,000 words/phrases from microblogs. We apply this large-scale lexicon to Chinese microblog sentiment classification, and the results confirm a clear performance improvement.

      sentiment lexicon; sentiment analysis; sentiment classification; chinese microblog

      趙妍妍(1983—),講師,主要研究領(lǐng)域?yàn)榍楦蟹治?。E?mail:yyzhao@ir.hit.edu.cn秦兵(1968—),教授,主要研究領(lǐng)域?yàn)槲谋就诰?、情感分析。E?mail:bqin@ir.hit.edu.cn石秋慧(1989—),碩士研究生,主要研究領(lǐng)域?yàn)榍楦蟹治?。E?mail:qhshi@ir.hit.edu.cn

      2016-09-27 定稿日期: 2016-10-15

      中國(guó)博士后科學(xué)基金(2012M520740, 2013T60373, 2012M520142)

      1003-0077(2017)02-0187-07

      TP391

      A

      猜你喜歡
      褒義語(yǔ)料詞典
      “明目張膽”原是褒義
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      “點(diǎn)”的覺醒
      國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
      說(shuō)句好話挺難
      雜文選刊(2013年5期)2013-05-14 13:38:07
      托里县| 太仆寺旗| 巫溪县| 甘南县| 佛山市| 滦南县| 修文县| 泉州市| 航空| 长乐市| 新龙县| 兰西县| 泸州市| 新巴尔虎左旗| 广安市| 浦东新区| 阆中市| 山西省| 漠河县| 锦州市| 温州市| 盐城市| 绥中县| 沈阳市| 洪洞县| 遵化市| 双流县| 镶黄旗| 鸡西市| 台北县| 澄迈县| 宝坻区| 盐亭县| 阳信县| 民县| 历史| 乐山市| 旅游| 周宁县| 和林格尔县| 崇文区|