• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于表情和語氣的情感詞典用于彈幕情感分析

      2020-08-12 02:35:26邱全磊崔宗敏
      計算機技術(shù)與發(fā)展 2020年8期
      關(guān)鍵詞:彈幕語氣詞典

      邱全磊,崔宗敏,喻 靜

      (九江學(xué)院 信息科學(xué)與技術(shù)學(xué)院,江西 九江 332005)

      0 引 言

      近年來,隨著網(wǎng)絡(luò)視頻行業(yè)的快速發(fā)展,網(wǎng)絡(luò)視頻用戶規(guī)模的不斷擴大,彈幕評論越來越受到人們的歡迎。彈幕是一種新興的,及時更新的互動評論系統(tǒng),它以滾動字幕的方式直接顯示在視頻界面上,有助于加深觀眾對視頻內(nèi)容的理解,也可以促進觀眾之間的交流。隨著彈幕功能在各大視頻網(wǎng)站的流行,彈幕中的情感信息越來越具有普遍性和參考性,這些情感信息能準確地反映用戶在觀看視頻的即時情感和褒貶評價。

      目前,國內(nèi)外對于彈幕的研究取得了一定的研究成果,但是主要是從傳播角度出發(fā),關(guān)注用戶心理、傳播結(jié)構(gòu)和運營模式等[1-4]。由于彈幕本身的特點,比如文本內(nèi)容較短,口語化現(xiàn)象突出,網(wǎng)絡(luò)用語較多,用語不規(guī)范等,所以對彈幕進行精準的情感分析仍然存在很大的挑戰(zhàn)。

      現(xiàn)有的對彈幕進行情感分析的方法中[5-9],沒有考慮顏文字表情對情感分析的影響,顏文字表情在文本預(yù)處理階段經(jīng)常會被過濾掉,同時也忽視了語氣詞在情感表達中的作用,語氣詞通常被認為是沒有意義可以被省略的停用詞,這影響了情感分析的準確率。

      為了解決以上問題,構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析,即EMBA方法(emotional dictionary based on emoticons and modal for barrage sentiment analysis)。該方法針對彈幕中顏文字表情的大量使用情況,提高了情感分析的準確率,同時,考慮了語氣詞的作用,增強了彈幕情感分析的效果。實驗結(jié)果表明,該方法比現(xiàn)有的方法在彈幕情感分析領(lǐng)域具有更好的性能。

      1 構(gòu)建情感詞典

      1.1 基礎(chǔ)情感詞典

      文中采用BosonNLP情感詞典作為基礎(chǔ)情感詞典,與傳統(tǒng)的情感詞典[10]相比,BosonNLP情感詞典是從微博、新聞、論壇等數(shù)據(jù)來源的上百萬篇情感標注數(shù)據(jù)當(dāng)中自動構(gòu)建的情感極性詞典。因為標注包括微博數(shù)據(jù),該詞典囊括了很多網(wǎng)絡(luò)用語及非正式簡稱,對非規(guī)范文本也有較高的覆蓋率。BosonNLP情感詞典收錄了114 472個情感詞匯,按照情感傾向和情感強度對情感詞進行了賦權(quán)。其中,褒義情感詞的權(quán)重為正,貶義情感詞的權(quán)重為負,情感詞的權(quán)重范圍為[-7,7]。

      1.2 彈幕表情詞典

      自從第一個表情符號“:-)”于1982年在Carnegie Mellon公告牌上創(chuàng)建以來,這些基于ASCII的表情符號已被廣泛用于表達人類的情感[11]。顏文字表情能夠生動形象地表情達意,在彈幕中深受人們的歡迎。文中使用的顏文字表情來自搜狗輸入法顏文字表情詞庫,包括21個類別的802個表情符號。目前對于顏文字表情的研究主要以傳播學(xué)為主[11-13],將顏文字表情應(yīng)用于情感分析的研究很少,如何確定顏文字表情的權(quán)重是一個挑戰(zhàn)。文中通過調(diào)查統(tǒng)計的形式讓九名研究人員根據(jù)表情類別確定表情權(quán)重,最后取平均值得到表情類別對應(yīng)的表情權(quán)重。最終得到了21類表情符號及其對應(yīng)的情感值,表情詞典格式如表1所示。

      表1 表情詞典

      1.3 彈幕領(lǐng)域詞典

      由于網(wǎng)絡(luò)文化與時俱進的發(fā)展和彈幕文本的特殊性,彈幕中仍會不斷出現(xiàn)新的領(lǐng)域情感詞匯,這些詞匯都無法在現(xiàn)有的情感詞典中找到。因此,文中使用SO-PMI算法[14]構(gòu)建彈幕領(lǐng)域詞典對基礎(chǔ)情感詞典進行擴展。首先確定基準詞,然后獲取情感詞候選詞,通過計算確定候選詞的情感傾向,最后將候選詞匯加入彈幕領(lǐng)域詞典中。

      SO-PMI是將PMI方法引入計算詞語的情感傾向中,從而達到捕獲情感詞的目的。作為SO計算的一部分,Pointwise Mutual Information (PMI)對于根據(jù)正面和負面陳述計算短語之間的強度至關(guān)重要[15]。它的基本思想是計算同時出現(xiàn)在文本中兩個單詞的概率,概率越大,相關(guān)性越大,連接越接近。PMI計算公式如公式(1)所示。

      (1)

      其中,p(x,y)表示兩個詞語word1與word2共同出現(xiàn)的概率,p(x)是word1單獨出現(xiàn)的概率,p(y)是word2單獨出現(xiàn)的概率。如果word1和word2之間存在真正的關(guān)系,則p(word1&word2)出現(xiàn)的概率將遠大于p(word1)p(word2),log(word1word2)大于0。

      使用SO-PMI計算未記錄單詞word1的情感值的公式如下:

      (2)

      其中,Pwords是一組褒義詞,Nwords是一組貶義詞,這些情感詞傾向性非常明顯,非常具有代表性。通過SO-PMI值與閾值0的比較,將未記錄詞word1分類成積極,中性或消極的情感詞,比如word1的SO-PMI值大于0時, word1被識別為積極的情感詞。

      1.4 語氣詞典

      語氣詞通常被認為是沒有意義的詞匯,被列入停用詞當(dāng)中被過濾掉,然而,因為彈幕口語化、極簡化的特點,彈幕中存在許多完全由語氣詞組成的彈幕,如彈幕“哈哈”“嗷嗷”。如果把這些語氣詞當(dāng)作停用詞過濾掉,將影響彈幕的情感分析效果。

      表2 語氣詞典

      文中利用1.3中提到的SO-PMI算法構(gòu)建彈幕語氣詞典。因為語氣詞的情感強度低于普通的情感詞強度,所以設(shè)定語氣詞情感值范圍為[-3,3]。利用SO-PMI算法,從彈幕文本中提取出語氣詞,根據(jù)語氣詞的SO-PMI值確定其情感值:當(dāng)語氣詞的SO-PMI值處于0到5范圍內(nèi),語氣詞情感值為1;當(dāng)SO-PMI值大于15時,語氣詞情感值恒等于3,以此類推。將語氣詞及確定的情感值加入語氣詞典,最終的語氣詞典格式如表2所示。

      1.5 程度詞典

      文中采用知網(wǎng)提供的程度級別詞典,在實際對彈幕文本進行分析時,發(fā)現(xiàn)彈幕里存在網(wǎng)絡(luò)流行詞匯以及非正式的詞匯當(dāng)作程度副詞使用的情況,如“灰常”表示程度副詞“非?!?,“敲”表示程度副詞“超”,走召”表示程度副詞“超”,將這些特殊的詞匯整合添加進程度詞典中,以提高情感分析的準確度,最終得到了由228個程度副詞組成的程度詞典。程度副詞級別及權(quán)重如表3所示。

      表3 程度詞典

      1.6 否定詞典

      當(dāng)否定詞修飾情感詞時,情感傾向一般都會發(fā)生反轉(zhuǎn),文中整理了彈幕中常用的71個否定副詞構(gòu)成否定詞典,否定詞權(quán)重設(shè)為-1。

      1.7 網(wǎng)絡(luò)詞典

      隨著互聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了很多網(wǎng)絡(luò)詞匯,這些詞匯不同于傳統(tǒng)的詞語,它們更加精簡以及口語化,部分網(wǎng)絡(luò)詞匯具有強烈的情感色彩,例如“賽高”,“筆芯”“打call”。文中從搜狗輸入法的詞庫中整理篩選出最常用的網(wǎng)絡(luò)情感新詞并賦予其情感值,從而完成了網(wǎng)絡(luò)詞典的創(chuàng)建。

      2 程度計算

      如果一條彈幕說“好看”,另一條彈幕說“非常好看”,還有一條彈幕說“不好看”,若這3個彈幕的情感值一樣,顯然是不合理的,因此,需要對彈幕的情感程度進行量化,用以區(qū)分不同程度的“好看”。同理,一個人發(fā)出撒花的彈幕,如果撒花后面加了感嘆號,顯然情感強度應(yīng)該和沒加的時候不同。下面給出相關(guān)定義。

      2.1 情感詞程度計算

      定義1(程度詞)。當(dāng)情感詞前面被程度詞修飾時,情感詞修正權(quán)重的計算規(guī)則為:

      W=Wdeg*Wk

      (3)

      定義2(否定詞)。當(dāng)情感詞前面被否定詞修飾時,情感詞修正權(quán)重的計算規(guī)則為:

      W=(-1)n*Wk

      (4)

      情感詞前面同時出現(xiàn)負面詞和程度詞的情況分為兩類,一類是“否定詞+程度詞+情感詞”,這種表達方式對情感強度的影響較弱。另一種是“程度詞+否定詞+情感詞”,這種表達方式對情感強度有增強作用。這兩種方式對句子情感權(quán)重有一定的影響。例如,“不太好看”和“太不好看”,顯然,第一句話的情感強度弱于第二句話。

      定義3(程度詞+否定詞)。當(dāng)情感詞前面被程度詞+否定詞修飾時,情感詞修正權(quán)重的計算規(guī)則為:

      W=(-1)n*Wdeg*Wk*2

      (5)

      定義4(否定詞+程度詞)。當(dāng)情感詞前面被否定詞+程度詞修飾時,情感詞修正權(quán)重的計算規(guī)則為:

      W=(-1)n*Wdeg*Wk*0.5

      (6)

      其中,W是修正以后的情感詞情感值,Wdeg是程度詞對應(yīng)的修正系數(shù),Wk是情感詞情感值,n為否定詞的個數(shù)。

      2.2 句型程度計算

      定義5(彈幕句型)。不同句型的彈幕對應(yīng)的情感強度各不相同,定義句型影響系數(shù)X,X默認為1。

      規(guī)則1:如果彈幕類型為感嘆句,即彈幕里出現(xiàn)了“!”或“!”,X=2。

      規(guī)則2:如果彈幕類型為疑問句,即彈幕里出現(xiàn)了“?”或“?”,且彈幕中沒有出現(xiàn)反問標志詞(例如“難道”),X=1。

      規(guī)則3:如果彈幕類型為反問句,即彈幕出現(xiàn)了“?”或“?”,且彈幕中出現(xiàn)了反問標志詞(例如“難道”),X=1.5。

      綜上所述:彈幕句型修正計算公式如下:

      Mi=Si*X

      (7)

      其中,Mi為經(jīng)過句型修正之后的第i個句子的情感值,Si為彈幕中第i個句子的初始情感值,X是句型影響系數(shù)。

      3 彈幕情感值計算

      在第一章構(gòu)建好情感詞典和第二章確定程度計算規(guī)則的基礎(chǔ)上,下面對彈幕的情感值進行計算。

      3.1 句子情感值計算公式

      Si=∑W+∑Em

      (8)

      其中,W是修正后的情感詞的情感值,Em是顏文字表情的情感值,Si是彈幕中第i個句子的情感值。

      3.2 彈幕情感值計算公式

      設(shè)彈幕的最終情感值為C,最終彈幕情感值C的計算公式如下:

      C=∑Mi

      (9)

      如果C>0,則將這條彈幕判定為積極的彈幕;如果C=0,則將這條彈幕判定為中性的彈幕;如果C<0,則將這條彈幕判定為消極的彈幕。

      4 實驗分析

      4.1 實驗數(shù)據(jù)

      文中爬取了嗶哩嗶哩網(wǎng)站動畫,番劇,音樂,舞蹈,科技,生活,鬼畜,娛樂,影視,放映廳等10個類別里截止2018年3月30日近期熱度最高的前三個視頻的彈幕數(shù)據(jù),共獲得30個視頻的63 006條彈幕。通過對這些彈幕進行預(yù)處理,去除完全由標點符號構(gòu)成的噪音彈幕之后,得到高質(zhì)量的彈幕文本數(shù)據(jù)。從每個類別的彈幕里面隨機選取100條彈幕,共選取1 000條彈幕作為測試數(shù)據(jù)。通過人工標注測試數(shù)據(jù)的情感極性,將測試數(shù)據(jù)標注為積極、中性、消極三種類別。最終標注的測試數(shù)據(jù)類別統(tǒng)計情況如表4所示。

      表4 彈幕測試數(shù)據(jù)統(tǒng)計

      4.2 實驗性能評估指標

      文中采用在自然語言處理領(lǐng)域被廣泛認可和使用的準確率(precision)、召回率(recall)以及F值作為實驗性能的評估指標,分別定義如下:

      (10)

      其中,Pc表示判斷正確的該類別彈幕數(shù)量,Pa表示判斷為該類別的彈幕數(shù)量。

      (11)

      其中,Rc表示判斷正確的該類別彈幕數(shù)量,Ra表示應(yīng)該判斷為該類別的彈幕數(shù)量。

      (12)

      4.3 實驗結(jié)果與分析

      為了驗證文中提出的表情和語氣對情感分析的影響以及EMBA方法的有效性,通過表5中的方法對測試數(shù)據(jù)進行了測試,六組實驗的實驗結(jié)果如表5所示。

      通過以上6組實驗,對實驗結(jié)果進行如下分析:

      (1)現(xiàn)有的方法[6]采用大連理工情感詞典作為基礎(chǔ)情感詞典對彈幕進行情感分析,實驗一和實驗二將大連理工情感詞典與BonsonNLP情感詞典進行比較。一方面,大連理工情感詞典的情感詞是情感色彩鮮明的傳統(tǒng)情感詞,所以準確率更高;另一方面,因為彈幕網(wǎng)絡(luò)用語較多,用語不規(guī)范的特點,大連理工情感詞典錯誤地將大量積極和消極彈幕分類成了中性彈幕,正確識別的彈幕數(shù)量很少,這導(dǎo)致了積極和消極彈幕召回率和F值低于BonsonNLP,而中性彈幕的召回率達到了100%。實驗結(jié)果表明,基于網(wǎng)絡(luò)文本構(gòu)建的BonsonNLP情感詞典在性能上優(yōu)于基于傳統(tǒng)文本構(gòu)建而成的大連理工情感詞典。

      表5 實驗結(jié)果

      (2)對比實驗二和實驗三的結(jié)果可以發(fā)現(xiàn),在增加了表情詞典之后,情感分析的各項指標都得到了顯著提升,對數(shù)據(jù)進行分析發(fā)現(xiàn),在加入了顏文字表情詞典之后,對于“⊙▽⊙”“(:3[▓▓]”等表情彈幕可以正確分類,從而提高了情感分析的準確度。實驗結(jié)果證明了顏文字表情對于彈幕情感分析的影響,也說明了構(gòu)建顏文字表情詞典的必要性。

      (3)通過對比實驗三和實驗四的結(jié)果可以發(fā)現(xiàn),在增加了語氣詞典之后,情感分析的各項指標都得到了一定的提升,這說明語氣詞也有助于對彈幕的情感分析。對數(shù)據(jù)進行分析發(fā)現(xiàn),在加入了語氣詞典之后,對于“沖呀”“嗷嗷”等彈幕,可以通過識別其中的語氣詞進行正確地分類。實驗結(jié)果證明了語氣詞對彈幕情感分析的影響和構(gòu)建彈幕語氣詞典的重要性。

      (4)現(xiàn)有的對彈幕的情感分析研究較少,且運用情感詞典對彈幕進行情感分析的方法較為簡單,實際情感分析的效果較差。文中選用在微博文本情感分析領(lǐng)域具有影響力和代表性的ESD方法[16]作為對比方法。ESD方法的核心是通過拓展情感詞典并結(jié)合語義規(guī)則對微博文本進行情感分析,與文中方法的相同之處在于都選用了現(xiàn)有的情感詞典組成基礎(chǔ)詞典;都構(gòu)建了程度詞典,否定詞典,表情詞典,網(wǎng)絡(luò)詞典;都分析了語義規(guī)則的影響。不同點在于文中構(gòu)建了能識別顏文字表情的表情詞典;利用SO-PMI算法構(gòu)建了彈幕領(lǐng)域詞典和彈幕語氣詞典;利用輸入法詞庫構(gòu)建網(wǎng)絡(luò)詞典,而不是人工搜集網(wǎng)絡(luò)詞匯。實驗五和實驗六的結(jié)果表明,提出的EMBA方法在各類彈幕的性能上都優(yōu)于ESD方法,這證明了EMBA方法的有效性和實用性。

      5 結(jié)束語

      對彈幕進行精準情感分析的關(guān)鍵在于情感詞典的構(gòu)建,情感詞典囊括的情感詞范圍越大,準確性越高,情感分析的效果就越準確。文中構(gòu)建了一種新的基于表情和語氣的情感詞典用于彈幕情感分析,該詞典由基礎(chǔ)情感詞典、彈幕領(lǐng)域詞典、彈幕語氣詞典、程度詞典、否定詞典、網(wǎng)絡(luò)詞典組成。該方法針對彈幕評論中顏文字表情的大量使用情況,提高了情感分析的準確率,同時考慮了語氣詞的作用,增強了彈幕情感分析的效果。同時,還研究了語義規(guī)則對于彈幕情感分析的影響,實驗結(jié)果證明了該方法的有效性。

      猜你喜歡
      彈幕語氣詞典
      注意說話的語氣
      注意說話的語氣
      彈幕
      明知故問,加強語氣
      HOLLOW COMFORT
      漢語世界(2021年2期)2021-04-13 02:36:18
      “彈幕”防御大師
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      一大撥彈幕正在向你襲來……
      注意說話的語氣
      評《現(xiàn)代漢語詞典》(第6版)
      东宁县| 通州市| 盐亭县| 沁阳市| 洛宁县| 全州县| 寻乌县| 千阳县| 蚌埠市| 佛冈县| 夏河县| 常山县| 凤山市| 万全县| 昌图县| 伊通| 天台县| 丰顺县| 六枝特区| 太保市| 会昌县| 嘉善县| 洛隆县| 隆回县| 于都县| 凉山| 德惠市| 赫章县| 融水| 龙胜| 广汉市| 简阳市| 瑞昌市| 静安区| 阳江市| 芷江| 洪湖市| 田阳县| 嵩明县| 丹阳市| 和平区|