• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PMI的豆瓣電影評(píng)論文本情感分析

      2019-06-01 05:54:38張琰黃霽風(fēng)
      現(xiàn)代計(jì)算機(jī) 2019年12期
      關(guān)鍵詞:褒義詞頻極性

      張琰,黃霽風(fēng)

      (1.東南大學(xué)成賢學(xué)院,南京 210087;2.南京林業(yè)大學(xué),南京 210037)

      影視文化作品討論一直是網(wǎng)絡(luò)社區(qū)中的熱門板塊,觀眾在社交網(wǎng)站上對(duì)上映電影的影評(píng)不僅影響電影票房,也反映出觀眾的價(jià)值取向及網(wǎng)絡(luò)輿論的態(tài)度導(dǎo)向。以票房黑馬電影《我不是藥神》為例,采用PMI 算法對(duì)豆瓣網(wǎng)上的影評(píng)進(jìn)行文本情感分析,試圖找出觀眾對(duì)這部電影的劇情、畫面、人物塑造、導(dǎo)演、音樂、演技及電影涉及到的社會(huì)熱點(diǎn)話題的情感態(tài)度。

      豆瓣影評(píng);文本情感分析;我不是藥神;PMI

      0 引言

      近年來,我國(guó)電影市場(chǎng)蓬勃發(fā)展,越來越多的觀眾選擇走進(jìn)電影院觀看電影,并在網(wǎng)絡(luò)上形成熱烈討論的氛圍。如近期熱門電影《我不是藥神》講述了神油店老板程勇從一個(gè)交不起房租的商販,變成為廣大白血病患者購(gòu)買特效藥的故事,電影上映不到30 天,票房突破30 億,豆瓣評(píng)分8.9,網(wǎng)絡(luò)評(píng)論活躍。本文擬抓取豆瓣網(wǎng)上相關(guān)評(píng)論,采用詞頻統(tǒng)計(jì)方式提取關(guān)鍵詞,基于PMI 點(diǎn)互信息值計(jì)算進(jìn)行評(píng)論文本情感分析,統(tǒng)計(jì)分析影片熱議話題點(diǎn),及觀眾對(duì)這些話題點(diǎn)的情感傾向。

      1 研究方法及思路

      本文對(duì)網(wǎng)絡(luò)影評(píng)的分析從兩方面入手:①觀眾對(duì)電影質(zhì)量的情感傾向分析。其中包括:劇情、畫面、人物塑造、導(dǎo)演、音樂、演技6 個(gè)因素;②觀眾對(duì)社會(huì)熱點(diǎn)問題的態(tài)度及價(jià)值取向分析。

      中文文本的情感分析目前主流的方法大致分為兩種:①基于統(tǒng)計(jì)的方法;②基于機(jī)器學(xué)習(xí)的方法?;诮y(tǒng)計(jì)的方法關(guān)鍵詞選取及詞匯情感極性計(jì)算都是基于語料統(tǒng)計(jì)分析得出,機(jī)器學(xué)習(xí)的方法通過建立詞匯分類模型自動(dòng)判斷關(guān)鍵詞及情感極性。本文主要采用第一種方法,研究算法包括:

      (1)詞頻統(tǒng)計(jì)法。統(tǒng)計(jì)某個(gè)詞匯在整篇語料庫(kù)中出現(xiàn)的次數(shù)。該方法主要用于評(píng)論熱議主題詞的提取,統(tǒng)計(jì)文本中所有名詞的詞頻,對(duì)出現(xiàn)次數(shù)較多的名詞進(jìn)行人工篩選;

      (2)基于PMI 的詞匯極性判斷?,F(xiàn)有的情感詞典如HowNet、大連理工大學(xué)情感詞匯本體、臺(tái)灣大學(xué)情感詞典等都是通用詞典,在計(jì)算特定領(lǐng)域文本的情感極性時(shí)上述詞典的覆蓋率及準(zhǔn)確率不盡如人意,因此本文采用PMI 點(diǎn)互信息值方式構(gòu)建領(lǐng)域內(nèi)專用詞典,統(tǒng)計(jì)影評(píng)中的形容詞,以大連理工大學(xué)情感詞匯本體詞典為依據(jù),篩選種子詞集,并計(jì)算其余形容詞與種子詞的PMI 值:

      PMI(x,y)=,其中,p(x,y)表示詞x、y一起出現(xiàn)的概率,p(x)表示詞x出現(xiàn)的概率,p(y)表示詞y出現(xiàn)的概率,形容詞的情感極性判斷采用SO-PMI 算法 :SO=PMI(w,w1)-PMI(w,w) ,若SO∈[σ1,σ2],σ1=-σ2為某一閾值,則該詞為中性詞,SO≥σ2為褒義詞,SO≤σ1為貶義詞。

      (3)句子情感極性判斷。本文在計(jì)算句子情感極性前首先提取句子主干,保留主語、謂語及表示情感極性的形容詞與副詞,對(duì)每一句話進(jìn)行情感極性分值計(jì)算。句子在不出現(xiàn)轉(zhuǎn)折詞、否定詞的情況下,情感值為句中所有情感詞極性值之和;若句中包含后一位的情感詞極性值乘以-1 后再加和;若句中包含轉(zhuǎn)折,如“即使劇情落入俗套,卻足夠動(dòng)人”這樣出現(xiàn)前后極性相反的表達(dá),需采用人工方式判斷情感取向。

      2 實(shí)證研究與分析

      (1)數(shù)據(jù)抓取。使用八爪魚在豆瓣網(wǎng)上抓取兩部分評(píng)論:300 字以內(nèi)短評(píng)351 條;影片評(píng)論長(zhǎng)文刪除重復(fù)評(píng)論后共計(jì)5076 條。

      (2)數(shù)據(jù)預(yù)處理。短評(píng)數(shù)據(jù)保留短評(píng)內(nèi)容,影評(píng)長(zhǎng)文保留標(biāo)題、正文,合并成一個(gè)文件“comments.txt”,并以句號(hào)、問號(hào)、感嘆號(hào)等為分隔將評(píng)論段落切分為句子,得到評(píng)論句95164 條。

      (3)篩選電影質(zhì)量評(píng)論關(guān)鍵句。以電影質(zhì)量6 因素為關(guān)鍵詞篩選關(guān)鍵句共計(jì)11928 條,占評(píng)論總數(shù)的12.5%,其中,包含“劇情”的關(guān)鍵句4872 條,占5.1%;包含“畫面”的關(guān)鍵句1455 條,占1.5%;包含“人物”的關(guān)鍵句4535 條,占4.8%;包含“導(dǎo)演”的關(guān)鍵句1743條,占1.8%;包含“音樂”的關(guān)鍵句282 條,占0.3%;包含“演技”的關(guān)鍵句1111 條,占1.2%。

      (4)對(duì)電影質(zhì)量評(píng)論關(guān)鍵句的情感分析。首先,采用Python 結(jié)合jieba 分詞,對(duì)評(píng)論句進(jìn)行分詞及詞性標(biāo)注,篩選出表轉(zhuǎn)折、否定的副詞共計(jì)36 個(gè),篩選出形容詞詞集與大連理工中文情感詞匯本體庫(kù)進(jìn)行比對(duì),確定種子詞784 個(gè),如表1 所示1 表示褒義,2 表示貶義,0 表示中性。其次,采用基于SO-PMI 算法計(jì)算形容詞的情感極性,并對(duì)不同σ閾值下分類結(jié)果進(jìn)行評(píng)估,在σ1=-1,σ2=1時(shí)各項(xiàng)指標(biāo)值最大,準(zhǔn)確率為51.5%,召回率為93.4%,F(xiàn) 值為66%,計(jì)算了942 個(gè)情感詞匯。結(jié)果如表2 所示,褒義詞662 個(gè)、貶義詞510 個(gè)、中性詞524 個(gè)、未分類詞30 個(gè),共計(jì)1726 個(gè)情感詞匯。

      表1 電影評(píng)論句中的情感詞、種子情感詞、副詞統(tǒng)計(jì)(部分)

      表2 電影評(píng)論句中的情感詞匯極性分類數(shù)量統(tǒng)計(jì)

      將1726 個(gè)情感詞作為關(guān)鍵詞在電影質(zhì)量評(píng)論中篩選關(guān)鍵句,并進(jìn)行句子情感計(jì)算,其中有關(guān)“劇情”的關(guān)鍵句1171 條,褒義句394 條,貶義句154 條,中性句623 條;有關(guān)“畫面”的關(guān)鍵句129 條,褒義句54 條,貶義句45 條,中性句30 條;有關(guān)“人物”的關(guān)鍵句2103條,褒義句762 條,貶義句167 條,中性句1174 條;有關(guān)“導(dǎo)演”的關(guān)鍵句1116 條,褒義句486 條,貶義句8條,中性句546 條;有關(guān)“音樂”的關(guān)鍵句150 條,褒義句64 條,貶義句29 條,中性句57 條;有關(guān)“演技”的關(guān)鍵句559 條,褒義句504 條,貶義句30 條,中性句25 條。

      (5)對(duì)社會(huì)熱點(diǎn)問題的態(tài)度及價(jià)值取向分析。本文主要從“電影人物”及“高價(jià)藥”這兩方面入手,分析觀眾對(duì)“程勇”、“黃毛”、“呂受益”、“張長(zhǎng)林”、“思慧”這幾個(gè)主要角色以及特效藥“格列寧”的態(tài)度及觀點(diǎn),篩選包含上述6 個(gè)詞匯的關(guān)鍵句,分別進(jìn)行詞頻統(tǒng)計(jì),表3 中顯示了排名靠前的二級(jí)關(guān)鍵詞。重復(fù)步驟4 中句子情感極性計(jì)算,表4 統(tǒng)計(jì)了各主題詞評(píng)論句的褒貶數(shù)量,共計(jì)1168 條關(guān)鍵句。

      表3 主要人物及特效藥的二級(jí)關(guān)鍵詞(部分)

      表4 社會(huì)熱點(diǎn)問題評(píng)論關(guān)鍵句極性分類數(shù)量統(tǒng)計(jì)

      在關(guān)鍵句極性分析基礎(chǔ)上,進(jìn)一步統(tǒng)計(jì)這6 個(gè)熱議主題詞的情感詞詞頻,列出出現(xiàn)次數(shù)較多的情感詞,分析觀眾對(duì)這6 個(gè)主題詞具體的意見及態(tài)度,如表5所示。

      表5 社會(huì)熱點(diǎn)問題評(píng)論句情感詞詞頻統(tǒng)計(jì)(部分)

      (6)分析與結(jié)論。本文通過對(duì)豆瓣網(wǎng)上的電影評(píng)論進(jìn)行情感分析,挖掘觀眾對(duì)《我不是藥神》電影的總體評(píng)價(jià),具體體現(xiàn)在:

      ①對(duì)電影拍攝質(zhì)量方面的評(píng)價(jià)較高。電影質(zhì)量評(píng)價(jià)因素按觀眾褒義句占比由高到低排列依次是演技、導(dǎo)演、音樂、畫面、人物和劇情,比例分別為90.2%、43.5%、42.7%、41.9%、36.3%、33.6%。

      ②觀眾觀影后討論最熱門的主題有:討論最多的“人”按統(tǒng)計(jì)詞頻由大到小依次為程勇、黃毛、呂受益、張長(zhǎng)林、思慧;討論最多的“事”為白血病、生活、病、走私、公司、賣藥、醫(yī)院、價(jià)格;討論最多的“物”依次排列為藥、錢、假藥、藥品、藥物、格列寧、口罩;另外熱議詞匯中還誕生了本電影專有詞匯“藥神”、“窮病”。

      ③觀眾對(duì)電影幾個(gè)主要角色的評(píng)論表現(xiàn)出人物特征的復(fù)雜性與矛盾性。例如對(duì)男主角的評(píng)論總體積極評(píng)論多于消極評(píng)論,觀眾認(rèn)為程勇即是一個(gè)“善良”、“偉大”的人,又是一個(gè)“自私”的人,而對(duì)消極評(píng)論較多的人物張長(zhǎng)林認(rèn)為他即“自私”、“狡猾”又“仗義”,這樣的評(píng)論分析結(jié)果說明了電影塑造的角色特征不是單一的、一成不變的,而是多層次的、復(fù)雜的、隨著劇情的發(fā)展而變化的。

      ④觀眾對(duì)電影主要角色展開討論的主題呈現(xiàn)共性與個(gè)性共存的特點(diǎn)。對(duì)5 位主要角色討論較多的共同話題主要有“病人”、“白血病”、“藥神”、“病友”、“牧師”,還有電影中的細(xì)節(jié)“橘子”與“口罩”;個(gè)性話題主要有程勇的“走私”、“神油”,黃毛“回家”的劇情及最后成為“淚點(diǎn)”,呂受益的“妻子”,張長(zhǎng)林爭(zhēng)奪“代理權(quán)”及提出“窮病”的概念,思慧作為“單親”媽媽為“女兒”治病而去跳“鋼管舞”的經(jīng)歷,同時(shí)她也是病友的“群主”。

      ⑤觀眾對(duì)幾個(gè)主要角色評(píng)價(jià)最高的是黃毛,其評(píng)論的褒義句占比達(dá)63.1%,貶義句占比僅2%,認(rèn)為黃毛是“善良”、“仗義”、“年輕”、“簡(jiǎn)單”而“倔強(qiáng)”的;其次是思慧,評(píng)論的褒義句占比61.4%,貶義句占比5.9%,認(rèn)為思慧是“尊嚴(yán)”、“善良”、“平靜”、“偉大”、“豐滿”而“艱辛”的;評(píng)價(jià)最差的是張長(zhǎng)林,褒義句占比20.6%,貶義句占比38.1%,認(rèn)為他是“自私”、“仗義”、“復(fù)雜”、“無恥”、“私利”而“狡猾”的;主要角色之一“牧師”在關(guān)鍵詞分析時(shí)詞頻數(shù)并未排在前列,但在主要人物二級(jí)關(guān)鍵詞中均有出現(xiàn)。

      ⑥觀眾對(duì)特效藥格列寧的態(tài)度沒有明顯的褒貶區(qū)分。談及格列寧時(shí),評(píng)論中褒義句占比21.2%,貶義句占比2%,而占比最大的為中性句76.5%,格列寧的情感詞詞頻統(tǒng)計(jì)結(jié)果也呈現(xiàn)矛盾性,“便宜”與“昂貴”出現(xiàn)次數(shù)都很高。

      3 結(jié)語

      本文采用詞頻統(tǒng)計(jì)與PMI 算法分析豆瓣上《我不是藥神》的觀眾評(píng)論,以獲得分布廣泛、數(shù)量眾多的觀眾觀影感受,比調(diào)查問卷更真實(shí)、客觀反映觀眾內(nèi)心想法,并經(jīng)過統(tǒng)計(jì)分析挖掘觀眾對(duì)電影中反映的社會(huì)現(xiàn)象的熱議點(diǎn),及觀眾對(duì)這些社會(huì)現(xiàn)象的態(tài)度、價(jià)值取向。

      猜你喜歡
      褒義詞頻極性
      “明目張膽”原是褒義
      基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      跟蹤導(dǎo)練(四)
      表用無極性RS485應(yīng)用技術(shù)探討
      一種新型的雙極性脈沖電流源
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      “點(diǎn)”的覺醒
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      說句好話挺難
      雜文選刊(2013年5期)2013-05-14 13:38:07
      宣恩县| 陕西省| 翁牛特旗| 报价| 盘锦市| 靖西县| 宜城市| 福清市| 封丘县| 炎陵县| 莱西市| 博爱县| 黎川县| 革吉县| 东兴市| 周口市| 昭觉县| 电白县| 历史| 德令哈市| 保亭| 兴仁县| 望江县| 库伦旗| 民勤县| 剑阁县| 承德县| 庆阳市| 金乡县| 东平县| 岳池县| 句容市| 元谋县| 论坛| 南部县| 扶余县| 长汀县| 武定县| 平顶山市| 霍州市| 肥东县|