• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本挖掘的影視彈幕情感分析研究*

      2021-09-08 08:58:04鄒墨馨辛雨璇
      科技創(chuàng)新與應(yīng)用 2021年24期
      關(guān)鍵詞:彈幕分值分類

      鄒墨馨,辛雨璇

      (牡丹江師范學(xué)院 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 牡丹江 157000)

      在當(dāng)今網(wǎng)絡(luò)高速發(fā)展的時代,觀看電影成為人們解壓、尋求快樂的主要方式之一。其中大部分用戶對電影的概況、評價等信息也存在一定的需求,但是用戶通過搜索引擎搜索得到的電影評價信息一方面可能存在較大誤差,另一方面搜索得到的數(shù)據(jù)也可能存在限制,因此無法準(zhǔn)確搜集得到有關(guān)該影視作品的有價值信息。隨著時間的流逝,影評數(shù)據(jù)具有大數(shù)據(jù)規(guī)模,比如在動態(tài)彈幕的評論數(shù)據(jù)中,雖然人們可以看到所有的彈幕評論,但是太多的彈幕文本存在相互遮擋、移動速度快等問題,從而使用戶無法看到完整的彈幕評論信息,最終導(dǎo)致無法準(zhǔn)確對電影做出整體評價。因此,本文在基于大數(shù)據(jù)的背景下,采用文本挖掘技術(shù)[1]對彈幕文本數(shù)據(jù)進(jìn)行爬取,從而找到海量評論下隱含的情感問題。

      1 數(shù)據(jù)收集處理和可視化設(shè)計

      1.1 數(shù)據(jù)獲取

      本文的數(shù)據(jù)來源于某視頻的彈幕文本,首先對網(wǎng)頁進(jìn)行頁面分析,找到網(wǎng)頁發(fā)送彈幕的異步請求包,并分析目標(biāo)網(wǎng)頁的URL變化,通過觀察分析發(fā)現(xiàn)頁面遵循的規(guī)律,利用變化規(guī)律就可以快速實現(xiàn)數(shù)據(jù)的分段爬取處理。其次對目標(biāo)網(wǎng)頁結(jié)構(gòu)進(jìn)行分析之后,找到數(shù)據(jù)的接口,由于網(wǎng)頁返回的數(shù)據(jù)是JSON格式,我們可以利用json.loads對數(shù)據(jù)進(jìn)行直接解析,最后進(jìn)行數(shù)據(jù)的存儲。其中存儲的數(shù)據(jù)內(nèi)容包含用戶名、會員等級、評論內(nèi)容等字段。

      1.2 數(shù)據(jù)清洗

      其中數(shù)據(jù)清洗[2]是情感分析中的一個重要環(huán)節(jié),主要是對原始數(shù)據(jù)進(jìn)行處理。比如:缺失值的處理、重復(fù)值的處理等。首先把數(shù)據(jù)全部讀取進(jìn)來,然后把讀取完成的數(shù)據(jù)進(jìn)行去重處理、表情刪除等清洗,最后將清洗之后的數(shù)據(jù)重新進(jìn)行存儲,共計處理了4萬多條彈幕文本數(shù)據(jù)。

      2 數(shù)據(jù)可視化

      數(shù)據(jù)獲取和處理完畢之后,利用Python中的第三方庫Pyecharts庫、WordCloud庫等進(jìn)行數(shù)據(jù)可視化分析,以《哪吒之魔童降世》為例,本文通過電影情感計算值折線圖和電影評論分析詞云圖進(jìn)行可視化展示。

      電影情感計算值折線圖可以顯示隨時間變化的趨勢或按順序分類的走向,并可以使用數(shù)據(jù)點來表示單個數(shù)據(jù)值。根據(jù)評論的時間段,讓有關(guān)數(shù)量之間的關(guān)系更加直觀、鮮明。使用Pyecharts庫中的Line模塊實現(xiàn)折線圖的設(shè)計。電影情感計算值折線圖如圖1所示。

      圖1 電影情感計算值折線圖

      電影評論分析詞云圖首先要對爬取的評論信息進(jìn)行處理,使用jieba.cut()方法把文本進(jìn)行分詞,然后進(jìn)行文本的分析,根據(jù)詞語出現(xiàn)的次數(shù)生成詞頻統(tǒng)計,最后在wordcloud模塊,設(shè)置詞云圖顯示詞語的個數(shù)、字體等,最終將生成的詞云圖保存到指定路徑中。電影評論分析詞云圖如圖2所示。

      圖2 電影評論分析詞云圖

      3 基于Bi-LSTM情感傾向性分類模型

      3.1 Bi-LSTM模型原理

      Bi-LSTM模型是一個雙向的LSTM結(jié)構(gòu),該模型把捕獲到的正向和反向信息合二為一輸出。也就是說Bi-LSTM[3]模型是把兩個時序相反的LSTM網(wǎng)絡(luò)連到同一個輸出上,從獲取輸入序列上看,正向LSTM能得到上文信息,反向LSTM能得到下文信息。比如“多”“支持”“國產(chǎn)”“動漫”是Bi-LSTM所捕獲的正向編碼信息,同時該模型還包含“動漫”“國產(chǎn)”“國產(chǎn)”“多”的反向編碼信息,最終把這兩個編碼信息合并成一個輸出。其中基于Bi-LSTM的情感分類模型如圖3所示。在t時刻,也就是輸入會提供兩個反向的LSTM網(wǎng)絡(luò),然后分別進(jìn)行獨立計算,最后在一起合并輸出[4]。其中在基于更加細(xì)粒度的分類時,Bi-LSTM模型能夠更好地捕獲語句中上下文信息,所以該模型對帶有主觀描述的中文文本進(jìn)行情感極性類別分類時有更好的判斷能力,可以計算出準(zhǔn)確的情感傾向相應(yīng)的分值。

      圖3 基于Bi-LSTM的情感分類模型

      在20世紀(jì)90年代末,Hochreiter[5]等人提出LSTM模型,其中LSTM模型[6]是一種時序模型,含有三個門結(jié)構(gòu),分別為遺忘門、輸入門、輸出門。在t時刻時,Wf、Wi、Wc是權(quán)重矩陣bf、bi、bc、bo是偏置矩陣,Ut、Ui、Uc、Uo表示上一層輸出Wf、Wi、Wc,Ht-1在這一層各個部分的權(quán)重矩陣。其中LSTM模型單元結(jié)構(gòu)如圖4所示。

      圖4 LSTM模型單元網(wǎng)絡(luò)結(jié)構(gòu)

      網(wǎng)絡(luò)內(nèi)部記憶單元:

      3.2 實驗數(shù)據(jù)集

      本文利用python網(wǎng)絡(luò)爬蟲技術(shù)爬取的原始彈幕數(shù)據(jù)共計46441條,經(jīng)過一系列數(shù)據(jù)的預(yù)處理之后,得到的數(shù)據(jù)為45579條,其中得到二分類中積極的評論有29173條,消極的評論有16406條。

      3.3 實驗結(jié)果展示與分析

      本文首先對彈幕文本數(shù)據(jù)進(jìn)行讀取,然后進(jìn)行一系列數(shù)據(jù)清洗、分詞等操作之后,把處理好的彈幕文本數(shù)據(jù)通過Bi-LSTM的情感分類模型進(jìn)行情感分類計算。如表1所示(部分)的情感分值以及情感類型的判斷,其中0代表消極,1代表積極。

      表1 情感傾向分值表

      通過計算分析發(fā)現(xiàn)該影片整體的情感分值在0.5以上如圖1所示,說明用戶對該部影視作品的情感傾向還是比較積極的,總體上看大部分人是持比較滿意的態(tài)度。情感分值的發(fā)展趨勢則是從視頻剛開始表現(xiàn)升高,然后再降低,最后再升高。從情感分值高于0.5的積極評論可以推測出,整體給予評價較高的原因是相比較以前的國產(chǎn)動漫而言,這部作品不僅在人物形象上下足了功夫,而且在觀影質(zhì)感以及所想要傳承的中國傳統(tǒng)文化精神等各個方面都表現(xiàn)的非常出色。對于用戶而言,印象最深刻的就是真切的感受到國產(chǎn)動漫的巨大進(jìn)步,背后都是工作人員的辛苦付出,才會收獲現(xiàn)在的成績。從情感分值低于0.5的消極評論可以推測出,少部分人對故事中的一些情節(jié)產(chǎn)生不滿,所以評論用戶對此發(fā)表了一些比較消極的評論。

      4 結(jié)論

      本文將基于文本挖掘技術(shù)進(jìn)行彈幕文本分析,通過對彈幕文本數(shù)據(jù)的情感傾向性分析得到該電影的整體評論,最終得出該電影評論比較中肯的見解。在情感分析中,首先利用python網(wǎng)絡(luò)爬蟲技術(shù)對彈幕文本進(jìn)行爬取,經(jīng)過一系列數(shù)據(jù)預(yù)處理之后,進(jìn)行了直觀的詞云展示、柱狀圖展示等,然后采取Bi-LSTM模型對彈幕評價進(jìn)行情感分類處理,最后計算出情感傾向性分值。目前,在大數(shù)據(jù)的背景下,對于用戶選擇哪部電影是否值得進(jìn)行觀看提供比較中肯的意見,有助于幫助用戶了解該影片,同時也可以幫助影視公司了解用戶的喜好、分析熱點話題等問題,從而可以給影視公司提供一些有效的策略。

      猜你喜歡
      彈幕分值分類
      彈幕
      一起來看看交通違法記分分值有什么變化
      工會博覽(2022年8期)2022-06-30 12:19:30
      分類算一算
      HOLLOW COMFORT
      漢語世界(2021年2期)2021-04-13 02:36:18
      “彈幕”防御大師
      一大撥彈幕正在向你襲來……
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
      时尚| 宾川县| 寻乌县| 葵青区| 涟水县| 库伦旗| 临海市| 全州县| 南部县| 南京市| 镇江市| 玉田县| 沛县| 当雄县| 广昌县| 杭锦旗| 宜昌市| 崇阳县| 东方市| 广德县| 柘城县| 清远市| 汉中市| 曲麻莱县| 新竹市| 揭阳市| 沭阳县| 凌海市| 通渭县| 新沂市| 明溪县| 珲春市| 邯郸县| 沐川县| 梓潼县| 丽水市| 禄劝| 吉隆县| 吴川市| 农安县| 阜康市|