曠開金,廖海琳,裴文慶
(1.福建江夏學院 金融學院,福建 福州 350108;2.生態(tài)與資源統(tǒng)計福建省高校重點實驗室,福建 福州 350002;3.福建農林大學 馬克思主義學院,福建 福州 350002)
近年來隨著網(wǎng)絡技術不斷發(fā)展,公眾逐步開始通過網(wǎng)絡發(fā)表書評、影評、酒店住宿體驗或商品使用體驗,網(wǎng)絡成為人們溝通互動、表達現(xiàn)實情緒的重要渠道。通常而言,用戶發(fā)表在互聯(lián)網(wǎng)上的評論具有簡短性、精確性、時效性等特點,這些評論往往蘊含豐富的情感信息和潛在商業(yè)價值。然而當前互聯(lián)網(wǎng)信息量呈指數(shù)級趨勢增長,決策者難以在短時間內獲取有價值的信息,如何從海量互聯(lián)網(wǎng)評論文本中挖掘蘊含的情感信息成為自然語言處理領域研究的重點和難點。
情感分析最早由Picard[1]教授在專著《Affective Computing》中提出,是對文本表達的積極情緒、消極情緒以及不確定的判斷,已在各領域得到廣泛應用。如Liu 等人[2]提出混合神經(jīng)網(wǎng)絡模型,表明經(jīng)過訓練的混合神經(jīng)網(wǎng)絡可以自動對句子進行分類,文本分類準確率達到94.2%。Ghanem 等人[3]從情感的角度比較了虛假新聞和真實新聞的語言,表明情感在欺騙讀者方面起著關鍵作用,在此基礎上提出了LSTM 神經(jīng)網(wǎng)絡模型以檢測虛假新聞。隨著數(shù)據(jù)挖掘技術的發(fā)展,情感分析已在商業(yè)領域、網(wǎng)絡輿情、突發(fā)事件信息傳播特征等領域獲得越來越廣泛應用。如有學者基于記憶圖卷積神經(jīng)網(wǎng)絡(MGCNN)、情感詞典對商品評論進行情感分析[4-6],也有學者在網(wǎng)絡輿情用戶情感分析[7]、突發(fā)公共衛(wèi)生事件誤導信息受眾情感分析[8]等領域取得了較好的應用。
電影作為文化傳播的一種載體,近年來電影文本研究成為熱點,而影評作為觀眾情緒的反映,一定程度上代表觀眾對電影的認可度,影評成為觀眾選擇影片的重要依據(jù)。馮莎[9]基于情感詞典方法對電影《乘風破浪》評論數(shù)據(jù)進行打分以及詞云分析,結果表明正面情緒判斷效果較好。王妍[10]等基于《流浪地球》微博評論數(shù)據(jù),運用詞向量與支持向量機組合的方式,統(tǒng)計分析電影熱議話題點以及觀眾對這些話題點的情感傾向,結果表明觀眾關于《流浪地球》的討論多數(shù)集中于“題材”和“演技。2019 年9 月30 日,主旋律電影《我和我的祖國》 在新中國成立70 周年之際公映,在國內外華人中引起了熱烈的愛國反響。關于電影《我和我的祖國》分析報道主要限于主題分析[11],主旋律電影傳播[12-13],以及話語表達研究[14],但這類研究忽略觀眾背后的情緒特征,未能挖掘電影評論情感分析背后的情報價值。為此,利用Python 爬取《我和我的祖國》評論數(shù)據(jù),通過R 語言以及ROSTCM 等分析工具對評論數(shù)據(jù)進行處理及分類,對文本數(shù)據(jù)進行詞云圖以及語義網(wǎng)絡圖分析,構建LDA 模型對評論數(shù)據(jù)做進一步主題分析,以期通過分析了解觀眾的特征偏好,為相關部門進一步深入了解市場特點及電影制作提供建議。
詞云圖(word cloud chart)是通過使每個字的大小與其出現(xiàn)頻率成正比,顯示不同單詞在給定文本中的出現(xiàn)頻率,然后將所有的字詞排在一起,形成云狀圖案,可以任何格式排列:水平線、垂直列或其他形狀[15]。R 中的wordcloud 包提供了繪制詞云圖的函數(shù):wordcloud()、comparison.cloud()和commonality.cloud()。電影評論可基于R 語言中文分詞工具,根據(jù)評論文本的出現(xiàn)次數(shù),從而形成“詞云圖”。
語義網(wǎng)絡由大量常識概念匯成,可通過構建語義網(wǎng)絡,識別評價對象與評論觀點之間的關系,挖掘出有價值的信息[6]。語義網(wǎng)絡是一種帶有標記的有向圖,它由節(jié)點和弧線或鏈線組成,節(jié)點用于表示實體、概念和情況等,弧線用于表示節(jié)點間的關系[16]。語義網(wǎng)絡結構可用圖1 表示,其中A 和B 各代表一個節(jié)點,R 表示A 和B 之間的某種語義聯(lián)系。
圖1 語義網(wǎng)絡結構圖Fig.1 The diagram of semantic network structure
潛在狄利克雷分配(Latent Dirichlet allocation,LDA),作為基于貝葉斯學習的話題模型,是潛在語義分析,概率潛在語義分析的擴展,在文本數(shù)據(jù)挖掘、圖像處理、生物信息處理等領域被廣泛使用。LDA 模型本質是一種概率圖模型,它將每篇文檔的主題以概率分布的形式給出,從而通過分析文檔主題分布,根據(jù)主題分布進行主題聚類或文本分類[17]。LDA 的文本生成算法為[18]:
給定單詞集合W,文本集合D,話題集合Z,狄利克雷分布的超參數(shù)α 和β。
(1)對于話題zk(k=1,2,…,K):生成多項分布參數(shù)φk~Dir(β),作為話題的單詞分布p(w│zk);
(2)對于文本wm(m=1,2,…,m):生成多項分布參數(shù),φm~Dir(α)作為文本的話題分布;
(3)對于文本wm的單詞wmn(m=1,2,…,M;n=1,2,…,Nm):(a)生成話題zmn~Mult(θm),作為單詞對應的話題;(b)生成單詞wmn~Mult(φzmn)。
LDA 文本生成過程中,假定話題個數(shù)K 給定,狄利克雷分布的超參數(shù)α 和β 通常也事先給定。在沒有其他先驗知識的情況下,可以假定向量α 和β 的所有分量均為1。LDA 作為概率圖模型可用圖2 表示,圖中結點表示隨機向量,實心結點是觀測變量,空心結點是隱變量;有向邊表示概率依存關系;矩形表示重復,數(shù)字表示重復次數(shù)。
圖2 LDA 模型結構示意圖[18]Fig.2 The diagram of LDA model structure
以《我和我的祖國》電影評論數(shù)據(jù)為主要研究對象,數(shù)據(jù)來源于貓眼網(wǎng)(www.maoyan.com)以及豆瓣網(wǎng)(www.douban.com)電影信息網(wǎng)站,由于這兩大網(wǎng)站評論經(jīng)常被用戶參考,且進行評論打分的用戶在互聯(lián)網(wǎng)中占據(jù)較大比例,因此貓眼網(wǎng)以及豆瓣網(wǎng)數(shù)據(jù)具有一定代表意義。利用Python 中requests 庫以及l(fā)xml 庫對貓眼網(wǎng)以及豆瓣網(wǎng)進行數(shù)據(jù)爬取,從貓眼網(wǎng)爬取數(shù)據(jù)主要分為性別、評分以及最為主要的電影評論內容,從豆瓣網(wǎng)爬取的數(shù)據(jù)主要為評分以及電影評論內容。由于目前豆瓣網(wǎng)開啟了全面限制爬蟲,因此在對Xpath 進行分析后依然只能爬取514 條評論,在貓眼網(wǎng)共爬取1515 條評論,一共評論數(shù)據(jù)共計2029 條,部分數(shù)據(jù)見表1 與表2。
表1 豆瓣網(wǎng)評論數(shù)據(jù)(部分)Tab.1 The comment data of Douban.com(partial)
表2 貓眼網(wǎng)評論數(shù)據(jù)(部分)Tab.2 The comment data of Maoyan.com (partial)
由于大多數(shù)評論偏口語化,不能真實反映主題,原始數(shù)據(jù)分析結果與真實情況存在偏差[17]。由表1 與表2 可知,爬取到的評論數(shù)據(jù)有許多語氣詞以及停頓詞,例如“吧”“啊”“哈”等,另外標點符號也不利于分析評論數(shù)據(jù),易使關鍵詞受到影響。因此,第一步通過ROSTCM 文本分析軟件對數(shù)據(jù)進行語氣詞以及停頓詞過濾;由于評論數(shù)據(jù)會出現(xiàn)重復現(xiàn)象,第二步對《我和我的祖國》評論數(shù)據(jù)去重處理,獲得有價值數(shù)據(jù);第三步對去重后的評論數(shù)據(jù)分詞,并將分詞結果導入數(shù)據(jù)庫。
《我和我的祖國》評論數(shù)據(jù)基本信息見圖3,由圖3 可知,貓眼網(wǎng)所爬取1515 條評論中,男性評論人數(shù)為415 人,占總體比例的27%,女性評論人數(shù)為435人,占總體比例的29%,未知性別占總體比例的44%,已知男女性別比例較為接近。根據(jù)豆瓣網(wǎng)以及貓眼網(wǎng)的2029 條評論數(shù)據(jù)繪制評分信息圖,見圖4。由圖4 可知,評分為很差的人數(shù)18 人,占總體比例的0.89%;評分為較差的人數(shù)為30人,占總體比例的1.48%;評分為還行的人數(shù)183 人,占總體比例的9.02%;評分為推薦的人數(shù)446 人,占總體比例的21.98%;評分為力薦的人數(shù)1352 人,占總體比例的66.63%,其中推薦與力薦的人數(shù)占總體比例的88.61%,大部分觀眾對電影《我和我的祖國》滿意度較高。
圖3 評論數(shù)據(jù)分性別餅圖Fig.3 The comment data of gender pie chart
圖4 電影評分條形圖Fig.4 The bar graph of movie rating
將預處理后的《我和我的祖國》評論數(shù)據(jù)保存為CSV 格式,利用R 語言wordcloud2 包實現(xiàn)文本詞云圖分析,通過詞云圖關鍵詞可反映觀眾關注焦點。由圖5可知,電影《我和我的祖國》評論數(shù)據(jù)中關于電影觀感最主要的詞為“好看“喜歡”“感動”“不錯”等積極的詞,但同樣存在少數(shù)“無聊”“后悔”“尷尬”等負面詞語。表明從觀感上看,《我和我的祖國》依然是受大眾所推崇的電影,從劇情上看,“流星”“前夜”“奪冠”“回歸”等在評論中出現(xiàn)次數(shù)較其他單元多,反映觀眾對《白晝流星》《前夜》《奪冠》《回歸》 四個單元短片反映的故事更關注。
圖5 電影評論詞云圖Fig.5 The cloud illustration of movie review word
通過對評論文本抽取情感詞,并使用情感詞典對評論數(shù)據(jù)進行情感傾向評分,部分結果見表3。通過正負情感值對《我和我的祖國》電影評論進行統(tǒng)計,對每條文本進行情感傾向性分析,將情感傾向評分按分類設定為-1 為消極,0 為中性,1 為積極,并進行統(tǒng)計,從而對情感分析做出判斷。
表3 情感得分值和評論文本(部分)Tab.3 The sentiment score and comment text (partial)
根據(jù)分析結果,電影《我和我的祖國》評論中絕大部分表達好感或態(tài)度,整體表現(xiàn)積極且正面的評論,分析結果見表4,由表示4 可知51.40%表現(xiàn)積極情感,負面情感僅占11.43%。
表4 基于情感詞典的情感分析結果Tab.4 The sentiment analysis results based on sentiment dictionary
詞語網(wǎng)絡分析可探究現(xiàn)實關系網(wǎng)背后的關系網(wǎng)絡,使用ROSTCM 文本分析軟件構建并繪制語義網(wǎng)絡圖,結果見圖6。由圖6 可知,整體來看,語義網(wǎng)絡圖關系較為緊湊,較為緊湊的語義網(wǎng)絡圖又呈現(xiàn)出相對分散的特點。語義網(wǎng)絡圖分析可知,“白晝”“奪冠”“故事”“北京”處于網(wǎng)絡圖的中心位置,通常被稱為語義網(wǎng)絡中的“橋”,全網(wǎng)信息通過這四個評論對象所連通,起到評論對象與評論觀點之間連接的作用,體現(xiàn)出《我和我的祖國》評論對象及觀點之間緊密關系。處于邊緣地帶關鍵詞,如“感動”“香港”等,這些節(jié)點處于邊緣,與其他關鍵詞聯(lián)系較少,“張一白”“陳凱歌”“牧野”,作為《我和我的祖國》電影單元導演,與其他評論對象并無較強的聯(lián)系,形成小型網(wǎng)狀結構形態(tài)。這種相對集中,相對分散的網(wǎng)絡結構表明觀眾對《我和我的祖國》具有核心關注點。語義網(wǎng)絡不僅能表現(xiàn)出評論對象之間聯(lián)系強度,而且能體現(xiàn)評論對象與評論觀點之間的關系。由圖6 可知,影片單元內容與各位導演之間存在較強關系,反映對于短片形式的多導演模式影片相較于其他影片更易受到關注和對比。如評論對象之間“電影”“祖國”“主旋律”之間存在聯(lián)系,表明電影通過單元形式,以祖國大歷史事件為節(jié)點,從細處著手弘揚愛國主旋律;評論對象“故事”“電影”與評論觀點“好看”以及“感動”之間具有較強的關系,分析探討評論對象與評價觀點之間的關系,對制片方分析觀眾情感傾向具有積極指導意義。
圖6 評論數(shù)據(jù)語義網(wǎng)絡圖Fig.6 The diagram of comment data semantic network
文章LDA 模型通過jieba 庫進行分詞,利用中文的自然語言處理庫snownlp 進行情感分析,建立詞典對文本數(shù)據(jù)進行訓練,最后輸出主題。電影《我和我的祖國》評價主題見表5 及表6,將訓練結果分為正面主題以及負面主題。根據(jù)表5 提取的三個正面潛在主題特征詞,主題1 中高頻詞,即好看、祖國、喜歡、導演、陳凱歌等,主要反映了《我和我的祖國》受到觀眾喜歡,都覺得好看,對祖國有著強烈的情感,以及對導演的關注。主題2 中反映《我和我的祖國》覺得好、電影故事感動的情感傾向。主題3 反映《我和我的祖國》好看以及感動,表達出祖國強大自豪感等。根據(jù)表6 提取的三個負面潛在主題特征詞,主題1 反映了《我和我的祖國》中《白晝流星》故事的不喜歡,主題2 反映了部分觀眾覺得《我和我的祖國》“有點”“一般般”“難看”等傾向,主題3 反映了《我和我的祖國》中部分故事“無聊”等情感傾向。
表5 《我和我的祖國》正面評價潛在主題Tab.5 The positively evaluated potential themes of"My People,My Country"
表6 《我和我的祖國》負面評價潛在主題Tab.6 The potential themes of negative reviews of"My People,My Country"
在互聯(lián)網(wǎng)迅速發(fā)展的背景下,準確地從評論文本中識別并提取用戶情感傾向,對觀眾、制片方、影院運營等多方面都具有重要參考價值。電影《我和我的祖國》 演繹了7 組普通人與祖國大事件息息相關的經(jīng)歷,文章基于影評數(shù)據(jù)挖掘影評表達的情感信息,得出以下結論:(1)基于wordcloud2 包對評論數(shù)據(jù)進行詞頻分析,表明觀眾對于《白晝流星》《前夜》《奪冠》《回歸》這四個單元的短片有更多的關注,說明觀眾對不同故事題材關注點存在差別;(2)基于情感詞典方法提取情感詞,對電影評論情緒分析判斷并賦值,結果表明大多數(shù)評論都表達積極且正面的情緒,說明電影通過鮮活生動的普通人的奮斗故事,弘揚了積極向上的主旋律;(3)語義網(wǎng)絡分析結果表明網(wǎng)絡圖以故事為中心主要分成了四部分,分別為短片單元、導演、祖國、內容四部分。導演部分、短片單元部分與主體聯(lián)系比較密切,從觀眾評論數(shù)據(jù)中可提取有向關系,如“葛大爺—地氣”“中國—故事”等體現(xiàn)出演員特點以及影片主題,“故事—感動”“好看—影片”等體現(xiàn)出影片類型以及影片評價的特點;(4)LDA 模型分析結果表明,觀眾對《我和我的祖國》表現(xiàn)積極情緒,總體對導演偏正面評價,但對《白晝流星》單元評價存爭議,主要體現(xiàn)在故事情節(jié)上“不喜歡”“無聊”等。
電影《我和我的祖國》從普通人故事著手,通過新中國發(fā)展歷史上關鍵節(jié)點故事演繹,以全新視角帶領觀眾感受時代變化,對于增強民族自豪感具有重要意義。愛國題材仍是電影行業(yè)中的主旋律,以往愛國題材電影,大部分從宏觀角度出發(fā),而電影《我和我的祖國》從細處入手,強調講述把“小我”融入“大我”,賦予了故事真實感和觀眾代入感。影評數(shù)據(jù)情感傾向與電影傳播效果密切關聯(lián),分析表明影片故事中,對于《白晝流星》單元觀眾認為故事不貼合實際,因此制片方在故事內容中選擇情感表達更為直觀故事情節(jié),更注重真實性;另外網(wǎng)絡語義分析表現(xiàn)故事“葛大爺—地氣”的關系,因此電影應充分挖掘演員特點和角色特點,精準匹配角色,從小處細微處入手,展現(xiàn)人物特征,反映故事表達的內涵。受限于反爬蟲限制,筆者收集到的影評數(shù)據(jù)有限,下一步研究將進一步融合多平臺影評數(shù)據(jù)對模型進行訓練,提高情感分類準確率,更全面反映影評折射的情感傾向。