• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      社會(huì)化在線評(píng)論情感因素測(cè)量與有用性分析

      2018-08-11 11:22:58田依林滕廣青黃微
      現(xiàn)代情報(bào) 2018年6期
      關(guān)鍵詞:在線評(píng)論情感因素

      田依林 滕廣青 黃微

      〔摘 要〕[目的/意義]社會(huì)化在線評(píng)論與傳統(tǒng)的專業(yè)性評(píng)論相比,具有更為顯著的傳播速度和影響力。文本評(píng)論中的情感因素并非單純的數(shù)量化評(píng)分能夠完全體現(xiàn)的。對(duì)本文評(píng)論中情感因素的測(cè)量與分析,能夠有助于在線評(píng)論的全角度識(shí)別與揭示,更加客觀準(zhǔn)確地反映在線評(píng)論的價(jià)值。[過(guò)程/方法]通過(guò)提取用戶發(fā)布的在線文本評(píng)論數(shù)據(jù),采用有監(jiān)督機(jī)器學(xué)習(xí)的算法,分別計(jì)算文本評(píng)論的情感分類得分、情感傾向得分、綜合情感得分。從類型、地區(qū)、人數(shù)多個(gè)維度對(duì)情感得分與總評(píng)分進(jìn)行交叉對(duì)比分析。[結(jié)果/結(jié)論]研究結(jié)果表明,文本評(píng)論蘊(yùn)含的情感因素對(duì)總評(píng)分具有部分的影響作用。用戶的認(rèn)知偏好、社會(huì)文化背景和評(píng)論人數(shù)占比會(huì)對(duì)情感因素的有用性產(chǎn)生影響。

      〔關(guān)鍵詞〕在線評(píng)論;情感因素;有用性;多維分析

      DOI:10.3969/j.issn.1008-0821.2018.06.003

      〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2018)06-0019-09

      〔Abstract〕[Purpose/Significance]Social online reviews have more prominence propagation spread and influence than traditional professional reviews.Emotional factors in text comments cannot be fully reflected by mere quantification scores.The measurement and analysis of the emotional factors in text comments can help full angle identify and reveal the online commentary,and reflect the values of online reviews more objectively and accurately.[Process/Method]By extracting the users text comment data,an algorithm of supervised machine learning was used to calculate the emotion classification score,emotion tendency score and comprehensive emotion score of text comment respectively.The emotion score and total score were cross-comparison analyzed from multiple dimensions of genre,area,number of participants.[Results/Conclusions]The results showed that the emotional factors contained in the text comments had a partial influence on the total score.Users cognitive preferences,social cultural background and the proportion of commentators would affect the usefulness of emotional factors.

      〔Key words〕online review;emotion factor;usefulness;multi-dimensional analysis

      在以互聯(lián)網(wǎng)為媒介的自媒體時(shí)代,社會(huì)化在線評(píng)論呈現(xiàn)出迅猛增長(zhǎng)的態(tài)勢(shì),且數(shù)量極為龐大。開(kāi)放的社會(huì)化在線評(píng)論以簡(jiǎn)潔表達(dá)、快捷分享、高速獲取的網(wǎng)絡(luò)時(shí)代傳播規(guī)律,大大提高了用戶參與評(píng)論、表達(dá)觀點(diǎn)的可能性,呈現(xiàn)出隨時(shí)隨地發(fā)布、開(kāi)放的好友關(guān)系、裂變式的傳播機(jī)制。其中的文本評(píng)論雖然多采用非正規(guī)的語(yǔ)言表達(dá)形式或網(wǎng)絡(luò)流行語(yǔ),但卻包含了豐富的情感因素以及相關(guān)信息,更能夠反映出網(wǎng)民用戶針對(duì)特定事件的真實(shí)情感和體驗(yàn)。社會(huì)化在線評(píng)論中的文本評(píng)論作為用戶生成內(nèi)容(User Generated Content,UGC)中的一個(gè)重要組成部分,對(duì)于用戶信息決策過(guò)程具有傳統(tǒng)專業(yè)性評(píng)論無(wú)法比擬的積極的輔助作用?,F(xiàn)有的研究表明,社會(huì)化在線評(píng)論能夠在很大程度上影響用戶的信息決策行為[1]。

      本研究通過(guò)數(shù)據(jù)挖掘技術(shù)提取在線用戶撰寫(xiě)的文本評(píng)論,采用機(jī)器學(xué)習(xí)的貝葉斯算法對(duì)其進(jìn)行情感分類、計(jì)算正負(fù)情感概率值,并轉(zhuǎn)化為文本評(píng)論的情感得分。在此基礎(chǔ)上,將文本評(píng)論的綜合情感得分與實(shí)際總評(píng)分進(jìn)行多維度對(duì)比分析,揭示社會(huì)化在線文本評(píng)論中的情感因素對(duì)實(shí)際總評(píng)分的影響作用和作用規(guī)律。

      1 相關(guān)研究

      出于充分發(fā)揮社會(huì)化在線評(píng)論的最大價(jià)值的目的,學(xué)術(shù)界在近年來(lái)對(duì)挖掘文本評(píng)論中蘊(yùn)含的情感因素以及情感因素的有用性等問(wèn)題展開(kāi)了研究。目前學(xué)術(shù)界對(duì)社會(huì)化在線評(píng)論的相關(guān)研究主要圍繞基于文本評(píng)論的情感識(shí)別和情感因素的有用性分析兩個(gè)方面。

      在文本評(píng)論的情感識(shí)別方面,博客、論壇、微博以及在線電影網(wǎng)站中包含大量由用戶發(fā)布的帶有情感傾向因素的評(píng)論文本,當(dāng)前主要采用基于語(yǔ)義的情感識(shí)別方法和機(jī)器學(xué)習(xí)中的分類方法,對(duì)主觀性文本中所包含的正面、負(fù)面、中立等情感傾向性進(jìn)行判識(shí)?;谡Z(yǔ)義傾向的情感識(shí)別的基本原理是通過(guò)WordNet、HowNet等情感詞典與評(píng)論語(yǔ)料之間的匹配實(shí)現(xiàn)情感標(biāo)注任務(wù)。Kim等[2]使用種子詞和WordNet擴(kuò)展詞表,基于詞表匹配以及利用算法和規(guī)則計(jì)算情感傾向。Tong[3]通過(guò)人工添加和標(biāo)注情感詞,基于詞表進(jìn)行情感因素識(shí)別并構(gòu)建了在線評(píng)論跟蹤系統(tǒng)。Pang[4]等人則使用詞袋(Bag-of-Feature)框架選定文本的N元語(yǔ)法(N-Gram)和詞性等元素作為情感識(shí)別特征,將文本評(píng)論分為正面和負(fù)面兩類。Kennedy等[5]在擴(kuò)展程度情緒詞的基礎(chǔ)上,將語(yǔ)義極性與機(jī)器學(xué)習(xí)算法相結(jié)合,對(duì)文本評(píng)論的情感因素進(jìn)行分類。近年來(lái),國(guó)內(nèi)學(xué)術(shù)界的張莉等[6]等學(xué)者利用隨機(jī)場(chǎng)模型和最鄰近方法對(duì)文本評(píng)論中的情感觀點(diǎn)進(jìn)行抽取。郝玫[7]等人基于自建的領(lǐng)域情感詞典,綜合評(píng)價(jià)頻數(shù)和反轉(zhuǎn)語(yǔ)義等因素,計(jì)算文本評(píng)論的情感傾向。吉順權(quán)[8]及其合作者提出基于對(duì)象特征的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘模型,對(duì)文本評(píng)論中的正向、負(fù)向因素進(jìn)行識(shí)別。

      在情感因素的有用性研究方面,Kuan[9]等人基于文本評(píng)論的語(yǔ)句長(zhǎng)度、可辨識(shí)程度、情感極性等因素,對(duì)文本評(píng)論的有用性進(jìn)行分析,該研究表明具有特征的文本評(píng)論更容易被識(shí)別和發(fā)揮作用。Chintagunta[10]等人的研究表明,在考慮文本評(píng)論內(nèi)生性情感因素的情況下,評(píng)論數(shù)量不會(huì)對(duì)實(shí)際營(yíng)銷產(chǎn)生影響。Mishne等[11]通過(guò)文本評(píng)論的情感傾向與實(shí)際營(yíng)銷之間的相關(guān)性分析,發(fā)現(xiàn)積極或消極情感的評(píng)論內(nèi)容與實(shí)際營(yíng)銷具有很強(qiáng)的相關(guān)性。Dellarocas[12]則從在線評(píng)論數(shù)量、平均情感傾向之間的關(guān)系維度出發(fā),發(fā)現(xiàn)含有極端內(nèi)容的評(píng)論更容易引發(fā)口碑交流行為,進(jìn)而對(duì)實(shí)際營(yíng)銷產(chǎn)生影響。與此同時(shí),國(guó)內(nèi)學(xué)術(shù)界關(guān)于在線評(píng)論的作用及效果方面的研究也取得了相應(yīng)的進(jìn)展[13]。馬松岳[14]等人研究發(fā)現(xiàn),文本評(píng)論的綜合情感值與打分評(píng)價(jià)具有較強(qiáng)的相關(guān)性,文本評(píng)論包含的情感因素能夠影響等級(jí)評(píng)分。王軍[15]等人的研究結(jié)果則表明,在不同時(shí)間跨度的情況下,含有情感因素的文本評(píng)論的有用性,在細(xì)節(jié)性信息和抽象性信息兩方面表現(xiàn)出差異。

      綜上所述,盡管學(xué)術(shù)界關(guān)于社會(huì)化在線評(píng)論的相關(guān)研究已經(jīng)取得了較為豐富的成果,但是其中也存在一些尚不明確的地方。特別是關(guān)于在線文本評(píng)論蘊(yùn)含的情感因素的有用性問(wèn)題,也有部分研究認(rèn)為文本評(píng)論中情感因素的實(shí)際有用性效果并不顯著[16-17]。有鑒于此,本研究采用有監(jiān)督機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘方法,基于真實(shí)在線評(píng)論數(shù)據(jù),對(duì)文本評(píng)論中的情感因素進(jìn)行測(cè)量與分析。通過(guò)評(píng)論內(nèi)容的情感分值與最終等級(jí)評(píng)分的多維度比較分析,嘗試探索在線文本評(píng)論中情感因素的影響程度和作用規(guī)律。

      2 研究方法與數(shù)據(jù)處理

      2.1 研究方法

      社會(huì)化在線評(píng)論既包括數(shù)值型(或等級(jí)型)評(píng)價(jià),也包括文本型評(píng)論。數(shù)值型評(píng)價(jià)難以體現(xiàn)評(píng)論的情感因素;文本評(píng)論則能夠在文本語(yǔ)境中表達(dá)評(píng)論者的個(gè)人情感。因此,研究工作需要首先將文本評(píng)論中的情感因素進(jìn)行形式化處理并提取,進(jìn)而采用相應(yīng)的方法測(cè)量情感得分,并在此基礎(chǔ)上對(duì)評(píng)論文本中情感因素的有用性進(jìn)行分析。

      本研究采用自然語(yǔ)言處理(NLP)中的有監(jiān)督機(jī)器學(xué)習(xí)方法,對(duì)在線文本評(píng)論進(jìn)行情感分類測(cè)量。從獲取的全部文本評(píng)論中隨機(jī)抽取20%作為訓(xùn)練樣本,人工標(biāo)注“很好”、“較好”、“一般”、“較差”、“很差”共計(jì)5種情感分類訓(xùn)練集。運(yùn)用帶監(jiān)督的FastText文本分類算法,根據(jù)文本的語(yǔ)義和N-gram模型提取詞向量作為文本的情感特征。在此基礎(chǔ)上,通過(guò)訓(xùn)練得到文本分類器,再利用該分類器將其余80%評(píng)論文本輸入映射為相應(yīng)的輸出,計(jì)算每個(gè)評(píng)論對(duì)象對(duì)應(yīng)的文本評(píng)論的不同情感分類的概率。按照公式(1)獲得相應(yīng)的情感分類得分。

      公式(1)中,ECi為第i個(gè)評(píng)論對(duì)象評(píng)論文本的情感分類得分,(p1,…,p5)為不同情感分類的概率,n為情感分類數(shù)。同時(shí),采用SnowNLP中文文本情感分析工具進(jìn)行文本情感傾向測(cè)量。訓(xùn)練的數(shù)據(jù)主要是人工標(biāo)注的正面、負(fù)面文本,通過(guò)訓(xùn)練模型得到一個(gè)介于0~1之間的情感值來(lái)表示該文本評(píng)論所包含的情感傾向值。情感值越接近于0,則負(fù)面情感傾向越強(qiáng);情感值越接近于1,則正面情感傾向越強(qiáng)。根據(jù)訓(xùn)練模型計(jì)算每條文本評(píng)論的情感值,根據(jù)公式(2)得到代表評(píng)論對(duì)象的情感傾向得分。

      公式(2)中,ETi為第i個(gè)評(píng)論對(duì)象評(píng)論文本所包含情感傾向得分,m為所有評(píng)論的總數(shù),v為文本評(píng)論的集合,ui為第i個(gè)文本評(píng)論的情感值。將公式(1)與公式(2)兩種情感測(cè)量方法結(jié)合,獲取的綜合情感得分。最終得到評(píng)論對(duì)象相關(guān)評(píng)論文本的綜合情感得分如公式(3)所示。

      公式(3)中,Ei為第i個(gè)評(píng)論對(duì)象評(píng)論文本最終的綜合情感得分。研究中將基于公式(3)得到的情感得分從多個(gè)維度進(jìn)行有用性分析。其中的有用性主要指文本評(píng)論蘊(yùn)含的情感因素對(duì)總評(píng)分的影響作用。

      2.2 數(shù)據(jù)采集與預(yù)處理

      2.2.1 數(shù)據(jù)采集

      本研究采用自主研發(fā)的爬蟲(chóng)工具,從國(guó)內(nèi)最大的用戶生成內(nèi)容(User Generated Content,UGC)網(wǎng)站豆瓣電影網(wǎng)(movie.douban.com)抓取社會(huì)化在線評(píng)論的原始數(shù)據(jù)。豆瓣電影網(wǎng)擁有高達(dá)1.5億個(gè)注冊(cè)用戶,3億個(gè)月活躍用戶,以及百萬(wàn)部影片和影人資料的收錄,是目前中國(guó)最權(quán)威的電影分享與評(píng)論社區(qū)。該網(wǎng)站上不僅能夠獲得每部電影的在線推薦評(píng)分、各類型參評(píng)人數(shù),還可以獲得每部電影的評(píng)論文本、電影分類、評(píng)分占比等相關(guān)數(shù)據(jù)。抓取對(duì)象是2017年11月28日豆瓣電影熱度排行榜排名TOP100的電影的短文本評(píng)論數(shù)據(jù)。采集的具體內(nèi)容包括電影信息數(shù)據(jù),以及與之相對(duì)應(yīng)的評(píng)論信息數(shù)據(jù)。共計(jì)抓取到100部電影的2 704 635條短文本評(píng)論信息,構(gòu)成用于情感因素測(cè)量與分析的電影短文本評(píng)論數(shù)據(jù)集,如表1所示。

      表1中的原始數(shù)據(jù)包括電影名稱、影片類型、制作地區(qū)、評(píng)論信息等。每部電影的評(píng)論信息數(shù)據(jù)包括短文本評(píng)論內(nèi)容、短文本評(píng)論數(shù)量、總評(píng)論數(shù)量和總評(píng)論相關(guān)數(shù)據(jù)。其中,總評(píng)論包括文本評(píng)論和非文本評(píng)論(數(shù)值/等級(jí)評(píng)論)。這些數(shù)據(jù)是文本評(píng)論中情感因素測(cè)量與分析的基礎(chǔ)數(shù)據(jù)集。

      2.2.2 數(shù)據(jù)預(yù)處理

      表1中的數(shù)據(jù)包括社會(huì)化在線評(píng)論的數(shù)值型數(shù)據(jù)和文本型數(shù)據(jù)兩類。其中,社會(huì)化在線評(píng)論的數(shù)值型數(shù)據(jù)指豆瓣電影網(wǎng)中每部電影的短文本評(píng)論數(shù)量、總評(píng)論數(shù)量、總評(píng)分和評(píng)價(jià)等級(jí)占比(“力薦”、“推薦”、“還行”、“較差”、“很差”占總評(píng)價(jià)數(shù)的比重)等;文本型數(shù)據(jù)則是其中的全部短文本評(píng)論的文本內(nèi)容。

      使用Notepad++等文本處理工具對(duì)爬蟲(chóng)抓取的原始數(shù)據(jù)進(jìn)行清洗,去除帶有廣告性質(zhì)、鏈接信息、表情符號(hào)以及包含一些xml標(biāo)簽的各種無(wú)意義字符。清洗后用于情感測(cè)量與分析的數(shù)據(jù)是與每部影片相對(duì)應(yīng)的短文本評(píng)論數(shù)據(jù)集合。研究中,采用自建的電影領(lǐng)域分詞詞典和停用詞詞典,對(duì)每條文本評(píng)論的內(nèi)容進(jìn)行中文分詞和去除停用詞處理。在此基礎(chǔ)上,對(duì)文本評(píng)論的情感因素進(jìn)行測(cè)量與分析。

      3 情感因素的測(cè)量與分析

      3.1 文本評(píng)論情感因素測(cè)量

      研究中,分別根據(jù)公式(1)及公式(2)得到每部影片短文本評(píng)論的情感分類得分(ECi)和情感傾向得分(ETi)。在此基礎(chǔ)上,根據(jù)公式(3)計(jì)算兩種情感因素測(cè)量方法的得分結(jié)果的算數(shù)平均數(shù),作為每部影片的綜合情感得分(Ei)。情感得分的計(jì)算結(jié)果與采集到的該部影片對(duì)應(yīng)的總評(píng)分(Si)詳見(jiàn)表2。

      3.2 測(cè)量結(jié)果的多重比較分析

      針對(duì)表2中情感因素得分的計(jì)算結(jié)果,分別采用LSD、Tamhanes T2、DuncanT3三種方法,對(duì)文本評(píng)論的情感分類得分(組1)、情感傾向得分(組2)和總評(píng)分(組3)進(jìn)行多重比較。從情感得分與總評(píng)分的一致性方面,總體判斷文本評(píng)論中情感因素的有用性。比較結(jié)果如表3所示。

      表3中的比較結(jié)果顯示,3種比較方法分別得出的比較結(jié)果之間具有一致性。其中,文本評(píng)論的情感分類得分(ECi)與情感傾向得分(ETi)的計(jì)算結(jié)果之間不存在明顯差異(表3中,組1與組2之間僅有微小差異);而情感分類得分和情感傾向得分卻分別與總評(píng)分(Si)之間均存在顯著差異(表3中,組1、組2分別與組3有較大差異)。這一比較結(jié)果說(shuō)明,總評(píng)分并不能直觀地表達(dá)文本評(píng)論中的情感因素,用戶文本評(píng)論語(yǔ)境中包含的情感因素難以通過(guò)單純的等級(jí)型或數(shù)值型的總評(píng)分充分展現(xiàn)?;蛘哒f(shuō),文本評(píng)論中的情感因素對(duì)總評(píng)分并非具有完全的影響作用??紤]到情感分類得分與情感傾向得分之間的微弱差異,以及二者與總評(píng)分之間的顯著差異,研究中進(jìn)一步根據(jù)公式(3)計(jì)算短文本評(píng)論綜合情感得分(Ei)。在此基礎(chǔ)上,將綜合情感得分與總評(píng)分進(jìn)行多個(gè)維度的比較,從多維細(xì)粒度層面對(duì)文本評(píng)論中的情感因素有用性展開(kāi)分析。

      3.3 情感因素的有用性分析

      3.3.1 基于類型維度的分析

      社會(huì)化評(píng)論環(huán)境中,用戶對(duì)不同類型評(píng)論對(duì)象的主觀認(rèn)知差異會(huì)對(duì)評(píng)論中的情感表達(dá)產(chǎn)生影響。研究中,參考各類電影網(wǎng)站的電影分類,對(duì)研究數(shù)據(jù)中的100部影片類型進(jìn)行人工標(biāo)注。將影片按照構(gòu)成影片的敘事元素的相似之處,如場(chǎng)景、情緒、形式等類型特征劃分為“恐怖\驚悚\懸疑”、“喜?。軔?ài)情\家庭”、“戰(zhàn)爭(zhēng)\歷史\傳記”、“劇情\犯罪\冒險(xiǎn)”、“動(dòng)作\冒險(xiǎn)\犯罪”、“科幻\驚悚\動(dòng)作”、“動(dòng)畫(huà)\兒童”、“奇幻\冒險(xiǎn)\動(dòng)作”8個(gè)類型。通過(guò)影片分類對(duì)文本評(píng)論綜合情感得分和總評(píng)分之間的差異性進(jìn)行分析。以總評(píng)分為橫坐標(biāo),以文本評(píng)論綜合情感得分為縱坐標(biāo)構(gòu)建散點(diǎn)圖。8種類型影片的比較結(jié)果如圖1所示。

      圖1散點(diǎn)圖中大多數(shù)的點(diǎn)位于1∶1線以上。這一現(xiàn)象粗略說(shuō)明文本評(píng)論的綜合情感得分在總體上略高于總評(píng)分。進(jìn)一步通過(guò)圖中回歸線和1∶1直線進(jìn)行對(duì)照,分析不同類型影片的文本評(píng)論的綜合情感得分與總評(píng)分的關(guān)系。圖1中顯示,“動(dòng)畫(huà)\兒童”(g)類影片的用戶文本評(píng)論的情感得分與總評(píng)分最為接近,且回歸線的R2值為0.886。也就是說(shuō),文本評(píng)論的綜合情感得分與該類影片的總評(píng)分具有極大的相關(guān)性,情感因素能夠有效影響這類影片的總評(píng)分?!皯?zhàn)爭(zhēng)\歷史\傳記”(c)和“奇幻\冒險(xiǎn)\動(dòng)作”(h)兩類影片的文本評(píng)論的情感得分與總評(píng)分的接近程度次之。差異度較大的影片類型是“恐怖\驚悚\懸疑”(a)、“喜劇\愛(ài)情\家庭”(b)、“劇情\犯罪\冒險(xiǎn)”(d)、“動(dòng)作\冒險(xiǎn)\犯罪”(e)和“科幻\驚悚\動(dòng)作”(f)5個(gè)類別?;貧w線與1∶1線的擬合情況最弱。對(duì)于這5類影片而言,文本評(píng)論中的情感因素對(duì)于總評(píng)分的影響微乎其微。由此可見(jiàn),文本評(píng)論中的情感因素對(duì)于總評(píng)分的有用性并非可以一概而論,而是基于用戶認(rèn)知偏好的不同存在差異。

      3.3.2 基于地區(qū)維度的分析

      不同的社會(huì)文化背景同樣能夠?qū)ξ谋驹u(píng)論中的情感因素產(chǎn)生影響。將研究數(shù)據(jù)中100部影片的制片地區(qū)歸納為“美國(guó)”、“中國(guó)大陸”、“日本”、“韓國(guó)”、“印度”、“港臺(tái)”和“聯(lián)合制作”7類。從影片制作地區(qū)數(shù)量上來(lái)看,美國(guó)制作影片在排行榜上占比最大,為37%。以制作地區(qū)作為分類依據(jù),對(duì)文本評(píng)論綜合情感得分與總評(píng)分進(jìn)行對(duì)比分析。同樣以總評(píng)分為橫坐標(biāo),以文本評(píng)論綜合情感得分為縱坐標(biāo)構(gòu)建散點(diǎn)圖。結(jié)果如圖2所示。

      圖2顯示,印度制作的影片(d)回歸線與1∶1線的擬合情況最好,文本評(píng)論綜合情感得分與總評(píng)分趨于一致,說(shuō)明文本評(píng)論中表達(dá)的情感因素對(duì)總評(píng)分具有很大的影響作用。同時(shí),印度制作的影片的回歸線相對(duì)1∶1線略位置略低,且回歸線R2值為0.911。這一現(xiàn)象說(shuō)明,針對(duì)印度影片的文本評(píng)論的情感得分普遍略低于網(wǎng)站推薦評(píng)分。此外,中國(guó)大陸制作的影片(c)、日本制作的影片(e)、韓國(guó)制作的影片(f)的文本評(píng)論的情感因素對(duì)總評(píng)分的影響作用處于中等水平。盡管以中日韓為代表的東亞文化背景淵源,使得針對(duì)3類產(chǎn)地影片的文本評(píng)論的情感因素對(duì)總評(píng)分產(chǎn)生中等程度的影響,但是在細(xì)節(jié)上日本制作的影片的情感得分普遍略低于日本影片的總評(píng)分(圖2(e)數(shù)據(jù)點(diǎn)多位于1∶1線之下)。一定程度上反映了在線網(wǎng)絡(luò)用戶對(duì)日本制作的影片在進(jìn)行評(píng)論時(shí)受到社會(huì)文化等背景因素的干擾,批判態(tài)度所產(chǎn)生的錨定效應(yīng)(Anchoring Effect)[18]導(dǎo)致情感得分較低。而美國(guó)制作(a)、聯(lián)合制作(b)、港臺(tái)制作(g)的電影的文本評(píng)論的情感得分與總評(píng)分之間的差異度非常明顯,且大多數(shù)的數(shù)據(jù)點(diǎn)位于1∶1線之上。說(shuō)明此3類產(chǎn)地的影片在用戶中形成了一定的口碑效應(yīng),用戶對(duì)其期望值也越來(lái)越高,從而導(dǎo)致較高的情感得分。但是該類影片一旦未能達(dá)到觀眾期望值,勢(shì)必影響情感因素對(duì)總評(píng)分的作用。因此,盡管在文本評(píng)論中用戶以文字語(yǔ)言表達(dá)了對(duì)該系列影片的情感預(yù)期,但也導(dǎo)致了情感得分對(duì)總評(píng)分影響作用的下降。綜合上述情況,文本評(píng)論中包含的情感因素對(duì)于總評(píng)分的有用性,會(huì)受到社會(huì)文化背景因素的影響,不同背景下的有用性表現(xiàn)不同。

      3.3.3 基于人數(shù)維度的分析

      社會(huì)化評(píng)論系統(tǒng)中,參與數(shù)值/等級(jí)評(píng)價(jià)的用戶未必都會(huì)撰寫(xiě)文本評(píng)論。參與豆瓣網(wǎng)總評(píng)分的用戶中同樣只有部分用戶撰寫(xiě)了短文本評(píng)論。因此文本評(píng)論撰寫(xiě)人數(shù)與總評(píng)分人數(shù)之間的穩(wěn)定性會(huì)對(duì)文本評(píng)論中情感因素的作用產(chǎn)生影響。研究數(shù)據(jù)中參與總評(píng)分的人數(shù)為5 852 471人,其中2 704 635人撰寫(xiě)了短文本評(píng)論。由于文本評(píng)論撰寫(xiě)者人數(shù)在總評(píng)分參與人數(shù)中的占比并不是嚴(yán)格的正態(tài)分布,且組間距過(guò)大,因此會(huì)出現(xiàn)同一部影片存在于不同組群的情況。為確保同一部影片在相同的組群中,根據(jù)評(píng)論人數(shù)在總評(píng)分人數(shù)中的占比(N),將100部影片分為G1~G5共5個(gè)組別,詳見(jiàn)表4。

      表4中,如果占比(N)較高,則說(shuō)明參與總評(píng)分的用戶中有很大比例的用戶撰寫(xiě)了文本評(píng)論,反之則僅有少數(shù)用戶撰寫(xiě)了文本評(píng)論。通過(guò)對(duì)各組綜合情感得分和總評(píng)分?jǐn)?shù)據(jù)的極差、方差和標(biāo)準(zhǔn)差等對(duì)分值數(shù)據(jù)的波動(dòng)程度、離散程度及穩(wěn)定性進(jìn)行分析。一般情況下,極差越大,則數(shù)據(jù)波動(dòng)范圍越大;方差(或標(biāo)準(zhǔn)差)越大,數(shù)據(jù)的離散程度越大,穩(wěn)定性越??;反之,則離散程度越小,穩(wěn)定性越好。相關(guān)統(tǒng)計(jì)結(jié)果如表5所示。

      將G1~G5各組中的綜合情感得分與總評(píng)分轉(zhuǎn)化為標(biāo)準(zhǔn)化分值作為縱軸,以文本評(píng)論人數(shù)在總評(píng)分人數(shù)中的占比為橫軸,通過(guò)圖形呈現(xiàn)評(píng)分波動(dòng)與離散程度,結(jié)果如圖3所示。

      圖3顯示,G1組(N≤0.4)中分值波動(dòng)程度不大,而且綜合情感得分與總評(píng)分的曲線波動(dòng)形態(tài)基本趨于一致;G2組(0.4

      上述基于評(píng)論人數(shù)占比的分析,在不同的人數(shù)占比條件下,先后得出兩種表面上似乎相反的結(jié)論。產(chǎn)生這一現(xiàn)象的原因在于,用戶在發(fā)表評(píng)論(包括文本評(píng)論和等級(jí)評(píng)分)之前,必然接觸到截至該時(shí)刻的總評(píng)分信息。而既有的總評(píng)分將會(huì)對(duì)后續(xù)用戶評(píng)分產(chǎn)生錨定效應(yīng),影響用戶的等級(jí)評(píng)分結(jié)果,從而產(chǎn)生信息的級(jí)聯(lián)效應(yīng)(Cascade Effect)[19]和群體極化(Group Polarization)[20]現(xiàn)象。而用戶撰寫(xiě)的文本評(píng)論通過(guò)語(yǔ)言文字抒發(fā)用戶的個(gè)人觀點(diǎn),雖然在等級(jí)評(píng)分中可能給出與既有總評(píng)分相似的結(jié)果,但其文本評(píng)論內(nèi)容中包含用戶的真實(shí)情感因素。文本評(píng)論語(yǔ)境中的情感因素更代表用戶個(gè)人的認(rèn)知感受,受到既有總評(píng)分的干擾程度較低。因此,隨著撰寫(xiě)文本評(píng)論的人數(shù)占比的增加,情感得分與總評(píng)之間的差異逐漸凸顯。即等級(jí)評(píng)分易受他人影響,文本情感表達(dá)則源自用戶自身。進(jìn)而在用戶個(gè)體的主觀情感表達(dá)方面出現(xiàn)“低分高評(píng)”或“高分低評(píng)”的情況。

      4 結(jié)論與討論

      本研究采用有監(jiān)督的機(jī)器學(xué)習(xí)方法,從文本評(píng)論中提取詞特征來(lái)訓(xùn)練模型。使用模型對(duì)100部影片的270余萬(wàn)條短文本評(píng)論的情感因素進(jìn)行測(cè)量與分析,并將情感得分與總評(píng)分進(jìn)行多維度比較,對(duì)文本評(píng)論中的情感因素的有用性進(jìn)行分析。研究工作初步得出以下結(jié)論:

      1)文本評(píng)論蘊(yùn)含的情感因素對(duì)總評(píng)分具有部分的影響作用。分析結(jié)果顯示,盡管情感分類得分(ECi)與情感傾向得分(ETi)的測(cè)量視角和方法不同,但是在不同方法的比較測(cè)試中,二者分別與總評(píng)分(Si)之間存在顯著差異(參見(jiàn)表3)。因此,基于二者算術(shù)平均值的綜合情感得分(Ei)也必然與總評(píng)分之間存在顯著差異。并且,在針對(duì)情感因素有用性的多維度分析中,評(píng)論對(duì)象的類別、制作地區(qū)、人數(shù)占比方面的不同,會(huì)使情感因素對(duì)總評(píng)分的影響作用表現(xiàn)出不同的效果(參見(jiàn)圖1~3)。部分比較結(jié)果顯出情感因素具有良好的影響作用(如,圖1(g)、圖2(d)等),而另一些比較結(jié)果則顯示情感因素對(duì)總評(píng)分的影響程度差強(qiáng)人意(如,圖1(e)、圖2(b)等)。因此,文本評(píng)論蘊(yùn)含的情感因素的有用性不能簡(jiǎn)單地確定為完全有用或完全無(wú)用,而是具有條件限制的部分有用性。

      2)用戶的認(rèn)知偏好與社會(huì)文化背景對(duì)情感因素的有用性產(chǎn)生影響。在針對(duì)情感因素有用性的多維度分析中,不同種類、不同制作地區(qū)的評(píng)論對(duì)象在情感因素有用性方面表現(xiàn)差異巨大。如,“動(dòng)畫(huà)\兒童”(g)類影片的情感得分與該類影片的總評(píng)分具有極大的相關(guān)性,情感因素能夠有效影響這類影片的總評(píng)分;而“恐怖\驚悚\懸疑”(a)、“喜劇\愛(ài)情\家庭”(b)等類型影片的情感因素對(duì)于總評(píng)分的影響微乎其微(參見(jiàn)圖1)。由此可見(jiàn),驚險(xiǎn)程度、爆笑程度等明顯帶有情感色彩的評(píng)判是因人而異的,用戶認(rèn)知偏好的差異無(wú)法單純依賴數(shù)值或等級(jí)進(jìn)行表達(dá)。另一方面,在針對(duì)不同產(chǎn)地的評(píng)論對(duì)象的情感因素分析中,文本評(píng)論蘊(yùn)含的情感因素的有用性同樣表現(xiàn)出明顯的差異(參見(jiàn)圖2)。這也從側(cè)面證明了社會(huì)因素、文化背景等外部環(huán)境能夠?qū)υu(píng)論者的預(yù)期產(chǎn)生錨定效應(yīng),從而造成文本評(píng)論的情感因素對(duì)總評(píng)分影響作用的差異性。

      3)評(píng)論人數(shù)占比對(duì)情感因素的有用性產(chǎn)生影響。一般意義上來(lái)講,如果每個(gè)用戶獨(dú)立給出等級(jí)評(píng)價(jià),則參與人數(shù)越多,評(píng)價(jià)結(jié)果就越趨于合理。然而,人數(shù)維度的分析結(jié)果顯示,文本評(píng)論人數(shù)占比較低(≤50%)的情況下,文本評(píng)論中的情感因素對(duì)總評(píng)分具有較大的影響作用;當(dāng)文本評(píng)論人數(shù)占比較高時(shí),文本評(píng)論的情感因素對(duì)總評(píng)分的影響作用極?。▍⒁?jiàn)圖3)。由于總評(píng)分是由文本評(píng)論用戶和非文本評(píng)論用戶共同給出的,用戶給出等級(jí)評(píng)分時(shí)難以避免地受到既有總評(píng)分的影響,從而產(chǎn)生群體決策中的級(jí)聯(lián)效應(yīng)和趨向既有總評(píng)分的群體極化現(xiàn)象。反之,文本評(píng)論則是通過(guò)語(yǔ)言文字抒發(fā)用戶個(gè)人的情感體驗(yàn),受到既有總評(píng)分影響的概率大大降低。因此,文本評(píng)論人數(shù)占比越高,則文本評(píng)論(受影響?。┡c等級(jí)評(píng)分(受影響大)之間的差異就會(huì)越明顯,文本評(píng)論中蘊(yùn)含的情感因素相對(duì)于總評(píng)分的有用性就會(huì)被削弱。這一結(jié)果也從側(cè)面為社會(huì)化在線評(píng)論的研究工作提供了一個(gè)新的思路。

      本研究采用有監(jiān)督機(jī)器學(xué)習(xí)的數(shù)據(jù)挖掘方法,基于真實(shí)數(shù)據(jù)對(duì)在線文本評(píng)論中的情感因素進(jìn)行測(cè)量與分析,并與網(wǎng)站的總評(píng)分進(jìn)行了多維度比較分析。從類型維度、地區(qū)維度、人數(shù)維度3個(gè)層面,揭示出文本評(píng)論中蘊(yùn)含的情感因素在用戶認(rèn)知偏好、社會(huì)文化背景、群體決策效應(yīng)等方面的差異。研究中也存在一定的局限性,盡管研究中對(duì)獲取的數(shù)據(jù)中顯性的無(wú)意義信息進(jìn)行了清洗,但是數(shù)據(jù)中仍然可能存有貌似合理,但卻出于商業(yè)目的的非正常評(píng)價(jià),會(huì)影響數(shù)據(jù)的可靠性。在后續(xù)研究中,將選取更多領(lǐng)域和評(píng)論類型進(jìn)行分析,進(jìn)一步提高情感因素測(cè)算的精度,以期更全面準(zhǔn)確地揭示文本評(píng)論中情感表達(dá)的模式與規(guī)律。

      參考文獻(xiàn)

      [1]Senecala S,Nantela J.The Influence of Online Product Recommendations on Consumers Online Choices[J].Journal of Retailing,2004,80(2):159-169.

      [2]Kim S M,Hovy E.Determining the Sentiment of Opinions[C]//Proceedings of the 20th International Conference on Computational Linguistics,Stroudsburg,Association for Computational Linguistics,2004:1367-1373.

      [3]Tong R M.An Operational System for Detecting and Tracking Opinions in Online Discussion[C]//Working Notes of the ACM SIGIR 2001 Workshop on Operational Text Classification.New York:ACM,2001:1-6.

      [4]Pang B,Lee L,Vaithyanathan S.Thumbs up?Sentiment Classification Using Machine Learning Techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language,Stroudsburg,2002,(10):79-86.

      [5]Kennedy A,Inkpen D.Sentiment Classification of Movie Reviews Using Contextual Valence Shifter[J].Computational Intelligence,2006,22(2):110-125.

      [6]張莉,蘇新寧,王東波.通用領(lǐng)域中文評(píng)論的意見(jiàn)挖掘研究[J].情報(bào)理論與實(shí)踐,2012,35(4):103-108.

      [7]郝玫,王道平.中文網(wǎng)絡(luò)評(píng)論的復(fù)雜語(yǔ)義傾向性計(jì)算方法研究[J].圖書(shū)情報(bào)工作,2014,58(22):105-110,129.

      [8]吉順權(quán),周毅.產(chǎn)品用戶評(píng)論在企業(yè)競(jìng)爭(zhēng)情報(bào)中的應(yīng)用[J].現(xiàn)代情報(bào),2015,35(6):114-121.

      [9]Kuan K K Y,Hui K-L,Prasarnphanich P,et al.What Makes a Review Voted?An Empirical Investigation of Review Voting in Online Review Systems[J].Journal of the Association for Information Systems,2015,16(1):48-71.

      [10]Chintagunta P K,Gopinath S,Venkataraman S.The Effects of Online User Reviews on Movie Box ofFice Performance:Accounting for Sequential Rollout and Aggregation Across Local Markets[J].Marketing Science,2010,29(5):944-957.

      [11]Mishne G,Glance N.Predicting Movie Sales from Blogger Sentiment[C]//AAAI Symposium on Computational Approaches to Analyzing Weblogs,AAAI Press,2006:155-158.

      [12]Dellarocas C.The Digitization of Word of Mouth:Promise and Challenges of Online Feedback Mechanisms[J].Management Science,2003,49 (10):1407-1424.

      [13]王倩倩.基于共詞分析的國(guó)內(nèi)在線商品評(píng)論研究熱點(diǎn)探討[J].現(xiàn)代情報(bào),2017,37(10):158-164.

      [14]馬松岳,許鑫.基于評(píng)論情感分析的用戶在線評(píng)價(jià)研究——以豆瓣網(wǎng)電影為例[J].圖書(shū)情報(bào)工作,2016,60(10):95-102.

      [15]王軍,丁丹丹.在線評(píng)論有用性與時(shí)間距離和社會(huì)距離關(guān)系的研究[J].情報(bào)理論與實(shí)踐,2016,39(2):73-33,81.

      [16]Yong L.Word of Mouth for Movies:Its Dynamics and Impact on Box Office Revenue[J].Journal of Marketing,2006,70(7):74-89.

      [17]Duan W,Gu B,Whinston A B.Do Online Reviews Matter?An Empirical Investigation of Panel Data[J].Decision Support Systems,2008,45(4):1007-1016.

      [18]田依林,滕廣青,董立麗,等.基于概念格的虛擬社區(qū)信息甄別中錨定效應(yīng)的矯正[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011,27(4):24-28.

      [19]滕廣青,姜航.社群用戶信息決策中級(jí)聯(lián)效應(yīng)判識(shí)的修正[J].情報(bào)科學(xué),2013,31(1):106-110,117.

      [20]Sunstein C R.The Law of Group Polarization[J].Journal of Political Philosophy,2002,10(2):175-195.

      (責(zé)任編輯:馬 卓)

      猜你喜歡
      在線評(píng)論情感因素
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      淺析品牌設(shè)計(jì)中體驗(yàn)營(yíng)銷的情感因素
      情感因素與外語(yǔ)教學(xué)
      在線評(píng)論對(duì)電子商務(wù)商品銷量的影響研究
      中文信息(2016年10期)2016-12-12 11:01:20
      情感因素對(duì)高校訓(xùn)練隊(duì)訓(xùn)練影響分析
      落實(shí)“兩個(gè)關(guān)注”,促使課堂評(píng)價(jià)走向有效
      關(guān)于小學(xué)英語(yǔ)教學(xué)中情感因素的應(yīng)用探討
      在線評(píng)論對(duì)消費(fèi)者購(gòu)買意圖的影響研究
      商(2016年10期)2016-04-25 10:03:58
      網(wǎng)絡(luò)學(xué)習(xí)社區(qū)中情感因素和社會(huì)因素分析
      在線評(píng)論與消費(fèi)者行為的研究進(jìn)展與趨勢(shì)展望
      軟科學(xué)(2015年6期)2015-07-10 02:32:49
      拜泉县| 启东市| 三都| 白沙| 长治县| 林周县| 宣威市| 湖南省| 郸城县| 济源市| 阳东县| 平昌县| 青浦区| 安远县| 淳化县| 莱阳市| 灌阳县| 曲靖市| 涞源县| 若羌县| 江达县| 色达县| 景谷| 葵青区| 明星| 运城市| 平远县| 青海省| 武乡县| 乐山市| 海伦市| 溆浦县| 麟游县| 彰化县| 盐池县| 河曲县| 松江区| 黎城县| 天柱县| 郴州市| 宜宾市|