由明陽(yáng),黃飛虎(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)
基于觀點(diǎn)動(dòng)力學(xué)的電影在線評(píng)分預(yù)測(cè)
由明陽(yáng),黃飛虎
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
隨著國(guó)內(nèi)外電影在線點(diǎn)評(píng)系統(tǒng)的快速發(fā)展,電影在線評(píng)論已成為電影消費(fèi)者重要的信息來(lái)源。通過(guò)挖掘評(píng)分?jǐn)?shù)據(jù),可以分析用戶的興趣愛(ài)好、購(gòu)買意圖以及影響用戶購(gòu)買行為的因素[1]。這些研究?jī)?nèi)容對(duì)商家來(lái)說(shuō)是十分有意義和價(jià)值的。
目前觀點(diǎn)動(dòng)力學(xué)的研究主要采用基于多主體建模和仿真方法,研究社會(huì)經(jīng)濟(jì)系統(tǒng)中個(gè)體之間的決策以及在外界公共信息作用下,人群中個(gè)體對(duì)某些特定事件或事物所持不同觀點(diǎn)的形成和演化等現(xiàn)象。依據(jù)觀點(diǎn)的描述方式,現(xiàn)有的觀點(diǎn)動(dòng)力學(xué)模型主要有兩類:離散型和連續(xù)型。離散型模型主要包括Galam模型[2]、Sznajd模型[3]、Voter模型[4]和MajoritoryRule模型[5]。連續(xù)型模型主要包括基于有界信任假設(shè)的DW模型[6]和HK模型[7]等。在實(shí)際應(yīng)用方面,主要集中于政治和營(yíng)銷領(lǐng)域,利用觀點(diǎn)動(dòng)力學(xué)研究用戶評(píng)論行為的并不多。張涵提出了在線點(diǎn)評(píng)模式下的輿論動(dòng)力學(xué)模型,并將其應(yīng)用于淘寶環(huán)境中,與真實(shí)數(shù)據(jù)對(duì)比發(fā)現(xiàn)該模型取得了較好的效果[8]。蘇炯明等建立了在線評(píng)分影響力模型[9],對(duì)在線評(píng)分人數(shù)進(jìn)行預(yù)測(cè),使用豆瓣網(wǎng)站的影片在線評(píng)分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn),分析評(píng)分觀點(diǎn)變化對(duì)在線評(píng)分人數(shù)的影響,結(jié)果表明該模型可以有效的預(yù)測(cè)在線評(píng)分人數(shù),同時(shí)發(fā)現(xiàn)群體中的評(píng)分觀點(diǎn)對(duì)個(gè)體的最終觀點(diǎn)有明顯影響,而個(gè)體的初始觀點(diǎn)對(duì)其最終觀點(diǎn)的影響較小。
本文從觀點(diǎn)動(dòng)力學(xué)角度對(duì)個(gè)體評(píng)分行為建模,建立電影評(píng)分影響力模型,對(duì)電影評(píng)分情況進(jìn)行預(yù)測(cè),并采用豆瓣網(wǎng)站上的電影在線評(píng)分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn)驗(yàn)證。
個(gè)體的評(píng)分過(guò)程分為兩個(gè)階段:觀影前和觀影后。觀看電影之前,用戶會(huì)搜集電影的相關(guān)信息,這里指瀏覽以前用戶的評(píng)論,瀏覽之后用戶會(huì)對(duì)該電影產(chǎn)生一個(gè)初始印象。觀影之后,用戶對(duì)電影有了體驗(yàn)感受,這個(gè)體驗(yàn)感受的好壞主要是由電影質(zhì)量決定的。初始印象,電影質(zhì)量和用戶實(shí)際評(píng)分之間會(huì)存在一定的差距,這個(gè)差距的大小由用戶的評(píng)分習(xí)慣決定。例如,用戶習(xí)慣打高分,則在實(shí)際體驗(yàn)感受比初始印象差的情況下,用戶也會(huì)給出稍微更好的評(píng)分;若實(shí)際體驗(yàn)感受比初始印象更好,用戶則會(huì)給出更高的評(píng)分;如果用戶習(xí)慣打低分,則用戶對(duì)電影的評(píng)分會(huì)出現(xiàn)相反的情況。圖1展示了用戶對(duì)電影的評(píng)分過(guò)程。
圖1 用戶電影在線評(píng)分過(guò)程
1.1初始印象
消費(fèi)者對(duì)電影的初始印象主要是通過(guò)瀏覽其他用戶的評(píng)分記錄產(chǎn)生的。由于電影屬于體驗(yàn)型商品,只有在觀看后才能有體驗(yàn)感受。所以,消費(fèi)者會(huì)為了更充分地了解電影而瀏覽較多的用戶評(píng)分。對(duì)消費(fèi)者的初始印象進(jìn)行描述,需要了解用戶對(duì)電影的評(píng)分分布。為此,我們采用真實(shí)的電影在線評(píng)分?jǐn)?shù)據(jù),利用參數(shù)估計(jì)與假設(shè)檢驗(yàn)方法,實(shí)證電影評(píng)分分布。
(1)電影評(píng)分分布實(shí)證
評(píng)分?jǐn)?shù)據(jù)來(lái)源于三個(gè)著名的電影評(píng)分網(wǎng)站,分別是IMDB電影評(píng)分網(wǎng),豆瓣電影網(wǎng)和MovieLens。其中MovieLens評(píng)分?jǐn)?shù)據(jù)為公開(kāi)數(shù)據(jù)集,IMDB電影評(píng)分網(wǎng)和豆瓣電影網(wǎng)評(píng)分?jǐn)?shù)據(jù)為爬蟲爬取。來(lái)自IMDB電影評(píng)分網(wǎng)的數(shù)據(jù)包含了4033部電影,電影類型有14種,包括戰(zhàn)爭(zhēng)、動(dòng)作、科幻、愛(ài)情、喜劇和動(dòng)畫等。來(lái)自豆瓣電影網(wǎng)的數(shù)據(jù)包含4018部電影,類型為12種。IMDB網(wǎng)站評(píng)分?jǐn)?shù)據(jù)為10分制,豆瓣電影網(wǎng)和MovieLens評(píng)分?jǐn)?shù)據(jù)為5分制。豆瓣網(wǎng)和IMDB網(wǎng)站的每部電影評(píng)論條數(shù)較多,本文選取了評(píng)論條數(shù)在2W以上的電影。而MovieLens網(wǎng)站每部電影的評(píng)論條數(shù)相對(duì)較少,因此選取了評(píng)論條數(shù)不少于1000的電影。最終,選取了IMDB電影評(píng)分網(wǎng)中的2023部電影評(píng)分?jǐn)?shù)據(jù),豆瓣電影網(wǎng)中的1058部電影評(píng)分?jǐn)?shù)據(jù)和MovieLens中的393部電影評(píng)分?jǐn)?shù)據(jù)。為了統(tǒng)一評(píng)分分制,將IMDB網(wǎng)站評(píng)分?jǐn)?shù)據(jù)映射為5分制,具體方式為10分制中1和2的映射為5分制中的1,以此類推。
已有的研究中,有學(xué)者提出電影評(píng)分分布有正態(tài)分布、冪律分布和alpha穩(wěn)定分布。因此,我們分別對(duì)預(yù)處理過(guò)的電影評(píng)分?jǐn)?shù)據(jù)進(jìn)行了上述分布的參數(shù)估計(jì)和假設(shè)檢驗(yàn)。利用MATLAB中的fminsearch函數(shù)對(duì)正態(tài)分布和冪律分布進(jìn)行參數(shù)估計(jì),利用fconsearch函數(shù)對(duì)alpha分布進(jìn)行參數(shù)估計(jì)。上述三個(gè)分布的假設(shè)檢驗(yàn)均用kstest函數(shù)進(jìn)行顯著水平為0.05的KS檢驗(yàn)。表1展示了對(duì)三個(gè)電影評(píng)分?jǐn)?shù)據(jù)集的三種分布的KS檢驗(yàn)結(jié)果。
表1 電影評(píng)分分布KS檢驗(yàn)結(jié)果
從表1的KS檢驗(yàn)結(jié)果可以看出,正態(tài)分布在三個(gè)數(shù)據(jù)集中的效果是最好的。特別地,對(duì)于豆瓣電影網(wǎng)的評(píng)分?jǐn)?shù)據(jù),用正態(tài)分布可以描述88.75%的電影評(píng)分?jǐn)?shù)據(jù)。因此,本文采用正態(tài)分布描述電影評(píng)分分布。
(2)用戶對(duì)電影的初始印象
由上節(jié)的電影評(píng)分分布實(shí)證可知,可以用正態(tài)分布描述電影評(píng)分。即對(duì)于每部電影,將所有關(guān)于該部電影的評(píng)分?jǐn)?shù)據(jù)當(dāng)作樣本點(diǎn),組成的樣本空間滿足正態(tài)分布。則有,
將f(x)定義為用戶的初始印象概率函數(shù),μ為均值,δ為方差。通過(guò)參數(shù)估計(jì)可以得到μ和δ的估計(jì)值,進(jìn)而量化用戶對(duì)該電影的初始印象。參數(shù)估計(jì)選取的數(shù)據(jù)為用戶瀏覽過(guò)的該電影的評(píng)分記錄。
(3)電影質(zhì)量
一般說(shuō)來(lái),電影質(zhì)量的評(píng)價(jià)涉及到諸多因素,例如電影劇本、演員演技、拍攝技術(shù)和后期制作等,很難處理和量化。但實(shí)際電影評(píng)價(jià)的好壞,卻是由觀看電影后的消費(fèi)者做出的。從電影在線評(píng)分的過(guò)程可知,大部分人在看電影前會(huì)先瀏覽其他用戶的影評(píng)。因此,本文通
1.2評(píng)分習(xí)慣
人類動(dòng)力學(xué)的研究表明,人類行為具有很強(qiáng)的規(guī)律性。現(xiàn)實(shí)生活中,每個(gè)人都有自己的習(xí)慣和特點(diǎn)。因此,我們認(rèn)為用戶在電影評(píng)分上也是具有一定規(guī)律的,即用戶評(píng)分習(xí)慣。通過(guò)挖掘每個(gè)用戶的評(píng)分?jǐn)?shù)據(jù),便可以得出該用戶的評(píng)分特點(diǎn)。為此,我們采用獲取的電影評(píng)分?jǐn)?shù)據(jù),實(shí)證用戶評(píng)分分布。
(1)用戶評(píng)分分布實(shí)證
采用的數(shù)據(jù)集有三個(gè):分別是MovieLens中2000個(gè)用戶在2005年的評(píng)分?jǐn)?shù)據(jù),MovieLens中6040個(gè)用戶在2000年對(duì)3900部電影的評(píng)分?jǐn)?shù)據(jù)和BookCrossing數(shù)據(jù)集。BookCrossing數(shù)據(jù)集包含了278858個(gè)用戶的評(píng)分?jǐn)?shù)據(jù)。
表2 用戶評(píng)分分布KS檢驗(yàn)結(jié)果
采用和1.1(1)小節(jié)相同的參數(shù)估計(jì)和KS檢驗(yàn)方法。表2展示了對(duì)三個(gè)數(shù)據(jù)的三種分布的KS檢驗(yàn)結(jié)果。從結(jié)果來(lái)看,正態(tài)分布取得了最高的匹配率和很好的效果。
(2)用戶評(píng)分習(xí)慣
上節(jié)實(shí)證了用戶評(píng)分分布,結(jié)果表明正態(tài)分布可以很好地匹配用戶的評(píng)分。因此我們采用正態(tài)分布的概率密度函數(shù)刻畫用戶評(píng)分習(xí)慣,如公式(2)所示。
其中p(x)為用戶評(píng)分習(xí)慣概率函數(shù),μ為均值,δ為方差。由實(shí)證數(shù)據(jù)計(jì)算得出,μ≈3.56,σ≈1.39。
從前面對(duì)電影評(píng)分過(guò)程的描述可知,用戶的評(píng)分是在用戶電影的初始印象和電影質(zhì)量的基礎(chǔ)上,按照個(gè)人評(píng)分習(xí)慣給出的。在社會(huì)心理學(xué)中有兩種效應(yīng):馬太效應(yīng)和木桶原理。這兩種效應(yīng)在評(píng)分系統(tǒng)中也有體現(xiàn)。有研究表明,人們?cè)谧龀鲈u(píng)價(jià)時(shí)很容易受到他人評(píng)價(jià)的影響,形成跟風(fēng),這也是馬太效應(yīng)產(chǎn)生的原因。然而,如果用戶看到的評(píng)論中包含有差評(píng),根據(jù)木桶原理,用戶給出的評(píng)價(jià)也會(huì)受到這些差評(píng)的影響。有學(xué)者研究發(fā)現(xiàn),用戶在瀏覽評(píng)論時(shí),會(huì)更愿意參考差評(píng)的評(píng)論。在實(shí)際的評(píng)論記錄中,好評(píng)和差評(píng)幾乎總是共存的。到底是參考好評(píng)和差評(píng),對(duì)用戶來(lái)說(shuō)是一個(gè)矛盾的選擇。因此,在評(píng)分建模時(shí)需要考慮矛盾性評(píng)價(jià)存在的現(xiàn)象。文章[10]提出了一個(gè)社交網(wǎng)絡(luò)影響力模型解決了這個(gè)問(wèn)題。該模型提出了輿論熵的概念,表述為:
其中,v+為社交網(wǎng)絡(luò)中正觀點(diǎn)的均值,v-為社交網(wǎng)絡(luò)中負(fù)觀點(diǎn)的均值。對(duì)應(yīng)5分制的評(píng)分標(biāo)準(zhǔn),v+等于評(píng)論分值為4和5的數(shù)目之和,v-等于評(píng)論分值為1和2的數(shù)目之和。
由1.3(2)的描述可知,用戶評(píng)分習(xí)慣可以用正態(tài)分布刻畫。所以,我們也采用這個(gè)結(jié)論,認(rèn)為個(gè)體給出的評(píng)分是一個(gè)正態(tài)分布的樣本點(diǎn)。評(píng)分影響力模型的概率密度函數(shù)如下:
結(jié)合社交網(wǎng)絡(luò)影響力模型,μ和δ的計(jì)算方式如下:
其中u∧為初始印象均值,σ為初始印象方差,著為影響力因子,其計(jì)算方式如下:
f(X)為用戶評(píng)分習(xí)慣的概率密度函數(shù),Q為電影質(zhì)量,f(Q)表示用戶在觀看電影后對(duì)電影的感受。e為輿論熵,c為評(píng)分制,這里取c=5;影響力因子著,用于描述用戶在觀影前后,其他用戶評(píng)價(jià)與電影質(zhì)量對(duì)用戶產(chǎn)生的影響,該影響會(huì)促使用戶產(chǎn)生新的印象,進(jìn)而給出評(píng)價(jià)分?jǐn)?shù)。影響力因子著的取值大小反映了觀影前后初始印象與電影質(zhì)量的差異性程度。著取值情況如圖2所示。
圖2 影響力因子取值情況
按照前面描述的電影評(píng)分過(guò)程,用戶首先產(chǎn)生對(duì)電影的初始印象。在此階段,進(jìn)行正態(tài)分布參數(shù)估計(jì),得出均值和方差的估計(jì)值u∧和σ∧
。同時(shí)根據(jù)評(píng)分?jǐn)?shù)據(jù)計(jì)算出輿論熵e,用來(lái)描述評(píng)分中的矛盾性評(píng)價(jià)對(duì)用戶產(chǎn)生的影響。2節(jié)的電影評(píng)分影響力模型是在用戶在觀看電影后對(duì)其產(chǎn)生的新的印象。這個(gè)印象由初始印象、電影質(zhì)量和用戶評(píng)論三個(gè)因素共同作用的。根據(jù)公式(6)計(jì)算新的均值和方差,從而產(chǎn)生新的評(píng)分模型h(x)。評(píng)分模型也是一個(gè)分布,因此本文從概率角度給出最終評(píng)分的算法描述如下:
我們選取了從豆瓣電影網(wǎng)爬取的4044部電影的用戶評(píng)分?jǐn)?shù)據(jù)。由于豆瓣網(wǎng)頁(yè)的設(shè)置,我們只能獲取評(píng)論的前200條記錄,因此實(shí)驗(yàn)對(duì)每部電影只模擬200次評(píng)分。圖3給出了本文模型與蘇炯明論文中提出的電影評(píng)分預(yù)測(cè)模型(對(duì)比模型一)和張涵提出的在線點(diǎn)評(píng)模式下的觀點(diǎn)影響力模型 (對(duì)比模型二)的預(yù)測(cè)結(jié)果。由于實(shí)驗(yàn)數(shù)據(jù)中存在沒(méi)有通過(guò)KS檢驗(yàn)的電影,因此本文又對(duì)這類電影分別做了基于正態(tài)分布和冪律分布的預(yù)測(cè),如圖4所示。實(shí)驗(yàn)結(jié)果表明對(duì)于通過(guò)KS檢驗(yàn)的電影,利用本模型的預(yù)測(cè)結(jié)果在三組模型中是最好的,在瀏覽數(shù)m=70時(shí)可以達(dá)到68%的預(yù)測(cè)準(zhǔn)確率。而對(duì)于沒(méi)有通過(guò)KS檢驗(yàn)的電影應(yīng)用冪律分布預(yù)測(cè)的結(jié)果較好。
圖3 模型預(yù)測(cè)準(zhǔn)確率(通過(guò)KS檢驗(yàn)電影)
圖4 模型預(yù)測(cè)結(jié)果(未通過(guò)KS檢驗(yàn)電影)
本文提出了一個(gè)新的基于觀點(diǎn)動(dòng)力學(xué)的適用于電影在線評(píng)分的影響力模型。分布從初始印象、用戶評(píng)分習(xí)慣和電影質(zhì)量三個(gè)方面進(jìn)行數(shù)學(xué)描述,然后給出了影響力因子的計(jì)算方法,最后給出了評(píng)分影響力模型中均值和方差的計(jì)算方式,得出了評(píng)分的預(yù)測(cè)算法。通過(guò)真實(shí)的電影評(píng)分?jǐn)?shù)據(jù)驗(yàn)證,本模型的預(yù)測(cè)準(zhǔn)確率可以達(dá)到68%。相比于其他電影評(píng)分模型,本文的模型具有更好的效果。
[1]李亞琴.用戶在線消費(fèi)評(píng)論研究的國(guó)際進(jìn)展與分布格局--基于Web of Science論文的計(jì)量分析[J],2013.
[2]GalamS.Application of Statistical Physics to Politics.Physica A:Statistical Mechanics and Its Applications,1999,274(1);132-139.
[3]Sznajd-Weron K,Sznajd J.Opinion Evolution in Closed Community[J].International Journal of Modern Physics C,2000,11(6):2000.
[4]Holley R,Liggett T.Ergodic Theorems for Weakly Interacting Infinite Systems and the Voter Model[J].Annals of Probability,1975,3 (4):643-663.
[5]Howe D A,Percival D B.Wavelet Variance,Allan Variance,Leakage[J].IEEE Transactions on Instrumentation and Measurement, 1996,44(2):94-97.
[6]Deffuant G,Neau D,Amblard F,et al.Mixing Beliefs Among Interacting Agents[J].Advances in Complex Systems,2011.
[7]Hegselmann R,Krause U.Opinion Dynamics and Bounded Confidence Models,Analysisand Simulation[J].Journal of Artificial Societies and Social Simulation,2002,5(3):1-8.
[8]張涵.基于輿論動(dòng)力學(xué)的在線點(diǎn)評(píng)觀點(diǎn)演化及影響研究[D].北京郵電大學(xué),2013.
[9]蘇炯銘,劉寶宏,李琦等.基于觀點(diǎn)動(dòng)力學(xué)的在線評(píng)分人數(shù)預(yù)測(cè)[J].計(jì)算機(jī)工程,2014.
[10]黃飛虎,彭艦,寧黎苗.基于信息熵的社交網(wǎng)絡(luò)觀點(diǎn)演化模型[J].物理學(xué)報(bào),2014.
Movie Rating Score;Opinion Dynamics;Model Prediction;Normal Distribution
Online Rating Score Prediction for Movie Based on Opinion Dynamics
YOU Ming-yang,HUANG Fei-hu
(College of Computer Science,Sichuan University,Chengdu 610065)
1007-1423(2016)05-0007-05
10.3969/j.issn.1007-1423.2016.05.002
由明陽(yáng)(1992-),男,河南開(kāi)封人,碩士,研究方向?yàn)榇髷?shù)據(jù)分析和觀點(diǎn)動(dòng)力學(xué)
2015-12-31
2016-01-12
隨著國(guó)內(nèi)外電影在線點(diǎn)評(píng)系統(tǒng)的快速發(fā)展,電影在線評(píng)分已成為電影消費(fèi)者的重要信息來(lái)源。在評(píng)分過(guò)程中,個(gè)體的觀點(diǎn)受到電影質(zhì)量,自身評(píng)分習(xí)慣和其他用戶評(píng)分的共同影響。據(jù)此過(guò)程從觀點(diǎn)動(dòng)力學(xué)角度對(duì)個(gè)體評(píng)分行為建模,建立電影評(píng)分影響力模型,對(duì)電影評(píng)分情況進(jìn)行預(yù)測(cè)。使用豆瓣網(wǎng)站的影片在線評(píng)分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn),相比其他模型,取得了更好的效果。
電影評(píng)分;觀點(diǎn)動(dòng)力學(xué);模型預(yù)測(cè);正態(tài)分布
黃飛虎(1990-),男,四川遂寧人,博士,研究方向?yàn)樯鐣?huì)計(jì)算和觀點(diǎn)動(dòng)力學(xué)
With the rapid development of domestic and foreign online movie comment system,the comments have become an important source of information for the consumers.During the comment process,the individual's opinion is influenced by the movie quality,their own comment habits and other users'rating scores.According to this process,makes the model of individual's comment behavior by the viewpoint of opinion dynamics and builds an influenced model for the rating score of movie.Uses the data from douban website,the proposed model achieves better results compared to other models.