周如彪 林曉霞 王昱華
摘 要:豆瓣作為目前國內(nèi)最大的電影評論網(wǎng)絡(luò)社區(qū),其豆瓣TOP250的電影被很多電影從業(yè)人員和觀眾視為楷模與標(biāo)桿。這些基于觀眾評分體系誕生的TOP250的影片中是否蘊(yùn)含著一定的規(guī)律和特征呢?運(yùn)用數(shù)據(jù)挖掘的方式能從豆瓣電影評分的諸多要素中找到什么規(guī)律?本文將以豆瓣TOP250的電影為研究對象,運(yùn)用多元回歸分析等手段,對影響豆瓣電影評分的各個要素進(jìn)行剝離,觀察其影響力同時試圖從這250部電影中找到特征與規(guī)律,希望能解釋和預(yù)測今天某些電影的豆瓣評分。
關(guān)鍵詞:豆瓣TOP250;數(shù)據(jù)特征挖掘;多元回歸分析
1 文獻(xiàn)綜述
1.1 豆瓣數(shù)據(jù)挖掘相關(guān)的探討
目前我國國內(nèi)有關(guān)于豆瓣數(shù)據(jù)挖掘的文章大致分為兩種類型,第一種重在分析豆瓣用戶,通過調(diào)查問卷的形式,重點(diǎn)研究了豆瓣用戶的接受電影營銷的效果問題,其可概括為豆瓣評分系統(tǒng)是豆瓣用戶對于電影觀感較為直接的體現(xiàn),同時也是觀眾收集信息的來源。第二種分析則是傾向于具體電影上應(yīng)用文本與數(shù)據(jù)分析的工具分析研究,這類分析方法,是找到每條評論的情感得分。
本文出發(fā)的角度是將豆瓣TOP250的250部電影的評分作為數(shù)據(jù)訓(xùn)練集,通過爬蟲工具收集了這250部電影的“類型”“故事梗概”“導(dǎo)演”“編劇”“主演”“制片國家地區(qū)”“上映時間”“片長”“評價人數(shù)”等九大要素并且轉(zhuǎn)化為相應(yīng)指標(biāo),引入了20世紀(jì)80年代美國的巴里·李特曼(Barry Litman)的李特曼電影預(yù)測模型中多元回歸分析的思想,嘗試通過多元回歸分析找到電影評分和“類型”“故事梗概”“導(dǎo)演”“編劇”“主演”“上映時間”“片長”“評價人數(shù)”等指標(biāo)間的線性關(guān)系。
1.2 多元回歸的適用性探討
線性回歸模型確實(shí)具有廣泛的適用性。最早是20世紀(jì)80年代美國的巴里·李特曼(Barry Litman)將線性回歸分析思想引入電影票房預(yù)測分析之中,這是因?yàn)閺倪壿嬌峡梢钥闯?,電影票房確實(shí)受到諸多要素的影響,但是這些要素孰重孰輕,難以直觀的體現(xiàn),所以借助回歸分析進(jìn)行相關(guān)的系數(shù)確定。[1]
線性回歸模型其本質(zhì)上是用一條曲線去擬合一個或多個自變量x與因變量y之間關(guān)系的模型,若曲線是一條直線或超平面(成直線時是一元線性回歸,成超平面時是多元線性回歸)時是線性回歸,否則是非線性回歸。本文采取線性回歸的分析方法是因?yàn)樗軌驇椭覀兏玫貏冸x豆瓣評分各個要素的比重,從而清晰地展現(xiàn)結(jié)果。
2 數(shù)據(jù)收集、清洗與標(biāo)準(zhǔn)化
2.1 數(shù)據(jù)來源
本文所引用的數(shù)據(jù)來自豆瓣網(wǎng)站TOP250排名頁面(https://movie.douban.com/top250),每部影片的相關(guān)數(shù)據(jù)均來自豆瓣電影主頁(https://movie.douban.com/),并且依據(jù)豆瓣電影主頁的信息,將影響一部電影評分的要素分為“故事梗概”“評價人數(shù)”“上映時間”“時長”“類型”“導(dǎo)演”“編劇”“主演”。
2.2 “故事梗概”的賦值
關(guān)于故事梗概的評價,最早的先行者就是美國20世紀(jì)40年代蓋洛普率先展開的針對電影觀眾的片名測試,之后他引入了概念測試、演員陣容測試。蓋洛普早期從事著新聞與媒體方面的商業(yè)測試,之后隨著大選中他通過政治民意測試正確預(yù)測了里根當(dāng)選總統(tǒng)而聲名鵲起,40年代好萊塢的雷電華公司請回了鼎鼎大名的蓋洛普為他們制作了電影相關(guān)的民意調(diào)查和測試。[2]
蓋洛普的概念測試用運(yùn)的是社會學(xué)中社會調(diào)查的方法,他通過讓調(diào)查員走訪電話等方式調(diào)查觀眾,讓觀眾根據(jù)16字以內(nèi)的故事梗概打分,通過大量的收集觀眾打分從而得出該故事梗概是否獲得觀眾歡迎。這種方法受到當(dāng)時電影界人士的認(rèn)可,也是早期使用數(shù)據(jù)的方法分析與預(yù)測電影票房走勢的重要方法。所以這從側(cè)面證明了,無論是當(dāng)時還是如今都很難從一種相對客觀的標(biāo)準(zhǔn),或者機(jī)械的標(biāo)準(zhǔn)去衡量一個故事梗概的得分高低,故事梗概衡量的科學(xué)性與“客觀”性在于集合了大多數(shù)人的觀點(diǎn),同時保證了這個大多數(shù)人群,即被調(diào)查群體是滿足整個社會橫截面為呈現(xiàn)。
所以本文所研究的豆瓣評分體系中,考慮到“故事梗概”是一個很重要的指標(biāo),但是機(jī)械對其量化或者簡單的數(shù)值化又是非常不合理的。由于故事梗概其獨(dú)特性,不參與回歸分析之中。
2.3 “類型”的數(shù)據(jù)賦值
本文基于以上兩種類型賦值的方法,采用了豆瓣電影系統(tǒng)內(nèi)部的類型分類方法,并且通過聚類分析講原本多達(dá)十幾種的電影類型大大簡化,從而得出一個基本的類型分布情況(見表1),再根據(jù)分布情況進(jìn)行賦值。這樣即避免了單純的詞頻統(tǒng)計中忽略了類型背后含義的缺點(diǎn),也被避免了同等權(quán)重賦值的與現(xiàn)實(shí)情況差距過大的情況,同時兼顧了電影類型作為一種人為分類的成因,類型作為一個“詞”的詞頻問題。
2.4 “導(dǎo)演”“編劇”“主演”賦值
本文的數(shù)據(jù)基于豆瓣電影數(shù)據(jù)挖掘產(chǎn)生,研究的目的也是建立豆瓣電影評分與諸要素之間的多元線性回歸關(guān)系,所以關(guān)于“導(dǎo)演”“編劇”“主演”的賦值評分系統(tǒng)選取了豆瓣最佳作品平均分這個維度,暫未將商業(yè)價值潛力、藝術(shù)影響力、社會責(zé)任、公眾形象等等要素計入。
2.5 “上映時間”“片長”“評價人數(shù)”標(biāo)準(zhǔn)化
因?yàn)檫@三個指標(biāo)已經(jīng)是數(shù)值類型,無須再次賦值,只有需要進(jìn)行適當(dāng)取舍即可,對于“上映時間”來講,維持了其年代的數(shù)據(jù)類型,同時也是默認(rèn)了當(dāng)下的年代賦值大于以前的年代賦值,也就是純數(shù)值角度2018>1978?!捌L”的賦值同理,純數(shù)值角度來說片長越長則賦值越大,片長短則賦值小。評價人數(shù)也是評價人數(shù)越多賦值越高,人數(shù)越少賦值越低。
3 多元回歸分析
3.1 線性回歸方程以及檢驗(yàn)
對“評價人數(shù)”“上映時間”“時長”“類型”“導(dǎo)演”“編劇”“主演”等指標(biāo)經(jīng)過賦值與標(biāo)準(zhǔn)化后為x1、x2、x3、x4、x5、x6、x7,上述變量符合多元線性回歸的基本條件,且邏輯上線性關(guān)系成立。
通過IBM spss25軟件的多元回歸分析的相關(guān)計算,豆瓣top250電影訓(xùn)練集擬合出的線性方程為:Y=6.237E-007x1-0.005x2+0.001x3+-0.029x4-0.019x5+0.094x6+0.017x7
3.2 公式與系數(shù)解釋
通過以上的線性公式以及SPSS計算結(jié)果可以看過,豆瓣電影評分和豆瓣網(wǎng)站提供的各個信息要素線性擬合程度R2達(dá)到0.334,也就說33.4%的豆瓣評分可以被相關(guān)要素所解釋。VIF值都小于10,說明不存在多重共線性。
在各個要素之中,可以得出評論人數(shù)的多少是最無足輕重的,這可以得出豆瓣TOP250電影的高分情況和評論人數(shù)多少也沒有什么過多關(guān)系,這也符合我們的邏輯認(rèn)知,即在豆瓣電影的評分取決于每個用戶的打分,而不是打分用戶的多少。
其次,上映時間的系數(shù)為-0.005,代表了越接近當(dāng)下(2018年)的電影在豆瓣評分越低,越是年代久遠(yuǎn)的電影評分越高,也從側(cè)面說明,如今電影口碑與評分的趨勢,僅僅從豆瓣評分的角度去看確實(shí)是呈現(xiàn)出一種下降的。
再次,時長的系數(shù)為0.001,說明了電影時長越長評分越高,越是高分的電影越是片長更長,似乎比較符合我們平時認(rèn)為的“佳作偏長”的看法。
類型得分系數(shù)為-0.029可以看出,因?yàn)樵谫x值過程中,我們?nèi)藶榈貙∏槠O(shè)定的賦值較高,給其余類型賦值依次較低,所以結(jié)論表明越是傾向于單一的劇情片的電影評分越低,反而擺脫了劇情片的電影則有較高的評分,也就是越豐富的類型種類越可以帶來高分評價。
在各個要素之中,理論上應(yīng)該起到關(guān)鍵因素的是導(dǎo)演水平,其次是演員和編劇的水平,也就是他們在豆瓣受到豆瓣用戶的歡迎程度,較大程度上影響了他們的作品在豆瓣上的得分。但是從分析結(jié)論來看,“導(dǎo)演得分”“編劇得分”與“演員得分”的相伴概率Sig.為0.506、0與0.655。其中導(dǎo)演得分與演員得分相伴概率Sig.遠(yuǎn)遠(yuǎn)大于0.005,但編劇的相伴概率Sig.小于0.005。這個結(jié)論說明以導(dǎo)演與演員項指標(biāo)在整體的線性方程中顯著性關(guān)系較低,其系數(shù)不具有說明性。但編劇的豆瓣評分得分越高者,越能打動影片評分。
4 結(jié)論分析
通過本次針對豆瓣top250電影評分的分析可以找到三個規(guī)律,其一是時間上越靠近今天的電影,在整體的top250高分榜單上排名越低,說明我們?nèi)缃竦母叻蛛娪安粌H是越來越少,并且得分也是越來越低,這個現(xiàn)象值得引起我們電影工作者的思考。其二,時間越長的電影越能獲得高分,恰恰說明如今想要拍攝一部高分的電影,還是需要保證質(zhì)量的同時適當(dāng)?shù)脑黾悠L,不用被快餐化的風(fēng)氣所影響。其三還需要進(jìn)一步加強(qiáng)影片的類型豐富化,如今電影觀眾尤其是對于高分電影的需求是類型豐富的電影,單一類型的影片不僅票房不理想,口碑上面也無法滿足大眾。
參考文獻(xiàn):
[1] 何曉雪,畢圓夢,姜繩.基于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測電影票房的多元線性回歸方程構(gòu)建[J].新媒體研究,2018?(05):41-48.
[2] 蘇·奧默爾,蘇紋.測定愿望:蓋洛普和好萊塢的觀眾研究[J].世界電影,1992(04):81-119.
[3] 毛良斌.豆瓣電影宣傳營銷效果分析——基于豆瓣用戶的調(diào)查[J].電影評介,2014(11):6-8.
[4] 馮莎.豆瓣電影評論文本的情感分析研究——基于2017年電影《乘風(fēng)破浪》爬蟲數(shù)據(jù)[J].中國統(tǒng)計,2017(07):30-33.
[5] 劉正山,易婧.“惡評”界定及其存在性檢驗(yàn)——基于2014—2016年370部電影的實(shí)證分析[J].當(dāng)代電影,2017(05):4-10.
[6] 陳然.我國商業(yè)電影票房影響因素研究[D].云南財經(jīng)大學(xué),2016:68.
[7] 胡曉紅,王紅,基于多元線性回歸的電影票房預(yù)測研究[J].信息技術(shù)與信息化,2018(Z1):183-185.
作者簡介:周如彪(1993—),男,北京人,研究生,研究方向:電影評價,信息管理。
林曉霞,女,法學(xué)博士,北京電影學(xué)院管理學(xué)院副教授。
王昱華,女,藝術(shù)學(xué)博士,北京電影學(xué)院學(xué)工部部長。