董永聰 施一梁
摘 ?要:該文基于隨機(jī)性原則抽取了1 205個(gè)中國(guó)大陸電影市場(chǎng)2014年至2019年的電影數(shù)據(jù)作為樣本,使用離散選擇模型對(duì)票房進(jìn)行預(yù)測(cè)。最終得到:IP、電影質(zhì)量得分、票價(jià)、演員得分、3D放映技術(shù)、地區(qū)、電影種類(lèi)、檔期、電影時(shí)長(zhǎng)對(duì)票房的影響顯著。通過(guò)模型的穩(wěn)健性檢驗(yàn)和預(yù)測(cè)效果兩方面證明模型的估計(jì)結(jié)果是可靠,精確的。根據(jù)實(shí)證結(jié)果,文章為電影制片方面提供一些可行性建議。
關(guān)鍵詞:電影票房預(yù)測(cè);離散選擇模型;電影質(zhì)量得分
中圖分類(lèi)號(hào):TP391.3;J943 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)23-0137-04
Research on Box Office Forecast Based on Discrete Choice Model
DONG Yongcong,SHI Yiliang
(Zhejiang A & F University,Hangzhou ?311300,China)
Abstract:Based on the principle of randomness,the paper selects 1 205 Chinese mainland movie market data from 2014 to 2019 as samples,and uses discrete choice model to predict box office. The final results are as follows:IP,movie quality score,ticket price,actor score,3D projection technology,region,movie type,schedule and movie duration have a significant impact on box office. It is proved that the estimation result of the model is reliable and accurate through two aspects of the models robustness test and the prediction effect. According to the empirical results,this paper provides some feasible suggestions for film production.
Keywords:movie box office forecast;discrete choice model;movie quality score
0 ?引 ?言
近年來(lái),隨著收入水平的提高,人民生活?yuàn)蕵?lè)需求不斷增加,促使國(guó)內(nèi)電影市場(chǎng)繁榮發(fā)展。我國(guó)電影市場(chǎng)具有規(guī)模大,發(fā)展快,增長(zhǎng)穩(wěn)的特點(diǎn),在推動(dòng)我國(guó)經(jīng)濟(jì)發(fā)展的過(guò)程中展現(xiàn)出蓬勃的動(dòng)力。票房是衡量電影商業(yè)價(jià)值的重要指標(biāo)之一,它是指一部電影的影院放映收益情況。電影票房收入既是制片方最主要的收入來(lái)源,也從經(jīng)濟(jì)學(xué)角度上反映了大眾對(duì)電影的認(rèn)可程度——一部電影的票房越高,說(shuō)明有更多人愿意為這部電影票買(mǎi)單。因此在電影市場(chǎng)生產(chǎn)者和消費(fèi)者雙方?jīng)Q策過(guò)程中,票房都起著至關(guān)重要的作用。
我國(guó)電影票房分布呈正偏態(tài),總體上符合“二八定律”,即20%的電影占據(jù)了80%的票房市場(chǎng)[1]。一些電影產(chǎn)生的票房是令人驚異的。2017年的《戰(zhàn)狼2》總票房達(dá)到56.39億。而排名第二的《速度與激情8》票房未及其一半,與之同年上映的電影僅有15部票房超過(guò)10.00億(數(shù)據(jù)來(lái)自貓眼專(zhuān)業(yè)版)。事實(shí)上在電影市場(chǎng)中,絕大多數(shù)的電影票房難以突破1億大關(guān)。故本文對(duì)影響電影票房的因素進(jìn)行研究具有直接的現(xiàn)實(shí)意義。
自20世紀(jì)80年代以來(lái),票房預(yù)測(cè)方面的研究有許多,如Litman票房預(yù)測(cè)模型[2],Sochay票房預(yù)測(cè)模型[3]。學(xué)術(shù)界普遍采用普通最小二乘法(OLS),使用多元線性回歸模型對(duì)票房進(jìn)行擬合回歸,分析票房的影響因素。但使用離散選擇模型的研究較少。離散選擇模型能有效解決數(shù)據(jù)中的極端值對(duì)回歸時(shí)的影響。由于票房分布為有偏分布,使用離散選擇模型是合理的。
1 ?實(shí)證研究
1.1 ?變量設(shè)置
本文將電影的一些基本特征設(shè)為票房的解釋變量,下文對(duì)各變量進(jìn)行分析、描述。
1.1.1 ?電影質(zhì)量得分
電影本身的根本屬性是商品[4]。作為商品,電影質(zhì)量的高低決定電影票房,即“價(jià)值決定價(jià)格”??v觀影史,票房轟動(dòng)一時(shí)的電影絕大多數(shù)是質(zhì)量絕佳,廣受人稱贊的。然而電影質(zhì)量具體表現(xiàn)為人們主觀的觀影感受。所謂“一千個(gè)讀者就有一千個(gè)哈姆雷特”,每個(gè)人的觀影感受都不盡相同。為相對(duì)客觀的得出電影質(zhì)量得分,使用專(zhuān)業(yè)電影評(píng)分網(wǎng)站的評(píng)分進(jìn)行計(jì)算。
本文假定專(zhuān)業(yè)電影評(píng)分網(wǎng)站常出現(xiàn)“水軍控評(píng)”現(xiàn)象并不影響評(píng)分結(jié)果。在專(zhuān)業(yè)電影評(píng)分網(wǎng)站為電影打分的人足夠多,以豆瓣為例,熱門(mén)電影的評(píng)分人數(shù)常在百萬(wàn)級(jí)左右。根據(jù)大數(shù)定理,電影得分最終會(huì)趨于一個(gè)穩(wěn)定的值,這個(gè)值就是所需要的相對(duì)客觀的電影質(zhì)量得分。
本文選取兩個(gè)較為權(quán)威的、評(píng)分人數(shù)足夠多的電影評(píng)分網(wǎng)站:貓眼專(zhuān)業(yè)版和IMDb。將兩個(gè)網(wǎng)站的電影評(píng)分的算術(shù)平均數(shù)作為電影質(zhì)量得分,該得分為十分制。得分越高,表示電影質(zhì)量越高。
1.1.2 ?導(dǎo)演和演員得分
知名導(dǎo)演和演員往往意味著更強(qiáng)大的粉絲基礎(chǔ),更雄厚的資金投入,更可靠的電影質(zhì)量保障,這些都對(duì)高票房電影的產(chǎn)生有正向促進(jìn)作用。受“馬太效應(yīng)”影響,一部電影的觀影人數(shù)越多,更多人就越容易去觀看這部電影[5]。故總體來(lái)看,觀眾流量向?qū)а莺脱輪T陣容強(qiáng)大的電影傾斜。導(dǎo)演和演員出名能為電影票房起飛帶來(lái)較高的起點(diǎn)。
根據(jù)電影界的七個(gè)較出名的獎(jiǎng)項(xiàng)(分別為奧斯卡獎(jiǎng)、金棕櫚獎(jiǎng)、金熊獎(jiǎng)、歐洲電影獎(jiǎng)金雞獎(jiǎng)、金馬獎(jiǎng)、金像獎(jiǎng))的提名和獲獎(jiǎng)次數(shù),設(shè)置導(dǎo)演得分。
根據(jù)截至2020年12月9日的微博粉絲數(shù),將前三位主演的粉絲總數(shù)作為演員得分,單位為百萬(wàn),不足百萬(wàn)的記為0。
在實(shí)際搜索中,一些演員(主要為臺(tái)灣、香港和國(guó)外演員)未注冊(cè)微博賬號(hào),導(dǎo)致缺失值的出現(xiàn)。本文根據(jù)演員作品和主觀認(rèn)識(shí)計(jì)算出近似數(shù)據(jù)作為粉絲數(shù)來(lái)彌補(bǔ)缺失值。
1.1.3 ?檔期
在國(guó)內(nèi),電影放映集中在四個(gè)檔期,分別為賀歲檔、五一檔、暑期檔、國(guó)慶檔。劃分檔期的主要原因是電影消費(fèi)者的消費(fèi)集中在節(jié)假日。節(jié)假日人們的娛樂(lè)需求提高,觀影意愿普遍更強(qiáng)。然而集中放映帶來(lái)需求量的提高的同時(shí)也會(huì)導(dǎo)致同期競(jìng)爭(zhēng)更加激烈。故電影放映的檔期選擇與票房之間可能具有較強(qiáng)的相關(guān)性。本文將檔期分為五種,即五一檔:5月1日至5月8日;國(guó)慶檔:10月1日至10月7日;暑假檔:6月1日至9月1日;賀歲檔:1月1日至各年農(nóng)歷正月十五;其他。
1.1.4 ?電影種類(lèi)
近年來(lái),我國(guó)電影創(chuàng)作的類(lèi)型化意識(shí)越來(lái)越強(qiáng)[6]。電影種類(lèi)繁多,由于消費(fèi)者的偏好不同,不同類(lèi)型的電影票房也存在差異。本文根據(jù)業(yè)界標(biāo)準(zhǔn)將電影分為15種:愛(ài)情片、動(dòng)作片、驚悚片、懸疑片、喜劇片、動(dòng)畫(huà)片、戰(zhàn)爭(zhēng)片、劇情片、災(zāi)難片、科幻片、奇幻片、冒險(xiǎn)片、武俠片、紀(jì)錄片、歷史片。根據(jù)這14個(gè)電影種類(lèi)分別設(shè)置了15個(gè)虛擬的0-1變量,值為1表示是,值為0表示否。
1.1.5 ?票價(jià)
理論上,票價(jià)在電影市場(chǎng)中對(duì)觀影人數(shù)的影響總體上滿足市場(chǎng)均衡理論,即票價(jià)越高,觀影人數(shù)越少。2013年,王崢得到的結(jié)論是票價(jià)與票房正相關(guān),且在1%水平下顯著[1]。但近年來(lái)隨著人民生活水平提高,對(duì)于大多數(shù)人來(lái)說(shuō),看電影已經(jīng)不是一種奢侈消費(fèi),而是一種尋常的休閑娛樂(lè)方式。當(dāng)人們有觀影需求時(shí),對(duì)價(jià)格的敏感性大大降低,電影價(jià)格彈性較低。
本文選取電影的平均票價(jià)作為票價(jià)變量的取值。由于2014年至2019年貨幣實(shí)際購(gòu)買(mǎi)力不同,需要使用居民消費(fèi)價(jià)格指數(shù)(CPI)對(duì)變量取值進(jìn)行調(diào)整。CPI計(jì)算公式為:
將2014年1月設(shè)為基期,電影的平均票價(jià)除以基期至電影上映當(dāng)月的定基比,最終得到較為準(zhǔn)確的票價(jià)變量取值。
1.1.6 ?IP
IP,即“知識(shí)產(chǎn)權(quán)”。諸如漫威的漫威宇宙、DC的DC宇宙、哆啦A夢(mèng)系列,都是出名的影視IP。近年來(lái),IP熱潮迅速興起,貓眼數(shù)據(jù)顯示,IP類(lèi)電影中動(dòng)畫(huà)、漫畫(huà)、電影翻拍比重上升,“貓眼想看”觀眾購(gòu)票指數(shù)遠(yuǎn)超非IP類(lèi)電影。有研究表示,IP熱的根本原因在于,IP對(duì)核心用戶的聚集能力強(qiáng)以及核心用戶群對(duì)其他人群的發(fā)散影響能力強(qiáng)[7]。受“品牌效應(yīng)”影響,對(duì)于一些IP電影,觀眾往往對(duì)影片表現(xiàn)出更多的消費(fèi)意向,對(duì)影片質(zhì)量表現(xiàn)出更強(qiáng)的包容性。
本文將IP設(shè)為0-1變量,值為1表示影片是IP類(lèi)電影,值為0表示影片不是IP類(lèi)電影。
1.1.7 ?電影時(shí)長(zhǎng)
電影時(shí)長(zhǎng)是一把雙刃劍。電影時(shí)長(zhǎng)過(guò)長(zhǎng)往往使人感覺(jué)電影的敘事節(jié)奏拖沓。而電影時(shí)長(zhǎng)過(guò)短也不利于完整的講述電影內(nèi)容。這些都直接影響觀眾的觀影體驗(yàn)及影片口碑,反映在電影票房的數(shù)字上。故研究票房與電影市場(chǎng)之間的關(guān)系是有意義的。
1.1.8 ?3D放映技術(shù)
3D放映技術(shù)在影院的廣泛使用,極大地提高了觀眾的觀影體驗(yàn)。相較于傳統(tǒng)2D放映,3D放映技術(shù)給觀眾帶來(lái)的是更深層的沉浸式體驗(yàn)——更真實(shí)的畫(huà)面,更震撼的特效,更強(qiáng)的代入感。而觀眾能否獲得滿意的觀影體驗(yàn)直接影響到影片票房的高低。故研究票房與影片是否采用了3D放映技術(shù)之間的關(guān)系有意義。
本文將3D設(shè)為0-1變量,值為1表示使用3D放映技術(shù),值為0表示未使用3D放映技術(shù)。
1.1.9 ?地區(qū)
受不同國(guó)家文化影響,電影創(chuàng)作在風(fēng)格、質(zhì)量等方面均會(huì)有明顯差異。這些差異都會(huì)反應(yīng)在票房數(shù)據(jù)上。國(guó)產(chǎn)片可能更加符合中國(guó)人的審美標(biāo)準(zhǔn),票房會(huì)更高。
將地區(qū)變量根據(jù)是否為中國(guó)大陸,設(shè)置為0-1變量,值為1表示是中國(guó)大陸,值為0表示不是中國(guó)大陸。
1.2 ?分析流程
使用Stata 16對(duì)數(shù)據(jù)建模進(jìn)行回歸分析。由于電影票房的解釋變量并不滿足線性假設(shè),且電影票房數(shù)據(jù)中存在許多極端值,容易影響模型的估計(jì)結(jié)果,故本文不使用傳統(tǒng)的多元線性回歸模型,而是使用Probit模型作為基準(zhǔn)回歸模型進(jìn)行實(shí)證分析。為解決使用Probit模型導(dǎo)致的原數(shù)據(jù)信息利用不充分的問(wèn)題,本文還使用到了Oprobit模型。通過(guò)對(duì)比Oprobit模型與Probit模型回歸結(jié)果,進(jìn)行穩(wěn)健性檢驗(yàn),并使用模型進(jìn)行預(yù)測(cè)。
1.3 ?數(shù)據(jù)描述
本文爬取貓眼專(zhuān)業(yè)版中國(guó)大陸電影市場(chǎng)2014年至2019年的影片信息,對(duì)數(shù)據(jù)進(jìn)行清洗,刪除冗余項(xiàng),補(bǔ)充缺失值,并根據(jù)隨機(jī)性原則,最終抽取了1 205個(gè)樣本。該樣本數(shù)據(jù)具有時(shí)效性,對(duì)當(dāng)下中國(guó)大陸電影市場(chǎng)具有實(shí)際意義,數(shù)據(jù)描述表如表1所示。
根據(jù)表1中的電影數(shù)據(jù)分布特征,得到一些初步結(jié)論:(1)電影票房方差極大,說(shuō)明不同電影之間票房差異顯著。(2)IP類(lèi)電影占比達(dá)到了23%,說(shuō)明IP類(lèi)電影占比不小。(3)電影評(píng)分均值為6.91,且方差較小,說(shuō)明電影評(píng)分相對(duì)穩(wěn)定。(4)電影平均票價(jià)為31.92元,且方差較小,說(shuō)明電影票價(jià)相對(duì)穩(wěn)定。(5)采用3D放映技術(shù)電影僅占比30%,說(shuō)明3D放映技術(shù)在電影制作中使用不夠廣泛。(6)58%的電影不選擇在五一、國(guó)慶、暑假、賀歲這四個(gè)熱門(mén)檔期上線。說(shuō)明大多數(shù)電影選擇不參與競(jìng)爭(zhēng)。可能是因?yàn)檫@四個(gè)熱門(mén)檔期競(jìng)爭(zhēng)激烈。(7)動(dòng)作、喜劇、劇情為電影種類(lèi)的票房前三甲。戰(zhàn)爭(zhēng)、災(zāi)難、武俠、記錄、歷史占比低。
1.4 ?模型介紹
本文使用的離散選擇模型為Probit模型和Oprobit模型。
電影票房預(yù)測(cè)的Probit模型使用公式為:
電影票房預(yù)測(cè)的Oprobit模型使用公式為:
其中,βi為各估計(jì)系數(shù),Xi為各解釋變量,復(fù)合函數(shù)Φ(x)為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。
probit_bo為Probit模型的被解釋變量。本文分別取分界值為10 000萬(wàn)元、20 000萬(wàn)元和60 000萬(wàn)元建立3個(gè)Probit模型。根據(jù)給定的分界值設(shè)置probit_bo的值,將票房大于分界值的設(shè)為1,小于分界值的設(shè)為0。
oprobit_bo為Oprobit模型的被解釋變量,取10 000萬(wàn)元、60 000萬(wàn)元作為分界值。根據(jù)分界值設(shè)置oprobit_bo的值,票房小于10 000萬(wàn)元的設(shè)為1,為低票房電影,票房在10 000萬(wàn)元至60 000萬(wàn)元之間的設(shè)為2,為中票房電影,票房大于60 000萬(wàn)元的設(shè)為3,為高票房電影。
由于引入的電影類(lèi)型、檔期兩個(gè)虛擬變量具有完全的多重共線性,為避免陷入“虛擬變量陷阱”,選擇style1和schedule1作為電影類(lèi)型和檔期的基準(zhǔn)組。
1.5 ?實(shí)證結(jié)果
注:表中數(shù)據(jù)為變量估計(jì)系數(shù)和對(duì)應(yīng)的標(biāo)準(zhǔn)差,*表示在10%水平下顯著,**表示在5%水平下顯著,***表示在1%水平下顯著。下同。設(shè)置預(yù)測(cè)正確的標(biāo)準(zhǔn):Probit和Oprobit模型將預(yù)測(cè)發(fā)生概率最高的區(qū)間作為預(yù)測(cè)的結(jié)果,預(yù)測(cè)結(jié)果與實(shí)際票房所在區(qū)間相同的視為預(yù)測(cè)成功。
根據(jù)表2得到以下結(jié)論:
IP元素對(duì)電影票房具有正向影響。電影得分、電影票價(jià)、演員粉絲數(shù)與電影票房正相關(guān)。導(dǎo)演對(duì)票房影響不顯著。驚悚片和喜劇片的票房最高,動(dòng)畫(huà)片、武俠片的票房最低。國(guó)產(chǎn)片的票房比國(guó)外片更高。采用3D放映技術(shù)的電影票房更高。電影時(shí)長(zhǎng)越長(zhǎng),票房越高。賀歲檔的票房最高,國(guó)慶檔的票房最低。
Probit模型的預(yù)測(cè)正確率最高,均在80%以上。說(shuō)明使用Probit模型進(jìn)行票房預(yù)測(cè)是合理的。Oprobit模型正確率其次,但由于Oprobit預(yù)測(cè)區(qū)間劃分的更多,故預(yù)測(cè)結(jié)果相較于Probit模型更加精準(zhǔn)。
1.6 ?穩(wěn)健性檢驗(yàn)
對(duì)基準(zhǔn)回歸模型——Probit模型進(jìn)行穩(wěn)健性檢驗(yàn),本文的思路是更改電影質(zhì)量得分?jǐn)?shù)據(jù)。使用貓眼得分和IMDb得分代替原數(shù)據(jù)進(jìn)行回歸。更改數(shù)據(jù)后的模型結(jié)果估計(jì)系數(shù)符號(hào)及顯著性與原基準(zhǔn)模型的估計(jì)結(jié)果無(wú)明顯差異,進(jìn)一步證實(shí)了Probit模型的估計(jì)結(jié)果是穩(wěn)健的。
2 ?結(jié) ?論
本文使用的幾種票房預(yù)測(cè)模型適用于目前中國(guó)大陸的電影市場(chǎng),具有時(shí)效性和直接的現(xiàn)實(shí)意義。由于電影票房分布的二八定律,最終能在同期競(jìng)爭(zhēng)市場(chǎng)中脫穎而出的影片屈指可數(shù)。而影片制作又具有周期長(zhǎng),成本高的特點(diǎn),故在電影制作過(guò)程中制片方常面臨著“收不回本”的挑戰(zhàn),承擔(dān)的風(fēng)險(xiǎn)極大。為了保證電影收益,電影制片方常處于理想與現(xiàn)實(shí)的取舍困境。這不利于形成電影創(chuàng)作百家齊放、百家爭(zhēng)鳴的局面。而使用本文的票房預(yù)測(cè)模型,能為投資方與制片方的決策提供參考依據(jù),起到降低風(fēng)險(xiǎn)的作用。
參考文獻(xiàn):
[1] 王錚,許敏.電影票房的影響因素分析——基于Logit模型的研究 [J].經(jīng)濟(jì)問(wèn)題探索,2013(11):96-102.
[2] LITMAN B R. Predicting Success of Theatrical Movies:An Empirical Study[J].The Journal of Popular Culture,1983,16(4):159–175.
[3] SOCHAY S. Predicting the Performance of Motion Pictures [J].Journal of Media Economics,1994,7(4):1-20.
[4] 鐘淯媛.電影消費(fèi)需求經(jīng)濟(jì)分析 [J].中國(guó)報(bào)業(yè),2020(14):44-45.
[5] 王曉通.大數(shù)據(jù)背景下電影智能推送的“算法”實(shí)現(xiàn)及其潛在問(wèn)題 [J].當(dāng)代電影,2019(5):64-70.
[6] 劉藩.中國(guó)電影的現(xiàn)狀和問(wèn)題 [J].北京電影學(xué)院學(xué)報(bào),2014(1):2-11.
[7] 程武,李清.IP熱潮的背后與泛娛樂(lè)思維下的未來(lái)電影 [J].當(dāng)代電影,2015(9):17-22.
作者簡(jiǎn)介:董永聰(2001—),男,漢族,浙江臺(tái)州人,本科在讀,研究方向:應(yīng)用統(tǒng)計(jì);通訊作者:施一梁(1982—),男,漢族,浙江杭州人,就職于藝術(shù)學(xué)院,專(zhuān)任教師,導(dǎo)演,碩士,研究方向:紀(jì)錄片拍攝。