李旺澤,鄭 列
(湖北工業(yè)大學(xué)理學(xué)院,湖北 武漢 430068)
電影是文化產(chǎn)業(yè)當(dāng)中最具產(chǎn)值的消費(fèi)藝術(shù)之一。在中國(guó),電影票房從2010年的101.72億元猛增至2017年的559.11億元,2018年11月25日,當(dāng)年國(guó)產(chǎn)電影總票房達(dá)到了559.12億元,已超過(guò)前一年全年票房。伴隨政府相關(guān)扶持政策不斷出臺(tái),騰訊、阿里在內(nèi)的眾多互聯(lián)網(wǎng)巨頭投資電影產(chǎn)業(yè)。但中國(guó)電影市場(chǎng)的實(shí)際情況卻是,國(guó)產(chǎn)電影從2017年開(kāi)始80%都處于虧損狀態(tài),因此有必要建立一個(gè)合理的模型來(lái)研究影響中國(guó)票房收入的因素,在電影發(fā)行前預(yù)測(cè)該電影的票房收入。
20世紀(jì)80年代,國(guó)內(nèi)外的學(xué)者開(kāi)始了對(duì)電影票房預(yù)測(cè)模型的研究。Barry Litman(1983)[1]作為電影票房預(yù)測(cè)的鼻祖,認(rèn)為電影票房受發(fā)行、創(chuàng)意及營(yíng)銷三角度的影響,故選取了導(dǎo)演、出品地、類型、檔期、提名等10個(gè)因素,對(duì)700多部電影運(yùn)用多元線性回歸的方法進(jìn)行電影票房預(yù)測(cè)研究。Scott Sochay(1994)[2]改進(jìn)了 Barry Litman 提出的模型,增加了放映周數(shù)的預(yù)測(cè),并且將變量進(jìn)一步細(xì)分,從原本的 14 個(gè)影響因子增加到 22 個(gè)??上У氖且陨蟽煞N預(yù)測(cè)方法的準(zhǔn)確率分別為 25%和 38%。Ramesh Sharda 和 Dursun Delen(2007)[3]首次提出用BP神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)電影票房,且預(yù)測(cè)準(zhǔn)確率達(dá)到了65%。Google(2013)[4]開(kāi)發(fā)了其自有的票房預(yù)測(cè)系統(tǒng),選取電影上映前一周的搜索量和廣告點(diǎn)擊量等為影響因素建立了線性回歸模型,認(rèn)為這些影響因素與電影票房之間的關(guān)系是簡(jiǎn)單的線性關(guān)系,其得到的預(yù)測(cè)準(zhǔn)確率高達(dá)94%,但是其模型與數(shù)據(jù)沒(méi)有對(duì)外公開(kāi)。
我國(guó)對(duì)電影票房預(yù)測(cè)的研究在2012年開(kāi)始。鄭堅(jiān)(2012)[5]等人利用反饋神經(jīng)網(wǎng)絡(luò)技術(shù)開(kāi)創(chuàng)了中國(guó)國(guó)內(nèi)電影票房量化研究的先河,將國(guó)內(nèi)電影票房預(yù)測(cè)帶上了理論和方法技術(shù)的新層次,其模型的預(yù)測(cè)準(zhǔn)確率為80%。楊威(2014)[6]從搜集到的微博數(shù)據(jù)數(shù)量特征、情感特征和宣傳特征三個(gè)角度,建立了多元線性回歸、SVM和BP 神經(jīng)網(wǎng)絡(luò)模型。史偉(2015)[7]以網(wǎng)絡(luò)評(píng)價(jià)為視角,用微博中的情感信息來(lái)預(yù)測(cè)電影票房收入。羅捷(2015)[8]添加了外國(guó)影片對(duì)票房有所影響這個(gè)指標(biāo),利用回歸模型建立票房預(yù)測(cè)模型。聶鴻迪(2015)[9]選取了22個(gè)變量,建立了多元回歸模型解釋了各個(gè)影響因素對(duì)電影票房的影響,然后通過(guò)建立BP 神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)票房。王偉(2015)[10]對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),加入了記憶層增加對(duì)異常值進(jìn)行處理。王躍華(2016)[11]從制片、宣傳和發(fā)行的角度出發(fā),建立了由質(zhì)量、宣傳、檔期、排片等因素組成的票房影響因素鉆石模型。2017 年滑瑤等[12]著重研究了電影票房的季節(jié)性影響因素,建立Holt-Winter 無(wú)季節(jié)指數(shù)平滑模型,對(duì)國(guó)內(nèi)電影票房進(jìn)行預(yù)測(cè);2017 年張雪[13]采用了深度學(xué)習(xí)方法卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)電影票房。上述國(guó)內(nèi)學(xué)者電影票房預(yù)測(cè)模型精度基本都在80%左右。
筆者從貓眼網(wǎng)、藝恩網(wǎng)、時(shí)光網(wǎng)、微博以及電影票房網(wǎng)選取了電影的6個(gè)類型、年份、首日票房、觀眾評(píng)分人數(shù)、觀眾想看人數(shù)等22個(gè)相關(guān)因素為自變量。選擇了2011年到2018年11月票房過(guò)億的292部電影為研究對(duì)象,選擇其中的262部電影為訓(xùn)練集,30部電影為測(cè)試集。
爬取的部分原始數(shù)據(jù)見(jiàn)圖1。因?yàn)樵紨?shù)據(jù)中有很多定性變量,故將對(duì)其進(jìn)行一定的啞變量處理,具體說(shuō)明見(jiàn)表1。
圖1 原始數(shù)據(jù)
隨機(jī)森林由許多決策樹(shù)組成,其中每棵樹(shù)的值取決于隨機(jī)向量的獨(dú)立采樣。當(dāng)新樣本輸入到隨機(jī)森林模型中時(shí),每個(gè)決策樹(shù)模型都對(duì)這個(gè)樣本進(jìn)行分類,哪一類選擇得多,就預(yù)測(cè)該樣本為哪一類。隨機(jī)森林最后模型的輸出結(jié)果由森林中的每一顆決策樹(shù)共同決定,當(dāng)分類樹(shù)變成回歸樹(shù)時(shí),隨機(jī)森林就可以進(jìn)行回歸預(yù)測(cè)分析,分類最終結(jié)果是每顆決策樹(shù)的均值。具體構(gòu)建過(guò)程如圖2所示。
通過(guò)R軟件的randomForest包來(lái)構(gòu)建隨機(jī)森林,分枝變量選擇數(shù)mtry和樹(shù)分類器個(gè)數(shù)ntree的取值將直接影響最后的預(yù)測(cè)結(jié)果和精度。圖3和圖4是這2個(gè)參數(shù)不同取值的誤差。
圖3 分枝變量選擇數(shù)的確定
圖4 樹(shù)分類器個(gè)數(shù)的確定
最終得到了隨機(jī)森林回歸模型見(jiàn)表2。
表2 隨機(jī)森林回歸模型
建立樹(shù)分類器ntree個(gè)數(shù)為55,分枝變量選擇數(shù)mtry為11的回歸類型隨機(jī)森林,平均殘差平方為7.909841,其方差解釋能力為80.81%。說(shuō)明模型擬合較好。
精度平均減少值和節(jié)點(diǎn)不純度的平均減少值是度量變量重要性的指標(biāo),其值越高表示該變量對(duì)結(jié)果越重要,影響越大。由圖5知,觀眾評(píng)分人數(shù)、首日票房、首周票房、觀眾想看人數(shù)、明星影響力、導(dǎo)演影響力、編劇影響力、制式、電影評(píng)分等因素相對(duì)電影類型和出品公司和發(fā)行公司等因素更為重要。
圖5 指標(biāo)重要度
采用 Mean Absolute Percentage Error(MAPE)對(duì)建立的隨機(jī)森林電影票房預(yù)測(cè)模型進(jìn)行評(píng)估:
其中n是樣本量,通過(guò)建立的隨機(jī)森林模型訓(xùn)練得到的結(jié)果值為Xi,實(shí)際的電影票房為Yi。MAPE值越大,說(shuō)明建立的隨機(jī)森林電影預(yù)測(cè)模型得到的值與實(shí)際電影票房差距越大,即說(shuō)明模型的預(yù)測(cè)效果越差。本文建立的隨機(jī)森林回歸電影票房預(yù)測(cè)模型的MAPE值為0.1525845,即平均預(yù)測(cè)精度達(dá)到了85%左右。
表3 模型預(yù)測(cè)結(jié)果
圖6 電影票房預(yù)測(cè)結(jié)果
本文從國(guó)產(chǎn)電影票房市場(chǎng)出發(fā),把電影實(shí)際票房作為被解釋變量,觀眾評(píng)分人數(shù)、首日票房、首周票房、觀眾想看人數(shù)、明星影響力、導(dǎo)演影響力、編劇影響力、制式、電影評(píng)分等22個(gè)因子作為解釋變量,基于隨機(jī)森林回歸模型的方法建立了國(guó)產(chǎn)電影票房模型,在預(yù)測(cè)精度上有一定改善。本文研究結(jié)果表明,前期影片的宣傳力度和頻率,主創(chuàng)演員、導(dǎo)演和編輯的知名度,電影本身的ip效應(yīng)和影片類型的商業(yè)價(jià)值,以及合理的特效技術(shù)和檔期安排等都是影響電影取得高票房必不可少的因素。