連聰聰,杜儀,張輝
(中國傳媒大學理學院,北京 100024)
電影營銷因素是提升電影票房不可或缺的一個因素,積極的營銷因素對票房能夠有明顯的提升效果,為了控制發(fā)行所帶來的風險,保證電影的投資能夠得到相應的回報,電影票房的收入預測成為一種必不可少的重要手段,對于投資方來說具有相當實際的意義。電影是一種生命周期較短的產(chǎn)品,絕大部分票房也全是在短短上映期間產(chǎn)生,因此,通過對營銷因素的分析,做好票房的預測,才能對營銷的過程進行調整,最終取得票房上的佳績。本文充分考慮票房特點,基于clementine軟件建立BP神經(jīng)網(wǎng)絡模型,并對票房進行了很好的預測。
本文樣本數(shù)據(jù)選取2011年1月初至2014年12月底公開上映的102部國產(chǎn)電影進行分析并對票房進行預測。
對于收集到的樣本數(shù)據(jù),本文首先對其進行了簡單的數(shù)據(jù)分析,利用SPSS軟件對所有的類型變量做了一個頻率分析,得到結果如表1:
表1 電影類型一頻率分布表
本文所選的電影類型為:1喜劇片、2愛情片、3動作片、4驚悚片(懸疑片)、5動畫片、6魔幻片(科幻片)、7戰(zhàn)爭片、8劇情片、9傳記片(歷史片)、10家庭片。從表1可以發(fā)現(xiàn),電影的第一類型主要為愛情片,其次是劇情片、動作片、喜劇片,而魔幻片、動畫片、戰(zhàn)爭片基本沒有,這反映了在國內愛情、喜劇、動作電影更占主流,較受歡迎,而像戰(zhàn)爭題材、動畫片則相對產(chǎn)片量較少,同時也可以看出國內的魔幻片數(shù)量極度緊缺,與好萊塢的大制作相比相差甚遠。
首先為了預防因素之間的互相干擾,探討因素之間的關系,本文利用SPSS軟件對各個因素變量之間做了一個相關分析,研究各個因素之間是否存在某種依存關系,結果如表2:
表2 各因素相關性
從表2可以看出,導演與視頻物料的支數(shù)相關性稍微較大,為0.409,但從實際來看,導演影響力與視頻物料支數(shù)關系甚小,從而基本可以忽略其關系;其次為導演影響力與電影得分的相關性,其他變量的相關性皆小于0.3。從表格可以看出整體各個連續(xù)型因素之間的相關性并不顯著,并不存在明顯的依存關系,對于之后的分析影響并不大,可進行下一步。
人工神經(jīng)網(wǎng)絡系統(tǒng)由眾多可調的神經(jīng)元連接權值連接而成,人工神經(jīng)網(wǎng)絡作為一種并行分散的處理模式,具備大規(guī)模并行處理、分布式的信息存儲以及良好的自組織自學習能力等特點。
BP算法作為人工神經(jīng)網(wǎng)絡的一種相對典型的學習算法,其拓撲結構組成主要包括一個輸入層、一個或多個隱含層、一個輸出層。
如下為基本的三層BP人工網(wǎng)絡結構:
圖1
4.2.1 數(shù)據(jù)指標選取
本文總結選取出了8個對電影票房有影響的營銷因素,對于電影的廣告費用等數(shù)據(jù)不可獲得的變量本文則不進行選擇。具體選出的這八個變量為:電影類型、電影檔期、導演、第一主演微博粉絲數(shù)、第一主演所發(fā)電影相關微博的轉發(fā)量、視頻物料、IP電影、電影評分。
4.2.2 基于BP模型的電影票房預測
(1)確定網(wǎng)絡結構
本文的輸入變量分別是電影第一類型、電影第二類型、電影檔期、電影得分、導演影響力、演員微博粉絲數(shù)、轉發(fā)量、IP電影以及視頻物料的支數(shù),對于類型變量,軟件對其進行自動處理成二分變量,最后變成輸入節(jié)點數(shù)為28個。輸出變量為電影票房的值,僅有一個神經(jīng)元。神經(jīng)網(wǎng)絡的隱藏層介于輸入層與輸出層之間,本文選擇一個隱層。
(2)權值調整
對于輸出層的輸出值,如果不是預期中的期望值,則會反向的對網(wǎng)絡不斷地進行修正,逐層修正各個連接的權值,并完成誤差的修正過程。通過不停的修正,最后準確率也不斷提高,直到達到期望值所在范圍才終止學習。
(3)樣本數(shù)據(jù)分割
為了得到相對準確的誤差估計,建立Partition節(jié)點,并連接到數(shù)據(jù)流上的超節(jié)點上,選取70%為訓練樣本集,30%作為檢驗樣本集。本文在神經(jīng)網(wǎng)絡節(jié)點的Expert選項中選擇一個隱藏層,該層設置隱節(jié)點個數(shù)10個。
(4)預測結果
本文的輸出變量是數(shù)值型變量,預測精度的方法是:
其中,表示第i個樣本實際值與模型預測值的誤差絕對值;Ymax表示最大的輸出變量實際值,Ymin表示最小的輸出變量的實際值。本文估計的預測精度為99.926%,該數(shù)據(jù)是基于訓練樣本計算的,結果比較樂觀。如表3所示,本文原本輸入節(jié)點為8個,對其中的分類變量進行轉換為多個數(shù)值型變量,共有28個輸入節(jié)點。除此之外,有1個隱層、10個隱節(jié)點、1個輸出節(jié)點。
表3 分析結果輸出
變量的敏感程度如表4所示。
從表4的預測結果可以看出,導演影響力是對票房影響最大的因素,其次為電影類型2以及檔期,而視頻物料支數(shù)及微博的轉發(fā)量就顯得不那么顯著。
表4 各因素敏感度
摘取分析結果中的一部分預測結果如表5所示。其中$為預測值,預測值為標準化后的結果,通過(Ymax-Ymin)+Ymin還原。通過表5中可以看出,整體預測的準確性較高,誤差較小。
表5 原始值與預測值對比
(5)模型調整
本文的精度達到99%以上,可能存在過度擬合的情況,為了克服過度擬合問題,本文在訓練樣本集中再抽取50%的樣本訓練模型。預測結果顯示預測精度為86.508%,相比之前的精度,更加符合實際,得到新的敏感度如表6所示。
此外為了研究隱層節(jié)點數(shù)對預測精度的影響,本文對隱節(jié)點的個數(shù)進行調整,分別設置了5、10、15、20、25這5種,發(fā)現(xiàn)在多次試驗中,當節(jié)點數(shù)為15時,預測精度較高,達到89.741%,其敏感度如表7所示。
表6 各因素敏感度
表7 各因素敏感度
對比表4、表6、表7,可以發(fā)現(xiàn)導演影響力、電影類型2以及電影檔期這三種因素都位居前三,也就是說模型的調整對于該三個變量的敏感度影響都較小,意味著該三個變量對于票房的營銷效果確實顯著;而IP電影則在模型調整過程中都顯現(xiàn)了較低的敏感度,說明是否為IP電影其實對于電影票房影響不大;相比之下其他變量的敏感度都有較大變動,不夠顯著。
(6)預測評估
本文以相對誤差作為電影票房預測的一個衡量標準,相對誤差的公式如下:
其中box為電影票房的實際值,Nbox為票房的預測值。選取的是訓練樣本集中再抽取50%的樣本訓練模型、隱層節(jié)點為15個時得出的預測值與實際值的對比。通過計算得到表8:
表8 相對誤差值
從以上結果可以看出,本文的平均相對誤差值在74.3%左右,對比參考閱讀的其他文獻的預測平均相對誤差值,本文擁有較好的預測精度。
綜上來說,BP神經(jīng)網(wǎng)絡模型對電影票房的預測精度還是相對較高的,具有一定的使用價值。通過本文的分析預測,可以知道導演的影響力對于電影票房來說起著至關重要的作用,明星的微博粉絲量其實不一定對于電影宣傳有多大作用,反而應該是明星的互動性;本文預測的票房數(shù)據(jù)與實際值差別也較小,相對誤差74.3%,預測精度將近90%,整體來說,本文模型較為合理,對于電影的票房預測有著一定的實用性,有利于制片方、宣傳方等在進行電影各階段工作的時候進行合理的評估。
本文立足于當前中國內地的電影市場,結合當下社會的熱門話題,提出一種基于BP神經(jīng)網(wǎng)絡的票房預測模型,將電影檔期、電影類型、導演影響力等營銷相關的因素進行量化,對票房進行預測。本文模型的預測結果精度相對較高,而相對誤差較小,預測效果較為理想。
通過這次的模型建立及實證研究,我們分析出對電影票房的各種影響因素,總結出以下幾點建議:
導演對票房的影響有著最為重要的作用,制片方在電影開拍前,選擇導演的時候應當選擇具有相對有票房號召力的導演,減小投資帶來的風險。
對于視頻物料的支數(shù),本文的分析結果顯示,還是比較顯著的。這也就意味著足夠多的視頻物料會越發(fā)地吸引觀眾進去影院觀影。
[1]王大勇,艾蘭.電影營銷實務[M].北京:中國民主法制出版社,2011.
[2]王錚,徐敏.電影票房的影響因素分析-基于Logit模型的研究[J].經(jīng)濟問題探索,2013(11):96-102.
[3]杜思源.電影票房的影響因素分析——基于中國大陸電影市場[J].中國商貿(mào),2013(10):184-187.
[4]鄭堅,周尚波.基于神經(jīng)網(wǎng)絡的電影票房預測建模[J].計算機應用,2014(3):742-748.
[5]楊威.基于微博數(shù)據(jù)的電影票房預測模型研究[J].電子世界,2014(21):13 -16.
[6]尹一伊.影響中國電影經(jīng)濟成功的因素分析-從票房預測模型看中國電影新發(fā)展[J].當代電影,2013(7):18 -22.