• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      考慮競爭的電影首映日票房集成預(yù)測模型研究*

      2021-01-28 07:43:46唐中君吳凡倪浪
      科技促進(jìn)發(fā)展 2020年10期
      關(guān)鍵詞:堆棧電影票房競爭

      ■ 唐中君 吳凡 倪浪

      北京工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院 北京 100124

      0 引言

      電影是典型的短生命周期無形體驗品。隨著社會經(jīng)濟(jì)的發(fā)展,體驗經(jīng)濟(jì)越來越重要。國家自然科學(xué)基金委管理學(xué)部批準(zhǔn)了面上項目“基于類比推理的短生命周期無形體驗品需求預(yù)測”。本文以電影為例,研究電影首映日票房集成預(yù)測模型,是該面上項目的部分成果,在該項目中起到了重要作用。

      電影首映日票房影響著電影院線首映日后的排片計劃,直接影響后續(xù)放映日票房,對總票房有重要影響[1]。沒有準(zhǔn)確的首映日票房預(yù)測,電影院線難以對首映日進(jìn)行合理排片,易于出現(xiàn)當(dāng)日高空座率或座位不足,進(jìn)而影響總票房。映前一周是首映日票房預(yù)測和依據(jù)預(yù)測結(jié)果排片的重要時點。因此,提出適合于映前一周的首映日票房預(yù)測模型具有重要現(xiàn)實意義。

      與映后電影票房預(yù)測不同,電影映前未產(chǎn)生票房實際數(shù)據(jù),也沒有觀眾口碑信息。這兩類數(shù)據(jù)是近幾年映后電影票房預(yù)測方法中最常用的數(shù)據(jù)。相對而言,映前票房預(yù)測可使用的信息類別遠(yuǎn)少于映后預(yù)測,增加了預(yù)測難度。與此同時,電影在短期內(nèi)市場總量一定,同檔期電影間存在高度競爭[2],尤其是同檔期高票房電影、同類型電影會對新上映電影票房產(chǎn)生重要影響。然而,以往研究主要探索了口碑,電影類型和排片等單一競爭因素的影響,尚未發(fā)現(xiàn)較為全面地考慮競爭因素對首映日票房影響的研究。

      圖1 模型構(gòu)建流程

      由于缺乏票房和口碑?dāng)?shù)據(jù),截至2019年,以時間序列為代表的映后票房預(yù)測方法難以適用于映前預(yù)測[3]。以多元線性回歸模型為代表的、可用于映前的單一票房預(yù)測方法普遍存在預(yù)測準(zhǔn)確性不足,穩(wěn)定性差等問題[4]。集成模型(Ensemble Model)是近幾年來在kaggle數(shù)據(jù)科學(xué)競賽中獲得廣泛使用的、較為先進(jìn)的一類方法。以堆棧泛化(Stacking Generalization)為代表的堆棧集成模型相比單一預(yù)測模型,擁有更好的預(yù)測精度、穩(wěn)健性和泛化能力[5]。因此,在預(yù)測信息類別少,數(shù)據(jù)缺失較多的電影首映日票房預(yù)測環(huán)境下,可應(yīng)用集成模型以提高預(yù)測準(zhǔn)確性。然而,未曾發(fā)現(xiàn)這樣的研究。

      本文將分析電影映前7天可獲取的與首映日票房有關(guān)的信息,構(gòu)建包括檔期內(nèi)競爭、消費意圖等的預(yù)測變量集;使用多元線性回歸,支持向量回歸,Lasso 回歸和XGBoost 算法構(gòu)建基學(xué)習(xí)器;在此基礎(chǔ)上,進(jìn)一步構(gòu)建基于XGBoost 算法的首映日票房集成預(yù)測模型。通過對比實驗,驗證本文構(gòu)建的首映日票房預(yù)測模型的有效性。

      1 文獻(xiàn)綜述

      本節(jié)從預(yù)測所用信息和方法兩方面進(jìn)行綜述。

      就預(yù)測所用信息而言,映后預(yù)測使用的一些信息在映前已經(jīng)產(chǎn)生,可以為映前預(yù)測所用。這些信息包括電影基本信息和觀眾期待。

      最早研究電影票房預(yù)測的Barry 在構(gòu)建多元回歸電影票房預(yù)測模型時,利用的電影基本信息有電影類型,導(dǎo)演及演員影響力,是否續(xù)集等變量。此后眾多學(xué)者在這些基本信息的基礎(chǔ)上,增加了演員獲得或提名奧斯卡“最佳演員獎”[6]、專業(yè)影評人早期對預(yù)告片的評論[7]、投資總額[8]等預(yù)測變量。

      對觀眾期待的刻畫主要利用社交網(wǎng)絡(luò)中電影預(yù)告片或電影海報的熱度等信息。例如,Mestyán[9]發(fā)現(xiàn),電影映前一個月內(nèi)在維基百科上的頁面瀏覽量和用戶參與編輯數(shù)對票房有積極影響。Oh[10]研究發(fā)現(xiàn),預(yù)告片在社交網(wǎng)絡(luò)上的評論量和分享量都對票房有顯著影響。類似的觀眾期待變量還有針對電影腳本內(nèi)容的社交網(wǎng)絡(luò)熱度、社交媒體的期待指數(shù)等。

      除電影基本信息和觀眾觀影期待之外,同檔期電影之間的競爭是影響票房的重要因素。而現(xiàn)有文獻(xiàn)對該因素的考慮主要集中在映后預(yù)測中,并且只考慮了該因素的某一方面。例如,賀凱彬[11]研究了競爭電影口碑對票房的影響。結(jié)果表明,電影票房不僅與該電影口碑相關(guān),還與同檔期內(nèi)該電影與最高口碑電影的口碑差距有關(guān),差距越大,電影票房越低,檔期熱度和該檔期內(nèi)上映電影數(shù)對這種負(fù)向作用具有調(diào)節(jié)效應(yīng)。類似地,Yeung[12]通過關(guān)注競爭因素中的口碑競爭,發(fā)現(xiàn)競爭對手評分越低,越有利于競爭電影取得具有壟斷性的票房。此外,張倫[13]探討了不同類別電影的票房競合關(guān)系。結(jié)果表明,在電影安排檔期時應(yīng)考慮電影類型間的競爭合作關(guān)系。總之,以往研究主要探索了競爭環(huán)境中的口碑,電影類型和排片等單一競爭因素的影響,尚未發(fā)現(xiàn)較為全面地考慮競爭因素對首映日票房影響的研究。

      眾多預(yù)測方法與預(yù)測工具都曾應(yīng)用于電影票房預(yù)測[14],如BP 神經(jīng)網(wǎng)絡(luò)[15],機器學(xué)習(xí)算法等[16]。以往研究多利用單一模型,但單一模型的預(yù)測穩(wěn)健性和準(zhǔn)確性往往不佳,采用集成模型可以有效解決這一問題。

      集成模型主要有裝袋算法(Bagging)、提升算法(Boosting)和堆棧集成(Stacking)3 類。Stacking 利用堆棧泛化方法集合不同類型的基學(xué)習(xí)器,以此構(gòu)建的模型稱為堆棧集成模型。堆棧集成模型的實質(zhì)是構(gòu)建兩層或以上的學(xué)習(xí)器網(wǎng)絡(luò);第一層學(xué)習(xí)器稱為基學(xué)習(xí)器(Base-Learner),與Boosting 等集成方法不同,堆棧集成中的基學(xué)習(xí)器可由多個不同類型的算法組成。第二層學(xué)習(xí)器稱為元學(xué)習(xí)器(Meta-Learner)。元學(xué)習(xí)器以基學(xué)習(xí)器的輸出作為輸入,通常以降低基學(xué)習(xí)器偏差為準(zhǔn)則選取元學(xué)習(xí)器。因而,可將堆棧集成模型視為一個多層感知機:基學(xué)習(xí)器作為隱藏層神經(jīng)元,元模型作為輸出層,以提高預(yù)測精度,同時獲得更優(yōu)的泛化性能和穩(wěn)健性。

      堆棧集成可有效提高預(yù)測精度,降低泛化誤差[17],在所有集成模型中具有最優(yōu)的泛化性能。文獻(xiàn)[18]以數(shù)理證明的形式證明了堆棧集成模型的有效性。隨著機器學(xué)習(xí)算法的不斷發(fā)展,更多高效的算法可用作集成模型的基學(xué)習(xí)器,進(jìn)一步提高了堆棧集成模型的泛化性能、穩(wěn)健性和預(yù)測精度。例如,Pernía[19]在零件生產(chǎn)質(zhì)量預(yù)測中,運用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),鄰近算法(K-NearestNeighbor,KNN)等作為基學(xué)習(xí)器,使用ANN 作為元學(xué)習(xí)器,結(jié)果表明堆棧集成模型的均方根誤差低于單一預(yù)測模型。Zhai[20]使用自適應(yīng)提升算法(Adaboost)、XGBoost和Lasso回歸等算法作為基學(xué)習(xí)器,使用SVR 作為元學(xué)習(xí)器預(yù)測空氣質(zhì)量,證明堆棧集成模型在泛化性能和預(yù)測精度方面均優(yōu)于單一預(yù)測模型。然而,未曾發(fā)現(xiàn)將堆棧集成模型應(yīng)用于電影首映日票房預(yù)測的研究。

      表1 解釋變量及來源

      2 首映日票房預(yù)測集成模型構(gòu)建

      2.1 模型構(gòu)建流程

      模型構(gòu)建流程如圖1所示,主要包括數(shù)據(jù)抽取和堆棧集成兩個階段。

      在數(shù)據(jù)抽取階段,從社交網(wǎng)絡(luò)和各專業(yè)電影網(wǎng)站爬取相應(yīng)數(shù)據(jù)后,集合以往研究和數(shù)據(jù)分析,得到源數(shù)據(jù)。隨后對源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,得到可以用來訓(xùn)練和驗證基學(xué)習(xí)器的候選解釋變量數(shù)據(jù)集。

      在堆棧集成階段,使用多元線性回歸,支持向量回歸,Lasso 回歸和XGBoost 作為基學(xué)習(xí)器,并使用XG‐Boost 作為元學(xué)習(xí)器構(gòu)建堆棧集成預(yù)測模型。首先用數(shù)據(jù)抽取階段得到的訓(xùn)練集與驗證集來訓(xùn)練和驗證基學(xué)習(xí)器,訓(xùn)練之后采用十折交叉驗證的方式,以獲得最穩(wěn)定的訓(xùn)練結(jié)果。隨后以基學(xué)習(xí)器的輸出作為元學(xué)習(xí)器的輸入進(jìn)行預(yù)測,得到最終的預(yù)測結(jié)果。同時利用XG‐Boost的輸出結(jié)果進(jìn)行進(jìn)行特征重要性分析。

      2.2 數(shù)據(jù)抽取

      數(shù)據(jù)抽取的主要工作是爬取文獻(xiàn)研究數(shù)據(jù)、電影首映日數(shù)據(jù)和電影競爭環(huán)境數(shù)據(jù),得到可用于訓(xùn)練和驗證基學(xué)習(xí)器的源數(shù)據(jù)。該階段的核心是如何選擇變量。

      通過參考已有文獻(xiàn)中的研究及對電影競爭環(huán)境的識別,結(jié)合電影首映日前能夠獲取的數(shù)據(jù)情況。初步分析后得到如表1所示的34 個解釋變量,分為競爭環(huán)境、觀眾期待、電影基本信息和市場基本面4 類。解釋變量的選取秉持以下原則:(1)盡可能多的識別票房影響因素;(2)該變量必須是電影上映前可收集到的信息;(3)變量數(shù)據(jù)必須是可以以較低時間成本獲取的。

      圖2 模型訓(xùn)練步驟圖

      圖3 特征重要性分析圖(縱軸變量的含義見表3)

      a.競爭環(huán)境。電影票房不僅與該電影口碑相關(guān),還與同檔期內(nèi)該電影與最高口碑電影的口碑差距有關(guān),差距越大,電影票房越低,并且檔期熱度和該檔期內(nèi)上映電影數(shù)對這種負(fù)向作用具有調(diào)節(jié)效應(yīng)[21]。本文對競爭環(huán)境的量化主要考慮兩個方面。(1)高票房競爭對手。由于市場總量在短時期內(nèi)基本固定,所以對高票房競爭對手的考量是有必要的。綜合考慮口碑效應(yīng)及可獲得數(shù)據(jù),本文選取預(yù)測電影上映前一周首要競爭對手的票房數(shù)據(jù)及前三名競爭對手的座位數(shù)等數(shù)據(jù),來度量高票房競爭對手;(2)同類型電影的競爭對手??紤]到不同類型的電影可能面向不同的目標(biāo)觀眾,本文選取同檔期內(nèi)的同類型電影上映數(shù)量、上映時長等作為競爭環(huán)境變量。

      b.觀眾期待。社交網(wǎng)絡(luò)數(shù)據(jù)被廣泛運用于需求預(yù)測。相較于預(yù)告片評論量等社交網(wǎng)絡(luò)數(shù)據(jù),預(yù)告片在社交網(wǎng)絡(luò)的分享數(shù)對票房具有更顯著影響[22]。本文使用社交網(wǎng)站如微博和優(yōu)酷視頻網(wǎng)站的用戶對目標(biāo)電影預(yù)告片的轉(zhuǎn)發(fā)與評論數(shù),以及百度搜索指數(shù)和豆瓣“想看”的人數(shù)等變量來量化觀眾對電影的期待程度。

      c.電影基本信息。電影的基本信息是指電影導(dǎo)演、演員等內(nèi)在信息,是用于票房預(yù)測的最主要信息,并且多種電影基本信息都得到了較為深入的研究[23]。因此,本文從文獻(xiàn)直接選取這類變量。包括電影類型,電影投資額,觀眾熟悉程度(是否為續(xù)集電影),卡司陣容等。

      d.市場基本面。該類變量用于探索一定時期內(nèi)市場總量對電影票房的影響。本文選取電影上映前12 個月內(nèi)的中國內(nèi)地電影市場票房等數(shù)據(jù)來量化這類變量。

      2.3 堆棧集成

      本文擬構(gòu)建一個以多元線性回歸(MLR)、Lasso 回歸、支持向量回歸(SVR)和XGBoost(Extreme Gradient Boosting)算法作為基學(xué)習(xí)器,使用XGBoost作為元學(xué)習(xí)器的堆棧集成模型。在基學(xué)習(xí)器模型中,使用訓(xùn)練集對每一基學(xué)習(xí)器進(jìn)行訓(xùn)練。訓(xùn)練之后,利用類似于十折交叉驗證的方式,輸出預(yù)測結(jié)果。隨后,元學(xué)習(xí)器(XG‐Boost)利用基學(xué)習(xí)器預(yù)測結(jié)果作為輸入來進(jìn)行最終的預(yù)測。

      多元線性回歸是研究不確定性關(guān)系的有效統(tǒng)計方法,也是近二十年來票房預(yù)測中應(yīng)用最早與最廣的方法之一[24];Lasso 是一種回歸分析方法,可同時實現(xiàn)變量選擇和正則化,廣泛應(yīng)用于統(tǒng)計學(xué)和機器學(xué)習(xí)領(lǐng)域。Lasso回歸能夠保持對高維變量的計算可行性,并且容易產(chǎn)生可解釋的稀疏解,是電影票房預(yù)測的一種常用方法[25];SVR 是支持向量機在回歸問題上的應(yīng)用,方法較為成熟,可將SVR 算法用于電影票房預(yù)測研究;XGBoost 算法屬于集成方法中的同源集成,是Boosting方法的一種,同時也是一種靈活可擴展的梯度提升方法。具有結(jié)果可解釋性強,對缺失值不敏感,支持列抽樣等優(yōu)點,在預(yù)測研究中具有良好的適用性[26]?;谏鲜鲈?,本文擬選取MLR、Lasso 回歸、SVR 和XGBoost 算法作為基學(xué)習(xí)器。

      基于堆棧泛化的集成模型的訓(xùn)練步驟如圖2所示。

      第一步,將解釋變量數(shù)據(jù)集分割為訓(xùn)練子集和驗證子集。

      第二步,對每一個基學(xué)習(xí)器模型,使用訓(xùn)練子集和驗證子集進(jìn)行訓(xùn)練和驗證。

      第三步,將驗證子集的預(yù)測結(jié)果作為輸入變量訓(xùn)練元模型,然后進(jìn)行預(yù)測。

      第四步,重復(fù)步驟1—3,直至所有數(shù)據(jù)均被用于訓(xùn)練和預(yù)測。

      3 模型驗證結(jié)果與特征重要性分析

      本節(jié)首先選取均方根誤差(RMSE)與平均絕對百分比誤差(MAPE)作為評價指標(biāo),對首映日票房單一預(yù)測模型和集成預(yù)測模型進(jìn)行評價,然后利用XGBoost 的特征權(quán)重值對加入競爭變量的數(shù)據(jù)集進(jìn)行特征重要性分析。

      表2 模型驗證結(jié)果

      3.1 模型驗證

      如表2所示,對于多元線性回歸、Lasso 回歸和SVR這3 種單一模型,基于測試集數(shù)據(jù)經(jīng)十折交叉驗證后的RMSE 分別為8.91,10.42 和14.65,表現(xiàn)出較差的預(yù)測準(zhǔn)確性和穩(wěn)定性。對比這3種模型的訓(xùn)練集和測試集結(jié)果可以發(fā)現(xiàn),模型存在過擬合風(fēng)險。與這3 種單一模型相比,XGBoost 單一模型的訓(xùn)練集和測試集結(jié)果均取得了較優(yōu)的預(yù)測精度,且具有更優(yōu)的穩(wěn)定性。

      對比所有單一模型和以XGBoost 作為元學(xué)習(xí)器的堆棧集成模型的預(yù)測結(jié)果,可以看出,對于訓(xùn)練集,集成模型較單一模型至少有20%以上的預(yù)測準(zhǔn)確性提升;對于測試集,集成模型比表現(xiàn)最優(yōu)的單一模型仍有預(yù)測準(zhǔn)確性和穩(wěn)定性的提升,顯示出集成模型更優(yōu)的預(yù)測性能和泛化能力。

      3.2 競爭變量的特征重要性分析

      XGBoost 可以分別根據(jù)權(quán)重、增益和覆蓋度參數(shù)輸出具有可解釋性的特征重要性指標(biāo)。其中,權(quán)重參數(shù)具有直觀,區(qū)別性強的特點,被廣泛使用于特征重要性分析,因此本文使用該參數(shù)。在具體操作中,利用Python的XGBoost 包,使用Feature_important 函數(shù)來輸出特征重要性指標(biāo)并排序。結(jié)果如圖,橫坐標(biāo)表示特征在所有樹中作為劃分屬性的次數(shù),縱坐標(biāo)表示變量名稱。

      表3 預(yù)測變量表

      根據(jù)特征重要性排序結(jié)果知。首先,在競爭變量中,首要競爭對手熒幕占比、首要競爭對手的座位數(shù)、首要競爭對手的豆瓣評分、前三競爭對手的映日總座位數(shù)、前三競爭對手中與目標(biāo)電影接近評分的電影數(shù)量等這些變量在特征重要性中排名前列,說明電影競爭環(huán)境尤其是其首要競爭者對首映日電影的票房影響巨大。競爭對票房的重要影響顯示了檔期的重要性,對上映電影來說,選擇合適的上映檔期,尤其是避開那些具有極大票房號召力的電影可以帶來更好的開映票房成績。

      其次,首要競爭對手微博話題轉(zhuǎn)發(fā)量、首要競爭對手微博話題評論數(shù)、前三競爭對手的同類型電影微博評論等變量對首映日票房的影響不容小覷。因而,電影宣傳發(fā)行團(tuán)隊?wèi)?yīng)關(guān)注電影檔期內(nèi)具有票房優(yōu)勢的競爭者,尤其是最高票房競爭對手的社交網(wǎng)絡(luò)影響力。并在社交網(wǎng)絡(luò)中,針對首要競爭對手采取針對性的宣傳措施,以提升首映日票房成績。

      最后,同類型競爭對手的電影總場次、平均場次、以及電影數(shù)量的特征重要性較高,對首映日票房的影響較大。因而電影發(fā)行方在確定開映日期時,應(yīng)盡量避免電影檔期內(nèi)出現(xiàn)同類型電影,尤其是具有高票房號召力的同類型電影。以此更能幫助取得更好的開映票房成績。

      4 結(jié)論與展望

      映前預(yù)測缺乏票房、口碑等信息,可用預(yù)測變量類別少,傳統(tǒng)預(yù)測方法缺乏穩(wěn)定性和可泛化性。據(jù)此本文構(gòu)建了以多元線性回歸、支持向量回歸等模型為基學(xué)習(xí)器,以XGBoost 為元學(xué)習(xí)器的堆棧集成模型。實驗結(jié)果表明,集成預(yù)測模型具有對首映日票房預(yù)測的適用性和有效性?;诙褩<傻募深A(yù)測模型很好地結(jié)合了基預(yù)測模型的優(yōu)點,相比較于單一預(yù)測模型有更高的預(yù)測精度和更好的泛化性能。在首映日票房預(yù)測中,集成模型在訓(xùn)練集和測試集中準(zhǔn)確性均高于80%,比較單一預(yù)測模型有較顯著的預(yù)測準(zhǔn)確性提升。同時,訓(xùn)練集與測試集中表現(xiàn)較為接近也顯示出集成模型具有突出的泛化性能和穩(wěn)健性,比較單一預(yù)測模型對首映日票房預(yù)測更穩(wěn)定,因此集成預(yù)測模型更適用于首映日票房預(yù)測。

      特征重要性結(jié)果表明,本文構(gòu)建的考慮競爭的映前電影票房數(shù)據(jù)集適用于電影首映日票房預(yù)測。其中,競爭環(huán)境對電影開映票房的影響十分顯著,最主要表現(xiàn)在市場中最高票房的電影和檔期內(nèi)同類型電影的上映會搶占有限的電影票房。因而電影發(fā)行方需認(rèn)真考量當(dāng)前電影競爭環(huán)境,合理選擇檔期,以取得最佳電影開映票房成績。

      本研究尚存在以下局限:僅使用2017年電影數(shù)據(jù)展開實驗,有必要利用更多數(shù)據(jù)進(jìn)行驗證,以進(jìn)一步探索集成模型的泛化能力;對票房影響因素的分析有待深入,需進(jìn)一步探索具有顯著影響因素的現(xiàn)實意義。

      猜你喜歡
      堆棧電影票房競爭
      新年新氣象,元旦來帶頭 2021年1月電影票房排行榜
      打鐵還需自身硬 2020年10月電影票房排行榜
      意料之中,整體表現(xiàn)平淡 2020年9月電影票房排行榜
      暑期檔繼續(xù)“遇冷”2019年7月電影票房排行榜
      嵌入式軟件堆棧溢出的動態(tài)檢測方案設(shè)計*
      基于堆棧自編碼降維的武器裝備體系效能預(yù)測
      感謝競爭
      兒時不競爭,長大才勝出
      競爭
      小說月刊(2015年9期)2015-04-23 08:48:17
      競爭等5則
      西青区| 云浮市| 铁力市| 磐安县| 象州县| 彰化市| 呼图壁县| 龙江县| 商城县| 陇川县| 盐亭县| 牟定县| 福贡县| 临澧县| 巫溪县| 青川县| 文登市| 小金县| 永川市| 凭祥市| 英山县| 濮阳县| 界首市| 五常市| 怀仁县| 卓尼县| 凤庆县| 上饶市| 崇礼县| 岳池县| 二手房| 万源市| 紫云| 图木舒克市| 锦屏县| 青田县| 中牟县| 香港 | 会理县| 普宁市| 绥化市|