• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于網(wǎng)絡(luò)數(shù)據(jù)預(yù)測(cè)電影票房的多元線性回歸方程構(gòu)建

      2018-05-23 15:24:42何曉雪畢圓夢(mèng)姜繩
      新媒體研究 2018年5期
      關(guān)鍵詞:電影

      何曉雪 畢圓夢(mèng) 姜繩

      摘 要 隨著經(jīng)濟(jì)實(shí)力的不斷增長(zhǎng)和人民生活水平的日益提高,我國(guó)電影市場(chǎng)得到了蓬勃發(fā)展,對(duì)國(guó)民經(jīng)濟(jì)的貢獻(xiàn)率不斷上升。對(duì)電影票房進(jìn)行科學(xué)的預(yù)測(cè),不僅能夠?qū)﹄娪氨旧淼耐顿Y有所幫助,同時(shí)也可以促進(jìn)電影產(chǎn)業(yè)進(jìn)行科學(xué)合理的資源配置。文章利用多元線性回歸方程,通過(guò)采集近年來(lái)的電影票房數(shù)據(jù)樣本,從豆瓣評(píng)分、微博想看人數(shù)、M1905電影網(wǎng)的相關(guān)新聞數(shù)量及電影首映日票房等多個(gè)角度構(gòu)建了票房預(yù)測(cè)模型,并確定了最終影響實(shí)際票房的三大因素,最后構(gòu)建了電影的票房預(yù)測(cè)模型并得出了預(yù)測(cè)票房結(jié)論。

      關(guān)鍵詞 多元線性回歸方程;電影;票房預(yù)測(cè)

      中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-0360(2018)05-0041-08

      1 研究背景

      隨著我國(guó)經(jīng)濟(jì)實(shí)力不斷增長(zhǎng),人民生活水平日益提高,消費(fèi)能力也在逐步提升。人們更加重視對(duì)美好生活的追求,其尤為突出的一個(gè)側(cè)面便是休閑娛樂投資所占比例越來(lái)越大。特別是近些年來(lái),我國(guó)電影市場(chǎng)蓬勃發(fā)展,圍觀中提供了無(wú)數(shù)銀幕佳作,人們的觀影熱情也隨之越發(fā)高漲,又進(jìn)一步推動(dòng)了電影市場(chǎng)對(duì)經(jīng)濟(jì)貢獻(xiàn)率的不斷上升。這種相互遞進(jìn)的經(jīng)濟(jì)效應(yīng),使得人們對(duì)于新生電影能否帶來(lái)理想票房愈發(fā)重視。

      2017年,著名導(dǎo)演馮小剛的新片《芳華》宣布退出國(guó)慶黃金檔,無(wú)疑掀起一陣巨浪,更激起我們對(duì)于其撤檔背后是否與票房密切相關(guān)這一點(diǎn)產(chǎn)生了長(zhǎng)久的思考。為研究此問題,需要一個(gè)合適的票房預(yù)測(cè)模型。2013年Google發(fā)布了一篇名為《Quantifying, movie magic with Google Search》的論文,里面提出一種基于多元線性回歸方程的電影票房預(yù)測(cè)模型,通過(guò)其能在電影上映前1個(gè)月得到該電影的首周票房,并且預(yù)測(cè)成功率高達(dá)94%。由于一部電影涉及眾多環(huán)節(jié),其票房的影響因素也紛繁復(fù)雜,而且程度有大有小,不同類型電影可以考察的參數(shù)亦不同。

      1.1 多元線性回歸方程預(yù)測(cè)票房的可行性

      多元線性回歸方程正是考慮到多方因素作用來(lái)計(jì)算的一種常用數(shù)學(xué)模型。它可以采用多個(gè)變量組合來(lái)預(yù)估某一變量,較單一變量預(yù)測(cè)更符合實(shí)際,誤差更小,結(jié)果更有效,具有廣泛的適用性,更符合現(xiàn)代社會(huì)的實(shí)際情況,而且實(shí)現(xiàn)簡(jiǎn)單,易于人們理解和操作。因此,我們決定沿用這一模型對(duì)電影《芳華》票房進(jìn)行預(yù)測(cè)分析,進(jìn)而為電影行業(yè)的發(fā)展產(chǎn)生一些實(shí)際借鑒意義。

      1.2 國(guó)內(nèi)外研究歷史及經(jīng)驗(yàn)

      隨著互聯(lián)網(wǎng)時(shí)代的高速發(fā)展,網(wǎng)民在線生成人數(shù)爆炸式增長(zhǎng),信息交互傳遞的速度越來(lái)越快。2006年,Gilad Mishne和Natalie Glance通過(guò)分析博客中有關(guān)電影的數(shù)據(jù),構(gòu)建了基于博客的電影票房預(yù)測(cè)模型,研究關(guān)于電影的口碑聲量和口碑的情感分析對(duì)票房的影響程度,最終揭示了口碑聲量的影響力更大。2010年,itaram Asur和Bernardo A.Huberman通過(guò)實(shí)驗(yàn)得到了在推特中的電影聲量與票房呈線性相關(guān),并且其數(shù)據(jù)的正負(fù)情感分析對(duì)票房也有很大影響的結(jié)論。在2013年,Chong Oh等利用推特里關(guān)于電影的口碑?dāng)?shù)據(jù)和boxofficemojo.com的電影票房數(shù)據(jù)分析,得出口碑能直接影響電影票房的結(jié)論,而且觀影用戶反饋及片方的前期推廣信息也間接影響整體的票房成績(jī)。

      2 研究過(guò)程

      2.1 影響電影票房的因素猜測(cè)

      根據(jù)前人的研究與實(shí)驗(yàn)成果,我們可以看出,用戶口碑、關(guān)注度以及新聞宣傳對(duì)電影票房有積極影響。自商品經(jīng)濟(jì)發(fā)展以來(lái),口碑便是極為重要的影響因素。而在社交媒體盛行的當(dāng)下,海量數(shù)據(jù)的挖掘無(wú)疑要從這一領(lǐng)域開始。其中,微博,作為一種通過(guò)關(guān)注機(jī)制分享簡(jiǎn)短實(shí)時(shí)信息的廣播式的社交網(wǎng)絡(luò)平臺(tái),截至2016年,月平均活躍人數(shù)達(dá)到2.97億。龐大的用戶覆蓋面使其在新聞?shì)浾摗⒕C藝娛樂等方面繼續(xù)保持絕對(duì)影響力,而對(duì)于電影行業(yè)的發(fā)展推動(dòng)力也不容小覷。知名大V,各種營(yíng)銷號(hào)的前期推廣,即時(shí)性的用戶反饋與信息傳遞,無(wú)時(shí)無(wú)刻不在影響著一部電影的票房走勢(shì)。豆瓣,作為老牌書影音交流社區(qū),憑借優(yōu)質(zhì)的用戶評(píng)論和較為客觀的電影評(píng)分,也成為我們本次研究的數(shù)據(jù)參考之一。此外,我們還選取了電影網(wǎng)站的新聞數(shù)據(jù),進(jìn)一步思考前期宣傳與票房的關(guān)系,綜合探究口碑這一宏觀概念對(duì)于票房方面的影響。

      在這些數(shù)據(jù)中,口碑?dāng)?shù)量與產(chǎn)品營(yíng)銷成正相關(guān)關(guān)系。同時(shí),電影票房也是自相關(guān)的,前期宣傳力度大、關(guān)注度高、近期票房高的電影總票房就會(huì)比較高。因此,我們分別針對(duì)豆瓣評(píng)分、微博中表示“想看”某部電影的人數(shù)、M1905電影網(wǎng)相關(guān)資訊及首映日票房與電影總票房的關(guān)系進(jìn)行了研究探索。表1為搜集的近年電影樣本數(shù)據(jù)表,表2為數(shù)據(jù)采集來(lái)源表。

      2.2 影像電影票房因素的確定方法

      上文提到“豆瓣評(píng)分”、微博表示“想看”人數(shù)、M1905電影網(wǎng)相關(guān)影視新聞和電影首映日票房與電影實(shí)際票房的情況看起來(lái)似乎都有極大的關(guān)系。為了驗(yàn)證這4個(gè)因素是否有關(guān)系,有什么樣的關(guān)系,我們采用單個(gè)元素分析,最后整合的方式進(jìn)行試探。

      第一,分別將上述元素作為唯一自變量,將兩年內(nèi)所找到的電影實(shí)際票房作為因變量,分別利用SPSS統(tǒng)計(jì)軟件進(jìn)行線性回歸探索。在線性回歸探索中,如果R2的數(shù)值越接近1,那么這個(gè)與票房的關(guān)系越緊密。

      第二,再對(duì)自變量、因變量進(jìn)行顯著性分析,在得出的結(jié)果中看顯著性。顯著性的臨界值是0.05,即超過(guò)這個(gè)值,因變量與自變量的線性關(guān)系無(wú)法建立,應(yīng)當(dāng)舍棄。

      第三,對(duì)于符合上述兩個(gè)條件的自變量與因變量關(guān)系再此進(jìn)行驗(yàn)證,并用軟件自動(dòng)建立線性回歸公式。這個(gè)公式暫時(shí)不具有參考意義,只是對(duì)于自變量與因變量關(guān)系的存在進(jìn)行證明。

      第四,當(dāng)確定與實(shí)際票房有線性關(guān)系的因素后,將這些因素全部作為自變量,將實(shí)際票房作為因變量,再次利用SPSS軟件,重復(fù)上述三個(gè)步驟,建立多元線性回歸方程,這個(gè)方程就是所得的票房預(yù)測(cè)方程。

      第五,利用所得方程,將電影《芳華》的自變量數(shù)據(jù)帶入,經(jīng)計(jì)算得出最終結(jié)論。

      2.3 猜測(cè)因素與票房關(guān)系探索

      2.3.1 豆瓣評(píng)分與票房關(guān)系探索

      基于之前的假設(shè),首先對(duì)豆瓣評(píng)分與實(shí)際票房之間的關(guān)系做分析。通過(guò)運(yùn)用SPSS統(tǒng)計(jì)軟件,將表1中2017年芳華類電影的豆瓣評(píng)分作為自變量,實(shí)際票房作為因變量輸入軟件,進(jìn)行了線性回歸分析,探索二者之間的關(guān)系。結(jié)果如表3所示。

      在這個(gè)表中,R2的數(shù)值是0.083,遠(yuǎn)遠(yuǎn)小于1,這表示電影實(shí)際票房的8.3%可由豆瓣評(píng)分來(lái)解釋。鑒于在R?的值越接近1,其擬合效果越好的這個(gè)規(guī)律,可以初步判定豆瓣評(píng)分與電影實(shí)際票房之間的關(guān)系不大。為了確定這個(gè)結(jié)論,再將豆瓣評(píng)分與票房關(guān)系顯著性進(jìn)行分析,結(jié)果如表4所示。

      在顯著性分析中,當(dāng)結(jié)果值大于0.05時(shí)說(shuō)明模型受誤差因素干擾太大不能接受。由表4可以看出,這里的顯著性為0.115,遠(yuǎn)遠(yuǎn)超過(guò)了0.05,也就是由自變量“豆瓣評(píng)分”和因變量“電影實(shí)際票房”建立的線性關(guān)系回歸模型沒有顯著的統(tǒng)計(jì)學(xué)意義。所以再次證明,豆瓣評(píng)分不能作為我們預(yù)測(cè)電影票房的依據(jù)。

      2.3.2 微博表示“想看”電影人數(shù)與電影實(shí)際票房關(guān)系探索

      與探索豆瓣評(píng)分與票房關(guān)系的方法相同,將2016年和2017年芳華類電影的微博“想看”人數(shù)作為自變量,實(shí)際票房數(shù)據(jù)作為因變量,進(jìn)行了線性回歸分析,結(jié)果如表5所示。

      在表格中,可以R?是0.424,大于可作為參考因素的臨界值0.3,表示電影票房的42.5%可以通過(guò)電影的微博“想看”人數(shù)來(lái)解釋,所以微博“想看”人數(shù)是可以作為我們預(yù)測(cè)電影票房的一個(gè)重要依據(jù)的。同樣,再次進(jìn)行微博“想看”人數(shù)與票房關(guān)系顯著性分析,以驗(yàn)證上述猜想,結(jié)果如表6、表7所示。

      這里得到了結(jié)果的顯著性為0.000,因?yàn)榫_值的關(guān)系,軟件并未顯示具體數(shù)值,但可以明確看出這個(gè)數(shù)值遠(yuǎn)小于臨界值0.05,這表明由自變量“電影的微博‘想看人數(shù)”和因變量“電影實(shí)際票房”建立的線性回歸模型具有極顯著的統(tǒng)計(jì)學(xué)意義。

      為了確定微博“想看”人數(shù)與票房關(guān)系的線性關(guān)系,我們?cè)俅螌⒍咄ㄟ^(guò)SPSS軟件進(jìn)行顯著性分析,并試圖得出結(jié)論。如表7所示。

      從系數(shù)這一欄中我們可以得到建模的直接結(jié)果,并且系數(shù)的顯著性也是0.000,說(shuō)明該線性回歸方程是有意義的。根據(jù)軟件所給結(jié)論,某電影微博“想看”人數(shù)(X)與電影實(shí)際票房(Y)的模型表達(dá)式為:Y=0.598X+2 418.659。

      2.3.3 M1905電影網(wǎng)相關(guān)影視新聞數(shù)量與電影實(shí)際票房的關(guān)系探索

      M1905電影網(wǎng)也是一個(gè)十分具有影響力的網(wǎng)站。在這個(gè)網(wǎng)站中,我們主要選擇2016年和2017年芳華類電影在M1905上的新聞資訊的數(shù)量和實(shí)際票房,用同樣的方法進(jìn)行了線性回歸分析,結(jié)果如表8

      所示。

      我們看到R2是0.461,說(shuō)明電影票房的46.1%可以用M1905的新聞資訊數(shù)量解釋。

      再對(duì)M1905相關(guān)影視新聞數(shù)量與票房關(guān)系顯著性進(jìn)行分析,結(jié)果如表9、表10所示。

      顯著性為0.000,根據(jù)前面的經(jīng)驗(yàn),這里的實(shí)際數(shù)值應(yīng)當(dāng)是小于0.01的一個(gè)值,遠(yuǎn)小于0.05,表明由自變量“M1905的相關(guān)新聞資訊數(shù)量”和因變量“電影實(shí)際票房”建立的線性回歸模型具有極顯著的統(tǒng)計(jì)學(xué)意義。

      再次對(duì)M1905電影網(wǎng)相關(guān)影視新聞數(shù)量與票房關(guān)系進(jìn)行線性方程的建立。分析結(jié)果如表10。

      從系數(shù)這一欄中我們可以得到建模的直接結(jié)果,所以M1905的相關(guān)新聞數(shù)量與電影實(shí)際票房的模型表達(dá)式為:Y=402.470X-3732.455。

      2.3.4 電影首映日票房與電影實(shí)際票房的關(guān)系

      探索

      探討電影首映日票房與實(shí)際票房的關(guān)系,我們同樣用2016年和2017年芳華類電影的首映日票房和實(shí)際票房的數(shù)值進(jìn)行了線性回歸分析,分析結(jié)果如表11所示。

      我們看到R?是0.575,表示電影票房的57.5%可以通過(guò)電影的首映日票房來(lái)解釋,所以電影的首映日票房應(yīng)當(dāng)是預(yù)測(cè)電影票房的一個(gè)重要依據(jù)。再對(duì)電影首映日票房與實(shí)際票房關(guān)系進(jìn)行顯著性分析,結(jié)果如表12、表13所示。

      從這個(gè)結(jié)果中,我們可以看到,顯著性為0.000,應(yīng)當(dāng)是小于0.01中的某個(gè)值,遠(yuǎn)小于0.05,表明由自變量“電影的首映日票房”和因變量“電影實(shí)際票房”建立的線性回歸模型具有極顯著的統(tǒng)計(jì)學(xué)意義。

      從系數(shù)這一欄中我們可以得到建模的直接結(jié)果,所以電影首映日票房與電影實(shí)際票房的模型表達(dá)式為:Y=8.841X-76.196。

      2.4 多元線性回歸方程的確定

      基于前面的分析,可以確定最終一個(gè)電影在其微博上表示“想看”人數(shù)、電影首映日票房以及M1905電影網(wǎng)網(wǎng)站上電影相關(guān)新聞的數(shù)量有著線性關(guān)系。把這三個(gè)作為自變量,電影實(shí)際票房作為因變量構(gòu)建多元線性回歸模型,進(jìn)行可行性探索,結(jié)果如表14所示。

      在這個(gè)表中,我們看到R?是0.675,表示電影票房的67.5%可以通過(guò)這三個(gè)變量來(lái)解釋,也就是說(shuō)我們預(yù)測(cè)模型的準(zhǔn)確率在67.5%左右。繼續(xù)分析三要素與電影實(shí)際票房關(guān)系顯著性。結(jié)果如表15、表16所示。

      在表15中,我們看到,自變量與因變量關(guān)系的顯著性為0.000,即小于0.01的某個(gè)值,遠(yuǎn)小于0.05,表明由這三個(gè)自變量和因變量“電影實(shí)際票房”建立的多元線性回歸模型具有極顯著的統(tǒng)計(jì)學(xué)意義。

      在表16中,非標(biāo)準(zhǔn)化系數(shù)作為自變量的系數(shù),常量作為線性回歸公式的常量,可以取得最后的線性回歸公式:

      Y=0.275X1+4.447X2+204.055X3-6 082.328

      其中:X1=某電影微博表示“想看”的人數(shù),X2=電影首映日票房,X3=M1905電影網(wǎng)相關(guān)影視新聞報(bào)道量。

      3 《芳華》電影預(yù)測(cè)

      根據(jù)上述公式,我們找到了截至2018年3月5日,電影《芳華》的微博“想看”人數(shù)為42 505,首映日票房為7 579.25萬(wàn),M1905新聞網(wǎng)網(wǎng)站上關(guān)于電影《芳華》的新聞數(shù)量為159,把數(shù)據(jù)代入方程中,我們預(yù)測(cè)出的電影《芳華》實(shí)際票房為11 688.875+33 704.925+32 444.745-6 082.328=71 756.217(萬(wàn)元),即7.2億。

      4 模型總結(jié)與討論

      根據(jù)中國(guó)網(wǎng)的報(bào)道,截至2018年1月2日,電影《芳華》的票房就已經(jīng)超過(guò)12.7億①,遠(yuǎn)大于我們所預(yù)測(cè)的票房數(shù)。這樣的大誤差說(shuō)明我們的預(yù)測(cè)結(jié)果不能夠正確地預(yù)測(cè)《芳華》的票房。那么,這個(gè)模型是否能夠有效測(cè)出電影實(shí)際票房,我們對(duì)2017年的電影數(shù)據(jù)選取了10部進(jìn)行了抽樣分析②,得出結(jié)果如表17所示。

      在這個(gè)表中,我們看到,偏差率盡管通過(guò)SPSS進(jìn)行統(tǒng)計(jì)出的線性回歸公式并未準(zhǔn)確地預(yù)測(cè)出《芳華》的票房,但是通過(guò)驗(yàn)證,我們所得的多元線性回歸方程基本能夠滿足預(yù)測(cè)票房的要求。當(dāng)然,我們也知道,這個(gè)公式還有它的局限性,也希望讀者進(jìn)行批評(píng)指正。

      注釋

      ①資料來(lái)源:芳華1月2日累計(jì)票房超12.7億 芳華挺進(jìn)華語(yǔ)電影票房前十,萬(wàn)家熱線網(wǎng).http://365jia.cn/news/2018-01-03/DC8C64355BD5C349.html.

      ②數(shù)據(jù)測(cè)試電影選取方法:表1中的前十部電影。因?yàn)楸?中的每一部電影之間沒有直接的關(guān)聯(lián),所以直接選取這個(gè)表格中的前十部,可以認(rèn)定為隨機(jī)抽取。

      ③數(shù)據(jù)更新截止到2018年3月5日。

      參考文獻(xiàn)

      [1]鄭堅(jiān),周尚波.基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測(cè)建模[J].計(jì)算機(jī)應(yīng)用,2014,34(3):742-748.

      [2]任丹.基于多元線性回歸模型的電影票房預(yù)測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].廣州:中山大學(xué)軟件工程學(xué)院,2015.

      作者簡(jiǎn)介:何曉雪,上海外國(guó)語(yǔ)大學(xué)新聞傳播學(xué)院學(xué)生。

      畢圓夢(mèng),上海外國(guó)語(yǔ)大學(xué)新聞傳播學(xué)院學(xué)生。

      姜 繩,上海外國(guó)語(yǔ)大學(xué)國(guó)際關(guān)系與公共事務(wù)學(xué)院博士生。

      猜你喜歡
      電影
      徐克電影的視覺風(fēng)格解讀
      馮小剛電影中的城市空間與身份認(rèn)同
      1980—1983年電影中的審美體驗(yàn)
      電影《飄》中的女權(quán)主義意識(shí)研究
      由《萬(wàn)物理論》看英國(guó)傳記文學(xué)的改編
      從小說(shuō)到電影:看《推拿》的改編
      論胡玫《孔子》編劇藝術(shù)得失
      莫言文學(xué)作品電影改編
      湯姆?提克威影片的審美特征
      解讀張藝謀影片的視覺審美
      中卫市| 吴川市| 贡山| 文水县| 山阴县| 高邮市| 定兴县| 松溪县| 阳江市| 民勤县| 东乌| 景泰县| 肇庆市| 芜湖县| 界首市| 湖南省| 东明县| 广昌县| 南安市| 常山县| 萝北县| 巴林左旗| 河北区| 康马县| 合山市| 汤原县| 大同市| 定结县| 竹山县| 化德县| 澄江县| 颍上县| 花垣县| 清水河县| 襄城县| 辽中县| 岐山县| 六安市| 乐清市| 筠连县| 平山县|