《IT時(shí)代周刊》特約撰稿人/陳昌業(yè)(發(fā)自北京)
責(zé)編:張里 E-mail:zhangli@ittime.com.cn 美編:圓圓 校對(duì):媚子
截至10月16日,《黃金時(shí)代》的累計(jì)票房為4698萬(wàn)(已上映16天),如此成績(jī)對(duì)于片方、媒體和公眾而言都是出乎意料,畢竟?jié)M滿的7天國(guó)慶黃金檔是一個(gè)日產(chǎn)斗金的高產(chǎn)值檔期。無(wú)論是湯唯還是馮紹峰都已是炙手可熱的有極高票房號(hào)召力的大明星,此役失利,堪稱冷門。
但最令人啞然的恐怕還是影片上映前百度為其背書的票房預(yù)測(cè),當(dāng)時(shí)很多媒體還認(rèn)為百度的預(yù)測(cè)太過保守。在百度百發(fā)的新聞發(fā)布會(huì)上,當(dāng)宣布預(yù)測(cè)票房為2.0-2.3億后,全場(chǎng)只有安靜,畢竟這個(gè)為期七天的黃金檔期對(duì)于擁有湯唯和馮紹峰的電影而言,只預(yù)計(jì)這個(gè)數(shù)字略顯保守了,但如此謹(jǐn)慎的預(yù)測(cè),在今天看來(lái)竟顯得過于“樂觀”。
其實(shí),百度很早就開始研究并在內(nèi)部預(yù)測(cè)票房了,在今年7月18日愛奇藝影業(yè)宣布成立的新聞發(fā)布會(huì)上,愛奇藝首席內(nèi)容官馬東就透露,目前在愛奇藝內(nèi)部,基于百度大數(shù)據(jù)的票房預(yù)測(cè)已經(jīng)能夠做到80%以上的準(zhǔn)確率,未來(lái)將會(huì)在適當(dāng)?shù)臅r(shí)候?qū)ν獍l(fā)布票房預(yù)測(cè)。顯然,針對(duì)《黃金時(shí)代》的百度百發(fā)(娛樂眾籌產(chǎn)品)發(fā)布就成為了百度發(fā)布票房預(yù)測(cè)的適當(dāng)時(shí)候,但只可惜出師未捷。
為什么中國(guó)最有能力做大數(shù)據(jù)預(yù)測(cè)的百度,竟會(huì)“意外”地馬失前蹄?
不到5000萬(wàn)的票房收入,讓投資方百度百發(fā)早期通過大數(shù)據(jù)技術(shù)對(duì)《黃金時(shí)代》國(guó)慶期間的票房預(yù)測(cè)完全失真。
愛夢(mèng)娛樂大數(shù)據(jù)創(chuàng)始人雷鳴和凡影調(diào)研客戶總監(jiān)王舒都認(rèn)為,在國(guó)內(nèi)做電影票房預(yù)測(cè)存在一個(gè)根本性的“疏漏”,就是中國(guó)電影市場(chǎng)的歷史數(shù)據(jù)沉淀嚴(yán)重不足。
我國(guó)有詳細(xì)、清楚和準(zhǔn)確的票房記錄是從2012年開始。當(dāng)年2月,全國(guó)電影票務(wù)綜合信息系統(tǒng)(簡(jiǎn)稱新平臺(tái))上線。該平臺(tái)共規(guī)劃了信息速遞、行業(yè)管理、影院管理、影片管理、票房數(shù)據(jù)接收、放映數(shù)據(jù)接收、監(jiān)控管理、專資收繳管理、專資使用管理、查詢統(tǒng)計(jì)、分析預(yù)測(cè)、GIS綜合展示、安全認(rèn)證、系統(tǒng)管理、SSL應(yīng)用共15個(gè)模塊,77項(xiàng)功能。從技術(shù)上實(shí)現(xiàn)了能夠準(zhǔn)確統(tǒng)計(jì)全國(guó)的票房、場(chǎng)次、排片等影院端生成的數(shù)據(jù)。
在此之前,除了年底由國(guó)家電影專資辦統(tǒng)計(jì)出具的權(quán)威票房數(shù)據(jù)外,其他每周、每月票房的數(shù)據(jù)多是由專業(yè)人士根據(jù)抽樣的統(tǒng)計(jì)進(jìn)行估算。
雷鳴介紹,愛夢(mèng)娛樂大數(shù)據(jù)為了彌補(bǔ)公開的票房數(shù)據(jù)資料不足,自己做了大量的“臟活、累活”,對(duì)2010年以來(lái)的國(guó)產(chǎn)電影單片的投資額、票房、演員陣容等進(jìn)行了盡可能的資料搜集和統(tǒng)計(jì),并進(jìn)行了標(biāo)簽化的整理,從而形成自己的具備一定沉淀量的結(jié)構(gòu)化數(shù)據(jù)。
王舒還特別提到,從2012年有詳盡票房統(tǒng)計(jì)以來(lái)的數(shù)據(jù)并不足夠有參考價(jià)值以作為票房預(yù)測(cè)的基礎(chǔ),因?yàn)橹袊?guó)電影產(chǎn)業(yè)自2012年以來(lái)連續(xù)地進(jìn)入了一段爆發(fā)式增長(zhǎng)期,從百億迅速跨越到200億元,甚至今年有望沖擊300億元。
“穩(wěn)定性是做趨勢(shì)性預(yù)測(cè)的基礎(chǔ)?!蓖跏嬲J(rèn)為,“高速增長(zhǎng)是具破壞性的,如果根據(jù)這樣的數(shù)據(jù)進(jìn)行預(yù)測(cè),則必須作出實(shí)時(shí)的調(diào)整才能相對(duì)準(zhǔn)確?!本屯跏婵磥?lái),只有等到中國(guó)電影的票房產(chǎn)值進(jìn)入到一個(gè)穩(wěn)定的平臺(tái)期,電影的消費(fèi)習(xí)慣趨于穩(wěn)定,才可能作出基于統(tǒng)計(jì)分析“準(zhǔn)確”的趨勢(shì)性預(yù)測(cè)。
據(jù)百度大數(shù)據(jù)部產(chǎn)品規(guī)劃負(fù)責(zé)人祖崢介紹,百度票房預(yù)測(cè)基于百度每日60億次的搜索查詢數(shù)據(jù)、1億規(guī)模的微博數(shù)據(jù)以及10年電影行業(yè)數(shù)據(jù),通過百度大數(shù)據(jù)引擎將數(shù)據(jù)進(jìn)行整合、建模和清洗,輸出針對(duì)特定電影的搜索指數(shù)、社交指數(shù)、演員指數(shù)、導(dǎo)演指數(shù)等,最終可以導(dǎo)出電影總票房預(yù)測(cè)和7日票房預(yù)測(cè)等數(shù)據(jù)。
雷鳴認(rèn)為,百度的搜索排名以及搜索結(jié)果導(dǎo)出的各類指數(shù)都會(huì)有大量來(lái)自于片方及其宣傳公司,即非自然形成的人為推高——這在電影行業(yè)的宣傳里司空見慣,當(dāng)然也是百度的競(jìng)價(jià)排名等與搜索結(jié)果有關(guān)的收費(fèi)服務(wù)所提供的“宣傳空間”。
如果是這些 “結(jié)果”,本身由此就會(huì)存在大量的誤導(dǎo),這在雷鳴的描述里被稱作統(tǒng)計(jì)上的“噪音”,亦被稱作“臟數(shù)據(jù)”。雷鳴認(rèn)為,不排除《黃金時(shí)代》存在這些“噪音”,而百度方面很有可能因?yàn)闆]有能夠剝離這些“臟數(shù)據(jù)”,從而“被自己欺騙了”。
關(guān)于百度預(yù)測(cè)模型,媒體公開的資料顯示,“這一產(chǎn)品結(jié)合百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù),以及中國(guó)電影過去幾年的歷史票房數(shù)據(jù),可以從演員熱度、導(dǎo)演熱度、電影關(guān)注度、上映時(shí)間等多個(gè)維度對(duì)一部電影進(jìn)行票房預(yù)估?!?/p>
凡影調(diào)研客戶總監(jiān)凌毅認(rèn)為,僅從披露的信息看,模型內(nèi)包含的數(shù)據(jù)維度并不足夠多,“或許該模型還處在初級(jí)階段?!绷枰闾岬搅藦拿襟w公布的資料看,特別是忽略了檔期內(nèi)其他競(jìng)爭(zhēng)影片這一重要的參考維度。而據(jù)其分析,該片之所以會(huì)票房失利,與影片對(duì)國(guó)慶檔期的錯(cuò)判,特別是該檔期內(nèi)觀眾的消費(fèi)心理錯(cuò)判有很大的關(guān)系。凌毅介紹,樂視影業(yè)內(nèi)部對(duì)于電影項(xiàng)目的數(shù)據(jù)決策模型中,基于同檔期競(jìng)爭(zhēng)影片的數(shù)據(jù)分析是十分重要的數(shù)據(jù)維度。
搜狗方面亦對(duì)此頗為認(rèn)同,“影響票房的未知因素多:導(dǎo)演、演員、劇本、宣傳、首映時(shí)間、影片檔期、同期競(jìng)爭(zhēng)的影片、CPI、經(jīng)濟(jì)周期、天氣情況、影院的排片率、上座率、票價(jià)、是否3D等。此外,《黃金時(shí)代》與多部電影同步上映,互相影響。而很多數(shù)據(jù)都是基于單部電影,對(duì)多部電影相互影響的作用并不好分析預(yù)判。百度票房預(yù)測(cè)的數(shù)據(jù)來(lái)源和覆蓋人群還是非常廣的,只是如上所述,預(yù)測(cè)過程中充滿了不確定性,特別是一些不可預(yù)期的變量會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生比較大的影響,這點(diǎn)在部分電影中表現(xiàn)會(huì)比較明顯,也是不可避免的?!?/p>
在王舒看來(lái),變量遺漏和樣本偏差是做統(tǒng)計(jì)性趨勢(shì)分析的最大敵人。前者即是凌毅提到的問題,維度的不夠豐富,不僅可能是因?yàn)槭杪┒鴮?dǎo)致沒有納入到統(tǒng)計(jì)口徑內(nèi),還可能是因?yàn)榛ヂ?lián)網(wǎng)內(nèi)的數(shù)據(jù)目前仍然存在“門戶”壁壘——無(wú)法打通一些關(guān)鍵的大數(shù)據(jù),譬如說微博數(shù)據(jù)與微信數(shù)據(jù)打通,百度的搜索引擎內(nèi)沉淀的數(shù)據(jù)與騰訊在QQ、微信上沉淀的用戶數(shù)據(jù)打通,淘寶、京東、貓眼等電商或O2O平臺(tái)內(nèi)的數(shù)據(jù)之間打通,這些具有強(qiáng)關(guān)聯(lián)性的數(shù)據(jù)目前還難以實(shí)現(xiàn)分享,而這些數(shù)據(jù)不能打通,則任何一方對(duì)于“人”的消費(fèi)行為描述、消費(fèi)心理觀察都必然會(huì)有相當(dāng)程度的偏頗,變量遺漏也就在所難免了。
樣本偏差指的是,“在沒有嚴(yán)格遵循隨機(jī)的原則時(shí),所覆蓋的樣本越大反而會(huì)導(dǎo)致誤差越大?!绷硗?,由于搜索只是一種表示興趣的行為,如果僅以一小部分人的興趣來(lái)推測(cè)全體的購(gòu)票決策,準(zhǔn)確度有限是難免的。
“大數(shù)據(jù)不實(shí)用。”王舒認(rèn)為,“做這種預(yù)測(cè),對(duì)于電影票房并沒有直接的幫助。這是一個(gè)無(wú)法證偽,也無(wú)法證實(shí)的預(yù)測(cè)?!庇城暗钠狈款A(yù)測(cè)如果高了,片方也不會(huì)就不作為,干等勝利成果,那么預(yù)測(cè)后所進(jìn)行的努力就成了對(duì)于票房最終結(jié)果的助力,從而也就無(wú)法證實(shí)彼時(shí)的預(yù)測(cè)與此時(shí)的成績(jī)之間是否可以稱作是準(zhǔn)確。反之亦然,預(yù)測(cè)低了,片方當(dāng)然會(huì)盡最大努力調(diào)整營(yíng)銷策略,那無(wú)論最終準(zhǔn)確與否都無(wú)法判斷彼時(shí)預(yù)測(cè)的結(jié)果究竟對(duì)與否。因此,除了為影片增加噱頭外,票房預(yù)測(cè)可以說沒有價(jià)值。
凌毅指出,樂視影業(yè)內(nèi)部的數(shù)據(jù)及策略中心,會(huì)在電影的投資階段,便參與到對(duì)項(xiàng)目的市場(chǎng)評(píng)估,幫助影片在制作上做調(diào)整。而在電影進(jìn)入到發(fā)行階段之后,更會(huì)基于對(duì)本體、檔期、競(jìng)品等的數(shù)據(jù)分析,來(lái)制定相應(yīng)的市場(chǎng)策略,包括通過對(duì)實(shí)施效果的實(shí)時(shí)監(jiān)測(cè),來(lái)修正和調(diào)整營(yíng)銷策略。凌毅強(qiáng)調(diào),數(shù)據(jù)分析更像是一個(gè)工具,它能修正經(jīng)驗(yàn)及主觀意識(shí)的偏見,幫助片方在營(yíng)銷上少做錯(cuò)誤的決策,但絕不是包治百病的萬(wàn)靈丹。
“目前,電影領(lǐng)域談大數(shù)據(jù),還為時(shí)過早。”凌毅認(rèn)為,電影行業(yè)仍然還是傳統(tǒng)產(chǎn)業(yè),從制造到消費(fèi)都是線下完成,即便現(xiàn)在有電商介入購(gòu)票環(huán)節(jié),但是絕大部分的線下行為都無(wú)法數(shù)據(jù)化導(dǎo)入到線上,從而形成具有因果關(guān)聯(lián)性的大數(shù)據(jù)沉淀。“包括在樂視影業(yè)內(nèi)部,目前數(shù)據(jù)對(duì)我們最具意義的部分,其實(shí)在于它是一套培養(yǎng)良好思維習(xí)慣的工具,大數(shù)據(jù)的前景在將來(lái)?!?/p>
王舒與凌毅觀點(diǎn)相似,他認(rèn)為大數(shù)據(jù)盡管不同于過去強(qiáng)調(diào)因果關(guān)系的統(tǒng)計(jì)分析,但強(qiáng)調(diào)關(guān)聯(lián)性的大數(shù)據(jù)并非無(wú)需因果,仍然需要有因果關(guān)系的數(shù)據(jù)導(dǎo)入。否則,全世界發(fā)生的事情都只要用“蝴蝶效應(yīng)”來(lái)解釋就足矣。
僅就電影行業(yè)的大數(shù)據(jù)而言,一方面需要較長(zhǎng)時(shí)間的歷史沉淀數(shù)據(jù)——王舒認(rèn)為是十年后;另一方面需要有大量的第三方公司參與到行業(yè)中來(lái),幫助打通各個(gè)陣營(yíng)、領(lǐng)域、行業(yè)中“孤立”的數(shù)據(jù),關(guān)聯(lián)才是大數(shù)據(jù)中“大”的真正價(jià)值。因此,沉淀票房的歷史數(shù)據(jù)以及與電影行業(yè)有關(guān)的其他數(shù)據(jù)才是當(dāng)務(wù)之急,經(jīng)年累月后,這些大數(shù)據(jù)能夠產(chǎn)生巨大的分析價(jià)值,不止于票房預(yù)測(cè)。