彭琪凱 楊志浩 郭丹(通訊作者)
(通化師范學院計算機學院,吉林 通化 134000)
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的飛速發(fā)展,當今各行各業(yè)所需要和處理巨量的信息化數(shù)據(jù)逐年遞增,如何在海量數(shù)據(jù)提取有效的且有價值的信息,大數(shù)據(jù)挖掘和分析技術(shù)成為相關(guān)行業(yè)的重中之重。作為國民經(jīng)濟發(fā)展支柱之一的文化影視產(chǎn)業(yè)備受各大廣電網(wǎng)絡、投資人關(guān)注。票房和收視率作為影視行業(yè)的主要評測標準,制片人、廣告代理機構(gòu)投資及收益的主要參考依據(jù),無形中體現(xiàn)了有效數(shù)據(jù)分析的價值。總的來說,大數(shù)據(jù)的終極目標并不僅僅是改變競爭環(huán)境,而是徹底扭轉(zhuǎn)整個競爭環(huán)境,帶來新機遇,企業(yè)行業(yè)要應勢而變。只有認識到這一點,使用合適的數(shù)據(jù)分析工具、智慧地使用和管理數(shù)據(jù),才能在長期競爭中成為終極贏家。
對于“大數(shù)據(jù)”(Big data)研究機構(gòu)Gartner 給出了這樣的定義?!按髷?shù)據(jù)”是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應海量、高增長率和多樣化的信息資產(chǎn)。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式架構(gòu)。它的特色在于對海量數(shù)據(jù)進行分布式數(shù)據(jù)挖掘。但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫和云存儲、虛擬化技術(shù)。
隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。分析師團隊認為,大數(shù)據(jù)通常用來形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫用于分析時會花費過多時間和金錢。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce 一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
隨著大數(shù)據(jù)的技術(shù)日益普及,大數(shù)據(jù)的意義也呈現(xiàn)出多樣化的趨勢,一般很難給出一個準確的定義。因此這三個字不能準確描述大數(shù)據(jù)。大數(shù)據(jù)不一定意味著海量數(shù)據(jù),而是說數(shù)據(jù)鏈間具有明顯的特征。目前大數(shù)據(jù)的 4V 定義被廣泛認同。也就是說,大數(shù)據(jù)的特征是以V 開頭的四個字母來描述的。
Veracity 數(shù)據(jù)真實性:數(shù)據(jù)的質(zhì)量;Volume 數(shù)據(jù)容量:數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息;Variety 數(shù)據(jù)種類:數(shù)據(jù)類型的多樣性;Velocity傳輸速度:獲得數(shù)據(jù)的速度。除此之外,大數(shù)據(jù)還具有可變性(Variability),它會妨礙處理和有效地管理數(shù)據(jù)的過程;復雜性(Complexity),即數(shù)據(jù)量巨大,來源多渠道;以及價值性(value),即合理運用大數(shù)據(jù),以低成本創(chuàng)造高價值。
通過分析影視大數(shù)據(jù)特征,票房和收視率受到影響的因素非常多[3]。近幾年新興媒體漸漸的突破了“傳統(tǒng)媒體”的限制,讓影院和電視臺必須開始考慮互聯(lián)網(wǎng)元素對票房和收視率帶來的影響,例如微博等平臺上演員的粉絲數(shù)以及搜索量等,微博上被討論的次數(shù)、該影片的關(guān)注程度、搜索引擎的搜索次數(shù)、各大視頻網(wǎng)站上的點擊量等,對比于傳統(tǒng)行業(yè)以及影視預測來說,建立在互聯(lián)網(wǎng)基礎(chǔ)上的影視數(shù)據(jù)挖掘有著下面幾點特征:
1.數(shù)據(jù)類別多、量大:由于日常生活中人們離不開互聯(lián)網(wǎng)的幫助,每天都會出現(xiàn)海量的交互信息,用戶在網(wǎng)絡中各類操作都會被當做網(wǎng)絡日志進行記錄。眾多的字段、數(shù)據(jù)和信息,使得分析前對于分析字段的挑選和篩查工作顯得非常重要。
2.影視數(shù)據(jù)挖掘時效性短:隨著用戶行為變化以及網(wǎng)絡環(huán)境的改變加速,使得數(shù)據(jù)挖掘算法及模型的改進周期在持續(xù)縮小,以往的“用戶流失預測模型”是以年為時間尺度完成更新,現(xiàn)在互聯(lián)網(wǎng)下的這些模型則只需三個月就需要進行改進和優(yōu)化。
3.技術(shù)更新快:和傳統(tǒng)產(chǎn)業(yè)比較,網(wǎng)絡當中的新技術(shù)、新模式發(fā)展更快、更短、更具顛覆性。這就要求數(shù)據(jù)分析和挖掘的應用更加多元化。從最初分析挖掘,再到以微博應用為典型的分析需求,直至如今更加熱門的移動數(shù)據(jù)分析和運用,可以說如今網(wǎng)絡數(shù)據(jù)分析應用已經(jīng)獲得了極大的發(fā)展。
以2019 年春節(jié)檔關(guān)注的電影《瘋狂外星人》《流浪地球》《飛馳人生》《新喜劇之王》四部為例,通過 Python 從各大網(wǎng)站如m1095、票房網(wǎng)、豆瓣網(wǎng)等獲取電影票房、質(zhì)量、導演、演員屬性等數(shù)據(jù),如表1。
關(guān)于這幾部電影的票房,我們團隊在電影上映一周前就做了出了預測,如圖2:
截止到2019 年2 月12 日早上9 點,我們再來看一下首周票房對比結(jié)果,如圖3:
除了《流浪地球》這匹黑馬殺出重圍之外,其他電影的預測結(jié)果與實際結(jié)果幾乎完全吻合。那么,我們是如何用數(shù)據(jù)挖掘預測電影票房的呢?即先根據(jù)歷史票房變化預測出春節(jié)檔總票房,然后根據(jù)各導演、演員制作的歷史電影質(zhì)量、票房情況、SEO 情況等預測出各電影票房占比,之后綜合預測出各電影的實際票房。
如何使用歷史數(shù)據(jù)來預測電影質(zhì)量?對于電影來講不變的就是那些導演與演員,導演的水平與演員的水平基本決定電影質(zhì)量從而影響電影票房。為了客觀衡量導演、演員水平,根據(jù)歷史電影評分、導演信息、演員信息、票房信息、電影類型信息、評價信息等特征進行組合最終共有74 個特征,再結(jié)合歷史票房數(shù)據(jù)等通過加權(quán)算法分析得到四部電影的票房占比情況,處理后的數(shù)據(jù)如圖4。
電影票房還與SEO等相關(guān),我們找尋了百度指數(shù)、微信指數(shù)、淘票票指數(shù)等數(shù)據(jù),如圖5:
從歷史數(shù)據(jù)發(fā)現(xiàn)這些指數(shù)與電影票房呈正相關(guān)關(guān)系,也就是指數(shù)越高票房越高,加入這些指數(shù)后,使用算法重新進行預測得到我們最后的票房預測結(jié)果。
大數(shù)據(jù)技術(shù)的飛速發(fā)展和應用在各種領(lǐng)域都得到了關(guān)注和共識,收集海量的數(shù)據(jù)、提取有效的信息、運用精準的分析算法、采用合理的處理工具,都會使各行各業(yè)的經(jīng)濟效率、社會疚得到大幅度的提升。