王一鳴
摘要:為了探究不同電視劇數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)出這些數(shù)據(jù)背后的價值,該文基于一元線性回歸模型,使用從中國網(wǎng)絡(luò)視頻指數(shù)、愛奇藝指數(shù)、央視索福瑞等權(quán)威網(wǎng)站獲取的多部熱播電視劇的點擊量、收視率等數(shù)據(jù),建立模型并進行分析。最終發(fā)現(xiàn)電視劇相鄰兩集之間的收視率存在著一元非線性的關(guān)系,而單集電視劇的點擊量與評論數(shù)存在著一元線性關(guān)系,同時單集電視劇的收視率隨集數(shù)增大而緩慢上升,點擊量則迅速下降,最后該文對此結(jié)果做出了分析并提出一些合理的建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;電視??;一元線性回歸模型
中圖分類號:TP3 文獻標(biāo)識碼:A 文章編號:1009-3044(2017)25-0235-04
近幾年中,各個領(lǐng)域都出現(xiàn)了大規(guī)模的數(shù)據(jù)增長,數(shù)據(jù)的蓬勃發(fā)展在社會經(jīng)濟和科學(xué)研究方面具有前所未有的推動作用,對挖掘潛在于數(shù)據(jù)背后的價值具有重要的意義。前幾日剛開始播出的電視劇《楚喬傳》,以其上線20分鐘點擊量破億的佳績轟動全網(wǎng)。但其實這并不是國產(chǎn)電視劇第一次有如此出色的表現(xiàn)了,從最早的《還珠格格》到之前的《三生三世十里桃花》,都曾創(chuàng)造過驚人的數(shù)據(jù),那么,這些數(shù)據(jù)背后是否存在著某種關(guān)系呢?
在此之前,陳春燕教授等人的文章《基于ARMA模型的在線電視劇流行度預(yù)測》和毋世曉教授等人的文章《基于時序分析的視頻點擊量預(yù)測》中,都采用時序分析的方法來預(yù)測未來電視劇的走向,本文也采用了相關(guān)的思想。此外,本文將在他們研究的基礎(chǔ)上,以國內(nèi)電視劇的熱播為背景,通過采集多部電視劇的數(shù)據(jù),以一元線性回歸模型的理論為基礎(chǔ),從相鄰集數(shù)的收視率、點擊量與評論數(shù)、點擊量和收視率與集數(shù)三方面探究這些數(shù)據(jù)背后的關(guān)系,并提出相關(guān)的建議,從而促進電視劇行業(yè)的蓬勃發(fā)展,提高社會效益。
1 數(shù)據(jù)
1.1 數(shù)據(jù)收集
本文共收集了包括《楚喬傳》《人民的名義》《夏至未至》等八部正在更新或已經(jīng)更新完的電視劇的單集點擊量,收視率,評論數(shù)等數(shù)據(jù)。采用的電視劇每集點擊量,評論數(shù)來自于中國網(wǎng)絡(luò)視頻指數(shù)(index.youku.com)和愛奇藝指數(shù)(index.iqiyi.com),網(wǎng)站提供視頻上線之后的每集電視劇的點擊量總數(shù),電視劇每天至少更新一集。播出時段的收視率來自于央視索福瑞(www.csm.com.cn),其中有同一天晚上播出多集的使用同一個收視率數(shù)據(jù),同步更新的電視劇使用收集數(shù)據(jù)當(dāng)天之前的數(shù)據(jù),之后的數(shù)據(jù)不再進行統(tǒng)計。
1.2 數(shù)據(jù)預(yù)處理
為了避免因播放源不同而引起的數(shù)據(jù)之間難以考慮到的誤差,本文所使用的八部電視劇均為湖南衛(wèi)視同一時段播放的,且網(wǎng)絡(luò)點擊量的數(shù)據(jù)均來自于中國網(wǎng)絡(luò)視頻指數(shù)。此外,為了方便數(shù)據(jù)的使用,本文將點擊量的單位定為百萬次,收視率的單位為%,評論數(shù)的單位為千條。此外,本文還會去掉一些因為上線時間較短等其他因素導(dǎo)致的一些異常值,以求得更精準(zhǔn)的模型。(如圖1和圖2)
2 理論基礎(chǔ)
一元線性回歸模型具有簡單易行的特點,且經(jīng)過多次數(shù)據(jù)處理和計算后發(fā)現(xiàn)擬合度較高,所以本文所使用的模型的理論基礎(chǔ)均為一元線性回歸模型的理論。對于一元線性回歸模型
3 模型的建立與處理
3.1 基于一元非線性時間序列預(yù)測模型對收視率的預(yù)測
收視率,指在某個時段收看某個電視節(jié)目的目標(biāo)觀眾人數(shù)占總目標(biāo)人群的比重,以百分比表示。收視率越高,則該電視劇與同期節(jié)目相比受到的關(guān)注度就越高,一般來說,當(dāng)t-1時刻的電視劇收視率越高時,觀眾對t時刻的電視劇的期望就越高,t時刻的收視率就越高。因此本文猜想,t-1時的收視率與t時刻的收視率存在某種關(guān)系。本文以t-1時刻的收視率為自變量來預(yù)測t時刻的收視率,進行了多次數(shù)據(jù)分析。以《楚喬傳》為例:
如圖3是真實的t時刻與t-1時刻的電視劇收視率的關(guān)系:
由上圖可以看出,t-1時刻的收視率與t時刻的收視率基本符合一元二次的函數(shù)關(guān)系,得到的模型擬合程度較高。之后以上圖中得到的回歸方程,預(yù)測最后5集電視劇收視率,得出結(jié)果后再與前面幾集的收視率做回歸分析,得到如下圖4:
該數(shù)據(jù)同樣得到了擬合程度很高的模型,與真實結(jié)果相比差距很小。其中,實際結(jié)果得出的二次項系數(shù)為負而上圖中二次項系數(shù)為正,可能是因為使用的數(shù)據(jù)量過少。同時本文對當(dāng)時電視劇播出的背景做過調(diào)查后發(fā)現(xiàn),最后五集播出時處于工作日。很多人因為工作的原因不能及時收看電視,這也可能是造成預(yù)測結(jié)果偏大的一個原因。
最后本文經(jīng)過多次驗證得出該模型可以很好的擬合數(shù)據(jù),對任一時刻的收視率,該模型都具有很好的預(yù)測效果。因而本文可以認為,熱播電視劇的收視率與上一集的收視率存在一元二次的函數(shù)關(guān)系。
3.2 一元線性模型預(yù)測單集電視劇評論數(shù)
通常來講,對于一部熱播電視劇,如果某一集相比較其他更加吸引觀眾,便更會引起人們對他的關(guān)注,反映到數(shù)據(jù)上的一方面就是該集的評論數(shù)就會越多。而在收視率和點擊量兩個可能可以預(yù)測評論數(shù)的因素中,本文猜想點擊量能更好地預(yù)測評論數(shù),并通過數(shù)據(jù)驗證了本文的猜想。以《人民的名義》和《三生三世十里桃花》為例(如圖5和圖6)
從下圖可以看出,不論是單集還是整體,在收視率這一方面《人民的名義》遠超《三生三世十里桃花》,而點擊量方面的結(jié)果恰好相反,《三生三世十里桃花》則是更勝一籌,但如果本文比較兩部電視劇的評論數(shù)(如圖7),《三生三世十里桃花》占據(jù)了絕對優(yōu)勢。
造成這種結(jié)果的原因是因為兩部電視劇收看的人群年齡段不同,《人民的名義》的觀眾群體年齡相對較高,多通過電視收看電視劇,很少會到網(wǎng)絡(luò)上發(fā)表對這部電視劇的看法;而《三生三世十里桃花》的觀眾群體相對年輕,多通過網(wǎng)絡(luò)收看電視劇,并樂于與其他人商量對這部電視劇的觀點。因而造成了點擊量與評論數(shù)的數(shù)據(jù)更為相符。通過比較可以初步驗證本文的猜想,但這只能說明點擊量比收視率能更好地預(yù)測單集的評論數(shù),是否點擊量就能與評論數(shù)很好地契合,這還需要本文進一步的數(shù)據(jù)分析。endprint
以《擇天記》為例,本文以《擇天記》的單集點擊量為自變量,該集的評論數(shù)為因變量,刪除一些誤差較大的數(shù)據(jù)后得到20組單集評論數(shù)和點擊量數(shù)據(jù)。將這20組數(shù)據(jù)進行回歸分析得到的結(jié)果如表1和圖8所示:
通過回歸分析本文可以看出,這二十組數(shù)據(jù)間的線性相關(guān)性較強,擬合程度較好。本文再以前十五組數(shù)據(jù)為訓(xùn)練集,最后五組數(shù)據(jù)為測試集。將預(yù)測的五組數(shù)據(jù)與真實的五組數(shù)據(jù)作對比,并計算二者的相關(guān)系數(shù)[ρ],即得表2:
二者的相關(guān)系數(shù)[ρ]=0.792,即二者的相關(guān)性較強,因而本文可以看出電視劇的單集點擊量對當(dāng)集的評論數(shù)有著較好的預(yù)測能力。當(dāng)本文把電視劇的數(shù)量擴展到6部時,本文先將156組數(shù)據(jù)進行回歸分析,結(jié)果如表3和圖9所示:
刪去這些數(shù)據(jù)中較大的66組數(shù)據(jù),剩余的90組數(shù)據(jù)中,以其中85組為訓(xùn)練集,另外5組為測試集,計算該模型的預(yù)測能力,如表4:
由此可見,當(dāng)數(shù)據(jù)更大時,點擊量與評論數(shù)的線性相關(guān)性加強,而點擊量對評論數(shù)的預(yù)測能力也一直十分優(yōu)秀,所以本文可以推測,當(dāng)數(shù)據(jù)數(shù)目足夠大時,點擊量與評論數(shù)將符合一元線性回歸模型。
3.3 單集收視率、點擊量與集數(shù)的關(guān)系
一般來講,電視劇開播初期,因為不同電視劇的明星陣容、宣傳力度不同,在不知道劇情的情況下,電視劇的收視率與點擊量可能會有不同程度的波動,但隨電視劇的播出,人們對該電視劇了解進一步深入,這種波動可能會逐漸減小。因而本文推測,隨集數(shù)的增長,單集電視劇的收視率與點擊量都會趨于平緩,且隨劇情深入,人們對電視劇的期望應(yīng)該會越高,因而二者都應(yīng)緩慢上升。下面本文分別以八部電視劇的集數(shù)為自變量,同一集(同為第一集、第二集等)的平均收視率和平均點擊量為因變量探究二者的關(guān)系,結(jié)果如圖10和圖11。
由圖本文不難看出,真實的結(jié)果與本文的預(yù)期有一定的偏差:收視率與本文的預(yù)期基本相符,始終波動較小,且有小幅上升,到最后達到最大值,這也反映了人們對電視劇結(jié)尾的期望。但點擊量始終保持較大的波動,偶爾會有小幅上揚,但總體來看一直在下降,且在3/10/30集左右都出現(xiàn)了明顯的斷層情況,一直到最后都沒有再大幅回升,不符合人們對大結(jié)局的期望值。
探究這種現(xiàn)象發(fā)生的原因,本文認為這與二者所代表的受眾群體相關(guān):常使用優(yōu)酷、土豆等網(wǎng)上觀看電視劇的多為二三十歲的中青年人,他們的時間相對緊湊,沒有時間每天晚上都在電視機前等待電視劇的更新,大多數(shù)時候只是通過網(wǎng)絡(luò)回看已經(jīng)播出的電視劇,在這種情況下,他們對電視劇的觀看就有了選擇性,某一集的劇情吸引人,可能該集的點擊量會有一個激增,其他的集數(shù)點擊量可能就較少,也正是由于這個原因,他們更偏愛集數(shù)較短的電視劇,因而隨集數(shù)的增長,電視劇的點擊量會逐步下降;而收視率的受眾群體多為其他人群,生活更加規(guī)律,時間相對寬裕,受眾群體穩(wěn)定因而收視率的變化相對平緩,且隨電視劇的深入,知道這部電視劇的人就更多,收看電視劇的人數(shù)就會逐步增多,因而電視劇的平均收視率會平緩地上升。本文也從央視索福瑞官網(wǎng)分別找到了電視受眾人群分布與網(wǎng)絡(luò)視頻受眾人群分布,數(shù)據(jù)制作為餅形圖后如圖12和圖13所示:
4 結(jié)論與展望
在如今電視劇風(fēng)靡的背景下,本文研究了電視劇的一些數(shù)據(jù),以一元線性回歸模型的原理為理論基礎(chǔ),發(fā)現(xiàn)收視率符合一元二次的時間序列預(yù)測模型,即知道某一集的收視率,便能比較好的預(yù)測出下一集電視劇的收視率,對于電視劇的出版方來說,合理的安排好劇情精彩的集數(shù),以此大幅帶動周圍集數(shù)的收視率就顯得尤為重要。此外,本文還研究了單集點擊量與該集評論數(shù)的關(guān)系,發(fā)現(xiàn)某集的點擊量與該集的評論數(shù)成正相關(guān),因此,網(wǎng)絡(luò)視頻播出方可以加大宣傳的力度,提高該集的關(guān)注度,以此提高單集點擊量。最后,本文發(fā)現(xiàn)隨集數(shù)的增加,收視率平緩上升,而視頻點擊量則在波動下降,對于集數(shù)較多的電視劇更為明顯,因此電視臺方面可以在收視后期多插播一些廣告或延長時長以增加收益,而出版方則要控制好電視劇的長短,既要使電視劇的收視率達到一個令人滿意的高度,又要保證點擊量不會太低,以求得最大的收益。上述模型經(jīng)驗證后發(fā)現(xiàn)擬合程度都很高,能夠很好地進行預(yù)測,這些問題的研究對于提高出版方與播出方的收益都有十分重要的意義。
在未來對這些問題的深入研究中,通過更多電視劇的數(shù)據(jù),以及更高級的算法模型,使得模型能夠更加精確,具有更好的現(xiàn)實解釋力。
參考文獻:
[1] 陳春燕, 張鈺, 常標(biāo)等. 基于ARMA模型的在線電視劇流行度預(yù)測[J]. 計算機科學(xué)與探索, 2016, 10(3).
[2] 毋世曉, 趙翠. 基于時序分析的視頻點擊量預(yù)測[J]. 電腦編程技巧與維護, 2016(20).
[3] 趙忠仁. 電視劇參數(shù)這樣讀[J]. 成功營銷, 2013(4).
[4] 石光. 電視劇收視率在大數(shù)據(jù)環(huán)境下的分析[J]. 西部廣播電視, 2017(11).endprint