劉永菲,張輝,連聰聰
(中國傳媒大學 理學院,北京 100024)
?
基于ARIMA模型的全國電視收視率實證分析
劉永菲,張輝,連聰聰
(中國傳媒大學 理學院,北京 100024)
摘要:現(xiàn)代電視媒體經(jīng)營中,要想在日益完善的經(jīng)濟競爭機制中增加收益,對于電視媒體來說至關重要,本文通過對全國樣本城市的收視率數(shù)據(jù)進行了周一至周日的走勢分析,并在走勢相同的情況下對周四的收視率進行了時間序列建模分析,在將原始非平穩(wěn)序列經(jīng)二階差分后進行了ARIMA建模。
關鍵詞:收視率;時間序列;ARIMA模型
1引言
收視率是指在一定時段收看某一節(jié)目的人數(shù)(或家戶數(shù))占觀眾總人數(shù)(或總家戶數(shù))的百分比。收視率分為家庭收視率和個人收視率,一般而言,家庭收視率大于個人收視率。收視數(shù)據(jù)現(xiàn)在一般由第三方數(shù)據(jù)調(diào)查公司,通過電話、問卷調(diào)查、機頂盒或其他方式抽樣調(diào)查來獲得收視率。
隨著信息在決策中地位的提升及信息化在中國的快速發(fā)展,收視率數(shù)據(jù)在我國電視行業(yè)中扮演起了越來越重要的角色,成為業(yè)內(nèi)外人士共同關注的熱點話題。電視媒體通過電視受眾測量數(shù)據(jù)確定自身市場位置,進行合理的節(jié)目編排和節(jié)目評估。節(jié)目供應商將電視受眾測量數(shù)據(jù)作為節(jié)目定位和內(nèi)容選擇的重要依據(jù),電視受眾測量數(shù)據(jù)成為節(jié)目交易市場中的“通用貨幣”。
本文充分考慮收視率的時間特點,基于統(tǒng)計軟件SAS給出ARIMA模型建模方法的具體步驟及算法,在對比各個有可能的模型后,建立最優(yōu)模型。
2數(shù)據(jù)來源
本文選擇2008年中國電視統(tǒng)計年鑒中的2007年全國樣本市(縣)電視觀眾周一至周日各時段收視率進行時間序列分析并建模。
3全國樣本市(縣)電視觀眾周一至周日各時段收視率(%)波動特征分析
如圖1所示,紫色線表示全國樣本縣市電視觀眾周日24小時的收視率走勢,黑色線表示全國樣本縣市電視觀眾24小時收視率走勢,黑色線、橙色線、黃色線、綠色線、藍色線相重合,分別表示周一至周五全國樣本縣市的電視觀眾在24小時的收視率走勢。由圖1可知:
(1)三條線呈現(xiàn)相似的走勢,02:00-05:45走勢平緩,收視率在1%上下波動,05:45-12:30呈現(xiàn)增長趨勢,并且在12:30左右出現(xiàn)第一個小波峰,從12:30-17:00收視率呈現(xiàn)下降后趨于平緩,17:00-21:00以較高的斜率進行增長,并在21:00出現(xiàn)一天中的最高峰,21:00之后又以較快的速度下降,在圖上可以看出,收視率的高峰出現(xiàn)在21:00左右,第二個小高峰出現(xiàn)在12:30,可能的原因是:傍晚五點之后隨著人們停止工作開始娛樂休閑,收視率也隨之上升,晚上九點之后隨著人們開始睡眠,收視率開始下降并趨于平緩。
圖1 全國樣本市縣電視觀眾一周中各時間段收視率走勢
(2)三條線不同的時間段為07:45-17:45,且在這一時間段中同一時間點的收視率大小比較依次為:周日>周六>工作日(周一、二、三、四、五),可以看出在工作日期間每天的收視率的走勢基本沒有變化,可能的原因是:由于在周末人們有更多的休閑時間,在同一時間點周六周日收視率要高于工作日,而在17:45至第二天早上,沒有周末與平時之分,都是晚間娛樂與休息時間,收視率走勢在此時間段重合。
4ARIMA模型及分析
4.1ARIMA模型簡介
對于時間序列{xt},ARIMA(p,d,q)模型結構為
Ф(B)▽dχt=Θ(B)εt
其中:p為自回歸模型的階數(shù);d為差分階數(shù);q為滑動平均模型的階數(shù),B為延遲算子;Ф(B)=1-φ1B-…-φpBp為自回歸系數(shù)多項式;Θ(B)=1-θ1B-…-θpBp為移動平滑系數(shù)多項式;{εt}為白噪聲序列,E(εt)=0;Var(εt)=σ2<+∞;▽d=(1-B)d。[2]
ARIMA模型主要分為3種:自回歸模型(AR模型)、移動平均模型(MA模型)和自回歸移動平均模型(ARMA模型)。其中,求和自回歸移動平均模型(簡稱ARIMA模型)主要是對非平穩(wěn)序列建模,模型實質(zhì)就是差分運算與ARMA模型的組合,即對非平穩(wěn)序列進行適當階數(shù)的差分實現(xiàn)平穩(wěn)化后,對差分后序列進行ARMA模型擬合。
建立ARIMA模型的具體步驟:
1) 判斷序列平穩(wěn)性;
根據(jù)時序圖觀察數(shù)據(jù)的基本趨勢:圍繞某水平線波動;圍繞某直線波動;呈指數(shù)上升或下降趨勢;顯示出季節(jié)性等。從圖形特征初步判斷序列為平穩(wěn)或非平穩(wěn)的。
2)對序列進行差分運算;
若序列非平穩(wěn),進行差分平穩(wěn)化操作:
①序列蘊含顯著線性趨勢,1階差分就可以實現(xiàn)趨勢平穩(wěn);
②序列蘊含曲線趨勢,通常低階(2階或3階)差分就可以提取出曲線趨勢影響;
③序列蘊含固定周期,通常進行以步長為周期長度的差分運算可以較好提取周期信息。
3)對平穩(wěn)序進行白噪聲檢驗;
4)研究平穩(wěn)非白噪聲差分序列自相關系數(shù)和偏自相關系數(shù)的性質(zhì),選擇階數(shù)適當?shù)腁RMA模型進行擬合;
5)對初步擬合的模型進行參數(shù)估計及白噪聲的檢驗;
6)用通過檢驗的最優(yōu)模型進行預測。
4.2疏系數(shù)模[3]
ARIMA(p,d,q)模型是指d階差分后自相關最高階數(shù)為p,移動平均最高階數(shù)為q的模型,通常包含p+q個獨立的未知系數(shù):φ1,…,φp,θ1,…,θq。若該模型中有部分自相關系數(shù)φj(1≤j
ARIMA((p1,…,pm),d,(q1,…,qn))
4.3模型應用與分析[4]
由于周一至周日全國樣本市縣電視收視率走勢基本相似,本次分析選取周四數(shù)據(jù)進行分析,具體分析如下:
(1)時序圖
圖2 全國樣本市縣電視觀眾周四各時間段收視率走勢
觀察原始時序圖(圖2),時序圖顯示,該序列有顯著地曲線趨勢,為典型的非平穩(wěn)序列。
(2)數(shù)據(jù)的平穩(wěn)化處理
由于對原序列進行一階差分效果不明顯,不能改善序列的曲線趨勢,這里對原序列進行二階差分,得到結果如圖3所示。
圖3 對原始序列取二階差分后數(shù)據(jù)時序圖
圖4 二階差分后序列的趨勢及相關性分析
時序圖3顯示,二階差分后的序列在均值附近比較穩(wěn)定地波動,為進一步確定平穩(wěn)性考察差分后的序列自相關性如圖4所示,自相關圖顯示序列有很強的短期相關性,所以可以初步認為2階差分后的序列平穩(wěn)。
(3)對平穩(wěn)的2階差分序列進行白噪聲檢驗。
表1 白噪聲的自相關檢驗
在顯著性水平位0.05的條件下,由于延遲6階的χ2檢驗統(tǒng)計量的P值顯著小于0.0001,則該差分序列不能視為白噪聲序列,即差分后序列蘊含不容忽視的相關信息可以提取。
(4)對平穩(wěn)非白噪聲差分序列擬合ARMA模型
二階差分序列Z滿足平穩(wěn)非白噪聲的條件,可以利用ARMA模型進行建模,根據(jù)序列Z的自相關和偏自相關圖4可知,除了4階自相關系數(shù)和1階偏自相關系數(shù)大于2倍的標準差之外,其余的都在2倍標準差范圍內(nèi),從自相關系數(shù)衰減到零的過程,可以看到有明顯的正弦波動軌跡,說明自相關系數(shù)衰減到零不是一個突然的過程,而是一個連續(xù)漸變的過程,是自相關系數(shù)拖尾的典型特征;從偏自相關系數(shù)衰減到零的過程,不能直接確定其階數(shù)、截尾或者拖尾特征,需要對p=1,2,3,4進行比較,最終確定合適的值。故可選模型為AR(4),ARIMA(1,2,4),ARIMA(2,2,4),ARIMA(3,2,4),ARIMA(4,2,4)。
表2 模型的檢驗信息
分析上述表格,最小信息量檢驗顯示無論是AIC準則還是SBC準則,都要優(yōu)于其他模型,因此最終選擇ARIMA(1,2,4)為最優(yōu)模型,SAS軟件操作的結果為:
表3 最小二乘估計
(5)對殘差序列進行檢驗
根據(jù)表4結果顯示,擬合檢驗統(tǒng)計量的P值都顯著大于顯著性檢驗水平0.05,可認為該殘差序列即為白噪聲序列;根據(jù)表3結果可知,參數(shù)θ2、θ3不顯著,刪除不顯著的參數(shù)優(yōu)化模型,最終得到疏系數(shù)模型:
5結論
本文利用時間序列建模的方法對2007年全國樣
表4 殘差自相關檢驗
本市縣的電視收視率進行了分析,發(fā)現(xiàn)收視率的走勢與現(xiàn)實生活中人們的生活作息息息相關,周日白天的收視率高于周六高于工作日,收視率至高點為晚上九點半左右,且收視率最高時間點不隨著節(jié)假日而改變;在對周四的數(shù)據(jù)進行時間序列建模過程中,通過二階差分將非平穩(wěn)序列變?yōu)槠椒€(wěn)序列,成功建立了ARIMA疏系數(shù)模型,在實際的應用中,應用該模型方法可以利用較少的數(shù)據(jù)信息對收視率進行預測,對需要在電視臺購買廣告時間的企業(yè)客戶和希望通過電視更好的宣傳自己的企業(yè)來說,較為精確的預測收視率具有不可估量的經(jīng)濟和現(xiàn)實意義。
參考文獻
[1]劉輝.電視收視率預測算法研究及軟件研制[D].上海:上海交通大學電子信息與電氣工程學院,2008:1-7.
[2]趙肖肖.基于ARIMA模型的時間序列建模算法和實證分析[J].桂林電子科技大學學報,2012,32(5):410-415.
[3]李戰(zhàn)江.內(nèi)蒙古第三產(chǎn)業(yè)增加值得研究-基于ARIMA疏系數(shù)模型[J].內(nèi)蒙古農(nóng)業(yè)大學學報,2009(3):213-217.
[4]王燕.應用時間序列分析[M].北京:中國人民大學出版社,2012,144-151.
[5]張輝,王雯聰.基于多元統(tǒng)計分析方法研究電視劇收視特征及影響因素[J].現(xiàn)代傳播,179(6):101-103,2011.
[6]張輝.基于多元統(tǒng)計分析的我國電影消費者群體特征研究[J].經(jīng)濟與管理評論,173(6):65-68,2012.
(責任編輯:宋金寶)
Empirical Analysis of the National TV Ratings
Based on the ARIMA Model
LIU Yong-fei,ZHANG Hui,LIAN Cong-cong
(School of Science,Communication University of China,Beijing 100024)
Abstract:It is important for the TV media to increase revenue in the economic competition mechanism.Based on the national sample city’s TV ratings data which is from Monday to Sunday,the article gives out the trend analysis.Under the condition of the same trend,the data of Thursday are analyzed in time series modeling and after using the second-order difference method to make the original non-stationary time series to become stationary,ARIMA model was made.
Keywords:TV ratings;time series;ARIMA model
作者簡介:劉永菲(1987-),女(漢族),山東青島人,中國傳媒大學碩士研究生.E-mail:qingdaoliaocheng@126.com
收稿日期:2015-03-30
中圖分類號:F064.1
文獻標識碼:A
文章編號:1673-4793(2015)03-0029-06