周蕩蕩 蘇 勇
(江蘇科技大學(xué)計算機科學(xué)與工程學(xué)院 鎮(zhèn)江 212003)
基于決策樹算法的電視收視率預(yù)測研究?
周蕩蕩 蘇 勇
(江蘇科技大學(xué)計算機科學(xué)與工程學(xué)院 鎮(zhèn)江 212003)
論文經(jīng)過很多的研究工作,對于各種電視頻道收視率猜測策略的特色,提出了對于電視臺收視率猜測軟件體系的規(guī)劃,并給出基于面向?qū)ο笏季S的軟件模型及有關(guān)模塊的交互規(guī)劃和完成,這個軟件體系是強健,牢靠,可拓展且有用的。
預(yù)測模型;收視率;決策樹算法;電視節(jié)目
收視查詢得到的數(shù)據(jù)作為一種主要的商場信息獲取來源,其效果也是愈來愈主要。因而,對數(shù)據(jù)收集到數(shù)據(jù)剖析變成樹立收視率查詢系統(tǒng)的一個主要環(huán)節(jié)。收視率查詢數(shù)據(jù)通常具有較強的時效性和復(fù)雜性,因而在對數(shù)據(jù)進行處理時通常對處理的及時性和產(chǎn)生規(guī)則的多樣性有較高的要求[1~2]。傳統(tǒng)的數(shù)據(jù)處理方式通常是以統(tǒng)計剖析的辦法為主,盡管這類辦法在以往的許多問題中具有較好的處理效果。但是,隨著信息時代的到來,這種傳統(tǒng)的數(shù)據(jù)剖析方式現(xiàn)已不能極好地滿足收視率查詢中的信息處理需求。在某些情況下,程序采納相似神經(jīng)元的網(wǎng)絡(luò)模型,使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)在很大程度可能會樹立一個學(xué)習(xí)模型精度低,收視率的猜測辦法也是有許多,并表現(xiàn)出共同的適用性[3~8]。以非常好地滿足電視媒體廣告收視率的查詢服務(wù)行業(yè)的需要,查詢收視率常用的播送電視節(jié)目收視率的電視渠道來滿足的各類需要,以便進行猜測與計算。
2.1 收視率數(shù)據(jù)處理
在圖1里已經(jīng)給出了本文研究的收視率數(shù)據(jù)形式,收視率數(shù)據(jù)的選擇原則是基于觀眾觀看電視比較頻繁的時間段,本文的收視率取自每天晚上從19:00到22:10的平均收視率。如圖3展示了部分?jǐn)?shù)據(jù)。
首要對收視率數(shù)據(jù)值進行處理,由于要思考運用決策樹對電視臺頻道收視率進行猜測,所以需求對剖析的特色進行離散化。關(guān)于收視率值的離散化,能夠直接靠人工進行挑選,由人工指定一個或幾個閾值,然后按這些閾值進行歸類,這么能夠很迅速地得到成果,可是需求耗費人力,并且人為因素影響比較大;另外能夠思考屢次核算挑選的辦法,給出最終的類型總數(shù),然后由核算機剖析各個數(shù)據(jù)點的方位,給出最終的分類成果;還能夠思考選用聚類的辦法,經(jīng)過聚類算法自行挑選合理的分類規(guī)范,這么的優(yōu)勢在于能夠不必人工干預(yù)進行分類,節(jié)省時刻,缺陷也是很明顯的,關(guān)于一些數(shù)值跨度比較大的數(shù)據(jù),選用這種辦法也許導(dǎo)致最終得到的類型格外多,這樣不利于后邊決策樹剖析,假如遇到這種狀況,能夠思考先對數(shù)據(jù)進行預(yù)處理,如取原始數(shù)據(jù)值的平方根,或是取對數(shù)等操作來提早集合數(shù)據(jù)。經(jīng)過有關(guān)的數(shù)學(xué)辦法處理后,數(shù)據(jù)將會變得會集起來,然后經(jīng)過聚類算法進行聚類,則能夠得到比較好的成果。收視率數(shù)值是接連的數(shù)據(jù)。這里需求思考的收視率特色包含如下:
圖1 19:00到22:10的平均收視率部分?jǐn)?shù)據(jù)
1)收視率丈量值,這篇文章收集的收視率是接連的數(shù)值。
2)收視率時刻特色,首要指的是收視率丈量當(dāng)天是工作日或非工作日。
3)收視率時刻所屬規(guī)模,指的是收視率丈量當(dāng)天歸于上旬,中旬或是下旬。
4)前一天或前一星期或有關(guān)前幾周的收視率值。
表中數(shù)據(jù)已經(jīng)按照時間先后排序如表1所示。
表1 部分?jǐn)?shù)據(jù)編碼
2.2 應(yīng)用決策樹分類算法預(yù)測收視率
對收視率數(shù)據(jù)進行相應(yīng)的處理并編碼,在保證了每條收視率記錄的唯一性之后,則可以構(gòu)建決策樹來學(xué)習(xí)建模并預(yù)測了[9]。對于電視臺收視率預(yù)測問題,最終需要預(yù)測的是電視臺收視率值,而經(jīng)過數(shù)據(jù)處理后,實際只需要預(yù)測收視率的類型即可。對于最終要預(yù)測的分類屬性為電視臺收視率離散值,它有三個不同的值,其中L有27個樣本,M有17個樣本,H有16個樣本,這里需要計算每個屬性的信息增益,首先給定電視臺收視率離散值樣本分類的期望信息:
接下來計算每個屬性的信息熵,首先從時間屬性開始,檢查時間屬性的每個樣本值的分布。對于時間屬性Time=1的情況,有18個的收視率離散值Rate=L,有10個收視率離散值Rate=M ,有16個收視率離散值Rate=H;對于時間屬性Time=0的情況,有9個的收視率離散值Rate=L,有7個收視率離散值Rate=M,有0個收視率離散值Rate=H。所以對于每個分布計算期望信息:
對Time=1:
對Time=0:
因此若原樣本按照時間屬性進行劃分,按照式(2),式(3)計算出對一個給定的樣本的分類對應(yīng)的信息熵:由式(1),式(3)計算這種劃分的信息增益是:Gain(Time)=I(s1,s2,s3)-E(Time)=0.2664 (5)對于月位置屬性的信息增益計算如下:對Position=F:
類似的,可以計算:
對Prev_Rate=L:
對Prev_Rate=M:
對Prev_Rate=H:
根據(jù)計算出的信息增益,對比式(5),式(6)和式(7)可見屬性Prev_Rate具有最高的信息增益,所以它首先被選作測試屬性。并以此創(chuàng)建一個結(jié)點,用Prev_Rate標(biāo)示,并對于每個屬性值,引出一個分支,如圖2所示。
圖2 Prev_Rate結(jié)點及其分支
然后對每個分支繼續(xù)遞歸計算其相應(yīng)屬性的信息增益,根據(jù)信息增益值來進行劃分[10]。根據(jù)選擇的這些屬性進行分類建模,最后得到的分類規(guī)則如圖3所示。
圖3 ID3算法產(chǎn)生的決策樹
選用以上得到的決策樹對電視臺的收視率數(shù)據(jù)進行分類猜測,成果猜測精度在65%擺布,這也是能夠預(yù)料到的,由于原數(shù)據(jù)中供給的信息量有限,不能最大度的對收視率進行分類,致使猜測差錯是不免的[11]。
從通常狀況來看,對這篇文章研究的電視臺收視率數(shù)據(jù)方式,選用決策樹算法進行分猜測,不能得到準(zhǔn)確的收視率值,只能區(qū)別收視率的類型,是一個含糊的猜測成果。關(guān)于這么的收視率數(shù)據(jù)方式,額定剖析的特色較少,所以選用決策樹算法進行分類猜測得到的效果并不抱負(fù),為了改進猜測精度,具體使用時電視臺能夠依據(jù)相應(yīng)的評估規(guī)范進行分類,然后進行猜測,也能夠選用聚類算法讓數(shù)據(jù)依據(jù)本身特色進行分類。然后依據(jù)這些類型來區(qū)分收視率[12]??偟膩碚f決策樹分類原則在收視率猜測使用疑問上有很大的實用性,能夠在大規(guī)模雜亂猜測運算履行前作為分類預(yù)處理履行,對根本原始數(shù)據(jù)進行分類并過濾,有助于大規(guī)模雜亂猜測核算的并行履行,關(guān)于終究迅速得到猜測成果有很好的啟示效果。
在現(xiàn)代電視媒體經(jīng)營中,由于市場經(jīng)濟體系機制的越來越完善,政府撥款扶持的情況已經(jīng)越來越少,因而如何依靠其自身特有的資源創(chuàng)建收益,對電視媒體至關(guān)重要,其研究和應(yīng)用具有很好的意義。本文主要研究如何更加有效地預(yù)測電視頻道收視率。頻道收視率是評價電視媒體經(jīng)營效益的最好標(biāo)準(zhǔn),電視媒體的一切目標(biāo)的根基就是獲得更高的收視率,只有在這個前提下,其它經(jīng)營活動,諸如廣告時間銷售,節(jié)目時間安排等才能正常有效地進行下去。
本文首先介紹了關(guān)于電視臺頻道收視率預(yù)測的當(dāng)前狀況,然后提出了本文研究的收視率數(shù)據(jù)形式。針對收視率數(shù)據(jù)記錄形式,本文提出了基于決策樹分類學(xué)習(xí)方法,并針對實際數(shù)據(jù),建立模型進行了預(yù)測。本研究課題提出了相應(yīng)的軟件體系,并對該體系首要框架、首要模塊、首要接口以及相互間的交互行為進行了設(shè)計來解決頻道的收視率的猜測的疑問,該體系模塊根據(jù)現(xiàn)在的需要和潛在的不知道的需要范疇,依照軟件工程的基本原則,利用面向?qū)ο蟮乃季S進行的設(shè)計,減小了模塊之間的耦合性,使體系具有極好的可擴展性并留有將來的晉級接口。
[1]李善慶.基于數(shù)據(jù)挖掘的收視分析與決策系統(tǒng)的設(shè)計與實現(xiàn)[D].沈陽:東北大學(xué),2007.LI Shanqing.Design and implementation of audience analysis and decision system based on data mining[D].Shengyang:Dongbei Univerisy,2007.
[2]俞晨潔.中國零售業(yè)的發(fā)展演變及投資機會[D].上海:上海交通大學(xué),2006.YU Chenjie.Evolution and investment opportunities of China's retail industry[D].Shanghai:Shanghai Jiaotong University,2006.
[3]張凌.ID3算法的研究以及在成績統(tǒng)計輔助決策系統(tǒng)中的應(yīng)用[D].廈門:廈門大學(xué),2007.ZHANG Ling.The research of ID3 algorithm and the application in the assistant decision making system[D].Xiamen:Xiamen Unviersity,2007.
[4]柳學(xué)錚.多維數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘研究[D].長春:長春工業(yè)大學(xué),2006.LIU Xuezheng.Research on association rule mining of multidimensional data[D].Changchun:Changchun Unviersity of Technology,2006.
[5]趙紅艷.決策樹技術(shù)在學(xué)生成績分析中的應(yīng)用研究[D].濟南:山東師范大學(xué),2007.ZHAO Hongyan.Application of decision tree technology in student performance analysis[D].Jinan:Shangdong Normal Unviersity,2007.
[6]云玉屏.基于C4.5算法的數(shù)據(jù)挖掘應(yīng)用研究[D].哈爾濱:哈爾濱理工大學(xué),2008.YUN Yuping.Application Research of data mining based on C4.5 algorithm[D].Harbin:Harbin University of Science and Technology,2008.
[7]何銘鋒.關(guān)于品牌識別、傳播與體驗的工作方法研究[D].長沙:湖南大學(xué),2008.HE Mingfeng.Research on the methods of brand recognition,communication and experience[D].Changsha:Hunan University,2008.
[8]徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學(xué)報,2009,20(10)XU Peng,LIN Sen.Traffic classification method of C4.5 decision tree based on[J].Journal of software,2009,20(10).
[9]胡海斌,邱明,姜青山,等.一種基于數(shù)據(jù)繼承關(guān)系的C4.5分類優(yōu)化算法[J].計算機研究與發(fā)展,2009,46(z2).HU Haibin,QIU Ming,JIANG Qingshan,et al.A C4.5 classification optimization algorithm based on data inheritance relationship[J].Computer research and development,2009,46(z2).
[10]黃愛輝.決策樹C4.5算法的改進及應(yīng)用[J].科學(xué)技術(shù)與工程,2009,9(1).Huang Aihui.The improvement of decision tree C4.5 algorithm and its application[J].Science and technology and engineering,2009,9(1).
[11]劉鵬,姚正,尹俊杰,等.一種有效的C 4.5改進模型[J].清華大學(xué)學(xué)(自然科學(xué)版),2006,46(z1).LIU Peng,YAO Zheng,YIN Junjie,et al.An effective C 4.5 improved model[J].Tsinghua University(NATURAL SCIENCE EDITION),2006,46(z1).
[12]羅華,劉萍,韋有華.數(shù)據(jù)挖掘與數(shù)據(jù)倉庫技術(shù)及其在保險業(yè)中的應(yīng)用[J].微計算機信息,2004(4).LUO Hua,LIU Ping,WEI Youhua.data mining and data warehouse technology and its application in the insurance industry[J].micro computer information,2004(4).
Television Ratings Prediction Research Based on Decision Tree Algorithm
SU YongZHOU Dangdang
(School of Computer Science and Engineering,Jiangsu University of Science and Technology,Zhengjian 212003)
This article after a lot of research work,for a variety of television ratings guess characteristic strategy proposed for television ratings guess planning and complete software system,and gives interactive object-oriented software model and thinking about the module planning and completion,the software system is a robust,reliable,scalable and useful.
prediction model,ratings,decision tree algorithms,TV programs
TP391
10.3969/j.issn.1672-9722.2017.11.009
Class Number TP391
2017年5月9日,
2017年6月25日
周蕩蕩,男,碩士研究生,研究方向:數(shù)據(jù)挖掘。蘇勇,男,博士,教授,研究方向:數(shù)據(jù)挖掘。