李振興 韓麗娜 史楠
摘 要:決策樹是一種具有樹形結(jié)構(gòu)的機器學習算法,能夠在短時間內(nèi)處理數(shù)據(jù),并能直觀地顯示數(shù)據(jù)特性。具有速度快、直觀、精度高等特點。本文在大數(shù)據(jù)分析的基礎(chǔ)上,以2018年國內(nèi)上映的30部國產(chǎn)電影的信息數(shù)據(jù)作為訓練模型,選取C4.5算法作為工具,構(gòu)建出基于決策樹算法的票房預測模型。經(jīng)過測試,該模型的準確率為78%,并從中分析出影響票房的關(guān)鍵因素是演員。
關(guān)鍵詞:決策樹算法;電影票房;預測
文章編號:2095-2163(2019)04-0132-05 中圖分類號:TP311 文獻標志碼:A
0 引 言
電影產(chǎn)業(yè)是一項高投資、高收益、高風險的行業(yè),當今社會已進入了大數(shù)據(jù)時代,可以將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電影票房的預測研究中,為投資者智能規(guī)避電影投資風險,并幫助影院運營商優(yōu)化放映計劃,實現(xiàn)收益的最大化[1-2]。本文提出了一種基于決策樹算法的票房預測模型,該模型將預測問題轉(zhuǎn)換為分類問題,將電影類型、演員流量程度、導演知名度作為自變量,電影票房類別作為因變量。與以往的主觀假設(shè)和頭腦風暴相比,這是一種更可靠、更科學的方法[3]。
1 決策樹算法及相關(guān)概念
1.1 決策樹
決策樹算法采用的是自頂向下的貪婪算法,在每個節(jié)點上選擇出最優(yōu)屬性進行分類。算法包括 ID3、C4.5、CHAID、CART、SLIQ、SPRINT等。其中C4.5算法在2006年12月舉行的國際數(shù)據(jù)挖掘會議(ICDM)上,排在十大數(shù)據(jù)挖掘算法之列[4]。
1.2 C4.5算法
C4.5算法是一種基于信息熵的機器學習算法,主要采用信息增益率作為條件屬性的判斷標準,信息增益率越高,數(shù)據(jù)分類能力越強。因此,分別計算每一個條件屬性的信息增益率,選取信息增益率最高的屬性作為下一個分裂節(jié)點,以此遞歸即可構(gòu)建C4.5決策樹[5-7]。相關(guān)公式如下:
1.3 決策樹修剪
由于決策樹是由訓練數(shù)據(jù)集生成的,許多分支反映的是噪聲或孤立點,這可能會增加決策樹分類的錯誤率,因此有必要對決策樹進行修剪 [10]。修剪決策樹一般分為:預剪枝法和后剪枝法。預剪枝法是在樹生長的過程中設(shè)置一定的標準來阻止樹木繼續(xù)生長。后剪枝法是待決策樹完全生成后再進行剪枝。后剪枝方法比預剪枝方法需要更多的計算量,但通??梢援a(chǎn)生更可靠的樹[11-12]。
2 應(yīng)用決策樹技術(shù)預測電影票房
2.1 數(shù)據(jù)準備
本次研究中數(shù)據(jù)信息來源于“中國電影票房年度總排行榜”網(wǎng),從中抽取48部電影,將其中的30部作為訓練樣本數(shù)據(jù),剩余的18 部作為測試樣本數(shù)據(jù)。數(shù)據(jù)源主要包括電影類型、電影導演、電影主演。原始數(shù)據(jù)見表1。
2.2 數(shù)據(jù)預處理
(1)電影類型。每位觀眾在不同階段可能會有不同的喜好,因此電影類型對于電影票房很重要。變量值有:劇情、喜劇、奇(科)幻、愛情。
(2)電影導演。導演是影片制作的領(lǐng)導者和組織者,決定著影片的質(zhì)量和影片藝術(shù)風格。通過對這些導演的獲獎情況和近三年來執(zhí)導電影所獲票房的均數(shù)進行分析。將國內(nèi)頂級的大導演劃分為高層次,知名導演劃分為中等層次,非知名導演劃分為低層次。
(3)電影主演。演員具有一定程度的票房號召力,觀眾會因為喜歡的演員而選擇電影。通過對“2018年中國內(nèi)地演員排行榜”的數(shù)據(jù)分析,將排名前50的演員劃分為高流量演員,排名51-300的演員劃分為中等流量演員,排名300以后的演員劃分為低流量演員。
(4)電影票房。作為數(shù)據(jù)的因變量,參考國外學者Ramesh[13]的票房劃分方法,將票房收益高于6億的電影劃分為高票房,將票房收益介于1億至6億之間的電影劃分為中等票房,將票房收益低于1億的電影劃分為低等票房。
經(jīng)過數(shù)據(jù)預處理后,量化表示數(shù)據(jù)表中的描述性文字,得到了30個處理后的數(shù)據(jù)訓練樣本,見表2。
2.3 C4.5構(gòu)造決策樹
(4)建立決策樹。因為屬性actor的信息增益率最大,所以選擇屬性actor作為根結(jié)點。按照actor的取值,對30個樣本進行分支得到3個子集,如圖1所示。并對每個子集按照以上方法創(chuàng)建分支,最后得到C4.5決策樹,如圖1所示。最后采用后修剪方式,修剪后的C4.5決策樹如圖2所示。
2.4 模型評估
為了驗證模型的可靠性,根據(jù)圖3的決策樹對18個測試樣本數(shù)據(jù)進行了測試,其中14條數(shù)據(jù)與模型結(jié)果一致,準確率達到78%。結(jié)果表明,該模型具有較好的預測效果,可為電影票房預測提供一定的參考價值。通過對電影票房的預測和分析,影響票房預測的最重要的因素是演員。演員流量程度越高,其主演的電影票房水平就越高。因此,選擇受歡迎程度高和具有票房號召力的演員才是票房收益的關(guān)鍵[14]。
3 結(jié)束語
文章將決策樹算法C4.5應(yīng)用于電影票房的預測研究,通過對電影票房信息數(shù)據(jù)進行分析處理,建立完整的預測模型。實驗結(jié)果說明,基于決策樹算法的電影票房預測模型簡單、快速,為電影票房的預測提供一定的科學依據(jù)[15]。不足之處在于模型中選取樣本數(shù)據(jù)較少,而且沒有全面考慮宣傳力度、同期電影競爭、制片廠、投資、微博指數(shù)等影響電影票房的其它因素。此外,構(gòu)建決策樹時未考慮屬性之間的關(guān)聯(lián)度,例如演員屬性和導演屬性之間的關(guān)聯(lián)度,一般具有高流量的演員更愿意和知名大導演合作,很難出現(xiàn)高流量演員和低知名度導演合作的情況,進而影響到?jīng)Q策樹的生成,也影響到電影票房的預測結(jié)果,后續(xù)應(yīng)改進完善數(shù)據(jù)的前期處理分析。
參考文獻
[1]鄭堅,周尚波. 基于神經(jīng)網(wǎng)絡(luò)的電影票房預測建模[J]. 計算機應(yīng)用,2014,34(3):742-748.
[2]吳發(fā)翔,錢佳威,劉江帆. 一種基于C5.0決策樹算法的票房預測研究[J]. 2016 (4):186-192.
[3]張鑫,郭振宇. 基于隨機森林的影片票房預測 [J]. 現(xiàn)代電影技術(shù),2016(3):11-15,35.
[4]WU Xindong, KUMAR V, QUINLAN J R,et al. Top 10 algorithms in data mining[J]. Knowledge and information systems, 2008,14(1):1-37.
[5]周志華. 機器學習[M]. 北京:清華大學出版社,2016.
[6]韓麗娜,韓改寧. 決策樹算法在學生成績分析中的應(yīng)用研究[J]. 電子設(shè)計工程, 2017,25(2):18-21.
[7]李會,胡笑梅. 決 策 樹 中 ID3 算 法 與 C4.5算法分析與比較[J]. 水電能源科學 ,2008,26(2):129-132,163.
[8]楊洋. 決策樹ID3算法及其改進[J]. 軟件導刊,2016,15(8):46-48.
[9]周美琴. 單位代價收益敏感決策樹分類算法及其剪枝算法的研究[D]. 桂林:廣西師范大學.2016.
[10]SHARDA R,DELEN D. Predicting box-office success of motion pictures with neural networks [J]. Expert Systems With Applications,2006,30(2):243-254.
[11]李航. 統(tǒng)計學習方法[M]. 北京:清華大學出版社,2012.
[12]王文霞. 數(shù)據(jù)挖掘中改進的 C4.5 決策樹分類算法[J]. 吉林大學學報(理學版), 2017, 55(5):1274-1277.
[13]吳思博,陳志剛,黃瑞. 基于相關(guān)系數(shù)的ID3優(yōu)化算法[J]. 計算機工程與科學,2016, 38(11):2342-2347.
[14]張慧,王世偉. 基于深度學習對電影票房的預測[J]. 湖北第二師范學院學報,2017,34(8):60-64.
[15]張雪. 基于深度學習卷積神經(jīng)網(wǎng)絡(luò)的電影票房預測[D]. 北京:首都經(jīng)濟貿(mào)易大學,2017.