• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于決策樹算法的電影票房預測研究

    2019-09-12 10:41:42李振興韓麗娜史楠
    智能計算機與應(yīng)用 2019年4期
    關(guān)鍵詞:電影票房預測

    李振興 韓麗娜 史楠

    摘 要:決策樹是一種具有樹形結(jié)構(gòu)的機器學習算法,能夠在短時間內(nèi)處理數(shù)據(jù),并能直觀地顯示數(shù)據(jù)特性。具有速度快、直觀、精度高等特點。本文在大數(shù)據(jù)分析的基礎(chǔ)上,以2018年國內(nèi)上映的30部國產(chǎn)電影的信息數(shù)據(jù)作為訓練模型,選取C4.5算法作為工具,構(gòu)建出基于決策樹算法的票房預測模型。經(jīng)過測試,該模型的準確率為78%,并從中分析出影響票房的關(guān)鍵因素是演員。

    關(guān)鍵詞:決策樹算法;電影票房;預測

    文章編號:2095-2163(2019)04-0132-05 中圖分類號:TP311 文獻標志碼:A

    0 引 言

    電影產(chǎn)業(yè)是一項高投資、高收益、高風險的行業(yè),當今社會已進入了大數(shù)據(jù)時代,可以將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電影票房的預測研究中,為投資者智能規(guī)避電影投資風險,并幫助影院運營商優(yōu)化放映計劃,實現(xiàn)收益的最大化[1-2]。本文提出了一種基于決策樹算法的票房預測模型,該模型將預測問題轉(zhuǎn)換為分類問題,將電影類型、演員流量程度、導演知名度作為自變量,電影票房類別作為因變量。與以往的主觀假設(shè)和頭腦風暴相比,這是一種更可靠、更科學的方法[3]。

    1 決策樹算法及相關(guān)概念

    1.1 決策樹

    決策樹算法采用的是自頂向下的貪婪算法,在每個節(jié)點上選擇出最優(yōu)屬性進行分類。算法包括 ID3、C4.5、CHAID、CART、SLIQ、SPRINT等。其中C4.5算法在2006年12月舉行的國際數(shù)據(jù)挖掘會議(ICDM)上,排在十大數(shù)據(jù)挖掘算法之列[4]。

    1.2 C4.5算法

    C4.5算法是一種基于信息熵的機器學習算法,主要采用信息增益率作為條件屬性的判斷標準,信息增益率越高,數(shù)據(jù)分類能力越強。因此,分別計算每一個條件屬性的信息增益率,選取信息增益率最高的屬性作為下一個分裂節(jié)點,以此遞歸即可構(gòu)建C4.5決策樹[5-7]。相關(guān)公式如下:

    1.3 決策樹修剪

    由于決策樹是由訓練數(shù)據(jù)集生成的,許多分支反映的是噪聲或孤立點,這可能會增加決策樹分類的錯誤率,因此有必要對決策樹進行修剪 [10]。修剪決策樹一般分為:預剪枝法和后剪枝法。預剪枝法是在樹生長的過程中設(shè)置一定的標準來阻止樹木繼續(xù)生長。后剪枝法是待決策樹完全生成后再進行剪枝。后剪枝方法比預剪枝方法需要更多的計算量,但通??梢援a(chǎn)生更可靠的樹[11-12]。

    2 應(yīng)用決策樹技術(shù)預測電影票房

    2.1 數(shù)據(jù)準備

    本次研究中數(shù)據(jù)信息來源于“中國電影票房年度總排行榜”網(wǎng),從中抽取48部電影,將其中的30部作為訓練樣本數(shù)據(jù),剩余的18 部作為測試樣本數(shù)據(jù)。數(shù)據(jù)源主要包括電影類型、電影導演、電影主演。原始數(shù)據(jù)見表1。

    2.2 數(shù)據(jù)預處理

    (1)電影類型。每位觀眾在不同階段可能會有不同的喜好,因此電影類型對于電影票房很重要。變量值有:劇情、喜劇、奇(科)幻、愛情。

    (2)電影導演。導演是影片制作的領(lǐng)導者和組織者,決定著影片的質(zhì)量和影片藝術(shù)風格。通過對這些導演的獲獎情況和近三年來執(zhí)導電影所獲票房的均數(shù)進行分析。將國內(nèi)頂級的大導演劃分為高層次,知名導演劃分為中等層次,非知名導演劃分為低層次。

    (3)電影主演。演員具有一定程度的票房號召力,觀眾會因為喜歡的演員而選擇電影。通過對“2018年中國內(nèi)地演員排行榜”的數(shù)據(jù)分析,將排名前50的演員劃分為高流量演員,排名51-300的演員劃分為中等流量演員,排名300以后的演員劃分為低流量演員。

    (4)電影票房。作為數(shù)據(jù)的因變量,參考國外學者Ramesh[13]的票房劃分方法,將票房收益高于6億的電影劃分為高票房,將票房收益介于1億至6億之間的電影劃分為中等票房,將票房收益低于1億的電影劃分為低等票房。

    經(jīng)過數(shù)據(jù)預處理后,量化表示數(shù)據(jù)表中的描述性文字,得到了30個處理后的數(shù)據(jù)訓練樣本,見表2。

    2.3 C4.5構(gòu)造決策樹

    (4)建立決策樹。因為屬性actor的信息增益率最大,所以選擇屬性actor作為根結(jié)點。按照actor的取值,對30個樣本進行分支得到3個子集,如圖1所示。并對每個子集按照以上方法創(chuàng)建分支,最后得到C4.5決策樹,如圖1所示。最后采用后修剪方式,修剪后的C4.5決策樹如圖2所示。

    2.4 模型評估

    為了驗證模型的可靠性,根據(jù)圖3的決策樹對18個測試樣本數(shù)據(jù)進行了測試,其中14條數(shù)據(jù)與模型結(jié)果一致,準確率達到78%。結(jié)果表明,該模型具有較好的預測效果,可為電影票房預測提供一定的參考價值。通過對電影票房的預測和分析,影響票房預測的最重要的因素是演員。演員流量程度越高,其主演的電影票房水平就越高。因此,選擇受歡迎程度高和具有票房號召力的演員才是票房收益的關(guān)鍵[14]。

    3 結(jié)束語

    文章將決策樹算法C4.5應(yīng)用于電影票房的預測研究,通過對電影票房信息數(shù)據(jù)進行分析處理,建立完整的預測模型。實驗結(jié)果說明,基于決策樹算法的電影票房預測模型簡單、快速,為電影票房的預測提供一定的科學依據(jù)[15]。不足之處在于模型中選取樣本數(shù)據(jù)較少,而且沒有全面考慮宣傳力度、同期電影競爭、制片廠、投資、微博指數(shù)等影響電影票房的其它因素。此外,構(gòu)建決策樹時未考慮屬性之間的關(guān)聯(lián)度,例如演員屬性和導演屬性之間的關(guān)聯(lián)度,一般具有高流量的演員更愿意和知名大導演合作,很難出現(xiàn)高流量演員和低知名度導演合作的情況,進而影響到?jīng)Q策樹的生成,也影響到電影票房的預測結(jié)果,后續(xù)應(yīng)改進完善數(shù)據(jù)的前期處理分析。

    參考文獻

    [1]鄭堅,周尚波. 基于神經(jīng)網(wǎng)絡(luò)的電影票房預測建模[J]. 計算機應(yīng)用,2014,34(3):742-748.

    [2]吳發(fā)翔,錢佳威,劉江帆. 一種基于C5.0決策樹算法的票房預測研究[J]. 2016 (4):186-192.

    [3]張鑫,郭振宇. 基于隨機森林的影片票房預測 [J]. 現(xiàn)代電影技術(shù),2016(3):11-15,35.

    [4]WU Xindong, KUMAR V, QUINLAN J R,et al. Top 10 algorithms in data mining[J]. Knowledge and information systems, 2008,14(1):1-37.

    [5]周志華. 機器學習[M]. 北京:清華大學出版社,2016.

    [6]韓麗娜,韓改寧. 決策樹算法在學生成績分析中的應(yīng)用研究[J]. 電子設(shè)計工程, 2017,25(2):18-21.

    [7]李會,胡笑梅. 決 策 樹 中 ID3 算 法 與 C4.5算法分析與比較[J]. 水電能源科學 ,2008,26(2):129-132,163.

    [8]楊洋. 決策樹ID3算法及其改進[J]. 軟件導刊,2016,15(8):46-48.

    [9]周美琴. 單位代價收益敏感決策樹分類算法及其剪枝算法的研究[D]. 桂林:廣西師范大學.2016.

    [10]SHARDA R,DELEN D. Predicting box-office success of motion pictures with neural networks [J]. Expert Systems With Applications,2006,30(2):243-254.

    [11]李航. 統(tǒng)計學習方法[M]. 北京:清華大學出版社,2012.

    [12]王文霞. 數(shù)據(jù)挖掘中改進的 C4.5 決策樹分類算法[J]. 吉林大學學報(理學版), 2017, 55(5):1274-1277.

    [13]吳思博,陳志剛,黃瑞. 基于相關(guān)系數(shù)的ID3優(yōu)化算法[J]. 計算機工程與科學,2016, 38(11):2342-2347.

    [14]張慧,王世偉. 基于深度學習對電影票房的預測[J]. 湖北第二師范學院學報,2017,34(8):60-64.

    [15]張雪. 基于深度學習卷積神經(jīng)網(wǎng)絡(luò)的電影票房預測[D]. 北京:首都經(jīng)濟貿(mào)易大學,2017.

    猜你喜歡
    電影票房預測
    無可預測
    黃河之聲(2022年10期)2022-09-27 13:59:46
    選修2-2期中考試預測卷(A卷)
    選修2-2期中考試預測卷(B卷)
    選修2—2期中考試預測卷(A卷)
    新年新氣象,元旦來帶頭 2021年1月電影票房排行榜
    打鐵還需自身硬 2020年10月電影票房排行榜
    意料之中,整體表現(xiàn)平淡 2020年9月電影票房排行榜
    提前邁過“600億大關(guān)”2019年12月電影票房排行榜
    暑期檔繼續(xù)“遇冷”2019年7月電影票房排行榜
    不可預測
    莆田市| 宁安市| 洮南市| 合肥市| 湘阴县| 通榆县| 余姚市| 东阳市| 厦门市| 正蓝旗| 卢湾区| 永吉县| 江西省| 绵阳市| 社旗县| 鸡泽县| 高雄市| 肇庆市| 平利县| 乡城县| 岫岩| 甘谷县| 云南省| 云安县| 满洲里市| 环江| 永兴县| 普兰店市| 马公市| 珠海市| 鄂托克旗| 寻乌县| 云龙县| 潜山县| 泾川县| 梅河口市| 民乐县| 观塘区| 柘城县| 监利县| 辽宁省|