■ 唐中君 王美月 周欣浩 楊崇耀
1.北京工業(yè)大學經(jīng)濟與管理學院北京現(xiàn)代制造業(yè)發(fā)展研究基地 北京 100124
2.中國中紡集團有限公司紡織服裝事業(yè)部 北京 100005
隨著消費者對產品需求的不斷變化和產品生產技術的快速發(fā)展,產品更新速度加快,生命周期縮短,短生命周期體驗品在市場中占有越來越重要的地位。短生命周期產品具有生命周期短,需求影響因素多,缺少歷史銷售數(shù)據(jù)等特點。體驗品的主要特點是,消費者的消費目的是體驗產品而非長期使用產品,且消費者在進行消費前無法對產品質量進行評判。電影、游戲等屬于典型的短生命周期體驗品。這類產品的需求難以進行預測,有些此類產品會在短時間內達到理想的銷售量,但也有些此類產品的銷售量不理想,因此使用適當?shù)姆椒▽Ξa品的需求量進行預測,對現(xiàn)實中企業(yè)的融資決策、利益最大化及短生命周期體驗品的需求預測方法研究均具有重大意義。以往電影票房預測方法有多元回歸分析[1,2]、以BASS 模型為代表的擴散方法[3-7]、和機器學習[8,9]共3類方法,其中機器學習的方法預測效果較好,但也存在問題。本文以機器學習算法BP_Adaboost算法為基礎進行改進,使用改進后的算法進行短生命周期體驗品的需求量預測,并與其他已有的預測算法進行對比。
BP_Adaboost算法是將集成算法Adaboost融入傳統(tǒng)神經(jīng)網(wǎng)絡(BP)模型得到的改進算法,相比傳統(tǒng)BP神經(jīng)網(wǎng)絡在絕對誤差、相對誤差以及均方根誤差等方面均具有更優(yōu)的預測效果。但BP_Adaboost 算法并未解決BP 神經(jīng)網(wǎng)絡存在的學習效率低、收斂速度慢、耗時長及易陷入局部最優(yōu)的問題,易導致使用該算法進行機器學習預測的速度緩慢且正確率偏低,因此還需對BP_Adaboost算法進行進一步的改進。
已有文獻中對BP_Adaboost算法的改進集中于用粒子群算法和遺傳算法優(yōu)化弱分類器,通過改進弱分類器的初始權值、閾值,彌補BP 神經(jīng)網(wǎng)絡存在的學習效率低、收斂速度慢及易陷入局部最優(yōu)的問題[10,11]。粒子群算法對離散優(yōu)化問題處理不佳,若用于離散問題求解易陷入局部最優(yōu);遺傳算法適合求解離散問題,但遺傳算法本身存在早熟、收斂速度慢的問題,且遺傳算法中交叉和變異算子均具有雙重性。因此需要尋找更合適的算法改進BP_Adaboost算法。
為解決遺傳算法存在的早熟和收斂速度慢的問題,本文使用思維進化算法(MEA)對BP_Adaboost算法進行改進。MEA 算法通過設置得分函數(shù)使得趨同和異化操作始終向尋優(yōu)方向發(fā)展,不會出現(xiàn)退化現(xiàn)象,而且該算法也同樣適用于離散問題的求解。于德亮等利用MEA改進BP 神經(jīng)網(wǎng)絡算法進行故障診斷[12];白國振等利用MEA改進BP神經(jīng)網(wǎng)絡,并將其用于運行狀態(tài)的識別,使識別準確率提高17.93%,表明該算法的優(yōu)越性[13]。以往研究中未曾發(fā)現(xiàn)將MEA 改進的BP 神經(jīng)網(wǎng)絡作為弱分類器,來改進BP_Adaboost算法。
MEA 算法中依然存在算法收斂速度慢及易陷入局部最優(yōu)的問題,本文使用列文伯格-馬夸爾特(LM)算法解決。LM 算法是梯度下降法與高斯牛頓法的結合,是一種性能穩(wěn)定、收斂速度快且能避免陷入局部最優(yōu)的神經(jīng)網(wǎng)絡算法。LM 算法也曾廣泛被用于改進BP 神經(jīng)網(wǎng)絡[14-16]。研究證明,LM 算法能夠進行全局尋優(yōu),提高收斂速度,解決了MEA算法未能解決的問題。
針對上述改進算法的不足,本文將采用MEA 算法彌補BP 算法中存在的學習效率低、正確率偏低及耗時長的問題,再采用LM 算法改變搜索過程內部搜索算法,解決MEA 無法完全解決的收斂速度慢及易陷入局部最優(yōu)的問題,最終獲得改進后的MEA-BP_AdaBoost算法。
首輪融資時票房預測屬于電影開拍前預測。以往這類預測主要以劇本為研究對象,通過文本分析獲得預測結果。Eliashberg 等研究了劇本主線和劇本全文對電影總票房的影響[17,18];Hunter 等在Elishberg 基礎上進一步研究首周電影票房預測[19]。除劇本外,預測票房的常用影響因素有電影類型、制片成本、主演、導演、檔期、評論、續(xù)集、改編、發(fā)行公司等[20]。已有的針對首輪融資時票房預測的研究主要以劇本為研究對象,沒有考慮其他的影響因素。使用多種影響因素對電影票房進行預測的研究大多在電影上市前后時點,沒有從關鍵的首輪融資時進行預測。
以往缺乏針對首輪融資時總票房預測方法的研究。本文將探究首輪融資時總票房的影響因素并將MEABP_Adaboost 算法用于首輪融資時總票房分類預測中,獲得首輪融資時總票房分類預測方法并驗證該方法的有效性。
BP_Adaboost 算法是以BP 神經(jīng)網(wǎng)絡為弱分類器的算法;對BP_Adaboost 算法的改進需要改進弱分類器。本文的改進包括運用MEA 改進弱分類器、運用LM 算法改進弱分類器、設計MEA-LM-BP_Adaboost 改進算法流程3個部分。
MEA 是一種迭代優(yōu)化的學習方法,包括種群的產生、子種群趨同、異化、解析最優(yōu)個體等過程。利用MEA改進弱分類器的設計思路如圖1所示。
圖1 MEA改進弱分類器的流程圖
標準的BP 神經(jīng)網(wǎng)絡使用最速下降法確定各層權值。該方法在運用過程中,由于網(wǎng)絡的權值沿局部改善方向調整,易使算法的權值收斂到局部極小值,會導致訓練失敗,需要加以改進,為此引入LM 算法。LM 算法是高斯牛頓算法和最速下降法的結合,使用高斯約當消元法求解線性方程組,使算法更加穩(wěn)定,同時該算法對于高階函數(shù)的收斂速度更快。
LM 算法采用比例因子μ來控制權重的大小,當μ=0 時,算法退化為高斯牛頓法;當μ很大時,等同于梯度下降法。結合兩種算法的優(yōu)點,可避免計算Hessian 矩陣,且當誤差性能函數(shù)具有平方和誤差的形式時,Hessian矩陣可用式(1)表示。
LM算法根據(jù)式(2)修正BP神經(jīng)網(wǎng)絡的權值。
式中e 為誤差變量,I 為輸入變量。J 是包含誤差性能函數(shù)的一階導數(shù)的雅克比矩陣。由于雅克比矩陣較Hessian矩陣更易計算,且具有二階收斂速度,所需迭代次數(shù)少,可較快地提升收斂速度并可避免陷入局部最優(yōu)。
MEA-LM-BP_Adaboost 改進算法流程如圖2 所示,首先,根據(jù)收集的數(shù)據(jù)集,確定弱分類器的拓撲結構;其次,將弱分類器的訓練函數(shù)設為以LM 算法為基礎的訓練函數(shù)trainlm;然后,用MEA 優(yōu)化弱分類器的初始權值、閾值,并將優(yōu)化得到的初始的權值、閾值賦值給弱分類器;由此得到經(jīng)兩步優(yōu)化的BP 神經(jīng)網(wǎng)絡模型,此時得到了MEA-LM-BP神經(jīng)網(wǎng)絡算法。
圖2 MEA-LM-BP_Adaboost改進算法流程
將MEA-BP-LM 神經(jīng)網(wǎng)絡算法作為BP_Adaboost 算法中的弱分類器,執(zhí)行LM 算法優(yōu)化的弱分類器的預測、計算預測序列權重、測試數(shù)據(jù)權重調整,獲得強分類器等流程,得到MEA-LM-BP_Adaboost 算法。算法框架結構如表1所示。
表1 MEA-LM-BP_Adaboost改進算法流程框架
Step39:Step40:Step41:Step42:Step43:Step44:Step45:Step46:Step47:Step48:Step49:Step50:續(xù)表1 error(i)←0構建BP神經(jīng)網(wǎng)絡,設置S2,lr,T;訓練集、測試集樣本預測;創(chuàng)建BP神經(jīng)網(wǎng)絡(訓練函數(shù)使用LM算法);設置網(wǎng)絡參數(shù);網(wǎng)絡初始權值、閾值←W1,W2,B1,B2;訓練樣本、測試樣本神經(jīng)網(wǎng)絡預測結果;error(i)←統(tǒng)計訓練樣本預測錯誤樣本at(i)←調整弱分類器權重Dt(i+1)←更新D值end output←強分類器預測結果(上接表1)
首輪融資時點是決定電影是否盈利的最佳決策時點。投資方若能在該時點有效預測票房,可規(guī)避投資風險。因此,電影首輪融資時的總票房預測方法研究對電影投資方以及我國電影產業(yè)發(fā)展都具有重要意義。本文使用MEA-LM-BP_Adaboost算法利用劇本、主演等11種電影票房影響因素,在首輪融資時對電影票房區(qū)間進行預測。
基于MEA-LM-BP_Adaboost 算法的首輪融資時總票房分類預測方法包括變量選取及操作化處理、網(wǎng)絡參數(shù)優(yōu)化、MEA 改進弱分類器、LM 算法改進弱分類器、算法流程設計、待預測電影驗證6個部分,如圖3所示。
圖3 基于MEA- LM- BP_Adaboost算法的首輪融資時總票房分類預測方法
在變量選取及操作化處理過程中,選取電影票房的影響因素并對其進行操作化處理,得到樣本數(shù)據(jù)集,將電影票房影響因素作為輸入變量,將電影票房等級作為輸出變量。為使預測更加準確,將電影票房等級分為4類。由于BP_Adaboost算法要求各類別樣本數(shù)量大致相等,將樣本數(shù)量少的分類采用重復抽樣方法處理,獲得樣本數(shù)據(jù)集。采用K 折交叉驗證法產生訓練集及測試集。
網(wǎng)絡參數(shù)優(yōu)化過程包括確定網(wǎng)絡參數(shù)取值區(qū)間和不同參數(shù)值的輸出結果比較尋優(yōu)。經(jīng)過網(wǎng)絡參數(shù)優(yōu)化得到3個最優(yōu)網(wǎng)絡參數(shù)值。之后將網(wǎng)絡優(yōu)化結果應用于弱分類器中。
MEA改進弱分類器時,經(jīng)過初始種群產生、趨同、異化、解析最優(yōu)個體等操作得到最優(yōu)初始權值、閾值。將經(jīng)LM 算法改進的BP神經(jīng)網(wǎng)絡作為弱分類器,將初始權值、閾值賦予經(jīng)LM 算法優(yōu)化的BP神經(jīng)網(wǎng)絡。將上述經(jīng)過改進的BP 神經(jīng)網(wǎng)絡作為弱分類器,通過弱分類器預測、計算弱分類器權重、調整訓練樣本權重、強分類器預測等環(huán)節(jié),得到基于MEA-LM-BP_Adaboost 算法的首輪融資時總票房分類預測模型。檢驗K 折交叉驗證準確率是否達標。
在待預測電影票房驗證環(huán)節(jié),按照變量選取及操作化處理方法,收集并處理電影票房影響因素,并將其輸入到基于MEA-LM-BP_Adaboost 算法的首輪融資時總票房分類預測模型中,得到待預測電影票房區(qū)間預測值,分析預測模型分類準確率。
除劇本外,預測票房的常用影響因素有電影類型、制片成本、主演、導演、檔期、評論、續(xù)集、改編、發(fā)行公司等[4]。部分因素在電影即將上映或上映后才能獲取。首輪融資時點可獲得的因素有電影類型、主演、導演、發(fā)行公司以及劇本是否為續(xù)集或改編等。本文選取電影類型、續(xù)集、改編等劇本因素以及主演、導演等主創(chuàng)方因素,并增加電影制片方、編劇等因素。
2.3.1 數(shù)據(jù)來源
選取2013~2018年的245 部國產電影為樣本,其中的15 部電影作為測試集,剩余電影作為訓練集,為保證各分類樣本個數(shù)大體相同的原則,對第一、二、四類樣本采用重復抽樣方法處理,最終獲得368 條訓練數(shù)據(jù)。從貓眼電影網(wǎng)(http://piaofang.maoyan.com)收集電影總票房、電影類型;從時光網(wǎng)(http://www.mtime.com)獲取電影編劇、制片人、導演、演員以往電影作品收入,導演、演員以往獲獎情況,發(fā)行公司;從百度獲?。╤ttps://www.baidu.com/)是否是續(xù)集、改編、跨界執(zhí)導電影。
2.3.2 變量選取及操作化處理
選取電影類型票房影響力、編劇票房影響力、制片人票房影響力、導演票房影響力、演員票房影響力、導演作品獲獎情況、演員作品獲獎情況、續(xù)集、改編、跨界執(zhí)導、發(fā)行公司共11個變量。以電影總票房等級作為輸出變量。
(1)電影類型票房影響力,將電影類型分為喜劇、愛情、奇幻、劇情、動作、驚悚、犯罪、懸疑、科幻、冒險、傳記、古裝、家庭、武俠、歷史、戰(zhàn)爭等共16類,按式(3)計算i電影所屬全部電影類型的票房影響力。
其中,bijp表示i電影所屬的j類型的p電影的總票房,j=1,2,3,...,16 表示可能的電影類型,p= 1,2,3,...,Mijp,Mijp表示i電影所屬的j類型在全部樣本中的電影總數(shù),Gij表示i電影所屬j類型的全部樣本的總票房,Gijmax和Gijmin分別表示Gij(j= 1,2,...,16)中的最大值和最小值。
(2)編劇票房影響力,考慮消費者觀影的近因效應,按式(4)計算j編劇在創(chuàng)作當前電影之前的最近3部電影作品的票房均值,度量j編劇對當前電影的票房影響力
bjk表示j編劇創(chuàng)作當前電影之前創(chuàng)作的第k部電影的總票房,rj表示j編劇在當前電影之前創(chuàng)作的電影總數(shù)。
(3)制片人票房影響力,按式(5)計算j制片人制作當前電影之前最近3部作品的總票房均值,度量j制片人對當前電影的票房影響力ProducerWeightj。
bjk表示j制片人制作當前電影之前制作的第k部電影的總票房,rj表示j制片人在當前電影之前制作的電影總數(shù)。
(4)導演票房影響力,按式(6)計算j導演執(zhí)導當前電影之前執(zhí)導的最近3部電影的總票房均值,度量j導演對當前電影的票房影響力DirctorWeightj。
bjk表示j導演執(zhí)導當前電影之前執(zhí)導的第k部電影的總票房,rj表示j導演之前創(chuàng)作的電影總數(shù)。
(5)演員票房影響力,按式(7)計算第一主演、第二主演出演j電影之前各自主演的最近3 部電影的總票房平均值,量化j電影的兩位主演的票房影響力ActorWeightj。
其中a= 1,2,表示j電影的兩名主演。bjak表示在j電影之前a演員主演的第k部電影的總票房,raj表示在j電影之前a演員主演的電影總數(shù)。
(6)導演作品獲獎,基于導演獲得提名或獲獎次數(shù),且提名與獲獎按1:2 賦值,按式(8)計算j導演作品獲獎
Nomj表示j導演在當前電影之前獲提名的總次數(shù),Awaj表示j導演在當前電影之前獲獎的總次數(shù)。
(7)演員作品獲獎,基于第一主演、第二主演提名與獲獎次數(shù)之和,且提名與獲獎按1:2 賦值,按式(9)計算j電影的演員作品獲獎ActorAwardsj。
其中a= 1,2,表示j電影的兩名主演。Nomja表示j電影a演員在當前電影之前獲提名的總次數(shù),Awaja表示j電影a演員在當前電影之前獲獎的總次數(shù)。
(8)續(xù)集,用虛擬變量表示,若j電影屬于續(xù)集,取值為1,否則取值為0。
(9)改編,用虛擬變量表示,若j電影是由小說、歌曲、游戲、音樂劇、網(wǎng)絡劇等改編而來,取值為1,否則取值為0。
(10)跨界執(zhí)導,用虛擬變量表示,若j電影的導演原從事職業(yè)非導演,比如演員、歌手、作家等作為導演執(zhí)導的電影作品,取值為1,否則取值為0。
(11)發(fā)行公司,用虛擬變量表示,發(fā)行公司屬于中影、光線、華誼、博納、上影、萬達、樂視、寰亞、安樂、嘉映10大電影發(fā)行公司之一,取值為1,否則取值為0。
本文將電影總票房等級作為輸出變量,根據(jù)國產電影總票房的實際分布,將電影票房收入分為4個等級,即5000 萬元以下、5000 萬至1 億元之間、1 億至5 億之間、5億元以上。分類標準的量化如式(10)所示。
2.3.3 變量操作化處理合理性判斷
將從樣本中收集到的輸入、輸出變量操作化處理,得到樣本數(shù)據(jù)集。因本文輸入變量個數(shù)11個,輸出變量1 個,且映射關系并不復雜,因此本文拓撲結構為單層BP神經(jīng)網(wǎng)絡。
獲得樣本數(shù)據(jù)集后,進行MEA-LM-BP_Adaboost 算法流程設計及執(zhí)行。將樣本數(shù)據(jù)集輸入到算法中,判斷程序是否運行無誤。若無誤,且均方誤差小于等于3,則進入網(wǎng)絡參數(shù)優(yōu)化過程。
用如下公式確定隱層節(jié)點數(shù)的取值區(qū)間,n1=,其中n1為隱層節(jié)點數(shù),n為輸入節(jié)點數(shù),m為輸出節(jié)點數(shù),a取1~10之間常數(shù)。學習率有0.06、0.08、0.1共3個經(jīng)驗值可選?;诸惼鱾€數(shù)的選取無具體公式及經(jīng)驗值,需通過多次實驗試湊解決。
依據(jù)上述BP 算法隱層節(jié)點數(shù)的經(jīng)驗公式計算結果,確定隱層節(jié)點區(qū)間,得到隱層節(jié)點變化區(qū)間為[4,13]。學習率從經(jīng)驗值中選取,基分類器個數(shù)在[5, 10,15, 20, 25, 30,35]中選取。隱層節(jié)點數(shù)和學習率的判斷標準為使BP 神經(jīng)網(wǎng)絡的預測準確率最優(yōu)且均方誤差低;基分類器個數(shù)T 的判斷標準為使得BP_Adaboost 算法的K 折交叉驗證預測準確率最優(yōu)且均方誤差較低。多次實驗驗證結果如表2所示。
表2 弱分類器網(wǎng)絡參數(shù)
本根據(jù)數(shù)據(jù)集對思維進化算法的參數(shù)進行設置。種群大小取值為200,其中優(yōu)勝子種群數(shù)和臨時子種群數(shù)為5,子種群大小設定為10。輸入層、隱含層和輸出層的神經(jīng)元個數(shù)分別為11、9 和1 個,迭代次數(shù)設定為10次。
通過初始種群產生函數(shù)產生初始種群,包括優(yōu)勝子種群和臨時子種群。產生后進入種群趨同過程,趨同過程圖如下圖4 所示。利用種群成熟判別函數(shù),判斷各種群是否滿足異化的條件,執(zhí)行異化操作,并且補充新的子種群。
圖4 初始優(yōu)勝種群和臨時種群趨同過程
得出如下結論:
(1)優(yōu)勝子種群和臨時子種群均已成熟,經(jīng)過若干次趨同操作后得分不再增加。
(2)優(yōu)勝子種群中1、2、3、4、5 與臨時子種群2 沒有執(zhí)行趨同操作,因為在子種群中心周圍沒有發(fā)現(xiàn)更好的個體。
(3)在趨同操作完成后,臨時子種群1、3、5的最終得分高于優(yōu)勝子種群1、2、5,因此將得分高的臨時子種群1、3、5將替代優(yōu)勝子種群1、2、5,同時為保證臨時子群體的個數(shù)不變,需補充3個臨時子群體。
當此算法滿足迭代停止條件后,便可將尋找到的最優(yōu)個體輸出,解碼后得到BP 神經(jīng)網(wǎng)絡的初始權值、閾值。
使用經(jīng)過MEA 優(yōu)化的BP 神經(jīng)網(wǎng)絡算法進行100 次實驗,準確率均值為0.40,高于BP神經(jīng)網(wǎng)絡的0.27,同時MSE 均值為0.62,低于BP 神經(jīng)網(wǎng)絡的1.17,由此看出MEA對BP神經(jīng)網(wǎng)絡具有優(yōu)化效果。
LM 算法改進BP 神經(jīng)網(wǎng)絡可通過神經(jīng)網(wǎng)絡工具箱實現(xiàn),在BP 神經(jīng)網(wǎng)絡中使用的訓練函數(shù)為tansig 和trainlm,網(wǎng)絡學習規(guī)則為learngdm,網(wǎng)絡學習率0.1。其中,輸入層、隱層和輸出層節(jié)點數(shù)分別為11、9和1。
將LM-BP 算法與BP 神經(jīng)網(wǎng)絡分別運行100 次。LM 優(yōu)化的BP 神經(jīng)網(wǎng)絡算法100 次試驗準確率均值為0.45,高于BP 神經(jīng)網(wǎng)絡的0.27,MSE 均值為0.63,低于BP 神經(jīng)網(wǎng)絡的1.17。LM 算法改進的BP 神經(jīng)網(wǎng)絡算法優(yōu)于BP神經(jīng)網(wǎng)絡算法。
將MEA 優(yōu)化的初始權值、閾值用于LM 算法優(yōu)化的BP 神經(jīng)網(wǎng)絡中,經(jīng)100 次實驗,BP 神經(jīng)網(wǎng)絡,LM-BP,MEA-BP 以及MEA-LM-BP 算法的準確率均值分別為0.27,0.45,0.40,0.51。MEA 和LM 算法結合改進的BP 神經(jīng)網(wǎng)絡預測效果最好。弱分類器的預測準確率得到提高,改進方法有效。
將MEA 和LM 算法結合改進的BP神經(jīng)網(wǎng)絡作為弱分類器,執(zhí)行圖2所示算法設計流程,預測結果顯示本文構建的基于MEA-LM-BP_Adaboost 算法首輪融資時的總票房分類預測方法預測準確性為0.73,BP_Adaboost算法的準確率為0.66,基于MEA-LM-BP_Adaboost 算法的首輪融資時總票房分類方法預測準確率更高。驗證集電影的分類預測結果如圖5所示。
圖5 驗證集電影分類預測結果
15 部電影中,有11 部電影預測正確,有3 部電影預測差距為1個類別,有1部電影差距為2個類別。可看出該方法預測較為準確。
為比較MEA 和LM 對BP神經(jīng)網(wǎng)絡的改進與本文算法的改進結果。用MEA、LM 算法、MEA-LM 算法改進BP_Adaboost 算法的弱分類器,得到BP_Adaboost 算法、MEA-BP_Adaboost 算法、LM-BP_Adaboost 算法、MEALM-BP_Adaboost算法等4種模型。對BP神經(jīng)網(wǎng)絡使用相同算法進行改進,獲得BP 神經(jīng)網(wǎng)絡算法、MEA-BP 神經(jīng)網(wǎng)絡算法、LM-BP 神經(jīng)網(wǎng)絡算法、MEA-LM-BP 神經(jīng)網(wǎng)絡算法等4 種預測模型。比較分析上述8 種模型的整體性能。
為檢驗模型整體性能,基于上述8種預測模型,從模型準確率、模型穩(wěn)定性、模型K 折交叉驗證準確率均值等3方面進行比較。
本文從準確率和均方根誤差兩方面比較8 種模型。模型準確率是衡量分類模型預測性能好壞的指標。模型的均方根誤差是用于評估分類模型的指標,均方根誤差越小表明模型擬合度越好。
模型穩(wěn)定性是決定模型是否可用的重要因素。采用準確率標準差衡量模型預測數(shù)據(jù)的離散程度。
模型K 折交叉驗證準確率。交叉驗證法的優(yōu)點在于避免隨機選取測試數(shù)據(jù)帶來的誤差。
4.3.1 改進算法準確率
根據(jù)獲取到的電影票房數(shù)據(jù),利用各類電影票房首輪融資時總票房分類研究模型,各進行100次實驗,實驗結果如表10所示。
由表3 可知,基于MEA-LM-BP_Adaboost 算法較其他七種預測模型來說,準確性獲得提升;較BP 神經(jīng)網(wǎng)絡算法、BP_Adaboost算法、MEA-BP_Adaboost算法和LMBP_Adaboost 算法來說,MEA-LM-BP_Adaboost 算法的均方誤差更低。
表3 8種模型準確率和MSE結果比較
4.3.2 改進算法穩(wěn)定性
將最終電影票房數(shù)據(jù)輸入到8 種模型中,獲得各模型100 次實驗結果,將實驗結果求得標準差。從表4 中可看出,MEA 對提高模型穩(wěn)定性有重要作用。LM 算法和BP_Adaboost 算法對BP 神經(jīng)網(wǎng)絡的改進都使模型穩(wěn)定性降低,在LM 算法改進的BP 神經(jīng)網(wǎng)絡算法及BP_Adaboost 算法中使用MEA,使模型穩(wěn)定性得到提高。
表4 8種模型20折交叉驗證準確率均值、標準差比較
4.3.3 改進算法K折交叉驗證
采用20 折交叉驗證法進行模型比較,模型20 折交叉檢驗結果如下表4 所示。可發(fā)現(xiàn)MEA-LM-BP_Adaboost 算法模型20 折交叉檢驗驗證結果與模型100 次實驗結果一致。從準確率標準差的實驗結果發(fā)現(xiàn),BP_Adaboost算法穩(wěn)定性最差,MEA有利于提高模型穩(wěn)定性。
從圖6 中可以看出,MEA-LM-BP_Adaboost 算法模型分類預測方法預測準確率較高,且模型穩(wěn)定性較好。因此,此模型的整體性能最好。
圖6 8種模型20折交叉驗證結果
針對BP_Adaboost 算法中BP 神經(jīng)網(wǎng)絡存在的學習效率低、收斂速度慢及易陷入局部最優(yōu)的問題,使用MEA 和LM 算法改進BP_Adaboost 算法中的弱分類器,由弱分類器集合成強分類器,得到MEA-LM-BP_Adaboost算法。
構建了基于MEA-LM-BP_Adaboost 算法的首輪融資時總票房分類預測方法。探究首輪融資時總票房影響因素,得到4 類首輪融資時影響因素,共11 個變量。以2013~2018年上映的245 部國產電影為樣本,得到了首輪融資時總票房分類預測模型。
選取15部電影作為測試集,對預測方法和模型進行驗證。通過與6 種改進算法預測結果進行對比,結果顯示本研究的預測精度高于對比模型,可得出如下結論:
(1)使用機器學習的預測方法對缺乏歷史數(shù)據(jù)的短生命周期體驗品銷量預測問題有效,具有較好的操作性和適應性,能夠取得較好的預測效果。
(2)本文在已有的機器學習預測方法上進行改進并進行比較,結果顯示準確率、穩(wěn)定性、學習效率都取得了顯著的提高,解決了現(xiàn)有機器學習預測方法中存在的問題,更適用于電影票房的預測。
(3)本文提出的改進模型可以在短生命周期體驗品融資、設計、生產等各個時點使用,也可以在不同的產品中使用,為企業(yè)的決策提供支持?;跈C器學習的預測方法具有普適性和可修改性,在不同場景為企業(yè)決策提供重要支持,協(xié)助企業(yè)進行產品創(chuàng)新。