劉業(yè)政, 章 旭, 王錦坤
(1.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009; 2.合肥工業(yè)大學(xué) 過程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230009)
考慮品牌情感的汽車銷量預(yù)測(cè)模型
劉業(yè)政1,2, 章 旭1,2, 王錦坤1,2
(1.合肥工業(yè)大學(xué) 管理學(xué)院,安徽 合肥 230009; 2.合肥工業(yè)大學(xué) 過程優(yōu)化與智能決策教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230009)
現(xiàn)有汽車銷量預(yù)測(cè)研究大多面向整體汽車市場(chǎng)而非單一汽車品牌,而且缺乏對(duì)用戶口碑?dāng)?shù)據(jù)的深入挖掘,忽略了口碑因素對(duì)購買意愿的影響,從而導(dǎo)致預(yù)測(cè)模型預(yù)測(cè)精度較低。文章提出一種改進(jìn)的考慮品牌情感的自回歸模型(brand opinion aware autoregressive model,BOAR),對(duì)于單一品牌,在考慮該品牌不同時(shí)間窗歷史銷量基礎(chǔ)上,結(jié)合用戶在線評(píng)論中挖掘的用戶情感值進(jìn)行汽車銷量預(yù)測(cè)。對(duì)多個(gè)汽車品牌的實(shí)驗(yàn)表明,該模型可以準(zhǔn)確預(yù)測(cè)單一汽車品牌的銷量,具有更好的穩(wěn)定性。研究結(jié)果可以為汽車制造廠商生產(chǎn)規(guī)劃和控制提供更有效的決策支持。
汽車銷量預(yù)測(cè);時(shí)間序列分析;在線評(píng)論情感分析;自回歸模型
中國汽車行業(yè)過去幾十年取得了突飛猛進(jìn)的發(fā)展,已經(jīng)成為支撐和拉動(dòng)中國經(jīng)濟(jì)持續(xù)快速增長的主導(dǎo)產(chǎn)業(yè)之一。2015年中國汽車產(chǎn)銷雙雙達(dá)到2 450萬輛,在全球汽車制造業(yè)的市場(chǎng)份額已從2000年的3.5%提高到28.0%[1]。面對(duì)當(dāng)前復(fù)雜的國內(nèi)外經(jīng)濟(jì)環(huán)境和不斷加大的經(jīng)濟(jì)下行壓力,準(zhǔn)確地預(yù)測(cè)汽車銷量無論是對(duì)于從宏觀上整體掌控汽車市場(chǎng)的發(fā)育與成長態(tài)勢(shì)的政策制定者,還是對(duì)于從微觀上研究市場(chǎng)行情以制定營銷策略的汽車廠商,都具有極其重要的作用。
現(xiàn)有汽車銷量預(yù)測(cè)研究主要關(guān)注某一地區(qū)的市場(chǎng)總體汽車銷量的宏觀預(yù)測(cè)[2-4],文獻(xiàn)[2]基于時(shí)間序列分析中的差分自回歸移動(dòng)平均(autoregressive integrated moving average model,ARIMA)模型利用每月歷史銷售數(shù)據(jù)預(yù)測(cè)中國市場(chǎng)總體汽車需求量;文獻(xiàn)[3]利用GDP、人口、折扣率等12個(gè)經(jīng)濟(jì)指標(biāo)作為自變量建立線性回歸模型預(yù)測(cè)美國市場(chǎng)總體汽車銷量;文獻(xiàn)[4]采用時(shí)間序列分析和數(shù)據(jù)挖掘算法預(yù)測(cè)德國和美國市場(chǎng)總體汽車銷量。對(duì)于細(xì)化至汽車品牌粒度的銷量預(yù)測(cè)研究較少,因此本文提出一種汽車銷量預(yù)測(cè)模型以解決單一汽車品牌的銷量預(yù)測(cè)問題。
現(xiàn)有的汽車銷量預(yù)測(cè)模型主要利用歷史銷售數(shù)據(jù),缺乏對(duì)專業(yè)汽車論壇用戶評(píng)論數(shù)據(jù)的深入挖掘。由于大眾對(duì)產(chǎn)品的看法會(huì)影響產(chǎn)品的銷售情況,因此對(duì)在線評(píng)論進(jìn)行深入分析對(duì)于預(yù)測(cè)產(chǎn)品未來銷量具有重要作用。在電影票房預(yù)測(cè)、圖書銷量預(yù)測(cè)等領(lǐng)域的研究[5-6]表明,在線評(píng)論數(shù)據(jù)有助于提高產(chǎn)品銷量預(yù)測(cè)模型的準(zhǔn)確率。文獻(xiàn)[5]從在線評(píng)論表達(dá)的情感和文本質(zhì)量出發(fā),基于時(shí)間序列分析模型有效地預(yù)測(cè)了電影票房走勢(shì),說明在線評(píng)論的情感因素會(huì)影響潛在用戶的消費(fèi)決策;文獻(xiàn)[6]的研究也論證了評(píng)論情感因素對(duì)于提高圖書銷量預(yù)測(cè)精度有一定的作用。因此,本文所提預(yù)測(cè)模型對(duì)汽車領(lǐng)域不同品牌的在線口碑評(píng)論情感傾向進(jìn)行分類和量化,并將品牌情感作為影響汽車銷量的重要因素用于預(yù)測(cè)汽車銷量。
此外,我國汽車市場(chǎng)受氣候、節(jié)假日、產(chǎn)品更迭等諸多因素的影響,汽車月度銷售數(shù)據(jù)呈現(xiàn)穩(wěn)定的季節(jié)性特征,因此本文的模型進(jìn)一步考慮了汽車的歷史同期銷量數(shù)據(jù)。
綜合上述問題,本文面向汽車領(lǐng)域,基于汽車專業(yè)論壇在線口碑評(píng)論大數(shù)據(jù),綜合考慮歷史同期銷量、前期銷量以及口碑評(píng)論的情感傾向?qū)ζ囦N量的影響,提出一種考慮品牌情感的自回歸模型(brand opinion aware autoregressive model,BOAR)用于預(yù)測(cè)各汽車品牌月度銷量。本文利用汽車專業(yè)論壇爬取的真實(shí)數(shù)據(jù)并結(jié)合多個(gè)汽車品牌的實(shí)際銷量數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果表明對(duì)于所有汽車品牌,所提BOAR模型平均預(yù)測(cè)誤差小于10%,比傳統(tǒng)時(shí)間序列預(yù)測(cè)中的ARIMA模型具有更高的預(yù)測(cè)精度,表明在線評(píng)論情感傾向有助于提升汽車銷量預(yù)測(cè)模型的精度。
1.1 前期銷量的影響
現(xiàn)有銷量預(yù)測(cè)研究主要利用產(chǎn)品前期銷售數(shù)據(jù)預(yù)測(cè)未來銷量。前期銷售數(shù)據(jù)包含了眾多復(fù)雜且未知的變量對(duì)銷量的影響,將前期銷量作為自變量預(yù)測(cè)未來銷量避免了復(fù)雜因素對(duì)銷量的影響。文獻(xiàn)[2]基于歷史前期的銷售數(shù)據(jù),利用自回歸移動(dòng)平均模型有效預(yù)測(cè)了中國市場(chǎng)總體汽車需求量,在利用前期銷量預(yù)測(cè)未來銷量的方法中,最常用的就是自回歸模型。
自回歸模型是用自身做回歸變量的過程,即利用前期若干時(shí)刻的隨機(jī)變量的線性組合來描述以后某時(shí)刻隨機(jī)變量的線性回歸模型,它是時(shí)間序列中的一種常見形式[7]。自回歸模型被廣泛應(yīng)用于包括銷量預(yù)測(cè)在內(nèi)的時(shí)間序列分析問題中。顯然汽車品牌的銷量會(huì)受到該品牌前期銷量的影響,因此本文采用自回歸模型作為基礎(chǔ)模型預(yù)測(cè)汽車品牌銷量。
具體地,用yt表示第t個(gè)月的汽車品牌銷量,t=1,2,…,N,并用{yt}表示整個(gè)時(shí)間序列y1,y2,…,yN。對(duì)汽車銷量時(shí)間序列建立p階自回歸銷量預(yù)測(cè)模型(記為AR(p)),即
(1)
其中,p為要考察的第t個(gè)月之前p個(gè)月的銷售情況對(duì)第t個(gè)月的影響;yt為第t期銷量;φ0為常數(shù)項(xiàng);φi為最小二乘回歸得到的模型參數(shù);εt為第t期的誤差項(xiàng)。
自回歸模型可以有效捕獲前期銷量對(duì)于銷量預(yù)測(cè)的影響,本文在自回歸模型的基礎(chǔ)上引入更多變量,提高銷量預(yù)測(cè)精度。
1.2 歷史同期銷量的影響
產(chǎn)品銷售的季節(jié)性是指產(chǎn)品的銷量隨著季節(jié)的變化而呈現(xiàn)出高峰低谷的規(guī)律性周期變動(dòng)趨勢(shì)。這一特性已在其他領(lǐng)域得到證明。文獻(xiàn)[8]在預(yù)測(cè)鞋子的銷量時(shí)考慮了產(chǎn)品銷售的季節(jié)特性,在傳統(tǒng)預(yù)測(cè)模型基礎(chǔ)上融入了時(shí)間維度,提高了銷量預(yù)測(cè)的精度。
由于受氣候、節(jié)假日、產(chǎn)品更迭等諸多因素的影響,我國汽車月度銷售數(shù)據(jù)呈現(xiàn)出明顯的季節(jié)性特征,主要為年末至年初為旺季,年中為淡季。文獻(xiàn)[9]的研究論證了我國汽車市場(chǎng)月度銷量數(shù)據(jù)具有周期為12的季節(jié)性波動(dòng)。中國汽車市場(chǎng)2013-09至2016-08月度銷售數(shù)據(jù)如圖1所示。
由圖1可以看出,每年的12月和1月為汽車銷售旺季,2月和7月為汽車銷售淡季,有著明顯的季節(jié)性波動(dòng)。因此本文在自回歸模型基礎(chǔ)上引入歷史同期銷量因素yt-12,得到考慮歷史同期銷量的自回歸預(yù)測(cè)模型:
(2)
其中,r為要考察的第t個(gè)月之前r個(gè)歷史同期銷量對(duì)第t個(gè)月的影響;p為要考察的第t個(gè)月之前p個(gè)月的銷售情況對(duì)第t個(gè)月的影響;yt為第t期銷量;φ0為常數(shù)項(xiàng);φi為最小二乘回歸得到的模型參數(shù);εt為第t期的誤差項(xiàng)。
圖1 中國汽車市場(chǎng)2013-09至2016-08月度銷售數(shù)據(jù)
1.3 在線口碑評(píng)論中情感因素的影響
在線商品評(píng)論數(shù)據(jù)的快速增長為了解普通消費(fèi)者的觀點(diǎn)提供了一個(gè)很好的契機(jī),有很多專家學(xué)者開始研究在線評(píng)論數(shù)據(jù)中隱藏的價(jià)值。情感分析在微博分類[10]、客戶意見聆聽[11]等諸多領(lǐng)域得到了廣泛應(yīng)用。文獻(xiàn)[12-14]的研究表明在評(píng)論文本中產(chǎn)品被提及的次數(shù)以及這些數(shù)據(jù)中所蘊(yùn)含的情感傾向?qū)τ陬A(yù)測(cè)產(chǎn)品的銷量有明顯的效果,尤其是類似汽車、住房等需要顧客投入時(shí)間和精力的高度介入產(chǎn)品,在線評(píng)論數(shù)據(jù)中的情感傾向?qū)τ阡N量預(yù)測(cè)的效果更加顯著。文獻(xiàn)[15]利用社交媒體文本情感和汽車關(guān)鍵詞被提及的頻率提高汽車銷量預(yù)測(cè)精度;文獻(xiàn)[16]在考慮預(yù)發(fā)布營銷、影院可用性和專業(yè)評(píng)論的基準(zhǔn)模型中增加在線產(chǎn)品評(píng)論指標(biāo),大大提高了電影票房收入預(yù)測(cè)準(zhǔn)確性。鑒于以上原因,本文對(duì)汽車領(lǐng)域不同品牌的在線口碑評(píng)論情感傾向進(jìn)行分類和量化,并將品牌情感作為影響汽車銷量的重要因素用于預(yù)測(cè)汽車銷量。用ωt表示第t個(gè)月汽車品牌口碑情感值,t=1,2,…,N。ωt為不可直接觀測(cè)的變量,需要從評(píng)論文本中去挖掘。
因此在(2)式基礎(chǔ)上進(jìn)一步引入汽車品牌口碑情感ωt,得到考慮品牌情感的自回歸模型(記為BOAR):
(3)
其中,r為要考察的第t個(gè)月之前r個(gè)歷史同期銷量對(duì)第t個(gè)月的影響;p為要考察的第t個(gè)月之前p個(gè)月的銷售情況對(duì)第t個(gè)月的影響;q為要考察的第t個(gè)月之前q個(gè)月的品牌口碑情感對(duì)第t個(gè)月的影響;yt為第t期銷量;ωt為第t期品牌口碑情感;φ0為常數(shù)項(xiàng);λk、φi和ρj為用最小二乘回歸得到的模型參數(shù);εt為第t期的誤差項(xiàng)。
BOAR模型包含如下3個(gè)部分:
2.1 銷量數(shù)據(jù)
本文使用的月度銷量數(shù)據(jù)是利用網(wǎng)絡(luò)爬蟲從搜狐汽車采集汽車工業(yè)協(xié)會(huì)發(fā)布的中國市場(chǎng)10個(gè)常見汽車品牌(豐田、奧迪、大眾、別克、本田、比亞迪、福特、奇瑞、雪佛蘭和起亞)從2011-05至2015-10月的月度汽車銷量yt[17],如圖2所示。
圖2 隨時(shí)間波動(dòng)的汽車月度銷售數(shù)據(jù)
2.2 在線口碑評(píng)論情感數(shù)據(jù)
本文使用的在線口碑評(píng)論數(shù)據(jù)源自于“汽車之家”口碑?dāng)?shù)據(jù)[18]。使用網(wǎng)絡(luò)爬蟲從汽車之家網(wǎng)站采集472 346條口碑評(píng)論,將評(píng)論文本過少的舍棄,共計(jì)有效口碑?dāng)?shù)據(jù)330 877條。
2.2.1 情感詞典構(gòu)造方法
情感詞典是本文口碑評(píng)論文本情感值計(jì)算的基礎(chǔ)。目前已經(jīng)有很多學(xué)者提出通用的情感詞典應(yīng)用于文本情感的分析,但汽車領(lǐng)域的情感詞典目前的研究還很少。汽車領(lǐng)域情感詞典構(gòu)造存在著諸多的困難:一是汽車領(lǐng)域?qū)I(yè)化程度高,涉及到大量的專業(yè)術(shù)語,如油耗高、加速快,這些文本的情感通用的情感詞典難以準(zhǔn)確描述;二是目前通用的情感詞典采用的語料內(nèi)容主要是傳統(tǒng)的詞典、字典以及正規(guī)的長文本內(nèi)容。汽車論壇的口碑?dāng)?shù)據(jù)全部由購車的網(wǎng)民發(fā)表,文本組織大多比較自由,沒有特定的行文規(guī)范。
為解決上述情感詞典構(gòu)造的難題,本文基于情感詞典構(gòu)造的一般思路[19],針對(duì)汽車之家口碑?dāng)?shù)據(jù)的特點(diǎn)提出基于點(diǎn)互信息(PMI)的情感詞典構(gòu)造方法,并對(duì)在線口碑評(píng)論情感分類和量化。本文使用的汽車之家網(wǎng)站1條完整的口碑?dāng)?shù)據(jù)如圖3所示。圖3共包含如下3類數(shù)據(jù):① 評(píng)分?jǐn)?shù)據(jù)(1~5分),如圖3中區(qū)域A所示;② 評(píng)論文本數(shù)據(jù),如圖3中區(qū)域B所示;③ 口碑發(fā)表時(shí)間數(shù)據(jù),如圖3中區(qū)域C所示。對(duì)于評(píng)論文本數(shù)據(jù),本文利用開源中文分詞工具HanLP[20]進(jìn)行詞匯切分并去除常見停用詞。
圖3 汽車之家網(wǎng)站1條完整的口碑?dāng)?shù)據(jù)
具體地,將8條評(píng)分項(xiàng)分別記為Gi,其中i∈(空間,動(dòng)力,操控,油耗,舒適性,外觀,內(nèi)飾,性價(jià)比),12條評(píng)論文本項(xiàng)分別記為Rj,其中j∈(最滿意的一點(diǎn),最不滿意的一點(diǎn),空間,動(dòng)力,操控,油耗,舒適性,外觀,內(nèi)飾,性價(jià)比,為什么最終選擇這款車,其他描述);口碑發(fā)表時(shí)間記為t。其中評(píng)分項(xiàng)中的每一個(gè)Gi,在評(píng)論文本項(xiàng)中都會(huì)有對(duì)應(yīng)的Ri。所有口碑?dāng)?shù)據(jù)的評(píng)分項(xiàng)分布情況如圖4所示。
圖4 所有評(píng)分項(xiàng)Gi得分分布情況
由圖4可以明顯得知網(wǎng)絡(luò)消費(fèi)者更加傾向于給出較高的評(píng)分。這也是合理的,因?yàn)槠囎鳛橐环N高介入商品,消費(fèi)者在購買前通常會(huì)深入了解相關(guān)信息并做出自己最滿意的決策,所以購車后的評(píng)價(jià)更多傾向于正面。因此本文認(rèn)為,當(dāng)消費(fèi)者對(duì)某項(xiàng)評(píng)價(jià)為1分或2分時(shí),表示消費(fèi)者對(duì)該項(xiàng)非常不滿意;而給出5分時(shí),則認(rèn)為消費(fèi)者對(duì)該項(xiàng)滿意。對(duì)于1條口碑?dāng)?shù)據(jù),若Gi≤2,則認(rèn)為Ri為負(fù)向的,屬于負(fù)向文檔集Dn;若Gi=5,則認(rèn)為Ri為正向的,屬于正向文檔集Dp;同時(shí)本文認(rèn)為R最不滿意的一點(diǎn)為負(fù)向的,屬于Dn;R最滿意的一點(diǎn)為正向的,屬于Dp。文檔中每個(gè)詞w的情感值Sw計(jì)算公式如下:
Sw(w)=P(w,pos)-P(w,neg)
(4)
其中,P為點(diǎn)互信息,即
(5)
其中,f(w,pos)為詞w在正向文檔集Dp中出現(xiàn)的頻次;f(w)為詞w在整體文檔集D(D=Dp+Dn)中總共出現(xiàn)的頻次;f(pos)為正向文檔的數(shù)量;N為整體文檔集中所有文檔的數(shù)量。同理可以計(jì)算P(w,neg)。由此,(4)式可以簡化為:
(6)
由于點(diǎn)互信息對(duì)于低頻次詞語估計(jì)效果較差,將正向文檔集和負(fù)向文檔集中出現(xiàn)頻次低于5的詞全部舍棄。
2.2.2 汽車品牌情感計(jì)算方法
根據(jù)2.2.1構(gòu)造的情感詞典對(duì)汽車品牌的口碑評(píng)論情感進(jìn)行量化。對(duì)每一篇口碑評(píng)論文本僅抽取情感詞典中包含的詞匯,則第k篇口碑評(píng)論文本情感值Srev(rk)的計(jì)算公式如下:
(7)
其中,Mk為第k篇口碑評(píng)論中共含有Mk個(gè)情感詞典中的詞,即口碑評(píng)論文本的情感值由該評(píng)論文本中所有情感詞的情感值累加得出。
由于口碑?dāng)?shù)據(jù)是針對(duì)具體車型,計(jì)算品牌情感值時(shí),該品牌下所有車型對(duì)應(yīng)的口碑?dāng)?shù)據(jù)均視為針對(duì)該品牌的口碑評(píng)論。則第t期品牌情感值ωt為:
(8)
其中,Kt為該汽車品牌下第t期用戶發(fā)表的所有口碑?dāng)?shù)據(jù)。即汽車品牌的情感值為該品牌下所有車型的口碑評(píng)論文本情感值累加得出。
3.1 實(shí)驗(yàn)流程
如前文所述,汽車銷量序列存在一定的季節(jié)性波動(dòng),因此銷量序列可能是非平穩(wěn)的。在目前的時(shí)間序列分析中,對(duì)于非平穩(wěn)的時(shí)序分析問題通常采用ARIMA模型模擬生成時(shí)間序列的隨機(jī)過程,因此本文將BOAR模型和ARIMA模型的預(yù)測(cè)效果進(jìn)行對(duì)比。本文主要實(shí)驗(yàn)流程如下:
(1) 構(gòu)造情感詞典,計(jì)算每條口碑的情感值。
(2) 計(jì)算上述10個(gè)品牌各月的口碑情感值。
(3) 利用ARIMA模型預(yù)測(cè)每個(gè)月的銷量。
(4) 利用BOAR模型預(yù)測(cè)每個(gè)月的銷量。
由于在汽車品牌認(rèn)可度比較穩(wěn)定的情況下,前一年的歷史同期銷量基本可以反映行業(yè)變化,假定r=1。另外,本文認(rèn)為1 a內(nèi)的前期銷量基本可以反映前期銷量對(duì)于銷量預(yù)測(cè)的影響,且用戶計(jì)劃購車時(shí)查看他人評(píng)論的時(shí)間與實(shí)際購車時(shí)間通常相差在1 a以內(nèi),所以共考察p=1,2,…,11,q=1,2,…,12時(shí)模型的預(yù)測(cè)效果。第t-12的前期銷量即為r=1時(shí)的歷史同期銷量,故不考察p=12。
(5) 分別計(jì)算2種模型的預(yù)測(cè)誤差。本文采用平均絕對(duì)百分誤差(mean absolute percentage error,MAPE)來衡量模型預(yù)測(cè)準(zhǔn)確率:
%
(9)
其中,n為總的預(yù)測(cè)期數(shù);Predi為第i期模型的預(yù)測(cè)值;Truei為真實(shí)值。從(9)式可看出,預(yù)測(cè)值與實(shí)際值越接近,MAPE值越低,即預(yù)測(cè)得越準(zhǔn)確。
由于涉及的口碑評(píng)論數(shù)據(jù)量較大,且多為非結(jié)構(gòu)化的文本內(nèi)容,本文采用Hadoop平臺(tái)的MapReduce編程實(shí)現(xiàn)數(shù)據(jù)的并行化計(jì)算,快速構(gòu)建汽車領(lǐng)域情感詞典并計(jì)算汽車品牌口碑情感值,有效地節(jié)省了時(shí)間資源,提高了計(jì)算效率。
3.2 實(shí)驗(yàn)結(jié)果與分析
3.2.1 情感詞典構(gòu)造結(jié)果
利用2.2.1節(jié)所述方法構(gòu)建情感詞典,詞典中共包含2 045個(gè)詞。情感詞典部分結(jié)果見表1、表2所列。
表1 情感詞典中情感值最小的10個(gè)詞
表2 情感詞典中情感值最大的10個(gè)詞
表1中最小的10個(gè)詞全部為負(fù)向詞,表2中最大的10個(gè)詞全部為正向詞。這也驗(yàn)證了這種情感詞典構(gòu)造方法的有效性。
3.2.2 預(yù)測(cè)效果分析
分別利用ARIMA模型和BOAR模型預(yù)測(cè)上述10個(gè)常見汽車品牌每個(gè)月的銷量。對(duì)于BOAR模型,考慮r=1,p=1,2,…,11,q=1,2,…,12時(shí)模型預(yù)測(cè)效果,使用網(wǎng)格搜索法(grid search)選擇每個(gè)汽車品牌最優(yōu)的參數(shù)組合,得到MAPE最小的參數(shù)組合,實(shí)驗(yàn)結(jié)果見表3所列。
從表3可以看出,考慮情感因素的BOAR模型預(yù)測(cè)精度更高,有效地降低了預(yù)測(cè)誤差。證明口碑情感因素在預(yù)測(cè)銷量問題中確實(shí)發(fā)揮了作用。其中,奇瑞汽車精度提高最大,達(dá)13.51%;大眾汽車預(yù)測(cè)精度提高最小,僅為0.63%。ARIMA模型平均預(yù)測(cè)誤差為12.17%,而BOAR模型平均預(yù)測(cè)誤差僅為5.93%,預(yù)測(cè)誤差減少了6.24個(gè)百分點(diǎn)。
表3 ARIMA模型及BOAR模型預(yù)測(cè)效果
通過對(duì)BOAR模型最優(yōu)的參數(shù)組合觀察發(fā)現(xiàn),不同品牌的BOAR模型最優(yōu)參數(shù)組合的q值取值大多集中在10附近。這說明口碑情感對(duì)銷量的影響滯后期約為10個(gè)月,即用戶計(jì)劃購車前查看他人評(píng)論的時(shí)間與實(shí)際購車時(shí)間通常相差在10個(gè)月以內(nèi),這與常識(shí)相符合。
3.2.3 參數(shù)穩(wěn)定性分析
在回歸分析的研究中,模型參數(shù)是否具有穩(wěn)定性對(duì)所建立的模型來說具有非常重要的意義。本文基于回歸分析對(duì)銷量預(yù)測(cè)建立BOAR模型,設(shè)BOAR模型的最優(yōu)參數(shù)組合為(r′,p′,q′),下面分別考察參數(shù)選取(r′,p′-1,q′)和(r′,p′+1,q′)以及(r′,p′,q′-1)和(r′,p′,q′+1)時(shí)模型的預(yù)測(cè)情況,結(jié)果如圖5、圖6所示。
結(jié)合圖5、圖6不難發(fā)現(xiàn),在參數(shù)p和q各自波動(dòng)±1時(shí),BOAR模型預(yù)測(cè)結(jié)果比較一致、穩(wěn)定,預(yù)測(cè)誤差MAPE值在正常范圍內(nèi)波動(dòng),沒有出現(xiàn)異常變化,這也進(jìn)一步驗(yàn)證了BOAR模型參數(shù)具有穩(wěn)定性。
圖5 (r′,p′-1,q′)和(r′,p′+1,q′)時(shí)模型預(yù)測(cè)結(jié)果圖6 (r′,p′,q′-1)和(r′,p′,q′+1)時(shí)模型預(yù)測(cè)結(jié)果
在現(xiàn)有研究的基礎(chǔ)上,本文利用在線評(píng)論數(shù)據(jù)和銷量數(shù)據(jù)探討了歷史銷量和品牌情感在汽車預(yù)測(cè)方面發(fā)揮的作用。綜合歷史同期銷量、前期銷量和品牌情感的汽車銷量預(yù)測(cè)模型平均預(yù)測(cè)誤差為5.93%,比ARIMA模型降低了6.24個(gè)百分點(diǎn),這也驗(yàn)證了歷史同期銷量和在線評(píng)論情感傾向在汽車銷量預(yù)測(cè)研究中具有重要作用。該模型可以為行業(yè)相關(guān)決策者提供可靠的銷量預(yù)測(cè)數(shù)據(jù),從而輔助制定生產(chǎn)、銷售和營銷計(jì)劃。
同時(shí),本文提出的預(yù)測(cè)模型對(duì)于銷量波動(dòng)大的時(shí)間點(diǎn)預(yù)測(cè)結(jié)果不甚理想。在時(shí)間序列相關(guān)預(yù)測(cè)問題研究中,神經(jīng)網(wǎng)絡(luò)、SVR等數(shù)據(jù)挖掘算法已得到了廣泛應(yīng)用[21-22],在后續(xù)工作中擬采用BP神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘算法,考慮更多的影響因素,如消費(fèi)者搜索行為數(shù)據(jù)、汽車廠商廣告投放數(shù)據(jù)等,以進(jìn)一步降低預(yù)測(cè)的誤差。
[1] 中國汽車工業(yè)協(xié)會(huì).中國汽車工業(yè)發(fā)展年度報(bào)告(2016)[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2016.
[2] CHEN D.Chinese automobile demand prediction based on ARIMA model[C]//International Conference on Biomedical Engineering and Informatics,BMEI 2011,Shanghai,China.[S.l.:s.n.], 2011:2197-2201.
[3] SHAHABUDDIN S.Forecasting automobile sales[J].Management Research News,1978,32(32):670-682.
[5] YU X,LIU Y,HUANG X,et al.Mining online reviews for predicting sales performance: a case study in the movie domain[J].IEEE Transactions on Knowledge & Data Engineering,2010,24(4):720-734.
[6] 李雪妮,張紹武,楊亮,等.ARES:用于預(yù)測(cè)的情感感知自回歸模型[J].計(jì)算機(jī)研究與發(fā)展,2013,50(8):1722-1727.
[7] SHUMWAY R H,STOFFER D S.Time series analysis and Its applications[J].Springer Texts in Statistics,2009,102(479):1079-1079.
[8] XIONG L,CHEN X,HUANG T K,et al.Temporal collaborative filtering with bayesian probabilistic tensor factorization[C]//Siam International Conference on Data Mining,SDM 2010,April 29-May 1,2010,Columbus,Ohio,USA.[S.l.:s.n.],2010:211-222.
[9] 王旭天,李政遠(yuǎn),舒慧生.基于SARIMA的我國汽車銷量預(yù)測(cè)分析[J].中國市場(chǎng),2016(1):71-74.
[10] 張金偉,劉曉平.基于心理預(yù)警模型的微博情感識(shí)別研究[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,36(11):1318-1322.
[11] 何建民,劉明星.面向特定主題的客戶抱怨文本分類識(shí)別方法[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,33(12):1884-1888.
[12] CHOI H,VARIAN H.Predicting the present with google trends[J].Economic Record,2009,88(S1):2-9.
[13] WU L,LIN C Y,ARAL S,et al.Value of social network-a large-scale analysis on network structure impact to financial revenue of information technology consultants [C]//The Winter Conference on Business Intelligence.[S.l.:s.n.],2009:1-25.
[14] GEVA T,OESTREICHER-SINGER G,EFRON N,et al.Using forum and search data for sales prediction of high-involvement products[J].MIS Quarterly,2017,41(1):A1-A4.
[15] AHN H I,SPANGLER W S.Sales prediction with social media analysis[C]//Srii Global Conference.Washington,D.C.:IEEE Computer Society,2014:213-222.
[16] DELLAROCAS C,ZHANG X,AWAD N F.Exploring the value of online product reviews in forecasting sales: The case of motion pictures[J].Journal of Interactive Marketing,2007,21(4):23-45.
[17] 汽車工業(yè)協(xié)會(huì).搜狐汽車銷量[EB/OL].[2016-09-10].http://db.auto.sohu.com/carsales/.
[18] 汽車之家.汽車之家口碑頻道[EB/OL].[2016-09-10].http://k.autohome.com.cn/#pvareaid=103420.
[19] KIRITCHENKO S,ZHU X,MOHAMMAD S M.Sentiment analysis of short informal text[J].Journal of Artificial Intelligence Research,2014,50:723-762.
[20] 上海林原信息科技有限公司.HanLP[EB/OL].[2016-09-10].http://hanlp.linrunsoft.com/.
[21] 姜平,石琴,陳無畏,等.基于Elman型回歸神經(jīng)網(wǎng)絡(luò)的公交客流預(yù)測(cè)[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,31(3):340-342.
[22] 陳榮,梁昌勇,謝福偉.基于SVR的非線性時(shí)間序列預(yù)測(cè)方法應(yīng)用綜述[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,36(3):369-374.
Anautomobilesalespredictionmodelincorporatingbrandopinion
LIU Yezheng1,2, ZHANG Xu1,2, WANG Jinkun1,2
(1.School of Management, Hefei University of Technology, Hefei 230009, China; 2.Key Laboratory of Process Optimization and Intelligent Decision Making of Ministry of Education, Hefei University of Technology, Hefei 230009, China)
Existing researches on automobile sales prediction mainly focus on the whole automobile market instead of one particular brand. Moreover, current researches fail to effectively use the online reviews for the automobile, resulting in the low accuracy of sales prediction due to the discard of the influence of word-of-mouth on purchase intention. To address these issues, an improved brand opinion aware autoregressive model(BOAR) is introduced to predict each specific automobile. The proposed model considers historical sales within various time windows, and incorporates users’ opinion for the certain automobile mining from online reviews to predict the sales of that brand. Results of empirical studies show that this model can accurately predict the sales for an individual automobile brand with better stability. This can provide effective decision support for the production planning and control of manufacturers.
automobile sales prediction; time series analysis; online reviews sentiment analysis; autoregressive model
2016-12-08;
2017-02-20
國家自然科學(xué)基金資助項(xiàng)目(71490725;71371062;91546114)
劉業(yè)政(1965-),男,安徽合肥人,博士,合肥工業(yè)大學(xué)教授,博士生導(dǎo)師;
章 旭(1992-),男,安徽六安人,合肥工業(yè)大學(xué)碩士生,通訊作者,E-mail:zhangxu@mail.hfut.edu.cn.
10.3969/j.issn.1003-5060.2017.09.024
C931.6
A
1003-5060(2017)09-1276-07
(責(zé)任編輯 張 镅)