顧洪建 張帆 萬(wàn)甜甜 張衡
摘 要:為了在“互聯(lián)網(wǎng)+大數(shù)據(jù)+人工智能+區(qū)塊鏈+物聯(lián)網(wǎng)”高度信息化的社會(huì)精準(zhǔn)預(yù)測(cè)汽車銷量,本文首先利用詞圖、維特比等算法對(duì)汽車評(píng)價(jià)內(nèi)容進(jìn)行分詞操作來(lái)獲取關(guān)鍵詞語(yǔ);其次利用樸素貝葉斯分類器的方法對(duì)分詞的結(jié)果進(jìn)行計(jì)算,獲得每條評(píng)論內(nèi)容的情感指數(shù);再次利用Norton模型的三代產(chǎn)品模型結(jié)合情感指數(shù)來(lái)組成擬合模型,同時(shí)利用最小二乘原理估計(jì)擬合模型的參數(shù);最后利用估計(jì)的參數(shù)結(jié)合某款汽車的評(píng)論數(shù)據(jù)以及每個(gè)季度的汽車銷量來(lái)驗(yàn)證模型,驗(yàn)證結(jié)果的準(zhǔn)確性高達(dá)91.29%?;诖四P?,企業(yè)可進(jìn)行車型的銷量預(yù)測(cè),為合理規(guī)劃生產(chǎn)和戰(zhàn)略布局提供參考和依據(jù)。
關(guān)鍵詞:詞圖 維特比 情感指數(shù) 樸素貝葉斯 Norton模型 最小二乘法
Sentiment Classifier Combined With Norton Model to Predict Car Sales
Gu Hongjian,Zhang Fan,Wan Tiantian,Zhang Heng
Abstract:In order to accurately predict the sales of cars in a highly informatized society of "Internet + Big Data + Artificial Intelligence + Blockchain + Internet of Things", this article first uses word graphs, Viterbi and other algorithms to segment the car evaluation content to obtain the keywords; secondly, the article uses the naive Bayes classifier method to calculate the result of word segmentation to obtain the sentiment index of each review content; thirdly the article uses the three-generation product model of the Norton model combined with the sentiment index to form a fitting model, while the principle of the square method is used to estimate the fifteen parameters of the fitting model; finally, the estimated parameters are combined with the review data of a certain car and the car sales of each quarter to verify the model; the accuracy of the verification results is as high as 91.29%. This model can basically meet the actual forecasting needs, and can provide reference and basis for the reasonable production planning of the enterprise.
Key words:word graph, Viterbi, sentiment index, naive Bayes, Norton model, least square method
1 引言
一直以來(lái)汽車都是我國(guó)國(guó)民經(jīng)濟(jì)重要的支柱產(chǎn)業(yè),改革開(kāi)放以來(lái),我國(guó)汽車產(chǎn)業(yè)快速發(fā)展,技術(shù)水平穩(wěn)步增強(qiáng),現(xiàn)已成為世界較大的汽車市場(chǎng)。精準(zhǔn)的預(yù)測(cè)汽車銷量不但可以為汽車產(chǎn)業(yè)的營(yíng)銷提供有力支撐,而且還有利于管理、生產(chǎn)、采購(gòu)、物流等計(jì)劃流程的優(yōu)化。此外,銷量預(yù)測(cè)還可以在一定程度上為車企獲得健康持續(xù)發(fā)展的源動(dòng)力提供保證。從今年市場(chǎng)表現(xiàn)來(lái)看,在疫情最嚴(yán)重的2月,我國(guó)汽車行業(yè)的生產(chǎn)和銷售基本處于停滯狀態(tài),成為拉低全國(guó)經(jīng)濟(jì)指標(biāo)的最主要因素。我國(guó)工業(yè)增長(zhǎng)值同比增長(zhǎng)速度和汽車同比增速及日均產(chǎn)量,均受疫情影響出現(xiàn)斷崖式的波動(dòng),因此精準(zhǔn)預(yù)測(cè)汽車銷量對(duì)國(guó)民經(jīng)濟(jì)健康有序發(fā)展具有一定的推動(dòng),對(duì)十四五規(guī)劃起到?jīng)Q定性作用[1-2]。
當(dāng)下,人們以帖子、論觀點(diǎn)等形式表達(dá)和分享對(duì)各種主題的看法。這些評(píng)論和看法通常會(huì)透露出個(gè)人情感,例如幸福、憤怒、悲傷、批評(píng)和稱贊,并且潛在的消費(fèi)者可以瀏覽產(chǎn)品的公眾意見(jiàn),從而做出購(gòu)買決定。在過(guò)去近十年里,網(wǎng)站評(píng)論內(nèi)容傳達(dá)的情感已經(jīng)通過(guò)情感分析技術(shù)轉(zhuǎn)化為正向評(píng)價(jià)(正向情感)和負(fù)向評(píng)價(jià)(負(fù)向情感)的二分類問(wèn)題,進(jìn)一步帶動(dòng)了自然語(yǔ)言處理的發(fā)展與進(jìn)步[3]。
Norton模型的誕生是以Bass模型為基礎(chǔ),但是Norton模型更符合當(dāng)前的市場(chǎng),因?yàn)楫?dāng)新一代產(chǎn)品出生之后,老一代產(chǎn)品并不會(huì)立刻消失、消亡,它會(huì)和新產(chǎn)品共存一段時(shí)間,新一代產(chǎn)品的影響力是一個(gè)逐漸向四周擴(kuò)散的過(guò)程。同時(shí)新一代產(chǎn)品的影響力影響力獲得包括兩個(gè)方面:一方面是從上代產(chǎn)品的影響力轉(zhuǎn)移過(guò)來(lái),另一個(gè)方面是由于新產(chǎn)品本身的先進(jìn)性而新創(chuàng)造的市場(chǎng)影響力。汽車產(chǎn)品的更新迭代非常符合這種趨勢(shì),因此本文采用一種“情感分類器結(jié)合Norton模型預(yù)測(cè)汽車銷量”的方法來(lái)預(yù)測(cè)短時(shí)間內(nèi)的汽車銷量。
2 研究路線
本文研究?jī)?nèi)容主要分為四個(gè)部分,第一部分是數(shù)據(jù)的采集以及數(shù)據(jù)的預(yù)處理;第二部分是利用機(jī)器學(xué)習(xí)方法對(duì)線上評(píng)論的數(shù)據(jù)進(jìn)行情感分類(積極因素和消極因素);第三部分利用情感分類的結(jié)果結(jié)合Norton模型擬合新的模型;第四部分利用擬合后的模型對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)及分析,本文具體的結(jié)構(gòu)圖如下圖1所示。
2.1 數(shù)據(jù)采集及預(yù)處理
2.1.1 數(shù)據(jù)采集
數(shù)據(jù)采集收集了兩種類型的數(shù)據(jù),即評(píng)論數(shù)據(jù)和產(chǎn)品的歷史銷售數(shù)據(jù)。銷量數(shù)據(jù)可以在各個(gè)產(chǎn)品的官方網(wǎng)站或者國(guó)家統(tǒng)計(jì)局上面獲取。
2.1.2 分詞處理
對(duì)評(píng)論內(nèi)容的分詞采用的方法是基于python語(yǔ)言結(jié)合詞圖、節(jié)點(diǎn)之間距離以及維特比算法來(lái)進(jìn)行分詞,分詞結(jié)果如下表1所示。
2.1.3 篩選關(guān)鍵詞語(yǔ)的頻數(shù)
經(jīng)過(guò)2.1.2小節(jié)分詞后,會(huì)存在很多無(wú)意義的詞存在,比如“的”、“呀”、“很”等詞語(yǔ),然后對(duì)其余詞語(yǔ)進(jìn)行詞頻統(tǒng)計(jì),比如“我很喜歡這個(gè)車型,對(duì)里面的配置也很喜歡,開(kāi)著它會(huì)讓我感到很快樂(lè)和高興,它是我的兄弟以及好朋友,我建議大家都可以來(lái)購(gòu)買這個(gè)很不錯(cuò)的車”這句話經(jīng)過(guò)分詞處理以及剔除無(wú)意的詞語(yǔ),最后得到的關(guān)鍵詞語(yǔ)詞頻如下圖2所示[3-5]。
2.1.4 確定情感詞語(yǔ)詞庫(kù)
要計(jì)算評(píng)論內(nèi)容的情感分類要使用情感詞典,本文在眾多情感詞典中選用更具權(quán)威性的CNKI,即2007年10月22日知網(wǎng)發(fā)布“情感分析用詞語(yǔ)集(beta版)”的情感詞典,在本文中情感類別主要分為兩類(正面評(píng)價(jià)和負(fù)面評(píng)價(jià))。
2.2 情感分類
在情感分類器中,選擇樸素貝葉斯作為情感分類器,樸素貝葉斯是一種概率型分類器,對(duì)一個(gè)評(píng)論內(nèi)容來(lái)說(shuō),貝葉斯分類器會(huì)返回給后驗(yàn)概率最大的情感類別,情感類別用表示,即C+和C-分別表示正面評(píng)價(jià)的類別和負(fù)面評(píng)價(jià)的類別。根據(jù)樸素貝葉斯原理,可以用如下公式計(jì)算每條口碑的情感類別[3-5],如下公式(1)所示。
(1)
如果有k條評(píng)論,那么公式(1)可以改為公式(2)。
(2)
假設(shè)通過(guò)每個(gè)時(shí)間段t需要計(jì)算評(píng)論情感,那么情感指數(shù)Q(t)由下式(3)計(jì)算:
(3)
其中,m為t時(shí)間段評(píng)論的次數(shù),qtm經(jīng)過(guò)樸素貝葉斯公式得到,sgn為二值化函數(shù),如果c為-1,sgn(c)=-1;如果c為1,sgn(c)=1;Q(t)為計(jì)算后的情感指數(shù)。
2.3 擬合模型
擬合模型指的是利用2.2小節(jié)計(jì)算的情感指數(shù)結(jié)合Norton模型,利用最小二乘法估計(jì)的參數(shù)擬合模型,使得這組參數(shù)保證擬合的結(jié)果與實(shí)際結(jié)果的差值最小。
2.3.1 模型原理介紹
Norton模型是以Bass模型為基礎(chǔ)拓展起來(lái)的,Bass模型假定潛在的消費(fèi)者可以分為兩類,即創(chuàng)新者和模仿者,并且Bass模型的一般形式如下:Bass模型一般形式如下式(4)所示:
(4)
其中,s(t)為時(shí)間段t結(jié)束時(shí)前消費(fèi)者的數(shù)量,m是潛在購(gòu)買量的總數(shù), p表示創(chuàng)新群體系數(shù)(且0<=p<=1),q表示模仿群體系數(shù)(且0<=q<=1),公式(4)可以看出,知道了m、p、q的值,就可以預(yù)測(cè)t+1時(shí)間段內(nèi)消費(fèi)者的數(shù)量,因?yàn)閟(t)不是產(chǎn)品的銷售量,但是可以根據(jù)消費(fèi)者利用的頻率間接估算產(chǎn)品的銷售量,在現(xiàn)實(shí)生活中汽車是耐用消費(fèi)品,因此此內(nèi)容提取的情感時(shí)費(fèi)者的數(shù)量可以視為產(chǎn)品銷售量[6-9]。
評(píng)論區(qū)指數(shù)可被可被用來(lái)表示消費(fèi)者對(duì)該產(chǎn)品的個(gè)人偏好。如果該產(chǎn)品獲得消費(fèi)者更多贊譽(yù)與肯定(正面評(píng)價(jià)),并且這種積極的肯定將影響潛在的消費(fèi)者積極購(gòu)買該產(chǎn)品;同樣如果該產(chǎn)品獲得了消費(fèi)者的更多批評(píng)與否定(負(fù)面評(píng)價(jià)),并且這種消極的否定也會(huì)影響潛在的消費(fèi)者放棄購(gòu)買該產(chǎn)品,轉(zhuǎn)向其他的競(jìng)品產(chǎn)品;因此模仿群體的購(gòu)買決策時(shí)間會(huì)受到社會(huì)系統(tǒng)成員之間的相互影響。
基于上面分析可知模仿群體系數(shù)q與消費(fèi)者對(duì)該產(chǎn)品的情感指數(shù)有關(guān),因此模仿群體系數(shù)q可以看作是感指數(shù)Q(t)的函數(shù),如下公式(5)所示。
q=f(Q(t)) (5)
Verhulst于1983年根據(jù)WOM理論提出來(lái)的模仿群體系數(shù)q與情感指數(shù)Q(t)呈現(xiàn)S型曲線,當(dāng)情感指數(shù)Q(t)為正向評(píng)價(jià)時(shí),q的值隨著Q(t)的增加而增大,并且 q的二階導(dǎo)數(shù)隨著Q(t)的增加先增加后減少;當(dāng)情感指數(shù)Q(t)為負(fù)向評(píng)價(jià)時(shí),q的值隨著Q(t)的增加而減小,并且q的二階導(dǎo)數(shù)隨著Q(t)的增加先增加后減少。
2.3.2 模型參數(shù)求解
2.3.1小節(jié)介紹了Norton模型的原理以及參數(shù),本小節(jié)將介紹普通最小二乘法求解模型的參數(shù),因?yàn)镹orton模型是三代產(chǎn)品模型。普通最小二乘法(OLS)是回歸模型最根本的一個(gè)模型,并且它是一種數(shù)學(xué)優(yōu)化模型,最小二乘法模型可以估計(jì)參數(shù),從而簡(jiǎn)單地求得該產(chǎn)品的銷量,并使得求出來(lái)的銷量與實(shí)際銷量之間誤差的平方和為最小,也就是所有觀測(cè)值到回歸模型之間的距離平方和最小。
2.4 預(yù)測(cè)分析
2.4.1 模型求解
汽車作為耐用消費(fèi)產(chǎn)品,以此為例來(lái)說(shuō)明此模型更具有魯棒性。網(wǎng)站收集了名稱為X的汽車產(chǎn)品量,該汽車產(chǎn)品共有三代。中將這三代產(chǎn)品命名為A產(chǎn)品,A+產(chǎn)品和A++產(chǎn)品。下圖3給出了X汽車產(chǎn)品3代的每個(gè)季度銷量的示意圖。
利用表4X汽車產(chǎn)品每個(gè)季度的銷量以及評(píng)論數(shù)據(jù),帶入到以上小節(jié)的公式中,經(jīng)過(guò)多次利用最小二乘法計(jì)算模型的參數(shù)。
2.4.2 預(yù)測(cè)結(jié)果分析
利用表5的參數(shù)以及模型,可以預(yù)測(cè)出X汽車產(chǎn)品第3代(A++產(chǎn)品)后五個(gè)季度的汽車銷量,然后該預(yù)測(cè)數(shù)據(jù)與實(shí)際數(shù)據(jù)相比較獲得模型的準(zhǔn)確度。X汽車產(chǎn)品第3代(A++產(chǎn)品)預(yù)測(cè)銷量的誤差占實(shí)際銷量比例如圖4所示。
利用此模型預(yù)測(cè)的X汽車產(chǎn)品第3代(A++產(chǎn)品)的以后五個(gè)季度的汽車銷量的誤差都在8%-10%之內(nèi),五個(gè)季度的平均誤差為8.71%,基本可以給企業(yè)提出一些生產(chǎn)的建議,使企業(yè)在投入最小的資本獲得更大的利潤(rùn),同時(shí)帶動(dòng)汽車產(chǎn)業(yè)進(jìn)一步發(fā)展。
3 結(jié)語(yǔ)
本文基于樸素貝葉斯情感分類器結(jié)合Norton模型對(duì)某款型號(hào)汽車的三代產(chǎn)品進(jìn)行分析,預(yù)測(cè)的結(jié)果平均誤差大約為8.71%,具有一定的指導(dǎo)作用。為了提高準(zhǔn)確率,文本可以進(jìn)一步擴(kuò)大數(shù)據(jù)源,把抖音等數(shù)據(jù)結(jié)合起來(lái)計(jì)算;還可以提取線性支持向量機(jī)(SVM)情感分類器結(jié)合Norton模型預(yù)測(cè)銷量;并且采用深度學(xué)習(xí)技術(shù)求解模型參數(shù),使得求解參數(shù)更加準(zhǔn)確,預(yù)測(cè)結(jié)果更加符合實(shí)際。
參考文獻(xiàn):
[1]D.Fantazzini and Z.Toktamysova, “Forecasting German car sales using Google data and multivariate models,”International Journal of Production Economics,vol.170,pp. 97-135,2015,http://dx.doi.org/10.1016/j.ijpe.2015.09.010.
[2]E.Cambria,Affective computing and sentiment analysis,IEEE Intell. Syst. 31(2)(2016)102-107.
[3]梁柯,李健,陳穎雪,劉志鋼.基于樸素貝葉斯的文本情感分類及實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2019,9(05):150-153+157. LIANG K,LI J,CHEN Y X,LIU Z.Text sentiment classification and realization based on Naive Bayes[J]. Intelligent Computers and Applications,2019,9(05):150-153+157.
[4]李丹陽(yáng).面向中文評(píng)論的情感分析方法研究[D].西安工業(yè)大學(xué),2019.LI D Y. Research on sentiment analysis methods for Chinese comments [D].Xi'an Technological University,2019.
[5]葛霓琳.基于詞典和機(jī)器學(xué)習(xí)的酒店評(píng)論情感分析[D].江蘇科技大學(xué),2019. GE N L. Sentiment analysis of hotel reviews based on dictionary and machine learning [D]. Jiangsu University of Science and Technology,2019.
[6]Zhi-Ping Fan,Yu-Jie Che,Zhen-Yu Chen. Product sales forecasting using online reviews and historical sales data:A method combining the Bass model and sentiment analysis[J]. Journal of Business Research,2017,74.
[7]https://baike.sogou.com/v200960.htm?fromTitle=%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95.
[8]劉丹丹,周躍進(jìn).基于偏最小二乘法結(jié)構(gòu)方程模型的江蘇外資高質(zhì)量評(píng)價(jià)研究[J].江蘇商論,2020(08):41-45+58. LIU D D, ZHOU Y J. Research on the high-quality evaluation of Jiangsu foreign capital based on partial least squares structural equation model[J]. Jiangsu Commercial Theory,2020(08):41-45+58.
[9]張妤,鄧廷勇,夏冰.基于LS-SVM的中文文本情感分類[J].科學(xué)技術(shù)創(chuàng)新,2019(26):56-57. ZHANG Y,DENG T Y,XIA B. Chinese text sentiment classification based on LS-SVM[J].Science and Technology Innovation,2019(26):56-57.