王爾東
隨著社會(huì)經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,牛奶及其相關(guān)產(chǎn)品已經(jīng)成為人們?nèi)粘I钪匾囊画h(huán)。從一個(gè)角度來(lái)說(shuō),社會(huì)需求量的上升導(dǎo)致了奶價(jià)上升,缺乏科學(xué)客觀的牛奶產(chǎn)量預(yù)測(cè)會(huì)對(duì)人民生活產(chǎn)生影響;從另一個(gè)角度來(lái)說(shuō),牛奶產(chǎn)量是奶業(yè)的基石,對(duì)牛奶產(chǎn)量的科學(xué)預(yù)測(cè)對(duì)生產(chǎn)者具有十分重要的現(xiàn)實(shí)意義。通過(guò)對(duì)牛奶產(chǎn)量的預(yù)測(cè),不僅可以探索其發(fā)展變化的規(guī)律,而且能為奶業(yè)的生產(chǎn)制造者提供有意義的指導(dǎo),從而進(jìn)行合理的牛奶生產(chǎn),避免浪費(fèi),提高經(jīng)濟(jì)效益的同時(shí)進(jìn)一步為社會(huì)提供正確的消費(fèi)導(dǎo)向,促進(jìn)奶業(yè)與消費(fèi)者之間的良性循環(huán)。
關(guān)于月度牛奶產(chǎn)量這樣的時(shí)間序列數(shù)據(jù),在文獻(xiàn)調(diào)研中并沒(méi)有發(fā)現(xiàn)相關(guān)研究。但是,對(duì)于年度、季度牛奶產(chǎn)量的數(shù)據(jù)卻有所涉及。文獻(xiàn)[1]應(yīng)用灰色模型(gray model,GM)GM(1,1)對(duì)新疆牛奶產(chǎn)量發(fā)展進(jìn)行預(yù)測(cè),結(jié)果表明該模型有較高的可靠性和實(shí)用性,能夠?qū)π陆哪虡I(yè)發(fā)展能夠起到一定的導(dǎo)向作用。文獻(xiàn)[2]應(yīng)用ARIMA(Autoregressive Integrated Moving Average Model,ARIMA)模型對(duì)河北省的牛奶產(chǎn)量進(jìn)行預(yù)測(cè),結(jié)果表明該模型具有良好的預(yù)測(cè)效果和應(yīng)用價(jià)值,可以對(duì)河北省牛奶產(chǎn)品進(jìn)行合理并準(zhǔn)確的分析。文獻(xiàn)[3]應(yīng)用多元線性回歸模型(multivariable linear regression model,MR)對(duì)短時(shí)交通流量進(jìn)行預(yù)測(cè),結(jié)果表明該模型預(yù)測(cè)精度良好。文獻(xiàn)[4]應(yīng)用貝葉斯網(wǎng)絡(luò)對(duì)牛奶產(chǎn)量進(jìn)行預(yù)測(cè),結(jié)果表明該模型在理論上具有嚴(yán)格性與統(tǒng)一性,能有效直觀地進(jìn)行預(yù)測(cè)。文獻(xiàn)[5]應(yīng)用MR對(duì)成品油價(jià)格進(jìn)行了預(yù)測(cè),結(jié)果表明多元線性回歸模型達(dá)到了較好的效果。
多元線性回歸在與預(yù)測(cè)相關(guān)的研究中有廣泛的應(yīng)用。多元線性回歸模型根據(jù)歷史的樣本數(shù)據(jù),建立多元線性回歸的預(yù)測(cè)模型,從而預(yù)測(cè)未來(lái)時(shí)刻多元線性回歸模型中的回歸參數(shù)。通過(guò)一些的模型精度評(píng)估指標(biāo).對(duì)多元線性回歸模型參數(shù)的預(yù)測(cè)進(jìn)行評(píng)測(cè),選擇最優(yōu)的預(yù)測(cè)模型,從而表明這個(gè)模型可以用于分析和預(yù)測(cè)因變量對(duì)自變量的回歸關(guān)系問(wèn)題。
多元線性回歸利用以下的原理進(jìn)行計(jì)算:假設(shè)自變量與因變量之間存在著線性關(guān)系,用一定的線性回歸模型來(lái)擬合自變量與因變量之間的關(guān)系,并通過(guò)確定模型參數(shù)來(lái)得到回歸方程。然后,可以通過(guò)此回歸方程來(lái)分析變量之間的相關(guān)關(guān)系,進(jìn)而能夠檢驗(yàn)、分析各個(gè)自變量對(duì)因變量的線性影響。多元線性回歸模型在時(shí)間序列預(yù)測(cè)中的應(yīng)用可以表示為公式(1),這里Yt是因變量的預(yù)測(cè)值,是通常應(yīng)用最小二乘法確定的回歸系數(shù),是回歸方程的常數(shù)項(xiàng),是自變量,e代表誤差。
公式(1)表明它表明被解釋變量Yt的變化由兩部分進(jìn)行解釋。第一,由t個(gè)解釋變量Y的變化引起的Yt的線性變化部分;第二,由其他隨機(jī)因素引起的Y的變化部分,e為隨機(jī)誤差;a0是回歸方程的常數(shù)項(xiàng);是回歸系數(shù);t=1,2,…,n,以上隨機(jī)因素引起的變化。
本文的整體研究框架大致分為以下幾個(gè)步驟:首先進(jìn)入https://datamarket.com/data網(wǎng)站搜集某地1962年1月至1975年12月的牛奶產(chǎn)量數(shù)據(jù)并整理成“.csv”格式的數(shù)據(jù)文件,再將數(shù)據(jù)進(jìn)行預(yù)處理(時(shí)間序列化)。接下來(lái)將數(shù)據(jù)文件導(dǎo)入R語(yǔ)言環(huán)境,并進(jìn)行模型參數(shù)設(shè)置,將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集后,使用rminer程序包中的MR模型進(jìn)行預(yù)測(cè),計(jì)算預(yù)測(cè)精度,最后調(diào)整參數(shù),選擇最高預(yù)測(cè)精度的模型,驗(yàn)證模型的準(zhǔn)確性。
整個(gè)預(yù)測(cè)過(guò)程的實(shí)現(xiàn)程序如算法1所示。首先導(dǎo)入“rmin-er”的程序包,然后將月度牛奶產(chǎn)量數(shù)據(jù)通過(guò)“read.csv("數(shù)據(jù)文件路徑名稱(chēng)",header=TRUE)”函數(shù)讀取進(jìn)來(lái),并保存到“tab”這個(gè)變量中;之后將tab中的“每月產(chǎn)量”這一列數(shù)據(jù)通過(guò)代碼da=tab$production將其提取出來(lái),并對(duì)其進(jìn)行時(shí)間序列化。然后設(shè)置模型參數(shù),通過(guò)代碼“window=12”調(diào)整窗口長(zhǎng)度為12,通過(guò)代碼“H=12”調(diào)整測(cè)試集大小為12;接著通過(guò)代碼“L=length(a)”計(jì)算數(shù)據(jù)長(zhǎng)度;最后再設(shè)置測(cè)試集;下一步通過(guò)代碼“d=CasesSeries(a,c(1:window)”將所有數(shù)據(jù)轉(zhuǎn)化為矩陣d,再通過(guò)代碼“LD=nrow(d)”計(jì)算其行數(shù),最后通過(guò)代碼“dtr=1:(LD-H)”設(shè)置訓(xùn)練集的行數(shù),參數(shù)調(diào)整完成。接著使用fit()函數(shù)建立多元線性回歸模型,同時(shí)運(yùn)用lforecast函數(shù)建立預(yù)測(cè)模型并保存至變量pred中,再建立變量r表示預(yù)測(cè)值與測(cè)試集在RMSE運(yùn)算后的誤差并做出圖像,最后顯示出預(yù)測(cè)值與測(cè)試集分別在RMSE和MAE度量標(biāo)準(zhǔn)下的誤差值。
本實(shí)驗(yàn)的步驟與代碼設(shè)計(jì)如表1所示:
表1 實(shí)驗(yàn)步驟與代碼設(shè)計(jì)
本實(shí)驗(yàn)采用的是美國(guó)某地1962年1月至1975年12月的月度牛奶產(chǎn)量,共158個(gè)數(shù)據(jù)點(diǎn),由Time Serious Data Library提供。本實(shí)驗(yàn)的數(shù)據(jù)整體呈波動(dòng)上升趨勢(shì)。
本實(shí)驗(yàn)的程序編寫(xiě)語(yǔ)言與操作環(huán)境是R,R用于統(tǒng)計(jì)分析、繪圖的語(yǔ)言和操作環(huán)境,是一個(gè)自由、免費(fèi)、源代碼開(kāi)放的軟件。本實(shí)驗(yàn)使用了rminer程序包,提供用戶可視化的角色挖掘和角色狀態(tài)更新平臺(tái)。
本實(shí)驗(yàn)運(yùn)用了RMSE與MAE兩種度量標(biāo)準(zhǔn),
其中yt為預(yù)測(cè)值,ft為真實(shí)值,T為測(cè)試點(diǎn)個(gè)數(shù)。
本實(shí)驗(yàn)根據(jù)參數(shù)中的窗口長(zhǎng)度window作為變量,通過(guò)等距調(diào)整window的值記錄,因變量預(yù)測(cè)精度,得到的實(shí)驗(yàn)設(shè)計(jì)結(jié)果。由實(shí)驗(yàn)得出的圖表可以得出以下結(jié)論與分析:
(1)總體來(lái)說(shuō),多元回歸模型對(duì)于月度牛奶產(chǎn)量的預(yù)測(cè)是十分優(yōu)秀的,能夠成功得出對(duì)未來(lái)牛奶產(chǎn)量的科學(xué)預(yù)測(cè)。
(2)預(yù)測(cè)精度在參數(shù)window的變化下逐漸趨于穩(wěn)定。預(yù)測(cè)的誤差在window值取2至10是快速下降,并且預(yù)測(cè)精度急劇升高,預(yù)測(cè)性能越來(lái)越好。
(3)在window值取8時(shí),預(yù)測(cè)精度最高;隨著window值的升高,圖像始終在實(shí)際數(shù)據(jù)上下波動(dòng),且波動(dòng)幅度較小。
表2 MR模型對(duì)該地1975年1月至12月月度牛奶產(chǎn)量預(yù)測(cè)的實(shí)驗(yàn)結(jié)果
本文運(yùn)用多元線性回歸模型,從1962年1月至1974年12月月度牛奶產(chǎn)量的數(shù)據(jù)出發(fā),通過(guò)數(shù)據(jù)時(shí)間序列化和建模預(yù)測(cè),成功對(duì)1975年1月至12月月度牛奶產(chǎn)量進(jìn)行了科學(xué)的預(yù)測(cè)。并且通過(guò)均方根誤差(RMSE)與平均絕對(duì)值誤差(MAE),計(jì)算了不同窗口長(zhǎng)度下多元線性回歸模型的預(yù)測(cè)精度。其中,窗口長(zhǎng)度為8的模型誤差值更小,預(yù)測(cè)精度更高。