肖香梅,林志興,余 建
(三明學院 網(wǎng)絡(luò)中心(信息化建設(shè)辦公室),福建 三明 365004)
隨著高校信息化的發(fā)展,為及時解決師生報修訴求,后勤報修系統(tǒng)應運而生。通過對報修數(shù)據(jù)進行分析,預測報修量發(fā)生的高峰期,能夠精準地為高校維修零件采購、人員安排等提供決策,提高高校的管理服務水平,具有重要的現(xiàn)實意義。
目前一些學者也對故障報修數(shù)據(jù)進行了相關(guān)研究,孫芳[1]利用決策樹算法對網(wǎng)絡(luò)故障報修數(shù)據(jù)進行挖掘和分析,實現(xiàn)了對故障原因和故障類別的分類挖掘。張明杰等[2]從統(tǒng)計學角度出發(fā),分類別建模,對電力客戶服務報修業(yè)務量進行預測分析。蔡冬陽等[3]運用多元線性回歸方法,構(gòu)建故障報修受理數(shù)量分時段預測模型。鄒墨[4]對故障報修工單進行大數(shù)據(jù)挖掘,重點分析數(shù)據(jù)之間的聯(lián)系,找到報修過程中的薄弱環(huán)節(jié),對故障報修進行精細化管理。但他們的研究更多的是從靜態(tài)的方法進行分析,未考慮到時間的相關(guān)度,無法從動態(tài)的角度描述報修數(shù)據(jù)的內(nèi)在關(guān)系和變化規(guī)律。如果考慮到時間的相關(guān)分析,那么可以使用時間序列的相關(guān)方法。本文提出基于時間序列的方法對高校后勤報修量進行預測,對歷史數(shù)據(jù)時間序列進行分析研究,精準的預測報修量,為高校管理服務提供決策依據(jù)。
時間序列是按時間次序排列的隨機序列 X1,X2,…,記為{Xt,t∈T}或{Xt},T 為離散的指標集[5]。時間序列預測分析是一種回歸預測方法,目的是從歷史數(shù)據(jù)中挖掘出變化規(guī)律,對未來數(shù)據(jù)進行預測,為決策者提供決策依據(jù)。判斷序列是否可以使用時間序列預測,首先從時間的角度可以把一個序列基本分為3類。
(1)純隨機序列(白噪聲序列),這類序列毫無規(guī)律,無法進行預測;
(2)平穩(wěn)非白噪聲序列,這類序列的均值和方差為常數(shù),可以用成熟的模型來擬合;
(3)非平穩(wěn)序列,這類序列需要通過差分處理轉(zhuǎn)化為平穩(wěn)序列后按照平穩(wěn)序列的模型進行擬合。
時間序列模型的預測方法主要包括自回歸模型 (auto regressive moving,AR)、移動平均模型(moving average,MA)、自回歸移動平均模型(auto regressive moving average,ARMA)、自回歸求積移動平均模型(auto regressive integrated moving average,ARIMA)等。其中,AR模型、MA模型和ARMA模型常用于對平穩(wěn)序列的預測分析,而ARIMA模型則用于對非平穩(wěn)序列的預測分析。
時間序列預測方法近年來被廣泛運用于多個研究領(lǐng)域,并且能夠取得很好的預測結(jié)果。該方法不依賴外部變量,可以在一定程度克服影響因素考慮不周導致模型的精度不足問題。高校后勤報修量受天氣、季節(jié)、設(shè)備年限等較多不確定因素影響,故采用時間序列方法進行預測。
鄭琰[6]等通過應用ARMA模型,對阿里巴巴旗下電商企業(yè)未來一周內(nèi)的部分商品進行需求預測,對電商企業(yè)的經(jīng)營、管理提供決策支持。鐘彬文等[7]通過建立ARMA模型,對未來3年浙江省城鎮(zhèn)人均可支配收入進行預測,對了解人們生活水平具有重要參考價值。羅利等[8]利用ARMA模型對腎臟內(nèi)科入院量數(shù)據(jù)進行預測,為醫(yī)院制定相關(guān)決策提供依據(jù)。邵艷君[9]通過建立ARMA模型,對我國油菜籽單產(chǎn)量進行預測,為油菜的留種和播種提供調(diào)控依據(jù)。張改紅[10]采用ARIMA模型對渭南市降水量進行預測分析,為水資源合理調(diào)配提供依據(jù)。
ARMA模型是時間序列分析的重要方法,由AR模型和MA模型結(jié)合而成。如果一個系統(tǒng)在t時刻的觀測值為 Xt,不僅和它之前的觀測值 Xt-1,Xt-2,…相關(guān),還和它之前時刻的擾動εt-1,εt-2,…以及t時刻的擾動εt相關(guān),那么這個系統(tǒng)就叫做自回歸移動平均系統(tǒng)。
ARMA模型基本形式為φ
模型中{εt}是白噪聲序列,?s<t,有 EXtεt=0,記為 ARMA(p,q);若 φ0=0,則稱為中心化的 ARMA(p,q)模型。 p 和 q 為非負整數(shù),也稱為階數(shù)。 模型可以轉(zhuǎn)化為 α(L)Xt=β(L)εt,一般需假定 α(u)、β(u)無公共根。
α(L)=1-φ1L-…-φpLp,為 p 階自回歸系數(shù)多項式。
β(L)=1-θ1L-…-θqLq,為 q 階移動平均系數(shù)多項式。
其中,若q=0,模型退化為AR模型,記為AR(p),若p=0,模型退化為MA模型,記為MA(q)。
時間序列建模預測流程如圖1,具體有如下6個操作步驟。
(1)采集數(shù)據(jù),為模型建立做準備;
(2)對數(shù)據(jù)進行平穩(wěn)性檢驗,若該序列為平穩(wěn)序列,則進行下一步驟模型識別,否則進行差分處理,再對數(shù)據(jù)進行平穩(wěn)性檢驗;
(3)通過自相關(guān)系數(shù)、偏自相關(guān)系數(shù)確定適用模型的種類;
(4)確定模型的階數(shù);
(5)檢驗已建立的模型用于描述時間序列是否恰當,即檢驗殘差的自相關(guān)性,若無法通過檢驗,則需要對模型進行優(yōu)化和重構(gòu);
(6)若模型通過殘差檢驗,利用建立的模型進行預測分析。
利用MATLAB系統(tǒng)辨識工具箱,采用ADF(augment dickey-fuller test)檢驗方法對某高校報修量時間序列進行平穩(wěn)性檢驗,檢驗結(jié)果為平穩(wěn)序列,通過分析自相關(guān)系數(shù)和偏自相關(guān)系數(shù)確定建立ARMA模型,通過AIC(an information criterion)準則確定模型的階數(shù),對已建立的模型進行檢驗,模型通過檢驗,利用已建立的模型對報修數(shù)據(jù)進行擬合、預測,并對預測數(shù)據(jù)和真實數(shù)據(jù)作對比,證明基于時間序列的高校后勤報修量預測方法可行。
圖1 預測流程
為了解決報修數(shù)據(jù)的時間相關(guān)度,本文提出基于時間序列的高校后勤報修量預測方法。
本文選取2017年9月-2019年10月某高校報修平臺數(shù)據(jù)進行分析,其中2017年9月-2019年8月的680條報修數(shù)據(jù)為訓練集,2019年9月-2019年10月61條報修數(shù)據(jù)為預測集,驗證模型的擬合度,原始數(shù)據(jù)如圖2所示。
圖2 原始數(shù)據(jù)
如果一個隨機時間序列,其基本狀態(tài)維持不變也就是要求樣本數(shù)據(jù)的本質(zhì)特征能延續(xù)到未來,稱這些統(tǒng)計量(均值、方差、協(xié)方差)的取值在未來仍能保持不變,則時間序列具有平穩(wěn)性[11]。平穩(wěn)性檢驗的常用方法是單位根檢驗(dickey-fuller test,DF檢驗)[12],ADF[13]檢驗是對DF檢驗的擴充,本文采用ADF檢驗方法對數(shù)據(jù)進行平穩(wěn)檢驗。如果時間序列Xt通過d次差分成為一個平穩(wěn)序列,而這個序列(d-1)次差分卻不平穩(wěn),則稱序列Xt為d階單整序列,記為Xt~I(d)。ADF檢驗假設(shè)數(shù)據(jù)由于ARMA模型的動態(tài)結(jié)構(gòu),零假設(shè)是Xt為I(1)序列,備擇假設(shè)Xt是為I(0)序列。無常數(shù)項和時間趨勢項的ADF檢驗的回歸方程為
其中,p階滯后差分ΔXt-j用來近似估計誤差項的ARMA結(jié)構(gòu)。p值的確定要基于誤差項εt是序列無關(guān)的,并假設(shè)誤差項同方差。在零假設(shè)條件下,Xt為I(1)序列或者ρ=1。ADF檢驗的t統(tǒng)計量和ADFn統(tǒng)計量是基于方程(2)的最小二乘法估計得到,表達式如下
如果ADF檢驗的t統(tǒng)計量拒絕零假設(shè),則說明被檢驗序列是平穩(wěn)序列,否則說明被檢驗序列是非平穩(wěn)序列,需要對其進行差分處理后再進行進一步檢驗,直到ADF檢驗的t統(tǒng)計量拒絕零假設(shè)。利用MATLAB工具箱中h=adftest(X)函數(shù),對樣本數(shù)據(jù)進行平穩(wěn)性檢驗,得到h=1,表示拒絕有單位根的原假設(shè),說明數(shù)據(jù)平穩(wěn),可以進行下一步驟。
確定樣本序列為平穩(wěn)序列后,可以利用AR、MA、ARMA等三類平穩(wěn)模型對序列進行擬合。這里考查樣本序列的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)的拖尾和截尾性質(zhì)。
(1)對于平穩(wěn)AR(p)模型,偏自相關(guān)函數(shù)PACF(partial auto correlation function)在p階之后應為零,稱其具有截尾性;自相關(guān)函數(shù)ACF(auto correlation function)不能在某一步之后為零(截尾),而是按指數(shù)衰減(或成正弦波形式),稱其具有拖尾性。
(2)對于平穩(wěn)MA(q)模型,自相關(guān)函數(shù)ACF在q階之后應為零,稱其具有截尾性;偏自相關(guān)函數(shù)PACF不能在某一步之后為零(截尾),而是按指數(shù)衰減(或成正弦波形式),稱其具有拖尾性。
綜合平穩(wěn)ARMA(p,q)模型的相關(guān)系數(shù)和偏自相關(guān)系數(shù)的拖尾和截尾性質(zhì),得到表1的結(jié)論
表1 模型的相關(guān)系數(shù)和偏自相關(guān)系數(shù)結(jié)論
由表1可知,若樣本序列的自相關(guān)系數(shù)拖尾、偏自相關(guān)系數(shù)截尾,則建立AR模型;若樣本序列的自相關(guān)系數(shù)截尾、偏自相關(guān)系數(shù)拖尾,則建立MA模型;若樣本序列的相關(guān)系數(shù)和自相關(guān)系數(shù)都是拖尾的,則建立ARMA模型。
利用MATLAB工具箱的autocorr(X)和parcorr(X)繪制報修量序列的自相關(guān)和偏自相關(guān)函數(shù)圖像,如圖3。
由圖3,可以看出樣本序列的自相關(guān)系數(shù)和偏自相關(guān)系數(shù)都表現(xiàn)出拖尾性,故建立ARMA模型。
階數(shù)p,q的確定過程比較嚴謹?shù)姆椒ㄊ茿IC準則[14-15]定階法,它適用于AR、MA、ARMA三類模型。AIC準則是一種基于觀測數(shù)據(jù)選擇最優(yōu)參數(shù)模型的信息準則,它既要衡量模型對原始數(shù)據(jù)的擬合程度,又要考慮模型中所含待估參數(shù)的個數(shù),即模型復雜度。對于樣本長度為N的序列,ARMA模型的AIC定階過程如下。
(1)設(shè){Xt:1≤t≤N}為一隨機事件序列,對其擬合 ARMA(p,q)模型,分別確定(p,q)的上界 p0和 q0,記為;H={(k,l)∣0≤k≤p0,0≤l≤q0};
(2)對于任意的(k,l)∈H,AIC 準則函數(shù)定義如下
圖3 報修量自相關(guān)和偏自相關(guān)圖像
可以看出,AIC準則函數(shù)由兩部分構(gòu)成,第一部分是極大似然估計的對數(shù),反映模型擬合的好壞,第二部分反映模型參數(shù)的多少。對于給定觀察數(shù)據(jù)長度N,當模型階數(shù)增高時,第一部分是下降的,第二部分是增長的。當逐次增加模型階數(shù)對數(shù)據(jù)進行擬合時,AIC的值下降是有趨勢的,這時第一部分下降的比較快,起決定作用,當達到某一階數(shù)時,AIC值達到極小。隨后,當模型階數(shù)繼續(xù)增高,第一部分改變很小,這時第二部分起決定作用,AIC值隨模型階數(shù)的增長而增長。對于給定的最高階數(shù)M(N)
MATLAB工具箱中,首先利用arima(p,0,q)函數(shù)定義不同的ARMA模型,再用estimate(mdl,X)函數(shù)對以上模型進行估計,最后通過AICSet=aicbic(logL,numParam)函數(shù)計算模型的AIC準則值,MATLAB計算程序如下:
計算結(jié)果如下:
AICSet(i,j)1234 1 5.966 9 5.958 8 6.133 6 6.126 8 2 5.953 1 6.314 2 6.375 3 6.326 7 3 5.967 5 6.328 4 6.417 4 6.479 4 4 5.968 4 6.339 0 6.428 1 6.493 3
由以上結(jié)果可知,ARMA(1,2)準則值最低,為最優(yōu)模型。
模型診斷主要檢驗殘差的自相關(guān)性。對于模型ARMA(p,q),殘差為:
零假設(shè)和備擇假設(shè)為
Ljung和Box[16]證明,如果ARMA(p,q)模型正確設(shè)定,那么等式(8)中統(tǒng)計量服從自由度為K-p-q的卡方分布。如果,則拒絕H0,表明模型是不充分的,否則ARMA(p,q)正確設(shè)定。
MATLAB工具箱中,利用hLBQ=lbqtest(res)函數(shù)檢驗殘差的自相關(guān)性,結(jié)果如下
由以上結(jié)果可以看出殘差不具有相關(guān)性,因此模型ARMA(1,2)可以信任,殘差圖如圖4。
本文取2019年9月-2019年10月61條報修數(shù)據(jù)為預測集,用ARMA(1,2)模型預測這兩個月的報修數(shù)據(jù),預測結(jié)果如圖5。
圖4 殘差圖
圖5 預測結(jié)果
觀察圖5,預測結(jié)果良好,實際數(shù)據(jù)與預測值誤差較小,擬合度高。
分別建立AR模型和MA模型,對預測集數(shù)據(jù)進行預測,計算復相關(guān)系數(shù)R和剩余標準差S,見表2。其中復相關(guān)系數(shù)數(shù)值越大表示精度越高,剩余標準差數(shù)值越小表示精度越高。由表2可以得出,3種模型在報修量預測上都有較高的精度,但較之AR模型和MA模型,ARMA模型具有更高的精度。
表2 比較3種模型的R和S
本文根據(jù)高校后勤報修數(shù)據(jù)的時序特征,采用ARMA建模,對報修量進行分析預測,根據(jù)預測結(jié)果可以看出數(shù)據(jù)擬合效果良好,整體相對誤差較小。時間序列模型的關(guān)鍵在于模型的正確選擇,通過比較發(fā)現(xiàn),選擇正確的模型可以提高模型預測的精度。說明本文方法對平穩(wěn)序列的預測精度較高,能夠反映出報修量的變化趨勢及高峰期。對高校管理決策來說,使用該方法進行維修工作準備,可以提前采購網(wǎng)絡(luò)維修零件、設(shè)備,做好工作人員安排等工作,方便保障學校正常運行。