曹曉涵,張慶春,趙宸稷
(1.吉林化工學(xué)院 信息與控制工程學(xué)院,吉林 吉林 132022;2.吉林化工學(xué)院 理學(xué)院,吉林 吉林 132022)
整數(shù)值時間序列[1]在生活中普遍存在,在醫(yī)療、保險、交通、犯罪學(xué)等領(lǐng)域也都有廣泛應(yīng)用。為研究此類數(shù)據(jù)的統(tǒng)計規(guī)律性,學(xué)者們相繼提出了一系列整數(shù)值時間序列模型。基于稀疏算子的一元INAR(1)模型[2]是用于擬合一元整數(shù)值時間序列的常用模型,通??梢杂脙煞N方法進行構(gòu)建,一種為預(yù)設(shè)模型的邊際分布法,例如,Maya等(2022)[3]提出了一種新的雙參數(shù)復(fù)合泊松分布,構(gòu)建了基于二項稀疏算子的該分布的二元 INAR(1) 模型。另一種是預(yù)設(shè)新息過程分布法,例如,Su等(2021)[4]提出了一個基于二項稀疏算子,新息過程服從二元負(fù)二項(BNB)分布的二元一階INAR(1)模型。負(fù)二項稀疏算子[5]作為刻畫傳染病過程、繁殖過程和犯罪過程等具有活躍數(shù)據(jù)生成機制的重要稀疏算子,因為其自身定義的原因不適合利用預(yù)設(shè)新息過程分布法構(gòu)建INAR(1)模型,張等(2020)[6]提出了一個推廣的負(fù)二項稀疏算子并基于該稀疏算子利用預(yù)設(shè)新息過程分布法建立了INAR(1)模型。
考慮到實際生活中環(huán)境等因素的影響,INAR(1)模型中稀疏參數(shù)應(yīng)該是隨時間變化的,統(tǒng)計學(xué)者們將INAR(1)模型推廣至隨機系數(shù)INAR(1)模型,此類模型更適用于刻畫實際生活中的整數(shù)值時間序列[7]。但目前基于推廣的負(fù)二項稀疏算子利用預(yù)設(shè)新息過程分布法建立的隨機系數(shù)INAR(1)模型還未見報道。
本課題研究帶有隨機系數(shù)的基于推廣的負(fù)二項稀疏算子的INAR(1)模型,利用最小二乘估計方法進行參數(shù)估計,并將模型應(yīng)用于實例數(shù)據(jù),具有一定的創(chuàng)新性和實際應(yīng)用價值。
首先介紹一個推廣的負(fù)二項稀疏算子,假設(shè)X為一個非負(fù)整數(shù)值隨機變量,令α∈(0,1),推廣的負(fù)二項稀疏算子“*”定義如下:
(1)
基于上述稀疏算子,我們把滿足迭代方程(2)的一元非負(fù)整數(shù)值時間序列{Xt}t∈N稱為帶有隨機系數(shù)的基于推廣的負(fù)二項稀疏算子的一元INAR(1)模型,簡稱為ENBRCINAR(1)模型。
Xt=αt*Xt-1+Rt,t∈N,
(2)
這里{αt}為i.i.d.取正值的隨機變量序列,αt∈B?R+,其分布函數(shù)為Pαt;
{Rt}是一個i.i.d.的非負(fù)整數(shù)值隨機變量,其概率函數(shù)為fRt,對于每一個t和任意的s E(Xt|Xt-1)=α(Xt-1+1)+λ, 若Var(X0)=a/(1-b),則Var(Xt)=a/(1-b), Cov(Xt+k,Xt)=αkVar(Xt),t≥0。 假設(shè){Xt}t∈N是一個平穩(wěn)遍歷的INAR(1)過程,{X1,X2…Xn}是來自模型1.1的一組觀測數(shù)據(jù),利用條件最小二乘估計法(CLS)進行參數(shù)估計,記未知參數(shù)θ=(α,λ)T。最小二乘估計方程式(3)如下: (3) 則參數(shù)θ的CLS估計定義為 這樣我們就可以通過自回歸系數(shù)服從均勻分布和模型的條件期望、條件方差進一步計算得到條件最小二乘估計,具體見公式(4)和(5)如下: (4) (5) (6) 表1 ENBRCINAR(1)模型的CLS估計結(jié)果 從表1中ENBRCINAR(1)模型的CLS估計結(jié)果可以看出,隨著樣本量的增大,最小二乘估計法的經(jīng)驗偏差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差都在減小,說明估計量具有漸近性,都可以得到可靠的估計結(jié)果,最小二乘估計方法用于此模型進行參數(shù)估計是可行的。 為進一步闡述該模型的應(yīng)用性,我們把ENBRCINAR(1)模型應(yīng)用于實際問題,選用羅切斯特地區(qū)第247街區(qū)警車盜竊案的數(shù)據(jù)作為參考,所選用的數(shù)據(jù)是1991年1月到2001年12月共132個月度的觀測值。圖1為該序列的樣本路徑,可以看出該數(shù)據(jù)基本平穩(wěn)。 時間/月 圖2與圖3分別為自相關(guān)(ACF)圖和偏自相關(guān)(PACF)圖,可以看出ACF呈拖尾狀,PACF為一階截尾,所以可以建立INAR(1)模型擬合該組數(shù)據(jù)。 Lag Lag 為了研究本文提出的ENBRCINAR(1)模型擬合實際數(shù)據(jù)的應(yīng)用效果,考慮該模型和其他四個模型進行對比研究?,F(xiàn)將用于對比的模型作如下簡介: INAR(1)模型[2]:Al-Osh和Alzaid(1987)提出的基于二項稀疏算子,新息項為泊松分布的INAR(1) 模型。 NBRCINAR(1)模型[8]:張等(2011)提出的基于帶有隨機系數(shù)的二項稀疏算子,新息項為泊松分布的INAR(1)模型。 GNBINAR(1)模型[6]:張等(2020)提出的基于推廣的負(fù)二項稀疏算子,新息項為泊松分布的INAR(1)模型。 PME-INAR(1)模型[9]:Maya等(2023)提出的基于二項稀疏算子,新息項為PME(Poisson-moment exponential)隨機分布的INAR(1)模型。 ENBRCINAR(1)模型:本文提出的基于帶有隨機系數(shù)的推廣的負(fù)二項稀疏算子,新息項為泊松分布的INAR(1)模型。 我們將前127個數(shù)據(jù)作為樣本數(shù)據(jù)估計模型的參數(shù)值,把最后5個數(shù)據(jù)作為樣本外數(shù)據(jù)。估計參數(shù)時,由于樣本量較小,我們利用Kunsch(1989)[10]針對相依時間序列數(shù)據(jù)提出的Block Bootstrap方法進行重復(fù)1 000次抽樣,得到參數(shù)的估計值。另一方面,條件期望也是常見的預(yù)測方法,但由于均值相同,因此達不到比較的效果,并且條件期望得到的預(yù)測結(jié)果也不一定是整值。因此,我們采用Freeland和McCabe(2004)提出的中位數(shù)及Kim和Park(2008)[10]提出的修正Bootstrap法來分析數(shù)據(jù),得到樣本外的數(shù)據(jù)的預(yù)測值以及相應(yīng)的平均絕對誤差(MAE)和均方誤差(RMSE)。結(jié)果見表2。 表2 比較模型及Bootstrap預(yù)測值 通過對比五個模型的RMSE值,我們發(fā)現(xiàn)本文提出的ENBRCINAR(1)模型所得到的RMSE值最小,得出更適合實際數(shù)據(jù)的模型是本文提出的帶有隨機系數(shù)的基于推廣的負(fù)二項稀疏算子的INAR(1)模型。 基于推廣的負(fù)二項稀疏算子利用預(yù)設(shè)新息過程分布法建立一元的隨機系數(shù)INAR(1)模型,研究了該模型的概率統(tǒng)計性質(zhì),利用條件最小二乘法研究參數(shù)的估計問題,通過數(shù)值模擬分析估計量的估計效果,模擬結(jié)果顯示隨著樣本量的增大,最小二乘估計方法的經(jīng)驗偏差、標(biāo)準(zhǔn)差和標(biāo)準(zhǔn)誤差都在減小,說明估計量具有漸近性,模擬結(jié)果可行。給出實例展示模型的應(yīng)用效果,并將該模型與其他模型進行對比研究,通過MAE和RMSE的數(shù)據(jù)對比得出,帶有隨機系數(shù)的基于推廣的負(fù)二項稀疏算子的一元INAR(1)模型更適用于實際數(shù)據(jù)。1.2 ENBRCINAR(1)模型的性質(zhì)
2 參數(shù)估計
3 數(shù)值模擬
4 實例分析
5 結(jié) 論