摘要: 對過離散的重復(fù)觀測時間序列數(shù)據(jù), 考慮一種具有Poisson-Lindley邊際分布的INAR(1)(PLINAR(1))過程的獨立重復(fù)觀測模型. 先通過條件最小二乘估計、 Yule-W
alker估計、 擬似然估計和條件極大似然估計方法估計模型的參數(shù), 討論估計量的漸近性質(zhì), 并給出模型的預(yù)測, 再通過數(shù)值模擬比較不同估計方法的性能以及重
復(fù)觀測帶來的影響, 最后對一組重復(fù)觀測的每周太陽黑子群數(shù)量的數(shù)據(jù)進行擬合, 擬合結(jié)果驗證了模型的有效性.
關(guān)鍵詞: 重復(fù)觀測; PLINAR(1)模型; 整數(shù)值時間序列; 過離散
中圖分類號:" O212.1" 文獻標志碼: A" 文章編號: 1671-5489(2025)01-0024-11
Replicatedly Observed Poisson-Lindley INAR(1) Model
LIU Rui1, ZHU Fukang1, LI Qi2
(1. College of Mathematics, Jilin University, Changchun 130012, China;2. College of Mathematics, Changchun Normal University, Changchun 130032, China)
Abstract: We considered an" independent replicatedly observed model of" INAR(1) (PLINAR(1)) process with Poisson-Lindley marginal distribution for
overdispersed replicatedly observed time series data. Firstly, by using conditional least squares estimation, Yule-Walker estimation, quasi-likelihood estimation, and conditional maximum likelihood
estimation methods to estimate the parameters of the model, we discussed the asymptotic properties of the estimators and gave predictions for the model. Secondly, through numerical simulations,
the performance of different estimation methods and the impact of replicated observations were compared. Finally, a data set of the number of sunspot groups per week from replicated observations was
fitted to this model, the fitting results validated the effectiveness of the model.
Keywords: replicated observation; PLINAR(1) model; integer-valued time series; overdispersion
收稿日期: 2024-10-31.
第一作者簡介: 劉 瑞(1999—), 女, 漢族, 碩士研究生, 從事時間序列分析的研究, E-mail: 359882343@qq.com. 通信作者簡介: 李 琦(1982—)
," 女, 漢族, 博士, 副教授, 從事時間序列分析的研究, E-mail: joyli@vip.163.com.
基金項目: 國家自然科學(xué)基金(批準號: 12201069)、 吉林省教育廳科學(xué)技術(shù)研究項目(批準號: JJKH2022082
0KJ)和長春師范大學(xué)自然科學(xué)基金項目(批準號: CSJJ2022006ZK).
0 引 言
整數(shù)值時間序列廣泛存在于實際生活中, 如服務(wù)器每小時的用戶數(shù)量、" 股票市場每日交易次數(shù)、 每月失業(yè)人數(shù)、 事故死亡人數(shù)、 地震年度發(fā)生次數(shù)等. 許多傳統(tǒng)的自回歸
模型不適合這類數(shù)據(jù)的擬合, 因此需為整數(shù)值時間序列定義新的模型. 例如: McKenzie[1]和Al-Osh等[2]基于二項稀疏
算子定義了一階整數(shù)值自回歸(INAR(1))過程{Xt: t=0,±1,±2,…}:
Xt=αXt-1+εt,αX=∑Xi=1Yi,
其中α∈(0,1), {εt}是獨立同分布的非負整數(shù)值隨機變量序列, {Yi}是獨立同分布的Bernoulli隨機變量, 滿足P(Yi=1)=1-P(Yi=0)=α. INAR
(1)模型可理解為: t時刻系統(tǒng)Xt內(nèi)的元素由兩部分組成, 一部分是在(t-1)時刻的系統(tǒng)Xt-1中幸存下來的元素(用αXt-1表示), 另一部分是在時間段(t-1,t]內(nèi)進入系統(tǒng)的新元素(用誤差項εt表示).
為不同類型數(shù)據(jù)擬合的需要, 人們相繼提出了許多基于不同離散邊際分布與改進稀疏算子的整數(shù)值自回歸模型. Al-Osh等[3]考慮了具有負二項邊際、 幾何邊際的INA
R(1)過程; Zheng等[4]提出了隨機系數(shù)INAR(1)模型; Schweer等[5]研究了具有復(fù)合Poisson邊際的INAR(1)
過程; Bakouch等[6]考慮了一個具有隨機系數(shù)和零膨脹幾何邊際分布的INAR(1)模型; Zhang等[7]提出了一個具有雙參數(shù)Poisson二項指數(shù)分布誤差項的INAR(1)模型.
在實際數(shù)據(jù)分析中, 一些數(shù)據(jù)呈現(xiàn)出過離散特征, 導(dǎo)致一些傳統(tǒng)邊際分布的擬合效果欠佳, 如Poisson邊際是等離散的, 零截斷Poisson邊際是欠離散的, 幾何邊際具有恒定的
失敗概率[8]等. Poisson-Lindley分布是Sankaran[9]定義的一種復(fù)合Poisson分布, 當隨機變量X服從參數(shù)為θ的Poisson-Lindley分布時, 其概率質(zhì)量函數(shù)為
f(x;θ)=θ2(x+θ+2)(1+θ)x+3, x=0,1,2,…, θgt;0.
Poisson-Lindley分布是單參數(shù)分布, 具有單峰、 過離散和遞增風(fēng)險率等特征, 可視為幾何分布和負二項分布的混合分布, 且相比于負二項分布具有更小的偏度和峰度[10]
. 基于Poisson-Lindley分布的這些優(yōu)勢, Mohammadpour等[8]定義了一個具有Poisson-Lindley邊際分布的INAR(1)(PLINAR(1))模型, 并通過兩組實際數(shù)據(jù)說明在某些情況下PLINAR(1)模型相比于許
多其他INAR模型具有更好的擬合效果; 進一步, Wang等[11]和Nasirzadeh等[12]也提出了幾種新的PLINAR(1)模型的參數(shù)估計和預(yù)測方法.
通常時間序列分析的對象是一個單一的時間序列{Xt: t≥1}, 但在很多實際應(yīng)用中, 所考慮的數(shù)據(jù)是由重復(fù)觀測的序列{Xk,t: k=1,2,…,r; t=1,2,…,n}組成
的, 表示從多個受試者(或?qū)嶒瀱挝唬┇@得的隨時間觀測到的測量、 計數(shù)或分類響應(yīng)等, 對這類數(shù)據(jù), 相比于每個序列的性質(zhì), 人們更關(guān)注這些觀測序列的共同趨勢和特征
. 例如, 在氣候?qū)W中區(qū)域氣候模式的估計, 兒童增長曲線分析[13], 從具有特定生態(tài)性質(zhì)的地區(qū)許多樹木中獲取的年輪寬度數(shù)據(jù)等[14]. Azzalini[15]考慮
了一階和二階自回歸平穩(wěn)時間序列的獨立重復(fù), 并考慮了參數(shù)的極大似然估計和漸近性質(zhì); Bowden等[16]考慮了同一ARMA過程的多次重復(fù)實現(xiàn),
并建立了相應(yīng)的獨立重復(fù)觀測模型; Ghosh[13]提出了一種算法, 對具有長程相依性的獨立重復(fù)時間序列的趨勢進行了非參數(shù)估計. 當關(guān)注的重點是
平均響應(yīng)與時間、 實驗處理或其他解釋變量的相依關(guān)系, 推斷解釋變量對響應(yīng)變量的影響時,
通常被稱為縱向數(shù)據(jù)分析. 而當平均響應(yīng)恒定(或不是關(guān)注對象), 關(guān)注均值的隨機變化時, 這種重復(fù)時間序列分析, 特別對于計數(shù)時間序列的研究目前報道較少[17].
Silva等[18]考慮了Poisson INAR(1)過程的獨立重復(fù)觀測(RINAR(1))模型, 模型由計數(shù)時間序列的獨立重復(fù)組成, 每個序列都服從相同的INAR(1)過程.
在上述研究的基礎(chǔ)上, 為對具有過離散特征的獨立重復(fù)觀測時間序列數(shù)據(jù)進行擬合, 本文在文獻[8,18]的基礎(chǔ)上, 提出獨立重復(fù)觀測(RPLINAR(1))模型, 給出
模型的相關(guān)統(tǒng)計性質(zhì), 利用條件最小二乘(CLS)估計、 Yule-Walker(YW)估計、 擬似然(QL)估計、 條件極大似然(CML)估計4種方法
估計模型的參數(shù), 討論估計量的漸近性質(zhì), 并通過條件期望和條件分布方法考察模型的預(yù)測問題. 最后通過數(shù)值模擬比較不同估計方法的性能以及重復(fù)觀測帶來的
影響, 并使用一組重復(fù)觀測的每周太陽黑子群數(shù)量的實際數(shù)據(jù)對模型進行擬合, 驗證了模型的擬合效果.
1 重復(fù)觀測的PLINAR(1)模型
4 數(shù)值模擬
為說明估計量的相合性質(zhì), 比較不同估計方法的性能以及重復(fù)觀測帶來的影響, 本文通過MATLAB進行數(shù)值模擬. 考慮由PLINAR(1)模型生成的樣本量為n=100,300,500的
時間序列的r=1,10,20次重復(fù)觀測, 選取的參數(shù)組合分別為(α,θ)=(0.1,1),(0.1,2),(0.3,1),(0.3,2),(0.5,1),(0.5,2), 每個實驗均重復(fù)M=500次. 使用
YW,CLS,QL,CML 4種方法估計模型的參數(shù), 對模擬效果考慮兩個指標: 偏差(BIAS)和標準誤差(standard error, SE), 分別定義(以參數(shù)α為例)如下:
BIAS()=1M∑Mj=1(j-α),
SE()=1M1M-1∑Mj=1(j-α)2,
其中j表示參數(shù)α在第j=1,2,…,M次模擬時的估計值, α=1M∑Mj=1j表示樣本均值.
參數(shù)α和θ的CLS估計量的顯式表達式分別為式(5)和式(6), YW估計量的表達式分別為式(7)和式(8), 利用方程(9)得到參數(shù)的QL估計量, 利用
fmincon函數(shù)最大化式(10)得到參數(shù)的CML估計量, 這里使用CLS估計量作為函數(shù)的初始值. 表1和表2分別為當(α,θ
)=(0.1,1)時本文模型模擬的數(shù)值結(jié)果, 得到了估計量的樣本偏差和標準誤差(括號內(nèi)). 由表1和表2可見, 偏差和標準誤差均隨著樣本量n和重復(fù)次數(shù)r的增加而減少, 表明對
4種估計方法, 參數(shù)的估計量都是相合的. 特別地, 對固定的觀測數(shù)量n, 估計量的偏差和標準誤差均隨著重復(fù)次數(shù)r的增加而減少, 估計更準確, 這也是獨立重復(fù)觀測模型的特有特征.
同時可見CLS,QL方法得到的估計量數(shù)值結(jié)果相似, 且YW,CLS,QL方法相比于CML方法具有更好的性能, 得到了更小的偏差, 這可能是數(shù)值優(yōu)化帶來的影響.
5 實例分析
太陽黑子是太陽表面的一種暗斑, 是由太陽磁場活動引起的, 數(shù)量隨太陽活動周期而波動, 太陽黑子群是由多個太陽黑子聚集形成的一組黑子, 呈現(xiàn)為一片較大的暗斑區(qū)域.
通過觀測太陽黑子和太陽黑子群的形態(tài)、 數(shù)量和分布等特征, 可研究并預(yù)警太陽活動及其對地球天氣和通信系統(tǒng)等產(chǎn)生的影響. 為量化觀測結(jié)果, 選擇
Wolf太陽黑子相對數(shù)作為衡量太陽黑子多少的指標; Hoyt等[22]引入了太陽黑子群數(shù), 相比于Wolf數(shù)具有更小的噪聲.
考慮美國國家地理數(shù)據(jù)中心(http://www.ngd-c.noaa.gov/)記錄的太陽黑子群數(shù)據(jù), 觀察從1877年12月1日至1879年4月15
日期間每周太陽黑子群的數(shù)量, 分別由位于英國倫敦的格林尼治天文臺(Royal Greenwich Oibservatory, RGO)和雅典的SCHMIDT獨立觀測并記錄. RGO得到的
觀測序列為{3,0,1,0,1,0,0,3,1,10,0,0,2,6,5,3,0,1,0,0,0,0,0,0,0,6,9,1,0,3,1,0,0,1,0,0,0,0,0,5,7,0,0,0,0,0,0,4,7,1,3,0,0,0,2,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,0,5,5,0,1,3,0,0,0,0,0,1};
SCHMIDT得到的觀測序列為{4,0,0,0,0,0,0,3,2,9,0,0,0,4,5,3,0,0,0,0,0,0,0,0,0,6,5,0,0,3,1,0,0,0,0,0,0,0,0,5,7,0,0,0,0,0,0,4,7,1,1,0,0,0,0,0,2,0,0,0,0,0,1,0,0,0,0,0,0,0,0,7,4,0,4,2,0,0,1,0,0,0}.
兩個序列的長度均為82, 將前78個數(shù)據(jù)用于參數(shù)估計, 后4個數(shù)據(jù)作為樣本外待預(yù)測值.
圖1為每周太陽黑子群總數(shù)的路徑圖、 ACF圖和PACF圖. 由圖1可見," 兩個序列的計數(shù)在0~10之間變化, 且無明顯的趨勢或季節(jié)性. 由文獻[18]可知, 1周內(nèi)太陽黑子群的總數(shù)可視為前
一周存在且沒有消失的太陽黑子群數(shù)量(概率為α), 加上這一周新出現(xiàn)的太陽黑子群數(shù)量. 序列的自相關(guān)函數(shù)(ACF)圖和偏自相關(guān)函數(shù)(PACF)圖表明, 一階模型適用于這兩個序列.
對于RGO序列, 其均值為1.307 7, 方差為5.306 7, 則離散指數(shù)可以計算為x=S2x=4.058 1; 對于SCHMIDT序列, 其均值為1.153 8, 方差
為4.651 3, 則離散指數(shù)為4.031 2, 即均表現(xiàn)為過離散. 考慮Schweer等[5]提出的過離散檢驗方法, 在顯著性水平β=0.05時, 臨界值
可通過1+z1-β·2T1+α21-α2計算得到, 其中z1-β表示N(0,1)分布的1-β分位數(shù), T為序列的長度
, α是一階自相關(guān)系數(shù). 對于RGO序列, 臨界值為1.281 7, 對于SCHMIDT序列, 臨界值為1.284 1, 離散指數(shù)完全超過了臨界值, 因此拒絕等離散Poisson INAR(1)過程的假設(shè).
本文使用具有過離散特征的Poisson-Lindley分布作為邊際分布進行數(shù)據(jù)擬合. 由于兩個天文臺都在觀測太陽, 所以假設(shè)相同的PLINAR(1)模型適用于這兩個序列, 同時這兩個
觀測臺的觀測過程獨立, 故認為該序列是具有r=2的RPLINAR(1)過程的實現(xiàn). 使用上述4種估計方法進行參數(shù)估計, 估計結(jié)果列于表3.
為檢驗RPLINAR(1)模型對數(shù)據(jù)的擬合效果, 考慮對模型的殘差進行檢驗, 殘差的形式為resM,t=Xk,t-MXk,t-1-(1-M)M+2M(M+1), 其中k=1,2, t=1,2,…,78, M表示4種參數(shù)估計方法." 殘差序列沒有顯著的相
關(guān)性, 同時使用lbqtest函數(shù)進行Ljung-Box殘差檢驗, 得到殘差序列的Ljung-Box統(tǒng)計量和相應(yīng)的p值結(jié)果列于表4. 結(jié)果表明接受原假設(shè), 認為殘差序列是隨機的, 因此
RPLINAR(1)過程是擬合重復(fù)觀測太陽黑子群數(shù)據(jù)的一個合適模型.
為進行比較, 考慮使用Poisson RINAR(1)模型[18]擬合該組數(shù)據(jù), 對這兩個重復(fù)觀測模型, 通過CML估計方法, 分別得到其對數(shù)似然(LL)函數(shù)和AI
C(Akaike information creterion)值, 結(jié)果列于表5. 由表5可見, RPLINAR(1)模型取得了更大的LL和更小的AIC值, 表明RPLINAR(1)模型比Poisson RINAR(1)模型更適合這組數(shù)據(jù)的擬合.
下面利用本文的預(yù)測方法對數(shù)據(jù)進行h步(h=1,2,3,4)預(yù)測, 表6列出了預(yù)測結(jié)果, 其中基于條件期望(mean)的預(yù)測由式(11)得到,
和為CML估計量, 基于條件分布的預(yù)測結(jié)果由式(12)得到, 考慮分別用中位數(shù)和眾數(shù)進行預(yù)測. 使用平均絕對偏差(MAD)
衡量預(yù)測精度, 定義為MAD=1H∑Hh=1Xt+h-t+h, 其中H表示步長, t+h是h步預(yù)測值, Xt+h是h步觀測值. 由預(yù)測結(jié)果可見: 序列的條件期望預(yù)測值收斂到無條件均值即1.333 5; 使
用條件分布的眾數(shù)作為預(yù)測值取得了最小的MAD值. 因此, 眾數(shù)方法是預(yù)測這組數(shù)據(jù)最合適的方法.
綜上所述, 當數(shù)據(jù)表現(xiàn)為過離散時, 將Poisson-Lindley分布作為邊際分布可解決傳統(tǒng)分布的一些局限性, 本文考慮了PLINAR(1)過程的獨立重復(fù)觀測模型, 給出了新模型的性質(zhì)、 參
數(shù)估計、 數(shù)值模擬和實例分析, 并展示了新模型的優(yōu)良性能.
參考文獻
[1] MCKENZIE E. Some Simple Models for Discrete Variate Time Series [J]." Water Resources Bulletin, 1985, 21(4): 645-650.
[2] AL-OSH M A, ALZAID A A. First-Order Integer-Valued Autoregr
essive (INAR(1)) Process [J]. Journal of Time Series Analysis, 1987, 8(3): 261-275.
[3] AL-OSH M A, ALY E E A. First Order Autoregressive Time Seri
es with Negative Binomial and Geometric Marginals [J]. Communications in Statistics: Theory and Methods, 1992, 21(9): 2483-2492.
[4] ZHENG H T, BASAWA I V, DATTA S. First-Order Random Coefficient
Integer-Valued Autoregressive Processes [J]. Journal of Statistical Planning and Inference, 2007, 137(1): 212-229.
[5] SCHWEER S, WEIβ C H. Compound Poisson INAR(1) Processes:
Stochastic Properties and Testing for Overdispersion [J]. Computational Statistics and Data Analysis, 2014, 77(C): 267-284.
[6] BAKOUCH H S, MOHAMMADPOUR M, SHIROZHAN M. A Zero-Inflated G
eometric INAR(1) Process with Random Coefficient [J]. Applications of Mathematics, 2018, 63(1): 79-105.
[7] ZHANG J Y, ZHU F K, MAMODE KHAN N. A New INAR Model Based on Poisson-
BE2 Innovations [J]. Communications in Statistics: Theory and Methods, 2023, 52(17): 6063-6077.
[8] MOHAMMADPOUR M, BAKOUCH H S, SHIROZHAN M. Poisson-Lin
dley INAR(1) Model with Applications [J]. Brazilian Journal of Probability and Statistics, 2018, 32(2): 262-280.
[9] SANKARAN M. The Discrete Poisson-Lindley Distribution [J]. Biometrics, 1970, 26(1): 145-149.
[10] GHITANY M E, AL-MUTAIRI D K. Estimation Methods for the Di
screte Poisson-Lindley Distribution [J]. Journal of Statistical Computation and Simulation, 2009, 79(1/2): 1-9.
[11] WANG Y, ZHANG H X. Some Estimation and Forecasting Procedures i
n Possion-Lindley INAR(1) Process [J]. Communications in Statistics: Simulation and Computation, 2021, 50(1): 49-62.
[12] NASIRZADEH R, ZAMANI A. Poisson-Lindle
y INAR(1) Processes: Some Estimation and Forecasting Methods [J]. Journal of the Iranian Statistical Society, 2020, 19(2): 145-173.
[13] GHOSH S. A Note on Using the Empirical Moment Generating Fun
ction to Estimate the Variance of Nonparametric Trend Estimates from Independent
Time Series Replicates [J]. Communications in Statistics: Simulation and Computation, 2020, 49(9): 2287-2301.
[14] GHOSH S. Nonparametric Trend Estimation in Replicated Time S
eries [J]. Journal of Statistical Planning and Inference, 2001, 97(2): 263-274.
[15] AZZALINI A. Replicated Observations of Low Order Autoregressive Time Series [J]. Journal of Time Series Analysis, 1981, 2(2): 63-70.
[16] BOWDEN R S, CLARKE B R. A Single Series Representation of M
ultiple Independent ARMA Processes [J]. Journal of Time Series Analysis, 2012, 33(2): 304-311.
[17] DIGGLE P J, AL WASEL I." Spectral Analysis of
Replicated Biomedical Time Series [J]. Journal of the Royal Statistical Society: Series C, 1997, 46(1): 31-71.
[18] SILVA I, SILVA M E, PEREIRA I, et al. Replicated INAR(1) P
rocesses [J]. Methodology and Computing in Applied Probability, 2005, 7(4): 517-542.
[19] KLIMKO L A, NELSON P I. On Conditional Least Squares Estima
tion for Stochastic Processes [J]. The Annals of Statistics, 1978, 6(3): 629-642.
[20] LáVIO T, KHAN N M, BOURGUIGNON M, et al. An INAR(1) M
odel with Poisson-Lindley Innovations [J]. Economics Bulletin, 2018, 38(3): 1505-1513.
[21] DU J, LI Y. The Integer-Valued Autoregressive (INAR(p)) Model [J]. Journal of Time Series Analysis, 1991, 12(2): 129-142.
[22] HOYT D V, SCHATTEN K H. Group Sunspot Numbers: A New Solar Activity Reconstruction [J]. Solar Physics, 1998, 179: 189-219.
(責任編輯: 李 琦)