劉 君 羅曉媛
(黑河學(xué)院 理學(xué)院,黑龍江 黑河 164300)
2020年,新冠病毒肆虐全球。在此期間,病例確診的間隔時間服從指數(shù)分布。間隔數(shù)據(jù)發(fā)生突變的時刻即為變點,利用指數(shù)分布估計間隔時間的變點位置,有助于認(rèn)清疫情發(fā)展程度和防控開展。一些感染者在救治過程中由于死亡而中斷數(shù)據(jù)記錄或由于某種原因中途退出數(shù)據(jù)統(tǒng)計,這便是右刪失。另外,在無癥狀感染者未被檢測或感染者未確診就病亡時,缺失了最初的確診記錄數(shù)據(jù),這就是左截斷。左截斷和右刪失同時出現(xiàn)在新冠疫情的現(xiàn)存確診病例數(shù)據(jù)中,于是產(chǎn)出了本論題。
EM算法和MCMC算法是兩種常用的數(shù)據(jù)添加算法,使貝葉斯統(tǒng)計中許多計算化難為簡,應(yīng)用廣泛[1]。EM算法為后驗分布眾數(shù)的求解迭代方法,每一步迭代由E步期望值和M步極大值組成;MCMC法是將Gibbs抽樣和Metropolis-Hastings算法相結(jié)合得到聯(lián)合樣本,對后驗分布的各統(tǒng)計量進(jìn)行估計的方法[2]。
設(shè)(X,Y,Z)是三維隨機(jī)變量,且X,Y,Z都服從指數(shù)分布,其中隨機(jī)變量X為病例確診間隔時間,其分布函數(shù)為概率密度為f(x;λ),λ是未知參數(shù);Y為右刪失隨機(jī)變量,分布函數(shù)為G(y),概率密度為g(y);Z為左截斷隨機(jī)變量,分布函數(shù)為H(z),概率密度為h(z)。X,Y,Z取值大于零且兩兩相互獨立。令
各參數(shù)的先驗分布如下:
(1)(k1,k2)的無信息先驗分布
(2)(λ1,λ2,λ3)的無信息先驗分布
當(dāng)(k1,k2)與(λ1,λ2,λ3)相互獨立時,有
根據(jù)各參數(shù)的滿條件分布,利用MCMC方法獲取各參數(shù)的平穩(wěn)后驗分布。t1i由逆變換法抽取,t2i由合成法抽取,可采用Gibbs抽樣;k1,k2帶有復(fù)雜的參數(shù)約束條件,Gibbs抽樣困難,可進(jìn)行Metropolis-Hastings算法抽樣。
重復(fù)M次迭代可得到樣本容量為M的獨立同分布的5維Gibbs聯(lián)合樣本,其中因初始不穩(wěn)定而舍棄M0個樣本,將剩余的M-M0個穩(wěn)定樣本均值作為各參數(shù)的Bayes估計。即
取我國某省新冠疫情2019年12月1日至2021年1月6日的病例確診間隔時間數(shù)據(jù),繪制概率密度函數(shù),如圖1所示。
圖1 病例確診時間間隔概率密度
利用R軟件,采用MCMC法估計變點k1,k2的位置,先進(jìn)行10000次預(yù)迭代,再進(jìn)行10000次迭代,運行結(jié)果,見表1。
表1 參數(shù)k1、k2、λ1、λ2、λ3的Bayes估計結(jié)果
結(jié)果表明,根據(jù)當(dāng)前防控狀態(tài),小范圍新冠疫情期間,病例確診時間間隔的變點位于2.3528天和5.2923天兩個位置,即疫情防控措施及時的情況下,病例確診間隔時間為2天時,表明疫情由不受控向受控轉(zhuǎn)變,病例確診時間間隔為5天時,疫情控制進(jìn)入到穩(wěn)定轉(zhuǎn)態(tài),2天和5天的病例確診間隔時間是疫情有效控制的明顯標(biāo)志。