王志心,劉治,劉兆軍
(山東大學(xué)信息科學(xué)與工程學(xué)院,青島 266237)
2019年12月起,湖北省武漢市開(kāi)始出現(xiàn)原因不明的肺炎病例,2020年1月7日,首次檢測(cè)出一種新型冠狀病毒(COVID-19)[1-2]。該病毒主要通過(guò)飛沫和接觸傳播。隨著春運(yùn)的到來(lái),新型冠狀病毒肺炎(簡(jiǎn)稱“新冠肺炎”)很快波及全國(guó)。
在1個(gè)多月的時(shí)間內(nèi),新冠肺炎確診患者和疑似患者的數(shù)量不斷創(chuàng)出新高,說(shuō)明該病毒的傳染性較強(qiáng)。
模型把新冠肺炎傳播分為兩個(gè)階段,第一階段是對(duì)疫情不夠重視的自由傳播階段,等價(jià)于疾病傳播的SIR過(guò)程[4-7],在此階段,新感染的患者數(shù)量以再生數(shù)R0呈現(xiàn)出指數(shù)型增長(zhǎng)的趨勢(shì)。第二階段是政府介入后,媒體對(duì)新冠肺炎的報(bào)道使人群采取自我保護(hù)行為,如待在家中或佩戴口罩出行等,阻斷病毒傳播渠道。在此階段,疾病傳播再生數(shù)下降至小于1,呈現(xiàn)出新增感染患者數(shù)量下降的趨勢(shì)。
在無(wú)外界干預(yù)的情況下,假設(shè)第一天的感染患者數(shù)量為n,基本再生數(shù)為k,那么第二天新增的感染患者數(shù)量為nk,第三天為nk2,以此類推,可以得到在第t天的感染患者數(shù)量為:
(1)
其中,k為基本再生數(shù),n為初始感染人數(shù),t為天數(shù)。
利用式(1)對(duì)2020年1月13日-2月3日公布的確診感染數(shù)據(jù)進(jìn)行擬合,結(jié)果見(jiàn)圖1。由圖1可知,曲線可以較好地?cái)M合實(shí)際數(shù)據(jù)。
圖1 1月13日至2月3日確診患者數(shù)量與擬合曲線
2.2.1控制手段干預(yù)后的模型 對(duì)傳染病的控制在于控制傳染源,切斷傳播渠道,保護(hù)易感人群,這些都可歸結(jié)為人為地降低基本再生數(shù)k。
由SIR傳播理論可知,只有當(dāng)再生數(shù)小于1時(shí),傳染病才可被控制。當(dāng)采取的控制手段力度大時(shí),干預(yù)后再生數(shù)下降大,當(dāng)采取的控制手段力度小時(shí),干預(yù)后再生數(shù)下降小。在此,我們討論干預(yù)后再生數(shù)小于1的情況。
假設(shè)在第t0天,再生數(shù)小于1,那么在t0天之前,傳染病感染患者數(shù)量以指數(shù)型增長(zhǎng),此后總確診患者數(shù)量呈現(xiàn)下降的趨勢(shì),由此可以得出:
(2)
回歸算法是機(jī)器學(xué)習(xí)中最常見(jiàn)也是使用最廣的一種算法,是一種有監(jiān)督學(xué)習(xí)的算法。在這里我們使用最小二乘準(zhǔn)則(least square error,LSE)和梯度下降算法對(duì)數(shù)據(jù)進(jìn)行非線性回歸,尋找天數(shù)與確診患者數(shù)量的非線性關(guān)系。
2.3.1最小二乘準(zhǔn)則 最小二乘準(zhǔn)則提供了一種損失函數(shù)的表達(dá)方法,基本思路是使得所有樣本點(diǎn)到曲線或一面的距離最小。通過(guò)最小二乘準(zhǔn)則可以很容易地寫(xiě)出損失函數(shù),即:
(3)
其中,J(θ)為損失函數(shù),yi為樣本觀測(cè)值。
2.3.2梯度下降法 梯度下降算法在機(jī)器學(xué)習(xí)中的應(yīng)用十分廣泛,主要通過(guò)迭代找到目標(biāo)函數(shù)的極小值,但多數(shù)情況下,其較難找到全局最優(yōu)解,一般只能找到局部最優(yōu)解,因此,對(duì)模型預(yù)測(cè)參數(shù)的準(zhǔn)確性可能會(huì)產(chǎn)生一定的影響。
首先,我們對(duì)θ進(jìn)行隨機(jī)初始化,然后沿著負(fù)梯度的方向進(jìn)行迭代,使得更新后的θ令J(θ)更小,公式如下:
(4)
其中θ為參數(shù),J為損失函數(shù),η為學(xué)習(xí)率。
當(dāng)θ下降到某個(gè)無(wú)法下降的點(diǎn)或者某個(gè)定義的極小值時(shí),停止下降,并將得到的θ代入損失函數(shù)中,得到極小值,完成對(duì)參數(shù)的估計(jì),見(jiàn)圖2。
由式(5)求損失函數(shù)J(θ)對(duì)θi的偏導(dǎo)數(shù):
(5)
2.3.3計(jì)算數(shù)據(jù)與擬合結(jié)果 為求解擬合系數(shù),所需的數(shù)據(jù)如下:
圖2 梯度下降示意圖
X=[x1,x2,…,xn]
(6)
Y=[y1,y2,…,yn]
(7)
(8)
(9)
根據(jù)上述步驟計(jì)算出擬合值后,便可對(duì)確診患者數(shù)量進(jìn)行預(yù)測(cè),結(jié)果見(jiàn)圖3。由圖3可知,在拐點(diǎn)到來(lái)后20天左右,由于干預(yù)強(qiáng)度逐漸增大,疫情開(kāi)始趨于穩(wěn)定,最終確診患者數(shù)量在75 000人左右。
圖3 基于1月13日至2月3日確診人數(shù)擬合數(shù)據(jù)的預(yù)測(cè)曲線
根據(jù)上述模型對(duì)部分省市的感染規(guī)模做簡(jiǎn)單推算,表1為2020年1月20日至2月2日部分省市衛(wèi)生健康委員會(huì)發(fā)布的確診患者數(shù)量。
表1 各省市衛(wèi)健委發(fā)布的累計(jì)確診患者數(shù)量
對(duì)表1數(shù)據(jù)用模型進(jìn)行擬合,然后對(duì)各省市最終感染患者數(shù)量進(jìn)行預(yù)測(cè),結(jié)果見(jiàn)圖4。
圖4 各省市確診患者數(shù)量預(yù)測(cè)曲線
由圖4可以得出各省市的預(yù)計(jì)感染患者數(shù)量,將其與本省市人口進(jìn)行對(duì)比,確定確診患者數(shù)量在本省市的占比,以此評(píng)估各省市新冠肺炎的嚴(yán)重程度,見(jiàn)表2。由表2可知,湖北預(yù)估確診人數(shù)最多,其次是浙江和廣東,這與當(dāng)前疫情嚴(yán)重程度相吻合。
本研究通過(guò)對(duì)新型冠狀病毒肺炎的傳播模型進(jìn)行建模,并根據(jù)時(shí)間節(jié)點(diǎn)等數(shù)據(jù)預(yù)測(cè)了拐點(diǎn)出現(xiàn)的時(shí)間。結(jié)果表明,疫情在2020年1月25日后16~18天左右將會(huì)出現(xiàn)拐點(diǎn),在一個(gè)月左右確診患者數(shù)量將會(huì)趨向平穩(wěn),新增確診患者數(shù)量將很少。從預(yù)估確診患者數(shù)量在各省市中占比來(lái)看,湖北的嚴(yán)重程度為第一梯隊(duì),浙江、廣東、河南、湖南、安徽、重慶、江西為第二梯隊(duì),如果生活在以上幾個(gè)省市應(yīng)盡量減少外出,外出時(shí)應(yīng)避免前往人群聚集的地方,并采取自我防護(hù)措施,注意佩戴口罩。
表2 各省市預(yù)估確診患者數(shù)量在本省市人口的占比