劉擁民 羅皓懿 胡 珊
1(中南林業(yè)科技大學計算機與信息工程學院 湖南 長沙 410004) 2(長沙市中心醫(yī)院結核病診療中心 湖南 長沙 410004)
2019年在武漢市爆發(fā)的新型冠狀病毒肺炎(Corona Virus Disease,COVID-19)給全體中國人民帶來了驚恐與災難。已經有許多研究人員對COVID-19的特征與傳播規(guī)律進行了深入的研究與探討,提出了諸如隨機森林算法[1]、基于時變參數的SIR模型法[2]、元胞自動機模型算法[3]及神經網絡逼近規(guī)律函數[4]等方法,對COVID-19的傳播規(guī)律進行仿真預測。以上方法均具有較高的預測準確率,但其中文獻[2]對人群的分類不夠細致,模型沒有引入反饋機制,且微分方程組求解較為困難,對初值比較敏感;文獻[3]中元胞具有規(guī)則一致的形狀,這并不符合實際情況,且元胞狀態(tài)更新規(guī)則中的因素過于單一,沒有考慮宏觀作用因素;文獻[1-3]僅僅考慮了COVID-19的確診人數這一簡單的數據;文獻[4]雖然考慮了政府的管控措施等其他影響因素,但是僅僅將這些影響因素做了簡單的設定,即取固定的常數處理,因此在仿真過程中預測值與實際值存在誤差。
本研究認為出現上述情況主要是因為沒有充分考慮到要將新增感染人數、媒體宣傳力度、政府隔離強度及公共場所消毒程度等因素作為動態(tài)信息來進行分析,具體如下:
(1) 急劇增加的新增感染人數。武漢是一個東西貫通、南來北往的重要樞紐,其西連成都、南連廣州和深圳、東連南京和上海、北連北京。中國交通網絡的迅猛擴張,特別是航空和高鐵在春節(jié)假期來臨之際,一定程度上加速了疫情的傳播。
(2) 媒體宣傳力度不足。公眾沒有足夠重視和地方政府對公共健康問題反應能力不夠,本來中國的城市化就已經造成人口的大規(guī)模聚集,如大都市圈,人口密度高和流動性大,進一步加快了病毒在人群中的傳播速度。
(3) 政府隔離強度。疫情初期,許多受感染患者仍未意識到自己已被感染,政府也尚未采取嚴厲的對應強制舉措,造成了疫情初期像火山爆發(fā)式的傳播。
(4) 由于氣候和環(huán)境本身的變化。氣候變暖,冰川與凍土融化,不斷有新發(fā)現的病毒產生,而且多年前的舊病毒也都可能會變異和進化[5]。
本文基于前人的研究成果,考慮了控制措施在疾病的傳播過程中造成的重要影響,利用Elman神經網絡,主要是以武漢市的COVID-19數據為例,對COVID-19的傳播規(guī)律進行預測。結果顯示,采用該方法所預測的COVID-19的每日新增確診感染人數與實際值十分接近,預測的準確率較高,相比其他預測方法而言,能更真實準確地反映疫情的實際情況。
Elman神經網絡[6]是一種典型的動態(tài)遞歸神經網絡,由Elman于1990年提出。與傳統(tǒng)的BP神經網絡不同,除了輸入層、隱含層和輸出層以外,還于隱含層增加一個特殊的承接層,作為延時算子,起到記憶的作用,其結構如圖1所示。這使系統(tǒng)具備適應時變特性的能力,使得網絡的全局穩(wěn)定性得到了增強,且與傳統(tǒng)神經網絡相比,其具有更強的計算能力。
承接層的輸入輸出關系如式(1)-式(3)所示。
x(k)=f(w1xc(k)+w2(u(k-1)))
(1)
xc(k)=x(k-1)
(2)
y(k)=g(w3x(k))
(3)
式中:k代表某時刻;y為輸出向量;x為中間層節(jié)點向量;u為輸入向量;xc為反饋狀態(tài)向量;w1、w2、w3分別為隱含層到輸出層、輸入層到隱含層、連接層到隱含層的連接權值矩陣;f(·)為隱含層神經元的傳遞函數;g(·)為輸出層的傳遞函數。
Elman神經網絡的中間層使用S形神經元,輸出層使用線性神經元。這種神經網絡對于歷史狀態(tài)十分敏感,且相比于傳統(tǒng)的BP神經網絡,其動態(tài)建模的能力更為強大。
COVID-19目前感染源仍不明確,可能的傳播途徑有飛沫傳播和接觸傳播。2020年1月7日21時,研究人員在患者標本中檢出一種新型冠狀病毒;1月10日24時,該病毒完成病原核酸檢測[8];2月11日,世衛(wèi)組織將新型冠狀病毒感染的肺炎命名為COVID-19。文獻[9]發(fā)現了第二代病例的存在,并指出該病毒存在人傳人現象,同時,針對武漢市金銀潭醫(yī)院中的患者進行研究,研究指出,存在未曾到訪華南海鮮市場但被確診患病的病例。
病毒:新型冠狀病毒。
傳染源:野生動物。
傳播途徑:主要通過接觸性傳播以及呼吸道飛沫傳播,同時也可通過消化道傳播。
易感人群:所有人群均易感,老年人感染后病重概率較大。
潛伏期:一般為3~7天,最長有可能超過14天,潛伏期內存在傳染性。
由于COVID-19的新增確診患病人數在2020年2月12日到達頂峰,此日確診的人由于各自社會活動,部分人在其處于潛伏期時就已被其感染,但因病毒處于潛伏期,自身未出現患病癥狀而未被確診,按潛伏期14天計算,在2020年2月26日時,這些當時被感染但未確診的人均因發(fā)病被確診,即在2月26日之后,全國累計確診人數仍會繼續(xù)增加,但患病人數的增幅會明顯降低。由于該疾病在全國爆發(fā)于湖北,并廣泛存在大量從湖北輸出至全國的病例,因此湖北的病例全國最多,廣東、河南、湖南與浙江同樣存在大量病例。
由圖2可知,全國新增確診從1月19日開始,直至2月4日均是持續(xù)走高趨勢,2月4日之后由于政府隔離措施與醫(yī)療系統(tǒng)的完善,新增確診總體呈下降趨勢,2月12日開始將臨床診斷病例加入確診標準,因此2月12日的新增確診突增到15 152人,2月12日之后新增趨勢均持續(xù)走低。
由圖3可知,全國與湖北的新增確診病例基本相似,2月12日達到新增確診病例的高峰,并于2月12日之后整體呈下降趨勢,而非湖北地區(qū)新增確診病例1月27日至2月19日整體走低,于2月20日劇增到261人達到高峰,2月20日之后新增趨勢整體走低。
COVID-19的傳播與發(fā)展具有動態(tài)性、非線性與非平穩(wěn)性,傳統(tǒng)的BP神經網絡無法滿足該模型預測的要求,針對具有這一特性的模型,許多研究人員引入Elman神經網絡進行預測。例如,針對股市收盤價這一動態(tài)非線性模型,吳曼曼等[10]將連續(xù)五天的數據作為輸入向量,第六天的數據作為輸出向量,預測股票收盤價趨勢;針對網絡流量這一動態(tài)非線性模型,章濤等[11]將氣壓、氣溫等因素作為輸入向量,流感樣病例作為輸出向量,對流感進行了準確預測。因此,針對動態(tài)非線性非平穩(wěn)的數據模型,使用Elman神經網絡算法進行預測是合適的。
將COVID-19的每日新增確診數據作為時間序列處理,設有序列x={x1|xi∈R,i=1,2,…,L},當用過去N天的數據預測未來M天的數據時,可有規(guī)律地將數據劃分為K個數據段,每一個數據段均可以作為訓練神經網絡的一個樣本,這樣就可以得到眾多前N個值作為網絡的輸入,后M個值作為網絡的輸出的樣本(見表1)。Elman神經網絡通過這些數據進行學習,從而實現從RN到RM的映射,以達到數據預測的目的。
表1 數據的劃分方法
以武漢市的COVID-19感染人數數據為例,武漢市的數據[12-13]是2020年1月10日至3月24日,其數據見表2。
表2 武漢市COVID-19新增確診數據
續(xù)表2
由于1月10日前,每日新增確診感染人數不足10人,不加以考慮。在1月20日左右,確診感染人數急劇增多,所以將數據從1月20日起。
在網絡設計中采用的數據是從1月20日至3月24日,共64天。在訓練Elman神經網絡時,將三天作為訓練的一個周期,前三天的日新增確診數據作為神經網絡的輸入向量,后一天的日新增確診數據作為神經網絡的輸出向量。此外,每日新增確診感染人數還與和疫情發(fā)展相關的控制措施[14-16]息息相關,如:公共場所消毒程度y1、政府隔離強度y2及媒體宣傳力度y3。因此,還需要將這些措施量化為成為可供神經網絡訓練的特征參數,取阿里指數中消毒物資的相關數據以及新浪微指數中關于COVID-19疫情的相關數據作為量化公共場所消毒程度y1以及媒體宣傳力度y3的標準,并根據武漢在COVID-19疫情發(fā)生后采取的一系列關鍵核心事件(例如封城、采用重大突發(fā)公共衛(wèi)生事件一級響應等),將眾多關鍵事件整理為時間軸,以此為依據將各數據量化為政府隔離強度y2,見表3。
表3 COVID-19控制措施表
將特征參數也作為網絡的輸入變量,此時輸入變量是一個維數為6的向量,包括三天的新增感染人數、公共場所消毒程度、政府隔離強度及媒體宣傳力度。輸出向量是后一天的新增確診數,即輸出向量是一個維數為1的向量。綜上,Elman神經網絡輸入層的神經元數量m=6,輸出層的神經元數量n=1。隱含層節(jié)點數通常采用試湊法確定,此處利用最常用的隱含層公式輔助確定節(jié)點數:
(4)
式中:l為隱含層節(jié)點數;m為輸入層節(jié)點數;n為輸出層節(jié)點數;α為1~10之間的常數。
神經網絡輸入層神經元6個,由式(4)可知網絡隱含層節(jié)點可以取6個,承接層1個,輸出層神經元1個。網絡訓練參數設定見表4。
表4 訓練參數
所構建的Elman神經網絡具體形式如圖4所示。
利用MATLAB編程對網絡進行訓練,結果如圖5所示。在預測全國新增確診患病人數時,神經網絡使用訓練集的數據對模型進行18 710次完整訓練后,網絡誤差達到要求。網絡訓練完成后,利用訓練好的網絡對疫情數據進行仿真預測,可以得到神經網絡輸出的預測值與疫情實際值之間的比較。
網絡訓練好以后,還需用其他數據對其進行測試。用表2中的1月21日—1月23日三天、1月28日—1月30日三天、2月2日—2月4日三天,2月6日—2月8日三天、2月20日—2月22日三天及2月24日—2月26日三天等共12組數據作為網絡的測試樣本,來分別預測全國與武漢市1月24日、1月31日、2月5日、2月9日、2月23日、2月27日等共15天及非武漢市1月24日、1月31日等共14天的日新增感染人數。
利用Elman神經網絡分別對全國、武漢市以及非武漢市新增確診患病數進行仿真與預測,并對網絡輸出值與預測值進行對比,仿真結果如圖6、圖7、圖8所示。圖6為全國新增患病數預測結果,圖7為武漢市新增確診患病數預測結果,圖8為非武漢市其他城市新增確診患病數預測結果。
網絡輸出結果顯示,Elman神經網絡對全國患病人數預測的效果最好,對武漢市即非武漢市地區(qū)的預測均有明顯誤差,但網絡輸出結果與實際值已經很接近。同時,可以看出,全國的預測與武漢的預測發(fā)展趨勢十分接近,這主要是因為COVID-19疫情是以武漢為中心向全國范圍內擴散,且武漢病例在全國總病例中所占比重也很大,因此武漢的預測與全國的預測與控制有著比較緊密的聯(lián)系。
進一步利用BP神經網絡對全國新增患病數進行預測,并將其與Elman神經網絡的輸出結果進行對比。BP神經網絡的輸出結果如圖9所示。
可以看出,BP神經網絡對全國新增患病人數預測的誤差明顯大于Elman神經網絡,Elman神經網絡相比BP網絡表現出更好的預測趨勢和預測精度。即對具有動態(tài)性且非線性非平穩(wěn)的COVID-19日新增患病數進行預測時,Elman動態(tài)神經網絡更合適[17]。
相比傳統(tǒng)神經網絡僅用前幾日數據作為輸入參數預測數據,本文新增了政府的相關措施、媒體的宣傳手段以及生活環(huán)境的消毒程度三個數據作為輸入參數,接下來將新增輸入參數與未新增輸入參數的神經網絡針對全國新增確診患者數的預測結果進行對比,如圖10所示。
網絡輸出結果顯示,將媒體宣傳力度、政府隔離強度及公共場所消毒程度這三個對疫情傳播有較大影響的因素作為輸入參數,可以使網絡預測更為準確。
上述仿真網絡輸出結果和實際值的對比如表5所示,Elman神經網絡訓練誤差為0.001,Elman神經網絡預測相對誤差如表6表示。
表5 測試結果與實際值對比表
表6 Elman神經網絡預測相對誤差表
可以看出,Elman神經網絡預測值與實際值十分接近,且Elman神經網絡預測的誤差在可接受范圍之內,如果訓練神經網絡的樣本進一步增多,則神經網絡輸出值的誤差會更小,即Elman神經網絡可以更為準確地輸出疾病的傳播規(guī)律。
截至2020年3月23日,大部分地區(qū)現有確診患者已經控制在100人以內,許多地區(qū)已實現“零確診”,其中政府出臺的相關措施、媒體的不斷宣傳、人們生活中對消毒的重視以及對生活環(huán)境的及時消毒,起到了重要作用。仿真實驗證明,將政府的相關措施、媒體的宣傳手段及生活環(huán)境的消毒程度作為網絡的輸入參數訓練網絡是可行且有效的。
本文基于Elman神經網絡對COVID-19的新增確診患病數進行預測。在疫情的發(fā)展過程中,政府的相關措施、媒體的宣傳手段及生活環(huán)境的消毒程度,均對防止疫情擴散起到了重要作用,因此本文對這三個屬性進行量化,聯(lián)合前三天的新增確診患病數,共六個特征作為網絡的輸入參數,對Elman神經網絡進行訓練與仿真,以此來預測現在的確診患病人數。實驗結果表明,應用該方法訓練的網絡所預測的新增確診患病數與實際情況的新增確診患病數十分接近,即該網絡可以準確預測疫情的發(fā)展,且可以較準確地展示該疾病的傳播規(guī)律。
通過BP神經網絡與Elman神經網絡對全國COVID-19新增確診患病數進行預測的對比實驗,可得出以下結論:對具有動態(tài)性且非線性非平穩(wěn)的數據預測而言,Elman神經網絡相比傳統(tǒng)BP神經網絡具有更強的適應性與預測準確性。
科學數據和信息共享是國際合作的前提[18]。目前,國外COVID-19的病例數與日俱增,2020年3月15日塞爾維亞總統(tǒng)向中國發(fā)出求助,截至2020年3月19日,已有西班牙、意大利、美國等35個國家因COVID-19進入國家緊急狀態(tài),該方法對這些已經出現COVID-19病例國家預測疫情、控制疫情也有一定的參考意義。同時,該方法也同樣可用于其他傳染病的預測與控制。