李慶禧,賈云濤,林俊鋒,羅星怡
(北京理工大學珠海學院數(shù)理與土木工程學院,廣東 珠海519088)
研究目的為填補國內(nèi)外新冠肺炎(COVID-19)疫情死亡率與天氣因素研究的空白,幫助決策者做出正確的決策,減少新冠肺炎的死亡人數(shù),在實現(xiàn)人道主義的同時減少資源的浪費。
首先確定了有關(guān)天氣的幾項關(guān)鍵因素,如氣壓、濕度與溫度等。接著,為了減少不同醫(yī)療條件、不同防疫政策帶來的差別,選擇搜集同一時間段內(nèi)、同一地區(qū)的各個因素的具體數(shù)據(jù)與對應的新冠肺炎死亡率。緊接著為了避免因為數(shù)據(jù)量綱不同帶來的差距,對因變量進行標準化,接著進行回歸分析,在分析中,需要判斷回歸方程是否存在違背基本假設(shè)的情況,最后根據(jù)回歸方程確定影響腦卒中發(fā)病的關(guān)鍵天氣因素。研究思路如圖1 所示。
本文數(shù)據(jù)為2020-01—2020-04 美國疫情較為嚴重的27個州的數(shù)據(jù),其中天氣數(shù)據(jù)為該時間段中各因素的平均數(shù)據(jù),死亡率為該時間段的死亡率。數(shù)據(jù)主要來源于Kaggle 競賽平臺。數(shù)據(jù)結(jié)構(gòu)包含八項天氣數(shù)據(jù)(平均氣溫、平均站壓、平均氣壓、相對濕度、平均露水、平均風速、總降水量、晝夜溫差)和新冠肺炎死亡率。
不同因素之間的量綱水平并不相同,這種差別會給后續(xù)研究帶來一定的影響。為了消除這種影響,對數(shù)據(jù)進行無量綱化的處理。
圖1 研究思路圖
數(shù)據(jù)可視化如圖2 所示。
圖2 數(shù)據(jù)可視化
根據(jù)圖2,可以得出新型冠狀病毒死亡率在美國有從南到北遞增的趨勢。
為了確定天氣因素與死亡率之間是否存在關(guān)系,首先求解平均氣溫、平均站壓等天氣因素與死亡人數(shù)的偏相關(guān)系數(shù),并對偏相關(guān)系數(shù)進行顯著性檢驗。得到結(jié)果如圖3 所示,可以發(fā)現(xiàn)有部分因素與死亡人數(shù)有顯性的相互關(guān)系。但在多元變量的情況下,兩個變量之間的關(guān)系還可能受到其他因素的影響,因此我們進行回歸分析,進行下一步探討。
圖3 相關(guān)系數(shù)檢驗表
在確定了各因變量與自變量之間有一定關(guān)系后,可以利用R 語言建立回歸模型。但為了排除無關(guān)變量的影響,同時保留關(guān)鍵變量,進行逐步回歸。得到的方程結(jié)果如下:
模型方差分析如表1、表2 所示。
叢書選題契合“五位一體”總體布局和“四個全面”戰(zhàn)略布局。各卷撰寫過程中,正值黨的十九大召開,各卷作者深入學習十九大報告,內(nèi)容敘述有了更新。主編還適時調(diào)整選題,特別增設(shè)生態(tài)文明卷,直接呼應了黨的十九大明確把“堅持人與自然和諧共生”作為新時代中國特色社會主義的基本方略之一的重要精神。如此,各卷記述內(nèi)容也力求用習近平新時代中國特色社會主義思想印證和觀照我國改革開放40年的歷史發(fā)展。
表1 模型方差分析表1
表2 模型方差分析表2
得到方程后,進行顯著性檢驗。首先進行回歸方程的顯著性檢驗,從方差分析表可以得到,大部分的誤差來自回歸方程,即回歸模型造成的誤差。將回歸平方和的均方誤差和殘差平方和的均方誤差構(gòu)造F統(tǒng)計量,進行F檢驗,求得F統(tǒng)計量為13.208 4,大于檢驗統(tǒng)計量2.494,拒絕原假設(shè),證明死亡率與各天氣因素有顯著的線性關(guān)系,即回歸方程是顯著的。
接著進行回歸系數(shù)的顯著性檢驗,利用R 語言計算每個回歸系數(shù)的t統(tǒng)計量,并進行t檢驗。得到平均氣壓和相對濕度都是顯著的,即對死亡率有顯著的影響情況。
得到回歸模型后,進行擬合優(yōu)度檢驗。從方差分析表中得到回歸方程的樣本決定系數(shù)R2=0.524 4,復相關(guān)系數(shù)R=0.724 2??紤]到樣本容量與自變量的個數(shù),可以接受這樣的回歸效果。同時,在自變量個數(shù)為2,自由度為27,顯著性水平為0.05 的條件下,檢驗的系數(shù)為0.446。復相關(guān)系數(shù)遠大于檢驗系數(shù),因此可以認為方程具有較好的擬合效果。
為了判斷方程是否存在違背馬爾科夫基本假設(shè)的情況,使用R 語言分別針對三種情況進行檢驗。首先是多重共線性的情況,用擴大因子法,得到VIF值如表3 所示。
表3 各系數(shù)VIF 值
可以看出各自變量的VIF值明顯小于10,即沒有存在的多重共線性。接著用特征根判定法,得到x6與x7的特征根都顯然大于0,最后再用條件數(shù)法,得到Kappa值等于1.390 647,小于100,認為設(shè)計矩陣X沒有多重共線性。
接著進行自相關(guān)性的檢驗,進行DW 檢驗,得到方程的DW 值為1.34,P值等于0.27,大于顯著性水平0.05,因此認為殘差不存在自相關(guān)。
最后進行異方差檢驗,利用R 語言ncvTest 函數(shù)進行檢驗,得到對應P值等于0.514 46,大于顯著性水平0.05,即不存在異方差,因此認為方程不存在違背馬爾可夫基本假設(shè)的情況。
殘差分析圖如圖4所示。從圖4看出殘差基本在直線e=0附近隨機變化,并在變化幅度不大的一個區(qū)域內(nèi),顯然殘差和估計值基本是無關(guān)的。從Normal Q-Q 圖中發(fā)現(xiàn)殘差基本符合正態(tài)分布,因此模型沒有出現(xiàn)違背基本假設(shè)的情況。然后看到Scale-Location 圖,發(fā)現(xiàn)方差基本是一個常數(shù),也可同樣判斷殘差和估計值基本是無關(guān)的。從Residuals VS Leverage 圖中可以檢查數(shù)據(jù)中是否有特別極端的點。這里發(fā)現(xiàn)共有兩個數(shù)據(jù)的Cook 距離大于0.5,可以判定為異常值,因此在后續(xù)中,需要著重討論這兩個異常值。
在得到有效的回歸方程后,可以對方程結(jié)果進行解釋。在四個變量中,只有平均氣壓(Slp)與相對濕度(Rh)通過了t檢驗,因此主要對這兩個因素進行分析。平均氣壓的回歸系數(shù)為負,說明新冠肺炎的死亡率與平均氣壓呈負相關(guān)。從現(xiàn)實的角度看,氣壓對人體生理方面的影響主要是人體內(nèi)氧氣的供應,氣壓低時,人體容易出現(xiàn)頭暈、頭痛、惡心、嘔吐和無力等癥狀,神經(jīng)系統(tǒng)也會發(fā)生障礙,甚至會發(fā)生肺水腫和昏迷等癥狀,而新冠肺炎的癥狀中,絕大多數(shù)患者死于呼吸衰竭,即因為肺里有大量的黏液,氧氣無法進入肺泡進行氣體交換,導致窒息而死。因此,有一定理由相信氣壓會影響新冠肺炎的死亡率。其中,氣壓越低,死亡率越高;氣壓越高,死亡率越低。
圖4 殘差分析圖
相對濕度的系數(shù)為負,說明新冠肺炎的死亡率與平均氣壓呈負相關(guān)。空氣中的相對濕度主要影響人們的舒適感,在較高的相對濕度中,容易使人煩燥、疲倦、食欲不振,較低的相對濕度,易引起上呼吸道粘膜感染。對于新冠肺炎,典型癥狀包括咽痛鼻塞等上呼吸道感染癥狀。同時,新冠肺炎最初爆發(fā)在武漢時,也是在天氣較為寒冷、濕度較小的季節(jié)。因此有一定理由相信相對濕度會影響新冠肺炎的死亡率。其中,濕度越大,死亡率越低;濕度越小,死亡率越高。
可將天氣因素數(shù)據(jù)結(jié)合回歸模型應用到實際的場景中,對死亡率進行分析,提出可行的醫(yī)療方案,針對不同的患者設(shè)置合適的生存環(huán)境。對于醫(yī)療機構(gòu)中新冠肺炎(COVID-19)所涉及到的醫(yī)療方案,都能做出適當?shù)娘L險評估。