閆 旭, 張曉瑞,b*, 朱明豪
(合肥工業(yè)大學(xué) a.建筑與藝術(shù)學(xué)院b.數(shù)字人居環(huán)境研究實驗室;合肥 230000)
新冠肺炎疫情發(fā)生疫情初期,安徽省提出以縣域為劃分單元將全省劃為極高、高、中、較低、低風(fēng)險五類區(qū)域風(fēng)險等級,根據(jù)風(fēng)險等級的不同差異化疫情防控措施布控。目前國內(nèi)大規(guī)模疫情已有效阻斷,需要關(guān)注的是,作為安徽省一級梯隊的蚌埠市在疫情初期曾一度成為省內(nèi)疫情最嚴重的地級市,2020年2月9日蚌埠超過武漢成為全國疫情增長率最快的城市,日新增確診病例達37.5%(同日武漢市為12.9%)[1]。
疫情預(yù)警,是指在缺乏確定的反應(yīng)關(guān)系的前提下,通過收集、整理分析傳染病資料,綜合研判疫情信息,充分論證后調(diào)整行動預(yù)案,在下一次疫情暴發(fā)前或早期發(fā)出警報,促使相關(guān)部門及時做出反應(yīng),從而最大程度降低對高危地區(qū)人群的危害。目前國際與國內(nèi)普遍建立了完備的疫情實時監(jiān)測報告系統(tǒng),使政府能夠及時預(yù)警可能存在的聚集性疫情暴發(fā)[2]。以往常用的幾種時間、空間掃描模型一定程度上解釋了一些流行病在某段時間上的聚集性,單純以時間分析模型探測傳染病的聚集僅能預(yù)警一個地區(qū)某段時間內(nèi)疫情的暴發(fā)可能,并不能從時間空間的多維角度解釋疫情的傳播特征,存在一定的局限[3-5]。Kulldorff等提出的前瞻性時空重排掃描統(tǒng)計量及其模型(Prospective Space-Time Permutation Scan Statistic)[6],對疫情會在何時、何地暴發(fā)以及暴發(fā)的強度等做出預(yù)警模擬,該模型的用途已不僅限于對急性流行病的傳播模式研究,在生物入侵預(yù)警、犯罪行為調(diào)查、輿情檢測等領(lǐng)域亦有廣泛運用實例研究[7]。
地理信息技術(shù)及流行病動力學(xué)模型在分析新冠疫情分布和傳播特征方面都起到了顯著作用,眾多的地理分析方法及早期預(yù)警模型已經(jīng)廣泛應(yīng)用于公共衛(wèi)生及傳染病防治相關(guān)事業(yè)[8],約翰霍普金斯大學(xué)所做的全球疫情實時大數(shù)據(jù)地圖以及國內(nèi)丁香園疫情地圖等眾多平臺推出的軟件,再次體現(xiàn)了強大信息技術(shù)支撐下的疫情防控體系的力量[9]。疫情傳播數(shù)理模型是區(qū)別于社會流調(diào)的一種純理性的傳染病傳播模擬法,利用疫情發(fā)生點的時空信息對新冠肺炎疫情的暴發(fā)特征和傳播規(guī)律進行探究,若前瞻性時空重排掃描統(tǒng)計量法對于蚌埠市疫情預(yù)警具有較強可行性,則推廣至其他地市進行早期的新冠疫情預(yù)警就具備一定的應(yīng)用價值。
本次研究以安徽省蚌埠市2020年初暴發(fā)的新冠肺炎疫情逐日數(shù)據(jù)為基礎(chǔ),數(shù)據(jù)來源于蚌埠市衛(wèi)生健康委員會及蚌埠市疾控中心信息公開發(fā)布的疫情信息。信息包括患者的性別、確診時間、癥狀、長期住址、就診醫(yī)院及行動軌跡等信息[10]。信息顯示,截至2020年3月1日,蚌埠全市共160例新冠肺炎疫情病例數(shù)據(jù),對數(shù)據(jù)進行清洗,剔除無法確定詳細信息的1例病例數(shù)據(jù)后,將剩余159例經(jīng)過脫敏脫密處理后的有效病例數(shù)據(jù)導(dǎo)入GIS軟件,經(jīng)緯度信息精確到小數(shù)點后6位,進行矢量化及符號化初步處理得到蚌埠市域及市區(qū)疫情分布分級圖,可知城市地區(qū)聚集程度顯著高于農(nóng)村,部分地段出現(xiàn)聚集性疫情,聚集性地區(qū)出現(xiàn)的時間及聚集區(qū)需要進行進一步探測。
以民政部官方網(wǎng)站政務(wù)公開版塊提供的即蚌埠市域與市區(qū)所在范圍的柵格數(shù)據(jù)為基準,在ArcGIS 10.8軟件中進行矢量化圖斑的校準與重繪處理得到蚌埠市最新矢量地圖;市域衛(wèi)星影像圖底采用LSV谷歌地圖影像TIF文件;研究地理位置精確到鄉(xiāng)鎮(zhèn)/街道級別,即國家疾控中心系統(tǒng)最高精度,研究按蚌埠全域疫情涉及的81個鄉(xiāng)鎮(zhèn)街道及開發(fā)區(qū)進行統(tǒng)計分析。
眾多學(xué)者對于傳染病預(yù)警模型做過大量研究,建立了ARIMA模型、指數(shù)加權(quán)移動平均模型、控制圖法等[11-14],和用于傳染病時空分析的常用時空掃描統(tǒng)計量、貝葉斯網(wǎng)絡(luò)、PANDA、WSARE等模型[15],新冠肺炎患者在蚌埠市四區(qū)三縣范圍內(nèi)均有分布,但整體離散程度較高,采用傳統(tǒng)GIS數(shù)圖分析手段對疫情的數(shù)量、空間及時間分布特征進行可視化呈現(xiàn)為目前較為普遍的方式,此形式呈現(xiàn)疫情數(shù)據(jù)是一個地理層面的多系統(tǒng)聚合過程,所采用的各種聚類方法(如多元聚類等)及圖像展現(xiàn)形式(如核密度圖像元大小等)、讀者的主觀解讀都會使圖像具有許多感受上的偏差,需要引入新的時空分析模型。
傳統(tǒng)的空間自相關(guān)分析只在空間層面分析,因為不能考慮時間這一變量而有一定的局限性,本研究采用Kulldorff提出的前瞻性時空重排掃描統(tǒng)計量法,屬于聚類研究中的熱點探測類方法,可用于疾病暴發(fā)的早期預(yù)測,只利用病例數(shù)及時間位置信息,而無需地區(qū)高危人群數(shù)據(jù)。這是一種基于動態(tài)大小的圓形(若為投影坐標系也可能是橢圓形)移動窗口時空掃描統(tǒng)計的經(jīng)典方法(圖1),掃描每個空間單元,每次對周圍掃描時都使用不同半徑的圓,圓的半徑從0到設(shè)定的最大風(fēng)險人口值之間,一般不超過地區(qū)總?cè)丝跀?shù)的50%,以掃描窗口為底疊加形成圓柱體,計算全過程窗口內(nèi)覆蓋的統(tǒng)計量,直到統(tǒng)計量停止改變。掃描統(tǒng)計量的定義為掃描窗口的廣義似然比(Generalized likelihood ratio, GLR),GLR值越大,差異越具有統(tǒng)計學(xué)意義,則表示越具有聚集傾向。在所有窗口中選擇統(tǒng)計量最大的窗口定義為疫情聚集度最高的窗口,以此來判別窗口內(nèi)的發(fā)病數(shù)是否存在異常情況,使用蒙特卡羅假設(shè)性檢驗法(Monte Carlo hypothesis testing)檢驗集群內(nèi)部分布的非隨機性置信度分析,在所掃描到的最大及最小的聚集群中進行該假設(shè)性檢驗,從而錨定最高聚集區(qū)的空間,為最高可能聚類(Most Likely Cluster, MLC),第二則是第二級聚類,以此類推。由于基于無效性假設(shè),計算隨機數(shù)據(jù)集和真實數(shù)據(jù)集似然數(shù)之比獲取P值,則無需考慮極其復(fù)雜的概率分布問題。
圖1 時-空重排掃描預(yù)警模型簡圖
設(shè)某區(qū)域范圍p在d天中的病例總數(shù)為Cp,d,在區(qū)域內(nèi)所有時間內(nèi)的總病例數(shù)C為
每個單位區(qū)域預(yù)期發(fā)生的病例數(shù)為μp,d
設(shè)在A掃描窗口范圍內(nèi)的實際發(fā)病數(shù)為CA,不考慮時間變化和空間的交互,CA符合超幾何分布概型
其中C是數(shù)據(jù)中病例總數(shù),c是在窗口內(nèi)實際觀察到的病例數(shù),E[c]是零假設(shè)下,在窗口內(nèi)協(xié)變量調(diào)整后的預(yù)期病例數(shù)。GLR反映了窗口聚集的可能性,所以最大的窗口一定不是隨機發(fā)生的,其非隨機性是能夠置信的。為了驗證其非隨機性,還是需要進行置信度分析,其掃描窗口的無效假設(shè)為:事件在時空發(fā)生的概率完全隨機。但獲得窗口的掃描統(tǒng)計量概率分布十分困難,可使用蒙特卡羅假設(shè)檢驗法計算P值,對可能異常的聚集區(qū)進行隨機化檢測。根據(jù)總數(shù)生成N個隨機分布的數(shù)據(jù)集,將這些數(shù)據(jù)集的GLR和真實數(shù)據(jù)集窗口的GLR比對,將隨機生成的N個數(shù)據(jù)集的GLR值升序排列,真實的GLR排在S位,則P值為S/(N+1),排名越靠前,P值越小,該窗口隨機化的程度(可能性)越小。SaTScan 9.6軟件中設(shè)置蒙特卡羅法生成999個隨機的數(shù)據(jù)集,則P值精確到小數(shù)點后三位,若GLR排在第5位,則P值為0.005,窗口為隨機化的可能性為0.5%,其置信度為99.5%。若排在第50位,則P值為0.05,隨機化的可能性為5%,置信度95%,依此類推。
掃描高頻率集簇屬于較為常見的掃描統(tǒng)計類法,時間趨勢掃描統(tǒng)計的空間變化不是尋找高或低比率的聚類,相反它尋找的是趨勢高于或低于集簇外趨勢的“集群”。與其他類型掃描一樣,可以只查找具有高趨勢的簇,也可以只查找具有低趨勢的簇,或者同時查找這兩種類型的簇。集簇的高趨勢可能是增長率大于簇外,或是下降率小于簇外。同樣地,一個集簇的低趨勢,要么因為它的增長率小于集簇外部,要么因為它的下降率大于集簇外部[16]。
研究區(qū)為蚌埠全市全域,包括禹會區(qū)、蚌山區(qū)、淮上區(qū)、龍子湖區(qū)、五河縣、固鎮(zhèn)縣、懷遠縣范圍(北緯32°43'至 33°30',東經(jīng)116°45'至118°04'),研究區(qū)面積5951平方公里,常住人口約為329.64萬人;市域疫情整體發(fā)病率為0.05‰。
關(guān)鍵參數(shù)選擇:最大掃描半徑的選擇,可按照風(fēng)險人口的比率或者地理空間半徑來選擇,本研究按照軟件默認的推薦設(shè)置,以多數(shù)傳染病研究中通行參數(shù)選擇風(fēng)險人口群體的50%人口為窗口最大半徑,最大聚集時間簇集為15 d(50%總研究時間),最小研究窗口時長為5 d,時間步長為1 d,聚集窗口最低病例數(shù)為2例,蒙特卡羅法檢驗次數(shù)設(shè)置為999次。從2020年1月23日至2月23日進行逐日時-空重排掃描的前瞻性分析預(yù)警,研究全域出現(xiàn)的聚集區(qū),得出如表1的探測結(jié)果。由于研究區(qū)域范圍為地級市市域,病例樣本總量較小,一般單因素方差分析、簡單線性相關(guān)回歸及大樣本研究中等約定俗成的設(shè)定否定原隨機性假設(shè)條件α=0.05,但在小樣本多元線性相關(guān)、回歸、多元Logistic回歸時可以設(shè)定α=0.10為可否定原假設(shè)條件。設(shè)定P≤0.1置信度達到標準,根據(jù)表1得出的4個聚集區(qū)P值去除后兩項高隨機性數(shù)據(jù),對前兩項聚集區(qū)結(jié)果進行后續(xù)分析。
表1 2020年1月23日至2月23日蚌埠市市域前瞻性時空重排掃描模型檢測聚
將SaTScan 9.6軟件輸出的Shapefile文件導(dǎo)入至ArcGIS 10.8軟件中,結(jié)合軟件生成的KML文件,可得出前瞻性時空重拍掃描的高/低聚類可視化圖片,經(jīng)過處理得到蚌埠市域高/低聚類分布街道圖(按鄉(xiāng)鎮(zhèn)街道覆蓋面積的50%為臨界值區(qū)分),在738次重復(fù)計算后,蒙特卡羅序列停止。其中掃描統(tǒng)計量值為6.01的預(yù)警強度最高的聚集區(qū)為低聚集區(qū),半徑400 m,預(yù)期病例數(shù)為6例,但實際無病例發(fā)生,預(yù)警再次出現(xiàn)的時間為15天,主要涉及龍子湖區(qū)治淮街道,圖中標注為藍色;第二聚集區(qū)為高聚集區(qū),掃描統(tǒng)計量值為5.90,半徑48公里,預(yù)期病例數(shù)10例但實際病例數(shù)達22例,涉及34個街道及鄉(xiāng)鎮(zhèn)開發(fā)區(qū),主要涉及懷遠縣片區(qū),復(fù)現(xiàn)間隔11天。
時空掃描統(tǒng)計量是一種比較常見的空間研究方法[17],其作為一種熱點探測與數(shù)據(jù)挖掘方法,有多種概率模型可以使用,該模型對于短期集中暴發(fā)的疫情傳播趨勢預(yù)警具有一定優(yōu)勢[18]。在研究基數(shù)特別小的情況下(如本例),選取泊松近似的超幾何分布概型來進行計算較為簡單直接[19]。感染新冠病毒或病毒攜帶者出現(xiàn)陽性反應(yīng)具有滯性,有一定時長的潛伏期,前沿醫(yī)學(xué)研究顯示新冠病毒平均潛伏期為5.2 d[20],而我國普遍采取疑似病例隔離14天內(nèi)檢查有無陽性癥狀作為判斷確診與否的依據(jù)[21],故本研究設(shè)置最小探測窗口時長為5 d,最大集簇時長設(shè)置為15 d以預(yù)警潛伏期尚未暴發(fā)的新冠疫情,具有一定的預(yù)防醫(yī)學(xué)依據(jù)。
時空重排掃描方法也存在一定局限性,在樣本總量較小時,若能夠取得完整的、可信度高的病例數(shù)據(jù),則誤差較小。當(dāng)病例數(shù)據(jù)缺失或數(shù)據(jù)不完整時,如確診病例的位置是位于家中還是工作單位或是對于就診的選擇是去醫(yī)院或是自行居家隔離這些差異都會對研究預(yù)期產(chǎn)生影響,該法對數(shù)據(jù)源的要求較高,且需對樣本數(shù)據(jù)清洗,在小尺度地理范圍內(nèi)預(yù)警時探測到的窗口P值往往比經(jīng)驗值大,若按經(jīng)驗值則不能完全否定原隨機性假設(shè)。時空重排掃描采用的是圓形或橢圓形的窗口,則掃描到的疫情潛在的暴發(fā)窗口邊界也并非和真實的地理邊界重合,例如暴發(fā)于一些寬度窄而狹長的街道,或是轄區(qū)行政邊界范圍附近的區(qū)域。
了解新冠肺炎疫情在時-空雙維度的分布和擴散傳播的特征具有十分重要的測繪地理學(xué)及預(yù)防醫(yī)學(xué)雙重意義[22],研究為探測蚌埠市可能的新冠疫情聚集性暴發(fā)點,為市衛(wèi)健委提供可行的差異化疫情防控建議,輔助城市防疫決策并提供科學(xué)合理的依據(jù)。由于新冠疫情在蚌埠市爆發(fā)集中于2020年1至2月,尚未有實際驗證預(yù)警的方法,但使用地理信息可視化技術(shù)結(jié)合預(yù)警模型可對將來一段時間有效防控地方疫情,在預(yù)警顯示的高危探測區(qū)內(nèi)繼續(xù)網(wǎng)格化細分,對醫(yī)院、商場、酒吧、網(wǎng)吧、KTV等人流量大、成員復(fù)雜的場所進行摸排,結(jié)合訪查法、抽樣法對市縣具體鄉(xiāng)鎮(zhèn)(街道)進行防控。隨著疫情的消散,國內(nèi)疫情基本阻斷,各地社會生產(chǎn)生活已經(jīng)恢復(fù)常態(tài),但疫情防控仍然不能放松警惕。