張雷雨,劉 杰
(1.連云港職業(yè)技術(shù)學(xué)院建筑工程學(xué)院,江蘇 連云港 222006;2.江蘇海洋大學(xué)海洋技術(shù)與測繪學(xué)院,江蘇 連云港 222005)
2019年12月以來,新型冠狀病毒肺炎(coronavirus disease 2019,COVID-19)疫情在國內(nèi)外蔓延。疫情數(shù)據(jù)具有龐雜特性,傳統(tǒng)數(shù)據(jù)分析方法缺乏對疫情動態(tài)性和時空特征的描述,難以完成對疫情微觀層次的剖析[1]。因此,綜合利用知識圖譜技術(shù)和地理學(xué)理論以有效地揭示疫情動態(tài)傳播的時空分布規(guī)律。該領(lǐng)域?qū)W者研究了COVID-19相關(guān)的病例活動、醫(yī)用物資等知識庫構(gòu)建。陳曉慧等通過對COVID-19病例活動關(guān)鍵節(jié)點回溯,完成了微觀層面上疫情傳播過程的推理和驗證,從模式層、數(shù)據(jù)層與原型驗證系統(tǒng)三方面對COVID-19病例活動知識圖譜進(jìn)行了多樣化描述[2]。向軍毅等采用自頂向下與自底向上兩種方式完成了COVID-19醫(yī)用物資的半自動化知識圖譜構(gòu)建[3]。金安楠等研究表明COVID-19傳播過程具有時空特征,經(jīng)典分析手段未能刻畫其時空演化與人地互動的地理過程[4]。陳江平等利用空間自相關(guān)方法對H1N1傳播路徑進(jìn)行分析,認(rèn)為疫情聚集重心并未伴隨時間轉(zhuǎn)移[5]。余正等利用DBSCAN自適應(yīng)聚類算法,細(xì)粒度地分析溫州市疫情時空演化,發(fā)現(xiàn)疫情在青壯年人群更易傳播,采用一定措施可以有效遏制疫情傳播[6]。
地理知識圖譜通過引用時空關(guān)系和語義特征,利用語義網(wǎng)絡(luò)對地理概念、實體及其間關(guān)系進(jìn)行形式化的描述,不僅能夠清晰表達(dá)數(shù)據(jù)的層次信息,還能體現(xiàn)出實體間的時空關(guān)系和語義信息[7-9]。筆者將海量的患者信息整合成結(jié)構(gòu)化的知識,同時從地理學(xué)視角開展疫情時空分析、重點城市疫情傳播過程時空回溯等方面的研究,能夠?qū)崿F(xiàn)對COVID-19地理知識圖譜的構(gòu)建和可視化分析。
本文以江蘇省為研究區(qū)域,研究數(shù)據(jù)來源如下。
(1)空間數(shù)據(jù)來源于國家基礎(chǔ)地理信息中心(http://www.webmap.cn/commres.do?method=result100W),包括江蘇省矢量邊界圖、道路網(wǎng)分布圖。
(2)每日病例確診情況為江蘇省及其13個地級行政區(qū)衛(wèi)生健康委員會(http://wjw.jiangsu.gov.cn/)通報的確診病例,包括每日新增確診、現(xiàn)存確診、疑似、死亡人數(shù)。
(3)確診患者的詳細(xì)信息及其時空活動軌跡數(shù)據(jù),筆者利用爬蟲技術(shù)從互聯(lián)網(wǎng)中(周邊疫情、同行查詢等小程序)獲得,包括性別、年齡、所屬地、居住地、與其他病例關(guān)系、出行方式、出行時間及軌跡、發(fā)病時間、確診來源、就診醫(yī)院、確診時間,然后通過人工判讀爬取到的確診病例詳細(xì)信息,對數(shù)據(jù)進(jìn)行整合、去重、糾錯處理。本研究采用2020年1月23日至2020年2月19日的江蘇省疫情數(shù)據(jù),其確診患者的空間分布如圖1所示。
圖1 江蘇省確診分布圖
本文采用自頂而下的方法構(gòu)建確診病患的地理知識圖譜[10-11],包括互聯(lián)網(wǎng)疫情數(shù)據(jù)獲取、病患信息抽取及其本體構(gòu)建和病患實體融合與入庫三部分。采用爬蟲程序從微信小程序(疫情小區(qū)地圖、周邊疫情、同行程查詢)、江蘇省衛(wèi)生健康委員會官網(wǎng)及各市級衛(wèi)健委官網(wǎng)公布的疫情信息中獲取疫情數(shù)據(jù)及其軌跡信息,將獲取的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行清洗與整理,通過提取病患實體并對其進(jìn)行本體構(gòu)建,完成病患實體間的屬性與及其時空關(guān)系的抽取,對眾多實體進(jìn)行融合,最終實現(xiàn)新冠肺炎疫情病患地理知識圖譜。研究總體技術(shù)路線如圖2。
圖2 研究總體技術(shù)路線
本文研究數(shù)據(jù)包括OpenKG-COVID-19(http://openkg.cn/group/coronaviru)數(shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù),衛(wèi)生健康委員會公示網(wǎng)頁、微博網(wǎng)頁等半結(jié)構(gòu)化數(shù)據(jù)和專業(yè)文獻(xiàn)資料、文本數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。針對多種來源的數(shù)據(jù)信息,使用多策略數(shù)據(jù)獲取方法[12-13]。對于結(jié)構(gòu)化數(shù)據(jù)直接提取其相關(guān)數(shù)據(jù),利用網(wǎng)頁爬蟲技術(shù)提取半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)則采用人工處理的方式來整合[9]。
由于確診患者數(shù)據(jù)庫中的病患信息來源復(fù)雜,病患數(shù)據(jù)質(zhì)量存在良莠不齊、不同數(shù)據(jù)源信息冗余、病患間關(guān)聯(lián)關(guān)系模糊等問題,需要對病患數(shù)據(jù)進(jìn)行剔粗取精,增強(qiáng)病患數(shù)據(jù)庫內(nèi)部的邏輯性和表達(dá)能力,建立有效的實體關(guān)系以填充新冠肺炎疫情病患知識圖譜。江蘇省各地級市確診患者數(shù)據(jù)概況見表1。
表1 江蘇省各地級市確診患者數(shù)據(jù)概況
本文將獲取到的確診患者信息實體關(guān)系定義為五元組 圖3 本體鏈接結(jié)構(gòu)化示例 本文采用關(guān)系數(shù)據(jù)庫存儲病患數(shù)據(jù)和部分結(jié)構(gòu)化語義信息,同時采用圖數(shù)據(jù)庫存儲語義關(guān)系以及提取病患實體空間關(guān)系,最后利用Protégé工具進(jìn)行確診患者信息本體庫構(gòu)建[13-16]。 本文采用自頂而下的方式構(gòu)建確診患者地理知識圖譜。首先,從整合后的患者數(shù)據(jù)中抽取患者實體、患者關(guān)系及患者時空活動軌跡信息;其次,利用Protégé構(gòu)建本體模型,并將采集的患者數(shù)據(jù)資源與實體關(guān)系進(jìn)行知識融合;最后,使用圖數(shù)據(jù)庫Neo4j實現(xiàn)江蘇省COVID-19確診患者地理知識圖譜數(shù)據(jù)的存儲與訪問。 圖4為江蘇省部分確診患者地理知識圖譜概覽,通過節(jié)點鏈接網(wǎng)絡(luò)圖展示江蘇COVID-19確診患者地理知識圖譜,其中圓圈代表實體,線為病患-病患、病患-地區(qū)、病患-事件、病患-交通工具、地區(qū)-地區(qū)等關(guān)系。 圖4 江蘇省部分確診患者地理知識圖譜 國家衛(wèi)健委公布信息《新型冠狀病毒感染的肺炎防控方案(第二版)》表明COVID-19潛伏期最長14天,多為3~7天。本文以7天為一個時間段,將江蘇省確診患者數(shù)據(jù)劃分為4個時間序列,各時間段內(nèi)所有地級市的確診患者變化如圖5和圖6所示。在疫情暴發(fā)初期,江蘇省出現(xiàn)的確診患者大多為從武漢返鄉(xiāng)人員,集中在交通便利的蘇南地區(qū),如南京、蘇州、無錫。在蘇北地區(qū),徐州作為重要交通樞紐,人口多且流動頻繁,感染風(fēng)險較大,確診人數(shù)位列江蘇省第三。雖然蘇中地區(qū)相比蘇南地區(qū)交通通達(dá)度低,但由于在2月1日至2月19日期間淮安暴發(fā)酒店公眾性聚集案例,最終確診人數(shù)高于蘇中地區(qū)其他城市。此后,在江蘇及地方政府及時采取相關(guān)防控措施后,疫情傳播得到了有效控制。 圖5 江蘇省病患時序分布 圖6 江蘇省城市病患時序 南京既是江蘇省省會,同時也是全國重要的交通樞紐,是江蘇省常住人口較多、省內(nèi)人口流動較大的城市,導(dǎo)致確診患者人數(shù)居全省首位。春節(jié)后大量返城人員回南京,增加了南京地區(qū)的疫情傳播風(fēng)險,因此,本文對南京市的疫情傳播過程進(jìn)行回溯。從圖7可以看出南京市病患分布情況,多集中在疫情傳播風(fēng)險較高的江寧、鼓樓、建鄴、棲霞、浦口、玄武、六合、雨花臺、江北新區(qū)、秦淮等地區(qū),有病例在不同區(qū)縣流動導(dǎo)致跨區(qū)域傳染,其中南京市交通樞紐中心江寧區(qū)患者人數(shù)較多,由于高淳區(qū)與溧水區(qū)人口密度稀疏且人口流動不頻繁,因此疫情傳播風(fēng)險較低。從性別、年齡、確診來源、分布地區(qū)四個角度追溯南京市病患信息,由圖8(a)得出病患年齡分布跨度較大,30~40歲之間人數(shù)最多,占總?cè)藬?shù)24%;病患性別特征如圖8(b)展示,總體分布趨近平衡;南京市病患多為密切接觸型,如圖8(c);由圖8(d)可知在南京市所有區(qū)縣中,江寧區(qū)病患最多,高達(dá)19例。 圖7 南京市病患分布 圖8 南京市病患屬性 通過知識圖譜構(gòu)建完成病患確診前活動軌跡回溯,圖9(a)為病患27確診前活動軌跡圖譜,圖9(b)為該病患在南京市內(nèi)軌跡回溯圖。病例27為一名居住在江寧區(qū)的33歲男性,常住武漢。1月20日乘坐高鐵(武漢-南京南站),然后乘車回江寧岳父家中,中午12時,病例27乘坐私家車從家中到達(dá)軟件大道站,12時22分乘坐地鐵1號線前往鼓樓站,騎共享單車到達(dá)中信銀行,17時病例27乘公交到達(dá)荔枝廣場,18時30分乘地鐵1號線(鼓樓站-軟件大道站),然后步行回到家中。1月21日8時病例27開車到達(dá)朝明生鮮超市,門口逗留30分鐘后乘車回家。1月22日8時病例27開車到達(dá)華潤蘇果購物廣場,購物約2小時后開車回家后未外出,2月11日被確診為新型冠狀病毒肺炎。 圖9 病例27軌跡回溯 COVID-19疫情呈現(xiàn)時空快速擴(kuò)散規(guī)律,綜合運(yùn)用時空理論與知識圖譜構(gòu)建方法,能夠有效挖掘疫情傳播過程地理知識和傳染擴(kuò)散規(guī)律。本文選取江蘇省為研究區(qū)域,基于官方衛(wèi)生健康委員會發(fā)布的確診病例數(shù)據(jù),結(jié)合相關(guān)的時空活動或事件數(shù)據(jù),整合病例之間的時空關(guān)系,構(gòu)建了新冠肺炎疫情地理知識圖譜。在COVID-19地理知識圖譜的可視化分析方面,分別進(jìn)行了疫情時空分析、重點城市疫情傳播時空溯源。對確診患者的時空分布與疫情的傳播過程進(jìn)行知識回溯,以便從宏觀和微觀兩個角度把握疫情狀況,推動全國疫情阻擊戰(zhàn)走向勝利。本文構(gòu)建的新冠肺炎疫情地理知識圖譜不僅限于COVID-19方面,未來還可在其他傳染病方面提供一種可行分析手段。3 結(jié)果分析
3.1 COVID-19地理知識圖譜綜覽
3.2 COVID-19疫情時空分析
3.3 重點城市疫情傳播時空知識溯源
4 討論