胡曉雯,薛銘琰,張 楓,卞子龍,3,吳 靜,蔡奇慧*
1南京醫(yī)科大學生物醫(yī)學工程與信息學院,2公共衛(wèi)生學院,江蘇 南京 211166;3浙江大學公共衛(wèi)生學院,浙江 杭州310058
傳染病一直伴隨著人類的發(fā)展,對人類健康構成嚴重威脅,而基本衛(wèi)生設施的完善,生活水平的提高以及藥物和疫苗的研發(fā)又促使總發(fā)病率和病死率穩(wěn)步下降[1]。在中國,1970—2007年,連續(xù)報告的18 種傳染病的年發(fā)病率不斷下降,從每10 萬人4 000多例下降到每10萬人少于250例[2]。
目前國內(nèi)針對法定傳染病的時空分析較為成熟,如張淼等[3]利用空間自回歸對甲乙類傳染病進行空間聚集性分析,王志心等[4]利用機器學習的方法對各省份新型冠狀病毒肺炎疫情進行預測。在可視化方面,金思辰等[5]基于傳染病時空數(shù)據(jù)進行聚類分析,并設計可視化系統(tǒng),但編程較為專業(yè)。高效清晰的數(shù)據(jù)可視化可以讓研究人員更容易掌握客觀情況并采取更有效的應對方法。用圖形表現(xiàn)復雜的數(shù)據(jù),比傳統(tǒng)的統(tǒng)計分析法更加形象且具有啟發(fā)性。因此,公共衛(wèi)生研究人員可以借助傳染病數(shù)據(jù)的可視化圖表更好地尋找數(shù)據(jù)規(guī)律、分析推理、預測未來趨勢。
Shiny 是其開發(fā)團隊針對R 語言開發(fā)的網(wǎng)頁應用開發(fā)框架,可允許用戶使用純R 語言開發(fā)界面簡潔、功能強大可發(fā)布的網(wǎng)頁應用。通過建立交互式圖表和應用程序的Web框架,實現(xiàn)網(wǎng)頁應用與數(shù)據(jù)處理的無縫銜接,可將分析結(jié)果轉(zhuǎn)化為交互式Web視覺效果[6]。因此本研究利用它設計了一款集數(shù)據(jù)分析與可視化為一體的分析系統(tǒng)——中國法定傳染病可視化分析系統(tǒng)。
了解傳染病的流行趨勢,加強傳染病的預防和控制,對于公共衛(wèi)生安全具有重要意義。本研究通過收集整理2004—2017年法定傳染病的病例數(shù)、死亡情況、發(fā)病率、病死率和年齡分布數(shù)據(jù),旨在分析中國39種法定傳染病的流行情況,包括時間和空間趨勢,為政府制定最佳防控策略提供科學依據(jù)。
數(shù)據(jù)資料來自國家人口與健康科學數(shù)據(jù)共享平臺(http://www.ncmi.cn/),收集2004—2017年應呈報的甲、乙、丙3 類共39 種法定報告?zhèn)魅静〉陌l(fā)病數(shù)、死亡數(shù)、發(fā)病率、病死率和年齡分布數(shù)據(jù)。其中甲類2種、乙類26種、丙類11種。甲類傳染病和乙類傳染病中的肺炭疽和嚴重急性呼吸綜合征(severe acute respiratory syndrome,SARS)在診斷后2 h內(nèi)應在線報告,其余乙類和丙類傳染病應在24 h內(nèi)報告[7]。
該系統(tǒng)由軟件RStudio 在R 語言環(huán)境下(R-3.5.2)編程完成。通過安裝多種功能的R 包(shiny、ggplot2、maps、pheatmap、gplots、plyr、dplyr、spdep、inla等),可實現(xiàn)多種統(tǒng)計分析與可視化功能。假設檢驗的水準α=0.05,為雙側(cè)檢驗。
Shiny是用于R的Web應用程序框架,可用于構建交互式Web 應用程序。創(chuàng)建應用程序需要兩個R 腳本:一個名為ui.R 的用戶界面腳本和一個服務器腳本server.R。用戶界面腳本控制應用程序的布局和外觀。服務器腳本包含R對象以及如何顯示它們的有關說明。該應用程序使用一種稱為反應性的功能來支持交互性。這樣,用戶對文本、日期及其他輸入內(nèi)容進行修改后,相應的R 對象將得到自動更改。
本研究設計的可視化系統(tǒng)框架詳見圖1所示。
圖1 可視化系統(tǒng)框架Figure 1 Framework of visualized system
系統(tǒng)的主界面如圖2所示,包括4個功能模塊:總體概述、表格制作、統(tǒng)計分析和圖形繪制,其中圖形繪制的可視化功能為平臺的特色與主要功能。本系統(tǒng)通過讀取指定的傳染病數(shù)據(jù)信息,對數(shù)據(jù)信息進行綜合處理,通過數(shù)據(jù)匯總和分析,可以對多年的傳染病數(shù)據(jù)進行統(tǒng)計學分析與可視化呈現(xiàn)。
圖2 可視化系統(tǒng)主界面Figure 2 The main interface of the visual system
總體概述模塊中主要包括系統(tǒng)簡介,介紹了可視化系統(tǒng)設計的背景,這是一款兼具數(shù)據(jù)分析與可視化功能的系統(tǒng)。同時在該模塊中還以動態(tài)式和交互式地圖的形式展現(xiàn)了2016 年中國地區(qū)(除港、澳、臺)法定報告?zhèn)魅静〉陌l(fā)病率分布情況,表1 展示了具體的發(fā)病情況。
表格制作模塊分為年齡數(shù)據(jù)、月份數(shù)據(jù)、年齡分層數(shù)據(jù)、地區(qū)數(shù)據(jù)、按傳染途徑分類數(shù)據(jù)5 個部分。如按年齡分層數(shù)據(jù)(圖3),通過讀入指定數(shù)據(jù),可以對各層數(shù)據(jù)進行標化從而得到熱圖的目標數(shù)據(jù)集。其他數(shù)據(jù)類型類似,不贅述。
在統(tǒng)計分析模塊中,可以對發(fā)病情況進行人群、時間、空間和時空交互這4個層面的分析。
人群分析,分為年齡分層分析和疾病種類分析。圖4 展示疾病年齡聚類分析的結(jié)果,如手足口病、腮腺炎在兒童中的發(fā)病要高于成人;而乙肝、淋病成人發(fā)病較多。同時能夠找出發(fā)病年齡結(jié)構類似的疾病,如淋病和艾滋病的發(fā)病年齡結(jié)構類似,同樣高發(fā)于成人。另外,對地區(qū)的傳染病數(shù)據(jù)進行聚類分析,也可找出發(fā)病結(jié)構類似的省份。
表1 2016年中國地區(qū)法定報告?zhèn)魅静R總表Table 1 The summary of notifiable infectious diseases of China in 2016
時間層面的分析,利用時間序列分析的ARIMA模型[8-9]、指數(shù)平滑模型預測未來的發(fā)病變化情況,并給出95%可信區(qū)間,預測未來年份的傳染病發(fā)病變化情況??ǚ节厔莘治觯瑒t以統(tǒng)計表格的形式判斷39種傳染病發(fā)病率的升降情況。
圖3 年齡分層數(shù)據(jù)Figure 3 Age stratified data
圖4 年齡分層熱圖Figure 4 The heatmap of age stratified data
空間層面的分析,使用空間自相關分析以及重心遷移技術??臻g自相關是檢驗空間單元屬性聚集程度的一種有效方法,可以用來探索傳染病的空間聚集性以及發(fā)病率的中心改變情況??臻g自相關分為全局空間自相關和局部空間自相關兩大類,Moran’s I 指數(shù)法是最為基本和重要的方法[10]。通過將Global Moran’s I 指數(shù)的觀測值與其期望值E(I)進行比較,可以判定其空間相關性,但是仍然要嚴格檢驗兩者之間的差異是否具備統(tǒng)計學上的顯著性水平。可通過Z統(tǒng)計量來進行檢驗。根據(jù)正態(tài)分布檢驗,在顯著性水平α下,當P <α,表明區(qū)域之間的屬性分布具有顯著的空間相關關系;當P>α,表明區(qū)域之間的屬性分布不具有顯著的空間相關關系[11-12]。對2004 年39 種傳染病的空間分布進行分析,利用P值來判斷聚集性是否明顯,這里P=0.267 7表明聚集性并不明顯(圖5)。
時空交互分析,使用貝葉斯時空模型和時空掃描統(tǒng)計量的方法。貝葉斯時空模型是根據(jù)貝葉斯統(tǒng)計原理對具有時空屬性的數(shù)據(jù)資料進行建模。模型中所有未知參數(shù)均作為隨機變量,利用先驗分布對風險估算時可借用鄰近時空信息較好地解決復雜時空結(jié)構中的異質(zhì)性問題,充分考慮傳染病的時空屬性[13]。相對于直接利用各省發(fā)病率來描述傳染病的相對風險,貝葉斯時空模型可以分析區(qū)域間的相鄰關系,使得估計結(jié)果不易受樣本量與極端值的影響[14],除此之外,相較于空間層面僅能對1年情況分析的方法,貝葉斯時空模型將時間變量納入分析。
圖5 空間自相關分析Figure 5 Spatial autocorrelation analysis
在圖形繪制模塊,以折線圖、極圖、盒圖、地圖熱力圖等多種靜態(tài)和交互式圖片的形式將數(shù)據(jù)可視化,這也是平臺的特色之一。
極圖用顏色深淺顯示了39 種傳染病歷年的發(fā)病變化情況(圖6)。如流感扇區(qū),從內(nèi)向外顯示了2004—2017 年流感的發(fā)病變化。每種傳染病每年的發(fā)病率,做成極圖形式,可以直觀看出哪些年份傳染病盛行,哪些傳染病傾向于同時發(fā)生。
圖6 極圖Figure 6 Pole diagram
根據(jù)各省份的發(fā)病率畫出盒圖(圖7),顯示了各省份發(fā)病率隨年份增長的分布情況。地圖熱圖欄可通過導入各省的數(shù)據(jù),繪制發(fā)病率、死亡率、病死率的地理空間趨勢。該系統(tǒng)還可以繪制柱形圖、條形圖以及雷達圖等交互式圖形。
圖7 各年發(fā)病率的盒圖Figure 7 Box plot of incidence rates by year
目前,國內(nèi)研究人員較少對傳染病開展綜合的時空可視化分析,更多集中在某種傳染病的時間層次或者空間層次的分析[15-16]。本研究的中國法定傳染病數(shù)據(jù)可視化分析平臺是一款數(shù)據(jù)分析與可視化系統(tǒng),特色在于有較完善的統(tǒng)計學分析,又提供了數(shù)據(jù)的自動制表與可視化結(jié)果的輸出,更對時空數(shù)據(jù)進行動態(tài)化與交互式展示。該應用程序易于使用,使公共衛(wèi)生研究人員無需復雜的統(tǒng)計或編程技能即可執(zhí)行復雜的監(jiān)視分析。它不僅可以作為空間和時空疾病數(shù)據(jù)的探索性工具,交互式地顯示地圖、時間序列和各種表格,還可以通過使用R 包INLA 擬合貝葉斯模型來獲得疾病風險估計及其不確定性[17]。另外,對新數(shù)據(jù)亦可進行處理,并實時給出相關結(jié)果。
基于網(wǎng)絡的法定傳染病報告系統(tǒng)自2004 年投入運行以來,對傳染病的及時發(fā)現(xiàn)和控制產(chǎn)生了很大影響。減少疾病,可為整個社會財政和人民健康帶來很多好處。之前國內(nèi)也有一些關于傳染病研究的報道,但本研究的獨特之處在于整合了中國地區(qū)(除港、澳、臺)14 年來39 種法定報告?zhèn)魅静〉娜繑?shù)據(jù)集??梢约皶r了解最新法定報告?zhèn)魅静〖俺蕡髠€案數(shù)目的狀況,為公共衛(wèi)生部門提供法規(guī)和計劃管理信息。
當然,面對許多技術問題,本研究也嘗試利用多種方法去解決。如為確保圖像的實用性與可適用性,同時更好地呈現(xiàn)傳染病數(shù)據(jù)的時空趨勢與人群分布特征,本研究查閱大量相關文獻,以尋找廣泛使用的圖形,并且據(jù)此設計幾種特色圖形,如年齡分層聚類圖。同時不斷調(diào)整相關繪圖參數(shù),達到美觀大方的效果。
拓展動態(tài)式與交互式可視化是難點??梢暬瓤梢允庆o態(tài)的,也可以是動態(tài)的。動態(tài)式可視化可以將時間線更具體地展現(xiàn)出來,設計成員采取層層疊加的方式,選取固定的過渡方式,最終形成動態(tài)圖的格式。
了解傳染病的流行趨勢,加強傳染病的預防和控制,對于公共衛(wèi)生安全具有重要意義。為了描述疾病在人群、時間、空間上的分布特點,需要通過專業(yè)的統(tǒng)計學手段進行驗證,也需要通過可視化的手段直觀展現(xiàn)疾病分布特點。于是,本研究制作了折線圖、年齡分層熱圖、滑珠圖、地區(qū)分布熱圖等來描述2004—2017年的傳染病分布特點。
本研究的設計分析也存在一定不足之處,相對于分析某一種具體的傳染病,宏觀分析較粗糙,沒有考慮經(jīng)濟因素、氣候因素(溫度、濕度、風速、顆粒物PM2.5)等)[18]。因此,在未來的版本中,將為疾病映射、群集檢測以及自定義數(shù)據(jù)可視化提供更多選項,從而增加其靈活性。擴展應用程序可以執(zhí)行的分析類型,以便用戶可以在更廣泛的模型中進行選擇,合并協(xié)變量,包括不同類型的時空隨機效應,以及在不同形狀的聚類中進行選擇;另一個擴展是分析點數(shù)據(jù)的統(tǒng)計方法和可視化。梁祁等[19]利用移動百分位數(shù)法、控制圖法對2009—2011年江蘇省傳染病進行預警,但缺乏預測模型,而本研究系統(tǒng)可以基于時間序列模型等方法對相關疫情進行預測。
綜上所述,相比其他類似系統(tǒng),設計的R shiny可視化統(tǒng)計分析系統(tǒng)操作簡便,分析方法多樣,提供了時間、空間的預測模型,有利于描述傳染病的流行特點,便于公共衛(wèi)生人員研究。