郭曉娟,田國祥,李燕,屈彥,閆小妮,呂軍
死亡是生命活動(dòng)的停止,是導(dǎo)致人口數(shù)量變化的重要因素。死亡監(jiān)測(cè)是評(píng)價(jià)疾病預(yù)防干預(yù)措施效果的重要依據(jù)之一[1]。死亡原因資料分析可以從一個(gè)角度反映某個(gè)國家或地區(qū)的醫(yī)療水平、社會(huì)經(jīng)濟(jì)文化水平及衛(wèi)生服務(wù)狀況等對(duì)居民健康的影響[2],也為醫(yī)學(xué)、人口學(xué)、社會(huì)學(xué)等學(xué)科的研究提供了基礎(chǔ)[3,4]。隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)庫共享為科研人員的數(shù)據(jù)再利用提供了廣闊的平臺(tái)[5]。世界衛(wèi)生組織死亡數(shù)據(jù)庫(WHO Mortality Database)是目前為止國際上最大的且面向公眾開放的死亡資料登記庫[6],是對(duì)各個(gè)成員國居民疾病登記系統(tǒng)的死亡數(shù)據(jù)進(jìn)行匯編而形成的死亡資料[7,8]。本文將詳細(xì)介紹世界衛(wèi)生組織死亡數(shù)據(jù)庫的相關(guān)信息及數(shù)據(jù)提取流程,幫助需要的醫(yī)學(xué)科研工作者快速實(shí)現(xiàn)數(shù)據(jù)共享。
死亡數(shù)據(jù)來自各個(gè)國家的民事登記系統(tǒng)。當(dāng)死亡發(fā)生時(shí),當(dāng)?shù)孛袷碌怯浱幍怯浰劳鲈蛐畔?,然后由國家?dāng)局匯編信息,并每年向世界衛(wèi)生組織提交。根據(jù)ICD-9和ICD-10編碼的死因數(shù)據(jù)從1979年提供至今。死因在線查詢(CoDQL)是一個(gè)很好的用戶工具,它允許用戶根據(jù)國家、年份、性別和年齡來提取死因數(shù)據(jù)。該工具還可根據(jù)用戶需要聚合詳細(xì)的死因,形成更廣泛的死因類別。機(jī)構(gòu)和組織可使用這些數(shù)據(jù),并根據(jù)需要訪問這些級(jí)別的詳細(xì)信息,開展有目的的研究。死亡數(shù)據(jù)全部采用ICD編碼,按國家、年份、死因、性別及年齡劃分的年齡標(biāo)準(zhǔn)化死亡率載于一份方便使用的應(yīng)用程式。其中年齡分為九個(gè)不同的年齡組,國家或地區(qū)是用四位數(shù)字代碼表示,死因編碼采用由世界衛(wèi)生組織內(nèi)部制定的《國際疾病分類編碼》(ICD)的三個(gè)字符。數(shù)據(jù)的存儲(chǔ)中還包含補(bǔ)充的人口學(xué)數(shù)據(jù),用于計(jì)算死亡率和其他統(tǒng)計(jì)數(shù)據(jù)。國家的名單中并未包括世界上所有的國家,是因?yàn)橐恍﹪覜]有向世界衛(wèi)生組織報(bào)告死亡率數(shù)據(jù)。還有一些國家,他們發(fā)送給WHO的數(shù)據(jù)不是標(biāo)準(zhǔn)的ICD代碼或無ICD代碼,所以不在這里顯示。在許多資源不足的國家中,很難獲得死因資料。主要是因?yàn)橛涗涍@種資料的系統(tǒng)沒有運(yùn)作或不存在。一般來說,比較發(fā)達(dá)的國家有相當(dāng)完整的時(shí)間序列,特別是北美、歐洲(包括東歐)、澳大利亞、新西蘭、日本,前蘇聯(lián)和前蘇聯(lián)新獨(dú)立國家也有有限的時(shí)間序列。對(duì)一些較不發(fā)達(dá)國家來說,數(shù)據(jù)集是斷斷續(xù)續(xù)的,其中一些數(shù)據(jù)集的用處也有限。對(duì)于其他較不發(fā)達(dá)國家,特別是拉丁美洲的國家,近年來有一系列質(zhì)量有了很大改善。除拉丁美洲外,很少有較不發(fā)達(dá)國家呈現(xiàn)出強(qiáng)勁的時(shí)間序列。此外,一個(gè)較大的問題是缺乏醫(yī)療證明來完成死亡證明。各國通常在其歷年記錄結(jié)束后12~18個(gè)月內(nèi)向世界衛(wèi)生組織提交數(shù)據(jù)。因?yàn)樵趪乙患?jí)數(shù)據(jù)的核查、匯編過程都需要相當(dāng)多的時(shí)間。在發(fā)現(xiàn)此應(yīng)用程序的同一網(wǎng)站上,有按照ICD代碼、年份、年齡和性別去下載每個(gè)國家的原始詳細(xì)死亡率文件的鏈接。研究者應(yīng)有處理大型數(shù)據(jù)庫的經(jīng)驗(yàn),因?yàn)槲募荒軐?dǎo)入到Excel中,使用數(shù)據(jù)庫管理或統(tǒng)計(jì)軟件,如MS Access,Stata,SAS,SPSS或R。
數(shù)據(jù)庫中最新一次更新的數(shù)據(jù)是2016年,包括200多個(gè)國家和地區(qū)的死亡數(shù)據(jù)。死亡數(shù)據(jù)庫由世界衛(wèi)生組織存檔,任何人都可向世界衛(wèi)生組織提出請(qǐng)求,免費(fèi)索取其內(nèi)容。還需注意的是,數(shù)據(jù)庫中選定的報(bào)告每年以硬拷貝形式在《世界衛(wèi)生統(tǒng)計(jì)年鑒》上發(fā)表,這些出版物可在大多數(shù)大型公共圖書館和大學(xué)圖書館中找到。這本年刊特別為讀者提供了一個(gè)簡(jiǎn)潔的3頁,展示了每個(gè)國家每年的死因、年齡和性別死亡率。根據(jù)所使用疾病的國際分類版本,使用死因標(biāo)簽隨時(shí)間而異。各國不一定都在新修訂的年份采用新修訂,從一個(gè)修訂到下一個(gè)修訂通常是交錯(cuò)進(jìn)行。第一個(gè)數(shù)據(jù)年份是1950年,可獲得數(shù)據(jù)的國家數(shù)目每年都在變化。同樣,時(shí)間序列數(shù)據(jù)的存在性和完整性也因國家而異。為節(jié)省開支和儲(chǔ)存資料,每一修訂本都附有一份較短的清單。
患者的年齡組別因國家而異,并可能隨時(shí)間而異。各國可根據(jù)5~9歲(或5~14歲)和60~64歲(或55~64歲)間的5年(或10年)年齡組對(duì)死亡進(jìn)行分組。5歲以下的年齡組是可變的;一些國家將0歲和1~4歲分組使用,而另一些國家將0歲和1、2、3、4歲單獨(dú)使用。同樣,64歲以上人口的死亡數(shù)據(jù)的存在和分組也各不相同:65歲及以上、70歲及以上、75歲及以上、或85歲及以上的老年人口的死亡均存在分組。此外,還有最年幼和最年長(zhǎng)年齡的不同分組的組合。目前數(shù)據(jù)庫中有9個(gè)年齡編碼,包括不涉及年齡的死亡。
性別是由所有國家為所有死亡提供的。有性別特定的死亡原因(例前列腺癌、卵巢癌或產(chǎn)科原因),這樣有助于驗(yàn)證提交數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)庫為每個(gè)國家每年提供每個(gè)年齡性別組的人口,以便用戶能夠計(jì)算死亡率和得出預(yù)期壽命等措施。
2.1 訪問數(shù)據(jù)庫網(wǎng)站打開網(wǎng)址:https://www.who.int/healthinfo/mortality_data/en/??梢钥吹饺齻€(gè)選項(xiàng),分別是“Access the online database/訪問在線數(shù)據(jù)庫”,“Query the online database/查詢?cè)诰€數(shù)據(jù)庫”,和“Download raw data files/下載原始數(shù)據(jù)文件”。訪問和查詢的主要區(qū)別是,訪問提供了一個(gè)根據(jù)國家,年份,死因,性別和年齡分類的死亡數(shù)字和根據(jù)年齡標(biāo)準(zhǔn)化過的死亡率,時(shí)間范圍是1979年到現(xiàn)在;而查詢可以訪問更相似的死亡原因,并根據(jù)用戶需求對(duì)死因聚合,同時(shí)時(shí)間范圍也更大一些,是1950年到現(xiàn)在,本文著重介紹第一種方法(圖1)。
圖1 數(shù)據(jù)庫訪問界面
2.2 訪問在線數(shù)據(jù)庫打開網(wǎng)址:http://apps.who.int/healthinfo/statistics/mortality/whodpms/。在當(dāng)前頁面有4個(gè)選項(xiàng),分別是“Select parameters/選擇參數(shù)”,“Graphs/圖表”,“Tables/表格”,“Definitions/定義”,下面有操作介紹(圖2)。查詢數(shù)據(jù)分為兩個(gè)步驟:第一步,選擇參數(shù),點(diǎn)擊參數(shù)按鈕,在彈出的頁面中勾選想要查看的變量;第二部,點(diǎn)擊圖標(biāo)或表格來展示選擇的數(shù)據(jù)。
圖2 訪問在線數(shù)據(jù)庫界面
2.2.1 選擇參數(shù)點(diǎn)擊“Select parameters”,在彈出的頁面中可以看到三個(gè)區(qū)域,分別是“Indicators/影響因子”,“Countries/國家”,和“Years/年份”。在影響因子中,第一項(xiàng)是“Total deaths by ICD chapter and population/分章節(jié)和人口的總死亡人數(shù)”,后面選項(xiàng)則是根據(jù)不同死因的死亡數(shù)字。先來看總死亡人數(shù)的分布情況,點(diǎn)擊+之后,發(fā)現(xiàn)影響因子可選擇性別,年齡段,這里將性別總數(shù)和年齡段總數(shù)分別勾選(圖3)。在國家區(qū)域中選擇美國,年份選擇2006~2016,都選好后點(diǎn)擊“OK”。
圖3 參數(shù)選擇界面
2.2.2 查看圖表在一步之后,退回到首頁,然后選擇Graphs,可以看到有不同的圖表類型可選擇,這里我們選擇“Bar chart/柱狀圖”(圖4)。
點(diǎn)擊“Bar chart”,會(huì)默認(rèn)顯示第一個(gè)選擇的影響因子生成的圖。該表顯示,從2006年到2016年,美國的總死亡人數(shù)成上升趨勢(shì)(圖5)。
點(diǎn)擊“Indicators”,可以看到剛才勾選的所有因子,選擇小于1歲的新生兒的死亡數(shù)據(jù)可以看到如下圖表(圖6),2006~2016年間,新生兒死亡人數(shù)顯著下降。
2.2.3 查看表格點(diǎn)擊“Table”,選擇“Table 1”,在彈出的窗口中可看到剛才選擇的影響因子以表格的形式展示,除了剛才選擇的美國之外,其他國家的數(shù)據(jù)也都在其中(圖7)。
圖4 查看圖表界面
圖5 死亡人數(shù)例圖界面
圖6 新生兒死亡數(shù)據(jù)界面
圖7 表格查看界面
2.3 分析死亡原因首先在影響因子中選擇“Diseases of blood and disorders of immune mechanism/血液和免疫系統(tǒng)機(jī)制失調(diào)“,我們選擇另外一種圖表,Ranked bar charts(圖8)。
圖8 圖表選擇界面
點(diǎn)擊“Horizontal”后,選擇對(duì)比2015年男性和女性因?yàn)樨氀劳龅臄?shù)據(jù)(圖9)。
可以看出,該項(xiàng)死因中,女性是遠(yuǎn)遠(yuǎn)高于男性的(圖10)。
其他死因分析可以看到,影響因子中涵蓋了各個(gè)方向,比如循環(huán)系統(tǒng),消化系統(tǒng),精神及神經(jīng)系統(tǒng),生育及外因等,可做的分析很多,且可根據(jù)不同國家和年份,分析同一種死因與地理和時(shí)間的關(guān)系(圖11)。
圖9 性別選擇界面
圖11 死因選擇界面
隨著網(wǎng)絡(luò)信息時(shí)代的發(fā)展,人類不斷開發(fā)出存儲(chǔ)醫(yī)療保健信息的系統(tǒng),以減少數(shù)據(jù)收集的所花費(fèi)的時(shí)間的精力,使更多科研人員根據(jù)需要獲取相關(guān)的信息開展研究,這種必要性是毋庸置疑的[9]。世界衛(wèi)生組織死亡數(shù)據(jù)庫填補(bǔ)了死亡數(shù)據(jù)匯集的公共數(shù)據(jù)庫的空白,給醫(yī)學(xué)科研人員分析比較世界不同地區(qū)不同國家的死亡原因及趨勢(shì)提供了寶貴的資源。醫(yī)學(xué)科研人員可按照不同的國家、年份、死因等提取需要的信息進(jìn)行分析。本文通過詳細(xì)介紹數(shù)據(jù)庫的相關(guān)知識(shí)及數(shù)據(jù)提取流程,幫助醫(yī)務(wù)人員快速實(shí)現(xiàn)數(shù)據(jù)共享,為掌握數(shù)據(jù)庫的相關(guān)知識(shí)及數(shù)據(jù)提取節(jié)省了時(shí)間。