郭曉娟,田國(guó)祥,潘振宇,楊津,柳青青,呂軍,4
美國(guó)國(guó)家健康與營(yíng)養(yǎng)調(diào)查(NHANES,National Health and Nutrition Examination Survey)是一項(xiàng)基于人群的橫斷面調(diào)查,旨在收集有關(guān)美國(guó)家庭人口健康和營(yíng)養(yǎng)的信息[1]。項(xiàng)目?jī)?nèi)容包括家庭訪談和健康體檢兩部分。調(diào)查在參與者的家中進(jìn)行。NHANES協(xié)議由國(guó)家衛(wèi)生統(tǒng)計(jì)研究倫理中心審查委員會(huì)批準(zhǔn)。所有成年參與者都提供書(shū)面通知同意,18歲以下參與者需在父母或監(jiān)護(hù)人同意下進(jìn)行[2-4]。NHANES采用分層多階段抽樣設(shè)計(jì),以獲得美國(guó)居民的代表性樣本[5]。抽樣計(jì)劃由四個(gè)階段組成:選擇初級(jí)抽樣單位(PSU),縣或鄰近的群體縣;選擇縣內(nèi)部的單位;選擇住宅單位和選擇住宅單位內(nèi)的樣本人[4]。
NHANES計(jì)劃始于20世紀(jì)60年代初期,是一項(xiàng)針對(duì)不同人群或健康主題的調(diào)查,由國(guó)家營(yíng)養(yǎng)監(jiān)測(cè)系統(tǒng)與國(guó)家健康調(diào)查系統(tǒng)相結(jié)合,形成了國(guó)家健康與營(yíng)養(yǎng)調(diào)查(NHANES)。自20世紀(jì)80年代以來(lái),NHANES收集了參與者的生物樣本,包括血清、血漿和尿液等。存儲(chǔ)的生物樣本可供研究人員隨時(shí)使用。使用NHANES生物樣本產(chǎn)生的數(shù)據(jù)被添加到NHANES數(shù)據(jù)庫(kù)并提供給公眾,旨在解決未來(lái)的醫(yī)療,環(huán)境和公共衛(wèi)生問(wèn)題。1999年該調(diào)查成為一項(xiàng)持續(xù)計(jì)劃,重點(diǎn)關(guān)注各種健康和營(yíng)養(yǎng)測(cè)量,以滿足新出現(xiàn)的需求。項(xiàng)目每年調(diào)查一個(gè)全國(guó)代表性的樣本,約5000人,這些人群位于全國(guó)各縣。研究小組由醫(yī)生、醫(yī)療技術(shù)人員及健康調(diào)查員組成。參與調(diào)查遵循自愿原則,選定的參與者將接受標(biāo)準(zhǔn)化的個(gè)人訪談。NHANES訪談部分包括人口統(tǒng)計(jì)學(xué)、社會(huì)經(jīng)濟(jì)學(xué)、飲食和健康相關(guān)問(wèn)題。體檢部分包括生理測(cè)量、實(shí)驗(yàn)室檢查等內(nèi)容。調(diào)查結(jié)果將用于確定主要疾病的患病率和疾病的風(fēng)險(xiǎn)因素,也是衡量身高、體重和血壓等國(guó)家標(biāo)準(zhǔn)的基礎(chǔ)。
2.1 登陸網(wǎng)站打開(kāi)網(wǎng)站首頁(yè):https://www.cdc.gov/nchs/nhanes/index.htm,該網(wǎng)站是屬于CDC(Centers For Disease Control and Prevention),也就是美國(guó)疾病控制與預(yù)防中心(圖1)。
圖1 NHANES網(wǎng)站頁(yè)面
2.2 選擇數(shù)據(jù)集在左側(cè)的導(dǎo)航欄中,選擇我們感興趣的Questionnaires,Datasets,and Related Documentation,也就是調(diào)查問(wèn)卷,數(shù)據(jù)集和相關(guān)文檔一項(xiàng)(圖2)。
2.3 選擇數(shù)據(jù)年份在這里我們看到雖然2017~2018年份已經(jīng)存在,但在本文撰寫(xiě)時(shí)該數(shù)據(jù)還未整理完成,因此這里我們選擇最近的日期,點(diǎn)擊NHANES 2015-2016(圖3)。
圖2 數(shù)據(jù)集選擇頁(yè)面
圖3 選擇數(shù)據(jù)年份頁(yè)面
2.4 選擇需要的數(shù)據(jù)集在“Data,Documentation,Codebooks,SAS Code”一項(xiàng)中,有6項(xiàng)不同的數(shù)據(jù),分別是“Demographics Data”(人口數(shù)據(jù))、“Dietary Data”(飲食數(shù)據(jù))、“Examination Data”(檢查數(shù)據(jù))、“Laboratory Data”(化驗(yàn)數(shù)據(jù))、“Questionnaire Data”(問(wèn)卷數(shù)據(jù))、“Limited Access Data”(限制訪問(wèn)數(shù)據(jù))。這里我們以“Demographics Data”為例,明確如何應(yīng)用(圖4)。
2.5 理解數(shù)據(jù)變量在上表中有幾個(gè)重要內(nèi)容,“NHANES 2015-2016 Demographics Variable List”:人口數(shù)據(jù)的所有變量列表;“DEMO_I Doc”:關(guān)于所有變量如何采集和數(shù)據(jù)類型的詳細(xì)說(shuō)明;“DEMO_I Data [XPT - 3.6 MB]”:真實(shí)數(shù)據(jù)的下載鏈接。點(diǎn)擊NHANES 2015-2016 Demographics Variable List 進(jìn)入下一頁(yè),可以看到變量類型比如患者訪談時(shí)使用的語(yǔ)言,出生國(guó)家,是否為美國(guó)公民,學(xué)歷,家庭人數(shù)等信息(圖5)。
圖4 選擇需要數(shù)據(jù)集頁(yè)面
圖5 變量說(shuō)明頁(yè)面
3.1 下載數(shù)據(jù)返回上一頁(yè),點(diǎn)擊“DEMO_I Data[XPT - 3.6 MB]”,下載數(shù)據(jù),該數(shù)據(jù)為XPT格式,也就是SAS軟件的數(shù)據(jù)格式,可以使用SAS Universal Viewer來(lái)查看,可以導(dǎo)入到R語(yǔ)言中,使用R Studio查看(圖6)。
3.2 下載并安裝R語(yǔ)言及R Studio
3.2.1 安裝R語(yǔ)言R Studio必須在安裝R語(yǔ)言的條件下才能使用,打開(kāi)R語(yǔ)言網(wǎng)址,https://cran.r-project.org/,選擇適合自己電腦操作系統(tǒng)的版本安裝(圖7)。
圖6 下載數(shù)據(jù)頁(yè)面
圖7 安裝R語(yǔ)言頁(yè)面
3.2.2 安裝RStudio進(jìn)入R Studio網(wǎng)站,找到以下鏈接,點(diǎn)擊進(jìn)入:https://www.rstudio.com/products/rstudio/download/#download,選擇適合的版本。這里我們選擇最基本的免費(fèi)版,選擇適用自己電腦操作系統(tǒng)的版本,點(diǎn)擊下載。下載完成后點(diǎn)擊按
照,此處無(wú)需特別設(shè)置(圖8)。
3.2.3 啟動(dòng)R Studio安裝完R語(yǔ)言之后啟動(dòng),成功進(jìn)入R Studio(圖9)。
3.3 編寫(xiě)R語(yǔ)言腳本點(diǎn)擊左上角的綠色+,選擇”R Script”,來(lái)創(chuàng)建一個(gè)新的R腳本(圖10)。
3.4 編寫(xiě)代碼導(dǎo)入數(shù)據(jù)輸入以下代碼來(lái)導(dǎo)入我們剛才下載的人口數(shù)據(jù)(圖11)。
圖8 R Studio安裝頁(yè)面
圖9 R Studio啟動(dòng)頁(yè)面
圖10 R腳本創(chuàng)建頁(yè)面
圖11 編寫(xiě)代碼頁(yè)面
3.5 導(dǎo)入數(shù)據(jù)數(shù)據(jù)導(dǎo)入成功后,會(huì)以表格形式展示,可以看到,人口數(shù)據(jù)中總共有9971個(gè)樣本,47個(gè)變量。SEQN是樣本編號(hào),以83 736為例,可以看到RIDSTATR=2,表示進(jìn)行了面試和檢查,RIAGENDER=2,表示女性,RIDAGEYR=42,表示42歲(圖12)。
3.6 合并數(shù)據(jù)人口數(shù)據(jù)里面只有關(guān)于樣本的特征信息,如我們需要研究特定人群的發(fā)病情況,需要合并多個(gè)表格數(shù)據(jù)進(jìn)行分析。如我們想知道血壓情況,同樣的方法,先去下載到血壓數(shù)據(jù)(圖13)。
圖12 數(shù)據(jù)導(dǎo)入頁(yè)面
圖13 血壓數(shù)據(jù)下載頁(yè)面
然后導(dǎo)入到R Studio,導(dǎo)入之后發(fā)現(xiàn)有9544個(gè)樣本,21個(gè)變量,說(shuō)明不是所有人都采集了血壓信息(圖14)。
將兩個(gè)數(shù)據(jù)集合并成一個(gè),取名為merge_data,下面是完整的加載兩個(gè)數(shù)據(jù)集并合并的代碼(圖15)。
3.7 綜合分析在合并后的數(shù)據(jù)中,我們可根據(jù)自己的研究領(lǐng)域進(jìn)行查詢,如在140~190的人群分布。在合并后的數(shù)據(jù)中,點(diǎn)擊Filter,在彈出的下拉菜單中可根據(jù)變量做各種條件過(guò)濾,比如選擇BPXCHR中140-190的人群,可看到共有166個(gè)樣本符合該條件(圖16)。
圖14 數(shù)據(jù)導(dǎo)入頁(yè)面
圖15 數(shù)據(jù)合并頁(yè)面
圖16 數(shù)據(jù)合并頁(yè)面
國(guó)家健康與營(yíng)養(yǎng)調(diào)查是由美國(guó)疾病預(yù)防控制中心國(guó)家衛(wèi)生統(tǒng)計(jì)中心連續(xù)開(kāi)展的橫斷面調(diào)查,收集了全國(guó)有關(guān)健康和營(yíng)養(yǎng)狀況的代表性數(shù)據(jù)[6],可以為流行病學(xué)家和營(yíng)養(yǎng)學(xué)家提供全面的生物學(xué)、社會(huì)心理學(xué)、行為學(xué)及人口學(xué)等的信息[7]。與過(guò)去的健康調(diào)查一樣,NHANES收集了有關(guān)人口中慢性病患病率的數(shù)據(jù),通過(guò)調(diào)查,可估算出以前未確診的情況,以及受訪者已知和報(bào)告的情況。這些信息是NHANES計(jì)劃的特殊優(yōu)勢(shì)。同時(shí)調(diào)查了風(fēng)險(xiǎn)因素,一個(gè)人的生活方式、體質(zhì)、遺傳或環(huán)境可能會(huì)增加患某種疾病或病癥的機(jī)會(huì)。研究吸煙、飲酒、性行為、吸毒、身體健康和活動(dòng)、體重和飲食攝入量。還收集了關(guān)于生殖健康某些方面的數(shù)據(jù),如使用口服避孕藥和母乳喂養(yǎng)做法。研究的疾病和健康指標(biāo)包括:貧血、心血管疾病、糖尿病、環(huán)境暴露眼疾、聽(tīng)力損失、傳染性疾病、腎臟疾病、營(yíng)養(yǎng)、肥胖、口腔健康、骨質(zhì)疏松、生育史和性行為、呼吸系統(tǒng)疾?。ㄏ灾夤苎?,肺氣腫)、性病、視力等,研究結(jié)果可用于確定慢性疾病的患病率和危險(xiǎn)因素,便于研究者開(kāi)展流行病學(xué)研究,并為政府公共衛(wèi)生政策和衛(wèi)生服務(wù)計(jì)劃的制定提供依據(jù)。本文通過(guò)介紹NHANES的項(xiàng)目?jī)?nèi)容和數(shù)據(jù)提取方法,為有興趣的研究者提供參考,幫助他們更高效快捷的開(kāi)展研究。
中國(guó)循證心血管醫(yī)學(xué)雜志2019年6期