朱江勃,田國祥,武冬,楊津,柳青青,呂軍,王雪
人口老齡化作為國際經(jīng)濟(jì)社會發(fā)展水平的重要衡量指標(biāo)之一,不僅意味著老年人口數(shù)量的增多,同時(shí)也給經(jīng)濟(jì)社會帶來嚴(yán)峻的挑戰(zhàn),這已成為不容忽視的重大社會問題[1,2]。關(guān)于老齡化人口健康的資料研究很多,數(shù)據(jù)種類不斷豐富,數(shù)據(jù)儲量迅猛增長,通過傳統(tǒng)的數(shù)據(jù)收集方法很難有效及全面的統(tǒng)計(jì)分析[3]。在國家老齡研究所(NIA U01AG009740)和社會保障管理支持下的健康與退休研究(HRS),是由美國密歇根大學(xué)自1992年起的一個(gè)縱向研究小組研究調(diào)查,建立了具有代表性的大樣本數(shù)據(jù)庫,通過對50歲以上參與者每兩年一次獨(dú)特和深度的訪談,提供了越來越多的多學(xué)科數(shù)據(jù)。HRS數(shù)據(jù)庫為社會及醫(yī)療等研究人員提供了寶貴的資料,從而用它來解決關(guān)于老齡化挑戰(zhàn)和機(jī)遇的重要問題[4-6]。之后評估全球老齡化異同的國際子研究也相繼而出,包括墨西哥、英國、歐洲、韓國、日本、愛爾蘭、中國、印度尼西亞、哥斯達(dá)黎加和新西蘭的研究,同時(shí)正在向印度、巴西、非洲蘇格蘭和加拿大發(fā)展,從而形成全球老齡化的健康大數(shù)據(jù)[7-9]。
HRS數(shù)據(jù)庫樣本量大,質(zhì)量高,同時(shí)是非常豐富和復(fù)雜的,為了使數(shù)據(jù)更容易研究,HRS數(shù)據(jù)分類為公共數(shù)據(jù)和敏感/限制數(shù)據(jù)。任何人都能在HRS數(shù)據(jù)下載站點(diǎn)上創(chuàng)建一個(gè)帳戶獲得公共數(shù)據(jù),而限制數(shù)據(jù)和敏感的健康數(shù)據(jù)則需要單獨(dú)的應(yīng)用程序完成。
1.1 HRS數(shù)據(jù)庫的注冊流程進(jìn)入HRS數(shù)據(jù)庫的官方網(wǎng)站(http://hrsonline.isr.umich.edu/)(圖1),點(diǎn)擊“View Researcher Site”,進(jìn)入研究人員界面(圖2),點(diǎn)擊“Data Products”,選擇最下方“Register and Access Public Data”選項(xiàng)后進(jìn)入公共數(shù)據(jù)訪問頁,若為新用戶需點(diǎn)擊“New Users”進(jìn)入注冊信息頁面(圖3)。其中標(biāo)有星號“*”字段為必填信息,信息填寫完成后,若同意遵守使用HRS公共數(shù)據(jù)的條款,則點(diǎn)擊下面的“Register”按鈕,即可完成注冊,該注冊過程是免費(fèi)的。
申請者注冊后將于24 h內(nèi)收到回復(fù)郵件,該郵件提供了初次使用用戶名和密碼(圖4),若未收到郵件可重復(fù)上述步驟重新申請。獲得用戶名及密碼后進(jìn)入注冊用戶界面,可對個(gè)人信息進(jìn)行更改,以及修改密碼。
圖1 HRS數(shù)據(jù)庫界面
圖2 研究人員界面
圖3 HRS數(shù)據(jù)庫注冊表界面
1.2 HRS公共數(shù)據(jù)的下載流程一旦帳戶被激活,請單擊“Registered Users”,輸入用戶名和密碼即可進(jìn)入數(shù)據(jù)下載頁面(圖5)。進(jìn)入后點(diǎn)擊“Data Downloads”鏈接,將打開包含各種公共數(shù)據(jù)源的下載列表頁面(圖6)。除了敏感的健康數(shù)據(jù)產(chǎn)品,注冊用戶將在這里獲取每年任何HRS公共數(shù)據(jù)集及文件清單(數(shù)據(jù)截止至2010年6月)。
圖4 HRS數(shù)據(jù)庫協(xié)議書回復(fù)郵件
點(diǎn)擊所需要的年數(shù)據(jù)源鏈接,即可進(jìn)入子數(shù)據(jù)集,在該頁面下載.zip或.pdf文件(圖7),左鍵單擊文件圖標(biāo)或文件名,選擇“保存文件”選項(xiàng)。右鍵單擊文件圖標(biāo)或名稱,選擇“目標(biāo)另存為”下載相關(guān)文件。下載后點(diǎn)擊數(shù)據(jù)集名稱將看到源數(shù)據(jù)信息,包括數(shù)據(jù)描述、電報(bào)密碼本、調(diào)查問卷。使用的任何數(shù)據(jù)集之前一定要審查“數(shù)據(jù)警報(bào)”,以了解最新的補(bǔ)充信息。
圖5 公共數(shù)據(jù)訪問頁面
圖6 公共數(shù)據(jù)下載頁面
圖7 zip及pdf格式下載
圖8 敏感數(shù)據(jù)訪問協(xié)議書
1.3 HRS敏感/限制數(shù)據(jù)的下載敏感的健康數(shù)據(jù)產(chǎn)品通過補(bǔ)充登記條款制度獲得,需要特殊的下載程序。首先要成為HRS數(shù)據(jù)庫的注冊用戶,下載并完成敏感數(shù)據(jù)訪問協(xié)議書(圖8),提交敏感數(shù)據(jù)的訂單(圖9),如果未將協(xié)議書和訂單附加在一起,則需通過電子郵件將協(xié)議的簽署副本發(fā)送給hrsdatareq@umich.edu。一旦收到批準(zhǔn)通知,在HRS數(shù)據(jù)下載系統(tǒng)登錄網(wǎng)站,在HRS特殊訪問文件框右邊的頁面會看到申請?jiān)L問的數(shù)據(jù)集鏈接,點(diǎn)擊相應(yīng)鏈接和遵循指令下載所需文件。
另外,對于限制數(shù)據(jù)的訪問與下載,根據(jù)數(shù)據(jù)類型可通過兩種協(xié)議方法獲取。虛擬桌面設(shè)施VDI和使用傳統(tǒng)的許可協(xié)議。兩種方法的研究計(jì)劃和訂單數(shù)據(jù)形式都是一樣的(圖10),但是數(shù)據(jù)安全和保密的需求是不同的。
圖9 敏感數(shù)據(jù)訂單
圖10 限制數(shù)據(jù)產(chǎn)品訂單
HRS數(shù)據(jù)庫登錄后可獲得7個(gè)方面的數(shù)據(jù),包括兩年一次的數(shù)據(jù)產(chǎn)品、縱向數(shù)據(jù)、非大選年研究、敏感的健康數(shù)據(jù)(需要補(bǔ)充登記)、研究人員的貢獻(xiàn)、蘭德的貢獻(xiàn)數(shù)據(jù)和認(rèn)知經(jīng)濟(jì)項(xiàng)目。每個(gè)子數(shù)據(jù)集文件都可以通過SAS、SPSS或Stata三種不同的語句讀取。文件擴(kuò)展名也各有不同,SPSS語句為.SPS,SAS語句擴(kuò)展名為.SAS,而Stata語句擴(kuò)展名為.DO和.DCT。每個(gè)文件命名相同的前綴開始相應(yīng)的數(shù)據(jù)文件。
2.1 SPSS語句讀取數(shù)據(jù)SPSS數(shù)據(jù)讀?。弘p擊SPSS打開軟件,在菜單里面以此選擇文件,點(diǎn)擊打開,語法在彈出框中選擇需要執(zhí)行SPS腳本文件:打開SPS文件后確認(rèn)對應(yīng)的DA文件是否存在,以及導(dǎo)出的Sav文件目錄是否存在(圖11):
選擇全部SPS腳本內(nèi)容如下圖(圖12),點(diǎn)擊綠色三角執(zhí)行SPS腳本:執(zhí)行完腳本后,對應(yīng)的目錄下.sav文件生成并自動打開(圖13~14),即可讀取相關(guān)數(shù)據(jù):
簡易讀取數(shù)據(jù):HRS數(shù)據(jù)非常豐富與復(fù)雜,為了使數(shù)據(jù)簡易讀取,蘭德衰老研究中心將數(shù)據(jù)分為7個(gè)類型,使數(shù)據(jù)更易提取。舉例:在數(shù)據(jù)下載列表中,讀取數(shù)據(jù)以1994年蘭德數(shù)據(jù)為例,點(diǎn)擊打開后,將h94f1a_SPSS.zip數(shù)據(jù)下載到指定位置,解壓后左鍵雙擊打開進(jìn)入SPSS數(shù)據(jù)編輯器,即可直接讀取數(shù)據(jù)。
圖11 SPSS語句選擇腳本文件界面
圖12 SPS腳本界面
圖13 SAV文件生成界面
圖14 SPSS打開的數(shù)據(jù)文件界面
2.2 合并數(shù)據(jù)文件舉例說明要將1994年與2000年的數(shù)據(jù)文件合并,通過SPSS瀏覽窗口,打開1994年數(shù)據(jù)文件,合并第二個(gè)數(shù)據(jù)文件,在菜單欄上執(zhí)行:數(shù)據(jù)→合并文件→添加個(gè)案(圖15)。
打開合并文件對話框,點(diǎn)擊瀏覽按鈕,找到需要合并的第二個(gè)數(shù)據(jù)文件,點(diǎn)擊打開按鈕(圖16),返回?cái)?shù)據(jù)合并對話框,在這里檢查一下要合并的文件,確認(rèn)無誤,點(diǎn)擊“繼續(xù)”(圖17)。
看到變量對話框(圖18),右側(cè)的列表是相同的變量,也就是兩個(gè)數(shù)據(jù)文件有相同的變量,左側(cè)的列表是只有一個(gè)數(shù)據(jù)文件中有的變量,右邊標(biāo)有“*”號的為第一個(gè)數(shù)據(jù)文件中有而第二個(gè)數(shù)據(jù)文件沒有的變量,標(biāo)有+號的是第二個(gè)數(shù)據(jù)文件有而第一個(gè)數(shù)據(jù)文件沒有的變量,根據(jù)需要,例如選擇將AALIVE添加到相同變量列中,選擇后點(diǎn)擊中間向右箭頭即可實(shí)現(xiàn),最后點(diǎn)擊“確定”按鈕。
圖15 合并文件界面
圖17 數(shù)據(jù)文件合并界面
圖18 變量選擇界面
就是合并文件以后的數(shù)據(jù)(圖19),由于年齡段這個(gè)變量只有一個(gè)數(shù)據(jù)文件有,所以另一個(gè)數(shù)據(jù)文件中的數(shù)據(jù)在這個(gè)變量上顯示為空白。
圖19 合并后的變量數(shù)據(jù)界面
HRS數(shù)據(jù)庫是美國關(guān)于健康和經(jīng)濟(jì)環(huán)境的變化與衰老有關(guān)的資源數(shù)據(jù)庫,該數(shù)據(jù)庫的大部分公共數(shù)據(jù)通過用戶注冊免費(fèi)開放。其多學(xué)科的數(shù)據(jù)集中在收入和財(cái)富、健康、認(rèn)知和使用醫(yī)療服務(wù)、工作和退休及與家人聯(lián)系的調(diào)查。HRS數(shù)據(jù)自2006年以來,數(shù)據(jù)收集已經(jīng)擴(kuò)大到包括生物標(biāo)志物和遺傳學(xué)以及更大的深度的心理學(xué)和社會背景。這種混合經(jīng)濟(jì),健康和心理信息的數(shù)據(jù)庫為研究者的工作提供了前所未有的潛力[10-12]。本文通過介紹HRS數(shù)據(jù)庫的用戶申請及數(shù)據(jù)提取方法,以期節(jié)約研究者在使用該軟件過程中的時(shí)間和精力,幫助各學(xué)科研究人員獲得更簡便、高效及明確的數(shù)據(jù)資料獲取途徑,從而提高工作效率。