楊津,柳青青,耿輝,田國(guó)祥,曾憲濤,呂軍
癌癥是嚴(yán)重威脅人類(lèi)生命和社會(huì)發(fā)展的重大疾病,運(yùn)用科學(xué)的方法對(duì)癌癥進(jìn)行預(yù)防控制已成為全球最重要的公共衛(wèi)生問(wèn)題之一[1-3]。由于腫瘤資料數(shù)量巨大、種類(lèi)多、分布廣等原因,傳統(tǒng)數(shù)據(jù)收集的方法難以及時(shí)、完整和準(zhǔn)確的收集腫瘤資料[4]。腫瘤登記是系統(tǒng)的收集所有有關(guān)腫瘤及腫瘤患者信息的一個(gè)連續(xù)的過(guò)程,能夠收集、存儲(chǔ)、分析、解釋和傳播腫瘤患者的數(shù)據(jù)信息,對(duì)于腫瘤的預(yù)防和控制發(fā)揮著重大作用[5-7]。為減少人群癌癥負(fù)擔(dān),美國(guó)國(guó)立衛(wèi)生研究院下屬的美國(guó)癌癥研究所于1973年針對(duì)本國(guó)腫瘤患者建立了監(jiān)測(cè)、流行病學(xué)和最終結(jié)果數(shù)據(jù)庫(kù)(SEER),這是北美最具代表性的大型腫瘤數(shù)據(jù)庫(kù)之一,收集了美國(guó)部分州縣幾十年來(lái)腫瘤患者的發(fā)病率、患病率、死亡率及其他循證醫(yī)學(xué)的相關(guān)信息情況,為廣大的臨床醫(yī)務(wù)人員提供了寶貴的腫瘤疾病的相關(guān)資料,尤其是為惡性腫瘤和罕見(jiàn)腫瘤的研究提供了寬廣的路徑[6,8]。SEER在建立之初僅有為數(shù)不多的幾個(gè)地區(qū)的登記站,目前登記站數(shù)量已擴(kuò)展為18個(gè),這些登記站利用可用于統(tǒng)計(jì)分析的強(qiáng)大的計(jì)算機(jī)工具—SEER*STAT軟件進(jìn)行運(yùn)作,并以一年兩次的頻率提交到NCI進(jìn)行分類(lèi)統(tǒng)計(jì)和匯總,而后向全美及全世界公示所覆蓋人群的腫瘤相關(guān)信息[9]。
1.1 SEER數(shù)據(jù)庫(kù)的申請(qǐng)SEER數(shù)據(jù)庫(kù)的樣本量大,質(zhì)量高,統(tǒng)計(jì)效能強(qiáng),能夠?yàn)槟[瘤相關(guān)研究人員提供較高臨床參考價(jià)值的數(shù)據(jù),研究者均可通過(guò)官方網(wǎng)站賬號(hào)的申請(qǐng)獲得部分?jǐn)?shù)據(jù)。從SEER數(shù)據(jù)庫(kù)中獲得數(shù)據(jù)的途徑有3種:一是通過(guò)SEER*Stat軟件獲取,此種方法最為簡(jiǎn)單,使用廣泛;二是從SEER官方網(wǎng)站下載壓縮文件,解壓后獲得二進(jìn)制的資料,之后通過(guò)R等軟件進(jìn)行轉(zhuǎn)化,此種方法需要具備一定的相關(guān)軟件的知識(shí);三是通過(guò)向管理人員申請(qǐng)DVD光盤(pán),在使用SEER*Stat且沒(méi)有高速I(mǎi)nternet支持的情況下,才使用此種方法。本文介紹第一種方法。
S E E R數(shù)據(jù)庫(kù)的申請(qǐng)流程如下:進(jìn)入SEER數(shù)據(jù)庫(kù)的官方網(wǎng)站(https://seer.cancer.gov/)(圖1),依次點(diǎn)擊“For Researchers”“SEER*Stat”,在“Datasets”一欄點(diǎn)擊“SEER Data 1973-2014”,此頁(yè)面介紹了SEER數(shù)據(jù)庫(kù)數(shù)據(jù)收錄的基本情況。接著點(diǎn)擊“Submit Request for the Data”“submit”,即可出現(xiàn)注冊(cè)信息頁(yè)面(圖2)。其中,“*”表示必填信息,“zip”指代郵政編碼。信息填寫(xiě)完成后,點(diǎn)擊下方“submit”即可發(fā)出申請(qǐng)。
圖1 SEER數(shù)據(jù)庫(kù)界面
圖2 SEER數(shù)據(jù)庫(kù)注冊(cè)表界面
申請(qǐng)者注冊(cè)郵箱將收到SEER數(shù)據(jù)庫(kù)的回復(fù)郵件,若3~5 d內(nèi)未收到該郵件的申請(qǐng)者可重復(fù)上述步驟重新申請(qǐng)。郵件內(nèi)含協(xié)議書(shū)鏈接,點(diǎn)擊鏈接即可進(jìn)入?yún)f(xié)議書(shū)頁(yè)面。申請(qǐng)者需按照協(xié)議書(shū)的要求簽字、掃描并發(fā)送到協(xié)議最后提供的郵箱。需要注意的是,該協(xié)議書(shū)必須簽署并以?huà)呙杓男问桨l(fā)送,否則無(wú)法登陸SEER*Stat軟件。
協(xié)議書(shū)發(fā)送后1~5 d內(nèi),申請(qǐng)者可查收SEER數(shù)據(jù)庫(kù)回復(fù)郵件,該郵件為申請(qǐng)者提供了初次使用的賬號(hào)和密碼,由此可下載并使用SEER*Stat軟件(圖3)。
圖3 SEER數(shù)據(jù)庫(kù)協(xié)議書(shū)回復(fù)郵件
1.2 SEER*Stat軟件下載及登錄獲得用戶(hù)名和密碼的申請(qǐng)者可進(jìn)入SEER數(shù)據(jù)庫(kù)的官方網(wǎng)站,點(diǎn)擊“For Researchers”“SEER*Stat”“+”,在展開(kāi)欄目中點(diǎn)擊“Installation Files”,最后點(diǎn)擊“ss8_3_4.exe”(圖4),在彈出的登錄對(duì)話(huà)框中輸入用戶(hù)名和密碼,并根據(jù)提示下載軟件。
下載完成后,點(diǎn)擊軟件圖標(biāo)進(jìn)入軟件,點(diǎn)擊左上方“Profile” “Client-Server Login”,輸入用戶(hù)名和密碼即可登錄(圖5)。確認(rèn)登錄后,點(diǎn)擊左上方“Profile” “Client-Server User Information”可修改原始密碼。注意,原用戶(hù)名無(wú)法修改,只能修改原始密碼。
圖4 SEER *Stat下載界面
圖5 SEER*Stat軟件登錄界面
1.3 SEER數(shù)據(jù)庫(kù)放化療數(shù)據(jù)的申請(qǐng)從2016年11月數(shù)據(jù)提交開(kāi)始,公共數(shù)據(jù)庫(kù)中的放射治療和化療變量已被刪除。這些變量可以在簽署額外的數(shù)據(jù)使用協(xié)議之后獲得,該協(xié)議描述了放化療處理變量的完整性以及使用放化療數(shù)據(jù)存在的潛在偏差。通過(guò)https://seer.cancer.gov/data/treatment.html,進(jìn)入SEER數(shù)據(jù)庫(kù)放化療界面,點(diǎn)擊“Complete the Data Use Agreement for SEER Radiation Therapy and Chemotherapy Information”,下載放射治療和化療信息的協(xié)議書(shū),并按照要求簽字、掃描及發(fā)送(圖6)。
協(xié)議發(fā)送后,SEER數(shù)據(jù)庫(kù)的回復(fù)郵件中將為申請(qǐng)者創(chuàng)建新的用戶(hù)名,但是申請(qǐng)者仍然可以使用上一個(gè)用戶(hù)名內(nèi)的全部?jī)?nèi)容。申請(qǐng)者需登錄SEER*Stat軟件,點(diǎn)擊“password”進(jìn)行驗(yàn)證,SEER數(shù)據(jù)庫(kù)將以郵件的形式發(fā)送驗(yàn)證碼,申請(qǐng)者輸入驗(yàn)證碼后重新設(shè)置密碼,即可獲得放化療數(shù)據(jù)。
需要注意的是,SEER數(shù)據(jù)庫(kù)的權(quán)限有一定的時(shí)間限制,但是軟件內(nèi)的數(shù)據(jù)不會(huì)過(guò)期。當(dāng)新的數(shù)據(jù)發(fā)布后,每一位用戶(hù)都會(huì)收到來(lái)自seerstat@imsweb.com的電子郵件,并附有新的SEER數(shù)據(jù)使用協(xié)議,如果用戶(hù)想要更新訪(fǎng)問(wèn)的權(quán)限,必須重新簽署協(xié)議獲得權(quán)限。更新訪(fǎng)問(wèn)權(quán)限的用戶(hù)新舊數(shù)據(jù)都可使用。
圖6 放化療數(shù)據(jù)界面
點(diǎn)擊SEER*Stat進(jìn)入軟件,登錄個(gè)人ID。注意每次關(guān)閉軟件后,下一次都需要重新登錄。點(diǎn)擊上方“Case Listing Session”按鈕(圖7),軟件系統(tǒng)會(huì)自動(dòng)驗(yàn)證數(shù)據(jù)位置,點(diǎn)擊“OK”。
圖7 “Case Listing Session”界面
案例列表中有四個(gè)按鈕,分別為“Data”、“Selection”、“Table”和“Output”,簡(jiǎn)介如下:(1)點(diǎn)擊“Data”,這是一個(gè)數(shù)據(jù)來(lái)源范圍的列表,用戶(hù)可以根據(jù)自己的研究范圍進(jìn)行選擇,通常選擇數(shù)據(jù)更新年份最新的數(shù)據(jù)集。需要注意的是,已申請(qǐng)放化療數(shù)據(jù)的用戶(hù)可在含有“with additional treatment fields”的數(shù)據(jù)集或含有“with chemotherapy recode”的數(shù)據(jù)集中找到相應(yīng)數(shù)據(jù)(圖8)。
圖8 “Data”界面
②點(diǎn)擊“Selection”,此選項(xiàng)可根據(jù)篩選條件進(jìn)行病例的篩選。點(diǎn)擊“Edit”,進(jìn)入病例篩選界面,“Variable”指篩選的變量,變量多為英文縮寫(xiě),使用者需具備一定的英語(yǔ)知識(shí)并結(jié)合SEER數(shù)據(jù)字典進(jìn)行查找,數(shù)據(jù)字典或者“CS coding instructions”可通過(guò)官方網(wǎng)站下載。在此以簡(jiǎn)單示例向讀者展示如何篩選變量?;颊吣挲g可選“Age at Diagnosis”或“Race and Age(case data only)”,前者將年齡設(shè)定為幾個(gè)年齡段,后者的年齡則沒(méi)有設(shè)定年齡范圍,使用者可根據(jù)自身情況進(jìn)行選擇。在此選擇年齡“大于等于18歲以上”,種族選擇“white,black”,診斷年份選擇“1994-2014”,性別選擇“male and female”,發(fā)病部位選擇“stomach”,如需改正點(diǎn)擊“Delete”刪除后重新選擇即可,篩選完成后點(diǎn)擊“OK”(圖9)。
圖9 病例篩選界面
③點(diǎn)擊“Table”,將上一步篩選的變量在再次選中,點(diǎn)擊“Column”使其進(jìn)入“Column”列表。需要注意的是,變量選擇完成之后,要在“Other”中選擇“Patient ID”,點(diǎn)擊“sort”使其進(jìn)入“sort”列表,提取出來(lái)的數(shù)據(jù)會(huì)按照病例號(hào)排列,不會(huì)導(dǎo)致數(shù)據(jù)混亂(圖10)。
④點(diǎn)擊“Output”,為導(dǎo)出的數(shù)據(jù)創(chuàng)建一個(gè)名稱(chēng),例如“數(shù)據(jù)1”(圖11)。點(diǎn)擊“execute”(圖11),生成數(shù)據(jù)表格(圖12)。將鼠標(biāo)放在行或列上會(huì)形成黑色箭頭,選中全部數(shù)據(jù),點(diǎn)擊右鍵選擇“copy”,在EXCLE中粘貼即可。
圖10 “Table”界面
圖11 “execute”界面
圖12 數(shù)據(jù)表格
SEER數(shù)據(jù)庫(kù)是北美最具代表性的腫瘤數(shù)據(jù)庫(kù)之一,部分?jǐn)?shù)據(jù)免費(fèi)向公眾開(kāi)放。盡管SEER數(shù)據(jù)庫(kù)有著些許不足,例如腫瘤患者家族史、遺傳病史、基因,疾病復(fù)發(fā)和輔助化療等指標(biāo)未被收錄[10-13],但SEER數(shù)據(jù)庫(kù)仍然是一個(gè)良好的數(shù)據(jù)來(lái)源,為臨床研究者提供了高質(zhì)量的臨床信息[14]。本文通過(guò)介紹SEER數(shù)據(jù)庫(kù)的賬號(hào)申請(qǐng)及數(shù)據(jù)提取方法,旨在幫助臨床研究者提供高效、便利、明晰的數(shù)據(jù)資料獲取途徑,減少使用者在探索軟件過(guò)程中浪費(fèi)時(shí)間和精力,提高工作效率。