王媛媛秦 剛汪徐林張 建何 書沈 毅△
?
GetData Graph Digitizer軟件在生存分析中的應(yīng)用*
王媛媛1秦 剛2汪徐林1張 建1何 書1沈 毅1△
1.南通大學(xué)公共衛(wèi)生學(xué)院流行病與衛(wèi)生統(tǒng)計(jì)學(xué)教研室(226001)
2.南通市南通大學(xué)附屬第三人民醫(yī)院
在生存資料的meta分析中,個(gè)體原始資料的提取一直以來(lái)都是異常棘手卻備受關(guān)注的問(wèn)題。本研究以某篇生存分析為例,介紹GetData Graph Digitizer軟件(以下簡(jiǎn)稱GetData軟件)的基本功能及其在生存分析曲線圖中獲取數(shù)據(jù)的方法。
1.從網(wǎng)址http:/ / getdata-graph-digitizer.com/ download.php下載GetData軟件,安裝后雙擊圖標(biāo)即可打開軟件主界面。
2.以Chen等[1]發(fā)表在BMC Cancer上的文獻(xiàn)中關(guān)于口腔癌患者3年生存率亞組分析的數(shù)據(jù)提取過(guò)程為例,詳細(xì)說(shuō)明GetData軟件的使用步驟和數(shù)據(jù)提取過(guò)程。
1.圖像的生成與導(dǎo)入:先將要獲取數(shù)據(jù)的圖片利用截圖軟件截出,并保存為GetData軟件支持的格式,如JPEG、TIFF、BMC和PCX格式。本例截取文獻(xiàn)[2]中的figure 3B,打開GetData軟件,點(diǎn)擊“File->Open Image”,選擇要處理的圖像文件。
2.選定坐標(biāo):選擇軟件左上方按鈕Set the scale分別設(shè)定X最小值=0、最大值=300,Y最小值=0、最大值=1。
3.獲取數(shù)據(jù):在“Operations”菜單下有三種提取數(shù)據(jù)的方法,本例采用“Digitize area”過(guò)程。點(diǎn)擊“Operations->Digitize area”啟動(dòng)“Digitize area”,進(jìn)一步選擇“Rectangular area”,界面中的dx值控制曲線上提取點(diǎn)的密度,dx值越大,所提取到的點(diǎn)越稀疏,本例設(shè)置為3。設(shè)置好“Rectangular area”后鼠標(biāo)變?yōu)楹谏^,用之拖出一個(gè)矩形區(qū)域,區(qū)域內(nèi)部的曲線就會(huì)被自動(dòng)提取,因本例要提取36個(gè)月的生存率,故拖出的矩形區(qū)域在36附近。這種方法的好處是簡(jiǎn)單的一次操作即可提取出所有的數(shù)據(jù)點(diǎn)。
4.數(shù)據(jù)的輸出與保存:按照以上步驟提取的數(shù)據(jù)在軟件右側(cè)會(huì)以表格的形式自動(dòng)顯示出來(lái),直接選擇File菜單下的“Export data”即可輸出數(shù)據(jù),輸出格式包括TXT、XLS、DXF、EPS四種。數(shù)據(jù)保存可以選擇File菜單下的“Save Workspace”。本例中提取的兩組數(shù)據(jù)是(36,0.5467)和(36,0.7867)。
5.GetData軟件的準(zhǔn)確性檢驗(yàn):由于meta分析中的這篇文獻(xiàn)沒有提供原始數(shù)據(jù),無(wú)法對(duì)GetData軟件提取數(shù)據(jù)的準(zhǔn)確性進(jìn)行驗(yàn)證,因此我們選擇了Qin等[3]發(fā)表在Medicine(Baltimore)上的文獻(xiàn)對(duì)GetData軟件所提取的數(shù)據(jù)與真實(shí)數(shù)據(jù)進(jìn)行比較。采用Get-Data軟件提取到該文獻(xiàn)圖figure 2B中第一年和第二年ALSS組的生存率分別為50%和45.10%,對(duì)照組的生存率分別為37.75%和32.84%;而通過(guò)該文獻(xiàn)提供的原始數(shù)據(jù)計(jì)算第一、二年ALSS組生存率分別為50%、46.15%,對(duì)照組的為38.46%、33.85%,與Get-Data軟件提取的生存率數(shù)據(jù)近似程度均在95%以上,說(shuō)明GetData軟件提取數(shù)據(jù)的準(zhǔn)確性較高。
在Chen等人的meta分析實(shí)例中,由于亞組分析的文獻(xiàn)只提供了總生存曲線圖,沒有提及3年生存率,無(wú)法進(jìn)行亞組分析。通過(guò)GetData軟件在生存曲線中提取相關(guān)數(shù)據(jù),最終完成了口腔癌3年生存率的亞組分析。因此,GetData軟件可以提取基于時(shí)間點(diǎn)的數(shù)據(jù),數(shù)據(jù)提取準(zhǔn)確性高。
與有些研究使用過(guò)的提取生存數(shù)據(jù)的Engauge Digitizer軟件相比,GetData軟件有很多優(yōu)勢(shì)。首先,提取數(shù)據(jù)的方法多種多樣,既有簡(jiǎn)單易學(xué)的“抓點(diǎn)法”(point capture mode),又有一次提取多個(gè)數(shù)據(jù)的“數(shù)字化區(qū)域法”(digitize area);其次,GetData還可以設(shè)定生存曲線的顏色,如果生存曲線圖中存在多條曲線,而研究只需提取其中一條曲線的數(shù)據(jù),則可以將其他曲線的顏色設(shè)置為底色而不受干擾,而Engauge Digitizer軟件只能識(shí)別灰度圖,彩色線條的生存曲線圖必須經(jīng)過(guò)圖片處理軟件調(diào)整為黑白圖片才可以進(jìn)一步提取數(shù)據(jù);GetData軟件還可在“Settings→language”中更改界面的語(yǔ)言,適合不同語(yǔ)種人的使用,所以GetData軟件比Engauge Digitizer軟件的應(yīng)用更加普遍。
總之,GetData軟件可以補(bǔ)充不同時(shí)點(diǎn)的生存數(shù)據(jù),提取過(guò)程簡(jiǎn)單,所得結(jié)果準(zhǔn)確,但目前應(yīng)用還不是特別廣泛,其主要原因是該軟件在國(guó)內(nèi)缺乏推廣,很多人甚至都沒有聽說(shuō)過(guò)這個(gè)軟件,本研究旨在為研究者提供一個(gè)簡(jiǎn)單實(shí)用的軟件進(jìn)行生存曲線中獨(dú)立患者數(shù)據(jù)(individual patient data,IPD)的提取,從而使沒有提供IPD的亞組生存資料meta分析成為可能。
參考文獻(xiàn)
[1]Chen J,Zhou J,Lu J,et al.Significance of CD44 expression in head and neck cancer:a systemic review and meta-analysis.BMC Cancer,2014,14(15):2-9.
[2]Kosunen A,Pirinen R,Ropponen K,et al.CD44 expression and its relationship with MMP-9,clinicopathological factors and survival in oral squamous cell carcinoma.Oral Oncol,2007,43(1):51-59.
[3]Qin G,Shao JG,Wang B,et al.Artificial liver support system improves short-and long-term outcomes of patients with HBV-associated acute-on-chronic liver failure:a single-center experience.Medicine (Baltimore),2014,93(28):e338.
(責(zé)任編輯:郭海強(qiáng))
·專題研究·
*基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目(81370520),江蘇省自然科學(xué)基金面上項(xiàng)目(BK2012653);南通市科技計(jì)劃項(xiàng)目(MS12015004)
通信作者:△沈毅,E-mail address:sunny@ ntu.edu.cn