馬立偉,曾強,呂秋平,范成燁,程鵬
1.美國英立數(shù)據(jù)研究中心,西雅圖 98015 2.中國人民解放軍總醫(yī)院,北京 100853 3.北京一網(wǎng)數(shù)據(jù)研究中心,北京 100084 4.安徽中醫(yī)藥大學(xué)第一附屬學(xué)院,合肥 230031
*論著——生物信息技術(shù)*
大數(shù)據(jù)癌癥風(fēng)險預(yù)測系統(tǒng)
馬立偉1,3,曾強2134,呂秋平,范成燁,程鵬
1.美國英立數(shù)據(jù)研究中心,西雅圖 98015 2.中國人民解放軍總醫(yī)院,北京 100853 3.北京一網(wǎng)數(shù)據(jù)研究中心,北京 100084 4.安徽中醫(yī)藥大學(xué)第一附屬學(xué)院,合肥 230031
中國抗癌協(xié)會指出:90%的早期癌癥沒有明顯癥狀,以至于80%的癌癥患者確診時已屬于中晚期。如果我們能夠早期發(fā)現(xiàn)癌癥,至少可以挽救上百萬人的生命。本研究的主要目的就是借助于大數(shù)據(jù)價值提取技術(shù),建立一套能夠早期預(yù)測癌癥風(fēng)險的系統(tǒng)。本研究對486394人,包括40217名癌癥患者和446177名健康體檢者進行了血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的分析預(yù)測, 預(yù)測分析數(shù)據(jù)共計48項。顯著性分析和預(yù)測模型的統(tǒng)計方法為邏輯分析法和判別分析法 ,顯著性檢驗標準為p < 0.05 。預(yù)測分析使用的統(tǒng)計軟件為SAS,預(yù)測分析所用數(shù)據(jù)均來自MS SQL 數(shù)據(jù)庫。研究結(jié)果顯示血常規(guī),血生化和尿常規(guī)數(shù)據(jù)可以用來區(qū)分癌癥患者和健康者,基于血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的癌癥風(fēng)險預(yù)測模型可以精準鎖定高風(fēng)險癌癥人群,準確率達95.5%。癌癥風(fēng)險預(yù)測模型建成后,經(jīng)過2014年1—7月9931名癌癥患者和110077名健康體檢者數(shù)據(jù)的驗證,準確率超過95%。本研究證明血常規(guī),血生化和尿常規(guī)數(shù)據(jù)可以用來早期預(yù)測癌癥的風(fēng)險。
大數(shù)據(jù);早期預(yù)測癌癥;血常規(guī);血生化;尿常規(guī)
癌癥,一個令人聞之色變的名詞,已經(jīng)成為當今醫(yī)學(xué)界的一大挑戰(zhàn)??v觀歷史,人類以往與疾病和細菌的斗爭都是以人類的最終勝利而告終。但在癌癥面前,人類似乎第一次感到束手無策了。德國科學(xué)家Thomas Bosch教授2014年8月宣布,人類永遠無法戰(zhàn)勝癌癥[1]。
面對癌癥的挑戰(zhàn),人類真的就沒有希望了嗎?
2012年5月,美國6家聯(lián)邦機構(gòu)為大數(shù)據(jù)和癌癥特性的研究項目提供了2億美元的資助,研究機構(gòu)希望通過這項以大數(shù)據(jù)研究和開發(fā)的課題帶動其他醫(yī)療領(lǐng)域的大數(shù)據(jù)研究,尤其是干細胞和其他重大疾病領(lǐng)域[2]。2013年5月李嘉誠捐資2000萬英鎊資助英國牛津大學(xué)開展 “大數(shù)據(jù)”醫(yī)學(xué)研究[3]。2014年6月12日,中國政協(xié)召開座談會,醫(yī)療、金融、食品安全等重點領(lǐng)域被選為中國“大數(shù)據(jù)”重大應(yīng)用示范工程,中國首次拉開了大數(shù)據(jù)在醫(yī)療領(lǐng)域應(yīng)用研究的序幕。
國際抗癌聯(lián)盟指出,癌癥如能及早發(fā)現(xiàn)和充分治療,三分之一的癌癥可以預(yù)防,三分之一的癌癥患者可以完全治愈,但不幸的是80%的癌癥患者錯過了最佳診斷和治療時機。所以早期預(yù)測和預(yù)防,是人類戰(zhàn)勝癌癥的最佳方法。
2014年9月26日,北京一網(wǎng)數(shù)據(jù)軟件有限公司,美國英立數(shù)據(jù)分析公司和國內(nèi)數(shù)家醫(yī)院合作共同搭建完成了全球首個“大數(shù)據(jù)癌癥風(fēng)險預(yù)測系統(tǒng)”,為人類戰(zhàn)勝癌癥帶來了希望。
大數(shù)據(jù)癌癥風(fēng)險預(yù)測系統(tǒng)是借助國際領(lǐng)先的大數(shù)據(jù)價值提取技術(shù),對4萬多名癌癥患者和40多萬名健康者的血常規(guī),血生化和尿常規(guī)指標進行統(tǒng)計分析對比后,采用具有顯著性,能夠區(qū)分癌癥患者和健康者的血尿指標建立的一套癌癥預(yù)測系統(tǒng)。該預(yù)測系統(tǒng)可以隨時提取體檢者或就診者的血尿化驗數(shù)據(jù)進行分析預(yù)測,為每一個受試者預(yù)測出一個數(shù)值在1-100之間的癌癥風(fēng)險分值,然后將體檢者或就診者的預(yù)測結(jié)果與癌癥患者的已有指標進行對比,采用大數(shù)據(jù)預(yù)測效果提升的標準評估技術(shù),動態(tài)評估體檢者或就診者的癌癥風(fēng)險。
1.1背景
血液檢查是早期查出癌癥的重要手段,國內(nèi)的研究證明惡性腫瘤患者血液流變學(xué)指標和健康人比較有非常顯著性的差異,特別是紅細胞壓積普遍降低[4]。英國的研究發(fā)現(xiàn)癌癥患者尿液中的蛋白質(zhì)含量和健康人具有明顯差異[5],尿液也成為診斷癌癥的一種方法。
目前研究機構(gòu)和大學(xué)研究室里的早期預(yù)測癌癥和診斷方法基本上都是與基因和生物標記物有關(guān)的[6,7],奧地利遺傳學(xué)家、維也納大學(xué)醫(yī)學(xué)遺傳學(xué)系主任亨斯特施萊格教授2012年在歐盟臨床腫瘤協(xié)會的年會上指出“基因測試并不能為預(yù)測患癌風(fēng)險提供準確依據(jù)”[8]。 愛爾蘭MERCY AND CORK 大學(xué)醫(yī)院的教授帕沃也指出“90-95%的癌癥是由生活方式和吸煙造成的,只有5-8%的癌癥是和遺傳基因有關(guān)”[9]。生物標志物的測定方法復(fù)雜,費用高昂,關(guān)鍵是許多標志物的本質(zhì)尚不完全明了。腫瘤標志物通常只是作為一種檢測腫瘤的輔助手段,它的更大價值在于腫瘤病人手術(shù)后可以依據(jù)腫瘤標志物的數(shù)值變化,來判斷手術(shù)或化療是否有效,腫瘤標志物對檢測早期癌癥效果不好,誤差率較高。
盡管實踐已經(jīng)證明癌癥患者和健康人的血尿化驗數(shù)據(jù)具有明顯差異,而且獲取常規(guī)健康體檢的血尿化驗數(shù)據(jù)也并非難事,但利用常規(guī)健康體檢的血尿化驗數(shù)據(jù)來早期預(yù)測癌癥的風(fēng)險目前在全球還是一項空白。
1.2研究對象
本研究對486394人,包括40217名名癌癥患者和446177名健康體檢者進行了血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的分析預(yù)測。癌癥患者中,男性平均占68%,女性為32%,男性平均年齡為61歲,女性為64歲;健康體檢者中,男性平均占63%,女性為37%,男性平均年齡為42歲,女性為40歲,詳情見表1。
表1 研究對象基本情況Table 1 Subject Basic Information
1.3預(yù)測數(shù)據(jù)
本研究采用的是常規(guī)健康體檢中涵蓋的基本數(shù)據(jù),包括年齡,性別,身高,體重,血常規(guī),血生化和尿常規(guī),共計48項,部分指標見表2。
表2 預(yù)測癌癥風(fēng)險的部分指標Table 2 Partial Parameters Used for Predicting Cancer Risk
1.4統(tǒng)計學(xué)分析
本研究采用的預(yù)測技術(shù)為邏輯回歸分析(Logistic Regression Analysis),邏輯回歸分析在醫(yī)學(xué)研究中應(yīng)用廣泛。目前主要是用于流行病學(xué)研究中危險因素的篩選,但它同時具有良好的判別和預(yù)測功能,尤其是在資料類型不能滿足Fisher判別和Bayes判別的條件時,更顯示出Logistic回歸判別的優(yōu)勢和效能。
其中y 為因變量,X 為自變量,p 為概率,α 為截距(常數(shù)),β 為回歸系數(shù),Exp為指數(shù)函數(shù)。
本研究采用的風(fēng)險評估技術(shù)為,凈提升效益算式(Net Lift Algorithm)。
其中 Pt 為測試組癌癥患者的百分率,Pc 為對照組癌癥患者的百分率。
本研究中統(tǒng)計分析和預(yù)測的顯著性檢驗標準為p < 0.05 。統(tǒng)計分析預(yù)測使用的統(tǒng)計軟件為SAS。
1.5獨立的結(jié)果驗證
本研究的預(yù)測模型是基于2010年到2013年共4年的數(shù)據(jù)上搭建完成的,建成的預(yù)測系統(tǒng)中的7個預(yù)測模型將逐一經(jīng)過2014年1到7月,9931名癌癥患者和110077名健康體檢者的獨立的數(shù)據(jù)驗證。
本研究經(jīng)過對2010-2013年30286名癌癥患者和336100健康體檢者48項指標的相關(guān)分析和顯著性檢驗后,采用具有顯著性,能夠區(qū)分癌癥患者和健康者的常規(guī)血尿指標建立了7種單一的癌癥風(fēng)險預(yù)測模型(肺癌,肝癌,胃癌,直腸癌,食管癌,乳腺癌和宮頸癌, 見圖1),7種癌癥預(yù)測模型的準確率都超過了95%,平均為95.8%。預(yù)測模型可為用戶預(yù)測出7個數(shù)值在1-100之間的標準分值,通過與癌癥患者的已有血尿指標進行對比,動態(tài)分析預(yù)測結(jié)果,評估用戶的癌癥風(fēng)險。
圖1 基于體檢者血常規(guī),血生化和尿常規(guī)數(shù)據(jù)的癌癥風(fēng)險預(yù)測報告
由于各種癌癥自身的特點,不同癌癥在常規(guī)血尿指標中的體現(xiàn)也不同,所以不同的常規(guī)血尿指標在預(yù)測不同癌癥中的作用也不同。平均每種癌癥預(yù)測模型選用的常規(guī)血尿指標為32-35項,表3列出了早期胃癌風(fēng)險預(yù)測模型所選用的部分指標和這些指標從低風(fēng)險,中風(fēng)險,高風(fēng)險到中晚期癌癥的變化趨勢和過程。表4列出了部分指標在預(yù)測早期胃癌風(fēng)險中的作用。
表3 胃癌風(fēng)險 預(yù)測模型選用的部分指標Table 3 Partial Parameters Selected by the Early Stomach Cancer Risk Prediction Model
表4 預(yù)測胃癌風(fēng)險 部分指標的相關(guān)系數(shù)Table 4 Coeffi cients of Stomach Cancer Risk Prediction Model
目前使用常規(guī)血尿數(shù)據(jù)預(yù)測癌癥風(fēng)險在全球還沒有先例,下面簡單介紹一下獨立驗證結(jié)果和幾個實例。
本研究的7種癌癥預(yù)測模型都是基于2010年到2013年的數(shù)據(jù),這7種預(yù)測模型在搭建完成后,經(jīng)過2014年1到7月,9931名癌癥患者和110077名健康體檢者血尿數(shù)據(jù)的驗證,每一種癌癥風(fēng)險預(yù)測模型的驗證準確率均超過了95%,平均為96.5%,與預(yù)期結(jié)果的95.8%,基本保持一致。
本研究在中國安徽的一家3甲醫(yī)院的實際驗證中從正常體檢的健康人群中預(yù)測出4名高風(fēng)險人員,這4名常規(guī)體檢者經(jīng)過醫(yī)院的進一步??茩z查,已有3人臨床檢查為早期肺癌,肝癌和胃癌,另外一人沒有確診,但身體相關(guān)部位明顯感到不適。
不同的血尿指標在預(yù)測癌癥風(fēng)險中的作用是不同的,有些指標和癌癥風(fēng)險是正比關(guān)系,如表4中的紅細胞分布寬度,單核細胞百分比,和中性粒細胞絕對值等,如果體檢者其他指標保持不變,這些指標的升高,就預(yù)示該體檢者患胃癌的風(fēng)險高;有些指標和癌癥風(fēng)險是負比關(guān)系,如表4中的淋巴細胞絕對值和紅細胞,如果體檢者其他指標保持不變,這些指標的降低,就預(yù)示該體檢者患胃癌的風(fēng)險高。預(yù)測胃癌最重要的前5項指標為血小板分布寬度,白蛋白,紅細胞分布寬度,血紅蛋白和紅細胞壓積。
癌癥的發(fā)生和發(fā)展是一個從量變到質(zhì)變的過程 (如圖2所示), 癌細胞的變化其實都會在人體的血尿指標上反映出來,見表3。由于90%的早期癌癥是沒有明顯癥狀的,癌癥患者在早期不會出現(xiàn)明顯癥狀或根本無任何癥狀,只有當癌細胞發(fā)展到一定程度,人體才會出現(xiàn)一系列癥狀,所以80%的人一旦發(fā)現(xiàn)癌癥時已經(jīng)是中期或晚期。
圖2 癌細胞的生長過程
本研究的結(jié)果,癌癥風(fēng)險預(yù)測系統(tǒng)具有3大特點,第一,可以精準鎖定高風(fēng)險人群,預(yù)測準確率超過95%;第二,預(yù)測方法簡便,基于已有血尿數(shù)據(jù),無需進一步取樣;第三,預(yù)測費用低,不到市場價格的10%。
“上工治未病,不治已病”。 預(yù)防是我們建立癌癥風(fēng)險預(yù)測系統(tǒng)的最終目的,愛爾蘭MERCY AND CORK大學(xué)醫(yī)院的教授帕沃已經(jīng)告訴我們,“90-95%的癌癥是由生活方式和吸煙造成的”,我們的愿望是:通過早期預(yù)測癌癥風(fēng)險,對健康和亞健康人群發(fā)出“癌癥”的預(yù)警,促使人們改變不良生活方式和戒煙,最后遠離癌癥。
通過大數(shù)據(jù)分析建立的癌癥風(fēng)險評估模型可以有效的利用正常健康體檢中的血常規(guī),血生化和尿常規(guī)的數(shù)據(jù),用于多種癌癥的風(fēng)險預(yù)測,而且預(yù)測和驗證的準確率均超過95%,這將為癌癥的防治提供一種便捷的、經(jīng)濟的、有效的新手段,將在癌癥的早防早治方面發(fā)揮積極的作用。
(References)
[1] Study: We’ll Never Cure Cancer. 2014-06-26 [2015-02-04]. http://www.newser.com/story/189053/study-wellnever-cure-cancer.html.
[2] Erwin Gianchandani . “Five Reasons ‘Big Data’ is a Big Deal”. 2012-06-29 [2015-02-04]. http://www.cccblog. org/2012/05/29/five-reasons-big-data-is-a-big-deal/
[3] Oxford University. Prime Minister joins Sir Ka-shing Li for launch of £90m initiative in big data and drug discovery at Oxford. 2013-05-03 [2015-02-04]. http:// www.ox.ac.uk/news/2013-05-03-prime-minister-joins-sirka-shing-li-launch-%C2%A390m-initiative-big-data-anddrug/
[4] 王玉蓮, 王秀珍, 杜迎雪, 等. 惡性腫瘤患者血液流變學(xué)觀察[J]. 現(xiàn)代中西醫(yī)結(jié)合雜志, 1996, 10(2): 133-134.
[5] Husi H, Stephens N, Cronshaw, A, et al. Proteomic analysis of urinary upper gastrointestinal cancer markers[J]. PROTEOMICS - Clinical Applications, Vol. 5, 2011, (5-6): 289-299.
[6] Wang H D, Yuh C H, Tu H C, et al. Method for Early Diagnosis of Liver Cancer : USA, US20140099647 [P]. 2014-04-10.
[7] Lothe R A, Sveen A, Agesen TH, et al. Method and Biomarkers for Analysis of Colorectal Cancer: USA, US20140342361 [P]. 2014-11-20.
[8] Senn H J. Myths and misunderstandings hamper efforts to prevent cancer[C]//Proceedings of ESMO 2012 Congress. Vienna, Austria, 2012: ESMO 2012 Press Release..
[9] Power D. Myths and misunderstandings hamper efforts to prevent cancer[C]//Proceedings of ESMO 2012 Congress. Vienna, Austria, 2012: ESMO 2012 Press Release.
Big Data Cancer Risk Prediction System
MA Liwei1,3, ZENG Qiang2, LU Qiuping1, FAN Chenye3, CHEN Peng4
1. Yingli Data Technology, Seattle 98015, USA 2. Chinese PLA General Hospital, Beijing 100853, China 3. Beijing Yiwang Data Technology, Beijing 100084, China 4. Anhui Chinese Medicine University Hospital, Hefei 230031, China
Chinese Anti-Cancer Association indicates that about 90% of early cancers have no obvious symptoms, so that 80% of the diagnosed cancer patients are in the later stage. More than one million lives could be saved if we can predict early cancer risk. The purpose of this research is to provide a system to early predict cancer risk with the help of big data technology. A total of 486,394 people including 40,217 cancer patients and 446,177 normal people were involved in the study. The data were used in the research including demographic, CBC (Complete Blood Count), CMP (Complete Metabolic Panel), Lipids and Urinalysis data, total of 48 data points. Both Logistic analysis and discriminant analysis were used to identify the signifi cant factors and to build seven cancer risk prediction models and the signifi cant level was set at p < 0.05. SAS was used as the primary statistical analysis tool. All the data were pulled out from the MS SQL database. The analysis results showed that CBC, CMP, Lipids and Urinalysis data can signifi cantly distinguish normal people from cancer patients and those data can be used to build cancer risk prediction models, the average accuracy of the prediction models was 95.5%. Those seven prediction models were verifi ed by a total of 120,008 people (from January 2014 to July 2014) including 9,931 cancer patients and 110,077 normal people. The accuracy of the verifi cation was over 95%. This research shows that the routine blood and urine test results can be used to predict cancer risk in the early stage.
big data; early cancer prediction; complete blood count (CBC); blood chemistry; urinalysis
R73
A doi 10.11966/j.issn.2095-994X.2015.01.01.11
2015-02-06;
2015-02-17
馬立偉,博士,研究方向為大數(shù)據(jù)健康醫(yī)療,電子信箱:liweima@yahoo.com;曾強,教授,研究方向為亞健康和癌癥預(yù)測,電子信箱:zq301t@126.com; 呂秋平,研究員,研究方向為大數(shù)據(jù)智能應(yīng)用,電子信箱:qiupinglu@gmail.com
引用格式:馬立偉,曾強,呂秋平,等.大數(shù)據(jù)癌癥風(fēng)險預(yù)測系統(tǒng)[J].世界復(fù)合醫(yī)學(xué), 2015 , 1(1): 63-67.