張國明,顧兵(.沭陽縣人民醫(yī)院檢驗科,江蘇沭陽 223600;2.徐州醫(yī)科大學醫(yī)學技術(shù)學院,江蘇徐州 22004;3.徐州醫(yī)科大學附屬醫(yī)院檢驗科,江蘇徐州 22002;4.美國普渡大學生物科學學院,美國印第安納州 47907)
·專題筆談·
醫(yī)學檢驗大數(shù)據(jù)應用的思考*
張國明1,顧兵2,3,4
(1.沭陽縣人民醫(yī)院檢驗科,江蘇沭陽 223600;2.徐州醫(yī)科大學醫(yī)學技術(shù)學院,江蘇徐州 221004;3.徐州醫(yī)科大學附屬醫(yī)院檢驗科,江蘇徐州 221002;4.美國普渡大學生物科學學院,美國印第安納州 47907)
21世紀是大數(shù)據(jù)時代,醫(yī)學檢驗大數(shù)據(jù)(big data in laboratory medicine, BDLM)也越來越受到關(guān)注。然而,在醫(yī)學檢驗工作中應用BDLM還存在不少問題。該文綜述了應用BDLM的基礎(chǔ)、BDLM對科研選題的要求、應用BDLM成功案例和對BDLM應用的展望,希望可以幫助醫(yī)學檢驗同行了解BDLM,并進而推動BDLM的應用。
大數(shù)據(jù);檢驗醫(yī)學;實驗醫(yī)學
近年來,大數(shù)據(jù)(big data)在各個行業(yè)中的應用越來越多。醫(yī)學檢驗科是其在醫(yī)療單位中具有大數(shù)據(jù)特征的科室之一。隨著實驗室信息管理系統(tǒng)(laboratory information system,LIS)的普及,醫(yī)學檢驗科的檢測數(shù)據(jù)每天增加百兆字節(jié)或幾十千兆字節(jié)。近年來,全球檢驗醫(yī)學專家更加關(guān)注醫(yī)學檢驗大數(shù)據(jù)(big data in laboratory medicine,BDLM)[1]。然而,在實際工作中能夠很好地應用BDLM仍然需要一定的基礎(chǔ),筆者在應用BDLM過程中進行了如下思考。
1.1 應用BDLM對信息系統(tǒng)的要求 根據(jù)臨床醫(yī)生開具的醫(yī)學檢驗檢查申請,醫(yī)學檢驗科的儀器不斷產(chǎn)生大量的檢測數(shù)據(jù)。但是,利用BDLM最首要的問題是先按一定的條件檢索并導出相關(guān)數(shù)據(jù),然后才能進一步利用。醫(yī)學檢驗科應該有強大的LIS,能夠按一定條件和要求檢索并導出電子表格類型數(shù)據(jù),比如可以按年齡、性別、項目、科室、病種等條件檢索,同時必需檢索全符合條件的數(shù)據(jù)。當然,要想采集BDLM進行科學研究,還需要LIS與體檢中心的體檢健康信息管理系統(tǒng)或(和)醫(yī)院電子病歷信息系統(tǒng)(electronic medical record system, EMRS)相互兼容、讀取數(shù)據(jù)的能力。
1.2 應用BDLM對科研選題的要求 醫(yī)學檢驗人員應用BDLM的第二個重要的問題就是需要具備科研和臨床應用的思維(idea)。idea的產(chǎn)生總的來說有兩種方式可選:一是從文獻資料和實驗數(shù)據(jù)中尋找靈感;二是從實際臨床問題出發(fā)去找數(shù)據(jù)[2]。在有了數(shù)據(jù)和idea的前提下,還需要有解決問題的方法。筆者認為統(tǒng)計學分析很重要,這樣才可能完成BDLM的應用分析。
1.3 應用BDLM對生物信息學的要求 目前,二代測序技術(shù)的蓬勃發(fā)展大大加快了測序的速度,也大大降低了檢測成本,從而使得在兩三天內(nèi)完成血液、體液等標本的全基因組序列成為可能。然而,面對全基因組序列的大數(shù)據(jù),如何快速分析是一個難題。這需要醫(yī)學專家、生物學專家、計算機專家和統(tǒng)計學專家等相關(guān)學科的跨學科交流,才有可能取得突破性進展。將來,如何進一步分析眾多人群的全基因組測序數(shù)據(jù),將更是一個巨大的挑戰(zhàn)。
2.1 基于實驗室數(shù)據(jù)建立參考區(qū)間 若LIS與體檢人員健康管理系統(tǒng)相關(guān)聯(lián),可以研究醫(yī)學檢驗項目的參考區(qū)間,制定出相應的納入與排除標準后就可以進一步做相關(guān)研究。如筆者研究健康人群制定了老年人部分生化項目的參考區(qū)間[3],其參考人群來自體檢中心最終報告判定為健康的個體,再通過問卷調(diào)查、心電圖、血壓和實驗室檢查排除血液系統(tǒng)疾病、變態(tài)反應性疾病、消化系統(tǒng)、呼吸系統(tǒng)疾病和泌尿系統(tǒng)等急、慢性病,棄除樣本狀態(tài)為黃疸、溶血和脂血等的數(shù)據(jù),統(tǒng)計學按照美國臨床和實驗室標準協(xié)會《臨床實驗室建立、驗證參考區(qū)間:批準指南(第3版)》C28-A3[4]文件處理并建立參考區(qū)間。應用同樣的方法,我們建立了老年人全血細胞計數(shù)的參考區(qū)間[5]、2個非侵入性肝纖維化指標的參考區(qū)間[6-7]、甲胎蛋白(AFP)和癌胚抗原(CEA)的參考區(qū)間[8]。
2.2 基于實驗室數(shù)據(jù)節(jié)約不必要的醫(yī)學檢驗測試 隨著人們生活水平的提高和國家醫(yī)保政策的加大,健康體檢和就診意識增強,進行醫(yī)學檢驗的測試量不斷增加。然而,某些醫(yī)學檢驗檢查項目沒必要同步檢測或者說根本不需要檢測。在評價肝功能時,當總膽紅素和丙氨酸氨基轉(zhuǎn)移酶(ALT)在參考區(qū)間以內(nèi)或較低水平時,絕大多數(shù)直接膽紅素和天門冬氨酸氨基轉(zhuǎn)移酶(AST)水平也較低,反之亦然。因此,可以用總膽紅素和ALT水平預測直接膽紅素和AST水平異常與否[9-10]。同樣,尿素和肌酐在評價腎功能時也具有上述現(xiàn)象[11]。這樣的反饋測試不但節(jié)約了醫(yī)學檢驗科工作量,而且減少了患者不必要的費用,從而降低醫(yī)療和社會成本。
2.3 LIS與EMRS相互兼容的益處 LIS和EMRS兼容可優(yōu)化檢查流程、減少信息核對次數(shù)和提高質(zhì)量控制水平,使檢驗科工作人員可以快速查閱患者信息,以便更好地確定檢查結(jié)果是否與臨床相符,同時也為結(jié)果不符報告的原因查找提供重要信息。LIS與EMRS相互兼容后,明顯改善樣本周轉(zhuǎn)時間(turnaround time, TAT)且具有可查性,提高了醫(yī)學檢驗工作效率和臨床滿意度[12]。在LIS和EMRS兼容的基礎(chǔ)上,可以開展相關(guān)項目的診斷性、預測病程和預后判斷分析等臨床研究[13-15]。
臨床上的預測模型大多數(shù)是基于BDLM建立的,可以預測疾病風險或識別某種病癥等,以便提高醫(yī)療服務(wù)水平。這可能會成為BDLM以后重點研究的一個方向。如Tayefi等[16]報道,僅應用血常規(guī)、血糖、血脂、尿酸和C反應蛋白等常規(guī)醫(yī)學檢驗參數(shù)建立決策樹參數(shù)與高血壓的關(guān)系;Arvanitis等[17]報道利用血清視黃醇結(jié)合蛋白4預測模型識別甲狀腺運載蛋白心臟淀粉樣變。人工智能(artificial intelligence,AI)是建模的升級,是模擬人類學習行為以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。最具代表性的是近期來自谷歌、谷歌大腦與Verily公司的科學家們開發(fā)出了一款用來診斷乳腺癌的AI,當AI學習了數(shù)十萬例不同腫瘤組織和正常組織病理切片后,診斷速度及準確率均已超過專業(yè)的病理學家的水平。
國內(nèi)外學者在醫(yī)學檢驗大數(shù)據(jù)的應用上,已取得不少成功的案例,值得借鑒。數(shù)據(jù)除了來源于本單位外,還可以通過眾籌、國外免費數(shù)據(jù)庫(如MIMICII,https://www.physionet.org/mimic2/,PLoS One數(shù)據(jù)共享平臺)和國家人口健康科學數(shù)據(jù)共享平臺(http://www.ncmi.cn/66)等方式獲得。BDLM的時代已經(jīng)到來,醫(yī)學檢驗人應以積極的心態(tài)去嘗試、去思考、去探索BDLM在臨床和科研上的應用。
[1]Tolan NV, Parnas ML, Baudhuin LM,etal. "Big data" in laboratory medicine[J]. Clin Chem, 2015, 61(12):1433-1440.
[2]章仲恒.大數(shù)據(jù)與臨床科研[J].臨床與病理雜志, 2014, 34(5): 492-497.
[3]Zhang GM, Xia YJ, Guo XX,etal. Reference intervals of total bilirubin, ALT, AST, and creatinine in healthy elderly Chinese[J]. Medical science monitor, 2014, 20: 20:1778-82.
[4]Clinical and Laboratory Standards Institute. Defining, establishing, and verifying reference intervals in the clinical laboratory; approved guideline-third edition[S]. CLSI document EP28-A3c. Wayne, PA: CLSI, 2008.
[5]Zhang GM, Xia YJ, Zhang GM,etal. Laboratory reference intervals of complete blood count for apparently healthy elderly people in Shuyang, China[J]. Clin Lab, 2014, 60: 2081-2087.
[6]Zhang GM, Guo XX, Zhu BL,etal. Establishing reference intervals of aspartate aminotransferase-to-platelet ratio index for apparently healthy elderly[J]. Clin Lab, 2016, 1(2): 135-140.
[7]Zhang GM, Xia YJ. Reference intervals of fibrosis index based on four indicators in healthy elderly Chinese[J]. J Clin Lab Anal, 2016, 30(5): 645-648.
[8]Zhang GM, Guo XX, Ma XB,etal. Reference intervals of alpha-fetoprotein and carcinoembryonic antigen in the apparently healthy population[J]. Medical science monitor, 2016, 22: 4875-4880.
[9]Zhang GM, Hu ZD. Conjugated bilirubin as a reflex test for increased total bilirubin in apparently healthy population[J]. J Clin Lab Anal, 2017, DOI: 10.1002/jcla.22233.
[10]Xu Q, Higgins T, Cembrowski GS. Limiting the testing of AST: a diagnostically nonspecific enzyme[J]. Am J ClinPathol, 2015, 144(3): 423-426.
[11]Zhang GM, Guo XX, Zhang GM. Limiting the testing of urea: urea along with every plasma creatinine test?[J]. J Clin Lab Anal, 2017, doi: 10.1002/jcla.22103.
[12]Petrides AK, Bixho I, Goonan EM,etal. The benefits and challenges of an interfaced electronic health record and laboratory information system: effects on laboratory processes[J]. Arch Pathol Lab Med, 2017, 141(3): 410-417.
[13]Zhang Z, Xu X, Ni H,etal. Urine output on ICU entry is associated with hospital mortality in unselected critically ill patients[J].J Nephrol, 2014, 27(1): 65-71.
[14]Zhang Z, Xu X, Ni H,etal. Predictive value of ionized calcium in critically ill patients: an analysis of a large clinical database MIMIC II[J]. PLoS One, 2014, 9(4): e95204.
[15]Huang YL, Han ZJ, Hu ZD. Red blood cell distribution width and neutrophil to lymphocyte ratio are associated with outcomes of adult subarachnoid haemorrhage patients admitted to intensive care unit. Ann Clin Biochem, 2017, 1: 4563216686623.
[16]Tayefi M, Esmaeili H, Saberi Karimian M,etal. The application of a decision tree to establish the parameters associated with hypertension[J]. Comput Methods Programs Biomed, 2017, 139: 83-91.
[17]Arvanitis M, Koch CM, Chan GG,etal. Identification of transthyretin cardiac amyloidosis using serum retinol-binding protein 4 and a clinical prediction model[J]. JAMA Cardiol, 2017, 2(3): 305-313.
(本文編輯:劉群)
江蘇省“科教強衛(wèi)”醫(yī)學重點人才項目;江蘇省“六大人才高峰”項目(WSN-135);江蘇省“六個一”工程項目(LGY2016042)。
張國明,1980年生,男,主管技師,碩士研究生,主要從事臨床檢驗工作。
顧兵,副研究員,副教授,E-mail:gb20031129@163.com。
10.13602/j.cnki.jcls.2017.04.19
R446
A
2017-02-20)