摘要:隨著醫(yī)院信息化的建設,醫(yī)療診斷手段進步和高通量實驗設備的利用,醫(yī)學數(shù)據(jù)呈現(xiàn)幾何級數(shù)的增長表現(xiàn)出大數(shù)據(jù)的特征。如何利用現(xiàn)在已有的醫(yī)療信息系統(tǒng)和在將來醫(yī)學生物信息化建設的問題上,對醫(yī)學研究、標本庫建設、臨床醫(yī)療、醫(yī)療衛(wèi)生監(jiān)管等都提出了巨大的挑戰(zhàn),也為生物醫(yī)學研究帶來了前所未有的機遇。開展\"大數(shù)據(jù)\"相關研究工作對醫(yī)院信息化建設、生物標本信息庫建設是有著意義的。這種研究技術的應用必將成為生物醫(yī)藥科學技術發(fā)展的趨勢,也必將是未來生物信息研究領域的核心技術。所以做好相關的技術知識了解、基礎建設要求、人才培養(yǎng)內容是非常必要的。大數(shù)據(jù)必將滲透到醫(yī)學領域,改變著醫(yī)學研究、醫(yī)學臨床、醫(yī)學管理的實踐。
關鍵詞:大數(shù)據(jù);海量存儲;數(shù)據(jù)挖掘;標本庫;醫(yī)學生物信息;數(shù)據(jù)挖掘
隨著信息技術在醫(yī)學臨床和科研中的應用,臨床醫(yī)學、生物學、信息學發(fā)生了一次交叉融合, 這種以生物大數(shù)據(jù)信息是未來生物醫(yī)學研究發(fā)展的核心點。這種以海量、高維度、數(shù)據(jù)變量復雜、為特征的數(shù)據(jù)結構, 需要我們在傳統(tǒng)的醫(yī)學基礎之上集數(shù)學、統(tǒng)計學、工程學、計算機信息科學的交叉綜合、理論和實驗相結合,建立新的新方法和手段。使得我們的臨床醫(yī)學模式從經(jīng)驗醫(yī)學進一步向循證醫(yī)學轉變,無序醫(yī)療向著有序醫(yī)療發(fā)展,醫(yī)學研究也會進入從發(fā)現(xiàn)、研究、驗證、應用到再發(fā)現(xiàn)、再研究、再驗證、再應用的迭代式良性循環(huán)過程中。
1實現(xiàn)大數(shù)據(jù)的大價值是醫(yī)學信息建設的新目標
信息化時代各行業(yè)信息數(shù)據(jù)量呈現(xiàn)指數(shù)上升,醫(yī)療行業(yè)的數(shù)據(jù)信息增長更快。經(jīng)研究表明,未來10年醫(yī)學數(shù)據(jù)將高爆式地增長,其增長來源于醫(yī)院醫(yī)療信息運行數(shù)據(jù)的積累、新的臨床信息系統(tǒng)的嵌入(如電子病例系統(tǒng))、新醫(yī)療診療設備接入等。隨著醫(yī)學的進步以生物芯片為代表的高通量生物技術的飛速發(fā)展,基因組學、轉錄組學、蛋白質組學、代謝組學的信息也會涌入醫(yī)學生物信息領域。這種大量高速增長的數(shù)據(jù)被稱之為海量數(shù)據(jù)或者大數(shù)據(jù)(big data)。大數(shù)據(jù)的特點是海量、高維度、數(shù)據(jù)變量復雜、分析處理復雜。
隨著信息技術在醫(yī)學臨床和科研中的應用,臨床醫(yī)學、生物學、信息學發(fā)生了一次交叉融合,形成了生物醫(yī)學信息學(Biomedical Informatics)。這種以生物大數(shù)據(jù)信息是未來生物醫(yī)學研究發(fā)展的核心點。我們可以看到,生物醫(yī)學領域的大數(shù)據(jù)時代正在來臨,其發(fā)展將促使我們盡快構建一個實時、便捷、全方位的醫(yī)學生物信息挖掘和應用系統(tǒng)。在醫(yī)學信息研究方面,我國還主要處在對醫(yī)療流程的信息化管理、質量控制等初級階段,尚未開展面對\"大數(shù)據(jù)\"挖掘的系統(tǒng)研究與應用,但這種研究與挖掘應用必將成為生物醫(yī)藥科學技術發(fā)展的趨勢。大數(shù)據(jù)時代的到來,既對臨床醫(yī)生、研究人員、醫(yī)院管理者、醫(yī)療監(jiān)管機構等都提出了巨大的挑戰(zhàn),也為生物醫(yī)學研究帶來了前所未有的機遇。生物醫(yī)學領域里科學研究的一個重要發(fā)展趨勢就是數(shù)據(jù)驅動。以前進行實驗研究的目的是獲得結論或者是提出一種新的假設,大數(shù)據(jù)技術通過對海量數(shù)據(jù)的研究來探索其中的規(guī)律,可以直接提出假設或得出可靠的結論。
當前,以臨床醫(yī)療信息為基礎的計算機信息系統(tǒng)可擴展到多個相聯(lián)的信息系統(tǒng),包括:電子病例系統(tǒng)、隨訪信息管理系統(tǒng)、實驗室信息管理系統(tǒng)、生物信息分析系統(tǒng)、基因組學數(shù)據(jù)庫系統(tǒng)、藥物臨床試驗信息系統(tǒng)等,在醫(yī)學科研與臨床應用之間架起了一道不可或缺的橋梁。收集大數(shù)據(jù)、整合大數(shù)據(jù)、處理和分析大數(shù)據(jù),形成價值密度高、利用價值高的數(shù)據(jù)資源體系,實現(xiàn)\"大數(shù)據(jù)\"的\"大價值\",是醫(yī)學信息建設的新目標。
2大數(shù)據(jù)挖掘將盤活醫(yī)學生物信息資產(chǎn)
醫(yī)學生物信息的大數(shù)據(jù)包括醫(yī)療對象以及與醫(yī)療對象相關的信息特征集合,生物標本以及與生物標本信息相關的特征集合,這些大數(shù)據(jù)集帶有自己的、潛在的、未被揭示的規(guī)律趨勢特征,這才是醫(yī)學生物信息價值的核心所在。這些醫(yī)學生物信息是我們進行用于人類健康研究價值的資產(chǎn),研究、分析、挖掘海量醫(yī)學生物信息就是盤活人類健康研究的資產(chǎn)。數(shù)據(jù)挖掘,也稱知識發(fā)現(xiàn),是盤活這些寶貴的醫(yī)學生物信息資產(chǎn)的有力工具。
大數(shù)據(jù)的挖掘和應用不同于傳統(tǒng)的采樣分析法,它有自身的一些獨特特點,如:①大數(shù)據(jù)挖掘分析與事物相關的所有數(shù)據(jù),而非少量數(shù)據(jù)樣本,研究的樣本數(shù)量趨近于總體數(shù)量;②大數(shù)據(jù)挖掘追求的是效率和趨勢,而非絕對的準確性;③大數(shù)據(jù)挖掘更多關注事物的相關關系而非因果關系,這種信息與信息之間的相關關系會提醒我們某件事情正在發(fā)生。
同時,從數(shù)據(jù)中發(fā)現(xiàn)價值的實踐也由來已久。橫跨數(shù)據(jù)庫技術、統(tǒng)計學和機器學習等交叉學科和技術的數(shù)據(jù)挖掘是大數(shù)據(jù)分析的基礎,傳統(tǒng)的數(shù)據(jù)分析實踐是無法適應大數(shù)據(jù)的發(fā)展的。
近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關注。其主要原因是,由業(yè)務系統(tǒng)產(chǎn)生的大量數(shù)據(jù),迫切需要將這些數(shù)據(jù)轉換成有用的信息和知識,并廣泛使用于業(yè)務中。獲取的信息和知識可以廣泛用于各種實踐應用,包括商務管理、生產(chǎn)控制、市場分析、工程設計和科學探索等領域。數(shù)據(jù)挖掘利用了來自如下一些領域的思想和方法:統(tǒng)計學、人工智能、模式識別、機器學習等。數(shù)據(jù)挖掘的很多算法都采用了以上領域中的理論算法、建模技術和學習理論等。數(shù)據(jù)挖掘也迅速地接納了來自其他領域的思想,這些領域包括最優(yōu)化技術、進化計算、信息論、信號處理、可視化和信息檢索技術等。數(shù)據(jù)挖掘也需要數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理得支持。源于高性能并行計算的技術在處理海量數(shù)據(jù)集方面常常是也重要的。分布式計算技術也能有效地幫助處理海量數(shù)據(jù),并且當數(shù)據(jù)不能集中到一起處理時更是至關重要的[2]。
醫(yī)學生物信息的數(shù)據(jù)挖掘應用比較廣泛,醫(yī)學樣本庫領域的應用就是其中的一個實例。通過建立臨床醫(yī)學樣本信息篩選和偵測交互信息平臺來建立協(xié)作樣本庫和虛擬樣本庫。建立樣本庫協(xié)作單位的協(xié)作機制、嚴格的樣本篩選策略(根據(jù)研究項目協(xié)議和國家地方相關標準診斷、歸轉標準[5-7])、應答式的標本收集機制、樣本區(qū)域內(研究機構、轉化中心、醫(yī)院)權利共享機制,以建立全新模式、響應一致、反應迅速、整齊劃一的樣本收集研究管理的體系。建設樣本從標篩選、采集、管理策略運轉的實例,是以一個研究中心結合4~5個醫(yī)院以及4~5個樣本篩選醫(yī)院,建立研究臨床醫(yī)學轉化知識發(fā)現(xiàn)和研究驗證系統(tǒng)信息平臺和建立臨床醫(yī)學樣本信息篩選和偵測交互信息平臺的基礎。
醫(yī)學生物信息的數(shù)據(jù)挖掘應用的另一個實例是醫(yī)學科研。生物醫(yī)藥領域里科學研究的一個重要發(fā)展趨勢就是數(shù)據(jù)驅動。以前進行實驗研究的目的是獲得結論或者是提出一種新的假設,而現(xiàn)在通過對海量數(shù)據(jù)的研究來探索其中的規(guī)律,可以直接提出假設或得出可靠的結論[8]。另一方面,必須清楚的是,大數(shù)據(jù)作用與價值的重點在于能夠引導和啟發(fā)科研者的創(chuàng)新思維、并輔助決策。簡單而言,若是處理一個問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供若干種參考方法,將解決問題的思路拓寬、拓廣、拓深。當然我們需要在學科知識的結合上下內功,不能單純依靠智能挖掘技術及工具就能解決大數(shù)據(jù)的應用問題,實際上我們還要有熟悉掌握和運用智能挖掘技術及工具的業(yè)務技術人才,才能在浩瀚的信息資源中遨游,才能真正利用好醫(yī)學信息這個巨大的資產(chǎn)。
3挖掘和利用醫(yī)學生物信息的技術方法
醫(yī)學科學的第三次革命需要在傳統(tǒng)的醫(yī)學基礎之上集數(shù)學、統(tǒng)計學、工程學、計算機信息科學的交叉綜合、理論和實驗相結合,建立新的新方法和手段。目前,我國醫(yī)院信息系統(tǒng)存在著許多問題,集中體現(xiàn)在:醫(yī)學生物信息內容缺失、信息標準化程度低以及發(fā)展目標不明確等問題上。我們建設目的①堅持醫(yī)療一線的工作需要,②堅守醫(yī)學大數(shù)據(jù)信息資源的理念,③做好大數(shù)據(jù)收儲分析的準備工作。 大數(shù)據(jù)時代醫(yī)院該如何挖掘和利用醫(yī)學生物信息?我們通過與國內外有關數(shù)據(jù)挖掘的技術專家的合作,總結了醫(yī)學生物信息的挖掘和利用的一些方法。
3.1數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起) 把不同來源、格式、特點性質的數(shù)據(jù)在邏輯上或物理上有機地集中,從而為醫(yī)院和研究機構提供局部的或全面的數(shù)據(jù)共享。
3.2數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務相關的數(shù)據(jù)) 根據(jù)確定的數(shù)據(jù)分析對象,抽象出在數(shù)據(jù)分析中所需要的特征信息,然后選擇合適的信息收集方法,將收集到的信息存入數(shù)據(jù)庫。對于海量數(shù)據(jù),選擇一個合適的數(shù)據(jù)存儲和管理的數(shù)據(jù)倉庫是至關重要的。
3.3數(shù)據(jù)規(guī)約 數(shù)據(jù)挖掘時往往數(shù)據(jù)量非常大,在大量數(shù)據(jù)上進行挖掘分析需要很長的時間,數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,它小得多但仍然接近于保持原數(shù)據(jù)的完整性,數(shù)據(jù)挖掘的結果與歸約前結果相同或幾乎相同。
3.4數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù)) 在數(shù)據(jù)庫中的數(shù)據(jù)有一些是不完整的(有些感興趣的屬性缺少屬性值)、含噪聲的(包含錯誤的屬性值),并且是不一致的(同樣的信息不同的表示方式),因此需要進行數(shù)據(jù)清理,將完整、正確、一致的數(shù)據(jù)信息存入數(shù)據(jù)庫中,否則會影響數(shù)據(jù)挖掘的結果。
3.5數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如,通過匯總或聚集操作等) 通過平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)挖掘的形式。對于有些實數(shù)型數(shù)據(jù),通過概念分層和數(shù)據(jù)的離散化來轉換數(shù)據(jù)也是重要的一步。
3.6模型運算(使用智能化的算法提取數(shù)據(jù)模式) 根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)信息,選擇合適的分析工具,應用統(tǒng)計方法、事例推理、決策樹、規(guī)則推理、模糊集、神經(jīng)網(wǎng)絡、遺傳算法等方法處理信息,得出有用的分析信息。通過對數(shù)據(jù)的挖掘,①可以發(fā)現(xiàn)數(shù)據(jù)的歷史規(guī)律,對過去進行總結;②可以根據(jù)數(shù)據(jù)對未來進行預測,研究者可以根據(jù)預測對未來行情趨勢做出預判,并作出相關決策。
3.7模型評估 根據(jù)某種興趣度度量,識別提供知識的真正有趣的模式。
3.8知識表示。(使用可視化和知識表示技術,向用戶提供挖掘的知識) 將數(shù)據(jù)挖掘所得到的分析信息以可視化的方式呈現(xiàn)給用戶,或作為新的知識存放在知識庫中,供其他應用程序使用。使用各種圖表、三維地圖、動態(tài)模擬以及相關的動畫技術使原本枯燥乏味的數(shù)據(jù)變得生動起來。數(shù)據(jù)可視化把數(shù)據(jù)以更加直觀的形態(tài)展現(xiàn)出來,使人們對相關數(shù)據(jù)做到一目了然。經(jīng)過上面幾步我們就把原先認為毫無價值的數(shù)據(jù)變成了信息,最后演變?yōu)橛袃r值的知識。
對于醫(yī)學生物信息挖掘系統(tǒng)的建設者(這里包括醫(yī)院科研部門和信息部門)來說,數(shù)據(jù)挖掘項目不因該是一個普通的IT項目,不能依照原來信息項目模式建設,更不能理解成為是個管理工具,在項目各個階段,數(shù)據(jù)信息每一次挖掘、演繹、分析是建設者和研究者全程參與的藝術性結合。目前對于各行業(yè)、各類典型問題的數(shù)據(jù)挖掘應用,還缺乏標桿模式作為參考。數(shù)據(jù)挖掘工作更像一個年輕醫(yī)師,需要通過不斷嘗試來積累經(jīng)驗,面對如潮水般涌來的海量數(shù)據(jù),她必將成為了生物醫(yī)學研究的支柱技術之一。
綜上所述,在今后的發(fā)展中計算機硬件性能的巨幅提升和數(shù)據(jù)庫技術的飛速發(fā)展,使得企業(yè)級大數(shù)據(jù)量的計算成為現(xiàn)實,數(shù)據(jù)挖掘涉及的數(shù)據(jù)量會更大。數(shù)據(jù)挖掘工具也將越來越強大,匯合的挖掘算法越來越多,并將逐步實現(xiàn)算法的自動選擇和參數(shù)自動調優(yōu),數(shù)據(jù)挖掘各類算法的巨大潛力將得到充分發(fā)揮。
我們設想在不久的將來,生物信息大數(shù)據(jù)的應用將會改變著醫(yī)學臨床實踐。臨床醫(yī)學模式從經(jīng)驗醫(yī)學進一步向循證醫(yī)學轉變,無序醫(yī)療向著有序醫(yī)療進一步發(fā)展,醫(yī)學研究也會進入從發(fā)現(xiàn)、研究、驗證、應用到再發(fā)現(xiàn)、再研究、再驗證、再應用的迭代式良性循環(huán)過程中。古老的醫(yī)學走到了今天,已經(jīng)發(fā)展成為多學科、多領域結合交匯的領域,生物信息科學、計算機科學和計算應用數(shù)學的介入為大數(shù)據(jù)信息時代開創(chuàng)了新的前景,未來數(shù)據(jù)資源將會成為極具研究價值的醫(yī)學資產(chǎn),而且我國又是一個醫(yī)學研究資源豐富的大國,我們有理由相信,我們的醫(yī)學研究者會通過醫(yī)學生物信息的挖掘和利用,在醫(yī)學的研究和發(fā)展中為廣大人民的健康事業(yè)做出更多貢獻。
參考文獻:
[1]中國醫(yī)藥生物技術協(xié)會生物樣本庫標準(試行)[J].中國醫(yī)藥生物技術,2011, 6(1):71-79.
[2]朱凌云,吳寶明.醫(yī)學數(shù)據(jù)挖掘的技術方法及應用[J].生物醫(yī)學工程學雜志,2003;20(3):559-562.
[3]衛(wèi)生信息數(shù)據(jù)元.中華人民共和國衛(wèi)生行業(yè)標準[S].VS 363.3-2011.
[4]科學技術部.十二五\"生物技術發(fā)展規(guī)劃[S].2011;11.
[5]劉淑珍,駱巖林,黃永峰.基于XML的電子病歷存儲管理系統(tǒng)的實現(xiàn)[J].醫(yī)院數(shù)字化,2007,22(7):24-26.
[6]孫榮國,賈曉蓉.對我國臨床標本庫建設的建議[J].衛(wèi)生軟科學,2012,26(9):772.
[7]楊靜芳,陳凌,肖暉,等.標準化臨床樣本庫的創(chuàng)建與管理[C].中華醫(yī)學會第十三次全國醫(yī)學科學研究管理學學術會議暨2012第四屆全國醫(yī)學科研管理論壇,2012,12.
[8]楊靜芳,陳凌,肖暉,等.利用智能計算技術整合醫(yī)院臨床信息系統(tǒng)[J].中國病案.2012,13(9):39-41.編輯/申磊