王東妮,東野枚枚,張栩琳,楊子英 綜述 林浩添,2 審校
(1.中山大學中山眼科中心,眼科學國家重點實驗室,廣州 510060;2.中山大學精準醫(yī)學科學中心,廣州 510080)
疾病生物樣本庫是建設數(shù)量最多且普遍存在于各級醫(yī)療機構的生物樣本庫,樣本由患有相關疾病的患者捐獻。醫(yī)院的電子病歷系統(tǒng)(electronic medical record,EMR)、醫(yī)院信息系統(tǒng)(hospital information system,HIS)、實驗室信息系統(tǒng)(laboratory information system,LIS)、影像歸檔和通信系統(tǒng)(picture archiving and communication systems,PACS)等已廣泛應用于各級醫(yī)療機構[1],存儲著大量的臨床信息。將這些系統(tǒng)通過接口連接到生物樣本庫信息系統(tǒng)是生物樣本庫信息化建設的關鍵步驟,也是注釋樣本屬性的數(shù)據(jù)提取方式,但各管理系統(tǒng)中儲存的數(shù)據(jù)類型種類繁多,包含結構化數(shù)據(jù)、以自然語言描述的非結構化數(shù)據(jù)、影像數(shù)據(jù)、檢查報告等,單純抓取原始數(shù)據(jù)到生物樣本庫信息系統(tǒng)只會重復儲存,造成數(shù)據(jù)冗余,浪費人力、物力和財力[2],生物樣本庫急需利用智能化的數(shù)據(jù)處理方式來應對這一難題。由于機器學習技術的進步,人工智能(artificial intelligence,AI)在醫(yī)學上的應用引起了廣泛關注[3-4]。自然語言處理技術在信息檢索中的應用[5]、深度學習技術在自然語言處理和在圖像識別中的應用以及區(qū)塊鏈技術均有望成為解決生物樣本庫信息化建設與信息共享的核心技術。
臨床生物樣本蘊藏著許多與疾病相關的信息,是不可復制的科學研究資源。20世紀90年代以來,歐美等發(fā)達國家紛紛建立了大規(guī)模人群樣本庫,如擁有70萬例樣本的美國國家癌癥研究所建立的國家級腫瘤生物樣本庫(Cooperative Human Tissue Network,CHTN)[6]、招募了50萬名40~69歲志愿者并記錄其醫(yī)療健康數(shù)據(jù)的英國生物樣本庫(United Kingdom Biobank,UK Biobank)[7]、囊括了歐洲30多個國家的200多個機構的泛歐洲生物樣本庫與生物分子資源研究平臺(Biobanking and Biomolecular Resources Research Infrastructure,BBMRI)[8]。為了保護我國各民族基因組并供永久性研究,中國科學院在1994年建立了中華民族永生細胞庫,是目前國內(nèi)規(guī)模最大的各民族永生細胞庫[9]。自此,國內(nèi)各類生物樣本庫應運而生,在早期的生物樣本庫建設過程中,建設者都更加注重樣本數(shù)量建設,生物樣本得到快速積累,但由于對樣本信息疏于管理,導致信息錯漏,對樣本的應用及共享產(chǎn)生了極大的限制。如何深入挖掘樣本信息,加速科學的共享與利用,是當前生物樣本庫建設的重要方向。
國內(nèi)生物樣本庫立足于我國豐富的遺傳資源、多樣化的疾病類型,建設與發(fā)展模式漸趨成熟,在疾病防控、精準醫(yī)療、早篩早診中的作用日益增加。標準化的樣本和數(shù)據(jù)管理作為生物樣本庫的重要一環(huán),是獲取高質(zhì)量樣本和數(shù)據(jù)的基礎,也是促進轉化醫(yī)學和精準醫(yī)學發(fā)展的基石。然而,龐大的臨床資源卻由于數(shù)據(jù)結構化程度低、電子信息化建設水平參差不齊,導致利用率較低[2]。如何有效地整合、挖掘現(xiàn)有臨床資源,是生物樣本數(shù)據(jù)庫建設的基礎問題。
隨著A I 的發(fā)展、深度學習模型的開發(fā)和優(yōu)化,語義分析有望成為解決上述問題的鑰匙。語義分析是A I 的一個分支,將自然語言轉化為計算機能夠理解的語言,通過如循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Networks,RNNs)、長短時記憶模型(Long Short-Term Memory,LSTMs)及其他模型訓練機器學習、“理解”,并以自然語言給出分析結果[10]。目前,語義分析的信息處理已從表層特征向深層語義分析轉變,并在多個領域內(nèi)應用。在輿情分析方面,通過抓取社交媒體的相關信息,語義識別應用于包括欺詐交易識別等的犯罪活動檢測[11];在生物醫(yī)學方面,自然語言處理和關系提取已應用于文獻整合、構建疾病的全蛋白質(zhì)譜及基因序列標記[12]等。
在生物樣本庫信息化建設中,整理樣本捐獻者的臨床信息是必不可少的環(huán)節(jié),如患者的基本信息、門診信息和住院信息可以從HIS系統(tǒng)里獲??;患者的檢驗信息可以從LIS系統(tǒng)里獲??;患者的影像信息可以從PACS系統(tǒng)中獲??;患者的病歷信息可以從EMR中獲取。語義分析的文本信息提取可以幫助研究者提取與樣本相關的關鍵信息,即通過對文本信息的抽取,精煉龐雜的臨床數(shù)據(jù),為樣本帶上多個“標簽”,方便研究者進行樣本的篩選和統(tǒng)計分析;文本分類和聚類可以實現(xiàn)樣本的自動分類,方便研究者進行大型隊列研究和數(shù)據(jù)分類;智能檢索可以協(xié)助研究者在臨床信息數(shù)據(jù)池中挖掘和提取有效信息,在將信息結構化處理后,建立語義化描述疾病資源相關特征的模式,進一步提高臨床數(shù)據(jù)的可用性、共享性。
高度信息化建設的生物樣本庫會全面保留樣本捐獻者的基本信息、臨床信息、樣本信息、科研數(shù)據(jù)等,其中就包含X線、CT、MRI、裂隙燈照片、眼底照片、病理圖片、細胞與組織照片等圖像數(shù)據(jù)。從這些非結構化的圖像中提取有效信息,往往依賴于科研人員的臨床經(jīng)驗,準確性與一致性都得不到保證。
圖像識別是指在計算機系統(tǒng)的輔助下對圖像進行處理與分析,識別并提取目標區(qū)域的技術[13]。在實際工作中,HIS,LIS系統(tǒng)中大部分是結構化數(shù)據(jù),比較方便獲取,但PACS系統(tǒng)內(nèi)的數(shù)據(jù)和電子病歷數(shù)據(jù)為圖片和文本數(shù)據(jù),想從中提取信息需要研究者逐個查看并整理關鍵信息。將AI技術與PACS系統(tǒng)集成開發(fā)[14],將AI診斷結果反饋在樣本庫系統(tǒng)中,可以對患者的臨床診斷進行驗證,減少誤診漏診,使樣本使用者在選擇樣本時對患者的診斷進行二次核查,提高科研的嚴謹性?;谏疃葘W習的圖像識別技術在放射學、超聲學、病理學、皮膚科學、眼科學等一些需要影像數(shù)據(jù)分析的醫(yī)學學科中成果繁多[15-19]。特別是在眼科學領域發(fā)展迅猛。中山大學中山眼科中心AI團隊研發(fā)了通過收集、分析患者的裂隙燈圖片,開發(fā)了集篩查、危險度評估和輔助治療為一體的先天性白內(nèi)障智能診斷與決策系統(tǒng)CC-Cruiser[20]。并以該系統(tǒng)為核心完成了全球首個AI多中心隨機對照臨床研究,提出了醫(yī)學AI臨床應用評判標準,推動了AI臨床轉化和落地應用的進程[21]。
近日,該團隊研發(fā)的一種基于解剖學和病理學特征的醫(yī)學圖像密集標注技術Visionome問世,該技術比傳統(tǒng)圖片分類標注方法多產(chǎn)生12倍標簽,可準確識別多種眼前段病變,準確率高達93.75%,且在20種未經(jīng)過學習的眼病大規(guī)模篩查場景中準確率達84.00%,實現(xiàn)了AI跨專科、多病種應用[22]。Visionome所產(chǎn)生的標簽正是生物樣本庫呈待結構化的圖像數(shù)據(jù)。與常規(guī)的AI診斷不同的是,生物樣本信息數(shù)據(jù)庫內(nèi)本身就包含患者確切的臨床診斷,提取圖像對應的診斷結果,可以作為重要的參考標準提高Visionome識別各類標簽的準確性,將這些標簽存儲在生物樣本庫系統(tǒng)內(nèi)作為對樣本屬性的注釋,更加細化的區(qū)分了樣本分析前變量,有望成為未來科學研究的新模式。
生物樣本庫旨在為基礎科研和臨床醫(yī)學研究提供合適的樣本及數(shù)據(jù),“只存不用”、“樣本私有化”、無法實現(xiàn)樣本資源的應用和共享,只會發(fā)展成“私庫”或“垃圾庫”,令生物樣本庫失去其存在的意義[23]。我國生物樣本庫在共享方面普遍存在的問題主要有:1)“私庫”比較泛濫,樣本擁有者共享意愿低;2)缺乏完善的共享機制平臺;3)樣本基本信息及其關聯(lián)信息沒有統(tǒng)一標準,不利于數(shù)據(jù)結構化和共享;4)存在知情同意、隱私泄露、“生物剽竊”等倫理問題和法律問題。如何通過技術手段解決樣本共享問題,是實現(xiàn)生物樣本價值最大化的根本途徑。
區(qū)塊鏈和AI同屬于近年來炙手可熱的新興技術,但區(qū)塊鏈不屬于AI技術,它們之間是相輔相成的關系。區(qū)塊鏈能夠為數(shù)據(jù)安全、數(shù)據(jù)管理、數(shù)據(jù)共享提供強大的技術保障,同時為數(shù)據(jù)來源的真實性和生物樣本的倫理問題提供更好的解決方案。進一步而言,區(qū)塊鏈下的生物樣本信息集成數(shù)據(jù)庫,或能成為大數(shù)據(jù)時代中生物信息數(shù)據(jù)挖掘和AI應用的先決條件。
我國生物樣本的主要獲取渠道包括醫(yī)學檢驗、病理檢驗、手術診療等,這一系列行為過程所涉及的隱私保護和倫理問題貫穿生物樣本庫建設始終,存在捐獻者知情同意、數(shù)據(jù)保密、捐獻者和樣本庫間的相互信任、樣本庫商業(yè)化運營、國際合作等核心倫理挑戰(zhàn)[24]。區(qū)塊鏈技術作為一個由多方共同維護、去中心化的分布式記賬技術,核心在于通過對等網(wǎng)絡協(xié)議、共識算法、非對稱加密、哈希等關鍵技術解決數(shù)據(jù)傳遞與交換過程中的信任問題。區(qū)塊鏈的鏈式結構在于將不同的數(shù)據(jù)區(qū)塊按時間戳順序相連來進行數(shù)據(jù)存儲與驗證;區(qū)塊鏈網(wǎng)絡中的每個節(jié)點都可以共享數(shù)據(jù),并且同步條件下的所有副本都與其他節(jié)點完全相同;訪問者需要獲得唯一的私鑰解密公鑰進行區(qū)塊內(nèi)容的訪問[25-26]。因此,即使黑客獲得私鑰企圖篡改單一數(shù)據(jù)區(qū)塊,將無法使攻擊生效,黑客必須同時攻擊與該數(shù)據(jù)區(qū)塊相連的所有節(jié)點中的所有副本,由此產(chǎn)生的技術難度極大,目前仍無法實現(xiàn)。
區(qū)塊鏈的可溯源、不可篡改、高冗余、安全透明及成本低廉等屬性,可有效解決生物樣本數(shù)據(jù)泄露、捐獻者隱私保護和倫理問題,使人們愿意信任和樂意共享數(shù)據(jù)。在區(qū)塊鏈技術能帶來各方信任的基礎上,建立相關問責制、樣本和數(shù)據(jù)流向公開和捐獻者自主決策的治理體系,將適應并保護所有利益相關者的需求和權利,包括捐獻者、研究人員及樣本庫基金贊助者[27-28]。Mamo等[28]率先做出嘗試,創(chuàng)立了一個“動態(tài)同意”的門戶網(wǎng)站Dwarna,作為生物樣本庫不同利益相關者的樞紐,Dwarna連接生物樣本庫管理者、研究人員、捐獻者和公眾。參與者可在研究過程中根據(jù)自己的意愿進行同意/撤銷同意的操作。而同意變更的記錄將保存在區(qū)塊鏈中,區(qū)塊鏈會為其附加一個時間戳。通過在區(qū)塊鏈中托管同意變更,使研究過程更為透明。
智能合約是基于可信和不可篡改的數(shù)據(jù),自動化驗證和執(zhí)行預先定義好的規(guī)則和條款。智能合約允許在沒有第三方的情況下進行可信交易,并具有可追蹤且不可逆轉的特性。這對于生物樣本庫的信息化管理具有高度適用性,通過智能合約控制鏈流程,有助于實現(xiàn)生物樣本從采集到出入庫的全流程智能化管理[29]。
生物樣本攜帶的基因信息對疾病預防有重要指導作用。對個體生物信息進行縱向?qū)Ρ?,能追蹤個人身體健康的變化;若進行橫向?qū)Ρ龋蛇M行大數(shù)據(jù)挖掘,這些數(shù)據(jù)的價值不言而喻。但現(xiàn)實中,這些數(shù)據(jù)往往存儲在孤立的醫(yī)療或科研機構里,機構與機構之間無法進行數(shù)據(jù)流通,個體本身也無法真正實現(xiàn)對數(shù)據(jù)的擁有權和使用權。Nebula Genomics公司推出了一項業(yè)務,消費者花費999美元(項目代幣)測試自己的基因信息,并使用區(qū)塊鏈技術保障其數(shù)據(jù)和交易記錄的安全性。消費者可以對自己的數(shù)據(jù)進行管理,自主決定把數(shù)據(jù)有償或無償分享給他人。國外私人企業(yè)先于公立機構利用區(qū)塊鏈技術在生物樣本信息的共享上做出了嘗試,對于第三方樣本庫的運營提供一定的參考意義。
除了個人生物信息,生物樣本庫之間也可以利用區(qū)塊鏈技術實現(xiàn)安全的信息交換。Evangelatos等[30]開發(fā)出一個生態(tài)系統(tǒng),在生物銀行和免費/自由開源軟件(free/libre open source software,F(xiàn)LOSS)之間利用區(qū)塊鏈技術實現(xiàn)數(shù)據(jù)接口,保護信息共享空間免受搭便車問題的影響,并在不妨礙其運營框架的情況下保證其可持續(xù)性。
隨著互聯(lián)網(wǎng)技術的發(fā)展,生物樣本庫將發(fā)展為生物銀行,其運營目標是通過線上數(shù)據(jù)共享,線下實現(xiàn)生物樣本的分享,以實現(xiàn)資源的合理利用和價值提升。大數(shù)據(jù)時代下的生物樣本庫需要發(fā)展新的數(shù)據(jù)管理技術來為日常運營、信息共享提供有力的支撐,令生物樣本庫真正成為分享型樣本庫,能支持樣本存儲的核心業(yè)務,支撐樣本分享和數(shù)據(jù)共享的業(yè)務模式。Dwarna門戶網(wǎng)站、Nebula Genomics公司、Nikolaos Evangelatos團隊等展示了區(qū)塊鏈面向生物銀行的應用,設計實現(xiàn)這樣的系統(tǒng)的可能性。但在不同國家不同國情不同研究領域的樣本庫,需要針對具體情況設計個性化的信息化管理系統(tǒng)。生物樣本庫的信息化系統(tǒng)應秉承“分類適用”的理念,與領域和應用緊密結合,故其架構也與應用相對應,可能是去中心的,也可能是弱中心或多中心的。信息化是業(yè)務發(fā)展和改革的基礎,很多時候也是改革的先鋒,甚至引領應用創(chuàng)新。區(qū)塊鏈技術的應用前景甚好,但需要醫(yī)療行業(yè)規(guī)范和醫(yī)療數(shù)據(jù)知識產(chǎn)權規(guī)范等宏觀設計與規(guī)范執(zhí)行,在我國的探索依然任重道遠,但我們相信,與區(qū)塊鏈促進了金融技術的演進一樣,生物樣本庫將伴隨新的共享模式煥發(fā)出新的生命力。
本文分析了A I 技術在生物樣本庫信息化建設中可能的應用場景,通過使用語義識別、圖像識別技術輔助科研人員快速檢索到更加符合條件的目的樣本,利用區(qū)塊鏈技術促進樣本的應用共享。但AI技術本身還處在發(fā)展階段,雖可以節(jié)省科研數(shù)據(jù)收集時間,卻存在許多技術上的瓶頸,不能充分提取原始數(shù)據(jù)的有效信息。此外,生物樣本庫還處在標準化建設的初級階段,尚未建立統(tǒng)一的標準數(shù)據(jù)集,導致AI技術在生物樣本庫建設中的應用存在異質(zhì)性,不利于廣泛應用。未來AI技術和生物樣本庫標準化建設的共同發(fā)展可以促使生物樣本庫信息化建設的統(tǒng)一,促進數(shù)據(jù)與樣本的共享和合理使用。