陳 虞 王 地 李冠璋, 趙 征 李藝影
1.北京市神經外科研究所科研辦公室,北京 100070;2.首都醫(yī)科大學附屬北京天壇醫(yī)院神經外科,北京 100070;3.北京市神經外科研究所分子神經病理室,北京 100070
隨著精準醫(yī)學、轉化醫(yī)學及醫(yī)療大數據技術的不斷發(fā)展,臨床生物樣本數據庫的標準化建設以及規(guī)范化管理成為科學研究順利開展與否的關鍵因素[1-2]。臨床組織樣本是十分寶貴的不可再生資源,對探索疾病的發(fā)生發(fā)展機制、識別藥物新靶點及開發(fā)新型治療方法等具有重要意義[3-4]。臨床樣本的管理不僅需要提高樣本量,而且還要注重采集樣本的質量、數據管理的規(guī)范性及使用的便捷性[5-7]。目前國際上已有數個腫瘤相關大型數據庫項目,如美國癌癥基因組圖譜計劃、國際癌癥基因組聯盟等[8-9]。這些項目產生了海量的多維度組學數據,極大推動了腫瘤病理學、診斷學、預防及治療等領域的發(fā)展,同時做到了數據的高度共享,為世界各地的研究人員提供了進一步深度挖掘和分析研發(fā)的契機[10-12]。然而,已有的各種腦膠質瘤臨床生物樣本庫仍存在不足之處,如數據更新緩慢,缺少數據訪問、分析和可視化工具等[13]。本文分析了中國腦膠質瘤基因組圖譜計劃(Chinese Glioma Genome Atlas,CGGA)相關臨床生物樣本庫的建立與管理實踐,總結高質量、高標準、智能化的臨床生物樣本庫的建設經驗。
2004 年,在王忠誠院士指導下,中國第一個腦膠質瘤綜合診療中心建成,由北京市神經外科研究所、首都醫(yī)科大學附屬北京天壇醫(yī)院江濤教授擔任中心負責人。江濤教授主要從事轉化醫(yī)學、分子分型、膠質瘤精準治療等方面的研究,同期,江濤教授作為發(fā)起人成立中國腦膠質瘤臨床生物樣本庫[14]。該樣本庫的臨床樣本主要來自于首都醫(yī)科大學附屬北京天壇醫(yī)院、天津醫(yī)科大學總醫(yī)院、首都醫(yī)科大學三博腦科醫(yī)院、哈爾濱大學第二附屬醫(yī)院、南京醫(yī)科大學第一附屬醫(yī)院和中國醫(yī)科大學第一醫(yī)院等國內多家知名三甲醫(yī)院。樣本采集過程中均獲得患者或患者家屬的知情同意,根據各個醫(yī)院的倫理委員會批準進行腫瘤標本采集,手術切除后取腫瘤組織5 min 內即通過液氮冷凍保存。此外,患者的隨訪信息由聘請的專業(yè)人員進行定期隨訪獲得。
自2004 年至今,通過10 余年的樣本采集,在《中華人民共和國人類遺傳資源管理條例》的規(guī)范下,該團隊建立了中國人群最大規(guī)模的腦膠質瘤臨床生物樣本庫,登記患者相應的臨床信息,并進行了系統(tǒng)性隨訪。2012 年,江濤教授團隊對上百例腦膠質瘤樣本進行了基因芯片及高通量測序等檢測,并建立了我國首個腦膠質瘤信息化平臺——CGGA(http://www.cgga.org.cn),為腦膠質瘤的基礎和臨床研究提供了大量的臨床和基因組學數據。目前該樣本庫已經按照國際標準建立了首個中國人群大規(guī)模多中心臨床樣本庫,收集了9000 余例各級別腦膠質瘤的冰凍組織、石蠟組織及相應患者的血漿和血細胞標本,包含來源于超過3000 個樣本的中國人腦膠質瘤多維組學數據。此外,該團隊還開發(fā)了新的分析工具,使用戶可以瀏覽突變圖譜、mRNA/microRNA 表達圖譜和DNA 甲基化圖譜等,并對特定的膠質瘤亞型進行生存預后相關性分析。
在生物樣本庫的統(tǒng)一管理中,首先要對樣本進行標識,防止在處理的過程中與其他樣本混淆,便于快速識別和樣本信息追蹤[15-16]。目前世界上大多腫瘤樣本庫推薦使用二維碼標記樣本,如法國生物樣本庫通過手機短信生成樣本碼,美國國家癌癥研究所使用caTissue 軟件進行管理[17-18]。中國腦膠質瘤臨床生物樣本庫自主開發(fā)了臨床數據與樣本資源管理系統(tǒng),該系統(tǒng)按照入庫先后順序和日期定義了樣本來源的編碼規(guī)則,將樣本源編碼與患者身份信息一一對應,后續(xù)分析處理均使用該編碼進行,實現了對樣本的匿名管理,有效保護了患者的隱私。通過該系統(tǒng),每個編碼可生成一個專用二維碼標簽,貼于收集樣本的專用凍存管(Thermo 公司)上,即可用于樣本的超低溫保存。臨床樣本入庫后,研究人員可通過臨床數據與樣本資源管理系統(tǒng),分別從容器、樣本、樣本源、數據、隨訪、質控、統(tǒng)計7 個維度對所有樣本進行管理和分析,另外樣本庫安排有專門定期審核入庫、出庫記錄及數據庫維護人員,保證了樣本庫長期、有效運轉。所有數據都使用MySQL14.14 進行組織,網站代碼使用Java Servlet 框架基于Java Server Pages 編寫,網站部署在Tomcat 6.0.44 Web 服務器上,使用CentOS 5.5 linux 系統(tǒng)運行。這些措施大大提高了數據使用的便捷性和安全性,有利于世界各地的研究人員及時使用數據庫的最新內容,大大促進了學術交流。
構建臨床生物樣本庫的另一大挑戰(zhàn)是臨床及隨訪信息的完整性、信息更新的及時性[19-21]。為解決這一問題,CGGA 課題組專職隨訪人員對樣本庫中的所有病例進行系統(tǒng)化定期隨訪,內容包括術后每3~6 個月復查MRI 影像學檢查評價療效,詳細記錄患者的臨床情況,包括年齡、性別、腫瘤級別、切除程度、治療方案、卡氏評分、簡易智力狀態(tài)檢查量表評分、隨訪日期、腫瘤復發(fā)時間、死亡時間、生活質量、無進展生存期、總生存期等。這做法不僅完善并統(tǒng)一了腫瘤樣本臨床數據采集和整理的實際操作流程,使其標準化和規(guī)范化,解決了目前尚未統(tǒng)一的腦腫瘤樣本收集方法,而且使腦膠質瘤大樣本數據庫能獲取更全面、高質量的臨床信息資料,成為權威性的原始科學資源,為進一步開展腦膠質瘤的各類基礎和臨床研究奠定基礎,同時避免了研究經費和臨床資源的浪費。
WOS 是Clarivate Analytics(科睿唯安,原湯森路透知識產權與科技事業(yè)部)開發(fā)的信息服務平臺。目前,通過WOS 數據庫的論文影響力指標來評價國家、高校、科研機構、科研工作者、學術期刊的學術水平及國際影響力,已成為全球范圍內普遍采用的一種方法。為探究中國腦膠質瘤臨床生物樣本庫信息化管理對相關科研成果產出和科研效率的影響,我們基于WOS數據庫分析了2011 年1 月至2021 年4 月經過同行評議、已發(fā)表、使用中國腦膠質瘤臨床樣本庫數據的SCI 科技論文。以“Chinese Glioma Genome Atlas”或“CGGA”為主題檢索詞,共檢索出308 篇SCI 論文,被引頻次總計2695 次,單篇平均引用次數8.75 次,h 指數為24,施引文獻2142 篇,按年限分布情況分析這些論文的數量和被引頻次。第一篇文章發(fā)表于2012 年,與中國腦膠質瘤臨床樣本庫信息系統(tǒng)上線時間相符。此后每年論文發(fā)表總數呈穩(wěn)步上升狀態(tài),至2019 年后論文發(fā)表數量開始明顯增加。2021 年1 月至4 月已有43 篇SCI 論文發(fā)表,已超過2018 年全年SCI 論文發(fā)表總數。此外這些論文按年限分布的引文分析顯示,2013—2020 年中國腦膠質瘤臨床生物樣本庫相關論文被引頻次逐年上升,呈近似指數曲線上升。這些分析結果表明,隨著中國腦膠質瘤臨床生物樣本庫信息化管理的不斷完善,該樣本庫的科研產出和學術影響力不斷提升。
回顧已發(fā)表的關于我國臨床生物樣本庫建設和管理現狀的相關文獻[22-26],我們共總結出目前存在如下問題:樣本庫建設缺乏統(tǒng)一標準,樣本庫行政管理不到位,樣本共享機制不健全,利益分配機制不合理,樣本庫信息化建設不完備,樣本共享法律體系不健全,樣本質量不符合共享要求,知識產權保護薄弱,缺乏共享意識和精神,樣本共享資金投入不穩(wěn)定,缺少樣本共享平臺等。
上述這些問題說明我國目前臨床生物樣本庫的建設和運行機制尚未成熟?;谥袊X膠質瘤臨床生物樣本庫的建立和使用經驗,我們提出以下對策:①在建立樣本庫前即完善相關標準的設定,可以按照國際先進的樣本數據庫標準作為參考;事先制訂統(tǒng)一、規(guī)范的樣本入庫、排除標準,樣本采集流程規(guī)范,以及樣本使用規(guī)范等,避免分散式的樣本采集最終使管理產生混亂。②對于重要環(huán)節(jié),設置專職人員進行管理,定期培訓樣本庫相關人員,提高管理團隊的規(guī)范性,如安排專人定期檢查樣本質量與數量是否與記錄一致、樣本使用情況是否合理、樣本與臨床信息是否一致等;根據已有的眾多實踐經驗,管理人員的素質直接決定了樣本庫的數據質量;對于患者隨訪,也要安排專業(yè)團隊定期進行,盡可能完善隨訪數據。③積極共享最新數據,高質量樣本庫的價值和潛力往往十分豐富,很難由單個人或單個團隊充分挖掘;積極促進樣本庫數據共享,鼓勵多層次的學術交流,不僅有利于充分使用臨床樣本,也同樣有利于擴大數據庫及相關研究成果的影響力,使樣本庫的發(fā)展得到更多支持和認可,有利于樣本庫的長期良性發(fā)展。④樣本的收集和使用要有前瞻性,目前二代測序、多組學和大數據技術的迭代很快,因此樣本庫的管理者應當具有敏銳的前瞻思維,及時利用新技術、新方法獲得新數據并不斷完善數據庫;中國腦膠質瘤臨床生物樣本庫目前包含全外顯子測序樣本286 例、mRNA 測序樣本1018 例、微陣列mRNA 芯片301 例、微陣列甲基化芯片159 例,以及microRNA 微陣列樣本198 例;此外,該樣本庫中還包括來自13 例腦膠質瘤患者的6148 個細胞的STRT-seq 平臺單細胞測序數據,以及274 例腦膠質瘤患者的影像基因組學數據,這提示及時使用新技術更新樣本庫數據是樣本庫管理的重要環(huán)節(jié)之一。
綜上所述,目前CGGA 數據庫已成為亞洲乃至全世界最大規(guī)模的腦膠質瘤醫(yī)學信息工程[14]。2020 年12 月,CGGA 數據庫成為國家生物信息中心(國家基因組科學數據中心)BIG Search 檢索系統(tǒng)的官方合作數據庫(Partner Database)。2021 年3 月,CGGA 數據庫論文在生物信息學領域權威雜志Genomics,Proteomics&Bioinformatics 在線發(fā)表。截至目前,該數據庫的總訪問量已達30 000 余次,已有美國、歐洲多家知名研究機構在200 余篇SCI 論文中引用或使用該數據庫。不斷建設和完善的CGGA 數據庫將有助于促進我國腦膠質瘤領域基礎和臨床研究水平的發(fā)展,并提高我國癌癥研究的國際影響力,最終推動腦膠質瘤新型診療模式的發(fā)展,讓更多腦膠質瘤患者獲益。