• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    癌癥基因組學相關數(shù)據(jù)管理與應用探析

    2016-03-21 11:05:56,,,
    中華醫(yī)學圖書情報雜志 2016年4期
    關鍵詞:數(shù)據(jù)管理基因組圖譜

    ,, ,

    美國癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)計劃歷經(jīng)10年完成了階段性任務[1],推動了癌癥基因組學研究的發(fā)展,為大規(guī)模癌癥基因組學研究計劃的實施提供了參考。2006年,在美國國立衛(wèi)生研究院(National Institutes of Health,NIH)的組織領導下,美國國立癌癥研究所(National Cancer Institute,NCI)和國立人類基因組研究所(National Human Genome Research Institute,NHGRI)聯(lián)合啟動了癌癥基因組圖譜計劃[2]。該計劃旨在通過大規(guī)模收集特定癌癥患者的臨床信息、影像信息、腫瘤組織及部分對應的正常組織樣本,對其進行全面的基因組數(shù)據(jù)分析,從而獲得一個全面的癌癥基因組“圖譜”,找到癌癥相關的基因組變異并為其編制目錄,實現(xiàn)數(shù)據(jù)共享,促進癌癥的早期診斷和精準治療,并預防癌癥的發(fā)生。

    本文將從TCGA計劃的數(shù)據(jù)管理相關機構、工作流程、數(shù)據(jù)分類及開放共享、數(shù)據(jù)應用等方面對TCGA進行調研,為建立和完善大型的開放癌癥基因組學數(shù)據(jù)庫及其數(shù)據(jù)開放和利用提供參考借鑒。

    1 癌癥基因組數(shù)據(jù)管理

    1.1 數(shù)據(jù)管理相關機構

    TCGA計劃涉及多個負責數(shù)據(jù)收集和處理分析的相關機構(圖1),具體包括組織樣本采集站(Tissue Source Sites,TSSs)、樣本處理中心(Biospecimen Core Resource,BCR)、基因組測序中心(Genome Sequencing Centers,GSCs)、基因組特征研究中心(Genome Characterization Centers,GCCs)、數(shù)據(jù)調度中心(Data Coordinating Center,DCC)、癌癥基因組中心(Cancer Genomics Hub,CGHub)和基因組數(shù)據(jù)分析中心(Genome Data Analysis Centers,GDACs)等[2],其工作流程基本如下。

    圖1 美國癌癥基因組圖譜數(shù)據(jù)管理數(shù)據(jù)流[2]

    組織樣本處理:組織樣本采集站(TSSs)收集志愿者的生物樣本(腫瘤組織和正常組織)及臨床元數(shù)據(jù)并提交給樣本處理中心(BCRs),樣本處理中心(BCRs)從樣本中提取待分析的物質(DNA、RNA、蛋白質等),并檢測以達到數(shù)量和質量的要求,同時為樣本編碼并去除患者隱私信息。

    科學研究發(fā)現(xiàn):待分析的物質由樣本處理中心(BCRs)分別提交給基因組特征研究中心(GCCs)和基因組測序中心(GSCs),并分別進行基因組變異特征分析和識別特定癌癥的DNA、RNA序列變化,基因組數(shù)據(jù)分析中心(GDAC)對來源于各個序列描述平臺的數(shù)據(jù)進行整合,研發(fā)并提供新的信息處理、分析和可視化工具,以使癌癥基因組圖譜的數(shù)據(jù)得到充分利用。

    科學數(shù)據(jù)共享:TCGA計劃所收集和產生的各類數(shù)據(jù)由數(shù)據(jù)調度中心(DCC)集中管理,并通過數(shù)據(jù)門戶(The TCGA Data Portal)等平臺促進數(shù)據(jù)開放共享,使所有研究者根據(jù)其研究目的獲取和利用所需數(shù)據(jù)。

    數(shù)據(jù)驅動的科研協(xié)作:TCGA計劃促進交叉學科研究團隊從不同分子層面整合不同癌癥表型信息協(xié)同開展科學研究,共同研究癌癥發(fā)病機理,發(fā)現(xiàn)致病因素,提供精準的治療方案,進而有效降低癌癥疾病負擔[3]。

    1.2 數(shù)據(jù)分類

    TCGA計劃收集了11 000名患者、33種癌癥的樣本數(shù)據(jù)[4](表1)。2015年,TCGA計劃所收集和產生的數(shù)據(jù)量已達20PB,其中包括1 000萬個突變信息[1]。研究者可自行選擇和下載所需的癌癥數(shù)據(jù)并進行分析。據(jù)TCGA計劃管理辦公室的不完全統(tǒng)計,截至2014年底,已有2 700多篇已發(fā)表的研究文章使用了TCGA計劃所收集和產生的數(shù)據(jù)[4]。

    表1 美國癌癥基因組圖譜(TCGA)計劃癌癥樣本數(shù)量分布

    注:該表為截至日期為2016年1月14日

    TCGA研究團隊針對上述各種癌癥,收集和產生了多種類型的組學和臨床相關數(shù)據(jù),主要包括基因表達,外顯子表達、小RNA表達、拷貝數(shù)改變(CNV)、單核苷酸多態(tài)性(SNP)、雜合性缺失(LOH)、基因突變、DNA甲基化和蛋白質表達等組學數(shù)據(jù),以及患者的基本資料、治療進程、臨床分期和生存狀況等臨床相關數(shù)據(jù)。

    對于每種類型的數(shù)據(jù),TCGA研究團隊根據(jù)其加工處理程度劃分為4個水平,使研究者可根據(jù)其研究需要選擇不同處理水平的數(shù)據(jù)。TCGA計劃的數(shù)據(jù)處理程度總體界定如表2所示。由于每一個中心和平臺都會產生多種類型的數(shù)據(jù),而各中心和平臺分別根據(jù)其數(shù)據(jù)類型和所采用的分析算法對數(shù)據(jù)水平分類進行界定,因此各中心和平臺之間的界定標準可能會略有不同[5]。

    1.3 數(shù)據(jù)共享機制

    TCGA計劃根據(jù)數(shù)據(jù)粒度,將所收集和產生的數(shù)據(jù)分為匯總數(shù)據(jù)和個體數(shù)據(jù),并分別采取不同的數(shù)據(jù)共享機制,即匯總數(shù)據(jù)可開放存取,用戶使用時不需要進行認證。而個體數(shù)據(jù)須受控訪問,用戶須填寫數(shù)據(jù)訪問申請,經(jīng)審核同意后方可下載使用數(shù)據(jù)。這兩種數(shù)據(jù)共享機制的不同之處詳見表3。

    表2 美國癌癥基因組圖譜(TCGA)計劃數(shù)據(jù)處理程度劃分

    表3 美國癌癥基因組圖譜(TCGA)計劃的數(shù)據(jù)共享機制比較

    2 應用領域

    TCGA計劃已覆蓋惡性膠質瘤、乳腺癌、卵巢癌、肺癌、結直腸癌、腎透明細胞癌、白血病、子宮內膜癌、膀胱移行細胞癌、胃腺癌等30多種癌癥及其亞型(表1)。TCGA研究團隊及其他相關研究者利用其共享數(shù)據(jù)開展了大量研究,包括癌癥特征基因的突變、染色體擴增和缺失以及受影響的信號通路等?;诙鄠€高通量實驗平臺產生的數(shù)據(jù),開展癌癥基因組學研究,為分子水平癌癥分類研究開辟了新視角。下面以研究成果中的乳腺癌、前列腺癌相關發(fā)現(xiàn)及泛癌計劃為例,對TCGA計劃的數(shù)據(jù)應用情況進行介紹。

    2.1 乳腺癌

    2012年,TCGA研究團隊通過對乳腺癌相關的基因組DNA拷貝數(shù)陣列、DNA甲基化、外顯子測序、mRNA陣列、小RNA序列陣列和反相蛋白陣列等數(shù)據(jù)的整合分析,發(fā)現(xiàn)了4個主要的分類亞型,且每種亞型都有顯著的分子異質性[6]。2015年TCGA研究團隊與瑞士洛桑大學遺傳學系、美國斯隆凱特林癌癥中心等20多個機構的研究者合作,利用TCGA計劃的多個平臺的分析數(shù)據(jù),包括817個乳腺癌樣本,分析小葉樣乳腺癌和導管樣乳腺癌的分子差異,找到了其發(fā)病機制中的不同通路;同時根據(jù)細胞增殖及免疫相關基因的表達差異,定義了新的小葉樣乳腺癌亞型(reactive-like, immune-related, proliferative),發(fā)現(xiàn)潛在的治療靶點[7]。此外,研究者利用TCGA計劃的數(shù)據(jù)驗證其研究結果,通過整合一個大型的小葉樣乳腺癌患者隊列中的基因組、轉錄組及蛋白質組數(shù)據(jù),找到兩個生物學方面有顯著差異的亞型,并利用TCGA計劃乳腺癌的基因表達數(shù)據(jù),用相同的聚類方法,顯示出類似的生物學差異[8]。這些差異可通過相應靶向的化療或免疫療法改善治療效果,為精準治療方案的制定提供依據(jù)。

    2.2 前列腺癌

    有研究通過篩查TCGA計劃所收集和產生的前列腺癌的差異表達的小RNA數(shù)據(jù),分析靶基因的功能和信號通路,發(fā)現(xiàn)了6種差異表達的小RNA及它們的靶基因,可以作為前列腺癌治療過程中的預后生物標記[9]。TCGA研究團隊對原發(fā)性前列腺癌的333個樣本的多個平臺(包括外顯子組、全基因組測序、RNA測序、小RNA測序、SNP微陣列、DNA甲基化微陣列、反相蛋白微陣列)的分析數(shù)據(jù)進行了全面的分子學分析,發(fā)現(xiàn)74%的原發(fā)性前列腺癌可根據(jù)基因融合和突變分為7個亞型,不同亞型之間存在表觀遺傳學和激素受體活性差異。該發(fā)現(xiàn)對前列腺癌的分子診斷與靶向治療具有重要意義[10]。

    2.3 泛癌計劃

    隨著研究的深入和相互關聯(lián),研究者發(fā)現(xiàn)在不同的癌癥中會存在相似的分子模式。為此,TCGA計劃的研究者于2012年啟動了泛癌計劃(Pan-Cancer Project)。根據(jù)當時的數(shù)據(jù)可及性和完整性,計劃選取多形性成膠質細胞瘤、急性骨髓性白血病、頭頸部鱗狀細胞癌、肺腺癌、肺鱗狀細胞癌、乳腺癌、腎透明細胞癌、卵巢癌、膀胱癌、結腸腺癌、子宮頸與子宮內膜癌、直腸腺癌等12種癌癥,共計3 000多個樣本的基因突變(包括單核苷酸變異和結構變異)、DNA拷貝數(shù)改變、基因表達、DNA甲基化、小RNA測序、反向蛋白陣列等組學數(shù)據(jù)和臨床相關數(shù)據(jù)進行整合分析,探尋不同癌癥的相似生物通路[11]。

    在該計劃中,來自30多個機構的250位研究者開展協(xié)作研究,進行數(shù)據(jù)的處理、分析和知識發(fā)現(xiàn)[12]。該計劃的開展,為大型協(xié)作研究提供了一個可行的模式。此外,泛癌計劃的研究結果為不同病發(fā)部位腫瘤的系統(tǒng)生物學研究提供了可行性。

    美國斯隆凱特林癌癥中心的Giovanni Ciriello等人利用生物信息學算法對12種癌癥的3 299個癌癥樣本進行了層次分類,將這些癌癥分為原發(fā)性體細胞變異類型(M類)和原發(fā)性拷貝數(shù)改變類型(C類),揭示了癌癥形成中不同的致癌過程。研究發(fā)現(xiàn)的層次分類結果表明腫瘤形成過程中存在不同的致癌標記,為不同階段的癌癥治療提供了新思路[13]。另外有研究分析了泛癌數(shù)據(jù)集中11種癌癥的4 934個原位癌樣本的體細胞拷貝數(shù)改變(somatic copy number alteration,SCNA)情況,發(fā)現(xiàn)了不同癌癥有著相同的SCNA模式,約37%的癌癥有全基因增倍(whole-genome doubling)同時伴有相當高的體細胞拷貝數(shù)改變[14]。

    Nature雜志于2013年創(chuàng)建了 TCGA泛癌分析(TCGA Pan-Cancer Analysis)專欄,總結了TCGA泛癌計劃包括突變驅動、網(wǎng)絡模型、暴露與致病因素、數(shù)據(jù)發(fā)現(xiàn)、未來方向等方面的研究成果[15]。

    3 對我國的啟示

    目前,我國的基因組學等生物科研數(shù)據(jù)共享與數(shù)據(jù)匯交工作已啟動[16],但仍缺少與之匹配數(shù)據(jù)管理制度和技術支撐[17]。TCGA計劃的數(shù)據(jù)管理經(jīng)驗可為國家級大型的癌癥基因組學相關數(shù)據(jù)資源管理提供參考。

    3.1 加強多中心合作,落實項目管理制度

    人類基因組計劃開啟了多中心、多機構合作模式,之后團體合作的基因組工程隨之而來,包括千人基因組計劃、TCGA計劃和人類微生物組計劃等。合作模式下的科學研究將會使更多人獲益,各個參與其中的中心或機構,利用相同的基礎設施、分析工具,遵循統(tǒng)一制定的政策及數(shù)據(jù)標準,用一致的共享技術開放數(shù)據(jù),保證研究后期能夠在最大程度上實現(xiàn)數(shù)據(jù)的統(tǒng)一管理[18]。

    3.2 做好數(shù)據(jù)分析計劃,建立全鏈條的數(shù)據(jù)管理流程

    TCGA計劃建立了組織樣本采集、處理、質量控制、序列測定、變異特征分析、數(shù)據(jù)共享與研究應用等全鏈條的癌癥基因組圖譜數(shù)據(jù)管理流程。在建立大型相關數(shù)據(jù)資源時,需要對數(shù)據(jù)分析早期進行統(tǒng)籌規(guī)劃,確保不同科研中心的數(shù)據(jù)產生、傳遞、存儲、共享及利用等操作的相互銜接與規(guī)范化,保證數(shù)據(jù)的完整性和準確性。在大規(guī)模癌癥基因組學研究計劃的實施過程中,可參考其數(shù)據(jù)管理相關機構的合作方式,各個科研中心負責鏈條中的某項特定工作,最終數(shù)據(jù)匯總呈現(xiàn)于數(shù)據(jù)調度中心實現(xiàn)數(shù)據(jù)共享。

    3.3 加強分級分類管理,促進數(shù)據(jù)開放共享

    實現(xiàn)生物科研數(shù)據(jù)共享是一個系統(tǒng)工程,需進行需求分析、資源調查和分級分類等研究。TCGA計劃從所屬癌癥、數(shù)據(jù)類型、處理水平、數(shù)據(jù)粒度等角度對數(shù)據(jù)進行精細分類,根據(jù)數(shù)據(jù)類型定義不同用戶的數(shù)據(jù)訪問權限以及開放共享數(shù)據(jù)的內容。

    TCGA計劃采用了兩級數(shù)據(jù)發(fā)布系統(tǒng),一部分數(shù)據(jù)全面開放,另一部分僅可用于研究性目的,研究人員和機構得到授權后才可使用相應數(shù)據(jù)。在充分保護患者隱私的情況下實現(xiàn)癌癥基因組數(shù)據(jù)的優(yōu)化與共享。在此方面,我國需要加大科學數(shù)據(jù)精細標識與分級分類管理,在保障個人隱私和信息安全的前提下,實現(xiàn)數(shù)據(jù)的開放共享。

    4 結語

    通過分析癌癥基因組信息了解癌癥發(fā)生發(fā)展機理,發(fā)現(xiàn)癌癥標志物和藥物作用基因靶點,可為癌癥的精準診斷和治療提供支撐。TCGA計劃收集了大量癌癥基因組與臨床表型的數(shù)據(jù),其中蘊藏著潛在的癌癥的分子標記物和藥物靶點有待挖掘,科學的數(shù)據(jù)管理方案為癌癥基因組研究提供了保障。癌癥基因組圖譜計劃在數(shù)據(jù)管理方面的實踐探索可為精準醫(yī)學等大科學計劃的開展和實施、為數(shù)據(jù)驅動的協(xié)作研究模式提供參考[19]。

    猜你喜歡
    數(shù)據(jù)管理基因組圖譜
    企業(yè)級BOM數(shù)據(jù)管理概要
    定制化汽車制造的數(shù)據(jù)管理分析
    海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
    牛參考基因組中發(fā)現(xiàn)被忽視基因
    繪一張成長圖譜
    CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
    補腎強身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    主動對接你思維的知識圖譜
    基因組DNA甲基化及組蛋白甲基化
    遺傳(2014年3期)2014-02-28 20:58:49
    有趣的植物基因組
    世界科學(2014年8期)2014-02-28 14:58:31
    集贤县| 阜宁县| 通许县| 奎屯市| 增城市| 元朗区| 资阳市| 临沭县| 成都市| 莲花县| 田东县| 贵阳市| 临夏县| 富民县| 宕昌县| 榆林市| 普兰县| 延长县| 白朗县| 洪江市| 玛曲县| 木兰县| 合肥市| 庆元县| 易门县| 洪湖市| 兰州市| 襄垣县| 贵南县| 张掖市| 定结县| 梧州市| 汤原县| 盐城市| 手游| 祁阳县| 哈巴河县| 安义县| 吉木萨尔县| 双峰县| 洛南县|