基因突變是指基因組DNA分子發(fā)生的突然的、可遺傳的變異現(xiàn)象[1],許多疾病的發(fā)生都與基因突變密切相關(guān)。如癌癥通常開始于一系列體細胞DNA變化所導(dǎo)致的失控的細胞增殖,其中“變化”指的是突變等特定的DNA序列變化?;诰珳梳t(yī)學(xué)的理念,通過鑒定疾病樣本細胞中的基因突變,實施“個體化”的治療手段可大大提高疾病治療的有效性。隨著生物醫(yī)學(xué)領(lǐng)域測序技術(shù)的飛速發(fā)展,越來越多面向臨床樣本的基因測序?qū)嶒灝a(chǎn)生了大量的基因突變信息,為臨床的靶向治療提供指導(dǎo)。面對大規(guī)模的、多樣的突變數(shù)據(jù),如何提供統(tǒng)一的數(shù)據(jù)整合與表示標準,是國內(nèi)外許多研究組織致力解決的問題。其中,對基因突變相關(guān)的本體、命名方式、數(shù)據(jù)庫等的研究對基因突變數(shù)據(jù)的標準化起到了很大的推動作用。
本文在充分調(diào)研現(xiàn)有基因突變數(shù)據(jù)標準的基礎(chǔ)上,制定了一套整合式的基因突變分類體系,并從ClinVar[2]和COSMIC[3]數(shù)據(jù)庫中獲取突變數(shù)據(jù),根據(jù)不同數(shù)據(jù)庫的突變數(shù)據(jù)特征將突變數(shù)據(jù)進行標準化、融合以及分類注釋,最終構(gòu)建了一套融合了多源異構(gòu)突變數(shù)據(jù)的統(tǒng)一標準的突變分類體系和突變數(shù)據(jù)庫,旨在使臨床與科研人員能更便捷、更全面、更系統(tǒng)地獲取突變數(shù)據(jù)和突變類型信息,理解疾病的發(fā)生機制,從而對疾病進行精準治療。
由于基因突變發(fā)生的隨機性、不定向性以及基因作為一條核苷酸序列所具有的結(jié)構(gòu)特性,基因突變的種類是非常多樣的。根據(jù)其分子的大小,基因突變可分為小的DNA鏈內(nèi)部的突變(包括單核苷酸突變、插入、刪除、復(fù)制等)、大的染色體突變(拷貝數(shù)變異、易位、倒位等)以及基因融合等;根據(jù)其堿基突變對多肽鏈中氨基酸序列的影響,基因突變又可分為同義突變,錯義突變和無義突變等;按照突變的致病程度,2013年美國醫(yī)學(xué)遺傳學(xué)和基因組學(xué)學(xué)院(American College of Medical Genetics and Genomics, ACMG)在重新修訂的序列突變的標準和指南中將突變分為致病的、可能致病、意義不明確、可能良性和良性5個大類[4]。
基因突變相關(guān)的本體,系統(tǒng)地組織了突變的類型,并提供標準化的術(shù)語表示。如變異本體(Variation Ontology,VariO)從突變的大小、產(chǎn)生影響和作用機制等方面對突變進行描述,旨在對突變數(shù)據(jù)進行更好的注釋[5];序列本體(Sequence Ontology,SO)通過對序列特征進行定義來標注生物序列,其最初是由基因本體協(xié)會(Gene Ontology Consortium)開發(fā);序列變異(sequence variant)作為其中一個分支,從功能上和結(jié)構(gòu)上對突變類型分別進行了描述[6]。
面對多種的基因突變類型,制定一種統(tǒng)一的命名方式確定一個突變的名稱,對于突變數(shù)據(jù)的共享和使用都具有極大意義。人類基因組變異學(xué)會(Human Genome Variation Society,HGVS)提出了一種標準的基因突變命名法,對DNA、RNA以及蛋白序列中發(fā)現(xiàn)的突變進行命名,并對其進行長期維護和版本管理,目前這種命名法已經(jīng)被廣泛使用并被推薦為通用的基因突變命名法[7]。
隨著基因檢測中發(fā)現(xiàn)的突變數(shù)據(jù)的持續(xù)增長,大量相關(guān)數(shù)據(jù)庫也應(yīng)運而生。臨床實驗室通過使用基因突變數(shù)據(jù)庫對突變進行分類、提交,并對相關(guān)突變數(shù)據(jù)進行檢索、分析及查閱文獻。其中,癌癥體細胞突變目錄(Catalogue Of Somatic Mutations In Cancer,COSMIC)是目前世界上最大、最全的探索體細胞突變在人類癌癥中的影響的數(shù)據(jù)資源[3];人類在線孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)是一個全面且權(quán)威的人類基因和遺傳表型數(shù)據(jù)庫[8],其中引用的全文綜述包含了所有已知孟德爾疾病和16 000多個基因以及相關(guān)的突變信息;ClinVar是美國國家生物技術(shù)信息中心(National Center of Biotechnology Information,NCBI)主辦的與疾病相關(guān)的人類基因組變異數(shù)據(jù)庫[2],它的強大在于整合了dbSNP、dbVar、PubMed和OMIM等多個數(shù)據(jù)庫在遺傳變異和臨床表型方面的數(shù)據(jù)信息,形成一個標準的、可信的臨床相關(guān)的遺傳變異數(shù)據(jù)庫。
與以上綜合性突變數(shù)據(jù)庫不同,單核苷酸多態(tài)性數(shù)據(jù)庫(The Single Nucleotide Polymorphism Database,dbSNP)[9]和基因組結(jié)構(gòu)變異數(shù)據(jù)庫dbVar[10]都是對某類突變進行收錄。其中dbSNP收錄了單核苷酸變異(single nucleotide variations,SNVs)、短插入和缺失、微衛(wèi)星標記等序列長度小于50bp的突變數(shù)據(jù);dbVar則收錄序列長度大于50bp的結(jié)構(gòu)變異數(shù)據(jù),包括倒位、易位和基因組不平衡(插入和刪除),通常也稱為拷貝數(shù)變異(copy number variants,CNVs)。
綜上所述,目前的研究因尚無一套標準的、完善的突變數(shù)據(jù)分類體系和全面整合型的突變數(shù)據(jù)庫,無法實現(xiàn)多來源異構(gòu)的突變數(shù)據(jù)的整合,不利于精準醫(yī)學(xué)領(lǐng)域的知識發(fā)現(xiàn)與突變數(shù)據(jù)的標準化融合。因此,本文分析并設(shè)計一套融合了多源異構(gòu)突變數(shù)據(jù)庫的統(tǒng)一標準的突變分類體系和突變數(shù)據(jù)庫,旨在提供一種有效的基因突變數(shù)據(jù)分類標準和整合方案。
本文在充分調(diào)研相關(guān)的基因突變權(quán)威數(shù)據(jù)庫的基礎(chǔ)上,從ClinVar和COSMIC數(shù)據(jù)庫的官網(wǎng)獲取基因突變數(shù)據(jù),并從ClinVar數(shù)據(jù)庫中獲取與dbSNP、dbVar和OMIM數(shù)據(jù)庫的映射關(guān)系。
根據(jù)所獲取的基因突變數(shù)據(jù)特征,設(shè)計數(shù)據(jù)融合過程中的元數(shù)據(jù),對獲取的開放數(shù)據(jù)進行融合。根據(jù)已有的基因突變分類標準,結(jié)合ClinVar和COSMIC數(shù)據(jù)庫中突變的類型,制定了本文所適用的基因突變數(shù)據(jù)分類體系,并根據(jù)制定的分類標準,對融合后的突變數(shù)據(jù)進行標準化分類。具體實驗流程如圖1所示。
圖1 實驗流程圖
設(shè)計統(tǒng)一的元數(shù)據(jù)標準,以利于數(shù)據(jù)的標準化、存儲與共享。本文借鑒一體化醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)的超級敘詞表對異構(gòu)數(shù)據(jù)整合的原則,對收集的基因突變數(shù)據(jù)進行融合、組織。UMLS利用以RRF和ORF格式組織的數(shù)據(jù)文件管理生物醫(yī)學(xué)和健康相關(guān)的概念、術(shù)語以及概念之間的關(guān)系[11]。遵循UMLS“概念-術(shù)語”的組織方式和保留來源數(shù)據(jù)庫信息的原則,根據(jù)本實驗數(shù)據(jù)特性簡化元數(shù)據(jù)的設(shè)計,主要保留突變數(shù)據(jù)的名稱、來源數(shù)據(jù)庫、在來源數(shù)據(jù)庫的ID和類型的信息。利用CID對融合后的突變數(shù)據(jù)進行唯一標識,利用AID對每一個原始數(shù)據(jù)庫的突變數(shù)據(jù)進行唯一標識,再利用一個CID對應(yīng)多個AID的方式對多來源同一概念的突變數(shù)據(jù)進行組織。具體元數(shù)據(jù)及其釋義、數(shù)據(jù)格式和取值示例如表1所示。
表1 元數(shù)據(jù)釋義表
一個完善的突變分類體系應(yīng)盡可能涵蓋多種突變數(shù)據(jù)庫、突變本體中的不同突變類型。因此,本文從基因突變發(fā)生的范圍、形式等常規(guī)角度入手,通過對變異本體VariO和序列本體SO的深入分析,以及對ClinVar和COSMIC數(shù)據(jù)庫中突變類型的解析,構(gòu)建了一套標準的、盡可能涵蓋已有突變類型的分類標準體系。
本分類體系整體分為6層。其中,一級類目分類體系參考VariO中“DNA variation classification”分支下的術(shù)語和分類體系,從突變發(fā)生所涉及的分子范圍進行區(qū)分,包括染色質(zhì)突變、染色體突變、DNA鏈突變和基因組突變;從突變發(fā)生的具體形式進行區(qū)分,DNA鏈突變包括堿基的替換、插入、刪除等多種形式,而染色體突變包括染色體的結(jié)構(gòu)突變和數(shù)量突變。
此外,補充VariO中所沒有的分類,如參考SO在“chromosomal amplification”類目下添加“copy number gain”類目,參考ClinVar數(shù)據(jù)庫補充“undetermined variation”類目,參考COSMIC數(shù)據(jù)庫補充“complex DNA variation”類目。調(diào)整“DNA substitution”類目下的分類體系,加入“SNV”這一突變數(shù)據(jù)庫常用數(shù)據(jù)類型,并對其進一步細化。詳細分類體系可視化展示如圖2所示。
圖2 基因突變分類體系
本文實驗突變數(shù)據(jù)選自ClinVar和COSMIC數(shù)據(jù)庫。ClinVar是一個可開放獲取的突變數(shù)據(jù)庫,其中收集了面向臨床的人類遺傳變異。選擇突變概要文件variant_summary.txt中基因組參考序列版本為GRCh38的突變數(shù)據(jù),共316 629條,并篩選所在基因、突變名稱、突變ID和突變類型等信息。ClinVar突變數(shù)據(jù)中包含與dbSNP、dbVar和OMIM數(shù)據(jù)庫之間的映射關(guān)系,提取出相應(yīng)字段從而獲取其映射關(guān)系。其中與dbSNP數(shù)據(jù)庫映射的突變?yōu)?95 889個,與dbVar數(shù)據(jù)庫映射的突變?yōu)?3 716個,與OMIM數(shù)據(jù)庫映射的突變?yōu)?2 572個。COSMIC數(shù)據(jù)庫收錄了癌癥相關(guān)的人類體細胞突變信息,提供多種數(shù)據(jù)獲取方式,并且面向?qū)W術(shù)人員免費。選擇CosmicCompleteTargetedScreensMutantExport.tsv這一包含全部突變數(shù)據(jù)的文件,提取突變信息434 591條,并篩選所在基因、突變名稱、突變ID和突變類型描述等信息。
通過分析ClinVar突變數(shù)據(jù)與COSMIC突變數(shù)據(jù)的表示方式發(fā)現(xiàn),ClinVar的突變與COSMIC的突變可以通過提取出的基因信息和突變名稱信息進行融合。如ClinVar中ID為389314的突變,其名稱為“NM_005101.3(ISG15):c.248G>A (p.Ser83Asn)”。該名稱遵循HGVS關(guān)于突變的命名方式,表示ISG15這個基因的248位置發(fā)生了單核苷酸突變SNV,堿基由G突變?yōu)锳,其翻譯的蛋白質(zhì)的氨基酸在83位置由Ser替換為Asn。其所在基因的人類基因命名委員會(HUGO Gene Nomenclature Committee,HGNC)編碼的ID為9636。而COSMIC中ID為COSM3751464的突變,其名稱為“c.248G>A”,其所在基因的人類基因命名委員會ID同樣為9636,所以可以確定這兩個突變是一個突變,可進行融合。在融合過程中,需要對ClinVar的突變名稱進行主要信息提取,提取出DNA序列的突變名稱“c.248G>A”,便于與COSMIC的突變名稱匹配。
dbSNP、dbVar和OMIM數(shù)據(jù)庫的突變信息可利用其與ClinVar數(shù)據(jù)庫之間的映射直接獲取,然后利用之前設(shè)計的突變元數(shù)據(jù)標準和數(shù)據(jù)組織框架,將ClinVar、COSMIC、dbSNP、dbVar和OMIM等5個數(shù)據(jù)庫的突變信息進行統(tǒng)一融合,最終獲得突變概念為746 504個,突變術(shù)語為1 083 397個。最終獲得的融合數(shù)據(jù)示例如圖3所示。
圖3 突變數(shù)據(jù)融合示例
解析出ClinVar數(shù)據(jù)庫的突變類型包括“single nucleotide variant”、“indel”、“deletion”和“short repeat”等12種,COSMIC數(shù)據(jù)庫的突變類型包括“Substitution-Missense”、“Substitution-coding silent”、“Insertion-In frame”和“Insertion-Frameshift”等16種??梢钥闯鯟linVar的突變類型描述比較符合常規(guī),COSMIC的突變類型描述加入了突變會對氨基酸序列產(chǎn)生的影響,包括錯義突變、無義突變和移碼突變等描述。本文所設(shè)計的突變分類體系不包含這類分類維度的描述,故在本文實驗中不做區(qū)分。
將ClinVar和COSMIC數(shù)據(jù)庫的突變類型與構(gòu)建的突變分類體系進行映射,對其突變類型進行標準化。除了可以直接進行映射的突變類型外,有些突變類型的映射過程還存在一些不確定的情況,需要根據(jù)具體數(shù)據(jù)確定。如ClinVar的突變類型易位(Translocation),無法確定其是DNA易位還是染色體易位。但通過分析類型為易位突變的數(shù)據(jù),發(fā)現(xiàn)其名稱都為“t(5;16)(p15.31;q23.1)”這種形式,表示5號染色體與16號染色體之間發(fā)生易位突變,因此可判斷其為染色體易位。最終確定的兩個數(shù)據(jù)庫的突變類型與標準突變分類之間的映射關(guān)系如表2和表3所示。
本文構(gòu)建的基因突變分類標準體系共包括類目34個,在全面涵蓋了ClinVar和COSMIC數(shù)據(jù)庫中的突變類型的同時,參考已有突變分類體系,可對基因突變類型進行細致的梳理與合理的層級劃分。將本文分類體系與SO和VariO的突變分類體系進行對比,統(tǒng)計出各分類體系在不同數(shù)據(jù)庫的突變類型上的涵蓋情況(圖4)。通過對比發(fā)現(xiàn)本文分類體系在綜合性突變數(shù)據(jù)庫ClinVar和COSMIC中,所涵蓋的突變類型是最全面的,在特定類型突變數(shù)據(jù)庫dbSNP中也能達到很好的涵蓋程度,說明本文構(gòu)建的基因突變分類體系具有更廣的涵蓋范圍和更強的適用性。同時,本文分類體系對dbVar數(shù)據(jù)庫的突變類型的涵蓋程度沒有SO的涵蓋程度好,說明本文分類體系在結(jié)構(gòu)突變類型上的涵蓋程度還有待提升。
表2 ClinVar數(shù)據(jù)庫突變類型與本文實驗分類體系映射關(guān)系表
表3 COSMIC數(shù)據(jù)庫突變類型與本文實驗分類體系映射關(guān)系表
通過對融合后突變數(shù)據(jù)的突變類型進行標準化映射,為整合不同突變數(shù)據(jù)庫的突變類型提供解決辦法,為之后突變數(shù)據(jù)的管理、共享以及分析提供便利。最終統(tǒng)計出概念數(shù)排名前十的突變類型的概念數(shù)量(圖5),其中大部分突變數(shù)據(jù)的突變類型為單核苷酸突變,說明在癌癥等疾病中,通常發(fā)生頻率較高的突變類型為單核苷酸突變、DNA堿基替換和DNA刪除等類型。
圖4 各突變分類體系在不同數(shù)據(jù)庫中的涵蓋情況
圖5 概念數(shù)排名前10的突變類型統(tǒng)計
本文在充分調(diào)研現(xiàn)有的基因突變分類標準、命名標準以及組織標準的基礎(chǔ)上,構(gòu)建了符合實際應(yīng)用的突變分類標準體系,發(fā)現(xiàn)了突變數(shù)據(jù)融合的有效方案。構(gòu)建的突變分類體系和融合數(shù)據(jù)庫,可為用戶提供更加全面、便捷的突變數(shù)據(jù)獲取方式和組織形式。
本文仍有許多不足之處,基因突變分類體系有待進一步完善。一是基于分類體系構(gòu)建基因突變本體,更全面地整合突變分類體系中術(shù)語的定義、來源和同義詞等信息;二是整合并發(fā)現(xiàn)多維度的突變數(shù)據(jù)中的語義關(guān)系,包括突變與疾病之間的關(guān)系,以及突變的致病程度等;三是整合更多的突變數(shù)據(jù)庫以及文獻中挖掘出的突變數(shù)據(jù),擴大數(shù)據(jù)的涵蓋范圍。