文圖/《中國醫(yī)藥科學》記者 費 菲
臨床科研必須經(jīng)歷繁雜的過程,而大數(shù)據(jù)時代給研究者帶來挑戰(zhàn)的同時,也為臨床科研創(chuàng)造了極好的條件和機遇。如何利用大數(shù)據(jù)讓臨床醫(yī)生快速獲得高質(zhì)量的臨床數(shù)據(jù)?怎樣幫助醫(yī)生進行數(shù)據(jù)分析,助力臨床科研計劃或項目?為回答這些問題,積極應對生物醫(yī)學大數(shù)據(jù)研究的挑戰(zhàn),中國科學院心理研究所生物信息研究室主任、研究員王晶近年來以主要精力創(chuàng)新開展了生物醫(yī)學大數(shù)據(jù)整合和數(shù)據(jù)挖掘研究。一方面為便于臨床醫(yī)生更好地分析和理解生物醫(yī)學大數(shù)據(jù),致力于開發(fā)生物信息學最新的應用工具和方法,主導開發(fā)了一系列(18 個)具有國際影響力的疾病組學數(shù)據(jù)分析工具和方法,獲得軟件著作權(quán)10 項,截至目前該系列工具的累計訪問用戶逾6.4 萬人,累計頁面訪問量逾1980 萬次;另一方面通過與臨床醫(yī)生的合作,重點開展了神經(jīng)系統(tǒng)和免疫相關(guān)的多種疾病遺傳信息的挖掘與分子機制研究,取得了較好的研究成果。日前,王晶研究員對近年來實驗室取得的研究成果從三個方面作了詳盡的介紹。
提到大數(shù)據(jù),就不能不提到人類基因組計劃(Human Genome Project,HGP)。人類的遺傳物質(zhì)是DNA,它的總和就是人類基因組,人體估計有6~10萬個基因,由大約30 億對堿基組成,分布在細胞核的23 對染色體中。堿基是人類遺傳物質(zhì)的基本組成成分,它們由ATCG 共4 種堿基不斷交替組成。1990 年10 月,國際人類基因組計劃正式啟動。目的是測定人類染色體包含的30 億個堿基對組成的核苷酸序列,繪制人類基因組圖譜,辨識其載有的基因及其序列,從而破譯人類遺傳信息。
□王晶:大數(shù)據(jù)的廣泛應用是傳統(tǒng)醫(yī)學模式向“精準醫(yī)學”轉(zhuǎn)變的前提
我國于1999 年9 月獲準加入人類基因組計劃,在這一項目啟動時,正攻讀博士的王晶,有幸參與到該項目中。當時中國參與的部分占到人類基因組的整體序列的1%,也就是3 號染色體上的3000 萬個堿基對,使中國成為繼美、英、日、德、法之后第6 個國際人類基因組計劃參與國,也是參與這一計劃的唯一發(fā)展中國家。我國稱為1%基因組計劃或北京區(qū)域計劃。王晶那時的主要工作是對中國負責的基因組測序區(qū)域進行進一步的數(shù)據(jù)解析和注釋。后與國際同道一起將研究結(jié)果發(fā)表在2003 年的《自然》(Nature)雜志上??梢哉f,人類基因組計劃開啟了基因組學的先河。隨后,各種基因組學計劃蓬勃興起,如千人基因組計劃、DNA 元素百科全書(ENCODE)項目,提供了完整的人類遺傳多態(tài)性圖譜以及DNA 功能元件的注釋,而且,包括腫瘤相關(guān)研究等多個組學計劃為今天的研究提供了非常豐富的數(shù)據(jù)資源。時至今日,圍繞生命中心法則,研究者們已在基于芯片/高通量測序的基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、表觀組、代謝組等研究領(lǐng)域積累了大量數(shù)據(jù),包括單細胞水平基因型和表型研究、人類健康相關(guān)微生物群落研究等,為開展疾病相關(guān)的研究提供了非常寶貴的財富。
王晶研究員以組學研究的全基因組關(guān)聯(lián)分析(Genome wide association study,GWAS)為 例,談 到了近年來她所觀察到的基因組學研究趨勢和發(fā)展。GWAS 是指在人類全基因組范圍內(nèi)找出存在的序列變異,即單核苷酸多態(tài)性(SNP),從中篩選出與疾病相關(guān)的單核苷酸多態(tài)性位點。2000 年初起至今,GWAS 已歷經(jīng)10 多年的發(fā)展,雖面對二代測序技術(shù)的挑戰(zhàn),但目前GWAS 仍不失為解析疾病遺傳機制的一種非常有效的方法,受到研究者的青睞。
回顧從2007 年至2017 年的10 年間,一個明顯的趨勢是,GWAS 研究發(fā)表文章的數(shù)量出現(xiàn)持續(xù)攀升,GWAS 的研究投入和樣本量日益增多。不少GWAS研究采用了極大的樣本量來進行分析,如一些研究采用的GWAS 研究樣本數(shù)量甚至超過了10 萬例。王晶認為,雖然樣本數(shù)量和實際研究發(fā)現(xiàn)之間的確存在正相關(guān)性,越大的樣本量帶來越多的發(fā)現(xiàn),然而也有相當一部分GWAS 研究樣本數(shù)量不足5000 例,提示我們用適當?shù)臉颖玖客ㄟ^一些方法也可以找到疾病相關(guān)的新基因和新的發(fā)現(xiàn)。分析目前逐年遞增的疾病研究數(shù)量和種類可以看到,GWAS 對很多疾病仍在貢獻大量未知的知識和信息。
王晶研究員通過對人類不同染色體上不同疾病組發(fā)現(xiàn)的遺傳變異分布的最新統(tǒng)計發(fā)現(xiàn),截至2019 年6 月,全球通過GWAS 研究已鑒定出超過9 萬種變異(P<5×10-8)與疾病相關(guān)。而在2018 年進行同一統(tǒng)計時,與特定表型相關(guān)的遺傳變異位點還只有6 萬多個,短短一年時間GWAS 研究飛速進步,使人類對疾病的認識不斷深入。
對已鑒定出來的疾病相關(guān)的遺傳變異位點作進一步分析發(fā)現(xiàn),通過GWAS 研究或ENCODE 等系列研究,越來越多的免疫系統(tǒng)相關(guān)疾病的遺傳病位點被報道。一方面在生物學研究領(lǐng)域,從基因組、轉(zhuǎn)錄組、蛋白組、表觀組等各組學領(lǐng)域會產(chǎn)生大量數(shù)據(jù);另一方面,在醫(yī)療大數(shù)據(jù)領(lǐng)域,醫(yī)生為患者診療的過程中也積累了海量的數(shù)據(jù),同時在不同層面的醫(yī)學領(lǐng)域也積累了越來越多的大數(shù)據(jù)。目前的趨勢是將生物和醫(yī)學大數(shù)據(jù)電子化,通過組建數(shù)據(jù)庫將這些數(shù)據(jù)進行有效整合和管理,以便后期采用一些先進方法(如深度學習等)更好地分析數(shù)據(jù)。
具體分為四類:首先是以患者為中心的數(shù)據(jù)。包括患者的基本數(shù)據(jù)、入出轉(zhuǎn)數(shù)據(jù)、電子病歷、診療數(shù)據(jù)、醫(yī)學影像數(shù)據(jù)、醫(yī)學管理、經(jīng)濟數(shù)據(jù)等,成為醫(yī)療信息的主要來源,占比最高,達到90%。這類數(shù)據(jù)的特點是完整性、結(jié)構(gòu)化、標準化有待提高??杉毞譃槿愋畔ⅲ阂皇遣v,包括病史、診斷結(jié)果/路徑、用藥等信息;二是傳統(tǒng)檢測,包括影像、生化、免疫、聚合酶鏈式反應(PCR)等;三是新興檢測(基因測序等)。
其次是醫(yī)藥研發(fā)領(lǐng)域產(chǎn)生的大量醫(yī)藥研發(fā)數(shù)據(jù)。這部分數(shù)據(jù)約占4%,特點是具有較好的完整性、機構(gòu)化和標準化??杉毞譃閮深愋畔ⅲ横t(yī)藥研發(fā)數(shù)據(jù),從臨床前、Ⅰ~Ⅲ臨床、Ⅳ期臨床、上市后大量人群中進行療效跟蹤獲得的臨床測試數(shù)據(jù);科研數(shù)據(jù),主要是科研進展的報道。
第三是患者數(shù)據(jù)。這部分數(shù)據(jù)約占6%,在完整性、結(jié)構(gòu)化、標準化方面尚存不足??杉毞譃閮深悾后w征類的健康管理數(shù)據(jù);網(wǎng)絡醫(yī)療行為數(shù)據(jù)。
第四是支付數(shù)據(jù)??杉毞譃槿悾夯颊咧Ц队涗?;報銷、賠付記錄;醫(yī)療機構(gòu)、流通廠商醫(yī)藥等支付記錄。
王晶研究員接著介紹了生物信息學的相關(guān)內(nèi)容。2000 年人們對生物信息學(Bioinformatics)這一概念還較為陌生。這一學科是伴隨人類基因組計劃的誕生而產(chǎn)生的,旨在將學科進行交叉,運用數(shù)學、計算機等技術(shù),通過開發(fā)工具與方法,對生物學和醫(yī)學領(lǐng)域產(chǎn)生的大量數(shù)據(jù)進行深入分析的一門多學科交叉學科。也正是這一年,作為國家生物信息學專業(yè)首批培養(yǎng)的博士,王晶參與到人類基因組計劃等項目中,從此與基因組研究結(jié)緣,十多年來圍繞這一領(lǐng)域開展了一系列的工作。
生物信息學的核心有兩點。第一是進行數(shù)據(jù)的整合和管理。目的是為了應用好這些海量的大數(shù)據(jù)(Big Data),將之變成真正有用的知識(knowledge),這是生物信息學的本質(zhì)。作為一門工具性學科,生物信息學本身在疾病各個方面的研究中已成為不可或缺的一部分,目前在各高校都設置了相關(guān)專業(yè)。面對生物學和醫(yī)學數(shù)據(jù)激增的時代,大數(shù)據(jù)的廣泛應用與生物信息學技術(shù)的不斷進步,成為實現(xiàn)傳統(tǒng)醫(yī)學模式向“精準醫(yī)學”轉(zhuǎn)變的必要前提和核心動力,為未來更深入的疾病研究提供幫助。海量數(shù)據(jù)的不斷產(chǎn)生,表現(xiàn)為多層面、多維度以及高異質(zhì)性的特點,尤其是遺傳學數(shù)據(jù)有時會受到人群背景的影響,有時很多遺傳性的研究結(jié)果很難被復制。
第二是一些從疾病數(shù)據(jù)本身的特性帶來的挑戰(zhàn)。很多疾病尤其是復雜疾病,如風濕免疫、自身免性疾病都是多基因共同作用的,是基因和環(huán)境共同影響導致疾病的發(fā)生和發(fā)展。從疾病和數(shù)據(jù)的維度看,在今天雖然擁有了海量的數(shù)據(jù),也不斷涌現(xiàn)越來越多的數(shù)據(jù)分析方法和技術(shù),但我們?nèi)砸媾R的一個很大的挑戰(zhàn)是,如何更好地用好這些數(shù)據(jù)。運用生物信息學研究的第一步是對現(xiàn)有的數(shù)據(jù)進行有效整合,建立好數(shù)據(jù)之間的邏輯關(guān)系,這是最基礎的一步。目的是為了更好地對生物醫(yī)學大數(shù)據(jù)進行挖掘和應用,通過這些技術(shù)和管理真正把數(shù)據(jù)變成知識,在數(shù)據(jù)挖掘的過程中獲得一些新的發(fā)現(xiàn)。當然這些發(fā)現(xiàn)只是一些分析結(jié)果,最終還要與實驗科學結(jié)合,從而幫助我們更好地理解復雜疾病的遺傳機制,在這一過程中找到可以用于臨床轉(zhuǎn)化的各種靶點或生物標志物。
近年來,王晶實驗室的主要工作是使用生物信息學策略開展復雜疾病遺傳機制的研究,開發(fā)的工具和方法主要聚焦于三個方面。
第一個方面是,深入挖掘GWAS 數(shù)據(jù),進行基于生物通路的分析。迄今為止已發(fā)表了4000 多篇GWAS 研究的論文。王晶認為,GWAS 研究產(chǎn)生的大量數(shù)據(jù)所具有的含義被低估了,在這個過程中可以產(chǎn)生更多發(fā)現(xiàn)。幾年來,王晶實驗室在這一方面開發(fā)的工 具 有:i-GSEA4GAWS(2010 年)、i-GSEA4GAWS v2(2015 年)、ICSN Pathway(2011 年)、BEST(剛上線)。
具體來看GWAS 研究數(shù)據(jù)的深度挖掘。全基因組關(guān)聯(lián)學習(GWAS)是一種對全基因組范圍內(nèi)的常見遺傳多態(tài)性(主要是單核苷酸多態(tài)性-single nucleotide polymorphisms,SNPs)進行總體關(guān)聯(lián)分析的方法,適用于包括精神疾?。╩ental disorder)在內(nèi)的復雜疾病的研究。GWAS 研究往往會報道一些統(tǒng)計意義上與疾病顯著相關(guān)的遺傳變異位點,但GWAS 所報道的部分不過是冰山一角,只是那些在統(tǒng)計意義上最為顯著的一部分,大量數(shù)據(jù)是蘊藏在海平面之下的并未被報道,但這些數(shù)據(jù)也是具有生物學意義的。除了顯著相關(guān)的一些基因或遺傳位點,還有大量的基因可能是微效或弱效的,但這些微效基因組合后的多基因共同作用,對疾病的發(fā)生將有很高的貢獻度。即是說,傳統(tǒng)全基因組關(guān)聯(lián)學習(GWAS)數(shù)據(jù)分析方法對SNP/基因進行獨立分析,忽略了復雜疾病的多基因聯(lián)合效應。為解決上述問題,近年來基于通路(pathway)的研究原則被引入到GWAS 數(shù)據(jù)分析,檢測包含多個基因的通路和性狀的關(guān)聯(lián)。王晶實驗室開展的工作旨在深入挖掘海平面下的通過GWAS 研究產(chǎn)生的這些海量數(shù)據(jù)有哪些信息值得借鑒和思考。
基于上述觀點,王晶課題組成功開發(fā)了基于通路的GWAS 數(shù)據(jù)網(wǎng)絡分析平臺(i-GSEA4GWAS,簡稱i-GSEA)和工具,通過網(wǎng)絡服務的方式供全球各國相關(guān)研究工作者使用(i-GSEA4GWAS,URL:http://gsea4gwas.psych.ac.cn。
開發(fā)i-GSEA 平臺的核心是基于生物通路的分析(PBA),主要解決的科學問題是鑒別與疾病表型相關(guān)的通路(生物學功能和機制)/基因集。識別哪些生物過程和疾病是相關(guān)的,以進一步研究和揭示疾病致病機理,進而去識別SNP 或基因的組合效應。“通路”在廣義上指包括細胞功能、代謝過程、生物合成、遺傳信息處理、疾病相關(guān)因素等在內(nèi)的一系列的生物過程。應用方法主要是開發(fā)了一系列的工具,從第一個版本的i-GSEA4GAWS(2010 年)到第二個、第三個版本。這一系列工具是以數(shù)據(jù)在線分析平臺的形式呈現(xiàn)的,研究者可以到網(wǎng)站上免費使用。截至目前,該系列工具的累計訪問用戶逾6.4 萬人,累計頁面訪問量逾1980 萬次。
開發(fā)i-GSEA 4GWAS 系列工具的目的是為了研究GWAS 數(shù)據(jù),尤其是冰山下還未被系統(tǒng)挖掘的數(shù)據(jù)所蘊含的生物學意義。開發(fā)這一系列工具具體來講是回答三個問題:第一,統(tǒng)計顯著的SNP 是否為致病SNP;第二,識別SNP 或基因之間的組合效應,它們作為一個整體是如何導致疾病的發(fā)生發(fā)展;第三,鑒別與疾病表型相關(guān)聯(lián)的通路,提出可能的生物學機制。目的是建立起SNP、基因和通路之間的聯(lián)系。這是王晶實驗室開發(fā)的第一個系列的工具。她與美國洛克菲勒大學遺傳統(tǒng)計系主任Jurg Ott.教授一起合作,共同探索了傳統(tǒng)遺傳學領(lǐng)域的連鎖分析策略。與既往以過濾為主的測序數(shù)據(jù)分析方式不同,連鎖分析能提供遺傳位點與疾病之間相關(guān)性的統(tǒng)計學證據(jù),與目前全基因組測序分析有機結(jié)合,可進一步提升全基因組測序數(shù)據(jù)在基因注釋方面的準確度和效率。
另一方面,著重研究遺傳變異的調(diào)控功能。王晶實驗室也開發(fā)了一系列工具以幫助更好地分析遺傳變異的調(diào)控功能,包括MethyCancer 研究(2008年)、rSNPBase(2014 年)、rVarBase(2016 年)、rSNPBase3.0(2018 年)。
基因組的編碼區(qū)也被稱為編碼序列或CDS(coding DNA sequence),只占非常小的部分,不足2%;而基因組的大量區(qū)域都是非編碼區(qū)DNA,占98%。研究結(jié)果顯示,人類基因組內(nèi)的非編碼DNA 至少80%是有生物活性的,而非之前認為的“垃圾”DNA(junk DNA)。非編碼區(qū)域在疾病的發(fā)生發(fā)展中發(fā)揮著非常重要的作用,而且GWAS 所報道的絕大多數(shù)顯著位點都是位于非編碼區(qū)(Non-coding region),開發(fā)一系列的在線分析工具,旨在回答位于非編碼區(qū)的這些遺傳變異位點到底是如何行使它們調(diào)控功能的問題,每個工具較前面開發(fā)的工具在數(shù)據(jù)范圍、分析功能方面都有了進一步提升。比如,第一個開發(fā)的工具是對全基因組范圍SNP 的調(diào)控功能進行注釋,提供很多實驗證實的SNP 和實驗證據(jù)等;第二個工具在第一個基礎之上涵蓋了更多的類型,除了常見的SNP 還包括拷貝數(shù)異常(CNV)等結(jié)構(gòu)變異;第三個工具除了可提供單個遺傳變異的調(diào)控功能分析外,為SNP 在怎樣的表觀遺傳調(diào)控網(wǎng)絡里發(fā)揮作用提供疾病分子機制的假說和生物學機制,旨在幫助我們更好理解這些SNP 的調(diào)控功能。
王晶實驗室通常進行的分析是通過GWAS 或目標區(qū)域的關(guān)聯(lián)分析,通過新一代測序技術(shù)(NGS)采集樣本信息并找到顯著關(guān)聯(lián)的變異,通過這些工具進一步分析其生物學意義。比如,針對單個變異去分析其調(diào)控功能包括具體的實驗性參數(shù);再比如,組織細胞的表達類型等,依據(jù)分析結(jié)果設計分子功能實驗驗證方案。在另一層面提供表觀遺傳學圖譜,可能參與哪些表達調(diào)控網(wǎng)絡,為在怎么樣的背景下導致疾病的發(fā)生提供疾病的分子假說,目的是通過對數(shù)據(jù)的進一步分析為后續(xù)的實驗科學驗證工作提供更多的啟示。
王晶實驗室新近開發(fā)的來易統(tǒng)平臺包含了常用的6 大類醫(yī)學統(tǒng)計方法,旨在助力廣大醫(yī)學研究者更方便地進行各種醫(yī)學統(tǒng)計分析,開展更深入的科學研究。很多年輕臨床醫(yī)生是疾病診治方面的專家,在科研工作中需要花大量時間學習統(tǒng)計方面的知識,而這恰恰是王晶研究員非常熟悉的領(lǐng)域,因此她帶領(lǐng)團隊開發(fā)了新的醫(yī)學統(tǒng)計平臺,便于臨床醫(yī)生查閱醫(yī)學領(lǐng)域發(fā)表的文章。當用戶按照指定的格式輸入科研數(shù)據(jù),平臺可智能地推薦一些方法便于用戶進行分析,最后產(chǎn)生的圖表都是文章發(fā)表最常用的格式。這項工作可以為臨床研發(fā)小工具,幫助用戶在日常工作中節(jié)約更多時間關(guān)注科研問題。
再一方面,在整合疾病數(shù)據(jù)的基礎上開展更進一步的數(shù)據(jù)挖掘工作。這種數(shù)據(jù)整合和分析的方法適用于各種復雜疾病,以認知相關(guān)的一些腦疾病為例,目前腦疾病數(shù)據(jù)散落在不同的文章、網(wǎng)站或大項目中,數(shù)據(jù)挖掘可以從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,是通過收集并對這些數(shù)據(jù)進行有效利用的思路和方法。近年來王晶實驗室在這一方面開發(fā)的工具有:ADHD gene(2011 年)、MK4MDD(2012 年)、BDgene(2013 年)、CS-DEGs(2014 年)、PTSDgene(2017年)。王晶實驗室開發(fā)這一系列工具的核心思路是找到致病的關(guān)鍵基因或遺傳變異,了解它們是如何影響蛋白質(zhì)功能或功能RNA 的表達,最終導致生物學系統(tǒng)的功能改變和疾病的發(fā)生及發(fā)展。該系列工具的累及訪問用戶逾17 萬人,累計頁面訪問量逾1800 萬次。
王晶實驗室開展了兒童多動癥、抑郁癥、雙向情感障礙、疾病遺傳環(huán)境的交互作用以及創(chuàng)傷后應激等腦疾病領(lǐng)域的分析和研究,分析的方法和研究思路主要是圍繞單一疾病的遺傳性分析、多層面數(shù)據(jù)的整合和多種疾病的交叉分析兩個方面。由于很多疾病是共病存在,可以通過疾病的共病機制分析、疾病的遺傳與環(huán)境的交互分析及數(shù)據(jù)整合和數(shù)據(jù)挖掘,幫助醫(yī)生找到更多的思路和啟示。
例如,創(chuàng)傷后應激障礙(post-traumatic-stressdisorder,PTSD),也被稱為“創(chuàng)傷后壓力癥候群”,是指經(jīng)歷創(chuàng)傷性事件后的心理精神反應。PTSD 在人群中存在差異性表現(xiàn),部分人無明顯異常表現(xiàn),部分人則可能導致心理精神的嚴重創(chuàng)傷,這是因為遺傳因素在PTSD 的發(fā)生發(fā)展中發(fā)揮了重要作用。2016 年Benjet C 等報道,一項關(guān)于全球創(chuàng)傷事件暴露的流行病學研究表明,70%的受訪者至少報告了一例創(chuàng)傷事件,但其中只有少數(shù)人發(fā)展成為PTSD,造成這些心理精神不同反應的重要原因之一是遺傳易感性差異。王晶實驗室開發(fā)了首個創(chuàng)傷后應激障礙遺傳學數(shù)據(jù)庫PTSDgene。該數(shù)據(jù)庫從多個層面較為全面地綜述了PTSD 的遺傳學研究現(xiàn)狀(基因、GXE),為后續(xù)的研究提供了廣泛而可靠的數(shù)據(jù)集。同時,通過深入的數(shù)據(jù)挖掘與分析,得到了PTSD 潛在的新候選基因,為驗證研究提供了新的視角。該數(shù)據(jù)庫整合了國際研究組織進行的不同研究發(fā)表的各類遺傳學數(shù)據(jù),整合后建立了數(shù)據(jù)評分矩陣,提供最值得關(guān)注的熱點基因,在這一基礎上應用前述的開發(fā)工具和方法進行數(shù)據(jù)的進一步挖掘,除了已報道的基因之外,還有一些未知的、新的研究熱點有待進一步認識和發(fā)現(xiàn)。
王晶實驗室與臨床專家合作,在2013 年與40 多家臨床單位合作開展了世界上首個針對原發(fā)性干燥綜合征(pSS)的全基因組關(guān)聯(lián)研究(GWAS)分析,很幸運僅使用5622 例的樣本便找到了兩個新的基因。研究分為1845 例病例和3777 例健康對照(均為中國漢族人)兩組,由生物信息主導的三階段實驗設計,在7q11.23 鑒別出新的原發(fā)性干燥綜合征易感基因:GTF2IRD1 和GTF2I。該研究成為2013 年《自然-遺傳學》(Nature Genetics)雜志當期的研究亮點。文章發(fā)表時還未能找到GTF2IRD1 和GTF2I 與自身免疫疾病是否相關(guān)的證據(jù),當時找到的研究證據(jù)僅表明這兩個新的基因與威廉氏癥候群(Williams Syndrome)中的神經(jīng)認知缺損密切相關(guān)。但令人驚喜的是,在后續(xù)研究中,GTF2I-GTF2IRD1 位點被證實與多種自身免疫性疾病相關(guān),2018 年在國內(nèi)神經(jīng)科專家的研究中,該基因還被發(fā)現(xiàn)與視神經(jīng)脊髓炎譜系疾病相關(guān)。由此可知,GTF2IRD1 和GTF2I 基因在免疫系統(tǒng)和神經(jīng)系統(tǒng)兩個領(lǐng)域都發(fā)揮著重要的作用,值得研究者進一步深入探究其功能。
王晶實驗室還使用i-GSEA4GWAS 平臺對雙向情感障礙(bipolar disorder)的GWAS 數(shù)據(jù)進行了分析,并發(fā)現(xiàn)了可能的疾病相關(guān)通路/基因集。該項研究得到了中國科學院心理研究所青年科學基金和北京市科學技術(shù)委員會北京市科技新星計劃(A 類)的資助。該研究成果發(fā)表在生物信息學頂級雜志Nucleic Acids Research(影響因子6.878)。
2017 年,王晶實驗室和臨床醫(yī)師合作開展了一項注意缺陷多動障礙(ADHD,即兒童多動癥)GWAS 研究,文章已刊于精神疾病頂級國際學術(shù)期刊《分子神經(jīng)病學》雜志。這項GWAS 研究是國際首個ADHD執(zhí)行抑制功能的兩階段全基因組關(guān)聯(lián)分析研究。兒童多動癥這一疾病的表型非常復雜,很難用疾病作為表型來進行GWAS 研究,所以這項研究選擇了從內(nèi)表型的角度出發(fā),在中國漢族兒童ADHD 患者中開展。研究鑒定出在ADHD 的多動-沖動行為中,MICALL2 是與ADHD 執(zhí)行抑制相關(guān)的新的易感基因。這一新基因的功能在斑馬魚中也得到了驗證。進一步證實了神經(jīng)發(fā)育基因在ADHD 的致病機制中可能發(fā)生作用。研究發(fā)現(xiàn)注意缺陷多動障礙(ADHD)新基因MICALL2,執(zhí)行抑制功能受損是ADHD 患者的核心缺陷。
王晶研究員認為,遺傳學研究或進行基礎研究的目的是為了更好的臨床轉(zhuǎn)化和應用。目前很多公司都提供各種形式的基因檢測?;驒z測可涵蓋各個領(lǐng)域,涉及非常廣泛的應用,從疾病的不同階段,包括人類從出生到衰老各個不同階段都可以開展相應的一些基因檢測項目?;驒z測廣泛應用于多種疾病的診療,包括風險預測(病原體核酸檢測、產(chǎn)前檢測)、輔助診斷(單基因遺傳?。?、用藥指導(復雜疾病患病風險、腫瘤)和治療干預(藥物基因組)。
遺傳病的基因檢測最核心的部分是回答三個問題,第一個問題是應該檢測什么基因;第二個問題是用何種方法和技術(shù)平臺進行基因檢測;第三個問題最為重要,是如何解讀這些基因檢測結(jié)果。
首先來看第一個問題:遺傳病的發(fā)現(xiàn)應該檢測什么基因?人類基因組序列大約有2 萬個基因,除了編碼序列(CDS)外,非編碼區(qū)的新調(diào)控功能元件不斷被發(fā)現(xiàn),確定合適的檢測范圍或檢測對象對臨床非常重要。目前,在遺傳病領(lǐng)域開展的檢測主要分為兩種。第一種,已報道的基因是與疾病顯著相關(guān),但機制尚不明確。例如,關(guān)聯(lián)研究發(fā)現(xiàn),HLA-Cw06 陽性主要與1 型銀屑病、點滴型銀屑病和銀屑病關(guān)節(jié)炎顯著相關(guān),可作為這類疾病的診斷標志物。APOE e4 與阿爾茲海默?。ˋD)的患病風險升高顯著相關(guān),與其他生物指標一起用于AD 診斷,其作用機制尚不十分明確。第二種,基因致病路徑清晰。遵循基因突變—蛋白質(zhì)功能或表達變化—代謝物變化—疾病表型的路徑。例如,HLA DQ2/DQ8 在麩質(zhì)敏感性腸病的致病中起重要作用,直接參與重要復合物的呈遞。TPMT 參與硫唑嘌呤的代謝途徑,其突變可導致毒性物質(zhì)累積引起不良反應。以上研究的目的是從發(fā)現(xiàn)基因與疾病的關(guān)聯(lián)到最終確定作用機制。很多基因與疾病的關(guān)聯(lián)尚未確定作用機制,也有相當多的基因由于與疾病顯著相關(guān)已開展了相應的檢測項目。
王晶研究員統(tǒng)計了已在臨床得到廣泛應用的基因檢測項目:以自身免疫性疾病為例,檢測方法主要是基因芯片、實時定量基因擴增熒光檢測系統(tǒng)(qPCR)、一代測序等,在輔助診斷方面有強直性脊柱炎(基因指標 HLA-B27)、類風濕關(guān)節(jié)炎{基因指標HLA-DRB1 基因共同表位(SE)}、銀屑病(基因指標HLA-Cw06)、白塞氏病(基因指標HLA-B51)、麩質(zhì)敏感性腸病(基因指標HLA-DQ2/DQ8)。用藥指導有別嘌呤醇(基因指標HLA-B*5801)、硫唑嘌呤(基因指標TPMT、NUDT15)、甲氨蝶呤(基因指標MTHFR)。
以神經(jīng)系統(tǒng)遺傳代謝性疾病為例,其發(fā)病原因復雜且種類多、治療困難,始終是困擾著神經(jīng)病學家的難題。根據(jù)在線人類孟德爾遺傳數(shù)據(jù)庫(OMIM)的數(shù)據(jù)統(tǒng)計,基因檢測在神經(jīng)系統(tǒng)遺傳病的診斷中具有重要作用。人類已被發(fā)現(xiàn)的5000 多種單基因病中,神經(jīng)系統(tǒng)遺傳病或綜合征約占所有遺傳病的50%以上,主要臨床表現(xiàn)為神經(jīng)系統(tǒng)癥狀體征卻歸為神經(jīng)系統(tǒng)遺傳病或綜合征的還有300 多種。
神經(jīng)系統(tǒng)單基因遺傳病具有高度遺傳異質(zhì)性和臨床變異性,各類疾病的病種間可能有一些重疊,疾病譜也復雜多樣。檢測方法主要是多重連接探針擴增(MLPA)、片段分析(FA)、基因測序、二代測序(NGS)的基因panel 檢測、基因芯片、qPCR、一代測序等。神經(jīng)系統(tǒng)單基因遺傳病主要包括杜氏肌營養(yǎng)不良(基因指標DMD,檢測方法MLPA)、強直性肌營養(yǎng)不良 { 基因指標DMPK、ZNF9;檢測方法為片段分析(FA)}、脊髓小腦共濟失調(diào) { 基因指標ATXN1、ATXN2、ATXN3等;片段分析(FA)}、肯尼迪?。顾柩铀杓∥s癥,KD){ 基因指標AR;片段分析(FA)}、亨廷頓病舞蹈癥(HD),{ 基因指標HTT;片段分析(FA)}、脊肌萎縮癥(SMA){基因指標SMN1、SMN2;檢測方法是多重連接探針擴增(MLPA)}、腓骨肌萎縮癥(CM5){基因指標PMP22;檢測方法是基因組DNA 多重連接探針擴增(MLPA)}、常染色體顯性遺傳病合并皮質(zhì)下梗死和白質(zhì)腦?。–ADASIL){基因指標NOTCH3;基因測序}、MELAS 綜合征(線粒體基因突變;基因測序)、早發(fā)型阿爾茲海默?。ɑ蛑笜薃PP、PSEN1、PSEN2;基因測序)、多種疾病組合{Gene panel,二代測序(NGS)的基因panel 檢測}。多基因病/復雜疾病以阿爾茲海默病為例,基因指標為APOE,檢測方法有基因芯片、實時定量基因擴增熒光檢測系統(tǒng)(qPCR)、一代測序技術(shù)等。
其次也是很關(guān)鍵的問題——怎么進行基因檢測?根據(jù)不同的變異類型和特點,應采取相應的遺傳檢測的實驗方法,如一代測序技術(shù)、二代測序(NGS)的基因panel 檢測以及近年來逐漸在臨床得到應用的三代測序方法等。針對特定的變異類型選擇合適的檢測方法進行相應的檢測。比如,少量單堿基變異或小插入缺失(PCR、一代測序)、中等通量的單堿基變異或小插入缺失(基因芯片、二代測序的基因panel 檢測)、高通量單堿基變異或小插入缺失(二代測序的基因panel 檢測)、短串聯(lián)序列重復數(shù)變異(PCR+毛細管電泳)、已知大片段插入缺失/重復{MLPA、熒光原位雜交(FISH)}、未知大片段插入缺失/重復(高測序深度的二代測序)
最后也是最困難的一個環(huán)節(jié)是,如何解讀基因檢測數(shù)據(jù)?生物信息成為二代測序技術(shù)在臨床應用的關(guān)鍵。標準化的分析流程、數(shù)據(jù)質(zhì)控體系的建立、全方位的變異注釋對檢測結(jié)果的正確解讀十分重要。從二代測序各環(huán)節(jié)的難度來看,數(shù)據(jù)分析難度系數(shù)最大(69%)。
基因檢測數(shù)據(jù)的解讀主要包括兩個部分。一是有別于傳統(tǒng)檢測技術(shù),對基因檢測,尤其是通過二代測序技術(shù)開展的基因檢測,檢測實驗結(jié)束往往只完成了檢測流程的一半,實驗數(shù)據(jù)通常要經(jīng)過生物信息的分析(bioinformatics)或遺傳解讀,才能形成明確的檢測結(jié)果。經(jīng)過遺傳解讀幫助臨床醫(yī)師更好地理解檢測的結(jié)果和報告。二是遺傳解讀需要兩方面專家的努力,一方面是解讀遺傳報告的專家能提供真正對臨床有幫助、有指導意義的解讀,另一方面臨床醫(yī)生也需要在過程中不斷加深對于遺傳報告解讀的理解,需要這兩方面的雙向互動才能真正將基因檢測運用到臨床實踐中。
王晶研究員總結(jié),我們正處在大數(shù)據(jù)時代,面臨著海量的數(shù)據(jù),不同維度、層面給研究工作帶來很大的挑戰(zhàn);但也因為大數(shù)據(jù)的出現(xiàn),實現(xiàn)了傳統(tǒng)實驗科學或假設驅(qū)動的研究和以數(shù)據(jù)啟動為基礎的研究兩種研究思路的并行,為研究帶來了極大的機遇。2016 年A Tebani 發(fā)表在Int J Mol SCI的文章指出,多組學數(shù)據(jù)和臨床數(shù)據(jù)一起構(gòu)成了“系統(tǒng)醫(yī)學”,組合成從DNA到蛋白質(zhì),從細胞到機體再到群體的一個完整脈絡。但最核心問題和挑戰(zhàn)是如何將這些數(shù)據(jù)系統(tǒng)化,建立數(shù)據(jù)之間的邏輯聯(lián)系,以及用何種方法更好地分析這些數(shù)據(jù)。目前王晶實驗室主要完成的工作是以數(shù)據(jù)驅(qū)動為主(數(shù)據(jù)驅(qū)動是通過分析數(shù)據(jù)指導進一步的實驗的設計和驗證),未來將借助深度學習等技術(shù)的不斷進步和在臨床領(lǐng)域的應用,將生物學和醫(yī)學臨床數(shù)據(jù)進行整合。比如,應用方向之一是通過基礎研究和臨床數(shù)據(jù)的充分整合,采用合適的人工智能方法進行臨床表型的預測或開發(fā)智能輔助診斷的系統(tǒng),幫助臨床醫(yī)生去更好地認識疾病,開展臨床相關(guān)的實踐。
當下人工智能已在很多領(lǐng)域得到了應用,主要的趨勢是在圖形、圖像、文本、數(shù)值等綜合數(shù)據(jù)領(lǐng)域,尤其是在圖形圖像領(lǐng)域。期待在未來人工智能能帶來更多的思路和啟迪。王晶研究員總結(jié),在數(shù)據(jù)集中的時代,目前實驗室的研究思路主要是數(shù)據(jù)驅(qū)動的研究,未來在基因檢測或疾病機制的研究和數(shù)據(jù)解讀將成為非常重要的部分,同時實驗室已開展了與人工智能技術(shù)相關(guān)的研究,期待未來借助于人工智能技術(shù)的發(fā)展,能開發(fā)出更多更好的技術(shù)和方法,為推動疾病相關(guān)的診療進步提供助力,造福于人民。
專家小傳
王晶,研究員,博士生導師?,F(xiàn)任中國科學院心理研究所生物信息研究室主任。2000 年獲上海交通大學學士學位,2005 年獲北京大學生物信息學博士學位,同年被聘為中國科學院基因組研究所副研究員,2008 年6 月入選中國科學院心理研究所特聘研究員、博士生導師。王晶研究員的研究領(lǐng)域是生物信息學工具方法開發(fā)和生物數(shù)據(jù)分析與挖掘、復雜疾病的遺傳機制研究及基因組的結(jié)構(gòu)與功能探索。她致力于開發(fā)和應用生物信息學方法,探索復雜疾?。ㄖ饕P(guān)注精神類疾病、自身免疫性疾病)的分子遺傳機制,為疾病的早期診斷提供科學依據(jù)。迄今為止,王晶研究員已在《自 然》(Nature)、《科 學》(Science)、《自 然-遺傳學》(Nature Genetics)、《生物精神病學》(Biological Psychiatry)、《核酸研究》(Nucleic Acids Research)等國際知名雜志發(fā)表論文73 篇,發(fā)表文章累計影響因子逾630 分,累計引用超過8000 次。以第一作者/通訊作者發(fā)表的影響因子>10 的論文15 篇,曾主持和參與國家自然科學基金重大研究計劃和創(chuàng)新群體項目,科技部863、973 項目,歐盟第六框架項目(EU-FP6),中國科學院知識創(chuàng)新工程方向項目等多項科研項目。她主導開發(fā)了一系列(18 個)具有國際影響力的疾病組學數(shù)據(jù)分析工具和方法,獲得軟件著作權(quán)10 項,并得到業(yè)界人士的廣泛應用。