王 瀟 王雅瓊 董欣然 吳冰冰 王慧君 盧宇藍(lán) 周文浩
(國家兒童醫(yī)學(xué)中心/復(fù)旦大學(xué)附屬兒科醫(yī)院兒科研究院分子醫(yī)學(xué)中心 上海 201102)
近年來,高通量測序技術(shù)(全基因組測序、臨床外顯子組測序以及基因檢測包)在遺傳病診斷中扮演著重要角色。從測序數(shù)據(jù)中識別致病遺傳變異,能幫助臨床醫(yī)師明確疾病病因,優(yōu)化疾病管理方案。高通量測序數(shù)據(jù)分析的主要流程包括對測序數(shù)據(jù)的預(yù)處理及變異檢測、變異注釋、變異篩選和變異分類等[1]。其中,變異的注釋是測序數(shù)據(jù)分析的基礎(chǔ)。簡單來說,注釋的內(nèi)容主要包括:數(shù)據(jù)質(zhì)量、變異的基因組位置、所屬基因及轉(zhuǎn)錄本、基因型、人群頻率、對mRNA 及蛋白質(zhì)的影響、致病性預(yù)測,以及疾病相關(guān)性;在基因?qū)用?,還包括基因名、基因功能、表達(dá)模式、參與的通路以及相關(guān)的疾病或表型等[2]。目前已開發(fā)出許多成熟的注釋工具如ANNOVAR[3]、VEP 等[4],可 以 對 變 異 進(jìn) 行 自 動 注釋。這些工具依賴的數(shù)據(jù)庫包括公共疾病數(shù)據(jù)庫,如人類孟德爾遺傳疾病在線數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)[5]、人類基因突變數(shù)據(jù)庫(the Human Gene Mutation Database,HGMD)[6]和ClinVar[7]等。OMIM 目前已收集了超過1.6 萬個基因和8 600 個表型信息。HGMD 通過人工收集和審核出版文獻(xiàn)中的遺傳變異信息,截至2020 年6 月收錄超過1 萬個基因的28 萬個與疾病相關(guān)的遺傳變異。ClinVar 是一個面向公眾免費的數(shù)據(jù)庫,一千三百多個機(jī)構(gòu)向其提供了超過80 萬條條目,包含超過50 萬個與疾病相關(guān)的遺傳變異及相關(guān)注釋信息。
在人類基因組學(xué)迅猛發(fā)展的歷程中,多種基因名和基因注釋版本并行,同一個遺傳變異在基因?qū)用婧娃D(zhuǎn)錄本層面有不一致表示方式,這給臨床應(yīng)用和科研交流造成極大的困擾,甚至?xí)?dǎo)致疾病診斷失敗[8]。目前行業(yè)內(nèi)對于變異的命名主要依據(jù)人類基因組變異協(xié)會(Human Genome Variation Society,HGVS)標(biāo)準(zhǔn)[9],基因名主要依據(jù)人類基因命 名 委 員 會(HUGO Gene Nomenclature Committee,HGNC)提供的核準(zhǔn)基因名[10-11]。然而由于疾病數(shù)據(jù)庫中收集的信息來源廣、時間長,有的甚至在人類基因組計劃開展之前,導(dǎo)致基因及變異的命名方式不符合最新標(biāo)準(zhǔn)。此外,注釋所參考的數(shù)據(jù)庫版本也在不斷更新。美國國家生物技術(shù)信 息 中 心(National Center for Biotechnology Information,NCBI)提供了全面且權(quán)威的基因組檢索數(shù)據(jù)庫,包含可供檢索的基因查詢號(Entrez Gene ID)[12]和參考序列查詢號(RefSeq ID)[13]。歐洲生物信息所(EMBL-EBI)維護(hù)的Ensembl 數(shù)據(jù)庫同樣記錄了所有基因及參考序列的查詢號[14]。GENCODE 是基因組功能注釋中最常用的數(shù)據(jù)庫,整合ENSEMBL 的人工和自動基因注釋信息,提供對 應(yīng) RefSeq 和 ENSEMBL 查 詢 號 信 息[15]。GENCODE 從2009 年3 月發(fā)布的v2b 開始,平均每2~3 個 月 更 新 一 版(https://www.gencodegenes.org/human/releases. html)。最近一次的更新主要完善新的蛋白質(zhì)編碼基因、lncRNA 以及假基因的注釋等[16]。如此高的更新頻率也會導(dǎo)致注釋數(shù)據(jù)庫中存在一些尚未更新或被棄用的信息。隨著大部分注釋數(shù)據(jù)庫中的信息數(shù)量增長減緩,總體數(shù)量已趨于穩(wěn)定,可以對數(shù)據(jù)庫中的基因及變異名稱的準(zhǔn)確性進(jìn)行校驗并提供符合指定參考標(biāo)準(zhǔn)版本的正確表示方式。
我們以GENCODE 2020 年4 月發(fā)布的版本v34作為參考標(biāo)準(zhǔn),對OMIM(2020 年7 月版本)中的所有疾病相關(guān)基因名及HGMD(2020 年7 月版本)、ClinVar(2020 年7 月版本)中的變異逐一進(jìn)行比對校驗。對校驗后有出入的變異提供依據(jù)指定注釋參考更新后的HGNC 基因名稱,轉(zhuǎn)錄本查詢號(RefSeq,ENSEMBL)和突變表示方式(HGVS)。該工作可以有效提高遺傳變異數(shù)據(jù)分析、解讀、驗證和交流的效率,輔助遺傳病診斷和相關(guān)科研工作的順利進(jìn)行。
數(shù)據(jù)來源OMIM 基因注釋信息下載自O(shè)MIM 網(wǎng)站(https://omim.org/downloads,2020 年7 月);HGMD 變 異 注 釋 文 件 下 載 自HGMD 網(wǎng) 站(http://www.hgmd.cf.ac.uk/ac/index.php,2020 年7月);ClinVar 變異注釋文件下載自NCBI ClinVar 網(wǎng)站(https://www.ncbi.nlm.nih.gov/clinvar/,2020 年7 月);人基因組轉(zhuǎn)錄本注釋信息(ENSEMBL 轉(zhuǎn)錄本)以及ENSEMBL 轉(zhuǎn)錄本查詢號與NCBI RefSeq轉(zhuǎn)錄本查詢號對應(yīng)列表均下載自GENCODE 網(wǎng)站(https://www. gencodegenes. org/human/release_34lift37.html,版本34,2020 年4 月)。基因注釋信息(包含Entrez 及ENSEMBL 基因查詢號)同樣下載自GENCODE 官 網(wǎng)(版 本19 和34,2020 年4 月)。HGNC 的核準(zhǔn)基因名及對應(yīng)到其他數(shù)據(jù)庫的查詢號 信 息 下 載 自HGNC 數(shù) 據(jù) 庫(https://www.genenames.org/download/custom/,2020 年7 月)。所用人基因組版本均為GRCh37。
OMIM 基因名校驗由于OMIM 對每個基因提供了OMIM 查詢號及其對應(yīng)的NCBI Entrez 及ENSEMBL 查詢號,我們對OMIM 的所有基因分別給出校驗后的HGNC 和GENCODE 兩種標(biāo)準(zhǔn)基因名,校驗結(jié)果以參考列表的形式展示(表1)。具體做法如下:(1)以HGNC 為標(biāo)準(zhǔn)的校驗。從HGNC網(wǎng)站下載到HGNC 核準(zhǔn)基因名與OMIM 查詢號、Entrez 基因查詢號的對應(yīng)關(guān)系列表。對OMIM 中的所有基因首先按照OMIM 查詢號在HGNC 中進(jìn)行檢索,給出其對應(yīng)的HGNC 核準(zhǔn)基因名;若該基因在HGNC 中未匹配到OMIM 查詢號,則進(jìn)一步用OMIM 提供的Entrez 基因查詢號在HGNC 中檢索并給出對應(yīng)的HGNC 核準(zhǔn)基因名;若仍未匹配到,則認(rèn)為其沒有HGNC 核準(zhǔn)基因名,標(biāo)記為noOMIM2HGNC;若OMIM 未提供某個基因的Entrez 基因查詢號,則直接標(biāo)記為noEntrez。(2)以GENCODE 為標(biāo)準(zhǔn)的校驗。在GENCODE v19 和v34 兩個版本的數(shù)據(jù)庫中用ENSEBML 查詢號進(jìn)行檢索,給出其對應(yīng)的GENCODE 標(biāo)準(zhǔn)基因名;若該基因在GENCODE v19 或v34 的版本中未匹配到ENSEMBL 查詢號,則認(rèn)為其沒有GENCODE 標(biāo)準(zhǔn)基因名,標(biāo)記為noOMIM2ENSG;若OMIM 未提供某個基因的ENSEMBL 查詢號,則直接標(biāo)記為noENSG。
HGMD 及ClinVar 的變異匹配校驗由于HGMD 和ClinVar 中 的 變 異 以HGVS 規(guī) 則 展 示,我們以GENECODE 數(shù)據(jù)庫版本v34 中記錄的NCBI RefSeq 和ENSEMBL 參考序列查詢號為標(biāo)準(zhǔn),對所有變異以HGVS 規(guī)則表示時所使用的參考序列查詢號做校驗,校驗結(jié)果以參考列表的形式展示。具體做法如下:(1)查看數(shù)據(jù)庫是否提供變異的HGVS 名稱,若未提供相應(yīng)的HGVS,則在HGVS DNA,HGVS protein,RefSeq 及ENSEMBL 列各標(biāo)記為無轉(zhuǎn)錄本編號(noNM)、無蛋白質(zhì)編號(noNP)、無 RefSeq 查 詢 號(noRefSeq)和 無ENSEMBL 查詢號(noENST)。(2)若數(shù)據(jù)庫提供了變異的HGVS,則判斷變異是否發(fā)生在外顯子上,若不在外顯子上,進(jìn)一步判斷該變異HGVS 所屬RefSeq 轉(zhuǎn)錄本是否存在(在GENCODE v34 版本中是否有ENSEMBL 轉(zhuǎn)錄本與之匹配),若不存在,則將RefSeq 列和ENSEMBL 列標(biāo)記為noSite2NM 和noSite2ENST;若RefSeq 轉(zhuǎn)錄本存在,則匹配當(dāng)前版本RefSeq 轉(zhuǎn)錄本及ENSEMBL 轉(zhuǎn)錄本查詢號。若RefSeq 轉(zhuǎn)錄本無法匹配到ENSEMBL 轉(zhuǎn)錄本,則將ENSEMBL 列標(biāo)記為noENST2NM。(3)若變異的HGVS 顯示其發(fā)生在外顯子上,同樣判斷HGVS 中的RefSeq 轉(zhuǎn)錄本是否存在。若不存在,則從變異的基因組坐標(biāo)入手,利用bedtools intersect 工具將其匹配到所有可能的ENSEMBL 轉(zhuǎn)錄本上,若沒有匹配,則ENSEMBL 列標(biāo)記為noENST2Site。進(jìn)一步匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本并給出查詢號,若沒有匹配,則RefSeq 列標(biāo)記為noNM2 ENST。(4)若 變 異 處 于 外 顯 子 且HGVS 中 的RefSeq 轉(zhuǎn)錄本存在,則將該RefSeq 轉(zhuǎn)錄本匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本查詢號,并匹配到ENSEMBL 轉(zhuǎn) 錄 本,若 未 匹 配,ENSEMBL 列 標(biāo) 記為noENST2NM。若匹配到ENSEMBL 轉(zhuǎn)錄本,則查詢變異所處的基因組坐標(biāo)是否位于該ENSEMBL 轉(zhuǎn)錄本上。若不在該轉(zhuǎn)錄本上,則按照變異的基因組坐標(biāo)匹配所有可能的ENSEMBL 轉(zhuǎn)錄本,若沒有匹配,則RefSeq 列和ENSEMBL 列各標(biāo)記為noNM2Site 和noENST2Site。進(jìn)一步匹配到當(dāng)前版本的RefSeq 轉(zhuǎn)錄本并給出查詢號,若沒有,則RefSeq 列標(biāo)記為noNM2ENST。否則即校驗通過。
OMIM 基因名的校驗為了確保在基因診斷和研究交流時采用正確的基因,我們對最常用的遺傳病致病基因數(shù)據(jù)庫OMIM 中的所有基因名進(jìn)行校驗。基于NCBI 的Entrez 數(shù)據(jù)庫和ENSEMBL 數(shù)據(jù)庫提供的基因唯一查詢號分別比較OMIM 基因與HGNC 和GENCODE 對應(yīng)的基因名是否吻合(圖1A)。校驗結(jié)果見圖2,信息示例見表1,共有17 204 個OMIM 基 因 編 號,對 應(yīng)17 201 個 基 因,其中有3 個基因是重復(fù)的,即TEC,PLCXD1和XGR。在OMIM 更 新 版 本 中(2020 年10 月),TEC和PLCXD1已保留了唯一正確的條目,而XGR(處于X 與Y 染色體同源區(qū)域)已被移除。86.7% 的OMIM 給出的基因名與HGNC 的核準(zhǔn)基因名是相同的,但仍然存在小部分基因名缺失或錯誤的情況,其中有972 個(5.65%)OMIM 基因名與HGNC核準(zhǔn)基因名不匹配,另外有277 個(1.61%)基因未提 供Entrez 基 因 查 詢 號(noEntrez),1 039 個(6.04%)OMIM 基因給出的Entrez 基因查詢號沒有匹配到HGNC 核準(zhǔn)基因名(noOMIM2HGNC)。例如,STRK1(MIM:606799)沒有對應(yīng)的Entrez 基因查詢號(noEntrez),DYT13(MIM:607671)沒有匹配的HGNC 核準(zhǔn)基因名(noOMIM2HGNC)。再如,MEIR1(MIM:616848)校正后的核準(zhǔn)基因名為MIER1,屬于拼寫錯誤。另一個例子是GLMN(MIM:601749),在OMIM 中給出了GLML,GVM,VMGLOM3 種非正式的基因名。在所有OMIM 校驗失敗的基因中,我們列出了73 個與HGNC 核準(zhǔn)基因名不符的具有表型描述的OMIM 致病基因及其信息(附表2),需要在進(jìn)行基因注釋及診斷報告時予以注意。
表1 OMIM 基因校驗情況示例Tab 1 Examples of gene validation in OMIM
圖1 基因名及變異校驗方法流程Fig 1 Validation pipeline for gene symbols and variants
OMIM 與GENCODE 數(shù)據(jù)庫比較結(jié)果顯示1 580 個OMIM 基因沒有給出ENSEMBL 的基因查詢 號(noENSG,如OMIM 基 因PTPRZ2。 ID:604008),另外有117 個OMIM 基因的ENSEMBLE基因ID 沒有匹配到GENCODE 的基因名上(noOMIM2ENSG,如OMIM 基 因MIR34A。ID:611172)。由于基因名本身在不斷更新,我們提供了GENCODE 兩個版本v19 和v34 的基因名,共有952個OMIM 基因在GENCODE 兩個版本中是不同的。 例 如OMIM 基 因GPR179(ID:614515)在GENCODE v19 中 是 缺 失 的;OMIM 基 因PRMT9(ID:616125)在v19 的名字為PRMT10。
HGMD 和ClinVar 變異的校驗基因診斷中正確描述致病基因的遺傳變異同樣至關(guān)重要。我們對變異描述遵循HGVS 規(guī)則,例如基因區(qū)的單核苷酸變異或小片段插入缺失變異需標(biāo)明參考序列(轉(zhuǎn)錄本)、位置和變異類型。由于大量基因?qū)?yīng)多個轉(zhuǎn)錄本,基因組上同一位置的變異對不同轉(zhuǎn)錄本可能造成不同影響,因此確定變異所屬的轉(zhuǎn)錄本尤為重要。由于預(yù)測方法及實驗技術(shù)的不斷更新,轉(zhuǎn)錄本本身序列及其查詢號都在不斷更新,使用錯誤或滯后的轉(zhuǎn)錄本信息會給基因診斷注釋及驗證帶來困擾。因此,對于兩個常用的致病變異注釋數(shù)據(jù)庫HGMD 和ClinVar,我 們 以GENCODE v34 作 為 參考標(biāo)準(zhǔn),對HGMD 和ClinVar 提供的每個變異的HGVS 所屬轉(zhuǎn)錄本進(jìn)行RefSeq 和ENSEMBL 轉(zhuǎn)錄本查詢號的匹配和校驗(圖1B,附表1)。
統(tǒng)計結(jié)果見圖2、表2。ClinVar 和HGMD 中分別有83.47%和18.78%的變異,與參考注釋完全匹配。 對于HGMD,即便忽略蛋白質(zhì)注釋只看mRNA 注釋,也僅有21.33%的變異給出的mRNA轉(zhuǎn)錄本查詢號完全正確。如果從轉(zhuǎn)錄本的校驗率來看,HGMD 的變異所屬的RefSeq 轉(zhuǎn)錄本共有10 859 條,僅17.73%與參考注釋匹配,ClinVar 的變異所屬轉(zhuǎn)錄本共有12 291 條,其中98.01%與參考注釋匹配。對于HGMD 來說,有78.33%的變異屬于其所在的轉(zhuǎn)錄本版本不是標(biāo)準(zhǔn)的GENCODE v34的版本(如變異CM1613956,NM_152486.2 校驗后應(yīng)為NM_152486.3),亟待更新。
表2 HGMD 和ClinVar 變異校驗數(shù)量統(tǒng)計Tab 2 Count summary of variants in HGMD and ClinVar [n(%)]
圖2 OMIM、HGMD 及ClinVar 校驗統(tǒng)計Fig 2 Validation summary of OMIM,HGMD and ClinVar
另外,兩個數(shù)據(jù)庫均存在少量變異標(biāo)注的轉(zhuǎn)錄本與參考注釋不一致的情況(HGMD:0.27%,ClinVar:0.17%)。如HGMD 變異CD153139 標(biāo)注轉(zhuǎn)錄本查詢號為NM_020794.2,該轉(zhuǎn)錄本由于缺乏足夠的證據(jù)而被當(dāng)前RefSeq 數(shù)據(jù)庫移除(https://www. ncbi. nlm. nih. gov/nuccore/NM_020794.2)。HGMD 數(shù)據(jù)庫中703 個變異共對應(yīng)47 條獨立的RefSeq 轉(zhuǎn)錄本(附表3),這些轉(zhuǎn)錄本因為缺乏明確的實驗證據(jù)、不編碼蛋白質(zhì)、包含內(nèi)含子序列或錯誤編碼到鄰近基因等原因已被棄用,或被其他RefSeq 轉(zhuǎn)錄本查詢號替代(如NM_001257360.1 替代 為 NM_001368809),或 是 NCBI 中 獨 有(ENSEMBL 中未找到對應(yīng)記錄)的轉(zhuǎn)錄本。
其他校驗錯誤還包括(附表1):HGVS 信息缺失(如CM188806)、非外顯子區(qū)的變異、HGVS 中的RefSeq 轉(zhuǎn)錄本不存在(如HGMD 變異CS1912872所在轉(zhuǎn)錄本NM_001291381.1,該轉(zhuǎn)錄本通過預(yù)測得到,尚未經(jīng)實驗證實)、外顯子區(qū)的變異HGVS 中的RefSeq 未在GENCODE v34 中收錄且根據(jù)基因組位置也無法匹配到ENSEMBL 轉(zhuǎn)錄本上(如HGMD 變 異 CM1813348 所 在 轉(zhuǎn) 錄 本 NM_001171935.1),以及未給出變異所在轉(zhuǎn)錄本預(yù)測的RefSeq 蛋白質(zhì)查詢號(如HGMD 變異CR133723)。
遺傳變異的準(zhǔn)確表示是變異數(shù)據(jù)分析的基礎(chǔ),生物信息分析人員常用ANNOVAR、VEP 等綜合注釋工具對高通量測序分析數(shù)據(jù)進(jìn)行一步式注釋,而這些工具底層依賴的注釋資源是HGMD 等數(shù)據(jù)庫。我們在實際的分子診斷工作中,發(fā)現(xiàn)常用疾病數(shù)據(jù)庫注釋出來的部分基因或變異的命名是錯誤的,例如查不到其來源,與文獻(xiàn)或其他來源給出的命名不一致,因此對常用注釋數(shù)據(jù)庫進(jìn)行基因和變異的校驗是減少注釋錯誤必不可少的一環(huán)。我們首次對這些數(shù)據(jù)庫中所有的基因名和變異所屬轉(zhuǎn)錄本進(jìn)行名稱評估,并建議相關(guān)科研及工作人員在實際過程中盡可能選用最新基因注釋版本,并在分析報告中標(biāo)注基因的版本號,便于后續(xù)人工核查和追溯。本研究對3 個疾病注釋數(shù)據(jù)庫OMIM 基因名和HGMD、ClinVar 的變異進(jìn)行校驗,結(jié)果顯示數(shù)據(jù)庫中大部分的基因名和變異的注釋能與參考注釋匹配。然而,在OMIM 中仍有少部分基因存在核準(zhǔn)基因名缺失或基因名變更的情況。HGMD 中也存在大量的變異所標(biāo)注RefSeq 轉(zhuǎn)錄本的版本需要更新;HGMD 及ClinVar 中均存在少量變異所標(biāo)注的轉(zhuǎn)錄本已被棄用或查詢號改變。在涉及這些基因的變異解讀和研究中需要格外注意。
我們選用GENCODE 參考注釋,是由于GENCODE 注釋系統(tǒng)廣泛地應(yīng)用于大型國際研究項目,如DNA 元件百科全書項目(Encyclopedia of DNA Elements,ENCODE)[17]、基 因 型 和 組 織 表 達(dá)關(guān) 聯(lián) 數(shù) 據(jù) 庫(Genotype-Tissue Expression,GTEx)[18]、癌癥基因圖譜計劃(The Cancer Genome Atlas,TCGA)[19]、基 因 組 集 成 聯(lián) 合(Genome Aggregation Database,gnomAD)[20]、千人基 因組項目(1000 Genomes Project)[21]和人類細(xì)胞圖譜項目(Human Cell Atlas,HCA)[22]等。采 用GENCODE注釋標(biāo)注便于我們在數(shù)據(jù)分析過程中整合各大數(shù)據(jù)庫的信息,我們的工具提供新老版本的GENCODE 注釋編號,也便于相關(guān)人員在變異的解讀和后續(xù)研究過程中,在各個數(shù)據(jù)庫在線平臺進(jìn)行人工檢索查詢。由于GENCODE 注釋仍在持續(xù)更新,本文展現(xiàn)的校驗結(jié)果具有時效性,但我們開發(fā)的方法能較為方便地提供更新的校驗結(jié)果。除了參考注釋,我們所校驗的3 個數(shù)據(jù)庫本身也在不斷更新與修正。截至2022 年1 月,OMIM 已記錄了17 857 個OMIM 條目,與舊版相比,廢除了19 個條目,新增672 個條目,在17 185 個同舊版本相同的條目中(OMIM 查詢號不變),更新了666 個基因名。新版HGMD(2021 年11 月)收錄了315 143 條變異記錄,與舊版相比,廢除了17 條記錄,新增52 017 條記錄,對于其中263 126 個查詢號未改變的變異,有247 144 個位點的轉(zhuǎn)錄本記錄發(fā)生更新(約94%),進(jìn)一步證明舊版本的HGMD 中所記錄的位點所屬轉(zhuǎn)錄本號確實存在大量版本滯后的情況。新版ClinVar(2022 年1 月)所記錄的變異條目已達(dá)到907 441 條,與舊版相比,廢除了4 447 條記錄,新增291 457 條記錄,但是其剩余的615 984 個變異所屬的轉(zhuǎn)錄本均未在新版本中更新,這也說明我們工作的必要性。特別是在臨床報告解讀過程中,變異標(biāo)注的基因名和轉(zhuǎn)錄本編號是重要的參考依據(jù),也是后續(xù)實驗驗證的憑據(jù)。我們在實踐中發(fā)現(xiàn),向?qū)嶒炄藛T提供準(zhǔn)確完整的RefSeq 轉(zhuǎn)錄本查詢號,包括版本號(如NM_152486.3 中“.3”為版本號)是必要的。因為相同的轉(zhuǎn)錄本號下不同的版本代表的mRNA序列有較大差異。
另外,在對變異進(jìn)行轉(zhuǎn)錄本的校驗時,我們發(fā)現(xiàn)HGMD 中同一個基因組坐標(biāo)上的變異會有屬于多個轉(zhuǎn)錄本的情況,這樣的變異有18 248 個。在遇到這些變異時,需要人工核查以給出盡量準(zhǔn)確的表示方式。在實踐中,對于多個轉(zhuǎn)錄的情況,一般會優(yōu)先選擇變異影響最嚴(yán)重的轉(zhuǎn)錄本,即優(yōu)先考慮導(dǎo)致無義突變,其次是錯義突變的轉(zhuǎn)錄本。在基因區(qū)域?qū)用嫔蟽?yōu)先考慮位于外顯子、剪切位點等區(qū)域上的變異所屬的轉(zhuǎn)錄本,而后考慮位于UTR、內(nèi)含子或基因間區(qū)的轉(zhuǎn)錄本。在特定情況下變異影響最嚴(yán)重的轉(zhuǎn)錄本不一定是功能最重要的轉(zhuǎn)錄本,因此可以采取其他轉(zhuǎn)錄本選擇方式,例如APPRIS 數(shù)據(jù)庫通過蛋白質(zhì)結(jié)構(gòu)、序列功能和保守程度為每個蛋白質(zhì)編碼基因定義主要轉(zhuǎn)錄本(principal isoform)[23],NCBI 與EMBI-EBI 合作的MANE 項目(Matched Annotation from NCBI and EMBL-EBI,MANE)(https://www. ncbi. nlm. nih. gov/refseq/MANE/)通過專家審核和計算方法整合RefSeq 和ENSEMBL-GENCODE 注釋信息,為每個蛋白質(zhì)編碼基因選擇高質(zhì)量的代表性轉(zhuǎn)錄組。也有最新研究提出需要綜合考慮不同轉(zhuǎn)錄本在特定組織中的表達(dá)量[24],來選擇轉(zhuǎn)錄本進(jìn)行變異的解讀。
本文研究了一種便捷的遺傳變異表示的校驗方法,并提供了更新的注釋參考信息,為變異數(shù)據(jù)分析、臨床解讀、遺傳咨詢及科研交流提供了有利的參考依據(jù)。
作者貢獻(xiàn)聲明王瀟,王雅瓊 數(shù)據(jù)采集分析,論文撰寫和修訂,圖表繪制。董欣然,吳冰冰,王慧君 可行性分析與監(jiān)督指導(dǎo)。盧宇藍(lán),周文浩 論文構(gòu)思與設(shè)計。
利益沖突聲明所有作者均聲明不存在利益沖突。