• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基因組科學(xué)數(shù)據(jù)的安全管理與應(yīng)用

      2022-11-25 12:07:55李茹姣張欣宋述慧王彥青鄒東肖景發(fā)趙文明章張鮑一明
      大數(shù)據(jù) 2022年1期
      關(guān)鍵詞:組學(xué)基因組數(shù)據(jù)庫

      李茹姣,張欣,宋述慧,王彥青,鄒東,肖景發(fā),2,趙文明,2,章張,2,鮑一明,2

      1. 中國科學(xué)院北京基因組研究所(國家生物信息中心)國家基因組科學(xué)數(shù)據(jù)中心,北京 100101;2. 中國科學(xué)院大學(xué),北京 100049

      0 引言

      科學(xué)數(shù)據(jù)是國家科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展的重要基礎(chǔ)性戰(zhàn)略資源,做好科學(xué)數(shù)據(jù)資源的匯交共享、安全管理與挖掘利用具有重要的科學(xué)意義和價(jià)值。2019年6月10日,科學(xué)技術(shù)部和財(cái)政部聯(lián)合發(fā)布了《關(guān)于國家科技資源共享服務(wù)平臺(tái)優(yōu)化調(diào)整名單的通知》,公布了多個(gè)學(xué)科領(lǐng)域的20個(gè)國家科學(xué)數(shù)據(jù)中心。其中,國家基因組科學(xué)數(shù)據(jù)中心(National Genomics Data Center,NGDC)(以下簡(jiǎn)稱中心)依托中國科學(xué)院北京基因組研究所(國家生物信息中心)建設(shè)。中心面向我國人口健康和社會(huì)可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立基因組科學(xué)數(shù)據(jù)匯交存儲(chǔ)、安全管理、開放共享與整合挖掘的研究體系,研發(fā)基因組科學(xué)大數(shù)據(jù)前沿交叉與轉(zhuǎn)化應(yīng)用的新方法和新技術(shù),其目標(biāo)是成為國際領(lǐng)先的基因組科學(xué)數(shù)據(jù)中心,支撐我國生命與健康科學(xué)創(chuàng)新發(fā)展。

      中心自成立以來,面向人口健康和重要戰(zhàn)略生物資源,以“存好”“管好”和“用好”基因組科學(xué)數(shù)據(jù)的實(shí)際需求為前提,已初步建成具有自主知識(shí)產(chǎn)權(quán)、安全可控、涵蓋國家人類遺傳資源和重要戰(zhàn)略生物資源的基因組科學(xué)數(shù)據(jù)資源體系[1]。中心匯聚全球數(shù)據(jù),提供公共服務(wù),形成了組學(xué)“數(shù)據(jù)—信息—知識(shí)”一體化資源系統(tǒng),主要分為:①原始數(shù)據(jù)倉儲(chǔ),包括生物項(xiàng)目數(shù)據(jù)庫(BioProject)、生物樣本數(shù)據(jù)庫(BioSample)、組學(xué)原始數(shù)據(jù)歸檔庫(genome sequence archive,GSA)[2-3]、人類遺傳資源組學(xué)原始數(shù)據(jù)歸檔庫(genome sequence archive for human,GSA-Human)[4]等;②組學(xué)信息庫,包括基因組數(shù)據(jù)庫(genome warehouse,GWH)[5]、基因組序列變異庫(genome variation map,GVM)[6-7]、基因表達(dá)數(shù)據(jù)庫(gene expression nebulas,GEN)[8]、甲基化數(shù)據(jù)庫(methylation bank,MethBank)[9-10]等;③組學(xué)知識(shí)庫,包括水稻多組學(xué)數(shù)據(jù)資源(IC4R)[11]、犬類組學(xué)資源庫(iDog)[12]、綿羊組學(xué)資源庫(iSheep)[13]、2019新型冠狀病毒信息庫(RCoV19)[14-15]、動(dòng)植物基因組變異-表型關(guān)聯(lián)知識(shí)庫(GWAS Atlas)[16]、表觀組關(guān)聯(lián)分析知識(shí)庫(EWAS Atlas)[17]等;④在線工具和文獻(xiàn)情報(bào)信息平臺(tái),包括生物大數(shù)據(jù)跨庫搜索引擎BIG Search、基因組科學(xué)數(shù)據(jù)在線分析平臺(tái)等。中心已獲得國際同行的高度認(rèn)可,被國際生物數(shù)據(jù)領(lǐng)域權(quán)威期刊Nucleic Acids Research(《核酸研究》)稱為與美國國家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)、歐洲生物信息學(xué)研究所(European Bioinformatics Institute,EBI)并列的“全球主要數(shù)據(jù)中心”[18]。中心解決了長(zhǎng)期以來我國基因組科學(xué)數(shù)據(jù)匯交共享嚴(yán)重依賴國際數(shù)據(jù)庫的問題,為國家基因組科學(xué)數(shù)據(jù)的匯交共享、安全管理和挖掘利用提供了重要支撐。

      1 基因組科學(xué)數(shù)據(jù)安全管理

      數(shù)據(jù)的安全管理指在數(shù)據(jù)的收集、存儲(chǔ)、使用、加工、傳輸、提供、公開等過程中采取必要的措施,確保數(shù)據(jù)處于有效保護(hù)和合法利用的狀態(tài)。中心嚴(yán)格遵循《科學(xué)數(shù)據(jù)管理辦法》和《中華人民共和國數(shù)據(jù)安全法》等相關(guān)法規(guī),目前已建立較完整的基因組科學(xué)數(shù)據(jù)匯交共享機(jī)制和安全管理規(guī)范,研發(fā)形成具有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)庫管理系統(tǒng)和共享平臺(tái),為我國基因組科學(xué)數(shù)據(jù)安全可控的匯交存儲(chǔ)、共享管理與有效利用提供重要保障。

      對(duì)于所有用戶遞交的數(shù)據(jù),如生物研究項(xiàng)目和生物樣本元數(shù)據(jù)、組學(xué)原始數(shù)據(jù)、基因組序列數(shù)據(jù)、基因組變異數(shù)據(jù)等,中心借鑒國際核酸序列數(shù)據(jù)庫聯(lián)盟(International Nucleotide Sequence Database Collaboration,INSDC)[19]的數(shù)據(jù)匯交標(biāo)準(zhǔn)規(guī)范,分別建立相應(yīng)數(shù)據(jù)管理系統(tǒng)對(duì)其進(jìn)行收集和管理。在數(shù)據(jù)管理系統(tǒng)中,內(nèi)置多套受控詞表,提供在線向?qū)Щ畔⑻峤还δ?,?guī)范化、結(jié)構(gòu)化管理各類信息,并通過在線校驗(yàn)和人工審編實(shí)現(xiàn)信息的質(zhì)控和審核,以此確保用戶遞交數(shù)據(jù)的完整性和可靠性。審核通過后,系統(tǒng)分別為每個(gè)遞交到中心的項(xiàng)目、樣本、數(shù)據(jù)分配唯一可識(shí)別的編號(hào),作為檢索和訪問的標(biāo)識(shí)。數(shù)據(jù)管理系統(tǒng)根據(jù)遞交用戶設(shè)定的數(shù)據(jù)公開時(shí)間進(jìn)行可控管理,并依托中心高性能存儲(chǔ)和異地容災(zāi)的備份機(jī)制,定期進(jìn)行數(shù)據(jù)更新與異地備份,以全面保證數(shù)據(jù)的完整性與安全性。對(duì)于大型項(xiàng)目及數(shù)據(jù),中心則提供高效、安全、專業(yè)化的項(xiàng)目分級(jí)管理。

      特別強(qiáng)調(diào)的是,中心遵循《中華人民共和國人類遺傳資源管理?xiàng)l例》的指導(dǎo)原則,對(duì)人類遺傳組學(xué)數(shù)據(jù)資源采取如下六方面的安全管理機(jī)制和策略[2,4]。①在數(shù)據(jù)訪問方式方面,面向人類遺傳資源,提供公開訪問和受控訪問兩種方式。受控訪問的數(shù)據(jù)采用“申請(qǐng)—審核”的共享方式,即數(shù)據(jù)使用者需要先向數(shù)據(jù)管理委員 會(huì)(data access committee,DAC)提交申請(qǐng),審核通過后才有權(quán)限訪問、下載并使用數(shù)據(jù)。②在身份安全認(rèn)證方面,采取雙重認(rèn)證方式,用戶除了需要通過單點(diǎn)登錄(single sign-on,SSO)系統(tǒng)的密碼認(rèn)證,還需要在數(shù)據(jù)提交和申請(qǐng)下載的人工審核階段進(jìn)行項(xiàng)目負(fù)責(zé)人(principal investigator,PI)身份信息核實(shí),以確保數(shù)據(jù)的可溯源性。③在數(shù)據(jù)上傳權(quán)限方面,系統(tǒng)規(guī)定數(shù)據(jù)上傳必須使用PI賬號(hào),且需對(duì)元數(shù)據(jù)信息進(jìn)行脫敏,即不能包含受試者的隱私信息。④在數(shù)據(jù)存儲(chǔ)空間方面,系統(tǒng)為每個(gè)用戶提供獨(dú)立的數(shù)據(jù)存儲(chǔ)空間,有效避免不同用戶之間相互干擾,降低信息泄露的可能性,充分確保數(shù)據(jù)的安全性和私密性。⑤在數(shù)據(jù)申請(qǐng)?jiān)L問方面,為了保證數(shù)據(jù)訪問安全,系統(tǒng)規(guī)定只有注冊(cè)為PI的用戶才能申請(qǐng)下載數(shù)據(jù)。⑥在存儲(chǔ)策略和備份機(jī)制方面,針對(duì)不同訪問級(jí)別的數(shù)據(jù)采用分級(jí)存儲(chǔ)策略,并建立完善的多點(diǎn)備份和異地災(zāi)備機(jī)制,以確保數(shù)據(jù)的安全存儲(chǔ)。

      2 基因組科學(xué)數(shù)據(jù)挖掘應(yīng)用

      中心在做好數(shù)據(jù)資源存儲(chǔ)和管理的同時(shí),十分注重?cái)?shù)據(jù)的整合及應(yīng)用系統(tǒng)的建設(shè),研發(fā)了一站式跨庫檢索系統(tǒng)和在線分析平臺(tái),并支撐國內(nèi)外用戶開展組學(xué)大數(shù)據(jù)挖掘應(yīng)用研究,為科學(xué)技術(shù)部、國家自然科學(xué)基金委員會(huì)、中國科學(xué)院等資助的4 000多個(gè)項(xiàng)目提供數(shù)據(jù)匯交存儲(chǔ)和共享管理服務(wù)。

      2.1 生物大數(shù)據(jù)跨庫搜索引擎

      生物大數(shù)據(jù)跨庫搜索引擎BIG Search是目前整合全球生物數(shù)據(jù)庫數(shù)量最多的生物大數(shù)據(jù)跨庫檢索平臺(tái),為全球科研人員提供秒級(jí)響應(yīng)、一站式的跨庫檢索服務(wù),支撐生物大數(shù)據(jù)的快速發(fā)現(xiàn)與利用。BIG Search整合了中心28個(gè)重要的生物數(shù)據(jù)庫資源[1]以及國內(nèi)眾多合作伙伴的39個(gè)生物數(shù)據(jù)庫資源,包括北京市神經(jīng)外科研究所江濤教授團(tuán)隊(duì)的中國腦膠質(zhì)瘤基因組圖譜數(shù)據(jù)庫(CGGA)[20]、北京大學(xué)崔慶華教授團(tuán)隊(duì)的長(zhǎng)非編碼RNA疾病數(shù)據(jù)庫(LncRNADisease)[21]、北京大學(xué)高歌研究員團(tuán)隊(duì)的植物轉(zhuǎn)錄因子數(shù)據(jù)庫(PlantTFDB)[22]、華中科技大學(xué)郭安源教授團(tuán)隊(duì)的動(dòng)物轉(zhuǎn)錄因子數(shù)據(jù)庫(AnimalTFDB)[23],以及哈爾濱醫(yī)科大學(xué)肖云教授團(tuán)隊(duì)的細(xì)胞標(biāo)記物知識(shí)庫(CellMarker)[24]等。此外,還整合了國際知名生物信息數(shù)據(jù)中心的數(shù)據(jù)資源,包括NCBI的35個(gè)數(shù)據(jù)資源庫[25]和EBI的115個(gè)數(shù)據(jù)集[26],累計(jì)數(shù)據(jù)索引量達(dá)到1 TB,記錄數(shù)超過11.5億條。

      2.2 基因組科學(xué)數(shù)據(jù)在線分析平臺(tái)

      為了促進(jìn)基因組科學(xué)數(shù)據(jù)的有效挖掘利用,中心已初步建立了基因組科學(xué)數(shù)據(jù)在線分析平臺(tái),目前主要包括:①序列比對(duì)在線分析工具,集成了生命科學(xué)領(lǐng)域最常用的序列比對(duì)軟件BLAST(basic local alignment search tool)[27-28],不僅整合了nt、nr、Swiss-Prot等常用的核酸和蛋白數(shù)據(jù)庫,還發(fā)揮了中心的特色數(shù)據(jù)資源優(yōu)勢(shì),提供多種特有的核酸、蛋白序列比對(duì)數(shù)據(jù)庫,包括GWH轉(zhuǎn)錄本和蛋白序列庫、GEN轉(zhuǎn)錄本和蛋白質(zhì)序列庫、新型冠狀病毒基因組代表序列庫、人類長(zhǎng)非編碼RNA數(shù)據(jù)庫LncBook[29]、萬種原生生物核酸和蛋白質(zhì)序列庫、水稻/高粱/胡蜂等特色物種基因庫[30];②冠狀病毒在線分析平臺(tái)[31],由基因組拼接、序列比對(duì)、基因組注釋、變異鑒定和注釋、譜系和進(jìn)化分析等11個(gè)模塊組成,滿足快速增長(zhǎng)的新型冠狀病毒基因組數(shù)據(jù)的分析需求,已為國際生物多樣性與健康大數(shù)據(jù)聯(lián)盟(Global Biodiversity and Health Big Data Alliance,BHBD)成員以及來自全國10多個(gè)重要口岸的海關(guān)檢疫人員提供了線上或現(xiàn)場(chǎng)的使用培訓(xùn),為國內(nèi)外用戶完成了11 628個(gè)病毒數(shù)據(jù)的分析任務(wù)。

      2.3 基于多維組學(xué)數(shù)據(jù)的典型應(yīng)用

      中心建立的基因組科學(xué)數(shù)據(jù)多維資源體系為新型冠狀病毒的分子溯源與傳播演化、動(dòng)植物分子育種與遺傳改良、精準(zhǔn)醫(yī)學(xué)與人口健康等多個(gè)研究領(lǐng)域提供了強(qiáng)有力的數(shù)據(jù)和信息支撐。新型冠狀病毒信息庫RCoV19有效支撐了世界衛(wèi)生組織的SARS-CoV-2全球溯源研究—中國部分[32]、北京新發(fā)地疫情分子溯源[33]和巴基斯坦境內(nèi)早期新型冠狀病毒傳播演化規(guī)律[34]等研究工作,在全球抗疫過程中發(fā)揮了科技支撐作用。武漢大學(xué)研究團(tuán)隊(duì)對(duì)從新型冠狀病毒肺炎(COVID-19)患者的支氣管肺泡灌洗液(bronchoalveolar lavage fluid,BALF)和外周血單個(gè)核細(xì)胞(peripheral blood mononuclear cell,PBMC)樣本中提取的RNA進(jìn)行了轉(zhuǎn)錄組測(cè)序,揭示了新型冠狀病毒肺炎患者支氣管肺泡灌洗液與外周血單個(gè)核細(xì)胞的轉(zhuǎn)錄組學(xué)特征[35],并將數(shù)據(jù)遞交至GSA(CRA002390),該成果發(fā)表后得到了廣泛的關(guān)注。華中農(nóng)業(yè)大學(xué)的研究人員利用GVM中豬、馬、牛、山羊、水牛、雞、野馬和熊貓等物種的高密度基因型數(shù)據(jù),經(jīng)過數(shù)據(jù)再分析與處理,構(gòu)建了經(jīng)基因型填補(bǔ)后的13個(gè)動(dòng)物的高質(zhì)量參考變異組,同時(shí)開發(fā)了專業(yè)數(shù)據(jù)庫Animal-ImputeDB[36],用于在線基因型估算、基因變異搜索和免費(fèi)下載,為動(dòng)物遺傳育種和遺傳改良提供了豐富的數(shù)據(jù)資源,促進(jìn)了基因型填補(bǔ)在動(dòng)物遺傳研究中的應(yīng)用。

      3 結(jié)束語

      在科學(xué)技術(shù)部及有關(guān)部門的大力支持和資助下,中心在數(shù)據(jù)匯交共享、安全管理和挖掘應(yīng)用等方面都取得了突破性進(jìn)展,已建成涵蓋國家人類遺傳資源和重要戰(zhàn)略生物資源的多組學(xué)數(shù)據(jù)資源體系,研發(fā)一站式跨庫檢索系統(tǒng)和在線分析平臺(tái),數(shù)據(jù)資源總量已超過10 PB,為公益性科學(xué)研究和產(chǎn)業(yè)創(chuàng)新發(fā)展,尤其是全球抗疫,提供了重要數(shù)據(jù)資源和科技支撐。然而,在生物數(shù)據(jù)統(tǒng)一匯交政策機(jī)制、基礎(chǔ)設(shè)施和數(shù)據(jù)智能管理能力、生物信息專業(yè)人才隊(duì)伍以及生物數(shù)據(jù)的國際互通共享等方面仍需極大的提升。為此,筆者提出如下建議。

      ● 加快完善生物信息資源共享的政策保障措施:加快推動(dòng)建立科技信息公開制度,確保各類科技項(xiàng)目產(chǎn)生的科學(xué)數(shù)據(jù)能夠全面、及時(shí)開放共享,健全科學(xué)數(shù)據(jù)共享管理過程中的保障機(jī)制。

      ● 加強(qiáng)生物信息基礎(chǔ)設(shè)施建設(shè)和核心軟件系統(tǒng)研發(fā):以生命科學(xué)研究的實(shí)際需求為導(dǎo)向,建立面向生物信息大數(shù)據(jù)的基礎(chǔ)設(shè)施環(huán)境,研發(fā)多維數(shù)據(jù)資源的生物數(shù)據(jù)庫、信息庫和知識(shí)庫系統(tǒng)及其關(guān)鍵核心軟件和工具,加大對(duì)生物信息算法、模型、軟件、工具、數(shù)據(jù)庫等方面的資助支持力度,切實(shí)形成綜合性、權(quán)威性的生物信息數(shù)據(jù)庫以及具有自主知識(shí)產(chǎn)權(quán)的核心軟件。

      ● 加大我國生物信息學(xué)學(xué)科建設(shè)及人才隊(duì)伍的培養(yǎng):建議盡快推進(jìn)生物信息學(xué)的學(xué)科布局和整體規(guī)劃,提升生物信息學(xué)的學(xué)科級(jí)別,成立生物信息學(xué)一級(jí)學(xué)會(huì),并在有較好基礎(chǔ)的大學(xué)設(shè)立生物信息學(xué)院,以此加強(qiáng)基礎(chǔ)人才培養(yǎng),為未來我國生命科學(xué)領(lǐng)域的可持續(xù)發(fā)展提供充足的人才儲(chǔ)備。

      ● 加強(qiáng)生物信息數(shù)據(jù)與資源的國際合作:一方面,根據(jù)國家“一帶一路”倡議,加強(qiáng)與相關(guān)國家的科技合作和技術(shù)探討,在生命科學(xué)領(lǐng)域開展聯(lián)合研究,擴(kuò)大我國生物信息數(shù)據(jù)體系的影響力;另一方面,加強(qiáng)國內(nèi)外科學(xué)共同體的交流合作,探索與國際社會(huì)的數(shù)據(jù)交換和合作交流,保障資源的全球化利用,最大限度發(fā)揮數(shù)據(jù)的價(jià)值。

      致謝

      感謝國家基因組科學(xué)數(shù)據(jù)中心的陳梅麗、陳婷婷、杜政霖、郝麗麗、馬利娜、唐碧霞、張思思等在本文撰寫過程中給予的支持和幫助。

      猜你喜歡
      組學(xué)基因組數(shù)據(jù)庫
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      口腔代謝組學(xué)研究
      基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
      數(shù)據(jù)庫
      數(shù)據(jù)庫
      數(shù)據(jù)庫
      數(shù)據(jù)庫
      代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      有趣的植物基因組
      抚顺县| 合肥市| 和顺县| 苍南县| 郁南县| 上栗县| 扬州市| 林州市| 益阳市| 大余县| 泉州市| 兰州市| 怀化市| 陆丰市| 呼图壁县| 德庆县| 太谷县| 县级市| 江川县| 门头沟区| 浮梁县| 康乐县| 五台县| 留坝县| 景洪市| 钦州市| 赤壁市| 黔南| 阿拉尔市| 雷山县| 崇信县| 乐山市| 裕民县| 诸城市| 新巴尔虎右旗| 邳州市| 杂多县| 临沧市| 康保县| 嘉义市| 玛沁县|