吳思竹 王安然 修曉蕾 錢慶 周偉
(1. 中國醫(yī)學科學院醫(yī)學信息研究所,北京 100020;2. 國家人口健康科學數(shù)據(jù)中心,北京 100005)
美國國家生物技術信息中心(National Center for Biotechnology Information,NCBI)是美國國立衛(wèi)生研究院國家醫(yī)學圖書館(National Library of Medicine,NLM)的下屬中心,成立于1988年。NCBI的定位和重要使命是研發(fā)前沿信息技術,幫助理解和控制健康以及疾病的基本分子和遺傳過程,創(chuàng)建存儲和分析有關分子生物學、生物化學和遺傳學相關知識的自動化系統(tǒng),促進研究和醫(yī)學界開展數(shù)據(jù)庫和軟件應用,協(xié)調(diào)國內(nèi)和國際范圍開展收集生物技術信息、研究生物重要分子結構和功能分析的先進的計算機處理方法[1]。
NCBI的組織架構由科學顧問委員會、計算生物學部、信息工程部和信息資源部組成。計算生物學部是NCBI的主要研究部門,包括9個研究小組,分別負責染色質(zhì)結構生物信息學、序列比對、蛋白質(zhì)和基因組進化、進化基因組學、生物醫(yī)學文本挖掘、表觀遺傳和基于序列的基因調(diào)控機制、生物系統(tǒng)建模和計算分析、統(tǒng)計計算生物學和定量分子生物物理學研究。信息工程部主要負責設計和構建NCBI的軟件系統(tǒng)和數(shù)據(jù)庫。信息資源部負責規(guī)劃、指導和管理NCBI的技術和網(wǎng)絡運營,為內(nèi)外部用戶提供技術支持、咨詢和指導。2021年NCBI的全職員工有273人,占NLM全職員工數(shù)量(647人)的42%,主要由研究人員、跟蹤調(diào)查人員、軟件工程師、博士后和學生等多層次人員組成。NCBI的研究和服務主要由NLM內(nèi)部計劃(Intramural Programs)的經(jīng)費支持,該經(jīng)費占撥付給NLM的美國總統(tǒng)預算經(jīng)費的80%,主要支持NLM開展前沿計算健康信息學研究,開發(fā)先進的生物醫(yī)學信息系統(tǒng)、標準和研究工具,開展生物醫(yī)學數(shù)據(jù)采集、存儲、傳播,以及提供高質(zhì)量的信息服務。2017—2021年,NLM的這項計劃經(jīng)費總額一直保持在3億~4億美元。通過公開的NLM預算收支可獲知2008年以前的NCBI獲得的支持經(jīng)費為7 000萬美元左右(占NLM全部預算經(jīng)費的23%~25%)。雖然之后財年預算沒有公開NCBI的支持經(jīng)費,但從2022年NCBI主任和NLM科學數(shù)據(jù)資源副主任職位招聘的啟事中可獲知,該職位可以有權支配1.5億美元的經(jīng)費預算和領導NLM的近700名員工[2]。
歐洲生物信息學研究所(European Bioinformatics Institute,EBI)是歐洲分子生物學實驗室(European Molecular Biology Laboratory,EMBL)的一部分,它的定位和使命包括五方面:為科學界建立和維護生物數(shù)據(jù)庫,提供科學服務和培訓,開展生物信息學基礎研究,向工業(yè)界傳播前沿技術及協(xié)調(diào)供應歐洲生物數(shù)據(jù)[3]。
EBI的組織架構包括理事會、戰(zhàn)略管理委員會、科學顧問委員會、研究組、服務組、技術組、培訓組等多個部門及團隊。研究組包括4個小組,分別負責系統(tǒng)和數(shù)學生物學、蛋白質(zhì)結構和化學、基因組和功能基因組學研究。服務組主要負責基因、基因組和變異,分子圖譜,蛋白質(zhì)組和蛋白質(zhì)家族,分子系統(tǒng),分子和細胞結構,化學物質(zhì)等數(shù)據(jù)和文獻服務。技術組主要負責系統(tǒng)應用、系統(tǒng)基礎架構建設、網(wǎng)絡和軟件開發(fā)與運維。EBI的人員隊伍具有多元化和多學科特點,由來自78個國家的850多人構成,包括研究人員、編外人員、學生和訪問人員。2020年,EBI的全職工作人員有697名,其中在職員工618人,博士后42人,博士生37人。EBI的大部分經(jīng)費來自EMBL的20多個成員國的政府公共經(jīng)費,還有部分來自國際合作資助經(jīng)費,國際合作的主要資助者包括英國研究與創(chuàng)新署(UK Research and Innovation)、英國的生物技術和生物科學研究委員會(Biotechnology and Biological Sciences Research Council)、歐盟委員會(European Commission)、美國國立衛(wèi)生研究院(National Institutes of Health,NIH)和惠康信托基金會(Wellcome Trust)等。在支撐經(jīng)費上,EBI 2017—2020年的年支出經(jīng)費在8 000萬歐元左右,2020年支出8270萬歐元,其中數(shù)據(jù)資源建設和服務占55%,基礎維護、技術開發(fā)和IT基礎設施支撐占15%,研究占14%,培訓占6%,管理和房地產(chǎn)成本占10%。
NCBI和EBI作為世界上較大的生物醫(yī)學科學數(shù)據(jù)中心,其工作分別在NLM和EMBL領導下開展,并高度對齊NLM和EMBL的最新戰(zhàn)略計劃。NLM在2018年發(fā)布《生物醫(yī)學發(fā)現(xiàn)和數(shù)據(jù)驅(qū)動健康平臺:2017—2027年國家醫(yī)學圖書館戰(zhàn)略計劃》(A Platform for Biomedical Discovery and Data-Powered Health National Library of Medicine Strategic Plan 2017-2027),EMBL在2018年發(fā)布《EMBL計劃2017—2021:數(shù)字生物學》(EMBL Programme 2017-2021:Digital Biology),在2022年發(fā)布《EMBL計劃2022—2026:從分子到生態(tài)系統(tǒng)》(EMBL Programme 2022-2026:Molecules to Ecosystems),二者戰(zhàn)略的核心主題均將開放科學、基礎設施能力的提高、數(shù)據(jù)科學研究與推動、服務培訓增強、數(shù)據(jù)應用創(chuàng)新與轉(zhuǎn)化等作為重要目標。NCBI和EBI面向戰(zhàn)略目標承擔重要使命,包括數(shù)據(jù)資源建設維護,關鍵技術工具研發(fā),面向世界范圍的專業(yè)知識服務、教育和培訓等。
2.1.1 重視開展高質(zhì)量專業(yè)數(shù)據(jù)庫建設
NCBI和EBI均包括多來源數(shù)據(jù),主要分為三類:①科研人員提交的數(shù)據(jù)資源,如SRA、PRIDE等收集的研究人員提交的數(shù)據(jù);②與數(shù)據(jù)供應商和研究聯(lián)盟國家合作的數(shù)據(jù)資源,例如Genbank和ENA均是國際核苷酸序列數(shù)據(jù)庫協(xié)作體(International Nucleotide Sequence Database Collaboration,INSDC)的一部分,通過遵守公共數(shù)據(jù)交換標準與DDBJ進行結構統(tǒng)一的核苷酸序列數(shù)據(jù)交換共享;EBI與人工智能公司DeepMind合作建設的AlphaFold蛋白質(zhì)結構數(shù)據(jù)庫;③由數(shù)據(jù)中心專業(yè)人員加工審編的數(shù)據(jù)資源,如PubChem BioAssay、UniGene等。NCBI和EBI的數(shù)據(jù)資源建設模式以專業(yè)數(shù)據(jù)庫建設為主,重視資源的廣度和深度建設。廣度建設包括:高通量測序原始數(shù)據(jù)的長期收集,領域文獻資源建設,涵蓋基因表達、基因組、蛋白質(zhì)、結構、系統(tǒng)、化學物質(zhì)、臨床等多類主題專業(yè)數(shù)據(jù)庫建設,關聯(lián)不同類型數(shù)據(jù)的綜合性數(shù)據(jù)庫建設,以及本體詞表等知識組織系統(tǒng)建設。數(shù)據(jù)資源深度建設主要結合不同主題特點收集數(shù)據(jù)或在已有原始數(shù)據(jù)基礎上,通過生物醫(yī)學專業(yè)人員或權威領域?qū)<业淖⑨?、審編、集成和二次分析加工等形成具有專門用途的高質(zhì)量特色主題數(shù)據(jù)庫。同時,數(shù)據(jù)庫建設結合Web瀏覽器、圖形可視化分析、人機交互等技術,提升數(shù)據(jù)的展示效果、可理解性和易用性。這些數(shù)據(jù)庫資源由大量高水平計算機和生物醫(yī)學專家團隊進行長期建設、更新維護和優(yōu)化升級,數(shù)據(jù)具有較高質(zhì)量和時效性。
2.1.2 數(shù)據(jù)庫資源規(guī)模大且數(shù)量增長迅速
NCBI和EBI匯集的各類型數(shù)據(jù)增長迅速,每年會在Nucleic Acids Research上發(fā)布其資源建設進展。根據(jù)NCBI在Nucleic Acids Research上發(fā)布的2021年的35個數(shù)據(jù)庫的列表,本文匯總整理了這些數(shù)據(jù)庫在2018—2021年的資源數(shù)量年均增長率情況[4-7]。如圖1所示,68%的數(shù)據(jù)庫的數(shù)據(jù)量呈逐年遞增趨勢,31%的數(shù)據(jù)庫的年均增長率超過15%,其中Assembly的年增均長率達到77.28%,SRA、Identical Protein Groups等的年均增長率均在30%以上。2021年底SRA的數(shù)據(jù)規(guī)模已超過36PB。
圖1 NCBI數(shù)據(jù)資源年均增長率(2018—2021年)
EBI的2020年度報告顯示其人類基因組和表型組數(shù)據(jù)存儲量增長超過50%,其中,包括電子顯微鏡數(shù)據(jù)在內(nèi)的成像數(shù)據(jù)存儲量超過之前所有年度存儲量的120%,而電子冷凍顯微鏡數(shù)據(jù)增長164%[8]。截至2021年EBI網(wǎng)站發(fā)布數(shù)據(jù)庫資源數(shù)量為43個,其存儲數(shù)據(jù)規(guī)模也已達390PB。
2.1.3 制定多類數(shù)據(jù)標準規(guī)范數(shù)據(jù)共享
NCBI和EBI在資源建設方面均非常重視數(shù)據(jù)標準建設和應用。本文通過FairSharing網(wǎng)站檢索創(chuàng)建機構包含NCBI和EBI,并且狀態(tài)為“Ready”(標識已發(fā)布應用)的數(shù)據(jù)標準,匯總分析兩個數(shù)據(jù)中心建立的數(shù)據(jù)標準現(xiàn)狀[9]。經(jīng)過去重,共檢索得到45個標準。其中,NCBI有10項標準(如A Gold Path format、GenBank Sequence Format、Cell Behavior Ontology等),EBI有37項標準,有2個格式交換標準是由NCBI和EBI共同參與創(chuàng)建的(INSD Sequence Record XML和DDBJ/ENA/GenBank Feature Table,用于INSDC聯(lián)盟進行核苷酸數(shù)據(jù)交換共享)。其他標準類型有20項數(shù)據(jù)格式標準(如EBI BioSamples JSON Format、ENA Sequence Flat File Format、OmicsDI XML Format等)、14項術語標準(如Systems Biology Ontology、Human Phenotype Ontology等)、8項數(shù)據(jù)集元數(shù)據(jù)標準(如FAANG Metadata Experiment Specification Standard和Minimum Information about Plant Phenotyping Exper iment等)和3項數(shù)據(jù)分類標準(如Uni Prot Taxonomy等)。通過綜合分析,本文發(fā)現(xiàn)兩個數(shù)據(jù)中心的標準建設工作聚焦在數(shù)據(jù)的規(guī)范化表示和描述方面,重點解決多種類型的生物醫(yī)學數(shù)據(jù)在提交、存儲、下載、計算和交換中的文件格式問題。其次是語義表達差異性問題和數(shù)據(jù)描述的結構化與規(guī)范性問題。NCBI和EBI也積極開展標準的應用和服務。它們在用戶數(shù)據(jù)提交時要求使用標準數(shù)據(jù)格式,如核酸序列存儲使用FASTA格式、存儲核酸序列和測序質(zhì)量信息用FASTQ格式、存儲序列比對結果用SAM/BAM格式、存儲變異文件用VCF格式、保存遺傳特征描述用GFF3格式等。NCBI提供MeSH主題詞表和NCBI Taxonomy的瀏覽查詢服務。EBI不僅提供多種本體資源并開展統(tǒng)一本體查詢服務,創(chuàng)建的Ontology Lookup Service網(wǎng)站收錄了近280個本體、700萬條術語和50萬個實例[10]。同時,EBI也參與了全球基因組學與健康聯(lián)盟(Global Alliance for Genomics and Health),積極推動基因組研究和醫(yī)療健康數(shù)據(jù)共享的國際政策和標準,提高其對臨床研究社區(qū)不斷變化的需求的服務水平。NCBI和EBI創(chuàng)建和參與制定的多類標準也在領域中被廣泛實施和復用,開展了良好的應用實踐。
2.2.1 擴展云基礎設施提升存儲和服務
生物醫(yī)學數(shù)據(jù)的指數(shù)級增長和數(shù)據(jù)密集型科學研究需求的日益迫切,NCBI和EBI積極開展EB級海量數(shù)據(jù)處理、存儲、計算和服務的解決方案探索。2019年,EBI獲得英國研究與創(chuàng)新署的4 500萬英鎊的投資,用于提高其基礎設施建設能力。2020年開始,NCBI和EBI在加強基礎設施建設的同時積極探索應用云環(huán)境加速促進其研究創(chuàng)新和滿足全球化用戶服務需求。早在2013年,歐洲就組建了ELIXIR(http://www.elixireurope.org/)負責協(xié)調(diào)歐洲的數(shù)據(jù)、工具、云存儲、超算及培訓等資源以建立一個可持續(xù)的泛歐生物信息研究基礎設施。EBI是ELIXIR項目重要節(jié)點,已建有龐大的技術基礎設施,包括虛擬化環(huán)境、高性能計算集群和近440PB的存儲資源。為了滿足快速增長的運營需求,EBI先后與Google Cloud和Amazon Web Services(AWS)建立戰(zhàn)略合作,實施混合云及多云戰(zhàn)略。公有云主要使用Google Cloud和Amazon Web Services,私有云使用Embassy Cloud和歐洲開放科學云(EOSC)。依托私有云開展大規(guī)模的國際合作,如泛癌癥全基因組分析和Tara Oceans等;依托公有云,EBI已開展Human CellAtlas、Idenitifers.org、Ensembl鏡像等項目,為研究人員提供各類分析計算工具和服務。
NCBI基于NLM建立的發(fā)現(xiàn)、實驗和可持續(xù)性科學技術研究基礎設施(STEARDS)計劃,先后開展了與Google Cloud、Amazon Web Services和Windows Azure的合作,利用云平臺進行SRA、COVID-19基因組序列數(shù)據(jù)集、BLAST數(shù)據(jù)庫和PMC等多個數(shù)據(jù)庫的數(shù)據(jù)托管和維護,并利用云環(huán)境支撐大規(guī)模數(shù)據(jù)的傳輸、分析、計算和科研協(xié)作。
2.2.2 利用高速工具提高數(shù)據(jù)獲取效率
由于生物醫(yī)學數(shù)據(jù)規(guī)模大且用戶利用率高,NCBI和EBI研發(fā)以及應用能夠支持高性能的大規(guī)模數(shù)據(jù)上傳、下載和集成檢索工具以提高數(shù)據(jù)獲取效率。兩個數(shù)據(jù)中心均提供IBM Aspera軟件作為大數(shù)據(jù)傳輸?shù)慕鉀Q方案。Aspera基于IBM FASP傳輸協(xié)議,傳輸速度遠高于FTP,內(nèi)置AES-128加密算法,支持傳輸加密、落地解密和斷點續(xù)傳,并提供瀏覽器插件、客戶端和命令行等多種使用方式。除Aspera以外,針對不同類型的資源,NCBI還提供NCBI E-Utilities、SRA Toolkit、GEO2R等工具,以及提供API接口等服務方式支持大體量特定類型數(shù)據(jù)資源的下載。
在數(shù)據(jù)集成檢索方面,NCBI和EBI分別創(chuàng)建了高性能數(shù)據(jù)庫集成檢索系統(tǒng)NCBI Entrez和EBI Search,并提供統(tǒng)一檢索結果展示和分類篩選頁面。NCBI Entrez支持NCBI六大類38種數(shù)據(jù)庫資源檢索。用戶可以通過瀏覽器訪問NCBI Entrez,也可以使用E-Utilities通過程序接口和參數(shù)設置進行按需數(shù)據(jù)調(diào)用[11]。EBI Search與EBI的數(shù)據(jù)資源同步,57.14版本已索引了近48億個條目。它底層基于Apache Lucene建設,利用Carrot2實現(xiàn)查詢結果的優(yōu)化[12-13]。EBI Search提供Web瀏覽器和RESTful接口訪問[14]。NCBI Entrez和EBI Search最大的共性特點在于均能夠支持數(shù)據(jù)庫記錄內(nèi)和數(shù)據(jù)庫記錄之間的廣泛鏈接和交叉引用,可以幫助用戶發(fā)現(xiàn)數(shù)據(jù)關聯(lián)和擴展應用。如NCBI Entrez包含兩種數(shù)據(jù)關聯(lián):一種是通過相似度等計算獲得的,如基于BLAST相似性搜索發(fā)現(xiàn)相關序列;另一種是記錄數(shù)據(jù)本身存在的關系或跨庫資源類型間的關聯(lián),如PubMed的論文摘要與PMC全文的關聯(lián),蛋白質(zhì)序列與其編碼DNA序列或發(fā)表它的論文之間的關聯(lián)等[15]。
2.2.3 研發(fā)多類數(shù)據(jù)處理分析工具軟件
結合不同類型生物醫(yī)學數(shù)據(jù)的數(shù)量、特點和用途等,NCBI和EBI研究開發(fā)了大量文獻查詢注釋(PubMed Clinical Queries、Annotation Platform和Europe PMC Grant Finder等),蛋白質(zhì)、核酸和DNA序列比對,包括序列相似性搜索(BLAST、Simple Phylogeny和FASTA等)、多序列比對(Kalign、T-COFFEE、CLUSTALW2和COBALT等)、雙序列比對(Clustal Omega和PSIBLAST等),分子進化和系統(tǒng)發(fā)育樹構建(CDTree和Lifemap等),結構分析與可視化顯示(Cn3D、MapViewer、Nightingale和Protvista等)相關工具。門戶展示的工具數(shù)近50個,滿足不同用戶的數(shù)據(jù)處理、分析和挖掘需求。NCBI的研究小組也在不斷優(yōu)化數(shù)據(jù)庫搜索、序列比對、基因組分析、圖像注釋、蛋白質(zhì)結構和功能預測等方面的算法和工具。為提高共享應用,數(shù)據(jù)中心網(wǎng)站均提供多種工具服務形式,包括云服務、網(wǎng)絡版、工具包下載、開發(fā)接口等,允許用戶通過Web、RESTful API和命令行等創(chuàng)建自定義數(shù)據(jù)集,并支持結構化文件下載。同時,其也為具有開發(fā)能力的用戶提供開發(fā)接口、工具包或開源代碼。此外,兩個數(shù)據(jù)中心均在GitHub.com發(fā)布了部分數(shù)據(jù)資源和工具代碼,提供用戶開放下載和獲取。
2.3.1 保障數(shù)據(jù)開放共享和安全利用
NCBI和EBI的生物醫(yī)學數(shù)據(jù)資源和工具在開放獲取政策支持下,開放和開源程度極高,研究人員可訪問大部分數(shù)據(jù),并從網(wǎng)站公開獲取和下載。開放的數(shù)據(jù)資源及工具多基于CC-By、CC0、Apache 2.0等開放協(xié)議。研究人員提交到NCBI的人類基因組數(shù)據(jù)必須遵循《美國國立衛(wèi)生研究院的基因數(shù)據(jù)共享政策》(Genomic Data Sharing Policy),依照《美國聯(lián)邦受試者保護通則》(Federal Policy for the Protection of Human Subjects)和《美國健康保險可攜性和責任法案》(Health Insurance Portability and Accountability Act)隱私條例標準進行識別化處理。對于涉及受試者個人信息和人類遺傳資源的數(shù)據(jù),NCBI嚴格實施受控訪問。例如,在數(shù)據(jù)提交到GEO、SRA等數(shù)據(jù)庫之前,研究人員需要在原始數(shù)據(jù)清洗和質(zhì)控前完成dbGap注冊。dbGap是提供遺傳關聯(lián)研究、甲基化研究和其他高風險個體水平數(shù)據(jù)的數(shù)據(jù)庫,其僅供研究目的使用,數(shù)據(jù)的訪問需要通過數(shù)據(jù)訪問委員會(Data Access Committee,DAC)審核和授權。
而EBI的開放數(shù)據(jù)遵循EMBL的開放獲取政策,促進數(shù)據(jù)的廣泛和免費獲取。同樣,其也對潛在可識別的人類基因數(shù)據(jù)訪問進行嚴格控制,如存儲研究項目產(chǎn)生的所有類型的個人可識別遺傳和表型數(shù)據(jù)的歐洲基因組表型數(shù)據(jù)庫(EGA)有7 713個數(shù)據(jù)集,數(shù)據(jù)使用僅面向特定研究用途或研究人員發(fā)布。這些數(shù)據(jù)集中包含25個受限數(shù)據(jù)集,使用需要向DAC申請并提交研究方案,審批授權后方能訪問。
2.3.2 重視數(shù)據(jù)領域?qū)I(yè)知識技能培訓
兩大數(shù)據(jù)中心非常重視面向各層次的科學研究者(包括領域科學家、臨床醫(yī)生、技術開發(fā)人員和學生等)提供數(shù)據(jù)和工具專業(yè)知識技能的指導和培訓,提供較為全面的數(shù)據(jù)提交、下載、工具安裝、使用流程和方法說明。如由于數(shù)據(jù)資源庫種類過于繁雜,NCBI和EBI的數(shù)據(jù)匯交門戶均提供數(shù)據(jù)提交引導,通過分步選擇引導用戶明確需求找到適合的存儲數(shù)據(jù)庫,降低使用門檻。此外,專業(yè)人員教育和用戶培育也是兩個數(shù)據(jù)中心的重要工作,NCBI創(chuàng)建了各種在線課程、線上和線下研討會,提供視頻、培訓材料和文檔,并充分利用多渠道和多媒體開展資源和工具的宣傳、動態(tài)報道和與用戶交互,包括YouTube、博客、社交媒體網(wǎng)站(FaceBook、Twitter和LinkedIn)、RSS、郵件和NCBI Insight網(wǎng)站等。NCBI不定期舉辦“編程馬拉松”活動,鼓勵不同背景的研究人員、開發(fā)人員和數(shù)據(jù)科學家、學生和博士后等組建團隊,幫助參與者深入了解數(shù)據(jù)管理、學習編碼的最佳實踐和創(chuàng)新生物醫(yī)學數(shù)據(jù)計算分析模型算法及工具。EBI也積極開展多種生物醫(yī)學專業(yè)知識培訓,包括現(xiàn)場培訓、網(wǎng)絡研討會、虛擬課程和在線教程集合等,培訓方式包括實時課程、點播課程和培訓師支持。實時課程主要提供生物分析的特定領域培訓,網(wǎng)絡研討會計劃和在線教程側重于EBI資源和工具的介紹和利用。培訓通過邀請EMBL及領域或社區(qū)的專家以指導實踐練習、開展小組討論和問題交流為主。2020年,已有54.5萬個獨立IP用戶訪問了EBI的相關培訓頁面,通過多種數(shù)據(jù)中心提供的培訓方式提高了生物醫(yī)學數(shù)據(jù)素養(yǎng)水平[16]。
2.3.3 開展研究合作積極推動數(shù)據(jù)增值
NCBI和EBI擁有高水平的研究組,積極開展深入的生物醫(yī)學信息學和數(shù)據(jù)科學研究及合作。本文通過對PumMed數(shù)據(jù)庫進行檢索,統(tǒng)計得到:NCBI在1990—2021年發(fā)表論文3 779篇,EBI在1994—2021年發(fā)表論文3 166篇。這些論文主要發(fā)表在Nucleic Acids Research、Genome Biology、Nature等具有影響力的期刊上,主要是報道關于序列和結構比對算法,基因組分析可視化工具,基于深度學習的生物圖像解釋,基礎生物學突破,以及其他具有廣泛性與重要性的創(chuàng)新算法、方法、資源和工具的相關研究和實踐[17-19]。兩大數(shù)據(jù)中心始終保持在國際生物醫(yī)學信息學研究和應用領域的先進性和影響力。由于其開展了領域數(shù)據(jù)管理和共享的良好實踐,它們也成為Springer Nature、Wiley、Elsevier等知名出版商的數(shù)據(jù)政策中所推薦的可信賴的科學數(shù)據(jù)倉儲,為很多重要的學術論文發(fā)表和傳播提供了可靠的數(shù)據(jù)來源、長期的數(shù)據(jù)存儲和高性能計算分析等重要支持,獲得用戶的長期信賴。同時,NCBI和EBI也積極和多方開展研究合作,參與大型科研項目。NCBI的研究人員與NIH內(nèi)的多個研究所以及眾多學術界或政府開辦的研究實驗室保持著持續(xù)的合作。EBI的研究人員參與了人體細胞圖譜(Human Cell Atlas,HCA)、OpenTargets、ICGC-ARGO、泛癌全基因組分析(Pan-Cancer Analysis of Whole Genomes)等大型研究計劃。在與非學術型機構合作方面,EBI面向全球“20強”制藥公司及農(nóng)業(yè)食品、營養(yǎng)和醫(yī)療保健公司提供研究計劃及專業(yè)知識交流平臺,組織季度戰(zhàn)略會議和專家研討會等活動,并為中小企業(yè)發(fā)展和技術產(chǎn)品轉(zhuǎn)化提供必要的數(shù)據(jù)基礎設施、數(shù)據(jù)和服務,幫助其加速產(chǎn)品研發(fā)與創(chuàng)新。
隨著大數(shù)據(jù)、物聯(lián)網(wǎng)和人工智能等新技術在生物醫(yī)學研究中的應用,我國生物醫(yī)學領域數(shù)據(jù)規(guī)模驟增,成為全球重要的生物醫(yī)學數(shù)據(jù)生產(chǎn)國,具有豐富的民族遺傳資源、家系遺傳資源、典型疾病臨床病例資源等重要數(shù)據(jù)資源。我國雖是數(shù)據(jù)生產(chǎn)大國,但數(shù)據(jù)資源利用水平低,生物醫(yī)學數(shù)據(jù)資源建設和開放共享服務存在基礎設施支持不足、高質(zhì)量數(shù)據(jù)規(guī)模不夠、數(shù)據(jù)標準化程度低、價值挖掘服務能力不足等系列問題。本文通過系統(tǒng)分析NCBI和EBI在資源建設、技術工具和共享服務等方面的建設和發(fā)展經(jīng)驗,為我國開展生物醫(yī)學科學數(shù)據(jù)中心建設提出了啟示和建議。
(1)數(shù)據(jù)戰(zhàn)略下的協(xié)同發(fā)展。NCBI和EBI在NLM和EMBL整體戰(zhàn)略計劃的推動下,開展數(shù)據(jù)中心建設,持續(xù)保持其在全球生物醫(yī)學領域資源建設、數(shù)據(jù)管理、計算分析、數(shù)據(jù)科學教育培訓等方面的領先優(yōu)勢。兩個中心定位清晰,并與NLM及EMBL的其他部門緊密合作、優(yōu)勢互補、協(xié)同發(fā)展。我國生物醫(yī)學科學數(shù)據(jù)中心也應積極結合國家科學數(shù)據(jù)戰(zhàn)略,與領域/行業(yè)伙伴合作,積極補短板、強弱項,全面提升核心競爭力。
(2)提供穩(wěn)定資助經(jīng)費投入。NCBI和EBI均具有持續(xù)穩(wěn)定的大規(guī)模經(jīng)費投入,特別是政府經(jīng)費。相較國外,我國數(shù)據(jù)中心建設起步晚,資助經(jīng)費來源單一,不足以支撐PB級數(shù)據(jù)快速增長所帶來的基礎設施建設、數(shù)據(jù)存儲、長期保存、平臺工具研發(fā)維護、用戶教育培訓、人員隊伍建設和管理等巨額成本,亟需國家加大對數(shù)據(jù)中心經(jīng)費投入和拓展多種資助渠道。
(3)建立穩(wěn)定專業(yè)人才隊伍。雖然NCBI全職員工數(shù)量少于EBI,但是NCBI與NLM的研究、資源和服務結合緊密,共同開展MeSH、PubMed等多類資源和衍生工具的建設以及服務的開展。但我國數(shù)據(jù)中心的全職員工數(shù)量還遠不足此。因此,我國生物醫(yī)學科學數(shù)據(jù)中心亟需擴大人員隊伍規(guī)模、增強團隊多樣性、提高團隊研究水平和待遇水平。
(1)加強高性能基礎設施建設。NCBI和EBI均有政府支持的大規(guī)模經(jīng)費用于提高中心的計算、存儲等基礎設施建設能力。自2019年我國科學數(shù)據(jù)匯交工作啟動以來,數(shù)據(jù)PB級增長,對已有基礎設施帶來了嚴峻挑戰(zhàn)。我國生物醫(yī)學科學數(shù)據(jù)中心需要加強構建強大且可訪問的數(shù)據(jù)基礎設施,這對于未來幾十年的生物醫(yī)學科學研究發(fā)現(xiàn)至關重要。
(2)探索可靠的云平臺解決方案。通過NCBI和EBI在私有云和公有云方面的探索,讓我們看到了云平臺在生物醫(yī)學數(shù)據(jù)科學研究和共享服務中發(fā)揮的重要作用。其不僅可以支持用戶根據(jù)自身需要訪問、分析、計算大規(guī)模生物醫(yī)學數(shù)據(jù),也可以降低數(shù)據(jù)中心對基礎設施的管理和維護成本。我國生物醫(yī)學科學數(shù)據(jù)中心也應積極探索私有云、公有云及混合云的數(shù)據(jù)存儲和服務策略,但還需要綜合考慮解決好數(shù)據(jù)的流轉(zhuǎn)、存儲和計算安全和監(jiān)管問題。
(1)擴展多種數(shù)據(jù)資源渠道。我國數(shù)據(jù)中心應深化《科學數(shù)據(jù)管理辦法》貫徹落地,加強政府預算支持的科技項目的科學數(shù)據(jù)匯交管理。同時,擴展與生物醫(yī)學領域研究機構及醫(yī)療行業(yè)的交流合作,通過資助合作、國際合作、協(xié)議合作等不同方式拓展數(shù)據(jù)資源創(chuàng)建渠道。數(shù)據(jù)中心應提高研究和服務水平,不斷識別和發(fā)現(xiàn)新類型數(shù)據(jù)資源和開發(fā)新的服務方式。
(2)優(yōu)化數(shù)據(jù)資源內(nèi)容質(zhì)量。結合生物醫(yī)學領域數(shù)據(jù)標準和知識組織體系,加強對原始數(shù)據(jù)的歸類、重組、注釋、關聯(lián)和整合,做好數(shù)據(jù)質(zhì)量審核和控制。面向不同使用需求,研發(fā)多類主題數(shù)據(jù)庫、參考數(shù)據(jù)庫、整合數(shù)據(jù)庫及創(chuàng)新型數(shù)據(jù)庫和知識庫。
(3)增強數(shù)據(jù)資源的FAIR化。對齊國際數(shù)據(jù)中心發(fā)展趨勢,遵循FAIR原則,基于唯一標識技術、語義技術、Web瀏覽器技術、人工智能和可視化等技術,增強數(shù)據(jù)的可理解性、可用性、易用性和互操作性。
(1)突破大規(guī)模數(shù)據(jù)處理瓶頸。我國生物醫(yī)學科學數(shù)據(jù)中心迫切需要構建和使用支持大規(guī)模數(shù)據(jù)上傳、下載、處理、壓縮、存儲、檢索、質(zhì)控和長期保存等系列工具,解決數(shù)據(jù)中心發(fā)展中面臨的大規(guī)模數(shù)據(jù)處理和管理性能差、效率低的瓶頸問題。數(shù)據(jù)中心應通過利用人工智能、區(qū)塊鏈、聯(lián)邦學習、多方安全計算等關鍵技術,面向日益增長的跨組織/機構大數(shù)據(jù)協(xié)同分析和安全計算需求,研發(fā)高性能、流程化的協(xié)同分析平臺以及數(shù)據(jù)挖掘模型和工具,支持數(shù)據(jù)驅(qū)動建模、模型驅(qū)動數(shù)據(jù)分析,實現(xiàn)生物醫(yī)學數(shù)據(jù)的分析增值。通過平臺和工具的建設,提高用戶的數(shù)據(jù)挖掘分析效率,并保持科研過程的透明性和結果的可復制性,最終實現(xiàn)生物醫(yī)學大數(shù)據(jù)的安全共享和跨組織協(xié)同分析的目標。
(2)研發(fā)自主可控的技術工具。NCBI和EBI研發(fā)了大量生物醫(yī)學研究所必須的數(shù)據(jù)資源處理、標注、比對、分析、挖掘和預測等關鍵技術工具。雖然目前這些資源和工具大多數(shù)是向全球開放和開源獲取的,但面對國外數(shù)據(jù)資源和技術壟斷、停止更新或服務提供等情況,我國生物醫(yī)學科學數(shù)據(jù)中心應當積極開展自主可控的關鍵技術工具研發(fā),構建安全可靠的國產(chǎn)替代型工具,努力開展核心技術源頭創(chuàng)新,提高數(shù)據(jù)中心的科技創(chuàng)新自強自立水平。
(1)加快實用標準建設落地。數(shù)據(jù)標準對開展生物醫(yī)學數(shù)據(jù)建設、管理、共享和利用起到重要指引和規(guī)范作用。NCBI和EBI積極主導了大量在生物醫(yī)學領域具有重要影響的基因組和蛋白質(zhì)組學等相關優(yōu)質(zhì)數(shù)據(jù)集的描述、數(shù)據(jù)表示和數(shù)據(jù)互操作等標準規(guī)范制定,開展了最佳實踐工作。我國的生物醫(yī)學科學數(shù)據(jù)中心應在結合領域發(fā)展和標準建設現(xiàn)狀的基礎上,優(yōu)化完善已有生物醫(yī)學數(shù)據(jù)標準規(guī)范體系,重點針對數(shù)據(jù)質(zhì)控、數(shù)據(jù)分級、數(shù)據(jù)共享等方面,分階段、有步驟地加強核心標準的研制,重點制定專業(yè)領域空白和缺失的數(shù)據(jù)標準,持續(xù)開展已有數(shù)據(jù)標準的修訂和完善。
(2)參與國際數(shù)據(jù)標準制定。應積極參與國際生物醫(yī)學科學數(shù)據(jù)標準規(guī)范的制定,一方面,重視國際標準的采納、本地化和引用;另一方面,加快國家標準與國際標準的接軌,提高我國生物醫(yī)學科學數(shù)據(jù)標準制定水平,提升我國國際數(shù)據(jù)標準制定的話語權。此外,應重點結合生物醫(yī)學科學數(shù)據(jù)匯交、質(zhì)控、整合、存儲、交換和共享實踐開展標準規(guī)范宣傳、推廣和落地監(jiān)管,促進標準規(guī)范切實應用和發(fā)揮有效作用,讓生物醫(yī)學科學數(shù)據(jù)中心建設和發(fā)展有標可依,行之有效。
(1)加強多類型用戶培訓。NCBI和EBI已從用戶社區(qū)建設和交互反饋中獲得重要改進和影響力,我國生物醫(yī)學科學數(shù)據(jù)中心也應積極面向?qū)W生、研究人員、數(shù)據(jù)管理人員、企業(yè)用戶等不同類型群體,開展生物醫(yī)學科學數(shù)據(jù)管理和數(shù)據(jù)科學基礎及專業(yè)知識培訓,為用戶提供生物醫(yī)學科學數(shù)據(jù)管理計劃、資源查找、分析挖掘、共享利用等方面的咨詢和指導。
(2)有效提升用戶參與度。新型冠狀病毒肺炎大流行極大地促進了線上活動,數(shù)據(jù)中心應充分借助在線視頻、在線會議、微博、微信、QQ等多媒體工具,并通過舉辦線上、線下相結合的培訓課程、數(shù)據(jù)競賽、校外實習等使用戶了解和參與生物醫(yī)學科學數(shù)據(jù)管理最佳實踐。
(3)促進數(shù)據(jù)和研究轉(zhuǎn)化增值。數(shù)據(jù)中心應積極利用已有研究成果、數(shù)據(jù)資源以及關鍵技術工具,加強與領域?qū)<?、研究機構和生物醫(yī)療機構及企業(yè)的合作,參與國際項目合作。從豐富的研究和合作中,一方面積極獲取學術型研究需求和經(jīng)驗,深化生物醫(yī)領域數(shù)據(jù)管理研究;另一方面積極獲取非學術型的應用需求,推動生物醫(yī)學科學數(shù)據(jù)驅(qū)動的應用創(chuàng)新和成果轉(zhuǎn)化。
2021年聯(lián)合國教科文組織正式發(fā)布《開放科學建議書》(UNESCO Recommendation on Open Science),標志著開放科學進入全球共識新階段[20]。NCBI和EBI作為生物醫(yī)學領域數(shù)據(jù)開放共享典型代表的數(shù)據(jù)中心已取得了較為顯著的成效和影響力,本文系統(tǒng)梳理了其在數(shù)據(jù)資源體系建設、關鍵技術工具研發(fā)和多元數(shù)據(jù)共享服務等方面的進展,并基于此,探討對我國生物醫(yī)學科學數(shù)據(jù)中心發(fā)展的啟示和建議,為我國生物醫(yī)學領域相關數(shù)據(jù)中心在“十四五”期間一步深化數(shù)據(jù)中心資源和服務建設以及長期發(fā)展提供借鑒思路。本文研究中也還存在不足,由于兩家數(shù)據(jù)中心建設成果豐富,因筆者研究精力和學科所限,在內(nèi)容揭示的全面性和分析的深入性方面還存在局限,將在后續(xù)研究工作中持續(xù)完善。