關鍵詞:人類基因組數(shù)據(jù),標準體系,數(shù)據(jù)管理,共享利用,標準化
DOI編碼:10.3969/j.issn.1002-5944.2024.013.006
0 引言
隨著高通量測序技術和信息技術的發(fā)展,基因檢測成本降低、時間縮短,基因組數(shù)據(jù)正在以PB(1PB=1 024 TB)到EB(1 EB=1 024 PB)的數(shù)量級累進,而目前全球每年產(chǎn)生的基因組學數(shù)據(jù)已接近EB級別[1]。由此,人類進入基因大數(shù)據(jù)時代,尤其是在精準醫(yī)療研究領域,如何通過人工智能、大數(shù)據(jù)等技術推進數(shù)據(jù)的管理、匯聚、分析、流通、共享,釋放和挖掘數(shù)據(jù)價值,以及數(shù)據(jù)安全和隱私保護等問題,實現(xiàn)基因組數(shù)據(jù)的管理和安全利用,成為目前面臨的挑戰(zhàn)。
標準化作為經(jīng)濟和社會發(fā)展的重要基礎和支撐,開展人類基因組數(shù)據(jù)標準化研究是將標準化手段引入基因組數(shù)據(jù)的全生命周期管理中,運用標準化手段厘清各個環(huán)節(jié)的問題以及數(shù)據(jù)質(zhì)量的作用和影響,規(guī)范數(shù)據(jù)處理過程,提高人類基因組數(shù)據(jù)的準確性、可用性和安全性,對推動人類基因組數(shù)據(jù)相關產(chǎn)業(yè)標準化、規(guī)范化發(fā)展具有重要意義。
1 人類基因組數(shù)據(jù)相關政策法規(guī)
在生物產(chǎn)業(yè)方面,《“十四五”生物經(jīng)濟發(fā)展規(guī)劃》提出推動基因檢測、生物遺傳等先進技術與疾病預防深度融合,開展重大疾病早期篩查,為個體化治療提供精準解決方案和決策支持[2];《中華人民共和國生物安全法》提出制定和完善生物安全領域相關標準的要求。
在數(shù)據(jù)管理方面,《中華人民共和國人類遺傳資源管理條例》第十三條提出加快標準化、規(guī)范化的人類遺傳資源保藏基礎平臺和人類遺傳資源大數(shù)據(jù)建設,為開展相關研究開發(fā)活動提供支撐;《科學數(shù)據(jù)管理辦法》規(guī)定了科學數(shù)據(jù)采集、匯交與保存,共享與利用,保密與安全等方面的要求。
在數(shù)據(jù)安全方面,《中華人民共和國數(shù)據(jù)安全法》則鼓勵數(shù)據(jù)的開發(fā)利用和流動,要求行業(yè)組織制定數(shù)據(jù)安全行為規(guī)范和團體標準,積極參與數(shù)據(jù)安全相關國際規(guī)則和標準的制定?!吨腥A人民共和國個人信息保護法》明確了生物信息屬于敏感個人信息的范疇,要求推進制定個人信息保護具體規(guī)則、標準的工作?!敦瀼貙嵤磭覙藴驶l(fā)展綱要〉行動計劃(2024—2025年)》中要求在集成電路、半導體材料、生物技術等關鍵領域強化關鍵技術領域標準攻關;加快研制物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新興技術與傳統(tǒng)產(chǎn)業(yè)融合相關標準,健全標準體系。
2 人類基因組數(shù)據(jù)應用面臨的問題
基因組數(shù)據(jù)包括生物體基因中的分子序列等信息,還包括每個基因的功能、控制基因表達的調(diào)節(jié)元素以及不同基因和蛋白質(zhì)之間的相互作用,與人類的遺傳、健康、表型和血緣關系密切相連[3],具有唯一性和穩(wěn)定性的特點。基因組數(shù)據(jù)已經(jīng)被廣泛應用于科學研究、醫(yī)療服務、法律與取證和直接面向消費者服務[3],例如全基因組關聯(lián)研究、藥物基因組學、個性化醫(yī)療、身份檢測、親子鑒定等。消費級服務機構通過對基因檢測結果的解讀也可提供營養(yǎng)健康服務、運動能力評估、遺傳缺陷分析、溯源分析等服務。
基因組數(shù)據(jù)不僅是個人敏感信息,還是人類遺傳資源信息,與國家安全相關,使得基因組數(shù)據(jù)的管理和使用更具挑戰(zhàn)性。隨著基因組數(shù)據(jù)的重要性及其呈指數(shù)級的數(shù)量積累,國內(nèi)外已經(jīng)在國家層面實現(xiàn)了對基因數(shù)據(jù)的統(tǒng)一管理。20世紀80年代,以美國、英國、日本為代表的發(fā)達國家已經(jīng)建立了基因數(shù)據(jù)存儲平臺,并逐漸形成了壟斷全球生物醫(yī)學大數(shù)據(jù)的國際三大生物信息數(shù)據(jù)中心[4]。我國于2016年依托中國科學院北京基因組研究所建立了國家基因組科學數(shù)據(jù)中心,旨在面向我國人口健康和社會可持續(xù)發(fā)展的重大戰(zhàn)略需求,建立生命與健康大數(shù)據(jù)匯交存儲、安全管理、開放共享與整合挖掘研究體系,研發(fā)大數(shù)據(jù)前沿交叉與轉(zhuǎn)化應用的新方法和新技術,建成支撐我國生命科學發(fā)展、國際領先的基因組科學數(shù)據(jù)中心[5]。
由于基因組數(shù)據(jù)的敏感特性,國家層面已實現(xiàn)對基因組科學數(shù)據(jù)的嚴格管理,然而,基因組數(shù)據(jù)應用領域廣泛、近年來消費性服務機構的激增,導致數(shù)據(jù)存儲分散、集成困難、數(shù)據(jù)處理質(zhì)量堪憂[6],缺乏有效的挖掘技術和安全保護技術,有效管理和共享利用基因組數(shù)據(jù)資源還面臨諸多挑戰(zhàn)[4]。
3 人類基因組數(shù)據(jù)標準化現(xiàn)狀
目前,人類基因組數(shù)據(jù)的研究涉及多個領域的標準化技術組織(見表1)。全國生化檢測標準化技術委員會(SAC/TC 387)、全國生物樣本標準化技術委員會(SAC/TC 559)制定的標準側重于生物技術方面,發(fā)布了國家標準8項,涵蓋生物樣本質(zhì)量、測序方法、基因芯片、數(shù)據(jù)格式等內(nèi)容;全國醫(yī)用臨床檢驗實驗室和體外診斷系統(tǒng)標準化技術委員會(SAC/TC 136)制定的國家標準《人全基因組高通量測序數(shù)據(jù)質(zhì)量評價方法》(20230028-T-464)正在征求意見。全國刑事技術標準化技術委員會(SAC/TC 179)聚焦法庭科學場景下基因組數(shù)據(jù)的應用,發(fā)布了4項國家標準、1項行業(yè)標準,涉及數(shù)據(jù)庫建設、數(shù)據(jù)結構、親子鑒定等內(nèi)容。
在信息技術方面,全國信息技術標準化技術委員會生物特征識別分技術委員會(SAC/TC 28/SC37)于2018年成立基因組識別工作組,發(fā)布DNA數(shù)據(jù)交換格式、高通量測序基因分型系統(tǒng)相關的國家標準2項;隨著我國對生物信息安全的重視以及法律法規(guī)的完善,全國信息安全標準化技術委員會(SAC/TC 260)發(fā)布基因識別數(shù)據(jù)安全要求、健康醫(yī)療數(shù)據(jù)安全國家標準2項。
從標準的數(shù)量及發(fā)布渠道來看,目前人類基因組數(shù)據(jù)相關的標準還是以國家標準為主。已發(fā)布的行業(yè)標準和地方標準數(shù)量較少,包括DB32 /T 4007—2021《腫瘤高通量基因測序技術規(guī)范》、DB4403/T 126—2020《基因身份證技術規(guī)程》、DB51/ T 2989 —2023《四川省健康醫(yī)療大數(shù)據(jù)應用指南》等。隨著行業(yè)應用對基因組數(shù)據(jù)管理、流通、共享需求的增加,近幾年團體標準數(shù)量呈上升趨勢。通過全國團體標準信息平臺進行查詢,目前已發(fā)布的相關團體標準如表2所示。
國際標準化組織ISO/TC 215健康信息學委員會于2019年成立了基因組信息學委員會分會(SC1),負責開展用于組學(包括但不限于基因組學、物質(zhì)體學和蛋白質(zhì)組學)的計算數(shù)據(jù)、信息和知識(包括相應的表示和元數(shù)據(jù))的標準化工作,以支持人類健康和臨床研究,已發(fā)布國際標準12項,在研2項,主要涵蓋標記語言、質(zhì)量控制、可靠性評估、臨床數(shù)據(jù)報告和共享等內(nèi)容。
目前,國內(nèi)外標準化技術組織已制定多項基因組數(shù)據(jù)的標準,從數(shù)據(jù)的采集到共享應用均有覆蓋。ISO標準重點關注臨床基因組數(shù)據(jù),我國在基因組數(shù)據(jù)的采集階段發(fā)布的標準較多,且近幾年側重數(shù)據(jù)的分析、應用、安全等方向。
總體而言,我國人類基因組數(shù)據(jù)標準化研究處于起步階段,盡管有些標準化技術組織制定了基因組數(shù)據(jù)的相關標準,但主要是基于各自的總體行業(yè)領域需求出發(fā)制定標準,缺乏針對基因組數(shù)據(jù)與信息技術融合的標準。隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等新一代信息技術在基因組數(shù)據(jù)應用領域的持續(xù)深耕,基因組數(shù)據(jù)具有了“大數(shù)據(jù)”的特征,體量大、匯總雜、分析難,基因組產(chǎn)品、服務層出不窮,亟需基因組數(shù)據(jù)標準體系的宏觀認識和頂層設計,為各個重點領域建設提供指導和建議。
4 人類基因組數(shù)據(jù)標準體系構建
4.1 總體框架
圍繞人類基因組數(shù)據(jù)全生命周期活動過程,結合我國基因組數(shù)據(jù)管理和應用的業(yè)務需求,構建了人類基因組數(shù)據(jù)標準體系框架(見圖1),包括基礎標準、數(shù)據(jù)標準、數(shù)據(jù)技術標準、管理標準、安全標準和數(shù)據(jù)應用標準等研究內(nèi)容。
4.2 基礎標準
基礎標準定義了人類基因組數(shù)據(jù)標準的基礎性、通用性標準,為其他標準提供支持和總體指導,包括術語定義、分類分級、標準化指南標準。術語定義主要規(guī)范生物信息、信息技術等領域涉及的通用術語、專用術語等內(nèi)容;分類分級主要是明確人類基因組數(shù)據(jù)的類別和安全等級;標準化指南主要是指導如何構建和利用人類基因組數(shù)據(jù)標準的指導性文件,規(guī)定了人類基因組數(shù)據(jù)標準體系各項標準的應用領域、使用場景和方法。
4.3 數(shù)據(jù)標準
數(shù)據(jù)標準主要規(guī)定了人類基因組數(shù)據(jù)的描述規(guī)則和要求,服務數(shù)據(jù)的存儲、檢索和共享,包括元數(shù)據(jù)、數(shù)據(jù)代碼、數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量標準。元數(shù)據(jù)規(guī)定了人類基因組數(shù)據(jù)的描述方法,以提高不同平臺之間的語義互操作性;數(shù)據(jù)代碼規(guī)定了人類基因組數(shù)據(jù)的唯一標識符;數(shù)據(jù)格式規(guī)定了人類基因組數(shù)據(jù)的格式和結構;數(shù)據(jù)質(zhì)量規(guī)定了滿足人類基因組數(shù)據(jù)應用準確性、完整性、可用性的數(shù)據(jù)指標要求。
4.4 數(shù)據(jù)技術標準
數(shù)據(jù)技術標準包括數(shù)據(jù)采集、數(shù)據(jù)存儲、變異分析、數(shù)據(jù)處理、數(shù)據(jù)匯交、數(shù)據(jù)共享、數(shù)據(jù)交換、數(shù)據(jù)建模標準。數(shù)據(jù)采集規(guī)定了人類基因組數(shù)據(jù)的測序方法、生物樣本質(zhì)量等內(nèi)容;數(shù)據(jù)存儲規(guī)定了數(shù)據(jù)在存儲介質(zhì)中的存儲需求、方法和技術;變異分析規(guī)定了對人類基因組數(shù)據(jù)進行基因注釋、關聯(lián)性分析、變異解讀的方法和要求;數(shù)據(jù)處理規(guī)定了人類基因組數(shù)據(jù)預處理、標準化處理的要求和數(shù)據(jù)質(zhì)量控制原則;數(shù)據(jù)匯交規(guī)定了人類基因組數(shù)據(jù)匯交的內(nèi)容及流程;數(shù)據(jù)共享規(guī)定了人類基因組數(shù)據(jù)的開放共享程度、流程、方式等內(nèi)容;數(shù)據(jù)交換規(guī)定了不同數(shù)據(jù)平臺之間以及不同環(huán)節(jié)之間數(shù)據(jù)交互的格式與通信協(xié)議;數(shù)據(jù)建模規(guī)定了人類基因組數(shù)據(jù)的抽象組織結構,確定數(shù)據(jù)庫中數(shù)據(jù)范圍、組織形式等。
4.5 管理標準
管理標準包括數(shù)據(jù)管理、平臺管理和項目管理標準。數(shù)據(jù)管理規(guī)定了對人類基因組數(shù)據(jù)生命周期處理活動、數(shù)據(jù)交接的管理;平臺管理規(guī)定了人類基因組數(shù)據(jù)平臺運營環(huán)境,包括各種軟硬件設施管理;項目管理規(guī)定了立項、實施、驗收、運維管理等內(nèi)容。
4.6 數(shù)據(jù)應用標準
數(shù)據(jù)應用標準涵蓋利用人類基因組數(shù)據(jù)進行身份檢測、譜系分析、親子鑒定、醫(yī)療健康以及其他未列出的應用場景使用的標準。身份檢測規(guī)定了對個人身份鑒定的技術標準;譜系分析規(guī)定了用于確定家族各成員相互關系的標準;親子鑒定規(guī)定了用于確定是否具有親子關系的標準;醫(yī)療健康規(guī)定了在醫(yī)療健康領域基因檢測產(chǎn)品、服務標準以及基因關聯(lián)性分析等技術標準。
4.7 安全標準
安全標準包括通用安全、數(shù)據(jù)脫敏、隱私保護和數(shù)據(jù)使用安全標準。通用安全規(guī)定了使用人類基因組數(shù)據(jù)的系統(tǒng)或平臺的物理安全、系統(tǒng)安全、網(wǎng)絡安全的保護措施;數(shù)據(jù)脫敏規(guī)定了數(shù)據(jù)脫敏的技術和測試方法;隱私保護標準規(guī)定了對數(shù)據(jù)主體的隱私信息和敏感信息的保護措施;數(shù)據(jù)使用安全規(guī)定了不同應用場景下的數(shù)據(jù)訪問控制機制。
5 結語
人類基因組數(shù)據(jù)具有敏感屬性及“大數(shù)據(jù)”特征,需要標準在頂層和各個應用領域提供指導和建議,以進一步促進和規(guī)范人類基因組數(shù)據(jù)創(chuàng)新應用,激發(fā)數(shù)據(jù)要素價值。本文圍繞人類基因組數(shù)據(jù)應用面臨的問題,分析和探討了人類基因組數(shù)據(jù)標準化現(xiàn)狀和需求,建立了包含基礎標準、數(shù)據(jù)標準、數(shù)據(jù)技術標準、管理標準、安全標準和數(shù)據(jù)應用標準的人類基因組數(shù)據(jù)標準體系,為人類基因組數(shù)據(jù)的有效管理和共享利用提供了重要的基礎支撐。
作者簡介
任程,碩士研究生,工程師,主要從事標準化研究工作。
許俊,碩士研究生,高級工程師,主要從事標準化研究工作。
王萍萍,碩士研究生,工程師,主要從事標準化研究工作。
丁國徽,通信作者,博士研究生,研究員,主要從事生物信息學、生物醫(yī)學數(shù)據(jù)安全研究工作。
(責任編輯:袁文靜)