夏義堃 管茜
摘? ?要:數(shù)據(jù)是生命科學(xué)研究的基礎(chǔ)性資源,研究生命科學(xué)數(shù)據(jù)管理的質(zhì)量控制對推進(jìn)科學(xué)數(shù)據(jù)管理和生命科學(xué)理論與研究方法創(chuàng)新具有重要的現(xiàn)實(shí)意義?;谏芷诶碚?,通過政策文本分析、案例比較和文獻(xiàn)調(diào)研,系統(tǒng)梳理了不同主體在生命科學(xué)數(shù)據(jù)的管理計(jì)劃、采集、組織、保存、共享利用不同階段中的質(zhì)量控制措施提出不同階段生命科學(xué)數(shù)據(jù)質(zhì)量控制的核心要求,構(gòu)建了包括基礎(chǔ)層、主體層、流程控制層三個(gè)層次的生命科學(xué)數(shù)據(jù)質(zhì)量控制體系。
關(guān)鍵詞:科學(xué)數(shù)據(jù)管理;數(shù)據(jù)質(zhì)量;質(zhì)量控制;數(shù)據(jù)生命周期;生命科學(xué)
Abstract Data is a basic resource in life science research. The research of life science data management of quality control can advance scientific data management, and life science innovation theory and research method has important practical significance. Based on the life cycle theory, through policy text analysis, case comparison and literature research, this paper systematically sorts out the quality control measures of different subjects in different stages of life science data management planning, collection, organization, preservation, sharing and utilization. In this paper, the core requirements of life science data quality control at different stages are put forward, and the life science data quality control system at three levels is constructed, including the basic layer, the main layer and the process control layer.
Key words scientific data management; data quality; quality control; data life cycle; life science
生命科學(xué)在20世紀(jì)后期出現(xiàn)了飛躍式的發(fā)展,以基因測序、基因組學(xué)、蛋白質(zhì)組學(xué)和生物信息學(xué)為代表的技術(shù)加快了生命科學(xué)領(lǐng)域數(shù)據(jù)的產(chǎn)生速度[1],數(shù)據(jù)的積累與利用已經(jīng)成為推動(dòng)生命科學(xué)研究不可缺少的組成部分。海量的生命科學(xué)數(shù)據(jù)不僅具有傳統(tǒng)大數(shù)據(jù)的“4V特征”,還因研究對象、存儲(chǔ)結(jié)構(gòu)、參數(shù)標(biāo)準(zhǔn)、應(yīng)用場景等多元性而格外復(fù)雜,同時(shí),人體受試樣本的隱私保護(hù)、動(dòng)物樣本實(shí)驗(yàn)的倫理約束等進(jìn)一步增添了數(shù)據(jù)管理的難度。
如何對體量巨大、增長迅速、多源異構(gòu)且隱私倫理屬性突出的生命科學(xué)數(shù)據(jù)進(jìn)行有效地質(zhì)量控制與開發(fā)管理,既是當(dāng)前科學(xué)數(shù)據(jù)管理工作亟待突破和解決的重要問題,也是生命科學(xué)研究創(chuàng)新的前期條件。本文基于數(shù)據(jù)生命周期理論,著重分析了生命科學(xué)數(shù)據(jù)質(zhì)量控制的主體行為與基本做法,構(gòu)建了質(zhì)量控制的主體行為與基本做法,構(gòu)建了包括基礎(chǔ)層、主體層和流程控制層在內(nèi)的生命科學(xué)數(shù)據(jù)質(zhì)量控制體系,以期為我國生物科學(xué)數(shù)據(jù)質(zhì)量控制提供借鑒參考。
1? ?研究回顧與問題的提出
1.1? ? 生命科學(xué)數(shù)據(jù)質(zhì)量研究綜述
近年來,生命科學(xué)進(jìn)入“大數(shù)據(jù)”時(shí)代,生命科學(xué)領(lǐng)域研究結(jié)論的可靠性常被質(zhì)疑,數(shù)據(jù)的再利用性以及實(shí)驗(yàn)的可再現(xiàn)性接連出現(xiàn)問題,并引發(fā)國內(nèi)外學(xué)者的關(guān)注,相關(guān)研究主要集中在以下幾個(gè)方面:
(1)生命科學(xué)數(shù)據(jù)質(zhì)量內(nèi)涵及評估指標(biāo)體系研究。生命科學(xué)數(shù)據(jù)質(zhì)量是一個(gè)多維度概念,可理解為多個(gè)質(zhì)量特征的集合,并受到學(xué)科、數(shù)據(jù)類型和應(yīng)用目的等影響。除遵循國際通用的FAIR原則外,F(xiàn)latley和Stead[2]從一致性、正確性和完整性角度討論了臨床記錄數(shù)據(jù)質(zhì)量的概念;Weiskopf和Weng[3]將合理性和通用性視為質(zhì)量考察維度;Kahn等[4]構(gòu)建了針對電子健康記錄臨床研究數(shù)據(jù)的質(zhì)量評價(jià)模型,主要指標(biāo)有準(zhǔn)確性、可信性、客觀性、及時(shí)性和數(shù)據(jù)量的合理性;Chen等[5]從數(shù)據(jù)本身、數(shù)據(jù)使用和數(shù)據(jù)收集3個(gè)角度描述數(shù)據(jù)質(zhì)量評價(jià)模型,用以評估公共衛(wèi)生領(lǐng)域相關(guān)數(shù)據(jù)。
(2)生命科學(xué)數(shù)據(jù)質(zhì)量問題的表現(xiàn)及成因研究。生命科學(xué)數(shù)據(jù)質(zhì)量問題的表現(xiàn)是多方面的,有學(xué)者站在數(shù)據(jù)內(nèi)容和表現(xiàn)形式多樣性角度,提出數(shù)據(jù)的不一致、不準(zhǔn)確、不完整或過時(shí)滯后等問題[6-8],其中數(shù)據(jù)格式和元數(shù)據(jù)不一致問題尤為突出[9],而標(biāo)準(zhǔn)、格式不統(tǒng)一直接損害數(shù)據(jù)互操作性、完整性和可追溯性等[10],造成數(shù)據(jù)冗余。數(shù)據(jù)利用中的可再現(xiàn)性問題再利用問題也是學(xué)者們關(guān)注的焦點(diǎn),究其原因,有學(xué)者認(rèn)為是選擇和實(shí)驗(yàn)偏差以及研究不當(dāng)導(dǎo)致,如實(shí)驗(yàn)室記錄錯(cuò)誤,無效試劑,忽略數(shù)據(jù)中心等都會(huì)導(dǎo)致數(shù)據(jù)的不可復(fù)制、不可重用[11-12]。
(3)生命科學(xué)數(shù)據(jù)質(zhì)量控制的方法研究。數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)的建構(gòu)被視為解決生命科學(xué)數(shù)據(jù)問題的有效方法,如使用統(tǒng)一標(biāo)識(shí)符和注釋來增強(qiáng)數(shù)據(jù)的可查找性,使用通用交換格式如SBML(系統(tǒng)生物學(xué)標(biāo)記語言)來增強(qiáng)數(shù)據(jù)互操作性,使用描述元數(shù)據(jù)來增強(qiáng)可重復(fù)性[13-14],Taylor等[15]提出應(yīng)遵循MIBBI(生物和生物醫(yī)學(xué)調(diào)查的最低信息)標(biāo)準(zhǔn)倡議;一些學(xué)者從出版視角探討數(shù)據(jù)質(zhì)量監(jiān)管方法,如Arturo 等[12]認(rèn)為期刊應(yīng)撤回不符合數(shù)據(jù)標(biāo)準(zhǔn)的文章;劉穎和王旋[16]分析了NATURE出版集團(tuán)等醫(yī)學(xué)數(shù)據(jù)質(zhì)量監(jiān)管措施;還有學(xué)者從數(shù)據(jù)平臺(tái)管理視角展開研究,Chen等[17]提出加強(qiáng)記錄上傳、序列去重、序列分析、文本數(shù)據(jù)分析、記錄關(guān)聯(lián)、數(shù)據(jù)描述等在內(nèi)的生命科學(xué)數(shù)據(jù)認(rèn)證過程管理,Heimo[18]認(rèn)為生物庫必須確保樣本和數(shù)據(jù)的質(zhì)量、利用道德和法律合規(guī)性,并建立高效透明的訪問管理。
1.2? ? 基于生命周期的生命科學(xué)數(shù)據(jù)質(zhì)量控制的內(nèi)涵
FAIR原則是國際公認(rèn)的科學(xué)數(shù)據(jù)管理基本準(zhǔn)則,要求數(shù)據(jù)應(yīng)滿足可發(fā)現(xiàn)、可訪問、可互操作和可再利用4個(gè)要求,并對唯一永久標(biāo)識(shí)符、描述元數(shù)據(jù)、詞匯表、通信協(xié)議、使用許可等進(jìn)行了細(xì)化要求。在FAIR原則基礎(chǔ)上,有關(guān)生命科學(xué)數(shù)據(jù)管理的不同主體基于數(shù)據(jù)內(nèi)容、形式和效用提出了生命科學(xué)數(shù)據(jù)的完整性、真實(shí)性、安全性、增值性等質(zhì)量要求(見表1)。然而,單一、靜態(tài)的數(shù)據(jù)難以創(chuàng)造價(jià)值,數(shù)據(jù)的流動(dòng)與全流程管理蘊(yùn)含了巨大的數(shù)據(jù)效應(yīng),生命科學(xué)數(shù)據(jù)管理應(yīng)把握其生命周期規(guī)律。通過代表性科學(xué)數(shù)據(jù)生命周期管理模型的梳理發(fā)現(xiàn),生物科學(xué)數(shù)據(jù)生命周期有五個(gè)核心階段,即數(shù)據(jù)管理計(jì)劃—數(shù)據(jù)采集—數(shù)據(jù)組織—數(shù)據(jù)保存—數(shù)據(jù)共享利用(見表2)。不同階段的數(shù)據(jù)質(zhì)量管理要求在目標(biāo)、標(biāo)準(zhǔn)與方法、行為等方面各有側(cè)重,既需要從采集和組織的源頭確保數(shù)據(jù)產(chǎn)生的質(zhì)量和價(jià)值,也需要在保存和開放過程中對數(shù)據(jù)質(zhì)量進(jìn)行檢測和驗(yàn)證,同時(shí)還需在共享利用中規(guī)范引導(dǎo)其數(shù)據(jù)行為,保證數(shù)據(jù)的再利用性與可再現(xiàn)性。
2? ?生命科學(xué)數(shù)據(jù)生命周期各階段質(zhì)量控制過程分析
2.1? ? 數(shù)據(jù)管理計(jì)劃的制定
數(shù)據(jù)管理計(jì)劃是保證數(shù)據(jù)質(zhì)量的根本文件[24],生命科學(xué)數(shù)據(jù)管理計(jì)劃階段的質(zhì)量控制責(zé)任是對整個(gè)生命周期如何管理數(shù)據(jù)、保障數(shù)據(jù)質(zhì)量進(jìn)行宏觀規(guī)劃,聚焦點(diǎn)集中在數(shù)據(jù)管理主體責(zé)任、數(shù)據(jù)計(jì)劃篇幅以及計(jì)劃內(nèi)容、更新與教育培訓(xùn)、資金保障等方面(見表3)。
在英美發(fā)達(dá)國家,數(shù)據(jù)管理計(jì)劃不僅是科研項(xiàng)目申報(bào)的必要組成部分,也是科研設(shè)計(jì)與研究實(shí)施的具體規(guī)劃與后續(xù)科研過程的重要指導(dǎo),并成為評估科研項(xiàng)目是否資助以及結(jié)題驗(yàn)收的重要考察指標(biāo)。英國生物技術(shù)與生物科學(xué)研究理事會(huì)要求項(xiàng)目資助的申請必須提交詳實(shí)的數(shù)據(jù)管理計(jì)劃,項(xiàng)目審查人員和專家委員會(huì)或評估小組將對申請者數(shù)據(jù)管理計(jì)劃的可行性、科學(xué)性進(jìn)行評估;美國國家科學(xué)基金會(huì)生物科學(xué)理事會(huì)既要求項(xiàng)目申報(bào)時(shí)提交數(shù)據(jù)管理計(jì)劃,還要求所有在研項(xiàng)目對數(shù)據(jù)管理計(jì)劃執(zhí)行情況進(jìn)行年度和終期報(bào)告,如數(shù)據(jù)采集加工等具體進(jìn)展以及數(shù)據(jù)標(biāo)準(zhǔn)、存儲(chǔ)和共享利用情況,以便檢查監(jiān)控。
從資助方數(shù)據(jù)管理制度以及大學(xué)等研究機(jī)構(gòu)數(shù)據(jù)管理文件來看,數(shù)據(jù)質(zhì)量控制的考察點(diǎn)主要表現(xiàn)在對數(shù)據(jù)管理計(jì)劃形式要件與實(shí)質(zhì)要件的規(guī)范性、完整性、準(zhǔn)確性審查上。一方面,均對數(shù)據(jù)管理的基本框架與內(nèi)容進(jìn)行了規(guī)范。如英國生物技術(shù)與生物科學(xué)研究理事會(huì)規(guī)定申請方提交的數(shù)據(jù)管理計(jì)劃應(yīng)當(dāng)包括數(shù)據(jù)范圍和數(shù)據(jù)類型、標(biāo)準(zhǔn)和元數(shù)據(jù)、與公共資料庫中其他可用數(shù)據(jù)的關(guān)系、數(shù)據(jù)共享的方法、專有數(shù)據(jù)、時(shí)間節(jié)點(diǎn)、最終數(shù)據(jù)集的格式和再利用方式等;另一方面,數(shù)據(jù)管理計(jì)劃的完整性與準(zhǔn)確性也是各方評估檢查的重點(diǎn)。除完成通用要求,實(shí)現(xiàn)數(shù)據(jù)管理計(jì)劃編制與項(xiàng)目研究總體框架、流程設(shè)計(jì)的緊密結(jié)合外,其完整性還體現(xiàn)在針對受試者隱私保護(hù)、動(dòng)物倫理、實(shí)驗(yàn)安全、知識(shí)產(chǎn)權(quán)等問題的描述與說明中。按照美國國家科學(xué)基金會(huì)生物科學(xué)理事會(huì)的要求,所有涉及人類受試者的資助項(xiàng)目,申請者都需要提交數(shù)據(jù)和安全監(jiān)管計(jì)劃(DSMP),并接受數(shù)據(jù)與安全監(jiān)管委員會(huì)的指導(dǎo)和檢查(DSMB)[25]。準(zhǔn)確性要求不僅體現(xiàn)在對流程設(shè)計(jì)和內(nèi)容描述的清晰易讀與準(zhǔn)確適用、對數(shù)據(jù)管理制度的準(zhǔn)確把握與恰當(dāng)回應(yīng)上,還體現(xiàn)在對實(shí)驗(yàn)數(shù)據(jù)記錄和原始記錄保存等操作要求的規(guī)范上。美國國立衛(wèi)生研究院針對美國國家科學(xué)基金會(huì)資助項(xiàng)目,制定了專門的《科學(xué)記錄保管指南》,要求科研過程中產(chǎn)生的各類記錄應(yīng)易讀、清晰、及時(shí)、全面、完整、安全、有備份且組織良好[26]。為增加研究人員數(shù)據(jù)管理計(jì)劃制定的易操作性,一些資助方和研究機(jī)構(gòu)還提供了數(shù)據(jù)管理計(jì)劃撰寫模板、內(nèi)容清單、工具、培訓(xùn)等。如奧地利科學(xué)基金會(huì)開發(fā)了數(shù)據(jù)管理計(jì)劃的撰寫模板,冷泉港實(shí)驗(yàn)室提供了數(shù)據(jù)管理計(jì)劃指南和工具平臺(tái)用來協(xié)助創(chuàng)建數(shù)據(jù)管理計(jì)劃。
數(shù)據(jù)管理是有成本的,資金保障性是數(shù)據(jù)質(zhì)量控制的前提基礎(chǔ)。目前,不同機(jī)構(gòu)對數(shù)據(jù)管理的成本分擔(dān)持有不同的意見,美國國立衛(wèi)生研究院更關(guān)注資金的合理使用,明確規(guī)定研究經(jīng)費(fèi)不適用于不生成科學(xué)數(shù)據(jù)的研究和其他活動(dòng),包括培訓(xùn)、基礎(chǔ)設(shè)施開發(fā)。而貝爾法斯特女王大學(xué)則主張研究人員應(yīng)盡可能尋求從項(xiàng)目資助方獲取直接的數(shù)據(jù)管理經(jīng)費(fèi)支持。
2.2? ? 數(shù)據(jù)采集
生命科學(xué)數(shù)據(jù)采集包括數(shù)據(jù)生成和數(shù)據(jù)提交,涉及到作為數(shù)據(jù)生成者的研究人員及其機(jī)構(gòu)和作為數(shù)據(jù)接收方的資助機(jī)構(gòu)、出版商和數(shù)據(jù)平臺(tái),是數(shù)據(jù)質(zhì)量控制的關(guān)鍵和基礎(chǔ)。盡管公開可用的數(shù)據(jù)和完整的數(shù)據(jù)文檔有助于計(jì)算的可重復(fù)性,但生命科學(xué)數(shù)據(jù)的可復(fù)制性、可再利用性受制于多種因素。“以微陣列數(shù)據(jù)為例,數(shù)據(jù)的質(zhì)量取決于生成它們的生物學(xué)和實(shí)驗(yàn)條件以及處理數(shù)據(jù)的計(jì)算程序[37]”,因而,數(shù)據(jù)采集階段的質(zhì)量要求不僅僅是將實(shí)驗(yàn)室記錄材料簡單地?cái)?shù)字化、數(shù)據(jù)化,還需要?jiǎng)?chuàng)建一套復(fù)雜的、可擴(kuò)展的數(shù)據(jù)質(zhì)量管理體系,如標(biāo)準(zhǔn)化詞匯、數(shù)據(jù)注釋與數(shù)據(jù)格式等。其中,保證數(shù)據(jù)的完整性、準(zhǔn)確性、相關(guān)性、客觀性和可靠性是這一階段的核心(見表4),主要通過數(shù)據(jù)采集范圍、采集標(biāo)準(zhǔn)的確定以及數(shù)據(jù)審查等關(guān)鍵環(huán)節(jié)來進(jìn)行數(shù)據(jù)質(zhì)量控制。
英國生態(tài)學(xué)會(huì)指出:“數(shù)據(jù)采集過程中的質(zhì)量控制很重要,因?yàn)橥ǔV挥幸淮螜C(jī)會(huì)從給定的情況收集數(shù)據(jù)?!盵38]這一環(huán)節(jié)質(zhì)量控制的重點(diǎn)是數(shù)據(jù)采集方式、記錄標(biāo)準(zhǔn)以及記錄管理的規(guī)范性,需要解決的主要問題包括數(shù)據(jù)生成的邏輯問題、數(shù)據(jù)描述標(biāo)準(zhǔn)與格式(預(yù)先應(yīng)設(shè)計(jì)模板、規(guī)定描述要素,如主題、實(shí)驗(yàn)細(xì)節(jié)、測試描述、控制條件、測試結(jié)果、結(jié)果說明等)、數(shù)據(jù)庫結(jié)構(gòu)設(shè)計(jì)以進(jìn)行數(shù)據(jù)或數(shù)據(jù)文件的組織、使用代碼-編碼為變量分配數(shù)值以便統(tǒng)計(jì)分析等。同時(shí),數(shù)據(jù)生成后的標(biāo)識(shí)、描述和記錄保存等還必須符合倫理與隱私保護(hù)等相關(guān)要求,美國國立衛(wèi)生研究院規(guī)定,臨床數(shù)據(jù)的采集應(yīng)承擔(dān)患者隱私和保密的額外責(zé)任,主要研究人員對于臨床研究數(shù)據(jù)和記錄的生成、保管負(fù)有最終責(zé)任。
制定數(shù)據(jù)標(biāo)準(zhǔn)、開發(fā)標(biāo)準(zhǔn)化的詞匯和本體是這一階段各方生命科學(xué)數(shù)據(jù)質(zhì)量控制的主要手段。與資助方和研究人員及其研究機(jī)構(gòu)相比,出版商的數(shù)據(jù)采集標(biāo)準(zhǔn)更為詳細(xì),尤其關(guān)注圖表數(shù)據(jù)的采集質(zhì)量。英國生物技術(shù)與生物科學(xué)研究理事會(huì)要求利用現(xiàn)有標(biāo)準(zhǔn)的同時(shí)鼓勵(lì)學(xué)術(shù)社區(qū)制定目前尚不存在或未被廣泛接受的標(biāo)準(zhǔn),并為此類活動(dòng)提供資助。Nature系列期刊在其編輯政策中指出圖像必須正確標(biāo)識(shí)原始數(shù)據(jù)并符合學(xué)術(shù)社區(qū)標(biāo)準(zhǔn),F(xiàn)1000Research規(guī)定所有圖像,無論是作為數(shù)字提交還是作為數(shù)據(jù)上傳,都不得操縱,以免讀者被誤導(dǎo)。
數(shù)據(jù)審查是最為重要的數(shù)據(jù)內(nèi)容質(zhì)量前端控制措施,越來越多的資助機(jī)構(gòu)和期刊出版商要求保存與提交文章或研究項(xiàng)目相關(guān)的整個(gè)數(shù)據(jù)集。絕大多數(shù)期刊出版商通過作者自查、編輯篩查、同行評審或者數(shù)據(jù)審查小組來實(shí)現(xiàn)對論文數(shù)據(jù)的質(zhì)量審查,部分出版商采用了更為具體的反剽竊和預(yù)防數(shù)據(jù)偽造的舉措。如Nature不僅嚴(yán)格作者自查、同行評審在內(nèi)的審查流程,還要求作者必須提供支撐數(shù)據(jù),并就實(shí)驗(yàn)及分析涉及所有細(xì)節(jié)進(jìn)行條件和場景說明,確保數(shù)據(jù)、材料和代碼能夠準(zhǔn)確反映原始內(nèi)容,同行專家將在通訊評審中審查相關(guān)數(shù)據(jù)。此外,Nature還規(guī)定對數(shù)據(jù)進(jìn)行評議的編委小組里必須包括至少一名數(shù)據(jù)標(biāo)準(zhǔn)審核專家,對作者提交數(shù)據(jù)的質(zhì)量與可重用性進(jìn)行評估,確保實(shí)驗(yàn)數(shù)據(jù)的嚴(yán)謹(jǐn)性與描述的完整性;Science指出文章的通訊作者必須檢查其小組產(chǎn)生的原始數(shù)據(jù);F1000Research指出編輯團(tuán)隊(duì)將使用 Adobe Photoshop 和美國研究誠信辦公室開發(fā)的法醫(yī)圖像分析軟件對隨機(jī)選擇的數(shù)字和數(shù)據(jù)進(jìn)行檢查。
倉儲(chǔ)或存儲(chǔ)平臺(tái)十分重視生命科學(xué)數(shù)據(jù)采集流程的操作規(guī)范(見表5)。一方面,倡導(dǎo)數(shù)據(jù)開放,要求研究人員明確數(shù)據(jù)類型與提交標(biāo)準(zhǔn),不斷提升數(shù)據(jù)透明度和可訪問性;另一方面,開展提交數(shù)據(jù)的自動(dòng)檢測或人工檢測,以保障數(shù)據(jù)可用。如NCBI的GenBank是國際核苷酸序列數(shù)據(jù)庫協(xié)作的一部分,為強(qiáng)化數(shù)據(jù)質(zhì)量審查,其提交材料必須包括有關(guān)源生物體的信息和提交者提供的注釋,并針對細(xì)菌基因組、高通量基因組等不同數(shù)據(jù)類型制定了詳細(xì)的提交指南,所有提交材料由工作人員檢查處理,確保無誤后才能進(jìn)入數(shù)據(jù)庫存儲(chǔ)。
2.3? ? 數(shù)據(jù)組織
這一階段的主要任務(wù)是通過良好的數(shù)據(jù)組織、結(jié)構(gòu)化、命名和版本控制與數(shù)據(jù)標(biāo)注,使之易于共享利用。由于數(shù)據(jù)的可解釋性和可信賴性是影響生命科學(xué)數(shù)據(jù)利用的重要因素,這一階段數(shù)據(jù)質(zhì)量控制的側(cè)重點(diǎn)集中在數(shù)據(jù)標(biāo)識(shí)的規(guī)范性、標(biāo)準(zhǔn)化、有效性、可理解性等方面,并強(qiáng)調(diào)運(yùn)用元數(shù)據(jù)、唯一永久標(biāo)識(shí)符和刪除更新的規(guī)范化操作等關(guān)鍵程序來控制數(shù)據(jù)質(zhì)量(見表6)。
強(qiáng)化數(shù)據(jù)描述過程的質(zhì)量控制是必不可少的重要環(huán)節(jié)。其中,元數(shù)據(jù)管理是重中之重,除文獻(xiàn)信息管理的通用功能外,生命科學(xué)領(lǐng)域的元數(shù)據(jù)管理通過樣本數(shù)據(jù)集的創(chuàng)建者、時(shí)間、位置、機(jī)構(gòu)、上下文、譜系關(guān)系及遷移等信息描述,還有助于在龐雜分散的數(shù)據(jù)資源體系內(nèi)建立數(shù)據(jù)關(guān)聯(lián)、實(shí)現(xiàn)生命科學(xué)數(shù)據(jù)的語義檢索和知識(shí)挖掘、方便用戶對實(shí)驗(yàn)數(shù)據(jù)的復(fù)制和再利用進(jìn)行追蹤溯源。元數(shù)據(jù)質(zhì)量控制的核心在于結(jié)合生命科學(xué)數(shù)據(jù)開發(fā)利用特點(diǎn),從項(xiàng)目、數(shù)據(jù)等層面將元數(shù)據(jù)管理嵌入到生命科學(xué)數(shù)據(jù)應(yīng)用系統(tǒng)/平臺(tái)的研發(fā)、運(yùn)營等業(yè)務(wù)流程,如直接融入開發(fā)編碼、系統(tǒng)測試、版本控制等業(yè)務(wù)環(huán)節(jié)。由于生命科學(xué)數(shù)據(jù)種類繁多,異質(zhì)性突出,不同類型的數(shù)據(jù)屬性、名稱缺乏規(guī)范,需要?jiǎng)?chuàng)建生物醫(yī)學(xué)字典、定義最小核心元數(shù)據(jù)元素集等來實(shí)現(xiàn)數(shù)據(jù)描述的標(biāo)準(zhǔn)化,“學(xué)科領(lǐng)域內(nèi)部也需要定義一套通用的病毒數(shù)據(jù)開放元數(shù)據(jù)標(biāo)準(zhǔn)以支持研究人員的跨庫數(shù)據(jù)處理與交互[49]”。如冷泉港實(shí)驗(yàn)室綜合利用數(shù)據(jù)字典、文件統(tǒng)一命名等方式來描述數(shù)據(jù),要求所有文件應(yīng)統(tǒng)一命名并遵循文件命名公約(FNC),還為每個(gè)數(shù)據(jù)文件/數(shù)據(jù)集創(chuàng)建讀取文件以列出鏈接和描述特定文件夾中的所有文件;墨爾本大學(xué)要求以院系為單位建立研究數(shù)據(jù)登記表,登記表包含數(shù)據(jù)和記錄的描述、相關(guān)研究人員和項(xiàng)目的名稱、數(shù)據(jù)的位置(數(shù)字和模擬)、訪問限制以及遷移、保留和處置期等信息;PLoS數(shù)據(jù)政策規(guī)定投稿人必須提交論文結(jié)論所需相關(guān)數(shù)據(jù)集及其元數(shù)據(jù)和方法,以便人們可以檢索或利用軟件系統(tǒng)來定位和掌握原始數(shù)據(jù)的生成背景與特征。
為滿足數(shù)據(jù)內(nèi)容的互操作性要求,項(xiàng)目資助方、期刊以及研究機(jī)構(gòu)等均支持采用數(shù)字對象標(biāo)識(shí)符系統(tǒng)(DOIs)和其他數(shù)據(jù)標(biāo)識(shí)符來實(shí)現(xiàn)數(shù)據(jù)定位和管理,以保證數(shù)據(jù)利用的統(tǒng)一性和被引的科學(xué)性。維康基金會(huì)鼓勵(lì)研究人員對其數(shù)據(jù)和軟件輸出使用數(shù)字對象標(biāo)識(shí)符系統(tǒng)或其他永久標(biāo)識(shí)符;Science系列期刊規(guī)定所有數(shù)據(jù)、程序代碼和其他方法必須使用數(shù)字對象標(biāo)識(shí)符系統(tǒng);在數(shù)據(jù)內(nèi)容的及時(shí)性要求上,對于數(shù)據(jù)的修改、更新、刪除等操作,普遍要求遵循政策規(guī)定和業(yè)務(wù)程序,強(qiáng)調(diào)獲準(zhǔn)更改后方可執(zhí)行,以保證及時(shí)更新與降低風(fēng)險(xiǎn)的雙重目的。F1000Research規(guī)定數(shù)據(jù)版本一旦發(fā)布,便可在 F1000Research 網(wǎng)站上永久找到,不能更改或撤回,但作者可通過發(fā)布新版本來修改和更新文章。
2.4? ? 數(shù)據(jù)保存
生命科學(xué)數(shù)據(jù)保存需要解決的基本問題包括哪些數(shù)據(jù)需要解決的基本問題包括哪些數(shù)據(jù)需要保存、誰負(fù)責(zé)保存以及如何保存等,所關(guān)注的主要環(huán)節(jié)涉及到數(shù)據(jù)保存形式、保存位置、保存格式、保留期限以及數(shù)據(jù)備份等,并要求實(shí)現(xiàn)數(shù)據(jù)保存的規(guī)范性、持久性、可遷移性、可恢復(fù)性和安全性的質(zhì)量要求(見表7)。
(1)數(shù)據(jù)保存范圍上,既包括存儲(chǔ)要求的原始數(shù)據(jù)集和經(jīng)過處理加工的數(shù)據(jù)集,也包括實(shí)驗(yàn)協(xié)議或?qū)嶒?yàn)流程、生物樣本、元數(shù)據(jù)和其他支持材料,但不包括初步分析、論文草稿等。如加拿大基因組提出生物試劑如獨(dú)特菌株應(yīng)存入ATCC等資料庫。
(2)數(shù)據(jù)保存格式上,除部分?jǐn)?shù)據(jù)平臺(tái)的專有數(shù)據(jù)格式要求外,普遍強(qiáng)調(diào)通用的、非專有格式保存。如冷泉港實(shí)驗(yàn)室(CSH)規(guī)定以非專有格式存儲(chǔ)數(shù)據(jù),并根據(jù)數(shù)據(jù)類型給文本文件、數(shù)據(jù)庫、統(tǒng)計(jì)數(shù)據(jù)、食品和圖片文件規(guī)定了具體格式(如文本以.doc,.docx保存);Science系列期刊規(guī)定圖表數(shù)據(jù)要以標(biāo)準(zhǔn)機(jī)器可讀格式存檔(如csv、tsv、json 或 xml),F(xiàn)1000Research則規(guī)定應(yīng)以CSV或TAB格式存入,如果圖表數(shù)據(jù)包含可變標(biāo)簽、代碼標(biāo)簽或定義的缺失值,則應(yīng)將其存入 SAV、SAS 或 POR 格式。
(3)數(shù)據(jù)保存位置上,多數(shù)主體支持將數(shù)據(jù)保存在公開可用數(shù)據(jù)庫中,可以是機(jī)構(gòu)數(shù)據(jù)庫也可以是學(xué)科主題數(shù)據(jù)庫,鼓勵(lì)將數(shù)據(jù)存儲(chǔ)在re3data.org和FAIRsharing.org的注冊數(shù)據(jù)庫中(見表8),或根據(jù)數(shù)據(jù)類型選擇同行認(rèn)可的相應(yīng)數(shù)據(jù)庫(見表9)。Nature系列期刊規(guī)定作者必須將特定數(shù)據(jù)集提交至學(xué)術(shù)社群認(rèn)可的公共數(shù)據(jù)倉儲(chǔ)或平臺(tái),如蛋白質(zhì)序列保存至Uniprot數(shù)據(jù)平臺(tái),并提供了一系列被認(rèn)可及推薦的數(shù)據(jù)存儲(chǔ)平臺(tái)供作者選擇。
(4)在研究人員的數(shù)據(jù)保留期限上,英國生物技術(shù)與生物科學(xué)研究理事會(huì)和奧地利科學(xué)基金會(huì)規(guī)定項(xiàng)目結(jié)束后至少可以保存10年,貝爾法斯特女王大學(xué)和墨爾本大學(xué)規(guī)定至少保留5年,美國國立衛(wèi)生研究院規(guī)定數(shù)據(jù)研究項(xiàng)目結(jié)束后最少保存3年。
(5)數(shù)據(jù)備份要求上,大多機(jī)構(gòu)強(qiáng)調(diào)通過數(shù)據(jù)異地、異質(zhì)備份來應(yīng)對潛在數(shù)據(jù)風(fēng)險(xiǎn),以支持?jǐn)?shù)據(jù)恢復(fù)。如冷泉港實(shí)驗(yàn)室規(guī)定建立3個(gè)備份,分別保存在本地、外部硬盤、云端,并要求定期檢查備份數(shù)據(jù);加拿大基因組規(guī)定建立1個(gè)異地異質(zhì)備份;美國國家科學(xué)基金會(huì)生物科學(xué)理事會(huì)則會(huì)通過PAGES系統(tǒng)在異地備份。
2.5? ? 數(shù)據(jù)共享利用
科學(xué)數(shù)據(jù)共享是確保生物科學(xué)領(lǐng)域研究透明且可復(fù)制的主要要素,同時(shí)也是防范學(xué)術(shù)欺詐和傳播錯(cuò)誤結(jié)果的有效監(jiān)管方式,主要通過訪問權(quán)限、知識(shí)產(chǎn)權(quán)許可和引用規(guī)范等關(guān)鍵環(huán)節(jié)的質(zhì)量控制來保障數(shù)據(jù)的開放性、規(guī)范性、可訪問性、可引用性、合法性和隱私性等要求(見表10),從而促進(jìn)更廣泛的數(shù)據(jù)利用。
在數(shù)據(jù)訪問權(quán)限設(shè)置方面,一方面強(qiáng)調(diào)對隱私保護(hù)、動(dòng)物倫理、商業(yè)秘密等信息法規(guī)制度的遵守;另一方面鼓勵(lì)生命科學(xué)數(shù)據(jù)應(yīng)在最大限度內(nèi)開放,不能公開的數(shù)據(jù)需說明原因和獲取條件。如Nature系列期刊的出版條件之一是作者必須促使相關(guān)研究材料、數(shù)據(jù)、程序代碼及實(shí)驗(yàn)作業(yè)等準(zhǔn)確迅速且不帶有不合理限制條件的供讀者瀏覽查閱,手稿必須提供數(shù)據(jù)可用性聲明,聲明應(yīng)包含支持論文研究結(jié)論的所有數(shù)據(jù)信息,如作者需對所提供材料或信息帶有一定限制,則必須在提交時(shí)向編輯說明,并在論文中公開原因,涉及個(gè)人隱私或生物安全性的數(shù)據(jù),必須在論文中注明數(shù)據(jù)獲取的條件及限制。
在數(shù)據(jù)許可協(xié)議以及引用規(guī)范的設(shè)置方面,主要通過知識(shí)共享許可(CC BY),允許用戶不受限制地使用、分發(fā)和復(fù)制數(shù)據(jù),前提是原始數(shù)據(jù)能夠被正確引用,力求實(shí)現(xiàn)數(shù)據(jù)開放與利益相關(guān)方合法權(quán)益保護(hù)的雙贏。如美國國家科學(xué)基金會(huì)生物科學(xué)理事會(huì)規(guī)定引用應(yīng)注明作者、發(fā)行或引用日期,使用唯一、可解析和持久標(biāo)識(shí)符(如數(shù)字對象標(biāo)識(shí)符)或者統(tǒng)一資源定位符(URL)進(jìn)行引用;Science系列期刊要求遵循其引用格式規(guī)范,所有數(shù)據(jù)、程序代碼和其他方法必須使用數(shù)字對象標(biāo)識(shí)符、日志引文或其他持久標(biāo)識(shí)符進(jìn)行恰當(dāng)引用。
3? ?研究結(jié)論與對策建議
數(shù)字化時(shí)代的生命科學(xué)屬于數(shù)據(jù)密集型學(xué)科,“21世紀(jì)生物學(xué)面臨的最重大挑戰(zhàn)來自于數(shù)據(jù)類型的多樣性、復(fù)雜性以及生物學(xué)層次結(jié)構(gòu)和用戶數(shù)據(jù)獲取利用的多元化[51]”。完善的數(shù)據(jù)質(zhì)量控制體系有助于強(qiáng)化數(shù)據(jù)生命周期內(nèi)各環(huán)節(jié)的管理(見圖1)。從要素構(gòu)成與功能運(yùn)行的系統(tǒng)性管理角度出發(fā),生命科學(xué)數(shù)據(jù)質(zhì)量控制體系的建立應(yīng)聚焦主體層、流程控制層和基礎(chǔ)層,核心是遵循生命科學(xué)學(xué)術(shù)研究規(guī)律,從學(xué)科屬性與學(xué)術(shù)倫理的角度探索其數(shù)據(jù)管理特征,并將各方參與主體、各種數(shù)據(jù)管理制度標(biāo)準(zhǔn)、各數(shù)據(jù)流程關(guān)鍵環(huán)節(jié)以及數(shù)據(jù)基礎(chǔ)設(shè)施與支撐資源等協(xié)同整合成為數(shù)據(jù)質(zhì)量控制體系的有機(jī)整體,進(jìn)而掌握不同階段數(shù)據(jù)質(zhì)量控制的基本要求(見表11),實(shí)現(xiàn)生命科學(xué)數(shù)據(jù)質(zhì)量控制體系運(yùn)行效益的最大化。為此,需要重點(diǎn)把握和處理好以下問題:
(1)總結(jié)生命科學(xué)數(shù)據(jù)管理特質(zhì)與內(nèi)涵。無論是數(shù)據(jù)來源與形式,還是數(shù)據(jù)產(chǎn)生條件與應(yīng)用場景,生命科學(xué)數(shù)據(jù)資源的采集、存儲(chǔ)、開發(fā)均對技術(shù)、管理、倫理、制度、標(biāo)準(zhǔn)、流程以及人員素質(zhì)等提出了特定的要求,客觀上也需要數(shù)據(jù)質(zhì)量控制的方式、內(nèi)容與生命科學(xué)項(xiàng)目研究、數(shù)據(jù)流程及運(yùn)行規(guī)律相匹配。
(2)優(yōu)化主體協(xié)作機(jī)制。生命科學(xué)數(shù)據(jù)管理涉及主體眾多,不同主體對于數(shù)據(jù)采集、加工、存儲(chǔ)、共享的條件要求與目標(biāo)預(yù)期各不相同,其數(shù)據(jù)質(zhì)量控制體系應(yīng)結(jié)合數(shù)據(jù)管理應(yīng)用場景,有效匹配資助方、研究人員及其機(jī)構(gòu)、期刊出版方等不同主體數(shù)據(jù)質(zhì)量控制的需求,加強(qiáng)不同主體間質(zhì)量控制的業(yè)務(wù)銜接,不斷調(diào)整與優(yōu)化數(shù)據(jù)質(zhì)量控制體系。
(3)強(qiáng)化流程質(zhì)量控制力度。從數(shù)據(jù)管理計(jì)劃編制到計(jì)劃執(zhí)行過程中的數(shù)據(jù)采集、組織、保存與共享等不同階段,生命科學(xué)數(shù)據(jù)質(zhì)量控制的重心、方法、要求與標(biāo)準(zhǔn)各有差異,既要關(guān)注數(shù)據(jù)內(nèi)容層面的價(jià)值性維度,如數(shù)據(jù)自身的完整性、準(zhǔn)確性、可靠性等要求,也要關(guān)注標(biāo)準(zhǔn)方法、數(shù)據(jù)加工處理技術(shù)等操作層面的工具性維度,如采用元數(shù)據(jù)的質(zhì)量控制方法將各類數(shù)據(jù)的特征、關(guān)系、語義等進(jìn)行規(guī)范化描述,從而形成連續(xù)性的數(shù)據(jù)質(zhì)量監(jiān)管框架。
(4)完善數(shù)據(jù)質(zhì)量控制的基礎(chǔ)保障。標(biāo)準(zhǔn)化的數(shù)據(jù)規(guī)范以及穩(wěn)定、安全、便捷的數(shù)據(jù)平臺(tái)/倉儲(chǔ)等基礎(chǔ)設(shè)施,均需要充分的人、財(cái)、物等基礎(chǔ)保障,特別是工作人員的數(shù)據(jù)意識(shí)、數(shù)據(jù)技能直接影響到生命科學(xué)數(shù)據(jù)管理成效,既需要全方位的資源投入與健全的數(shù)據(jù)制度,也需要強(qiáng)化研究人員等責(zé)任主體數(shù)據(jù)行為的養(yǎng)成性指導(dǎo)。
參考文獻(xiàn):
[1]? 陳鵬.生命科學(xué)信息的公共獲取[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2014,1(1):12.
[2]? Flatley B P,Stead W W.Assessing data quality:from concordance, through correctness and completeness,to valid manipulatable representations.[J].Journal of the American Medical Informatics Association Jamia,2000,7(1):106.
[3]? Weiskopf N G,Weng C.Methods and dimensions of electronic health record data quality assessment:enabling reuse for clinical research[J].Journal of the American Medical Informatics Association:JAMIA,2013,20(1):44-51.
[4]? KAHN M G,RAEBEL M A,GLANZ J M,et al.A pragmatic framework for single-site and multisite data quality assessment in electronic health record-based clinical research[J].Medical care,2012,50(7):S21-S29.
[5]? CHEN H,HAILEY D,WANG N,et al.A review of data quality assessment methods for public health informati on systems[J].Informational journal of environmental research and public health,2014,11(5):5170-5207.
[6]? Borisas B,Ramona B,Benoit B,et al.Minimizing proteome redundancy in the UniProt Knowledgebase[EB/OL].[2020-12-26].https://academic.oup.com/database/article/doi/10.1093/database/baw139/2742069#.
[7]? Nellore A,Jaffe A E,F(xiàn)ortin J P,et al.Human splicing diversity and the extent of unannotated splice junctions across human RNA-seq samples on the Sequence Read Archive[J].Genome Biology,2016,17(1):266.
[8]? Huntley R P,Sitnikov D,Orlic-Milacic M,et al.Guidelines for the functional annotation of microRNAs using the Gene Ontology[J].Rna-a Publication of the Rna Society,2016,22(5):667.
[9]? Etriks.Browse the eTRIKS recommended standards from Biosharing[EB/OL].[2021-03-07].https://www.etriks.org/standards-starter-pack/.
[10]? Mark D,McDowall,Midori A,et al.PomBase 2015: updates to the fission yeast database[J].Nucleic acids research,2015,43(Database issue):D656-61.
[11]? Casadevall A,Steen R G,F(xiàn)ang F C .Sources of error in the retracted scientific literature[J].Faseb Journal Official Publication of the Federation of American Societies for Experimental Biology,2014,28(9):3847.
[12]? Arturo,Casadevall,Lee,et al.A Framework for Improving the Quality of Research in the Biological Sciences.[J].mBio,2016,7(4):e01256-16.
[13]? Ulrike,Wittig,Maja,et al.Data management and data enrichment for systems biology projects[J].Journal of biotechnology,2017,261(11):229-237.
[14]? Hucka M.Systems Biology Markup Language(SBML)[J].Encyclopedia of Systems Biology,2013:2057-2063.
[15]? Taylor C F,F(xiàn)ield D,Sansone S A,et al.Promoting coherent minimum reporting guidelines for biological and biomedical investigations:the MIBBI project[J].Nature Biotechnology,2008,26(8):889-896.
[16]? 劉穎,王旋.醫(yī)學(xué)領(lǐng)域國際學(xué)術(shù)期刊數(shù)據(jù)出版政策分析[J].中國科技期刊研究,2017,28(8):685-689.
[17]? Chen Q,Britto R,Erill I,et al.Quality Matters:Biocuration Experts on the Impact of Duplication and Other Data Quality Issues in Biological Databases[J].Genomics Proteomics & Bioinformatics,2020,18(2):91-103.
[18]? Heimo Müller,Dagher G,Loibner M,et al.Biobanks for life sciences and personalized medicine: importance of standardization,biosafety,biosecurity,and data management[J].Current Opinion in Biotechnology,2020(65):45-51.
[19]? simonhodson.I2S2:Infrastructure for integration in structural sciences[J].Jisc,2009.
[20]? Crowston K,Qin J.A capability maturity model for scientific data management[J].Proceedings of the American Society for Information Science and Technology,2010,47(1):1-2.
[21]? Michener W K,Jones M B.Ecoinformatics:Supporting Ecology as a Data-Intensive Science[J].Trends in Ecology & Evolution,2012,27(2):85-93.
[22]? Griffin P C,Khadake J,Lemay K S,et al.Best practice data life cycle approaches for the life sciences[J].F1000research,2017(6):1618.
[23]? Research Data Management at CSHL[EB/OL].[2021-02-15].https://cshl.libguides.com/c.php?g=696335&p=8032145.
[24]? 江洪,王春曉.基于科學(xué)數(shù)據(jù)生命周期管理階段的科學(xué)數(shù)據(jù)質(zhì)量評價(jià)體系構(gòu)建研究[J].圖書情報(bào)工作,2020,64(10):19-27.
[25]? Data & Safety Monitoring Plans[EB/OL].[2021-03-15].https://www.niddk.nih.gov/research-funding/human-subjects-research/policies-clinical-researchers/data-safety-monitoring-plans.
[26]? National Institutes of Health Office of the Director.Guidelines for SCIENTIFIC RECORD KEEPING in the Intramural Research Program at the NIH[EB/OL].[2021-02-15].https://oir.nih.gov/sites/default/files/uploads/sourcebook/documents/ethical_conduct/guidelines-scientific_recordkeeping.pdf.
[27]? Proposal & Award Policies & Procedures Guide[EB/OL].[2021-02-15].https://www.nsf.gov/pubs/policydocs/pappg20_
1/index.jsp.
[28]? Directorate for Biological Sciences[EB/OL].[2021-02-15].https://www.nsf.gov/bio/pubs/BIODMP_Guidance.pdf.
[29]? Pubilic Access to results of NSF-Funded research[EB/OL].[2021-02-15].https://www.nsf.gov/news/special_reports/public_access/index.jsp.
[30]? Final NIH Policy for Data Management and Sharing[EB/OL].[2021-02-15].https://grants.nih.gov/grants/guide/notice-files/NOT-OD-21-013.html.
[31]? How to complete an outputs management plan[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/how-complete-outputs-management-plan#contact-us-dd23.
[32]? BBSRC DATA SHARING POLICY[EB/OL].[2021-02-15].https://bbsrc.ukri.org/documents/data-sharing-policy-pdf/.
[33]? Research Data Management[EB/OL].[2021-02-15].https://www.fwf.ac.at/en/research-funding/open-access-policy/research-data-management.
[34]? Genome Canada Data Release and Sharing Policies[EB/OL].[2021-02-15].https://www.genomecanada.ca/sites/default/files/publications/gcdatasharingpolicies16-09-23.pdf.
[35]? Research Data Management Policy[EB/OL].[2021-02-15].https://www.qub.ac.uk/home/Filestore/Filetoupload,910267,en.pdf.
[36]? Management of Research Data and Records Policy(MPF1242)[EB/OL].[2021-02-15].https://policy.unimelb.edu.au/MPF
1242.
[37]? Sparks R,Lau W W,Tsang J S .Expanding the Immunology Toolbox: Embracing Public-Data Reuse and Crowdsourcing[J].Immunity,2016,45(6):1191-1204.
[38]? British Ecological Society·A Guide to Data Management in Ecology and Evolution[EB/OL].[2021-03-15].https://www.britishecologicalsociety.org/wp-content/uploads/2016/04/Guide-to-Data-Management.pdf.
[39]? Open access policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/open-access-guidance/open-access-policy.
[40]? data,software and materials management and sharing policy[EB/OL].[2021-02-15].https://wellcome.org/grant-funding/guidance/data-software-materials-management-and-sharing-policy.
[41]? Editorial policies[EB/OL].[2021-02-15].https://www.nature.com/nature-research/editorial-policies.
[42]? Editorial policies[EB/OL].[2021-02-15].https://www.sciencemag.org/authors/science-journals-editorial-policies.
[43]? Data Availability[EB/OL].[2021-02-15].https://journals.plos.org/plosone/s/data-availability.
[44]? Data Guideliness[EB/OL].[2021-02-15].https://f1000research.com/for-authors/data-guidelines#hosting.
[45]? European Molecular Biology Laboratory-European Bioinformatics Institute[EB/OL].[2021-02-16].https://www.ebi.ac.uk/.
[46]? The GenBank Submissions Handbook[EB/OL].[2021-03-07].https://www.ncbi.nlm.nih.gov/books/NBK51157/.
[47]? Introduction to PDB Data[EB/OL].[2021-02-16].http://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/introduction.
[48]? Neuroimaging Informatics Tools and Resources Clearinghouse[EB/OL].[2021-02-16].https://www.nitrc.org/.
[49]? 儲(chǔ)節(jié)旺,林浩煒.典型生物醫(yī)學(xué)元數(shù)據(jù)功能比較研究與啟示[J].現(xiàn)代情報(bào),2021,41(1):4-12,31.
[50]? 孫軼楠,顧立平,宋秀芳,等.學(xué)科數(shù)據(jù)知識(shí)庫的政策調(diào)研與分析——以生命科學(xué)領(lǐng)域?yàn)槔齕J].現(xiàn)代圖書情報(bào)技術(shù),2015,31(12):13-20.
[51]? Wooley J ,Lin H S .Catalyzing Inquiry at the Interface of Computing and Biology[M].national academies press,2005:35.
作者簡介:夏義堃,女,武漢大學(xué)信息資源研究中心教授,研究方向:政府?dāng)?shù)據(jù)治理;管茜,女,武漢大學(xué)信息管理學(xué)院碩士研究生。