邱春艷 陳可睿
(曲阜師范大學傳媒學院,日照 276826)
新型冠狀病毒肺炎(以下簡稱“新冠肺炎”,COVID-19)疫情暴發(fā)以來,國內外為研發(fā)病毒解決方案,從政策研究、平臺建設、研究成果管理等方面入手推動相關科學數據資源的開放和共享。2020年3月,中國國家自然科學基金委員會(National Natural Science Foundation of China,NSFC)同英國國家科研與創(chuàng)新署(UK Research and Innovation,UKRI)聯合發(fā)布聲明,強調雙方共同致力于加強全球科研合作,鼓勵開放的信息交流和數據共享,為快速推進新冠肺炎診斷、治療與防控提供科技保障和決策支撐[1]。為解決疫情暴發(fā)情況下研究論文相關數據資源訪問障礙問題,《世界衛(wèi)生組織簡報》(Bulletin of the World Health Organization)實施“COVID-19 Open”數據共享和報告機制,即當向《世界衛(wèi)生組織簡報》提交數據后,所有與新冠肺炎疫情有關的研究論文都將被分配一個數字對象標識符,并在接受同行評議的24小時內在線發(fā)布到“nCov-2019 Open”數據平臺上[2]。
由此可見,新冠肺炎疫情下,建立完善的數據開放平臺和共享機制,應對全球突發(fā)公共衛(wèi)生挑戰(zhàn),推進公共衛(wèi)生緊急事件數據共享能力的建設,已經成為各國政府和科技界的普遍共識[3]。本文通過網絡調查和文獻調研,歸納總結新冠肺炎科學數據資源平臺數據共享的現狀與特征,從共享激勵機制、科學數據的質量控制、元數據標準等方面提出改進建議,以期推動新冠肺炎相關科學數據的交流與共享。
科學數據既是科研成果的提煉,又是科研創(chuàng)新的來源。目前對科學數據界定的認知尚未統(tǒng)一??茖W數據一般是指在科技活動(實驗、觀測、探測、調查等)中或通過其他方式所獲取的反映客觀世界的本質、特征、變化規(guī)律等的原始基本數據,以及根據不同科技活動需要,進行系統(tǒng)加工整理的各類數據集[4]。本文所討論的新冠肺炎科學數據是指新冠肺炎疫情監(jiān)測以及相關科學研究活動所產生的各類數據資料和相關信息。
新冠肺炎數據是海量數據資源中的一部分,具有科學數據資源的一般類型劃分。如根據科學數據資源的加工程度,可以將其劃分為原始數據和衍生數據。其中,原始數據指在科學研究中通過實驗、觀測、探測、調查等方式得到的未經進一步加工處理的數據;根據科學研究或數據管理的需要將原始數據進一步加工整理的各種數據集合即為衍生數據。而新冠肺炎數據主要為新冠肺炎疫情中的監(jiān)測和科學研究數據,鑒于新冠肺炎疫情本身監(jiān)測和科學研究的內容特征,從數據的主題角度可以將新冠肺炎數據的類型進一步劃分為疫情監(jiān)控數據、病毒數據、藥物或疫苗數據、治愈患者跟蹤數據等。其中,疫情監(jiān)控數據包括時間、地點、確診病例數、疑似病例數、治愈病例數等信息;病毒數據包括基因組、核酸序列、宿主類型等信息;藥物或疫苗數據包括靶向數據、滅活性、時效等信息;治愈患者跟蹤數據包括治愈患者各項身體健康數據、治愈后后遺癥出現概率及其治愈情況等信息。
不同國家和組織將新冠肺炎相關研究的數據存儲到機構庫中并通過旗下出版物或搭建共享平臺進行共享。在新冠肺炎流行期間,一些國家開放獲取出版的比例較之前有所增加[5]。如Torres-Salinas[6]對12個數據存儲庫中有關新冠肺炎的科學研究成果進行計量分析,發(fā)現每4種新冠肺炎出版物中就有3種可以開放共享。新冠肺炎數據平臺數量逐漸增多,隨之暴露出平臺建設中的許多不足,如我國學術期刊在新冠肺炎防疫期間存在整體上反應不夠迅速、數字化出版能力不強、網絡首發(fā)平臺應用不充分等問題[7]。謝新洲等[8]指出開放的信息不應局限于數據,也應該包括病毒樣本、病毒序列信息、不涉及隱私的臨床資料、診療指南、數據結果的算法代碼、標準和思想等。
經初步調查,目前新冠肺炎數據資源多以數據平臺的形式呈現。由于不同科研團體對數據處理的角度和方法不同,不同國家或組織對科研數據的規(guī)定也存在差異,不同平臺資源類型、更新速度、可共享性、元數據標準等的規(guī)定各不相同。因此,本文對新冠肺炎相關科學數據資源平臺進行調查和分析。
通過調查發(fā)現,新冠肺炎數據平臺呈現明顯的區(qū)域性特征。中國、美國和歐洲更注重新冠肺炎的檢測和研究,進而提供更加豐富的數據資源存儲和共享。在綜合考慮各新冠肺炎數據平臺的權威性、領域影響力及內容覆蓋全面性的基礎上,對21個典型平臺進行對比分析(見表1),除表中信息外,還包括歐洲委員會(European Commission)的COVID-19 Data Portal以及世界蛋白質數據庫基金會(Worldwide Protein Data Bank Foundation)的World Protein Data Bank(PDB)兩個平臺。
表1 典型新冠肺炎數據平臺分布情況
除對新冠肺炎數據平臺的所屬機構、數據主題和資源量進行調查以外,根據數據共享所涉及的主要方面,對數據平臺的更新速度、可共享性、元數據標準、政策、數據接口等進行調查。經研究發(fā)現,新冠肺炎數據平臺所收錄的數據以病毒數據、疫苗或藥物數據以及疫情監(jiān)控數據為主。新冠肺炎數據平臺多為非公益性機構和組織搭建,多數遵循《科學數據管理辦法》、CC協議和FAIR Principles,也有部分平臺簽訂了平臺自身的數據共享倡議。除Infectious Diseases Data Observatory平臺需要郵件申請數據訪問外,其余平臺均可免費查看,極少數平臺需要用戶注冊。與此同時,各平臺均使用API接口完成IP地址之間的跳轉,以適應不同用戶的瀏覽器使用習慣。平臺多包含病毒數據和疫情監(jiān)控數據等科學數據,并盡量收錄更為豐富和多樣的資源來滿足不同用戶的數據需求。不同平臺存儲的科學數據所屬學科領域不同,元數據標準的使用也存在差異,例如病毒基因數據的描述主要使用Genome Metadata標準、蛋白質數據的描述使用PDBx/mmCIF或PDB元數據標準、疫情數據的描述主要使用DC元數據標準。該類數據平臺所包含的科學數據通常由科研人員通過大量實驗、計算得出,科研人員的共享意愿是數據共享的重要影響因素,數據多為動態(tài)更新。
此外,上述調查的平臺中,一部分是新冠肺炎疫情發(fā)生后以滿足科研人員研究需求、提高公眾對新冠肺炎的認識為目的搭建的平臺,如中國科學院的新型冠狀病毒國家科技資源服務系統(tǒng)、中國國家人口健康科學數據中心的新型冠狀病毒肺炎數據共享系統(tǒng)、Nextstrain團隊的Genomic epidemiology of SARS-CoV-2、歐洲委員會的COVID-19 Data Portal等;另一部分是在原收錄數據的基礎上擴展出新冠肺炎相關數據專題,如國家基因庫生命大數據平臺、PDB、COVID-19 Dashboard等。大多數平臺在數據收集和存儲過程中沒有明顯的區(qū)域局限性,科研人員能夠在不同的平臺上檢索查詢或通過API接口訪問不同國家/地區(qū)的病毒基因測序數據及疫情監(jiān)控數據。涉及疫情監(jiān)控數據的平臺在數據上具有一致性,只是在更新頻率及更新速度上有所不同。與此同時,同數據源平臺的數據在內容上具有一致性,例如均來源于PDB的RCSB Protein Data Bank和Protein Data Bank Japan。同一國家的不同平臺其科學數據資源存在一定的交叉關系,例如國家基因庫生命大數據平臺與天津大學生物信息中心的新型冠狀病毒基因組注釋數據庫、美國的COVID-19 Dashboard與COVID-19 Interactive Map,雖然存在交叉關系,但由于數據表現形式和側重點的不同,平臺之間仍然存在差異。
通過上述調查,對新冠肺炎數據平臺的數據共享現狀進行分析,歸納總結了以科學數據倉儲為代表的新冠肺炎科學數據共享的特點。
不同共享平臺提供獲取方式不同,例如PDB支持使用FTP格式直接下載所需數據,COVID-19 Data Portal提供CDP、FTP、Aspera多種下載格式,能夠滿足用戶不同的使用需求。除此之外,所有科學數據平臺均使用API接口實現不同IP地址之間的跳轉,幫助用戶直接訪問所需數據,提高檢索效率。但從平臺數據的更新速度看,上述平臺中極少數明確更新時間間隔,62%的平臺數據更新根據科研進展而定。
此外,有研究表明,科研人員在與陌生人共享數據時,形成了以利益為導向的“心理賬戶”,更加注重數據共享帶來的學術利益、風險程度以及對數據控制感的下降,從而導致數據共享意愿降低[9]。由此看出,科研人員共享數據的意愿以及平臺本身的政策及規(guī)范性約束等對平臺數據更新速度有較大影響。與此類似,經調查發(fā)現,上述大部分平臺在數據共享政策和制度制定的過程中,缺少保障科研人員利益的相關規(guī)范和完整的相關條款,更多是在聲明中指出用戶在使用過程中應當尊重和保護作者和出版機構的版權,數據的使用受到機構所屬領地法律的保護。
在所調查的數據平臺中,極少數平臺有明確質量控制要求,如國家基因庫生命大數據平臺標明所提交的數據需要通過MD5校驗數據傳輸的完整性,且需要通過元數據信息和倫理批件等審核[10-11];PDB上明確了提交數據時要求用戶提供實驗過程以幫助評議委員會對數據進行評審;RCSB Protein Data Bank以及Protein Data Bank Japan同屬于PDB的分數據庫,其數據提交標準與PDB保持一致。除此之外,其他平臺有關科學數據質量評價的約束比較寬泛,主要依靠機構工作人員成立評估委員會或者專門負責的管理人員對提交材料和數據進行審核,對數據的真實性和可靠性評價主觀性較強,缺少客觀的評價標準和完善的質量控制機制。
對新冠肺炎疫情等全球性突發(fā)公共衛(wèi)生事件而言,建立完善的元數據描述標準,有利于實現跨學科合作,發(fā)揮科學數據資源的價值。在應對新冠肺炎疫情的國際合作中,通過開放數據和開放標準構建開放可信的國際數據生態(tài)系統(tǒng)日益得到各國的重視[12]。數據標準缺失、元數據與國際標準(Sche-ma.org和DCAT)不兼容以及通過搜索引擎(如百度、微軟、必應和谷歌等)難以發(fā)現和定位開放數據集等現實問題對國際合作中的主動權和話語權具有消極影響[13]。
由前述調查得知,平臺元數據標準的使用存在很大差異,同一平臺綜合使用兩種及以上元數據標準的現象約占43%。使用頻率較高的元數據標準有Genome Metadata標準、DC元數據標準、PDBx/mmCIF標準、Darwin Core標準等。由此可知,相似或相同領域的元數據標準使用差異大,缺少統(tǒng)一的描述標準,尤其是新冠肺炎領域科研成果學術交流平臺所使用的機構自定義元數據標準,若缺乏互操作機制的保障則不利于科學數據資源的共享。
根據前述調查結果,平臺涉及的數據類型主要針對病毒及其蛋白質信息、診療方案以及一些基礎數據的收集整理,僅部分平臺涉及治愈患者數量,暫未發(fā)現有平臺涉及患者治愈后健康情況的后續(xù)跟蹤研究數據(如患者治愈后身體各項指標與未患病之前是否存在變化,產生后遺癥的概率,后遺癥是否存在可治愈性等)。由此看出,新冠肺炎數據平臺目前收錄的數據類型以疫情監(jiān)控數據和病毒數據研究為主,缺少病例治愈后健康數據監(jiān)控一環(huán),對于病例的數據跟蹤周期尚不完整,不利于新冠肺炎從發(fā)現到治愈后整個周期的研究數據的整體性和可驗性。
完善、明晰的制度環(huán)境是科學數據共享服務生態(tài)體系建立與發(fā)展的外部環(huán)境,科學和高水平的標準規(guī)范是生態(tài)系統(tǒng)持續(xù)演進的前提與基礎[14]。2020年2月11—12日,在世界衛(wèi)生組織召開的“新冠肺炎全球研究與創(chuàng)新論壇”上,來自世界各地的科學家一致認為對新冠肺炎相關數據及研究成果應當公開,提供公平公正的獲取[15]。
科研人員在數據共享平臺公開自己的研究成果,可能會出現研究成果被他人竊取的風險,除此之外,研究數據的公開,使得科研人員的收益下降,切身利益受損。因此,在數據開放共享實踐穩(wěn)步推進的過程中,政策和制度約束方面同樣需要引起高度關注。國家相關部門應該根據數據共享情況制定政策條款,保障科研人員的知識產權和切身利益。與此同時,數據共享有利于科學研究的可驗證和可復用,加強對數據共享的監(jiān)督,可以增強學術研究的透明度,為科研人員的進一步工作提供有效的數據來源和知識基礎?;诖?,科研人員應當對數據共享樹立正確的認識,提高數據共享觀念,以此促進新冠肺炎相關研究數據的開放,進一步推動新冠肺炎研究逐漸深入,提升全球合作和突發(fā)公共衛(wèi)生事件的全球應對能力。
數據共享最終是為了釋放數據的價值,數據價值的體現在于數據使用和數據質量,因此數據質量的審核過程至關重要,尤其是科學數據平臺,應當根據其所收錄數據類型的不同建立客觀、完善的數據質量評價體系。目前,國內科學數據機構出臺的關于科學數據質量的評估體系只涉及準確性、完整性和可用性等寬泛的指標[16]。《科學數據管理辦法》[17]《中國科學院科學數據管理與開放共享辦法》[18]等對論文關聯數據匯交機制進行規(guī)范,確??蒲薪Y論可驗性。
馬費成等[19]提出生命周期方法使用對象的3個條件——“連續(xù)性、不可逆轉性和迭代性”,丁寧等[20]認為生命周期法也適用于科學數據領域,科學數據生命周期與科研流程密切相關,科學數據生命周期管理的本質是依據科研工作流程管理數據。在對新冠肺炎數據開展質量控制時,可參照數據生命周期的方法對新冠肺炎科學數據的共享過程進行階段和層次劃分,進而建立科學數據質量評價指標體系,有助于明確權責主體,確保整個流程中的數據受到有效的監(jiān)督,提高數據質量。具體生命周期階段可以根據科研活動的需要具體劃分,根據生命周期構建的科學數據質量評價指標體系要適用于機構自身,并且在實踐過程中不斷精進完善,充分論證其科學性和可行性。
元數據是描述信息資源或數據對象的數據,其最本質、最抽象的定義就是:關于數據的數據[21]。1994年電氣和電子工程師協會(IEEE)在白皮書[22]中明確了元數據應用的4種場景:查詢、瀏覽、檢索數據,數據獲取、質量保證、再加工,系統(tǒng)間轉換數據,存儲、建立數據檔案。元數據標準的構建能夠使得元數據在數據開放共享過程中發(fā)揮更好的作用。隨著新冠肺炎的流行,在數據共享實踐中忽略元數據標準的弊端逐漸顯露出來[23]。在新基建和新技術引領我國數據中心產業(yè)高質量發(fā)展的時期,對于數據中心的建設,應當注重元數據標準的共同開發(fā)和應用,打破“數據孤島”,實現數據資源之間的連接和互操作性。
因此,構建新冠肺炎科學數據共享平臺、開展數據共享時可多借鑒和使用國際認可度高、傳播范圍廣、應用比較成熟的元數據標準,便于更好地與國際科學數據共享平臺接軌,提高不同組織、不同領域之間元數據的互操作性。除此之外,應該積極參與元數據標準開發(fā)和推廣的國際交流與合作,為科學數據共享的可持續(xù)健康發(fā)展提供堅實基礎。
現階段,新冠肺炎的數據收錄應當對“治愈患者健康情況跟蹤數據”進行覆蓋。患者數據跟蹤從疑似、確診、治療到治愈后為一個完整周期,因此,對于治愈患者健康情況數據的跟蹤必不可少,這部分數據的收錄可以為新冠肺炎臨床研究提供有力數據支撐,支持驗證臨床實驗數據結果[24],為逐步改進治療方案提供有效案例。除此之外,通過新冠肺炎數據共享平臺以表格、圖片、地圖等多種可視化形式進行開放共享,還可以為患者治愈后續(xù)相關問題提供參考依據。
治愈患者健康情況跟蹤數據涉及個人信息,個人信息的使用方式及使用范圍首先應由個人自主決定,只有尊重和保護個體對個人信息的自主決定權,將授權同意作為使用的一般要件,才能保障個人信息利用行為的正當性與合法性,進而挖掘和釋放個人信息應有的資源價值[25]。因此,在對治愈患者健康數據進行收錄的同時,應當保障患者的知情權,這一環(huán)節(jié)需要相關政策文件的約束,除此之外,還要對患者的相關隱私信息使用進行規(guī)范,維護患者個人隱私權。