■文/鄭思聰(中國(guó)科學(xué)技術(shù)信息研究所)
2021年8月,經(jīng)合組織(OECD)發(fā)布報(bào)告《開(kāi)放科學(xué)——推動(dòng)數(shù)字時(shí)代的發(fā)現(xiàn)》指出,數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新和數(shù)據(jù)密集型科學(xué)為解決重大社會(huì)挑戰(zhàn)帶來(lái)了巨大希望。OECD認(rèn)為,開(kāi)放科學(xué)促進(jìn)了出版物、數(shù)據(jù)、算法、軟件和工作流程的開(kāi)放獲取,在加速科學(xué)研究和創(chuàng)新方面發(fā)揮了重要作用,但當(dāng)前數(shù)據(jù)開(kāi)放共享進(jìn)程遠(yuǎn)落后于出版物開(kāi)放共享進(jìn)程,在新冠肺炎大流行的背景下對(duì)數(shù)據(jù)開(kāi)放共享的需求急劇提升。針對(duì)這一問(wèn)題,OECD給出了對(duì)公共資助產(chǎn)出的研究數(shù)據(jù)進(jìn)行開(kāi)放共享的七大建議,涉及數(shù)據(jù)治理、技術(shù)標(biāo)準(zhǔn)和實(shí)踐、人員激勵(lì)和獎(jiǎng)勵(lì)、基礎(chǔ)設(shè)施、國(guó)際合作等方面。
隨著經(jīng)濟(jì)和社會(huì)日益以知識(shí)為基礎(chǔ),數(shù)據(jù)成為一種關(guān)鍵資源。數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新正在改變社會(huì),并對(duì)應(yīng)對(duì)氣候變化、人口變化、流行病等全球性挑戰(zhàn)具有重要意義。近十余年里,數(shù)據(jù)驅(qū)動(dòng)的創(chuàng)新和數(shù)據(jù)密集型科學(xué)推動(dòng)科學(xué)格局發(fā)生了巨大變化,開(kāi)放科學(xué)和開(kāi)放數(shù)據(jù)已成為主流趨勢(shì)。
OECD認(rèn)為,開(kāi)放科學(xué)主要包括三大方面,分別為:通過(guò)信息和通信技術(shù)實(shí)現(xiàn)的開(kāi)放獲取、開(kāi)放研究數(shù)據(jù)和開(kāi)放合作。在實(shí)踐中,開(kāi)放科學(xué)具有創(chuàng)造科學(xué)新發(fā)現(xiàn)的機(jī)會(huì)、推動(dòng)科研成果再現(xiàn)、促進(jìn)跨學(xué)科合作、提高研究效率和公共投資回報(bào)率、提升公眾對(duì)科學(xué)研究的支持和信任等諸多益處。特別是在新冠肺炎全球大流行的背景下,開(kāi)放科學(xué)政策可以消除研究數(shù)據(jù)和思想自由流動(dòng)的障礙,加快推進(jìn)疾病防治相關(guān)研究。開(kāi)放科學(xué)涵蓋一系列值得討論的主題,OECD重點(diǎn)討論了其中兩大主要支柱:出版物開(kāi)放獲取和開(kāi)放數(shù)據(jù)。
出版物開(kāi)放獲取將會(huì)帶動(dòng)實(shí)現(xiàn)更為全面的文獻(xiàn)引用,這意味著在開(kāi)放和免費(fèi)獲取方式下發(fā)表的論文往往比在付費(fèi)方式下發(fā)表的論文對(duì)同行的影響更大。一項(xiàng)針對(duì)30萬(wàn)篇文章的大規(guī)模研究顯示,至少28%的學(xué)術(shù)文獻(xiàn)是開(kāi)放獲取的,但開(kāi)放獲取的主要途徑不是綠色開(kāi)放獲?。ňG色開(kāi)放獲取是指作者將研究文稿的不同版本自行存檔至開(kāi)放獲取的平臺(tái))、金色開(kāi)放獲取(指由出版商提供獲取,在研究發(fā)表時(shí)提供即時(shí)、永久的開(kāi)放獲取渠道)或混合開(kāi)放獲?。ㄊ且环N混合模式,允許作者支付一篇文章的出版費(fèi)用,并以金色開(kāi)放獲取論文的方式出版特定作品),而是在出版商網(wǎng)站上免費(fèi)獲取文章,無(wú)需明確的開(kāi)放許可。研究還指出,對(duì)出版物的開(kāi)放獲取也因?qū)W科而異,在2009年至2015年期間發(fā)表的天文學(xué)、天體物理學(xué)、胚胎學(xué)、熱帶醫(yī)學(xué)和生育學(xué)論文有80%以上實(shí)現(xiàn)了開(kāi)放獲取,而藥學(xué)、無(wú)機(jī)化學(xué)與核化學(xué)、犯罪學(xué)和應(yīng)用化學(xué)的論文只有不到10%實(shí)現(xiàn)了開(kāi)放獲取。同時(shí),綠色開(kāi)放獲取的普及率也存在很大差異,核物理和粒子物理領(lǐng)域的綠色開(kāi)放獲取比例超過(guò)50%,麻醉學(xué)和熱帶醫(yī)學(xué)領(lǐng)域卻不到2%。
另?yè)?jù)OECD 2016年的調(diào)查,約50%~55%的文獻(xiàn)在出版3~4年后可實(shí)現(xiàn)開(kāi)放獲取。而與來(lái)自O(shè)ECD國(guó)家的學(xué)者相比,來(lái)自新興國(guó)家和發(fā)展中國(guó)家的學(xué)者在論文出版方面更依賴開(kāi)放獲取期刊。
OECD認(rèn)為,開(kāi)放數(shù)據(jù)是指“任何人都可以在不受技術(shù)或法律限制的情況下訪問(wèn)和可再用(Reuse)的數(shù)據(jù)”,而且使用者通常無(wú)需承擔(dān)任何費(fèi)用。目前,只要不涉及隱私、國(guó)家安全、知識(shí)產(chǎn)權(quán)或其他公共和私人利益,共享研究數(shù)據(jù)已成為一種默認(rèn)規(guī)范。
一項(xiàng)針對(duì)全球1381個(gè)研究數(shù)據(jù)庫(kù)的調(diào)查顯示,2015年86%的數(shù)據(jù)庫(kù)實(shí)現(xiàn)了對(duì)部分或全部數(shù)據(jù)的開(kāi)放訪問(wèn)(其中50%為完全開(kāi)放),12%的數(shù)據(jù)庫(kù)向特定用戶提供限制性訪問(wèn),2%的數(shù)據(jù)庫(kù)使用封閉數(shù)據(jù)或限制性訪問(wèn)的混合解決方案。
另?yè)?jù)OECD 2018年針對(duì)國(guó)際科學(xué)作者的調(diào)查,67%的科研成果會(huì)產(chǎn)生數(shù)據(jù)或代碼,但作者更愿意分享其數(shù)據(jù)而不是代碼,只有20%的作者會(huì)將其代碼歸檔到數(shù)據(jù)庫(kù)中或作為支撐材料提交至期刊。數(shù)據(jù)的可再用性是目前需要克服的障礙,因?yàn)榧词乖诠蚕頃r(shí),數(shù)據(jù)也不總是可查找、可訪問(wèn)、可互操作和可再用的,通常既不附帶相關(guān)元數(shù)據(jù),也不符合相關(guān)標(biāo)準(zhǔn),匹配標(biāo)識(shí)符的數(shù)據(jù)更少。調(diào)查顯示,僅有12%的數(shù)據(jù)是可再用的,但需要支付費(fèi)用。另外,數(shù)據(jù)共享還面臨加工和傳播成本高以及知識(shí)產(chǎn)權(quán)問(wèn)題,多數(shù)資助機(jī)構(gòu)也尚未對(duì)數(shù)據(jù)共享問(wèn)題提出明確要求。
過(guò)去20年,隨著全球?qū)﹂_(kāi)放科學(xué)潛在影響認(rèn)識(shí)的不斷加深,一些OECD成員國(guó)與伙伴經(jīng)濟(jì)體就開(kāi)放科學(xué)部署了相關(guān)政策和項(xiàng)目,并取得了重大進(jìn)展。
在政府層面,根據(jù)OECD和歐盟委員會(huì)共同展開(kāi)的調(diào)查,截至2017年,世界各國(guó)和地區(qū)共有181項(xiàng)有關(guān)開(kāi)放科學(xué)的政策,主要涵蓋如下領(lǐng)域:支持研究基礎(chǔ)設(shè)施建設(shè);支持開(kāi)放獲取數(shù)據(jù)的國(guó)家政策和戰(zhàn)略(通常與更廣泛的開(kāi)放科學(xué)戰(zhàn)略或開(kāi)放政府舉措相聯(lián));設(shè)立治理機(jī)構(gòu),推動(dòng)開(kāi)放獲取;設(shè)立促進(jìn)數(shù)據(jù)開(kāi)放獲取的網(wǎng)絡(luò)和合作倡議。例如,芬蘭政府出臺(tái)的“開(kāi)放科學(xué)與研究計(jì)劃”最為成熟,具有借鑒價(jià)值。該計(jì)劃建立在“芬蘭研究數(shù)據(jù)計(jì)劃”的基礎(chǔ)上,旨在將開(kāi)放科學(xué)與研究貫穿整個(gè)研究過(guò)程,同時(shí)打造研究領(lǐng)域的數(shù)字化服務(wù),為開(kāi)放科學(xué)發(fā)展創(chuàng)建參考體系結(jié)構(gòu),為研究人員提供指南和支持,為開(kāi)放獲取和長(zhǎng)期存儲(chǔ)元數(shù)據(jù)創(chuàng)建模型和工具。另外,有些國(guó)家開(kāi)始設(shè)立特定的開(kāi)放科學(xué)治理機(jī)構(gòu)或相應(yīng)職位,如法國(guó)設(shè)立國(guó)家首席數(shù)據(jù)官一職,負(fù)責(zé)協(xié)調(diào)政府?dāng)?shù)據(jù)相關(guān)工作,促進(jìn)政府?dāng)?shù)據(jù)(包括研究數(shù)據(jù))的上傳、治理、流通和再利用。
在學(xué)術(shù)機(jī)構(gòu)和數(shù)據(jù)存儲(chǔ)庫(kù)層面,一些國(guó)家和地區(qū)已經(jīng)構(gòu)建了基于國(guó)際合作的存儲(chǔ)庫(kù)網(wǎng)絡(luò),如歐洲開(kāi)放獲取基礎(chǔ)設(shè)施研究項(xiàng)目、歐洲科學(xué)云、德國(guó)國(guó)家研究數(shù)據(jù)基礎(chǔ)設(shè)施、美國(guó)國(guó)家衛(wèi)生公共研究院和日本開(kāi)放科學(xué)研究數(shù)據(jù)基礎(chǔ)設(shè)施等。
總體來(lái)看,目前對(duì)數(shù)據(jù)的開(kāi)放獲取滯后于對(duì)出版物的開(kāi)放獲取。截至2017年,歐洲超過(guò)92%的大學(xué)已經(jīng)制定了出版物開(kāi)放獲取政策,但只有不到28%的大學(xué)制定了數(shù)據(jù)開(kāi)放獲取政策。究其原因,基礎(chǔ)設(shè)施不是主要問(wèn)題,已經(jīng)有超過(guò)83%的機(jī)構(gòu)擁有自建存儲(chǔ)庫(kù)或已加入共享存儲(chǔ)庫(kù),其主要障礙在于對(duì)研究數(shù)據(jù)開(kāi)放共享的益處認(rèn)識(shí)有限、缺乏國(guó)家層面的政策指導(dǎo)方針、缺少推廣研究數(shù)據(jù)開(kāi)放共享的激勵(lì)措施、研究數(shù)據(jù)開(kāi)放的成本較高等。
在新冠肺炎全球大流行的背景下,盡管開(kāi)放科學(xué)進(jìn)程得以加速,但仍然面臨諸多挑戰(zhàn),具體包括:所有數(shù)據(jù)的可查找性、可訪問(wèn)性、可互操作性和可再用性仍舊不足,導(dǎo)致數(shù)據(jù)解釋和再利用存在困難;數(shù)據(jù)來(lái)源比較分散;大多數(shù)OECD國(guó)家數(shù)據(jù)保護(hù)政策嚴(yán)格,個(gè)人健康數(shù)據(jù)開(kāi)放共享是一項(xiàng)挑戰(zhàn);數(shù)據(jù)透明度低,政府可能會(huì)干預(yù)新冠病毒檢測(cè)過(guò)程,以防止“確診病例”激增;出版商積極參與的開(kāi)放獲取項(xiàng)目時(shí)效相對(duì)較短,未來(lái)是否持續(xù)開(kāi)放存在不確定性;被廣泛應(yīng)用預(yù)印本論文雖加速了新冠相關(guān)研究知識(shí)的傳播,但卻存在質(zhì)量風(fēng)險(xiǎn)。
因此,為推動(dòng)數(shù)據(jù)開(kāi)放共享,OECD首先針對(duì)公共資助產(chǎn)出的研究數(shù)據(jù)提出了七大方面的開(kāi)放獲取建議。
在數(shù)據(jù)治理方面,建議:最大限度地推動(dòng)公共資助產(chǎn)出的數(shù)字資產(chǎn)(包括研究數(shù)據(jù)、元數(shù)據(jù)、算法等)實(shí)現(xiàn)開(kāi)放獲取和可再用,確保數(shù)據(jù)便于查找并具備用戶友好性,用戶不會(huì)因其所在地或國(guó)籍而受到歧視;在數(shù)據(jù)治理過(guò)程中,進(jìn)行透明管理并降低潛在風(fēng)險(xiǎn),確保數(shù)據(jù)在安全的環(huán)境中提供給用戶。
在技術(shù)標(biāo)準(zhǔn)和實(shí)踐方面,建議:通過(guò)分配唯一的數(shù)字永久性標(biāo)識(shí)符(PID)并發(fā)布描述性元數(shù)據(jù),提高數(shù)字資產(chǎn)的可查找性;在學(xué)科領(lǐng)域內(nèi)部和跨學(xué)科領(lǐng)域發(fā)展基礎(chǔ)設(shè)施和服務(wù),提高數(shù)字資產(chǎn)的可訪問(wèn)性;強(qiáng)化語(yǔ)義(包括本體和科學(xué)術(shù)語(yǔ))、法律(使用權(quán))和技術(shù)(如機(jī)器可讀性)標(biāo)準(zhǔn),增強(qiáng)可互操作性;加大對(duì)開(kāi)放、可自由獲取且國(guó)際公認(rèn)的技術(shù)標(biāo)準(zhǔn)的支持,推動(dòng)其開(kāi)發(fā)、維護(hù)、應(yīng)用和推廣。
在責(zé)任、所有權(quán)和管理方面,建議:在整個(gè)研究數(shù)據(jù)生態(tài)系統(tǒng)中明確界定并分配各項(xiàng)責(zé)任、所有權(quán)和管理職責(zé);調(diào)整和實(shí)施相關(guān)許可,以加速科學(xué)發(fā)現(xiàn)和創(chuàng)新,并保護(hù)研究數(shù)據(jù)和數(shù)字資產(chǎn)產(chǎn)出者的權(quán)利,如公私合作研究產(chǎn)出的數(shù)字資產(chǎn)應(yīng)盡可能開(kāi)放共享,并要確保私營(yíng)部門的合法權(quán)益;擴(kuò)大公共資助產(chǎn)出的數(shù)字資產(chǎn)的應(yīng)用,如加大在人工智能、文本和數(shù)據(jù)挖掘等領(lǐng)域的應(yīng)用。
在激勵(lì)和獎(jiǎng)勵(lì)方面,建議:在研究人員招聘、晉升和課題評(píng)審時(shí)將數(shù)據(jù)和軟件引用情況視為常設(shè)考核或評(píng)價(jià)指標(biāo);在對(duì)研究人員和科研輔助人員進(jìn)行獎(jiǎng)勵(lì)時(shí)將數(shù)據(jù)和代碼創(chuàng)建人員及維護(hù)人員視為關(guān)鍵貢獻(xiàn)者。
在基礎(chǔ)設(shè)施方面,建議:確?;A(chǔ)設(shè)施(包括數(shù)據(jù)和軟件存儲(chǔ)庫(kù)及相關(guān)服務(wù))的可持續(xù)性,以優(yōu)先對(duì)公共資助產(chǎn)出的數(shù)字資產(chǎn)進(jìn)行短期、中期或長(zhǎng)期保存;提高全球研究基礎(chǔ)設(shè)施之間的互操作性,以激勵(lì)國(guó)家投資和創(chuàng)新;鼓勵(lì)保護(hù)具有長(zhǎng)遠(yuǎn)意義的高價(jià)值數(shù)字資產(chǎn),包括在特定基礎(chǔ)設(shè)施不復(fù)存在的情況下仍能對(duì)數(shù)字資產(chǎn)提供維護(hù)和支持;確保資助工具、數(shù)字資產(chǎn)長(zhǎng)期保存審查標(biāo)準(zhǔn)以及基礎(chǔ)設(shè)施預(yù)期壽命之間的適當(dāng)匹配;鼓勵(lì)私營(yíng)部門投資研究數(shù)據(jù)基礎(chǔ)設(shè)施,并采取措施確保這些基礎(chǔ)設(shè)施的公開(kāi)性、可靠性、完整性和可遷移性,以保護(hù)長(zhǎng)期公共利益。
在人力資本方面,建議:培養(yǎng)數(shù)據(jù)驅(qū)動(dòng)型研究和創(chuàng)新所需的技能,如軟件開(kāi)發(fā)技能和數(shù)據(jù)管理技能,培養(yǎng)對(duì)象涉及研究人員、學(xué)生、數(shù)據(jù)管理人員等;開(kāi)展培訓(xùn),提高政策制定者和研究管理人員對(duì)有效管理數(shù)字資產(chǎn)的理解,并確保公民具備一定的數(shù)據(jù)素養(yǎng),能夠高效利用研究數(shù)據(jù);開(kāi)創(chuàng)有吸引力的職業(yè)道路,吸引和留住數(shù)據(jù)科學(xué)家和軟件領(lǐng)域尖端人才。