劉桂鋒 王清炫 韓牧哲
關(guān)鍵詞:FAIR原則;期刊論文;支撐數(shù)據(jù);數(shù)據(jù)管理;數(shù)據(jù)科學(xué);應(yīng)用評估;案例分析
隨著大數(shù)據(jù)時(shí)代的到來,科學(xué)研究模式也發(fā)生改變,除了傳統(tǒng)的實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué),現(xiàn)在還出現(xiàn)了被稱為“數(shù)據(jù)密集型科學(xué)”的第4種科學(xué)發(fā)現(xiàn)模式。海量的科學(xué)數(shù)據(jù)對多個(gè)學(xué)科領(lǐng)域的科研活動(dòng)產(chǎn)生了深遠(yuǎn)的影響和顯著的推動(dòng)作用。隨著科技創(chuàng)新的不斷發(fā)展,系統(tǒng)化、可靠性高的科學(xué)數(shù)據(jù)支持變得越來越關(guān)鍵。如何對這些數(shù)據(jù)進(jìn)行高效地管理和利用,成為促進(jìn)各研究領(lǐng)域向好發(fā)展的重要因素。隨著開放科學(xué)運(yùn)動(dòng)向縱深發(fā)展,科學(xué)數(shù)據(jù)逐漸占據(jù)與學(xué)術(shù)論文同等甚至更為重要的位置??茖W(xué)數(shù)據(jù)是科研成果的重要產(chǎn)出,支撐學(xué)術(shù)論文的科學(xué)數(shù)據(jù)在科學(xué)研究活動(dòng)中的地位越來越重要。
支撐論文結(jié)論的研究數(shù)據(jù)(Supporting Data,論文支撐數(shù)據(jù)或稱為論文關(guān)聯(lián)數(shù)據(jù)),是論文研究不可或缺的部分,是論文結(jié)論的驗(yàn)證基礎(chǔ),只有通過開放共享,才能保證論文結(jié)論得到客觀檢驗(yàn)、重復(fù)驗(yàn)證和可靠應(yīng)用的保障。國務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》、中國科學(xué)院的《科學(xué)數(shù)據(jù)管理與開放共享辦法》等倡議作者將論文支撐數(shù)據(jù)開放共享。國外,許多期刊強(qiáng)烈鼓勵(lì)或要求作者把論文支撐數(shù)據(jù)提交到公共平臺共享。如SpringNature、Elsevier、Wiley等國際大型學(xué)術(shù)期刊出版商均推薦符合FAIR原則的存儲(chǔ)平臺,根據(jù)數(shù)據(jù)出版流程提出相應(yīng)政策。期刊論文支撐數(shù)據(jù)的開放,必將對推動(dòng)科學(xué)數(shù)據(jù)共享重用、數(shù)據(jù)引用和科研評價(jià)具有重要作用,也是治理學(xué)術(shù)環(huán)境和學(xué)術(shù)評價(jià)機(jī)制的重要策略。中國科學(xué)院文獻(xiàn)情報(bào)中心主辦的中文核心期刊《數(shù)據(jù)分析與知識發(fā)現(xiàn)》是我國圖書情報(bào)學(xué)乃至社會(huì)科學(xué)領(lǐng)域?qū)崿F(xiàn)研究論文支撐數(shù)據(jù)開放共享的先行者,該期刊出臺了《論文支撐數(shù)據(jù)公共保存與共享暫行辦法》,保障論文支撐數(shù)據(jù)的可靠檢驗(yàn)、嚴(yán)謹(jǐn)和高質(zhì)量,規(guī)范科研人員提交和引用數(shù)據(jù)的行為。通過初步調(diào)研發(fā)現(xiàn),《數(shù)據(jù)分析與知識發(fā)現(xiàn)》期刊的支撐數(shù)據(jù)公共保存與共享策略與國際通用的促進(jìn)科學(xué)數(shù)據(jù)共享和重用的FAIR原則有高度的領(lǐng)域契合性。因此,本文嘗試結(jié)合FAIR原則構(gòu)建指標(biāo)體系,以《數(shù)據(jù)分析與知識發(fā)現(xiàn)》期刊的論文支撐數(shù)據(jù)為樣例,對相關(guān)科學(xué)數(shù)據(jù)的開放共享模式進(jìn)行分析和評價(jià),并為社科類中文學(xué)術(shù)期刊的科學(xué)數(shù)據(jù)的共享和重用前景提出合理化建議與優(yōu)化策略。
1相關(guān)研究現(xiàn)狀
1.1FAIR原則研究概述
隨著數(shù)據(jù)密集型時(shí)代的到來,開放共享和管理科學(xué)數(shù)據(jù)逐漸成為開放科學(xué)建設(shè)的核心。為解決科研數(shù)據(jù)領(lǐng)域的數(shù)據(jù)發(fā)現(xiàn)、訪問、集成分析等問題,F(xiàn)AIR原則于2014年在荷蘭萊頓的洛倫茲研討會(huì)上被首次提出,并于2016年由FORCE11小組正式發(fā)布。此后,F(xiàn)AIR原則逐漸受到科研領(lǐng)域,尤其是科學(xué)數(shù)據(jù)開放共享和管理領(lǐng)域的關(guān)注。FAIR原則作為一套促進(jìn)和確??茖W(xué)數(shù)據(jù)可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的原則,推進(jìn)其實(shí)施,對保障科學(xué)數(shù)據(jù)充分共享與重用,以及最大限度地發(fā)揮科學(xué)數(shù)據(jù)的價(jià)值具有重要意義。FAIR原則自被提出以來就成為國內(nèi)外研究的熱點(diǎn),當(dāng)前可將FAIR原則的相關(guān)研究歸為FAIR原則理論研究和實(shí)踐應(yīng)用兩個(gè)方面。
理論上,國內(nèi)外主要對FAIR原則內(nèi)容進(jìn)行分析解析。邢文明等對FAIR原則進(jìn)行解讀,提出背景、內(nèi)容、實(shí)施路徑以及相關(guān)案例分析。邱春艷對歐盟推動(dòng)FAIR原則的內(nèi)容、實(shí)踐路徑進(jìn)行調(diào)查。Boeckhout M等對FAIR原則在數(shù)據(jù)管理實(shí)踐中面臨的問題進(jìn)行了闡述。Juty N等單獨(dú)對FAIR原則中的F(可發(fā)現(xiàn)性)原則進(jìn)行了詳細(xì)分析。陳書賢等對國內(nèi)外FAIR原則研究成果及應(yīng)用現(xiàn)狀進(jìn)行了梳理。
實(shí)踐應(yīng)用上,我國FAIR原則的應(yīng)用已拓展到科學(xué)數(shù)據(jù)管理平臺、資源及領(lǐng)域數(shù)據(jù)庫中。在現(xiàn)狀調(diào)研方面,李楠楠等、李騏安等分別調(diào)研了國內(nèi)外科學(xué)數(shù)據(jù)中心和科學(xué)數(shù)據(jù)資源的FAIR應(yīng)用情況。戚筠等、李春秋等分別調(diào)研了生物信息學(xué)領(lǐng)域和醫(yī)學(xué)領(lǐng)域數(shù)據(jù)平臺的FAIR應(yīng)用情況。在基于FAIR原則的出版控制方面,國內(nèi)成果較少,目前僅見雷雪、孔麗華等在FAIR原則背景下分別對科技期刊數(shù)據(jù)出版現(xiàn)狀、政策所做的分析。國際上FAIR原則的實(shí)踐應(yīng)用則更加廣泛,目前,國外已有相關(guān)組織構(gòu)建了FAIR數(shù)據(jù)評估的模型和方法,如FAIR Metrics Group制定14條指標(biāo)評估FAIR化程度;研究數(shù)據(jù)聯(lián)盟(RDA)設(shè)置FAIR成熟度模型,也制定一套通用的FAIR評估指標(biāo)。同時(shí),F(xiàn)AIR原則已充分應(yīng)用到醫(yī)學(xué)、生物科學(xué)、農(nóng)業(yè)等多個(gè)學(xué)科領(lǐng)域并成立基于FAIR原則的數(shù)據(jù)管理項(xiàng)目,如Arefolov A等為臨床實(shí)驗(yàn)生物標(biāo)志物數(shù)據(jù)FAIR化開發(fā)數(shù)據(jù)管理方法:RDA在生物科學(xué)、農(nóng)業(yè)領(lǐng)域分別成立專門的BDIIG和IGAD數(shù)據(jù)研究小組,促進(jìn)生物、農(nóng)業(yè)領(lǐng)域數(shù)據(jù)共享管理,確保數(shù)據(jù)可訪問和可重用;Lannom L等將FAIR原則應(yīng)用到生物科學(xué)和地球科學(xué)中,數(shù)字化處理生物/地球標(biāo)本數(shù)據(jù),實(shí)現(xiàn)無縫統(tǒng)一訪問。
1.2FAIR原則評估框架現(xiàn)狀
FAIR提供了通用的原則和指導(dǎo),以確保數(shù)據(jù)達(dá)到最佳的發(fā)現(xiàn)和重用狀態(tài)。在數(shù)據(jù)建設(shè)和管理過程中,要不斷了解數(shù)據(jù)與FAIR原則的符合度,以便明確需要改進(jìn)的方向。因此,建立明確、可識別、可測量且有通用性的評估指標(biāo)非常關(guān)鍵。目前,國外已有研究機(jī)構(gòu)開發(fā)出了FAIR指標(biāo)評估體系,其中較具代表性的為:由FAIR原則的提出者等自主成立的FAIR指標(biāo)小組在2018年提出的FAIR遵循度評估指標(biāo)體系:澳大利亞研究數(shù)據(jù)共享組織(ARDC)提出的FAIR數(shù)據(jù)評估工具,從FAIR 4個(gè)維度進(jìn)行了問題設(shè)計(jì):荷蘭數(shù)據(jù)存檔與網(wǎng)絡(luò)服務(wù)(The Dutch Data Archiving and Networked Services,DANS)于2017年發(fā)布FAIRdat評估工具,從可發(fā)現(xiàn)性、可訪問性、可操作性3個(gè)維度設(shè)置指標(biāo);由澳大利亞聯(lián)邦科學(xué)與工業(yè)研究組織(Common-wealth Scientific and Industrial Research Organisation,CSIRO)基于數(shù)據(jù)評級系統(tǒng)開發(fā)的5星數(shù)據(jù)評估工具,在所有問題完成后,會(huì)給出FAIR 4個(gè)維度的星級表示:基于成熟度理論的評估工具以研究數(shù)據(jù)聯(lián)盟的FAIR數(shù)據(jù)成熟度模型(FAIR Data Ma-turity Model)為代表,并在此基礎(chǔ)上衍生出FAIRs-FAIR數(shù)據(jù)對象評估指標(biāo)。目前,我國尚無被廣泛應(yīng)用的成熟的FAIR指標(biāo)評價(jià)體系。
綜上所述,國內(nèi)外對于FAIR原則的解讀研究充分,在不同領(lǐng)域的實(shí)踐也進(jìn)行積極探索。隨著FAIR原則不斷推廣,國內(nèi)外期刊出版商發(fā)布論文支撐數(shù)據(jù)開放共享政策來促進(jìn)數(shù)據(jù)FAIR化,期刊論文支撐數(shù)據(jù)是FAIR原則應(yīng)用的重要領(lǐng)域,但相關(guān)研究不足,因此,為進(jìn)一步掌握社科類中文學(xué)術(shù)期刊論文支撐數(shù)據(jù)的開放重用水平,本文以在實(shí)踐領(lǐng)域有代表性的《數(shù)據(jù)分析與知識發(fā)現(xiàn)》期刊為例,結(jié)合已有的代表性FAIR評估模型,針對中文期刊論文支撐數(shù)據(jù)的獨(dú)特屬性,提出了針對中文期刊論文支撐數(shù)據(jù)開放性評估的FAIR指標(biāo)評價(jià)體系。
2中文期刊論文支撐數(shù)據(jù)FAIR指標(biāo)評價(jià)體系的構(gòu)建
FAIR由可發(fā)現(xiàn)(Findable)、可訪問(Accessi-ble)、可互操作(Interoperable)和可重用(Reusable)4個(gè)維度和15條具體細(xì)則構(gòu)成,各細(xì)則相互獨(dú)立、相互關(guān)聯(lián)。經(jīng)過預(yù)調(diào)研,發(fā)現(xiàn)期刊論文支撐數(shù)據(jù)集具有獨(dú)特的屬性。因此,需要根據(jù)數(shù)據(jù)集的特征,從FAIR的4個(gè)維度完善相關(guān)細(xì)則,設(shè)計(jì)新的評估指標(biāo)體系。已有的代表性FAIR評估模型對于構(gòu)建期刊論文支撐數(shù)據(jù)的FAIR指標(biāo)評價(jià)體系有一定的借鑒作用。本文通過對FAIR遵循度評估指標(biāo)體系、5星數(shù)據(jù)評估、FAIRdat、FAIRsFAIR評估指標(biāo)和FAIR數(shù)據(jù)評估工具進(jìn)行對比分析,綜合考慮各評估工具的優(yōu)勢和指標(biāo)設(shè)計(jì)特點(diǎn)。同時(shí),針對《數(shù)據(jù)分析與知識發(fā)現(xiàn)》已公開的期刊論文支撐數(shù)據(jù)的相關(guān)特征以及自身對指標(biāo)的理解,從各評估工具中選取部分指標(biāo),并對指標(biāo)進(jìn)行增加和調(diào)整,以確保指標(biāo)的科學(xué)性和適用性,構(gòu)建一個(gè)面向中文期刊論文支撐數(shù)據(jù)開放性評估的FAIR指標(biāo)評價(jià)體系。
2.1FAIR原則評估框架對比
通過比較發(fā)現(xiàn),除FAIRdat外,其余評估模型均從FAIR原則的4個(gè)維度設(shè)計(jì)了詳細(xì)的評價(jià)指標(biāo):各工具沒有對指標(biāo)分配具體的權(quán)重,而是對FAIR原則進(jìn)行了細(xì)化,主要差異是指標(biāo)設(shè)計(jì)和評估方法。不同工具所提出的指標(biāo)及評估方法各具特色,且有一定的互補(bǔ)性,如表1所示。雖然5個(gè)評估工具都提出了各自的FAIR指標(biāo)評價(jià)方法,但是它們僅僅是評估模板,而不是固定標(biāo)準(zhǔn)。實(shí)施FAIR評估既要根據(jù)學(xué)科領(lǐng)域的發(fā)展情況、研究對象的特征,也要根據(jù)評估實(shí)施者對指標(biāo)的理解來確定。為了更準(zhǔn)確地評估期刊論文相關(guān)數(shù)據(jù)的FAIR應(yīng)用情況,應(yīng)根據(jù)自身對FAIR指標(biāo)的理解以及數(shù)據(jù)特征,結(jié)合各評估工具的優(yōu)勢和特點(diǎn),綜合考慮評估方法、指標(biāo)數(shù)量和分布等因素,構(gòu)建一個(gè)新的評估指標(biāo)體系。
2.2中文期刊論文支撐數(shù)據(jù)FAIR評價(jià)指標(biāo)設(shè)計(jì)
在綜合已有的FAIR指標(biāo)評估框架的優(yōu)勢和特征的基礎(chǔ)上,本文結(jié)合前期的案例調(diào)研,針對中文學(xué)術(shù)期刊論文支撐數(shù)據(jù)的相關(guān)特征,構(gòu)建了期刊論文支撐數(shù)據(jù)FAIR指標(biāo)評價(jià)體系,如表2所示。該體系以FAIR原則的四大維度延展,為提高可操作性將其細(xì)化至三級,設(shè)計(jì)過程中充分考慮了指標(biāo)設(shè)計(jì)的規(guī)范性、適用性等要求。結(jié)合前期對中文期刊論文支撐數(shù)據(jù)的調(diào)研狀況,對指標(biāo)體系持續(xù)調(diào)整和完善,最終在可發(fā)現(xiàn)、可訪問、可互操作、可重用4個(gè)一級指標(biāo)下設(shè)計(jì)了10個(gè)二級指標(biāo)和18個(gè)三級指標(biāo)的多層次、多維度指標(biāo)群。其中,從實(shí)際需求出發(fā),在二級指標(biāo)“標(biāo)識符”下創(chuàng)設(shè)了三級指標(biāo)“標(biāo)識符能否正常解析”條目,在一級指標(biāo)“可訪問性”下創(chuàng)設(shè)了二級指標(biāo)“訪問時(shí)限”及其延展的三級指標(biāo)“訪問是否有時(shí)間限制”條目,使其在吻合FAIR原則的前提下,能夠滿足對中文學(xué)術(shù)期刊論文支撐數(shù)據(jù)的特色性評價(jià)需求。其余二級指標(biāo)根據(jù)樣本數(shù)據(jù)的特征,從已有的FAIR指標(biāo)框架中進(jìn)行抽取。而部分三級指標(biāo)是在不影響原有含義的基礎(chǔ)上,對指標(biāo)進(jìn)行微調(diào)或修改,把需要調(diào)研的內(nèi)容更加貼合期刊論文支撐數(shù)據(jù)集的特征。比如將合規(guī)引用下的三級指標(biāo)調(diào)整為關(guān)聯(lián)到期刊論文和關(guān)聯(lián)到相關(guān)數(shù)據(jù)集。表2列出了該評價(jià)體系對5個(gè)評估框架的借鑒情況,借鑒與否的決策主要基于對數(shù)據(jù)集調(diào)研結(jié)果和FAIR實(shí)施情況的綜合考慮。
3數(shù)據(jù)來源與存儲(chǔ)方式概況
3.1數(shù)據(jù)來源
從2022年3月20日起,《數(shù)據(jù)分析與知識發(fā)現(xiàn)》期刊要求所有被錄用論文的論文支撐數(shù)據(jù)在稿件被錄用后進(jìn)行公共保存,并鼓勵(lì)在此前被錄用的作者參照《論文支撐數(shù)據(jù)公共保存與共享暫行辦法》執(zhí)行。目前,該刊是社會(huì)科學(xué)領(lǐng)域唯一對論文支撐數(shù)據(jù)開放明確要求且有一定數(shù)據(jù)儲(chǔ)備的中文核心期刊,本文所研究的論文支撐數(shù)據(jù)樣本就從該刊2022-2023年發(fā)表的論文中獲取。
在本研究中,采用描述性和詳細(xì)研究的方法,人工審查每一篇論文及其相關(guān)的數(shù)據(jù)集。發(fā)現(xiàn)該刊從2022年至今共發(fā)表195篇論文,其中16篇(8%)沒有提供支撐數(shù)據(jù);127篇(65%)論文將數(shù)據(jù)存儲(chǔ)在私人空間中,并提供了作者郵箱:53篇(27%)論文公開保存了支撐數(shù)據(jù)。本文分析的樣本即為這53篇執(zhí)行了支撐數(shù)據(jù)開放共享的論文。
3.2期刊論文支撐數(shù)據(jù)的存儲(chǔ)方式
經(jīng)調(diào)研發(fā)現(xiàn),在53篇論文中,5篇論文的支撐數(shù)據(jù)為公開的專業(yè)數(shù)據(jù)集:兩個(gè)由明尼蘇達(dá)大學(xué)Grouplens小組公開的影評數(shù)據(jù)集、1個(gè)為TREC臨床決策支持跟蹤數(shù)據(jù)集、1個(gè)由斯坦福大學(xué)公開收錄的亞馬遜數(shù)據(jù)集、1個(gè)是由清華大學(xué)公開的THUCNews新聞文本數(shù)據(jù)。4篇論文直接將支撐數(shù)據(jù)附錄在論文最后。其余44篇論文將數(shù)據(jù)集存儲(chǔ)在不同的數(shù)據(jù)共享平臺中(有4篇論文涉及多個(gè)支撐數(shù)據(jù)集,其中3篇論文將部分?jǐn)?shù)據(jù)集存儲(chǔ)在科學(xué)數(shù)據(jù)銀行,其余部分上傳至Github,而另1篇論文則將其中一個(gè)數(shù)據(jù)集存儲(chǔ)于Github,另一個(gè)數(shù)據(jù)集存儲(chǔ)于百度網(wǎng)盤中,因此,表4中的以單條支撐數(shù)據(jù)統(tǒng)計(jì)的論文總數(shù)將超過44篇)。如表4所示,用于存儲(chǔ)論文支撐數(shù)據(jù)的平臺可分為4類,分別為科學(xué)數(shù)據(jù)存儲(chǔ)平臺(如科學(xué)數(shù)據(jù)銀行),代碼托管平臺(如Github、Gitee),具有數(shù)據(jù)托管功能的社交網(wǎng)絡(luò)平臺(如CSDN),云存儲(chǔ)平臺(如百度網(wǎng)盤)。該期刊選擇的數(shù)據(jù)存儲(chǔ)平臺應(yīng)當(dāng)滿足數(shù)據(jù)長期保存、開放獲取、規(guī)范管理利益相關(guān)者權(quán)益以及系統(tǒng)安全運(yùn)行等要求,并遵循認(rèn)證的國內(nèi)國際規(guī)范,得到國家教育科研權(quán)威機(jī)構(gòu)或國家科研與教育管理部門認(rèn)可的國內(nèi)公共保存平臺,這些標(biāo)準(zhǔn)與FAIR原則的可發(fā)現(xiàn)性、可訪問性、可操作性和可重用性相對應(yīng),如表3所示。然而,一些科研人員沒有嚴(yán)格執(zhí)行期刊要求,未將其論文支撐數(shù)據(jù)存儲(chǔ)在符合期刊要求的平臺中。
4期刊論文支撐數(shù)據(jù)FAIR原則應(yīng)用現(xiàn)狀分析
4.1可發(fā)現(xiàn)性
數(shù)據(jù)的可發(fā)現(xiàn)性是影響數(shù)據(jù)發(fā)揮其價(jià)值的重要因素,數(shù)據(jù)只有被用戶發(fā)現(xiàn),才有被使用、分析、組織的可能。支撐數(shù)據(jù)可發(fā)現(xiàn)性的兩個(gè)重要指標(biāo)特征包括唯一永久性標(biāo)識符和元數(shù)據(jù)豐富程度。
4.1.1標(biāo)識符
為數(shù)據(jù)(元數(shù)據(jù))分配全球唯一永久性標(biāo)識符是FAIR原則的重要部分。數(shù)字對象標(biāo)識符(DOI)能夠永久訪問且有利于數(shù)據(jù)集的定位。如表5所示,科學(xué)數(shù)據(jù)銀行采用了全球永久、唯一標(biāo)識符標(biāo)識數(shù)據(jù)集,其余平臺均沒有為數(shù)據(jù)集分配唯一永久性標(biāo)識符,只提供URL,其中存儲(chǔ)在Github的5個(gè)數(shù)據(jù)集已無法訪問,用戶點(diǎn)擊URL卻無法找到數(shù)據(jù)集所在的位置。
標(biāo)識符能否正常解析也影響著數(shù)據(jù)的可發(fā)現(xiàn)性。由表5可知,科學(xué)數(shù)據(jù)銀行中的DOI不能正常解析。通過DOI只能跳轉(zhuǎn)到平臺首頁,卻無法直接到達(dá)數(shù)據(jù)集的位置,需要在平臺檢索框內(nèi)輸人數(shù)據(jù)集名稱、作者等元數(shù)據(jù)才可以找到該數(shù)據(jù)集。其余平臺的URL在不失效的前提下可以正常解析。
4.1.2元數(shù)據(jù)豐富度
從表5中可以發(fā)現(xiàn),5個(gè)存儲(chǔ)平臺中,只有1個(gè)(科學(xué)數(shù)據(jù)銀行)自定義元數(shù)據(jù)元素且元數(shù)據(jù)較豐富,從標(biāo)題、摘要、關(guān)鍵詞、作者、學(xué)科、許可、關(guān)聯(lián)出版論文等多個(gè)方面描述數(shù)據(jù)集.1個(gè)平臺(CSDN)提供的元數(shù)據(jù)元素較少,主要從作者、標(biāo)題、數(shù)據(jù)內(nèi)容等方面描述數(shù)據(jù)集,Gitee平臺為數(shù)據(jù)集提供數(shù)據(jù)貢獻(xiàn)者、數(shù)據(jù)集名稱、數(shù)據(jù)集簡介等描述性元數(shù)據(jù),Github平臺上的數(shù)據(jù)集主要包含作者和標(biāo)題兩個(gè)元數(shù)據(jù)。Github和Gitee作為代碼托管平臺,所存儲(chǔ)的數(shù)據(jù)集通常包含Readme說明文件,給數(shù)據(jù)集提供詳細(xì)的介紹。而百度網(wǎng)盤主要用于個(gè)人存儲(chǔ)和備份,無需提供豐富的元數(shù)據(jù)。
由此可見,科學(xué)數(shù)據(jù)銀行作為專業(yè)的科學(xué)數(shù)據(jù)存儲(chǔ)平臺,賦予唯一持久性標(biāo)識符(DOI),科研人員也為數(shù)據(jù)集提供豐富的元數(shù)據(jù)。相比之下,Github、Gitee和CSDN都是面向廣泛的開發(fā)者、研發(fā)團(tuán)隊(duì)和企業(yè)的平臺,主要用于版本控制、協(xié)作開發(fā)和代碼共享等方面。盡管這些平臺也支持?jǐn)?shù)據(jù)集的存儲(chǔ)和共享,但其定位并不是專門的科學(xué)數(shù)據(jù)存儲(chǔ)平臺,缺乏標(biāo)識符申請的意識和動(dòng)力。此外,數(shù)據(jù)集的元數(shù)據(jù)需要經(jīng)過規(guī)范化和標(biāo)準(zhǔn)化處理,而這些平臺的用戶缺乏專業(yè)的數(shù)據(jù)管理知識和經(jīng)驗(yàn),因此在元數(shù)據(jù)描述方面有一定局限性。
4.2可訪問性
當(dāng)用戶需要獲取數(shù)據(jù)時(shí),他們會(huì)考慮如何訪問這些數(shù)據(jù)。為了保證數(shù)據(jù)的可訪問性,需要在遵守訪問協(xié)議的前提下,確保用戶能夠輕松地獲?。ㄔ?shù)據(jù)。值得注意的是,可訪問性并不意味著所有數(shù)據(jù)都必須公開,而是根據(jù)數(shù)據(jù)的性質(zhì)確定公開的內(nèi)容和時(shí)間。
由于存儲(chǔ)在期刊網(wǎng)絡(luò)版的科學(xué)數(shù)據(jù)、公共標(biāo)準(zhǔn)數(shù)據(jù)集和云存儲(chǔ)平臺(百度網(wǎng)盤)中的數(shù)據(jù)集可以直接訪問,沒有訪問權(quán)限設(shè)置,因此,只對科學(xué)數(shù)據(jù)銀行、Github.Gitee、CSDN 4個(gè)平臺進(jìn)行分析。
4.2.1訪問協(xié)議
3類平臺均支持HTTP協(xié)議訪問和數(shù)據(jù)下載,如表6所示。HTTP是TCP/IP協(xié)議棧中的一種應(yīng)用層協(xié)議,所有WWW文件都必須遵守其標(biāo)準(zhǔn),而且各種技術(shù)信息都是公開且免費(fèi)的。從這個(gè)方面來說,F(xiàn)AIR所要求的標(biāo)準(zhǔn)化訪問協(xié)議環(huán)境已經(jīng)得到了滿足。此外,為了讓用戶更加方便地下載大數(shù)據(jù)文件,科學(xué)數(shù)據(jù)銀行還提供了FTP協(xié)議服務(wù)。
4.2.2訪問權(quán)限
訪問權(quán)限既包括平臺對用戶的審核,也包括上傳者對用戶的審核。如表7所示,CSDN未提供用戶審核機(jī)制,但需要用戶注冊賬號并申請會(huì)員才可訪問下載,對于營利性平臺,其商業(yè)模式可能會(huì)對數(shù)據(jù)訪問產(chǎn)生一定的影響,這可能會(huì)導(dǎo)致數(shù)據(jù)的訪問受到限制或者需要付費(fèi),從而影響數(shù)據(jù)的開放訪問。其余3個(gè)平臺均提供用戶注冊審核機(jī)制,其中Github平臺提供數(shù)據(jù)集的開放訪問,用戶無需注冊即可免費(fèi)訪問數(shù)據(jù)集,科學(xué)數(shù)據(jù)銀行聲明用戶注冊賬號后才能使用全部服務(wù)。而Gitee平臺需要用戶注冊才能訪問、下載數(shù)據(jù)集。除平臺對用戶的審核外,上傳者可自定義獲取條件并自行決定是否授予用戶數(shù)據(jù)訪問權(quán)限。對于存儲(chǔ)在科學(xué)數(shù)據(jù)銀行上的數(shù)據(jù),用戶若想下載此類數(shù)據(jù)文件須先填寫《數(shù)據(jù)訪問申請表》,作者通過該申請后,才可以訪問下載數(shù)據(jù)文件。Github和Gitee平臺具有訪問權(quán)限設(shè)置,可以幫助用戶控制代碼和倉庫的訪問權(quán)限,數(shù)據(jù)上傳者自行決定數(shù)據(jù)集是否允許其他用戶訪問。
4.2.3訪問時(shí)限
科學(xué)數(shù)據(jù)銀行為每個(gè)數(shù)據(jù)集分配了DOI標(biāo)識符,旨在確保對科研數(shù)據(jù)的永久訪問。但是,存儲(chǔ)在科學(xué)數(shù)據(jù)銀行中的6個(gè)數(shù)據(jù)集處于保護(hù)期,在此期間,數(shù)據(jù)集無法對外公開,只有在保護(hù)期結(jié)束后,用戶才能訪問該數(shù)據(jù)集。相比之下,其他平臺和數(shù)據(jù)提交者并沒有為數(shù)據(jù)集設(shè)置這種保護(hù)期。
4.2.4元數(shù)據(jù)的保存
隨著時(shí)間的推移,數(shù)據(jù)集往往會(huì)消失或失去利用價(jià)值,即使數(shù)據(jù)不可再用,元數(shù)據(jù)也可以訪問,因此元數(shù)據(jù)應(yīng)保存到可靠、穩(wěn)定且專業(yè)的存儲(chǔ)平臺中,并且提供元數(shù)據(jù)保存聲明。目前有將近一半的數(shù)據(jù)保存在非專業(yè)的科學(xué)數(shù)據(jù)存儲(chǔ)平臺中,存儲(chǔ)在代碼托管平臺中的數(shù)據(jù)最多,因此,下文分析科研人員將數(shù)據(jù)存儲(chǔ)在代碼托管平臺和科學(xué)數(shù)據(jù)存儲(chǔ)庫中的原因及元數(shù)據(jù)保存聲明,如表8所示。
3個(gè)平臺都沒有提供(元)數(shù)據(jù)保存聲明。結(jié)合調(diào)研數(shù)據(jù)的內(nèi)容及各類存儲(chǔ)平臺的服務(wù)特點(diǎn)發(fā)現(xiàn),53篇論文中,有14篇論文的支撐數(shù)據(jù)含有代碼,Github和Gitee是專門的代碼托管平臺,能夠保證代碼的安全,同時(shí)可以將代碼和數(shù)據(jù)一起存儲(chǔ)在同一個(gè)倉庫中,并且可以與他人協(xié)作開發(fā)代碼,而科學(xué)數(shù)據(jù)銀行雖聲明可以存放代碼類型的數(shù)據(jù),但在代碼迭代、協(xié)作開發(fā)上有一定局限性。代碼托管平臺中有豐富的項(xiàng)目和技術(shù)支持,可提供給開發(fā)人員(包括科研人員)更多的資源和工具。此外,將代碼或其他類型的數(shù)據(jù)存儲(chǔ)到該類平臺中有提升個(gè)人影響力的機(jī)會(huì),數(shù)據(jù)點(diǎn)贊數(shù)/下載數(shù)越多,個(gè)人影響力越高。
4.3可操作性
可操作性指讓機(jī)器在訪問、關(guān)聯(lián)、集成不同來源的數(shù)據(jù)時(shí),能夠更加準(zhǔn)確、順暢地理解,從而為用戶方便獲取數(shù)據(jù)奠定基礎(chǔ)。此外,可操作性還強(qiáng)調(diào)人類和機(jī)器對數(shù)據(jù)的交互與理解,以便更好地實(shí)現(xiàn)數(shù)據(jù)的利用和重用。
4.3.1合規(guī)引用
數(shù)據(jù)引用旨在建立數(shù)據(jù)與數(shù)據(jù)之間以及數(shù)據(jù)與文獻(xiàn)之間的關(guān)聯(lián),進(jìn)而促進(jìn)數(shù)據(jù)的廣泛交互。如表9所示,Github、Gitee、CSDN平臺都沒有提供明確的數(shù)據(jù)引用方式,只要求用戶在遵守相應(yīng)服務(wù)條款的前提下使用或引用數(shù)據(jù),在一定情況下,經(jīng)上傳者同意后才能使用數(shù)據(jù)集??茖W(xué)數(shù)據(jù)銀行支持多種數(shù)據(jù)引用標(biāo)準(zhǔn)(如GB/T 7714-2015),用戶可自行選擇,并且提供了比較完整的引用信息,包括數(shù)據(jù)貢獻(xiàn)者、數(shù)據(jù)集名稱、上傳時(shí)間、DOI等豐富的元數(shù)據(jù)信息。此外,公開標(biāo)準(zhǔn)數(shù)據(jù)集也提供引用方式,如明尼蘇達(dá)大學(xué)Grouplens小組聲明,在出版物中使用該數(shù)據(jù)集時(shí),應(yīng)當(dāng)引用指定的論文。
在數(shù)據(jù)關(guān)聯(lián)方面,科學(xué)數(shù)據(jù)銀行以超鏈接方式將數(shù)據(jù)集關(guān)聯(lián)至相關(guān)數(shù)據(jù),包括數(shù)據(jù)集推薦閱讀、數(shù)據(jù)參考資源,平臺還將數(shù)據(jù)關(guān)聯(lián)至外部數(shù)據(jù),如關(guān)聯(lián)出版論文。CSDN網(wǎng)站上存儲(chǔ)的數(shù)據(jù)也具有數(shù)據(jù)集相關(guān)推薦。在Github和Gitee平臺中,部分?jǐn)?shù)據(jù)集中的Readme或txt說明文件含有相關(guān)數(shù)據(jù)集的URL。其中,Github、Gitee和CSDN平臺并未將數(shù)據(jù)集關(guān)聯(lián)至期刊論文,可能的原因是這些平臺主要面向的是國內(nèi)外的開發(fā)人員,而非專業(yè)的科研人員或科研組織,受眾群體不僅限于科研領(lǐng)域,還包括其他行業(yè)領(lǐng)域人員。
4.3.2格式
文件格式會(huì)影響當(dāng)前和未來軟件“導(dǎo)人”數(shù)據(jù)集的能力,進(jìn)而影響數(shù)據(jù)集的解釋和理解。論文支撐數(shù)據(jù)基本存儲(chǔ)于科學(xué)數(shù)據(jù)存儲(chǔ)庫和代碼托管平臺中,因此下文主要對科學(xué)數(shù)據(jù)銀行、Github和Gitee平臺上的數(shù)據(jù)進(jìn)行分析。如表10所示,科學(xué)數(shù)據(jù)銀行有明確的數(shù)據(jù)文件格式聲明,為用戶提供了一個(gè)表格,其中包括任何文件類型的“首選格式”,即用于長期保存數(shù)據(jù)的最佳文件格式及非首選格式。數(shù)據(jù)集以純文本(txt)、數(shù)據(jù)表(CSV、xlsx)、文本文檔(pdf、docx)、圖片(jpg、png)和程序文件json等為主,txt、csv、json、xlsx文件中的數(shù)據(jù)多為用于計(jì)算分析生成論文直接結(jié)果的數(shù)據(jù)、用于結(jié)果分析的樣本數(shù)據(jù)和原始數(shù)據(jù),其中,一些xlsx文件中含有描述性統(tǒng)計(jì)分析后的結(jié)果數(shù)據(jù)和參數(shù)數(shù)據(jù),pdf文件主要內(nèi)容是統(tǒng)計(jì)分析后的結(jié)果數(shù)據(jù),docx主要為說明文件。此外,1個(gè)支撐數(shù)據(jù)集包括原始圖片類型數(shù)據(jù)集和經(jīng)處理后的pickle文件,而pickle是Python中的序列文件,只能在Python中調(diào)用。根據(jù)數(shù)據(jù)文件格式推薦,docx并不是首選格式,pickle文件也不是開放數(shù)據(jù)格式,作者并沒有完全按照“優(yōu)先推薦格式”上傳數(shù)據(jù)。
代碼托管平臺的本質(zhì)是存儲(chǔ)代碼,而代碼文件的格式通常是標(biāo)準(zhǔn)的格式,數(shù)據(jù)文件格式多種多樣,因此,該類平臺可能為了方便用戶上傳數(shù)據(jù),未對數(shù)據(jù)格式有具體限制,論文支撐數(shù)據(jù)主要包括數(shù)據(jù)文件(純文本(txt)、數(shù)據(jù)表(csv、xlsx)和圖片(png))、Python語言的代碼文件。其中,部分txt文件為說明文件。由此可見,不同類型的平臺,即使所存儲(chǔ)的數(shù)據(jù)格式相同,內(nèi)容上卻有所不同。
4.4可重用性
可重用是FAIR原則的目標(biāo),為了實(shí)現(xiàn)這一目標(biāo),需要充分描述數(shù)據(jù),并在重用過程中明確知識產(chǎn)權(quán),確保數(shù)據(jù)的可重用性。
4.4.1許可
如果數(shù)據(jù)使用規(guī)定不夠明確,將會(huì)限制組織和個(gè)人對數(shù)據(jù)進(jìn)行再利用。由表11可知,4個(gè)平臺均提供數(shù)據(jù)使用許可??茖W(xué)數(shù)據(jù)銀行和Github均提供標(biāo)準(zhǔn)許可協(xié)議和自定義文本許可,Gitee和CS-DN主要為文本自定義許可,兩種使用許可各有其特點(diǎn)。科學(xué)數(shù)據(jù)銀行目前提供多種標(biāo)準(zhǔn)數(shù)據(jù)許可協(xié)議,包括CC(Creative Commons)通用許可協(xié)議、ODbl(Open Database License)等兩種數(shù)據(jù)庫許可協(xié)議,MIT(Massachusetts Institute of Technology)等12種軟件許可協(xié)議,27個(gè)論文支撐數(shù)據(jù)集主要使用了CC通用許可協(xié)議。這類許可協(xié)議的特點(diǎn)在于,其條款內(nèi)容嚴(yán)謹(jǐn)、清晰、應(yīng)用范圍廣泛,既可用于整體數(shù)據(jù)的使用說明,也可應(yīng)用到每個(gè)獨(dú)立數(shù)據(jù)集上。該平臺還自定義限制性獲取許可協(xié)議,作者自定義數(shù)據(jù)獲取條件。
Github提供MIT等標(biāo)準(zhǔn)軟件許可協(xié)議,主要用于開源軟件的管理,平臺也自定義服務(wù)條款、免責(zé)聲明、個(gè)人信息保護(hù)等使用條款,聲明數(shù)據(jù)提交者可根據(jù)條款授予用戶相關(guān)內(nèi)容許可。相比之下,Gitee和CSDN是提供自定義免責(zé)聲明、個(gè)人信息保護(hù)等使用條款,Gitee要求對于本站數(shù)據(jù)的任何使用請遵守?cái)?shù)據(jù)集內(nèi)容所附帶的授權(quán)協(xié)議,以確保數(shù)據(jù)的合法使用。對于公開獲取的數(shù)據(jù)集,如明尼蘇達(dá)大學(xué)Grouplens小組也是自定義數(shù)據(jù)許可條款。自定義文本許可的優(yōu)點(diǎn)是能根據(jù)平臺、數(shù)據(jù)和數(shù)據(jù)提交者的需求制定具體內(nèi)容。
值得注意的是,對于存儲(chǔ)在代碼托管平臺上的論文支撐數(shù)據(jù),作者將倉庫公開后并未提供或申請使用許可,但通過瀏覽平臺上的其他數(shù)據(jù),發(fā)現(xiàn)大部分開發(fā)人員會(huì)為所提交的數(shù)據(jù)聲明使用許可或申請標(biāo)準(zhǔn)許可協(xié)議,以維護(hù)數(shù)據(jù)產(chǎn)權(quán)。這種情況出現(xiàn)的原因可能有兩個(gè)方面:首先,代碼托管平臺并非專業(yè)的科學(xué)數(shù)據(jù)存儲(chǔ)平臺,科研人員并未充分查看平臺上的使用許可條款及內(nèi)容;其次,科研人員對于軟件等其他類型的標(biāo)準(zhǔn)許可協(xié)議可能不夠清楚,而開發(fā)人員則可能會(huì)更加熟悉這些協(xié)議。
在限制聲明方面,科學(xué)數(shù)據(jù)銀行指出,數(shù)據(jù)提交者可自定義數(shù)據(jù)獲取條件并自行決定是否授予用戶數(shù)據(jù)獲取權(quán)限,存儲(chǔ)于科學(xué)數(shù)據(jù)銀行的5個(gè)數(shù)據(jù)集處于保護(hù)期,并說明保護(hù)期限,但未提供具體的限制原因。Github和Gitee平臺聲明限制原因(將機(jī)密數(shù)據(jù)存儲(chǔ)于私有倉儲(chǔ)庫中),平臺允許數(shù)據(jù)上傳者設(shè)置數(shù)據(jù)集為限制狀態(tài)。可見樣本平臺對數(shù)據(jù)使用限制的聲明一般是由數(shù)據(jù)提交者或平臺限定。
4.4.2數(shù)據(jù)溯源
數(shù)據(jù)溯源為數(shù)據(jù)質(zhì)量的評估提供了解決思路,數(shù)據(jù)溯源信息主要來自于數(shù)據(jù)上傳者所發(fā)布的元數(shù)據(jù)。數(shù)據(jù)溯源信息一般包括數(shù)據(jù)發(fā)布和更新時(shí)間、數(shù)據(jù)提交者和聯(lián)系信息,以及數(shù)據(jù)集訪問地址、版本、元數(shù)據(jù)標(biāo)準(zhǔn)等。根據(jù)調(diào)研結(jié)果,科學(xué)數(shù)據(jù)銀行為樣本提供發(fā)布和更新日寸間、版本信息、作者和聯(lián)系信息、訪問地址,已具備了較完善的溯源信息。其余平臺或網(wǎng)站僅提供數(shù)據(jù)提交時(shí)間和數(shù)據(jù)上傳者及其聯(lián)系信息。此外,平臺均未聲明使用標(biāo)準(zhǔn)溯源格式。由此可見,溯源信息和標(biāo)準(zhǔn)溯源格式未得到充分應(yīng)用。
5中文期刊論文支撐數(shù)據(jù)FAIR原則推廣策略
通過上述分析發(fā)現(xiàn),F(xiàn)AIR原則在中文期刊論文支撐數(shù)據(jù)的應(yīng)用仍需進(jìn)一步完善,科研人員的數(shù)據(jù)共享意識及對于FAIR原則的認(rèn)知度還遠(yuǎn)遠(yuǎn)不夠。因此,本文從宏觀和微觀兩個(gè)層面提出相應(yīng)的對策與建議,旨在推進(jìn)數(shù)據(jù)FAIR化,促進(jìn)數(shù)據(jù)共享與重用。
5.1宏觀層面的FAIR推進(jìn)策略
基于本調(diào)研結(jié)果,有65%的支撐數(shù)據(jù)存儲(chǔ)在個(gè)人空間。在27%的公開數(shù)據(jù)中,作者并未完全按照政策要求上傳數(shù)據(jù),可見科研人員對FAIR認(rèn)知度不夠,也不愿花時(shí)間根據(jù)FAIR原則描述數(shù)據(jù)。FAIR原則需要被推廣、認(rèn)可、接受和應(yīng)用。因此,從宏觀層面提出以下4點(diǎn)FAIR推進(jìn)策略。
5.1.1宣傳推廣FAIR原則
雖然歐美國家(地區(qū))的許多研究機(jī)構(gòu)對FAIR原則進(jìn)行了宣傳和應(yīng)用,但迄今為止,大多數(shù)科研人員對該原則并沒有清晰的認(rèn)識。一項(xiàng)由洛桑聯(lián)邦理工學(xué)院研究團(tuán)隊(duì)于2019年進(jìn)行的調(diào)查顯示,受訪的學(xué)術(shù)界人士中,有62%的人表示對于FAIR數(shù)據(jù)的期望程度不確定或不了解。應(yīng)充分利用社交媒體、舉辦主題講座或研討會(huì)等多種形式進(jìn)行宣傳,針對不同群體制定不同的推廣策略,如對于科研人員,重點(diǎn)宣傳FAIR原則理念及如何遵循該理念管理提交數(shù)據(jù)等,可以邀請研究FAIR原則的知名學(xué)者通過線上或線下的方式開展培訓(xùn)課程和研討會(huì)議,科研人員要積極參與,學(xué)習(xí)如何處理、存儲(chǔ)、共享、規(guī)范使用數(shù)據(jù),從而提高其在科研數(shù)據(jù)管理、發(fā)布、共享和重用方面的能力和素養(yǎng)。
5.1.2建立激勵(lì)機(jī)制
我國的《科學(xué)數(shù)據(jù)管理辦法》中明確提出“誰開放,誰受益”的理念,政策制定者應(yīng)該建立激勵(lì)機(jī)制,鼓勵(lì)研究人員將數(shù)據(jù)存儲(chǔ)在符合FAIR標(biāo)準(zhǔn)的受信任的專業(yè)存儲(chǔ)庫中,并使用現(xiàn)有的符合FAIR標(biāo)準(zhǔn)的數(shù)據(jù)資源。此外,F(xiàn)AIR數(shù)據(jù)也應(yīng)該被視為核心研究成果,將其納入職業(yè)發(fā)展評估和研究貢獻(xiàn)中。這將有助于提高科學(xué)數(shù)據(jù)共享的意識和重要性,進(jìn)一步推動(dòng)科學(xué)研究的可持續(xù)性發(fā)展。為了支持FAIR數(shù)據(jù),提供基礎(chǔ)設(shè)施和服務(wù)的機(jī)構(gòu)與人員也應(yīng)該得到認(rèn)可和獎(jiǎng)勵(lì)。
5.1.3FAIR原則融人數(shù)據(jù)政策
目前,我國已開始高度重視科學(xué)數(shù)據(jù)管理與共享領(lǐng)域的政策的制定和完善,但仍缺乏國家層面對于FAIR原則開展的政策支持。我國政策制定者應(yīng)根據(jù)當(dāng)前數(shù)據(jù)資源的發(fā)展態(tài)勢,適當(dāng)增加FAIR原則的相關(guān)內(nèi)容,培養(yǎng)用戶將數(shù)據(jù)FAIR化的意識和素養(yǎng)。宏觀上,可將FAIR原則增加至《科學(xué)數(shù)據(jù)管理辦法》等國家層面的政策,將其貫穿數(shù)據(jù)政策的全流程,強(qiáng)制要求科學(xué)數(shù)據(jù)在提交、存儲(chǔ)、開放過程中保證可發(fā)現(xiàn)、可訪問、可操作和可重用。微觀上,期刊出版機(jī)構(gòu)等利益相關(guān)者可以制定FAIR數(shù)據(jù)政策,以確保數(shù)據(jù)共享和重用,也可以根據(jù)FAIR原則的各個(gè)要素以及機(jī)構(gòu)的發(fā)展規(guī)劃來制定并及時(shí)調(diào)整數(shù)據(jù)政策,以促進(jìn)數(shù)據(jù)的管理、共享、標(biāo)準(zhǔn)化、可視化和溯源。
5.1.4凝聚FAIR利益相關(guān)者
FAIRsharing是一個(gè)由社區(qū)驅(qū)動(dòng)的數(shù)據(jù)資源平臺,聚集了眾多的利益相關(guān)者群體。該平臺為不同的利益相關(guān)者群體制定了不同的FAIR原則實(shí)施策略。在國內(nèi)尚未出現(xiàn)類似的平臺,相關(guān)社會(huì)組織應(yīng)積極聯(lián)系利益相關(guān)者,一方面為數(shù)據(jù)消費(fèi)者提供指導(dǎo),幫助其發(fā)現(xiàn)、選擇和使用所需的資源;另一方面,幫助數(shù)據(jù)生產(chǎn)者使其資源易于被發(fā)現(xiàn)并得到廣泛使用。
5.2微觀層面的FAIR應(yīng)用建議
5.2.1可發(fā)現(xiàn)維度的建議
1)制定標(biāo)準(zhǔn)元數(shù)據(jù)框架
根據(jù)調(diào)研結(jié)果,科學(xué)數(shù)據(jù)銀行的元數(shù)據(jù)豐富度較高,大大提升了數(shù)據(jù)被發(fā)現(xiàn)效率,因此與我國科技期刊合作的數(shù)據(jù)存儲(chǔ)平臺應(yīng)繼續(xù)豐富元數(shù)據(jù)元素,如數(shù)據(jù)采集目的、數(shù)據(jù)分析處理說明、數(shù)據(jù)提交者、創(chuàng)建過程等,提供從數(shù)據(jù)格式等基本信息到描述信息、關(guān)聯(lián)期刊論文信息、溯源信息等元數(shù)據(jù),促進(jìn)數(shù)據(jù)發(fā)現(xiàn),輔助數(shù)據(jù)使用者理解數(shù)據(jù)集的背景及數(shù)據(jù)集的創(chuàng)建過程。元數(shù)據(jù)元素應(yīng)基于標(biāo)準(zhǔn)元數(shù)據(jù)框架并結(jié)合學(xué)科和數(shù)據(jù)集特點(diǎn)設(shè)計(jì),并以RDF格式來標(biāo)識元數(shù)據(jù)。對于非專業(yè)存儲(chǔ)平臺,雖然不以存儲(chǔ)數(shù)據(jù)為主,但也支持?jǐn)?shù)據(jù)集的儲(chǔ)存和共享,平臺可以面向用戶和管理人員增設(shè)數(shù)據(jù)管理知識培訓(xùn)板塊,便于用戶提交豐富的元數(shù)據(jù)。
2)確保數(shù)據(jù)標(biāo)識符可正常解析
擁有DOI標(biāo)識符并不能保證順利找到數(shù)據(jù)集,只有在成功解析DOI后才能夠找到數(shù)據(jù)集所在的位置?;诒菊{(diào)研結(jié)果,科學(xué)數(shù)據(jù)銀行存儲(chǔ)平臺中的DOI不能正常解析,因此,存儲(chǔ)論文相關(guān)數(shù)據(jù)集的平臺應(yīng)確保用戶能動(dòng)態(tài)解析數(shù)據(jù)標(biāo)識符,從而獲取數(shù)據(jù)集的URL,減少數(shù)據(jù)集無法找到的可能。為了保證標(biāo)識符的可靠性與準(zhǔn)確性,應(yīng)定期對DOI進(jìn)行更新與維護(hù)。此外,即使是非專業(yè)的數(shù)據(jù)存儲(chǔ)平臺,也可以加強(qiáng)其DOI的申請意識,確保數(shù)據(jù)可永久發(fā)現(xiàn)。
5.2.2可訪問維度的建議
1)將數(shù)據(jù)提交于專業(yè)的存儲(chǔ)平臺
存儲(chǔ)方式影響(元)數(shù)據(jù)的長期訪問。基于調(diào)研結(jié)果,將近一半的數(shù)據(jù)存儲(chǔ)于非專業(yè)的平臺。建議研究人員將數(shù)據(jù)存儲(chǔ)于符合FAIR標(biāo)準(zhǔn)并經(jīng)過認(rèn)證的通用數(shù)據(jù)存儲(chǔ)庫或特定領(lǐng)域的數(shù)據(jù)存儲(chǔ)庫中,避免將數(shù)據(jù)上傳于非專業(yè)存儲(chǔ)平臺??茖W(xué)數(shù)據(jù)銀行(www.scidb.cn)已進(jìn)行了很好的實(shí)踐,通過國際認(rèn)可并提供了優(yōu)質(zhì)的數(shù)據(jù)共享平臺。期刊出版商也可以采取獎(jiǎng)懲措施,例如,對于正確上傳數(shù)據(jù)的作者,期刊可以提供額外的獎(jiǎng)勵(lì),優(yōu)先發(fā)表或者優(yōu)秀論文評比將優(yōu)先考慮。這樣的做法可以激發(fā)作者上傳于專業(yè)平臺的積極性,同時(shí)也可以提高數(shù)據(jù)共享的質(zhì)量和訪問效率。
2)制定元數(shù)據(jù)保存政策和實(shí)施方案
數(shù)據(jù)平臺能夠長期穩(wěn)定發(fā)展的重要因素是數(shù)據(jù)長期保存政策的發(fā)布與實(shí)施,這意味著已經(jīng)建立了較為完善的數(shù)據(jù)保存體系??茖W(xué)數(shù)據(jù)銀行僅簡單說明數(shù)據(jù)可長期保存,并未提供(元)數(shù)據(jù)保存政策與聲明。相比之下,國外數(shù)據(jù)存儲(chǔ)庫更傾向于發(fā)布更為清晰明確的數(shù)據(jù)長期保存政策。因此,建議未來期刊和科學(xué)數(shù)據(jù)存儲(chǔ)庫均制定更明確的(元)數(shù)據(jù)保存政策和施方案,借鑒國外的數(shù)據(jù)保存政策條款,優(yōu)化數(shù)據(jù)保存體系。
3)完善平臺服務(wù)功能
基于調(diào)研結(jié)果發(fā)現(xiàn),用戶的學(xué)科領(lǐng)域、專業(yè)技能、行為習(xí)慣是影響選取數(shù)據(jù)存儲(chǔ)平臺的可能原因。因此,數(shù)據(jù)存儲(chǔ)平臺可針對不同領(lǐng)域的用戶進(jìn)行細(xì)分,從而提高針對性的數(shù)據(jù)服務(wù),比如科學(xué)數(shù)據(jù)銀行可為計(jì)算機(jī)領(lǐng)域的科研人員設(shè)置代碼協(xié)作開發(fā)功能,也可以提供相關(guān)的技術(shù)支持與指導(dǎo),或增添第三方鏈接,將其關(guān)聯(lián)至代碼托管平臺,以滿足用戶協(xié)作開發(fā)代碼的需求。
5.2.3可操作維度的建議
1)規(guī)范數(shù)據(jù)生產(chǎn)使用行為
目前,科研人員并沒有完全按照平臺中的“優(yōu)先推薦格式”上傳數(shù)據(jù),而非專業(yè)存儲(chǔ)平臺只要求用戶遵守相應(yīng)服務(wù)條款并在某些情況下獲得上傳者的同意來使用數(shù)據(jù)集??蒲腥藛T既是論文支撐數(shù)據(jù)的生產(chǎn)者,亦是數(shù)據(jù)的消費(fèi)者。因此,研究人員應(yīng)規(guī)范數(shù)據(jù)管理流程,明確并使用相關(guān)的數(shù)據(jù)標(biāo)準(zhǔn)和學(xué)科標(biāo)準(zhǔn)。在數(shù)據(jù)生產(chǎn)提交過程中,要按照相關(guān)標(biāo)準(zhǔn)提交相應(yīng)數(shù)據(jù),無論在哪個(gè)存儲(chǔ)平臺使用他人研究數(shù)據(jù)集,都要注意引用的規(guī)范。當(dāng)涉及隱私或機(jī)密數(shù)據(jù)時(shí),應(yīng)及時(shí)與相關(guān)人員聯(lián)系,征詢許可。期刊可以優(yōu)化作者投稿的數(shù)據(jù)準(zhǔn)則,發(fā)布數(shù)據(jù)可用性聲明提高數(shù)據(jù)的透明度,使科研人員更易遵守?cái)?shù)據(jù)管理要求。
2)使用開放數(shù)據(jù)格式
數(shù)據(jù)平臺應(yīng)當(dāng)采用國際認(rèn)可的可靠數(shù)據(jù)文件開放格式,以支持集成異構(gòu)數(shù)據(jù)集的需求。相比于專有格式數(shù)據(jù)文件,開放格式文件具有更好的用戶支持、可讀性和兼容性,能夠更好地支持機(jī)器互操作和數(shù)據(jù)集成。根據(jù)本調(diào)研結(jié)果,上傳于科學(xué)數(shù)據(jù)銀行中的數(shù)據(jù)格式并非都是開放數(shù)據(jù)格式,并且對于不同類型的平臺,即使所存儲(chǔ)的數(shù)據(jù)格式相同,但內(nèi)容上卻有所不同。因此,平臺應(yīng)繼續(xù)完善開放數(shù)據(jù)格式的設(shè)置,并加強(qiáng)用戶上傳數(shù)據(jù)的限制,對上傳數(shù)據(jù)格式進(jìn)行驗(yàn)證,以提高數(shù)據(jù)的質(zhì)量和可用性,也可以考慮提供數(shù)據(jù)文件格式轉(zhuǎn)換的功能,此外,其余平臺可借鑒科學(xué)數(shù)據(jù)銀行中的數(shù)據(jù)文件預(yù)覽功能,方便用戶快速查看數(shù)據(jù)文件的格式和內(nèi)容。不同類型或領(lǐng)域的平臺應(yīng)根據(jù)自身特點(diǎn)提供合適的開放數(shù)據(jù)格式推薦表。
3)開發(fā)關(guān)聯(lián)技術(shù)和FAIR基礎(chǔ)設(shè)施
基于本研究調(diào)研結(jié)果,科學(xué)數(shù)據(jù)銀行的數(shù)據(jù)關(guān)聯(lián)能力較強(qiáng)。為了更好地實(shí)現(xiàn)科學(xué)數(shù)據(jù)的被理解和使用,我國專業(yè)的科學(xué)數(shù)據(jù)存儲(chǔ)平臺應(yīng)加強(qiáng)關(guān)聯(lián)技術(shù)的開發(fā)與應(yīng)用,通過使用關(guān)聯(lián)數(shù)據(jù)發(fā)布元數(shù)據(jù)來促進(jìn)互操作性。為了促進(jìn)數(shù)據(jù)的語義化表達(dá)和提升機(jī)器可處理能力,平臺應(yīng)以開放的、機(jī)器可理解的方式發(fā)布數(shù)據(jù),例如考慮應(yīng)用RDF詞表來發(fā)布關(guān)聯(lián)數(shù)據(jù)。存儲(chǔ)平臺、社會(huì)組織也可以邀請技術(shù)方面專家和其他利益相關(guān)者進(jìn)行指導(dǎo),積極參與FAIR基礎(chǔ)設(shè)施的開發(fā),如開發(fā)出符合FAIR原則的規(guī)范數(shù)據(jù)管理軟件,增強(qiáng)數(shù)據(jù)的可理解性。
5.2.4可重用維度的建議
1)明確數(shù)據(jù)許可聲明
若數(shù)據(jù)集的訪問和重用聲明不明確,將會(huì)限制用戶合理使用該平臺的數(shù)據(jù)集,從而阻礙數(shù)據(jù)的重用。因此,為了方便機(jī)器和用戶的理解和解釋,使用標(biāo)準(zhǔn)的、機(jī)器可讀的許可證非常重要??茖W(xué)數(shù)據(jù)銀行為數(shù)據(jù)提交者提供多種類型的標(biāo)準(zhǔn)許可協(xié)議,以確保數(shù)據(jù)的合法使用和重用?;诒菊{(diào)研結(jié)果,數(shù)據(jù)平臺需高度重視參考標(biāo)準(zhǔn)的、機(jī)器可讀的重用許可聲明,在元數(shù)據(jù)中包含使用適當(dāng)元數(shù)據(jù)元素表示的許可信息,在必要時(shí)設(shè)置保護(hù)期限并說明原因,對數(shù)據(jù)進(jìn)行分級分類,明確不同數(shù)據(jù)的使用權(quán)限,并做出詳細(xì)說明,幫助用戶更好地理解數(shù)據(jù)使用的權(quán)利和義務(wù),減少因數(shù)據(jù)權(quán)導(dǎo)致的數(shù)據(jù)重用糾紛。
2)采用機(jī)器可讀的溯源格式
根據(jù)調(diào)研結(jié)果顯示,數(shù)據(jù)存儲(chǔ)平臺的標(biāo)準(zhǔn)溯源格式和溯源信息未得到充分應(yīng)用。溯源信息對于評估數(shù)據(jù)集在特定應(yīng)用情境中的適用性具有重要作用。提供準(zhǔn)確、豐富且機(jī)器可讀的溯源信息可以為科研人員或機(jī)器評估數(shù)據(jù)集提供必要的憑證和支持。科學(xué)數(shù)據(jù)存儲(chǔ)平臺應(yīng)提供機(jī)器可讀的溯源信息,使用標(biāo)準(zhǔn)的溯源格式,進(jìn)一步豐富數(shù)據(jù)集的工作流程、數(shù)據(jù)處理說明、數(shù)據(jù)生成設(shè)備等信息。非專業(yè)存儲(chǔ)平臺也應(yīng)該完善數(shù)據(jù)溯源信息,以幫助不同類型的用戶了解各類數(shù)據(jù)集的特征,從而更好地理解和使用數(shù)據(jù)。
6結(jié)語與展望
本文在國外FAIR原則評估模型的基礎(chǔ)上,結(jié)合《數(shù)據(jù)分析與知識發(fā)現(xiàn)》期刊論文相關(guān)的科學(xué)數(shù)據(jù)特征,構(gòu)建FAIR原則評估指標(biāo)體系,基于該體系從4個(gè)維度分析調(diào)研結(jié)果,最后從宏觀和微觀兩個(gè)層面提出FAIR原則應(yīng)用建議。本研究局限于調(diào)研樣本數(shù)量,調(diào)研結(jié)果對于反映中文社科類期刊論文支撐數(shù)據(jù)FAIR應(yīng)用的總體情況有一定局限。但是本研究構(gòu)建的中文期刊論文支撐數(shù)據(jù)FAIR指標(biāo)評價(jià)體系及基于該調(diào)研結(jié)果提出的FAIR應(yīng)用建議對我國期刊論文支撐數(shù)據(jù)的共享重用有一定借鑒意義。未來,關(guān)于FAIR原則的應(yīng)用需針對FAIR實(shí)施中存在的問題提出具體措施。此外,我國期刊論文支撐數(shù)據(jù)FAIR應(yīng)用需結(jié)合數(shù)據(jù)生命周期進(jìn)行管理,繼續(xù)完善相關(guān)政策制度和標(biāo)準(zhǔn)體系,進(jìn)一步推動(dòng)數(shù)據(jù)FAIR化。