劉桂鋒 陳帥印 韓牧哲
關(guān)鍵詞:FAIR原則;數(shù)據(jù)論文;期刊論文;數(shù)據(jù)期刊;科學(xué)數(shù)據(jù);數(shù)據(jù)科學(xué)
在數(shù)據(jù)要素化的大背景下,科學(xué)數(shù)據(jù)的開放、共享、合作成為科研活動(dòng)的常態(tài)。數(shù)據(jù)增長(zhǎng)也促使著科學(xué)研究進(jìn)入了數(shù)據(jù)密集型時(shí)代,科學(xué)數(shù)據(jù)的積累對(duì)科學(xué)研究越來(lái)越重要,分析數(shù)據(jù)并從中提取有價(jià)值的內(nèi)容轉(zhuǎn)換為信息和知識(shí)的能力開始備受關(guān)注。
2019年,黨的十九屆四中全會(huì)指出“健全勞動(dòng)、資本、土地、知識(shí)、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場(chǎng)評(píng)價(jià)貢獻(xiàn)、按貢獻(xiàn)決定報(bào)酬的機(jī)制”,這是數(shù)據(jù)首次被列為新的生產(chǎn)要素。加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度體系,促進(jìn)數(shù)據(jù)高效流通使用、賦能實(shí)體經(jīng)濟(jì),統(tǒng)籌推進(jìn)數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配、安全治理的重要意義被反復(fù)強(qiáng)調(diào)。相關(guān)政策與方法都強(qiáng)調(diào)了科學(xué)數(shù)據(jù)的有效管理和利用、開放共享、高效流通的重要性與必要性。
在對(duì)科學(xué)數(shù)據(jù)的有效管理與應(yīng)用方案的探索上,歐洲開放科學(xué)云(European Open Science Cloud,EOSC)提出了科學(xué)數(shù)據(jù)治理的FAIR原則,即可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)、可重用(Reusable)。為了促進(jìn)科學(xué)數(shù)據(jù)的共享和有效利用,世界數(shù)據(jù)系統(tǒng)(WDS)在2018年聯(lián)合90多個(gè)國(guó)際組織簽署《賦能FAIR數(shù)據(jù)承諾聲明》(Enabling FAIR Data CommitmentStatement),發(fā)布《WDS 2019-2023戰(zhàn)略計(jì)劃》。2021年,中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心牽頭的國(guó)家標(biāo)準(zhǔn)《數(shù)據(jù)論文出版元數(shù)據(jù)》正式立項(xiàng),為數(shù)據(jù)期刊以數(shù)據(jù)論文的方式出版科學(xué)數(shù)據(jù)提供統(tǒng)一的標(biāo)準(zhǔn)認(rèn)定。傳統(tǒng)的期刊論文主要以科技文獻(xiàn)、學(xué)術(shù)文獻(xiàn)、科學(xué)文獻(xiàn)等文獻(xiàn)類型為主;數(shù)據(jù)論文則是科研人員或科研團(tuán)隊(duì)按照統(tǒng)一規(guī)范的出版要求,通過(guò)相關(guān)受認(rèn)可的數(shù)據(jù)共享平臺(tái)發(fā)布科研數(shù)據(jù)集,使得其他用戶可以訪問、發(fā)現(xiàn)、引用數(shù)據(jù)集。
因此,本文通過(guò)對(duì)數(shù)據(jù)論文和期刊論文的內(nèi)外部特征元數(shù)據(jù)和文獻(xiàn)服務(wù)角度的分析,構(gòu)建了科學(xué)數(shù)據(jù)在數(shù)據(jù)論文和期刊論文間的關(guān)聯(lián)模型,并選取代表性的數(shù)據(jù)期刊Data in Brief,對(duì)其中發(fā)表的數(shù)據(jù)論文及其關(guān)聯(lián)的期刊論文進(jìn)行文獻(xiàn)內(nèi)外部特征、期刊互聯(lián)機(jī)制、數(shù)據(jù)關(guān)聯(lián)應(yīng)用等方面的研究,以此把握科學(xué)數(shù)據(jù)關(guān)聯(lián)應(yīng)用的路徑,推動(dòng)科學(xué)數(shù)據(jù)的開放共享和重復(fù)利用,促使科學(xué)數(shù)據(jù)在多層維度數(shù)據(jù)價(jià)值上的釋放。
1相關(guān)研究現(xiàn)狀
1.1FAIR原則的產(chǎn)生、發(fā)展與研究現(xiàn)狀
FAIR原則于2014年在荷蘭萊頓的洛倫茲研討會(huì)上被首次提出,于2016年正式發(fā)布。同年,Sci-entific Data雜志發(fā)表的《科學(xué)數(shù)據(jù)管理的FAIR指導(dǎo)原則》一文,探討了FAIR原則具體的內(nèi)容和準(zhǔn)則,此后FAIR原則逐漸受到科學(xué)研究領(lǐng)域尤其是科學(xué)數(shù)據(jù)管理和開放共享領(lǐng)域?qū)W者的廣泛關(guān)注,并逐漸向其他領(lǐng)域和行業(yè)拓展,如人文社科、生物信息學(xué)、醫(yī)學(xué)等領(lǐng)域。
現(xiàn)階段,F(xiàn)AIR原則也成為了科學(xué)數(shù)據(jù)出版的新目標(biāo)和新共識(shí),成為落實(shí)科學(xué)數(shù)據(jù)建設(shè)規(guī)劃、推動(dòng)科學(xué)數(shù)據(jù)開放共享的有效方式和重要手段,也是推動(dòng)科學(xué)數(shù)據(jù)共享的根本途徑?;诖耍鱾€(gè)國(guó)家(地區(qū))出臺(tái)諸多數(shù)據(jù)管理政策及相關(guān)的實(shí)踐探索。我國(guó)在2001年底首次提出科學(xué)數(shù)據(jù)共享,啟動(dòng)科學(xué)數(shù)據(jù)共享工程。以政府部門、研究機(jī)構(gòu)等為主導(dǎo)建設(shè)的23個(gè)科技平臺(tái)被認(rèn)定為國(guó)家首批科技基礎(chǔ)條件平臺(tái),如國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)中心、國(guó)家人口與健康科學(xué)數(shù)據(jù)中心、國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心等。Springer Nature、Elsevier等在出版過(guò)程中采用分級(jí)的數(shù)據(jù)共享政策:部分國(guó)際出版集團(tuán)與數(shù)據(jù)存儲(chǔ)庫(kù)、期刊編輯協(xié)同合作;Springer Nature、Elsevier等出版社區(qū)分于傳統(tǒng)的學(xué)術(shù)期刊,開設(shè)數(shù)據(jù)論文或者創(chuàng)建新的數(shù)據(jù)期刊以支持?jǐn)?shù)據(jù)出版,推動(dòng)數(shù)據(jù)共享。同時(shí),國(guó)內(nèi)外學(xué)者對(duì)FAIR原則的關(guān)注持續(xù)升溫,包括對(duì)FAIR原則內(nèi)容解讀、FAIR原則的實(shí)踐應(yīng)用、FAIR原則評(píng)估模型與框架等,這些研究都在FAIR原則從“數(shù)據(jù)對(duì)象”推廣到更廣泛的“數(shù)字對(duì)象”過(guò)程中起到了推動(dòng)作用。
1.2科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)研究現(xiàn)狀
期刊論文是研究人員或者研究團(tuán)隊(duì)向社會(huì)展現(xiàn)其科研成果和動(dòng)向的重要途徑之一,在科研過(guò)程、學(xué)術(shù)研究過(guò)程中產(chǎn)生的科學(xué)數(shù)據(jù)與科研成果保持著同等重要的地位。目前,科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)研究現(xiàn)狀主要分為理論研究和實(shí)踐研究。
理論研究主要是研究人員通過(guò)引用特征、論文元數(shù)據(jù)、內(nèi)容特征等進(jìn)行關(guān)聯(lián)關(guān)系的闡述。期刊論文的科學(xué)數(shù)據(jù)引用特征研究主要涉及圖書情報(bào)領(lǐng)域、體育領(lǐng)域、生物醫(yī)學(xué)領(lǐng)域、地學(xué)等。尚渡新等通過(guò)分析科學(xué)數(shù)據(jù)和期刊論文中的關(guān)聯(lián)屬性以及國(guó)家科學(xué)數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn),基于關(guān)聯(lián)數(shù)據(jù)對(duì)科學(xué)數(shù)據(jù)與期刊論文的互聯(lián)機(jī)制進(jìn)行了研究。郭廟琴以用戶需求為研究視角,構(gòu)建基于用戶需求的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)模式。黃筱瑾基于元數(shù)據(jù)描述元素、內(nèi)容特征,對(duì)科學(xué)數(shù)據(jù)與科技文獻(xiàn)之間的3種關(guān)聯(lián)模式進(jìn)行描述與總結(jié),即作者關(guān)聯(lián)、學(xué)科分類號(hào)關(guān)聯(lián)、關(guān)鍵詞關(guān)聯(lián)。
基于實(shí)踐研究的科學(xué)數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)主要是學(xué)者從不同研究角度探究數(shù)據(jù)服務(wù)實(shí)例、關(guān)聯(lián)路徑,部分學(xué)者也通過(guò)已有的平臺(tái)或研究,對(duì)相關(guān)的典型案例、平臺(tái)等展開研究或者提出優(yōu)化建議方針等。實(shí)踐研究對(duì)象主要涉及期刊出版主體、ELIXIR數(shù)據(jù)平臺(tái)、OpenAIRE、Elsevier等;研究領(lǐng)域主要包含高能物理、地學(xué)、生物醫(yī)學(xué)等,學(xué)者們通過(guò)對(duì)該領(lǐng)域的科學(xué)數(shù)據(jù)與科技文獻(xiàn)關(guān)聯(lián)的現(xiàn)狀和已有平臺(tái)進(jìn)行研究,深入分析科學(xué)數(shù)據(jù)與文獻(xiàn)的各種關(guān)聯(lián)方式以及選取具有代表性的案例展開實(shí)踐分析,為各個(gè)領(lǐng)域的科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)提供研究基礎(chǔ)和思路。
綜上可知,國(guó)內(nèi)外關(guān)于FAIR原則、科學(xué)數(shù)據(jù)與期刊論文關(guān)聯(lián)已有一定的研究基礎(chǔ),部分學(xué)者從引用特征、元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等視角對(duì)科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)理論研究作出闡述,從數(shù)據(jù)平臺(tái)、實(shí)踐路徑等視角對(duì)科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)實(shí)踐研究展開分析。但目前已有研究仍有一定局限性:①研究方向大都是從期刊論文出發(fā),研究人員從論文的內(nèi)容特征或參考文獻(xiàn)中挖掘其相關(guān)聯(lián)的科學(xué)數(shù)據(jù),從而發(fā)現(xiàn)二者的關(guān)聯(lián)性、映射性,研究方向單一,缺乏以數(shù)據(jù)論文為主體進(jìn)行數(shù)據(jù)論文與期刊論文關(guān)聯(lián)研究,無(wú)法實(shí)現(xiàn)二者之間互相關(guān)聯(lián)性的揭示;②研究?jī)?nèi)容的關(guān)聯(lián)強(qiáng)度不高,大多數(shù)的研究?jī)H僅從論文的內(nèi)外部特征進(jìn)行相關(guān)研究,缺乏內(nèi)容層面的深度關(guān)聯(lián)挖掘,無(wú)法實(shí)現(xiàn)科學(xué)數(shù)據(jù)與期刊論文深度關(guān)聯(lián)的準(zhǔn)確闡述。
本文認(rèn)為,期刊論文與其相關(guān)聯(lián)的數(shù)據(jù)論文關(guān)聯(lián)融合出版是未來(lái)期刊出版新形態(tài)的發(fā)展趨勢(shì)。因此針對(duì)以上問題,本文立足于FAIR原則,從數(shù)據(jù)流向視角對(duì)數(shù)據(jù)論文和期刊論文進(jìn)行互關(guān)聯(lián)模型的構(gòu)建和相應(yīng)的實(shí)際案例驗(yàn)證,以支撐數(shù)據(jù)論文與期刊論文關(guān)聯(lián)研究的深入發(fā)展。
2數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)模型設(shè)計(jì)
近年來(lái),科研人員關(guān)注的對(duì)象不再局限于期刊論文、會(huì)議論文、學(xué)術(shù)報(bào)告等文獻(xiàn)資源,科學(xué)數(shù)據(jù)也逐漸成為科研人員需要的重要資源。在現(xiàn)實(shí)科學(xué)研究中,科研人員側(cè)重于科研成果即科學(xué)研究的終端產(chǎn)物,如論文、著作、報(bào)告等。而科學(xué)數(shù)據(jù)貫穿著科學(xué)研究全過(guò)程,目前的大多數(shù)科學(xué)研究以科研成果為研究視角,并沒有回溯到科學(xué)研究過(guò)程的開始乃至全過(guò)程。因此,從科學(xué)數(shù)據(jù)流向視角出發(fā),嘗試對(duì)數(shù)據(jù)論文與期刊論文之間的關(guān)聯(lián)進(jìn)行探索,能夠進(jìn)一步推動(dòng)科學(xué)數(shù)據(jù)的開放共享和二次應(yīng)用,使科學(xué)數(shù)據(jù)在多層維度釋放數(shù)據(jù)價(jià)值。本文基于FAIR原則,從科學(xué)數(shù)據(jù)組織呈現(xiàn)的不同角度構(gòu)建科學(xué)數(shù)據(jù)在數(shù)據(jù)論文和期刊論文間的關(guān)聯(lián)模型,并結(jié)合具體案例展開理論模型驗(yàn)證。
2.1關(guān)聯(lián)總模型構(gòu)建
數(shù)據(jù)期刊的關(guān)聯(lián)是使科學(xué)數(shù)據(jù)系統(tǒng)統(tǒng)一化、共享最大化、應(yīng)用最優(yōu)化的過(guò)程,在推進(jìn)科學(xué)數(shù)據(jù)開放共享的過(guò)程中起著重要作用。與此同時(shí),F(xiàn)AIR原則在科學(xué)數(shù)據(jù)的可訪問、可發(fā)現(xiàn)、可互操作、可重用等方面提供了規(guī)范的行動(dòng)指南,激發(fā)科研人員或科研團(tuán)隊(duì)在研究項(xiàng)目剛開始就著手關(guān)注科學(xué)數(shù)據(jù)管理過(guò)程中的可訪問和可重用等問題,F(xiàn)AIR原則的簡(jiǎn)單性和靈活性也為科學(xué)數(shù)據(jù)管理的開放共享以及建立關(guān)聯(lián)元數(shù)據(jù)標(biāo)準(zhǔn)等方面提供了理論依據(jù)。
因此,基于FAIR原則構(gòu)建數(shù)據(jù)論文與期刊論文之間的互關(guān)聯(lián)模型更加有理論意義,也對(duì)科學(xué)數(shù)據(jù)開放共享有著一定實(shí)踐意義。通過(guò)前期調(diào)研發(fā)現(xiàn),數(shù)據(jù)期刊的具體關(guān)聯(lián)主要涵蓋元數(shù)據(jù)關(guān)聯(lián)、文獻(xiàn)服務(wù)關(guān)聯(lián)兩個(gè)方面。為此,本文以數(shù)據(jù)流向?yàn)橐暯?,設(shè)計(jì)基于FAIR原則的數(shù)據(jù)期刊與期刊論文間的關(guān)聯(lián)模型框架,以期實(shí)現(xiàn)對(duì)數(shù)據(jù)論文與期刊論文之間的關(guān)聯(lián)應(yīng)用研究。
2.1.1科學(xué)數(shù)據(jù)出版流向分析
科學(xué)數(shù)據(jù)流向是對(duì)科學(xué)數(shù)據(jù)在科學(xué)研究過(guò)程的開始乃至全過(guò)程中的數(shù)據(jù)流動(dòng)展現(xiàn)形式、方向的描述。在構(gòu)建數(shù)據(jù)論文與期刊論文之間互關(guān)聯(lián)模型前對(duì)科學(xué)數(shù)據(jù)的數(shù)據(jù)流向進(jìn)行數(shù)據(jù)格式、數(shù)據(jù)類型的研究分析,為進(jìn)一步構(gòu)建互關(guān)聯(lián)模型奠定理論基礎(chǔ)。
隨著科學(xué)研究的不斷深入,科學(xué)數(shù)據(jù)也以不同的呈現(xiàn)方式作為研究成果展現(xiàn)出來(lái)。研究者對(duì)原始數(shù)據(jù)如勘測(cè)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、調(diào)查數(shù)據(jù)等進(jìn)行初步的數(shù)據(jù)整理后形成初始數(shù)據(jù),一般以file.、table.、txt.等數(shù)據(jù)格式存儲(chǔ),研究者借用多種軟件或方式對(duì)初始數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,形成科學(xué)數(shù)據(jù)集,而部分研究者會(huì)將科研過(guò)程中產(chǎn)生的科學(xué)數(shù)據(jù)集根據(jù)規(guī)范統(tǒng)一的要求進(jìn)行數(shù)據(jù)出版,在數(shù)據(jù)期刊上出版,使科學(xué)數(shù)據(jù)開放共享,便于其他學(xué)者檢索、訪問和重用,其數(shù)據(jù)出版的一般流向如圖1所示。
2.1.2數(shù)據(jù)論文與期刊論文的互關(guān)聯(lián)模型
隨著科學(xué)研究的數(shù)據(jù)密集型第四范式的興起,科學(xué)數(shù)據(jù)對(duì)科學(xué)研究的支撐作用日益顯著,科學(xué)數(shù)據(jù)和期刊論文共同構(gòu)成了科學(xué)研究的主要素材。而在實(shí)際研究中,科學(xué)數(shù)據(jù)和期刊論文對(duì)科學(xué)研究的支撐過(guò)程是相對(duì)獨(dú)立的,這導(dǎo)致數(shù)據(jù)孤立于研究之外,對(duì)科學(xué)數(shù)據(jù)和期刊論文之間關(guān)聯(lián)關(guān)系的研究意義顯著。具有系統(tǒng)化、統(tǒng)一化特征的數(shù)據(jù)期刊使得科學(xué)數(shù)據(jù)有了規(guī)范統(tǒng)一的數(shù)據(jù)出版平臺(tái),對(duì)數(shù)據(jù)期刊與期刊論文之間的關(guān)聯(lián)進(jìn)行探究能夠使科學(xué)數(shù)據(jù)內(nèi)容更加完整,充分發(fā)揮其數(shù)據(jù)價(jià)值,更好地支撐科學(xué)研究的發(fā)展。本文基于FAIR原則構(gòu)建的數(shù)據(jù)論文與期刊論文互關(guān)聯(lián)模型共分為3層,分別是平臺(tái)層、數(shù)據(jù)層、結(jié)構(gòu)層,以數(shù)據(jù)流向?yàn)閷?dǎo)向展示了數(shù)據(jù)論文和期刊論文的整體關(guān)聯(lián)性。
平臺(tái)層主要以文獻(xiàn)服務(wù)為視角,揭示數(shù)據(jù)期刊、數(shù)據(jù)存儲(chǔ)庫(kù)、傳統(tǒng)期刊之間的關(guān)聯(lián)關(guān)系。平臺(tái)層的主體達(dá)成互聯(lián)互通機(jī)制,為科研人員提供一站式文獻(xiàn)服務(wù),主要通過(guò)語(yǔ)義關(guān)系、聚合關(guān)聯(lián)、鏈接方式等形成文獻(xiàn)互聯(lián),用戶在搜索到數(shù)據(jù)論文的基本文獻(xiàn)信息外,還能夠通過(guò)提供的文獻(xiàn)鏈接快速查閱相關(guān)聯(lián)的期刊論文。
數(shù)據(jù)層從數(shù)據(jù)流向的視角梳理科學(xué)數(shù)據(jù)流動(dòng)方向及應(yīng)用領(lǐng)域,科學(xué)數(shù)據(jù)通過(guò)整理、分析、可視化等方式,最終以不同的形式在期刊論文中呈現(xiàn),部分科研人員(科研團(tuán)隊(duì))會(huì)根據(jù)規(guī)范統(tǒng)一的出版要求,將產(chǎn)生的科學(xué)數(shù)據(jù)刊登在數(shù)據(jù)期刊上,并且可以通過(guò)文獻(xiàn)檢索服務(wù)快速查詢和訪問數(shù)據(jù)論文和期刊論文。
結(jié)構(gòu)層從元數(shù)據(jù)視角對(duì)數(shù)據(jù)論文和期刊論文進(jìn)行論文內(nèi)外部特征的深度關(guān)聯(lián)研究。期刊論文的元數(shù)據(jù)用來(lái)描述期刊論文的屬性信息,包括內(nèi)容特征元數(shù)據(jù)、外部特征元數(shù)據(jù);數(shù)據(jù)論文的元數(shù)據(jù)用來(lái)描述科學(xué)數(shù)據(jù)集特征、內(nèi)容等信息,除內(nèi)外部特征元數(shù)據(jù)以外還包括專用元數(shù)據(jù)。
基于FAIR原則的數(shù)據(jù)論文與期刊論文互關(guān)聯(lián)模型3個(gè)層級(jí)實(shí)現(xiàn)了數(shù)據(jù)流在各層級(jí)的流動(dòng),使各層級(jí)關(guān)聯(lián)緊密。在顯性層面,科學(xué)數(shù)據(jù)在數(shù)據(jù)層通過(guò)規(guī)范統(tǒng)一的出版要求流向平臺(tái)層,又基于“可發(fā)現(xiàn)”原則流向結(jié)構(gòu)層:在隱性層面,科研人員的發(fā)表行為和對(duì)數(shù)據(jù)的檢索、引用動(dòng)機(jī)等都促進(jìn)了3個(gè)層級(jí)間關(guān)聯(lián)關(guān)系的演進(jìn)發(fā)展。數(shù)據(jù)論文與期刊論文互關(guān)聯(lián)模型各層級(jí)之間的關(guān)聯(lián)關(guān)系明確,最終實(shí)現(xiàn)層層關(guān)聯(lián)、逐層關(guān)聯(lián),如圖2所示。
2.2分層關(guān)聯(lián)模型構(gòu)建
通過(guò)前期對(duì)數(shù)據(jù)期刊的大量調(diào)研,可以發(fā)現(xiàn)數(shù)據(jù)期刊的具體關(guān)聯(lián)主要體現(xiàn)在元數(shù)據(jù)關(guān)聯(lián)、文獻(xiàn)服務(wù)關(guān)聯(lián)兩個(gè)方面。針對(duì)元數(shù)據(jù)元素、文獻(xiàn)服務(wù)兩個(gè)研究視角進(jìn)行分析,構(gòu)建論文內(nèi)外部特征視角的元數(shù)據(jù)框架和文獻(xiàn)服務(wù)視角的關(guān)聯(lián)模型,能夠讓數(shù)據(jù)論文與期刊論文之間的關(guān)聯(lián)更緊密、更清晰。
2.2.1論文內(nèi)外部特征視角的元數(shù)據(jù)框架
數(shù)據(jù)論文和期刊論文在元數(shù)據(jù)框架上存在相似元素,從論文內(nèi)部特征角度可以發(fā)現(xiàn)數(shù)據(jù)論文的元數(shù)據(jù)主要是數(shù)據(jù)集的名稱、摘要、主題等,而期刊論文的元數(shù)據(jù)涉及論文題名、摘要、關(guān)鍵詞等;從論文外部特征角度可以發(fā)現(xiàn)數(shù)據(jù)論文和期刊論文有著重合相似度較高的元數(shù)據(jù)元素。
以DC元數(shù)據(jù)標(biāo)準(zhǔn)為例,數(shù)據(jù)論文的外部特征元數(shù)據(jù)包括數(shù)據(jù)集貢獻(xiàn)者、所屬機(jī)構(gòu)、出版時(shí)間、論文下載、論文引用、參考文獻(xiàn)等元素,對(duì)應(yīng)著期刊論文的論文作者、所屬單位、發(fā)表時(shí)間、論文下載、論文引用、參考文獻(xiàn)等外部特征元素。科學(xué)數(shù)據(jù)、數(shù)據(jù)論文、期刊論文三者通過(guò)元數(shù)據(jù)框架形成牢固的數(shù)據(jù)流向三角關(guān)系,兩兩之間互相關(guān)聯(lián)、互相聯(lián)系,如圖3所示。
2.2.2文獻(xiàn)服務(wù)視角的關(guān)聯(lián)模型
由于科學(xué)數(shù)據(jù)在科學(xué)研究中的重要作用,部分搜索引擎、數(shù)據(jù)管理中心、研究機(jī)構(gòu)等與數(shù)據(jù)存儲(chǔ)庫(kù)之間通過(guò)自動(dòng)推理建立不同學(xué)科的科學(xué)數(shù)據(jù)與資源之間的語(yǔ)義關(guān)系,將科學(xué)數(shù)據(jù)集與資源聚合關(guān)聯(lián)等研發(fā)并推出互聯(lián)互通的科學(xué)數(shù)據(jù)關(guān)聯(lián)發(fā)現(xiàn)、文獻(xiàn)發(fā)現(xiàn)服務(wù),數(shù)據(jù)存儲(chǔ)庫(kù)也與期刊出版社之間創(chuàng)建互聯(lián)機(jī)制,確??茖W(xué)數(shù)據(jù)與文獻(xiàn)之間的可發(fā)現(xiàn)性、可關(guān)聯(lián)性。
越來(lái)越多的期刊出版社、數(shù)據(jù)存儲(chǔ)庫(kù)、研究機(jī)構(gòu)在遵循FAIR原則的前提下,建立協(xié)作共享機(jī)制,并且為研究人員(研究團(tuán)隊(duì))提供一站式科學(xué)數(shù)據(jù)檢索服務(wù)、文獻(xiàn)服務(wù),如PANGAEA、Dry-ad等專業(yè)領(lǐng)域科學(xué)數(shù)據(jù)存儲(chǔ)庫(kù)除了提供科學(xué)數(shù)據(jù)的相關(guān)基礎(chǔ)信息,還提供與其相關(guān)聯(lián)的文獻(xiàn)鏈接,提高科學(xué)數(shù)據(jù)與期刊論文的關(guān)聯(lián)緊密性。因此,從文獻(xiàn)服務(wù)的視角出發(fā),在科學(xué)數(shù)據(jù)和期刊論文之間構(gòu)建關(guān)聯(lián)模型,切實(shí)有效地提高數(shù)據(jù)論文與期刊論文之間的可發(fā)現(xiàn)性、可關(guān)聯(lián)性、可重用性,如圖4所示。
3基于FAIR原則的Data in Brief開放共享與關(guān)聯(lián)應(yīng)用研究
上文所述構(gòu)建的互關(guān)聯(lián)模型共分為3層,分別是平臺(tái)層、數(shù)據(jù)層、結(jié)構(gòu)層,3層之間的科學(xué)數(shù)據(jù)流向過(guò)程體現(xiàn)著FAIR原則的可訪問性、可發(fā)現(xiàn)性、可互操作性、可重用性。因此,選取支持FAIR原則的Data in Brief期刊,對(duì)構(gòu)建的數(shù)據(jù)論文與期刊論文互關(guān)聯(lián)模型進(jìn)行實(shí)例驗(yàn)證具有一定的代表性。
Data in Brief是Elsevier旗下的一類側(cè)重于數(shù)據(jù)存儲(chǔ)、共享及引用的數(shù)據(jù)期刊,科研人員可將其整個(gè)學(xué)術(shù)研究周期中收集的數(shù)據(jù)發(fā)布在此期刊中,將原本只是補(bǔ)充材料的數(shù)據(jù)資料轉(zhuǎn)化成有價(jià)值的學(xué)術(shù)論文。Data in Brief包含的數(shù)據(jù)論文涉及的學(xué)科范圍廣泛,數(shù)據(jù)論文涵蓋初步研究、概念驗(yàn)證研究、研究結(jié)果等階段的科研數(shù)據(jù)。
Data in Brief基于嚴(yán)格的同行評(píng)審、靈活的開放獲取、詳盡的數(shù)據(jù)描述等機(jī)制,不僅能最大化提升數(shù)據(jù)的行業(yè)認(rèn)可度、訪問展現(xiàn)量及研究引用數(shù),還能大大縮短相關(guān)行業(yè)的研究周期,使得科學(xué)數(shù)據(jù)和相關(guān)科學(xué)研究更容易被訪問、被發(fā)現(xiàn),為學(xué)者協(xié)作提供平臺(tái),有效減少科學(xué)數(shù)據(jù)重復(fù)工作,提高科學(xué)數(shù)據(jù)可重復(fù)性,為開放科學(xué)做出貢獻(xiàn)。Data inBrief支持FAIR原則,該數(shù)據(jù)期刊規(guī)定研究數(shù)據(jù)是可訪問的、可發(fā)現(xiàn)的、可互操作的和可重用的,如表1所示。
3.1基于“可訪問”“可發(fā)現(xiàn)”的開放共享研究
3.1.1基于“可訪問”的開放共享
Data in Brief支持FAIR原則的“可訪問”原則體現(xiàn)在可以使用標(biāo)準(zhǔn)化通信協(xié)議,通過(guò)相關(guān)元數(shù)據(jù)字段進(jìn)行檢索,即讀者能夠通過(guò)Science Direct和主要研究指標(biāo)易于查找到數(shù)據(jù)期刊,立即免費(fèi)訪問數(shù)據(jù)文章。Science Direct數(shù)據(jù)庫(kù)提供數(shù)據(jù)檢索功能,可以在“Journal/Book Title”字段中直接搜索“Data in Brief’即可跳轉(zhuǎn)至期刊介紹和期刊發(fā)文情況,讀者也可以在Science Direct數(shù)據(jù)庫(kù)中通過(guò)檢索“Title” “Keywords” “Author Name” “Terms”“ISSN or ISBN”等主要研究指標(biāo)的字段查找到相關(guān)數(shù)據(jù)論文。Data in Brief官網(wǎng)提供“Title”“Ab-stract or Author-specified Keywords” “Author(s)”“Author Affiliation” “References” “ISSN or ISBN”等主要研究指標(biāo)的檢索字段。讀者能快速通過(guò)檢索字段查找并閱讀相關(guān)數(shù)據(jù)論文,同時(shí)也能夠通過(guò)數(shù)據(jù)論文的構(gòu)成即數(shù)據(jù)論文的內(nèi)外部特征大致了解數(shù)據(jù)集的部分內(nèi)容。
數(shù)據(jù)期刊和常見的學(xué)術(shù)期刊一樣有著數(shù)據(jù)論文的內(nèi)外部特征,這些內(nèi)外部特征能夠反映發(fā)文學(xué)科領(lǐng)域、作者合作群、研究主題等要素。本文選擇以Data in Brief數(shù)據(jù)期刊發(fā)表的數(shù)據(jù)論文作為研究對(duì)象,該期刊的數(shù)據(jù)論文正文部分主要由多個(gè)子部分構(gòu)成,分別為Abstract(摘要)、Keywords(關(guān)鍵詞)、Specifications Table(說(shuō)明表)、Value of theData(數(shù)據(jù)價(jià)值)等,如表2所示。
Data in Brief的數(shù)據(jù)論文構(gòu)成部分包含一般學(xué)術(shù)論文常見的標(biāo)題、作者、作者單位、摘要、關(guān)鍵詞等文獻(xiàn)元數(shù)據(jù)元素,也包含著數(shù)據(jù)論文特有的說(shuō)明表、數(shù)據(jù)價(jià)值、數(shù)據(jù)描述、數(shù)據(jù)可用性等元數(shù)據(jù)元素,其中,Specifications Table(說(shuō)明表)有著規(guī)范的元數(shù)據(jù)、數(shù)據(jù)內(nèi)容的描述要求,如表3所示。
Specifications Table(說(shuō)明表)會(huì)將本篇數(shù)據(jù)論文涉及的數(shù)據(jù)主題、領(lǐng)域、數(shù)據(jù)格式等詳細(xì)的數(shù)據(jù)說(shuō)明,讀者通過(guò)Specifications Table能夠大致了解數(shù)據(jù)內(nèi)容,該數(shù)據(jù)期刊的每一篇數(shù)據(jù)論文都會(huì)在摘要、關(guān)鍵詞后附有Specifications Table,使得科學(xué)數(shù)據(jù)描述有一定的系統(tǒng)性、規(guī)范性,同時(shí)也可以提高科學(xué)數(shù)據(jù)開放共享及應(yīng)用的效率,并且提供數(shù)據(jù)源位置的信息,加快數(shù)據(jù)的查找和訪問。
3.1.2基于“可發(fā)現(xiàn)”的開放共享研究
Data in Brief支持FAIR原則的“可發(fā)現(xiàn)”原則體現(xiàn)在學(xué)者能夠通過(guò)Science Direct和主要研究指數(shù)使數(shù)據(jù)文章易于查找和下載。學(xué)者在數(shù)據(jù)論文頁(yè)面通過(guò)“View PDF”及“Download Full Issue”可以直接下載該篇數(shù)據(jù)論文。Data in Brief的數(shù)據(jù)文章首頁(yè)左側(cè)“Outline”字段會(huì)明確顯示該篇數(shù)據(jù)論文的構(gòu)成及撰寫大綱,便于學(xué)者快速跳轉(zhuǎn)至想要閱讀的內(nèi)容,數(shù)據(jù)論文的Tables、Extras部分單獨(dú)展示了該篇文章提供的表格和其他格式的科學(xué)數(shù)據(jù)呈現(xiàn)形式,使科學(xué)數(shù)據(jù)的研究成果快速被查找、閱讀,如表4所示。
Data in Brief定期、定量的發(fā)文使得提供開放共享的科學(xué)數(shù)據(jù)涵蓋多個(gè)學(xué)科,便于不同領(lǐng)域的學(xué)者在此數(shù)據(jù)期刊中查找和下載研究所需的科學(xué)數(shù)據(jù)。通過(guò)調(diào)研發(fā)現(xiàn),Data in Brief每?jī)蓚€(gè)月更新1次,1年共6卷,2020-2022年共18卷,3年共發(fā)表1771篇數(shù)據(jù)論文,主題主要分布在Agricultur-al Sciences、Biological Sciences、Microbiology、FoodScience、Arts and Humanities等多個(gè)學(xué)科領(lǐng)域。本文主要收集到了2020-2022年內(nèi)主題為Agricultur-al and Biological Sciences/Agricultural Sciences的數(shù)據(jù)論文,該主題的數(shù)據(jù)論文每卷都會(huì)更新,共發(fā)表了447篇,其中提供相關(guān)期刊論文共享鏈接的數(shù)據(jù)論文共有141篇(占31.54%)。
圖5顯示可知,Data in Brief近3年主題為Ag-ricultural and Biological Sciences/Agricultural Sciences的數(shù)據(jù)論文在2020年第3 1卷達(dá)到峰值,3年的發(fā)文量逐步下降,但數(shù)據(jù)論文的發(fā)文量中,相關(guān)聯(lián)期刊論文的數(shù)據(jù)論文數(shù)量占比處于穩(wěn)定的狀態(tài),這也反映了科學(xué)數(shù)據(jù)有著規(guī)范統(tǒng)一的出版要求,實(shí)現(xiàn)了科學(xué)數(shù)據(jù)的出版價(jià)值,反映了數(shù)據(jù)論文與相關(guān)的期刊論文的關(guān)聯(lián)性更加緊密。
3.2基于“可互操作”“可重用”的關(guān)聯(lián)應(yīng)用研究
3.2.1基于“可互操作”的關(guān)聯(lián)應(yīng)用
論文之間的關(guān)聯(lián)主要體現(xiàn)在“Refer”或者“Cite”(引用)兩種方式。論文與論文之間的關(guān)聯(lián)一般來(lái)說(shuō)就是引用,這是一種時(shí)序性的、單向的關(guān)聯(lián):但是期刊論文與數(shù)據(jù)論文添加了一種Refer關(guān)聯(lián),這是與期刊論文伴生的,是一種沒有時(shí)序性的、雙向的、直接的關(guān)聯(lián)。Data in Brief提供的“Refers to”“Referred to By”鏈接字段服務(wù),將數(shù)據(jù)論文與其關(guān)聯(lián)的期刊論文以鏈接的方式直接關(guān)聯(lián),關(guān)聯(lián)強(qiáng)度高且方式便捷,為用戶提供了數(shù)據(jù)論文與期刊論文的直接互聯(lián)的文獻(xiàn)服務(wù)。
通過(guò)數(shù)據(jù)論文提供的“Refers to”字段鏈接可以直接訪問關(guān)聯(lián)的期刊論文,在期刊論文頁(yè)面能通過(guò)“Referred to By”字段鏈接快速跳轉(zhuǎn)回到數(shù)據(jù)論文頁(yè)面。對(duì)期刊論文的發(fā)刊類型進(jìn)行統(tǒng)計(jì)可以發(fā)現(xiàn),收集到共89種類型的期刊,其中Food Chem-istry發(fā)文量較大,3年內(nèi)共有7篇期刊論文與數(shù)據(jù)論文是互聯(lián)的,該期刊類型也與論文主題是匹配的,如圖6所示。
數(shù)據(jù)論文與期刊論文的內(nèi)外部特征的異同特點(diǎn)使得二者基于元數(shù)據(jù)框架的關(guān)聯(lián)便于發(fā)現(xiàn)。Data inBrief通過(guò)“Refers to”字段使得期刊論文與數(shù)據(jù)論文產(chǎn)生外部鏈接形式的關(guān)聯(lián)。對(duì)部分論文進(jìn)行元數(shù)據(jù)映射情況研究可以發(fā)現(xiàn),除了外部鏈接形式的直接關(guān)聯(lián),二者之間還存在著基于元數(shù)據(jù)的內(nèi)部深度關(guān)聯(lián)。
從Data in Brief選取部分論文作為代表性案例研究發(fā)現(xiàn),二者的“標(biāo)題”“作者”“關(guān)鍵詞”等元數(shù)據(jù)元素內(nèi)容都是存在著聯(lián)系的。標(biāo)題通常能夠反映研究的主要內(nèi)容,標(biāo)題內(nèi)容的相似度反映著二者研究方向的一致性。如圖7所示,數(shù)據(jù)論文描述的是古巴西北部地區(qū)前礁八爪珊瑚組合數(shù)據(jù)集,與其關(guān)聯(lián)的期刊論文則是利用該數(shù)據(jù)集對(duì)古巴西北部地區(qū)八爪珊瑚群落進(jìn)行沿水梯度時(shí)空變化展開研究。對(duì)部分元數(shù)據(jù)進(jìn)行關(guān)系構(gòu)建,彰顯數(shù)據(jù)論文與期刊論文的相同元數(shù)據(jù)框架之間基于細(xì)粒度、基于語(yǔ)義的共指關(guān)系。“作者”這一元數(shù)據(jù)元素能夠直接反映研究團(tuán)隊(duì)以及研究?jī)?nèi)容的緊密性,數(shù)據(jù)論文與期刊論文的作者群很大程度上是同一作者群或者有部分研究人員變動(dòng),但核心研究團(tuán)隊(duì)是不變的,使得二者的作者群存在著全包含或半包含的關(guān)系;“關(guān)鍵詞”也可以直觀反映數(shù)據(jù)論文與期刊論文之間的研究領(lǐng)域、研究方向的一致性。因此,基于元數(shù)據(jù)元素視角,二者之間關(guān)聯(lián)關(guān)系通過(guò)多個(gè)元數(shù)據(jù)元素、多個(gè)案例論文數(shù)據(jù)皆可得到驗(yàn)證。
Data in Brief依托Elsevier直接在平臺(tái)為研究者提供體現(xiàn)科學(xué)數(shù)據(jù)應(yīng)用結(jié)果的期刊論文鏈接,科研人員能夠快速跳轉(zhuǎn)到相關(guān)期刊論文并且了解科學(xué)數(shù)據(jù)成果轉(zhuǎn)化的最終呈現(xiàn)結(jié)果?;诖耍疚耐ㄟ^(guò)元數(shù)據(jù)挖掘二者之間的深度關(guān)聯(lián)關(guān)系,“Refers to”“Referred to By”鏈接字段服務(wù)體現(xiàn)了數(shù)據(jù)論文與期刊論文的直接關(guān)聯(lián),二者之間的關(guān)聯(lián)強(qiáng)度高,實(shí)現(xiàn)了數(shù)據(jù)論文與期刊論文的“可互操作”性。
3.2.2基于“可重用”的關(guān)聯(lián)應(yīng)用
目前,引用行為的研究大都是對(duì)期刊出版的期刊論文進(jìn)行探究,但隨著數(shù)據(jù)論文在學(xué)術(shù)交流、數(shù)據(jù)開放共享過(guò)程中起到越來(lái)越重要的作用,對(duì)數(shù)據(jù)論文的引用特征進(jìn)行探索也具有一定的研究?jī)r(jià)值。與文獻(xiàn)引用類似,數(shù)據(jù)論文被引用也意味著引用者在某種程度上認(rèn)可了數(shù)據(jù)論文及其數(shù)據(jù)的學(xué)術(shù)價(jià)值與參考價(jià)值。
同時(shí),數(shù)據(jù)提供者可以在說(shuō)明表(SpecificationsTable)寫出研究過(guò)程的Raw and Analyzed的數(shù)據(jù)格式。通過(guò)對(duì)樣本論文的數(shù)據(jù)格式收集與分析,可以發(fā)現(xiàn)原始數(shù)據(jù)(Raw Data)主要是尚未進(jìn)行研究或者加工的數(shù)據(jù),格式主要有(*/.cdf)(*/.CSV)(*/.jpg)等,與此同時(shí),科研人員上傳的研究過(guò)程中產(chǎn)生的研究數(shù)據(jù)(Analyzed Data),數(shù)據(jù)形式主要以Fig-ure、Table為主,如圖8所示。
數(shù)據(jù)提供者在發(fā)表期刊論文的同時(shí),按照規(guī)范在Data in Brief發(fā)表數(shù)據(jù)論文,研究者的科學(xué)數(shù)據(jù)以不同的數(shù)據(jù)格式、數(shù)據(jù)形式在Data in Brief開放共享,其他研究者能夠發(fā)現(xiàn)、訪問并進(jìn)行引用行為,從而進(jìn)行科學(xué)數(shù)據(jù)的重用。引用特征主要分為3種:二次重用、直接引用或直接關(guān)聯(lián)、間接引用。
1)科學(xué)數(shù)據(jù)二次重用
科學(xué)數(shù)據(jù)的二次重用是指基于已有數(shù)據(jù)資源對(duì)科學(xué)數(shù)據(jù)進(jìn)行復(fù)用和挖掘,以獲取新知識(shí)或新規(guī)律的過(guò)程??茖W(xué)數(shù)據(jù)的二次重用是實(shí)現(xiàn)科學(xué)數(shù)據(jù)價(jià)值挖掘和使用的重要手段,對(duì)于提高科學(xué)數(shù)據(jù)利用率、推動(dòng)科技創(chuàng)新具有重要意義。
在過(guò)去的幾年里,包括谷歌、亞馬遜、微軟和Facebook在內(nèi)的科技巨頭都在不斷地調(diào)整數(shù)據(jù)的處理、管理方式。隨著科學(xué)數(shù)據(jù)越來(lái)越多地被用于提高各種科學(xué)研究的速度和準(zhǔn)確性,各個(gè)領(lǐng)域和行業(yè)也越來(lái)越多地使用其他研究人員已經(jīng)分析過(guò)的科學(xué)數(shù)據(jù)來(lái)推動(dòng)科學(xué)進(jìn)步,但科研人員并不是需要再次收集、處理所存儲(chǔ)的科學(xué)數(shù)據(jù),如一些科研人員可能想要使用來(lái)自不同實(shí)驗(yàn)室的多個(gè)研究團(tuán)隊(duì)所收集到的數(shù)據(jù),但在不同實(shí)驗(yàn)室之間遷移或復(fù)制科學(xué)數(shù)據(jù)會(huì)花費(fèi)大量時(shí)間且導(dǎo)致研究進(jìn)展緩慢、重復(fù)實(shí)驗(yàn)。部分科研人員會(huì)將存儲(chǔ)的科學(xué)數(shù)據(jù)上傳至科學(xué)數(shù)據(jù)共享平臺(tái),使得科學(xué)數(shù)據(jù)被發(fā)現(xiàn)、共享并能夠被他人二次重用。部分研究人員在科學(xué)研究中,利用已有的或新獲得的科學(xué)數(shù)據(jù)中發(fā)現(xiàn)可用于后續(xù)研究、與其他數(shù)據(jù)整合成新的科學(xué)數(shù)據(jù)集,進(jìn)而實(shí)現(xiàn)對(duì)相關(guān)問題的多源異構(gòu)數(shù)據(jù)融合利用,以提高科學(xué)數(shù)據(jù)的二次重用,減少重復(fù)科研的可能。
2)直接引用或直接關(guān)聯(lián)
由于數(shù)據(jù)期刊Data in Brief的規(guī)范性出版規(guī)定,學(xué)者在訪問該數(shù)據(jù)期刊的文章時(shí),發(fā)現(xiàn)對(duì)研究有所幫助的數(shù)據(jù)或內(nèi)容可以直接引用,并且研究者能夠在撰寫學(xué)術(shù)論文時(shí)直接引用Data in Brief的數(shù)據(jù)論文,并在參考文獻(xiàn)中標(biāo)注。研究者將自己的科研數(shù)據(jù)在Data in Brief發(fā)表時(shí),也可以將引用到的數(shù)據(jù)或論文以“Referred to By”“Cited”字段上傳且相應(yīng)的期刊論文會(huì)通過(guò)“Refers to”字段鏈接直接與數(shù)據(jù)論文相關(guān)聯(lián)。如圖9所示,一篇數(shù)據(jù)論文有兩篇關(guān)聯(lián)的期刊論文,都以“Refer to”鏈接字段相關(guān)聯(lián),兩篇期刊論文各與此篇數(shù)據(jù)論文通過(guò)“Re-ferred to By”鏈接字段相關(guān)聯(lián)。
Data in Brief不僅支持?jǐn)?shù)據(jù)論文與期刊論文相互關(guān)聯(lián),也支持?jǐn)?shù)據(jù)論文與數(shù)據(jù)論文的相互關(guān)聯(lián),展現(xiàn)科學(xué)數(shù)據(jù)之間的可重復(fù)利用性。如圖10所示,圖中所示的兩篇數(shù)據(jù)論文通過(guò)“Refer”外部鏈接方式相互引用、相互關(guān)聯(lián)。
3)間接引用
科學(xué)數(shù)據(jù)的間接引用與直接引用在內(nèi)容上存在一些區(qū)別。直接引文是直接引用或直接關(guān)聯(lián)科學(xué)數(shù)據(jù),而間接引用是間接從科學(xué)數(shù)據(jù)中提取出引文信息后再進(jìn)行引用,間接引用的目的主要是科研人員能夠間接引用科學(xué)數(shù)據(jù),更方便、更快速。
由表5可知,間接引文的評(píng)價(jià)指標(biāo)主要涵蓋作者影響力、期刊影響力和引用行為等,數(shù)據(jù)論文發(fā)表數(shù)量、引文數(shù)和被引次數(shù)等是間接引文的主要影響因素??茖W(xué)數(shù)據(jù)間接引用與期刊論文之間也存在較強(qiáng)的相關(guān)性,間接引用主要涉及研究人員通過(guò)在訪問過(guò)數(shù)據(jù)期刊及其共享的科學(xué)數(shù)據(jù)后,僅是在撰寫研究成果時(shí)會(huì)提及數(shù)據(jù)期刊或者科學(xué)數(shù)據(jù)的部分內(nèi)容,只是作為自己觀點(diǎn)的案例論證,并非直接引用。
綜上所述,本文對(duì)數(shù)據(jù)期刊的開放共享研究體現(xiàn)在基于“可訪問”“可發(fā)現(xiàn)”兩個(gè)原則,通過(guò)對(duì)具有代表性的數(shù)據(jù)期刊Data in Brief所收錄的數(shù)據(jù)論文元數(shù)據(jù)進(jìn)行采集、處理與分析,從數(shù)據(jù)論文和期刊論文的內(nèi)外部特征、數(shù)據(jù)期刊的文獻(xiàn)服務(wù)兩個(gè)角度切入,探索數(shù)據(jù)期刊的開放性、共享性;對(duì)數(shù)據(jù)期刊的關(guān)聯(lián)模型驗(yàn)證研究體現(xiàn)在基于“可互操作”“可重用”兩個(gè)原則,通過(guò)對(duì)數(shù)據(jù)論文提供的“Refers to”“Referred to By”字段鏈接,對(duì)數(shù)據(jù)論文和期刊論文二者之間元數(shù)據(jù)進(jìn)行深度關(guān)聯(lián)的探索,進(jìn)一步驗(yàn)證了關(guān)聯(lián)模型的可行性與合理性。
4結(jié)語(yǔ)
科學(xué)數(shù)據(jù)與期刊論文關(guān)聯(lián)融合發(fā)展是各個(gè)學(xué)科領(lǐng)域發(fā)展的需求和大數(shù)據(jù)時(shí)代的期刊出版形態(tài)必然發(fā)展趨勢(shì),更加利于科學(xué)數(shù)據(jù)開放共享、高效流通。因此,本文基于FAIR原則通過(guò)對(duì)Data in Brief所收錄的3年內(nèi)主題為Agricultural and BiologicalSciences/Agricultural Sciences的數(shù)據(jù)論文元數(shù)據(jù)進(jìn)行收集和處理,首先對(duì)數(shù)據(jù)論文的元數(shù)據(jù)如標(biāo)題、作者、關(guān)鍵詞、涉及學(xué)科等進(jìn)行收集和處理;其次根據(jù)論文的屬性特征,對(duì)DC元數(shù)據(jù)進(jìn)行復(fù)用后構(gòu)建數(shù)據(jù)論文與期刊論文的互關(guān)聯(lián)模型,主要體現(xiàn)在論文內(nèi)外部特征視角的元數(shù)據(jù)元素框架、文獻(xiàn)服務(wù)視角的關(guān)聯(lián)模型,并選取具體的具有代表性的數(shù)據(jù)論文作為實(shí)證研究對(duì)象,對(duì)數(shù)據(jù)論文和期刊論文的各個(gè)部分的屬性之間關(guān)聯(lián)性展開闡述與驗(yàn)證。
本文以數(shù)據(jù)流向的視角構(gòu)建基于FAIR原則的關(guān)聯(lián)模型,完成數(shù)據(jù)論文元數(shù)據(jù)框架的構(gòu)建、數(shù)據(jù)論文與期刊論文的互關(guān)聯(lián)模型的設(shè)計(jì),并且對(duì)科學(xué)數(shù)據(jù)的開放共享、數(shù)據(jù)論文與期刊論文的關(guān)聯(lián)研究不再局限于知識(shí)組織和理論研究,而是將理論研究應(yīng)用于實(shí)踐驗(yàn)證中,更富有實(shí)踐性、可行性,為今后的科學(xué)數(shù)據(jù)的開放共享、關(guān)聯(lián)研究打下基礎(chǔ)。
在后續(xù)的研究中可以增加更多學(xué)科領(lǐng)域的樣本數(shù)量,并探索針對(duì)多源異構(gòu)特性的科學(xué)數(shù)據(jù)元數(shù)據(jù)框架的映射性與關(guān)聯(lián)性,以及數(shù)據(jù)論文與期刊論文關(guān)聯(lián)模式研究視角的創(chuàng)新性。