鄭伯爽 賀子岳 陳曉峰
(1.武漢理工大學(xué) 法學(xué)與人文社會(huì)學(xué)院,湖北 武漢430070;2.湖北省科技信息研究院《科技進(jìn)步與對(duì)策》編輯部,湖北 武漢430071)
開放科學(xué)正在逐漸改變傳統(tǒng)的科學(xué)范式,隨之而來的是第四種科學(xué)范式——數(shù)據(jù)密集型科學(xué)范式的形成和發(fā)展,數(shù)據(jù)作為信息時(shí)代信息和學(xué)術(shù)傳播的重要載體,也越來越引起人們的重視,對(duì)數(shù)據(jù)如何進(jìn)行管理、利用和存儲(chǔ)等問題成為學(xué)術(shù)界重點(diǎn)關(guān)注的話題??蒲袛?shù)據(jù)知識(shí)庫的發(fā)展也成為解決上述問題的重要手段之一,但是截至目前,相關(guān)研究人員還未對(duì)數(shù)據(jù)知識(shí)庫進(jìn)行統(tǒng)一的定義,我國學(xué)者劉峰、張曉林在一篇名為《科研數(shù)據(jù)知識(shí)庫研究述評(píng)》中較為全面地將科研數(shù)據(jù)知識(shí)庫定義是可以有效保存、管理科學(xué)數(shù)據(jù)的工具,同時(shí)支持各種科研活動(dòng)以及知識(shí)創(chuàng)造的數(shù)字知識(shí)庫。[1]本文采用這一定義。
目前,對(duì)科研數(shù)據(jù)知識(shí)庫方面的研究,國外的研究內(nèi)容比較豐富,主要集中選取多個(gè)科研數(shù)據(jù)知識(shí)庫進(jìn)行對(duì)比分析其服務(wù)功能和特點(diǎn)。我國的研究主要是對(duì)比分析我國和歐美國家的科研數(shù)據(jù)知識(shí)庫目前存在的差異,并參考國外科研數(shù)據(jù)知識(shí)庫建設(shè)發(fā)展提出的建議,為我國科研數(shù)據(jù)知識(shí)庫建設(shè)和發(fā)展提供合理的參考依據(jù)。
對(duì)科研數(shù)據(jù)知識(shí)庫質(zhì)量控制方面的研究,通過對(duì)比分析相關(guān)文獻(xiàn)可以看出,目前國內(nèi)外關(guān)于科研數(shù)據(jù)知識(shí)庫質(zhì)量控制的實(shí)踐活動(dòng)以及研究還處于初級(jí)發(fā)展階段,由于科研數(shù)據(jù)知識(shí)庫質(zhì)量控制的方法、體系和機(jī)制還有待完善,質(zhì)量控制政策的滯后性,導(dǎo)致了科研數(shù)據(jù)知識(shí)庫質(zhì)量控制問題日益突出??蒲袛?shù)據(jù)知識(shí)庫質(zhì)量控制問題得以有效控制和管理既是當(dāng)前科學(xué)數(shù)據(jù)管理工作以及研究亟須解決的問題,也是當(dāng)前科學(xué)研究創(chuàng)新的重要突破口。
基于此,本文以數(shù)據(jù)知識(shí)庫質(zhì)量控制為研究對(duì)象,對(duì)科研數(shù)據(jù)知識(shí)庫質(zhì)量控制流程進(jìn)行深入地梳理和剖析,并提煉出在質(zhì)量控制過程中存在的問題及相應(yīng)的參考建議。
在大數(shù)據(jù)環(huán)境中大量的數(shù)據(jù)資源被分布在各個(gè)領(lǐng)域,聚集和加載在各個(gè)環(huán)節(jié),在此時(shí)如何利用數(shù)據(jù)知識(shí)庫進(jìn)行科研數(shù)據(jù)整合,包括多個(gè)數(shù)據(jù)源的一致性、合規(guī)性以及兼容性,成為科研數(shù)據(jù)知識(shí)庫質(zhì)量控制過程的重要組成部分。而且對(duì)科研數(shù)據(jù)知識(shí)庫質(zhì)量控制的研究貫穿于科學(xué)數(shù)據(jù)生命周期的全部過程,因此本文將從數(shù)據(jù)出版流程的角度出發(fā),對(duì)科研數(shù)據(jù)知識(shí)庫質(zhì)量控制進(jìn)行探討??蒲袛?shù)據(jù)知識(shí)庫數(shù)據(jù)出版流程有五個(gè)階段,如圖1所示,分別是數(shù)據(jù)提交階段、數(shù)據(jù)存儲(chǔ)階段、數(shù)據(jù)審核階段、數(shù)據(jù)發(fā)布階段以及數(shù)據(jù)引用階段。下文將從這五個(gè)環(huán)節(jié)對(duì)數(shù)據(jù)知識(shí)庫質(zhì)量控制流程進(jìn)行闡述。
圖1 科研數(shù)據(jù)知識(shí)庫質(zhì)量控制流程
通常情況下,數(shù)據(jù)提交有兩種主要方式:一種是數(shù)據(jù)生產(chǎn)者自行提交方式,即數(shù)據(jù)論文和科學(xué)數(shù)據(jù)結(jié)果的創(chuàng)建者提交并上傳到公共平臺(tái)。另一種提交方式是平臺(tái)人員支持提交方式。這意味著科研數(shù)據(jù)知識(shí)庫的工作人員將幫助數(shù)據(jù)創(chuàng)建者將科學(xué)數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)知識(shí)庫中。
1.1.1 數(shù)據(jù)生產(chǎn)者自我提交的質(zhì)量控制
數(shù)據(jù)生產(chǎn)者自我提交方式是由科研人員本人把自己的科學(xué)數(shù)據(jù)或者是數(shù)據(jù)成果提交到在線數(shù)據(jù)提交平臺(tái)上的一種提交方式,并且這種自主提交方式還需要提交指南作為指導(dǎo)。
目前主要有兩種數(shù)據(jù)在線提交平臺(tái),第一種是基于免費(fèi)的開源軟件開放的在線提交平臺(tái),如DSpace、Dataverse。其中典型的Dryad數(shù)據(jù)知識(shí)庫就是在DSpace開源軟件的基礎(chǔ)上開發(fā)而形成的,Data Share是在Dataverse開源軟件的基礎(chǔ)上開發(fā)形成的。第二種是由科研數(shù)據(jù)知識(shí)庫的機(jī)構(gòu)自主研發(fā)出來的在線提交平臺(tái),不要進(jìn)行二次操作驗(yàn)證即可在線提交的平臺(tái),這種在線提交平臺(tái)都是根據(jù)數(shù)據(jù)知識(shí)庫自身的功能、服務(wù)特點(diǎn)以及需求研發(fā)形成的,符合了目標(biāo)用戶的實(shí)際需求。不僅如此,數(shù)據(jù)在線提交平臺(tái)無論是在免費(fèi)的開源軟件上進(jìn)行二次開發(fā)形成的,還是自主研發(fā)出來的,都有相應(yīng)的數(shù)據(jù)提交指南,數(shù)據(jù)提交到在線提交平臺(tái)上都需要按照提交指南的要求進(jìn)行提交。
提交指南會(huì)指導(dǎo)并要求數(shù)據(jù)提交者按照規(guī)定的提交標(biāo)準(zhǔn)進(jìn)行提交,在一定程度上也保證了提交數(shù)據(jù)的質(zhì)量,對(duì)數(shù)據(jù)質(zhì)量起到一定的控制和管理的作用。一般分為四個(gè)標(biāo)準(zhǔn)化的要求:提交理由、提交前的準(zhǔn)備、提交流程以及提交后對(duì)數(shù)據(jù)集等的處理。
1.1.2 平臺(tái)人員支持提交的質(zhì)量控制
平臺(tái)人員支持提交方式是科研數(shù)據(jù)知識(shí)庫最常用的方式之一,也就是平臺(tái)人員與數(shù)據(jù)提交者共同合作完成的一種提交方式,通常情況下,工作人員會(huì)按照一定的評(píng)估標(biāo)準(zhǔn),對(duì)即將提交到科研數(shù)據(jù)知識(shí)庫的科學(xué)數(shù)據(jù)進(jìn)行評(píng)估,如英國環(huán)境數(shù)據(jù)分析中心科研數(shù)據(jù)知識(shí)庫的評(píng)估環(huán)節(jié)是由該科研數(shù)據(jù)知識(shí)庫工作人員對(duì)即將納入的數(shù)據(jù)集進(jìn)行評(píng)估,評(píng)估數(shù)據(jù)是否符合存儲(chǔ)的價(jià)值和意義,主要針對(duì)科學(xué)數(shù)據(jù)的質(zhì)量、完整性、準(zhǔn)確性等進(jìn)行評(píng)估。如果不合適,將會(huì)把這些數(shù)據(jù)推薦到其他的地方進(jìn)行存儲(chǔ),如果合適將提交到科研數(shù)據(jù)知識(shí)庫,進(jìn)行下一步存儲(chǔ)的操作。[2]也就是進(jìn)行數(shù)據(jù)提交前的準(zhǔn)備工作,科研數(shù)據(jù)知識(shí)庫的工作人員需要制定詳細(xì)的數(shù)據(jù)提交計(jì)劃,準(zhǔn)備如何對(duì)數(shù)據(jù)集進(jìn)行描述以及確保數(shù)據(jù)格式的正確性等。如UKDA數(shù)據(jù)知識(shí)庫的相關(guān)工作人員制定了數(shù)據(jù)提交計(jì)劃,可以按照這個(gè)計(jì)劃對(duì)科學(xué)數(shù)據(jù)進(jìn)行提交,而且UKDA還會(huì)根據(jù)數(shù)據(jù)大小來選取適合的存儲(chǔ)方式。
數(shù)據(jù)存儲(chǔ)是科研數(shù)據(jù)知識(shí)庫穩(wěn)定運(yùn)行的前提,是檢索數(shù)據(jù)價(jià)值的基礎(chǔ)。通過數(shù)據(jù)生產(chǎn)者自行提交或協(xié)助數(shù)據(jù)知識(shí)庫工作人員提交并上傳到科研數(shù)據(jù)知識(shí)庫的數(shù)據(jù),再通過科研數(shù)據(jù)知識(shí)庫對(duì)這些數(shù)據(jù)進(jìn)行描述、分類,這是對(duì)科研數(shù)據(jù)知識(shí)庫存儲(chǔ)數(shù)據(jù)的基本程序。科研數(shù)據(jù)知識(shí)庫會(huì)根據(jù)不同學(xué)科類別的科學(xué)數(shù)據(jù)進(jìn)行主題劃分,如學(xué)科基礎(chǔ)類的科學(xué)數(shù)據(jù)(物理、天文、地理等)和科學(xué)數(shù)據(jù)創(chuàng)建的方法(實(shí)驗(yàn)采集、觀測采集等)以及基本的數(shù)據(jù)文本和數(shù)據(jù)庫等。這些數(shù)據(jù)主要分為元數(shù)據(jù)、臨床數(shù)據(jù)、圖像數(shù)據(jù)、特點(diǎn)項(xiàng)目的數(shù)據(jù)、圖像元數(shù)據(jù)以及音頻數(shù)據(jù)等。
這樣,所有存儲(chǔ)的數(shù)據(jù)都要符合數(shù)據(jù)知識(shí)庫的存儲(chǔ)格式和標(biāo)準(zhǔn),同時(shí)提高了數(shù)據(jù)知識(shí)庫中數(shù)據(jù)的完整性和準(zhǔn)確性。如Shin等[3]研究的科研數(shù)據(jù)知識(shí)庫可以存儲(chǔ)來自30多個(gè)研究項(xiàng)目里的總共2000多個(gè)數(shù)據(jù),由于大量數(shù)據(jù)存儲(chǔ)其中,為避免出現(xiàn)誤差,需要明確數(shù)據(jù)存儲(chǔ)格式和規(guī)范。
數(shù)據(jù)審核是數(shù)據(jù)出版過程中的必要環(huán)節(jié),不同學(xué)科領(lǐng)域的審核內(nèi)容和方式各不相同。數(shù)據(jù)審核也叫數(shù)據(jù)評(píng)審,最常見的英文翻譯是Reasearch Data Review,簡稱RDR,數(shù)據(jù)評(píng)審與學(xué)術(shù)論文中的同行評(píng)審類似,數(shù)據(jù)評(píng)審是科研數(shù)據(jù)知識(shí)庫質(zhì)量控制的重要方法之一,由于數(shù)據(jù)評(píng)審處于初步發(fā)展階段,目前業(yè)界尚未對(duì)其有統(tǒng)一的定義,有學(xué)者認(rèn)為數(shù)據(jù)評(píng)審是評(píng)估數(shù)據(jù)和相關(guān)文件的過程,也有學(xué)者認(rèn)為數(shù)據(jù)評(píng)審是數(shù)據(jù)質(zhì)量控制的重要方法?;诳蒲袛?shù)據(jù)知識(shí)庫的數(shù)據(jù)評(píng)審一般包含3方面的內(nèi)容:首先是數(shù)據(jù)評(píng)審標(biāo)準(zhǔn),其次是數(shù)據(jù)評(píng)審的實(shí)踐和項(xiàng)目的說明,最后是數(shù)據(jù)評(píng)審內(nèi)容的說明。對(duì)這3個(gè)內(nèi)容進(jìn)行評(píng)審,確保數(shù)據(jù)的科學(xué)質(zhì)量。
數(shù)據(jù)發(fā)布是數(shù)據(jù)出版的重要環(huán)節(jié)之一。不同的科研數(shù)據(jù)知識(shí)庫有不同的數(shù)據(jù)發(fā)布平臺(tái)和渠道。目前,科研數(shù)據(jù)知識(shí)庫主要有3個(gè)數(shù)據(jù)分發(fā)渠道。第一個(gè)是數(shù)據(jù)庫數(shù)據(jù)目錄,第二個(gè)是相關(guān)期刊文章,第三個(gè)是綜合數(shù)據(jù)目錄。最常用的發(fā)布渠道是數(shù)據(jù)庫的數(shù)據(jù)目錄??蒲袛?shù)據(jù)知識(shí)庫中發(fā)布的數(shù)據(jù)通常包括數(shù)據(jù)庫本身和有關(guān)數(shù)據(jù)庫的大量信息、許可協(xié)議和相關(guān)出版物、科學(xué)研究成果等。同時(shí)不同的科研數(shù)據(jù)知識(shí)庫關(guān)注的數(shù)據(jù)細(xì)節(jié)也有區(qū)別,其中,專業(yè)型數(shù)據(jù)庫中的大量數(shù)據(jù)通常比公共科學(xué)數(shù)據(jù)庫中的大量數(shù)據(jù)詳細(xì)得多。對(duì)可以追蹤到來源的科學(xué)數(shù)據(jù),科研數(shù)據(jù)知識(shí)庫一般會(huì)選擇期刊論文作為其發(fā)布渠道;集成數(shù)據(jù)目錄這類發(fā)布渠道,一般是數(shù)據(jù)集或者數(shù)據(jù)集的元數(shù)據(jù)的發(fā)布渠道;集成數(shù)據(jù)目錄是數(shù)據(jù)知識(shí)庫拓展出的新式數(shù)據(jù)發(fā)布渠道,能夠增加數(shù)據(jù)集被發(fā)現(xiàn)和被利用的可能性。
同時(shí),不同科研數(shù)據(jù)知識(shí)庫的數(shù)據(jù)發(fā)布時(shí)間也不同。科研數(shù)據(jù)知識(shí)庫鼓勵(lì)并允許在提交和審查后盡快發(fā)布數(shù)據(jù)集。但是,也有非正常情況下,科學(xué)數(shù)據(jù)提交者可以自行決定暫停發(fā)表,并且大多數(shù)科研數(shù)據(jù)知識(shí)庫會(huì)根據(jù)規(guī)定,會(huì)給用戶提供延遲期。這種發(fā)布時(shí)間延遲的原因主要有3個(gè):一是敏感數(shù)據(jù)發(fā)布會(huì)延遲;二是在發(fā)表期刊文章時(shí)會(huì)推遲科學(xué)數(shù)據(jù)的發(fā)表;三是由于資助機(jī)構(gòu)的要求,出版延遲。
數(shù)據(jù)引用或者是數(shù)據(jù)利用是數(shù)據(jù)庫出版過程中最重要的環(huán)節(jié),在出版過程中占有重要地位??蒲袛?shù)據(jù)知識(shí)庫中的數(shù)據(jù)質(zhì)量控制往往是對(duì)規(guī)范數(shù)據(jù)引用格式和完善數(shù)據(jù)引用標(biāo)準(zhǔn)表體現(xiàn)出來。如今,數(shù)據(jù)引用格式有很多種,包括DOI、URL、OpenURL等。同時(shí)也包含一種新的數(shù)據(jù)引用技術(shù)——數(shù)據(jù)指紋。其中,就目前來看DOI應(yīng)用最為廣泛,原因在于DOI具備唯一性、永久性以及更新及時(shí)性等特征。一方面可以實(shí)現(xiàn)數(shù)據(jù)引用過程中數(shù)據(jù)版本和數(shù)據(jù)地址的及時(shí)更新和迭代,另一方面可以維護(hù)數(shù)據(jù)作者的署名權(quán)。
目前,國內(nèi)外不同的科研數(shù)據(jù)知識(shí)庫的數(shù)據(jù)引用格式往往也不一樣,但數(shù)據(jù)引用格式的內(nèi)容大都包含作者、年份、數(shù)據(jù)地址、訪問地址數(shù)據(jù)等重要元素,還要盡可能地反映數(shù)據(jù)類型和數(shù)據(jù)檢索時(shí)間。當(dāng)用戶再引用數(shù)據(jù)時(shí)也遇到引用數(shù)據(jù)格式不一致的問題,目前全球范圍內(nèi)還未對(duì)數(shù)據(jù)引用格式作統(tǒng)一的標(biāo)準(zhǔn),因此科研數(shù)據(jù)知識(shí)庫會(huì)根據(jù)自身的需求以及功能定位形成了自己獨(dú)特的數(shù)據(jù)引用格式和標(biāo)準(zhǔn),并且也將這些數(shù)據(jù)引用標(biāo)準(zhǔn)形成對(duì)科研數(shù)據(jù)知識(shí)庫數(shù)據(jù)引用質(zhì)量控制的明文規(guī)定。
科研數(shù)據(jù)知識(shí)庫的數(shù)據(jù)質(zhì)量控制包含科學(xué)性和技術(shù)性質(zhì)量控制兩個(gè)方面,其中科研數(shù)據(jù)知識(shí)庫較多使用的是技術(shù)標(biāo)準(zhǔn)層面的質(zhì)量控制,通常情況下需要通過多種技術(shù)手段對(duì)數(shù)據(jù)本身以及描述數(shù)據(jù)集進(jìn)行技術(shù)性評(píng)估。如NCAR(美國國家大氣研究中心)的科研數(shù)據(jù)知識(shí)庫會(huì)提供軟件統(tǒng)計(jì)分析數(shù)據(jù)內(nèi)容,檢查數(shù)據(jù)產(chǎn)生和輸出的一致性,但是面對(duì)大規(guī)模的數(shù)據(jù)集的審查,將是一個(gè)難點(diǎn),也無法對(duì)這種大規(guī)模的數(shù)據(jù)集進(jìn)行這種技術(shù)性審查,原因在于目前質(zhì)量控制過程中技術(shù)支持還有待加強(qiáng)。大規(guī)模的數(shù)據(jù)集描述需要數(shù)據(jù)知識(shí)庫不斷更新各種在線工具用于支撐數(shù)據(jù)集的描述,并檢查數(shù)據(jù)集的完整性、正確性。但是通過調(diào)研發(fā)現(xiàn),目前部分科研數(shù)據(jù)知識(shí)庫可能在技術(shù)版本的更新上面缺乏反饋機(jī)制,并未及時(shí)有效地更新這些在線服務(wù)的平臺(tái)。也就是說現(xiàn)有的相關(guān)應(yīng)用并不能解決當(dāng)前實(shí)際問題,亟需根據(jù)數(shù)據(jù)的實(shí)際需要開發(fā)相應(yīng)的技術(shù)性的管理工具。
數(shù)據(jù)評(píng)審體系不健全主要體現(xiàn)在數(shù)據(jù)評(píng)審標(biāo)準(zhǔn)、數(shù)據(jù)評(píng)審流程、數(shù)據(jù)評(píng)審內(nèi)容3個(gè)方面。首先是數(shù)據(jù)評(píng)審標(biāo)準(zhǔn)的不統(tǒng)一,科研數(shù)據(jù)知識(shí)庫的數(shù)據(jù)評(píng)審標(biāo)準(zhǔn)一般都是根據(jù)本科研數(shù)據(jù)知識(shí)庫自身需求和情況而制定的,也就意味著不同學(xué)科類型的科研數(shù)據(jù)知識(shí)庫,或者是同一學(xué)科類型但是不同的科研數(shù)據(jù)知識(shí)庫都有其本身的數(shù)據(jù)評(píng)審標(biāo)準(zhǔn),因此在數(shù)據(jù)評(píng)審過程中,評(píng)審專家會(huì)按照數(shù)據(jù)評(píng)審標(biāo)準(zhǔn)給出的評(píng)審意見的標(biāo)準(zhǔn)也不統(tǒng)一,會(huì)造成學(xué)術(shù)不公的問題。
其次是數(shù)據(jù)評(píng)審流程不健全,一般情況下,期刊論文數(shù)據(jù)評(píng)審主要是由期刊編輯部進(jìn)行初次審核,再由評(píng)審專家進(jìn)行匿名評(píng)審的過程,由調(diào)研可知,科研數(shù)據(jù)知識(shí)庫的數(shù)據(jù)評(píng)審的流程會(huì)更加的復(fù)雜,如Scientific Data 根據(jù)自身的情況采取三段式的審核流程?!吨袊茖W(xué)數(shù)據(jù)》采用五段式的審核流程,然而根據(jù)科研數(shù)據(jù)知識(shí)庫本身情況而定的數(shù)據(jù)評(píng)審流程,同時(shí)也會(huì)導(dǎo)致科研數(shù)據(jù)知識(shí)庫與數(shù)據(jù)期刊的數(shù)據(jù)評(píng)審權(quán)責(zé)不分明的問題,數(shù)據(jù)評(píng)審細(xì)節(jié)難以說明,數(shù)據(jù)評(píng)審過程浪費(fèi)大量的時(shí)間和精力,降低了數(shù)據(jù)評(píng)審的效率,同時(shí)也會(huì)導(dǎo)致學(xué)術(shù)不公平的現(xiàn)象。
科研數(shù)據(jù)知識(shí)庫作為科學(xué)數(shù)據(jù)傳播和共享的基礎(chǔ)設(shè)施建設(shè),是科學(xué)技術(shù)發(fā)展的重要基礎(chǔ),同時(shí)也是促進(jìn)學(xué)術(shù)交流的重要平臺(tái),因此具有很強(qiáng)的專業(yè)性和嚴(yán)謹(jǐn)性。而目前高校并未設(shè)置相關(guān)專業(yè),缺乏對(duì)此類人才的關(guān)注和培養(yǎng),造成了數(shù)據(jù)質(zhì)量控制人才緊缺的局面,導(dǎo)致目前科研數(shù)據(jù)知識(shí)庫質(zhì)量控制相關(guān)人員由于質(zhì)量控制實(shí)踐不充足,因此并不具備專業(yè)性,在實(shí)踐中容易出現(xiàn)質(zhì)量控制不當(dāng)?shù)默F(xiàn)象。
同時(shí)對(duì)相關(guān)人員缺乏及時(shí)的培訓(xùn),導(dǎo)致其專業(yè)水平有限,還是依據(jù)之前的標(biāo)準(zhǔn)和意識(shí)對(duì)目前不斷變化的科研數(shù)據(jù)進(jìn)行控制。數(shù)據(jù)質(zhì)量水平的高低與數(shù)據(jù)質(zhì)量控制專家和團(tuán)隊(duì)的專業(yè)水平息息相關(guān),依托高水平的專家和團(tuán)隊(duì),使得科研數(shù)據(jù)經(jīng)過嚴(yán)格的檢查、控制,也可以提交上傳至數(shù)據(jù)知識(shí)庫,這樣不僅保障了數(shù)據(jù)質(zhì)量而且也保障了數(shù)據(jù)知識(shí)庫的質(zhì)量,從而提高了科學(xué)數(shù)據(jù)的利用率。因此提高相關(guān)質(zhì)量控制人員的專業(yè)素養(yǎng)迫在眉睫。
打造功能更加豐富的科研數(shù)據(jù)知識(shí)庫數(shù)據(jù)管理工具??蒲袛?shù)據(jù)知識(shí)庫的數(shù)據(jù)在整個(gè)生命周期過程中易受多種復(fù)雜因素影響,使用一種技術(shù)難以充分保證數(shù)據(jù)質(zhì)量的有效性。所以應(yīng)根據(jù)數(shù)據(jù)的實(shí)際需要開發(fā)相應(yīng)的技術(shù)性的管理工具,同時(shí)在各個(gè)階段保持基于知識(shí)的數(shù)據(jù)質(zhì)量。國外一些科研數(shù)據(jù)知識(shí)庫數(shù)據(jù)在管理工具和平臺(tái)的開發(fā)和使用方面比較成熟,我國也在這方面取得一定的進(jìn)展,我國要不斷地提高這方面的技術(shù),可以把國外的技術(shù)管理平臺(tái)作為建設(shè)自己數(shù)據(jù)知識(shí)庫數(shù)據(jù)管理工具的參考,因此研究人員應(yīng)該好好利用國外的經(jīng)驗(yàn)。
加強(qiáng)技術(shù)對(duì)元數(shù)據(jù)的加持作用?;诳蒲袛?shù)據(jù)知識(shí)庫的元數(shù)據(jù)控制需要進(jìn)行全面擴(kuò)展,以滿足用戶大量數(shù)據(jù)描述和實(shí)時(shí)捕獲的需求。一方面,需要采用元數(shù)據(jù)自動(dòng)生成技術(shù),需要通過爬蟲工具抓取網(wǎng)頁資源的時(shí)間戳、文件類型、URL、MIME等信息,并對(duì)HTML網(wǎng)頁源代碼進(jìn)行解析和標(biāo)記,即可獲取這些信息。從而實(shí)現(xiàn)海量元數(shù)據(jù)的管理。[4]另一方面,可以探索用于開發(fā)元數(shù)據(jù)管理工具的開源技術(shù)應(yīng)用程序。美國地質(zhì)調(diào)查局在其官網(wǎng)上推薦了數(shù)據(jù)管理和元數(shù)據(jù)創(chuàng)建等工具,并公布了下載鏈接。[5]
完善現(xiàn)有數(shù)據(jù)評(píng)審體系和標(biāo)準(zhǔn),規(guī)范當(dāng)前的數(shù)據(jù)評(píng)審實(shí)踐活動(dòng),包含完善并提高評(píng)審標(biāo)準(zhǔn),提高評(píng)審人員的專業(yè)素養(yǎng)等。在此基礎(chǔ)上,探索未來數(shù)據(jù)評(píng)審的新模式——開放同行評(píng)審,OpenAIRE在一則報(bào)告中提到,未來科研模式新趨勢之一是開放同行評(píng)審,簡而言之,開放同行評(píng)審就是將作者和評(píng)審專家的身份公開的一種數(shù)據(jù)評(píng)審方式。也就是說在這種模式的驅(qū)動(dòng)下,通常情況下會(huì)公開作者的身份和評(píng)審者專家的身份、公開評(píng)審專家給出的意見、公開作者的原始論文和最后定稿的論文、公開數(shù)據(jù)評(píng)審的流程、公開數(shù)據(jù)評(píng)審專家互動(dòng)過程、公開出版平臺(tái)等。
這種新的模式不同于以往依靠評(píng)審專家對(duì)數(shù)據(jù)論文等進(jìn)行評(píng)審,而是把科研數(shù)據(jù)、科研成果提交并上傳到網(wǎng)上,并及時(shí)邀請(qǐng)學(xué)術(shù)專家或者是評(píng)審專家對(duì)這些提交到網(wǎng)上的科研成果進(jìn)行質(zhì)量控制,判斷其是否具備存儲(chǔ)和利用的價(jià)值。與此同時(shí),這些專家對(duì)數(shù)據(jù)論文的評(píng)審意見也會(huì)成為判斷其是否成為評(píng)審專家的依據(jù)。雖然開放同行評(píng)審目前處于起步階段,并且面臨著一定的爭議,但是在多個(gè)學(xué)科領(lǐng)域已被采用并且效果顯著。如F1000 Research[6]在數(shù)據(jù)提交后,經(jīng)過期刊內(nèi)部編輯人員對(duì)數(shù)據(jù)進(jìn)行初步的審核之后,使得提交的數(shù)據(jù)處在一個(gè)“等待開放同行評(píng)審”的狀態(tài),與此同時(shí)作者需要推薦5個(gè)數(shù)據(jù)評(píng)審專家對(duì)其數(shù)據(jù)進(jìn)行評(píng)審。
質(zhì)量控制人員在質(zhì)量控制實(shí)踐中扮演著重要的“把關(guān)人”角色,是科研數(shù)據(jù)知識(shí)庫質(zhì)量控制實(shí)踐過程中必不可少的一部分,也是科研數(shù)據(jù)知識(shí)庫發(fā)展的必然趨勢。質(zhì)量控制人員的“把關(guān)人”角色,有利于提高工作人員的質(zhì)量控制意識(shí),進(jìn)一步提高數(shù)據(jù)知識(shí)庫的質(zhì)量,提高科學(xué)數(shù)據(jù)的質(zhì)量水平和可信度,為我國成為科技強(qiáng)國打下堅(jiān)實(shí)的基礎(chǔ)。因此,首先,需要提高相關(guān)工作人員的數(shù)據(jù)質(zhì)量控制意識(shí),對(duì)數(shù)據(jù)管理人員進(jìn)行培訓(xùn),再教育,使他們認(rèn)識(shí)到數(shù)據(jù)質(zhì)量控制的重要性和意義,意識(shí)指導(dǎo)實(shí)踐,讓這些工作人員能夠在日常的質(zhì)量控制過程中成為合格的“把關(guān)人”;其次,增設(shè)質(zhì)量審核崗位,填補(bǔ)多年質(zhì)量審核崗位人才的缺失現(xiàn)狀,廣泛招納科研英才,選取具備較高學(xué)術(shù)水準(zhǔn)和聲望的專家作為質(zhì)量審核專家,質(zhì)量審核專家可以依據(jù)自身專業(yè)優(yōu)勢對(duì)科學(xué)數(shù)據(jù)的質(zhì)量加以審核和評(píng)估,從而降低了因?qū)徍私?jīng)驗(yàn)不足導(dǎo)致的質(zhì)量問題;最后,加強(qiáng)相關(guān)崗位的人才隊(duì)伍建設(shè),構(gòu)建專門的質(zhì)量審核團(tuán)隊(duì),一定數(shù)量的質(zhì)量審核人員是數(shù)據(jù)知識(shí)庫質(zhì)量控制的保障,使其可以運(yùn)用專業(yè)知識(shí)對(duì)每一次的數(shù)據(jù)質(zhì)量控制起到很好的監(jiān)督和把關(guān)作用。
科研數(shù)據(jù)知識(shí)庫質(zhì)量控制不僅提高了科學(xué)數(shù)據(jù)的質(zhì)量和重用性,而且也提高了科研數(shù)據(jù)知識(shí)庫的質(zhì)量水平,同時(shí)也日益成為數(shù)據(jù)知識(shí)庫建設(shè)和資助機(jī)構(gòu)提升競爭力的必然要求。在開放科學(xué)背景下,科研數(shù)據(jù)知識(shí)庫質(zhì)量控制的提升策略是建立在科研數(shù)據(jù)知識(shí)庫質(zhì)量控制實(shí)踐活動(dòng)中的,需要有效地解決目前數(shù)據(jù)質(zhì)量控制面臨的種種問題。一是加強(qiáng)質(zhì)量控制的技術(shù)支持,開發(fā)出功能更加豐富的數(shù)據(jù)管理工具;二是探索開放同行評(píng)審的新模式,提高數(shù)據(jù)審核的效率;三是提高數(shù)據(jù)管理人員的專業(yè)素養(yǎng),降低因?yàn)槿藶樵蛟斐傻臄?shù)據(jù)質(zhì)量低的問題。
因此,科研數(shù)據(jù)知識(shí)庫的質(zhì)量控制不僅需要國家層面的支持還需要每一個(gè)利益相關(guān)者之間的溝通和協(xié)作,并結(jié)合我國國情的實(shí)際需要和數(shù)據(jù)知識(shí)庫的功能定位標(biāo)準(zhǔn),利用國外成功的經(jīng)驗(yàn),建立一個(gè)比較完整的科研數(shù)據(jù)知識(shí)庫質(zhì)量控制體系,同時(shí)這樣也會(huì)促進(jìn)世界范圍內(nèi)開放科學(xué)運(yùn)動(dòng)朝著縱深方向發(fā)展。