劉亞男,劉江榮,肖 明,于 佳
隨著數(shù)據(jù)密集型研究范式興起,科研數(shù)據(jù)的透明性、知識產(chǎn)權(quán)保護(hù)及數(shù)據(jù)的再利用價值等問題引起重視,科研數(shù)據(jù)引用行為也日益受到關(guān)注。規(guī)范的數(shù)據(jù)引用指導(dǎo)和引用行為對提升科研成果的可溯源性和透明性、保護(hù)數(shù)據(jù)利益相關(guān)者的知識產(chǎn)權(quán)以及完善科研數(shù)據(jù)的貢獻(xiàn)識別及獎勵機(jī)制等都具有重要意義。國外圍繞科研數(shù)據(jù)的引用實(shí)踐開展很多調(diào)查研究,對研究科研項目成果的數(shù)據(jù)引用情況、科研人員的數(shù)據(jù)引用行為模式等提供了重要依據(jù)。目前我國關(guān)于科研數(shù)據(jù)引用行為的實(shí)證研究還比較少,暴露了我國數(shù)據(jù)引用研究和實(shí)踐方面的諸多不足。本文通過對國家自然科學(xué)基金、社會科學(xué)基金資助的學(xué)術(shù)成果中科研數(shù)據(jù)引用的實(shí)踐狀況進(jìn)行實(shí)證分析,嘗試了解我國科研人員數(shù)據(jù)引用行為模式,為相應(yīng)規(guī)范和策略的制定提供參考。
科研數(shù)據(jù)是指對科研過程和結(jié)果具有支持作用的任何格式或以任何媒介存在的數(shù)據(jù)。包括科研人員在研究過程中通過觀察、實(shí)驗、模擬、調(diào)查、分析所創(chuàng)建的數(shù)據(jù),以及從其他機(jī)構(gòu)收集的二手?jǐn)?shù)據(jù),可以是文本、數(shù)值、圖像、音頻、視頻、模型、計算機(jī)代碼或特定工具的輸出結(jié)果等多種形式。科研數(shù)據(jù)引用是類似于研究人員通常為期刊文獻(xiàn)、報告或會議文獻(xiàn)中提供文獻(xiàn)參考的方式來提供數(shù)據(jù)參考的做法,通過一定的標(biāo)識技術(shù)和參考機(jī)制,對所使用的數(shù)據(jù)資源進(jìn)行描述,標(biāo)識數(shù)據(jù)的來源,從而加強(qiáng)對科研數(shù)據(jù)的知識產(chǎn)權(quán)保護(hù),也便于對數(shù)據(jù)引用情況進(jìn)行統(tǒng)計和分析。國外對科研數(shù)據(jù)引用行為的研究主要集中在針對特定數(shù)據(jù)集和針對期刊論文中的數(shù)據(jù)引用行為的研究。
針對特定數(shù)據(jù)集的引用行為研究方面,Parsons 等[1]對美國國家冰雪數(shù)據(jù)中心(National Snow and Ice Data Center,NSIDC)的使用中分辨率成像光譜儀資料的論文進(jìn)行分析,研究表明該中心并未提供引用相關(guān)的指導(dǎo)說明,并且只有少量作者在文中明確注明引用了該中心的數(shù)據(jù)。Mooney[2]對大學(xué)間政治社會研究聯(lián)盟(Interuniversity Consortium for Political and Social Research,ICPSR)數(shù)據(jù)中心的數(shù)據(jù)集引用情況進(jìn)行分析,結(jié)果表明部分作者引用數(shù)據(jù)時不會注明數(shù)據(jù)來源。Henderson 等[3]對使用CRAWDAD倉儲庫中數(shù)據(jù)集的1281 篇論文中的數(shù)據(jù)引用行為進(jìn)行分析,發(fā)現(xiàn)通常情況下論文作者能夠以一定合理的方式引用數(shù)據(jù),僅11.5%的論文沒有說明數(shù)據(jù)來源,但普遍存在引用的是數(shù)據(jù)相關(guān)的論文而非數(shù)據(jù)本身、無法提供獲取數(shù)據(jù)的唯一標(biāo)識符DOI(Digital Object Identifier)等問題。Read 等[4](2015)分析了NIH 資助的發(fā)表于2011年的論文,排除掉存儲在PubMed 倉儲庫以及在文章中有明確引用過該數(shù)據(jù)倉儲的論文,通過將其他論文作為隨機(jī)樣本來評估隱形數(shù)據(jù)集的情況,結(jié)果顯示大概12%的文章提到了存儲數(shù)據(jù)集在倉儲庫中,其余88%的為隱形數(shù)據(jù)。
針對期刊論文中的數(shù)據(jù)引用行為研究,Enriquez 等[5]選擇環(huán)境科學(xué)領(lǐng)域的6 種期刊,對期刊中2000-2010年的500 篇文章的數(shù)據(jù)引用行為進(jìn)行研究,結(jié)果表明221 篇文章有數(shù)據(jù)再利用行為,其中53%注明了引用數(shù)據(jù)的相關(guān)論文,47%提及了引用數(shù)據(jù)的存儲機(jī)構(gòu),只有13%的文章標(biāo)注了DOI。Sarah C.Williams[6]發(fā)現(xiàn)農(nóng)作物學(xué)科的科研人員在研究中使用的科研數(shù)據(jù)來源非常廣泛,然而數(shù)據(jù)引用行為非常不規(guī)范。Stuart等[7]對140 種社會學(xué)期刊的科研數(shù)據(jù)相關(guān)政策進(jìn)行調(diào)研,并選擇其中5 種期刊,按照抽樣的方式篩選這些期刊上近兩年來發(fā)表的論文,確定作者是否真的引用和共享他們的數(shù)據(jù)以及與其相關(guān)的影響因素。結(jié)果發(fā)現(xiàn)140 種期刊中只有少數(shù)有明確的科研數(shù)據(jù)引用政策,并且為具有較高影響因素和數(shù)據(jù)引用政策的期刊撰寫文章的作者更可能引用數(shù)據(jù)并使數(shù)據(jù)真正可訪問。Womack[8]使用分層隨機(jī)抽樣的方法從2014年生物學(xué)、化學(xué)、數(shù)學(xué)和物理學(xué)影響因子排名前10 名的期刊中選取文章,對其數(shù)據(jù)引用和數(shù)據(jù)共享情況進(jìn)行分析,結(jié)果表明即使是在高影響力期刊中,數(shù)據(jù)引用行為仍然非常不規(guī)范,使用DOI 和直接鏈接到原始數(shù)據(jù)的行為非常少。另外所有學(xué)科的文章中都很少提供大規(guī)模原始數(shù)據(jù)的鏈接來共享數(shù)據(jù),但總體來說數(shù)學(xué)和生物學(xué)在數(shù)據(jù)共享方面比化學(xué)和物理學(xué)要好一些。Mengnan Zhao 等[9]通過對發(fā)表在PLoS One 的600 篇論文進(jìn)行編碼和數(shù)據(jù)集引用情況進(jìn)行分析,結(jié)果發(fā)現(xiàn)不同學(xué)科之間對數(shù)據(jù)集的采集和引用有很大的差異,只有有限的文章通過DOI的方式來引用數(shù)據(jù)集,另外只有少于30%的文章中有數(shù)據(jù)集重用的現(xiàn)象。
目前我國對科研數(shù)據(jù)引用行為的研究較少,已有研究集中在對有關(guān)科學(xué)數(shù)據(jù)引用的標(biāo)準(zhǔn)規(guī)范方面。黃如花等[10]在調(diào)研了國外科研數(shù)據(jù)引用規(guī)范的基礎(chǔ)上,提出我國應(yīng)該將科研數(shù)據(jù)引用納入科研評價體系,完善科學(xué)數(shù)據(jù)引用規(guī)范。彭潔等[11]通過問卷調(diào)查的方式,調(diào)查科技期刊和科研人員對科學(xué)數(shù)據(jù)引用的態(tài)度、平臺、動機(jī)、標(biāo)注和描述,對各個因素進(jìn)行對比,提出針對期刊論文、科研數(shù)據(jù)庫和科研人員三種模式的科學(xué)數(shù)據(jù)引用框架。王雪等[12]認(rèn)為應(yīng)基于引用行為建立針對科學(xué)數(shù)據(jù)的評估機(jī)制,有利于科研人員認(rèn)識到科學(xué)數(shù)據(jù)再利用的價值,并正視數(shù)據(jù)引用的重要性,從而規(guī)范化數(shù)據(jù)引用。
采用抽樣調(diào)查和內(nèi)容分析研究方法,選取自然科學(xué)領(lǐng)域和人文社科領(lǐng)域20 種期刊作為抽樣對象,按照等距抽樣原則選取2015-2016年的基金項目論文。參考已有研究成果構(gòu)建科研數(shù)據(jù)引用完整性標(biāo)準(zhǔn),并根據(jù)構(gòu)建的標(biāo)準(zhǔn)對論文進(jìn)行內(nèi)容分析,從引用元數(shù)據(jù)、引用位置和引用完整性三個方面對論文中作者的數(shù)據(jù)引用行為進(jìn)行分析。
2.2.1 樣本選擇
自然科學(xué)基金和社會科學(xué)基金項目是國家級科研基金,其資助項目的選題、成果反映了我國自然科學(xué)、社會科學(xué)各學(xué)科研究的國家水平。本文選擇期刊論文中的基金項目論文成果作為研究對象,對我國各學(xué)科領(lǐng)域的研究人員科研數(shù)據(jù)引用行為模式和特點(diǎn)進(jìn)行分析。選擇中國知網(wǎng)全文數(shù)據(jù)庫,利用核心期刊導(dǎo)航功能,按照期刊復(fù)合影響因子進(jìn)行高低排序,在社會科學(xué)領(lǐng)域和自然科學(xué)領(lǐng)域各選擇10 種期刊,共20 種核心期刊。樣本文獻(xiàn)來源期刊信息見表1、表2。
表1 樣本文獻(xiàn)來源期刊信息(社會科學(xué)領(lǐng)域)
表2 樣本文獻(xiàn)來源期刊信息(自然科學(xué)領(lǐng)域)
2.2.2 文獻(xiàn)選擇
在20 種期刊中,采用等距抽樣方法,選擇2015-2016年兩年中上半年第1 期和下半年第1期(即雙月刊每年的1、4 期,單月刊每年的1、7期,半月刊每年的第1、13 期)刊登的論文為初步篩選對象。然后利用數(shù)據(jù)庫中的“基金來源”字段篩選論文中獲得自然科學(xué)基金項目和社會科學(xué)基金項目論文,共計815 篇文章為研究樣本文獻(xiàn)。具體數(shù)量分布見表3、表4。
表3 樣本文獻(xiàn)分布情況(自然科學(xué)類)
表4 樣本文獻(xiàn)分布情況(人文社科類)
2.2.3 樣本處理
為分析基金項目論文中科研數(shù)據(jù)的引用規(guī)范程度,需分析論文中的具體引用行為。由于目前還沒有較大規(guī)模的標(biāo)注數(shù)據(jù)對內(nèi)容進(jìn)行自動識別,筆者主要使用人工方式對數(shù)據(jù)引用行為和規(guī)范程度進(jìn)行內(nèi)容分析,判斷和歸類相關(guān)內(nèi)容。為了保證分析結(jié)果的有效性、一致性,減少標(biāo)引人員的判斷失誤,在正式標(biāo)引前對論文的篩選步驟、判斷標(biāo)準(zhǔn)、分析角度等進(jìn)行反復(fù)討論和完善,補(bǔ)充了很多標(biāo)引時可能遇到的問題的解決辦法,保證了統(tǒng)計分析結(jié)果的一致性和準(zhǔn)確性。篩選步驟如下:
(1)確認(rèn)文章是否涉及科研數(shù)據(jù)。通過閱讀樣本文獻(xiàn)的摘要內(nèi)容進(jìn)行初步判斷,進(jìn)而分析文章的整體框架結(jié)構(gòu),分析文章是否會涉及到科研數(shù)據(jù)。
(2)確認(rèn)文章中的科研數(shù)據(jù)是屬于作者創(chuàng)建的數(shù)據(jù)還是引用的數(shù)據(jù)。如果文章中使用了數(shù)據(jù),則需要進(jìn)一步判斷數(shù)據(jù)的來源,對屬于作者自己創(chuàng)建、搜集的數(shù)據(jù)不在本文的分析范圍。如果可以判斷該篇文章的數(shù)據(jù)屬于引用數(shù)據(jù),則選為本文分析的樣本。
(3)深入分析數(shù)據(jù)引用行為的相關(guān)內(nèi)容。論文中與引用數(shù)據(jù)相關(guān)的時間變量包括數(shù)據(jù)覆蓋時間區(qū)間、數(shù)據(jù)發(fā)布時間、數(shù)據(jù)獲取時間等不同表述,本文只標(biāo)引數(shù)據(jù)的發(fā)布時間和獲取時間。此外,在數(shù)據(jù)個數(shù)計算方面,有些表格或圖表會出現(xiàn)同時引用多個數(shù)據(jù)的情況,本文在標(biāo)注時使用作者注明的數(shù)據(jù)來源數(shù)量作為引用數(shù)據(jù)個數(shù),并根據(jù)引用的元數(shù)據(jù)情況進(jìn)行引用完整性評分。
通過對所獲取的樣本文獻(xiàn)中的數(shù)據(jù)引用行為進(jìn)行標(biāo)注,統(tǒng)計每篇文章的引用數(shù)據(jù)的數(shù)量及引用的完整性情況,并對獲得的數(shù)據(jù)分類統(tǒng)計,可獲取各領(lǐng)域基金項目論文中數(shù)據(jù)引用的情況,見表5。在815 篇基金項目論文中,有數(shù)據(jù)引用行為的論文有250 篇,占30.7%,總數(shù)據(jù)602 個,平均每篇論文數(shù)據(jù)次數(shù)為2.4 次。
為了解我國基金項目論文中科研數(shù)據(jù)引用行為的完整性,參照Hailey Mooney 等[13]文中采用的數(shù)據(jù)引用完整性指標(biāo)(Data Citation Adequacy Index,DCAI)構(gòu)建方法,建立數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn)。主要處理方法是:通過對多個引用規(guī)范格式進(jìn)行解構(gòu),將列出的數(shù)據(jù)引用的元素、引用的格式、引用的顆粒度情況等進(jìn)行對比,找出通用的核心要素,結(jié)合核心要素在文中出現(xiàn)的位置,構(gòu)建“數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn)”。最終確定的衡量標(biāo)準(zhǔn)包括兩個維度:引用單元和數(shù)據(jù)引用在文中出現(xiàn)的位置。在引用單元方面,通過對各國際組織、數(shù)據(jù)中心和期刊機(jī)構(gòu)的推薦引用格式進(jìn)行對比,創(chuàng)建者(Author/Creator)、發(fā)布年份(Publication Year)、 標(biāo) 題 (Title)、 發(fā) 布 機(jī) 構(gòu)(Publisher)和唯一標(biāo)識符(Identifier)作為強(qiáng)制要求的引用要素。尤其隨著近年DataCite 等機(jī)構(gòu)對數(shù)據(jù)唯一標(biāo)識符的深入研究和廣泛推廣,為數(shù)據(jù)注冊DOI 成為大部分?jǐn)?shù)據(jù)中心和期刊的共同趨勢和強(qiáng)烈建議。所以本文在構(gòu)建衡量矩陣時對Hailey Mooney 的賦值進(jìn)行細(xì)微調(diào)整,將提供數(shù)據(jù)唯一標(biāo)識符的權(quán)值修改為2,這從某種程度上顯示數(shù)據(jù)引用技術(shù)機(jī)制的進(jìn)步。由于其他引用要素,如資源類型(Resource type)、版本(Version)在特定的推薦格式中出現(xiàn)頻率較高,所以分別賦予一定權(quán)重,從而區(qū)分完整性較高的引用行為。在引用出現(xiàn)位置方面,分別對未在文中出現(xiàn)引用、在正文中出現(xiàn)、在備注或致謝中出現(xiàn)、在參考文獻(xiàn)列表中出現(xiàn)的四種情況分別賦予一定權(quán)值。筆者根據(jù)研究認(rèn)為,在參考文獻(xiàn)部分中引用數(shù)據(jù)的規(guī)范程度最高,相應(yīng)的權(quán)值也是最高。最后構(gòu)建“科研數(shù)據(jù)引用規(guī)范性衡量標(biāo)準(zhǔn)”,如表6所示。
表5 樣本總體情況
表6 數(shù)據(jù)引用規(guī)范性衡量標(biāo)準(zhǔn)
類似于文獻(xiàn)引用,數(shù)據(jù)引用包括作者、數(shù)據(jù)標(biāo)題、出版機(jī)構(gòu)、出版時間、訪問地址等數(shù)據(jù),根據(jù)這些數(shù)據(jù)的完整程度,本文從引用元數(shù)據(jù)、引用位置和引用完整性三方面對我國基金項目論文中的科研數(shù)據(jù)引用行為進(jìn)行分析,了解當(dāng)前我國科研數(shù)據(jù)的引用規(guī)范情況。
引用科研數(shù)據(jù)時推薦引用的五個核心要素分別是創(chuàng)建者、標(biāo)題、發(fā)布時間、發(fā)布機(jī)構(gòu)和獲取地址。通過對樣本文獻(xiàn)中的602 個引用數(shù)據(jù)進(jìn)行分析得知,引用數(shù)據(jù)時注明數(shù)據(jù)的發(fā)布機(jī)構(gòu)的做法最常見,自然科學(xué)領(lǐng)域基金論文中有322 條數(shù)據(jù)、人文社科領(lǐng)域有196 條數(shù)據(jù)說明數(shù)據(jù)發(fā)布機(jī)構(gòu)。其次是在引用的時候說明數(shù)據(jù)的發(fā)布時間(自然科學(xué)領(lǐng)域=161,人文社科領(lǐng)域=103)及數(shù)據(jù)集名稱(自然科學(xué)領(lǐng)域=254,人文社科領(lǐng)域=40),而對數(shù)據(jù)的創(chuàng)建者、獲取數(shù)據(jù)的地址或DOI、數(shù)據(jù)資源類型和數(shù)據(jù)版本等信息則很少提供規(guī)范性的說明,如圖1所示。這說明研究人員在使用外部數(shù)據(jù)時有一定的引用意識,然而由于缺乏規(guī)范的引用要求和指導(dǎo),只能模糊和籠統(tǒng)地引用數(shù)據(jù)的發(fā)布機(jī)構(gòu)或網(wǎng)站名稱,如“數(shù)據(jù)來源于中華人民共和國國家統(tǒng)計局網(wǎng)站”或“感謝中國地震局地球物理研究所‘國家數(shù)字測震臺網(wǎng)數(shù)據(jù)備份中心’為本研究提供地震波形數(shù)據(jù)”。而相對嚴(yán)謹(jǐn)?shù)淖髡邥?shù)據(jù)集的具體名稱、數(shù)據(jù)發(fā)布的時間等進(jìn)一步說明,如“COSMIC 掩星探測資料來自于 2014年COSMIC 數(shù)據(jù)存檔與分析中心CDAAC 發(fā)布的后處理數(shù)據(jù)文檔IonProf”。
圖1 引用元數(shù)據(jù)情況分析
在調(diào)研的樣本文獻(xiàn)中,引用“數(shù)據(jù)創(chuàng)建者”主要有三種情況:一是在致謝中說明感謝某位研究人員提供數(shù)據(jù);二是說明數(shù)據(jù)來源是來自論文、專著或報告等出版物,并通過參考文獻(xiàn)引用該篇論文,或在正文中以“作者(年份)”的格式對數(shù)據(jù)來源進(jìn)行標(biāo)明;三是根據(jù)數(shù)據(jù)來源倉儲庫的要求按照格式引用數(shù)據(jù),這種情況雖然最規(guī)范,但出現(xiàn)頻次最少。說明引用格式不規(guī)范的情況較嚴(yán)重,不能很好地體現(xiàn)數(shù)據(jù)創(chuàng)建者的貢獻(xiàn)。
對“數(shù)據(jù)獲取地址”這個要素,在此次調(diào)研的樣本文獻(xiàn)中,大多數(shù)提供的都是數(shù)據(jù)來源的網(wǎng)站信息,而不能提供具體的數(shù)據(jù)獲取地址,如“高溫脅迫數(shù)據(jù)來源于中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)(http://cdc.cma.gov.cn/home.do)的中國地面氣候標(biāo)準(zhǔn)值日值數(shù)據(jù)集”,這樣的引用雖然提供了數(shù)據(jù)的引用地址,但是卻無法精準(zhǔn)到數(shù)據(jù)的描述網(wǎng)頁,而且由于網(wǎng)絡(luò)地址不能保證永久的有效性,通過網(wǎng)絡(luò)地址的引用方式也容易失去引用追溯的作用。而“數(shù)據(jù)唯一標(biāo)識符DOI”在一定程度上可以解決這種困境,但是從調(diào)研的結(jié)果來看,真正通過DOI 對數(shù)據(jù)進(jìn)行標(biāo)注的只有4 條數(shù)據(jù),可見,目前我國基于DOI 的數(shù)據(jù)引用實(shí)踐還非常欠缺,這是與我國目前的引用意識、數(shù)據(jù)版權(quán)意識薄弱、DOI 注冊系統(tǒng)普及程度不高、數(shù)據(jù)規(guī)范引用指導(dǎo)不夠等多方面因素息息相關(guān)。
對“數(shù)據(jù)資源類型”及“數(shù)據(jù)版本”等要素的引用實(shí)踐相對而言更加匱乏。其中,自然科學(xué)領(lǐng)域的論文在數(shù)據(jù)來源的說明中會添加對數(shù)據(jù)資源類型及版本的說明,例如“本研究所用的長時間序列遙感數(shù)據(jù)——GIMMSNDVI 3g 數(shù)據(jù)集,是由美國國家航天航空局推出的最新版的全球植被指數(shù)變化數(shù)據(jù),該數(shù)據(jù)集格式為ENVI 標(biāo)準(zhǔn)格式,投影為Albers,其時間分辨率為15d,空間分辨率為8km”,也有部分論文在引用時會注明網(wǎng)址和版本數(shù)據(jù)等具體信息,如“本文實(shí)際使用的重力異常數(shù)據(jù)來源于http://topex.ucsd.edu網(wǎng)站提供的最新22.1 版本數(shù)據(jù)”。而在人文社科領(lǐng)域?qū)λ褂脭?shù)據(jù)的具體資源情況表述相對要模糊一些,如“本文運(yùn)用的財政數(shù)據(jù)來自統(tǒng)計局2006年發(fā)布的《全國地市縣財政統(tǒng)計資料》,這些財政統(tǒng)計資料包含了32 個省級行政區(qū)、332個地級行政區(qū)和2859 個縣級行政區(qū)的財政一般預(yù)算和基金預(yù)算資料,詳細(xì)到‘類級’科目?!边@種引用的顆粒度顯然是非常粗糙的,對閱讀文章的人而言,并不能明確地知道引用數(shù)據(jù)的具體情況,也無法實(shí)現(xiàn)研究成果的可溯源性和透明性。
在調(diào)研的樣本文獻(xiàn)中,以非常規(guī)范和完整的方式引用科研數(shù)據(jù)的情況不多,但是確實(shí)也有一些典型案例非常有指導(dǎo)意義。有些數(shù)據(jù)來源于國家統(tǒng)計局、國家稅務(wù)局、國家信息中心等機(jī)構(gòu)部門發(fā)布的統(tǒng)計資料或年鑒報告等,對這些資料的引用很多作者會選擇通過參考文獻(xiàn)的形式引用。此外,規(guī)范引用的數(shù)據(jù)與數(shù)據(jù)來源倉儲庫有直接關(guān)系,有些倉儲庫對引用該倉儲庫的數(shù)據(jù)有比較明確的說明和要求,這樣就在一定程度上使得研究人員在自己的研究成果中按照要求規(guī)范地引用科研數(shù)據(jù)。
為了解樣本文獻(xiàn)中的數(shù)據(jù)引用行為,進(jìn)一步對引用的位置進(jìn)行分析。由圖2可知,數(shù)據(jù)的引用位置主要集中在正文,自然科學(xué)領(lǐng)域和人文社科領(lǐng)域在正文處引用數(shù)據(jù)的頻次分別為239 次(61.1%)和140 次(66.4%)。對基于科研數(shù)據(jù)開展研究的的論文,通常會在開篇用一個章節(jié)介紹數(shù)據(jù)來源,所以對數(shù)據(jù)的引用說明會出現(xiàn)在正文中。另外,系統(tǒng)工程、管理工程類論文,通常會在驗證模型的實(shí)證部分引用數(shù)據(jù)集。
圖2 引用位置情況分析
在調(diào)研的樣本論文中,備注部分主要是指圖、表下部的說明或腳注尾注的注釋等內(nèi)容。自然科學(xué)與人文社科分別有 42 次(10.7%)和 67 次(31.8%)引用記錄。通過備注引用數(shù)據(jù)表明作者對數(shù)據(jù)來源標(biāo)注更加明確,在規(guī)范程度上比正文更正式,針對性更強(qiáng)。但是,這種引用方式也存在著引用元素不完整,引用顆粒度太粗糙的情況。例如“圖表中數(shù)據(jù)整理歸納自1993年蘇州統(tǒng)計年鑒”,這樣雖然告知了引用數(shù)據(jù)的資料來源,但是卻沒有明確標(biāo)注數(shù)據(jù)的具體信息。備注部分的引用情況也和某些期刊要求有關(guān),部分期刊在收稿時要求“引用圖表,須在其下方注明出處”。另外,也有些期刊特別說明要通過致謝的方式對論文有貢獻(xiàn)的人員或單位進(jìn)行感謝和說明,人文社科論文普遍沒有致謝的內(nèi)容,自然科學(xué)領(lǐng)域的《地理學(xué)報》《地球物理學(xué)報》《應(yīng)用生態(tài)學(xué)報》三種期刊里都有致謝部分,所以很多數(shù)據(jù)及引用內(nèi)容被放置在了這個環(huán)節(jié),這在一定程度上提升了對數(shù)據(jù)創(chuàng)建者及數(shù)據(jù)發(fā)布存儲機(jī)構(gòu)的貢獻(xiàn)認(rèn)可,但是由于對數(shù)據(jù)引用的元數(shù)據(jù)列舉也不夠規(guī)范,并且致謝內(nèi)容多數(shù)都不提供數(shù)據(jù)的鏈接地址或DOI,所以無法更好地有助于數(shù)據(jù)的發(fā)現(xiàn)、共享和再利用。
對科研數(shù)據(jù)通過參考文獻(xiàn)的方式進(jìn)行引用是目前認(rèn)為最為規(guī)范的方式,在此次調(diào)研對象中,自然科學(xué)領(lǐng)域有48 條引用記錄,人文社科領(lǐng)域僅有4 條引用記錄。但是,值得注意的是,在這48 條記錄中,21 條是直接引用論文,11 條是引用統(tǒng)計年鑒或數(shù)據(jù)報告,3 條是引用著作或報告,2 條是引用政府網(wǎng)站信息,只有其余的11 條記錄是真正的引用了數(shù)據(jù)中心的數(shù)據(jù)集。這種情況也說明即使論文作者嘗試通過參考文獻(xiàn)的方式規(guī)范地引用科研數(shù)據(jù),但是如果數(shù)據(jù)引用格式指導(dǎo)缺乏,規(guī)范化的引用也很難實(shí)現(xiàn)。
圖3 數(shù)據(jù)引用元數(shù)據(jù)按引用位置分類統(tǒng)計結(jié)果
由圖3可知,無論數(shù)據(jù)引用是出現(xiàn)在正文中、還是備注或致謝中,有80%~90%的數(shù)據(jù)引用記錄都會注明數(shù)據(jù)的發(fā)布機(jī)構(gòu),而數(shù)據(jù)的創(chuàng)建者、獲取地址和資源類型則較少提及。選擇通過參考文獻(xiàn)的方式引用科研數(shù)據(jù),表明數(shù)據(jù)來源倉儲庫的規(guī)定對于科研數(shù)據(jù)引用規(guī)范化具有重要的作用。
很多數(shù)據(jù)來源的數(shù)據(jù)中心會強(qiáng)制要求對使用的數(shù)據(jù)通過引文的方式進(jìn)行規(guī)范引用,否則會限制該用戶后續(xù)對數(shù)據(jù)的獲取和使用權(quán)限,強(qiáng)制性要求使用戶必須重視對所使用數(shù)據(jù)的說明,督促用戶規(guī)范引用行為的同時也增加了數(shù)據(jù)集、數(shù)據(jù)中心的傳播范圍和可發(fā)現(xiàn)程度,保障了相關(guān)利益者的合法權(quán)利。很多期刊投稿論文格式的刻板限制也是使得引用數(shù)據(jù)無法出現(xiàn)在引文列表中的重要原因,而對數(shù)據(jù)引用指導(dǎo)的缺乏,更加重了期刊論文中數(shù)據(jù)引用位置的不規(guī)范程度。此外,由上圖看到,當(dāng)作者以參考文獻(xiàn)的方式引用數(shù)據(jù)時,通常會使用比較完善的元數(shù)據(jù)信息,這就證明了以引用論文的方式引用科研數(shù)據(jù)是目前的最佳做法。總體來看,自然科學(xué)領(lǐng)域的引用情況要相對人文社科領(lǐng)域來講要稍好一些。
筆者對所獲得的樣本文獻(xiàn),按照前文構(gòu)造的數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn),對250 篇有數(shù)據(jù)引用行為文獻(xiàn)中的602 條數(shù)據(jù)引用記錄進(jìn)行評分,判斷數(shù)據(jù)引用的位置是發(fā)生在正文中、致謝或備注中、參考文獻(xiàn)中,并根據(jù)引用的元數(shù)據(jù)情況給予對應(yīng)的分值,獲得數(shù)據(jù)引用完整性得分的頻數(shù)分布,如圖4所示。
圖4 數(shù)據(jù)引用完整性得分頻數(shù)分布
經(jīng)過分析可知,自然科學(xué)領(lǐng)域的引用完整性程度整體要高于人文社科領(lǐng)域,尤其是高分段的引用得分要更多一些。但是,無論是自然科學(xué)還是人文社科領(lǐng)域,從整體上來看我國的引用完整性得分都集中在10 分以內(nèi),說明引用行為不規(guī)范的情況比較嚴(yán)重。
我國自然科學(xué)類基金項目論文中,總體數(shù)據(jù)引用完整性程度頻次最多的是集中在4 分的分段,頻次是132,這類引用多是只在正文或致謝中出現(xiàn)引用數(shù)據(jù)的來源機(jī)構(gòu)名稱。例如“感謝美國冰雪數(shù)據(jù)中心(NSIDC)提供ICESat 數(shù)據(jù)”,這樣的引用只是比較簡單的交代了數(shù)據(jù)的來源,但過于隨意和籠統(tǒng),并沒有準(zhǔn)確說明使用的數(shù)據(jù)集的名稱、創(chuàng)建者、創(chuàng)建時間以及獲取的地址等信息,讀者也無法追溯論文所使用的數(shù)據(jù)來源。其次,自然科學(xué)領(lǐng)域的完整性分值集中在2 分和8分的分段,頻次分別是62 和66。得到2 分引用記錄通常只是在正文中交代1-2 個要素,屬于引用方式極不規(guī)范的情況。
在人文社會科學(xué)領(lǐng)域,總體數(shù)據(jù)引用完整性整體偏低,與自然科學(xué)領(lǐng)域相比分?jǐn)?shù)大部分分布在2 分至4 分的區(qū)間里,頻次分別為73 和57。這樣的引用記錄只是在文中介紹了數(shù)據(jù)的發(fā)布或存儲機(jī)構(gòu)名稱,沒有其他詳細(xì)的信息,如“數(shù)據(jù)均來自國泰安CSMAR 數(shù)據(jù)庫”。人文社科類文獻(xiàn)使用的數(shù)據(jù)種類繁多,有些甚至需要跨越很多省份地區(qū)、需要很多年的長期調(diào)研才得到的數(shù)據(jù),比如有很多論文使用到了歷年的人口普查的數(shù)據(jù)或統(tǒng)計年鑒等資料,并且大多數(shù)只使用了其中的部分?jǐn)?shù)據(jù),并通過進(jìn)一步的處理和轉(zhuǎn)換后進(jìn)行研究。然而文章中卻缺少對所選用的數(shù)據(jù)集名稱、變量情況等內(nèi)容的說明,也較少有標(biāo)注獲取地址或DOI 等信息,使得文章讀者無法追溯原始數(shù)據(jù)。
由前文文獻(xiàn)綜述部分所述可知,雖然基金組織、期刊論文和數(shù)據(jù)倉儲庫對數(shù)據(jù)引用的指導(dǎo)逐漸重視,但無論是自然領(lǐng)域還是人文社科領(lǐng)域仍然存在數(shù)據(jù)引用方面意識薄弱及引用行為不夠規(guī)范等問題。由此可見,無論是自然科學(xué)領(lǐng)域還是人文社會科學(xué)領(lǐng)域的基金項目論文中,雖然不同領(lǐng)域的引用情況有差別,但總體來說對科研數(shù)據(jù)的引用情況規(guī)范程度都不高,這不僅難以對研究成果進(jìn)行考證和追溯,也阻礙了科研數(shù)據(jù)的發(fā)現(xiàn)、共享和再利用,需要引起我國各相關(guān)利益群體的重視。
本文選取自然科學(xué)領(lǐng)域和人文社科領(lǐng)域共20 種期刊作為抽樣對象,按照等距抽樣的原則選取了近兩年來的基金項目論文,參考已有研究成果構(gòu)建出科研數(shù)據(jù)引用完整性衡量標(biāo)準(zhǔn),對文章作者的數(shù)據(jù)引用行為從引用元數(shù)據(jù)、引用位置和引用完整性三個方面進(jìn)行分析。在引用元數(shù)據(jù)方面,注明數(shù)據(jù)的發(fā)布機(jī)構(gòu)的做法是最常見的,其次是在引用的時候說明數(shù)據(jù)的發(fā)布時間及數(shù)據(jù)集名稱,而對數(shù)據(jù)的創(chuàng)建者、獲取數(shù)據(jù)的地址或DOI、數(shù)據(jù)資源類型、獲取時間等信息則很少規(guī)范說明,這種現(xiàn)象反映了我國科研數(shù)據(jù)引用行為不夠規(guī)范。在引用位置方面,主要集中出現(xiàn)在正文,其次是在備注部分。對科研數(shù)據(jù)通過參考文獻(xiàn)的方式進(jìn)行引用是目前認(rèn)為最為規(guī)范的方式,并且自然科學(xué)領(lǐng)域的數(shù)據(jù)引用行為要比人文社科領(lǐng)域更加規(guī)范。在引用完整性方面,通過構(gòu)建的引用完整性得分表可以看出,我國基金項目論文中對數(shù)據(jù)引用的完整性得分總體較低。但在自然科學(xué)領(lǐng)域方面,數(shù)據(jù)的引用完整性程度整體要高于人文社科領(lǐng)域。