姜鑫妍 王翠萍 宋雯琪
關(guān)鍵詞:科學(xué)數(shù)據(jù);數(shù)據(jù)重用;數(shù)據(jù)重用行為;教育學(xué);內(nèi)容分析法
科學(xué)數(shù)據(jù)是科學(xué)研究的基礎(chǔ),在開放科學(xué)的背景下,國內(nèi)外陸續(xù)發(fā)布了眾多促進(jìn)科學(xué)數(shù)據(jù)開放利用的相關(guān)政策和規(guī)范指南。近年來,我國科學(xué)數(shù)據(jù)規(guī)模增長迅速,但存在數(shù)據(jù)利用率不高的問題。隨著數(shù)據(jù)密集型研究范式的到來,數(shù)據(jù)重用研究熱度逐漸升高。數(shù)據(jù)重用(Date Reuse),也稱為數(shù)據(jù)復(fù)用、數(shù)據(jù)再利用,是對(duì)科學(xué)數(shù)據(jù)的重復(fù)利用及二次分析。本文所指的數(shù)據(jù)重用定義采取一種較為寬泛的概念,即數(shù)據(jù)重用是數(shù)據(jù)的重新使用或重復(fù)利用,無論之前是否使用過該數(shù)據(jù).只要研究中所使用的數(shù)據(jù)或數(shù)據(jù)集不是科研人員自行收集的原始數(shù)據(jù),其數(shù)據(jù)使用或數(shù)據(jù)分析過程就應(yīng)視為數(shù)據(jù)重用行為??茖W(xué)數(shù)據(jù)重用行為的主要表現(xiàn)為數(shù)據(jù)重用目的、原始數(shù)據(jù)特征、數(shù)據(jù)處理分析、數(shù)據(jù)重用規(guī)范等方面。在科技文獻(xiàn)中可表現(xiàn)為數(shù)據(jù)使用、數(shù)據(jù)引用、數(shù)據(jù)來源提及等。
國外較早開始研究數(shù)據(jù)重用相關(guān)問題,研究主題較為廣泛和分散,大致可總結(jié)為數(shù)據(jù)重用概念及重要性的研究,元數(shù)據(jù)與數(shù)據(jù)重用的研究,數(shù)據(jù)重用行為及態(tài)度的研究以及其他相關(guān)研究。國內(nèi)對(duì)于數(shù)據(jù)重用的研究主要集中對(duì)數(shù)據(jù)重用行為特征分析、數(shù)據(jù)重用的影響因素研究、構(gòu)建數(shù)據(jù)重用模型的相關(guān)研究以及探討數(shù)據(jù)權(quán)益問題。目前對(duì)于學(xué)界內(nèi)針對(duì)數(shù)據(jù)重用的研究更多地關(guān)注較為具體的問題,有部分研究從不同學(xué)科論文中的數(shù)據(jù)引用實(shí)踐人手,分析了生物學(xué)、化學(xué)、生命科學(xué)、地球物理學(xué)、人口學(xué)等學(xué)科領(lǐng)域的數(shù)據(jù)引用特征。在現(xiàn)有研究中,大多數(shù)學(xué)者主要聚焦于各類型數(shù)據(jù)較多的自然科學(xué)等學(xué)科領(lǐng)域的數(shù)據(jù)重用現(xiàn)象的研究,而對(duì)人文社科領(lǐng)域內(nèi)學(xué)者們對(duì)數(shù)據(jù)重用現(xiàn)象研究較少。教育學(xué)作為社會(huì)科學(xué)領(lǐng)域中的一個(gè)重要范疇,在其研究領(lǐng)域內(nèi)學(xué)者們廣泛應(yīng)用觀察法、調(diào)查法等實(shí)證方法產(chǎn)生了大量的科學(xué)數(shù)據(jù),同時(shí)普及了數(shù)據(jù)重用的意識(shí)和實(shí)踐。經(jīng)基金資助的論文成果要求進(jìn)行科學(xué)數(shù)據(jù)匯交,科學(xué)數(shù)據(jù)管理相對(duì)更規(guī)范,并且基金論文具有階段性特點(diǎn)能很好地反映科研人員數(shù)據(jù)重用行為的階段性特征,與本文研究目的更為契合。因此,本文選取教育學(xué)領(lǐng)域基金論文,運(yùn)用內(nèi)容分析法試圖揭示教育學(xué)領(lǐng)域的數(shù)據(jù)重用行為特征,以及數(shù)據(jù)重用各階段特點(diǎn),以期在一定程度上為圖書館、數(shù)據(jù)出版商、數(shù)據(jù)中心等機(jī)構(gòu)開展數(shù)據(jù)服務(wù)提供參考。
1樣本選擇與數(shù)據(jù)處理
1.1樣本選擇
全國教育科學(xué)規(guī)劃立項(xiàng)課題是教育學(xué)領(lǐng)域?qū)iT的國家級(jí)基金項(xiàng)目,能夠反映我國教育科學(xué)研究的普遍態(tài)勢(shì),具有較強(qiáng)的代表性。由于科研基金立項(xiàng)項(xiàng)目具有長周期和持續(xù)性等特點(diǎn),為充分了解學(xué)者們?cè)谄浠痦?xiàng)目全周期內(nèi)各階段論文中的數(shù)據(jù)重用特征,本研究選擇立項(xiàng)時(shí)間距今5年左右的基金項(xiàng)目產(chǎn)出的科研論文作為數(shù)據(jù)分析樣本,最終確定了2017年和2018年全國教育科學(xué)規(guī)劃項(xiàng)目數(shù)據(jù)為總體數(shù)據(jù)。
1.2數(shù)據(jù)獲取
本文從基金項(xiàng)目出發(fā),統(tǒng)計(jì)了2017年及2018年立項(xiàng)課題數(shù)量,分別是488項(xiàng)和551項(xiàng)。由于全國教育科學(xué)規(guī)劃項(xiàng)目各年基金立項(xiàng)總數(shù)相差不大,但各類別課題立項(xiàng)數(shù)量不一致,其中國家一般課題所占比重最大,國家重大及重點(diǎn)課題所占比例最低。不同類別基金項(xiàng)目論文數(shù)量差異明顯,同一類別課題已發(fā)文數(shù)量相對(duì)一致。一般而言,一項(xiàng)國家一般項(xiàng)目發(fā)表論文數(shù)量多集中在3~8篇,國家重大及重點(diǎn)基金論文數(shù)量多為10篇左右。以往研究運(yùn)用內(nèi)容分析法分析論文數(shù)量并不一致,多則1000余篇,少則一兩百篇,但總體數(shù)量分布在400~1500之間,因此通過抽樣方法即可獲得滿意的數(shù)據(jù)量。為保證樣本數(shù)據(jù)的代表性,抽樣選擇基金項(xiàng)目數(shù)量應(yīng)不少于80??紤]到各類基金項(xiàng)目數(shù)量分布的不均衡性,本文采取分層隨機(jī)抽樣方法,分年份分基金類別隨機(jī)抽取各類基金項(xiàng)目數(shù)量的10%,總計(jì)抽取100項(xiàng),其中2017年與2018立項(xiàng)各類基金項(xiàng)目分別為49項(xiàng)和5 1項(xiàng)。在項(xiàng)目編號(hào)的規(guī)定方面,利用在線隨機(jī)數(shù)生成器得到隨機(jī)數(shù),并依據(jù)此隨機(jī)數(shù)對(duì)所抽樣項(xiàng)目進(jìn)行了標(biāo)注。具體標(biāo)注規(guī)則為:如被抽取課題已發(fā)表論文數(shù)量為0篇,則被抽取基金項(xiàng)目編號(hào)依次順延,但是應(yīng)保證順延后序號(hào)與隨機(jī)數(shù)不重合,2017-2018年實(shí)際數(shù)據(jù)抽樣結(jié)果如表1和表2所示。
根據(jù)上述抽樣規(guī)則,本研究共抽樣選擇了100項(xiàng)課題,在中國知網(wǎng)檢索上述被抽取的基金課題已發(fā)表的相關(guān)論文成果,共獲取到研究論文544篇,平均每項(xiàng)課題發(fā)表篇數(shù)為5.4篇,數(shù)據(jù)量滿足分析條件。
1.3數(shù)據(jù)處理
1.3.1數(shù)據(jù)分析方法
本文采用內(nèi)容分析法從數(shù)據(jù)是否重用、數(shù)據(jù)分析與處理方式、數(shù)據(jù)重用規(guī)范等方面對(duì)我國基金項(xiàng)目論文中的科學(xué)數(shù)據(jù)重用行為進(jìn)行分析,通過人工識(shí)別的方法對(duì)所抽取的課題論文中所提及的非科研人員自行收集的原始數(shù)據(jù)或數(shù)據(jù)集進(jìn)行了提取。在參考已有研究成果并結(jié)合教育學(xué)學(xué)科數(shù)據(jù)特征后,經(jīng)過反復(fù)修改,最終形成數(shù)據(jù)重用行為內(nèi)容分析編碼表,如表3所示。
1.3.2數(shù)據(jù)編碼說明
1)基本要素編碼
基金類別。全國教育科學(xué)規(guī)劃課題是國家社科基金教育學(xué)單列學(xué)科課題,課題類別包括國家重大、教育部專項(xiàng)等8類。內(nèi)容編碼考慮基金類別主要是因?yàn)椴煌悇e的課題發(fā)表的論文數(shù)量和研究方法存在差異,因此樣本抽樣區(qū)分基金類別可以使論文類型和數(shù)量分布更為均衡。
論文類型。本研究將已發(fā)表的基金論文分為實(shí)證論文和非實(shí)證論文兩類。實(shí)證論文指的是通過觀察、調(diào)查、實(shí)驗(yàn)等實(shí)證方法收集數(shù)據(jù)而寫成的論文。
2)數(shù)據(jù)重用
是否數(shù)據(jù)重用。如果“是”則標(biāo)為“1”,“否”記為“0”。
數(shù)據(jù)重用目的。本文所指的數(shù)據(jù)重用目的主要包括新的研究、佐證觀點(diǎn)、研究結(jié)果比較以及用做背景資料(研究背景)4大類。
3)原始數(shù)據(jù)特征
原始數(shù)據(jù)類型。科學(xué)數(shù)據(jù)類型可按照研究方法分為調(diào)查數(shù)據(jù)和非調(diào)查數(shù)據(jù)。本文提到的調(diào)查數(shù)據(jù)包括統(tǒng)計(jì)數(shù)據(jù)在內(nèi),非調(diào)查數(shù)據(jù)是指調(diào)查數(shù)據(jù)以外的數(shù)據(jù),包括觀察數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)等多種類型。
數(shù)據(jù)重用來源渠道。數(shù)據(jù)來源渠道可分為正式和非正式兩種方式。正式的數(shù)據(jù)來源渠道包括圖書、期刊論文、年鑒等正式出版物及政府網(wǎng)站等其他官方統(tǒng)計(jì)網(wǎng)站或公開的調(diào)查報(bào)告等。非正式來源渠道有郵件、私人聯(lián)系等。一般可以通過文中提及、參考文獻(xiàn)、注釋等方式得知數(shù)據(jù)來源信息。根據(jù)初步分析,本文將數(shù)據(jù)重用來源渠道大致分為期刊論文、政府網(wǎng)站及其他三大類。
4)數(shù)據(jù)處理與分析方式
本研究將數(shù)據(jù)處理與分析分為數(shù)據(jù)使用、數(shù)據(jù)統(tǒng)計(jì)分析、整理成圖表和其他四大類(其他處理方式如文中明確提到借鑒、改編量表等)。
5)數(shù)據(jù)重用規(guī)范
數(shù)據(jù)重用格式。本文科學(xué)數(shù)據(jù)重用規(guī)范分析的主要內(nèi)容包括數(shù)據(jù)重用格式、數(shù)據(jù)元素、數(shù)據(jù)重用位置3個(gè)方面,其中科學(xué)數(shù)據(jù)重用格式主要有參考文獻(xiàn)、注釋、文中提及以及其他4種形式,除此之外還包括序號(hào)、標(biāo)點(diǎn)符號(hào)的使用等較為細(xì)節(jié)的部分。
數(shù)據(jù)描述元素??煞譃楸貍湓嘏c可選元素。必備元素有創(chuàng)建者、標(biāo)題、URL等,可選元素如DOI、數(shù)據(jù)分級(jí)等。
數(shù)據(jù)重用位置。本文將數(shù)據(jù)重用位置分為引言、正文、結(jié)語3種,雖然這種區(qū)分較為簡單,但可以與數(shù)據(jù)重用目的相對(duì)應(yīng)。
2教育學(xué)領(lǐng)域基金論文中的數(shù)據(jù)重用行為統(tǒng)計(jì)分析
2.1數(shù)據(jù)重用目的
一般而言,數(shù)據(jù)重用目的有4種:新的研究、研究佐證、研究結(jié)果比較以及用做背景資料,如圖1所示。圖1由圖(a)、圖(b)以及圖(C)組成,圖(a)為2017年數(shù)據(jù),圖(b)為201 8年數(shù)據(jù),整體數(shù)據(jù)見圖(c)。
通過對(duì)524篇基金論文的內(nèi)容分析發(fā)現(xiàn),教育學(xué)領(lǐng)域?qū)W者重用數(shù)據(jù)目的是新的研究比例最高的種類(43.40%),其次是研究背景(28.93%)和研究佐證(23.60%),較低比例的數(shù)據(jù)重用目的是研究結(jié)果比較(4.06%)。與2017年相比,2018年數(shù)據(jù)重用目的為新的研究及研究佐證的比例上升,在一定程度上可以反映出教育學(xué)領(lǐng)域?qū)W者越來越注重科學(xué)數(shù)據(jù)價(jià)值的挖掘。
2.2數(shù)據(jù)重用比例
本文通過標(biāo)注與統(tǒng)計(jì)分析基金論文中的數(shù)據(jù)重用現(xiàn)象,來獲取教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用行為的總體情況。2017年立項(xiàng)的49項(xiàng)各類基金項(xiàng)目共產(chǎn)出基金項(xiàng)目論文300篇,其中實(shí)證論文篇數(shù)為88篇,占已發(fā)表論文總數(shù)的29.33%;有數(shù)據(jù)引用行為的論文有149篇,占比49.67%。2018年立項(xiàng)的51項(xiàng)各類基金項(xiàng)目共產(chǎn)出基金項(xiàng)目論文244篇,其中實(shí)證論文篇數(shù)為66篇,占已發(fā)表論文總數(shù)的27.05%,有數(shù)據(jù)重用行為的論文有109篇,占比44.67%??傮w而言,這兩年統(tǒng)計(jì)結(jié)果相差不大,數(shù)據(jù)重用比例接近50%,這是一個(gè)相對(duì)比較高的比例。實(shí)證論文比例接近30%,如表4所示。由此可見,這兩年的數(shù)據(jù)重用比例都明顯高于實(shí)證論文比例,即教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用比例高于自行收集數(shù)據(jù)比例。
調(diào)查法在教育學(xué)領(lǐng)域適用范圍廣泛、應(yīng)用成熟,形成了一定的研究范式,實(shí)證論文中調(diào)查類論文占比最高。不過這并不意味著教育學(xué)領(lǐng)域?qū)W者更愿意重用數(shù)據(jù)而不是自行收集數(shù)據(jù),仍有許多學(xué)者傾向于通過自行收集數(shù)據(jù)的方式以實(shí)現(xiàn)自己的研究目的。在學(xué)者自行收集數(shù)據(jù)開展實(shí)證研究并同時(shí)重用他人數(shù)據(jù)的情況下,數(shù)據(jù)重用的目的一般為用作研究背景或研究佐證,基本不是用作新的研究。當(dāng)然,學(xué)者也可以使用已有數(shù)據(jù),采取思辨方法驗(yàn)證研究論點(diǎn),或是將原始數(shù)據(jù)用作實(shí)證研究論文中的主要數(shù)據(jù)和研究基礎(chǔ)。因此,教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用行為與學(xué)者自行收集數(shù)據(jù)并不矛盾,也沒有必然聯(lián)系。
統(tǒng)計(jì)發(fā)現(xiàn).2018年與2017年相比數(shù)據(jù)重用頻次明顯下降,一篇論文數(shù)據(jù)重用次數(shù)大于1次的比例下降。2017年數(shù)據(jù)重用頻次為244次,平均每篇論文數(shù)據(jù)重用次數(shù)為1.64次。2018年數(shù)據(jù)重用頻次為151次,平均每篇論文數(shù)據(jù)重用次數(shù)為1.04次。2017年共有5項(xiàng)基金課題項(xiàng)目未見有數(shù)據(jù)重用現(xiàn)象,占當(dāng)年抽取比例的10.20%,2018年有11項(xiàng)基金課題項(xiàng)目未見有數(shù)據(jù)重用現(xiàn)象,占當(dāng)年抽取比例的21.57%??梢酝茰y(cè),數(shù)據(jù)重用行為在一定程度上受數(shù)據(jù)時(shí)間周期以及每項(xiàng)課題發(fā)表論文數(shù)量的因素影響。
2.3數(shù)據(jù)重用程度
由表5可知.2017年未采取任何數(shù)據(jù)分析手段的數(shù)據(jù)使用比例為54.73%,2018年數(shù)據(jù)使用比例為63.58%。
利用原始數(shù)據(jù)開展新的研究大多需要將原始數(shù)據(jù)進(jìn)行再分析,但研究結(jié)果顯示,教育學(xué)領(lǐng)域?qū)W者在研究中將原始數(shù)據(jù)用做新的研究比例不足50%.而數(shù)據(jù)分析與處理類目為數(shù)據(jù)使用的比例超過一半,這表明數(shù)據(jù)重用目的與數(shù)據(jù)分析處理方式高度相關(guān),教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用目的是研究背景和研究佐證的比例較高,意味著對(duì)已有數(shù)據(jù)的分析不夠,對(duì)科學(xué)數(shù)據(jù)價(jià)值的挖掘不夠深入,數(shù)據(jù)二次分析較少,數(shù)據(jù)利用程度較低。
2.4數(shù)據(jù)重用類型
教育學(xué)領(lǐng)域基金論文主要是引用政府網(wǎng)站及期刊論文中的數(shù)據(jù),調(diào)查類數(shù)據(jù)一般來源于官方統(tǒng)計(jì)網(wǎng)站以及調(diào)查類研究論文,另外有少量數(shù)據(jù)來自互聯(lián)網(wǎng)等途徑。如表6所示,2017年數(shù)據(jù)重用類型中,調(diào)查數(shù)據(jù)占比58.02%,非調(diào)查數(shù)據(jù)占比41.98%:2018年數(shù)據(jù)重用類型中調(diào)查數(shù)據(jù)占比51.66%,非調(diào)查數(shù)據(jù)占比48.34%。原始數(shù)據(jù)類型以調(diào)查數(shù)據(jù)居多,一般是為了引出或驗(yàn)證研究問題,即用做研究背景和佐證觀點(diǎn)。
其中,政府網(wǎng)站及科研院所的數(shù)據(jù)具有一定的連續(xù)性且數(shù)據(jù)質(zhì)量較高,如教育部、國家統(tǒng)計(jì)局的調(diào)查數(shù)據(jù)涵蓋范圍廣,數(shù)據(jù)較為權(quán)威,可以很好地引出研究背景,是科學(xué)研究的重要數(shù)據(jù)來源。其次是期刊論文和碩博論文,獲取較為便捷,并且已發(fā)表的通過調(diào)查等實(shí)證方法收集的數(shù)據(jù)能夠佐證本文觀點(diǎn),也可通過借鑒量表等調(diào)查工具開展新的研究。
教育學(xué)領(lǐng)域在調(diào)查研究中涉及到研究工具的重用,其中量表是比較有特色的數(shù)據(jù)重用類型。教育學(xué)領(lǐng)域量表重用現(xiàn)象較為普遍,可以是借鑒、改編、編譯國內(nèi)外已有研究的成熟量表。通常情況下,對(duì)外文量表的數(shù)據(jù)重用需要翻譯審定,并且為契合研究目的應(yīng)對(duì)量表進(jìn)行本土化及刪減,例如“量表經(jīng)專家使用英文原版翻譯……”。對(duì)已有成熟的量表的數(shù)據(jù)重用可以提高研究的科學(xué)性,節(jié)約時(shí)間和精力,是數(shù)據(jù)重用較為合適的選擇。
3教育學(xué)領(lǐng)域基金論文中的數(shù)據(jù)重用標(biāo)注規(guī)范分析
數(shù)據(jù)重用來源、格式著錄是否規(guī)范影響著科學(xué)研究的準(zhǔn)確性和科學(xué)性。因此,數(shù)據(jù)重用應(yīng)遵循相應(yīng)的規(guī)范以便科研人員在研究過程中追溯數(shù)據(jù)來源,促進(jìn)科學(xué)數(shù)據(jù)再利用。本文主要對(duì)數(shù)據(jù)重用來源及標(biāo)注和數(shù)據(jù)重用選擇偏好分析我國教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用規(guī)范。
3.1數(shù)據(jù)重用來源及標(biāo)注
3.1.1數(shù)據(jù)重用來源標(biāo)注
通過統(tǒng)計(jì)分析發(fā)現(xiàn),教育學(xué)領(lǐng)域?qū)W者在數(shù)據(jù)重用過程中沒有任何標(biāo)注行為(無參考文獻(xiàn)、無注釋、無文中提及)的比例在10%以下,如表7所示。
2017年“無”的比例僅為5%,2018年為9.93%,即超過90%的學(xué)者會(huì)在數(shù)據(jù)重用中標(biāo)注原始數(shù)據(jù)來源,這表明絕大部分學(xué)者具備一定的數(shù)據(jù)重用規(guī)范意識(shí)。但是在數(shù)據(jù)來源方面,2017年數(shù)據(jù)來源未知比例有6.58%,2018年數(shù)據(jù)來源未知比例有16.56%。整體而言,有10%左右的學(xué)者沒有明確指出原始數(shù)據(jù)來源渠道,均大于數(shù)據(jù)重用規(guī)范為“無”的比例。這說明即便學(xué)者在文中提及數(shù)據(jù)來源或進(jìn)行數(shù)據(jù)引用,但未必能全部明確指出詳細(xì)完整的數(shù)據(jù)來源渠道。
教育學(xué)領(lǐng)域?qū)W者重用數(shù)據(jù)存在不介紹重用數(shù)據(jù)的來源,或者交待部分出處但不可查的問題,表現(xiàn)為對(duì)原始數(shù)據(jù)不作實(shí)質(zhì)性出處說明,不標(biāo)注引用數(shù)據(jù)以及對(duì)于數(shù)據(jù)記錄的完整性認(rèn)識(shí)不足等形式。數(shù)據(jù)重用更注重?cái)?shù)據(jù)的結(jié)果,較少關(guān)注能夠反映數(shù)據(jù)全過程信息的元數(shù)據(jù)。對(duì)于科研人員自己整理的數(shù)據(jù),同樣存在數(shù)據(jù)出處不明且不夠詳盡、準(zhǔn)確的問題,給數(shù)據(jù)追蹤以及后續(xù)的數(shù)據(jù)重用造成了一定的障礙。
3.1.2數(shù)據(jù)重用標(biāo)注格式
教育學(xué)領(lǐng)域?qū)W者在數(shù)據(jù)重用過程中很少像自然科學(xué)領(lǐng)域?qū)?shù)據(jù)或數(shù)據(jù)集進(jìn)行明確聲明,對(duì)原始數(shù)據(jù)的來源標(biāo)注一般通過文中提及、參考文獻(xiàn)及注釋的方法,其中參考文獻(xiàn)形式是科學(xué)數(shù)據(jù)的正式引用形式,其他3類是非正式形式。但科研人員標(biāo)注數(shù)據(jù)來源時(shí),往往不只采用一種形式,同時(shí)使用文中提及和參考文獻(xiàn)的情況較多,以保證數(shù)據(jù)的準(zhǔn)確性和權(quán)威性。
統(tǒng)計(jì)發(fā)現(xiàn),教育學(xué)領(lǐng)域數(shù)據(jù)重用格式為注釋這一形式較少,2017年僅有16條數(shù)據(jù)使用注釋這一形式,2018年僅有3條數(shù)據(jù)通過注釋說明原始數(shù)據(jù)來源。注釋可以詳細(xì)介紹數(shù)據(jù)的獲取及相關(guān)說明,但較少采用注釋方式注明數(shù)據(jù)來源。涉及到對(duì)歷史資料的數(shù)據(jù)重用,注釋這一非正式引用方式的較多,如注釋中寫道“此表內(nèi)容來源于……的歸納”。注釋一般提及創(chuàng)建者及標(biāo)題兩項(xiàng),實(shí)際上,注釋與參考文獻(xiàn)作用相同,存在形式上是注釋,實(shí)際是參考文獻(xiàn)的情況,但通常注釋與參考文獻(xiàn)標(biāo)注的格式不一致。
3.1.3數(shù)據(jù)重用標(biāo)注習(xí)慣
高校及研究院等權(quán)威機(jī)構(gòu)的調(diào)查統(tǒng)計(jì)報(bào)告也是數(shù)據(jù)重用的重要來源渠道,但與此相關(guān)的數(shù)據(jù)重用規(guī)范卻并不統(tǒng)一。若是僅對(duì)調(diào)查統(tǒng)計(jì)結(jié)果進(jìn)行數(shù)據(jù)重用,則更傾向于在論文正文標(biāo)注參考文獻(xiàn)。如果一開始就沒有將調(diào)查數(shù)據(jù)列入?yún)⒖嘉墨I(xiàn)中,那之后也不會(huì)列入,這是一種論文寫作習(xí)慣。一般直接使用調(diào)查數(shù)據(jù),在正文中不會(huì)說明數(shù)據(jù)的增刪改情況。但實(shí)際情況復(fù)雜得多,科學(xué)數(shù)據(jù)類型多樣,除調(diào)查數(shù)據(jù)之外,教育學(xué)領(lǐng)域?qū)W者重用非調(diào)查數(shù)據(jù)的情況較為常見,測(cè)量量表和評(píng)價(jià)指標(biāo)是出現(xiàn)頻率較高的非調(diào)查數(shù)據(jù)。當(dāng)科研人員重用這類數(shù)據(jù)時(shí)一般會(huì)將以往研究整理成表格形式,部分以參考文獻(xiàn)的方式出現(xiàn),參考文獻(xiàn)如果是期刊論文則較為規(guī)范,一般按照期刊論文的著錄標(biāo)準(zhǔn)著錄。如果來源于網(wǎng)站,那么在表格后表注釋數(shù)據(jù)來源則更為常見。而此種方式數(shù)據(jù)引用形式最為多樣,表明教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)規(guī)范意識(shí)不足。
通過對(duì)數(shù)據(jù)重用來源及標(biāo)注的分析可知,雖然我國已發(fā)布科學(xué)數(shù)據(jù)相關(guān)國家標(biāo)準(zhǔn),但在實(shí)踐中仍存在大量不規(guī)范數(shù)據(jù)重用現(xiàn)象,主要體現(xiàn)為科研人員在數(shù)據(jù)重用過程中未明確注明數(shù)據(jù)重用來源,數(shù)據(jù)規(guī)范意識(shí)有待提高。
3.2數(shù)據(jù)重用選擇偏好
3.2.1重用位置特征
為了解教育學(xué)領(lǐng)域?qū)W者數(shù)據(jù)重用行為規(guī)范,本研究進(jìn)一步分析數(shù)據(jù)引用位置,將數(shù)據(jù)重用位置分為引言、正文和結(jié)論3部分。一般而言,在引言部分?jǐn)?shù)據(jù)重用目的為研究背景,但同時(shí)也有少部分作為背景資料出現(xiàn)在正文中??傮w而言,在正文中有數(shù)據(jù)重用的比例最大,因?yàn)檎膬?nèi)容是研究的主體部分,且在正文中數(shù)據(jù)重用目的可以是用作研究背景、開展新的研究以及佐證研究觀點(diǎn)。教育學(xué)領(lǐng)域數(shù)據(jù)重用位置主要集中在引言和正文,以科學(xué)數(shù)據(jù)為研究基礎(chǔ)的論文通常會(huì)在正文研究設(shè)計(jì)中提到數(shù)據(jù)來源。數(shù)據(jù)重用出現(xiàn)在結(jié)論的部分占比最少,在論文結(jié)論部分進(jìn)行數(shù)據(jù)重用一般是為了研究結(jié)果比較分析,而數(shù)據(jù)重用為研究比較的比例較低。因此,可以發(fā)現(xiàn)教育學(xué)領(lǐng)域?qū)W者較為重視科學(xué)數(shù)據(jù)的價(jià)值。
3.2.2數(shù)據(jù)重用元素選擇
科學(xué)數(shù)據(jù)元素是科學(xué)數(shù)據(jù)的進(jìn)一步揭示,能夠反映數(shù)據(jù)重用行為是否規(guī)范。不同數(shù)據(jù)類型的元數(shù)據(jù)元素差異較大,即便是相同數(shù)據(jù)類型在同一期刊也不一樣,存在信息來源不完整、欠精確,對(duì)來源信息揭示度不高的問題。目前數(shù)據(jù)引用元素的規(guī)范并不統(tǒng)一,必備元素和可選元素的標(biāo)準(zhǔn)存在較大差異。為了能夠?qū)?shù)據(jù)集進(jìn)行溯源,需要統(tǒng)一資源標(biāo)識(shí)符。
當(dāng)前數(shù)據(jù)重用不規(guī)范情況大量存在,雖然已經(jīng)說明了數(shù)據(jù)來源,但因?yàn)槿狈?shù)據(jù)重用規(guī)范和數(shù)據(jù)應(yīng)用格式的認(rèn)識(shí),存在數(shù)據(jù)重用格式不規(guī)范、信息著錄不完善、數(shù)據(jù)來源標(biāo)注較為隨意等問題,導(dǎo)致論文作者和原始數(shù)據(jù)查找困難。當(dāng)前學(xué)者、期刊和相關(guān)機(jī)構(gòu)缺乏對(duì)數(shù)據(jù)引用規(guī)范性的認(rèn)識(shí),使論文的數(shù)據(jù)引用不規(guī)范問題普遍存在。學(xué)者在論文中雖然重用了相關(guān)數(shù)據(jù),但并沒有對(duì)這些數(shù)據(jù)及其來源明確說明和注釋。數(shù)據(jù)的引用格式也存在問題,使數(shù)據(jù)信息展示不全,甚至沒有詳細(xì)標(biāo)注引用數(shù)據(jù)及其來源。
在數(shù)據(jù)重用過程中,數(shù)據(jù)元素標(biāo)注還不夠全面,存在數(shù)據(jù)來源后只有原始數(shù)據(jù)的標(biāo)題和時(shí)間信息的現(xiàn)象。大多數(shù)學(xué)者在引用圖表形式的數(shù)據(jù)時(shí),僅在文中描述數(shù)據(jù)來源,列出部分?jǐn)?shù)據(jù)元素,此類不規(guī)范的數(shù)據(jù)重用行為影響了科研人員通過數(shù)據(jù)引用信息定位原始數(shù)據(jù),阻礙了數(shù)據(jù)的傳播與再利用。
3.2.3數(shù)據(jù)重用行為相似性
馬太效應(yīng)反映了“強(qiáng)者越強(qiáng),弱者越弱”的現(xiàn)象,教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為存在“馬太效應(yīng)”,這在數(shù)據(jù)重用行為中表現(xiàn)為一項(xiàng)基金項(xiàng)目在項(xiàng)目前期重用他人研究數(shù)據(jù),之后數(shù)據(jù)重用的可能性大為提高。反之,如果一項(xiàng)基金項(xiàng)目在項(xiàng)目前期沒有重用他人研究數(shù)據(jù),項(xiàng)目中后期很可能也不會(huì)有數(shù)據(jù)重用行為。2017年共有5項(xiàng)基金課題項(xiàng)目未見有數(shù)據(jù)重用現(xiàn)象,占當(dāng)年抽取比例的10.20%,2018年有11項(xiàng)基金課題項(xiàng)目未見有數(shù)據(jù)重用現(xiàn)象,占當(dāng)年抽取比例的21.57%。這兩年的數(shù)據(jù)體現(xiàn)了“馬太效應(yīng)”中“弱者越弱”的現(xiàn)象。與此對(duì)應(yīng)的是2017年共有7項(xiàng)基金課題項(xiàng)目數(shù)據(jù)重用論文比例為100%,即已發(fā)表的每一篇論文都有數(shù)據(jù)重用行為,2018年數(shù)據(jù)重用論文比例為100%的基金課題有11項(xiàng),但其中有9項(xiàng)為僅發(fā)表了1篇論文,并且這兩年數(shù)據(jù)重用比例為100%的基金課題項(xiàng)目已發(fā)表論文數(shù)均不超過5篇,由此可知數(shù)據(jù)重用并不是教育學(xué)領(lǐng)域科研人員開展研究的首選。
通過分析發(fā)表論文數(shù)大于5篇的基金論文中的數(shù)據(jù)重用行為發(fā)現(xiàn),系列論文的數(shù)據(jù)重用行為特征也具有相似性。由于系列論文具有相對(duì)一致的研究方向,同一項(xiàng)目數(shù)據(jù)重用類型存在一致性傾向,傾向于使用同一類型數(shù)據(jù)的情況,這與研究內(nèi)容、研究方法、數(shù)據(jù)重用目的以及研究者的個(gè)人習(xí)慣有關(guān)。
4結(jié)語
本研究采用內(nèi)容分析法從相對(duì)客觀的角度分析教育學(xué)領(lǐng)域數(shù)據(jù)重用行為特征規(guī)律,選取了全國教育科學(xué)規(guī)劃項(xiàng)目數(shù)據(jù)為總體數(shù)據(jù),對(duì)2017年和2018年的全國教育科學(xué)規(guī)劃立項(xiàng)課題進(jìn)行抽樣,從數(shù)據(jù)重用目的、數(shù)據(jù)類型偏好及數(shù)據(jù)重用規(guī)范等方面分析教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為。研究發(fā)現(xiàn),教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為有以下特征:
①教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用比例較高且較為穩(wěn)定:②教育學(xué)領(lǐng)域科研人員偏向于調(diào)查數(shù)據(jù)的重用,其他數(shù)據(jù)以公式、代碼和教學(xué)數(shù)據(jù)資源為主,對(duì)量表的編譯改編借鑒重用較為頻繁:③在數(shù)據(jù)來源上,政府網(wǎng)站及數(shù)據(jù)中心是科研人員較為信任的數(shù)據(jù)來源渠道,已發(fā)表的專業(yè)期刊論文中的科學(xué)數(shù)據(jù)由于數(shù)據(jù)獲取便利性和專業(yè)性成為科研人員頻繁引用的原始數(shù)據(jù)。此外,互聯(lián)網(wǎng)數(shù)據(jù)因其可獲得性和時(shí)效性較強(qiáng)得到科研人員的關(guān)注:④科學(xué)數(shù)據(jù)重用過程中的數(shù)據(jù)分析與處理較為粗淺,數(shù)據(jù)使用最多,將原始數(shù)據(jù)整理成表格也是常見的數(shù)據(jù)處理分析方式,文獻(xiàn)計(jì)量與數(shù)據(jù)可視化分析逐步成為熱門,但存在數(shù)據(jù)分析方法較為粗淺的問題。并且數(shù)據(jù)分析處理與數(shù)據(jù)重用目的密切相關(guān):⑤由于缺少明確統(tǒng)一的科學(xué)數(shù)據(jù)參考文獻(xiàn)及注釋格式規(guī)范,科學(xué)數(shù)據(jù)的元數(shù)據(jù)描述差異較大。此外,數(shù)據(jù)重用過程數(shù)據(jù)來源不詳是數(shù)據(jù)獲取障礙的重要原因。
本研究以教育學(xué)領(lǐng)域的基金項(xiàng)目產(chǎn)出論文為分析依據(jù),對(duì)其中的數(shù)據(jù)重用現(xiàn)象進(jìn)行了識(shí)別和提取,通過對(duì)該領(lǐng)域?qū)W者數(shù)據(jù)重用行為特征的分析,總結(jié)其專業(yè)內(nèi)部的科學(xué)數(shù)據(jù)使用偏好及使用規(guī)范,而數(shù)據(jù)重用行為有明顯的學(xué)科差異性。本研究通過對(duì)教育學(xué)領(lǐng)域科研人員數(shù)據(jù)重用行為的分析,希望能夠在一定程度上為圖書館、數(shù)據(jù)出版商、數(shù)據(jù)中心等機(jī)構(gòu)開展數(shù)據(jù)服務(wù)內(nèi)容及調(diào)查數(shù)據(jù)平臺(tái)等教學(xué)資源數(shù)據(jù)庫的建設(shè)方向提供參考。
但本研究僅從相對(duì)客觀的角度分析科研人員數(shù)據(jù)重用行為,關(guān)注了基金論文文本中體現(xiàn)的數(shù)據(jù)重用現(xiàn)象,未能探討文本外的科研人員自身的情感、態(tài)度等主觀方面的動(dòng)態(tài)的因素。在基金項(xiàng)目樣本的時(shí)間范圍的選擇上,本次研究僅選擇了2017年和2018這兩年的基金項(xiàng)目,相對(duì)而言數(shù)據(jù)量有一定局限性。另外,數(shù)據(jù)重用規(guī)范僅僅考慮到格式、位置及元素,更偏重研究數(shù)據(jù)重用行為形式特征,內(nèi)容分析編碼類目構(gòu)建考慮不夠完善,未來研究還需挖掘數(shù)據(jù)重用行為其他特征表現(xiàn)。