張若晗
(黑龍江大學(xué) 信息管理學(xué)院,黑龍江 哈爾濱 150080)
科學(xué)數(shù)據(jù)的共享和重用近年來開始蓬勃發(fā)展,政府機(jī)關(guān)、學(xué)術(shù)機(jī)構(gòu)與期刊出版商紛紛鼓勵科研人員共享科學(xué)數(shù)據(jù),但是數(shù)據(jù)共享的操作流程繁復(fù),會耗費(fèi)數(shù)據(jù)共享者的時(shí)間和精力,數(shù)據(jù)的引用標(biāo)準(zhǔn)尚未規(guī)范,數(shù)據(jù)重用者在利用二手?jǐn)?shù)據(jù)進(jìn)行科學(xué)研究中也遇到一些障礙。本研究探討管理學(xué)領(lǐng)域科研人員的數(shù)據(jù)重用現(xiàn)狀,為促進(jìn)科學(xué)數(shù)據(jù)的發(fā)布和再利用提供建議,支持科學(xué)數(shù)據(jù)的長足發(fā)展。
為了保證樣本論文的質(zhì)量,根據(jù)CNKI數(shù)據(jù)庫學(xué)科期刊導(dǎo)航提供的期刊影響因子數(shù)據(jù),本研究選取國內(nèi)管理學(xué)領(lǐng)域影響因子排名較高的4種期刊,分別為《管理世界》《公共管理學(xué)報(bào)》《管理科學(xué)》《管理學(xué)報(bào)》,這些期刊在管理學(xué)領(lǐng)域具有較大的影響力,對稿件的數(shù)據(jù)使用規(guī)范性要求較高,有利于提高本文統(tǒng)計(jì)分析結(jié)果的可信性。為了更好地體現(xiàn)管理學(xué)實(shí)證研究中數(shù)據(jù)重用的現(xiàn)狀,選擇2010年~2019年刊載的期刊論文,通過中國知網(wǎng)檢索主題為“數(shù)據(jù)”的文獻(xiàn),共檢索到論文492篇,去除其中編輯寄語、會議報(bào)道、簡訊等文獻(xiàn)后,最終共獲取467篇樣本。具體樣本的分布,如圖1所示。
圖1 樣本期刊論文分布情況
為了便于樣本統(tǒng)計(jì),通過內(nèi)容分析法對上述467篇文獻(xiàn)的科學(xué)數(shù)據(jù)重用行為進(jìn)行識別與標(biāo)注。由于數(shù)據(jù)引用尚未有可靠的機(jī)器標(biāo)識方法,主要通過人工識別的方式。筆者對文章中有關(guān)數(shù)據(jù)來源的說明性文字等也進(jìn)行了標(biāo)注,一般常見的表達(dá)方式是“數(shù)據(jù)說明”或“數(shù)據(jù)來源”“變量與數(shù)據(jù)”等。借助Excel對收集的數(shù)據(jù)進(jìn)行批量分析與處理,具體統(tǒng)計(jì)的內(nèi)容包括5個(gè)方面,分別是:①數(shù)據(jù)是否重用,包括樣本數(shù)據(jù)重用的比例;②數(shù)據(jù)來源類型;③數(shù)據(jù)評估判據(jù);④數(shù)據(jù)獲取障礙;⑤數(shù)據(jù)處理方式。
對上述5個(gè)方面的內(nèi)容進(jìn)行識別,其中論文內(nèi)未涉及的部分識別為空值,并在此基礎(chǔ)上計(jì)算了每一篇有數(shù)據(jù)重用的文獻(xiàn)的重用規(guī)范程度,具體詳見表1。
表1 統(tǒng)計(jì)內(nèi)容具體細(xì)分及示例
此類目根據(jù)數(shù)據(jù)重用的定義確定,指的是論文的主體部分是否應(yīng)用二手?jǐn)?shù)據(jù)對新的研究問題進(jìn)行研究,有重用取值1,無重用取值0。
統(tǒng)計(jì)不同數(shù)據(jù)來源類型出現(xiàn)的次數(shù),由于同一篇文章會存在各種類型數(shù)據(jù)同時(shí)使用的情況,每一種類型都進(jìn)行統(tǒng)計(jì),但同一篇文章內(nèi)同類型數(shù)據(jù)只統(tǒng)計(jì)一次。此類目用來反映數(shù)據(jù)重用者的數(shù)據(jù)來源類型使用偏好。
數(shù)據(jù)評估判據(jù)指的是數(shù)據(jù)重用者對數(shù)據(jù)評估時(shí)有哪些判斷依據(jù),本研究將數(shù)據(jù)質(zhì)量的評估判據(jù)歸納為:完整性、可獲得性、適用性、準(zhǔn)確性。
數(shù)據(jù)獲取障礙反映科研人員在搜集各類數(shù)據(jù)時(shí)存在的障礙,具體細(xì)分為:可獲得性受到限制、數(shù)據(jù)缺失、定義模糊、數(shù)據(jù)異常。
數(shù)據(jù)處理方式體現(xiàn)科研人員根據(jù)具體情況對缺陷數(shù)據(jù)處理方式的差異。本研究具體分為剔除、匹配合并、調(diào)整、補(bǔ)充4個(gè)方面。
2010年~2019年管理學(xué)領(lǐng)域4本期刊的數(shù)據(jù)重用論文數(shù)317篇,占總論文數(shù)的67.9%,說明管理學(xué)科研人員的數(shù)據(jù)重用占實(shí)證研究的比重較大,數(shù)據(jù)重用現(xiàn)象較為普遍。具體統(tǒng)計(jì)結(jié)果如表2,僅有8篇文章未明確表明數(shù)據(jù)來源類型,說明大部分?jǐn)?shù)據(jù)重用文章會標(biāo)明數(shù)據(jù)來源;有165篇文章未標(biāo)明評估數(shù)據(jù)時(shí)有哪些判斷依據(jù)占比較高;有141篇沒有標(biāo)明數(shù)據(jù)獲取遇到的障礙以及147篇文章沒有提及對于二手?jǐn)?shù)據(jù)的處理方式??梢?,在重用數(shù)據(jù)時(shí),數(shù)據(jù)來源是管理學(xué)科研人員在文章中幾乎都會交代的要素,對于如何評估數(shù)據(jù)、獲取數(shù)據(jù)的障礙以及如何處理數(shù)據(jù)等問題關(guān)注較少。
表2 具體統(tǒng)計(jì)結(jié)果
管理學(xué)科研人員使用的數(shù)據(jù)主要來源于政府?dāng)?shù)據(jù)(37%)、數(shù)據(jù)庫數(shù)據(jù)(26%)和網(wǎng)絡(luò)數(shù)據(jù)(14%),其中政府?dāng)?shù)據(jù)比重最大,大多來自統(tǒng)計(jì)年鑒,主要由國家統(tǒng)計(jì)局進(jìn)行收集,規(guī)范性強(qiáng)。其次,占比較大的是數(shù)據(jù)庫數(shù)據(jù),通過調(diào)研可知,管理學(xué)科研人員使用微觀數(shù)據(jù)庫作為數(shù)據(jù)來源的情況較為普遍。政府?dāng)?shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù)統(tǒng)計(jì)結(jié)果較為可靠,并且統(tǒng)計(jì)數(shù)量較大,特別是微觀數(shù)據(jù)庫代表性高、針對性強(qiáng),對數(shù)據(jù)的收集和存儲更加細(xì)化,受到科研人員的青睞。公共服務(wù)部門、政府機(jī)關(guān)在一定情況下會公開發(fā)布調(diào)查研究所得的相關(guān)數(shù)據(jù),大數(shù)據(jù)環(huán)境下互聯(lián)網(wǎng)平臺為各個(gè)來源的科學(xué)數(shù)據(jù)傳播提供了新渠道,提高了科學(xué)數(shù)據(jù)的多渠道獲取。網(wǎng)絡(luò)數(shù)據(jù)主要由于獲取較為便利,科研人員可以通過網(wǎng)絡(luò)爬蟲有針對性地搜集數(shù)據(jù)??蒲许?xiàng)目與論文數(shù)據(jù)(6%)主要是為特定的研究目的進(jìn)行的數(shù)據(jù)收集,有特定的情境,適用性有限。檔案館的開放程度較低,其科學(xué)數(shù)據(jù)的易獲取性較弱,并且檔案數(shù)據(jù)有些屬于非公開文件,一般作為補(bǔ)充數(shù)據(jù),單獨(dú)使用情況較少。詳細(xì)數(shù)據(jù)來源類型分布,如圖2所示。
圖2 數(shù)據(jù)來源類型
從調(diào)研數(shù)據(jù)看,管理學(xué)科研人員者評估數(shù)據(jù)主要關(guān)注數(shù)據(jù)的適用性(37%),原始數(shù)據(jù)一般是由數(shù)據(jù)生產(chǎn)者在研究過程中收集的,數(shù)據(jù)重用者在使用數(shù)據(jù)時(shí)會考慮數(shù)據(jù)是否適用于自己的研究內(nèi)容,而且一般會選取具有代表性的數(shù)據(jù),所以關(guān)注度較高。數(shù)據(jù)的完整性、數(shù)據(jù)覆蓋是否全面對于研究者也十分重要。另外,科研人員會傾向于使用數(shù)量多、時(shí)間跨度大、地域跨度大的數(shù)據(jù),數(shù)據(jù)的準(zhǔn)確性也是科研人員在評估數(shù)據(jù)時(shí)的標(biāo)準(zhǔn),使用的數(shù)據(jù)準(zhǔn)確與否對研究結(jié)果有直接影響。數(shù)據(jù)可得性也在評估時(shí)有提及,盡管占比(15%)比較低,但這也是數(shù)據(jù)重用的前提。
數(shù)據(jù)獲取最大的障礙因素是數(shù)據(jù)缺失(43%)。數(shù)據(jù)缺失一般由于一些原因產(chǎn)生空缺,對研究者獲取數(shù)據(jù)產(chǎn)生了一定程度的限制。數(shù)據(jù)由于誤差因素導(dǎo)致的數(shù)據(jù)異常也成為研究者獲取數(shù)據(jù)的另一大限制 (29%)。數(shù)據(jù)的可獲得性既作為數(shù)據(jù)評估的一個(gè)標(biāo)準(zhǔn),也是數(shù)據(jù)獲取的障礙。另外,原始數(shù)據(jù)中對于數(shù)據(jù)定義模糊,導(dǎo)致重用者不能準(zhǔn)確理解數(shù)據(jù),也造成一定的障礙,但是占比較小(11%)。
圖3 數(shù)據(jù)評估判據(jù)
圖4 數(shù)據(jù)獲取障礙
通過調(diào)研分析,剔除成為管理學(xué)科研人員處理數(shù)據(jù)的主要解決方式。因?yàn)樵跀?shù)據(jù)處理中,對于缺失或者不可獲得的數(shù)據(jù)來說,剔除最為簡便,并且一般研究使用的數(shù)據(jù)量較大,剔除少數(shù)變量對研究結(jié)果影響不大。對于數(shù)據(jù)異常的情況,剔除相對容易。但是,每個(gè)研究的內(nèi)容不同,數(shù)據(jù)處理方式也有差別,例如:將數(shù)據(jù)整理后匹配合并,或者用其他數(shù)據(jù)源進(jìn)行補(bǔ)充、調(diào)整。
圖5 數(shù)據(jù)處理方式
研究結(jié)果顯示,重用論文有317篇,占總論文數(shù)的67.9%,重用情況較為普遍說明管理學(xué)科學(xué)研究對數(shù)據(jù)的依賴程度較高。本研究主要從數(shù)據(jù)是否重用、數(shù)據(jù)來源類型、數(shù)據(jù)評估判據(jù)、數(shù)據(jù)獲取障礙、數(shù)據(jù)處理方式5個(gè)方面具體分析管理學(xué)科研人員的數(shù)據(jù)重用特征。
在數(shù)據(jù)來源方面,本研究的結(jié)果與沈婷婷(2016)對社會學(xué)研究者二手?jǐn)?shù)據(jù)利用行為分析的結(jié)果一致,幾乎全部的作者都對數(shù)據(jù)來源進(jìn)行明確標(biāo)注。管理學(xué)科研人員較常使用來自大型數(shù)據(jù)庫與政府部門的資料,Zhang(2011)之處使用過SDSS數(shù)據(jù)庫(天文領(lǐng)域)的200篇論文中,其中有51.9%是來自公開的數(shù)據(jù)庫,這樣的研究結(jié)果與本研究的調(diào)研結(jié)果大致相符。
在數(shù)據(jù)評估評估方面,管理學(xué)科研人員在重用數(shù)據(jù)時(shí),會受數(shù)據(jù)的完整性、可獲得性、適用性、準(zhǔn)確性等因素影響。例如,在完整性方面,會考慮調(diào)查問卷題項(xiàng)的豐富程度,或者數(shù)據(jù)的缺失情況是否影響研究內(nèi)容;在可獲得性方面,作者在選擇具備相同條件數(shù)據(jù)時(shí),會優(yōu)先考慮方便取得或免費(fèi)獲得的數(shù)據(jù);在適用性方面,會觀察收集數(shù)據(jù)的方法是否符合自己的研究,題項(xiàng)的設(shè)計(jì)、問題是否吻合;在準(zhǔn)確性方面,作者會觀察資料內(nèi)容與題項(xiàng)設(shè)計(jì)是否吻合,或者通過統(tǒng)計(jì)方式檢測數(shù)據(jù)的信效度。此外,對于部分科研人員來說,數(shù)據(jù)的時(shí)間跨度和時(shí)效性也是非常重要的。
在數(shù)據(jù)處理方面,與Rolland和Lee(2013)的研究結(jié)果類似,本研究的管理學(xué)科研人員同樣會對數(shù)據(jù)進(jìn)行清理,多數(shù)采用剔除缺失數(shù)據(jù)和異常的數(shù)據(jù)變?yōu)榭捎玫臓顟B(tài),在缺失數(shù)據(jù)時(shí),會視情況匹配整合,或者用替代數(shù)據(jù)進(jìn)行補(bǔ)充。
但從調(diào)研情況來看,仍存在一些不規(guī)范之處,在數(shù)據(jù)使用方面還有較大提升空間。調(diào)查發(fā)現(xiàn),大多數(shù)作者在引用數(shù)據(jù)庫數(shù)據(jù)與圖表數(shù)據(jù)時(shí),僅對數(shù)據(jù)來源在文中做描述性標(biāo)注或者列出部分引用元素,這種數(shù)據(jù)重用行為使讀者難以通過查閱數(shù)據(jù)引文來定位原始數(shù)據(jù),阻礙了數(shù)據(jù)的傳播與再利用。