孔祥輝?王乙竹
摘 要 當前可重復性危機日益嚴重,已經(jīng)對科學研究事業(yè)的健康發(fā)展構(gòu)成重大挑戰(zhàn)。學術(shù)圖書館有責任和義務參與到化解這場危機的進程中。論文基于數(shù)據(jù)生命周期的整體視角,深入分析危機形成的數(shù)據(jù)因素,以可重復性為價值導向并結(jié)合學術(shù)圖書館服務優(yōu)勢,提出對應的數(shù)據(jù)支持服務建設(shè)思路與具體實施策略,包括數(shù)據(jù)預公開與規(guī)劃服務、高質(zhì)量數(shù)據(jù)采集服務、元數(shù)據(jù)開發(fā)與咨詢服務、統(tǒng)計培訓與協(xié)作服務等。
關(guān)鍵詞 學術(shù)圖書館;數(shù)據(jù)生命周期;可重復性危機;數(shù)據(jù)管理
分類號G251;G258.6
DOI 10.16810/j.cnki.1672-514X.2023.07.010
Academic Librarys Data Reproducibility of Service Based on Data Life Cycle
Kong Xianghui, Wang Yizhu
Abstract The current reproducibility crisis is becoming increasingly severe, which has posed significant challenges to the healthy development of scientific research. Academic libraries have the responsibility and obligation to participate in the process of resolving this crisis. Based on the overall perspective of the data life cycle, this paper deeply analyzes the data factors that caused the crisis, takes reproducibility as the value orientation and combines the advantages of academic library services, and puts forward corresponding data support service construction ideas and specific implementation strategies, including data pre-disclosure and planning services, high-quality data collection services, metadata development and consulting services, statistical training and collaboration services.
Keywords Academic libraries. Data life cycle. Reproducibility crisis. Data management.
0 引言
可重復性是科學界的常用術(shù)語。根據(jù)美國國家科學基金會(NSF)發(fā)布的《科學中的可重復性與可復制性》(Reproducibility and Replicability in Science)研究共識報告[1]中的定義,它是指使用與原始研究相同的數(shù)據(jù)代碼、程序、方法、步驟或分析條件獲得一致的結(jié)果。伴隨著數(shù)據(jù)密集型、數(shù)據(jù)驅(qū)動型科研范式的確立和興起,可重復性已愈發(fā)成為衡量科研成果質(zhì)量的重要標尺。然而目前科研領(lǐng)域正逐步陷入到可重復性危機陷阱之中,很多已經(jīng)發(fā)表的論文成果都經(jīng)受不起重現(xiàn)的考驗。頂級學術(shù)期刊《Nature》的一項調(diào)查顯示[2],科研人員有超過半數(shù)無法重現(xiàn)自己的研究結(jié)果,有70%無法重現(xiàn)他人的研究。這種情況不僅降低了自身對于研究工作有效性的信心,還嚴重威脅到公眾對科學的信任感。如何提高研究成果的可重復性,從根本上防范并化解危機已成為各類科研主體及相關(guān)利益方所共同關(guān)心的重大問題。學術(shù)圖書館是科研交流創(chuàng)新體系的重要一環(huán),有必要及時審時度勢把握科研發(fā)展的脈搏,厘清當前所面臨的危機態(tài)勢,發(fā)揮自身的服務價值與優(yōu)勢來協(xié)助科研界推進危機的解決。
1 研究綜述
可重復危機問題進入公眾視野并引起廣泛關(guān)注,是由John Ioannidis在2005年所發(fā)表的一篇先導性文章所致,他聲稱高達90%的研究結(jié)果都是錯誤的[3]。此后針對該主題的研究焦點集中在以下三個方面:(1)對危機的本身認識及爭論。以Daniele Fanelli[4]等為代表的少數(shù)學者認為,很多研究成果確實存在捏造、偽造、有偏見性、有選擇性和不可復制等亟待解決的問題,但并不表明它們會破壞整個科學事業(yè)?!拔C”一詞的表述是錯誤的,應該用時代所賦予的新機遇和新挑戰(zhàn)才更準確和令人信服。但無論是從機構(gòu)層面,如美國開放科學中心(OSC)開展的大規(guī)模復制項目[5],還是學者個體層面開展的小范圍重復性評估研究,都發(fā)現(xiàn)社會科學、行為科學、心理學、教育學、醫(yī)學等眾多學科領(lǐng)域已發(fā)表成果存在重現(xiàn)率偏低情況,并且已經(jīng)引發(fā)了很多直接或潛在的負面問題。因此,大部分學者都認同危機的客觀存在并已達到刻不容緩的地步。(2)危機起因的多維度分析。主要包括缺乏原始數(shù)據(jù)共享,可疑研究操作、P值濫用、選擇性報告、糟糕實驗設(shè)計、自由度失控、樣本不足、技術(shù)偏見、數(shù)據(jù)可用性差、低效力研究、無法管理復雜數(shù)據(jù)集、認知偏差、報告不佳、出版偏倚等。(3)對策研究。危機形成的原因復雜深刻,涉及面廣泛,學者們從技術(shù)、機制、方法、環(huán)境等多元化角度探尋化解危機的策略,代表成果有構(gòu)建區(qū)塊鏈技術(shù)方案、改進學術(shù)激勵機制、引入人工智能成果評估技術(shù)、改進期刊研究指南、完善同行評審制度、改進統(tǒng)計方法、加強科學嚴謹性與可重復性教育等。
為科研服務是學術(shù)圖書館的中心任務,充分運用服務職能助力提升研究可重復性以解決危機成為了天然的職責和使命。Franklin Sayre[6]在回顧透明度和開放性促進(TOP)指南、美國統(tǒng)計協(xié)會(ASA)可重復性指南等內(nèi)容時指出,學術(shù)圖書館員應憑借在文獻檢索、文獻評估、系統(tǒng)綜述、學術(shù)交流、數(shù)據(jù)管理及對數(shù)據(jù)密集型研究方法支持等方面的豐富經(jīng)驗,在推動研究更具可重復性方面發(fā)揮重要作用。Stodden等[7]強調(diào)圖書館可通過協(xié)助研究人員制定完善的數(shù)據(jù)管理計劃、優(yōu)化數(shù)據(jù)存檔方案等手段,來支持其實現(xiàn)向開放與可重復研究文化的轉(zhuǎn)變。然而目前研究成果數(shù)量有限,內(nèi)容上仍處于服務思路構(gòu)想的初級階段,尚未建立系統(tǒng)的理論框架,也沒有形成可執(zhí)行的具體實施策略為實踐提供參考指導。
在數(shù)據(jù)密集型科研范式時代,數(shù)據(jù)成為現(xiàn)代科學發(fā)現(xiàn)的核心要素。研究成果能否經(jīng)受住重復性檢驗取決于數(shù)據(jù)的質(zhì)量。學術(shù)圖書館必須堅持用數(shù)據(jù)視野來透視可重復危機的本質(zhì);同時由于數(shù)據(jù)具有完整的生命周期屬性,還必須以系統(tǒng)化思維和方法,結(jié)合文獻內(nèi)容分析,利用現(xiàn)有的生命周期模型框架全面審視危機背后的數(shù)據(jù)因素,并立足于數(shù)據(jù)管理服務職能手段,通過重組優(yōu)化、重點布局,形成一個嶄新的、完整的服務策略體系。
2 科研數(shù)據(jù)生命周期
數(shù)據(jù)實踐活動與科學研究工作密切相關(guān),滲透進科研活動的各個環(huán)節(jié),科研活動經(jīng)過選題、計劃、立項、實施、出版、結(jié)題等一系列活動構(gòu)成了完整周期。因此,科研數(shù)據(jù)無論來自于哪種學科、以何種格式或載體存在,也都會體現(xiàn)出一定的循環(huán)過程,同樣具有生命周期的普遍特性。目前學界已提出多個理論模型對數(shù)據(jù)的生命周期進行解釋,如Data ONE研究數(shù)據(jù)生命周期模型、英國數(shù)據(jù)管理中心DDC模型、英國數(shù)據(jù)檔案館UKDA模型、美國地質(zhì)調(diào)查局USGS模型、ICPSR社會科學數(shù)據(jù)存檔生命周期模型等。通過對比整理這些模型核心要素,本文將科研數(shù)據(jù)生命周期劃分為數(shù)據(jù)規(guī)劃、數(shù)據(jù)收集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)存儲、數(shù)據(jù)出版、數(shù)據(jù)再利用7個階段。各階段數(shù)據(jù)實踐內(nèi)容如表1所示。
3 基于數(shù)據(jù)生命周期視角下的可重復危機數(shù)據(jù)因素
數(shù)據(jù)周期模型體現(xiàn)了數(shù)據(jù)實踐活動整體邏輯結(jié)構(gòu)、階段內(nèi)容與內(nèi)在價值聯(lián)系??芍貜托允菙?shù)據(jù)基于模型運行下的綜合作用結(jié)果,可以說貫穿于整個數(shù)據(jù)生命周期過程之中,在不同階段的不當實踐行為或管理失位都會誘發(fā)潛在風險;通過對現(xiàn)有文獻成果有關(guān)危機形成的各種因素的表述分析來看,其生成機制背后都有著數(shù)據(jù)因素推動或者體現(xiàn)出高度關(guān)聯(lián)性。
3.1 缺乏數(shù)據(jù)規(guī)劃與監(jiān)管
科研成果不可重復的直接原因是數(shù)據(jù)本身存在的缺失、混亂、虛假、錯誤等一系列問題,而未能對數(shù)據(jù)實踐全過程實施有效的計劃和監(jiān)管,維護數(shù)據(jù)應有的科學性、完整性和真實性,則是這些表象原因背后的深層原因。在尚無明確的規(guī)劃指引和相應的制度監(jiān)督約束背景下,科研人員在數(shù)據(jù)實踐進程中會明顯缺乏預判性和前瞻性,研究自由度變得很大甚至失去控制。研究自由度是指從生成假設(shè)、研究設(shè)計、分析處理數(shù)據(jù)和報告結(jié)果等研究過程中所體現(xiàn)的靈活性,表現(xiàn)為靈活擇取方法或者臨時決策行為[8]。通常情況下,由于缺乏精準定義的理論或者經(jīng)驗證據(jù),這些行為具備一定合理性,但同時也會帶來大量的隨機和不確定性,可能會影響數(shù)據(jù)的顯著性檢驗結(jié)果。例如,研究人員為了追求可供發(fā)表的陽性結(jié)果,會巧妙地利用自由度進行選擇性報告(selective reporting)、P值篡改(p-hacking)、已知結(jié)果后提出假設(shè)(HARKing)等各類可疑研究操作,夸大統(tǒng)計學效能以產(chǎn)生自己想要的預期結(jié)果,最終造成結(jié)果呈現(xiàn)假陽性的隱患大幅增加,其結(jié)論失真失實而難以復制。有研究估計,因濫用研究自由度而導致研究成果的假陽性率高達61%[9]。
3.2 數(shù)據(jù)收集方式不足
數(shù)據(jù)收集是數(shù)據(jù)生命周期的核心階段,即運用各種方法和渠道對研究所需的數(shù)據(jù)進行采集獲取,為數(shù)據(jù)分析奠定前提。數(shù)據(jù)收集方式?jīng)Q定數(shù)據(jù)質(zhì)量。而數(shù)據(jù)采樣則是眾多學科領(lǐng)域數(shù)據(jù)收集的最常見形式。在同等條件下數(shù)據(jù)樣本量越大,越更能代表總體,擴大了可能的數(shù)據(jù)范圍從而限制異常值或極端值的影響,提高統(tǒng)計效力和統(tǒng)計結(jié)果的精確性。
然而,多數(shù)學科研究普遍存在樣本量不足問題。在數(shù)據(jù)采樣模式上,研究人員更多采用小樣本而非大樣本進行研究,或從多個小樣本挑選陽性結(jié)果進行報告,直接損害了其分析結(jié)果作為證據(jù)的有效性。許多發(fā)現(xiàn)盡管具有統(tǒng)計學上的顯著意義,但其真實性存疑。此外,研究人員普遍缺乏盲法運用、樣本量估算和使用方便樣本等問題,數(shù)據(jù)收集質(zhì)量很難得到有效保證,容易造成誤導性的結(jié)論,進而影響研究潛在的可重復性。
3.3 數(shù)據(jù)揭示力度不夠
數(shù)據(jù)組織階段涉及活動廣泛,決定了數(shù)據(jù)分析、存儲、共享等活動效率。而科研活動日益復雜化、系統(tǒng)化,其數(shù)據(jù)實踐條件的復雜性,如異構(gòu)多源的原始實驗數(shù)據(jù)、測量參數(shù)、實驗設(shè)置、參與人員、軟件參數(shù)、方法、步驟和結(jié)果等信息,只有通過全面有效的組織揭示幫助科研人員予以全面把握,才有可能保證結(jié)果的可重現(xiàn)。
元數(shù)據(jù)是目前數(shù)據(jù)組織的最重要工具。創(chuàng)建元數(shù)據(jù)是確保數(shù)據(jù)公開、透明、可用和揭示完整研究過程的有力手段,對于重現(xiàn)已發(fā)表的結(jié)果非常重要。遺憾的是,當前科研文獻中普遍存在各類元數(shù)據(jù)不足的問題。一項針對不同學科的科學家調(diào)研顯示[10],75%的受訪者認為元數(shù)據(jù)可獲取性較差嚴重阻礙了他們嘗試重現(xiàn)他人結(jié)果的信心,而能夠獲得描述步驟型元數(shù)據(jù)僅有36%、設(shè)置型為38%、方法型為32%。同時,在創(chuàng)建元數(shù)據(jù)情況方面并不理想。為數(shù)據(jù)集增添合適的元數(shù)據(jù)或描述文檔以實現(xiàn)長期存儲與監(jiān)護,會額外增加科研人員的時間成本和精力,因此只有在完成既定科研任務或成果產(chǎn)出時才會得到重視[11];而已創(chuàng)建的元數(shù)據(jù)質(zhì)量也令人堪憂,在數(shù)據(jù)收集策略、處理來源,分析方法等細節(jié)普遍缺乏詳細描述,數(shù)據(jù)可用性差,不能供他人充分理解并進行研究有效性評估。
3.4 數(shù)據(jù)分析方法誤用
數(shù)據(jù)分析是指為了提取有用信息和形成結(jié)論,用適當?shù)慕y(tǒng)計分析方法對數(shù)據(jù)加以詳細分析概括總結(jié)的過程。分析結(jié)果的可靠性取決于統(tǒng)計分析方法的正確選擇使用和對結(jié)果的合理解釋,而實現(xiàn)這兩點必須有一定統(tǒng)計學知識為基礎(chǔ)。對于非統(tǒng)計學專業(yè)或基礎(chǔ)薄弱的科研人員在缺失教育的情況下極容易出現(xiàn)概念、原理理解上的偏差,導致p值濫用、不恰當?shù)靥幚懋惓V怠⒄`用非參數(shù)和參數(shù)檢驗、忽視統(tǒng)計獨立性等方法誤用問題[12],而這種情況卻在眾多學科中普遍存在。方法誤用的后果就是導致統(tǒng)計功效低下,p值喪失應有的統(tǒng)計學意義,分析結(jié)果偏離客觀事實,得出的研究結(jié)論不科學,后人能夠成功重復出來的可能性也就變得很低。
3.5 數(shù)據(jù)存儲基礎(chǔ)薄弱
數(shù)據(jù)存儲是以存儲庫為基礎(chǔ),通過保存、歸檔等形式實現(xiàn)數(shù)據(jù)的長期保存和利用的活動,能夠有效維護數(shù)據(jù)的安全性和完整性,提高數(shù)據(jù)可利用、可發(fā)現(xiàn)和可識別屬性,為數(shù)據(jù)公開共享和可重復利用創(chuàng)造前提。技術(shù)進步促使科研領(lǐng)域生成愈發(fā)廣泛、復雜的數(shù)據(jù)集,如果不能以標準化、規(guī)?;姆绞綄?shù)據(jù)進行存儲,就容易導致數(shù)據(jù)缺失、可讀性差等問題,降低數(shù)據(jù)共享和再利用水平。
目前,科研領(lǐng)域數(shù)據(jù)存儲基礎(chǔ)較為薄弱。一方面是可供公開訪問的數(shù)據(jù)存儲率較低。有學者對50種科學領(lǐng)域發(fā)表在頂級期刊的論文進行分析,發(fā)現(xiàn)其中只有9%的作者將完整的論文原始數(shù)據(jù)實現(xiàn)在線存儲[13]。即使很多頂級期刊制定了強制的數(shù)據(jù)共享政策,但依然無法改善這一現(xiàn)狀。另一方面數(shù)據(jù)存儲意愿低。即使多數(shù)研究機構(gòu)或主體認可數(shù)據(jù)存儲和共享對于研究的價值,但在缺乏存儲經(jīng)驗、基礎(chǔ)知識、產(chǎn)權(quán)保護,以及重視便利性忽略合理性的觀念驅(qū)使下,將數(shù)據(jù)保留在個人存儲設(shè)備不公開共享始終是科研人員的首選。
3.6 數(shù)據(jù)出版存在弊病
數(shù)據(jù)出版是數(shù)據(jù)實現(xiàn)共享的主要形式。在出版物和報告中披露數(shù)據(jù)分析過程、結(jié)果、各類決策和意圖等詳細信息,幫助后續(xù)研究者深入了解以便進行重復實驗。而現(xiàn)有的學術(shù)出版物普遍通過發(fā)布最終的代表性數(shù)字或數(shù)據(jù)集快照來展現(xiàn)結(jié)果,既沒有充分揭示如何生成這些數(shù)字和快照的原始數(shù)據(jù),也缺乏支持重復性驗證的關(guān)鍵信息。在某些競爭激烈的學科領(lǐng)域,數(shù)據(jù)甚至會被故意省略、模糊描述。即便很多研究人員或許從未偽造過數(shù)據(jù),但在“不發(fā)表即滅亡”的出版壓力下,也選擇省略了不支持研究假設(shè)的結(jié)果,或者拒絕披露負面數(shù)據(jù)。因此,當前數(shù)據(jù)出版方式與內(nèi)容的缺陷,使數(shù)據(jù)不適合重用、驗證和復制。
3.7 可重復驗證研究匱乏
可重復驗證研究就是對數(shù)據(jù)進行的重復性驗證分析,使其他研究人員能夠以現(xiàn)有研究為基礎(chǔ)提高方法和結(jié)果的可驗證性 ,在科學研究中形成自我校正的良性機制。對于提高自身及其同行研究成果的嚴謹性、可重復性和透明度至關(guān)重要。
可重復驗證研究的專業(yè)強度、技術(shù)難度、時間成本較高。檢驗一項他人研究成果的可重復性不僅要考慮原研究中所使用的分析工具、環(huán)境等是否變化因素,還需要雄厚的專業(yè)知識基礎(chǔ)才能理解原研究中的數(shù)據(jù)、數(shù)學模型和統(tǒng)計技術(shù),因此這些分析對于那些知識有限的人來說很難實現(xiàn)。大多數(shù)科研人員對此類研究只能望其項背;而且現(xiàn)有科研文化導向難以支持其實現(xiàn)普及化。當今科研體系鼓勵創(chuàng)新成果的快速發(fā)表,只有新發(fā)現(xiàn)才會獲得更多的關(guān)注與獎勵,而負面結(jié)果(例如未發(fā)現(xiàn)顯著相關(guān)性)則受到排斥。這種局面迫使研究人員將自身研究成果的重復驗證變成一種投機行為,淪為發(fā)表論文的手段而非檢驗科學的準則,即只有發(fā)現(xiàn)不符合預期的結(jié)果才對數(shù)據(jù)自查自審,得到預期結(jié)果(更多的是假陽性)則立即停止[14],無法保證研究成果客觀、準確、可靠。
4 基于數(shù)據(jù)生命周期的可重復性危機數(shù)據(jù)支持服務
4.1 指導思路
學術(shù)圖書館雖不是科研項目的主導者,但卻是科研數(shù)據(jù)的天然中介方與監(jiān)管者,憑借信息組織技術(shù)、專業(yè)人才、基礎(chǔ)設(shè)施、數(shù)據(jù)資源等優(yōu)勢,提供完善的科研數(shù)據(jù)管理與服務。通過協(xié)調(diào)數(shù)據(jù)管理中心、實驗室、科研管理部門、學術(shù)期刊、數(shù)據(jù)商等相關(guān)利益方促成廣泛合作,建立以學術(shù)圖書館為中心的服務共同體,利用資源建設(shè)、宣傳推廣,完善設(shè)施,交流協(xié)作、用戶教育等手段,對各階段的數(shù)據(jù)問題予以精準擊破,最終形成以提高科研可重復性為根本價值導向、覆蓋全周期的數(shù)據(jù)支持服務體系。
4.2 具體策略
4.2.1 數(shù)據(jù)預公開與規(guī)劃服務
可重復性始于規(guī)劃,而在科研項目啟動前編寫數(shù)據(jù)管理計劃(DMP)則有助于將規(guī)劃從構(gòu)想轉(zhuǎn)變?yōu)榫唧w方案,即在開展數(shù)據(jù)實踐之前將數(shù)據(jù)采集規(guī)則、分析方法、統(tǒng)計指標、相關(guān)測試、數(shù)據(jù)存儲等細節(jié),預先進行科學地論證分析和記錄,探索所有潛在的風險和后果,使數(shù)據(jù)實踐具備可預見性。
學術(shù)圖書館應以建立以DMP為核心的數(shù)據(jù)規(guī)劃服務。(1)協(xié)助科研人員加強DMP內(nèi)容建設(shè)與質(zhì)量控制。加大資源推廣力度,充分發(fā)揮各類學科的DMP標準模板、研究指南、預研究清單、政策文件等資源的指導性作用,幫助科研人員建立標準化與規(guī)范化的DMP,明確從數(shù)據(jù)設(shè)計、執(zhí)行和解釋等各環(huán)節(jié)操作所需的量化指標和具體要求,并以此為基準開展后續(xù)的數(shù)據(jù)實踐,確保在真實、可控的軌道上進行,減少數(shù)據(jù)欺詐、偽造等行為以便獲得可重復結(jié)果。(2)積極開展預注冊服務,推動DMP預公開和透明化。數(shù)據(jù)管理規(guī)劃存在霍桑效應,即研究人員在意識到他們的研究方案將被公眾審查時,會主動加強對研究方案的自我審查力度[15]。如果能實現(xiàn)數(shù)據(jù)規(guī)劃的公開透明,將有助于研究人員把注意力集中到方法改良和確保成果真實有效上來。預注冊是實現(xiàn)這一目標的有效途徑,它促使科研人員在開始科研項目啟動之前,在平臺提前注冊并公開研究設(shè)計,數(shù)據(jù)假設(shè)、DMP等內(nèi)容,利用平臺的公共監(jiān)督功能,最大程度減少研究自由度、區(qū)分假設(shè)探索性研究與假設(shè)檢驗研究,具備科研過程監(jiān)督的價值屬性。因此學術(shù)圖書館應積極引入技術(shù)平臺,開展引導和咨詢服務,幫助科研人員增強預注冊的價值感知、積極踐行預注冊行為,使數(shù)據(jù)實踐的全過程都能得到有效監(jiān)督,避免各類可疑的研究操作,有序?qū)崿F(xiàn)計劃預期的客觀數(shù)據(jù)成果。
4.2.2 數(shù)據(jù)高質(zhì)量采集服務
學術(shù)圖書館應以幫助科研人員最大程度提高數(shù)據(jù)采樣數(shù)量和質(zhì)量,降低低樣本量對研究的不利影響為目標,開展數(shù)據(jù)搜集服務。(1)數(shù)據(jù)資源獲取服務。加大科研數(shù)據(jù)資源建設(shè),如各類實驗、統(tǒng)計、模擬、觀察類數(shù)據(jù)庫購買整合力度,拓展第三方數(shù)據(jù)獲取渠道,夯實科研項目所需的數(shù)據(jù)基礎(chǔ)。(2)數(shù)據(jù)采樣協(xié)助服務。發(fā)揮學術(shù)圖書館的學術(shù)聯(lián)絡優(yōu)勢,協(xié)調(diào)各研究團體之間開展合作,克服研究個體在數(shù)據(jù)搜集過程中的有限性與局限性,建立以圖書館為中心的的分布式協(xié)作數(shù)據(jù)采集網(wǎng)絡,為更大規(guī)模、更高性能的數(shù)據(jù)采樣創(chuàng)造條件。(3)開展元分析服務。元分析是通過統(tǒng)計方法對大量的相似研究進行量化評價并得出綜合性結(jié)論的方法[16],不僅有效擴大樣本量,提高統(tǒng)計檢驗力,還可以縮小置信區(qū)間的范圍,使對總體效應量的估計更加精確。在醫(yī)學、社會科學、教育科學、心理科學等領(lǐng)域得到普遍應用。圖書館員或?qū)W科館員可憑豐富的文獻檢索經(jīng)驗介入科研團隊,幫助研究人員改善檢索策略,使用明確系統(tǒng)的方法,最大限度地減少偏見,產(chǎn)生更可靠的元分析結(jié)果,為決策提供信息并創(chuàng)建可重復的研究。(4)方法指南服務。通過學科指南建設(shè)提供數(shù)據(jù)收集方法的專業(yè)指導,提高數(shù)據(jù)采樣的規(guī)范性和科學性。例如布朗大學學術(shù)圖書館就生物醫(yī)學領(lǐng)域的數(shù)據(jù)、圖像、定量免疫印跡等采集方法進行匯總并提供資源引薦。
4.2.3 元數(shù)據(jù)開發(fā)與咨詢服務
在數(shù)據(jù)組織階段,必須發(fā)揮元數(shù)據(jù)的重現(xiàn)功能,充分揭示數(shù)據(jù)要素和研究過程,實現(xiàn)研究透明化。為此學術(shù)圖書館應做好:(1)元數(shù)據(jù)模型開發(fā)與應用服務。通過加強對外合作,以實現(xiàn)可重復需求為中心積極研發(fā)并推廣全新的科研元數(shù)據(jù)模型,協(xié)助科研人員全方位提高數(shù)據(jù)可識別程度和解釋能力。例如芝加哥大學學術(shù)圖書館與分子工程研究所共同開發(fā)的再現(xiàn)性科學論文監(jiān)護與探索系統(tǒng)(Qresp)[17],用以指導研究人員在創(chuàng)建科學論文時,對使用的數(shù)據(jù)集、腳本、工具和筆記本之間關(guān)系的過程進行可視化記錄,實現(xiàn)研究數(shù)據(jù)—元數(shù)據(jù),擴展到個人數(shù)據(jù)文件—密集大數(shù)據(jù)環(huán)境的全方位揭示維度,建立數(shù)據(jù)與數(shù)據(jù)來源之間的關(guān)系,通過鏈接將研究中的所有數(shù)據(jù)信息得以集中,便于輸出引用和重復性使用。(2)元數(shù)據(jù)指導咨詢服務。采取開設(shè)微課程、微視頻、文本指南等多元途徑宣講元數(shù)據(jù)標準、元數(shù)據(jù)政策等,提高科研人員元數(shù)據(jù)構(gòu)建意識,并在元數(shù)據(jù)規(guī)范化操作規(guī)則指引下,正確記錄研究流程,揭示上下文信息、有關(guān)設(shè)備、協(xié)議、數(shù)據(jù)處理或?qū)嶒炇覘l件的細節(jié),確??茖W記錄的可靠性并提高研究過程的透明度。同時,積極推廣實驗室電子筆記本(ELN)、版本控制(Git)等技術(shù)工具,以工具為載體實現(xiàn)元數(shù)據(jù)記錄自動化,減少時間成本和精力。
4.2.4 統(tǒng)計培訓與協(xié)作服務
為夯實研究人員的統(tǒng)計學基礎(chǔ),使數(shù)據(jù)分析結(jié)果的可靠性得到有效保證,學術(shù)圖書館可開展:(1)學科統(tǒng)計培訓。定期舉辦短期培訓、學術(shù)報告或公開演講,邀請學科資深人士、統(tǒng)計學專家或第三方專業(yè)統(tǒng)計咨詢機構(gòu)開展基于學科的統(tǒng)計培訓,對本學科研究適用的統(tǒng)計學原理、常用統(tǒng)計方法、統(tǒng)計分析計劃、使用規(guī)則、常見誤區(qū)等給予及時指導,積極引領(lǐng)其他學者對該問題的重視及修正。(2)統(tǒng)計協(xié)作支持服務。如圖書館要通過多種協(xié)作手段介入來滿足數(shù)據(jù)分析過程中的各類需求。重點應包括①技術(shù)需求。杜蘭大學圖書館注重與校外統(tǒng)計顧問、統(tǒng)計公司的合作,運用來自NC3R的實驗設(shè)計助理(EDA,Experimental Design Assistant)為研究人員提供統(tǒng)計方法推薦,隨機化和盲法支持、樣本量計算等服務,助力設(shè)計更能產(chǎn)出可靠和可重復結(jié)果的穩(wěn)健實驗。②預估需求。如佛蒙特大學圖書館針對本校學生、博士后和科研人員,建立統(tǒng)計分析需求自檢清單,要求在數(shù)據(jù)分析之前進行自我評估,根據(jù)評估結(jié)果提供統(tǒng)計指標解讀、分析結(jié)果解釋等一系列對應的信息支持,保證統(tǒng)計分析方法使用的正確性。③資源需求。對涉及各學科的統(tǒng)計學相關(guān)教材、期刊、會議、報告、數(shù)據(jù)庫等文獻資源集中予以整合,建立專題書庫或數(shù)據(jù)庫,通過一站式檢索及時獲得最新最全的統(tǒng)計學指導資源。
4.2.5 立體多維式數(shù)據(jù)存儲服務
實現(xiàn)研究可重復的關(guān)鍵是要確保數(shù)據(jù)的完整性和開放性,而這依賴于數(shù)據(jù)存儲力度和存儲質(zhì)量。作為數(shù)據(jù)存儲的重要承擔機構(gòu),學術(shù)圖書館應繼續(xù)創(chuàng)新存儲服務,不斷提高自身在科研數(shù)據(jù)存儲應有的價值和地位,助力科研界改善數(shù)據(jù)存儲基礎(chǔ)薄弱的局面。服務創(chuàng)新的落腳點在:(1)加強各類存儲庫建設(shè)。通過依托機構(gòu)知識庫改造、第三方商業(yè)庫(如Dryad、Zenodo、Figshare、protocols.io等)、開源數(shù)據(jù)存儲平臺(如開放科學框架OSF)引入以及自籌自建的方式健全數(shù)據(jù)存儲體系,協(xié)助科研人員與管理者能夠?qū)⒖蒲腥^程中所涉及到的所有數(shù)據(jù),如原始數(shù)據(jù)集,軟件、研究代碼、分析腳本、研究協(xié)議、實驗記錄、工作流程、文檔注釋和元數(shù)據(jù)等都視為不可或缺的整體,實現(xiàn)全方位、全過程存儲,以獨立方式保存高度完整,并能通過DOI鏈接增強與出版物的引用,支持預印本服務器、實驗室筆記本、版本控制軟件等研究工具的數(shù)據(jù)共享,支持在開放、協(xié)作互動討論中來提高研究的可重復性。(2)建立學科導航。學術(shù)圖書館應積極按照學科門類整合各類存儲庫資源,提供索引與指南以滿足差異化、精細化的學科數(shù)據(jù)存儲需求。如歐美國家的學術(shù)圖書館都提供re3data、FAIRsharing等門戶信息或搜索引擎,幫助不同專業(yè)學科科研人員快速查找和鎖定存儲范圍,實現(xiàn)精準有效的存儲。(3)存儲標準化引導。加大數(shù)據(jù)存儲標準格式的宣傳和解釋力度,引導研究人員更多地采用“研究綱要”模式[18],按照一定的邏輯標準且易于識別的方式來儲存研究項目的數(shù)據(jù)材料,使其他研究人員能夠進行有效審查、復制和其他擴展研究。
4.2.6 數(shù)據(jù)獨立與開放出版服務
實現(xiàn)可重復就意味著數(shù)據(jù)應保持其最初的豐富性,不應為了解釋某一特定出版物中的發(fā)現(xiàn)而降低內(nèi)容屬性[19]。學術(shù)圖書館必須堅持以提高數(shù)據(jù)披露程度和開放性為目的,綜合運用多種服務手段積極介入出版進程,優(yōu)化數(shù)據(jù)出版環(huán)境,提高科研人員數(shù)據(jù)出版意識。舉措有:(1)數(shù)據(jù)出版資源建設(shè)。積極與學術(shù)期刊、數(shù)據(jù)庫商展開對話合作,加大數(shù)據(jù)期刊購入力度,建立研究項目的數(shù)據(jù)關(guān)聯(lián)出版服務。如愛荷華州立大學圖書館為推動數(shù)據(jù)獨立出版行為,提供專門發(fā)表數(shù)據(jù)論文的期刊資源導航。鼓勵科研用戶采用數(shù)據(jù)論文的形式,通過文檔描述的數(shù)據(jù)集,數(shù)據(jù)庫或數(shù)據(jù)包,描述數(shù)據(jù)及其收集的情況,與研究文章一起發(fā)表。(2)數(shù)據(jù)出版咨詢服務。加強對于學術(shù)期刊的數(shù)據(jù)出版政策、出版指南、可重復性研究指南的追蹤與解讀,形成咨詢報告在論文即將發(fā)表、數(shù)據(jù)出版之際進行推送,協(xié)助科研人員清晰地掌握數(shù)據(jù)出版標準,采取更科學的表述,盡可能排除存在偏差的數(shù)據(jù)操作,確保數(shù)據(jù)內(nèi)容得以真實、有效和可重復利用狀態(tài)呈現(xiàn)。(3)預印本服務。加強對以預印本為核心的OA學術(shù)出版資源揭示力度,如哈佛大學Countway圖書館開辟信息專欄介紹預印本的科普知識問題答疑、政策查詢、服務器資源索引等。同時提供預印本-后印本平臺托管服務,使研究人員能利用平臺對各類科研項目所產(chǎn)出的所有數(shù)據(jù)成果進行無限制訪問,并提高以預印本作為主流出版方式的認可程度,實現(xiàn)公開透明的發(fā)布、共享、討論和評估數(shù)據(jù)成果,同時提高對于一些負面或無效數(shù)據(jù)結(jié)果的包容性,克服發(fā)表偏倚帶來的消極影響。
4.2.7 可重復驗證全面支持服務
可重復驗證研究作為科研進程的有益補充,其價值重要性不言而喻。要真正在廣大科研群體之間實現(xiàn)可重復驗證研究的普及,使可重復性分析、對無效結(jié)果的發(fā)掘成為研究項目自我糾正的常態(tài)化機制,就需要對其提供全方位服務支持,激發(fā)研究動力,促進研究交流、降低研究成本,為研究創(chuàng)造空間、技術(shù)、硬件環(huán)境。學術(shù)圖書館對此可提供:(1)學術(shù)交流服務。要真正促使科研主體將可重復這一黃金準則內(nèi)化成自身科研行為標準,就必須強化對可重復驗證研究的宣傳力度,促成理念方法的廣泛認同。借助空間場域、學科聯(lián)絡、活動組織優(yōu)勢打造可重復驗證研究交流平臺。定期開展學術(shù)研討,圓桌會議、競賽交流等活動,如南安普敦大學學術(shù)圖書館的ReproducibiliTea 每周例會討論、萊登大學學術(shù)圖書館的可重復黑客馬拉松(ReproHack)活動,都極大提高了參與者對此研究的認知和參與程度。(2)信息門戶服務。通過匯總各類資源建立研究指南,揭示和報道可重復研究的基本概念、流程方法、最佳實踐、工具與資源索引。目前,北美地區(qū)很多學術(shù)圖書館都開辟了研究門戶并且關(guān)聯(lián)培訓、新聞動態(tài)信息,以達到推廣普及的效果。(3)數(shù)據(jù)開放許可服務。確保可重復驗證研究合法合規(guī)開展的前提是必須有明確的數(shù)據(jù)許可或使用協(xié)議作擔保。學術(shù)圖書館應聯(lián)合知識產(chǎn)權(quán)部門,提供數(shù)據(jù)開放許可協(xié)議的渠道和資源。普林斯頓大學圖書館科研數(shù)據(jù)管理中心強調(diào)在重用現(xiàn)有數(shù)據(jù)時必須明確獲得所有權(quán)的許可,并要求了解許可證設(shè)置的限制,以便于數(shù)據(jù)正確使用、減少數(shù)據(jù)的錯誤假設(shè)導致無效分析。(4)驗證平臺服務??芍貜万炞C的技術(shù)難點在于實現(xiàn)研究數(shù)據(jù)和環(huán)境的可移植性。學術(shù)圖書館應加快利用Docker、code ocean、GitHub等可重復性云計算平臺構(gòu)筑一站式在線數(shù)據(jù)驗證和實習空間,方面科研人員將研究產(chǎn)出如代碼、數(shù)據(jù)和計算執(zhí)行環(huán)境、配置信息等打包到一個“膠囊”中并提供DOI,使多方主體都能實現(xiàn)獲取并直接開啟驗證。同時,圍繞平臺建立配套的教育課程,邀請專業(yè)人員定期組織培訓教學。
5 結(jié)語
解決可重復危機問題刻不容緩。學術(shù)圖書館以科研數(shù)據(jù)管理基礎(chǔ)與服務職能優(yōu)勢自然成為應對危機的有力支持者?;跀?shù)據(jù)生命周期視角解構(gòu)危機并建立全新服務框架,既為新形勢下數(shù)據(jù)管理服務轉(zhuǎn)型提供新思路,也體現(xiàn)出學術(shù)圖書館在順應變革中推動科研進步的應有之義。
參考文獻:
NationalAcademies| R&R.pdf [EB/OL].[2023-03-18].https://nap.nationalacademies.org/resource/25303/R&R.pdf.
BAKER M. 1,500 scientists lift the lid on reproducibility[J]. Nature:International weekly journal of science, 2016, 533(7604): 452-455.
IOANNIDIS J P A. Why most published research findings are false[J]. PLoS medicine, 2005,2(8): 696-701.
FANELLI D. Is science really facing a reproducibility?crisis, and do we need it to?[J]. Proceedings of the National Academy of Sciences, 2018, 115(11): 2628-2631.
OSF | Reproducibility Project: Psychology[EB/OL].[2023-03-10].https://osf.io/ezcuj/.
SAYRE F, RIEGELMAN A. The reproducibility crisis and academic libraries[J]. College and Research Libraries, 2018, 79(1): 2-9.
STODDEN V, BORWEIN J, BAILEY D H. Setting the default to reproducible[J]. Computational science research. SIAM News, 2013, 46(5): 4-6.
EPSKAMP S. Reproducibility and replicability in a fast-paced methodological world[J]. Advances in Methods and Practices in Psychological Science, 2019, 2(2): 145-155.
LARAWAY S, SNYCERSKI S, PRADHAN S, et al. An overview of scientific reproducibility: consideration of relevant issues for behavior science/analysis[J]. Perspectives on Behavior Science, 2019, 42: 33-57.
SAMUEL S, K?NIG-RIES B. Understanding experiments and research practices for reproducibility: an exploratory study[J]. PeerJ, 2021, 9: e11140.
黃鑫,鄧仲華.國外高校學術(shù)圖書館科學數(shù)據(jù)的元數(shù)據(jù)服務研究[J].圖書與情報,2017(2):84-90.
LINDSEY M L, BOLLI R, CANTY Jr J M, et al. Guidelines for experimental models of myocardial ischemia and infarction[J]. American Journal of Physiology-Heart and Circulatory Physiology, 2018, 314(4): 812-838.
ALSHEIKH-ALI A A, QURESHI W, AL-MALLAH M H, et al. Public availability of published research data in high-impact journals[J]. PLOS ONE, 2011, 6(9): 1-4.
劉佳,霍涌泉,陳文博,等.心理學研究的可重復性“危機”:一些積極應對策略[J].心理學探新,2018,38(1):86-90.
MUNAF? M. Open science and research reproducibility[J]. ecancermedicalscience, 2016, 10.
張力為,彭凡.體育科學如何應對可重復性危機?[J].體育學研究,2021,35(6):1-11.
Scientific reproducibility, data management, and inspiration [EB/OL].[2023-03-03].https://www.lib.uchicago.edu/about/news/scientific-reproducibility-data-management-and-inspiration.
ALSTON J M, RICK J A. A beginners guide to conducting reproducible research[J]. Bulletin of the Ecological Society of America, 2021,102(2): 1-14.
The FAIR data principles[EB/OL].[2022-03-21].https://www.ands.org.au/working-with-data/fairdata.
孔祥輝 錦州醫(yī)科大學圖書館館員。 遼寧錦州,121000。
王乙竹 錦州醫(yī)科大學人文與健康管理學院講師。遼寧錦州,121000。
(收稿日期:2022-12-29 編校:陳安琪,謝艷秋)