付少雄,陳曉宇,趙海平,趙安琪
2018年4月,國務院辦公廳印發(fā)《科學數據管理辦法》,強調規(guī)范與加強科學數據管理(Scientific Data Management,SDM),確??茖W數據安全,提升共享開放水平,以保障國家科技創(chuàng)新、社會經濟發(fā)展及國家安全[1]??茖W數據是指在科技活動中或采取其它方法得到的體現客觀世界本質特征、變化規(guī)律等方面的基礎原始數據,以及依據科學研究需要,系統(tǒng)整理加工生成的各類數據集[2]。科學研究在歷經經驗科學范式、理論科學范式與計算科學范式后,已進入數據密集型科學范式,即通過數據驅動科學研究[3]。在此階段,科學數據既是重要的科學產物,也是助推新一輪科學研究的基礎。
高校是科學數據的主要利用者,也是科學數據的主要來源之一。高校圖書館作為高校科研服務部門,負責科學數據的存儲、共享、咨詢與利用等[4]。我國高校科學數據管理尚處于起步階段,僅北京大學、復旦大學、武漢大學等少數高校建有科學數據服務平臺[4],因此有必要借鑒國外高校科學數據管理經驗。雖然有學者對美國、英國、加拿大、澳大利亞等國家高校的科學管理實踐進行探究[2][4-7],但缺乏針對亞洲高??茖W數據管理實踐體系的研究。
亞洲部分著名高校已建立科學數據庫,通過科學數據管理促進數據的共享與利用,其中新加坡的科學數據管理走在亞洲高校前列。新加坡國立大學(National University of Singapore,NUS)、南洋理工大學(Nanyang Technological University,NTU)和新加坡管理大學(Singapore Management University,SMU)建有完整的科學數據管理實踐體系。新加坡擁有先進的高等教育,NUS與NTU皆為世界頂尖大學,SMU擁有世界一流社會科學與商科,是國際信息學院聯盟(iSchools)高校;新加坡也是一個以華人占主體族群的國度,與我國有著高度的文化相似性[8],其科學數據管理經驗可為我國提供借鑒。新加坡政府重視科學數據管理,其經濟發(fā)展局強調數據是流通的貨幣,要將新加坡打造成全球數據管理中心,因而構建了官方數據共享平臺[9],頒布了《個人資料保護法》(Personal Data Projection Act,PDPA)[10]。當前雖然有新加坡高校圖書館科學數據服務的研究,但并未從管理模式、政策及宣傳等角度完整闡述新加坡整個科學數據管理實踐體系[11]。我國少有高校建立起完整的科學數據管理體系,亟需從整體上分析國外高校的科學數據實踐體系。本文采用實地考察與網絡調研的方法,通過對新加坡高校學科館員的咨詢、科研工作者的訪談,從科學數據管理模式、管理政策、管理平臺、管理宣傳四方面對新加坡高校的科學數據管理實踐體系進行分析,為我國高校科學數據管理工作提供借鑒。
新加坡高??茖W數據管理機構主要由圖書館負責,NUS、NTU和SMU圖書館共同開發(fā)科學數據管理指南,用于支持研究人員管理研究中產生的科學數據,或分享科學數據[12]。新加坡高校圖書館建有專門辦公室負責科學數據管理,NTU由圖書館中的信息、知識和圖書館服務辦公室(Office of Information,Knowledge&Library Services)負責,NUS和SMU由圖書館中的機構知識庫管理部門負責,主要維護研究數據庫開放式訪問,負責整個科學數據生命周期管理、科學數據管理計劃編寫、科學數據管理最佳實踐評選。
新加坡高??茖W數據管理的相關人員與單位具有共同點,主要包括首席研究員(Principal Investigators,PI)、院校、研究支持部門、圖書館和信息技術部門,主要職責見表1。高校擁有數據的所有權,包括數據保留、處理、存儲和共享的權利。在數據保留上,要求所有研究數據必須在規(guī)定期限內保留在高校的設備或數據庫中,且高校有責任保護生命周期內數據的完整性;在數據處理上,數據的修改、轉移或銷毀需由高校與PI共同決議;在數據存儲上,最終研究數據必須在文章發(fā)表之前存儲于高校數據倉或公認的開放獲取數據存儲庫中;在數據共享上,除非有特殊協(xié)議,否則來自高校的最終研究數據將用于非商業(yè)目的的共享。
通過對新加坡高??茖W數據管理流程的提煉,科學數據、科學數據管理計劃(Scientific Data Management Plan,SDMP)及相關單位三者之間的關系見圖1。SDMP由PI生成,實現對數據的管理、利用和共享,同時與數據一起提交至高校數據庫。相關單位擁有數據保留、開放、存儲和共享的權利,負責對SDMP進行存儲、支持和監(jiān)督。
表1 新加坡高??茖W數據管理人員及單位的職責
圖1 科學數據、科學數據管理計劃及相關單位之間的關系
三所高校圖書館為科學數據管理制定了目標與原則。目標包括提供公開數據的一站式訪問、提供數據可視化及文章數據的分析、通過應用程序開發(fā)創(chuàng)造價值、便于數據的分析和研究;原則包括數據應易于訪問、應可用于共同創(chuàng)作、應及時發(fā)布、應以機器可讀格式共享、應盡可能原始。筆者對三所高校圖書館的科學數據管理服務項目進行調研,發(fā)現皆建有完備的科學數據管理服務實踐體系,涵蓋科學數據管理介紹與指南、科學數據管理參考咨詢、科學數據存儲、科學數據獲取與共享。
高校是科學研究的主要場所,科學數據是高校研究的重要組成部分[13]。學術人員在科研活動中產生的科學數據內容廣泛、類型多樣,實施數據管理的過程繁瑣,因此制定完善的數據管理政策是實施科學數據管理的首要步驟[14-15]。新加坡高校的科學數據管理政策涵蓋數據的收集、組織、管理、存儲、安全、保存和共享等從產生到利用的各個環(huán)節(jié),并闡明了科學數據管理的法律規(guī)范、道德準則、資金支持及監(jiān)管情況,為高??茖W數據管理的可持續(xù)發(fā)展提供支持。
新加坡高校的科學數據管理政策規(guī)定了科學數據管理的主要原則、適用范圍和實施方案等。主要原則用于指導研究人員正確管理或公開分享研究中產生的數據,確保科學數據管理方式的系統(tǒng)和全面,確保數據的完整性、長期可用性和開放性。適用范圍涵蓋大學教師、研究人員、學生和其他人員,包括顧問、訪問學者以及參與學校項目的所有研究人員[14][16-17]。實施方案的內容主要包括科學數據管理范圍、計劃及標準。
(1)科學數據管理范圍(Scientific Data Management Scope)。管理范圍對數據的類型、定義和所有權做出規(guī)定。它包括三種類型的數據:①研究數據(Research Data),是指在整個項目研究過程中收集、觀察、生成、創(chuàng)建和獲取的任何格式或形式的數據,包括由研究人員記錄的、設備產生的、模型模擬得出的數字、描述性、聽覺、視覺或物理形式的數據;②最終研究數據(Final Research Data),是指在數據生命周期的最后階段,當研究人員對數據的所有處理和操作都已停止時的最終版數據集合;③元數據(Metadata),是指為了描述、管理、驗證和發(fā)現研究數據而提供的一組信息或事實。管理政策規(guī)定高校擁有其贊助的研究項目產生的所有研究數據;在與其他機構合作的項目中,亦明確高校對研究數據的所有權。為了便于開放和共享,鼓勵研究人員將數據以數字格式進行存儲。
(2)科學數據管理計劃(Scientific Data Management Plan,SDMP)。這是所有研究項目都必須提交的一份文件,描述研究項目收集、處理或生成數據集的數據管理生命周期;概述在項目完成期間和之后將如何處理研究數據,哪些數據將被共享或公開,以及如何進行策劃和保存等問題;它還包括研究項目的法律、道德和商業(yè)限制。高校要求研究人員定期更新數據管理計劃,并確保項目結束時所有研究成果均在其數據管理計劃中予以說明。
(3)科學數據管理標準(Scientific Data Management Standard)。用戶應在各自的學校/研究中心創(chuàng)建一個子數據集,并對其進行個性化定制,使子數據集便于使用;構建高質量的數據集檢索、記錄和共享標準,以確保數據集的可見性和可重用性。比如,給每個項目分配統(tǒng)一標識符,為每個數據集匹配通用數字指紋,以確??茖W數據的可辨識度,提升科學數據的利用率。新加坡高校的科學數據管理標準見表2。
表2 新加坡高??茖W數據管理標準
三所高校皆建有科學數據管理平臺,分別為NUS的機構知識庫Scholar Bank@NUS(http://libguides.nus.edu.sg/rdm)、SMU的機構知識庫InK@SMU(http://libguides.nus.edu.sg/rdm)、NTU基于Dataverse開發(fā)的DR NTU(http://libguides.nus.edu.sg/rdm)。
新加坡高??茖W數據管理平臺組織架構見圖2??茖W數據管理系統(tǒng)下設子系統(tǒng),子系統(tǒng)主要通過在系統(tǒng)中嵌套或創(chuàng)建數據構建,可為研究工作者、研究中心、研究項目等構建子數據集。子數據集涉及科學數據文檔及描述性元數據等,具體包含代碼、自述等用于提升數據利用率的文檔。在科學數據管理組織架構的子系統(tǒng)中,亦可嵌套或創(chuàng)建下一層級的子系統(tǒng)。不同學科下設不同子系統(tǒng),如生物和生命科學建有蛋白質數據管理子系統(tǒng)(Protein DataBank,PDB)[18],化學設有劍橋結構數據庫(Cambridge StructuralDatabase,CSD)[19]。
圖2 科學數據管理平臺組織架構
三所高校管理平臺的服務具有差異性,NUS與SMU主要通過機構知識庫擴展科學數據管理功能,而NTU則在開源軟件Dataverse的基礎上構建數據存儲庫。Dataverse是哈佛大學定量社會科學研究所(Harvard Institute for Quantitative Social Science,IQSS)開發(fā)的科學數據管理平臺。相較于機構知識庫,Dataverse軟件架構更合理、功能更豐富,北京大學、復旦大學皆采用Dataverse構建科學數據管理平臺。因此,本文著重探究NTU的DR-NTU(Data)。
(1)ScholarBank@NUS。除提供數據管理計劃、數據記錄、數據發(fā)布、數據共享、數據查詢與運用、最佳實踐等科學數據管理常規(guī)服務,NUS數據管理平臺ScholarBank@NUS于2017年11月開始為校內人員提供數據存儲服務。校內人員(包括教職工、學生、行政人員等)的數據必須存儲在ScholarBank@NUS,且離校時不能共享或帶走校內數據。ScholarBank@NUS為師生提供項目數據DOI創(chuàng)建服務(DOI Minting Service)。創(chuàng)建項目DOI必須滿足以下條件:為NUS內部學術項目;提供永久在線訪問的URL;標注項目的資源類型、標題/名稱、創(chuàng)作者、出版/可用日期、主題及出版者[20]。ScholarBank@NUS還提供科學數據管理在線培訓與研討會鏈接,既有NUS圖書館自行開發(fā)的在線培訓項目,也包括英國數據檔案(UKData Archive)、俄勒岡州立大學(Oregon State University)等經典科學數據管理在線培訓課程。
(2)InK@SMU。SMU數據管理平臺InK@SMU的服務包括數據檢索、數據管理計劃、數據可視化分析、數據出版和引用、數據安全維護等。數據管理計劃提供的模板有Data Management Plans(Data Conservancy)、SDMP Checklist(Monash University)等;數據可視化分析工具包含 Crowdmap、Gephi、OpenRefine、NodeXL等;數據檢索界面提供數據管理指南,而且數據可按數據小組、數據所屬學科、數據類型、數據提供者,以及字母順序(A-Z)進行檢索。InK@SMU還將數據按照公司數據、國家數據、人口統(tǒng)計數據、經濟數據、財務數據、行業(yè)數據、營銷數據與用戶數據進行分類。InK@SMU中的數據集分為有條件訪問與公開訪問兩類,有條件訪問的數據集需要從SMU各學院、中心和機構中訂閱/購買。SMU圖書館配備有專門的圖書館員對科學數據管理服務提供指引。
(3)DR-NTU(Data)。NTU的數據管理平臺DRNTU(Data)基于Dataverse開發(fā),Dataverse通過數據管理計劃、數據導入、數據處理、數據發(fā)現、數據保存與訪問構成完整的數據管理閉環(huán)。Dataverse能夠用于共享、保存、引用和分析數據,有助于數據的共享與進一步利用[21-22]。研究人員、數據作者、出版商、數據分銷商,以及研究機構等均可通過Dataverse共享與利用數據,從而獲得學術信用和網絡知名度。相較于高校開源軟件——美國康乃爾大學(Cornell University)的Fedora Commons[23]、美國麻省理工學院(Massachusetts Institute of Technology,MIT)的DSpace[24],以及商業(yè)軟件,如挪威社會科學數據服務中心(Norwegian Centre for Research Data,NSD)的 Nesstar[25],Dataverse 的功能更加豐富全面,包括用戶評論、數據可視化、數據模板定制、數據在線分析、數據版本管理、數據格式自動切換、靈活的數據歸組分析、文獻與數據的融合、數據引證等。區(qū)別于Fedora Commons與DSpace采用的都柏林核心集標準(Dublin Core Element Set,DC),Dataverse 使用社會科學元數據標準(Data Documentation Initiative,DDI)。DDI適用于系統(tǒng)的科學數據管理,能從宏觀與微觀角度對科學數據進行描述,具有較強的可拓展性,而DC不能運用于指向性較強的數據檢索,對于科學數據而言局限性較高。
三所高校的科學數據組織方式主要包括:①數據來源分為院系、研究人員、研究項目、研究團隊、實驗室;②發(fā)布日期按年份分類;③作者姓名按具體研究人員分類;④學科分為社會科學、醫(yī)學健康與生命科學、計算機與信息科學、工程學、藝術與人文學、物理學、商業(yè)與管理,以及其它學科;⑤數據種類分為開放教育資源(Open Educational Resource, OER)、 MATLAB.mat文件、腦成像數據、實驗數據、元數據/鏡像、源代碼、Matlab代碼,以及待完善的數據等;⑥數據類型分為文本(Text)、壓縮包、文檔(Document)、視頻、圖像、應用程序、表格,以及其它類型等;⑦文件標簽(File Tag)可由數據作者進行個性化標記;⑧可訪問性(Accessibility)分為公眾可訪問與限制訪問。為提升科學數據的利用率,新加坡高校構建了完整的科學數據服務流程,采用鏈接的方式實現出版物(期刊、著作等)數據庫、校內數據存儲庫與校外開放獲取數據存儲庫間的完整閉環(huán)。在出版物檢索界面底端提供支撐出版物研究的數據獲取鏈接,在導入校內數據存儲庫界面后可獲取相應研究數據;同時提供校外開放獲取數據存儲庫鏈接,如DRYAD、GitHub、 figshare、 Bitbucket、 PANGAEA、DAUWELS LAB。
各國政府和機構倡導公開獲取科學數據,指出開放獲取可帶來顯著的經濟社會效益。但研究發(fā)現,研究人員對數據的開放存取存在擔憂,通常缺乏對數據公開使用和訪問要求的理解,高校科研數據管理機構應對其加強培訓和宣傳力度,促使科學數據管理的愿景成為現實[26]。NTU調研發(fā)現,87.5%研究人員尚未使用本??茖W數據庫,31.7%出于學??茖W數據分享要求才共享科學數據[27]??梢姡麄饕殉蔀橥苿涌茖W數據管理的關鍵環(huán)節(jié),也是當前高校科學數據管理工作最薄弱的環(huán)節(jié)。通過對館員和學生的實地走訪發(fā)現,新加坡三所高校的科學數據管理宣傳形式和內容各具特色,具體如表3所示。
表3 新加坡高校的科學數據管理宣傳
新加坡高校形成了“校方頂層設計——學院中層推廣——師生底層實施”的宣傳體系。新加坡高校的科學數據管理宣傳頻率較高,每學期約3-4次。采用線上與線下相結合的方式宣傳科學數據管理,線上主要通過郵件、在線培訓課程等,線下包含講座、海報展、研討會等??傮w而言,新加坡高校的科學數據管理宣傳策略主要從意識和實踐兩個層面展開。
(1)意識層面,旨在提升相關人員的科學數據管理意識,培養(yǎng)科研人員形成科學數據管理的習慣。主要宣傳科學數據管理對數據可重復利用率和提升科研成果可見度的積極影響,包含學??茖W數據管理政策、開放科學指南和最佳實踐、數據集可視性與重用性提高的成功案例、常見數據管理和策略的挑戰(zhàn)等方面;通過舉辦研討會、海報展等形式促使研究人員之間進行數據共享經驗交流。
(2)實踐層面,旨在通過提升研究人員的數據素養(yǎng),實現更有效的科學數據管理。主要從數據組織、存儲、利用和共享的方法和策略方面指導研究人員進行科學數據管理。一方面是常見問題的解答,如敏感的研究數據應該如何實現共享,如何正確利用元數據提高研究的可見度;另一方面是數據存儲庫利用的培訓,如創(chuàng)建、提交以及修改數據的操作等,涉及科學數據庫的新功能、高校科學數據庫與其它數據庫的整合、科學數據庫在科學數據管理中的運用等內容。
高??茖W數據管理應從管理模式與指導政策兩方面加強頂層設計。對于科學數據管理模式,新加坡高校在圖書館中設立專門辦公室負責科學數據管理,國內高校也應成立專門的科學數據管理機構,負責科學數據管理的目標定位、技術路線規(guī)劃等,并構建完整的科學數據管理服務體系,使科學數據管理服務的人員、資金及軟硬件設施等條件得到保障。明確相關人員與責任單位的職責,責權分明以保障科學數據管理服務的順利開展。對科學數據管理政策,應依托《科學數據管理辦法》,面向高校制定有針對性的系統(tǒng)的科學數據管理政策,建立健全科學數據管理制度,涵蓋科學數據管理范圍、科學數據管理計劃、科學數據管理標準等。其中,管理標準涉及數據的版權、存儲、安全、利用等議題。通過政策推動科學數據管理高效運作。
國內高??茖W數據管理平臺的發(fā)展尚處于起步階段。依據新加坡經驗,在建設初期,應搭建科學數據管理系統(tǒng)組織架構,明確平臺服務和數據組織方式,根據平臺的搭建目標與受眾人群進行功能規(guī)劃。可參考國內高??茖W數據管理平臺建設經驗,如北京大學“開放研究數據平臺”、復旦大學“社會科學數據平臺”、武漢大學“高??茖W數據管理平臺”。高校還可成立數據圖書館,用以支撐科研數據的共享與利用。在科學數據管理平臺發(fā)展后期,可建立區(qū)域或全國性的高校圖書館科學數據管理聯盟,構建各專業(yè)領域的科學數據管理平臺。通過多層次、寬領域的科學數據管理平臺體系的構建,提升高??茖W數據共享水平。
科學數據管理的宣傳是國內高校的薄弱環(huán)節(jié)。結合新加坡高??茖W數據管理宣傳經驗,國內高校可從以下方面著手:首先,加強科學數據管理品牌建設,在學校層面設立宣傳周、宣傳日等,線上舉辦科學數據管理在線意見征集、科學數據管理實踐有獎征文等,線下開展科學數據管理研討會與海報展等,線上與線下相結合,營造良好的科學數據管理氛圍;其次,明確宣傳對象與內容,高??茖W數據管理主要面向教師與學生,這兩類群體的科學數據管理動機與需求差異較大,應有針對性地進行宣傳;再者,利用新媒體平臺進行宣傳,由于新媒體受眾面較廣與用戶互動性較強,可在高校、學院與圖書館等各個層面,通過官方微博與微信公眾號等平臺積極開展宣傳,以增強相關人員的科學數據管理意識。