劉盼博
(黑龍江大學(xué) 信息管理學(xué)院,黑龍江 哈爾濱 150080)
科研數(shù)據(jù)是科研人員分析或驗證研究結(jié)果所必需的原始材料,是支撐研究論文和科研項目成果的基礎(chǔ),是學(xué)術(shù)研究過程中的重要產(chǎn)出,更是推動科學(xué)發(fā)展的重要因素。隨著科研機(jī)制的轉(zhuǎn)換,大量科研數(shù)據(jù)具有不可替代的學(xué)術(shù)價值,各國已對科研數(shù)據(jù)如何進(jìn)行科學(xué)高效的服務(wù)達(dá)成共識,從科研數(shù)據(jù)服務(wù)的模型構(gòu)建、框架、政策等理論研究上升至培訓(xùn)服務(wù)、政策制定與平臺建設(shè)等應(yīng)用實(shí)踐方面。對Re3data展開檢索,時間截至2021年6月14日,其中美國以1 115個數(shù)據(jù)知識庫居于榜首,緊隨其后的是擁有454個的德國,排名第3的是英國,共300個,已超越第4名歐洲聯(lián)盟的280個,表明英國在歐洲聯(lián)盟和國際科研數(shù)據(jù)服務(wù)領(lǐng)域占有重要地位。因此,分析英國科研數(shù)據(jù)服務(wù)實(shí)踐領(lǐng)域?qū)τ谖覈嚓P(guān)領(lǐng)域的實(shí)踐應(yīng)用具有較高的參考價值。
國外科研數(shù)據(jù)服務(wù)實(shí)踐起步較早,所以國內(nèi)眾多學(xué)者以國外科研機(jī)構(gòu)為樣本進(jìn)行研究,以此參考借鑒,已圍繞科研數(shù)據(jù)服務(wù)實(shí)踐這一主題有諸多研究。通過文獻(xiàn)調(diào)研發(fā)現(xiàn),國外科研機(jī)構(gòu)主要從政策制定、團(tuán)隊建設(shè)和服務(wù)項目等3個方面進(jìn)行實(shí)踐。在政策制定方面,美國、英國和澳大利亞的很多高校相繼出臺了科研數(shù)據(jù)管理相關(guān)的中央政策文件。趙蕾霞等[1]、王繼娜[2]針對美國高校圖書館科研數(shù)據(jù)管理服務(wù)的政策展開調(diào)查,發(fā)現(xiàn)劍橋大學(xué)、牛津大學(xué)、耶魯大學(xué)和康奈爾大學(xué)等都出臺了相關(guān)政策;王瓊等[3]從科研數(shù)據(jù)保存內(nèi)容、科研數(shù)據(jù)保存期限及銷毀、科研數(shù)據(jù)保存描述、科研數(shù)據(jù)保存格式、科研數(shù)據(jù)保存位置、科研數(shù)據(jù)保存機(jī)構(gòu)與責(zé)任、科研數(shù)據(jù)保存權(quán)益等方面調(diào)查了英國科研數(shù)據(jù)保存政策,全面反映了英國科研數(shù)據(jù)保存政策的特點(diǎn)。團(tuán)隊建設(shè)方面,胡慕海等[4]分析了科研數(shù)據(jù)服務(wù)團(tuán)隊成員數(shù)據(jù)素養(yǎng)能力的偏好預(yù)測特點(diǎn);王利君等[5]總結(jié)了羅素大學(xué)集團(tuán)的專業(yè)化崗位設(shè)置和人才隊伍,明確了各職位的職能范圍。在服務(wù)項目方面,劉桂鋒等[6]對美國高校圖書館的數(shù)據(jù)管理計劃、數(shù)據(jù)保存、數(shù)據(jù)共享、數(shù)據(jù)引用等方面的服務(wù)內(nèi)容進(jìn)行了調(diào)研探討;金貞燕等[7]對英國、美國和澳大利亞科研數(shù)據(jù)服務(wù)平臺的服務(wù)內(nèi)容以及服務(wù)過程進(jìn)行了分析;胥文彬[8]則調(diào)研了國外高校圖書館數(shù)字學(xué)術(shù)服務(wù),包括數(shù)字學(xué)術(shù)空間服務(wù)、數(shù)字人文服務(wù)、科學(xué)數(shù)據(jù)服務(wù)和數(shù)字技術(shù)支持服務(wù)等。從以上研究可發(fā)現(xiàn),學(xué)者們的關(guān)注反映出我國對科研數(shù)據(jù)服務(wù)的重視均體現(xiàn)在對國外已有成果研究的基礎(chǔ)上為我國相關(guān)領(lǐng)域提出建議。
與此同時,國內(nèi)許多科研機(jī)構(gòu)在科研數(shù)據(jù)服務(wù)實(shí)踐方面不斷進(jìn)步。崔海媛等[9]以北京大學(xué)圖書館為例,探究支持用戶數(shù)據(jù)驅(qū)動研究范式需求的一流研究數(shù)據(jù)管理服務(wù),如其研究成果、框架設(shè)計、構(gòu)建經(jīng)驗與服務(wù)效果等實(shí)踐。周力虹等[10]調(diào)研了復(fù)旦大學(xué)圖書館、北京大學(xué)圖書館、上海外國語大學(xué)圖書館組建的平臺現(xiàn)已初步具備存儲、備份和長期保存功能等問題。張宇等[11]通過調(diào)研發(fā)現(xiàn)國內(nèi)僅有北京大學(xué)、復(fù)旦大學(xué)、武漢大學(xué)、上海外國語大學(xué)、中國科學(xué)院大學(xué)、香港大學(xué)、香港科技大學(xué)提供科研數(shù)據(jù)服務(wù),其中所提供的服務(wù)并不全面,仍有一定的發(fā)展空間。這表明國內(nèi)關(guān)于科研數(shù)據(jù)服務(wù)實(shí)踐的探索較少,為更深入討論國內(nèi)未來科研數(shù)據(jù)服務(wù)實(shí)踐發(fā)展方向,本文以英國數(shù)據(jù)服務(wù)門戶為研究對象,從詞頻和共現(xiàn)網(wǎng)絡(luò)的角度對科研數(shù)據(jù)服務(wù)實(shí)踐現(xiàn)狀展開分析。
筆者選取英國數(shù)據(jù)服務(wù)門戶的相關(guān)數(shù)據(jù)為研究對象。英國數(shù)據(jù)服務(wù)(UK Data Service)由經(jīng)濟(jì)及社會研究理事會(ESRC)資助,是一個英國國家性的公共機(jī)構(gòu),是科研數(shù)據(jù)管理的開拓者,開展管理服務(wù)時間較早,體系與服務(wù)實(shí)踐相對成熟,其相關(guān)部門(英國研究理事會(RCUK)、縱向研究中心以及歐盟委員會等)提出制定過若干有關(guān)數(shù)據(jù)管理的規(guī)定與條款,包括數(shù)據(jù)共享、相關(guān)服務(wù)實(shí)踐的計劃、指南以及政策等方面的舉措,在數(shù)據(jù)管理方面取得較多實(shí)踐經(jīng)驗。如其相關(guān)部門之一英國研究理事會發(fā)布的《RCUK數(shù)據(jù)政策共同原則》,明確規(guī)定數(shù)據(jù)管理的使用政策,鼓勵科研人員在完成科研項目后及時公開科研數(shù)據(jù)成果,有效促進(jìn)本領(lǐng)域或相關(guān)領(lǐng)域高質(zhì)量研究和創(chuàng)新;另一相關(guān)部門通過的《通用數(shù)據(jù)保護(hù)條例》(GDPR)是全球范圍內(nèi)數(shù)據(jù)產(chǎn)業(yè)規(guī)制的一個里程碑式事件[12],主要目的是加強(qiáng)用戶對個人數(shù)據(jù)的控制權(quán),對處理它的公司施加更嚴(yán)格的規(guī)定并確保公司采用新技術(shù)處理大量涌入的數(shù)據(jù)。
筆者以英國數(shù)據(jù)服務(wù)門戶(https://www.ukdataservice.ac.uk/)2011—2020年發(fā)布的Event(會議名稱、類型、簡介、時間等)數(shù)據(jù)庫為數(shù)據(jù)樣本,使用Python網(wǎng)絡(luò)爬蟲技術(shù)對其開展數(shù)據(jù)采集(采集時間截至2020年12月30日),共收集到Event數(shù)據(jù)1 006條,經(jīng)過去重與清洗等處理后(對于那些在網(wǎng)站已發(fā)布的信息由于某種原因?qū)е氯∠蚰硹l信息無法獲取及丟失的一并剔除),最終獲得有效數(shù)據(jù)801條。
文章利用Python和Ucient v6社會網(wǎng)絡(luò)分析軟件,首先以“二八定律”為原則選取通過Python計算得出的高頻關(guān)鍵詞進(jìn)行歸類總結(jié)分析,從而明確英國科研數(shù)據(jù)服務(wù)的熱門實(shí)踐領(lǐng)域以及社會、經(jīng)濟(jì)、地理等領(lǐng)域應(yīng)用后得到的成熟經(jīng)驗。
筆者運(yùn)用Python計算英國數(shù)據(jù)服務(wù)Event數(shù)據(jù)中的關(guān)鍵詞詞頻,對原始數(shù)據(jù)進(jìn)行人工甄別與選擇,清洗無實(shí)義的關(guān)鍵詞,如英國、數(shù)據(jù)管理、數(shù)據(jù)等;對部分同義詞或近義詞合并處理,如空間和地理合并為空間地理。數(shù)據(jù)顯示,2011—2020年英國數(shù)據(jù)服務(wù)801條Event信息中共獲取5 627個有效關(guān)鍵詞,關(guān)鍵詞出現(xiàn)的總累計頻次為20 709次,平均出現(xiàn)頻次約為3.7次。筆者將其分為3類:其一,研討會、會議、課程、項目等位于詞頻序列表的前6位,表明英國數(shù)據(jù)服務(wù)重視相關(guān)科研領(lǐng)域或?qū)W者的交流學(xué)習(xí);其二,從方法、技術(shù)的角度來看,英國數(shù)據(jù)服務(wù)重視采用新技術(shù)和新工具,模型、可視化、定量、數(shù)據(jù)庫等內(nèi)容在實(shí)踐中反復(fù)出現(xiàn),可見技術(shù)方法是英國數(shù)據(jù)服務(wù)發(fā)展的奠基石;其三,通過整體詞頻序列表可發(fā)現(xiàn),英國數(shù)據(jù)服務(wù)已涉及社會、經(jīng)濟(jì)、醫(yī)療健康,地理、人口普查、環(huán)境等學(xué)科領(lǐng)域。
為了更為清晰地揭示出學(xué)科領(lǐng)域內(nèi)部的結(jié)構(gòu)特征,需將可視化技術(shù)與共詞分析法相結(jié)合,以知識圖譜的形式直觀地反映出學(xué)科領(lǐng)域內(nèi)各個研究主題之間的關(guān)聯(lián)強(qiáng)度,從而探究高頻關(guān)鍵詞之間的內(nèi)在聯(lián)系。依托上文英國數(shù)據(jù)服務(wù)關(guān)鍵詞序列表,開展關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析。使用清博關(guān)鍵詞分析軟件將上述關(guān)鍵詞轉(zhuǎn)換成可以由Ucinet處理的關(guān)鍵詞共現(xiàn)二值矩陣,將矩陣輸入Ucinet后,得到英國數(shù)據(jù)服務(wù)關(guān)鍵詞網(wǎng)絡(luò)分析。
該分析考察科研數(shù)據(jù)管理服務(wù)實(shí)踐熱門領(lǐng)域,越在中心位置,代表熱度越高,頻次越高,明確了其主導(dǎo)地位,由此可以得出:地理、環(huán)境等數(shù)據(jù)最終均以可視化的形式呈現(xiàn)給用戶;最為顯著的是數(shù)據(jù)、英國、網(wǎng)絡(luò)、研討會、數(shù)據(jù)服務(wù)、社會、人口普查以及用戶,和每一個關(guān)鍵詞關(guān)聯(lián)性較強(qiáng),存在緊密聯(lián)系;實(shí)踐領(lǐng)域以面向用戶的社會服務(wù)角度為基礎(chǔ),技術(shù)為輔,向經(jīng)濟(jì)、用戶、國際、檔案館等領(lǐng)域不斷發(fā)展;位于最外圈的學(xué)生、結(jié)構(gòu)化、數(shù)據(jù)庫、格式化、軟件等關(guān)鍵詞關(guān)聯(lián)性較弱,正在不斷發(fā)展,未能實(shí)踐應(yīng)用到更多領(lǐng)域;以英國、數(shù)據(jù)為中心,形成了一環(huán)套一環(huán)向外擴(kuò)展的現(xiàn)象,第一圈為數(shù)據(jù)服務(wù)、研討會、用戶、課程、經(jīng)驗、網(wǎng)絡(luò)等關(guān)鍵詞,作為數(shù)據(jù)服務(wù)基礎(chǔ)應(yīng)用領(lǐng)域發(fā)展學(xué)習(xí)的必要方式與要素,為第二圈與第三圈的家庭、經(jīng)濟(jì)、政策、環(huán)境、技術(shù)、地理、工具、定性等實(shí)踐領(lǐng)域與技術(shù)應(yīng)用做鋪墊,越到內(nèi)圈越是目前熱門實(shí)踐領(lǐng)域。
隨著各學(xué)科從理論到實(shí)踐研究的發(fā)展,英國數(shù)據(jù)服務(wù)實(shí)踐需求愈發(fā)強(qiáng)烈。以上文關(guān)鍵詞與熱門實(shí)踐領(lǐng)域的數(shù)據(jù)分析結(jié)果為基礎(chǔ),結(jié)合英國數(shù)據(jù)服務(wù)門戶Event中所提供信息的特征,從社會數(shù)據(jù)服務(wù)、醫(yī)療健康、技術(shù)方法、服務(wù)形式及內(nèi)容等4個方面對英國數(shù)據(jù)服務(wù)實(shí)踐領(lǐng)域進(jìn)行深入分析,明晰英國數(shù)據(jù)服務(wù)實(shí)踐領(lǐng)域發(fā)展現(xiàn)狀。
筆者總結(jié)了英國數(shù)據(jù)服務(wù)社會方面的實(shí)踐。
(1)人口普查。對于英國每天從事定量研究、市場研究或統(tǒng)計工作的戶主或任何使用人口數(shù)據(jù)的用戶來說,人口普查的結(jié)束可能被視為一個重大事件。英國與我國一樣重視人口普查,此數(shù)據(jù)均是各國最大的數(shù)據(jù)集合,提供一系列可作為教學(xué)目的使用的英國出生隊列研究和英國老齡縱向研究數(shù)據(jù)。此外英國提供一系列格式的人口普查數(shù)據(jù)訪問,包括有關(guān)地區(qū)人口和家庭特征的計數(shù)(匯總數(shù)據(jù))、區(qū)域間通勤和遷移移動數(shù)據(jù)(流量數(shù)據(jù))、用于靈活使用的記錄匿名樣本(微數(shù)據(jù))以及繪制地圖所需的邊界數(shù)據(jù),涉及英國各地人口目前和歷史人口與社會經(jīng)濟(jì)特征的廣泛信息。這些數(shù)據(jù)大部分無須注冊即可訪問,也可以在短暫注冊后訪問。英國試圖開發(fā)一種新的人口普查數(shù)據(jù)產(chǎn)品,以替代復(fù)雜的ONS縱向研究管理人口普查數(shù)據(jù)帶來的挑戰(zhàn)。為此人口普查數(shù)據(jù)可以提供小地方和經(jīng)常被忽略的群體數(shù)據(jù),做有針對性的政策調(diào)整與地方福利,從而明晰人口普查數(shù)據(jù)在英國數(shù)據(jù)服務(wù)中不可撼動的地位和其重要性。
(2)地理。大量地理空間數(shù)據(jù)集可通過英國數(shù)據(jù)服務(wù)人口普查支持作為開放數(shù)據(jù)提供,任何人都可以下載。上文所提到的數(shù)據(jù)資源均是由英國家庭縱向研究(UKHLS)和英國縱向研究(UKLS)為研究人員提供,結(jié)合地理相關(guān)問題進(jìn)行可視化顯示,其掌握的很多數(shù)據(jù)將感興趣的研究人員聚集在地理空間大數(shù)據(jù)、地理空間可視化、地理人口學(xué)、健康地理和制圖領(lǐng)域工作,為地理學(xué)科領(lǐng)域吸納了各個專業(yè)領(lǐng)域的人才,發(fā)揮其優(yōu)勢,有效提高地理在各學(xué)科領(lǐng)域的延伸發(fā)展,以期將其他學(xué)科數(shù)據(jù)或地理相關(guān)數(shù)據(jù)融貫匯通,實(shí)現(xiàn)各學(xué)科領(lǐng)域間的積極發(fā)展。
英國數(shù)據(jù)服務(wù)應(yīng)用并借鑒了不同的數(shù)字技術(shù)。(1)編程技術(shù)。使用R,SPSS,Python,Apache Hadoop,Spark等工具用于數(shù)據(jù)清理、數(shù)據(jù)分析、數(shù)據(jù)處理等操作,對數(shù)據(jù)進(jìn)行一系列的操作之后,存儲在Graph和NoSQL數(shù)據(jù)庫中。(2)數(shù)據(jù)收集技術(shù)。創(chuàng)建可擴(kuò)展的開源工具,該工具能夠以各種格式(包括 DDI 編解碼器)收集元數(shù)據(jù),并供搜索門戶和其他下游系統(tǒng)使用。(3)可視化技術(shù)。使用聚合統(tǒng)計信息(InFuse)和小區(qū)域邊界數(shù)據(jù)(Boundary Data Selector)從英國數(shù)據(jù)服務(wù)中訪問和提取人口普查、地理、經(jīng)濟(jì)等數(shù)據(jù),利用PSPP對在輸出區(qū)域規(guī)模上構(gòu)建小區(qū)域分類所需的步驟進(jìn)行概念理解,使用QGIS聚類組成并在空間上顯示可視化結(jié)果,避免用戶耗費(fèi)大量時間閱讀復(fù)雜難懂的數(shù)據(jù)。(4)數(shù)據(jù)重用。數(shù)據(jù)重用是公平競賽原則的最后要素,長期以來一直被視為數(shù)據(jù)共享的核心利益,為此英國數(shù)據(jù)服務(wù)探討了UKDS數(shù)據(jù)集和機(jī)器數(shù)據(jù)的重用,以使數(shù)據(jù)更具可重用性或授予計算機(jī)數(shù)據(jù)重用權(quán)限的可能性。
通過上述分析不難發(fā)現(xiàn),英國數(shù)據(jù)服務(wù)具有實(shí)踐領(lǐng)域和覆蓋用戶群體廣等特點(diǎn),這些對于突破國內(nèi)數(shù)據(jù)服務(wù)的桎梏極具借鑒意義,故筆者選取加強(qiáng)計算機(jī)技術(shù)的普及和多學(xué)科融合發(fā)展進(jìn)行闡述。
我國科研人員忽視了計算機(jī)技術(shù)在科研數(shù)據(jù)管理中起到的關(guān)鍵性作用。首先,國內(nèi)科研人員缺乏對技術(shù)價值的認(rèn)知;其次,本領(lǐng)域缺乏大量計算機(jī)技術(shù)尖端人才、教師;最后,缺乏開展科研數(shù)據(jù)服務(wù)的軟件條件。目前,英國數(shù)據(jù)服務(wù)培訓(xùn)形式則通常面向所有學(xué)科的科研人員或初學(xué)者,為不同受眾群體開展了適合的培訓(xùn)課程,內(nèi)容圍繞著海量的數(shù)據(jù)集、數(shù)據(jù)共享、處理以及某一學(xué)科領(lǐng)域如何應(yīng)用計算機(jī)技術(shù)實(shí)現(xiàn)為用戶提供數(shù)據(jù)服務(wù)的目的展開。因此,我國組織機(jī)構(gòu)以及高??蒲腥藛T必須提高對計算機(jī)技術(shù)的認(rèn)識,鼓勵計算機(jī)領(lǐng)域或感興趣科研人員進(jìn)入數(shù)據(jù)服務(wù)的技術(shù)層面,開展各種類型的技術(shù)培訓(xùn),提高研究人員的計算機(jī)技能水平,致力于研究基礎(chǔ)設(shè)施建設(shè)、軟件工具的開發(fā)及應(yīng)用,為未來發(fā)展奠定基礎(chǔ)。
隨著社會的發(fā)展,大量學(xué)科的進(jìn)步是相輔相成的,多學(xué)科融合在一起,借助其不同的優(yōu)勢,促進(jìn)學(xué)科發(fā)展,提升用戶滿意度。我國在這方面發(fā)展則是緩慢的,而根據(jù)上文英國科研數(shù)據(jù)服務(wù)實(shí)踐,重視地理空間數(shù)據(jù)和經(jīng)濟(jì)數(shù)據(jù)等經(jīng)驗來看,國內(nèi)未能全方位拓展實(shí)踐領(lǐng)域,要多學(xué)科相融合,實(shí)現(xiàn)多贏的目標(biāo)。地理數(shù)據(jù)和經(jīng)濟(jì)數(shù)據(jù)對于各國國家安全均具有舉足輕重的地位,我國應(yīng)基于數(shù)據(jù)鏈接、可視化和人口普查結(jié)合地理數(shù)據(jù)等數(shù)據(jù)空間分析的實(shí)例,以滿足公民需求、保持經(jīng)濟(jì)增長和確??沙掷m(xù)性。
科研數(shù)據(jù)的價值日益凸顯,科學(xué)研究范式與體系的轉(zhuǎn)變、科研數(shù)據(jù)服務(wù)內(nèi)容的豐富以及開放獲取的進(jìn)步,孕育開放數(shù)據(jù)和數(shù)據(jù)服務(wù)需求戰(zhàn)略,國內(nèi)外各大機(jī)構(gòu)紛紛參與這股潮流中,同時也為傳統(tǒng)機(jī)構(gòu)提供了創(chuàng)新改革的機(jī)會,不被時代大潮所拋棄。但整體上國內(nèi)機(jī)構(gòu)的科研數(shù)據(jù)管理服務(wù)實(shí)踐仍處于起步階段,而英國不僅應(yīng)用于科研領(lǐng)域還應(yīng)用到地理、經(jīng)濟(jì)和社會等領(lǐng)域,這個過程是漫長的,需要資金、技術(shù)、人才、軟硬件設(shè)施、精通科研數(shù)據(jù)和應(yīng)用領(lǐng)域的專業(yè)人員等條件。組織機(jī)構(gòu)需深刻了解每個可應(yīng)用的領(lǐng)域以及國內(nèi)外最佳實(shí)踐,結(jié)合自身優(yōu)勢,建設(shè)一套完善的數(shù)據(jù)服務(wù)實(shí)踐機(jī)制,推動科研數(shù)據(jù)服務(wù)不斷進(jìn)步。