陳 璐
(南京審計(jì)大學(xué)圖書館 江蘇 南京 211815)
?
大數(shù)據(jù)背景下圖書館在數(shù)據(jù)監(jiān)管中的角色和使命
陳 璐
(南京審計(jì)大學(xué)圖書館 江蘇 南京 211815)
在大數(shù)據(jù)環(huán)境下,科學(xué)數(shù)據(jù)在各個(gè)領(lǐng)域的發(fā)展具有非常重要的作用。對(duì)科學(xué)數(shù)據(jù)進(jìn)行有效管理和有效使用日趨重要,科研機(jī)構(gòu)和為學(xué)術(shù)研究提供事實(shí)數(shù)據(jù)支撐的圖書館認(rèn)識(shí)到了數(shù)據(jù)監(jiān)管的效益和價(jià)值,在實(shí)踐中日益注重對(duì)數(shù)據(jù)進(jìn)行持續(xù)的管理和維護(hù),以期讓數(shù)據(jù)符合用戶的需求,推動(dòng)圖書館參考咨詢服務(wù)的發(fā)展。
數(shù)據(jù)監(jiān)管;高校圖書館;科學(xué)數(shù)據(jù)
大數(shù)據(jù)是指無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)具有5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)、Veracity(真實(shí)性)。 近年來,數(shù)據(jù)監(jiān)管(Data Curation)、大數(shù)據(jù)(Big Data)作為全新獨(dú)立的研究領(lǐng)域受到研究機(jī)構(gòu)和圖書館的關(guān)注。在國(guó)外,各大圖書館(尤其是美國(guó)高校圖書館)已充分意識(shí)到在大數(shù)據(jù)的環(huán)境下,作為海量信息資源聚集的機(jī)構(gòu),更加需要適時(shí)做出應(yīng)對(duì)措施,做好數(shù)據(jù)監(jiān)管,提高數(shù)據(jù)信息存儲(chǔ)的安全程度,以提高數(shù)據(jù)存儲(chǔ)的效率性[1]。
美國(guó)伊利諾伊大學(xué)圖書館與信息科學(xué)研究生院是這樣進(jìn)行數(shù)據(jù)監(jiān)管的闡述的: 數(shù)據(jù)監(jiān)管是一種持續(xù)的、動(dòng)態(tài)的數(shù)據(jù)管理和控制,隨著對(duì)學(xué)術(shù)探討、科學(xué)研究和學(xué)科教育服務(wù)的不同階段的數(shù)據(jù)需求而展開的數(shù)據(jù)服務(wù)。通過為各個(gè)領(lǐng)域展開研究提供相應(yīng)的數(shù)據(jù)監(jiān)管服務(wù),科研人員能夠在搜索尋找資料的過程中更加容易搜索數(shù)據(jù)、挖掘數(shù)據(jù),提高數(shù)據(jù)的可信度,充分發(fā)揮信息資源的巨大價(jià)值,同時(shí)便捷地保存引用數(shù)據(jù)。數(shù)據(jù)監(jiān)管這個(gè)全新的領(lǐng)域涵蓋了對(duì)數(shù)據(jù)信息資源的評(píng)估、數(shù)據(jù)保存、數(shù)據(jù)分類存檔、數(shù)據(jù)的智能推送、數(shù)據(jù)的提取再現(xiàn)幾大模塊[2]。
數(shù)據(jù)監(jiān)管讓那些可信度高的數(shù)據(jù)結(jié)論能夠得到充分的二次利用,從而發(fā)揮這些數(shù)據(jù)的潛在價(jià)值。這對(duì)數(shù)據(jù)的版權(quán)所有者、科研人員、數(shù)據(jù)庫(kù)供應(yīng)商、數(shù)據(jù)的使用者來說,都能產(chǎn)生一些即期收益,從長(zhǎng)遠(yuǎn)來看,價(jià)值潛力也非常大。數(shù)據(jù)監(jiān)管具有八種即期效益,包括提高數(shù)據(jù)信息資源的可信度、對(duì)大數(shù)據(jù)進(jìn)行深度挖掘和推送、提高科研成果的質(zhì)量和科研價(jià)值、授權(quán)外部進(jìn)行數(shù)據(jù)結(jié)論驗(yàn)證、維持穩(wěn)定的紀(jì)錄發(fā)布標(biāo)準(zhǔn)、提高不同動(dòng)態(tài)數(shù)據(jù)集的兼容度、確保有價(jià)值、參考度高的信息資源和知識(shí)以及授權(quán)不同類型數(shù)據(jù)集的集結(jié)獲取。此外數(shù)據(jù)監(jiān)管還具有多方面長(zhǎng)期價(jià)值,如維護(hù)科研成果著作權(quán)、留存科研進(jìn)程紀(jì)錄、收集和評(píng)估鑒別數(shù)據(jù)的未來價(jià)值潛力、對(duì)來源數(shù)據(jù)進(jìn)行匯總加工編輯以便使用、保留系統(tǒng)歷史版本入口、保證來源數(shù)據(jù)真實(shí)可靠性、授權(quán)未來潛在數(shù)據(jù)使用者挖掘使用這些數(shù)據(jù)等[3]。
數(shù)據(jù)監(jiān)管日益成為國(guó)外圖書情報(bào)界關(guān)注的熱點(diǎn)問題。2003年,現(xiàn)任美國(guó)國(guó)家科學(xué)基金會(huì)信息基礎(chǔ)設(shè)施主席阿特金斯首次提交了《通過信息基礎(chǔ)設(shè)施促進(jìn)科學(xué)和工程的革命》( Revolutionizing Science and Engineering through Cyberinfrastructure)的報(bào)告 ,也稱阿特金斯報(bào)告。當(dāng)時(shí)這份報(bào)告對(duì)數(shù)據(jù)監(jiān)管的闡述并不十分明晰,到了2007年美國(guó)國(guó)家科學(xué)基金會(huì)正式闡述表明數(shù)據(jù)監(jiān)管需要作為一個(gè)新的領(lǐng)域開展研究,自此之后,數(shù)據(jù)監(jiān)管從教育領(lǐng)域開始迅速發(fā)展,逐步擴(kuò)大到圖書館、研究機(jī)構(gòu),相關(guān)的政策也在實(shí)踐中不斷地得到完善[4]。2007 年,美國(guó)研究圖書館協(xié)會(huì) (ARL)專門對(duì)數(shù)據(jù)監(jiān)管展開全面的研究,在數(shù)據(jù)監(jiān)管的軟硬件開發(fā)管理、實(shí)施原則以及圖書館員的定位等方面形成指導(dǎo)性文件,成為各個(gè)圖書館、高校和研究機(jī)構(gòu)進(jìn)行數(shù)據(jù)監(jiān)管研究和發(fā)展的風(fēng)向標(biāo),為培養(yǎng)數(shù)據(jù)監(jiān)管人才,形成數(shù)據(jù)監(jiān)管準(zhǔn)則提供官方指導(dǎo)意見。
我國(guó)部分大型科研項(xiàng)目對(duì)數(shù)據(jù)監(jiān)管工作重視程度較高,基本集中在社會(huì)公共服務(wù)、國(guó)防軍用建設(shè)等領(lǐng)域,譬如氣象監(jiān)測(cè)系統(tǒng)數(shù)據(jù),為科技發(fā)展進(jìn)步提供了強(qiáng)有力的支撐。與此同時(shí),許多小規(guī)模科研項(xiàng)目的數(shù)據(jù)零散,缺乏有效的歸集和整理。雖然部分高校圖書館設(shè)置了碩士論文提交系統(tǒng),但基本上還是以保管歸檔為目的,各大院系的科研數(shù)據(jù)也多是各自保管,數(shù)據(jù)信息格式多樣化,這既不利于科研數(shù)據(jù)的長(zhǎng)期存儲(chǔ)和提取,也難以實(shí)現(xiàn)共享,在今后的科研活動(dòng)中發(fā)揮作用受到限制。信息保存機(jī)構(gòu)和圖書館有必要行動(dòng)起來,積極發(fā)揮自身的作用。
3.1 成為數(shù)據(jù)管理的技術(shù)管理者和咨詢服務(wù)者
近十年來,圖書館向研究者提供的核心服務(wù)體現(xiàn)了圖書館在信息技術(shù)能力方面的提升。高校圖書館為了能夠?qū)崿F(xiàn)成為學(xué)校信息研究中心的目標(biāo),新引進(jìn)的專業(yè)人才中IT專業(yè)的館員占到很大比例,特別是信息系統(tǒng)和編程方面的技術(shù)人員。這就為圖書館提供大數(shù)據(jù)管理服務(wù)提供了人才基礎(chǔ),當(dāng)然,大數(shù)據(jù)管理需要多種專業(yè)人才,以便在學(xué)科方向上形成互補(bǔ)。
在數(shù)據(jù)的整個(gè)生命周期中需要四個(gè)角色來完成:數(shù)據(jù)管理人、數(shù)據(jù)生成者、數(shù)據(jù)館員和數(shù)據(jù)處理專家。圖書館可以扮演的角色是為研究群體提供培訓(xùn)[5],使其擁有組織和系統(tǒng)化管理數(shù)據(jù)的能力和技巧,當(dāng)數(shù)據(jù)產(chǎn)生和集合后能被高效利用。數(shù)據(jù)監(jiān)管若要想取得長(zhǎng)期成功,精通于處理數(shù)據(jù)的專家需要在研究項(xiàng)目前期準(zhǔn)備階段就扮演咨詢角色。圖書館的相關(guān)人員可以從兩個(gè)方面發(fā)揮作用:其一,要有越來越多的圖書館員從元數(shù)據(jù)專家轉(zhuǎn)變?yōu)樾畔⒓夹g(shù)工作者。其二,面對(duì)有數(shù)據(jù)分析需求的讀者,館員們可以像以往提供學(xué)科服務(wù)一樣幫助其制定數(shù)據(jù)管理計(jì)劃[6]。
3.2 成為科研人員和信息技術(shù)專家之間的橋梁
圖書館為各學(xué)科提供數(shù)據(jù)管理服務(wù)的方式因?qū)W科而異。各學(xué)科都有自身的研究方法和內(nèi)容,雖然各領(lǐng)域?qū)?shù)據(jù)的需求完全不同,但是幾乎沒有學(xué)科是不需要數(shù)據(jù)服務(wù)的。因此,承擔(dān)相關(guān)任務(wù)的館員,應(yīng)該根據(jù)不同的學(xué)科需求學(xué)習(xí)管理數(shù)據(jù)的方法,或者至少能夠在研究者和數(shù)據(jù)管理專家之間建立聯(lián)系。
在數(shù)據(jù)管理領(lǐng)域,從業(yè)人員一般是IT專業(yè)人才或者至少具備IT行業(yè)基本素質(zhì)。其實(shí)大數(shù)據(jù)管理需要的專業(yè)技能和素質(zhì)是非常廣泛的,比如大數(shù)據(jù)網(wǎng)絡(luò)建設(shè)、數(shù)據(jù)恢復(fù)以及數(shù)據(jù)融合,這些都是進(jìn)行數(shù)據(jù)監(jiān)管必備的能力。如果圖書館有這樣的人才當(dāng)然最有利于工作的開展,然而對(duì)于大部分圖書館來說,更加現(xiàn)實(shí)的是成為溝通數(shù)據(jù)管理專家的橋梁。除此之外,圖書館還可以在數(shù)據(jù)安全、公平使用、版權(quán)以及風(fēng)險(xiǎn)管理方面有所作為。
當(dāng)大數(shù)據(jù)集合融入有序建構(gòu)的貯存體系,它們需要通過一系列重要的途徑呈現(xiàn)在學(xué)術(shù)研究者面前。首先,數(shù)據(jù)集合必須從內(nèi)到外緊密有序排列。其次,一旦大數(shù)據(jù)集合產(chǎn)生,它們就應(yīng)該以一種與研究環(huán)境和諧的方式保存。而后者對(duì)于數(shù)據(jù)的再次利用是非常必要的。通過數(shù)據(jù)有序保管,圖書館可以為研究機(jī)構(gòu)提供服務(wù),以節(jié)省科研時(shí)間。
4.1 尋找并與其他組織建立伙伴關(guān)系
在科研領(lǐng)域,數(shù)據(jù)產(chǎn)生的速度過快,政府和科研機(jī)構(gòu)無力為龐大的數(shù)據(jù)集制定管理標(biāo)準(zhǔn)。站在數(shù)據(jù)原生研究者的角度,基礎(chǔ)的數(shù)據(jù)存儲(chǔ)、備份能夠滿足其研究需求;然而這樣基礎(chǔ)的存儲(chǔ)和備份對(duì)于其他對(duì)研究數(shù)據(jù)感興趣的學(xué)者來說遠(yuǎn)遠(yuǎn)達(dá)不到可以被利用的水平。數(shù)據(jù)監(jiān)管的發(fā)展趨勢(shì)已經(jīng)被研究型圖書館注意到,然而一些院校圖書館盡管對(duì)研究數(shù)據(jù)監(jiān)管服務(wù)感興趣,卻并沒有意識(shí)到可以和其他圖書館展開合作。很多高校圖書館都在努力或希望成為研究數(shù)據(jù)的收集管理中心,成為所在院校學(xué)者們值得信賴的智庫(kù)。然而大多數(shù)的教授學(xué)者不認(rèn)為高校圖書館有提供數(shù)據(jù)管理服務(wù)的能力,這種不信任是高校圖書館發(fā)展數(shù)據(jù)監(jiān)管服務(wù)的最大障礙之一。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)管理的標(biāo)準(zhǔn)是不斷變化的,高校圖書館相關(guān)人員需要付出大量的時(shí)間來學(xué)習(xí)探索并執(zhí)行這些數(shù)據(jù)管理的標(biāo)準(zhǔn)。圖書館可以依托高校圖工委等機(jī)構(gòu)共同探討和構(gòu)建數(shù)據(jù)管理的框架,交流和共享數(shù)據(jù)管理的經(jīng)驗(yàn),也可以和專業(yè)可靠的信息技術(shù)公司合作,獲取可靠的數(shù)據(jù)技術(shù)服務(wù)。
4.2 評(píng)估本地需求,開發(fā)本地基礎(chǔ)設(shè)施,制訂相關(guān)政策
圖書館界已經(jīng)在探尋增加數(shù)據(jù)利用率的途徑。如前文所述,與不斷變更的數(shù)據(jù)管理標(biāo)準(zhǔn)保持一致就需要圖書館工作人員付諸大量的時(shí)間,除此之外資金層面的支撐也是一個(gè)主要的壓力。信息科學(xué)領(lǐng)域的專家們正在努力從法律、科學(xué)和技術(shù)層面進(jìn)行分析,制定適合各種類型數(shù)據(jù)生成和儲(chǔ)存的標(biāo)準(zhǔn)。
目前有很多機(jī)構(gòu)能夠支撐科學(xué)和工程研究對(duì)大數(shù)據(jù)處理的需求,然而卻沒有固定的人員來協(xié)助制定數(shù)據(jù)管理計(jì)劃。事實(shí)上,在最近幾年中,全球范圍內(nèi)為學(xué)術(shù)研究服務(wù)的數(shù)據(jù)管理越來越顯示出其重要性。無論是政府機(jī)構(gòu)還是個(gè)人都受益于大數(shù)據(jù)在國(guó)家安全領(lǐng)域抑或是商業(yè)領(lǐng)域的運(yùn)用。自然科學(xué)學(xué)科,如化學(xué)、物理和生物在大數(shù)據(jù)分析利用和管理上領(lǐng)先于人文科學(xué)和社會(huì)科學(xué)學(xué)科。
4.3 形成數(shù)據(jù)監(jiān)管執(zhí)行組,重組數(shù)據(jù)工作組
為了保證研究群體的最大利益,圖書館可以協(xié)助規(guī)劃處理大數(shù)據(jù)集合以使其能被最大限度地利用。圖書館亦可以充當(dāng)研究團(tuán)隊(duì)、信息技術(shù)部門、研究管理部門與科研處、老師、學(xué)生之間的使者,以保證實(shí)現(xiàn)統(tǒng)一的高水平的數(shù)據(jù)管理標(biāo)準(zhǔn)。大數(shù)據(jù)管理不僅是暫時(shí)性的,更多的是保存數(shù)據(jù)的生命力及后續(xù)使用周期。大數(shù)據(jù)的處理分析需要數(shù)據(jù)具有一致性,這就要求在數(shù)據(jù)產(chǎn)生的初始階段就有管理者的介入,這樣才能在后續(xù)階段保證其符合數(shù)據(jù)監(jiān)管的標(biāo)準(zhǔn)。目前,有些研究項(xiàng)目的科研數(shù)據(jù)存儲(chǔ)量非常大,更加需要標(biāo)準(zhǔn)化管理以保證高質(zhì)量的存儲(chǔ)研究成果。一旦數(shù)據(jù)產(chǎn)生、融合和被儲(chǔ)存,在數(shù)據(jù)產(chǎn)生的初始階段投入監(jiān)管,將使數(shù)據(jù)的挖掘獲取變得更加便捷。信息技術(shù)專業(yè)人員可以協(xié)助研究者對(duì)數(shù)據(jù)融合、分析、過濾和序列化進(jìn)行規(guī)劃,以便數(shù)據(jù)可以為以后的研究服務(wù)。
以往的圖書館學(xué)科服務(wù)一般針對(duì)特定的研究領(lǐng)域,學(xué)科館員一般具有良好的專業(yè)素養(yǎng),可作為研究群體和圖書館之間溝通的橋梁。在如今的大數(shù)據(jù)背景下,非常需要信息技術(shù)專家全程監(jiān)控?cái)?shù)據(jù)的產(chǎn)生和融合,并且實(shí)時(shí)與相關(guān)領(lǐng)域研究專家溝通。很多情況下,研究機(jī)構(gòu)不了解這種服務(wù),這就是圖書館應(yīng)該發(fā)揮作用的時(shí)機(jī)——向相關(guān)研究群體提供咨詢服務(wù),使之清楚數(shù)據(jù)監(jiān)管服務(wù)的流程,以便在研究的過程中能夠及時(shí)地保存、處理研究數(shù)據(jù)。
[1]鐘聲.大數(shù)據(jù)驅(qū)動(dòng)的高校圖書館數(shù)據(jù)監(jiān)護(hù)探究[J].情報(bào)資料工作,2014,(3):103-106.
[2]沈婷婷,盧志國(guó). 數(shù)據(jù)監(jiān)管在我國(guó)高校圖書館的應(yīng)用展望[J].圖書情報(bào)工作,2012,(7):54-57,87.
[3]王晴.國(guó)外Data Curation研究綜述[J].情報(bào)資料工作,2014,(1):52-57.
[4]高紅文,陳清文. 國(guó)外數(shù)據(jù)監(jiān)管研究綜述及啟示[J].圖書館學(xué)研究,2013,(10):2-4, 27.
[5]王芳,慎金花.國(guó)外數(shù)據(jù)管護(hù)(Data Curation)研究與實(shí)踐進(jìn)展[J].中國(guó)圖書館學(xué)報(bào),2014,(4):116-128.
[6]丁培.數(shù)據(jù)策展與圖書館[J].圖書館學(xué)研究,2013,(6):94-98.
G250
A
2016-07-02 責(zé)任編輯:張靜茹)