常志軍,許麗媛,于倩倩,張建勇,王永吉
(1.中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心數(shù)據(jù)資源部,北京 100190;2.中國(guó)科學(xué)院大學(xué)圖書情報(bào)與檔案管理系,北京 100049;3.中國(guó)科學(xué)院軟件研究所計(jì)算機(jī)科學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
數(shù)據(jù)是一種重要的資產(chǎn)[1],與事物資產(chǎn)的可見可動(dòng),財(cái)務(wù)資產(chǎn)的可計(jì)可量不同,數(shù)據(jù)資產(chǎn)有其獨(dú)特的特性和價(jià)值:持久保存性、損壞不再生、使用無消耗、動(dòng)態(tài)應(yīng)用性、多狀態(tài)應(yīng)用、數(shù)據(jù)自生產(chǎn)等。數(shù)據(jù)管理的核心是確保數(shù)據(jù)的質(zhì)量,如果數(shù)據(jù)未能滿足使用者的需求,那么所有收集、存儲(chǔ)、安全加固、使用數(shù)據(jù)的努力都是無用的。據(jù)IBM 估算,2016 年,美國(guó)由于數(shù)據(jù)質(zhì)量問題而導(dǎo)致的損失達(dá)到3.1 萬億美元[2]。因此,數(shù)據(jù)使用者必須與具備專業(yè)知識(shí)領(lǐng)域和技能的數(shù)據(jù)管理團(tuán)隊(duì)共同參與定義數(shù)據(jù)的特征,使之成為高質(zhì)量的數(shù)據(jù)。
中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心 (以下簡(jiǎn)稱文獻(xiàn)中心)通過集團(tuán)采購(gòu)、資源置換、自主建設(shè)等渠道收集了大量的科技文獻(xiàn),包括科技圖書、科技期刊、科技報(bào)告、專利文獻(xiàn)、會(huì)議文獻(xiàn)、學(xué)位論文、標(biāo)準(zhǔn)文獻(xiàn)等。這些科技文獻(xiàn)類型眾多,來源廣泛,凝聚著人類在科技探索過程中的經(jīng)驗(yàn)和智慧[3]。在信息化迅速發(fā)展的當(dāng)下,如何對(duì)這些科技文獻(xiàn)進(jìn)行有效、高效的管理是亟需面對(duì)和解決的問題,也是文獻(xiàn)中心科技文獻(xiàn)管理工作發(fā)展的重要方向。
國(guó)內(nèi)外很多研究團(tuán)隊(duì)開展了科技文獻(xiàn)管理方法的研究和科技文獻(xiàn)管理體系的建設(shè),如云安全聯(lián)盟組織為云環(huán)境數(shù)據(jù)提出CSA 模型[4],包括創(chuàng)建、存儲(chǔ)、使用、共享、存檔和銷毀,他是為云環(huán)境設(shè)計(jì)的,重點(diǎn)解決了數(shù)據(jù)安全,未考慮數(shù)據(jù)質(zhì)量、數(shù)據(jù)處理和數(shù)據(jù)分析等內(nèi)容。美國(guó)地質(zhì)調(diào)查局?jǐn)?shù)據(jù)集成社區(qū)提出采用USGS 模型管理數(shù)據(jù),包括計(jì)劃、獲取、處理、分析、保存和發(fā)布/共享,用于評(píng)估和改進(jìn)管理科學(xué)數(shù)據(jù)的政策和實(shí)踐,是一個(gè)綜合的模型[5,6]。大學(xué)間政治和社會(huì)研究聯(lián)合會(huì)提出采用DDI 模型[7]管理數(shù)據(jù),包括研究概念、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存檔、數(shù)據(jù)分發(fā)、數(shù)據(jù)發(fā)現(xiàn)、數(shù)據(jù)分析和重新調(diào)整用途等,是一個(gè)全面的模型,但是沒有對(duì)數(shù)據(jù)質(zhì)量和數(shù)據(jù)安全的關(guān)注。張迎等[8]提出了科學(xué)數(shù)據(jù)管理生命周期,并從獲取、描述、存儲(chǔ)、發(fā)布、重用等5 個(gè)階段對(duì)科學(xué)數(shù)據(jù)進(jìn)行管理。
但當(dāng)前就如何利用生命周期理論對(duì)科技文獻(xiàn)進(jìn)行綜合管理和有效利用,以及采用專業(yè)的衡量標(biāo)準(zhǔn)進(jìn)行質(zhì)量評(píng)估等研究還處在初級(jí)階段。圍繞基于生命周期理論對(duì)科技文獻(xiàn)進(jìn)行綜合管理等需求,本文第二部分論述了數(shù)據(jù)生命周期管理模型,總結(jié)歸納符合科技文獻(xiàn)生命周期發(fā)展的階段和模型,本文第三部分重點(diǎn)介紹了數(shù)據(jù)管理體系研究的7 個(gè)流程,并詳細(xì)說明了每個(gè)階段的管理體系建設(shè)內(nèi)容,本文第四部分創(chuàng)新性的以WOS BP 數(shù)據(jù)為基礎(chǔ)開展基于生命周期的數(shù)據(jù)管理實(shí)踐,并依照數(shù)據(jù)管理目標(biāo)從6 個(gè)維度進(jìn)行管理實(shí)踐與綜合評(píng)價(jià),本文第五部分對(duì)工作進(jìn)行簡(jiǎn)要總結(jié),并對(duì)未來工作進(jìn)行展望。
數(shù)據(jù)不是靜止的,在整個(gè)生命周期中,數(shù)據(jù)需要被清洗、轉(zhuǎn)換、合并、增強(qiáng)等。不同類型的數(shù)據(jù)具有不同的生命周期,這加大了數(shù)據(jù)生命周期中相關(guān)概念的復(fù)雜性。如事務(wù)型數(shù)據(jù)可以通過基本業(yè)務(wù)規(guī)則得到管理,而主數(shù)據(jù)需要通過數(shù)據(jù)綜合處理得到管理。盡管如此,仍然存在一些生命周期通用規(guī)則,適用于任何數(shù)據(jù)。2018 年國(guó)務(wù)院辦公廳在印發(fā) 《科學(xué)數(shù)據(jù)管理辦法》[9,10]時(shí)指出要加強(qiáng)科學(xué)數(shù)據(jù)全生命周期管理[11],規(guī)范科學(xué)數(shù)據(jù)的采集生產(chǎn)、加工整理、開放共享等各個(gè)環(huán)節(jié)的工作。同時(shí)也將科學(xué)數(shù)據(jù)管理生命周期分為數(shù)據(jù)采集和交匯、數(shù)據(jù)保存、數(shù)據(jù)共享利用、數(shù)據(jù)保密安全等方面。
數(shù)據(jù)生命周期管理 (Data Life Cycle Management,DLM) 是一種基于策略的方法[12],著重于數(shù)據(jù)的規(guī)劃和設(shè)計(jì)、使數(shù)據(jù)可用、可維護(hù),以及通過應(yīng)用數(shù)據(jù)實(shí)現(xiàn)組織的目標(biāo),最終達(dá)到可被需要的人或流程所使用的目的。通常用于管理數(shù)據(jù)在整個(gè)生命周期內(nèi)的流動(dòng):從數(shù)據(jù)的創(chuàng)建和初始存儲(chǔ)、變化、遷移和維護(hù)到它過時(shí)被刪除的全過程[13]。盡管數(shù)據(jù)和技術(shù)是交織在一起的,但是不能把數(shù)據(jù)的生命周期混淆為系統(tǒng)開發(fā)生命周期 (Systems Development Life Cycle,SDLC),因?yàn)橄到y(tǒng)開發(fā)生命周期專注于在預(yù)算范圍內(nèi)按時(shí)完成項(xiàng)目研發(fā)任務(wù)[14]。
數(shù)據(jù)生命周期管理模型定義從生產(chǎn)階段到服務(wù)階段的數(shù)據(jù)全景視圖,目標(biāo)是優(yōu)化數(shù)據(jù)管理、提高效率、降低成本。DAMA 數(shù)據(jù)資產(chǎn)管理協(xié)會(huì)作為一個(gè)全球性的數(shù)據(jù)管理協(xié)會(huì),致力于數(shù)據(jù)管理的研究和實(shí)踐原則。DAMA 模型包括創(chuàng)建或獲取數(shù)據(jù)、移動(dòng)、轉(zhuǎn)換和存儲(chǔ)數(shù)據(jù)并使其得以維護(hù)和共享的過程、使用數(shù)據(jù)的過程以及處理數(shù)據(jù)的過程[15]。在數(shù)據(jù)的整個(gè)生命周期中,可以清理、轉(zhuǎn)換、合并、增強(qiáng)或聚合數(shù)據(jù),同時(shí)隨著數(shù)據(jù)的使用或增強(qiáng),通常會(huì)生成新的數(shù)據(jù),因此生命周期具有內(nèi)部迭代。
基于生命周期管理的數(shù)據(jù)可以在一定程度上提升數(shù)據(jù)質(zhì)量,最終達(dá)到數(shù)據(jù)使用者的期望并滿足數(shù)據(jù)需求。判斷數(shù)據(jù)質(zhì)量?jī)?yōu)劣的標(biāo)準(zhǔn)是與能否滿足數(shù)據(jù)消費(fèi)者的需求一致為基準(zhǔn),一致則屬于高質(zhì)量數(shù)據(jù),反之,不適用于數(shù)據(jù)使用者的數(shù)據(jù)則是低質(zhì)量數(shù)據(jù)。數(shù)據(jù)質(zhì)量維度是數(shù)據(jù)的可測(cè)量特性或?qū)傩?,為了評(píng)估數(shù)據(jù)的質(zhì)量,需要建立具體可行的衡量維度,這些維度不但對(duì)業(yè)務(wù)流程很重要,而且具備可測(cè)量、可操作的特性。2013 年,DAMA 英國(guó)分會(huì)編寫的數(shù)據(jù)管理白皮書提出了6 個(gè)核心的數(shù)據(jù)質(zhì)量評(píng)估維度[16],分別是:完整性(Completeness),是評(píng)估已存儲(chǔ)數(shù)據(jù)占應(yīng)存儲(chǔ)數(shù)據(jù)的百分比。唯一性 (Uniqueness),是評(píng)估任何實(shí)體的記錄會(huì)不會(huì)出現(xiàn)多次。實(shí)時(shí)性 (Timeliness),是評(píng)估數(shù)據(jù)體現(xiàn)特定時(shí)間點(diǎn)的真實(shí)程度。有效性(Validity),是評(píng)估數(shù)據(jù)是否符合相關(guān)定義 (格式、種類、范圍)。準(zhǔn)確性 (Accuracy),是評(píng)估數(shù)據(jù)描述真實(shí)世界對(duì)象或事件的精確度。一致性 (Consistency),是評(píng)估多處對(duì)同一個(gè)事物的描述不存在差異。
DAMA 表示數(shù)據(jù)管理是基于數(shù)據(jù)生命周期的管理,不同類型的數(shù)據(jù)有不同的生命周期特征。科技文獻(xiàn)數(shù)據(jù)[17]具備數(shù)據(jù)量大、文件類型多、獲取方式和格式多樣、更新頻率快、時(shí)效性強(qiáng)等特點(diǎn),以文件類型多為例:科技文獻(xiàn)通常覆蓋期刊、會(huì)議錄、專著、叢書、文集匯編、工具書、課程、研究論文、專著章節(jié)、科技報(bào)告、學(xué)位論文、課件等多個(gè)類型。此外,科技文獻(xiàn)數(shù)據(jù)可描述內(nèi)容的顆粒度更細(xì)化,如JATS 數(shù)據(jù)標(biāo)準(zhǔn)包含了250 余個(gè)元素和130 余個(gè)元素屬性,NSTL 統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)包含97 個(gè)描述性元素、53 個(gè)輔助性元素和49 個(gè)屬性[18]。同時(shí),科技文獻(xiàn)數(shù)據(jù)組織模塊化加強(qiáng),通過對(duì)細(xì)粒度元素的組合形成相對(duì)獨(dú)立又相互關(guān)聯(lián)的實(shí)體模塊,如期刊、論文、會(huì)議、基金、貢獻(xiàn)者、機(jī)構(gòu)等多個(gè)實(shí)體模塊。
本文將科技文獻(xiàn)數(shù)據(jù)的全生命周期階段主要?dú)w納為創(chuàng)建、存儲(chǔ)、預(yù)處理、計(jì)算、服務(wù)、歸檔、銷毀等7 個(gè)階段,可以在科技文獻(xiàn)中進(jìn)行普適性應(yīng)用。如圖1 所示,數(shù)據(jù)在每個(gè)階段呈現(xiàn)不同的活躍度,在數(shù)據(jù)計(jì)算階段和數(shù)據(jù)服務(wù)階段達(dá)到峰值,在數(shù)據(jù)銷毀階段達(dá)到谷值。
數(shù)據(jù)創(chuàng)建階段收集從多個(gè)來源獲取的商業(yè)采購(gòu)數(shù)據(jù)、開放獲取數(shù)據(jù)、中心自建數(shù)據(jù)和交換獲取數(shù)據(jù)等,通過網(wǎng)絡(luò)接口獲取、公開網(wǎng)頁采集、數(shù)據(jù)庫(kù)直接導(dǎo)入、硬件批量拷貝、網(wǎng)絡(luò)集中下載等多種接入形式,獲取期刊論文、會(huì)議論文、科技報(bào)告、科技專利、基金項(xiàng)目、科技資訊、圖書專著、科技政策等各個(gè)類型數(shù)據(jù)。
數(shù)據(jù)存儲(chǔ)階段針對(duì)不同體量、結(jié)構(gòu)的數(shù)據(jù)進(jìn)行個(gè)性化存儲(chǔ)設(shè)計(jì)。對(duì)無需復(fù)雜操作的小體量數(shù)據(jù)采用本地文件系統(tǒng)存儲(chǔ)形式,利用單臺(tái)服務(wù)器滿足對(duì)文件數(shù)據(jù)、源數(shù)據(jù)、中間數(shù)據(jù)的存儲(chǔ)需求。對(duì)無需復(fù)雜操作的大體量數(shù)據(jù)采用分布式存儲(chǔ)形式,利用多臺(tái)服務(wù)器滿足對(duì)大文件數(shù)據(jù)的存儲(chǔ)需求。對(duì)需要復(fù)雜操作的結(jié)構(gòu)化數(shù)據(jù)采用數(shù)據(jù)庫(kù)存儲(chǔ)形式,對(duì)常規(guī)業(yè)務(wù)數(shù)據(jù)、監(jiān)測(cè)日志數(shù)據(jù)等進(jìn)行存儲(chǔ)。
數(shù)據(jù)預(yù)處理階段可以從字段抽取、信息轉(zhuǎn)換、數(shù)據(jù)清洗、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)索引等5 個(gè)方面進(jìn)行。將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為符合統(tǒng)一標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),或者將一種形式的結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為另一種形式的結(jié)構(gòu)化數(shù)據(jù),對(duì)相關(guān)字段進(jìn)行抽取、清洗、加工,以獲取更豐富更標(biāo)準(zhǔn)的數(shù)據(jù),基于服務(wù)需求設(shè)定索引數(shù)據(jù),為了后續(xù)計(jì)算、服務(wù)更方便、靈活。
數(shù)據(jù)計(jì)算階段是科技文獻(xiàn)在整個(gè)生命周期中最活躍的階段,也是數(shù)據(jù)最具操作性、最豐富的階段,主要是從數(shù)據(jù)加工、數(shù)據(jù)豐富化、數(shù)據(jù)融合、實(shí)體和關(guān)系抽取等4 個(gè)方面展開,對(duì)數(shù)據(jù)進(jìn)行集中的治理和計(jì)算,以產(chǎn)生更具使用價(jià)值的科研數(shù)據(jù)。
數(shù)據(jù)服務(wù)階段是將前期已經(jīng)處理和計(jì)算生成的數(shù)據(jù)通過各類服務(wù)形式穩(wěn)定、高效地進(jìn)行數(shù)據(jù)交互并輸出數(shù)據(jù),提供基礎(chǔ)數(shù)據(jù)服務(wù)和增值數(shù)據(jù)服務(wù),同時(shí)支持面向用戶需求定制開發(fā)優(yōu)質(zhì)的、高效的數(shù)據(jù)服務(wù),基于權(quán)限控制和訪問監(jiān)控保障數(shù)據(jù)服務(wù)安全。
數(shù)據(jù)歸檔階段是將不再經(jīng)常使用的數(shù)據(jù)遷移到一個(gè)單獨(dú)的存儲(chǔ)設(shè)備來進(jìn)行長(zhǎng)期、有效保存的過程,這類數(shù)據(jù)通常是由舊的數(shù)據(jù)組成,但又是以后必須參考且很重要的數(shù)據(jù),需要長(zhǎng)期存儲(chǔ)和長(zhǎng)期可獲取,因此在歸檔時(shí)必須遵從相應(yīng)的規(guī)則進(jìn)行。
數(shù)據(jù)銷毀階段是指數(shù)據(jù)服務(wù)到期后進(jìn)行銷毀的過程,通常采用對(duì)數(shù)據(jù)及數(shù)據(jù)的存儲(chǔ)介質(zhì)物理刪除的操作手段,使數(shù)據(jù)徹底丟失且無法恢復(fù)。為保證后續(xù)審計(jì)需要,在銷毀時(shí)需要對(duì)銷毀內(nèi)容、時(shí)間、方式、核準(zhǔn)部門及人員等信息進(jìn)行登記審核。
基于生命周期進(jìn)行數(shù)據(jù)管理的流程主要分為:數(shù)據(jù)創(chuàng)建登記、數(shù)據(jù)解析存儲(chǔ)、數(shù)據(jù)加工處理、數(shù)據(jù)集成計(jì)算、數(shù)據(jù)服務(wù)應(yīng)用、數(shù)據(jù)歸檔保存、數(shù)據(jù)銷毀記錄等,如圖2 所示。
圖2 數(shù)據(jù)管理流程Fig.2 Data management processes
3.2.1 數(shù)據(jù)創(chuàng)建階段
在數(shù)據(jù)創(chuàng)建階段主要進(jìn)行數(shù)據(jù)創(chuàng)建和登記,科技文獻(xiàn)數(shù)據(jù)來源主要分為3 種類型:商業(yè)采購(gòu)數(shù)據(jù)、開放獲取數(shù)據(jù)、內(nèi)部自建數(shù)據(jù)。各數(shù)據(jù)來源提供不同的數(shù)據(jù)獲取方式,有些方式利于形成機(jī)器自動(dòng)化例行服務(wù),有些方式需要人工操作獲取數(shù)據(jù),有些方式利于頻繁地、輕量化的獲取數(shù)據(jù),有些方式則適用于大量數(shù)據(jù)的快速傳遞。每一種來源都有其獨(dú)特的數(shù)據(jù)接入形式,如表1 所示。
表1 科技文獻(xiàn)數(shù)據(jù)來源和接入形式Table 1 Sources and access forms of scientific and technical literature data
不同來源的數(shù)據(jù),接入形式各異,因此需要個(gè)性化定制多種工具,以滿足在數(shù)據(jù)創(chuàng)建階段對(duì)數(shù)據(jù)資產(chǎn)的完整接入,如表2 所示,從接口獲取、數(shù)據(jù)庫(kù)導(dǎo)入、存儲(chǔ)介質(zhì)拷貝、網(wǎng)絡(luò)下載、網(wǎng)絡(luò)采集等方面對(duì)數(shù)據(jù)創(chuàng)建工具進(jìn)行設(shè)計(jì)。
表2 數(shù)據(jù)創(chuàng)建工具Table 2 Data creation tools
3.2.2 數(shù)據(jù)存儲(chǔ)階段
在數(shù)據(jù)存儲(chǔ)階段主要進(jìn)行數(shù)據(jù)解析和存儲(chǔ),通過各類接入形式獲取的科技文獻(xiàn)數(shù)據(jù)主要是XML、數(shù)據(jù)表、JSON、文本文件等4 種類型,對(duì)比這幾種類型數(shù)據(jù)主要有以下特點(diǎn),如表3 所示。
表3 數(shù)據(jù)格式和特點(diǎn)Table 3 Data formats and features
綜合分析科技文獻(xiàn)數(shù)據(jù)的各種數(shù)據(jù)格式特點(diǎn),設(shè)計(jì)統(tǒng)一的文獻(xiàn)元數(shù)據(jù)存儲(chǔ)體系,對(duì)各類型數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),有助于處理、維護(hù)、集成、包含、審計(jì)和管理科技文獻(xiàn)數(shù)據(jù)。文獻(xiàn)元數(shù)據(jù)存儲(chǔ)體系重點(diǎn)描述了數(shù)據(jù)本身,如數(shù)據(jù)庫(kù)、數(shù)據(jù)元素、數(shù)據(jù)模型;數(shù)據(jù)所代表的概念,如業(yè)務(wù)流程、應(yīng)用系統(tǒng)、軟件代碼、技術(shù)基礎(chǔ)設(shè)施;數(shù)據(jù)和概念之間的連接和關(guān)系等,主要包含了業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)3 類,如表4 所示。
表4 科技文獻(xiàn)元數(shù)據(jù)存儲(chǔ)體系Table 4 Metadata storage system for scientific and technical literature
經(jīng)過統(tǒng)一文獻(xiàn)元數(shù)據(jù)存儲(chǔ)體系描述的科技文獻(xiàn)數(shù)據(jù)資源可以更好的解釋、組織、理解各類型數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)內(nèi)容、系統(tǒng)業(yè)務(wù)流程等。以業(yè)務(wù)元數(shù)據(jù)為例,根據(jù)各來源數(shù)據(jù)組織結(jié)構(gòu)的特點(diǎn),為每類實(shí)體設(shè)計(jì)獨(dú)立存儲(chǔ)結(jié)構(gòu),數(shù)據(jù)組織、字段命名符合JATS 數(shù)據(jù)標(biāo)準(zhǔn)、NSTL 統(tǒng)一文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)等相關(guān)規(guī)范,如圖3 所示為科技論文元數(shù)據(jù)結(jié)構(gòu)。
圖3 科技論文元數(shù)據(jù)結(jié)構(gòu)樣例Fig.3 Example of a technical paper metadata structure
3.2.3 數(shù)據(jù)預(yù)處理階段在數(shù)據(jù)預(yù)處理階段主要進(jìn)行數(shù)據(jù)加工和處理,建設(shè)數(shù)據(jù)預(yù)處理工具,實(shí)現(xiàn)對(duì)各類型數(shù)據(jù)的格式預(yù)處理、解析、轉(zhuǎn)換、結(jié)構(gòu)化,并存儲(chǔ)到目標(biāo)存儲(chǔ)系統(tǒng),如圖4所示。
圖4 數(shù)據(jù)預(yù)處理流程Fig.4 Process of data pre-processing
首先,根據(jù)數(shù)據(jù)來源、數(shù)據(jù)量、接收方式、接收頻率的不同,通過簡(jiǎn)單配置數(shù)據(jù)解析規(guī)則,歸納高復(fù)用的數(shù)據(jù)解析模塊,設(shè)計(jì)基于HTML、CSV、XML 和JOSN 等4 套主要格式的數(shù)據(jù)解析引擎,形成一套半自動(dòng)的數(shù)據(jù)結(jié)構(gòu)化解析處理機(jī)制,實(shí)現(xiàn)對(duì)數(shù)據(jù)資源的自助收割兼具批量運(yùn)行的數(shù)據(jù)組件,為數(shù)據(jù)深加工做好支撐工作。
然后,對(duì)多來源數(shù)據(jù)進(jìn)行解析、規(guī)范化,生成符合元數(shù)據(jù)標(biāo)準(zhǔn)格式的數(shù)據(jù)倉(cāng)庫(kù),同時(shí)構(gòu)建鏡像索引,為數(shù)據(jù)計(jì)算提供離線、在線的讀取基礎(chǔ)。同時(shí)完成定時(shí)功能實(shí)現(xiàn)部分?jǐn)?shù)據(jù)源的自動(dòng)更新。
最后,對(duì)匯集的具體字段如學(xué)者、機(jī)構(gòu)、關(guān)鍵詞、來源等內(nèi)容進(jìn)行規(guī)范化處理,保證從各數(shù)據(jù)源采集來的數(shù)據(jù)可以進(jìn)行統(tǒng)一的清洗、規(guī)范、管理和使用。同時(shí)不斷完善清洗規(guī)則、清洗庫(kù),清理冗余字段,提升數(shù)據(jù)質(zhì)量,為應(yīng)用服務(wù)提供有效的數(shù)據(jù)支撐。
3.2.4 數(shù)據(jù)計(jì)算階段
在數(shù)據(jù)計(jì)算階段主要進(jìn)行數(shù)據(jù)集成和計(jì)算,主要涉及的關(guān)鍵步驟包括數(shù)據(jù)豐富化加工、實(shí)體關(guān)系抽取和知識(shí)圖譜構(gòu)建等。
數(shù)據(jù)豐富化是基于數(shù)據(jù)已有特征進(jìn)行信息擴(kuò)展,提升數(shù)據(jù)信息量。例如基于文獻(xiàn)元數(shù)據(jù)進(jìn)行增強(qiáng)關(guān)鍵詞擴(kuò)展,基于摘要進(jìn)行知識(shí)元擴(kuò)展,基于內(nèi)容進(jìn)行中圖分類法擴(kuò)展等。數(shù)據(jù)加工通常是人工參與的數(shù)據(jù)加工工作,是最常見的數(shù)據(jù)質(zhì)量提升途徑。加工過程一般分為加工編輯和審核兩個(gè)階段,具有較高的數(shù)據(jù)質(zhì)量保障。數(shù)據(jù)融合是對(duì)同一數(shù)據(jù)的多源處理策略,通常采用優(yōu)先級(jí)篩選和優(yōu)先占位策略,對(duì)不同來源不同類型的數(shù)據(jù)確定優(yōu)先等級(jí),質(zhì)量越高的數(shù)據(jù)優(yōu)先級(jí)越高,融合時(shí)使用來源等級(jí)更高的數(shù)據(jù)字段覆蓋來源等級(jí)低的字段。當(dāng)數(shù)據(jù)字段不能獨(dú)立支撐數(shù)據(jù)融合時(shí),可以采取信息塊的模式進(jìn)行綜合融合,如圖5 為數(shù)據(jù)融合流程設(shè)計(jì)。
圖5 數(shù)據(jù)融合流程設(shè)計(jì)Fig.5 Design of data fusion process
數(shù)據(jù)中往往記錄了多個(gè)維度或?qū)嶓w的信息,實(shí)體抽取是基于預(yù)處理和豐富化加工后的數(shù)據(jù),根據(jù)應(yīng)用需求或知識(shí)圖譜的設(shè)計(jì),定義科研實(shí)體和實(shí)體間的多維關(guān)系模型,從科技文獻(xiàn)元數(shù)據(jù)中提取結(jié)構(gòu)化知識(shí)、顯化數(shù)據(jù)間的關(guān)聯(lián)關(guān)系、挖掘更深層次的數(shù)據(jù)內(nèi)涵、構(gòu)建學(xué)術(shù)知識(shí)網(wǎng)絡(luò)關(guān)系,形成數(shù)據(jù)知識(shí)圖譜,支撐科技文獻(xiàn)數(shù)據(jù)間的關(guān)聯(lián)信息揭示,支持智能知識(shí)服務(wù)能力。比如從一篇文獻(xiàn)中抽取的多個(gè)作者實(shí)體,隱含著合作作者的關(guān)系。
3.2.5 數(shù)據(jù)服務(wù)階段
在數(shù)據(jù)服務(wù)階段主要進(jìn)行數(shù)據(jù)服務(wù)和應(yīng)用,數(shù)據(jù)檢索是數(shù)據(jù)服務(wù)的主要形式之一,是將數(shù)據(jù)價(jià)值顯化的重要手段。采用SpringCloud 分布式技術(shù)體系,設(shè)計(jì)基于Eureka、Ribbon、Security、Springboot 等組件的微服務(wù)架構(gòu),通過Restful API 接口實(shí)現(xiàn)對(duì)應(yīng)用的支撐。微服務(wù)技術(shù)具有擴(kuò)展靈活、部署方便、自動(dòng)負(fù)載均衡等特點(diǎn),以集群模式為多業(yè)務(wù)提供強(qiáng)穩(wěn)定、高性能、低延遲的數(shù)據(jù)服務(wù)。如圖6 是數(shù)據(jù)服務(wù)架構(gòu)。
圖6 數(shù)據(jù)服務(wù)架構(gòu)設(shè)計(jì)Fig.6 Design of data service architecture
首先,構(gòu)建多節(jié)點(diǎn)數(shù)據(jù)注冊(cè)總線,實(shí)現(xiàn)動(dòng)態(tài)服務(wù)代理,提供總線基礎(chǔ)管理:查看總線使用狀態(tài)接口,配置安全、注冊(cè)、監(jiān)控等功能,通過發(fā)布訂閱通信應(yīng)用程序共享信息,通過核心的消息系統(tǒng)負(fù)責(zé)連接端點(diǎn)和他們之間路由器,以實(shí)現(xiàn)數(shù)據(jù)總線的合理配置。
其次,構(gòu)建基礎(chǔ)設(shè)施管理群和服務(wù)提供群,部署登錄服務(wù)、配置服務(wù)、查詢服務(wù)等多個(gè)應(yīng)用服務(wù),可共享數(shù)據(jù)通路,也可獨(dú)立部署使用。
最后,構(gòu)建業(yè)務(wù)服務(wù)消費(fèi)群,部署數(shù)據(jù)監(jiān)控服務(wù),數(shù)據(jù)分析服務(wù)、用戶畫像服務(wù)、檢索系統(tǒng)服務(wù)等,同時(shí)支持各類業(yè)務(wù)服務(wù)的靈活擴(kuò)展,只需要遵循協(xié)議對(duì)接到數(shù)據(jù)總線即可。用戶根據(jù)需求和應(yīng)用類型選擇適當(dāng)?shù)慕涌?,通過簡(jiǎn)單配置IP、數(shù)據(jù)通路、offset 等信息,即可通過總線輕松獲取數(shù)據(jù)。
3.2.6 數(shù)據(jù)歸檔階段
在數(shù)據(jù)歸檔階段主要進(jìn)行數(shù)據(jù)的歸檔和保存,在大數(shù)據(jù)成為了關(guān)鍵資源的今天,歸檔各種類型的數(shù)據(jù)是非常重要的,是數(shù)據(jù)量和數(shù)據(jù)體量積累的重要階段。在數(shù)據(jù)歸檔時(shí)既要考慮存儲(chǔ)海量數(shù)據(jù)的設(shè)備成本,也要考慮存儲(chǔ)海量數(shù)據(jù)的時(shí)間成本。
基于整個(gè)數(shù)據(jù)生命周期,制定符合業(yè)務(wù)需求的數(shù)據(jù)歸檔策略。首先是識(shí)別哪些數(shù)據(jù)應(yīng)該被歸檔,以及需要被歸檔多長(zhǎng)時(shí)間。其次,根據(jù)數(shù)據(jù)特性將數(shù)據(jù)存儲(chǔ)在相應(yīng)的存儲(chǔ)設(shè)備上,始終將歸檔數(shù)據(jù)保留在高性能存儲(chǔ)平臺(tái)上,會(huì)導(dǎo)致不必要的成本和人力資源的消耗。對(duì)經(jīng)常使用的數(shù)據(jù)且重要級(jí)別較高的數(shù)據(jù),歸檔在高成本、高容量的存儲(chǔ)系統(tǒng)上,比如固態(tài)硬盤;對(duì)經(jīng)常使用的數(shù)據(jù)且重要級(jí)別一般的數(shù)據(jù),歸檔在低成本、高容量的存儲(chǔ)系統(tǒng)上,比如磁盤陣列;對(duì)不經(jīng)常使用但重要級(jí)別較高的數(shù)據(jù),歸檔在低成本、高容量的存儲(chǔ)系統(tǒng)上,比如磁帶設(shè)備;對(duì)不再使用的數(shù)據(jù)直接物理刪除。最后,制定數(shù)據(jù)訪問策略和安全機(jī)制,對(duì)具備訪問歸檔數(shù)據(jù)的用戶賦予相關(guān)權(quán)限。
3.2.7 數(shù)據(jù)銷毀階段
在數(shù)據(jù)銷毀階段主要進(jìn)行數(shù)據(jù)的銷毀和記錄,數(shù)據(jù)銷毀階段是指數(shù)據(jù)到期后進(jìn)行銷毀的過程,數(shù)據(jù)生命周期的最后階段需要安全銷毀,需要制定銷毀計(jì)劃,來定義進(jìn)行數(shù)據(jù)銷毀的時(shí)間和方式。通??梢酝ㄟ^機(jī)器方式或人工方式進(jìn)行在線數(shù)據(jù)銷毀和歸檔數(shù)據(jù)銷毀。同時(shí),為保障后續(xù)業(yè)務(wù)需要,應(yīng)對(duì)銷毀的數(shù)據(jù)內(nèi)容、銷毀時(shí)間、銷毀方式、銷毀人員等信息進(jìn)行登記,以確保數(shù)據(jù)銷毀的安全性和全面性。
基于科睿唯安核心數(shù)據(jù)集,從數(shù)據(jù)接收、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)計(jì)算、數(shù)據(jù)服務(wù)、數(shù)據(jù)歸檔、數(shù)據(jù)銷毀7 個(gè)階段嚴(yán)格按照本文設(shè)計(jì)的數(shù)據(jù)管理體系開展基于生命周期的WOS BP 數(shù)據(jù)管理實(shí)踐。然后依照數(shù)據(jù)管理目標(biāo)從完整性、唯一性、實(shí)時(shí)性、有效性、準(zhǔn)確性、一致性等6 個(gè)維度進(jìn)行管理實(shí)踐與綜合評(píng)價(jià)。最后,依據(jù)評(píng)價(jià)結(jié)果得出結(jié)論:本文提出的基于生命周期理論的科技文獻(xiàn)管理體系適用性良好。下面就具體的評(píng)價(jià)指標(biāo)進(jìn)行說明。
完整性是評(píng)價(jià)數(shù)據(jù)缺失的情況,包括記錄數(shù)缺失、字段缺失,屬性缺失等,可以在數(shù)據(jù)接入前或接入后進(jìn)行監(jiān)控。以數(shù)據(jù)字段完整性監(jiān)測(cè)為例,在數(shù)據(jù)接入后,對(duì)147 個(gè)數(shù)據(jù)項(xiàng)進(jìn)行監(jiān)測(cè) (圖7),實(shí)時(shí)評(píng)估有值數(shù)據(jù)字段和空值數(shù)據(jù)字段,對(duì)比有值/空值占比,得出數(shù)據(jù)完整性評(píng)價(jià)。據(jù)統(tǒng)計(jì),截止到2021 年12 月,147個(gè)數(shù)據(jù)項(xiàng)有值占比為59.75%,必備字段 (WOS 入藏號(hào)、出版年份、文獻(xiàn)標(biāo)題、作者名稱、WOS 分類、發(fā)表期刊標(biāo)題等) 有值占比為99.22%。
圖7 數(shù)據(jù)完整性評(píng)價(jià)Fig.7 Evaluation of data integrity
唯一性是評(píng)價(jià)數(shù)據(jù)重復(fù)的情況,包括數(shù)據(jù)實(shí)體是否重復(fù)、屬性是否重復(fù)等,可以在數(shù)據(jù)接入前或接入后進(jìn)行監(jiān)控。針對(duì)WOS BP 數(shù)據(jù)設(shè)計(jì)專業(yè)數(shù)據(jù)字典(圖8),定義12 類數(shù)據(jù)模塊,覆蓋文獻(xiàn)、作者、圖書、分類、會(huì)議、通訊作者、基金項(xiàng)目、作者機(jī)構(gòu)、出版信息、參考文獻(xiàn)、作者信息、發(fā)表期刊等內(nèi)容,通過對(duì)數(shù)據(jù)內(nèi)容進(jìn)行監(jiān)控約束,避免出現(xiàn)數(shù)據(jù)重復(fù)的情況。以數(shù)據(jù)入藏號(hào)為例,數(shù)據(jù)唯一性達(dá)到99.23%。
圖8 數(shù)據(jù)唯一性評(píng)價(jià)Fig.8 Evaluation of data uniqueness
實(shí)時(shí)性是評(píng)價(jià)數(shù)據(jù)及時(shí)的情況,是評(píng)估數(shù)據(jù)體現(xiàn)特定時(shí)間點(diǎn)的真實(shí)程度,包括數(shù)據(jù)從發(fā)表到接收的實(shí)時(shí)性、數(shù)據(jù)從接入到服務(wù)的實(shí)時(shí)性,可以在數(shù)據(jù)接入后進(jìn)行監(jiān)控。以數(shù)據(jù)從接入到服務(wù)的實(shí)時(shí)性為例,以接收第23 周數(shù)據(jù)后和WOS 官方6.4 日數(shù)據(jù)量對(duì)比:1980—2019 年歷史數(shù)據(jù)相差很小,個(gè)位數(shù)到十位數(shù)之間;2020 年數(shù)據(jù)相差百位數(shù);2021 年數(shù)據(jù)相差千位數(shù),是數(shù)據(jù)處理的正常范圍,如圖9 所示。
圖9 數(shù)據(jù)實(shí)時(shí)性評(píng)價(jià)Fig.9 Evaluation of data real-time
有效性是評(píng)價(jià)數(shù)據(jù)項(xiàng)符合規(guī)則和定義的情況,包括數(shù)據(jù)項(xiàng)是否符合類型、格式、種類、范圍等約束,是否符合業(yè)務(wù)邏輯,是否符合值域約束等,可以在數(shù)據(jù)接入后進(jìn)行監(jiān)控。以數(shù)據(jù)項(xiàng)是否符合類型約束為例,為147 個(gè)數(shù)據(jù)項(xiàng)分別定義數(shù)據(jù)屬性區(qū)間和類型備選,嚴(yán)格控制每個(gè)數(shù)據(jù)項(xiàng)符合應(yīng)有的類型約束。
準(zhǔn)確性是評(píng)價(jià)數(shù)據(jù)錯(cuò)誤情況,包括數(shù)據(jù)集合、數(shù)據(jù)條數(shù)、數(shù)據(jù)項(xiàng)等內(nèi)容是否與真實(shí)數(shù)據(jù)保持一致,可以在數(shù)據(jù)接入后進(jìn)行監(jiān)控。以數(shù)據(jù)項(xiàng)準(zhǔn)確性評(píng)價(jià)為例,隨機(jī)抽取一條數(shù)據(jù)記錄,對(duì)比WOS 官網(wǎng)數(shù)據(jù)內(nèi)容,包括文獻(xiàn)信息、發(fā)表信息、分類信息、作者信息、基金項(xiàng)目信息等(圖10),數(shù)據(jù)準(zhǔn)確性為100%。
圖10 數(shù)據(jù)準(zhǔn)確性評(píng)價(jià)Fig.10 Evaluation of data accuracy
一致性是評(píng)價(jià)數(shù)據(jù)符合標(biāo)準(zhǔn)的情況,也是多次對(duì)同一數(shù)據(jù)進(jìn)行描述而不存在差異的評(píng)價(jià),包括數(shù)據(jù)包是否符合約定形式,數(shù)據(jù)是否符合數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)項(xiàng)是否有漏掉或增加等,可以在數(shù)據(jù)接入前或接入后進(jìn)行監(jiān)控。以數(shù)據(jù)符合標(biāo)準(zhǔn)一致性為例,對(duì)接收的WOS BP 數(shù)據(jù)進(jìn)行專項(xiàng)核查,一致性達(dá)90%。
本文以數(shù)據(jù)生命周期為出發(fā)點(diǎn),探究科技文獻(xiàn)生命周期管理的關(guān)鍵核心,立足數(shù)據(jù)管理全流程應(yīng)用,以科技文獻(xiàn)數(shù)據(jù)為基礎(chǔ),從創(chuàng)建、存儲(chǔ)、預(yù)處理、計(jì)算、服務(wù)、歸檔、銷毀7 個(gè)階段為重點(diǎn)實(shí)施步驟進(jìn)行實(shí)踐探索,基于WOS BP 核心數(shù)據(jù)集實(shí)施了上文提出的數(shù)據(jù)生命周期管理模型,然后從數(shù)據(jù)質(zhì)量評(píng)估維度進(jìn)行了完整性、唯一性、實(shí)時(shí)性、有效性、準(zhǔn)確性、一致性等6 個(gè)維度的評(píng)價(jià)核驗(yàn),基本解決了科技文獻(xiàn)數(shù)據(jù)在每個(gè)生命周期階段都可以進(jìn)行有效的管理和應(yīng)用問題。最終管理模型初具成效,并達(dá)到良好的服務(wù)效果。
但仍存在很多問題和挑戰(zhàn),在接下來的工作中將進(jìn)一步完善和改進(jìn)。首先,在科技文獻(xiàn)生命周期管理中集成人工智能技術(shù)引擎,緊隨國(guó)家 “新基建” 戰(zhàn)略部署,讓數(shù)據(jù)管理更智能更全面。其次,在數(shù)據(jù)生命周期管理中擴(kuò)展更多種類型和來源的科技文獻(xiàn)資源,打通多模態(tài)數(shù)據(jù)智能管理渠道。最后,進(jìn)一步提升數(shù)據(jù)生命周期管理的實(shí)際應(yīng)用效果,打造精細(xì)化、細(xì)粒度的數(shù)據(jù)形態(tài),提升數(shù)據(jù)服務(wù)水平。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2022年6期