□ 曾文 徐碩 張運(yùn)良/中國(guó)科學(xué)技術(shù)信息研究所 北京 100038
數(shù)字圖書(shū)館數(shù)字化文獻(xiàn)再處理工具的開(kāi)發(fā)與實(shí)踐**本文受國(guó)家自然科學(xué)基金項(xiàng)目“支持面向特定情報(bào)分析應(yīng)用的知識(shí)組織系統(tǒng)快速構(gòu)建關(guān)鍵問(wèn)題研究”(編號(hào):71203208)、“十二五”國(guó)家科技支撐計(jì)劃課題“基于多源信息的電動(dòng)汽車數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究”(編號(hào):2013BAG06B01)的支持。
□ 曾文 徐碩 張運(yùn)良/中國(guó)科學(xué)技術(shù)信息研究所 北京 100038
數(shù)字圖書(shū)館運(yùn)用計(jì)算機(jī)系統(tǒng)管理各種載體文獻(xiàn)的加工與服務(wù),通過(guò)網(wǎng)絡(luò)和通信技術(shù)支持用戶訪問(wèn)數(shù)字化文獻(xiàn)信息資源。數(shù)字圖書(shū)館對(duì)海量數(shù)據(jù)的處理能力是保證數(shù)據(jù)質(zhì)量、支持與深化數(shù)字圖書(shū)館服務(wù)功能的基礎(chǔ)。文章論述數(shù)字圖書(shū)館中數(shù)字文獻(xiàn)再處理工具研究的重要性,介紹和闡述已有工作的開(kāi)展情況,以及結(jié)構(gòu)化的數(shù)字文獻(xiàn)再處理工具的開(kāi)發(fā)與實(shí)踐工作。
數(shù)字圖書(shū)館,結(jié)構(gòu)化數(shù)據(jù),數(shù)字化文獻(xiàn),再處理工具
21世紀(jì)以來(lái),計(jì)算機(jī)通信與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,使網(wǎng)絡(luò)已經(jīng)成為人們獲取信息的重要途徑,而網(wǎng)絡(luò)信息資源正在以驚人的速度不斷增加,需要存儲(chǔ)和傳播的信息量也越來(lái)越大,信息的種類和形式也越來(lái)越豐富,數(shù)字圖書(shū)館應(yīng)運(yùn)而生。數(shù)字圖書(shū)館作為數(shù)字化信息倉(cāng)儲(chǔ),能夠存儲(chǔ)大量各種形式的信息,特別是文獻(xiàn)信息數(shù)據(jù)是數(shù)字圖書(shū)館處理的重點(diǎn)內(nèi)容之一。即數(shù)字化文獻(xiàn)數(shù)據(jù)的處理工作是支持?jǐn)?shù)字圖書(shū)館技術(shù)服務(wù)的數(shù)據(jù)基礎(chǔ),良好的數(shù)字化存儲(chǔ)資源是構(gòu)建優(yōu)質(zhì)技術(shù)和服務(wù)的重要保障。目前,隨著各類數(shù)字化文獻(xiàn)數(shù)據(jù)資源的豐富,這些來(lái)自不同渠道的原始數(shù)據(jù)格式和質(zhì)量不盡相同,而且數(shù)據(jù)量的規(guī)模日益龐大。因此,這些數(shù)據(jù)通過(guò)數(shù)字圖書(shū)館這個(gè)窗口面向用戶服務(wù)之前,必須經(jīng)過(guò)對(duì)其進(jìn)行數(shù)字化的一系列基本處理過(guò)程。顯而易見(jiàn),自動(dòng)化處理這些海量的數(shù)字化文獻(xiàn)數(shù)據(jù)是必要的。本文的研究工作正是基于這樣的研究背景提出和開(kāi)展的。
國(guó)內(nèi)數(shù)字圖書(shū)館經(jīng)過(guò)十幾年來(lái)的發(fā)展,文獻(xiàn)資源的數(shù)字化建設(shè)得到了極大的進(jìn)步[1,2]。目前多數(shù)的圖書(shū)館基本上是采用本地加工和外包加工的方式,使用的數(shù)字化加工系統(tǒng)有TPI、TBS、TRS、DIPS等數(shù)字資源加工系統(tǒng),這些系統(tǒng)實(shí)現(xiàn)已有和現(xiàn)有的紙質(zhì)文獻(xiàn)的基本加工和處理過(guò)程,將文獻(xiàn)資源制作成為數(shù)字化文獻(xiàn)信息資源,進(jìn)行儲(chǔ)存和管理,豐富虛擬圖書(shū)館的文獻(xiàn)信息資源,來(lái)進(jìn)行網(wǎng)絡(luò)化檢索和閱讀等服務(wù),從而促進(jìn)數(shù)字圖書(shū)館的發(fā)展。這類信息資源又可分為結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)字資源。這些加工和處理實(shí)現(xiàn)文檔掃描、條目著錄、文本化、標(biāo)引、掛接等一系列操作過(guò)程,但實(shí)際上這些操作只是文獻(xiàn)資源層處理的基本環(huán)節(jié),并未實(shí)現(xiàn)對(duì)數(shù)字化資源的深層次數(shù)據(jù)處理、組織和整合。隨著文獻(xiàn)資源逐年海量式的遞增,這種資源處理方式已經(jīng)難以更好提高數(shù)字圖書(shū)館文獻(xiàn)的檢全率以及檢準(zhǔn)率,也難以滿足圖書(shū)館及情報(bào)研究機(jī)構(gòu)對(duì)文獻(xiàn)資源深層次信息挖掘和分析的需要,對(duì)這些文獻(xiàn)數(shù)據(jù)資源的再處理和整合技術(shù)研究是必要的。
目前,國(guó)內(nèi)外很多研究人員從事對(duì)文本信息挖掘和處理的研究工作,并取得相應(yīng)的研究成果,其中包括對(duì)文本數(shù)據(jù)的關(guān)鍵術(shù)語(yǔ)抽取,文本數(shù)據(jù)內(nèi)容自動(dòng)分析、語(yǔ)義分析等涉及數(shù)據(jù)內(nèi)容挖掘方面的研究工作[3]。但這些研究成果基本是建立在數(shù)據(jù)規(guī)整、數(shù)量規(guī)模有限的文本數(shù)據(jù)實(shí)驗(yàn)基礎(chǔ)之上的,當(dāng)實(shí)際應(yīng)用于數(shù)字圖書(shū)館這種海量數(shù)據(jù)時(shí),無(wú)法完全實(shí)施已有技術(shù)。因?yàn)榧夹g(shù)的實(shí)施是建立在良好的數(shù)據(jù)之上的,目前數(shù)字圖書(shū)館的海量數(shù)字化文本數(shù)據(jù)事實(shí)上還不具備這種良好的數(shù)據(jù)質(zhì)量,如何處理已有和未來(lái)的數(shù)字化文獻(xiàn)資源使之符合技術(shù)研究的應(yīng)用需求,是目前數(shù)字圖書(shū)館以及情報(bào)學(xué)研究人員在實(shí)際工作中面臨和需要解決的主要問(wèn)題之一。
3.1 數(shù)據(jù)分析
近年來(lái),數(shù)字圖書(shū)館的應(yīng)用已不僅僅是作為數(shù)字文獻(xiàn)數(shù)據(jù)資源的簡(jiǎn)單原文傳遞的服務(wù)窗口,數(shù)字圖書(shū)館數(shù)據(jù)資源的豐富和增加,對(duì)于數(shù)字化文獻(xiàn)的處理、存儲(chǔ)、維護(hù)和面向用戶的檢索機(jī)制都提出了前所未有的挑戰(zhàn)。如何挖掘海量文獻(xiàn)數(shù)據(jù)背后的隱含知識(shí)和技術(shù)信息、文獻(xiàn)之間關(guān)聯(lián)信息[4],以及學(xué)科技術(shù)研究趨勢(shì)分析和預(yù)測(cè)等,都是圖書(shū)館及情報(bào)學(xué)研究領(lǐng)域開(kāi)展研究的技術(shù)熱點(diǎn)。但是開(kāi)展這些研究面臨的首要問(wèn)題都是數(shù)據(jù)的獲取和處理問(wèn)題,已有的數(shù)字化文獻(xiàn)加工處理方式并不能滿足這些需求。此外,通過(guò)我們對(duì)數(shù)字圖書(shū)館現(xiàn)有的數(shù)字化資源進(jìn)行實(shí)際調(diào)研發(fā)現(xiàn),這些已加工處理的數(shù)字化數(shù)據(jù)資源的質(zhì)量和規(guī)范程度,距離現(xiàn)有技術(shù)的實(shí)用化實(shí)現(xiàn)還有很大的差距。主要表現(xiàn)在如下幾個(gè)方面:
(1)數(shù)據(jù)的存儲(chǔ)內(nèi)容存在加工或錄入的錯(cuò)誤,這些錯(cuò)誤的存在對(duì)于海量數(shù)據(jù)集來(lái)說(shuō),人工識(shí)別和解決都是相當(dāng)困難的,智能化加工處理技術(shù)是必須的。
(2)國(guó)內(nèi)不同的加工單位或文獻(xiàn)供應(yīng)商由于采用數(shù)字化加工方式不同導(dǎo)致數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)、描述等不盡相同,數(shù)據(jù)需要進(jìn)行結(jié)構(gòu)映射和結(jié)構(gòu)描述歸一化加工。
(3)對(duì)于購(gòu)買的國(guó)外數(shù)據(jù)庫(kù)的數(shù)據(jù),我們分析時(shí)需要從數(shù)據(jù)庫(kù)中導(dǎo)出相應(yīng)的數(shù)據(jù),這些數(shù)據(jù)導(dǎo)出后的格式同樣存在需要二次格式轉(zhuǎn)換和加工的問(wèn)題。
(4)對(duì)于數(shù)據(jù)內(nèi)容的深層次信息挖掘和分析需要涉及更多數(shù)據(jù)內(nèi)容的細(xì)節(jié),不單單是目前已加工的文章標(biāo)題、摘要信息等數(shù)據(jù)字段,還要涉及如中文作者姓名消歧、外文作者姓名要區(qū)分作者的姓與名的信息,作者單位消歧、引文、正文等數(shù)據(jù)信息。對(duì)于這些特殊數(shù)據(jù)字段的內(nèi)容,現(xiàn)有的數(shù)字資源數(shù)據(jù)庫(kù)基本并未提供直接可用的內(nèi)容及文本格式,所以需要對(duì)已有數(shù)字化數(shù)據(jù)進(jìn)行智能化的再處理,人工再處理是不現(xiàn)實(shí)的。
基于上述數(shù)據(jù)分析的情況,開(kāi)展對(duì)已有數(shù)字化文獻(xiàn)再處理工具的開(kāi)發(fā)與實(shí)踐探索是必要的。
3.2 研究工作的意義
對(duì)于數(shù)字圖書(shū)館的數(shù)字化文獻(xiàn)資源進(jìn)行再處理的重要意義在于,一是對(duì)海量數(shù)據(jù)信息的深層次挖掘技術(shù)的實(shí)施需要數(shù)字化文獻(xiàn)資源再處理過(guò)程來(lái)提高現(xiàn)有數(shù)據(jù)的質(zhì)量。二是數(shù)字圖書(shū)館目前提供給用戶的查詢檢索服務(wù)需要改變目前單純依賴加工的題錄數(shù)據(jù)中作者的標(biāo)題、關(guān)鍵詞和摘要信息進(jìn)行檢索、簡(jiǎn)單的推送原文的展示數(shù)字圖書(shū)館的數(shù)字化文獻(xiàn)數(shù)據(jù)的方式,這種推送和展示方式使得數(shù)字圖書(shū)館的服務(wù)單一化,缺乏深度知識(shí)的推介功能,不符合用戶對(duì)數(shù)據(jù)信息的深層次技術(shù)信息需求的需要。盡管很多研究機(jī)構(gòu)已經(jīng)在從事這些方面的研究工作,但是研究常常是獨(dú)立的,并源自局部的、數(shù)量有限的數(shù)據(jù)來(lái)從事研究工作,即這些數(shù)據(jù)來(lái)源并非完全取自數(shù)字圖書(shū)館的真實(shí)數(shù)據(jù)而做的研究工作,所以其應(yīng)用性欠缺。而在圖書(shū)館研究領(lǐng)域,對(duì)于數(shù)據(jù)再處理研究工作,往往是基于需要去抽取已有數(shù)據(jù)庫(kù)的數(shù)據(jù),進(jìn)行實(shí)驗(yàn)研究,并未形成實(shí)用化處理工具。因此,對(duì)于數(shù)字化資源的再處理進(jìn)行實(shí)際的開(kāi)發(fā)與實(shí)踐工作是必要的。我們的研究工作首先是基于現(xiàn)有數(shù)字圖書(shū)館中的結(jié)構(gòu)化數(shù)據(jù)資源,開(kāi)展相應(yīng)的研究和實(shí)踐工作。
國(guó)內(nèi)數(shù)字圖書(shū)館目前除了具有中文文獻(xiàn)數(shù)字化資源外,還包括外文文獻(xiàn)數(shù)字化資源,其中對(duì)部分外文文獻(xiàn)數(shù)據(jù)的結(jié)構(gòu)化處理方式與中文文獻(xiàn)一樣,也是通過(guò)掃描、條目著錄、文本化、標(biāo)引、掛接等一系列基本操作過(guò)程,其他外文文獻(xiàn)則是購(gòu)買的全文數(shù)據(jù)庫(kù),通過(guò)鏈接訪問(wèn)國(guó)外文獻(xiàn)服務(wù)機(jī)構(gòu)提供的外文文獻(xiàn)資源。對(duì)于國(guó)內(nèi)數(shù)字圖書(shū)館的數(shù)字化文獻(xiàn)數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),我們對(duì)其的再處理直接取自經(jīng)過(guò)一次加工處理后的結(jié)構(gòu)化數(shù)字文獻(xiàn)數(shù)據(jù),進(jìn)行相應(yīng)的二次需求處理。目前我們的工作以期刊文獻(xiàn)數(shù)據(jù)為研究重點(diǎn),對(duì)來(lái)自不同供應(yīng)商的結(jié)構(gòu)化數(shù)字資源,我們需要統(tǒng)一結(jié)構(gòu)和抽取字段內(nèi)容重新處理并存儲(chǔ),以為深層次的研究服務(wù),這種深層次研究包括文獻(xiàn)之間的內(nèi)容關(guān)聯(lián)、技術(shù)關(guān)聯(lián)、知識(shí)信息挖掘和分析等內(nèi)容。而對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)處理研究是我們?nèi)蘸蟮墓ぷ髦攸c(diǎn)內(nèi)容之一。目前,我們已經(jīng)先后研究并處理了部分結(jié)構(gòu)化數(shù)據(jù),如期刊文獻(xiàn)數(shù)據(jù)、專利文獻(xiàn)數(shù)據(jù)和外文數(shù)據(jù)庫(kù)數(shù)據(jù)等。
圖1 數(shù)字化文獻(xiàn)再處理的基本流程
4.1 結(jié)構(gòu)化數(shù)字文獻(xiàn)再處理的關(guān)鍵技術(shù)和基本處理流程
結(jié)構(gòu)化數(shù)字文獻(xiàn)再處理涉及的主要關(guān)鍵技術(shù)問(wèn)題是數(shù)據(jù)的加工和存儲(chǔ)技術(shù)。首先我們將結(jié)構(gòu)化的數(shù)字文獻(xiàn)數(shù)據(jù)導(dǎo)出成可再處理的統(tǒng)一數(shù)據(jù)格式,例如XML格式。
具體的加工技術(shù)包括:1)數(shù)據(jù)元素的識(shí)別,即自動(dòng)識(shí)別數(shù)據(jù)資源中說(shuō)明和攜帶的數(shù)字化文獻(xiàn)數(shù)據(jù)資源的信息,重點(diǎn)是對(duì)原有結(jié)構(gòu)化數(shù)據(jù)中并未提供的數(shù)據(jù)元素信息進(jìn)行整合和抽取。2)數(shù)據(jù)內(nèi)容的清洗,針對(duì)結(jié)構(gòu)化數(shù)字文獻(xiàn)數(shù)據(jù)存在前期加工處理的錯(cuò)誤現(xiàn)象,在數(shù)據(jù)資源存儲(chǔ)之前,首先需要對(duì)數(shù)據(jù)資源進(jìn)行必要的自動(dòng)“清洗”處理,去除不規(guī)范的字符和符號(hào)等,否則導(dǎo)入數(shù)據(jù)庫(kù)的過(guò)程中會(huì)出現(xiàn)不必要的數(shù)據(jù)導(dǎo)入錯(cuò)誤,而且影響日后數(shù)據(jù)整合和分析質(zhì)量。
存儲(chǔ)技術(shù)包括:1)建立數(shù)據(jù)庫(kù),用于存儲(chǔ)處理后的數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的修正和消岐結(jié)果進(jìn)行實(shí)時(shí)存儲(chǔ)。2)將自動(dòng)識(shí)別的數(shù)據(jù)資源內(nèi)容與存儲(chǔ)的數(shù)據(jù)庫(kù)中的字段實(shí)現(xiàn)自動(dòng)匹配,并自動(dòng)存儲(chǔ)在相應(yīng)的數(shù)據(jù)庫(kù)字段內(nèi)。
為此,我們?cè)O(shè)計(jì)了如圖1所示的數(shù)字化文獻(xiàn)再處理的基本處理流程。
流程圖中的關(guān)鍵技術(shù)環(huán)節(jié)即實(shí)現(xiàn)對(duì)數(shù)字化數(shù)據(jù)資源的數(shù)據(jù)加工和存儲(chǔ),它主要包含:一是數(shù)據(jù)元素的識(shí)別,數(shù)據(jù)內(nèi)容的“清洗”處理環(huán)節(jié);對(duì)于原有結(jié)構(gòu)化數(shù)據(jù)中已有的數(shù)據(jù)字段,通過(guò)辨識(shí)數(shù)據(jù)字段信息,抽取相應(yīng)數(shù)據(jù)字段中的數(shù)據(jù)內(nèi)容;對(duì)于結(jié)構(gòu)化數(shù)據(jù)中未加工的數(shù)據(jù)字段,則需根據(jù)整個(gè)的數(shù)據(jù)內(nèi)容,甚至通過(guò)全文數(shù)據(jù)和網(wǎng)上其他相關(guān)資源的內(nèi)容作參考,設(shè)計(jì)相應(yīng)的自動(dòng)處理方案實(shí)現(xiàn)數(shù)據(jù)整合和抽取;二是實(shí)現(xiàn)數(shù)據(jù)元素與用戶的數(shù)據(jù)庫(kù)字段名稱的自動(dòng)映射與匹配,并完成對(duì)加工處理后的數(shù)據(jù)內(nèi)容自動(dòng)導(dǎo)入用戶數(shù)據(jù)庫(kù)的處理過(guò)程,其中數(shù)據(jù)庫(kù)的結(jié)構(gòu)設(shè)計(jì)要先期設(shè)計(jì)并完成;三是實(shí)現(xiàn)數(shù)據(jù)的消岐技術(shù),這部分是技術(shù)的難點(diǎn)問(wèn)題,我們也正在探索和實(shí)踐階段;四是建立相應(yīng)的數(shù)據(jù)處理規(guī)范,我們根據(jù)當(dāng)前數(shù)據(jù)分析和研究的需求,制定相應(yīng)的數(shù)據(jù)規(guī)范和要求。數(shù)據(jù)規(guī)范是一項(xiàng)長(zhǎng)期積累的工作,我們將隨著研究和實(shí)踐工作的推進(jìn),逐步完善,形成適用于數(shù)字化文獻(xiàn)再處理的數(shù)據(jù)規(guī)范和標(biāo)準(zhǔn)。
基于以上基本處理流程,我們開(kāi)發(fā)了針對(duì)數(shù)字圖書(shū)館的結(jié)構(gòu)化數(shù)字文獻(xiàn)再處理工具,該工具可以提高數(shù)據(jù)再處理的效率,滿足深層次數(shù)據(jù)挖掘和分析等研究工作的需要,該工具可以自動(dòng)實(shí)現(xiàn)如下操作過(guò)程:
(1)用戶提交操作請(qǐng)求,輸入待處理的數(shù)字化文獻(xiàn)數(shù)據(jù)資源在用戶計(jì)算機(jī)中的存儲(chǔ)地址,之后進(jìn)入數(shù)據(jù)加工與存儲(chǔ)處理過(guò)程;
(2)再處理工具自動(dòng)定位用戶輸入的存儲(chǔ)數(shù)據(jù)位置,提示用戶輸入需要加工的數(shù)據(jù)元素名稱,之后再處理工具對(duì)數(shù)據(jù)進(jìn)行主要數(shù)據(jù)元素和非主要數(shù)據(jù)元素的自動(dòng)識(shí)別;
(3)再處理工具對(duì)識(shí)別出的數(shù)據(jù)元素對(duì)應(yīng)的數(shù)據(jù)內(nèi)容,進(jìn)行必要的數(shù)據(jù)內(nèi)容清洗,例如,自動(dòng)“清洗”數(shù)據(jù)內(nèi)容中首尾出現(xiàn)的不規(guī)范字符,并在操作界面上顯示識(shí)別出所有數(shù)據(jù)名稱;
(4)用戶根據(jù)再處理工具界面提示內(nèi)容,輸入用戶需要存儲(chǔ)的數(shù)據(jù)名稱,以及用戶用于存儲(chǔ)這些數(shù)據(jù)的數(shù)據(jù)庫(kù)信息,例如數(shù)據(jù)庫(kù)名稱、用戶及密碼、數(shù)據(jù)庫(kù)字段名等;
(5)再處理工具根據(jù)用戶的輸入信息,自動(dòng)實(shí)現(xiàn)數(shù)據(jù)名稱與數(shù)據(jù)庫(kù)字段名之間的自動(dòng)映射和匹配;
(6)再處理工具自動(dòng)實(shí)現(xiàn)對(duì)數(shù)據(jù)內(nèi)容的抽取,并根據(jù)用戶需求自動(dòng)導(dǎo)入數(shù)據(jù)庫(kù)中對(duì)應(yīng)的數(shù)據(jù)表內(nèi)存儲(chǔ)。
4.2 數(shù)字化文獻(xiàn)處理工具的實(shí)現(xiàn)
根據(jù)前文的數(shù)據(jù)分析和再處理流程設(shè)計(jì)方案,我們開(kāi)發(fā)了數(shù)字化文獻(xiàn)再處理工具,開(kāi)發(fā)編程語(yǔ)言采用Java語(yǔ)言,JDK1.6.0及以上版本。對(duì)硬件設(shè)備和系統(tǒng)要求是計(jì)算機(jī)CPU2.5GHz及以上,內(nèi)存2GB及以上,至少10G硬盤空閑空間;操作系統(tǒng)支持Windows XP、Windows Server 2000及以上版本,Linux、Unix、MacOS等系統(tǒng);再處理工具的使用界面圖示見(jiàn)圖2和圖3。目前該工具可以實(shí)現(xiàn)對(duì)數(shù)字化科技文獻(xiàn)再處理的基本處理過(guò)程,隨著研究工作的開(kāi)展還有待于我們進(jìn)一步完善。
圖4和圖5顯示的是經(jīng)過(guò)再處理工具處理的數(shù)字化文獻(xiàn)數(shù)據(jù)資源最終完成之后的數(shù)據(jù)存儲(chǔ)狀態(tài)。圖示中,我們處理了557個(gè)xml格式的文件,數(shù)據(jù)大小為11.2GB,通過(guò)我們開(kāi)發(fā)的再處理工具的自動(dòng)處理,成功完成加工和存儲(chǔ)處理過(guò)程,并且按用戶需求存放在數(shù)據(jù)庫(kù)的不同類別數(shù)據(jù)表的字段內(nèi),最終處理結(jié)果是每個(gè)表的記錄數(shù)均為2,781,881條。
圖2 再處理工具的使用界面圖示1
圖3 再處理工具的使用界面圖示2
圖4 處理后數(shù)據(jù)庫(kù)存儲(chǔ)狀態(tài)示例1
圖5 處理后數(shù)據(jù)庫(kù)存儲(chǔ)狀態(tài)示例2
實(shí)現(xiàn)對(duì)海量的數(shù)字化文獻(xiàn)數(shù)據(jù)資源的再處理,滿足數(shù)字圖書(shū)館的工作人員,以及數(shù)字圖書(shū)館領(lǐng)域的科研人員對(duì)數(shù)字化文獻(xiàn)數(shù)據(jù)資源的信息挖掘研究進(jìn)行數(shù)據(jù)整合的需要,是我們研究工作的出發(fā)點(diǎn)。目前,我們的研究工作成果已應(yīng)用于“十二五”國(guó)家科技支撐計(jì)劃課題和國(guó)家自然科學(xué)基金項(xiàng)目中,并支持這些課題和項(xiàng)目的進(jìn)一步研究工作。這種再處理工具基本適用于對(duì)國(guó)家工程技術(shù)圖書(shū)館和國(guó)家科技圖書(shū)文獻(xiàn)中心存儲(chǔ)的結(jié)構(gòu)化數(shù)字文獻(xiàn)數(shù)據(jù)資源。而對(duì)于購(gòu)買的國(guó)外文獻(xiàn)全文數(shù)據(jù)庫(kù),數(shù)據(jù)處理則相對(duì)復(fù)雜,原因是,國(guó)外數(shù)字圖書(shū)館提供的是檢索服務(wù)接口,我們對(duì)于文獻(xiàn)數(shù)據(jù)的相關(guān)信息如關(guān)鍵詞、摘要和全文等數(shù)據(jù)獲取需要額外的付費(fèi)服務(wù)。對(duì)于這類數(shù)字文獻(xiàn),以及非結(jié)構(gòu)化數(shù)字資源的處理和研究工作,我們將在未來(lái)的研究工作中逐步開(kāi)展。
[1]趙繼海.數(shù)字圖書(shū)館發(fā)展若干領(lǐng)域的評(píng)析[J].圖書(shū)情報(bào)工作,200l(3):16-19.
[2]凌秀麗.略論數(shù)字化圖書(shū)館與現(xiàn)代化服務(wù)[J].圖書(shū)館學(xué)刊,2005(1):59-60.
[3]THOMAS L C.The State of Mobile in Libraries 2012 [EB/OL].[2012-07-03].http://www.thedigitalshift.corn/2012/02/mobile/the-state-of-mobile-in-libraries.2012/.
[4]林海青,樓向英,夏翠娟.圖書(shū)館關(guān)聯(lián)數(shù)據(jù):機(jī)會(huì)與挑戰(zhàn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2012,38(197):58-68.
The Development and Practice of Digital Library about Structured Digital Document Reprocessing Tools
Zeng Wen, Xu Shuo, Zhang Yunliang/Institute of Scientific and Technical Information of China, Beijing, 100038
Digital library uses computer system to manage all kinds of documents processing and service, through the network and communication technology it supports user to access digital literature information.Processing ability of digital library on the mass data is the foundation of ensuring data quality, supporting and deepening the service function of digital library.The paper discusses the importance of data reprocessing tools research, and it introduces the previous work, elaborates the development and practice work of structured digital document reprocessing tools.
Digital library, Structured data, Digital document, Reprocessing tools
10.3772/j.issn.1673—2286.2013.07.010
曾文,博士,中國(guó)科學(xué)技術(shù)信息研究所,研究方向:智能信息處理、數(shù)字圖書(shū)館等。E-mail: zengw@istic.ac.cn; zengwen_@sohu.com
2013-01-25)