廈門市集美圖書館技術(shù)部〔福建省廈門市 361021〕
金石亻全*
在現(xiàn)今的信息化時代,作為站在信息前沿的圖書館行業(yè)來說,應(yīng)該充分利用好互聯(lián)網(wǎng)這個龐大的平臺來更好地提供文獻信息服務(wù)。目前,全國許多公共圖書館都如火如荼地推出了不少具有地方特色的自建文獻信息數(shù)據(jù)庫,極大地豐富了各地公共圖書館的館藏和知識體系。從互聯(lián)網(wǎng)信息角度看,這種狀況則是增加了很多公益性和權(quán)威性知識與信息提供方,極大地方便了讀者獲取知識與信息,也使一些地區(qū)的特色文化得到了很好的保存和推廣,又提高了公共圖書館的社會效益,實現(xiàn)了讀者文獻信息和公共圖書館的多贏。作為一個積極參與數(shù)字化建設(shè)的地方公共圖書館——集美圖書館也開展了對廈門地方特色展會文獻自建數(shù)據(jù)庫的研發(fā)工作。本文將對展會文獻建庫過程中的 IT問題談?wù)勛约旱目捶ā?/p>
由于展會文獻一般用的是銅版紙,色彩豐富,幅面以 A4和 A3居多,因此在選擇掃描儀的時候必須考慮到這種文獻特性。選用彩色CCD元件,掃描 A3幅面的掃描儀,光學分辨率高達 600DPI,可以進行多種灰度模式的掃描,接口為最新 SCSI版本??紤]到展會的會刊文獻一般都比較厚,選用零邊距掃描儀為佳。
服務(wù)器是數(shù)據(jù)處理和存儲的核心。服務(wù)器必須有很強的穩(wěn)定性以保證數(shù)據(jù)處理和存儲的安全,要有足夠的 CPU與內(nèi)存,總線性能優(yōu)秀可以保證數(shù)據(jù)處理的效率,必須有強大的系統(tǒng)兼容性來保證各種軟件的安全運行。數(shù)據(jù)庫建成后一般都要長期保存與使用,因此良好的可擴展性也是服務(wù)器的必備要求之一。還應(yīng)該考慮到對應(yīng)的服務(wù)器生產(chǎn)商提供的技術(shù)支持和售后服務(wù)。
從根本上說,數(shù)據(jù)庫建設(shè)就是數(shù)據(jù)存儲工作。在展會文獻紙質(zhì)文獻數(shù)字化中產(chǎn)生的數(shù)字圖書本身一般都比較大,比一首 MP3歌曲要大得多。首先帶來的問題便是存儲容量要足夠大,以保證今后數(shù)據(jù)添加時有足夠的存儲空間,至少也必須是可以擴展的存儲。其次,數(shù)據(jù)的安全性與可靠性必須給予足夠的重視,存儲必須穩(wěn)定而易用。采用磁盤陣列、支持速度較高的 SATA硬盤接口以及 IP-SAN或者 NAS存儲,以充分利用館內(nèi)的千兆網(wǎng)絡(luò)來分布服務(wù)器和存儲,達到負載平衡和較高水平的合理化存儲。
網(wǎng)絡(luò)是數(shù)據(jù)庫發(fā)布的最方便快捷的途徑,必須以帶寬大、出口穩(wěn)定、內(nèi)部局域網(wǎng)交換穩(wěn)定、速率高為標準進行建設(shè)。出口可以采用光纖接入主流網(wǎng)絡(luò)。為了滿足數(shù)據(jù)庫海量數(shù)據(jù)的傳輸要求,館內(nèi)局域網(wǎng)應(yīng)構(gòu)建千兆級的內(nèi)部網(wǎng)絡(luò),以便無縫連接服務(wù)器和進行數(shù)據(jù)存儲。
目前,比較主流的數(shù)據(jù)庫建庫平臺有清華同方TPI專題數(shù)據(jù)庫制作與管理系統(tǒng)、北京拓爾思 TRS信息雷達系統(tǒng)、清華文通IT-CENTER系統(tǒng)等。這些建庫系統(tǒng),都具有覆蓋整個建庫流程的一整套功能強大的軟件平臺,包括掃描軟件、OCR識別模塊、數(shù)據(jù)庫發(fā)布平臺、Web發(fā)布和檢索平臺。結(jié)合展會文獻數(shù)據(jù)庫和圖書館工作人員結(jié)構(gòu)的特點,遵循標準化、開放性、穩(wěn)定性、易用性和可擴展性原則,展會文獻數(shù)據(jù)庫建設(shè)最好選用清華同方 TPI專題數(shù)據(jù)庫制作與管理系統(tǒng)。
清華同方TPI專題數(shù)據(jù)庫制作與管理系統(tǒng)是一套基于網(wǎng)絡(luò)平臺進行知識倉庫創(chuàng)建、生產(chǎn)、管理、維護和發(fā)布的工具軟件系統(tǒng)。 TPI是一套相對成熟的軟件體系,能與CNMARC數(shù)據(jù)兼容。這一建庫系統(tǒng)擁有OCR工具、bookshop電子書加工工具、CPS內(nèi)容發(fā)布工具、TPICD光盤發(fā)布工具、Data Processing元數(shù)據(jù)加工工具,以及服務(wù)器端的Kbase和服務(wù)器管理工具。此外,其多個數(shù)據(jù)并發(fā)的特點,可以滿足建庫過程中工作人員之間的協(xié)作要求。Web發(fā)布頁面自定義功能豐富,可以自定義出簡潔、高效與易用的頁面 ,提升數(shù)據(jù)庫系統(tǒng)的易用性。
1.紙質(zhì)文獻。首先由采編部工作人員對進入圖書館的圖書進行分編處理,做好 MARC數(shù)據(jù)錄入,使之入庫成為館藏;再交由數(shù)字化部門對紙質(zhì)文獻進行圖片掃描與校正;再按一定的壓縮比率,在兼顧清晰度、OCR識別程度和文件大小的要求下,壓縮成 CAJ或者 PDF格式的目標文件;然后在自建數(shù)據(jù)庫發(fā)布平臺上,建立相應(yīng)的數(shù)據(jù)庫,對具體條目進行標引入庫;最后,檢驗數(shù)據(jù),建立導(dǎo)航,發(fā)布數(shù)據(jù)。
2.電子文獻。包括電子文檔、圖像、音頻、視頻等格式的文獻。由自建數(shù)據(jù)庫研發(fā)工作人員在互聯(lián)網(wǎng)上搜集獲取,或者向相關(guān)文獻收藏單位通過索取、獲贈與購買等方式搜集相關(guān)的電子文獻信息,包括網(wǎng)頁內(nèi)容、PDF文件、WORD文件、TXT文本文件、MP3/CD音頻與VCD/DVD/光盤等各種電子檔文件,轉(zhuǎn)換成展會文獻數(shù)據(jù)庫平臺所需的電子格式,再進行細致的標引入庫。
紙質(zhì)文獻在分編進入 IlasII系統(tǒng)形成館藏的同時,IlasII系統(tǒng)中也就相應(yīng)地擁有了符合標準的MARC數(shù)據(jù)。 TPI系統(tǒng)能夠兼容MARC數(shù)據(jù)格式,可以直接將元數(shù)據(jù)導(dǎo)入TPI數(shù)據(jù)庫中。但是,并非所有的 MARC數(shù)據(jù)字段都適合導(dǎo)入 TPI數(shù)據(jù)庫。例如,頁數(shù)、價格等字段就不導(dǎo)入 TPI數(shù)據(jù)庫中。從IlasII導(dǎo)入的這些元數(shù)據(jù)顯然還不能夠滿足 TPI數(shù)據(jù)庫的建庫要求。 TPI的元數(shù)據(jù)能夠更好地向讀者揭示文獻的各方面屬性,以及描述數(shù)據(jù)之間的關(guān)系。根據(jù)展會文獻的特點,可以采取在 TPI數(shù)據(jù)庫中增加“展會分類”、“全文”、“網(wǎng)址”、“展會屆期”等字段,細化標引“主題詞”字段。其中:展會分類、展會屆期字段主要用于整個數(shù)據(jù)庫導(dǎo)航樹的建立;主題詞細化標引主要用于揭示數(shù)據(jù)之間的關(guān)系,是數(shù)據(jù)庫中數(shù)據(jù)挖掘的必要步驟。
展會文獻是具有宣傳性質(zhì)的檔案文獻,包括各類參展商資訊、政策宣導(dǎo)、法律法規(guī)、主辦者信息與展會風采等內(nèi)容。全文字段的主要功能是給數(shù)據(jù)庫使用者提供更加全面的檢索途徑,但是綜合考慮展會文獻的性質(zhì)和檢索效率,并不是將展會文獻的所有文字都應(yīng)該進行全文字段標引到數(shù)據(jù)庫中。因此,如何標引全文字段在整個展會文獻數(shù)據(jù)庫建設(shè)過程中是很關(guān)鍵的。展會文獻數(shù)據(jù)庫建設(shè)是個創(chuàng)新性的工作,在目前并沒有可以借鑒的項目。因此,集美圖書館在建庫過程中,堅持以面向讀者需求為出發(fā)點,從讀者的角度觀察發(fā)現(xiàn)讀者的需求,從版本形式上一步步完善全文標引規(guī)范,形成了以下一些具有可操作性的規(guī)范。這些規(guī)范,對于工作人員之間的協(xié)作和效率的提高,都有顯而易見的效果。 (1)對于產(chǎn)品宣傳類的彩頁資料,數(shù)字化工作組提出需要標引入全文字段的有:公司的中英文名稱,主營產(chǎn)品,產(chǎn)品類別、型號,公司地址等。 (2)對于招商引資類的資料,需要標引入全文字段的有:招商項目及介紹、招商地區(qū)、招商地區(qū)投資環(huán)境、招商優(yōu)惠政策,以及對應(yīng)的英文內(nèi)容。 (3)對于人居樓盤類資料,需要標引入全文字段的有:樓盤名稱、開發(fā)商名稱、地理環(huán)境、周邊設(shè)施與地標性建筑等內(nèi)容。(4)對于旅游推介類資料,需要標引入全文字段的有:旅游地名稱、地理、歷史、宗教、文化、氣候、經(jīng)濟、政治、語言、民族、主要城市、交通等相關(guān)有用信息的中英文名詞。 (5)對于展會雜志、會刊類資料,需要標引入全文字段的有:雜志名稱或會刊期數(shù)與目錄(文章標題)等概略信息。 (6)對于刊登有很多廠商信息的類似于黃頁性質(zhì)的會刊,比較常見的,如中國石材展會刊和海峽兩岸機電臺交會會刊,數(shù)字化工作組提出,可以建立相應(yīng)的企業(yè)數(shù)據(jù)庫,目前集美圖書館已經(jīng)建立有石材企業(yè)數(shù)據(jù)庫和臺交會企業(yè)數(shù)據(jù)庫,共收集近 2000條數(shù)據(jù),具有很大的社會效益。
經(jīng)過摸索實踐,結(jié)合廈門幾大展會的特點,集美圖書館目前已經(jīng)形成了九八投洽會、國際石材展、機電臺交會、中國人居展、中國櫥柜展、海西汽博會、兩岸文博會與廈門世博會等幾個主要的廈門展會數(shù)據(jù)庫。每個展會數(shù)據(jù)庫按媒介介質(zhì)的思路又分成幾個數(shù)據(jù)庫。以九八投洽會為例,紙質(zhì)文獻數(shù)字化后完成標引,形成了九八投洽會書籍文獻庫;電子文檔從互聯(lián)網(wǎng)等各處收集起來,經(jīng)過格式轉(zhuǎn)換到目標 PDF文件之后標引入庫,形成九八投洽會文獻資料庫。從橫向關(guān)系上,兩個文獻數(shù)據(jù)庫之間通過題名、責任者、主題詞與全文字段可以進行跨庫檢索,形成一個統(tǒng)一的檢索結(jié)果呈現(xiàn)給讀者;從縱向關(guān)系上,兩個文獻數(shù)據(jù)庫都有展會分類和展會屆期字段,這兩個字段用于形成數(shù)據(jù)庫導(dǎo)航樹。讀者可以先點擊整個展會數(shù)據(jù)庫根目錄,展開來呈現(xiàn)出以上的八大展會導(dǎo)航樹,接著點擊具體的展會數(shù)據(jù)庫,展開以展會屆期為分類的二級樹,清晰明了,易于使用。
通過展會文獻數(shù)據(jù)庫建設(shè),集美圖書館深刻體會到:以中小型公共圖書館的技術(shù)和人員力量要做出一個能夠展現(xiàn)專業(yè)水平和社會效益的自建數(shù)據(jù)庫需要付出更多的努力和精力,需要持續(xù)摸索改進,需要多方學習吸收好的經(jīng)驗,亦需要大家同心協(xié)力、耐心細致,以負責認真的態(tài)度持之以恒地長久工作,才能完成任務(wù)。但是,這是公共圖書館人在信息時代的開創(chuàng)性工作,是很有意義的一項重要工作。
[1]王天亮.文獻數(shù)字化技術(shù)在自建數(shù)據(jù)庫中的應(yīng)用策略研究 [J].現(xiàn)代情報,2009,29(12):135~ 138.
[2]吳濤,李鋒.基于 TPI的特色數(shù)據(jù)庫建設(shè)實踐 [J].現(xiàn)代情報,2005,25(7):165~ 168.
[3]趙捷,蘆曉,張金治.地方文獻數(shù)字化的實現(xiàn)方法與途徑[J].數(shù)字與縮微影像,2007,(2):1~ 4.
[4]姚宏偉.地方文獻數(shù)字化及在我館實踐的探討 [J].圖書館學研究,2004,(11):13~ 15.