孫金娟
(常熟理工學(xué)院 圖書館,江蘇 常熟 215500)
基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究
孫金娟
(常熟理工學(xué)院 圖書館,江蘇 常熟 215500)
自動化系統(tǒng)固化的統(tǒng)計模塊功能已不能滿足圖書館個性化的數(shù)據(jù)資源需求,為了解決這一問題,本文提出了數(shù)據(jù)提取的概念。數(shù)據(jù)提取有別于數(shù)據(jù)挖掘,是利用數(shù)據(jù)庫技術(shù),從大量的實際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡化圖書館的工作程序,提高工作效率,滿足圖書館的個性化需求。
數(shù)據(jù)提??;匯文系統(tǒng);自動化系統(tǒng);圖書館資源
自動化管理系統(tǒng)在圖書館的廣泛應(yīng)用促進了數(shù)據(jù)量的飛速增長,經(jīng)過長年累月的運行,數(shù)據(jù)庫忠實地記錄了圖書館的各種運行信息。圖書館界對數(shù)據(jù)資源的關(guān)注從未間斷,近年來更是引入了數(shù)據(jù)挖掘技術(shù),研究成果斐然,但其重點大都集中在為圖書館運行狀態(tài)的評估和管理決策提供支持信息,以及提高圖書館對讀者的個性化服務(wù)水平上。事實上,自動化系統(tǒng)提供的準(zhǔn)確、系統(tǒng)、全面的數(shù)據(jù)資源并未惠及圖書館普通工作人員,對大多數(shù)人來說,自動化系統(tǒng)的功能只是把日常工作從手工操作轉(zhuǎn)換成了計算機操作,并未見有更多助益。
筆者兼任常熟理工學(xué)院圖書館系統(tǒng)管理員多年,見證了數(shù)據(jù)庫容量與日俱增,每次整理數(shù)據(jù)都有“入寶山而空手回”的感慨和遺憾。為在數(shù)據(jù)挖掘方面做一些事情,筆者多次與圖書館一線工作人員交流和反饋,利用Access數(shù)據(jù)庫和ODBC技術(shù),對數(shù)據(jù)資源的提取和應(yīng)用有了一些自己的體會。
本文中提到的 “數(shù)據(jù)提取”有別于目前炙手可熱的“數(shù)據(jù)挖掘”。數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提升到對數(shù)據(jù)進行更高層次的提煉和分析,[1]涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)等多門學(xué)科。分析該定義,數(shù)據(jù)挖掘強調(diào)的是對數(shù)據(jù)的更高層次的提煉和分析,目標(biāo)定位在為戰(zhàn)略決策和知識管理提供信息支持。就圖書館普通工作人員而言,數(shù)據(jù)挖掘技術(shù)是高深而遙遠的,歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計分析方法、模糊數(shù)學(xué)方法和可視化技術(shù)等數(shù)據(jù)挖掘的方法和技術(shù)讓人望而生畏。[2]而“數(shù)據(jù)提取”是利用數(shù)據(jù)庫技術(shù),從大量的實際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡化圖書館的工作程序,提高工作效率。
1.系統(tǒng)情況介紹
匯文文獻信息服務(wù)系統(tǒng)(libsys,下文簡稱“匯文系統(tǒng)”)是基于大型圖書館管理模式,以江蘇省高校文獻保障服務(wù)系統(tǒng)(JALIS)為宗旨,面向網(wǎng)絡(luò)化、標(biāo)準(zhǔn)化、數(shù)字化和區(qū)域化的圖書館自動化管理系統(tǒng)。截止到2008年底,國內(nèi)400多家知名高校和公共圖書館選用該系統(tǒng),其中包括教育部公布的39所 “985工程”高校中的11所,112所211高校中的41所大學(xué),[3]成為單個系統(tǒng)占有量之最。
匯文系統(tǒng)基于Windows Server、Unix操作系統(tǒng),以先進的大型關(guān)系型數(shù)據(jù)庫Oracle數(shù)據(jù)庫為支撐,包括采訪、編目、典藏、流通、期刊、統(tǒng)計、系統(tǒng)管理等業(yè)務(wù)處理和管理功能,覆蓋圖書館現(xiàn)階段所有的工作范圍。系統(tǒng)統(tǒng)計模塊提供5大項42小項統(tǒng)計,其中流通17項,采訪11項,編目2項,典藏7項,期刊5項,可謂功能強大。同大多數(shù)自動化管理系統(tǒng)的統(tǒng)計模塊一樣,該模塊是采用列舉法進行設(shè)計和實現(xiàn)的。盡管某些統(tǒng)計項目采用了參數(shù)化設(shè)計和實現(xiàn)的技術(shù),但仍未脫離列舉法的框架,因此,其統(tǒng)計內(nèi)容和報表格式基本是不變的。由于各個圖書館管理水平和關(guān)注內(nèi)容在不同時期會有所變化,這種不變性造成了圖書館所關(guān)注的內(nèi)容無法統(tǒng)計,而不關(guān)注的統(tǒng)計項大量浪費。[4]數(shù)據(jù)提取技術(shù)可以彌補這一缺憾,根據(jù)圖書館的實際需求從數(shù)據(jù)庫中提取相關(guān)統(tǒng)計信息。
2.工具的選擇
Access是一個小型的開放式數(shù)據(jù)庫管理系統(tǒng),通過ODBC(開放式數(shù)據(jù)庫互連)能與其他數(shù)據(jù)庫(例如SQL Server,Oracle、Sybase、Visual FoxPro 等)相連,實現(xiàn)數(shù)據(jù)交換與共享。[5]在本文中,筆者正是使用Access和ODBC實現(xiàn)數(shù)據(jù)提取。
我校的匯文系統(tǒng)采用Oracle9I數(shù)據(jù)庫,基于安全考慮,數(shù)據(jù)提取嚴(yán)禁在服務(wù)器上直接操作。我館采用的方法是在客戶端上建立ODBC數(shù)據(jù)源,以Access數(shù)據(jù)庫為載體,把匯文Oracle數(shù)據(jù)庫的用戶表鏈接(或?qū)耄┑奖緳C上,然后再操作。需要注意的是,操作必須是在圖書館網(wǎng)絡(luò)范圍內(nèi)、裝有Oracle客戶端并配置好服務(wù)命名的工作機上進行。
3.匯文數(shù)據(jù)庫常用用戶表介紹
配置好ODBC數(shù)據(jù)源后,新建一個Access數(shù)據(jù)庫(命名為library),打開數(shù)據(jù)庫library,把獲取查重數(shù)據(jù)所需要的用戶表鏈接(或?qū)耄┻^來。在操作過程中,系統(tǒng)會提示輸入Oracle數(shù)據(jù)庫服務(wù)器名、用戶名和密碼。如果是鏈接表,那么每次操作用戶表時都會要求輸入相關(guān)賬號信息,是對Oracle數(shù)據(jù)庫的直接操作,存在一定風(fēng)險,不建議使用。穩(wěn)妥的做法是把用戶表導(dǎo)入數(shù)據(jù)庫library,再對用戶表操作就單純是對本機數(shù)據(jù)的調(diào)用,不再需要輸入賬戶信息,安全性高,缺點就是導(dǎo)入速度稍慢,而且數(shù)據(jù)每有更新就需重新導(dǎo)入一次。
匯文系統(tǒng)使用的Oracle數(shù)據(jù)庫十分龐大,僅以libsys開頭的用戶表就有200多個。好在我們需要的數(shù)據(jù)大部分集中在以下常用表中,見表1。
表1 匯文數(shù)據(jù)庫常用用戶表
這24個表基本囊括了圖書館業(yè)務(wù)流程除閱覽模塊的所有數(shù)據(jù),其中MARC_REC_NO為所有表之間的對應(yīng)關(guān)鍵字,可以通過Access查詢的方法進行對應(yīng)鏈接,實現(xiàn)數(shù)據(jù)提取的目的。Access數(shù)據(jù)庫的操作十分簡單,在此不再贅述。
三、應(yīng)用案例
在實際工作中,具體哪些數(shù)據(jù)是我們需要而統(tǒng)計模塊不能提供的呢?這些數(shù)據(jù)對我們的工作能起到怎樣的促進作用呢?本文擬用以下幾個案例進行分析。
由于脫離了圖書館的自動化系統(tǒng),現(xiàn)場采購的查重工作一直是困擾圖書館界的難題。一般來講,現(xiàn)場采購查重工作要實現(xiàn)的目標(biāo)就是快速反映本館藏書信息,具體有以下幾點:
(1)判斷手里文獻是否為非重復(fù)的。由于現(xiàn)在圖書的初次查重都是基于ISBN號的簡單查重,ISBN號相同的就認為是重復(fù)圖書,不同的就認為是非重復(fù)的。但是因為叢書、版本、多卷書等因素的存在,都會導(dǎo)致異書同號的現(xiàn)象存在。因此有必要進行詳細字段的查重,需要的信息為:ISBN號,書名,作者,出版社,出版日期,價格,叢書項,版次。
(2)手里的文獻如果重復(fù),是否需要追加采購。一般來講,圖書館采訪時都會對館藏圖書復(fù)本量小的和流通量大的進行追加采購,我館還根據(jù)我校的情況,對全部借出的圖書(即全部不在館)進行有選擇的追加。需要的信息為:館藏量,總的流通量,在館是否為0。
(3)手里的文獻是否已經(jīng)在書目圈訂時訂購,如果訂購,是在哪個書商處訂購以及訂購的其他詳細信息。需要的信息為:是否訂購,書商名稱,訂購時間,訂購批次,訂購量。有了這些信息,采購人員可以根據(jù)經(jīng)驗,比較方便地判斷出哪些圖書是不需要現(xiàn)場采購的,哪些圖書是書商難以配齊需要采購的,哪些是需要適量補充復(fù)本的。
總結(jié)一下,現(xiàn)場采購查重的數(shù)據(jù)需求是:ISBN號,書名,作者,出版社,出版日期,價格,叢書項,版次,館藏量,總的流通量,在館是否為0,是否訂購,書商名稱,訂購時間,訂購批次,訂購量,共16個字段。匯文系統(tǒng)的統(tǒng)計模塊雖然提供了強大的統(tǒng)計功能,但是我們尷尬地發(fā)現(xiàn),這些統(tǒng)計項目只是提供了一個固化的統(tǒng)計報表,并沒有提供字段導(dǎo)出的功能。即便是把所需的這些數(shù)據(jù)全部統(tǒng)計出來,數(shù)據(jù)的整合也是一項不小的工程?,F(xiàn)場采購查重所需16個字段中除前8個字段可以直接通過系統(tǒng)管理模塊的“MARC導(dǎo)出程序”導(dǎo)出外,其他8個字段直接從數(shù)據(jù)庫中提取更為方便,具體涉及LIBSYS_CALLNOCHILD,LIBSYS_MARC,LIBSYS_INDI_ACCT,LIBSYS_ITEMCHILD,LIBSYS_ITEM,LIBSYS_ORDER_RECORD,LIBSYS_MARC_IDX等用戶表。
隨書光盤借閱一直是圖書館流通工作的一大難點,排架和檢索工作量大,借出的光盤容易損毀。為了解決這一問題,很多圖書館都建立了非書資源系統(tǒng),把包括隨書光盤在內(nèi)的多媒體資料錄入數(shù)據(jù)庫,供讀者檢索下載。以本館為例,其加工流程是采編部把隨書光盤隨書著錄,然后附清單轉(zhuǎn)交數(shù)字化部,數(shù)字化部清點無誤后把清單轉(zhuǎn)交數(shù)據(jù)加工商,由加工商在其總庫中檢索并把匹配到的數(shù)據(jù)返還圖書館,未匹配到的數(shù)據(jù)再手工錄入。這一流程中,“隨書光盤清單”扮演著重要角色,但匯文系統(tǒng)并沒有提供隨書光盤數(shù)據(jù)的導(dǎo)出功能,手工錄入不僅工作量繁重(本館2009年采購新書8萬余冊,隨書光盤計8900張)而且容易出錯。數(shù)據(jù)提取可以輕松解決這一問題,從表LIBSYS_INDI_ACCT和LIBSYS_MARC中導(dǎo)出隨書光盤數(shù)據(jù),包括書名、作者、ISBN號、光盤數(shù)量等信息,每次操作只需要幾分鐘時間。
表2 隨書光盤數(shù)據(jù)
龐大的匯文系統(tǒng)數(shù)據(jù)庫就像阿里巴巴寶藏一樣,只要找到了“芝麻開門”的密碼,就有不斷的驚喜等著我們?nèi)ネ诰??;趨R文系統(tǒng)的數(shù)據(jù)提取也絕不僅僅限于應(yīng)用在現(xiàn)場采購查重和隨書光盤數(shù)據(jù)獲取上,如總流通量為零的數(shù)據(jù)可以為書庫剔舊提供數(shù)據(jù)支撐等。本文謹以此拋磚引玉,大家共同探索,進一步提高圖書館的工作效率。
[1]陸覺民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的應(yīng)用[J].現(xiàn)代情報,2007(12):92.
[2]張玉峰,艾丹祥,王翠波.智能信息系統(tǒng)[M].武漢:武漢大學(xué)出版社,2008:248-249.
[3]http://www.libsys.com.cn/about.php[EB/OL].2010-4-7.
[4]趙立宏,吳學(xué)毅.基于圖書館自動化系統(tǒng)的自定義統(tǒng)計分析技術(shù)研究[J].情報雜志,2006(3):35.
[5]郭力平,雷東升,高涵編著.數(shù)據(jù)庫技術(shù)與應(yīng)用 Access 2003篇(第2版)[M].北京:人民郵電出版社,2008,10.
(編輯:隗爽)
G250.7
A
1673-8454(2010)21-0079-03