回 玲
(新疆農(nóng)業(yè)大學(xué) 科學(xué)技術(shù)學(xué)院,烏魯木齊830052)
隨著信息技術(shù)發(fā)展,數(shù)據(jù)分析已成為信息資源的重要部分,大數(shù)據(jù)的時(shí)代,繁冗的數(shù)據(jù)處理不再適合手工比對(duì)。對(duì)于圖書(shū)館而言,在書(shū)目采訪、驗(yàn)收和編目等工作流程之后,數(shù)據(jù)比對(duì)是必不可少的一個(gè)重要環(huán)節(jié),尤其是在結(jié)算圖書(shū)費(fèi)用、減少圖書(shū)錯(cuò)誤著錄方面,占據(jù)著重要地位。在很大程度上,圖書(shū)數(shù)據(jù)比對(duì)更能解決館藏?cái)?shù)據(jù)的完整與正確問(wèn)題。因此,圖書(shū)數(shù)據(jù)比對(duì)是否簡(jiǎn)潔、方便,效果是否明顯,對(duì)節(jié)約資源購(gòu)買經(jīng)費(fèi)以及資源的質(zhì)量十分重要。
在信息資源的管理和組織中,數(shù)據(jù)比對(duì)技術(shù)一直占據(jù)著相當(dāng)重要的地位,尤其是在大數(shù)據(jù)環(huán)境下,比對(duì)技術(shù)與查重技術(shù)結(jié)合成為現(xiàn)代數(shù)據(jù)校驗(yàn)技術(shù)發(fā)展的主流?,F(xiàn)今比對(duì)的函數(shù)主要包括IF、VLOOKUP、COMPARE等,其中COMPARE技術(shù)的比對(duì)的數(shù)據(jù)誤差最小,速度最快,比對(duì)完全是表與表之間的數(shù)據(jù)交互,界面簡(jiǎn)單,操作便捷,減少圖書(shū)工作人員用眼的工作強(qiáng)度,效率相對(duì)EXCEL中其他函數(shù)有所提高。本文利用開(kāi)發(fā)工具——EXCEL COMPARE基于數(shù)據(jù)比對(duì)技術(shù)環(huán)境運(yùn)行簡(jiǎn)單,可用在圖書(shū)館數(shù)據(jù)比對(duì)或其他資源比對(duì)環(huán)境中。
書(shū)目的不統(tǒng)一與不標(biāo)準(zhǔn)是比對(duì)部分的難點(diǎn)部分,過(guò)程描述如下。
由于不同的圖書(shū)供應(yīng)商在著錄書(shū)目數(shù)據(jù)時(shí)有不同的著錄方式,著錄數(shù)據(jù)時(shí)也會(huì)有誤差發(fā)生,所以在比對(duì)之前,標(biāo)準(zhǔn)化書(shū)目字段是十分有必要的。
標(biāo)準(zhǔn)化字段時(shí)需要著重考慮書(shū)名、ISBN、價(jià)格、冊(cè)數(shù)這4個(gè)字段。為了書(shū)目數(shù)據(jù)規(guī)范化字段,根據(jù)書(shū)目中常見(jiàn)的幾種問(wèn)題提供了解方案。根據(jù)實(shí)際情況考證,方案是行之有效的。
1.書(shū)名繁體字化為簡(jiǎn)體字
早期出版的書(shū)目中,題名有一些是采用繁體字的,有些圖書(shū)供應(yīng)商著錄時(shí)按照原題名仍然著錄繁體字,而有些圖書(shū)供應(yīng)商著錄時(shí)改為簡(jiǎn)體字,方便讀者。如果題目不統(tǒng)一在數(shù)據(jù)比對(duì)圖書(shū)數(shù)據(jù)時(shí)造成比對(duì)結(jié)果不精確。如《國(guó)學(xué)》一書(shū)的書(shū)名包含有繁體和簡(jiǎn)體字兩種。因此,在比對(duì)之前因?qū)⒎斌w字都化為簡(jiǎn)體字,可以有效查出因著錄繁簡(jiǎn)字而被電腦判定為不重復(fù)的書(shū)。
2.數(shù)字的不統(tǒng)一
將書(shū)目以阿拉伯?dāng)?shù)字統(tǒng)一為漢字?jǐn)?shù)字是標(biāo)準(zhǔn)化數(shù)據(jù),方便數(shù)據(jù)的比對(duì)。對(duì)于包含多冊(cè)的書(shū)目而言,有些圖書(shū)供應(yīng)商著錄數(shù)據(jù)時(shí)用漢字表示,有些則采用阿拉伯?dāng)?shù)字。如《明朝那些事》有多部,圖書(shū)供應(yīng)商在著錄時(shí)分別按照“第一部”和“第1部”重復(fù)著錄了兩次。如果根據(jù)題名字段比對(duì),比對(duì)程序?qū)⑴袛酁閮杀静煌臅?shū),導(dǎo)致重復(fù)購(gòu)買。因此,在比對(duì)之前,需要將數(shù)字標(biāo)準(zhǔn)化。將圖書(shū)數(shù)據(jù)數(shù)字統(tǒng)一為漢字形式。
3.叢書(shū)類重復(fù)書(shū)籍
有一些書(shū)目ISBN號(hào)位相同但題名不同,有些則是ISBN號(hào)位不同但題名相同,對(duì)于這樣的叢書(shū)要進(jìn)行篩選和甄別是否是同一本書(shū),是否供應(yīng)商著錄錯(cuò)誤,確定叢書(shū)的數(shù)量,減少館藏不必要書(shū)目重復(fù)率,保證讀者的閱讀質(zhì)量。
圖書(shū)供應(yīng)商要確保購(gòu)書(shū)清單的準(zhǔn)確性,如購(gòu)書(shū)清單提供的ISBN號(hào)位與圖書(shū)本身不相同,購(gòu)書(shū)清單是9位數(shù)字而圖書(shū)本身標(biāo)注是13位數(shù)字,將ISBN號(hào)位統(tǒng)一有利于數(shù)據(jù)比對(duì),著錄人員著入數(shù)據(jù)時(shí)應(yīng)準(zhǔn)確、細(xì)心,保證數(shù)據(jù)的完整性。有些著入信息不是副本沒(méi)有注明,就是單冊(cè)沒(méi)有錄入,這樣導(dǎo)出的數(shù)據(jù)就存在不完整。
加快推進(jìn)全市基礎(chǔ)行業(yè)和優(yōu)勢(shì)行業(yè)的轉(zhuǎn)型升級(jí)和提質(zhì)增效。發(fā)揮百色鋁產(chǎn)業(yè)優(yōu)勢(shì),合理開(kāi)發(fā)利用鋁土礦資源,著力構(gòu)建鋁產(chǎn)業(yè)鏈和配套產(chǎn)業(yè)鏈。加快淘汰冶煉行業(yè)落后產(chǎn)能、改造提升技術(shù)裝備水平;整合全市礦產(chǎn)資源,發(fā)展鋁銅深加工行業(yè)。全面提升鋁加工行業(yè)的整體競(jìng)爭(zhēng)力,加快發(fā)展高性能、綠色環(huán)保的精細(xì)化工產(chǎn)品和高端化工新材料產(chǎn)品。加強(qiáng)與貴州、云南區(qū)域間的電力合作,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),降低工業(yè)用電成本。提升改造傳統(tǒng)建材行業(yè),突破發(fā)展新興建材行業(yè)。
所以,標(biāo)準(zhǔn)化和數(shù)據(jù)準(zhǔn)確性是書(shū)目的必然保證,按照這樣原則進(jìn)行比對(duì),可以節(jié)約購(gòu)書(shū)經(jīng)費(fèi),保證圖書(shū)資源的合理性。
圖書(shū)比對(duì)可以分為四個(gè)板塊:數(shù)據(jù)關(guān)鍵字段-建立表-比對(duì)-顯示結(jié)果集。
首先,要確定書(shū)目的ISBN號(hào)位、題名、單價(jià)、冊(cè)數(shù)以及索書(shū)號(hào)作為比對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)。從理論而言,ISBN作為國(guó)際標(biāo)準(zhǔn)書(shū)號(hào),能使不同出版者的每一種圖書(shū)在世界范圍內(nèi)具有唯一性,因此,在圖書(shū)館的數(shù)據(jù)比對(duì)中被作為重要的比對(duì)標(biāo)準(zhǔn)而被廣泛采用。但是在實(shí)際采訪中,ISBN仍然存在一些問(wèn)題,如叢書(shū)系列公用一個(gè)ISBN號(hào);20世紀(jì)80年代以前出版的圖書(shū)沒(méi)有ISBN號(hào);或者提供信息有著錄錯(cuò)誤。因此,在對(duì)數(shù)據(jù)資源進(jìn)行比對(duì)時(shí)需要對(duì)多字段進(jìn)行校驗(yàn)。
1.建立要比對(duì)的表
COMPARE組件是微軟公司所開(kāi)發(fā)的組件,它運(yùn)行的首要條件就是確定比對(duì)的表,將已編目完成圖書(shū)數(shù)據(jù)表與書(shū)商提供的書(shū)目清單比對(duì),保證兩張表都含有ISBN、書(shū)目題名及價(jià)格與冊(cè)數(shù),這樣可以多方面的查找錯(cuò)誤數(shù)據(jù),保證館藏?cái)?shù)量的可靠性。
2.連接比對(duì)工具
啟動(dòng)EXCEL COMPARE(見(jiàn)圖1)。
圖1 數(shù)據(jù)比對(duì)分析啟動(dòng)界面
3.添加數(shù)據(jù)庫(kù)結(jié)果集
如圖1所示將比對(duì)的表輸入比對(duì)工具中進(jìn)行比對(duì)。
圖2 數(shù)據(jù)比對(duì)分析使用效果
4.顯示結(jié)果集
比對(duì)結(jié)果將以報(bào)告的形式出現(xiàn),比對(duì)數(shù)據(jù)的工作人員可以將報(bào)告儲(chǔ)存為自己想要的格式,還可以根據(jù)自己對(duì)數(shù)據(jù)精確度進(jìn)行排序或篩選,得到滿意的結(jié)果,達(dá)到比對(duì)的效果。
5.兼容、保存頁(yè)面
為了兼容,可對(duì)頁(yè)面進(jìn)行兼容處理,最后將頁(yè)面存為*.docx,在Microsoft word中運(yùn)行可以編輯和使用。
按照本文所述的數(shù)據(jù)比對(duì)策略,進(jìn)行了書(shū)目編目后的數(shù)據(jù)比對(duì)工作,取得了一定的成效。筆者從比對(duì)書(shū)目中隨機(jī)抽取了5個(gè)批次書(shū)目(來(lái)自不同供應(yīng)商不同時(shí)間段的數(shù)據(jù)),如圖2所示,分析機(jī)器比對(duì)后所用時(shí)間效率的結(jié)果,可以看出該套數(shù)據(jù)比對(duì)可以減少圖書(shū)館工作人員的工作時(shí)間和用眼工作強(qiáng)度的可行性。
本文針對(duì)目前數(shù)據(jù)比對(duì)中手工比對(duì)繁冗的現(xiàn)象提出一種新的比對(duì)策略,通過(guò)EXCEL COMPARE工具對(duì)書(shū)目字段進(jìn)行比對(duì),篩選出可以購(gòu)買的圖書(shū)資源。為方便不熟悉EXCEL COMPARE工具的圖書(shū)館數(shù)據(jù)人員,只需要建立要比對(duì)的數(shù)據(jù)表就能得到結(jié)果。本文提出的比對(duì)可能存在一些紕漏,需要不斷完善和豐富,但在一定程度上減輕了數(shù)據(jù)人員的比對(duì)工作,實(shí)現(xiàn)智能比對(duì),減少了重復(fù)購(gòu)買的情況,保障圖書(shū)館館藏?cái)?shù)據(jù)的準(zhǔn)確性,在圖書(shū)館采購(gòu)資金有限的情況下,該數(shù)據(jù)提高了資源購(gòu)買的質(zhì)量。
[1]張麗萍.利用ISBN號(hào)進(jìn)行編目查重時(shí)存在的問(wèn)題及對(duì)策[J].科技文獻(xiàn)信息管理,2008,(1).
[2]王文剛,呂俊平,黃曉峰.利用宏處理ISBN號(hào)實(shí)現(xiàn)圖書(shū)數(shù)據(jù)批查重[J].山東圖書(shū)館學(xué)刊,2010,(6).
[3]郭彩峰.基于Excel的采訪數(shù)據(jù)處理[J].內(nèi)蒙古科技與經(jīng)濟(jì),2010,(7).
[4]張靜.淺談圖書(shū)數(shù)據(jù)查重工作的開(kāi)展[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2011,(2).