曾紹文(三明學(xué)院圖書館 福建 三明 365004)
利用Excel實(shí)現(xiàn)對(duì)圖書館大數(shù)據(jù)編目質(zhì)量篩查
曾紹文
(三明學(xué)院圖書館 福建 三明 365004)
從計(jì)算機(jī)對(duì)圖書館編目大數(shù)據(jù)進(jìn)行智能化自動(dòng)處理的角度,針對(duì)圖書館索書號(hào)中著者號(hào)拼音錯(cuò)誤問題和形式索書號(hào)中流水號(hào)的跳號(hào)問題,根據(jù)表面一致性原則和連續(xù)性邏輯關(guān)系,選擇以Excel2007做為工具,通過一系列的組合操作、函數(shù)運(yùn)用和公網(wǎng)VBA代碼導(dǎo)入等方法,簡單易行且有針對(duì)性的展示對(duì)編目大數(shù)據(jù)相關(guān)字段進(jìn)行智能化篩查的可行性,用以量化編目錯(cuò)誤率,提高編目質(zhì)量,并提出該方法的局限性和今后的研究方向
編目質(zhì)量 Excel篩查 索書
100多年前,美國圖書館學(xué)家克特提出了圖書館目錄的3大功能,即查詢(檢索)功能、聚集功能和辨識(shí)功能。隨著圖書館學(xué)科的不斷發(fā)展,圖書館目錄的功能也在不斷擴(kuò)大。于良芝在《圖書館學(xué)導(dǎo)論》種介紹了圖書館目錄功能的發(fā)展演變后,總結(jié)了5點(diǎn)圖書館目錄功能,即確認(rèn)、聚合、選擇、獲取和導(dǎo)航[1]。為了保證圖書館目錄功能的實(shí)現(xiàn),提高知識(shí)資源的利用效率,圖書館編目部門在開展文獻(xiàn)工作前,必須事先確定和準(zhǔn)備所采用的著錄規(guī)則、分類法、主題詞表、著者號(hào)碼表、分類規(guī)則、主題標(biāo)引規(guī)則以及目錄組織規(guī)則等[2],并嚴(yán)格按照既定規(guī)則對(duì)本館圖書進(jìn)行編目工作,確保編目數(shù)據(jù)準(zhǔn)確,以實(shí)現(xiàn)本館圖書館目錄功能,然而在實(shí)際的編目過程中,無論是原始編目還是聯(lián)機(jī)編目,都不可避免的發(fā)生著各種問題,導(dǎo)致編目質(zhì)量下降。楊以赟[3]和金小璞[4]等通過實(shí)證分析,應(yīng)用先進(jìn)的理論和方法分析了影響編目質(zhì)量的若干因素,從管理和實(shí)際業(yè)務(wù)操作層面提出了提高編目質(zhì)量的措施與構(gòu)想,對(duì)編目質(zhì)量提高的實(shí)現(xiàn)能夠起到積極的作用,但是對(duì)于編目質(zhì)量的量化分析方面缺乏論述。普通圖書館需要尋找到高效、便捷、易執(zhí)行和可量化的方法進(jìn)行編目數(shù)據(jù)的質(zhì)量篩查,從計(jì)算機(jī)智能化處理的角度去展開研究,加強(qiáng)事后監(jiān)督,提高編目質(zhì)量。
微軟公司OFFICE辦公軟件中的Excel對(duì)于圖書館工作人員來說并不陌生,通過對(duì)Excel的功能研究,利用一系列的組合操作、函數(shù)運(yùn)用和公網(wǎng)VBA代碼導(dǎo)入等,針對(duì)編目數(shù)據(jù)中索書號(hào)項(xiàng)下存在的某些常見的特殊錯(cuò)誤,基本可以實(shí)現(xiàn)對(duì)其大數(shù)據(jù)智能篩查,量化編目錯(cuò)誤率,提高編目質(zhì)量。
索書號(hào)[5]是圖書館藏書排架用的編碼,又稱索取號(hào),是文獻(xiàn)外借和館藏清點(diǎn)的主要依據(jù)。編目數(shù)據(jù)錯(cuò)誤最直接的表現(xiàn)之一就是索書號(hào)錯(cuò)誤。索書號(hào)可以分為分類索書號(hào)和形式索書號(hào)兩大類。大數(shù)據(jù)智能化處理是一個(gè)很復(fù)雜的問題,本文僅從2種簡單但是常見的錯(cuò)誤類型入手,有針對(duì)性的展開研究,展示Excel在圖書館編目大數(shù)據(jù)篩查應(yīng)用的可行性。
篩查的前期準(zhǔn)備,主要包括Excel的版本選擇、電腦的配置檢查和圖書館大數(shù)據(jù)的導(dǎo)出。
Excel版本眾多,常見的有Excel2003和Excel2007等。Excel2007支持最多1,048,576行和16,384列,即其支持運(yùn)算記錄條數(shù)超過100萬條,內(nèi)存管理可以達(dá)到2G,而Excel 2003只能支持65,536行和256列,內(nèi)存管理為1G[6]。圖書館編目數(shù)據(jù)常常以百萬為計(jì)量單位,Excel2003顯然無法高效的運(yùn)行大數(shù)據(jù)篩查,所以需要選擇Excel 2007或更高版本作為工作軟件。為了更快速流暢的實(shí)現(xiàn)篩查功能,需要電腦配置達(dá)到或超過2G內(nèi)存,CPU在2.5 GHz以上,可根據(jù)需要按批次從圖書館管理系統(tǒng)后臺(tái)進(jìn)行數(shù)據(jù)批量導(dǎo)出生成Excel格式文件備查。篩查大數(shù)據(jù)前可以事先截取系統(tǒng)中少量數(shù)據(jù)作為篩查實(shí)驗(yàn)的數(shù)據(jù),用以反復(fù)調(diào)試制作好的函數(shù)功能模塊,確定其運(yùn)行無誤后應(yīng)用于大數(shù)據(jù)電子表格中,以提高工作效率避免差錯(cuò)。
3.1 著者號(hào)碼拼音錯(cuò)誤篩查
由于漢字本身的特點(diǎn)及存在眾多的漢字排檢法,中文著者號(hào)碼表的統(tǒng)一甚為困難,根據(jù)中國大百科全書圖書館學(xué)情報(bào)學(xué)檔案學(xué)分冊[7]指出,分類/著者字順?biāo)鲿?hào)是中國圖書館廣泛采用的分類索書號(hào)形式之一,且1988年在杭州召開的專題討論會(huì)上,多數(shù)人認(rèn)為漢語拼音著者號(hào)碼表將成為中文著者號(hào)碼表發(fā)展的主流[8]。從表面來看,中文普通圖書著者號(hào)碼取號(hào)的一種常見形式為作者姓名按姓在前名在后著錄,取著者號(hào)時(shí)按順序取姓名的頭2個(gè)字的首字母,第3個(gè)字的首字母用相對(duì)應(yīng)的1到2位數(shù)字代碼代替,如周恩來(zhou En Lai)著者號(hào)取ZE11,這樣,就可以根據(jù)表面一致性原則,將編目數(shù)據(jù)中"索書號(hào)"項(xiàng)所包含的2個(gè)英文字母與利用Excel函數(shù)自動(dòng)生成的"責(zé)任者"項(xiàng)中著者姓名頭2個(gè)字的首字母進(jìn)行自動(dòng)比對(duì),出現(xiàn)不一致即可能出現(xiàn)編目錯(cuò)誤。具體操作方法如圖1和圖2所示。
圖2 簡化實(shí)例電子表格公式視圖
⑴從索書號(hào)中分類號(hào)與著者號(hào)的分隔符開始提取字母
在系統(tǒng)導(dǎo)出數(shù)據(jù)中,分割分類號(hào)與著者號(hào)的為"/",形式如D693.09/ZE11。利用FIND和MID函數(shù)組合可以實(shí)現(xiàn)提取"/"后2位英文字母功能,新建"提取著者號(hào)拼音首字母"D列,輸入公式為"=MID(C2,FIND("/",C2,1)+1,2)",得到提取結(jié)果。
⑵利用公網(wǎng)獲取開源代碼自動(dòng)生成責(zé)任者拼音首字母
針對(duì)導(dǎo)出數(shù)據(jù)中的"責(zé)任者"項(xiàng),在百度搜索"EXCEL中如何取漢字拼音首字母",得到一系列的VBA解決方法,將網(wǎng)上提供的代碼應(yīng)用于數(shù)據(jù)表格,將其內(nèi)容插入VBAproject模塊,在新建G列"責(zé)任者拼音首字母"單元格G2中輸入公式"=getpy(F2)",而后將所得結(jié)果復(fù)制后選擇性粘貼其文本信息到本列,便可基本實(shí)現(xiàn)自動(dòng)生成責(zé)任者拼音首字母功能。
⑶修正自動(dòng)生成責(zé)任者拼音首字母
由于自動(dòng)生成責(zé)任者拼音首字母中含有少量無法自動(dòng)轉(zhuǎn)換的漢字,如"瞿"和"麟"等,需要利用查找替換功能對(duì)其進(jìn)行批量替換成英文字母。
⑷去除國別內(nèi)容
某些責(zé)任者項(xiàng)中含有國別項(xiàng),如著者開頭[美]被轉(zhuǎn)換成了[M],需要利用查找替換功能將其刪除。
⑸截取修正后的數(shù)據(jù)左邊2位英文字母并將其與"提取著者號(hào)拼音首字母"項(xiàng)進(jìn)行對(duì)比。
在H列利用公式"=LEFT(G2,2)"截取修正后的責(zé)任者,用"=IF(D2=H2,)"對(duì)2列進(jìn)行對(duì)比,然后自動(dòng)篩選返回值為"FALSE"的數(shù)據(jù),即為不一致數(shù)據(jù),其可能存在著者號(hào)錯(cuò)誤,可將其篩選出來備查,如圖1第4行控制號(hào)為1547的數(shù)據(jù)。
3.2 形式索書號(hào)中流水號(hào)的跳號(hào)錯(cuò)誤篩查
形式索書號(hào)常見的有財(cái)產(chǎn)登記號(hào)索書號(hào)和層架編號(hào)索書號(hào)。以密集書庫流水號(hào)排架法為例,書籍使用的財(cái)產(chǎn)登記號(hào)索書號(hào)形式為英文字母+連續(xù)的數(shù)字,如M006431。根據(jù)書籍典藏的連續(xù)性原則,如果登錄號(hào)出現(xiàn)跳號(hào),在典藏過程中可能出現(xiàn)漏做或者登錄號(hào)輸入錯(cuò)誤,這樣就可以利用RIGHT函數(shù)、IF函數(shù)和簡單的運(yùn)算達(dá)到檢查形式索書號(hào)是否錄入正確的效果,形式如圖3和圖4所示。
圖3 簡化實(shí)例電子表格普通視圖
圖4 簡化實(shí)例電子表格公式視圖
在圖3中,第3行形式索書號(hào)為M0064302之后就漏了2本書,需要檢查修正。同時(shí),可以通過篩選功能找出分配地址為非"密集書庫"的漏典藏書籍。
以分類索書號(hào)的表面一致性和形式索書號(hào)的連續(xù)性邏輯關(guān)系作為標(biāo)準(zhǔn),利用Excel對(duì)圖書館大編目數(shù)據(jù)中的索書號(hào)項(xiàng)進(jìn)行整體和分段質(zhì)量篩查,可以方便快捷地檢查歷史數(shù)據(jù),量化錯(cuò)誤數(shù)據(jù),對(duì)新編的數(shù)據(jù)能夠執(zhí)行定期定量的事后監(jiān)督,及時(shí)發(fā)現(xiàn)特定編目問題且易于操作,節(jié)省圖書館人力和智力資源。
由于大數(shù)據(jù)智能化篩查是一個(gè)技術(shù)難題,本方法僅針對(duì)索書號(hào)中常見的2類問題通過簡化實(shí)例進(jìn)行研究以供參考,對(duì)于其他類型的編目質(zhì)量問題,比如與圖書內(nèi)容相關(guān)的圖書的分類錯(cuò)誤,其他組成類型的分類索書號(hào)錯(cuò)誤,非邏輯關(guān)系的形式索書號(hào)錯(cuò)誤,編目數(shù)據(jù)中其他字段的錯(cuò)誤等,本研究并沒有涵蓋,且本方法還存在技術(shù)缺陷,比如對(duì)多音字的判斷等,無法完全實(shí)現(xiàn)全自動(dòng)智能篩查,遇到問題需要人工參與把關(guān)和修正,更完美的實(shí)現(xiàn)對(duì)圖書館大數(shù)據(jù)編目質(zhì)量篩查還有待進(jìn)一步研究。
在編目質(zhì)量的控制上,以往的研究更多的是立足于管理層面,缺少對(duì)實(shí)際編目質(zhì)量的量化分析,其可控性和實(shí)施效果很難得到較全面的衡量,對(duì)各種歷史遺留問題往往力不從心,而且容易忽視人力資源和人力成本問題,控制效率不高。針對(duì)相關(guān)問題,需要開辟利用計(jì)算機(jī)智能化處理的新思路。通過Excel2007對(duì)數(shù)據(jù)處理的強(qiáng)大功能,利用軟件幫助文件、相關(guān)書籍和公網(wǎng)信息等多渠道獲取解決問題的相關(guān)資料和實(shí)例,并有針對(duì)性的進(jìn)行修改和靈活運(yùn)用于編目數(shù)據(jù)質(zhì)量篩查中,對(duì)編目質(zhì)量的控制研究具有重要意義。
[1]編目精靈.編目的未來[M].北京:國家圖書館出版社,2010.
[2]中國大百科全書總編輯委員會(huì).中國大百科全書圖書館學(xué)情報(bào)學(xué)檔案學(xué)分冊[M].北京:中國大百科全書出版社,2002.
[3]楊以赟.原始編目質(zhì)量問題分析與對(duì)策[J].圖書館論壇,2007 (10):117-120.
[4]金小璞,徐 芳.網(wǎng)絡(luò)環(huán)境下聯(lián)機(jī)編目質(zhì)量分析與控制[J].圖書館論壇,2008(8):57-59.
[5]中國大百科全書總編輯委員會(huì).中國大百科全書圖書館學(xué)情報(bào)學(xué)檔案學(xué)分冊[M].北京:中國大百科全書出版社,2002: 468.
[6]李東博.中文版Excel2007寶典[M].北京:電子工業(yè)出版社, 2008.
[7]中國大百科全書總編輯委員會(huì).中國大百科全書圖書館學(xué)情報(bào)學(xué)檔案學(xué)分冊[M].北京:中國大百科全書出版社,2002: 408.
[8]中國大百科全書總編輯委員會(huì).中國大百科全書圖書館學(xué)情報(bào)學(xué)檔案學(xué)分冊[M].北京:中國大百科全書出版社,2002: 613.
Screening on Large Data Cataloguing Quality of Library Based on Exce
ZENG Shao-wen
(Sanming University Library,Sanming Fujian 365004,China)
From the aspect of intelligent automatic processing of library cataloguing large data by computer,aiming at the problems of spelling mistakes of author number in the library call number and jumping number of serial number in the form call number,and based on the surface consistent principle and the logical consistency relationship,this paper simply and pertinently presents the feasibility of intelligent screening of related fields in cataloguing large data by using Excel2007 and performing a series of methods such as combination operation,function application and public VBA code import,in order to quantify the cataloguing error rate,improve the cataloguing quality.Finally it proposes the limitation and future research direction of this method.
cataloguing quality;Excel;screening;call number
TP305
A
1008-1739(2014)22-71-3
定稿日期:2014-10-26