聶飛霞,付 敏
(西北大學(xué)圖書館,陜西 西安 710127)
隨著網(wǎng)絡(luò)化的發(fā)展以及數(shù)字圖書館的崛起,圖書館也開始走入了數(shù)字化時(shí)代。圖書館現(xiàn)有的自動(dòng)化管理系統(tǒng)中存儲(chǔ)著大量的書目數(shù)據(jù)、讀者流通借還數(shù)據(jù)、書目檢索記錄、Web訪問記錄等。但目前圖書館所應(yīng)用的信息化管理系統(tǒng)只有簡(jiǎn)單的統(tǒng)計(jì)分析功能,無法預(yù)測(cè)讀者的需求以及圖書的借閱趨勢(shì)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,使圖書館自動(dòng)化信息系統(tǒng)中的數(shù)據(jù)得到了整理與預(yù)測(cè),使龐雜的數(shù)據(jù)成為有用的知識(shí)。而數(shù)據(jù)預(yù)處理技術(shù)是根據(jù)數(shù)據(jù)挖掘的需求,將現(xiàn)有的已知數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換匯總等操作。由于數(shù)據(jù)源的龐大與雜亂,預(yù)處理前得數(shù)據(jù)常常被人稱為“臟數(shù)據(jù)”,這就使得數(shù)據(jù)預(yù)處理工作成為數(shù)據(jù)挖掘前期重要的步驟。只有對(duì)預(yù)處理過的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工作才會(huì)科學(xué)有效。
數(shù)據(jù)預(yù)處理的前期工作是對(duì)所需要的數(shù)據(jù)進(jìn)行提取。圖書館信息系統(tǒng)中存在著大量的讀者信息、圖書信息、讀者借還數(shù)據(jù)、圖書借還數(shù)據(jù)、讀者檢索數(shù)據(jù)等,因此數(shù)據(jù)提取工作也是相對(duì)較為繁瑣的。下面給出所提取數(shù)據(jù)的重要字段結(jié)構(gòu)表(本文所提取的數(shù)據(jù)是西北大學(xué)圖書館ILAS系統(tǒng)中的部分?jǐn)?shù)據(jù))。
讀者信息表主要包括讀者姓名、讀者證號(hào)(區(qū)別讀者的唯一標(biāo)志)、性別、院系、部門等。讀者信息表結(jié)構(gòu)如表1所示。
表1 讀者信息表結(jié)構(gòu)
圖書信息表記錄了館藏圖書的題名、分類號(hào)、索取號(hào)、ISBN號(hào)、條碼(區(qū)別圖書的唯一標(biāo)志)等。圖書信息表結(jié)構(gòu)如表2所示。
表2 圖書信息表結(jié)構(gòu)
借還信息表主要記錄了借閱和歸還兩個(gè)過程的讀者以及圖書信息,包括讀者姓名、讀者證號(hào)、圖書題名、圖書條碼、還書時(shí)間等。借還信息表結(jié)構(gòu)如表3所示。
表3 借還信息表結(jié)構(gòu)
數(shù)據(jù)源的獲取、數(shù)據(jù)獲取和信息集成等相關(guān)研究為數(shù)據(jù)預(yù)處理提供了基礎(chǔ)。根據(jù)數(shù)據(jù)挖掘的需求,將相關(guān)的多源數(shù)據(jù)集成融合后,需要進(jìn)行多種數(shù)據(jù)預(yù)處理操作。數(shù)據(jù)預(yù)處理的主要流程包括數(shù)據(jù)清理、數(shù)據(jù)集成和融合、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約以及在數(shù)據(jù)挖掘結(jié)果的評(píng)價(jià)計(jì)劃基礎(chǔ)上進(jìn)行的二次預(yù)處理的精煉。數(shù)據(jù)預(yù)處理的基本流程如圖1所示。
數(shù)據(jù)清理工作是數(shù)據(jù)挖掘準(zhǔn)備工作中最耗時(shí)耗力的工作,但也是最重要的工作。最初獲得的原始數(shù)據(jù)往往是夾雜著很多錯(cuò)誤的、有噪聲的、空白的、缺失的或者冗余的數(shù)據(jù)。數(shù)據(jù)清理工作就是將這一部分?jǐn)?shù)據(jù)加以處理。
圖1 數(shù)據(jù)預(yù)處理基本流程圖
在圖書館信息系統(tǒng)中獲得的數(shù)據(jù)源,主要需要做的工作是刪除錯(cuò)誤值、補(bǔ)充空缺的信息以及修改部分不吻合的值。本次從圖書館信息系統(tǒng)中共獲得借閱數(shù)據(jù)6798條,圖書數(shù)據(jù)6704條,讀者數(shù)據(jù)621條。其中借閱數(shù)據(jù)中有借閱失敗的冗余數(shù)據(jù)以及與數(shù)據(jù)挖掘工作無關(guān)的屬性值,而讀者數(shù)據(jù)中有讀者名稱空缺專業(yè)名稱錯(cuò)誤等信息都需要進(jìn)行處理。表4是某一時(shí)間段西北大學(xué)圖書館圖書借閱原始信息表dbo.BorrowHistory中的數(shù)據(jù)。
表4 讀者原始借還信息表
如表4所示,該原始數(shù)據(jù)記錄了某一時(shí)間段讀者的借閱信息,其中szMemo屬性列記錄了借閱失敗的信息,我們可以通過編寫SQL語句對(duì)bResult屬性值為False的行進(jìn)行刪除。同時(shí),可以刪除我們數(shù)據(jù)挖掘工作不需要的屬性列,如對(duì)bBooking列與szRead列進(jìn)行刪除。得到讀者借還信息表如表5所示。
表5 讀者借還信息表
本文所用到的讀者信息與讀者借還信息是分別處于兩個(gè)數(shù)據(jù)表中的單獨(dú)數(shù)據(jù),我們需要利用SQL語言將這兩個(gè)表進(jìn)行融合與變換。文中表5為數(shù)據(jù)清理后的讀者借還信息表,表6為數(shù)據(jù)清理后的讀者信息表,將讀者信息表中的讀者姓名即Reader-Name屬性列與讀者單位Company屬性列增加到讀者借還信息表中,得到加了 ReaderName屬性與Company屬性的讀者借還信息表,如表7所示。
表6 讀者信息表
表7 加了ReaderName屬性與Company屬性的讀者借還信息表
續(xù)表7
一般數(shù)據(jù)庫中的數(shù)據(jù)表都很龐大,為了節(jié)約運(yùn)算時(shí)間,我們需要對(duì)其進(jìn)行規(guī)約。規(guī)約以后的數(shù)值將比原值小很多,但卻保持了原值的完整性。規(guī)約技術(shù)使得數(shù)據(jù)挖掘更加有效可行。利用圖書信息表、讀者信息表、借還信息表清理融合后得到表7所示的讀者借還信息表。該讀者借還信息表所記錄的讀者借閱記錄中,圖書的屬性有條碼號(hào)、書名以及索取號(hào)。其中條碼號(hào)為識(shí)別圖書的唯一標(biāo)志,也就是說每本圖書的條碼號(hào)都是唯一的。而書名和索取號(hào)則可能相同,索取號(hào)由于記錄得比較詳細(xì)不利于數(shù)據(jù)挖掘的運(yùn)算,我們把圖書的索取號(hào)即szBookIndex屬性進(jìn)行規(guī)約。將圖書按中圖法的22個(gè)大類進(jìn)行劃分,得到增加了新屬性szCategory的讀者借還信息表,如表8所示。
表8 規(guī)約后的讀者借還信息表
數(shù)據(jù)挖掘技術(shù)近幾年已經(jīng)開始應(yīng)用于數(shù)字圖書館,利用數(shù)據(jù)挖掘方法中的聚類分析可以將讀者按閱讀興趣、借閱次數(shù)等進(jìn)行分類。利用數(shù)據(jù)挖掘方法中的關(guān)聯(lián)規(guī)則可以為讀者提供個(gè)性化的推薦服務(wù),如將讀者可能喜歡的圖書進(jìn)行推薦,或者將可能流行的書推薦給采購人員。以上所說的數(shù)據(jù)挖掘技術(shù)的應(yīng)用都離不開對(duì)數(shù)據(jù)的預(yù)處理。因此數(shù)據(jù)的預(yù)處理工作既是數(shù)據(jù)挖掘工作的基礎(chǔ),也是數(shù)據(jù)挖掘工作中相對(duì)重要的步驟。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘工作科學(xué)有效的基礎(chǔ)。
[1]Han Jiawei,Kamber Micheline.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:高等教育出版社,2001.
[2]謝邦昌.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù)[M].北京:機(jī)械工業(yè)出版社,2008.
[3]Tan Pang - Ning,Steinbach Michael,Kumar Vipin.數(shù)據(jù)挖掘?qū)д?完整版[M].北京:人民郵電出版社,2011.
[4]高建煌.個(gè)性化推薦系統(tǒng)技術(shù)與應(yīng)用[D].中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)應(yīng)用技術(shù),2010.