• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)預(yù)處理:數(shù)字圖書館的“清洗機(jī)”

      2013-09-12 04:12:36聶飛霞
      圖書館界 2013年4期
      關(guān)鍵詞:清洗機(jī)規(guī)約數(shù)據(jù)挖掘

      聶飛霞,付 敏

      (西北大學(xué)圖書館,陜西 西安 710127)

      隨著網(wǎng)絡(luò)化的發(fā)展以及數(shù)字圖書館的崛起,圖書館也開始走入了數(shù)字化時(shí)代。圖書館現(xiàn)有的自動(dòng)化管理系統(tǒng)中存儲(chǔ)著大量的書目數(shù)據(jù)、讀者流通借還數(shù)據(jù)、書目檢索記錄、Web訪問記錄等。但目前圖書館所應(yīng)用的信息化管理系統(tǒng)只有簡(jiǎn)單的統(tǒng)計(jì)分析功能,無法預(yù)測(cè)讀者的需求以及圖書的借閱趨勢(shì)。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,使圖書館自動(dòng)化信息系統(tǒng)中的數(shù)據(jù)得到了整理與預(yù)測(cè),使龐雜的數(shù)據(jù)成為有用的知識(shí)。而數(shù)據(jù)預(yù)處理技術(shù)是根據(jù)數(shù)據(jù)挖掘的需求,將現(xiàn)有的已知數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換匯總等操作。由于數(shù)據(jù)源的龐大與雜亂,預(yù)處理前得數(shù)據(jù)常常被人稱為“臟數(shù)據(jù)”,這就使得數(shù)據(jù)預(yù)處理工作成為數(shù)據(jù)挖掘前期重要的步驟。只有對(duì)預(yù)處理過的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,數(shù)據(jù)挖掘工作才會(huì)科學(xué)有效。

      1 數(shù)據(jù)提取

      數(shù)據(jù)預(yù)處理的前期工作是對(duì)所需要的數(shù)據(jù)進(jìn)行提取。圖書館信息系統(tǒng)中存在著大量的讀者信息、圖書信息、讀者借還數(shù)據(jù)、圖書借還數(shù)據(jù)、讀者檢索數(shù)據(jù)等,因此數(shù)據(jù)提取工作也是相對(duì)較為繁瑣的。下面給出所提取數(shù)據(jù)的重要字段結(jié)構(gòu)表(本文所提取的數(shù)據(jù)是西北大學(xué)圖書館ILAS系統(tǒng)中的部分?jǐn)?shù)據(jù))。

      讀者信息表主要包括讀者姓名、讀者證號(hào)(區(qū)別讀者的唯一標(biāo)志)、性別、院系、部門等。讀者信息表結(jié)構(gòu)如表1所示。

      表1 讀者信息表結(jié)構(gòu)

      圖書信息表記錄了館藏圖書的題名、分類號(hào)、索取號(hào)、ISBN號(hào)、條碼(區(qū)別圖書的唯一標(biāo)志)等。圖書信息表結(jié)構(gòu)如表2所示。

      表2 圖書信息表結(jié)構(gòu)

      借還信息表主要記錄了借閱和歸還兩個(gè)過程的讀者以及圖書信息,包括讀者姓名、讀者證號(hào)、圖書題名、圖書條碼、還書時(shí)間等。借還信息表結(jié)構(gòu)如表3所示。

      表3 借還信息表結(jié)構(gòu)

      2 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)源的獲取、數(shù)據(jù)獲取和信息集成等相關(guān)研究為數(shù)據(jù)預(yù)處理提供了基礎(chǔ)。根據(jù)數(shù)據(jù)挖掘的需求,將相關(guān)的多源數(shù)據(jù)集成融合后,需要進(jìn)行多種數(shù)據(jù)預(yù)處理操作。數(shù)據(jù)預(yù)處理的主要流程包括數(shù)據(jù)清理、數(shù)據(jù)集成和融合、數(shù)據(jù)變換、數(shù)據(jù)規(guī)約以及在數(shù)據(jù)挖掘結(jié)果的評(píng)價(jià)計(jì)劃基礎(chǔ)上進(jìn)行的二次預(yù)處理的精煉。數(shù)據(jù)預(yù)處理的基本流程如圖1所示。

      2.1 數(shù)據(jù)清理

      數(shù)據(jù)清理工作是數(shù)據(jù)挖掘準(zhǔn)備工作中最耗時(shí)耗力的工作,但也是最重要的工作。最初獲得的原始數(shù)據(jù)往往是夾雜著很多錯(cuò)誤的、有噪聲的、空白的、缺失的或者冗余的數(shù)據(jù)。數(shù)據(jù)清理工作就是將這一部分?jǐn)?shù)據(jù)加以處理。

      圖1 數(shù)據(jù)預(yù)處理基本流程圖

      在圖書館信息系統(tǒng)中獲得的數(shù)據(jù)源,主要需要做的工作是刪除錯(cuò)誤值、補(bǔ)充空缺的信息以及修改部分不吻合的值。本次從圖書館信息系統(tǒng)中共獲得借閱數(shù)據(jù)6798條,圖書數(shù)據(jù)6704條,讀者數(shù)據(jù)621條。其中借閱數(shù)據(jù)中有借閱失敗的冗余數(shù)據(jù)以及與數(shù)據(jù)挖掘工作無關(guān)的屬性值,而讀者數(shù)據(jù)中有讀者名稱空缺專業(yè)名稱錯(cuò)誤等信息都需要進(jìn)行處理。表4是某一時(shí)間段西北大學(xué)圖書館圖書借閱原始信息表dbo.BorrowHistory中的數(shù)據(jù)。

      表4 讀者原始借還信息表

      如表4所示,該原始數(shù)據(jù)記錄了某一時(shí)間段讀者的借閱信息,其中szMemo屬性列記錄了借閱失敗的信息,我們可以通過編寫SQL語句對(duì)bResult屬性值為False的行進(jìn)行刪除。同時(shí),可以刪除我們數(shù)據(jù)挖掘工作不需要的屬性列,如對(duì)bBooking列與szRead列進(jìn)行刪除。得到讀者借還信息表如表5所示。

      表5 讀者借還信息表

      2.2 數(shù)據(jù)融合與變換

      本文所用到的讀者信息與讀者借還信息是分別處于兩個(gè)數(shù)據(jù)表中的單獨(dú)數(shù)據(jù),我們需要利用SQL語言將這兩個(gè)表進(jìn)行融合與變換。文中表5為數(shù)據(jù)清理后的讀者借還信息表,表6為數(shù)據(jù)清理后的讀者信息表,將讀者信息表中的讀者姓名即Reader-Name屬性列與讀者單位Company屬性列增加到讀者借還信息表中,得到加了 ReaderName屬性與Company屬性的讀者借還信息表,如表7所示。

      表6 讀者信息表

      表7 加了ReaderName屬性與Company屬性的讀者借還信息表

      續(xù)表7

      2.3 數(shù)據(jù)規(guī)約

      一般數(shù)據(jù)庫中的數(shù)據(jù)表都很龐大,為了節(jié)約運(yùn)算時(shí)間,我們需要對(duì)其進(jìn)行規(guī)約。規(guī)約以后的數(shù)值將比原值小很多,但卻保持了原值的完整性。規(guī)約技術(shù)使得數(shù)據(jù)挖掘更加有效可行。利用圖書信息表、讀者信息表、借還信息表清理融合后得到表7所示的讀者借還信息表。該讀者借還信息表所記錄的讀者借閱記錄中,圖書的屬性有條碼號(hào)、書名以及索取號(hào)。其中條碼號(hào)為識(shí)別圖書的唯一標(biāo)志,也就是說每本圖書的條碼號(hào)都是唯一的。而書名和索取號(hào)則可能相同,索取號(hào)由于記錄得比較詳細(xì)不利于數(shù)據(jù)挖掘的運(yùn)算,我們把圖書的索取號(hào)即szBookIndex屬性進(jìn)行規(guī)約。將圖書按中圖法的22個(gè)大類進(jìn)行劃分,得到增加了新屬性szCategory的讀者借還信息表,如表8所示。

      表8 規(guī)約后的讀者借還信息表

      3 結(jié)語

      數(shù)據(jù)挖掘技術(shù)近幾年已經(jīng)開始應(yīng)用于數(shù)字圖書館,利用數(shù)據(jù)挖掘方法中的聚類分析可以將讀者按閱讀興趣、借閱次數(shù)等進(jìn)行分類。利用數(shù)據(jù)挖掘方法中的關(guān)聯(lián)規(guī)則可以為讀者提供個(gè)性化的推薦服務(wù),如將讀者可能喜歡的圖書進(jìn)行推薦,或者將可能流行的書推薦給采購人員。以上所說的數(shù)據(jù)挖掘技術(shù)的應(yīng)用都離不開對(duì)數(shù)據(jù)的預(yù)處理。因此數(shù)據(jù)的預(yù)處理工作既是數(shù)據(jù)挖掘工作的基礎(chǔ),也是數(shù)據(jù)挖掘工作中相對(duì)重要的步驟。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘工作科學(xué)有效的基礎(chǔ)。

      [1]Han Jiawei,Kamber Micheline.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:高等教育出版社,2001.

      [2]謝邦昌.數(shù)據(jù)挖掘Clementine應(yīng)用實(shí)務(wù)[M].北京:機(jī)械工業(yè)出版社,2008.

      [3]Tan Pang - Ning,Steinbach Michael,Kumar Vipin.數(shù)據(jù)挖掘?qū)д?完整版[M].北京:人民郵電出版社,2011.

      [4]高建煌.個(gè)性化推薦系統(tǒng)技術(shù)與應(yīng)用[D].中國科學(xué)技術(shù)大學(xué)計(jì)算機(jī)應(yīng)用技術(shù),2010.

      猜你喜歡
      清洗機(jī)規(guī)約數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      便攜式道岔轉(zhuǎn)換設(shè)備清洗機(jī)的研制與應(yīng)用
      電力系統(tǒng)通信規(guī)約庫抽象設(shè)計(jì)與實(shí)現(xiàn)
      一種在復(fù)雜環(huán)境中支持容錯(cuò)的高性能規(guī)約框架
      一種改進(jìn)的LLL模糊度規(guī)約算法
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      冰箱壓縮機(jī)零件自動(dòng)化清洗機(jī)設(shè)計(jì)
      開卷橫剪線清洗機(jī)過濾系統(tǒng)改造
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      減速頂高效清洗機(jī)的研制與應(yīng)用
      乐安县| 章丘市| 五原县| 磐安县| 富顺县| 剑阁县| 大理市| 涞源县| 沈阳市| 肥西县| 潍坊市| 乐平市| 钟祥市| 商水县| 田东县| 永胜县| 南溪县| 中江县| 福安市| 宁波市| 巢湖市| 朝阳市| 鲜城| 正安县| 怀仁县| 盈江县| 巩义市| 南昌县| 县级市| 龙川县| 上林县| 汤阴县| 宿松县| 通城县| 聊城市| 政和县| 宝鸡市| 虞城县| 驻马店市| 龙海市| 会泽县|