• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)決策分析需求的圖書館大數(shù)據(jù)清洗系統(tǒng)設(shè)計(jì)

      2016-05-14 05:42:12馬曉亭
      現(xiàn)代情報(bào) 2016年9期
      關(guān)鍵詞:決策分析系統(tǒng)設(shè)計(jì)圖書館

      馬曉亭

      〔摘要〕圖書館的大數(shù)據(jù)時(shí)代已經(jīng)來臨,大數(shù)據(jù)質(zhì)量問題是影響圖書館大數(shù)據(jù)應(yīng)用的重要因素,而大數(shù)據(jù)清洗則是提高圖書館大數(shù)據(jù)質(zhì)量的主要手段。本文介紹了圖書館不清潔數(shù)據(jù)的類型與產(chǎn)生原因,設(shè)計(jì)了基于大數(shù)據(jù)決策分析需求的圖書館大數(shù)據(jù)清洗系統(tǒng),該系統(tǒng)不僅可以提高大數(shù)據(jù)清洗的效率和精確度,而且大幅度降低了圖書館大數(shù)據(jù)決策分析的復(fù)雜度。

      〔關(guān)鍵詞〕圖書館;決策分析;大數(shù)據(jù)清洗;系統(tǒng)設(shè)計(jì)

      DOI:10.3969/j.issn.1008-0821.2016.09.018

      〔中圖分類號〕G25076〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)09-0107-05

      〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.

      〔Key words〕library;decision analysis;big data cleaning;system design

      當(dāng)前,圖書館已進(jìn)入大數(shù)據(jù)時(shí)代。隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算和物聯(lián)網(wǎng)技術(shù)在圖書館中的廣泛應(yīng)用,圖書館可通過監(jiān)控和采集服務(wù)器運(yùn)行數(shù)據(jù)、讀者個(gè)體特征、閱讀行為數(shù)據(jù)、閱讀關(guān)系數(shù)據(jù)、閱讀終端數(shù)據(jù)等,實(shí)現(xiàn)了對圖書館服務(wù)模式和讀者閱讀需求的全面感知與預(yù)測,大幅度提升了圖書館的服務(wù)能力和讀者閱讀滿意度。但是,隨著圖書館服務(wù)復(fù)雜度和服務(wù)模式多樣化的發(fā)展,其大數(shù)據(jù)環(huán)境呈現(xiàn)出“4V+1C”的特點(diǎn)(分別是數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、價(jià)值密度低(Value)、處理速度快(Velocity)和具有較強(qiáng)的復(fù)雜性(Complexity)),圖書館采集與存儲的原始大數(shù)據(jù)中混雜著許多不完整、錯(cuò)誤和重復(fù)的“不清潔”數(shù)據(jù),導(dǎo)致圖書館大數(shù)據(jù)存在著不一致、不完整性、低價(jià)值密度、不可控和不可用的特性[1]。圖書館如果一味強(qiáng)調(diào)提升IT基礎(chǔ)設(shè)施的大數(shù)據(jù)處理性能、數(shù)據(jù)分析方法的科學(xué)性、數(shù)據(jù)分析師的大數(shù)據(jù)素養(yǎng),而不通過大數(shù)據(jù)清洗有效提升數(shù)據(jù)的質(zhì)量和可用性,將會導(dǎo)致圖書館大數(shù)據(jù)應(yīng)用的收益率和數(shù)據(jù)決策科學(xué)性下降。

      據(jù)美國普化永道會計(jì)事務(wù)所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被調(diào)查公司存在著因不清潔數(shù)據(jù)問題而導(dǎo)致經(jīng)濟(jì)損失的現(xiàn)象,只有35%的被調(diào)查公司對自己的數(shù)據(jù)質(zhì)量充滿信心;在很多涉及數(shù)據(jù)倉庫的項(xiàng)目中,數(shù)據(jù)清洗在開發(fā)時(shí)間和整體預(yù)算方面所占的比例大概在30%~80%,而將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和整合時(shí),可能會產(chǎn)生一些新的不清潔數(shù)據(jù)[2]。因此,如何制定和執(zhí)行安全、高效的數(shù)據(jù)清洗策略,實(shí)現(xiàn)對圖書館大數(shù)據(jù)資源的檢測、校驗(yàn)、修正、整合與分解,及時(shí)發(fā)現(xiàn)并糾正大數(shù)據(jù)中存在的錯(cuò)誤、缺失、異常和可疑數(shù)據(jù),確保圖書館大數(shù)據(jù)資源結(jié)構(gòu)完整、正確和無重復(fù),是關(guān)系圖書館大數(shù)據(jù)應(yīng)用與決策安全、科學(xué)、高效、經(jīng)濟(jì)和可控的重要問題。

      1圖書館大數(shù)據(jù)清洗的需求與挑戰(zhàn)

      11大數(shù)據(jù)環(huán)境下數(shù)據(jù)清洗的需求發(fā)生變化

      大數(shù)據(jù)時(shí)代,圖書館數(shù)據(jù)的結(jié)構(gòu)、類型、規(guī)模和復(fù)雜度發(fā)生了巨大變化,其大數(shù)據(jù)內(nèi)容主要由IT服務(wù)系統(tǒng)運(yùn)營日志與參數(shù)數(shù)據(jù)、用戶服務(wù)數(shù)據(jù)、讀者個(gè)體特征數(shù)據(jù)、讀者行為監(jiān)測與社會關(guān)系數(shù)據(jù)、閱讀終端運(yùn)行數(shù)據(jù)、視頻監(jiān)測數(shù)據(jù)和傳感器網(wǎng)絡(luò)數(shù)據(jù)等組成,這些數(shù)據(jù)具有海量、多類型、高價(jià)值和處理速度快的大數(shù)據(jù)“4V”特點(diǎn),因此,與“小數(shù)據(jù)”時(shí)代圖書館的數(shù)據(jù)清洗需求有本質(zhì)區(qū)別。

      大數(shù)據(jù)時(shí)代,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館大數(shù)據(jù)總量的85%以上,圖書館數(shù)據(jù)清洗的重點(diǎn)已從“小數(shù)據(jù)”時(shí)代的標(biāo)準(zhǔn)化文本、數(shù)字、符號等結(jié)構(gòu)化數(shù)據(jù)為主,轉(zhuǎn)變?yōu)橐匀奈谋尽D像、聲音、影視、超媒體等非結(jié)構(gòu)化復(fù)雜數(shù)據(jù)為核心[3]。其次,“小數(shù)據(jù)”時(shí)代圖書館數(shù)據(jù)清洗的主要對象是實(shí)例層的數(shù)據(jù),依據(jù)函數(shù)依賴等完整性約束條件對數(shù)據(jù)記錄進(jìn)行處理,而“大數(shù)據(jù)”時(shí)代則重點(diǎn)關(guān)注處理模式中數(shù)據(jù)屬性之間的語義關(guān)系。第三,圖書館數(shù)據(jù)清洗工具的效率、互操作性和可擴(kuò)展性,以及數(shù)據(jù)清洗工具描述性語言能否滿足數(shù)據(jù)清理中關(guān)鍵詞大致匹配的需要,是關(guān)系圖書館大數(shù)據(jù)清洗科學(xué)、高效、精確和經(jīng)濟(jì)的關(guān)鍵。

      12圖書館大數(shù)據(jù)采集方式多樣性易導(dǎo)致數(shù)據(jù)結(jié)構(gòu)不完整當(dāng)前,為了提升讀者服務(wù)的科學(xué)性、實(shí)時(shí)性、可預(yù)測性和個(gè)性化水平,圖書館大數(shù)據(jù)應(yīng)用采取了全面采集、實(shí)時(shí)分析、動(dòng)態(tài)決策和評估反饋的原則,有效提升了圖書館大數(shù)據(jù)資源的價(jià)值密度、分析科學(xué)性和服務(wù)可靠性。圖書館大數(shù)據(jù)來源主要包括Web服務(wù)器日志數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)、用戶管理系統(tǒng)數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)和讀者滿意度反饋數(shù)據(jù)等,這些數(shù)據(jù)的數(shù)據(jù)采集來源、采集方式和數(shù)據(jù)模式標(biāo)準(zhǔn)不同,導(dǎo)致所采集的元數(shù)據(jù)存在著字段缺失、字段名和數(shù)據(jù)結(jié)構(gòu)前后不一致、數(shù)據(jù)被異常破壞等現(xiàn)象,嚴(yán)重影響了圖書館大數(shù)據(jù)結(jié)構(gòu)的完整性。其次,這些不完整大數(shù)據(jù)如涉及讀者的個(gè)體ID標(biāo)示、數(shù)據(jù)價(jià)值關(guān)鍵字段、信息集成模式的匹配,則會導(dǎo)致數(shù)據(jù)資源不可用或者大數(shù)據(jù)決策錯(cuò)誤。因此,如何科學(xué)、高效和準(zhǔn)確地發(fā)現(xiàn)圖書館大數(shù)據(jù)中的缺失字段,并在規(guī)定的時(shí)間內(nèi)對缺失字段進(jìn)行修復(fù),是圖書館確保大數(shù)據(jù)結(jié)構(gòu)完整的重要措施[4]。第三,圖書館對大數(shù)據(jù)資源庫查詢請求的科學(xué)、完整和可控性,是關(guān)系數(shù)據(jù)查詢結(jié)果清潔性的關(guān)鍵。因此,如何完善、修補(bǔ)不同來源和不同類型的缺失數(shù)據(jù)字段,并有效挖掘其中蘊(yùn)含的知識,是關(guān)系圖書館從不完整大數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)價(jià)值信息和保障知識服務(wù)效率的重要問題。

      13海量、重復(fù)的大數(shù)據(jù)嚴(yán)重降低了數(shù)據(jù)決策效率

      為了提升大數(shù)據(jù)的價(jià)值總量,圖書館會利用多數(shù)據(jù)采集源多方位、多角度和不間斷地進(jìn)行相關(guān)大數(shù)據(jù)的采集。讀者個(gè)體特征和行為數(shù)據(jù),是圖書館進(jìn)行讀者閱讀需求預(yù)測、服務(wù)模式制定、服務(wù)滿意度評估和服務(wù)過程優(yōu)化的關(guān)鍵數(shù)據(jù),為了保證相關(guān)大數(shù)據(jù)采集的全面性、完整性、可用性和可靠性,圖書館會通過視頻監(jiān)控設(shè)備、服務(wù)器日志、傳感器網(wǎng)絡(luò)、移動(dòng)基站監(jiān)測設(shè)備、閱讀終端監(jiān)測設(shè)備等,盡可能全面地采集讀者相關(guān)大數(shù)據(jù),并描繪一幅完整、精確的讀者閱讀行為自畫像。多個(gè)不同類型終端設(shè)備全方位、不間斷地采集同一讀者的個(gè)體大數(shù)據(jù),會導(dǎo)致讀者個(gè)體大數(shù)據(jù)采集過程低效率、重復(fù)和識別精度低,這大幅度增加了圖書館大數(shù)據(jù)處理、分析和決策的復(fù)雜度與系統(tǒng)資源損耗。因此,如何刪除圖書館采集的海量、重復(fù)大數(shù)據(jù),是關(guān)系圖書館大數(shù)據(jù)決策可用性和經(jīng)濟(jì)性的關(guān)鍵。

      其次,隨著圖書館服務(wù)智能化和個(gè)性化水平的提升,機(jī)器人等人工智能技術(shù)已廣泛運(yùn)用到圖書館的管理與讀者服務(wù)中去。機(jī)器人通過深度學(xué)習(xí)技術(shù),可為讀者提供諸如閱讀導(dǎo)航、服務(wù)推薦、問題解答、微博更新和聊天等服務(wù),實(shí)現(xiàn)了機(jī)器人與讀者的實(shí)時(shí)互動(dòng)與交流。但是,這些機(jī)器人產(chǎn)生的數(shù)據(jù)除具有動(dòng)態(tài)生成、海量、多類型和低相關(guān)性的特點(diǎn)外,還存在著數(shù)據(jù)重復(fù)采集、標(biāo)示多樣和部分錯(cuò)誤的現(xiàn)象,因此,如何有效區(qū)分、清洗機(jī)器人產(chǎn)生的大數(shù)據(jù),將對圖書館在服務(wù)中實(shí)施讀者閱讀行為跟蹤、讀者閱讀需求分析、用戶精確畫像和科學(xué)服務(wù)決策產(chǎn)生極大影響[5]。

      14圖書館對錯(cuò)誤大數(shù)據(jù)的識別與修正需求

      圖書館大數(shù)據(jù)主要由數(shù)據(jù)中心IT服務(wù)系統(tǒng)配置參數(shù)與運(yùn)營數(shù)據(jù)、用戶與服務(wù)管理數(shù)據(jù)、讀者個(gè)體行為與閱讀數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、服務(wù)資源數(shù)據(jù)、讀者閱讀反饋與滿意度評估數(shù)據(jù)等組成,這些數(shù)據(jù)的產(chǎn)生具有多數(shù)據(jù)來源、多采集模式、編碼與存儲復(fù)雜、數(shù)據(jù)清洗難度大的特點(diǎn),大幅增加了圖書館對錯(cuò)誤大數(shù)據(jù)識別與修正的難度。

      隨著圖書館組織結(jié)構(gòu)和內(nèi)部業(yè)務(wù)關(guān)系復(fù)雜度的增長,圖書館員在向業(yè)務(wù)系統(tǒng)錄入元數(shù)據(jù)時(shí),可能存在著濫用縮寫詞與慣用語、數(shù)據(jù)錄入錯(cuò)誤、數(shù)據(jù)中內(nèi)嵌信息錯(cuò)誤、重復(fù)記錄、丟失數(shù)據(jù)字段、拼寫錯(cuò)誤、計(jì)量單位錯(cuò)誤和過時(shí)的數(shù)字編碼等問題。同時(shí),圖書館當(dāng)前業(yè)務(wù)管理系統(tǒng)數(shù)據(jù)糾錯(cuò)的智能水平較低,不能完全識別與糾錯(cuò)數(shù)據(jù)錄入中存在的數(shù)據(jù)錯(cuò)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)后面存在空格符、日期格式錯(cuò)誤與日期越界等。其次,OCR(光學(xué)字符識別)軟件在對印刷體文字轉(zhuǎn)換成為黑白點(diǎn)陣的圖像文件,以及通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式時(shí),OCR軟件的拒識率、誤識率、識別速度、用戶界面友好性、產(chǎn)品穩(wěn)定性和易用性等,也是關(guān)系圖書館數(shù)字化文獻(xiàn)資源加工正確率的重要因素。第三,近年來,射頻識別(RFID)技術(shù)因其快速掃描、體積小、可重復(fù)使用、無線穿透性和無屏障閱讀等優(yōu)勢,已廣泛應(yīng)用到智慧圖書館的構(gòu)建和讀者智慧服務(wù)中,有效實(shí)現(xiàn)了圖書館無線門禁的進(jìn)出管理、人員精確定位、區(qū)域定位管理、安全防衛(wèi)和圖書智能化存取等功能。由于RFID硬件設(shè)備易受數(shù)據(jù)傳輸距離、環(huán)境噪聲、地理環(huán)境、無線干擾等影響,導(dǎo)致RFID閱讀器存在著漏讀、多讀和不清潔讀等現(xiàn)象,如何識別與糾正RFID閱讀器在大數(shù)據(jù)采集過程中丟失、重復(fù)、模糊和錯(cuò)誤的數(shù)據(jù),已成為關(guān)系RFID應(yīng)用有效的關(guān)鍵[6]。

      15圖書館大數(shù)據(jù)清洗需制定科學(xué)的行業(yè)規(guī)范和標(biāo)準(zhǔn)圖書館大數(shù)據(jù)具有海量、多類型、高價(jià)值和處理快速的4“V”特征,據(jù)統(tǒng)計(jì),其結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)總量的85%以上,且隨著圖書館服務(wù)模式多樣化和數(shù)據(jù)環(huán)境復(fù)雜度的不斷增長,其非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)的總比例將快速上升,因此,大數(shù)據(jù)海量、多類型和結(jié)構(gòu)復(fù)雜的特點(diǎn)給圖書館的數(shù)據(jù)管理帶來了很大困難。

      不同類型的圖書館在大數(shù)據(jù)采集源的結(jié)構(gòu)和數(shù)據(jù)庫類型上差別巨大,導(dǎo)致不同圖書館在大數(shù)據(jù)的采集方式、組織結(jié)構(gòu)、存取方法和數(shù)據(jù)庫構(gòu)建類型上有較大區(qū)別,即使是同一種數(shù)據(jù)的存儲也存在著多種不同標(biāo)準(zhǔn)和數(shù)據(jù)庫關(guān)系結(jié)構(gòu)。因此,制定統(tǒng)一的數(shù)據(jù)庫建設(shè)和數(shù)據(jù)管理、存取標(biāo)準(zhǔn),提升數(shù)據(jù)清洗工具與數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)端口、清洗規(guī)則和配置參數(shù)上的兼容性,是關(guān)系圖書館大數(shù)據(jù)高效清洗和多用戶共享的前提。

      在實(shí)際的工程操作中,數(shù)據(jù)清洗通常會占據(jù)數(shù)據(jù)分析全過程50%~80%的時(shí)間,因此,依據(jù)國家標(biāo)準(zhǔn)構(gòu)建圖書館界的數(shù)據(jù)行業(yè)規(guī)范,是關(guān)系圖書館大數(shù)據(jù)開放性和降低大數(shù)據(jù)決策成本的重要問題。圖書館內(nèi)部不同部門之間也存在著大數(shù)據(jù)重復(fù)采集和數(shù)據(jù)標(biāo)準(zhǔn)、類型不統(tǒng)一的問題,我國圖書館界與其它行業(yè)或第三方運(yùn)營商,在數(shù)據(jù)庫建設(shè)規(guī)范、數(shù)據(jù)傳輸接口、相關(guān)應(yīng)用程序上也存在較大差異,給大數(shù)據(jù)的清洗、共享和分析帶來了額外的負(fù)擔(dān)[7]。此外,圖書館對所屬大數(shù)據(jù)的安全性管理、讀者隱私大數(shù)據(jù)保護(hù)、大數(shù)據(jù)價(jià)值和可用性保證等,也大幅增加了圖書館大數(shù)據(jù)清洗過程的復(fù)雜度和成本投入。

      2圖書館大數(shù)據(jù)清洗平臺的構(gòu)建與大數(shù)據(jù)清洗關(guān)鍵問題21圖書館大數(shù)據(jù)清洗平臺的構(gòu)建

      圖書館數(shù)據(jù)除具備大數(shù)據(jù)的4“V”特性外,還存在著諸如不清潔數(shù)據(jù)來源多元化、隨機(jī)產(chǎn)生、隱匿性強(qiáng)和噪聲過濾難度大的特點(diǎn)。因此,在圖書館大數(shù)據(jù)清洗系統(tǒng)的設(shè)計(jì)中,作者依據(jù)圖書館業(yè)務(wù)導(dǎo)向和大數(shù)據(jù)的信息流程,重點(diǎn)突出了大數(shù)據(jù)源分類存儲、不清潔數(shù)據(jù)識別與發(fā)現(xiàn)、不清潔數(shù)據(jù)清洗和數(shù)據(jù)清洗流程控制等4個(gè)系統(tǒng)功能與流程的設(shè)計(jì),實(shí)現(xiàn)了從數(shù)據(jù)產(chǎn)生與存儲、不清潔數(shù)據(jù)發(fā)現(xiàn)與清洗、清洗有效性評估、評估結(jié)果對清洗流程的反饋控制等4個(gè)過程的大數(shù)據(jù)生命周期質(zhì)量管理[8]。所設(shè)計(jì)的圖書館大數(shù)據(jù)清洗系統(tǒng)功能結(jié)構(gòu)如圖1所示:圖1圖書館大數(shù)據(jù)清洗系統(tǒng)功能結(jié)構(gòu)圖

      為了保證圖書館大數(shù)據(jù)存儲系統(tǒng)安全、高效、經(jīng)濟(jì)和可控,系統(tǒng)底層的大數(shù)據(jù)存儲庫依據(jù)大數(shù)據(jù)的來源、類型、應(yīng)用對象和不清潔數(shù)據(jù)特點(diǎn),劃分為客戶管理元數(shù)據(jù)庫、系統(tǒng)配置與運(yùn)行數(shù)據(jù)庫、讀者服務(wù)數(shù)據(jù)庫和主數(shù)據(jù)庫等,這些數(shù)據(jù)庫的不清潔數(shù)據(jù)主要存在結(jié)構(gòu)不完整、數(shù)據(jù)重復(fù)、錯(cuò)誤和不一致的問題。

      不清潔數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)平臺主要由大數(shù)據(jù)的獲取、數(shù)據(jù)完整性檢測、數(shù)據(jù)重復(fù)性檢測和錯(cuò)誤數(shù)據(jù)檢測4個(gè)功能模塊組成,通過對大數(shù)據(jù)變量的取值范圍、相關(guān)性、無效性、缺失值和重復(fù)值的判定,將從大數(shù)據(jù)源中發(fā)現(xiàn)、提取出的不清潔數(shù)據(jù)傳輸至不清潔數(shù)據(jù)清洗模塊。

      不清潔數(shù)據(jù)清洗系統(tǒng)平臺是大數(shù)據(jù)清洗系統(tǒng)的核心,數(shù)據(jù)管理員在對不清潔數(shù)據(jù)產(chǎn)生的原因、存在形式和數(shù)據(jù)結(jié)構(gòu)復(fù)雜度進(jìn)行分析后,制定出科學(xué)的不清潔數(shù)據(jù)定義、評估、清洗和規(guī)則反饋優(yōu)化程序,依據(jù)數(shù)據(jù)清洗的實(shí)時(shí)性需求,控制系統(tǒng)實(shí)現(xiàn)不清潔數(shù)據(jù)的離線清洗和在線清洗,并對清洗后數(shù)據(jù)的完整性、有效性、一致性、準(zhǔn)確性和相關(guān)性等進(jìn)行判定,如果清洗結(jié)果不達(dá)標(biāo)則進(jìn)行不清潔數(shù)據(jù)的二次清洗[9]。

      不清潔數(shù)據(jù)清洗管理平臺由圖書館元數(shù)據(jù)管理、大數(shù)據(jù)清洗模型管理、數(shù)據(jù)清洗安全性管理和質(zhì)量管理4個(gè)模塊組成,負(fù)責(zé)元數(shù)據(jù)存取、大數(shù)據(jù)清洗流程控制、數(shù)據(jù)清洗過程的數(shù)據(jù)安全性和不清潔數(shù)據(jù)清洗質(zhì)量的管理,可有效保證不清潔數(shù)據(jù)清洗過程安全、高效、經(jīng)濟(jì)、高價(jià)值和可用。

      22關(guān)系圖書館大數(shù)據(jù)清洗質(zhì)量和數(shù)據(jù)可用性的關(guān)鍵問題221有針對性地選取圖書館大數(shù)據(jù)的清洗對象

      大數(shù)據(jù)是圖書館IT系統(tǒng)構(gòu)建、讀者管理和服務(wù)模式變革的直接決策依據(jù),大數(shù)據(jù)的價(jià)值總量、密度和清潔度等,直接關(guān)系圖書館大數(shù)據(jù)決策的科學(xué)性、效率、經(jīng)濟(jì)性和可用性。圖書館大數(shù)據(jù)具有海量和總量級數(shù)遞增的特點(diǎn),但是,不同類型的大數(shù)據(jù)在數(shù)據(jù)價(jià)值總量、價(jià)值密度、分析可用性和與決策對象的相關(guān)性上差異較大,導(dǎo)致不同大數(shù)據(jù)在圖書館決策的科學(xué)性、精確度、可靠性和經(jīng)濟(jì)性上的影響度不同。因此,圖書館應(yīng)根據(jù)大數(shù)據(jù)決策的對象、內(nèi)容、精確度和經(jīng)濟(jì)性需求,有選擇地開展大數(shù)據(jù)的清洗活動(dòng)。

      個(gè)性化智慧服務(wù)是未來圖書館讀者服務(wù)的重要目標(biāo),而精確地判定讀者需求、圖書館未來服務(wù)資源總量和讀者閱讀情景,則是確保圖書館讀者個(gè)性化智慧服務(wù)內(nèi)容實(shí)時(shí)、精準(zhǔn)投放的前提。因此,圖書館對大數(shù)據(jù)清洗對象的選擇上,在保證大數(shù)據(jù)獲取難度可控、數(shù)據(jù)覆蓋率廣泛和具備一定的數(shù)據(jù)規(guī)模前提下,應(yīng)選取與讀者個(gè)性化智慧服務(wù)決策相關(guān)性較大的數(shù)據(jù),并重點(diǎn)清洗與讀者個(gè)性化智慧服務(wù)決策相關(guān)性較大的諸如讀者個(gè)體特征、閱讀歷史行為、閱讀實(shí)時(shí)興趣、個(gè)體移動(dòng)路徑、閱讀終端模式、讀者服務(wù)評價(jià)與滿意度反饋、系統(tǒng)未來服務(wù)資源總量與服務(wù)負(fù)載等數(shù)據(jù),才能在較小大數(shù)據(jù)清洗成本投入和降低清洗復(fù)雜度的前提下,大幅度提升圖書館大數(shù)據(jù)的價(jià)值密度與數(shù)據(jù)可用性。

      222依據(jù)大數(shù)據(jù)決策實(shí)時(shí)性需求制定數(shù)據(jù)清洗策略

      圖書館大數(shù)據(jù)決策可劃分為實(shí)時(shí)決策和離線決策兩部分。實(shí)時(shí)決策主要應(yīng)用于圖書館安全與服務(wù)即時(shí)管理、讀者在線服務(wù)需求實(shí)時(shí)判定、實(shí)時(shí)服務(wù)策略制定與服務(wù)推送、服務(wù)系統(tǒng)的實(shí)時(shí)評估與優(yōu)化等方面,要求大數(shù)據(jù)應(yīng)用平臺在較短的時(shí)間內(nèi)獲取、清洗和分析實(shí)時(shí)數(shù)據(jù),為大數(shù)據(jù)實(shí)時(shí)、動(dòng)態(tài)決策提供科學(xué)數(shù)據(jù)支持。實(shí)時(shí)決策對大數(shù)據(jù)獲取、傳輸、清洗、分析和決策過程的時(shí)效性要求較高,數(shù)據(jù)總量偏小、低清潔度和價(jià)值有限的實(shí)時(shí)大數(shù)據(jù)可能會影響圖書館實(shí)時(shí)決策的科學(xué)性和可用性。離線決策主要應(yīng)用于圖書館的宏觀戰(zhàn)略方案制定、用戶服務(wù)模式變革、服務(wù)有效性評估和服務(wù)市場競爭環(huán)境分析等方面,這些離線決策雖然因?yàn)楹A看髷?shù)據(jù)的復(fù)雜分析而降低了決策的時(shí)效性,但決策結(jié)果具有較高的科學(xué)性、準(zhǔn)確度和可靠性。因此,圖書館必須依據(jù)大數(shù)據(jù)決策實(shí)時(shí)性需求制定相關(guān)的大數(shù)據(jù)清洗策略。

      大數(shù)據(jù)清洗策略的制定應(yīng)以圖書館服務(wù)效率的提升和讀者閱讀滿意度為依據(jù),結(jié)合圖書館數(shù)據(jù)中心大數(shù)據(jù)應(yīng)用系統(tǒng)的資源總量和大數(shù)據(jù)清洗的負(fù)載量,依據(jù)決策內(nèi)容實(shí)現(xiàn)大數(shù)據(jù)清洗實(shí)時(shí)性、算法復(fù)雜度、精確度和可靠性的完美結(jié)合。大數(shù)據(jù)在線清洗對實(shí)時(shí)性的要求較強(qiáng),因此,圖書館應(yīng)完全記錄用戶服務(wù)流程線上的實(shí)際數(shù)據(jù),依據(jù)決策對象的重要性、實(shí)時(shí)性、相關(guān)性和服務(wù)收益需求,對需要清洗的數(shù)據(jù)進(jìn)行優(yōu)先級別劃分和系統(tǒng)資源分配,確保在線清洗結(jié)果的時(shí)效性、準(zhǔn)確性、可用性和可靠性綜合評估最優(yōu)。在離線大數(shù)據(jù)清洗策略的制定中,圖書館對數(shù)據(jù)清洗優(yōu)先級別的劃分,重點(diǎn)應(yīng)放在決策對象的重要性、服務(wù)的收益率、系統(tǒng)資源的損耗和實(shí)時(shí)性需求上,科學(xué)分配二級子指標(biāo)的權(quán)重比例,并依據(jù)讀者需求和圖書館服務(wù)模式變革進(jìn)行動(dòng)態(tài)反饋調(diào)控,不斷提升宏觀決策的科學(xué)性和可行性。

      223圖書館大數(shù)據(jù)清洗質(zhì)量評估標(biāo)準(zhǔn)的幾個(gè)重要維度

      圖書館對不清潔數(shù)據(jù)清洗質(zhì)量評估的科學(xué)性,既是關(guān)系圖書館數(shù)據(jù)價(jià)值保證和大數(shù)據(jù)決策可用性的關(guān)鍵,也是圖書館對數(shù)據(jù)清洗系統(tǒng)進(jìn)行反饋控制、優(yōu)化和完善的重要依據(jù),因此,必須選擇科學(xué)、全面、完整和可操作的大數(shù)據(jù)清洗質(zhì)量評估維度,才能確保大數(shù)據(jù)清洗過程高效、優(yōu)質(zhì)、快捷、經(jīng)濟(jì)和可控。

      圖書館大數(shù)據(jù)清洗質(zhì)量評估體系的構(gòu)建應(yīng)堅(jiān)持評估指標(biāo)覆蓋面廣泛、指標(biāo)因子權(quán)重分配合理、評估系統(tǒng)開放和易于操作的原則,所設(shè)計(jì)的圖書館大數(shù)據(jù)清洗質(zhì)量評估維度如表1所示:表1圖書館大數(shù)據(jù)清洗質(zhì)量評估維度表

      編號維度內(nèi)容大數(shù)據(jù)清洗評估維度的描述1規(guī)范性數(shù)據(jù)的存在性、質(zhì)量及存儲標(biāo)準(zhǔn)2完整性與準(zhǔn)確性數(shù)據(jù)結(jié)構(gòu)完整度、準(zhǔn)確性和可用性3重復(fù)性數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集外重復(fù)4一致性和同步性在不同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中的一致和同步5及時(shí)性和可用性非實(shí)時(shí)數(shù)據(jù)的清洗和價(jià)值可用性測量6可識別和相關(guān)性數(shù)據(jù)可理解、價(jià)值可測量和可相融程度7易用性和可維護(hù)性數(shù)據(jù)可訪問、使用、更新、維護(hù)和管理的程度8數(shù)據(jù)價(jià)值覆蓋度數(shù)據(jù)在決策中的價(jià)值、對象和內(nèi)容覆蓋程度

      此外,對圖書館大數(shù)據(jù)清洗質(zhì)量的評估,應(yīng)根據(jù)大數(shù)據(jù)決策過程對數(shù)據(jù)清潔度、價(jià)值密度和可用性的需求,動(dòng)態(tài)調(diào)整大數(shù)據(jù)清洗質(zhì)量評估維度表中各指標(biāo)的權(quán)重因子,增強(qiáng)大數(shù)據(jù)評估結(jié)果對大數(shù)據(jù)清洗系統(tǒng)的反饋控制與優(yōu)化功能,才能確保大數(shù)據(jù)清洗過程安全、高效、經(jīng)濟(jì)和可控。

      224圖書館大數(shù)據(jù)清洗流程的設(shè)計(jì)

      大數(shù)據(jù)清洗流程的科學(xué)性、數(shù)據(jù)流可控性和評估標(biāo)準(zhǔn)有效性,是關(guān)系圖書館大數(shù)據(jù)清洗流程安全、高效、快速和經(jīng)濟(jì)的重要問題。因此,本文在圖書館大數(shù)據(jù)清洗流程的設(shè)計(jì)中,堅(jiān)持在保持大數(shù)據(jù)價(jià)值總量不變的前提下,以提升大數(shù)據(jù)的價(jià)值密度、可用性、決策實(shí)時(shí)性和降低大數(shù)據(jù)應(yīng)用成本為根本目標(biāo),有效保證了大數(shù)據(jù)決策的科學(xué)性、可靠性、實(shí)時(shí)性和經(jīng)濟(jì)性。圖書館大數(shù)據(jù)清洗流程如圖2所示:

      圖書館大數(shù)據(jù)清洗系統(tǒng)首先對所接收的大數(shù)據(jù)進(jìn)行預(yù)處理,并將擬清洗的大數(shù)據(jù)導(dǎo)入數(shù)據(jù)清洗系統(tǒng),檢查元數(shù)據(jù)諸如字段解釋、數(shù)據(jù)來源、代碼表等內(nèi)容描述是否正確,初步統(tǒng)計(jì)擬清洗數(shù)據(jù)的類型、結(jié)構(gòu)、實(shí)時(shí)性需求和存在模式問題[10]。其次,在大數(shù)據(jù)的清洗中,應(yīng)根據(jù)大數(shù)據(jù)清洗的復(fù)雜度、大數(shù)據(jù)總量多少和流程相關(guān)性,按照去除和修補(bǔ)缺失大數(shù)據(jù)、去除重復(fù)和邏輯錯(cuò)誤大數(shù)據(jù)、異常大數(shù)據(jù)的檢測與處理、非需求大數(shù)據(jù)清洗、大數(shù)據(jù)的關(guān)聯(lián)性驗(yàn)證等步驟進(jìn)行,最后對已清洗大數(shù)據(jù)的質(zhì)量和可用性進(jìn)行評估,并將不符合大數(shù)據(jù)決策需求的不清潔數(shù)據(jù)傳輸至數(shù)據(jù)清洗輸入接口進(jìn)行二次清洗。

      3結(jié)語

      圖書館大數(shù)據(jù)具有多數(shù)據(jù)來源、多維度、多采集方法和多存儲模式的特點(diǎn),導(dǎo)致大數(shù)據(jù)中不可避免地存在著錯(cuò)誤、粗糙和不合時(shí)宜的非清潔數(shù)據(jù)。這些非清潔數(shù)據(jù)的存在,增加了圖書館大數(shù)據(jù)應(yīng)用的復(fù)雜度和數(shù)據(jù)決策成本,降低了圖書館對讀者閱讀需求的感知和對未來服務(wù)發(fā)展趨勢的預(yù)測能力,嚴(yán)重影響了圖書館服務(wù)決策從主觀經(jīng)驗(yàn)主義向大數(shù)據(jù)決策的轉(zhuǎn)變。因此,如何通過科學(xué)、高效、經(jīng)濟(jì)和實(shí)時(shí)的數(shù)據(jù)清洗,將非清潔數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的干凈數(shù)據(jù),是圖書館增強(qiáng)大數(shù)據(jù)可用性、提升大數(shù)據(jù)決策效率和提升知識服務(wù)水平的關(guān)鍵。

      圖書館大數(shù)據(jù)清洗是一個(gè)涉及面廣泛和影響力深遠(yuǎn)的工程,不科學(xué)的清洗流程和方法會導(dǎo)致數(shù)據(jù)清洗收益率下降,甚至產(chǎn)生新的不清潔數(shù)據(jù)而影響圖書館大數(shù)據(jù)決策科學(xué)性。因此,圖書館在大數(shù)據(jù)的采集、傳輸、存儲、標(biāo)準(zhǔn)化處理、分析和決策中,首先應(yīng)將數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)清潔引入圖書館大數(shù)據(jù)生命周期的不同階段,從制度上規(guī)劃保證數(shù)據(jù)質(zhì)量管理有效和防止不清潔數(shù)據(jù)的產(chǎn)生。其次,應(yīng)加強(qiáng)對大數(shù)據(jù)融合、集成和演化流程的監(jiān)控與檢測,防止因?yàn)榇髷?shù)據(jù)的產(chǎn)生、流入或數(shù)據(jù)更改而產(chǎn)生新的不清潔數(shù)據(jù)。第三,數(shù)據(jù)清洗過程會消耗大量的系統(tǒng)資源和大數(shù)據(jù)應(yīng)用成本,因此,圖書館數(shù)據(jù)清洗目標(biāo)的制定應(yīng)以大數(shù)據(jù)決策需求為依據(jù),不能人為制定過高的數(shù)據(jù)清洗清潔度目標(biāo)而導(dǎo)致大數(shù)據(jù)決策綜合收益下降。

      參考文獻(xiàn)

      [1]王曰芬,章成志,張蓓蓓,等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2007,(12):50-56.

      [2]吳向軍,姜云飛,凌應(yīng)標(biāo).基于STRIPS的領(lǐng)域知識提取策略[J].軟件學(xué)報(bào),2007,18(3):490-504.

      [3]劉喜文,鄭昌興,王文龍,等.構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J].圖書與情報(bào),2013,(5):22-28.

      [4]蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識服務(wù)的數(shù)據(jù)清洗研究[J].圖書與情報(bào),2013,(5):16-21.

      [5]王永紅.定量專利分析的樣本選取與數(shù)據(jù)清洗[J].情報(bào)理論與實(shí)踐,2007,30(1):93-96.

      [6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥www.economist.com/node/15557443,2016-05-16.

      [7]黃沈?yàn)I,王海潔,朱振華.大數(shù)據(jù)云清洗系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2015,5(3):88-90.

      [8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.

      [9]燕彩蓉,孫圭寧,高念高.基于擴(kuò)展樹狀知識庫的海量數(shù)據(jù)清洗算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(28):146-148.

      [10]張建中.數(shù)字資源整合與個(gè)性化服務(wù)中關(guān)鍵技術(shù)研究[D].長沙:中南大學(xué)信息科學(xué)與工程學(xué)院,2008:43-45.

      (本文責(zé)任編輯:郭沫含)

      猜你喜歡
      決策分析系統(tǒng)設(shè)計(jì)圖書館
      基于大數(shù)據(jù)應(yīng)用的智能公交決策分析平臺
      圖書館
      當(dāng)前軍事決策分析關(guān)注的幾個(gè)問題
      飛躍圖書館
      一種基于SATA硬盤陣列的數(shù)據(jù)存儲與控制系統(tǒng)設(shè)計(jì)研究
      工業(yè)熱電偶計(jì)量檢定系統(tǒng)設(shè)計(jì)
      基于物聯(lián)網(wǎng)的煤礦智能倉儲與物流運(yùn)輸管理系統(tǒng)設(shè)計(jì)與應(yīng)用
      目標(biāo)特性測量雷達(dá)平臺建設(shè)構(gòu)想
      科技視界(2016年22期)2016-10-18 14:34:34
      去圖書館
      基于GIS的城市交通流模擬與決策分析
      河南科技(2014年19期)2014-02-27 14:15:46
      田阳县| 亚东县| 建湖县| 台山市| 申扎县| 南丰县| 阿拉善右旗| 尚志市| 深州市| 扎囊县| 闵行区| 青冈县| 阿拉善右旗| 神农架林区| 苍溪县| 田东县| 图们市| 信宜市| 历史| 巴青县| 三江| 南木林县| 通城县| 米林县| 凉山| 安顺市| 金门县| 长子县| 沙田区| 玉环县| 斗六市| 高雄市| 新闻| 合山市| 定远县| 万安县| 嫩江县| 湖州市| 自治县| 景洪市| 郧西县|