胡永泉+楊勇+張建
摘要:隨著信息化技術(shù)的不斷發(fā)展,企業(yè)相關(guān)業(yè)務(wù)產(chǎn)生的數(shù)據(jù)量急劇增加。由于企業(yè)不同系統(tǒng)所使用的數(shù)據(jù)庫和數(shù)據(jù)約束規(guī)則不盡相同,往往會(huì)產(chǎn)生大量的冗余數(shù)據(jù)和異常數(shù)據(jù),不利于后期的分析統(tǒng)計(jì)。企業(yè)數(shù)據(jù)清洗平臺(tái)是按一定的清洗規(guī)則對(duì)不同數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾,去除冗余數(shù)據(jù)和異常數(shù)據(jù),并將剩余的數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)和管理。從而有利于后期的統(tǒng)計(jì)與挖掘,為企業(yè)的發(fā)展和決策提供必要的數(shù)據(jù)支持。
關(guān)鍵詞:數(shù)據(jù)清洗;SSM;數(shù)據(jù)冗余;maven
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)25-0073-02
Abstract: With the continuous development of information technology,Enterprise business data has increased dramatically.Because of database and binding rules used by enterprises are different, a large amount of redundant data and abnormal data are often produced, which is not conducive to the analysis and statistics in the future.Enterprise data cleaning platform can filter data in different databases according to certain cleaning rules, remove redundant data and exception data, the remaining legal data are stored and managed uniformly。Which is conducive to later statistics and data mining,and providing necessary data support for enterprise development and decision-making.
Key words: data cleaning; SSM; data redundancy; maven
1 背景
隨著信息化技術(shù)的不斷發(fā)展,企業(yè)的日常業(yè)務(wù)處理都在向自動(dòng)化、智能化轉(zhuǎn)型升級(jí)。盡管信息化技術(shù)提高了企業(yè)的辦事效率、節(jié)約了一定的成本,但與之而來的“數(shù)據(jù)災(zāi)難”也是企業(yè)需不得不考慮的問題[1]。目前,企業(yè)通常采用各種專業(yè)的信息化軟件進(jìn)行業(yè)務(wù)處理,每個(gè)軟件的架構(gòu)、數(shù)據(jù)庫、約束規(guī)則不盡相同,這就導(dǎo)致了業(yè)務(wù)數(shù)據(jù)分散、異庫存儲(chǔ),伴隨而來的冗余數(shù)據(jù)、異常數(shù)據(jù)不斷增加,不利于企業(yè)對(duì)數(shù)據(jù)進(jìn)行分析統(tǒng)計(jì),挖掘規(guī)律,業(yè)務(wù)數(shù)據(jù)的潛在價(jià)值沒有得到充分發(fā)揮。因此,對(duì)不同數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行集中過濾、將滿足規(guī)則的數(shù)據(jù)集中入庫是業(yè)務(wù)數(shù)據(jù)發(fā)揮潛在價(jià)值的前提基礎(chǔ)[2-4]。
目前,市面上有不少成熟的數(shù)據(jù)清洗平臺(tái),例如百度、阿里云等大公司都提供了數(shù)據(jù)清洗相關(guān)的業(yè)務(wù)。但是,這些平臺(tái)根據(jù)業(yè)務(wù)量收取費(fèi)用,這對(duì)大多數(shù)企業(yè),尤其是剛剛起步的中小型企業(yè)是無法承受的?;赟SM的企業(yè)數(shù)據(jù)清洗平臺(tái)是一個(gè)基于web技術(shù)的企業(yè)數(shù)據(jù)清洗平臺(tái),該平臺(tái)主要提供數(shù)據(jù)類型、自定義驗(yàn)證、值集驗(yàn)證、一致性驗(yàn)證、模版外鍵驗(yàn)證、唯一性組驗(yàn)證等數(shù)據(jù)校驗(yàn)規(guī)則。用戶可以根據(jù)自己需求創(chuàng)建私人定制的清洗規(guī)則,方便快捷。該平臺(tái)能很好地滿足初創(chuàng)企業(yè)對(duì)數(shù)據(jù)清洗的需求,降低成本,提高數(shù)據(jù)清洗效率、準(zhǔn)確性。為企業(yè)帶來更好的競爭優(yōu)勢(shì)。
2 系統(tǒng)設(shè)計(jì)
2.1 架構(gòu)設(shè)計(jì)
企業(yè)數(shù)據(jù)清洗平臺(tái)基于SSM框架(Spirng+SpringMVC+MyBatis)進(jìn)行開發(fā)[5]。采用分層設(shè)計(jì)思想,將系統(tǒng)分為表現(xiàn)層、業(yè)務(wù)邏輯層、數(shù)據(jù)訪問層,各層之間耦合度低,通過接口實(shí)現(xiàn)調(diào)用,從而確保系統(tǒng)的靈活性、可維護(hù)性、擴(kuò)展性較強(qiáng)[6-8]。其中,表現(xiàn)層由Spring MVC框架實(shí)現(xiàn),數(shù)據(jù)訪問層由MyBatis框架實(shí)現(xiàn),而Spring框架負(fù)責(zé)業(yè)務(wù)邏輯與其他兩個(gè)框架的管理。系統(tǒng)整體架構(gòu)如圖1所示。
2.2 功能設(shè)計(jì)
企業(yè)數(shù)據(jù)清洗平臺(tái)主要采用用戶自定義的數(shù)據(jù)清洗原則,將不同業(yè)務(wù)軟件數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行過濾和清洗,將符合規(guī)則的數(shù)據(jù)進(jìn)行集中存儲(chǔ),從而有利于后期的統(tǒng)計(jì)和挖掘。系統(tǒng)整體分為系統(tǒng)管理、應(yīng)用管理、數(shù)據(jù)采集三大功能模塊,主要功能包括:模版管理、數(shù)據(jù)錄入、多模版錄入、維度管理、數(shù)據(jù)源管理、用戶管理、用戶組管理。數(shù)據(jù)清洗平臺(tái)總體功能如圖2所示。
2.3 數(shù)據(jù)庫設(shè)計(jì)
企業(yè)數(shù)據(jù)清洗平臺(tái)采用MySQL作為底層數(shù)據(jù)庫,根據(jù)業(yè)務(wù)邏輯設(shè)計(jì)數(shù)據(jù)庫表,使數(shù)據(jù)以低冗余、易擴(kuò)充、結(jié)構(gòu)清晰的形式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中。平臺(tái)數(shù)據(jù)表主要包括:數(shù)據(jù)字典表、用戶表、角色表、模板表、模板列表、模板外鍵表、維度表、數(shù)據(jù)源表等。
3 系統(tǒng)實(shí)現(xiàn)
3.1 MyBatis數(shù)據(jù)庫連接配置
3.2 模板管理模塊實(shí)現(xiàn)
模板管理子模塊包括對(duì)模板的類型管理、定義管理、權(quán)限管理、驗(yàn)證規(guī)則管理等。其中,模板定義是數(shù)據(jù)清洗平臺(tái)所有操作依賴的基礎(chǔ)。模版對(duì)應(yīng)具體數(shù)據(jù)源中具體數(shù)據(jù)庫中具體的表。所有用戶自定義規(guī)則都依附并作用于模版。模版定義偽代碼實(shí)現(xiàn):
3.3 維度管理模塊實(shí)現(xiàn)
4 結(jié)束語
本文介紹了基于SSM的企業(yè)數(shù)據(jù)清洗平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)過程,通過該系統(tǒng)使用,用戶可以根據(jù)需要自定義清洗規(guī)則,通過簡單的配置與操作就可以完成對(duì)數(shù)據(jù)的清晰。盡管該平臺(tái)不具備市面成熟的數(shù)據(jù)清洗平臺(tái)復(fù)雜的功能,但它能很好地滿足中小型企業(yè)對(duì)數(shù)據(jù)清洗的需求,降低企業(yè)成本,提高數(shù)據(jù)清洗效率和準(zhǔn)確性,為企業(yè)帶來更好的競爭優(yōu)勢(shì)。
參考文獻(xiàn):
[1] 卿蘇德, 吳博. 大數(shù)據(jù)時(shí)代亟需強(qiáng)化數(shù)據(jù)清洗環(huán)節(jié)的規(guī)范和標(biāo)準(zhǔn)[J]. 世界電信, 2015(7):35-60.
[2] 杜岳峰, 申德榮, 聶鐵錚, 等. 基于關(guān)聯(lián)數(shù)據(jù)的一致性和時(shí)效性清洗方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2017(1):92-106.
[3] 朱會(huì)娟, 蔣同海, 周喜, 等. 基于動(dòng)態(tài)可配置規(guī)則的數(shù)據(jù)清洗方法[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(4):1014-1020.
[4] 陳永紅, 廖欣, 鄭欣, 等. 面向健康大數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)[J]. 現(xiàn)代計(jì)算機(jī):專業(yè)版, 2017(6):21-25.
[5] 李洋. SSM框架在Web應(yīng)用開發(fā)中的設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)技術(shù)與發(fā)展, 2016, 26(12):190-194.
[6] 鄒紅霆. 基于SSM框架的Web系統(tǒng)研究與應(yīng)用[J]. 湖南理工學(xué)院學(xué)報(bào):自然科學(xué)版, 2017, 30(1):39-43.
[7] 魏書寒. 基于SSM框架的圖書管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 工業(yè)控制計(jì)算機(jī), 2017(7):133-134.
[8] 劉昊, 李民. 基于SSM框架的客戶管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J]. 軟件導(dǎo)刊, 2017(7):87-89.endprint