李遠寧,劉森,張詩軍,陳豐,王志英
(中國南方電網(wǎng)有限責(zé)任公司信息部,廣東 廣州 510623)
分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)在電力企業(yè)的實踐和應(yīng)用
李遠寧,劉森,張詩軍,陳豐,王志英
(中國南方電網(wǎng)有限責(zé)任公司信息部,廣東 廣州 510623)
隨著企業(yè)信息化水平和企業(yè)精細化管理要求的不斷提高,企業(yè)對數(shù)據(jù)管理的需求也隨之增強,如何提高企業(yè)數(shù)據(jù)質(zhì)量更是需要重點解決的問題。 針對電力企業(yè)數(shù)據(jù)質(zhì)量管理面臨的挑戰(zhàn),創(chuàng)新提出了分布式數(shù)據(jù)質(zhì)量管理解決方案。 針對集中式數(shù)據(jù)質(zhì)量系統(tǒng)的性能瓶頸,在研究數(shù)據(jù)質(zhì)量系統(tǒng)特點并借鑒國內(nèi)外對大數(shù)據(jù)的解決方案后,提出了基于 Hadoop 分布式處理框架的解決方案。 利用 Hadoop 集群,可以把缺陷數(shù)據(jù)從 Oracle中抽離,分散存儲在集群里多臺服務(wù)器上,以有效提高磁盤 I/O 性能和數(shù)據(jù)分析性能。
數(shù)據(jù)質(zhì)量管理;分布式;Hadoop
隨著企業(yè)信息化水平和精細化管理要求的不斷提高,數(shù)據(jù)已成為企業(yè)的重要資源和核心資產(chǎn),深刻影響企業(yè)的業(yè)務(wù)管理模式。企業(yè)數(shù)據(jù)質(zhì)量水平,將關(guān)系到企業(yè)數(shù)據(jù)化管理、決策的效率和成效。
為促進數(shù)據(jù)質(zhì)量水平的提升,電力行業(yè)開展了數(shù)據(jù)質(zhì)量管理工作,并完成了數(shù)據(jù)質(zhì)量管理系統(tǒng)的建設(shè)與推廣,生產(chǎn)、營銷、財務(wù)、人力資源等業(yè)務(wù)域的數(shù)據(jù)質(zhì)量得到了顯著提升,但也面臨如下一些挑戰(zhàn):
· 涉及范圍廣,涉及各分省公司的營銷、生產(chǎn)、人力資源、財務(wù)等業(yè)務(wù)領(lǐng)域;
· 校驗規(guī)則繁多,各業(yè)務(wù)域都有相應(yīng)的數(shù)據(jù)質(zhì)量校驗規(guī)則,涵蓋非空、長度、格式、一致性、準(zhǔn)確性等類型的 規(guī) 則 ,共 計 4 000 多 條 ;
· 數(shù)據(jù)量大,經(jīng)統(tǒng)計,全網(wǎng)月增量數(shù)據(jù)為 8 億筆,問 題數(shù) 據(jù) 為 3 000 萬 筆 ;
· 數(shù)據(jù)校驗耗時長,以營銷域為例,當(dāng)校驗數(shù)據(jù)量達到 10億筆或以上規(guī)模時,原基于集中式數(shù)據(jù)存儲和計算架構(gòu)的數(shù)據(jù)質(zhì)量管理系統(tǒng)由于數(shù)據(jù)讀寫和數(shù)據(jù)統(tǒng)計操作瓶頸,完成數(shù)據(jù)質(zhì)量校驗和問題分析需 耗 費 70 h 以 上 的 系 統(tǒng) 運 行 時 間 ;
· 需要在短時間內(nèi)執(zhí)行大量的校驗規(guī)則,對磁盤讀寫性能、CPU 和內(nèi)存性能要求較高。
傳統(tǒng)集中式數(shù)據(jù)質(zhì)量管理系統(tǒng)可以規(guī)范化管理校驗規(guī)則、調(diào)度規(guī)則的執(zhí)行時間、統(tǒng)一管理數(shù)據(jù)質(zhì)量報告,大大提高了數(shù)據(jù)質(zhì)量校驗的效率,并規(guī)范了數(shù)據(jù)質(zhì)量的管理。數(shù)據(jù)量在千萬級以內(nèi)時,可以穩(wěn)定高效地完成數(shù)據(jù)質(zhì)量校驗。
集中式數(shù)據(jù)質(zhì)量管理系統(tǒng) (以下簡稱集中式系統(tǒng))主要包括兩大模塊,如圖 1所示。
圖1 集中式數(shù)據(jù)質(zhì)量管理系統(tǒng)架構(gòu)
(1)系統(tǒng)配置層
用于配置校驗規(guī)則、執(zhí)行策略、元數(shù)據(jù)等信息,查看數(shù)據(jù)質(zhì)量分析結(jié)果。
(2)系統(tǒng)執(zhí)行層
負責(zé)規(guī)則的執(zhí)行和問題數(shù)據(jù)的存儲。質(zhì)量校驗引擎采用 Oracle 存 儲 過 程 實 現(xiàn) ,通 過 database link(DBlink)鏈 接 到“被校驗庫”執(zhí)行預(yù)先配置好的校驗規(guī)則,統(tǒng)計并抽取查詢出來的問題數(shù)據(jù)。問題數(shù)據(jù)存儲在集中式系統(tǒng)數(shù)據(jù)庫里進行進一步的過濾、合并和分析,最終生成數(shù)據(jù)質(zhì)量報告。
集中式系統(tǒng)使用關(guān)系型數(shù)據(jù)庫存儲和分析數(shù)據(jù),當(dāng)面對海量數(shù)據(jù)時數(shù)據(jù)庫服務(wù)器的性能往往會成為瓶頸。只 能 通 過 提 高 CPU 處 理 速 度 和 磁 盤 I/O 速 度 來 提 高 數(shù)據(jù)庫性能,但這意味著系統(tǒng)成本的增加,并且隨著數(shù)據(jù)的不斷增長,數(shù)據(jù)庫服務(wù)器很快又會成為性能瓶頸。圖 2展示了不使用索引和使用索引時,SQL 執(zhí)行時間隨著數(shù)據(jù) 量 增 長 的 變 化 情 況 ???以 看 出 ,數(shù) 據(jù) 量 在 500 GB 時 已出現(xiàn)瓶頸。
圖2 SQL 查詢性能
由此可見,傳統(tǒng)的集中式系統(tǒng)仍存在不足,需要引入新的解決方案,以提升企業(yè)在數(shù)據(jù)質(zhì)量管理方面的能力。
3.1 設(shè)計思路
針對集中式數(shù)據(jù)質(zhì)量系統(tǒng)的性能瓶頸,本文在研究數(shù)據(jù)質(zhì)量系統(tǒng)特點并借鑒國內(nèi)外對大數(shù)據(jù)的解決方案后,提出 了 基 于 Hadoop 分 布 式 處 理 框 架 的 解 決 方 案 。 利 用Hadoop 集 群 ,可 以 把 缺 陷 數(shù) 據(jù) 從 Oracle 中 抽 離 ,分 散 存 儲在 集 群 里 的 多 臺 服 務(wù) 器 上 ,從 而 可 以 有 效 提 高 磁 盤 I/O 性能和數(shù)據(jù)分析性能。該方案具有以下優(yōu)點:
· 基于 x86 服務(wù)器,可使用較廉價的服務(wù)器組建集群;
· 具有良好的可擴展性,當(dāng)業(yè)務(wù)增長,需要處理更多的數(shù)據(jù)時,可以水平擴展和增加更多的節(jié)點;
· 集群的每個節(jié)點都可用于計算和存儲數(shù)據(jù),可應(yīng)對PB級別數(shù)據(jù)的存儲和分析。
3.2 分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)
分布式數(shù)據(jù)質(zhì)量系統(tǒng)采用 J2EE 架構(gòu)開發(fā) ,可邏輯劃分為用戶交互層、數(shù)據(jù)處理層和數(shù)據(jù)存儲層,如圖 3 所示。
3.2.1 用戶交互層
用戶交互層即用戶界面,通過界面可以進行系統(tǒng)配置、規(guī)則管理、報告導(dǎo)出等操作。主要功能包括以下幾方面。
· 元數(shù)據(jù)管理:管理被校驗庫的元數(shù)據(jù),包括表名、字段名、字段類型等信息。
· 模型管理:管理被校驗庫表之間的關(guān)聯(lián)關(guān)系。
· 規(guī)則配置:管理質(zhì)量校驗規(guī)則,包括規(guī)則名稱、規(guī)則描述以及校驗?zāi)_本。
· 策略管理:管理校驗規(guī)則的執(zhí)行時間和執(zhí)行參數(shù)。
· 報表管理:管理數(shù)據(jù)質(zhì)量報告,包括生成、上報、查看等功能。
· 平臺管理:管理組織機構(gòu)、用戶信息、系統(tǒng)日志等。
用戶交互層是用戶與系統(tǒng)交互的界面,在進行系統(tǒng)設(shè)計時充分考慮了界面的可用性和 便 利性,結(jié)合 AJAX 技術(shù)降低系統(tǒng)的響應(yīng)時間,提升了用戶使用體驗;為簡化校驗規(guī)則的配置工作,系統(tǒng)可根據(jù)元數(shù)據(jù)自動生成校驗規(guī)則的功 能 ,并 采 用 AJAX 技術(shù) 預(yù) 加 載 元 數(shù) 據(jù) ,提 高 用 戶 操 作 流暢度,大大提高規(guī)則配置的效率;還提供規(guī)則參數(shù)的功能。利用該功能可以把規(guī)則中相似的部分抽取出來,配置成若干個規(guī)則參數(shù),因此可以減少規(guī)則的數(shù)量,降低規(guī)則變更的響應(yīng)時間。
3.2.2 數(shù)據(jù)處理層
數(shù)據(jù)處理層是整個系統(tǒng)的核心,負責(zé)規(guī)則執(zhí)行、缺陷數(shù)據(jù)查詢分析等任務(wù),主要功能包括以下幾方面。
·執(zhí)行策略任務(wù)調(diào)度:負責(zé)控制執(zhí)行策略的任務(wù)調(diào)度,按周期定時啟動執(zhí)行策略。
· 缺陷數(shù)據(jù)分析:負責(zé)缺陷明細的分析,并生成數(shù)據(jù)質(zhì)量報告。
· 規(guī)則執(zhí)行引擎:負責(zé)執(zhí)行規(guī)則腳本,記錄執(zhí)行日志。
·缺陷明細查詢和導(dǎo)出:為用戶交互層提供從Hadoop 集群里查詢數(shù)據(jù)的接口。
圖3 分布式數(shù)據(jù)質(zhì)量技術(shù)架構(gòu)
作為數(shù)據(jù)處理層的兩大核心組件之一,規(guī)則執(zhí)行引擎是數(shù)據(jù)質(zhì)量管理系統(tǒng)的關(guān)鍵所在,直接影響了校驗的效率。在設(shè)計規(guī)則執(zhí)行引擎時主要考慮以下幾點因素。
性能是首先要考慮的問題。本系統(tǒng)的規(guī)則執(zhí)行引擎采用 開 源 ETL 工 具 Kettle 作 為 缺 陷 數(shù) 據(jù) 抽 取 引 擎 ,Kettle 可以把一個表的數(shù)據(jù)“切片”進行多線程分段抽取,因此可以比較高效地把問題數(shù)據(jù)抽取到質(zhì)量管理系統(tǒng)里。另外,執(zhí)行引擎還采用緩存機制,執(zhí)行規(guī)則時會優(yōu)先從緩存中獲取結(jié)果以提高執(zhí)行效率。
其次,穩(wěn)定性是另一個重要因素。在數(shù)據(jù)質(zhì)量管理系統(tǒng)里面,執(zhí)行引擎里包含了大量的容錯處理機制。例如,在規(guī)則執(zhí)行失敗后,執(zhí)行引擎可以判斷失敗的原因并決定是否需要重試,如果遇到不可恢復(fù)的異常,則直接把規(guī)則標(biāo)記為失敗并繼續(xù)執(zhí)行下一條規(guī)則。
最后,還要考慮對數(shù)據(jù)源的適應(yīng)性。為了擴大數(shù)據(jù)質(zhì)量管理系統(tǒng)的使用范圍,執(zhí)行引擎需要兼容多種主流的數(shù)據(jù) 庫 。目 前 已 兼 容 MySQL、SQL Server 和 Oracle,日 后 會 兼容更多類型的數(shù)據(jù)庫。
缺陷數(shù)據(jù)分析引擎是數(shù)據(jù)處理層的另一個核心組件。缺陷明細數(shù)據(jù)采集到 Hadoop 后 ,該引擎 對數(shù)據(jù)進行分析,生成并匯總結(jié)果,最終生成數(shù)據(jù)質(zhì)量報告。為了加快數(shù)據(jù)分析的效率,系統(tǒng)把分析任務(wù)細分成多個更小規(guī)模的任務(wù),當(dāng)所有任務(wù)完成后再匯總生成最終的結(jié)果。
3.2.3 數(shù)據(jù)存儲層
數(shù)據(jù)存儲層由統(tǒng)一數(shù)據(jù)訪問接口以及數(shù)據(jù)存儲(含系統(tǒng)數(shù)據(jù)和缺陷明細數(shù)據(jù))組成。其中,系統(tǒng)數(shù)據(jù)庫采用傳統(tǒng)的 關(guān) 系 型 數(shù) 據(jù) 庫 Oracle,用 于 存 放 系 統(tǒng) 配 置 、執(zhí) 行 日 志 、規(guī)則信息和缺陷數(shù)據(jù)分析結(jié)果;而缺陷數(shù)據(jù)明細存儲采用Hadoop 分布式處理框架。
(1)統(tǒng)一數(shù)據(jù)訪問接口
系統(tǒng)使用 Hadoop 集群存儲缺陷 明細數(shù)據(jù) ,為了能 更簡 單 、快 捷 地 分 析 數(shù) 據(jù) ,基 于 Impala 框 架 封 裝 了 通 用 數(shù) 據(jù)訪 問 接 口 ,兼 容 Oracle 和 分 布 式 架 構(gòu) 下 的 數(shù) 據(jù) 訪 問 ,能 在Hadoop 集 群 上 運 行 本 地 SQL, 可 以 為 存 儲 在 HDFS 或HBase 中 的 Hadoop 數(shù) 據(jù) 提 供 快 速 、交 互 式 的 SQL 查 詢 ,查詢 效 率 比 基 于 MapReduce 的 Hive 有 數(shù) 量 級 的 提 升 。
(2)資源監(jiān)控
由于集群用到多臺服務(wù)器,因此如何便捷、直觀地監(jiān)控每臺服務(wù)器當(dāng)前的狀態(tài),成為系統(tǒng)實施與維護首先要考慮 的 問 題 。數(shù) 據(jù) 質(zhì) 量 管 理 系 統(tǒng) 使 用 Cloudera Manager(免 費版)作為 Hadoop 集群管理和監(jiān)控的工具 ,并進行了適當(dāng)優(yōu)化 ,提 供 了 一 個 B/S 結(jié) 構(gòu) 的 管 理 界面 ,用戶 可 以 實 時 查 看到集群里每一臺服務(wù)器的健康狀況、資源使用率、任務(wù)執(zhí)行情況等信息。
3.3 主要創(chuàng)新點
(1)利用分布式技術(shù)解決傳統(tǒng)關(guān)系型數(shù)據(jù)庫的性能瓶頸
數(shù)據(jù)質(zhì)量管理系統(tǒng)具有數(shù)據(jù)量大、數(shù)據(jù)增長快以及分析任務(wù)繁重等特點。傳統(tǒng)關(guān)系型數(shù)據(jù)庫在應(yīng)對這樣的大數(shù)據(jù)量場景時,數(shù)據(jù)分析性能迅速下降,已難以滿足實際的應(yīng)用需求。本研究提出使用 Hadoop 分布式架構(gòu)重構(gòu)系統(tǒng)中數(shù)據(jù)量較大的模塊,關(guān)系型數(shù)據(jù)庫只用于存儲分析結(jié)果。本系統(tǒng)采用了基于 Impala 框架封裝的數(shù)據(jù)分析引擎,開發(fā)人 員可以使 用熟悉的 SQL 語言進行數(shù) 據(jù)分 析 ,以降低 Hadoop集群的應(yīng)用門檻。利用 Hadoop 集群可以輕易實現(xiàn)數(shù)據(jù)的水平分布,從而大大提高系統(tǒng)的可用性和數(shù)據(jù)分析性能。
(2)使用多線程并行技術(shù)提高數(shù)據(jù)質(zhì)量校驗引擎的性能
為了能最大限度地利用分布式系統(tǒng)的硬件資源,提出了基于多線程的校驗規(guī)則執(zhí)行引擎。執(zhí)行引擎能根據(jù)規(guī)則數(shù)量和當(dāng)前系統(tǒng)負載情況動態(tài)創(chuàng)建線程池,其中包括問題數(shù)據(jù)查找和問題數(shù)據(jù)寫入兩種。在進行數(shù)據(jù)質(zhì)量校驗的過程中,系統(tǒng)根據(jù)問題數(shù)據(jù)寫入和問題數(shù)據(jù)查找的情況自動創(chuàng)建或銷毀線程,同時應(yīng)用“數(shù)據(jù)切片”技術(shù)把數(shù)據(jù)按照線程的數(shù)量平均切分,配送到不同的線程以提升數(shù)據(jù)處理效率。利用多線程技術(shù)可以充分利用服務(wù)器的硬件資源,極大地提升性能。
(3)基于元數(shù)據(jù)自動生成數(shù)據(jù)質(zhì)量校驗規(guī)則
數(shù)據(jù)質(zhì)量管理系統(tǒng)需要管理成千上萬的校驗規(guī)則,在提高校驗性能的同時也需要提高校驗規(guī)則配置的效率。元數(shù)據(jù)描述了數(shù)據(jù)庫表關(guān)系以及數(shù)據(jù)表字段的詳細信息,如字段類型、長度、數(shù)據(jù)來源、加密等級、數(shù)據(jù)質(zhì)量要求等。本文創(chuàng)新提出了基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量校驗規(guī)則自動生成功能,用戶只需在界面選擇需要進行校驗的表和字段,系統(tǒng)即可根據(jù)元數(shù)據(jù)中的數(shù)據(jù)質(zhì)量要求自動生成校驗規(guī)則,提高了規(guī)則配置的準(zhǔn)確性,并且大大節(jié)省了人工成本,提高了規(guī)則配置效率。目前,營銷、生產(chǎn)、財務(wù)、人力資源等業(yè)務(wù)領(lǐng)域約 3 255 條 校 驗 規(guī) 則 均 通 過 此 方 法 生 成 。
4.1 性能對比測試
實際測試表明,分布式系統(tǒng)具有優(yōu)秀的水平擴展性,隨著 數(shù)據(jù)量 的增長,Hadoop 集群的執(zhí) 行時間 幾 乎 呈 線 性增 長 。 應(yīng) 用 集 中 式 架 構(gòu) 的 平 均 數(shù) 據(jù) 讀 取 速 度 為 150 MB/s,讀 取 1 TB 的 數(shù) 據(jù) 需 要 約 2 h;Oracle 的 處 理 時 間 則 呈 指 數(shù)級增加,如 圖 4 所 示 ???以 看 出 ,當(dāng)數(shù)據(jù)量達到 500 GB 時 ,在 Oracle 上執(zhí)行 SQL 已出現(xiàn)性能瓶頸。
圖4 關(guān) 系型數(shù)據(jù)庫與 Hadoop 集群執(zhí)行時間對比
4.2 應(yīng)用情況
目前分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)已完成開發(fā),并在廣西電網(wǎng)公司、廣東電網(wǎng)公司試運行,根據(jù)現(xiàn)場收集的運行數(shù)據(jù),應(yīng)用分布式數(shù)據(jù)質(zhì)量管理系統(tǒng),最高可實現(xiàn)數(shù)據(jù)質(zhì)量校驗效率比原集中式系統(tǒng)提升 15倍左右。
服務(wù)器配置信息見表 1。
表1 服務(wù)器配置信息
數(shù)據(jù)質(zhì)量校驗情況見表 2。
表2 數(shù)據(jù)質(zhì)量校驗性能對比
從表 2可以看出,分布式系統(tǒng)的性能比集中式系統(tǒng)有數(shù)量級的提升。 由于客觀因素的限制,廣東電網(wǎng)公司的被校驗庫和 Hadoop 集群部署在 不同的子網(wǎng)絡(luò),受到網(wǎng)絡(luò)和防火墻的影響,校驗時間要長于廣西電網(wǎng)公司。
本文針對電力企業(yè)數(shù)據(jù)質(zhì)量管理工作的現(xiàn)狀和難點,提出了分布式數(shù)據(jù)質(zhì)量管理系統(tǒng)解決方案,通過開展分布式存儲和計算關(guān)鍵技術(shù)研究,初步搭建大數(shù)據(jù)存儲及計算平臺,并針對數(shù)據(jù)質(zhì)量管理子系統(tǒng)進行了技術(shù)架構(gòu)升級和試 點 應(yīng) 用 ,原 需 45 h 的 數(shù) 據(jù) 質(zhì) 量 校 驗 工 作 時 間 縮 短 至 3 h以內(nèi),有效提升了系統(tǒng)處理和分析效率,同時為中國南方電網(wǎng)公司數(shù)據(jù)中心架構(gòu)升級工作儲備了技術(shù)基礎(chǔ)。
[1] 田 秀 霞 , 周 耀 軍. 基 于 Hadoop 架 構(gòu) 的 分 布 式 計 算 和 存 儲 技 術(shù)及其應(yīng)用[J]. 上海電力學(xué)院學(xué)報,2011,27(1):70-75. TIAN X X,ZHOU Y J.The technology and application of distributed computing and storage based on Hadoop architecture[J]. Journal of Shanghai University of Electric Power,2011,27 (1):70-75.
[2] BIRMAN K P,GANESH L,RENESSE R.Running smart grid control software on cloud computing architectures[C]/Workshop on Computational Needs for the Next Generation Electric Grid,April 19-20,2011,Cornell University,Ithaca.[S.l.:s.n.],2011:1-28.
[3] 劉 鵬. 云 計 算 [M]. 北 京 :電 子 工 業(yè) 出 版 社 ,2010. LIU P.Cloud computing [M ].Beijing:Publishing House of Electronics Industry,2010.
[4] REESE G.Cloud application architectures:building applications and infrastructure in the cloud [M].New York:OˊReilly Media,2009.
[5] 辛 軍 ,陳 康 ,鄭 緯 民. 虛 擬 化 集 群 管 理 技 術(shù) 研 究 [J]. 計 算 機 科學(xué)與探索,2010(4):325-327. XIN J,CHEN K,ZHENG W M.Studies on virtualization of cluster resource management technology[J].Journal of Frontiers of Computer Science and Technology,2010(4):325-327.
[6] HDFS scalability with multiple NameSpaces [EB/OL].[2015-09-20].http:/issues.apache.org/jira/browse/HDFS-1052.
[7] WHITE T.Hadoop:the definitive gide[M].New York:OˊReilly Media,2009.
[8] Hadoop apache project [EB/OL]. [2015-09-20].http:/hadoop. apache.org.
[9] GHEMAWAT S,GOBIOFF H,LEUNG S T.The Google file system [C]/SOSP,October 19-22,2003,Bolton Landing,New York,USA.New York:ACM Press,2003.
[10]陳 遠 ,羅 琳. 信 息 系 統(tǒng) 中 的 數(shù) 據(jù) 質(zhì) 量 問 題 研 究 [J]. 中 國 圖 書館學(xué)報,2004(1):48-50. CHEN Y,LUO L.Research on data quality in information system[J].Journal of Library Science in China,2004(1):48-50.
[11]胡 金林,梅士 員. 基 于 元 數(shù) 據(jù) 擴 展 的 空 間 數(shù) 據(jù) 質(zhì) 量 管 理 方 法[J]. 現(xiàn) 代 測 繪 ,2004,27(3):21-24. HU J L,MEI S Y.The extended metadata method of spatial data quality management [J].Modern Surveying and Mapping,2004,27(3):21-24.
Practice and application of distributed data quality management system in power enterprise
LI Yuanning,LIU Sen,ZHANG Shijun,CHEN Feng,WANG Zhiying
Information Department of China Southern Power Grid Co.,Ltd.,Guangzhou 510623,China
As the improvement of the enterprise’s informationalization level and the increasing management requirement of enterprise refinement,the demand of data management of enterprise is becoming greater and greater,how to improve the data quality of the enterprise is the key problem needed to be solved.Aiming at the challenges of data quality management that the power enterprise faces,some solutions for distributed data quality management were proposed.After researching the system features of data quality,some foreign and domestic cases of big data were analyzed as reference,and a solution based on Hadoop distributed processing framework was given to solve the performance bottleneck of centralized data quality system.Hadoop clustering could dissociate defect data from Oracle and the data would be stored separately on multiple servers of the clustering,which could improve the I/O performance and data analysis performance of the magnetic disk effectively.
data quality management,distributed,Hadoop
TP391
:A
10.11959/j.issn.1000-0801.2016104
李遠寧(1981-),男,博士,中國南方電網(wǎng)有限責(zé)任公司信息部高級工程師,主要從事大數(shù)據(jù)分析及應(yīng)用工作。
張詩軍(1973-),男,中國南方電網(wǎng)有限責(zé)任公司信息部高級工程師,主要從事數(shù)據(jù)管理、管理信息化工作。
陳豐(1973-),男,中國南方電網(wǎng)有限責(zé)任公司信息部工程師,主要從事管理信息化、架構(gòu)設(shè)計工作。
劉森(1983-),男,博士,中國南方電網(wǎng)有限責(zé)任公司信息部工程師,主要從事大數(shù)據(jù)分析及應(yīng)用工作。
王志英(1962-),男,中國南方電網(wǎng)有限責(zé)任公司信息部教授級高級工程師,主要從事管理信息化、架構(gòu)設(shè)計工作。
2015-09-20;
2016-03-11