[摘 要] ERP系統(tǒng)內(nèi)部控制是企業(yè)管理信息化研究的一個(gè)重要內(nèi)容,本文應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)理論中的數(shù)據(jù)質(zhì)量概念,借鑒數(shù)據(jù)預(yù)處理方法,從數(shù)據(jù)質(zhì)量控制角度,研究數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下ERP系統(tǒng)的數(shù)據(jù)質(zhì)量控制;在數(shù)據(jù)安全控制基礎(chǔ)上引入數(shù)據(jù)質(zhì)量控制內(nèi)容,將ERP系統(tǒng)內(nèi)部控制內(nèi)容之一 —— 數(shù)據(jù)控制的內(nèi)涵延伸。
[關(guān)鍵詞] 數(shù)據(jù)倉(cāng)庫(kù);ERP;數(shù)據(jù)質(zhì)量控制
[中圖分類(lèi)號(hào)]F232[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2009)02-0010-03
近幾年,隨著ERP系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域的應(yīng)用結(jié)合,數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下ERP系統(tǒng)內(nèi)部控制成為目前研究的一個(gè)前端問(wèn)題,本文中所討論的ERP系統(tǒng)數(shù)據(jù)質(zhì)量控制,是指應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)理論中的數(shù)據(jù)質(zhì)量概念,通過(guò)數(shù)據(jù)收集、數(shù)據(jù)識(shí)別/匹配、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)清理和數(shù)據(jù)集成等,實(shí)現(xiàn)ERP系統(tǒng)數(shù)據(jù)優(yōu)化的過(guò)程。
一、數(shù)據(jù)倉(cāng)庫(kù)概念
數(shù)據(jù)倉(cāng)庫(kù)是在數(shù)據(jù)庫(kù)發(fā)展的基礎(chǔ)上產(chǎn)生的,美國(guó)W.H.Inmon博士將數(shù)據(jù)倉(cāng)庫(kù)定義為:“一個(gè)面向主題的、集成的、非易失的并且隨時(shí)間而變化的數(shù)據(jù)集合,用于支持管理層的決策過(guò)程”。數(shù)據(jù)庫(kù)為數(shù)據(jù)倉(cāng)庫(kù)提供數(shù)據(jù),是數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)。數(shù)據(jù)倉(cāng)庫(kù)主要應(yīng)用于聯(lián)機(jī)決策分析。
二、數(shù)據(jù)質(zhì)量定義
提到數(shù)據(jù)質(zhì)量,人們首先想到的就是控制錯(cuò)誤數(shù)據(jù)的輸入,以保證所輸入的都是合法的數(shù)據(jù)值。實(shí)際上,數(shù)據(jù)質(zhì)量的定義不僅如此。數(shù)據(jù)質(zhì)量反映數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的固有屬性,可分為數(shù)據(jù)的完整性、源數(shù)據(jù)的可信性、數(shù)據(jù)的正確性、數(shù)據(jù)的一致性以及數(shù)據(jù)的唯一性等。
數(shù)據(jù)倉(cāng)庫(kù)中對(duì)數(shù)據(jù)質(zhì)量的定義如下:
(1)正確性。數(shù)據(jù)要正確,它的值就必須與數(shù)據(jù)域一致。
(2)準(zhǔn)確性。數(shù)據(jù)值可能是正確的但不一定準(zhǔn)確,而且不準(zhǔn)確數(shù)據(jù)不會(huì)符合預(yù)先定義好的業(yè)務(wù)規(guī)則。
(3)一致性。數(shù)據(jù)用戶經(jīng)常會(huì)發(fā)現(xiàn)一個(gè)文件中的某個(gè)字段的值與另一文件中相同字段的值不一樣。
(4)完整性。我們往往把關(guān)注的重點(diǎn)局限于某一個(gè)用戶或者部門(mén)的數(shù)據(jù)需求上,這樣會(huì)忽略一些重要的其他相關(guān)數(shù)據(jù)元素。
(5)數(shù)據(jù)整合。許多企業(yè)的數(shù)據(jù)是散布于眾多系統(tǒng)和文件中的,因此數(shù)據(jù)存在冗余且缺乏一致性。這些系統(tǒng)和文件中的數(shù)據(jù)模式不同,未經(jīng)整合將無(wú)法使用。
三、數(shù)據(jù)出現(xiàn)問(wèn)題的原因
ERP系統(tǒng)數(shù)據(jù)出現(xiàn)問(wèn)題的主要原因是:①數(shù)據(jù)輸入不規(guī)范,同一部門(mén)不同的成員有不同的數(shù)據(jù)輸入格式,造成數(shù)據(jù)不單一。②數(shù)據(jù)操作權(quán)限混亂,數(shù)出多門(mén),同一業(yè)務(wù)數(shù)據(jù)在不同部門(mén)出現(xiàn)不同值。③企業(yè)本身一些業(yè)務(wù)不規(guī)范,沒(méi)有及時(shí)形成業(yè)務(wù)數(shù)據(jù),導(dǎo)致系統(tǒng)中的數(shù)據(jù)不完整。④數(shù)據(jù)儲(chǔ)存多樣性,數(shù)據(jù)以不同的模式存儲(chǔ)在不同的文件和數(shù)據(jù)庫(kù)中,數(shù)據(jù)存儲(chǔ)在物理上獨(dú)立的多個(gè)數(shù)據(jù)中心中,數(shù)據(jù)存儲(chǔ)在不同的硬件平臺(tái)之上,并且這些平臺(tái)運(yùn)行不同的操作系統(tǒng)。⑤多數(shù)據(jù)源造成的,有的數(shù)據(jù)來(lái)自關(guān)系數(shù)據(jù)庫(kù)系統(tǒng),有的來(lái)自文檔,數(shù)據(jù)源本身的正確性和質(zhì)量會(huì)直接影響數(shù)據(jù)質(zhì)量。
四、數(shù)據(jù)質(zhì)量問(wèn)題分類(lèi)
ERP系統(tǒng)數(shù)據(jù)質(zhì)量問(wèn)題按照數(shù)據(jù)源可劃分為單數(shù)據(jù)源問(wèn)題和多數(shù)據(jù)源問(wèn)題兩類(lèi)。
單數(shù)據(jù)源數(shù)據(jù)質(zhì)量問(wèn)題分為如下4類(lèi):
(l)屬性(字段)。這類(lèi)錯(cuò)誤僅僅局限于單個(gè)屬性的值。例如,city=“客戶”,屬于輸入錯(cuò)誤。正確的輸入是城市名稱(chēng)。
(2)記錄。這類(lèi)錯(cuò)誤表現(xiàn)在同一條記錄中不同的屬性值之間出現(xiàn)的不一致。例如,city=“北京”,zip=300012,屬性依賴(lài)沖突,城市名稱(chēng)和郵編之間應(yīng)該是相對(duì)應(yīng)的。
(3)記錄類(lèi)型。這類(lèi)錯(cuò)誤表現(xiàn)在同一個(gè)數(shù)據(jù)源中不同的記錄之間的不一致關(guān)系。例如,記錄1:(“李四”,“三星公司”),記錄2:(“李四”,“諾基亞公司”),同一實(shí)體被不同的值描述,屬于沖突錯(cuò)誤。
(4)數(shù)據(jù)源。這類(lèi)錯(cuò)誤表現(xiàn)在數(shù)據(jù)源中的某些屬性值和其他數(shù)據(jù)源中相關(guān)值的不一致關(guān)系。例如,員工:name=“李四”,DEP=15,屬于引用錯(cuò)誤,存在編號(hào)為15的部門(mén),但該員工不在此部門(mén)。
多數(shù)據(jù)源數(shù)據(jù)質(zhì)量問(wèn)題包括:在多數(shù)據(jù)源集成過(guò)程中,每個(gè)數(shù)據(jù)源往往是為了滿足特定的服務(wù)需求而進(jìn)行設(shè)計(jì)、部署和維護(hù)的,也就是說(shuō)它們?cè)谠O(shè)計(jì)開(kāi)發(fā)時(shí)是相互獨(dú)立的,因此與這些數(shù)據(jù)源相關(guān)的數(shù)據(jù)庫(kù)管理系統(tǒng)、數(shù)據(jù)模型、數(shù)據(jù)模式的設(shè)計(jì)以及數(shù)據(jù)格式等都存在很大程度的不同。此外,每一個(gè)數(shù)據(jù)源中都可能包含臟數(shù)據(jù),不同數(shù)據(jù)源對(duì)同一數(shù)據(jù)可能存在不同的表示形式、數(shù)據(jù)重復(fù)或者數(shù)據(jù)沖突。因而相同的數(shù)據(jù)質(zhì)量問(wèn)題在多數(shù)據(jù)源集成之后,會(huì)比在單數(shù)據(jù)源情形下表現(xiàn)得更為復(fù)雜和嚴(yán)重,比如結(jié)構(gòu)沖突、命名沖突、重復(fù)記錄等。命名沖突是指相同的名字用于不同的數(shù)據(jù)對(duì)象,或者不同的名字用于同一個(gè)數(shù)據(jù)對(duì)象。結(jié)構(gòu)沖突存在很多種不同的情況,往往是指在不同數(shù)據(jù)源中對(duì)同一個(gè)數(shù)據(jù)對(duì)象的不同表示,比如屬性的粒度、不同的組成結(jié)構(gòu)、不同的數(shù)據(jù)類(lèi)型、不同完整性約束等。此外,即使不同的數(shù)據(jù)源之間具有相同的屬性名稱(chēng)和數(shù)據(jù)類(lèi)型,也仍然可能存在不同的數(shù)據(jù)值表示(如,在某一個(gè)數(shù)據(jù)源中用M、F分別表示男、女,而在另一個(gè)數(shù)據(jù)源中用0、1來(lái)表示)。另外,不同數(shù)據(jù)源提供的信息可能聚焦在不同的聚合層次(如某個(gè)數(shù)據(jù)源中單條記錄描述的是某個(gè)產(chǎn)品的銷(xiāo)售信息,而另一個(gè)數(shù)據(jù)源中一條記錄描述的可能是一組同類(lèi)產(chǎn)品的銷(xiāo)售信息)以及代表的時(shí)間地點(diǎn)都有可能不同。
五、數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下ERP系統(tǒng)數(shù)據(jù)質(zhì)量控制實(shí)現(xiàn)
ERP數(shù)據(jù)質(zhì)量的控制大體上可分為3種,即對(duì)數(shù)據(jù)源引起的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行控制,對(duì)抽取、轉(zhuǎn)換、加載過(guò)程引起的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行控制和對(duì)數(shù)據(jù)倉(cāng)庫(kù)內(nèi)部數(shù)據(jù)進(jìn)行管理與控制。數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下ERP系統(tǒng)數(shù)據(jù)質(zhì)量控制主要是通過(guò)數(shù)據(jù)預(yù)處理方法來(lái)實(shí)現(xiàn)的。
按照ERP系統(tǒng)業(yè)務(wù)處理流程,數(shù)據(jù)預(yù)處理內(nèi)容劃分為3類(lèi):
(1)靜態(tài)數(shù)據(jù)(或稱(chēng)固定信息),一般是指在生產(chǎn)活動(dòng)前要準(zhǔn)備的數(shù)據(jù),即使是靜態(tài)數(shù)據(jù),也要定期維護(hù),保持其準(zhǔn)確性。系統(tǒng)運(yùn)行時(shí),訪問(wèn)靜態(tài)數(shù)據(jù)一般不作處理。
(2)動(dòng)態(tài)數(shù)據(jù),一般指生產(chǎn)活動(dòng)中發(fā)生的數(shù)據(jù),不斷發(fā)生、經(jīng)常變動(dòng),如客戶合同、庫(kù)存記錄、完工報(bào)告等,一旦建立,就需要隨時(shí)維護(hù)。
(3)中間數(shù)據(jù),是指根據(jù)用戶對(duì)管理工作的需要,由計(jì)算機(jī)系統(tǒng)按照一定的邏輯程序,綜合靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù),經(jīng)過(guò)系統(tǒng)運(yùn)算形成的各種報(bào)表。
靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)是輸入數(shù)據(jù),中間數(shù)據(jù)是經(jīng)過(guò)系統(tǒng)處理后的數(shù)據(jù)。如果輸入的數(shù)據(jù)是不可靠的,那么加工處理后的中間數(shù)據(jù)也是不可信的,不可能用它做出正確的決策。
ERP系統(tǒng)基礎(chǔ)數(shù)據(jù)來(lái)源主要有以下幾種:
(1)物料與產(chǎn)品信息,包括生產(chǎn)中所涉及的原材料、中間體、產(chǎn)成品、各種輔料及各種包材,涉及銷(xiāo)售、計(jì)劃、生產(chǎn)、供應(yīng)、物料、成本、設(shè)計(jì)、工藝等部門(mén),體現(xiàn)了數(shù)據(jù)共享和信息集成。
(2)生產(chǎn)管理信息,包括企業(yè)進(jìn)行生產(chǎn)所必需的基礎(chǔ)輔助數(shù)據(jù),包括企業(yè)工作中心、工藝流程和工作日歷等。
(3)其他數(shù)據(jù)信息,包括企業(yè)核算編碼體系;部門(mén)、職員信息;會(huì)計(jì)科目、貨幣、計(jì)量單位、結(jié)算方式的信息;客戶/供應(yīng)商物品資料和價(jià)格的信息;客戶/供應(yīng)商資料及權(quán)限的信息等。這些數(shù)據(jù)作為系統(tǒng)管理中的基礎(chǔ)數(shù)據(jù),在進(jìn)行系統(tǒng)初始化時(shí),都必須首先準(zhǔn)確錄入。
在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下,通過(guò)提取、轉(zhuǎn)換和加載處理,將數(shù)據(jù)從數(shù)據(jù)庫(kù)中提取出來(lái),轉(zhuǎn)換成與數(shù)據(jù)倉(cāng)庫(kù)一致的格式,加載到數(shù)據(jù)倉(cāng)庫(kù)中集中存儲(chǔ),系統(tǒng)根據(jù)需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘(DM)或聯(lián)機(jī)分析處理(OLAP),然后將生成的結(jié)果傳遞給企業(yè)內(nèi)部的或外部的人員,以滿足企業(yè)管理和決策的需要。
數(shù)據(jù)預(yù)處理主要包括5個(gè)過(guò)程:數(shù)據(jù)提取、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)規(guī)約、數(shù)據(jù)加載。主要是根據(jù)要求從異地異構(gòu)數(shù)據(jù)源(包括各平臺(tái)的數(shù)據(jù)庫(kù)、文本文件、HTML文件、知識(shí)庫(kù)等)提取相關(guān)的數(shù)據(jù),然后對(duì)前一階段產(chǎn)出的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪聲數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。
數(shù)據(jù)提取是將分散在多個(gè)數(shù)據(jù)源中的信息抽取出需要的數(shù)據(jù)。在Windows平臺(tái)環(huán)境下,利用基于ODBC等數(shù)據(jù)引擎的數(shù)據(jù)訪問(wèn)工具可快捷地訪問(wèn)幾乎所有的數(shù)據(jù)庫(kù)數(shù)據(jù)源,即為每個(gè)數(shù)據(jù)源建立相應(yīng)的系統(tǒng)DSN,然后利用簡(jiǎn)單的導(dǎo)入/導(dǎo)出(Import/Export)或使用SQL存儲(chǔ)過(guò)程實(shí)現(xiàn)數(shù)據(jù)提取。如果數(shù)據(jù)源以文本、表格等非數(shù)據(jù)形態(tài)出現(xiàn),提取其中的數(shù)據(jù)需要按不同方式進(jìn)行考慮。通常情況下,這種文本的格式是固定的或者具備某種特征的,或者在局部范圍內(nèi)按一定規(guī)則變化,可以在描述數(shù)據(jù)格式的基礎(chǔ)上利用過(guò)程語(yǔ)言?xún)?nèi)嵌入的SQL語(yǔ)句或庫(kù)函數(shù)調(diào)用讓系統(tǒng)自動(dòng)生成所需的提取代碼。
數(shù)據(jù)清理操作是消除噪聲或不一致數(shù)據(jù),也稱(chēng)為數(shù)據(jù)凈化,是針對(duì)原始數(shù)據(jù)中不完整的、含噪聲的、不一致的數(shù)據(jù)進(jìn)行整理和補(bǔ)充的過(guò)程。噪聲數(shù)據(jù)是數(shù)據(jù)源中的錯(cuò)誤或偏差數(shù)據(jù)。
數(shù)據(jù)集成操作是將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)整合成一致的存儲(chǔ)數(shù)據(jù),這些來(lái)自不同數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照某一標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,即將數(shù)據(jù)源中數(shù)據(jù)的單位、字長(zhǎng)與內(nèi)容統(tǒng)一起來(lái),將源數(shù)據(jù)中字段的同名異義、異名同義現(xiàn)象消除掉,這些工作統(tǒng)稱(chēng)為數(shù)據(jù)的清理。即數(shù)據(jù)必須加以轉(zhuǎn)換,從而以統(tǒng)一的編碼規(guī)則表示,將源數(shù)據(jù)加載進(jìn)數(shù)據(jù)倉(cāng)庫(kù)后進(jìn)行某種程度的綜合。例如,有兩個(gè)數(shù)據(jù)源存儲(chǔ)與人員有關(guān)的信息,在定義人員性別屬性的類(lèi)型時(shí),一個(gè)可能是char(2),存儲(chǔ)的數(shù)據(jù)值為“男”和“女”;而另一個(gè)屬性類(lèi)型為char(1),數(shù)據(jù)值為“F”和“M”。這兩個(gè)數(shù)據(jù)源的值都是正確的,但對(duì)于目標(biāo)數(shù)據(jù)來(lái)說(shuō),必須以一種統(tǒng)一的方法來(lái)表示該屬性值,然后交由最終用戶進(jìn)行驗(yàn)證,這樣才能保證數(shù)據(jù)的質(zhì)量。
數(shù)據(jù)變換是通過(guò)規(guī)格化和聚集形成適合挖掘的形式。數(shù)據(jù)規(guī)約操作是壓縮現(xiàn)有的數(shù)據(jù)集,既能減少數(shù)據(jù)集的大小,又不影響數(shù)據(jù)挖掘的結(jié)果。數(shù)據(jù)變換與數(shù)據(jù)規(guī)約實(shí)際是對(duì)數(shù)據(jù)進(jìn)行匯總、聚集、壓縮,而且不丟失信息。
數(shù)據(jù)加載主要是將經(jīng)過(guò)轉(zhuǎn)換和清洗的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)里面,即入庫(kù)。用戶可以通過(guò)數(shù)據(jù)文件直接裝載或直聯(lián)數(shù)據(jù)庫(kù)的方式來(lái)進(jìn)行數(shù)據(jù)裝載,充分地體現(xiàn)其高效性。
六、結(jié)束語(yǔ)
隨著ERP系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域應(yīng)用的緊密結(jié)合,以及數(shù)據(jù)質(zhì)量概念在ERP系統(tǒng)中的廣泛應(yīng)用,將來(lái)ERP系統(tǒng)內(nèi)部控制內(nèi)容之一 —— 數(shù)據(jù)控制,其內(nèi)涵不再局限于數(shù)據(jù)安全控制方面,同時(shí)數(shù)據(jù)質(zhì)量控制也會(huì)成為數(shù)據(jù)控制的一個(gè)重要內(nèi)容。
主要參考文獻(xiàn)
[1] 陳京民,等. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M]. 北京:電子工業(yè)出版社,2002:5.
[2] 錫德·阿德?tīng)柭?,? 數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目管理[M]. 薛宇,王劍鋒,譯. 北京:清華大學(xué)出版社,2003:293.
[3] 熊霞. 數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)質(zhì)量控制問(wèn)題研究[D]. 武漢:武漢大學(xué),2004:24-26.
[4] 喻金龍. 基于ERP的數(shù)據(jù)管理研究[D]. 成都:西南石油學(xué)院,2005:27-29.