[摘 要] 本文提出了數(shù)據(jù)質(zhì)量評(píng)價(jià)模型、質(zhì)量校驗(yàn)與評(píng)價(jià)方法,論述了“數(shù)據(jù)質(zhì)量分析評(píng)價(jià)系統(tǒng)”的程序?qū)崿F(xiàn)流程、總體結(jié)構(gòu)及功能,介紹了系統(tǒng)的關(guān)鍵技術(shù)及進(jìn)一步的研究方向。
[關(guān)鍵詞] 質(zhì)量模型 質(zhì)量檢驗(yàn) 質(zhì)量評(píng)價(jià)
數(shù)據(jù)作為一種資源,是支撐信息化建設(shè)和應(yīng)用的主體,根據(jù)“進(jìn)去的是垃圾,出來(lái)的也是垃圾”這條原理,為了支持正確決策,就要求我們所管理的數(shù)據(jù)可靠,沒(méi)有錯(cuò)誤,能夠準(zhǔn)確地反映采油廠的實(shí)際情況。勝利采油廠數(shù)據(jù)中心存放了5千萬(wàn)條的數(shù)據(jù),還在以每天2萬(wàn)條的速度加載,如何使這些海量數(shù)據(jù)在生產(chǎn)管理、科學(xué)研究、企業(yè)決策中發(fā)揮應(yīng)有作用,使用戶能用、敢用、愿用,使數(shù)據(jù)真正為企業(yè)服務(wù),這是幾乎所有信息化企業(yè)亟需迫切解決的問(wèn)題。為解決數(shù)據(jù)質(zhì)量問(wèn)題,各種管理手段、技術(shù)手段和新的數(shù)據(jù)評(píng)價(jià)體系不斷被應(yīng)用在數(shù)據(jù)的采集和加工過(guò)程中。
一、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的提出背景
采油廠的數(shù)據(jù)資源具有:橫跨專業(yè)多,數(shù)據(jù)采集密度大、頻度高,數(shù)據(jù)處理流程復(fù)雜等特點(diǎn),為了保證數(shù)據(jù)的可用性,數(shù)據(jù)管理人員在客戶端、服務(wù)器端均設(shè)置了數(shù)據(jù)質(zhì)量審核規(guī)則,但是依然不可避免存在比例較高的數(shù)據(jù)質(zhì)量問(wèn)題,典型的有記錄不全、數(shù)據(jù)遺漏、數(shù)據(jù)錯(cuò)誤、多義字段、矛盾值、違背業(yè)務(wù)規(guī)則、無(wú)法關(guān)聯(lián)等。產(chǎn)生數(shù)據(jù)問(wèn)題的根本原因可以歸結(jié)為以下幾個(gè)方面:
1.沒(méi)有從數(shù)據(jù)資源的戰(zhàn)略高度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行統(tǒng)一完整的定義,導(dǎo)致數(shù)據(jù)的分析評(píng)估沒(méi)有統(tǒng)一可靠的標(biāo)準(zhǔn);
2.數(shù)據(jù)質(zhì)量還停留在定性評(píng)價(jià),不能實(shí)現(xiàn)精確的量化評(píng)價(jià),只是在業(yè)務(wù)需要某個(gè)數(shù)據(jù)時(shí),才到庫(kù)里去手動(dòng)統(tǒng)計(jì),無(wú)法動(dòng)態(tài)記錄某個(gè)單位、某個(gè)月的真實(shí)數(shù)據(jù)質(zhì)量發(fā)生情況,導(dǎo)致數(shù)據(jù)質(zhì)量考核缺乏可信的數(shù)據(jù)依據(jù),大大影響考核力度;
3.沒(méi)有一個(gè)能同時(shí)面對(duì)用戶、專業(yè)部門、數(shù)據(jù)管理人員的可視化的數(shù)據(jù)質(zhì)量監(jiān)控評(píng)價(jià)平臺(tái),三方無(wú)法共享一個(gè)平臺(tái),共同實(shí)行數(shù)據(jù)管控一體化,導(dǎo)致業(yè)務(wù)規(guī)則的變更滯后,問(wèn)題數(shù)據(jù)在庫(kù)中的長(zhǎng)期滯留;
4.也許有了N個(gè)業(yè)務(wù)模型,但是沒(méi)有把它放到時(shí)間軸上去控制流程,導(dǎo)致實(shí)際生產(chǎn)中應(yīng)該發(fā)生的活動(dòng)的部分生產(chǎn)數(shù)據(jù)遺漏;
雖然影響采油廠數(shù)據(jù)質(zhì)量的原因是多方面的,但主要的原因還是集中在管理、制度和數(shù)據(jù)采集加工規(guī)范化方面。對(duì)于如何通過(guò)管理、制度、標(biāo)準(zhǔn)和流程來(lái)控制數(shù)據(jù)質(zhì)量,提高數(shù)據(jù)可信度,我們提出建立采油廠統(tǒng)一的數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型,使用管理手段和技術(shù)手段相結(jié)合的辦法,建立一套完善的數(shù)據(jù)定義、控制、評(píng)估流程,依托科學(xué)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)監(jiān)督和質(zhì)量控制體系持續(xù)地改進(jìn)數(shù)據(jù)質(zhì)量。
二、數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型構(gòu)成
構(gòu)成數(shù)據(jù)質(zhì)量分析評(píng)估模型的要素分別為:基礎(chǔ)模型、數(shù)據(jù)質(zhì)量輔助模型、數(shù)據(jù)質(zhì)量定義模型、數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型。
1.基礎(chǔ)模型?;A(chǔ)模型部分是整個(gè)模型框架的支撐核心部分,其他質(zhì)量模型的定義和控制必須以基礎(chǔ)模型中的計(jì)劃和標(biāo)準(zhǔn)為依據(jù)。基礎(chǔ)模型主要是映射、定義數(shù)據(jù)采集標(biāo)準(zhǔn),上載分單位的采集計(jì)劃,同時(shí)納入了約束規(guī)則定義規(guī)范、控制規(guī)則定義規(guī)范、模板定義規(guī)范。
數(shù)據(jù)標(biāo)準(zhǔn):分兩部分,一部分是直接映射應(yīng)用中的標(biāo)準(zhǔn),例如源數(shù)據(jù)庫(kù)標(biāo)準(zhǔn);另一部分是針對(duì)新增應(yīng)用庫(kù)和項(xiàng)目庫(kù)標(biāo)準(zhǔn)的定義規(guī)范,包括代碼定義標(biāo)準(zhǔn)、數(shù)據(jù)項(xiàng)定義標(biāo)準(zhǔn)(例如是取英文還是漢語(yǔ)拼音,取幾個(gè)字符)、值域定義標(biāo)準(zhǔn)等等新增表準(zhǔn)的建立規(guī)范;
采集計(jì)劃:采集單位的每月上載的日度、月度、年度的采集計(jì)劃;
約束規(guī)則定義規(guī)范:主要描述質(zhì)量定義模型中的語(yǔ)法構(gòu)成;
控制規(guī)則定義規(guī)范:針對(duì)服務(wù)器負(fù)載和采集表的及時(shí)性要求建立的后臺(tái)執(zhí)行過(guò)程的控制方式的使用說(shuō)明;
2.數(shù)據(jù)質(zhì)量定義模型。數(shù)據(jù)質(zhì)量定義模型的建立實(shí)現(xiàn)了以基礎(chǔ)模型為前提對(duì)數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義,是數(shù)據(jù)質(zhì)量分析評(píng)價(jià)的依據(jù)和基礎(chǔ)。數(shù)據(jù)質(zhì)量定義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時(shí)性4個(gè)關(guān)鍵特性。
(1)數(shù)據(jù)的一致性。數(shù)據(jù)一致性,包括源系統(tǒng)之間同一數(shù)據(jù)是否一致,源數(shù)據(jù)與抽取的數(shù)據(jù)是否一致,數(shù)據(jù)中心內(nèi)部各處理環(huán)節(jié)數(shù)據(jù)是否一致等。例如:單井基礎(chǔ)信息、油井日數(shù)據(jù)中的單元代碼應(yīng)該和本年度的單元代碼表保持一致;05應(yīng)用庫(kù)中抽取的數(shù)據(jù)項(xiàng)要與源頭庫(kù)保持一致等等。
一致性的量化評(píng)價(jià)指標(biāo):字段一致率、表間字段一致率、表間記錄一致率。
(2)數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)準(zhǔn)確性,包括數(shù)據(jù)源是否準(zhǔn)確、數(shù)據(jù)值域是否符合業(yè)務(wù)規(guī)則和客觀事實(shí)、編碼映射關(guān)系是否準(zhǔn)確、處理邏輯是否準(zhǔn)確等。例如:作業(yè)日記的數(shù)據(jù)應(yīng)該來(lái)源于作業(yè)隊(duì)而不是采油隊(duì);一天的生產(chǎn)時(shí)間最大不可能超過(guò)24小時(shí);水井干線壓力要介于0~40兆帕之間。
準(zhǔn)確性的量化評(píng)價(jià)指標(biāo):準(zhǔn)確率、差錯(cuò)率、問(wèn)題字段個(gè)數(shù)、問(wèn)題記錄覆蓋率
(3)數(shù)據(jù)的及時(shí)性。數(shù)據(jù)及時(shí)性,包括數(shù)據(jù)處理(獲取、整理、加載等)的及時(shí)性,數(shù)據(jù)異常檢測(cè)的及時(shí)性,數(shù)據(jù)處理更新的及時(shí)性等,例如:一口井油轉(zhuǎn)水了,采集單位沒(méi)有及時(shí)更改數(shù)據(jù),不僅會(huì)影響隊(duì)到礦,礦到廠的產(chǎn)量,更會(huì)影響廠到局的產(chǎn)量和油水井?dāng)?shù),而且取自于該源數(shù)據(jù)的所有應(yīng)用系統(tǒng)今天的診斷決策都會(huì)發(fā)生偏差。數(shù)據(jù)滯后的更新將嚴(yán)重影響生產(chǎn)的正?;?。
及時(shí)性的量化評(píng)價(jià)指標(biāo):采集項(xiàng)目及時(shí)率;單位入庫(kù)及時(shí)率
(4)數(shù)據(jù)的完整性。數(shù)據(jù)的完整性,包括數(shù)據(jù)源是否完整、數(shù)據(jù)取值是否完整、實(shí)體類型、屬性特征、維度取值是否完整等。例如:要完成井筒的計(jì)算機(jī)屏幕再現(xiàn),它所包含的數(shù)據(jù)包括鉆井?dāng)?shù)據(jù)、固井?dāng)?shù)據(jù)、套管數(shù)據(jù)、井徑測(cè)井?dāng)?shù)據(jù)、井斜數(shù)據(jù)等等,這里邊存在多個(gè)數(shù)據(jù)源情況,如果數(shù)據(jù)源不完整,或者套管數(shù)據(jù)中缺失數(shù)據(jù)項(xiàng)下深或者壁厚,井筒就不可能完整成像。
完整性的量化評(píng)價(jià)指標(biāo):字段缺失數(shù)、缺失記錄覆蓋率、計(jì)劃完成率。
3.數(shù)據(jù)質(zhì)量控制模型。數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎(chǔ),按照定義的檢查范圍和時(shí)間以自動(dòng)或手工方式完成對(duì)數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì)量控制過(guò)程中違反了數(shù)據(jù)質(zhì)量定義的,視為數(shù)據(jù)質(zhì)量問(wèn)題,數(shù)據(jù)質(zhì)量問(wèn)題直接通過(guò)數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標(biāo)反映出來(lái)。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn)在:對(duì)數(shù)據(jù)檢查對(duì)象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查時(shí)間、數(shù)據(jù)檢查方式等方面進(jìn)行控制。
(1)數(shù)據(jù)檢查對(duì)象:是指根據(jù)采集計(jì)劃設(shè)定需要檢查的用戶、專業(yè)數(shù)據(jù)表、數(shù)據(jù)庫(kù)實(shí)體。
(2)數(shù)據(jù)檢查頻度;是指根據(jù)數(shù)據(jù)表的采集計(jì)劃和實(shí)際發(fā)生的頻度,設(shè)定存儲(chǔ)過(guò)程的檢查執(zhí)行頻率。
(3)數(shù)據(jù)檢查時(shí)間:是指根據(jù)每日生產(chǎn)應(yīng)用的密集時(shí)間以及數(shù)據(jù)發(fā)生到采集入庫(kù)的密集時(shí)間,綜合設(shè)定一個(gè)檢查開(kāi)始執(zhí)行的時(shí)刻。
(4)數(shù)據(jù)檢查方式:是指執(zhí)行檢查過(guò)程的方式可以由后臺(tái)過(guò)程自動(dòng)控制,每間隔2小時(shí)自動(dòng)檢查一次;也可以由人工干預(yù)手動(dòng)檢查,任意時(shí)刻都可以執(zhí)行檢查(當(dāng)然盡量選擇數(shù)據(jù)庫(kù)流量比較低的時(shí)候)。
4.數(shù)據(jù)質(zhì)量評(píng)價(jià)模型
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評(píng)議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的量化診斷和評(píng)價(jià)。
數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型功能核心是,通過(guò)對(duì)基礎(chǔ)模型中的采集計(jì)劃和質(zhì)量定義模型中的約束規(guī)則的處理,由控制模型調(diào)用可以實(shí)現(xiàn)檢查分析的后臺(tái)存儲(chǔ)過(guò)程在實(shí)體庫(kù)中執(zhí)行檢查,形成查詢結(jié)果,再由分析程序進(jìn)行分析、計(jì)算、分類、匯總,生成反映采集計(jì)劃完成情況和數(shù)據(jù)質(zhì)量量化指標(biāo)的結(jié)果,存儲(chǔ)到分析結(jié)果表中,從前臺(tái)調(diào)用這個(gè)分析結(jié)果表,就可以生成一份詳盡的反映數(shù)據(jù)質(zhì)量問(wèn)題各類量化指標(biāo)的數(shù)據(jù)質(zhì)量分析評(píng)估報(bào)告,展現(xiàn)所評(píng)估實(shí)體庫(kù)的數(shù)據(jù)入庫(kù)的及時(shí)率、數(shù)據(jù)上報(bào)的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫(kù)的準(zhǔn)確率。
5.數(shù)據(jù)質(zhì)量輔助管理模型
數(shù)據(jù)質(zhì)量輔助管理包括報(bào)告模版管理、權(quán)限管理、數(shù)據(jù)庫(kù)資源占用情況等等。
三、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的在《數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)》中的實(shí)現(xiàn)
1.系統(tǒng)模塊構(gòu)成圖
數(shù)據(jù)庫(kù)采用三層框架結(jié)構(gòu),數(shù)據(jù)層用于存儲(chǔ)各種質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)、檢查與評(píng)價(jià)過(guò)程數(shù)據(jù)及結(jié)果數(shù)據(jù),邏輯層用于質(zhì)量檢查的各種邏輯處理,表現(xiàn)層是通過(guò)用戶界面將檢驗(yàn)與評(píng)價(jià)結(jié)果以用戶易懂的可視化方式表達(dá)出來(lái)。
2.程序?qū)崿F(xiàn)流程圖
四、結(jié)論及建議
在分析數(shù)據(jù)質(zhì)量模型及質(zhì)量檢驗(yàn)工作流程的基礎(chǔ)上,“數(shù)據(jù)質(zhì)量分析評(píng)價(jià)系統(tǒng)” 實(shí)現(xiàn)了在同一平臺(tái)下從分析方案制定、質(zhì)量檢查、質(zhì)量評(píng)價(jià)、評(píng)估報(bào)告生成、錯(cuò)誤信息反饋整個(gè)工作流程,從而提高了數(shù)據(jù)質(zhì)量分析與評(píng)價(jià)的自動(dòng)化水平,滿足大批量數(shù)據(jù)質(zhì)量控制需要,實(shí)現(xiàn)了對(duì)數(shù)據(jù)采集的完整性、及時(shí)性、準(zhǔn)確性、一致性等關(guān)鍵指標(biāo)進(jìn)行量化分析和評(píng)價(jià)。
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”