李洪濤
(大慶油田勘探開(kāi)發(fā)研究院,黑龍江 大慶 163414)
數(shù)據(jù)是很多企業(yè)最重要的資產(chǎn),當(dāng)今社會(huì)已進(jìn)入大數(shù)據(jù)時(shí)代,很多公司都擁有海量的數(shù)據(jù),擁有著寶貴的、核心的數(shù)據(jù),擁有著不斷增加的新數(shù)據(jù)、歷史數(shù)據(jù)。對(duì)數(shù)據(jù)來(lái)說(shuō),最重要的是質(zhì)量,很多數(shù)據(jù)質(zhì)量很好,可以直接應(yīng)用并產(chǎn)生價(jià)值,而也有些數(shù)據(jù)質(zhì)量不佳導(dǎo)致無(wú)法應(yīng)用,甚至應(yīng)用后得出錯(cuò)誤的信息,產(chǎn)生負(fù)面作用。所以數(shù)據(jù)質(zhì)量對(duì)公司企業(yè)來(lái)說(shuō)尤為重要。
為了提高數(shù)據(jù)質(zhì)量,減少錯(cuò)誤、重復(fù)、無(wú)用的數(shù)據(jù),很多優(yōu)秀、實(shí)用的方案值得采納,有些方案是直接在數(shù)據(jù)采集端就做好了質(zhì)量規(guī)則檢查,有些方案是借助工具完成數(shù)據(jù)檢查,本文提出一種基于數(shù)據(jù)庫(kù)的數(shù)據(jù)質(zhì)檢模式,主要適用于沒(méi)有數(shù)據(jù)質(zhì)檢過(guò)的歷史數(shù)據(jù)、孤島數(shù)據(jù)和實(shí)時(shí)性不高的新數(shù)據(jù)場(chǎng)景,力圖解決一些質(zhì)檢數(shù)據(jù)質(zhì)量上的問(wèn)題,減少數(shù)據(jù)在邏輯上的錯(cuò)誤,滿足數(shù)據(jù)完整性的要求,達(dá)到數(shù)據(jù)關(guān)系中多表多源數(shù)據(jù)一致性的標(biāo)準(zhǔn)。如圖1 所示。
圖1 質(zhì)量檢查數(shù)據(jù)范圍
針對(duì)上述應(yīng)用場(chǎng)景,本文提出的數(shù)據(jù)質(zhì)檢流程,主要通過(guò)執(zhí)行質(zhì)檢存儲(chǔ),調(diào)用規(guī)則表過(guò)濾出質(zhì)檢表問(wèn)題數(shù)據(jù)(不包括特殊數(shù)據(jù)),檢查出的問(wèn)題數(shù)據(jù)采用關(guān)鍵字標(biāo)識(shí)與問(wèn)題描述的方式記錄到相應(yīng)質(zhì)檢表問(wèn)題數(shù)據(jù)表,記錄執(zhí)行質(zhì)檢語(yǔ)句到質(zhì)檢語(yǔ)句測(cè)試表,統(tǒng)計(jì)質(zhì)檢中的數(shù)據(jù)量到質(zhì)檢信息統(tǒng)計(jì)表,完成對(duì)數(shù)據(jù)的質(zhì)檢功能。如圖2 所示。
圖2 數(shù)據(jù)質(zhì)量檢查流程圖
依據(jù)上述質(zhì)檢流程,本例實(shí)現(xiàn)質(zhì)檢功能主要通過(guò)數(shù)據(jù)質(zhì)量檢查存儲(chǔ)過(guò)程、質(zhì)檢表名、特殊數(shù)據(jù)列表、質(zhì)檢信息統(tǒng)計(jì)表、質(zhì)檢語(yǔ)句測(cè)試表、質(zhì)檢數(shù)據(jù)問(wèn)題表、質(zhì)檢所有問(wèn)題數(shù)據(jù)合并視圖共同來(lái)完成,如圖3 所示。各實(shí)體功能描述如下:
(1)存儲(chǔ)過(guò)程ZHJ_GZ:數(shù)據(jù)質(zhì)量檢查過(guò)程,通過(guò)執(zhí)行動(dòng)態(tài)sql 的方式,調(diào)用規(guī)則表zhj_gzb 制定的規(guī)則檢查待檢表數(shù)據(jù)質(zhì)量。詳細(xì)代碼如下:
(2)表ZHJ_GZB:質(zhì)量規(guī)則表,記錄約束數(shù)據(jù)表字段規(guī)則。
(3)表ZHJ_LJBM:質(zhì)檢表名,可以編輯選擇要質(zhì)檢的數(shù)據(jù)表。
(4)表ZHJ_TSJH:存儲(chǔ)特殊數(shù)據(jù),這類數(shù)據(jù)不進(jìn)行質(zhì)檢。
(5)表ZHJ_XX:統(tǒng)計(jì)質(zhì)檢信息,統(tǒng)計(jì)質(zhì)檢的數(shù)據(jù)量、問(wèn)題數(shù)據(jù)量、質(zhì)檢時(shí)間等。
(6)表ZHJ_CSSQL:語(yǔ)句測(cè)試記錄表,記錄存儲(chǔ)過(guò)程每次執(zhí)行的sql 語(yǔ)句,調(diào)試用。
(7)表ZHJ_表名_WTSJ:存儲(chǔ)各數(shù)據(jù)表的各種問(wèn)題數(shù)據(jù)。
圖3 數(shù)據(jù)質(zhì)量檢查功能圖
錄井?dāng)?shù)據(jù)是油田勘探開(kāi)發(fā)研究的重要依據(jù),涉及地質(zhì)錄井、工程錄井、氣測(cè)錄井等多方面數(shù)據(jù)。在同步錄井公司上報(bào)錄井?dāng)?shù)據(jù)過(guò)程中,為了保障進(jìn)入到數(shù)據(jù)中心主庫(kù)的錄井?dāng)?shù)據(jù)質(zhì)量,就必須結(jié)合錄井專業(yè)的具體業(yè)務(wù)規(guī)則,對(duì)用于存儲(chǔ)這些業(yè)務(wù)信息的各種屬性進(jìn)行數(shù)據(jù)質(zhì)量規(guī)則的定義。在該應(yīng)用案例中,對(duì)匯交到數(shù)據(jù)中心10 張表的174 個(gè)字段進(jìn)行了完整性、準(zhǔn)確性、一致性、及時(shí)性四個(gè)方面的約束規(guī)則定義。經(jīng)實(shí)際得到,10 張表2000 萬(wàn)條數(shù)據(jù)量在10 秒鐘內(nèi)可以完成174 項(xiàng)約束規(guī)則的全部質(zhì)檢過(guò)程。
(1)移植靈活,不依賴外部系統(tǒng)和工具,只需數(shù)據(jù)庫(kù)就可完成。
(2)規(guī)則靈活,不用修改程序,只需在規(guī)則表中添加規(guī)則就可實(shí)現(xiàn)。
(3)質(zhì)檢自動(dòng)化高,定時(shí)調(diào)用JOB 就可實(shí)現(xiàn)自動(dòng)完成質(zhì)檢數(shù)據(jù)。
(4)質(zhì)檢效率高,不需借助第三方工具,數(shù)據(jù)庫(kù)自身內(nèi)部運(yùn)行,速度快。
(5)便于查看數(shù)據(jù)問(wèn)題,質(zhì)檢出的所有問(wèn)題都可以在問(wèn)題合并匯總視圖中查詢與統(tǒng)計(jì)。
(6)便于統(tǒng)計(jì)工作量,質(zhì)檢數(shù)據(jù)量、問(wèn)題數(shù)據(jù)量等信息都可在質(zhì)檢信息表中查詢統(tǒng)計(jì)。
隨著數(shù)據(jù)中心專業(yè)數(shù)據(jù)庫(kù)的建立,實(shí)現(xiàn)了專業(yè)數(shù)據(jù)的集中存儲(chǔ)、集中管理,為專業(yè)數(shù)據(jù)應(yīng)用和信息共享提供了強(qiáng)有力的保障。這就要求我們的專業(yè)數(shù)據(jù)要達(dá)到一個(gè)高質(zhì)量要求的程度,具有完整性、準(zhǔn)確性、一致性的數(shù)據(jù)標(biāo)準(zhǔn),所以數(shù)據(jù)質(zhì)量問(wèn)題是數(shù)據(jù)中心數(shù)據(jù)管理必定面臨的問(wèn)題。文中提出了基于數(shù)據(jù)庫(kù)的數(shù)據(jù)質(zhì)檢,分析了其適合的應(yīng)用場(chǎng)景,描述了質(zhì)檢的策略和流程,并完成了基于動(dòng)態(tài)SQL 的數(shù)據(jù)質(zhì)量規(guī)則約束的數(shù)據(jù)質(zhì)檢功能。這些成果在油田錄井專業(yè)數(shù)據(jù)質(zhì)量管理中得到了應(yīng)用的檢驗(yàn),并且應(yīng)用效果良好。因此,這些成果對(duì)于數(shù)據(jù)中心中的數(shù)據(jù)質(zhì)量管理具有重要的參考與借鑒意義。