張肖霞 杜 平 陳 杭 魯玉佳 張金區(qū)
(1.華南師范大學計算機學院,廣東廣州 510631;2.廣東科學技術職業(yè)學院廣州學院,廣東廣州 510653)
基于約束規(guī)則的科技基礎性數(shù)據(jù)質量審查模型研究與實現(xiàn)
張肖霞1杜 平2陳 杭1魯玉佳1張金區(qū)1
(1.華南師范大學計算機學院,廣東廣州 510631;2.廣東科學技術職業(yè)學院廣州學院,廣東廣州 510653)
針對科技基礎性工作項目匯交數(shù)據(jù)質量審查人工效率低、易出錯的現(xiàn)狀,設計了基于自定義約束規(guī)則的項目匯交數(shù)據(jù)質量審查模型。模型由構建器、規(guī)則庫和判斷器3個部分構成,其中構建器主要是用于約束規(guī)則的配置;規(guī)則庫由一系列規(guī)則集構成,每個規(guī)則集都從數(shù)據(jù)的完整性、一致性和約束性3個方面進行約束規(guī)則的定義,完成定義的規(guī)則集構成一個審查模板;判斷器主要是將審查模板應用于一個數(shù)據(jù)集進行審查并輸出審查意見。實踐證明,該模型能夠滿足科技基礎性工作項目匯交數(shù)據(jù)質量審查的工作要求,提高了科技基礎性工作項目匯交數(shù)據(jù)質量審查的質量和效率,同時也為其他類似數(shù)據(jù)質量審查工作提供了技術參考。
科技基礎性工作;項目匯交;數(shù)據(jù)質量審查;約束規(guī)則;質量審查模型
據(jù)不完全統(tǒng)計,自1999年,我國啟動科技基礎性工作專項到“十一五”末,已經(jīng)在氣象、地球科學、生物學、農(nóng)業(yè)、林業(yè)、醫(yī)學、環(huán)境、材料等領域設置了500多個項目,投資總經(jīng)費達10多億元。通過這些項目,采集產(chǎn)生了一批重要的科學數(shù)據(jù)、文字資料、圖集典籍、科學規(guī)范、標準物質、樣本樣品等。然而,由于缺乏國家層面的基礎性工作數(shù)據(jù)資料的集成整編環(huán)境,絕大部分已結題的基礎性工作數(shù)據(jù)資料仍然散落在各項目或課題承擔單位中,并沒有得到有效的集成、整編與挖掘,甚至有些數(shù)據(jù)資料瀕臨丟失,影響了基礎性工作本質目標的實現(xiàn)?!翱萍蓟A性工作數(shù)據(jù)資料集成與規(guī)范化整編”項目的目標之一即為實現(xiàn)我國1999—2010年立項的基礎性工作項目數(shù)據(jù)資料的分類集成與規(guī)范化整編,構建基礎性工作數(shù)據(jù)資料集成服務平臺,保障長期、持續(xù)地對我國基礎性工作數(shù)據(jù)資料提供集成與共享服務。那么,如何保障項目匯交數(shù)據(jù)的質量,實現(xiàn)基礎性工作數(shù)據(jù)資料的完整性、規(guī)范性、正確性和一致性,切實滿足基礎科學研究、重大公益性研究、戰(zhàn)略高技術研究與產(chǎn)業(yè)關鍵性技術研發(fā)的基本需求,是當前最為關鍵的工作。
目前,對科技基礎性工作專項項目數(shù)據(jù)匯交的審查工作主要采取人工逐項審查核對的方式。這種方法不僅費時費力,而且容易受到人為疏忽或經(jīng)驗水平有限而導致的審查錯誤。因此,基于科技基礎性工作項目匯交數(shù)據(jù)的構成和特點分析,對不同的數(shù)據(jù)類別建立合適的審查模型,實現(xiàn)對匯交數(shù)據(jù)的計算機輔助審查,不僅提高效率,而且提高數(shù)據(jù)審查質量。從已有的研究來看,還沒有專門針對科技基礎性工作專項項目匯交數(shù)據(jù)質量審查的案例。但是,對于信息系統(tǒng)中數(shù)據(jù)質量的研究,歷來受到建設者的高度重視。數(shù)據(jù)質量是進行數(shù)據(jù)分析和應用的基礎,數(shù)據(jù)質量已經(jīng)成為當前進行大數(shù)據(jù)價值挖掘的主要障礙[1]。在國內信息系統(tǒng)的建設中,通常將數(shù)據(jù)質量用正確性、準確性、不矛盾性、一致性、完整性和集成性等6個方面進行描述[2]。國際貨幣基金組織于2001年開發(fā)的《數(shù)據(jù)質量評估框架》列出了影響數(shù)據(jù)質量的5個方面,即誠信、方法的健全性、準確性和可靠性、適用性及可獲得性,同時還定義了一套保證數(shù)據(jù)質量的制度前提[3]。歐洲統(tǒng)計系統(tǒng)建立的數(shù)據(jù)質量評估框架從統(tǒng)計機構環(huán)境、統(tǒng)計程序和統(tǒng)計產(chǎn)出3個方面對統(tǒng)計數(shù)據(jù)質量展開評估,開發(fā)了數(shù)據(jù)質量報告標準、質量報告手冊和自我評估檢查單等系列數(shù)據(jù)質量管理工具[4]。從上述可以看出,數(shù)據(jù)質量問題已經(jīng)受到國內外的廣泛重視。針對數(shù)據(jù)質量的不同方面,一系列數(shù)據(jù)質量評價的方法和系統(tǒng)相繼開發(fā)實現(xiàn),既有專門針對結構化數(shù)據(jù)進行質量檢查的研究,也有專門針對空間數(shù)據(jù)進行質量檢查的研究,還有專門針對特定行業(yè)數(shù)據(jù)質量檢查的研究[4-7]。其中,基于規(guī)則引擎的數(shù)據(jù)質量檢查,是常用的方法之一。王興等[8]建立了基于規(guī)則引擎的多元大氣信息數(shù)據(jù)質量檢查方法,楊家芳[9]建立了基于規(guī)則引擎的基本農(nóng)田劃定內業(yè)數(shù)據(jù)質量檢查方法,都取得了良好的效果。面對近年來大數(shù)據(jù)的興起,研究確定了“Quality-in-Use”數(shù)據(jù)質量評價模型。該評價模型主要用于大數(shù)據(jù)分析時對輸入數(shù)據(jù)的質量評價[10]。這些數(shù)據(jù)檢查和分析評價的方法,大都是面向數(shù)據(jù)生產(chǎn)者服務。對于一些數(shù)據(jù)共享組織管理機構,通常是通過制定規(guī)范進行約束的。
科技基礎性數(shù)據(jù)涉及學科廣,類型復雜,從目前項目單位匯交數(shù)據(jù)看,普遍存在一些文檔組織不規(guī)范、數(shù)據(jù)缺失、數(shù)據(jù)內容項不完整、文件打不開以及一些數(shù)值超限等問題。這些問題不僅增加了人工審核的難度,而且對科技基礎性數(shù)據(jù)深層次的應用挖掘帶來障礙。所以,建立面向科技基礎性項目匯交數(shù)據(jù)的質量審查模型,開發(fā)相應的軟件系統(tǒng),對提高數(shù)據(jù)管理者的工作效率和促進科技基礎性數(shù)據(jù)的應用挖掘具有重要意義。
科技基礎性工作項目匯交數(shù)據(jù)主要來源于我國啟動科技基礎性工作專項以來立項的各類項目所產(chǎn)生的數(shù)據(jù)。從學科來講,包含氣象、地球科學、生物、農(nóng)業(yè)、林業(yè)、醫(yī)學、環(huán)境、材料等多個領域;從數(shù)據(jù)存儲格式上,有矢量數(shù)據(jù)、柵格數(shù)據(jù)、表格數(shù)據(jù)、文本數(shù)據(jù)、文檔數(shù)據(jù)等;從表現(xiàn)形式上,有數(shù)據(jù)、圖集、志書、典籍、標本資源、標準規(guī)范、論文專著或研究報告等。從對科技基礎性工作項目匯交數(shù)據(jù)的構成分析可以得出項目匯交數(shù)據(jù)具有以下特點。
(1)多樣性:主要指科技報告類型多樣、數(shù)據(jù)類型多樣、學科領域眾多、科技數(shù)據(jù)提交加工環(huán)節(jié)多樣等特點,使得提交上來的科技數(shù)據(jù)資源呈現(xiàn)多樣化。
(2)異構性:科技基礎性數(shù)據(jù)涉及專業(yè)廣泛,領域眾多,不同的專業(yè)領域對于科技基礎性數(shù)據(jù)的記錄形式各不相同。
(3)復雜性:不同專業(yè)領域的科技基礎性數(shù)據(jù)形式不同,科學考察項目需要記錄的數(shù)據(jù)有項目觀測、監(jiān)測、實驗、調查和考察數(shù)據(jù)及相關的圖件、報告等。圖集、志書、典籍項目需要記錄的數(shù)據(jù)有圖集、志書、典籍及其支撐這些資源的數(shù)據(jù)等。標準規(guī)范項目需要記錄的數(shù)據(jù)有標準規(guī)范文本及其支撐標準規(guī)范研制的基準、支撐、測試數(shù)據(jù)等。
(4)保密性:部分科學基礎性數(shù)據(jù)涉及國家機密,具有保密性特點。
為了有效監(jiān)督和管理科技基礎性工作專項項目的執(zhí)行,促進項目匯交科學數(shù)據(jù)的共享與服務,科技部專門出臺了《科技基礎性工作專項項目科學數(shù)據(jù)匯交管理辦法》,明確規(guī)定了項目承擔單位負責項目科學數(shù)據(jù)的整理和匯交,包括:(1)組織編制項目數(shù)據(jù)匯交方案;(2)按照匯交方案組織整理項目數(shù)據(jù),并按時完成匯交;(3)確保項目數(shù)據(jù)的完整性和質量??茖W數(shù)據(jù)管理機構負責項目科學數(shù)據(jù)的接收、保存、管理、共享與服務。其對項目數(shù)據(jù)匯交數(shù)據(jù)審查的主要流程如圖1所示。
數(shù)據(jù)匯交管理機構主要基于項目承擔單位編制的數(shù)據(jù)匯交方案,對項目基本信息與元數(shù)據(jù)、數(shù)據(jù)實體、數(shù)據(jù)文檔、論文專著及輔助軟件等進行規(guī)范性、完整性和一致性的審查。
圖1 項目匯交數(shù)據(jù)審查的主要流程
項目數(shù)據(jù)匯交方案:包含項目編號、項目名稱、項目負責人、項目承擔單位等基本信息,還包括項目計劃任務書規(guī)定的任務和考核指標及調整情況、匯交的資源內容、資源質量控制等相關說明。匯交方案是進行匯交數(shù)據(jù)審查的基礎和依據(jù),如果匯交的文檔中沒有匯交方案文件,則直接反饋錯誤信息。
項目基本信息與元數(shù)據(jù):項目基本信息和元數(shù)據(jù)中主要包含項目編號、項目名稱、所屬類型、第一承擔單位、項目依托部門、成果類型、項目起止時間、項目負責人和數(shù)據(jù)匯交聯(lián)絡人基本信息、成果介紹、資源描述摘要、關鍵詞、資源質量描述等。主要審查這些描述項是否有漏填及不一致現(xiàn)象。
數(shù)據(jù)實體:匯交的數(shù)據(jù)實體有4種格式類型,分別是矢量數(shù)據(jù)、柵格數(shù)據(jù)、表格數(shù)據(jù)、文本及其他類型數(shù)據(jù),每種數(shù)據(jù)描述表的字段不同,針對不同的字段進行自定義約束審查。依據(jù)《自然科技資源共性描述規(guī)范》[11],結合科技基礎性工作專項項目的特點,形成對植物種質資源、動物種質資源、微生物菌種資源、人類遺傳資源、生物標本資源、巖礦化石資源、實驗材料資源、標準物質八大類標本資源描述信息的規(guī)定。每種資源的描述規(guī)范表中含有5個字段,分別是序號、描述符、數(shù)據(jù)類型、數(shù)據(jù)限制、備注說明。
數(shù)據(jù)文檔:主要包含數(shù)據(jù)集/圖集內容特征、學科及行業(yè)范圍、精度、存儲管理、質量控制、共享及使用方法、知識產(chǎn)權等說明信息。標準規(guī)范編制說明主要有工作簡況、主要起草過程、重大意見分歧的處理依據(jù)及結果等。這部分主要是進行內容的描述,主要依靠人工進行審查。
論文專著及輔助軟件工具:論文專著主要指與項目數(shù)據(jù)直接相關、在數(shù)據(jù)引用時需要使用的專著或論文。輔助軟件工具則是對匯交的數(shù)據(jù)進行查看和處理的專用工具。此部分主要從文件是否存在、是否有關聯(lián)性、是否能正確打開等方面進行審查。
由于科技基礎性工作項目匯交數(shù)據(jù)包含氣象、地球科學、生物學、農(nóng)業(yè)、林業(yè)、醫(yī)學、環(huán)境、材料等學科領域,計算機輔助審查只能從數(shù)據(jù)的共性層面建立規(guī)則來構建審查模型,對于具體數(shù)據(jù)內容的真實性、可靠性還必須依靠人工進行判斷。
審查的方式有系統(tǒng)自動審查和人工審查兩種形式。主要包括以下幾個方面的審查內容。
(1)完整性審查。匯交數(shù)據(jù)的完整性審查主要從3個方面進行審查:一是從文件組織上看匯交的數(shù)據(jù)文件是否遵循項目科學數(shù)據(jù)匯交的統(tǒng)一規(guī)范,“匯交規(guī)范”規(guī)定了每個專項項目匯交數(shù)據(jù)時的文件構成和組織方法,如有遺漏,則完整性審查不通過。二是基于各專項項目提交的數(shù)據(jù)匯交方案來審查,在匯交方案中列明本項目的數(shù)據(jù)組成情況。模型將通過對匯交方案的解析實現(xiàn)對數(shù)據(jù)完整性的審查。三是從數(shù)據(jù)文件構成的完整性上進行審查,例如一個矢量數(shù)據(jù)的shape文件,至少由.shp、.dbf、.shx 3個文件組成,如果缺少一個那么完整性審查將不能通過。
(2)一致性審查。主要指對匯交數(shù)據(jù)中文檔的一致性、內容的一致性等內容審查。
(3)約束性審查。主要是對數(shù)據(jù)內容的約束性審查,約束性審查主要是對二維表格數(shù)據(jù)、二維表中每一列屬性進行判斷,審查每一行的值是否在約束范圍內。
為了靈活實現(xiàn)對不同學科領域的數(shù)據(jù)審查,本文探討基于自定義約束規(guī)則的數(shù)據(jù)審查模型,模型框架如圖2所示
數(shù)據(jù)審查模型主要由構建器、規(guī)則庫和判斷器構成。構建器主要是用于創(chuàng)建約束規(guī)則的工具,約束規(guī)則由判斷條件和值域構成。規(guī)則庫存儲了用戶進行數(shù)據(jù)審查時創(chuàng)建的各類規(guī)則集。判斷器則將這些規(guī)則集應用于一個待審查的項目匯交數(shù)據(jù)集,并對是否滿足規(guī)則的情況進行輸出。
根據(jù)科技基礎性工作項目匯交數(shù)據(jù)的內容和特點,從完整性、一致性和約束性3個方面進行約束規(guī)則的定義,審查規(guī)則包括數(shù)據(jù)文檔存在性審查、文件組織和命名規(guī)范審查、數(shù)據(jù)質量審查、數(shù)據(jù)文檔審查、論文和輔助軟件審查。其中,數(shù)據(jù)文檔存在性審查是指文檔是否存放在指定的路徑位置上。文件組織審查指文件的存放路徑是否符合規(guī)范的統(tǒng)一約定,命名規(guī)范審查指文件的命名是否符合要求。數(shù)據(jù)質量審查和數(shù)據(jù)文檔審查模塊包括數(shù)據(jù)項內容審查、行數(shù)據(jù)審查、列數(shù)據(jù)審查、多表審查等。一個數(shù)據(jù)審查規(guī)則集的構成如圖3所示。
數(shù)據(jù)項審查是指對某一數(shù)據(jù)表中的某一個數(shù)據(jù)項進行審查,包括非空審查、數(shù)據(jù)類型審查、正則表達式審查、數(shù)據(jù)范圍審查等。在數(shù)據(jù)項審查中,非空審查通過設置數(shù)據(jù)項能否為空的約束條件來審查數(shù)據(jù)項內容是否滿足約束規(guī)則。數(shù)據(jù)類型審查主要審查所采用的數(shù)據(jù)類型必須是指定的某一數(shù)據(jù)類型或滿足預先設定的幾種類型中的某一類型。正則表達式審查是由于采用單個字符串描述或者匹配一系列某個句法規(guī)則的字符串,也就是用一個“字符串”來描述一個特征,因此主要審查某一個“字符串”是否符合這個特征。如審查電話號碼、郵箱、日期是否滿足規(guī)格。數(shù)據(jù)范圍審查包括常規(guī)的數(shù)值范圍審查和數(shù)據(jù)項內容是否在自定義的范圍之內,是一種約束性的審查,如審查某一物質的PH值必須在3~7,審查植物種植的氣候帶必須為熱帶、亞熱帶、溫帶、寒溫帶、寒帶、其他這6項中的一項等。
行數(shù)據(jù)審查是對數(shù)據(jù)表中行與行數(shù)據(jù)項之間關系的審查,包括行數(shù)據(jù)項之間的對應關系、限制約束關系。如項目編號字段與項目名稱字段是一一對應關系,一個項目編號有且僅有一個項目名稱。
列數(shù)據(jù)審查指的是對同一字段的數(shù)據(jù)項與數(shù)據(jù)項之間關系的審查,包括對比審查、累計值審查、四則運算審查等。如表格數(shù)據(jù)詳細描述表中“數(shù)據(jù)記錄數(shù)”字段需要運用四則運算統(tǒng)計表格記錄的整列數(shù)據(jù)總量。
多表審查是對兩個及其以上數(shù)據(jù)表中數(shù)據(jù)項關系的審查,也叫數(shù)據(jù)項動態(tài)聯(lián)合審查。如表格數(shù)據(jù)詳細描述表中描述字段必須包含被描述數(shù)據(jù)表的所有字段。
圖2 數(shù)據(jù)審查模型的框架構成
依據(jù)上述數(shù)據(jù)質量審查模型的設計方案,梳理數(shù)據(jù)質量審查系統(tǒng)的工作流程,如圖4所示。
系統(tǒng)在應用上,首先讀取項目數(shù)據(jù)包,然后從規(guī)則庫中選擇審查模板,依據(jù)審查模板定義的規(guī)則進行逐項檢查。在檢查過程中,首先檢查是否存在PDF格式的數(shù)據(jù)匯交方案。其次審查Dataset的內容,檢查Dataset文件夾存放的數(shù)據(jù)實體和數(shù)據(jù)說明文檔,以數(shù)據(jù)資源唯一的標識號作為下一級文件夾的名稱,每個文件夾中又存放著Data、Document、Thumbnail 3個文件夾,它們分別用來存放數(shù)據(jù)實體、數(shù)據(jù)說明文檔和數(shù)據(jù)縮略圖。此部分審查主要是針對文件的組織和命名是否符合規(guī)范。接著用自定義約束規(guī)則審查模型對數(shù)據(jù)質量進行審查,檢查數(shù)據(jù)的完整性、一致性等。再次對數(shù)據(jù)說明文檔進行審查,重點對科學數(shù)據(jù)/圖集說明文檔、標準規(guī)范編制說明、八大類標本資源規(guī)范描述表進行審查。最后對Paper部分和Software部分進行審查。
圖3 數(shù)據(jù)審查規(guī)則集構成
規(guī)則集通過采用基于XML的模板文件進行存儲,一個規(guī)則集就是一個審查模板。XML文件是一種可擴展標記語言,其具有可擴展性、交互性好、跨平臺的特點,還具有結構性強、易于處理、靈活性好等優(yōu)點,易于進行自定義審查規(guī)則的存儲[12]。用戶可以對不同的數(shù)據(jù)集創(chuàng)建不同的審查模板。當審查要求有變動時,只需添加或修改審查規(guī)則文件,在審查時進行相應的配置即可,便于靈活的數(shù)據(jù)審核。
自定義數(shù)據(jù)審查規(guī)則的配置方法是根據(jù)待審查數(shù)據(jù)集的不同而進行設計的,需要分別對項目數(shù)據(jù)匯交方案、項目基本信息與元數(shù)據(jù)、數(shù)據(jù)資源實體、數(shù)據(jù)說明文檔、輔助軟件工具、專著論文等數(shù)據(jù)進行創(chuàng)建。為了便于用戶操作,系統(tǒng)開發(fā)了自定義審查規(guī)則的配置界面(圖5)供用戶使用。
為了方便管理和記錄每一個項目匯交數(shù)據(jù)的質量審查情況,該系統(tǒng)還增加了用戶管理和審查日志的功能,每次審查數(shù)據(jù)的結果都會被記錄在審查日志中。而對同一數(shù)據(jù)集的審查則根據(jù)時間軸來記錄每次的審查情況,方便用戶追溯數(shù)據(jù)資源的審查和修改記錄情況。
每一次的審查結果都記錄著對匯交數(shù)據(jù)資源審查評價的信息,包括審查的數(shù)據(jù)是否正確,數(shù)據(jù)錯誤的原因等。數(shù)據(jù)審查結束后,系統(tǒng)會自動生成一個審查結果的報告文檔。審查人員可以在此文檔的基礎上,繼續(xù)添加人工審核的意見。最后,將審查結果文檔反饋給匯交單位,供匯交單位進行數(shù)據(jù)集修改完善。
圖4 數(shù)據(jù)質量審查系統(tǒng)應用流程
圖5 自定義審查規(guī)則的配置界面
本文首先分析了科技基礎性項目匯交數(shù)據(jù)的構成及特點,進而梳理了項目匯交數(shù)據(jù)審查的主要流程。按照科技基礎性項目匯交規(guī)范,設計了基于自定義約束規(guī)則的數(shù)據(jù)質量審查模型,模型從數(shù)據(jù)的完整性、一致性和約束性3個方面進行約束規(guī)則的定義,能夠對項目數(shù)據(jù)匯交方案、項目基本信息、數(shù)據(jù)實體、數(shù)據(jù)文檔、論文專著和輔助軟件工具等進行全面的審查。最后,基于本模型開發(fā)了科技基礎性項目匯交數(shù)據(jù)質量審查系統(tǒng)。除了數(shù)據(jù)審查功能之外,還開發(fā)了用于約束規(guī)則配置的工具界面,添加了審查日志和審核意見導出等功能,方便對同一數(shù)據(jù)集的持續(xù)跟蹤審查。
通過基于約束規(guī)則的科技基礎性數(shù)據(jù)質量審查模型的研究與實現(xiàn),能夠提高科技基礎性工作項目匯交數(shù)據(jù)質量審查的質量和效率,節(jié)約數(shù)據(jù)審核人員的時間,使數(shù)據(jù)審核人更集中精力去審核一些更深層次的數(shù)據(jù)質量問題??萍蓟A性項目數(shù)據(jù)匯交是一項長期持續(xù)性的工作。目前,數(shù)據(jù)質量審查模型還更多地側重于形式方面的審查,隨著數(shù)據(jù)匯交工作的開展而不斷深入,數(shù)據(jù)質量審查模型將深入數(shù)據(jù)內容,建立經(jīng)驗模型,逐步實現(xiàn)數(shù)據(jù)質量的自動審查和意見反饋。
[1]SADIQ Shazia, INDULSKA Marta. Open data: quality over quantity[J]. International Journal of Information Management, 2017, 37(3): 150-154.
[2]陳遠, 羅琳, 沈祥興. 信息系挽中的么據(jù)質童問題研究[J]. 中國圖書館學報, 2004(1): 48-50.
[3]蔣萍, 田成詩. 全方位、立體性數(shù)據(jù)質量概念的建立與實施[J]. 統(tǒng)計研究, 2010, 27(12): 8-15.
[4]許滌龍, 龍海躍. 歐盟數(shù)據(jù)質量評估框架及其對我國的啟示[J]. 統(tǒng)計與決策, 2013(8): 4-7.
[5]TAGGARTA Jane, LIAWA Siaw-Teng, YU Hairong.Structured data quality reports to improve EHR data quality[J]. International Journal of Medical Informatics,2015, 84(12): 1094-1098.
[6]PRESSER Karl, HINTERBERGER Hans, WEBER David, et al. A scope classi fi cation of data quality requirements for food composition data[J]. Food Chemistry, 2016, 193: 166-172.
[7]徐啟恒, 張新長, 張興飛. GIS數(shù)據(jù)檢查與質量控制系統(tǒng)的設計與實現(xiàn)[J].測繪通報, 2012(5): 38-40.
[8]王興, 朱定真, 苗春生. 基于規(guī)則引擎的多元大氣信息數(shù)據(jù)質量檢查方法[J]. 南京信息工程大學學報(自然科學版), 2011, 3(3): 238-243.
[9]楊家芳. 基于規(guī)則引擎的基本農(nóng)田劃定內業(yè)數(shù)據(jù)質量檢查方法研究[D], 杭州: 浙江大學, 2014.
[10]MERINO Jorge, CABALLERO Ismael, RIVAS Bibiano,et al. A data quality in use model for big data[J]. Future Generation Computer Systems, 2016, 63: 123-130.
[11]曹一化, 劉旭, 許增泰, 等. 自然科技資源共性描述規(guī)范[M].北京: 中國科學技術出版社, 2006: 1-86
[12]HELLMANN D. The python standard library by example[M]. Indianapolis, Indiana: Addison Wesley,2011: 1-10.
Research and Implementation of Quality Inspection Model for Basic Data of Science and Technology Based on Custom Constraint Rules
ZHANG Xiaoxia1, DU Ping2, CHEN Hang1, LU Yujia1, ZHANG Jinqu1
(1. School of Computer Science, North China Normal University, Guangzhou 510631; 2. Guangzhou School,Guangdong Polytechnic of Science and Technology, Guangzhou 510551)
Considering the situations of the low e ffi ciency and fallibility in manually data quality inspection for the data from basic work of science and technology, a data quality inspection model on basic work of science and technology was designed based on custom constraint rules. The model consists of constructor, rule database and a judge determiner. The constructor is mainly used for the building of custom constraint rules. The rule database is composed of a series of rule collections. Each rule collection, namely as an inspection template, can be de fi ned from integrality, consistency and restriction. The data will be checked based on an inspection template selected by the judge determiner with results exported. Study showed that the data quality review model can meet the work requirements in data review of basic work of science and technology. It improves the quality and e ffi ciency of data quality review, and provides a technical reference for other similar data quality audits.
basic work of science and technology, project remit, data quality review, constraint rule, quality audits model.
TP306
A
10.3772/j.issn.1674-1544.2017.05.008
張肖霞(1993—),女,華南師范大學計算機學院碩士研究生,研究方向:空間信息處理;杜平(1982—),女,廣東科學技術職業(yè)學院廣州學院教師、工程師,研究方向:嵌入式系統(tǒng)及軟件工程;陳杭(1991—),男,華南師范大學計算機學院碩士研究生,研究方向:深度學習;魯玉佳(1994—),女,華南師范大學計算機學院碩士研究生,研究方向:深度學習;張金區(qū)(1980—):男,華南師范大學計算機學院副教授,研究方向:空間信息技術應用(通訊作者)。
科技基礎性工作專項重點項目“科技基礎性工作數(shù)據(jù)資料集成與規(guī)范化整編”(2013FY110900);廣東省科技計劃項目“基于O2O模式的新一代科普作品研發(fā)”(2014A070711020)。
2017年7月14日。