• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    軍事數(shù)據(jù)質(zhì)量管理研究

    2016-10-31 00:50:06戴超凡劉麗華曾賽紅張苒
    指揮與控制學(xué)報(bào) 2016年4期
    關(guān)鍵詞:質(zhì)量管理

    戴超凡 劉麗華 曾賽紅 張苒

    經(jīng)過多年努力,我軍信息化建設(shè)取得長(zhǎng)足發(fā)展,信息化水平得到大幅躍升,信息化建設(shè)進(jìn)入了一個(gè)加速發(fā)展的新階段.與此同時(shí),也遇到信息能力較弱等矛盾問題,面臨新的機(jī)遇挑戰(zhàn),要求以提高信息資源開發(fā)利用效率、奪取信息優(yōu)勢(shì)為目標(biāo),以網(wǎng)絡(luò)信息體系建設(shè)為抓手,以信息能力建設(shè)為聯(lián)合作戰(zhàn)體系能力建設(shè)的根本著力點(diǎn)[1],以數(shù)據(jù)資源建設(shè)為核心,突破制約體系作戰(zhàn)能力生成和提高的最大瓶頸.當(dāng)前,大數(shù)據(jù)戰(zhàn)略如火如荼,數(shù)據(jù)質(zhì)量問題日益凸顯[2].

    數(shù)據(jù)質(zhì)量已成為我軍數(shù)據(jù)建設(shè)質(zhì)量與效益的關(guān)鍵因素,數(shù)據(jù)質(zhì)量評(píng)估與控制是確保數(shù)據(jù)準(zhǔn)確能用的關(guān)鍵環(huán)節(jié).沒有好的數(shù)據(jù)質(zhì)量,再多的數(shù)據(jù)、再?gòu)?qiáng)的軟件、再好的硬件,也不會(huì)有好的應(yīng)用效果,更談不上“用數(shù)據(jù)說話,依數(shù)據(jù)決策”.數(shù)據(jù)質(zhì)量的好與壞,已經(jīng)成為了體系作戰(zhàn)能力“放大器”與“衰減器”的重要因素.重視和改進(jìn)數(shù)據(jù)質(zhì)量問題已成為包括各級(jí)數(shù)據(jù)管理人員和數(shù)據(jù)工作者的普遍共識(shí).同時(shí),我們也應(yīng)該清醒地認(rèn)識(shí)到,數(shù)據(jù)質(zhì)量問題是一個(gè)全軍性、全國(guó)性,甚至世界性的難題,涉及到數(shù)據(jù)生命周期的各個(gè)階段,涉及業(yè)務(wù)和技術(shù)兩個(gè)層面,數(shù)據(jù)質(zhì)量改進(jìn)實(shí)踐永遠(yuǎn)在路上.這需要我們找出符合我軍網(wǎng)絡(luò)信息體系建設(shè)特點(diǎn)的數(shù)據(jù)質(zhì)量評(píng)估和控制方法,運(yùn)用軍事系統(tǒng)工程的理念和方法,推進(jìn)全面數(shù)據(jù)質(zhì)量管理.

    1 數(shù)據(jù)質(zhì)量基礎(chǔ)

    1.1 數(shù)據(jù)質(zhì)量概念與度量

    數(shù)據(jù)質(zhì)量,是一個(gè)要素多維的概念,還具有很強(qiáng)的客觀性和主觀性.客觀上,數(shù)據(jù)質(zhì)量是指數(shù)據(jù)符合客觀實(shí)際的程度,主要由規(guī)范性、有效性、一致性、準(zhǔn)確性、完整性和時(shí)效性等進(jìn)行量化約束的指標(biāo)來度量[2?4].從業(yè)務(wù)和技術(shù)等角度,可以將數(shù)據(jù)質(zhì)量維度區(qū)分為內(nèi)在維度和上下文維度,如圖1所示.主觀上,數(shù)據(jù)質(zhì)量指數(shù)據(jù)的適用度[5],即滿足用戶需要的程度[6?7].不同的用戶和不同的應(yīng)用,對(duì)數(shù)據(jù)質(zhì)量的要求也不同.比如,針對(duì)主戰(zhàn)武器裝備數(shù)據(jù),戰(zhàn)術(shù)級(jí)裝備管理者要求數(shù)據(jù)精確到單裝的數(shù)質(zhì)量情況,而高級(jí)指揮員則更關(guān)心綜合的數(shù)量、技術(shù)狀況和能發(fā)揮的作戰(zhàn)效能等方面的數(shù)據(jù).

    數(shù)據(jù)質(zhì)量度量是數(shù)據(jù)管理面臨的首要問題,目前主要采用定性與定量相結(jié)合的方式對(duì)關(guān)心的數(shù)據(jù)質(zhì)量維度進(jìn)行分析[2?4,8?10].

    圖1 數(shù)據(jù)質(zhì)量維度

    1.2 數(shù)據(jù)質(zhì)量控制

    數(shù)據(jù)質(zhì)量控制指提高或改進(jìn)數(shù)據(jù)質(zhì)量的策略、方法和手段.數(shù)據(jù)質(zhì)量控制如同產(chǎn)品質(zhì)量控制一樣貫穿于數(shù)據(jù)的整個(gè)生命周期,其主要方法包括:一是數(shù)據(jù)質(zhì)量的評(píng)估與監(jiān)控,二是保證和提高數(shù)據(jù)質(zhì)量的策略和技術(shù).

    數(shù)據(jù)質(zhì)量控制策略多種多樣.從數(shù)據(jù)生命周期來看,數(shù)據(jù)質(zhì)量控制可分為兩類:一是預(yù)防策略,即在數(shù)據(jù)生命周期的每一個(gè)階段,都有嚴(yán)格的數(shù)據(jù)規(guī)劃和約束來防止問題數(shù)據(jù)的產(chǎn)生.二是事后診斷和修正策略,即在數(shù)據(jù)演化或集成后,采取特定的方法檢測(cè)和修正可能的問題數(shù)據(jù).從業(yè)務(wù)依賴性的角度來看,數(shù)據(jù)質(zhì)量控制策略可分為兩類:一是不依賴特定業(yè)務(wù)規(guī)則,從數(shù)據(jù)本身尋找特征來解決,如數(shù)據(jù)格式錯(cuò)誤、某些值缺漏等問題;二是與特定業(yè)務(wù)規(guī)則相關(guān),即領(lǐng)域相關(guān)知識(shí)是消除數(shù)據(jù)邏輯錯(cuò)誤的必需條件.數(shù)據(jù)質(zhì)量問題涉及多種原因,有效的數(shù)據(jù)質(zhì)量控制方法往往是綜合應(yīng)用多種策略而形成的[2?4,8?10].

    1.3 數(shù)據(jù)質(zhì)量管理體系

    在對(duì)數(shù)據(jù)質(zhì)量進(jìn)行客觀評(píng)估和有效控制的過程中建立數(shù)據(jù)質(zhì)量管理體系是實(shí)現(xiàn)數(shù)據(jù)質(zhì)量持續(xù)改進(jìn)的有效途徑.國(guó)外關(guān)于數(shù)據(jù)質(zhì)量管理體系的研究大都基于全面數(shù)據(jù)質(zhì)量管理(Total Data Quality Management,TDQM[11?12])的原則、方法和指南,也繼承了ISO9000系列標(biāo)準(zhǔn)的框架[13].

    2002年,我國(guó)統(tǒng)計(jì)數(shù)據(jù)的采集、質(zhì)量評(píng)估、結(jié)果公布等開始與國(guó)際標(biāo)準(zhǔn)趨同,開啟了我國(guó)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理體系建設(shè)的新紀(jì)元[14].近年來,我國(guó)公安部[15]等開始嘗試運(yùn)用現(xiàn)代質(zhì)量管理的方法,在組織內(nèi)部建立起系統(tǒng)性的數(shù)據(jù)質(zhì)量管理體系,對(duì)影響數(shù)據(jù)質(zhì)量的關(guān)鍵流程和重要環(huán)節(jié)實(shí)施控制,以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的不斷提升.

    2 數(shù)據(jù)質(zhì)量管理發(fā)展歷程

    數(shù)據(jù)質(zhì)量管理隨著信息技術(shù)與思維的發(fā)展而發(fā)展.互聯(lián)網(wǎng)的廣泛使用[16],大數(shù)據(jù)技術(shù)的迅猛發(fā)展[17],更是加速了問題數(shù)據(jù)的產(chǎn)生與傳播.

    2.1 發(fā)展階段

    總體上,數(shù)據(jù)質(zhì)量管理可以分為3個(gè)階段.

    2.1.1 以“應(yīng)用”為中心階段

    在早期的磁盤時(shí)代,磁盤作為主要存儲(chǔ)介質(zhì),存儲(chǔ)容量小、數(shù)量有限、成本高昂.因此,數(shù)據(jù)錄入前對(duì)存儲(chǔ)策略進(jìn)行嚴(yán)格設(shè)計(jì),數(shù)據(jù)經(jīng)過嚴(yán)密篩選.在此階段,根據(jù)用戶需求,針對(duì)特定的數(shù)據(jù)集開發(fā)特定的應(yīng)用,數(shù)據(jù)與應(yīng)用緊密捆綁,通過代碼直接對(duì)數(shù)據(jù)進(jìn)行操作.因此,本階段數(shù)據(jù)冗余少,數(shù)據(jù)更新及時(shí),審核校驗(yàn)到位,數(shù)據(jù)質(zhì)量總體水平很高.

    2.1.2 以“數(shù)據(jù)”為中心階段

    隨著數(shù)據(jù)庫(kù)及存儲(chǔ)技術(shù)的飛速發(fā)展,數(shù)據(jù)質(zhì)量問題日益凸顯,數(shù)據(jù)質(zhì)量管理進(jìn)入快車軌道,TDQM逐步建立[11?12],基于規(guī)則的數(shù)據(jù)質(zhì)量治理方法大行其道[18],應(yīng)用領(lǐng)域常見于政府統(tǒng)計(jì)[14]、公共管理[15]和國(guó)防軍事[9,19]等行業(yè)領(lǐng)域.

    從數(shù)據(jù)管理與應(yīng)用的角度來看,信息技術(shù)的發(fā)展,催生并加劇了數(shù)據(jù)質(zhì)量問題.

    1)數(shù)據(jù)獲取

    數(shù)據(jù)庫(kù)的出現(xiàn),促進(jìn)了數(shù)據(jù)與應(yīng)用分離.數(shù)據(jù)的采集獲取與綜合集成已經(jīng)成為了工作重心和研究熱點(diǎn).無論采用哪種方法采集獲取數(shù)據(jù),均可能產(chǎn)生問題數(shù)據(jù):

    a)手工錄入數(shù)據(jù):采集規(guī)則不合理、人為錄入失誤,錄入手段不合理等,是造成數(shù)據(jù)質(zhì)量的主要原因.

    b)數(shù)據(jù)集成:數(shù)據(jù)集成帶來的質(zhì)量問題主要是在源數(shù)據(jù)正確的情況下,造成的數(shù)據(jù)冗余、匹配錯(cuò)誤、數(shù)據(jù)二義性等問題[20].

    c)自動(dòng)生成數(shù)據(jù):數(shù)據(jù)自動(dòng)生成條件的合理性和一致性是產(chǎn)生問題數(shù)據(jù)的主因.

    d)網(wǎng)絡(luò)爬蟲:篩選條件設(shè)置恰當(dāng)與否,直接影響著數(shù)據(jù)質(zhì)量的高低.

    2)數(shù)據(jù)存儲(chǔ)及應(yīng)用

    存儲(chǔ)介質(zhì)的容量從兆級(jí)躍升為G級(jí)、T級(jí)時(shí),基本上可滿足用戶的存儲(chǔ)需求.存儲(chǔ)成本的降低,放松了對(duì)獲取數(shù)據(jù)的篩選及質(zhì)量控制,導(dǎo)致大量冗余、不一致,數(shù)據(jù)質(zhì)量明顯降低[21].同時(shí),數(shù)據(jù)庫(kù)管理系統(tǒng)不提供完整的數(shù)據(jù)質(zhì)量管理服務(wù),導(dǎo)致從數(shù)據(jù)采集、集成到存儲(chǔ),可能存在不同程度的數(shù)據(jù)質(zhì)量問題.

    2.1.3 以“服務(wù)”為中心階段

    當(dāng)前已步入云計(jì)算時(shí)代,數(shù)據(jù)存儲(chǔ)于“云”中,大數(shù)據(jù)應(yīng)用風(fēng)起云涌.數(shù)據(jù)建設(shè)與應(yīng)用開始從采集管理數(shù)據(jù)轉(zhuǎn)向從數(shù)據(jù)中獲取有用信息[17],從單純的數(shù)據(jù)積累到通過數(shù)據(jù)挖掘開發(fā)高價(jià)值的數(shù)據(jù)產(chǎn)品來支持決策[2],終端用戶開始從原始數(shù)據(jù)采集加工轉(zhuǎn)向從“云”端通過服務(wù)獲取數(shù)據(jù)或數(shù)據(jù)產(chǎn)品[22].當(dāng)用戶使用“云”端數(shù)據(jù)時(shí),對(duì)其可靠性和可信度提出了更高要求[23].

    在本階段,數(shù)據(jù)質(zhì)量問題甚至超越了數(shù)據(jù)本身,數(shù)據(jù)質(zhì)量管理是服務(wù)提供商需要重點(diǎn)考慮的問題之一.通過分析、改進(jìn)、提高“云”中數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)的內(nèi)在含義及語義關(guān)聯(lián)信息,進(jìn)行深度的數(shù)據(jù)質(zhì)量管理,有助于支持決策.

    2.2 數(shù)據(jù)質(zhì)量管理框架模型

    全面數(shù)據(jù)質(zhì)量管理[11?12]旨在通過對(duì)數(shù)據(jù)質(zhì)量進(jìn)行全面分析研究,綜合組織和用戶的需求,建立涵蓋管理制度、規(guī)范標(biāo)準(zhǔn)及技術(shù)手段的數(shù)據(jù)質(zhì)量管理框架模型,涉及從質(zhì)量問題定義、分析、改進(jìn)策略,從評(píng)估、檢測(cè)到改進(jìn)的方法和工具.

    數(shù)據(jù)質(zhì)量管理必須以分析用戶需求為前提,從管理制度、標(biāo)準(zhǔn)規(guī)范及方法技術(shù)3方面構(gòu)建數(shù)據(jù)質(zhì)量管理框架模型[24],如圖2所示.

    1)數(shù)據(jù)質(zhì)量元數(shù)據(jù)

    主要包括數(shù)據(jù)質(zhì)量元模型,數(shù)據(jù)產(chǎn)品,業(yè)務(wù)規(guī)則、維度及需求,度量、驗(yàn)證及行動(dòng)等規(guī)則.

    2)數(shù)據(jù)質(zhì)量評(píng)估監(jiān)測(cè)

    主要包括數(shù)據(jù)剖析、數(shù)據(jù)質(zhì)量度量及數(shù)據(jù)質(zhì)量驗(yàn)證.

    a)數(shù)據(jù)剖析:以異常檢查為目的,基于業(yè)務(wù)規(guī)則對(duì)數(shù)據(jù)進(jìn)行剖析,找出數(shù)據(jù)值被評(píng)定為與用戶或業(yè)務(wù)期望不符的情況.

    b)數(shù)據(jù)質(zhì)量度量:依據(jù)應(yīng)用需求確定數(shù)據(jù)質(zhì)量維度,與業(yè)務(wù)規(guī)則相結(jié)合確定度量指標(biāo),運(yùn)用定量與定性相結(jié)合的方法進(jìn)行質(zhì)量度量.

    c)數(shù)據(jù)質(zhì)量驗(yàn)證:將度量后的數(shù)據(jù)質(zhì)量水平與用戶期望的水平或閾值相比較.閾值應(yīng)根據(jù)用戶上下文使用環(huán)境進(jìn)行設(shè)置.

    3)數(shù)據(jù)質(zhì)量控制

    主要包括數(shù)據(jù)質(zhì)量改進(jìn)、操作管理、數(shù)據(jù)治理等.

    a)數(shù)據(jù)質(zhì)量改進(jìn):通過使用六西格瑪、持續(xù)改進(jìn)等活動(dòng)從而避免數(shù)據(jù)質(zhì)量問題再次出現(xiàn).

    b)操作管理:對(duì)因數(shù)據(jù)錄入或操作失誤造成的錯(cuò)誤數(shù)據(jù)進(jìn)行及時(shí)跟蹤和修復(fù).

    圖2 數(shù)據(jù)質(zhì)量管理模型

    c)數(shù)據(jù)治理:對(duì)已產(chǎn)生問題數(shù)據(jù)進(jìn)行修改糾正.

    此外,數(shù)據(jù)質(zhì)量管理框架模型還涉及許多其他主題,包括數(shù)據(jù)質(zhì)量意識(shí)、管理規(guī)范、組織結(jié)構(gòu)、職責(zé)、角色等,它們涉及數(shù)據(jù)生命周期中各個(gè)階段的質(zhì)量管理.

    3 數(shù)據(jù)質(zhì)量管理現(xiàn)狀分析

    數(shù)據(jù)質(zhì)量管理研究涉及到管理學(xué)、統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)等多個(gè)領(lǐng)域[25].本節(jié)從管理政策、標(biāo)準(zhǔn)規(guī)范和方法技術(shù)3個(gè)層面對(duì)國(guó)內(nèi)外數(shù)據(jù)質(zhì)量管理工作進(jìn)行梳理.

    3.1 管理制度

    管理制度是數(shù)據(jù)質(zhì)量管理常態(tài)化、制度化的保證.目前,我國(guó)政府統(tǒng)計(jì)、公共管理部門和重點(diǎn)企業(yè)已經(jīng)開始制定和試行數(shù)據(jù)質(zhì)量管理相關(guān)制度,如文獻(xiàn)[15].美軍在數(shù)據(jù)質(zhì)量管理方面的研究起步較早,且已形成了較為完善的體系,對(duì)我軍數(shù)據(jù)質(zhì)量管理工作具有一定的借鑒意義.

    3.2 標(biāo)準(zhǔn)規(guī)范

    數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn)規(guī)范主要用于規(guī)范數(shù)據(jù)質(zhì)量管理工作在技術(shù)層面的要求和約定,對(duì)影響數(shù)據(jù)質(zhì)量的關(guān)鍵流程和重要環(huán)節(jié)實(shí)施控制,以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的有效控制和不斷提升.標(biāo)準(zhǔn)規(guī)范可涵蓋對(duì)數(shù)據(jù)生命周期,涉及數(shù)據(jù)質(zhì)量分析、質(zhì)量問題發(fā)現(xiàn)、修正改進(jìn)、問題數(shù)據(jù)溯源和影響追蹤等方方面面.

    美國(guó)國(guó)防部有一套十分完善的數(shù)據(jù)管理和數(shù)據(jù)標(biāo)準(zhǔn)化規(guī)程,對(duì)數(shù)據(jù)的開發(fā)、批準(zhǔn)、使用和維護(hù)等做出了全面和具體的規(guī)定,使數(shù)據(jù)標(biāo)準(zhǔn)化成為完備、標(biāo)準(zhǔn)的科學(xué)體系[19],頒發(fā)的《DoD發(fā)現(xiàn)元數(shù)據(jù)規(guī)范》和《與DoD數(shù)據(jù)標(biāo)準(zhǔn)的匹配和映射》等標(biāo)準(zhǔn)規(guī)范,有效確保了數(shù)據(jù)資產(chǎn)質(zhì)量,進(jìn)而支撐了美軍網(wǎng)絡(luò)中心數(shù)據(jù)策略.

    相對(duì)而言,目前我國(guó)數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)規(guī)范仍處于起步階段,側(cè)重于將數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)類的相關(guān)內(nèi)容作為標(biāo)準(zhǔn)規(guī)范的主要內(nèi)容,且通用性、可操作性普遍不強(qiáng)[8,15,27?29].

    3.3 技術(shù)手段

    現(xiàn)有的技術(shù)手段針對(duì)不同的質(zhì)量問題,采用預(yù)先分析和事后診斷相結(jié)合的策略,綜合運(yùn)用數(shù)據(jù)治理、溯源及影響分析、不確定性數(shù)據(jù)處理等方法,支持度量、檢查和改進(jìn)數(shù)據(jù)質(zhì)量問題.

    3.3.1 數(shù)據(jù)關(guān)聯(lián)關(guān)系分析

    數(shù)據(jù)關(guān)聯(lián)源于計(jì)算機(jī)中的表達(dá)與現(xiàn)實(shí)世界中物體的不一致,是數(shù)據(jù)集成問題的核心,是數(shù)據(jù)分析挖掘的前提.錯(cuò)誤的拼寫、縮寫、不同的命名習(xí)慣、名稱變體等現(xiàn)象會(huì)導(dǎo)致大量的數(shù)據(jù)冗余、不一致等問題,嚴(yán)重影響了集成數(shù)據(jù)的質(zhì)量,從而影響進(jìn)一步分析挖掘的效果.數(shù)據(jù)關(guān)聯(lián)關(guān)系分析的主要任務(wù)是:找出不一致、冗余和不完整等數(shù)據(jù)錯(cuò)誤,建立數(shù)據(jù)集和數(shù)據(jù)屬性間的關(guān)聯(lián)關(guān)系.研究主要集中在對(duì)象識(shí)別、冗余相關(guān)分析、重復(fù)檢測(cè)、表象消歧、記錄連接和數(shù)據(jù)值沖突的檢測(cè)與處理[30?32]等.通過相似度度量函數(shù)來描述兩個(gè)屬性或者兩組屬性之間的相似度,一直是數(shù)據(jù)關(guān)聯(lián)關(guān)系方面的研究重點(diǎn).

    3.3.2 數(shù)據(jù)約束關(guān)系分析

    網(wǎng)絡(luò)環(huán)境下的家校溝通更方便快捷,微信、微家園等社交軟件的開放和自由,不僅可以加強(qiáng)教師與家長(zhǎng)間的交流,更能促進(jìn)家長(zhǎng)間的交流與信息共享。利用互聯(lián)網(wǎng)的社交平臺(tái),可提供家長(zhǎng)間的有效交流,分享各自的教育經(jīng)驗(yàn),同時(shí)能夠加強(qiáng)班級(jí)團(tuán)結(jié)。各班家長(zhǎng)微信群、年級(jí)家長(zhǎng)微信群、作業(yè)群、教育交流群,家長(zhǎng)可以通過這些軟件進(jìn)行交流,參與到學(xué)?;顒?dòng)。

    數(shù)據(jù)約束是對(duì)數(shù)據(jù)應(yīng)該遵守的一種語義限制.目前,數(shù)據(jù)約束的主要表現(xiàn)形式是數(shù)據(jù)依賴.對(duì)于一個(gè)關(guān)系來說,如果該集合中的所有數(shù)據(jù)依賴都能夠滿足,則認(rèn)為該關(guān)系的數(shù)據(jù)質(zhì)量達(dá)到要求;反之,則認(rèn)為存在數(shù)據(jù)質(zhì)量問題.

    數(shù)據(jù)約束主要分為3類:第1類是函數(shù)依賴、連接依賴、多值依賴等傳統(tǒng)的數(shù)據(jù)依賴,它在整個(gè)數(shù)據(jù)庫(kù)范圍內(nèi)成立.第2類是條件依賴,如內(nèi)置謂詞函數(shù)依賴[33]、內(nèi)置謂詞條件依賴[34]等.第3類則是應(yīng)用結(jié)合的依賴.找出這些數(shù)據(jù)約束,確保數(shù)據(jù)的完整性和一致性,是提高數(shù)據(jù)質(zhì)量的基礎(chǔ).

    3.3.3 數(shù)據(jù)溯源與影響分析

    在數(shù)據(jù)質(zhì)量管理中,數(shù)據(jù)溯源及影響分析是極其重要的一環(huán).通過對(duì)問題數(shù)據(jù)的起源追蹤,對(duì)其派生過程進(jìn)行展示分析,可獲取該質(zhì)量問題的等級(jí)及傳播途徑[35],從而及時(shí)有效地控制問題數(shù)據(jù)的傳播和演化[36].

    1)數(shù)據(jù)溯源

    數(shù)據(jù)溯源技術(shù)誕生于20世紀(jì)90年代,是隨著數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)而出現(xiàn)的一個(gè)研究領(lǐng)域.在不同的應(yīng)用領(lǐng)域,數(shù)據(jù)溯源有不同的提法,如數(shù)據(jù)血統(tǒng)、數(shù)據(jù)譜系、數(shù)據(jù)志等,其核心是對(duì)數(shù)據(jù)產(chǎn)生來源的追蹤和探究,其目的主要是為用戶提供數(shù)據(jù)的起源信息,幫助用戶完成數(shù)據(jù)質(zhì)量分析、數(shù)據(jù)起源審核、錯(cuò)誤信息定位以及集成流程優(yōu)化等[37].

    目前,數(shù)據(jù)溯源方法主要有注釋和逆運(yùn)算兩種[38],在實(shí)際應(yīng)用中需要二者的有機(jī)結(jié)合.在標(biāo)準(zhǔn)化方面,已形成了開放起源模型[39](Open provenance model,OPM)、Provenir[40]、PROV[41]等多種數(shù)據(jù)溯源模型,并針對(duì)不同應(yīng)用領(lǐng)域構(gòu)建了一系列溯源系統(tǒng),如數(shù)據(jù)庫(kù)應(yīng)用中的DBNotes[42]、VDS[43]和Trio[44]等,工作流應(yīng)用中的myGrid[45]、Kepler[46]和Vistrail[47]等.

    2)數(shù)據(jù)影響分析

    問題數(shù)據(jù)的影響分析主要包括問題數(shù)據(jù)定位、后續(xù)數(shù)據(jù)模式影響、后續(xù)數(shù)據(jù)實(shí)例影響和業(yè)務(wù)影響[48]等方面.

    分析數(shù)據(jù)影響時(shí),需針對(duì)問題數(shù)據(jù)進(jìn)行逐條分析,避免將正常數(shù)據(jù)剔除,同時(shí)推薦提供問題數(shù)據(jù)修正和恢復(fù)機(jī)制.

    3.3.4 不確定性數(shù)據(jù)管理

    由于不確定數(shù)據(jù)具有龐大的實(shí)例集合、概率維、多樣的數(shù)據(jù)形態(tài)等顯著特點(diǎn),使得數(shù)據(jù)質(zhì)量問題廣泛存在而且難以有效解決.目前主要集中在不確定性數(shù)據(jù)的預(yù)處理、集成、存儲(chǔ)、檢索及查詢分析處理等方面開展研究[49?52].

    在軍事等領(lǐng)域,數(shù)據(jù)的不確定性普遍存在,其存在性未知而且各屬性值存在誤差,如測(cè)繪導(dǎo)航數(shù)據(jù)、軍事物聯(lián)網(wǎng)采集獲取、多源情報(bào)數(shù)據(jù)等.盡管數(shù)據(jù)預(yù)處理能夠提升原始數(shù)據(jù)集合的質(zhì)量,但也可能會(huì)喪失原始數(shù)據(jù)集合的部分性質(zhì),導(dǎo)致無法返回高質(zhì)量的查詢結(jié)果.

    4 軍事大數(shù)據(jù)質(zhì)量問題分析

    我軍數(shù)據(jù)建設(shè),經(jīng)過“九五”以來的持續(xù)建設(shè),特別是在一系列全軍性大型工程建設(shè)的牽引下,取得了重要階段性成果,各領(lǐng)域已形成了一批有代表性、可用、實(shí)用的數(shù)據(jù)資源,并且這些成果在業(yè)務(wù)工作以及演習(xí)演練和搶險(xiǎn)救災(zāi)等重大活動(dòng)中得到了應(yīng)用,發(fā)揮了巨大的軍事效益.在大數(shù)據(jù)背景下,數(shù)據(jù)質(zhì)量問題尤為突出.近年來,我軍數(shù)據(jù)建設(shè)開始關(guān)注數(shù)據(jù)質(zhì)量問題,一些領(lǐng)域和系統(tǒng)已經(jīng)采用基于規(guī)則的審核校驗(yàn)方法來評(píng)估和控制數(shù)據(jù)質(zhì)量[9],但是重心仍局限于數(shù)據(jù)的采集與共享,局限于結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量評(píng)估與控制,對(duì)數(shù)據(jù)質(zhì)量的重視程度和資源投入還遠(yuǎn)遠(yuǎn)不夠,缺少專業(yè)權(quán)威的部門及手段對(duì)數(shù)據(jù)質(zhì)量進(jìn)行有效評(píng)估和控制,數(shù)據(jù)的規(guī)范性、一致性、準(zhǔn)確性、完整性和時(shí)效性等關(guān)鍵質(zhì)量要素還難以得到有效保證,這也將直接影響數(shù)據(jù)建設(shè)成果的價(jià)值和使用.

    4.1 記錄型數(shù)據(jù)常見質(zhì)量問題

    記錄型軍事數(shù)據(jù)的常見質(zhì)量問題如下:

    1)數(shù)據(jù)有效性問題,主要是指數(shù)據(jù)值不符合客觀邏輯或軍事需求,如經(jīng)度大于180?等.

    2)數(shù)據(jù)準(zhǔn)確性問題,主要是指數(shù)據(jù)不夠真實(shí)客觀.一是數(shù)據(jù)不正確,如出生年月符合有效性要求,但是填報(bào)的數(shù)據(jù)不符合實(shí)際情況.二是數(shù)據(jù)不精確,如經(jīng)緯度的小數(shù)保留位數(shù)不足等.

    3)數(shù)據(jù)一致性問題,主要是指存在于多個(gè)數(shù)據(jù)庫(kù)表中同一屬性的取值及含義不一致.一是數(shù)據(jù)量綱不一致.比如射程,有的采用公里,有的采用米.二是數(shù)據(jù)取值不規(guī)范,此類問題在名稱和地址類數(shù)據(jù)中非常普遍,還與各業(yè)務(wù)領(lǐng)域數(shù)據(jù)應(yīng)用字典的規(guī)范程度及遵循情況直接相關(guān).

    4)數(shù)據(jù)完整性問題,主要是指數(shù)據(jù)不能完整地與軍事需求相對(duì)應(yīng),不能反映研究對(duì)象的全貌.如部隊(duì)情況,沒有提供部隊(duì)基本情況、任務(wù)、部署和實(shí)力等全面數(shù)據(jù).

    5)數(shù)據(jù)時(shí)效性問題,主要是指數(shù)據(jù)不是當(dāng)前采集的,或者采集的不是當(dāng)前的狀態(tài).

    4.2 文本型數(shù)據(jù)質(zhì)量問題分析

    在大數(shù)據(jù)背景下,數(shù)據(jù)資源開始由結(jié)構(gòu)化數(shù)據(jù)為主向半結(jié)構(gòu)化甚至非結(jié)構(gòu)化數(shù)據(jù)并重轉(zhuǎn)變,從數(shù)據(jù)庫(kù)向文檔資料和網(wǎng)頁(yè)信息擴(kuò)展,這導(dǎo)致數(shù)據(jù)質(zhì)量問題開始由記錄型數(shù)據(jù)質(zhì)量問題向文本型數(shù)據(jù)質(zhì)量問題延伸.

    文本數(shù)據(jù)被認(rèn)為是用自然語言“編碼”的信息.其來源可能是不明確的,語義性與用戶密切相關(guān),上下文關(guān)聯(lián)性靈活多變,導(dǎo)致可能存在更多的質(zhì)量問題.常規(guī)的數(shù)據(jù)質(zhì)量管理方法,尤其是大多數(shù)數(shù)據(jù)治理方法,往往不適用于處理文本數(shù)據(jù)質(zhì)量問題.即使檢測(cè)到文本數(shù)據(jù)質(zhì)量問題,在不使用任何智能化處理手段之前,這些數(shù)據(jù)質(zhì)量問題很難修正.根據(jù)用戶對(duì)數(shù)據(jù)質(zhì)量的特定要求,分離出重要的特定段落或子集,然后使用傳統(tǒng)技術(shù)進(jìn)行有限的處理,是一個(gè)比較務(wù)實(shí)的思路.若要處理大規(guī)模的文本數(shù)據(jù)質(zhì)量問題,則需運(yùn)用新的數(shù)據(jù)質(zhì)量管理策略和手段提供支撐,如通過使用基于證據(jù)的概率模型組合多個(gè)(噪聲)信息源.處理文本數(shù)據(jù)質(zhì)量問題的成本是一個(gè)不可忽視的因素.如果成本大于從文本提取的信息價(jià)值,則數(shù)據(jù)質(zhì)量問題的處理將變得毫無意義.

    5 軍事大數(shù)據(jù)質(zhì)量管理思考

    目前,我軍數(shù)據(jù)質(zhì)量管理理念逐步樹立,數(shù)據(jù)質(zhì)量評(píng)估體系開始具體化,數(shù)據(jù)質(zhì)量控制手段措施進(jìn)入實(shí)際操作層面,數(shù)據(jù)質(zhì)量管理機(jī)制已現(xiàn)雛形.但是,總體上來看,還處于數(shù)據(jù)質(zhì)量管理與控制的初始階段,離全面數(shù)據(jù)質(zhì)量管理的目標(biāo)還有很大差距.同時(shí),由于不同國(guó)家、不同領(lǐng)域的組織結(jié)構(gòu)和制度環(huán)境等存在明顯差異,當(dāng)前主流數(shù)據(jù)質(zhì)量管理框架與我軍實(shí)際數(shù)據(jù)環(huán)境不相適應(yīng),還難以形成從研究到應(yīng)用再到研究的良性可持續(xù)發(fā)展的閉環(huán),因而很難有效解決我軍數(shù)據(jù)質(zhì)量管理面臨的矛盾問題.軍事數(shù)據(jù)質(zhì)量問題產(chǎn)生的原因涉及到數(shù)據(jù)建設(shè)、管理與應(yīng)用的全生命周期,有的是數(shù)據(jù)庫(kù)設(shè)計(jì)問題,有的是采集規(guī)范問題,有的是采集工具問題,有的是采集流程與制度問題,還有的是數(shù)據(jù)應(yīng)用問題.針對(duì)軍事數(shù)據(jù)質(zhì)量管理的需求和我軍數(shù)據(jù)建設(shè)的實(shí)際,建議開展以下幾個(gè)方面的工作和研究.

    1)軍事數(shù)據(jù)質(zhì)量管理是一個(gè)復(fù)雜的系統(tǒng)工程,需要牢牢樹立全面數(shù)據(jù)質(zhì)量管理的理念,將數(shù)據(jù)質(zhì)量管理作為軍事數(shù)據(jù)建設(shè)的基本內(nèi)容,以全面數(shù)據(jù)質(zhì)量管理的流程、方法和手段來推進(jìn)數(shù)據(jù)質(zhì)量建設(shè).

    2)進(jìn)一步建立健全數(shù)據(jù)建設(shè)、使用、管理和保障等規(guī)章制度,對(duì)數(shù)據(jù)全生命周期內(nèi)的質(zhì)量要求制度化、系列化、常態(tài)化,規(guī)范如何采集到真實(shí)、有效、一致、規(guī)范的數(shù)據(jù),如何管好用好數(shù)據(jù),確保各項(xiàng)數(shù)據(jù)工作正規(guī)有序,提升數(shù)據(jù)質(zhì)量水平和使用效益.

    3)充分借鑒國(guó)內(nèi)外、軍內(nèi)外數(shù)據(jù)質(zhì)量管理的先進(jìn)方法和技術(shù),針對(duì)軍事大數(shù)據(jù)特點(diǎn),深入研究面向軍事大數(shù)據(jù)的質(zhì)量評(píng)估與控制方法,研制通用和專用相結(jié)合的技術(shù)支撐手段,支持?jǐn)?shù)據(jù)質(zhì)量的評(píng)估、檢測(cè)和修正.

    4)數(shù)據(jù)質(zhì)量管理涉及管理學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)等多領(lǐng)域多學(xué)科多專業(yè)的交叉融合.為解決數(shù)據(jù)質(zhì)量管理方面的專業(yè)人才供需矛盾十分突出問題,建議依托院校設(shè)置數(shù)據(jù)質(zhì)量管理專業(yè)學(xué)科和課程體系,或采取院校送學(xué)、集中培訓(xùn)、崗位訓(xùn)練等多種方式,培養(yǎng)數(shù)據(jù)質(zhì)量管理專業(yè)人才.

    5)面對(duì)新的形勢(shì)任務(wù),進(jìn)一步深化軍事數(shù)據(jù)質(zhì)量問題特點(diǎn)規(guī)律的認(rèn)識(shí),把握實(shí)踐要求,全面梳理現(xiàn)有成果和實(shí)踐經(jīng)驗(yàn),積極借鑒國(guó)內(nèi)外數(shù)據(jù)質(zhì)量管理的先進(jìn)理念,構(gòu)建具有我軍特色的數(shù)據(jù)質(zhì)量管理理論體系,更好地指導(dǎo)和牽引我軍數(shù)據(jù)質(zhì)量管理工作.

    猜你喜歡
    質(zhì)量管理
    棗前期管理再好,后期管不好,前功盡棄
    “質(zhì)量”知識(shí)鞏固
    質(zhì)量守恒定律考什么
    加強(qiáng)土木工程造價(jià)的控制與管理
    如何加強(qiáng)土木工程造價(jià)的控制與管理
    做夢(mèng)導(dǎo)致睡眠質(zhì)量差嗎
    關(guān)于質(zhì)量的快速Q(mào)&A
    質(zhì)量投訴超六成
    汽車觀察(2016年3期)2016-02-28 13:16:26
    “這下管理創(chuàng)新了!等7則
    雜文月刊(2016年1期)2016-02-11 10:35:51
    人本管理在我國(guó)國(guó)企中的應(yīng)用
    图们市| 龙岩市| 共和县| 五常市| 射阳县| 兰溪市| 错那县| 衡南县| 玉溪市| 丹阳市| 大名县| 新安县| 贵定县| 东丰县| 林口县| 杂多县| 长春市| 榆中县| 德钦县| 临夏市| 汝州市| 巴东县| 汤阴县| 大埔县| 中宁县| 西城区| 博罗县| 特克斯县| 衢州市| 永仁县| 永年县| 阿合奇县| 肇庆市| 黑河市| 汉中市| 宁南县| 河间市| 诸城市| 桃园县| 乃东县| 南投市|