張志豪,王竟成,舒暢,周彩元
(西南技術工程研究所,重慶 400039)
高質量數(shù)據(jù)是數(shù)字化發(fā)展的源頭活水,數(shù)據(jù)的多源融合也會催生大量智能應用,為裝備數(shù)字化智能化建設發(fā)展賦能增效[1-3]。隨著我國大數(shù)據(jù)戰(zhàn)略的實施,數(shù)字化進程的不斷推動,數(shù)字資源的整合、控制管理、保護利用等問題也隨之出現(xiàn)[4,5]。
目前,自然環(huán)境試驗得到的各類環(huán)境因素數(shù)據(jù)及各型裝備產品環(huán)境效應數(shù)據(jù)的積累管理中,數(shù)據(jù)種類繁多、類型復雜,數(shù)據(jù)信息的不完整、不一致和不規(guī)范,會給數(shù)據(jù)的管理、分析、共享帶來很大困難,也會嚴重影響數(shù)據(jù)產品開發(fā)及推廣應用服務[6-10]。自然環(huán)境試驗與觀測可為提高裝備環(huán)境適應性提供重要數(shù)據(jù)支撐,針對環(huán)境因素數(shù)據(jù)和環(huán)境效應數(shù)據(jù)的采集積累,開展自然環(huán)境試驗數(shù)據(jù)積累與質量控制管理機制研究具有重要意義[11-14]。
在數(shù)字化飛速發(fā)展的時代背景下,如何進行自然環(huán)境試驗數(shù)據(jù)的積累與質量控制管理,解決環(huán)境因素與環(huán)境效應數(shù)據(jù)的采集、積累、入庫管理、質量控制及安全監(jiān)控等關鍵技術問題,為自然環(huán)境試驗數(shù)據(jù)挖掘、算法突破、數(shù)據(jù)產品開發(fā)等奠定堅實基礎,目前為止依舊是自然環(huán)境試驗大數(shù)據(jù)發(fā)展中必須夯實穩(wěn)固的難點及關鍵性基礎[15,16]。
本研究從自然環(huán)境試驗與觀測系統(tǒng)出發(fā),分析了數(shù)據(jù)積累的多樣與多層級為數(shù)據(jù)質量控制帶來的挑戰(zhàn),闡明了自然環(huán)境試驗質量控制管理機制,全面剖析了數(shù)據(jù)質量控制管理中出現(xiàn)的問題及采取的科學合理解決方式,以期構建相對完備的自然環(huán)境試驗數(shù)據(jù)資源池、建設完善的數(shù)據(jù)治理體系,成為自然環(huán)境試驗數(shù)據(jù)資源池持續(xù)擴充中數(shù)據(jù)時效性、準確性、一致性、完整性的牢固保障,逐步提高數(shù)據(jù)價值密度,為數(shù)字化轉型夯基固基。
我國自然環(huán)境試驗站網(wǎng)現(xiàn)有11 個大氣試驗站/場和3 個海水試驗站,覆蓋了我國寒冷區(qū)、寒溫I 區(qū)、寒溫II 區(qū)、暖溫區(qū)、亞濕熱區(qū)、濕熱區(qū)、海洋性氣候區(qū)、南海島礁、黃海海濱、東海海濱和南海海濱各類氣候區(qū),分屬高源、高寒、戈壁、熱帶雨林、海洋性、南海島礁等氣候環(huán)境。圖1 所示為我國氣候區(qū)分布圖。
圖1 我國氣候區(qū)分布圖
由于不同試驗站/場的氣候特征存在差異,觀測的環(huán)境因素類型也有所側重。大氣試驗站監(jiān)測的環(huán)境因素包括大氣溫度、相對濕度、風向風速、太陽輻射、日照時數(shù)、氣壓、風向風速、降水、天氣現(xiàn)象大氣環(huán)境因素,以及海鹽粒子、二氧化硫、氨、硫化氫、氯化氫、二氧化氮、氧含量、雨水組分、大氣降塵等大氣污染物因素。海水試驗站監(jiān)測15 項環(huán)境因素,包括大氣溫度、相對濕度、風向風速、太陽輻射、日照時數(shù)、氣壓、風向風速、降水等大氣環(huán)境因素,以及海水溫度、鹽度、溶解氧、pH 值和電導率等海水環(huán)境因素。
自然環(huán)境效應數(shù)據(jù)的觀測與積累通常分為“材料-元器件-部組件-分系統(tǒng)-整機”不同層級,各層級材料數(shù)量呈“金字塔”式分布,如圖2 所示可知。
圖2 各層級材料數(shù)量分布圖
自然環(huán)境效應數(shù)據(jù)以基礎材料數(shù)據(jù)為主要布局,數(shù)據(jù)最多位于金字塔體積最大也是最低的層級;元器件、部組件及分系統(tǒng)分別位于第四、第三及第二層級;整機層級位于金字塔最頂端,該層級產品數(shù)量相比其他較少。自然環(huán)境效應數(shù)據(jù)觀測與積累做到低層級產品環(huán)境效應數(shù)量優(yōu)先保證,高層級產品適當控制。
自然環(huán)境因素數(shù)據(jù)與自然環(huán)境效應數(shù)據(jù)的采集過程中,各試驗站/場嚴格按照GJB 8894.1-2017《自然環(huán)境因素測定方法 第1 部分:大氣環(huán)境因素》、《國防科技工業(yè)自然環(huán)境試驗站網(wǎng) 自然環(huán)境因素采集與監(jiān)檢測方法規(guī)程》及GJB 8893-2017《軍用裝備自然環(huán)境試驗方法》等標準和規(guī)程,確保數(shù)據(jù)的連續(xù)性、可靠性和準確性,觀測與試驗人員都進行專業(yè)技術培訓,持證上崗,所有數(shù)據(jù)均需進行校對、復核、審查[17-19]。試驗數(shù)據(jù)和環(huán)境數(shù)據(jù)全部經規(guī)范化處理后,完成自然環(huán)境數(shù)據(jù)內部共享及完整傳輸。
環(huán)境因素數(shù)據(jù)與環(huán)境效應數(shù)據(jù)原始數(shù)據(jù)來源多樣、數(shù)據(jù)格式類型和計量單位不統(tǒng)一、數(shù)據(jù)噪音大、數(shù)據(jù)完備性差,尤其需要重視入庫管理。原始數(shù)據(jù)在入庫存儲前,要開展數(shù)據(jù)質量控制與數(shù)據(jù)的規(guī)范化研究,包括數(shù)據(jù)缺測檢查、格式檢查、界限值檢查、一致性檢查。
清洗后的數(shù)據(jù)要按照數(shù)據(jù)分類及編碼等標準對數(shù)據(jù)進行標識,按照標準格式要求進行匯聚整編和入庫存儲,確保入庫數(shù)據(jù)準確性與完整性。建立多維主題數(shù)據(jù)庫對基礎數(shù)據(jù)分門別類組織。針對入庫數(shù)據(jù),從數(shù)據(jù)基本信息、數(shù)據(jù)主要內容、編碼規(guī)則審校等方面對相關數(shù)據(jù)進行校對。
自然環(huán)境因素數(shù)據(jù)質量管控中要對比研究同一數(shù)據(jù)積累點不同環(huán)境因素之間的內在關聯(lián)和歷史數(shù)據(jù)長期變化趨勢,從環(huán)境因素邏輯性、相關性、完整性和連續(xù)性等審核采集的環(huán)境因素數(shù)據(jù),具體審核評價流程如圖3所示。
圖3 自然環(huán)境因素數(shù)據(jù)質量審核評價流程
首先,在環(huán)境因素數(shù)據(jù)質量審核評價中對數(shù)據(jù)的格式進行審查,查看格式是否做到規(guī)范化處理;在對數(shù)據(jù)進行缺測檢查,發(fā)現(xiàn)缺測數(shù)據(jù)需通過特殊標識進行標記處理;環(huán)境因素界限值檢查包括氣候極值檢查和臺站極值檢查,是通過從歷史數(shù)據(jù)中挑出各月最大值和最小值,確定極值數(shù)據(jù)的上下界限值,查找異常數(shù)據(jù);邏輯性檢查主要包括時間一致性和內部一致性檢查,其中,時間一致性檢查是指與環(huán)境因素時間變化規(guī)律性是否相符的檢查,通過試驗站歷年環(huán)境因素變化規(guī)律判斷異常數(shù)據(jù);內部一致性檢查是判斷氣象要素之間是否符合規(guī)律,通過同一時刻不同要素之間和同一時刻相同要素不同參數(shù)之間的一致性檢查判斷異常數(shù)據(jù);綜合判斷檢查主要是通過結合相關歷史背景資料,依靠專業(yè)技術人員的經驗對單項檢驗的結果進行綜合的檢查判斷,最終確定數(shù)據(jù)的可信度。最后,對正常數(shù)據(jù)進行入庫存儲處理。
4.1.1 數(shù)據(jù)庫系統(tǒng)管控
在自然環(huán)境因素數(shù)據(jù)入庫中,通過規(guī)定和限制數(shù)據(jù)庫中存儲在表的列或自定義數(shù)據(jù)類型中的值,對數(shù)據(jù)類型、有效數(shù)字位數(shù)、數(shù)據(jù)重復等進行規(guī)約,統(tǒng)一數(shù)據(jù)庫規(guī)則,保證數(shù)據(jù)完整性和一致性,對不滿足質量要求的數(shù)據(jù)不予以入庫。對經過審核的環(huán)境因素數(shù)據(jù),將不同類型、不同要素的環(huán)境因素按照各參數(shù)的量綱作一致性處理,并對不同來源的數(shù)據(jù)進行歸類整理,整理原則如下:
1)位數(shù):整理后的數(shù)據(jù)必須保持原有數(shù)據(jù)應有的信息,不能隨意拋棄觀測值和原始數(shù)據(jù)的位數(shù),不能用平均值代替各次觀測值;
2)格式:大氣環(huán)境因素數(shù)據(jù)參照GB/T 24516.1-2009 中的月報表、年報表格式處理,海水環(huán)境因素數(shù)據(jù)參照GJB 8894.2-2017 中的月報表、年報表格式處理。
自然環(huán)境因素數(shù)據(jù)監(jiān)測全流程標準化管理主要從監(jiān)測人員培訓、設備檢定校準、監(jiān)測方法規(guī)范等三方面進行標準規(guī)范化管理,從設備、人員、方法等全方面確保監(jiān)測數(shù)據(jù)的準確性、可靠性等。
4.1.2 其他管理控制方式
在充分保障自然環(huán)境因素數(shù)據(jù)質量受以上管控機制作用的同時,還需要采用以下措施充分保證環(huán)境因素數(shù)據(jù)質量。
1)加強人工審核
一是對采集的原始數(shù)據(jù)進行出站前的三級審核制,即采用編制、校核、審核的方式對數(shù)據(jù)的準確性進行最初審核,從源頭提高數(shù)據(jù)的準確率,二是對各試驗站提交上來的數(shù)據(jù),必須經過專業(yè)技術人員的二次審核,尤其是對缺失或異常數(shù)據(jù)的審核,以此進一步提高入庫數(shù)據(jù)準確率。
2)針對對缺失值處理方法
替換法:采用相鄰年份對應的歷史數(shù)據(jù)來替換修補缺失年份的數(shù)據(jù);
近鄰查補法:通過已有數(shù)據(jù)項進行對比,采用鄰近監(jiān)測點監(jiān)測的同種因素數(shù)據(jù),替換對應缺失數(shù)據(jù)缺失時間點位的數(shù)據(jù);
趨勢法:缺失數(shù)據(jù)監(jiān)測點對應鄰近監(jiān)測點的數(shù)據(jù)已知,利用鄰近監(jiān)測點的數(shù)據(jù)變化趨勢,即相鄰時間點的數(shù)據(jù)的差值疊加到缺失數(shù)據(jù)時間點位前的數(shù)據(jù)上,依次修補后續(xù)缺失數(shù)據(jù)。
3)加強環(huán)境因素觀測設備及傳感器的檢定校準
設備的檢定校準是設備檢測數(shù)據(jù)準確性的重要保證。項目在開展過程中需要對站網(wǎng)各試驗站點的設備及傳感器按照要求定期檢定或校準,以確保數(shù)據(jù)監(jiān)測的準確性。
4)確保監(jiān)檢測方法標準性
環(huán)境因素的監(jiān)檢測和數(shù)據(jù)采集均按照國防軍工自然環(huán)境試驗站網(wǎng)發(fā)布的《自然環(huán)境因素采集及監(jiān)測規(guī)程》進行,確保站網(wǎng)監(jiān)測數(shù)據(jù)獲取方法的一致性。環(huán)境因素觀測點的觀測場所、監(jiān)測點的位置設置、樣品的采集和保存情況等均符合《國防科技工業(yè)自然環(huán)境試驗站網(wǎng)規(guī)程-自然環(huán)境因素采集與臨檢測方法》規(guī)定的要求。
5)加強環(huán)境因素專業(yè)技術人員的培訓
對站網(wǎng)各試驗站點環(huán)境因素觀測與分析人員定期開展培訓,統(tǒng)一各試驗站操作人員的操作規(guī)范,確保所有專業(yè)技術人員按照規(guī)定的要求采集并分析獲取環(huán)境因素數(shù)據(jù)。
環(huán)境效應數(shù)據(jù)是典型的多源異構數(shù)據(jù),涉及數(shù)據(jù)、文本、圖像等類型,質量控制需要先明確數(shù)據(jù)特點、數(shù)據(jù)類型與記錄形式。
自然環(huán)境效應數(shù)據(jù)質量管控中,不同測量對象,其數(shù)據(jù)記錄形式各有特點,針對不同數(shù)據(jù)特點采用不同質量管理控制方式。其中,數(shù)值型數(shù)據(jù)需要對具體的數(shù)據(jù)單位、經驗取值范圍、測量精度要求以及實際測量值進行規(guī)范化要求和記錄。圖片需要對格式、像素、反映的形貌部位(如全貌或局部)等進行統(tǒng)一的要求和記錄。數(shù)據(jù)的記錄方式直接決定數(shù)據(jù)的屬性和特點,需要在充分調研材料、結構、環(huán)境、腐蝕以及腐蝕研究相關技術等方面具體的數(shù)據(jù)指標,各指標的通用計量單位,研究領域的取值區(qū)間,精度指標的具體要求以及實際記錄形式的基礎上,逐條給出每一項數(shù)據(jù)記錄指標的詳細規(guī)范性要求。對某些數(shù)值或文本均可進行記錄或標注的情況,需要在規(guī)范中明確需要采取的標注形式。對于可以采取簡化記錄的方式,在規(guī)范中要明確簡化標注的形式以及簡化標注所代表的確定意義,以防止記錄混亂,引起數(shù)據(jù)處理過程中耗費大量精力進行數(shù)據(jù)格式的統(tǒng)一。
自然環(huán)境效應數(shù)據(jù)類型及記錄形式也存在不同。按照數(shù)據(jù)類型和各類型數(shù)據(jù)的實際特點設計數(shù)據(jù)采集記錄表的格式,對于任意一個表格中未明確填寫格式的部分,要求在尊重習慣的基礎上按照國家有關標準格式進行填寫。按照項目研究和數(shù)據(jù)收集的特點,需制定性能參數(shù)測試數(shù)據(jù)、外觀檢查數(shù)據(jù)和失效信息的分類采集表等表單。其中,性能參數(shù)測試數(shù)據(jù)采集主要包括基本性能數(shù)據(jù)采集表,該表應包括性能參數(shù)測試數(shù)據(jù)、技術要求和測試時間等內容;外觀檢查數(shù)據(jù)應包括涂層、標志、殼體等數(shù)據(jù)采集表,表單應包括涂層是否剝落、標志是否清晰、是否腐蝕斷裂、殼體是否腐蝕等內容;失效信息采集表應包括失效樣品編號、失效時間、失效模式和失效機理等內容。
異常數(shù)據(jù)是指由于測試環(huán)境等的突然變化而產生的不符合或偏離常規(guī)屬性的數(shù)據(jù)[20]。環(huán)境效應數(shù)據(jù)在產生、存儲過程中不可避免會出現(xiàn)數(shù)據(jù)異常的情況,對于異常數(shù)據(jù)需要甄別、判定并修正,對其進行嚴格質量控制。在自然環(huán)境試驗中異常數(shù)據(jù)往往表現(xiàn)在數(shù)據(jù)序列中和平行測試數(shù)據(jù)中。因此,首先需要研究數(shù)據(jù)序列中異常數(shù)據(jù)的判定方法和平行數(shù)據(jù)中異常數(shù)據(jù)的判定方法。對于異常數(shù)據(jù)的判斷首先要基于對數(shù)據(jù)屬性的深刻認識,明確數(shù)據(jù)在給定環(huán)境下的取值范圍或取值規(guī)律。最后,基于已形成的規(guī)律或認識去判斷數(shù)據(jù)是否符合既定規(guī)律,若不符合即判定為異常數(shù)據(jù)。
異常數(shù)據(jù)的判定主要采取物理判別法和統(tǒng)計判別法兩種方法。物理判別法是根據(jù)人們對客觀事物已有的認識,判別由于外界干擾、人為誤差等原因造成的數(shù)據(jù)偏離正常的程度,在數(shù)據(jù)錄入過程中隨時判斷,隨時剔除。統(tǒng)計判別法是通過給定一個置信概率,并確定一個置信限,凡超過此限的誤差,就認為它不屬于隨機誤差范圍,將其視為異常數(shù)據(jù)。自然環(huán)境試驗與觀測異常數(shù)據(jù)一般采用Q 檢驗法、格魯布斯(Grubbs)檢驗法、t 檢驗法等判定方法。另外,GB 4883-2008《數(shù)據(jù)的統(tǒng)計處理和解釋 正態(tài)樣本離群值的判定和處理》也提供了一種偏度—峰度檢驗法。除特殊情況外,對異常值剔除水平一般采用1 %或更下,而不宜采用大于5 %的值的一般規(guī)則。由于異常數(shù)據(jù)通常是具備特定屬性的數(shù)據(jù),通過合理的分析處理加以修正,異常數(shù)據(jù)有可能會成為正常數(shù)據(jù)。因此,在數(shù)據(jù)錄人時,可以保留異常數(shù)據(jù),以備后續(xù)拓展研究使用。研究分析文獻資料中異常數(shù)據(jù)的修正方法,如平均值法、空穴值法、模型預測法等,結合環(huán)境效應數(shù)據(jù)的特點,研究各種方法的誤差,進而確定適用于不同類別環(huán)境效應數(shù)據(jù)的異常數(shù)據(jù)修正方法。
數(shù)據(jù)安全管理是數(shù)據(jù)管理的紅線,貫穿數(shù)據(jù)產生到應用全過程。主要注意以下五個方面:第一,數(shù)據(jù)管理必須嚴格執(zhí)行國家關于信息管理的有關安全保密規(guī)定要求,采取有效的管控手段和技術措施;第二,根據(jù)涉密等級、任務分工和人員類別,設置用戶使用調閱權限;第三,綜合運用先進的技術手段加強數(shù)據(jù)全流程管理,全過程安全監(jiān)控;第四逐步建立健全應急處置和容災備份機制,健全防篡改、防攻擊、防病毒等安全防護體系;第五,用于存儲和處理數(shù)據(jù)的設備,必須明確標識涉密等級和管理使用權限,嚴禁不按密級和權限使用。
數(shù)據(jù)監(jiān)控貫穿數(shù)據(jù)從產生到應用的全過程,主要包括數(shù)據(jù)存儲監(jiān)控、安全監(jiān)控、用戶訪問監(jiān)控、共享監(jiān)控。其目的是為了及時發(fā)現(xiàn)數(shù)據(jù)管理各個環(huán)節(jié)過程中的問題,及時反饋到數(shù)據(jù)各階段的管理方,及時通告數(shù)據(jù)產品審查小組和業(yè)務小組,從而盡快落實解決方案。
本文針對自然環(huán)境試驗數(shù)據(jù)資源質量管控的技術瓶頸,開展了自然環(huán)境試驗數(shù)據(jù)積累與質量控制管理機制研究,給出了數(shù)據(jù)質量控制流程、控制要素和控制體系框架,從技術層面分析了構建數(shù)據(jù)質量控制系統(tǒng)的關鍵要素和技術要點,為實現(xiàn)自然環(huán)境試驗數(shù)據(jù)資源池持續(xù)擴充中,數(shù)據(jù)資源的規(guī)范審核及推進數(shù)據(jù)質量控制管理提供基礎技術支持。
在數(shù)字化的時代背景下,數(shù)據(jù)質量不僅是當下數(shù)字化建設的關鍵,更是對自然環(huán)境試驗數(shù)據(jù)資源這一“源頭活水”的純凈與價值的保障。自然環(huán)境試驗與觀測數(shù)據(jù)的持續(xù)擴充、自然環(huán)境試驗大數(shù)據(jù)的發(fā)展也將為提高裝備環(huán)境適應性提供更強有力的支撐。