李 霄,陳天瑩
(中國電子科技集團公司第三十研究所,四川 成都 610041)
開源數(shù)據(jù)是指在開放環(huán)境下,通過合法方法從公開資料中獲取的數(shù)據(jù),數(shù)據(jù)可被任何人自由訪問、重復使用與共享,沒有版權(quán)、專利或其他限制。
隨著互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)環(huán)境中的開源數(shù)據(jù)量井噴式增長,占據(jù)數(shù)據(jù)體量的95%。開源數(shù)據(jù)具備類型多樣、及時性、開放性、海量多維等特點,為開源數(shù)據(jù)的深度分析與挖掘提供了堅實的數(shù)據(jù)基礎(chǔ)。但是開源數(shù)據(jù)的多源異構(gòu)、無組織管理、碎片化等特點,讓人們無法對數(shù)據(jù)進行多維度評估,使得數(shù)據(jù)本身的不確定性、欺騙性等問題尤為突出,給網(wǎng)絡(luò)安全威脅檢測、網(wǎng)絡(luò)攻擊溯源、重大公共事件處置等帶來了嚴峻挑戰(zhàn)。
當前,開源數(shù)據(jù)主要面臨的質(zhì)量問題如下:
(1)缺乏開源數(shù)據(jù)質(zhì)量評估體系。業(yè)界主要從通用質(zhì)量評估角度,考慮數(shù)據(jù)的完整性、一致性、及時性和準確性等方面的質(zhì)量,忽略了開源數(shù)據(jù)的不確定性、欺騙性等特點,未形成開源數(shù)據(jù)完整的質(zhì)量評估體系。
(2)數(shù)據(jù)質(zhì)量問題識別困難。大數(shù)據(jù)環(huán)境下,開源數(shù)據(jù)來源多樣、數(shù)據(jù)源規(guī)格不統(tǒng)一,導致數(shù)據(jù)的元數(shù)據(jù)描述及理解錯誤、數(shù)據(jù)真假難辨,數(shù)據(jù)質(zhì)量問題難以識別。
(3)數(shù)據(jù)質(zhì)量評估效果難以量化。開源數(shù)據(jù)質(zhì)量問題不盡相同,不同質(zhì)量維度在其整體效果評估中權(quán)重不同,很難用數(shù)值進行多維度量化。
(4)數(shù)據(jù)質(zhì)量問題無法有效閉環(huán),溯源困難。業(yè)內(nèi)的數(shù)據(jù)質(zhì)量評估流程是通過定義數(shù)據(jù)質(zhì)量規(guī)則,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題并告警,但未對質(zhì)量問題進行持續(xù)跟蹤、閉環(huán)與回溯,無法形成良性循環(huán),提升整體數(shù)據(jù)質(zhì)量。
本文研究開源數(shù)據(jù)質(zhì)量評估體系,構(gòu)建全面實用的開源數(shù)據(jù)質(zhì)量維度、評估理論、跟蹤方法,幫助增加開源數(shù)據(jù)的實效性、完整性、關(guān)聯(lián)性,為開源數(shù)據(jù)分析與使用提供堅實的數(shù)據(jù)基礎(chǔ),支撐輿情監(jiān)測、威脅分析和網(wǎng)絡(luò)安全態(tài)勢感知等業(yè)務(wù)應(yīng)用。
開源數(shù)據(jù)質(zhì)量評估是指對開源數(shù)據(jù)集中的數(shù)據(jù)進行評估和驗證,以確保其準確性、完整性和一致性。國內(nèi)學術(shù)界在開源數(shù)據(jù)質(zhì)量評估方面的研究相對較少,大部分研究還停留在數(shù)據(jù)質(zhì)量評估框架和方法的探討階段。例如:2019 年,鄒培等人[1]借鑒全面質(zhì)量管理原則與情境關(guān)聯(lián)思路,針對開源數(shù)據(jù)本身具有的領(lǐng)域特征,提出了基于過程、情境關(guān)聯(lián)和領(lǐng)域知識集成三位一體的開源數(shù)據(jù)評估模式,并以實際案例對此模式的實施進行具體闡述;2020 年,李曉彤[2]針對數(shù)據(jù)質(zhì)量水平參差不齊,重創(chuàng)造輕管理、重數(shù)量輕質(zhì)量、重開放輕利用的問題,分析了國內(nèi)外數(shù)據(jù)質(zhì)量評價框架并構(gòu)建數(shù)據(jù)質(zhì)量評價框架;2022 年,汪春播等人[3]提出基于元數(shù)據(jù)的開放政府數(shù)據(jù)質(zhì)量自動評估系統(tǒng),研究基于元數(shù)據(jù)的林業(yè)開放政府數(shù)據(jù)質(zhì)量的自動獲取、實時監(jiān)測和定期評估,為一般性開放政府數(shù)據(jù)質(zhì)量評估提供借鑒和參考。
在國外,開源數(shù)據(jù)已經(jīng)成為一個戰(zhàn)略性的數(shù)據(jù)資源,對開源數(shù)據(jù)質(zhì)量評估的研究比較豐富。例如:2016 年,Ackerman 等人[4]對經(jīng)常用于社會科學分析的開源事件數(shù)據(jù)集的來源和可信度進行評估與分析,他們開發(fā)了一個樣本來源評估模式,目的是在案例、來源和變量層面對開源事件數(shù)據(jù)的有效性進行測量;2016 年,Van Schalkwyk 等人[5]考慮了開放數(shù)據(jù)的供應(yīng)、需求和使用,表明開源數(shù)據(jù)有可能改善大學作為公共機構(gòu)的管理方法。2018 年,Monika 等人[6]研究了鏈接開源數(shù)據(jù)領(lǐng)域的質(zhì)量評估方法;2018 年,Blasio 等人[7]研究了法國、意大利和英國的政府開源數(shù)據(jù)領(lǐng)域的質(zhì)量評估理論;2021 年,?libar等人[8]闡述了開源數(shù)據(jù)質(zhì)量評估的重要性,對與開源數(shù)據(jù)相關(guān)的研究論文中使用的數(shù)據(jù)質(zhì)量維度、子維度和度量進行了概述,同時列舉了多個領(lǐng)域的開源數(shù)據(jù)評估研究方法。
綜上可知,開源數(shù)據(jù)質(zhì)量是數(shù)據(jù)分析挖掘的基礎(chǔ),如何結(jié)合開源數(shù)據(jù)特征,探索開源數(shù)據(jù)質(zhì)量評估體系、評估流程,提升開源數(shù)據(jù)質(zhì)量,為開源數(shù)據(jù)的分析挖掘提供可靠性高、準確度高的數(shù)據(jù)基礎(chǔ),是開源數(shù)據(jù)工程亟須解決的問題。
開源數(shù)據(jù)質(zhì)量評估體系是開源數(shù)據(jù)質(zhì)量評估能夠落地的前提。從開源數(shù)據(jù)特征、數(shù)據(jù)內(nèi)容、效能作用等角度出發(fā),構(gòu)建開源數(shù)據(jù)質(zhì)量檢測指標和評估體系,滿足不同的數(shù)據(jù)質(zhì)量評估需求。數(shù)據(jù)質(zhì)量評估體系包括數(shù)據(jù)置信度評估、數(shù)據(jù)核查評估、數(shù)據(jù)價值度評估、數(shù)據(jù)綜合質(zhì)量評估和專采數(shù)據(jù)核準5 大類型,由數(shù)據(jù)及時性、數(shù)據(jù)完整性、數(shù)據(jù)波動性、數(shù)據(jù)唯一性、數(shù)據(jù)規(guī)范性、數(shù)據(jù)使用度、數(shù)據(jù)缺失性、數(shù)據(jù)相似性、數(shù)據(jù)新鮮度、數(shù)據(jù)覆蓋度10 個維度組成,通過多維度組合完成相應(yīng)的質(zhì)量評估。開源數(shù)據(jù)質(zhì)量評估體系如圖1 所示。
圖1 開源數(shù)據(jù)質(zhì)量評估體系
開源數(shù)據(jù)質(zhì)量評估體系基于質(zhì)量檢測指標,面向網(wǎng)絡(luò)威脅檢測、威脅溯源分析、重大事件真假研判、重要目標畫像生成等不同的應(yīng)用場景,形成數(shù)據(jù)置信度評估、數(shù)據(jù)核查評估、數(shù)據(jù)價值度評估、數(shù)據(jù)綜合質(zhì)量評估和專采數(shù)據(jù)核準5 大類型。
2.1.1 數(shù)據(jù)置信度評估
數(shù)據(jù)置信度評估主要針對開源數(shù)據(jù)來源多、類型龐雜、數(shù)據(jù)內(nèi)容沖突等因素引起的數(shù)據(jù)真實性、可用性等問題,結(jié)合數(shù)據(jù)缺失度、數(shù)據(jù)規(guī)范性、數(shù)據(jù)新鮮度、多源數(shù)據(jù)間的相似性等維度,構(gòu)建數(shù)據(jù)置信度模型,計算數(shù)據(jù)置信度。
2.1.2 數(shù)據(jù)核查評估
數(shù)據(jù)核查評估主要是對上級機關(guān)下發(fā)的數(shù)據(jù)清單以及業(yè)務(wù)部門提出的數(shù)據(jù)需求進行存量數(shù)據(jù)的核查與評估。數(shù)據(jù)核查評估通過構(gòu)建存量數(shù)據(jù)的“數(shù)據(jù)指紋”結(jié)合數(shù)據(jù)缺失性、完整性、新鮮度、相似性、及時性等維度,對開源數(shù)據(jù)進行監(jiān)測,生成數(shù)據(jù)核查評估分析結(jié)果。
2.1.3 數(shù)據(jù)價值度評估
數(shù)據(jù)價值度評估主要是在數(shù)據(jù)服務(wù)選擇階段和數(shù)據(jù)使用階段對數(shù)據(jù)價值進行評估。其中,數(shù)據(jù)服務(wù)選擇階段主要是為用戶提供數(shù)據(jù)的對比,智能化、多維度地評估最優(yōu)質(zhì)量數(shù)據(jù),為數(shù)據(jù)選擇提供決策依據(jù),確保獲取或者購買開源數(shù)據(jù)服務(wù)達到最優(yōu)。一般采用鏡像開源樣例數(shù)據(jù),從覆蓋度、新鮮度、規(guī)范性、完整性、及時性、唯一性等維度與存量數(shù)據(jù)比對,綜合評價價值度;數(shù)據(jù)使用階段主要是為用戶梳理存量數(shù)據(jù)資源的使用情況,確保數(shù)據(jù)資源最優(yōu)的服務(wù)與業(yè)務(wù)分析工作的支撐,一般采用接口、共享庫兩種方式,深度分析數(shù)據(jù)的使用頻率、使用范圍、使用者等,構(gòu)建綜合評價模型,生成數(shù)據(jù)的使用價值度評估分析結(jié)果。
2.1.4 數(shù)據(jù)綜合質(zhì)量評估
數(shù)據(jù)綜合質(zhì)量評估提供通用的數(shù)據(jù)質(zhì)量評估模型,可設(shè)置每類數(shù)據(jù)的不同質(zhì)量檢測指標的權(quán)重,生成數(shù)據(jù)綜合質(zhì)量評估模型,得到綜合質(zhì)量評分。
2.1.5 專采數(shù)據(jù)核準
專采數(shù)據(jù)核準主要面向網(wǎng)絡(luò)安全的特殊業(yè)務(wù)要求,例如,對特定數(shù)據(jù)項進行高頻開源數(shù)據(jù)采集,實時檢測數(shù)據(jù)是否按照采集要求來進行數(shù)據(jù)采集,確保業(yè)務(wù)所需開源數(shù)據(jù)的高可用性和正確性。
開源數(shù)據(jù)多維質(zhì)量檢測指標在全國信息技術(shù)標準化技術(shù)委員會的數(shù)據(jù)質(zhì)量評價指標指導下,在規(guī)范性、完整性、準確性、一致性、及時性等維度的基礎(chǔ)上,結(jié)合開源數(shù)據(jù)的特征,擴充缺失度、新鮮度、唯一性、波動性和使用度,形成全面、多維的指標檢測體系。
2.2.1 數(shù)據(jù)及時性
數(shù)據(jù)及時性是指開源數(shù)據(jù)的產(chǎn)生、傳遞、處理等過程的時效。主要從數(shù)據(jù)采集及時性、數(shù)據(jù)入庫及時性、數(shù)據(jù)推送及時性以及數(shù)據(jù)治理及時性4 個方面來評估數(shù)據(jù)的及時性,涵蓋了數(shù)據(jù)的產(chǎn)生、采集、推送、存儲、治理全生命周期的評估。
2.2.2 數(shù)據(jù)完整性
數(shù)據(jù)完整性是按照數(shù)據(jù)規(guī)則要求,數(shù)據(jù)元素被賦予數(shù)值的程度。主要包括數(shù)據(jù)空置率、數(shù)據(jù)字段完整度、數(shù)據(jù)內(nèi)容完整度。其中,數(shù)據(jù)空置率是開源數(shù)據(jù)字段為空所占該類型數(shù)據(jù)整體的比例;數(shù)據(jù)字段完整度是開源數(shù)據(jù)字段與原有數(shù)據(jù)字段的數(shù)量是否一致,是否存在新增字段或原來不存在的字段;數(shù)據(jù)內(nèi)容完整度是指數(shù)據(jù)字段的內(nèi)容是否與字段本身的類型和含義一致。
2.2.3 數(shù)據(jù)波動性
數(shù)據(jù)波動性是指開源數(shù)據(jù)在一定時間范圍內(nèi)的變化情況。主要包括數(shù)據(jù)分類波動性和字段波動性。其中,數(shù)據(jù)分類波動性是指統(tǒng)計某一類型數(shù)據(jù)的數(shù)據(jù)采集量、采集頻率及采集周期的變化情況;字段波動性是指統(tǒng)計某一類型數(shù)據(jù)的某些字段的數(shù)據(jù)采集量、采集頻率及采集周期的變化情況。
2.2.4 數(shù)據(jù)唯一性
數(shù)據(jù)唯一性是指開源數(shù)據(jù)內(nèi)容和含義的唯一性。主要包括數(shù)據(jù)重復率和字段一致性。其中,數(shù)據(jù)重復率是指同一數(shù)據(jù)源、同一類型的數(shù)據(jù)及字段的重復比例;字段一致性是指數(shù)據(jù)內(nèi)容與字段的含義存在沖突或相同內(nèi)容的字段的數(shù)據(jù)含義存在歧義。
2.2.5 數(shù)據(jù)規(guī)范性
數(shù)據(jù)規(guī)范性是指數(shù)據(jù)符合數(shù)據(jù)標準、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù)的程度。主要包括文件數(shù)據(jù)接入規(guī)范性、數(shù)據(jù)流接入規(guī)范性、數(shù)據(jù)庫接入規(guī)范性。其中,文件數(shù)據(jù)接入規(guī)范性是指文件接入過程中的各類規(guī)范性問題檢測,如文件系統(tǒng)連接失敗、文件讀取失敗、文件目錄為空、文件格式錯誤等;數(shù)據(jù)流接入規(guī)范性是指數(shù)據(jù)流接入過程中的各類規(guī)范性問題,如消息中間件連接失敗、獲取topic 失敗、topic 配置異常等;數(shù)據(jù)庫接入規(guī)范性是指數(shù)據(jù)庫接入過程中的各類規(guī)范性問題,如數(shù)據(jù)庫連接失敗、字段獲取失敗、數(shù)據(jù)寫入失敗等。
2.2.6 數(shù)據(jù)使用度
數(shù)據(jù)使用度是指根據(jù)數(shù)據(jù)的使用頻度來衡量數(shù)據(jù)的使用價值。數(shù)據(jù)使用度需要借助數(shù)據(jù)接口或者數(shù)據(jù)使用日志分析的方式進行使用度檢測。
2.2.7 數(shù)據(jù)缺失性
數(shù)據(jù)缺失性是指結(jié)合歷史數(shù)據(jù)評價樣例數(shù)據(jù)的缺失情況。主要包括字段缺失性和數(shù)據(jù)內(nèi)容缺失性。其中,字段缺失性是對比樣例數(shù)據(jù)和歷史數(shù)據(jù)的字段項是否存在缺失的情況;數(shù)據(jù)內(nèi)容缺失性是對比樣例數(shù)據(jù)和歷史數(shù)據(jù)的內(nèi)容是否存在缺失的情況。
2.2.8 數(shù)據(jù)相似性
數(shù)據(jù)相似性是指樣例數(shù)據(jù)與歷史數(shù)據(jù)的相似程度。主要包括字段相似性和數(shù)據(jù)內(nèi)容相似性。其中,字段相似性是指樣例數(shù)據(jù)和歷史數(shù)據(jù)的字段之間的相似程度;數(shù)據(jù)內(nèi)容相似性是指樣例數(shù)據(jù)和歷史數(shù)據(jù)的內(nèi)容之間的相似程度。
2.2.9 數(shù)據(jù)新鮮度
數(shù)據(jù)新鮮度是指樣例數(shù)據(jù)與歷史數(shù)據(jù)產(chǎn)生事件的比較。主要包括時間新鮮度和內(nèi)容新鮮度。其中,時間新鮮度是對比樣例數(shù)據(jù)和歷史數(shù)據(jù)的產(chǎn)生時間,判斷樣例數(shù)據(jù)的時間是否晚于歷史數(shù)據(jù);內(nèi)容新鮮度是對比樣例數(shù)據(jù)和歷史數(shù)據(jù)的內(nèi)容,判斷樣例數(shù)據(jù)的內(nèi)容是否比歷史數(shù)據(jù)豐富。
2.2.10 數(shù)據(jù)覆蓋度
數(shù)據(jù)覆蓋度是指計算樣例數(shù)據(jù)內(nèi)容覆蓋歷史數(shù)據(jù)的程度。
開源數(shù)據(jù)質(zhì)量評估流程是在開源數(shù)據(jù)評估體系的基礎(chǔ)上,通過開源數(shù)據(jù)源配置、多維數(shù)據(jù)質(zhì)量檢測模型配置、數(shù)據(jù)質(zhì)量評估模型配置、數(shù)據(jù)質(zhì)量跟蹤與閉環(huán)、結(jié)果反饋與優(yōu)化等流程,實現(xiàn)開源數(shù)據(jù)質(zhì)量評估體系落地。主要流程如圖2 所示。
圖2 開源數(shù)據(jù)質(zhì)量評估流程
(1)開源數(shù)據(jù)源配置。配置開源數(shù)據(jù)源的基礎(chǔ)信息,實現(xiàn)實時、離線與文件類數(shù)據(jù)源的接入,自動對數(shù)據(jù)源進行語義分析,提取數(shù)據(jù)指紋。
(2)多維數(shù)據(jù)質(zhì)量檢測模型配置?;跀?shù)據(jù)質(zhì)量原子級指標,結(jié)合不同網(wǎng)絡(luò)安全業(yè)務(wù)需求,構(gòu)建適用于不同業(yè)務(wù)的數(shù)據(jù)質(zhì)量檢測模型。
(3)數(shù)據(jù)質(zhì)量評估模型配置?;陂_源數(shù)據(jù)質(zhì)量評估的安全業(yè)務(wù)需求,組合不同的數(shù)據(jù)質(zhì)量檢測維度,形成數(shù)據(jù)核查評估、數(shù)據(jù)價值度評估、數(shù)據(jù)綜合質(zhì)量評估、數(shù)據(jù)置信度評估和專采數(shù)據(jù)核準等不同類型的質(zhì)量評估模型。
(4)數(shù)據(jù)質(zhì)量跟蹤與閉環(huán)。依據(jù)策略或規(guī)則自動檢測數(shù)據(jù)質(zhì)量問題,實時告警,持續(xù)對數(shù)據(jù)質(zhì)量問題進行跟蹤與閉環(huán),綜合評估數(shù)據(jù)質(zhì)量,為數(shù)據(jù)質(zhì)量打分,并自動生成數(shù)據(jù)質(zhì)量報告。
(5)結(jié)果反饋與優(yōu)化。為數(shù)據(jù)使用各環(huán)節(jié)提供質(zhì)量結(jié)果,系統(tǒng)依據(jù)結(jié)果反饋,設(shè)備自動對數(shù)據(jù)質(zhì)量評估結(jié)果進行動態(tài)計算,優(yōu)化數(shù)據(jù)質(zhì)量評估效果。
目前,我國的開源數(shù)據(jù)質(zhì)量研究尚處于初級階段,在理論、方法和技術(shù)上還需深入地探索和突破。生成式大模型作為新一代的人工智能技術(shù),數(shù)據(jù)主要來源于開源數(shù)據(jù),一旦數(shù)據(jù)存在錯誤,就會導致大模型輸出的準確性和公正性存在偏差,帶來大量的虛假信息,嚴重干擾分析、研判和處置結(jié)果。因此,亟須將大數(shù)據(jù)、人工智能與開源數(shù)據(jù)質(zhì)量評估體系深度結(jié)合,提升開源數(shù)據(jù)的質(zhì)量,使其真正成為網(wǎng)絡(luò)安全積極防御的倍增器。