摘"要:針對大數(shù)據(jù)維度高、數(shù)據(jù)量龐大的特點,實際應(yīng)用中大數(shù)據(jù)全鏈路追溯算法常面臨性能不佳的挑戰(zhàn)。為此,提出了一種結(jié)合自檢機器人與關(guān)聯(lián)規(guī)則的優(yōu)化算法。對采集的大數(shù)據(jù)實施數(shù)據(jù)歸約與降維操作,隨后分析其特征。通過計算特征的支持度、置信度及提升度,確立特征間的關(guān)聯(lián)規(guī)則。計算節(jié)點綜合度量值,識別關(guān)鍵節(jié)點,初步勾勒大數(shù)據(jù)全鏈路追溯路徑。引入自檢機器人,實時監(jiān)控追溯過程,并評估追溯路徑節(jié)點與實際節(jié)點的匹配度。若匹配度不足,及時修正,確保最終追溯路徑的準確性。實驗結(jié)果顯示,該算法在實際應(yīng)用中表現(xiàn)出優(yōu)越的追溯性能。
關(guān)鍵詞:自檢機器人;關(guān)聯(lián)規(guī)則;大數(shù)據(jù);全鏈路;數(shù)據(jù)追溯;追溯算法;算法設(shè)計
中圖分類號:TP309.2""""""文獻標識碼:A
A"Big"Data"Full"Link"Traceability"Algorithm"Using"
Self"Checking"Robots"and"Association"Rules
LI"Mingxia1,WANG"Hesen2,ZHAO"Xin2,LIU"Jiayin2
(1.Xinjiang"Electric"Power"Research"Institute"State"Grid,"Urumqi,"Xinjiang"830000,China;
2.Marketing"Service"Center,"State"Grid"Xinjiang"Electric"Power"Co.,"Ltd.,Urumqi,"Xinjiang"830000,China)
Abstract:Due"to"the"high"dimensionality"and"large"amount"of"data"in"big"data,"the"full"chain"traceability"algorithm"of"big"data"often"faces"the"challenge"of"poor"performance"in"practical"applications."Therefore,"this"article"proposes"an"optimization"algorithm"that"combines"self"checking"robots"with"association"rules."Implement"data"reduction"and"dimensionality"reduction"operations"on"the"collected"big"data,"and"then"analyze"its"characteristics."By"calculating"the"support,"confidence,"and"enhancement"of"features,"establish"association"rules"between"features."Calculate"the"comprehensive"measurement"value"of"nodes,"identify"key"nodes,"and"preliminarily"outline"the"traceability"path"of"the"entire"big"data"chain."Introduce"self"checking""robots"to"monitor"the"traceability"process"in"real"time"and"evaluate"the"matching"degree"between"the"traceability"path"node"and"the"actual"node."If"the"matching"degree"is"insufficient,"make"timely"corrections"to"ensure"the"accuracy"of"the"final"traceability"path."The"experimental"results"show"that"the"algorithm"exhibits"superior"traceability"performance"in"practical"applications.
Key"words:self"checking"robot;"association"rules;"big"data;"full"link;"data"traceability;"traceability"algorithm;"algorithm"design
在眾多行業(yè)中,從金融交易、醫(yī)療健康到物流運輸,大數(shù)據(jù)的應(yīng)用已經(jīng)無處不在,深刻地改變了人們的生活方式和企業(yè)的運營模式。然而,隨著數(shù)據(jù)量的激增,如何高效、準確地管理和利用這些數(shù)據(jù),成為了一個亟待解決的問題。特別是在數(shù)據(jù)的安全性和可追溯性方面,更是受到了廣泛的關(guān)注[1]。然而,由于數(shù)據(jù)量過于龐大,現(xiàn)有的溯源方法僅能對單一數(shù)據(jù)源進行追溯,且數(shù)據(jù)追溯效率不高、準確性較低,難以滿足數(shù)據(jù)溯源的實時需求。
因此,不少研究學者針對這一問題展開了研究,并對自己的觀點進行了闡述。文獻[2]先對電網(wǎng)多源時空數(shù)據(jù)進行建模,明確數(shù)據(jù)的來源、類型等關(guān)鍵信息,設(shè)計有限狀態(tài)機模型,明確狀態(tài)轉(zhuǎn)移的條件和路徑,利用區(qū)塊鏈技術(shù),構(gòu)建電源多源時空數(shù)據(jù)的追溯系統(tǒng),根據(jù)數(shù)據(jù)的哈希值定位數(shù)據(jù)位置,由此得到數(shù)據(jù)的轉(zhuǎn)移路徑,從而完成對數(shù)據(jù)的追溯。該方法應(yīng)用的區(qū)塊鏈技術(shù)具有不可篡改性和去中心化的特點,其數(shù)據(jù)存儲和查詢效率較低,無法滿足數(shù)據(jù)的實時追溯需求。文獻[3]收集新能源汽車在運行過程中的故障數(shù)據(jù),并對其進行標準化處理,再從中提取出能夠表征故障特征的參數(shù)和指標,并對故障進行分析,識別出不同的故障類型,在機器學習的作用下,建立故障類型與運行性能參數(shù)之間的映射關(guān)系,實現(xiàn)對故障類型的自動追溯。該方法需要處理大量的故障數(shù)據(jù),會消耗大量的計算資源,方法的追溯時間較長。文獻[4]先收集與特定數(shù)據(jù)源相關(guān)的所有信息,并對數(shù)據(jù)項進行標記,設(shè)計一個分布式區(qū)塊鏈網(wǎng)絡(luò),并對不同的區(qū)塊進行定義,且計算區(qū)塊的哈希值,定義數(shù)據(jù)溯源的邏輯和規(guī)則,將收集到的數(shù)據(jù)存儲到區(qū)塊鏈,利用哈希值及數(shù)據(jù)驗證機制對數(shù)據(jù)進行溯源。該方法在數(shù)據(jù)溯源的過程中,很容易出現(xiàn)數(shù)據(jù)泄露的情況,從而影響到溯源結(jié)果的準確性。文獻[5]先對工業(yè)物聯(lián)網(wǎng)的數(shù)據(jù)進行詳細建模,精確數(shù)據(jù)的屬性和結(jié)構(gòu),設(shè)計一個分布式區(qū)塊鏈網(wǎng)絡(luò),對數(shù)據(jù)進行存儲和分析,識別數(shù)據(jù)的內(nèi)在規(guī)律和特征,利用智能合約,對數(shù)據(jù)進行查詢,并設(shè)計數(shù)據(jù)驗證機制,確保數(shù)據(jù)的安全性,并輸出相應(yīng)的溯源結(jié)果。該方法應(yīng)用的區(qū)塊鏈技術(shù)在實際應(yīng)用中吞吐量較低,若需要進行處理的數(shù)據(jù)量過于龐大,區(qū)塊鏈將會無法滿足其實時處理的需求,導致數(shù)據(jù)溯源效率低下。
在以往研究的基礎(chǔ)上,應(yīng)用自檢機器人與關(guān)聯(lián)規(guī)則的大數(shù)據(jù)全鏈路追溯算法。本研究深入探討大數(shù)據(jù)追溯的算法原理和實現(xiàn)方法,為相關(guān)領(lǐng)域的研究提供新的思路和方法。
1"大數(shù)據(jù)全鏈路追溯算法設(shè)計
1.1"大數(shù)據(jù)全鏈路特征分析
在對大數(shù)據(jù)進行全鏈路溯源時,需要先從各個數(shù)據(jù)源獲取大量的數(shù)據(jù),并對獲取的數(shù)據(jù)進行優(yōu)化處理。在優(yōu)化處理時,先對其進行異常值識別,這個過程中需要設(shè)定數(shù)據(jù)屬性值范圍,若出現(xiàn)數(shù)據(jù)屬性值不在該范圍內(nèi),則說明當前數(shù)據(jù)為異常數(shù)據(jù),需要直接剔除[6]。
在數(shù)據(jù)優(yōu)化處理時,還需要對其進行數(shù)據(jù)歸約和降維處理[7]。其具體處理過程如下所示:
x′i=xi-kakb
yi=x′i×Ck|x′i|×pc(1)
式中,x′i表示數(shù)據(jù)歸約的結(jié)果,xi表示原始的數(shù)據(jù),ka表示原始數(shù)據(jù)的均值,kb表示原始數(shù)據(jù)的標準差,yi表示數(shù)據(jù)降維處理的結(jié)果,Ck表示數(shù)據(jù)協(xié)方差矩陣,pc表示數(shù)據(jù)的時間序列值。
將數(shù)據(jù)進行優(yōu)化處理后,對大數(shù)據(jù)進行特征分析[8]。其具體分析過程如下所示:
Kix=A(xi)‖B(xi)‖C(xi)‖D(xi)‖E(xi)
Kjx=K1x+K2x+…+KNxN×δx×|yi|(2)
式中,Kix表示數(shù)據(jù)xi的自身中心特征,Axi表示數(shù)據(jù)的度中心性,Bxi表示數(shù)據(jù)的介數(shù)中心性,Cxi表示數(shù)據(jù)的接近中心性,Dxi表示數(shù)據(jù)的復(fù)合中心性,Exi表示數(shù)據(jù)的特征向量中心性,Kjx表示數(shù)據(jù)xi鄰近數(shù)據(jù)xj的特征,N表示數(shù)據(jù)xi的數(shù)量,δx表示數(shù)據(jù)的狀態(tài)量。
1.2"應(yīng)用關(guān)聯(lián)規(guī)則的大數(shù)據(jù)全鏈路追溯節(jié)點確定
利用關(guān)聯(lián)規(guī)則,識別出大數(shù)據(jù)全鏈路追溯的關(guān)鍵節(jié)點,由此確定大數(shù)據(jù)全鏈路追溯路徑[9]?;跀?shù)據(jù)特征,先建立數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則[10]。在建立關(guān)聯(lián)規(guī)則時,需要計算數(shù)據(jù)特征間的支持度、置信度和提升度[11]。其具體計算過程如下所示:
S(Kix→Kjx)=P(Kix∪Kjx)Pt
C(Kix→Kjx)=P(Kix∪Kjx)P(Kix)
L(Kix→Kjx)=P(Kix∪Kjx)P(Kix)P(Kjx)(3)
式中,S(Kix→Kjx)表示數(shù)據(jù)特征的支持度,P(Kix∪Kjx)表示特征Kix和特征Kjx同時出現(xiàn)的概率,Pt"表示所有數(shù)據(jù)特征出現(xiàn)的概率,C(Kix→Kjx)表示數(shù)據(jù)特征的置信度,P(Kix)表示特征Kix出現(xiàn)的概率,L(Kix→Kjx)表示數(shù)據(jù)特征的提升度,P(Kjx)表示特征Kjx出現(xiàn)的概率。
在建立數(shù)據(jù)關(guān)聯(lián)規(guī)則的過程中,基于支持度、置信度和提升度[12],若S(Kix→Kjx)高于所設(shè)閾值,則當前數(shù)據(jù)特征為頻繁特征,可以將其作為重要的關(guān)聯(lián)指標。從頻繁特征集中篩選出滿足置信度閾值和提升度閾值的特征,構(gòu)建相應(yīng)的關(guān)聯(lián)規(guī)則,逐一識別數(shù)據(jù)追溯過程中的關(guān)鍵節(jié)點。
計算節(jié)點的綜合度量值[13]:
Kp=αSS+αCC+αLLδpS+C+L"(4)
式中,Kp表示節(jié)點綜合度量值,αS、αC、αL分別表示節(jié)點數(shù)據(jù)特征支持度、置信度和提升度對應(yīng)的權(quán)重占比,δp表示節(jié)點的關(guān)聯(lián)系數(shù)。
根據(jù)計算的Kp確定大數(shù)據(jù)全鏈路追溯關(guān)鍵節(jié)點,為后續(xù)的數(shù)據(jù)追溯路徑確定奠定基礎(chǔ)。
1.3"應(yīng)用自檢機器人的大數(shù)據(jù)全鏈路追溯路徑
確定關(guān)鍵節(jié)點后,對關(guān)鍵節(jié)點進行擬合,再結(jié)合數(shù)據(jù)的變化趨勢和特征屬性,初步確定大數(shù)據(jù)全鏈路追溯路徑[14]:
Lz=κ[σ(xi)Wc+Bc]×Kp×Pc
Pc=ep∑cep
σ(xi)=mi⊙xmi⊙η[E(v)Wc+Bc](5)
式中,Lz表示大數(shù)據(jù)全鏈路追溯路徑,κ表示損失平衡系數(shù),σxi表示分類函數(shù),Wc表示權(quán)重矩陣,Bc表示誤差矩陣,Pc表示數(shù)據(jù)源判斷函數(shù),c表示數(shù)據(jù)類別,p表示數(shù)據(jù)類型概率值,mi表示平衡因子,xmi表示節(jié)點維度值,η表示節(jié)點異質(zhì)特征,E(v)表示路徑差異性值。
考慮到式(5)生成的追溯路徑可能會受到環(huán)境因素的影響,為提高追溯路徑的可靠性,應(yīng)用自檢機器人,對大數(shù)據(jù)全鏈路追溯路徑進行實時修正,從而得到最終的追溯路徑。其數(shù)據(jù)追溯路徑確定的具體過程如圖1所示。
圖1"應(yīng)用自檢機器人的大數(shù)據(jù)全鏈路
追溯路徑確定的具體過程
如圖1所示,利用自檢機器人,實時監(jiān)測大數(shù)據(jù)的溯源過程,自檢機器人能夠不斷感知環(huán)境,并計算溯源路徑節(jié)點與實際路徑節(jié)點之間的匹配度,若匹配度不高,則需要對其進行修正處理,反之,則不需要修正[15]。在該過程中,利用自檢機器人計算追溯路徑節(jié)點與實際節(jié)點之間的匹配度,從而確定最終的追溯路徑。應(yīng)用自檢機器人計算節(jié)點匹配度的具體過程如下所示:
Sd=∑ni=1LizRi∑ni=1(Liz)2∑ni=1(Ri)2(6)
式中,Sd表示追溯路徑節(jié)點與實際路徑節(jié)點之間的匹配度,Liz表示確定的追溯路徑的第i個節(jié)點,Ri表示實際路徑的第i個節(jié)點,Pk表示自檢機器人的參數(shù)。
若計算的匹配度低于設(shè)定的閾值,則需要對其進行修正。得到最終的追溯路徑如下所示:
L′z=Lz×βc×zk×lkfc×zm(7)
式中,L′z表示最終的數(shù)據(jù)追溯路徑,βc表示修正系數(shù),zk表示追溯路徑的誤差值,lk表示追溯路
徑更新參數(shù),fc表示追溯路徑當前狀態(tài)值,zm表示自檢機器人的調(diào)整參數(shù)。
利用公式,實現(xiàn)對大數(shù)據(jù)全鏈路的追溯,以便更好地實現(xiàn)對各種類型數(shù)據(jù)的定位。至此,應(yīng)用自檢機器人和關(guān)聯(lián)規(guī)則的大數(shù)據(jù)全鏈路追溯算法的設(shè)計完成。
2"實驗
硬件環(huán)境如下:Intel"Xeon"W-2133處理器,主頻3.6"GHz,32"GB"DDR4"ECC內(nèi)存,1"TB"NVMe"SSD硬盤,Cisco"Meraki"MR33路由器。
軟件環(huán)境如下:MATLAB"R2023a編程軟件,ROS機器人操作系統(tǒng),Visual"Studio"Code文本編輯工具,PostgreSQL數(shù)據(jù)庫管理系統(tǒng)等。
應(yīng)用的自檢機器人型號為ZRAutoInspect01,技術(shù)參數(shù)見表1。
設(shè)S(Kix→Kjx)閾值為0.05,C(Kix→Kjx)閾值為0.7,L(Kix→Kjx)閾值為0.5,迭代次數(shù)為100,平衡因子mi為0.88,損失平衡系數(shù)κ為0.45,修正系數(shù)βc為0.96,追溯路徑更新參數(shù)lk為4.88。
所用數(shù)據(jù)集為公開數(shù)據(jù)集,該數(shù)據(jù)集數(shù)據(jù)類型多樣,包含用戶行為數(shù)據(jù)、環(huán)境數(shù)據(jù)、機器人狀態(tài)數(shù)據(jù)等,數(shù)據(jù)總量達到了236954條。計算出多個節(jié)點的綜合度量值,如表2所示。
本文算法為算法1,基于有限狀態(tài)機的電網(wǎng)多源時空數(shù)據(jù)的區(qū)塊鏈追溯方法研究為算法2,新能源汽車運行故障數(shù)據(jù)分析與自動追溯模型研究為算法3。利用三種算法進行追溯,得到其追溯路徑,計算其追溯結(jié)果的AUC值,若AUC值越接近于1,則算法的追溯性能越好,如圖2所示。
如圖2所示,算法1的AUC值遠高于其余兩種算法,且更為接近1,說明其能夠準確地對數(shù)據(jù)變化趨勢進行判斷,追溯性能較好。算法2和算法3的AUC值數(shù)值較小,追溯性能較差。
以覆蓋率為評價指標,即算法追溯到信息占總信息的比例,驗證具體追溯結(jié)果,如表3所示。
如表3所示,算法1的覆蓋率遠高于其余兩種算法,說明其在追溯過程中,能夠準確識別路徑中的關(guān)鍵節(jié)點,保證節(jié)點信息的獲取,追溯性能較好。
3"結(jié)"論
本研究將自檢機器人的自動化檢測能力與關(guān)聯(lián)規(guī)則的深度挖掘相結(jié)合,對大數(shù)據(jù)全鏈路進行了精準追溯,不僅能夠快速定位數(shù)據(jù)流向,還能揭示數(shù)據(jù)之間的潛在關(guān)聯(lián),為決策者提供有力支持。在數(shù)據(jù)安全領(lǐng)域,這一算法有助于及時發(fā)現(xiàn)潛在風險,確保數(shù)據(jù)的安全性和完整性;在業(yè)務(wù)管理領(lǐng)域,可以優(yōu)化流程,提高運營效率。
參考文獻
[1]"張勇,王藝博,張進偉,等."基于區(qū)塊鏈的電網(wǎng)調(diào)控數(shù)據(jù)溯源技術(shù)研究[J]."電力信息與通信技術(shù),"2023,"21"(11):"70-76.
[2]"谷志紅,趙進斌,王正,等."基于有限狀態(tài)機的電網(wǎng)多源時空數(shù)據(jù)的區(qū)塊鏈追溯方法研究[J]."電網(wǎng)與清潔能源,"2024,"40"(4):"9-17.
[3]"阮永嬌,陳昕,孫承臻,等."新能源汽車運行故障數(shù)據(jù)分析與自動追溯模型研究[J]."遼寧工業(yè)大學學報(自然科學版),"2022,"42"(5):"316-319."
[4]"楊葉芬,何擁軍."大數(shù)據(jù)視域下區(qū)塊鏈技術(shù)在數(shù)據(jù)溯源中的應(yīng)用探究[J]."長江信息通信,"2024,"37"(3):"148-151.
[5]"李煥."基于區(qū)塊鏈的工業(yè)互聯(lián)網(wǎng)數(shù)據(jù)溯源技術(shù)實現(xiàn)[J]."自動化與儀器儀表,"2024,"42(1):"89-92+98.
[6]"常雨晴,賀婉朦,周璐瑤,等."基于智能合約和霧計算的醫(yī)療數(shù)據(jù)可追溯加密方案[J]."信息安全研究,"2024,"10"(6):"554-560.
[7]"張華,楊靈運,谷牧,等.nbsp;基于標識編碼的工業(yè)產(chǎn)品數(shù)據(jù)全程可信追溯研究"[J]."儀器儀表標準化與計量,"2024,"14(1):5-8.
[8]"王民濤,陳立釗."基于區(qū)間型數(shù)據(jù)離散化算法的電力應(yīng)急物資供應(yīng)質(zhì)量可追溯模型研究[J]."機械設(shè)計與制造工程,"2024,"53"(2):"130-134.
[9]"田宏明."電加熱爐變電設(shè)備運行質(zhì)量安全數(shù)據(jù)追溯方法設(shè)計[J]."工業(yè)加熱,"2023,"52"(11):"43-47.
[10]"胡牛平,景征駿,史培中,等."基于區(qū)塊鏈的ETO型企業(yè)生產(chǎn)過程溯源系統(tǒng)研究[J]."科技和產(chǎn)業(yè),"2023,"23"(11):"120-128.
[11]"顧斌,鄒云峰,單超,等."基于數(shù)字水印的電力數(shù)據(jù)安全分發(fā)與溯源技術(shù)研究"[J]."信息技術(shù),"2023,"35(11):"99-104.
[12]"吳敏,張明達,李盼盼,等."面向多源遙感影像數(shù)據(jù)的溯源模型研究[J]."地球信息科學學報,"2023,"25"(7):"1325-1335.
[13]"景一佳,童一飛,趙建波."基于區(qū)塊鏈的軍事物資質(zhì)量信息溯源系統(tǒng)的設(shè)計與研究[J]."機械設(shè)計與制造工程,"2023,"52"(6):"113-118.
[14]"徐濱,翁年鳳,樊樹海,等."面向大規(guī)模定制的制造業(yè)領(lǐng)域數(shù)據(jù)溯源模型研究[J]."機床與液壓,"2023,"51"(8):"1-7.
[15]"王瑩,穆力,宋繼紅,等."基于區(qū)塊鏈技術(shù)的光伏扶貧資金精準溯源方法[J]."電力大數(shù)據(jù),"2022,"25"(12):"69-76.