摘 要:隨著物聯(lián)網(wǎng)的快速發(fā)展,大量的設(shè)備生成了海量的數(shù)據(jù),但同時也帶來了數(shù)據(jù)隱私和安全方面的挑戰(zhàn)??v向聯(lián)邦學(xué)習(xí)作為一種隱私保護(hù)的機(jī)器學(xué)習(xí)方法,在物聯(lián)網(wǎng)數(shù)據(jù)共享方面具有應(yīng)用潛力。然而,現(xiàn)實(shí)中存在惡意參與方可能篡改數(shù)據(jù)或提供錯誤的模型信息,導(dǎo)致出現(xiàn)使全局模型準(zhǔn)確性下降的投毒攻擊。為了應(yīng)對這一挑戰(zhàn),提出了一種基于隱私保護(hù)的縱向聯(lián)邦學(xué)習(xí)系統(tǒng)在物聯(lián)網(wǎng)數(shù)據(jù)共享中的應(yīng)用方案。深入研究了縱向聯(lián)邦學(xué)習(xí)中的SecureBoost算法,并結(jié)合物聯(lián)網(wǎng)數(shù)據(jù)共享的特點(diǎn),提出了一種能夠驗(yàn)證聚合加密模型信息完整性的方案,有效防御主動方投毒攻擊,并確保數(shù)據(jù)隱私和模型準(zhǔn)確性之間的平衡,同時通過仿真實(shí)驗(yàn)驗(yàn)證了所提方案的有效性。研究結(jié)果為應(yīng)對物聯(lián)網(wǎng)數(shù)據(jù)共享中的隱私保護(hù)和數(shù)據(jù)安全問題提供了一種新的解決方案,能夠?yàn)橥苿勇?lián)邦學(xué)習(xí)在物聯(lián)網(wǎng)領(lǐng)域的應(yīng)用提供技術(shù)支持,促進(jìn)數(shù)據(jù)合作和共享的可行性,提高物聯(lián)網(wǎng)系統(tǒng)的安全性和可信度。
關(guān)鍵詞:物聯(lián)網(wǎng);聯(lián)邦學(xué)習(xí);隱私保護(hù);數(shù)據(jù)共享;魯棒性;人工智能;機(jī)器學(xué)習(xí)
中圖分類號:TP305 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2024)09-00-04
DOI:10.16667/j.issn.2095-1302.2024.09.016
0 引 言
在物聯(lián)網(wǎng)快速發(fā)展的過程中,越來越多的設(shè)備連接到互聯(lián)網(wǎng)并生成了海量數(shù)據(jù)。這些數(shù)據(jù)潛藏著寶貴的信息,可以為各行各業(yè)帶來巨大的商業(yè)價值和創(chuàng)新機(jī)會[1]。然而,隨之而來的是數(shù)據(jù)隱私和安全的威脅問題[2-4],尤其是在涉及敏感數(shù)據(jù)和個人隱私的場景中。
縱向聯(lián)邦學(xué)習(xí)系統(tǒng)是如今比較常用的物聯(lián)網(wǎng)數(shù)據(jù)共享通信協(xié)議??v向聯(lián)邦學(xué)習(xí)(VFL)[5]作為一種分布式的機(jī)器學(xué)習(xí)框架,能夠讓多個數(shù)據(jù)擁有者(參與方)在保護(hù)數(shù)據(jù)隱私的同時協(xié)作訓(xùn)練全局模型。與傳統(tǒng)的集中式模型訓(xùn)練相比,縱向聯(lián)邦學(xué)習(xí)將模型訓(xùn)練的過程從中心服務(wù)器轉(zhuǎn)移到了各個參與方的本地設(shè)備上,避免了原始數(shù)據(jù)的明文傳輸和集中存儲,大大降低了數(shù)據(jù)泄露的風(fēng)險。
然而,現(xiàn)實(shí)中惡意參與方的存在給人們帶來了新的挑
戰(zhàn)[6]。這些參與方可能提供異?;蝈e誤的數(shù)據(jù)和模型信息,試圖破壞全局模型的準(zhǔn)確性。這種攻擊方式被稱為投毒攻擊,給縱向聯(lián)邦學(xué)習(xí)的可信度和魯棒性帶來了嚴(yán)重威脅。現(xiàn)有的研究主要集中在信任機(jī)制和加密技術(shù)上,但縱向聯(lián)邦學(xué)習(xí)中對主動方投毒攻擊的防御依然面臨巨大的挑戰(zhàn)。
本文旨在提出一種基于新型縱向聯(lián)邦學(xué)習(xí)魯棒系統(tǒng)的隱私保護(hù)物聯(lián)網(wǎng)數(shù)據(jù)共享方案,以加強(qiáng)對主動方投毒攻擊的防御。通過深入研究縱向聯(lián)邦學(xué)習(xí)的原理和框架,并結(jié)合物聯(lián)網(wǎng)數(shù)據(jù)共享的特點(diǎn),提出一種能夠驗(yàn)證聚合加密模型信息完整性的方案,以確保全局模型的準(zhǔn)確性和保護(hù)數(shù)據(jù)隱私。
1 相關(guān)技術(shù)
1.1 縱向聯(lián)邦學(xué)習(xí)框架
縱向聯(lián)邦學(xué)習(xí)的架構(gòu)可以具體描述為:假設(shè)有兩家機(jī)構(gòu)A和B想要協(xié)作訓(xùn)練一個機(jī)器學(xué)習(xí)模型[7],每個機(jī)構(gòu)都擁有各自的用戶隱私數(shù)據(jù);除此之外,B機(jī)構(gòu)還擁有模型預(yù)測任務(wù)所需的標(biāo)注數(shù)據(jù)。鑒于用戶隱私保護(hù)和數(shù)據(jù)安全等原因,A機(jī)構(gòu)和B機(jī)構(gòu)不能直接進(jìn)行數(shù)據(jù)交換;同時為了保證訓(xùn)練過程中數(shù)據(jù)的保密性,加入了一個第三方協(xié)調(diào)者C。假設(shè)C是誠實(shí)的并且不與A方或者B方共謀,A方和B方都是誠實(shí)但好奇的??尚诺牡谌綑C(jī)構(gòu)C可以由權(quán)威機(jī)構(gòu)(如政府)扮演,或者由安全計(jì)算節(jié)點(diǎn)代替。VFL系統(tǒng)的訓(xùn)練過程一般由兩個步驟組成:首先需要對齊具有相同ID但分布在不同參與方之間的樣本;然后基于對齊樣本進(jìn)行隱私保護(hù)的模型訓(xùn)練。
參與縱向聯(lián)邦學(xué)習(xí)的各方需要進(jìn)行加密實(shí)體對齊,確保A方和B方不需要暴露各自的原始數(shù)據(jù)便可以對齊共同用戶。在實(shí)體對齊期間,系統(tǒng)不會將屬于某一參與方的用戶信息暴露。實(shí)體對齊后各參與方需要進(jìn)行加密模型訓(xùn)練,訓(xùn)練步驟如下:
第一步,協(xié)調(diào)者C創(chuàng)建秘鑰對,并將公共秘鑰發(fā)送至
A方和B方。
第二步,A方和B方對中間計(jì)算結(jié)果進(jìn)行加密和交換。中間結(jié)果被用于計(jì)算梯度和損失值。
第三步,A方和B方計(jì)算加密梯度并分別加入掩碼,此外B方還會計(jì)算加密損失。A方和B方將加密結(jié)果發(fā)送到
C方。
第四步,C方對梯度和損失信息進(jìn)行解密,并將結(jié)果發(fā)送回A方和B方。A方和B方解除梯度信息上的掩碼,并根據(jù)這些梯度信息來更新參數(shù)模型。
1.2 SecureBoost算法
安全聯(lián)邦提升樹(SecureBoost算法)是縱向聯(lián)邦學(xué)習(xí)算法之一[8-9],其系統(tǒng)架構(gòu)如圖1所示。研究表明,SecureBoost算法可以在保護(hù)參與方隱私的前提下,保證訓(xùn)練模型精度不受影響。
縱向聯(lián)邦學(xué)習(xí)的參與方分為主動方和被動方兩類,主動方同時擁有樣本特征和樣本標(biāo)簽,除此之外還扮演協(xié)調(diào)者的角色,為每個提升樹節(jié)點(diǎn)計(jì)算最佳分割。被動方僅僅只是數(shù)據(jù)的提供者,只有樣本特征,沒有樣本標(biāo)簽,被動方需要和主動方共同協(xié)作構(gòu)建全局模型來達(dá)到預(yù)測標(biāo)簽的目的。SecureBoost算法的大致流程如下:首先需要在隱私保護(hù)下對參與方之間具有不同特征的重疊用戶進(jìn)行樣本對齊,即實(shí)體對齊,利用RSA算法和哈希函數(shù)求出所有參與方數(shù)據(jù)樣本的公共集合(如共同用戶)。然后A與B在保護(hù)隱私的情況下構(gòu)造一棵全局提升樹(Boost樹),通過使用K個決策樹fk的集成來預(yù)測輸出。給定一個擁有n個樣本和d個特征的數(shù)據(jù)集D={(xi, yi)},其中|D|=n,xi∈Rd,yi∈R。預(yù)測方法如式(1)所示:
(1)
決策樹集成模型的學(xué)習(xí)是通過尋找一組最佳決策樹以達(dá)到較小的分類損失,并且具有較低的模型復(fù)雜度。梯度提升樹中,通過迭代優(yōu)化真實(shí)標(biāo)簽和預(yù)測標(biāo)簽的損失來達(dá)到較小的分類損失。每一次迭代添加一棵新的樹來減小損失,第t輪
迭代目標(biāo)函數(shù)可以寫為:
(2)
式中:lloss表示損失函數(shù);和分別表示損失函數(shù)上的一階梯度和二階梯度;Ω(ft)表示新添加的樹的復(fù)雜度。
構(gòu)建決策樹從零深度開始,利用式(3)決定每個節(jié)點(diǎn)的分割閾值,直到達(dá)到最大深度。分割閾值由分割增益決定。
(3)
式中:IL和IR分別表示分割后左、右子節(jié)點(diǎn)的樣本空間;λ表示超參數(shù)。所得分?jǐn)?shù)值最大的分割即為最佳分割。當(dāng)所有節(jié)點(diǎn)的最佳分割確定后,完整的提升樹便建立好了。
然而,SecureBoost算法由于具有分布式、隱私保護(hù)的特性,使得其容易在訓(xùn)練過程中遭受投毒攻擊,這種投毒攻擊主要集中在主動方。由于主動方需要聚合各個被動方上傳的訓(xùn)練結(jié)果,并且在加密情況下發(fā)送給被動方。因此若主動方有意或無意地篡改聚合結(jié)果,那么將嚴(yán)重影響到聯(lián)邦學(xué)習(xí)訓(xùn)練過程,最終影響全局模型的效能。
1.3 縱向聯(lián)邦學(xué)習(xí)在物聯(lián)網(wǎng)中的應(yīng)用
物聯(lián)網(wǎng)作為連接各類智能設(shè)備的網(wǎng)絡(luò),涵蓋了各個領(lǐng)域的感知、通信和控制系統(tǒng)[10-12]。然而,與日俱增的智能設(shè)備和龐大的數(shù)據(jù)量給物聯(lián)網(wǎng)的數(shù)據(jù)處理和安全性提出了挑戰(zhàn)。縱向聯(lián)邦學(xué)習(xí)作為一種分布式機(jī)器學(xué)習(xí)框架,可以為物聯(lián)網(wǎng)中的數(shù)據(jù)共享和隱私保護(hù)提供解決方案[13-15]。
健康監(jiān)測和醫(yī)療領(lǐng)域:物聯(lián)網(wǎng)中的健康監(jiān)測設(shè)備可以持續(xù)收集個體的生理參數(shù)、健康狀況和醫(yī)療數(shù)據(jù)。然而,這些數(shù)據(jù)涉及個人隱私,需要采取措施進(jìn)行保護(hù)。通過應(yīng)用縱向聯(lián)邦學(xué)習(xí),醫(yī)療數(shù)據(jù)可以安全地在不同設(shè)備之間進(jìn)行共享和協(xié)作,以提高疾病預(yù)測和診斷的準(zhǔn)確性。例如,可以利用不同醫(yī)院的病人數(shù)據(jù),通過縱向聯(lián)邦學(xué)習(xí)的方式共同訓(xùn)練一個全局的疾病預(yù)測模型。每個醫(yī)院可以在本地設(shè)備上進(jìn)行模型訓(xùn)練,只共享模型參數(shù)的更新。這樣既保護(hù)了患者隱私,又能夠?yàn)檎麄€網(wǎng)絡(luò)提供更準(zhǔn)確的預(yù)測和診斷服務(wù)。
工業(yè)控制和物聯(lián)網(wǎng)設(shè)備安全:工業(yè)控制系統(tǒng)涉及到諸多關(guān)鍵設(shè)備和數(shù)據(jù),需要保證其安全性和可靠性??v向聯(lián)邦學(xué)習(xí)可以在提供數(shù)據(jù)共享功能的同時,確保工業(yè)控制系統(tǒng)的隱私和安全。例如,通過應(yīng)用縱向聯(lián)邦學(xué)習(xí),針對不同的工業(yè)控制設(shè)備可以共同訓(xùn)練一個全局的模型,從而實(shí)現(xiàn)設(shè)備運(yùn)行狀態(tài)的預(yù)測和故障檢測。由于每個參與方只共享模型參數(shù)的更新,而不共享原始數(shù)據(jù),確保了數(shù)據(jù)的隱私和機(jī)密性。
農(nóng)業(yè)智能化管理:縱向聯(lián)邦學(xué)習(xí)可用于解決農(nóng)業(yè)領(lǐng)域中的數(shù)據(jù)共享和隱私保護(hù)問題。農(nóng)業(yè)物聯(lián)網(wǎng)設(shè)備可以收集土壤濕度、氣象信息等數(shù)據(jù),以支持農(nóng)作物的灌溉和管理。例如,通過縱向聯(lián)邦學(xué)習(xí),農(nóng)業(yè)行業(yè)可以在不共享原始數(shù)據(jù)的情況下進(jìn)行模型訓(xùn)練和優(yōu)化。每個農(nóng)場或農(nóng)業(yè)設(shè)備擁有自己的數(shù)據(jù)集,并通過共享模型參數(shù)的方式進(jìn)行合作。這樣可以提高農(nóng)作物生長預(yù)測的準(zhǔn)確性、優(yōu)化灌溉方案,并降低農(nóng)業(yè)數(shù)據(jù)泄露的風(fēng)險。
縱向聯(lián)邦學(xué)習(xí)在物聯(lián)網(wǎng)中有著廣闊的應(yīng)用前景,它不僅能夠?qū)崿F(xiàn)數(shù)據(jù)的協(xié)同分析和模型優(yōu)化,還能夠保護(hù)數(shù)據(jù)隱私和提升系統(tǒng)的可靠性。然而,在應(yīng)用縱向聯(lián)邦學(xué)習(xí)時,仍需注意數(shù)據(jù)安全和隱私保護(hù)的問題,并進(jìn)一步研究如何解決設(shè)備間的差異和異構(gòu)性問題,以實(shí)現(xiàn)更加高效和可靠的物聯(lián)網(wǎng)應(yīng)用。通過對更高效的縱向聯(lián)邦學(xué)習(xí)魯棒方案的研究,可以推動物聯(lián)網(wǎng)技術(shù)的發(fā)展和普及,以提高智能設(shè)備之間的協(xié)同能力和數(shù)據(jù)隱私保護(hù)水平。
2 隱私保護(hù)的縱向聯(lián)邦學(xué)習(xí)魯棒方案
2.1 方案概述
本方案針對主動方生成的聚合加密模型進(jìn)行完整性驗(yàn)證,可防御擁有敏感信息的主動方有意或無意提供的用于生成全局模型的錯誤模型信息,以防在后續(xù)的預(yù)測工作中出現(xiàn)預(yù)測偏差從而造成損失。以此提高聯(lián)邦學(xué)習(xí)系統(tǒng)的魯棒性與聚合結(jié)果的可信度。
本方案的整體架構(gòu)如圖2所示,方案實(shí)現(xiàn)涉及主動方、被動方以及可信第三方??尚诺谌缴擅荑€并分發(fā)給主動方及被動方;主動方加密Boost樹梯度信息,并將加密結(jié)果發(fā)送給被動方,同時對加密的Boost樹梯度信息進(jìn)行同態(tài)哈希加密后發(fā)送給可信第三方;被動方根據(jù)特征維度對接收到的加密梯度信息進(jìn)行聚合,然后將聚合結(jié)果進(jìn)行同態(tài)哈希并發(fā)送給可信第三方;可信第三方聚合所有被動方發(fā)送的信息,然后驗(yàn)證主動方發(fā)送的加密Boost樹梯度信息和被動方信息聚合結(jié)果是否一致,如果一致則完整性驗(yàn)證通過,否則驗(yàn)證不通過;可信第三方將驗(yàn)證結(jié)果發(fā)送至主動方和被動方,如果接收到通過驗(yàn)證的結(jié)果,主動方和被動方繼續(xù)進(jìn)行后續(xù)計(jì)算,否則,結(jié)束當(dāng)前訓(xùn)練過程,重新開始本輪訓(xùn)練,確保最終得到的全局模型的完整性,即全局模型由未被篡改的信息計(jì)算得到。
2.2 系統(tǒng)假設(shè)
(1)本文所提方案中,縱向聯(lián)邦學(xué)習(xí)系統(tǒng)由主動方、被動方和可信第三方組成。主動方擁有有標(biāo)簽的樣本數(shù)據(jù),負(fù)責(zé)計(jì)算每個決策樹節(jié)點(diǎn)的最佳分割點(diǎn)。被動方只擁有無標(biāo)簽的樣本數(shù)據(jù)??尚诺谌阶鳛橥耆\實(shí)的一方,負(fù)責(zé)對主動方和被動方傳輸?shù)臄?shù)據(jù)進(jìn)行同態(tài)加密下的完整性
驗(yàn)證。
(2)敵手模型。假設(shè)攻擊者可能會產(chǎn)生的惡意行為有如下幾種:主動方為節(jié)省資源不進(jìn)行聚合操作,生成隨機(jī)數(shù)代替聚合結(jié)果;主動方通過在聚合結(jié)果中加入噪聲達(dá)到影響最終聚合結(jié)果的目的;主動方為節(jié)省資源隨機(jī)選取一個被動方的數(shù)據(jù)進(jìn)行倍乘后替代聚合結(jié)果。
(3)安全目標(biāo)。針對上述攻擊者的惡意行為(主動方提供篡改的聚合結(jié)果),所提方案能夠準(zhǔn)確地驗(yàn)證主動方的聚合結(jié)果是否是基于各被動方所提供的數(shù)據(jù)計(jì)算得到的,若檢測到主動方聚合結(jié)果被篡改,將及時停止模型訓(xùn)練過程,并通知各個參與方,防止被篡改的主動方聚合結(jié)果被用于最終全局模型的生成。
2.3 方案步驟
步驟1:可信第三方生成(δ, ρ)作為同態(tài)哈希函數(shù)中的秘鑰,并將其發(fā)送至主動方和各被動方,其中δ和ρ是在有限域Zq中隨機(jī)選擇的私鑰。主動方和被動方接收可信第三方發(fā)送的秘鑰。
步驟2:主動方計(jì)算各樣本對應(yīng)的gi和hi,i∈{1, 2, ..., N},其中N為數(shù)據(jù)樣本數(shù)量,然后使用加法同態(tài)加密對其進(jìn)行加密,將加密后的gi和hi發(fā)送給被動方。
步驟3:每個被動方根據(jù)當(dāng)前節(jié)點(diǎn)樣本空間中樣本的特征計(jì)算得到l個分位點(diǎn)Sk={sk1, sk2, ..., skl};然后根據(jù)這些分位點(diǎn)將當(dāng)前節(jié)點(diǎn)樣本映射到對應(yīng)的區(qū)間內(nèi);對于每個特征k和每個分位點(diǎn)v,在樣本空間中選取所有滿足xi, k落在第v個和第v-1個分位點(diǎn)之間的樣本實(shí)例i,并對這些樣本實(shí)例對應(yīng)的gi和hi求和,再通過同態(tài)加密函數(shù)進(jìn)行同態(tài)加密,得到加密后的梯度值Gkv和Hkv;最后將每個特征k對應(yīng)的所有Gkv和Hkv放入向量Gi和Hi中,返回這兩個向量并作為輸出發(fā)送給主動方與可信第三方。
步驟4:主動方接收到被動方發(fā)送的聚合加密梯度統(tǒng)計(jì)信息后,對各被動方聚合的梯度進(jìn)行解密,可以計(jì)算得到各節(jié)點(diǎn)對應(yīng)特征的最佳分割點(diǎn)。在此過程中,對生成的gl和hl進(jìn)行同態(tài)哈希加密,計(jì)算得到和,發(fā)送HF(gl)與HF(hl)至可信第三方,最后將最佳分割點(diǎn)對應(yīng)信息(kopt和vopt)返回被動方。計(jì)算最佳分割點(diǎn)的過程整體為三層遍歷,分別為遍歷所有參與方、參與方所有特征以及特征的所有分割點(diǎn);然后主動方針對每個分割點(diǎn),計(jì)算其信息增益,最后選擇信息增益最大的分割點(diǎn)為最優(yōu)分割點(diǎn)并輸出。可信第三方通過對比HF(gl)=HF(Gikv)、HF(hl)=HF(Hikv)是否成立來驗(yàn)證主動方的中間計(jì)算結(jié)果(加密梯度)的完整性,最后將驗(yàn)證結(jié)果返回各參與方。
步驟5:被動方根據(jù)主動方發(fā)送的kopt和vopt確定相應(yīng)特征的閾值(IL),根據(jù)閾值對樣本空間進(jìn)行劃分。然后,被動方在查找表中記錄該特征的閾值,形成記錄[記錄id,特征,IL],并將記錄id和IL返回給主動方。
步驟6:主動方根據(jù)收到的[記錄id,IL]對提升樹的對應(yīng)節(jié)點(diǎn)進(jìn)行劃分,并將該節(jié)點(diǎn)與相應(yīng)的[參與方id,記錄id]信息關(guān)聯(lián)。然后將節(jié)點(diǎn)的劃分信息與所有被動方同步。
重復(fù)上述所有操作便可獲得一棵完整的決策樹,對每個特征都執(zhí)行一次上述算法,得到所有特征對應(yīng)的決策樹。
3 實(shí)驗(yàn)與分析
實(shí)驗(yàn)硬件平臺:惠普筆記本電腦,2.8 GHz的4 核 8 線程 Intel i7 處理器,8 GB內(nèi)存;虛擬機(jī)系統(tǒng)為Centos7,分配內(nèi)存為4 GB。實(shí)驗(yàn)軟件平臺:Federated AI Technology Enabler(FATE),F(xiàn)ATE是由微眾銀行人工智能項(xiàng)目組發(fā)起的一個開源項(xiàng)目,該項(xiàng)目提供了一個安全的計(jì)算框架和聯(lián)邦學(xué)習(xí)平臺。
本次實(shí)驗(yàn)主要基于FATE內(nèi)部自帶的縱向聯(lián)邦學(xué)習(xí)數(shù)據(jù)集進(jìn)行,訓(xùn)練集和測試集中分別含有569個樣本。本次實(shí)驗(yàn)主要由兩部分組成:第一部分為無異常行為的縱向聯(lián)邦學(xué)習(xí)模型訓(xùn)練下的異常檢測;第二部分為主動方存在異常行為的異常檢測。
實(shí)驗(yàn)中將異常行為設(shè)置為如下3種情形:主動方為節(jié)省資源不進(jìn)行聚合操作,生成隨機(jī)數(shù)代替聚合結(jié)果;主動方通過在聚合結(jié)果中加入噪聲達(dá)到影響最終聚合結(jié)果的目的;主動方為節(jié)省資源隨機(jī)選取一個被動方的數(shù)據(jù)倍乘后替代聚合結(jié)果。
從表1中的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在攻擊者沒有異常行為的情況下可以得出正確的驗(yàn)證結(jié)果,并且能夠順利完成模型的訓(xùn)練。在面對列舉的3種不同攻擊方式時,本文所提方案均能夠成功檢測出主動方的異常行為,并及時停止模型的訓(xùn)練,及時避免錯誤信息對模型預(yù)測精確度產(chǎn)生的影響。由此可以證明本文所提方案是行之有效的,可以有效地檢測出影響實(shí)驗(yàn)結(jié)果的異常行為,并及時終止實(shí)驗(yàn),避免造成更大的實(shí)驗(yàn)損耗。
表2展示了不同異常行為下驗(yàn)證模塊的運(yùn)行時間和模型訓(xùn)練總時間。由于本實(shí)驗(yàn)設(shè)置一旦檢測到異常行為,立刻終止模型訓(xùn)練,所以出現(xiàn)異常情況時模型訓(xùn)練總時間按照未出現(xiàn)異常時的訓(xùn)練總時間來計(jì)算。從表2中可以發(fā)現(xiàn),驗(yàn)證模塊驗(yàn)證所花時間占比均在0.3%以下。顯然,本文所提出的驗(yàn)證方案對縱向聯(lián)邦學(xué)習(xí)SecureBoost模型整體訓(xùn)練開銷的影響微乎其微,不會對模型訓(xùn)練的效率產(chǎn)生明顯的影響。因此,本文所提方案具有可行性、有效性,且不影響
效率。
4 結(jié) 語
本文結(jié)合物聯(lián)網(wǎng)數(shù)據(jù)共享的特點(diǎn),提出了一種能夠驗(yàn)證聚合加密模型信息完整性的方案,有效防御主動方投毒攻擊,并確保數(shù)據(jù)隱私和模型準(zhǔn)確性之間的平衡,同時通過仿真實(shí)驗(yàn)驗(yàn)證了所提方案的有效性。本研究為應(yīng)對物聯(lián)網(wǎng)數(shù)據(jù)共享中的隱私保護(hù)和數(shù)據(jù)安全問題提供了一種新的解決方案,提高了物聯(lián)網(wǎng)中數(shù)據(jù)合作和共享的可行性。
然而在實(shí)際運(yùn)用中仍然存在攻擊者放棄攻擊主動方,對被動方計(jì)算信息進(jìn)行篡改的情況。如果攻擊者對被動方實(shí)施攻擊,那么本文所提方案中的第三方可信機(jī)構(gòu)將無法對驗(yàn)證結(jié)果做出正確的判斷。因此,后續(xù)將提出更加全面、有效的聯(lián)邦學(xué)習(xí)投毒攻擊防御機(jī)制,提高聯(lián)邦學(xué)習(xí)系統(tǒng)的安全性,進(jìn)而提高物聯(lián)網(wǎng)系統(tǒng)的安全性和可信度。
參考文獻(xiàn)
[1]張應(yīng)福. 物聯(lián)網(wǎng)技術(shù)與應(yīng)用[J]. 通信與信息技術(shù),2010,40(1):50-53.
[2]錢萍,吳蒙. 物聯(lián)網(wǎng)隱私保護(hù)研究與方法綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2013,30(1):13-20.
[3]董曉蕾. 物聯(lián)網(wǎng)隱私保護(hù)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展,2015,52(10):2341-2352.
[4]張玉清,周威,彭安妮. 物聯(lián)網(wǎng)安全綜述[J]. 計(jì)算機(jī)研究與發(fā)展,2017,54(10):2130-2143.
[5]周傳鑫,孫奕,汪德剛,等. 聯(lián)邦學(xué)習(xí)研究綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報,2021,7(5):77-92.
[6]陳晉音,李榮昌,黃國瀚,等. 縱向聯(lián)邦學(xué)習(xí)方法及其隱私和安全綜述[J]. 網(wǎng)絡(luò)與信息安全學(xué)報,2023,9(2):1-20.
[7]石聰聰,高先周,黃秀麗,等.聯(lián)邦學(xué)習(xí)隱私模型發(fā)布綜述[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2022,14(2):127-136.
[8] CHENG K,F(xiàn)AN T,JIN Y,et al. Secureboost:a lossless federated learning framework [J]. IEEE intelligent systems,2021,36(6):87-98.
[9] CHEN W,MA G,F(xiàn)AN T,et al. Secureboost+:a high performance gradient boosting tree framework for large scale vertical federated learning [EB/OL]. [2023-07-27]. https://api.semanticscholar.org/CorpusID:239050552.
[10]錢志鴻,王義君. 物聯(lián)網(wǎng)技術(shù)與應(yīng)用研究[J].電子學(xué)報,2012,40(5):1023-1029.
[11]劉強(qiáng),崔莉,陳海明. 物聯(lián)網(wǎng)關(guān)鍵技術(shù)與應(yīng)用[J].計(jì)算機(jī)科學(xué),2010,47(6):1-4.
[12]鄔賀銓.物聯(lián)網(wǎng)的應(yīng)用與挑戰(zhàn)綜述[J].重慶郵電大學(xué)學(xué)報(自然科學(xué)版),2010,22(5):526-531.
[13]謝豐,卞建玲,王楠,等. 聯(lián)邦學(xué)習(xí)在泛在電力物聯(lián)網(wǎng)人工智能領(lǐng)域的應(yīng)用[J].中國高新科技,2019,3(23):18-21.
[14]李少波,楊磊,李傳江,等.聯(lián)邦學(xué)習(xí)概述:技術(shù)、應(yīng)用及未來[J].計(jì)算機(jī)集成制造系統(tǒng),2022,28(7):2119-2138.
[15]王飛躍,王艷芬,陳薏竹,等. 聯(lián)邦生態(tài):從聯(lián)邦數(shù)據(jù)到聯(lián)邦智能[J]. 智能科學(xué)與技術(shù)學(xué)報,2020,2(4):305-313.
收稿日期:2023-07-27 修回日期:2023-08-28
作者簡介:苗 可(2002—),男,研究方向?yàn)槲锫?lián)網(wǎng)、聯(lián)邦學(xué)習(xí)。