傅思敏 王 健 鹿全禮 趙陽(yáng)陽(yáng)
1(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院 北京 100044)
2(山東正中信息技術(shù)股份有限公司 濟(jì)南 250014)
3(山東省數(shù)字化應(yīng)用科學(xué)研究院有限公司 濟(jì)南 250102)
(972846267@qq.com)
準(zhǔn)確高效的交通流量預(yù)測(cè)對(duì)于幫助交通管理機(jī)構(gòu)緩解交通擁堵,幫助大眾規(guī)劃路線、高效出行具有重要意義.由于交通流量的隨機(jī)性和非線性,準(zhǔn)確實(shí)時(shí)的交通流量預(yù)測(cè)仍然是一個(gè)挑戰(zhàn).近年來(lái),學(xué)者們嘗試用深度學(xué)習(xí)來(lái)解決這一時(shí)間序列預(yù)測(cè)問(wèn)題,并取得了較好的效果[1-3].在基于深度學(xué)習(xí)的方法中,循環(huán)神經(jīng)網(wǎng)絡(luò)被證實(shí)比一些常用的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更好的性能.例如,2016年文獻(xiàn)[4]首次使用門(mén)控循環(huán)單元(gated recurrent unit, GRU)神經(jīng)網(wǎng)絡(luò)對(duì)交通流量數(shù)據(jù)進(jìn)行集中式訓(xùn)練與預(yù)測(cè),并且取得了較好的效果.
然而,現(xiàn)實(shí)情況并非那么理想.目前國(guó)內(nèi)大部分城市智能交通往往由幾個(gè)機(jī)構(gòu)同時(shí)負(fù)責(zé),數(shù)據(jù)通常存儲(chǔ)在機(jī)構(gòu)本地.由于利益沖突以及企業(yè)之間的壁壘等,數(shù)據(jù)不能互聯(lián)互通,形成了“數(shù)據(jù)孤島”.此外,交通監(jiān)測(cè)數(shù)據(jù)往往來(lái)自于傳統(tǒng)攝像頭圖像采集、車載GPS設(shè)備采集等,這些信息本身就存在侵害大眾隱私的風(fēng)險(xiǎn)[5],采取集中存儲(chǔ)方式也不妥當(dāng).
針對(duì)“數(shù)據(jù)孤島”現(xiàn)象,谷歌于2016年提出聯(lián)邦學(xué)習(xí)方式,給出了新的解決思路.聯(lián)邦學(xué)習(xí)是一種客戶端本地協(xié)作式訓(xùn)練思想,通過(guò)上傳梯度而不是上傳數(shù)據(jù)到服務(wù)器實(shí)現(xiàn)數(shù)據(jù)隱私保護(hù).文獻(xiàn)[6]提出一種面向數(shù)據(jù)隱私保護(hù)的聯(lián)邦學(xué)習(xí)航空出行預(yù)測(cè)方法,融合高鐵出行數(shù)據(jù)、第三方APP記錄的居民消費(fèi)數(shù)據(jù)進(jìn)行聯(lián)邦學(xué)習(xí),提高了航空出行預(yù)測(cè)的準(zhǔn)確性和可靠性.文獻(xiàn)[7]將聯(lián)邦學(xué)習(xí)和交通流量預(yù)測(cè)結(jié)合起來(lái),解決了交通流量數(shù)據(jù)共享學(xué)習(xí)利用問(wèn)題.
雖然聯(lián)邦學(xué)習(xí)允許參與方在本地進(jìn)行訓(xùn)練,避免了數(shù)據(jù)信息泄露風(fēng)險(xiǎn),然而最近的研究表明,聯(lián)邦學(xué)習(xí)并不總是能夠提供足夠的隱私保證.文獻(xiàn)[8]從模型共享梯度中推斷出了圖像標(biāo)簽,并成功恢復(fù)出了原始訓(xùn)練樣本.文獻(xiàn)[9]根據(jù)人臉識(shí)別模型的訓(xùn)練結(jié)果較為準(zhǔn)確地還原了原始數(shù)據(jù),此攻擊場(chǎng)景也適用于聯(lián)邦學(xué)習(xí).因此越來(lái)越多的研究工作開(kāi)始聚焦于如何為聯(lián)邦學(xué)習(xí)本身提供更為可靠的隱私保護(hù).現(xiàn)有的梯度隱私保護(hù)方式分為加密類方法和擾動(dòng)類方法.加密類方法主要利用密碼學(xué)理論進(jìn)行保護(hù).文獻(xiàn)[10]提出一種參數(shù)掩蓋聯(lián)邦學(xué)習(xí)隱私保護(hù)方案,該方案包含密鑰交換、參數(shù)掩蓋、掉線處理3個(gè)協(xié)議,能夠抵御服務(wù)器攻擊、用戶攻擊、服務(wù)器和少于t個(gè)用戶的聯(lián)合攻擊.文獻(xiàn)[11]介紹了智能電網(wǎng)中隱私保護(hù)的主要技術(shù)手段,包括現(xiàn)有密碼學(xué)技術(shù)、安全多方計(jì)算在智能電網(wǎng)隱私保護(hù)方面的突破.數(shù)據(jù)擾動(dòng)類方法主要采用差分隱私方式對(duì)梯度進(jìn)行干擾.文獻(xiàn)[12]基于隨機(jī)梯度下降(stochastic gradient descent, SGD)算法過(guò)程可以是并行和異步的事實(shí),提出協(xié)作式深度學(xué)習(xí),并且基于差分隱私在噪聲發(fā)送到服務(wù)器之前,將噪聲注入?yún)?shù)中,通過(guò)選擇性地交換模型的部分重要參數(shù)減輕隱私損失預(yù)算,達(dá)到實(shí)用性與隱私性的權(quán)衡.文獻(xiàn)[13]提出一種針對(duì)參與方的差分隱私隨機(jī)梯度下降算法,其目的是在模型訓(xùn)練階段擾動(dòng)參與方的模型更新參數(shù),并且提出一種基于合成定理的隱私預(yù)算計(jì)算方法,稱為時(shí)刻統(tǒng)計(jì)(moment accountant, MA),為隱私損失提供了更為嚴(yán)格的界限.然而文獻(xiàn)[13]也只是將差分隱私應(yīng)用于傳統(tǒng)的簡(jiǎn)單前饋神經(jīng)網(wǎng)絡(luò).雖然已有研究將聯(lián)邦學(xué)習(xí)應(yīng)用于流量預(yù)測(cè)場(chǎng)景[7],但未曾在梯度上進(jìn)行隱私保護(hù).總的來(lái)說(shuō),加密類方法雖然安全,但計(jì)算開(kāi)銷大、復(fù)雜度高、成本高;差分隱私之類的數(shù)據(jù)擾動(dòng)法因其輕量化、消耗計(jì)算資源少、計(jì)算快速等特點(diǎn),更加滿足當(dāng)前交通流量預(yù)測(cè)場(chǎng)景的準(zhǔn)確性、實(shí)時(shí)性需求.
面向交通流量預(yù)測(cè)領(lǐng)域,針對(duì)各機(jī)構(gòu)數(shù)據(jù)無(wú)法共享以及聯(lián)邦學(xué)習(xí)訓(xùn)練過(guò)程中普通的參數(shù)梯度所面臨的重構(gòu)攻擊問(wèn)題,本文提出一種采用差分隱私進(jìn)行數(shù)據(jù)保護(hù)的聯(lián)邦學(xué)習(xí)方法.該方法不僅協(xié)調(diào)獨(dú)立的各方共同訓(xùn)練,從而準(zhǔn)確預(yù)測(cè)交通流量,而且使攻擊者不能以高置信度推斷出訓(xùn)練數(shù)據(jù)的特定信息,提供了更可靠的數(shù)據(jù)隱私保護(hù).本文在實(shí)際交通流量數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),最終得到一組參數(shù)達(dá)到了較好的預(yù)測(cè)效果,在模型隱私性與可用性之間取得了一個(gè)平衡,體現(xiàn)了該方法的優(yōu)越性與可行性.
本文提出的面向交通流量預(yù)測(cè)隱私保護(hù)的聯(lián)邦學(xué)習(xí)方法基于聯(lián)邦學(xué)習(xí)框架,如圖1所示.典型的聯(lián)邦學(xué)習(xí)訓(xùn)練步驟如下[14]:首先,在訓(xùn)練之前,所有客戶端商定一個(gè)共同的模型,包括神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)、特征,每個(gè)隱藏層的激活函數(shù)、損失函數(shù)等,商定之后將此模型部署在本地.本文模型為循環(huán)神經(jīng)網(wǎng)絡(luò)GRU模型,采用該模型進(jìn)行交通流量預(yù)測(cè).然后,云服務(wù)器隨機(jī)初始化第1輪的全局模型參數(shù)(ωt,t=1),并依次傳遞給各客戶端,客戶端在自己的私有數(shù)據(jù)集上訓(xùn)練模型,并將不同的私有梯度(Δωt+1)上傳到服務(wù)器.之后,服務(wù)器對(duì)參數(shù)進(jìn)行聚合,并更新全局模型參數(shù),開(kāi)始下一輪訓(xùn)練,依此類推,最終完成訓(xùn)練.
圖1 聯(lián)邦學(xué)習(xí)總體框架
客戶端在本地對(duì)流量數(shù)據(jù)進(jìn)行GRU模型訓(xùn)練.本地模型訓(xùn)練時(shí),在反向傳播過(guò)程中,向梯度添加計(jì)算好的高斯噪聲.在全局迭代結(jié)束后,客戶端算法最終滿足(ε,δ)-差分隱私,上傳的模型參數(shù)也具有隨機(jī)性,從而成功防止被攻擊者竊取.
2.2.1 符號(hào)說(shuō)明
為了方便理解,對(duì)本文用到的符號(hào)進(jìn)行說(shuō)明,如表1所示.
2.2.2 客戶端DP-GRU算法流程
將客戶端本地添加了差分隱私的GRU算法稱為DP-GRU算法.下面給出第k個(gè)客戶端的DP-GRU算法,如算法1所示:
算法1.DP-GRU算法.
輸入:D={x1,x2,…,xn},ωt,T,E,L(ω),C,(ε,δ),η,q;
① Initializee=0;
表1 本文符號(hào)說(shuō)明
② Initializeωe=ωt;
③σ=FedMA(ET,(ε,δ),q);
④ fore∈0,1,…,E-1 do
⑤ Take a random sample setXqwith
sampling probabilityq;
⑥ for eachxi∈Xqdo
⑦ge(xi)=?L(ωe,xi);
⑨ end for
算法具體流程如下:
首先,(行①)初始化本地迭代次數(shù)變量e=0;(行②)客戶端從服務(wù)器端接收全局模型,初始化本地模型參數(shù)ωe=ωt;(行③)客戶端根據(jù)隱私預(yù)算計(jì)算算法FedMA計(jì)算本地要添加的高斯噪聲標(biāo)準(zhǔn)差σ,F(xiàn)edMA算法的功能是借鑒MA機(jī)制對(duì)預(yù)添加的高斯噪聲進(jìn)行計(jì)算,使得客戶端的DP-GRU算法最終滿足(ε,δ)-差分隱私.
本地E輪迭代結(jié)束之后,(行)客戶端得到全局第t+1輪本地模型參數(shù)ωE,(行)計(jì)算與初始化全局模型參數(shù)ωt相減的模型參數(shù)更新(行)將模型參數(shù)更新上傳至服務(wù)器.
2.2.3 客戶端差分隱私實(shí)現(xiàn)
當(dāng)前深度學(xué)習(xí)差分隱私的主流應(yīng)用模式有2種:一種是在本地模型訓(xùn)練結(jié)束后,選擇重要的參數(shù)更新,在其上添加噪聲[15];另一種是在模型訓(xùn)練時(shí),在反向傳播過(guò)程中,給梯度添加高斯噪聲[13].然而,正如Abadi等人[13]所考慮的,如果僅處理訓(xùn)練產(chǎn)生的最終模型參數(shù),由于客戶端對(duì)于這些參數(shù)與數(shù)據(jù)的依賴性,使得沒(méi)有辦法得到一個(gè)對(duì)參數(shù)與數(shù)據(jù)嚴(yán)格的界定方法.如果添加了過(guò)于保守的噪聲,會(huì)破壞最終學(xué)習(xí)模型的效用.因此本文借鑒文獻(xiàn)[13]的差分隱私隨機(jī)梯度下降算法,選擇在客戶端本地GRU模型訓(xùn)練反向傳播過(guò)程中,給梯度添加高斯噪聲實(shí)現(xiàn)差分隱私,使攻擊者無(wú)法通過(guò)干擾過(guò)的模型參數(shù)還原出訓(xùn)練數(shù)據(jù),從而提供針對(duì)間接數(shù)據(jù)泄露的強(qiáng)大保護(hù).
差分隱私定義如下:
定義1.(ε,δ)-差分隱私.給定一個(gè)隨機(jī)算法M,D和D′是至多相差1條記錄的相鄰數(shù)據(jù)集.如果M在這2個(gè)數(shù)據(jù)集上的輸出滿足以下公式,則稱M是(ε,δ)-差分隱私的.
Pr[M(D)∈S]≤eεPr[M(D′)∈S]+δ,
(1)
其中,Pr[M(D)∈S]表示M在D上的輸出在值域S(S?Range(M))中的概率;ε稱為隱私預(yù)算,它量化了算法的隱私保障水平,一般說(shuō)來(lái),ε值越小,在D和D′上輸出的概率分布越接近,即M的隱私保護(hù)級(jí)別越高;隱私參數(shù)δ稱為松弛因子,為算法不滿足差分隱私的概率,通常設(shè)置為非常小的數(shù)字或0.
差分隱私一般通過(guò)在數(shù)據(jù)集的輸出中添加噪聲擾動(dòng)實(shí)現(xiàn),而要加入多少噪聲與數(shù)據(jù)集的全局敏感度有關(guān).全局敏感度定義如下:
定義2.全局敏感度Δf.對(duì)于任意給定的查詢函數(shù)f,f的全局敏感度Δf為
(2)
在DP-GRU算法中,數(shù)據(jù)集D為客戶端本地私有數(shù)據(jù)集,查詢函數(shù)為梯度計(jì)算,查詢輸出為梯度.算法1的行⑧根據(jù)裁剪操作,將單個(gè)梯度的第二范式限制在C以內(nèi),從而保證了全局敏感度大小為C.
拉普拉斯機(jī)制和高斯機(jī)制是常用的2種差分隱私噪聲機(jī)制[16],這2種機(jī)制主要針對(duì)數(shù)值型數(shù)據(jù).其中,高斯機(jī)制更為松弛,在實(shí)現(xiàn)隱私保護(hù)的基礎(chǔ)上也能兼顧準(zhǔn)確性,因?yàn)楸疚牟捎酶咚箼C(jī)制實(shí)現(xiàn)差分隱私.
定義3.高斯機(jī)制.對(duì)于任意查詢函數(shù)f和全局敏感度Δf,若隨機(jī)算法M滿足
M(D)=f(D)+N(0,σ2),
(3)
且有
(4)
則稱M滿足(ε,δ)-差分隱私.其中,N(0,σ2)為添加的均值為0、方差為σ2的高斯噪聲.
當(dāng)前很多學(xué)者致力于研究特定噪聲分布下的隱私預(yù)算.本文借鑒Abadi等人[13]提出的MA機(jī)制,在客戶端訓(xùn)練過(guò)程中采用基于MA機(jī)制構(gòu)建的FedMA算法對(duì)隱私預(yù)算進(jìn)行計(jì)算,該機(jī)制對(duì)隱私預(yù)算提供了更嚴(yán)格的限制.采用FedMA算法可以根據(jù)提前設(shè)置好的隱私預(yù)算ε、松弛因子δ、添加噪聲的步驟次數(shù)TE計(jì)算出相應(yīng)的高斯噪聲標(biāo)準(zhǔn)差σ.經(jīng)過(guò)本地TE輪噪聲添加,可以計(jì)算出更少的隱私預(yù)算,也即實(shí)現(xiàn)了(ε,δ)-差分隱私.目前開(kāi)發(fā)者已公開(kāi)了MA機(jī)制及相關(guān)算法,用戶可以方便地在機(jī)器學(xué)習(xí)框架(如TensorFlow)中調(diào)用.
服務(wù)器端聚合客戶端上傳的模型參數(shù)更新,與上一輪的全局模型參數(shù)相加,從而得到下一輪的全局模型參數(shù).服務(wù)器端模型聚合算法(Fed-DP-GRU)如算法2所示.算法輸入為參加聯(lián)邦學(xué)習(xí)模型訓(xùn)練的客戶端集合zm、全局迭代次數(shù)T、分配給客戶端的隱私預(yù)算ε以及松弛因子δ.
算法2.Fed-DP-GRU算法.
輸入:zm,(ε,δ),T;
輸出:ωT.
① Initializeω0randomly;
② fort∈0,1,2,…,T-1 do
③ fork∈zminparallel do
⑤ end for
⑦ωt+1=ωt+Δωt;
⑧ end for
⑨ returnωT.
算法具體流程如下:
首先,(行①)隨機(jī)初始化第1輪的全局模型參數(shù)ω0.
然后,基于以下步驟進(jìn)行T輪迭代:1)(行③~⑤)并行下發(fā)全局模型參數(shù)至各客戶端,客戶端本地運(yùn)行DP-GRU算法進(jìn)行模型訓(xùn)練,并上傳模型參數(shù)更新.2)(行⑥~⑦)服務(wù)器對(duì)收到的模型參數(shù)更新進(jìn)行加權(quán)平均聚合,與上一輪全局模型參數(shù)相加,得到下一輪全局模型參數(shù).
T輪循環(huán)后,(行⑨)服務(wù)器得到最終的全局模型參數(shù)ωT,訓(xùn)練結(jié)束.在保證數(shù)據(jù)隱私的前提下,各客戶端在本地完成了流量預(yù)測(cè)任務(wù).
本文在實(shí)際交通流量數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn).先對(duì)比了集中式訓(xùn)練與普通聯(lián)邦學(xué)習(xí)訓(xùn)練的實(shí)驗(yàn)結(jié)果;再添加了差分隱私保護(hù)模塊,分別通過(guò)設(shè)置不同的ε和不同的客戶端數(shù)量來(lái)測(cè)試效果.最終得到一組參數(shù)達(dá)到較好的預(yù)測(cè)效果,實(shí)現(xiàn)了隱私性與可用性之間的一個(gè)平衡,體現(xiàn)了本文方法的優(yōu)越性與可行性.
本文從數(shù)據(jù)庫(kù)PeMS中收集實(shí)際數(shù)據(jù).PeMS是美國(guó)加利福尼亞州高速公路的實(shí)時(shí)車流量數(shù)據(jù),由鋪設(shè)在道路上的檢測(cè)線圈采集.檢測(cè)設(shè)備每30 s實(shí)時(shí)收集1次,再每隔5 min聚合1次,形成了最終數(shù)據(jù).本文選取PeMS第4區(qū)的數(shù)據(jù)集PeMSD4,即舊金山灣區(qū)的交通數(shù)據(jù)進(jìn)行實(shí)驗(yàn),此數(shù)據(jù)集也被其他很多研究者使用[4,17].PeMSD4中有307個(gè)傳感器,時(shí)間跨度為2018年1—2月.交通數(shù)據(jù)每5 min匯總1次,即每個(gè)傳感器每天包含288個(gè)數(shù)據(jù)點(diǎn),每個(gè)數(shù)據(jù)點(diǎn)特征為3種交通測(cè)量,即總流量、平均速度和平均占用率.
本文采取如下數(shù)據(jù)集分割:首先給每個(gè)客戶端分配相同數(shù)量傳感器的采集流量數(shù)據(jù);然后選取前3周的流量數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,第4周的流量數(shù)據(jù)作為測(cè)試數(shù)據(jù)集.
在以往的研究中[4],GRU是被廣泛采用的基線模型,具有很好的交通流量預(yù)測(cè)性能.因此,本文選取的深度學(xué)習(xí)模型為基于Pytorch實(shí)現(xiàn)的GRU.設(shè)定隱藏層層數(shù)為1,隱藏層單元數(shù)為32,全連接層采用LeakyReLU作為激活函數(shù).學(xué)習(xí)率為0.001,優(yōu)化器為SGD算法,損失熵函數(shù)為交叉熵?fù)p失函數(shù)CrossEntropyLoss().經(jīng)過(guò)反復(fù)試驗(yàn),最終選取歷史時(shí)間步長(zhǎng)(timestep)為12.本文全局模型旨在達(dá)到這樣的目的:針對(duì)該區(qū)域內(nèi)的任何傳感器,輸入過(guò)去1 h的流量時(shí)間序列,可預(yù)測(cè)出未來(lái)5 min內(nèi)的流量.
本文采用均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)來(lái)表達(dá)預(yù)測(cè)準(zhǔn)確性,如式(5)和式(6)所示:
(5)
(6)
3.3.1 集中式訓(xùn)練與聯(lián)邦學(xué)習(xí)訓(xùn)練
本實(shí)驗(yàn)對(duì)比集中式訓(xùn)練與普通聯(lián)邦學(xué)習(xí)訓(xùn)練的效果.集中式訓(xùn)練即將所有客戶端的數(shù)據(jù)集中起來(lái)進(jìn)行訓(xùn)練,普通聯(lián)邦學(xué)習(xí)訓(xùn)練即在客戶端本地進(jìn)行訓(xùn)練.設(shè)置本地迭代次數(shù)E=4,客戶端數(shù)目m=10,抽樣率q=0.5%,學(xué)習(xí)率η=0.001.相較于本文提出的方法,這2種訓(xùn)練場(chǎng)景均省去了梯度裁剪和噪聲添加這2步.
圖2 集中式訓(xùn)練與聯(lián)邦學(xué)習(xí)訓(xùn)練
圖2給出了2種訓(xùn)練場(chǎng)景下,RMSE和MAE隨全局迭代次數(shù)(T)變化的情況.從圖2可以看出,集中式訓(xùn)練與聯(lián)邦學(xué)習(xí)訓(xùn)練效果相差無(wú)幾.這是因?yàn)樵诼?lián)邦學(xué)習(xí)訓(xùn)練場(chǎng)景下,預(yù)測(cè)的核心技術(shù)依然是GRU結(jié)構(gòu).但聯(lián)邦學(xué)習(xí)訓(xùn)練可以通過(guò)將訓(xùn)練數(shù)據(jù)集保留在本地來(lái)保護(hù)數(shù)據(jù)隱私,且聯(lián)邦學(xué)習(xí)訓(xùn)練模型具有良好的收斂性和穩(wěn)定性.因此,聯(lián)邦學(xué)習(xí)訓(xùn)練可以在保護(hù)隱私的前提下實(shí)現(xiàn)準(zhǔn)確及時(shí)的流量預(yù)測(cè).
3.3.2 差分隱私對(duì)模型準(zhǔn)確性的影響
本實(shí)驗(yàn)測(cè)試在聯(lián)邦學(xué)習(xí)訓(xùn)練場(chǎng)景下,添加差分隱私保護(hù)模塊后,在不同ε下的流量預(yù)測(cè)效果.參數(shù)設(shè)置與3.3.1節(jié)一致,并設(shè)置梯度裁剪閾值C=3.圖3給出了當(dāng)ε分別為2.0,4.0,8.0和10.0,δ=1e-5時(shí),RMSE和MAE隨全局迭代次數(shù)(T)變化的情況.
圖3 不同ε下的流量預(yù)測(cè)結(jié)果
從圖3可以看出,在不同ε下,隨著T的增加,2種模型預(yù)測(cè)誤差均逐漸下降,在訓(xùn)練過(guò)程中趨于收斂,并最后穩(wěn)定在一個(gè)范圍內(nèi).從圖3也可以看出,ε越小,模型預(yù)測(cè)誤差越大,說(shuō)明模型訓(xùn)練準(zhǔn)確性受影響程度較大;ε越大,模型預(yù)測(cè)誤差越小,說(shuō)明模型訓(xùn)練準(zhǔn)確性受影響程度較小.可見(jiàn)模型訓(xùn)練效果與ε大小成反比,符合差分隱私理論的設(shè)計(jì).根據(jù)差分隱私理論,ε越小,添加噪聲越大,算法隱私保護(hù)效果越好;ε越大,添加噪聲越小,算法隱私保護(hù)效果越差.從實(shí)驗(yàn)結(jié)果可以得出,當(dāng)ε=2.0時(shí),模型預(yù)測(cè)誤差較高,即添加噪聲過(guò)大,應(yīng)當(dāng)舍棄此參數(shù).當(dāng)ε=4.0,8.0和10.0時(shí),預(yù)測(cè)效果與普通聯(lián)邦學(xué)習(xí)訓(xùn)練效果(ε=0時(shí))趨于一致,且最后均收斂到了穩(wěn)定區(qū)間,說(shuō)明差分隱私并不影響模型的收斂性.從實(shí)驗(yàn)可以得出,當(dāng)m=10,ε=4.0時(shí)可以在模型隱私性和可用性之間取得一個(gè)平衡.
3.3.3 客戶端數(shù)量對(duì)模型準(zhǔn)確性的影響
在交通預(yù)測(cè)場(chǎng)景中,不排除多個(gè)機(jī)構(gòu)協(xié)同進(jìn)行訓(xùn)練的情況.例如,文獻(xiàn)[7]考慮到了有多個(gè)參與者的大規(guī)模場(chǎng)景,設(shè)計(jì)了一個(gè)聯(lián)合協(xié)議,通過(guò)以一定比例抽取參與者的方式減輕了通信負(fù)擔(dān).但文獻(xiàn)[7]僅僅只是普通聯(lián)邦學(xué)習(xí)訓(xùn)練,其安全性還有待提升.本文在3.3.2節(jié)得到的ε=4.0的基礎(chǔ)上分別設(shè)置不同的客戶端數(shù)量,觀察全局模型預(yù)測(cè)效果與客戶端數(shù)量的關(guān)系.
圖4給出了當(dāng)客戶端數(shù)量m為5,10,15,20,25時(shí),RMSE和MAE隨全局迭代次數(shù)(T)變化的情況.
圖4 不同客戶端數(shù)量下的流量預(yù)測(cè)結(jié)果
從圖4可以看出,在不同客戶端數(shù)量下,一開(kāi)始全局模型的訓(xùn)練效果可能會(huì)有差異,但最后均收斂至一定區(qū)間,說(shuō)明框架具有良好的收斂性,不會(huì)隨客戶端數(shù)量發(fā)生改變,適用于不同規(guī)模下的聯(lián)合預(yù)測(cè)場(chǎng)景.由實(shí)驗(yàn)結(jié)果可得,在ε=4.0的條件下,當(dāng)m=20時(shí),模型預(yù)測(cè)結(jié)果達(dá)到了最佳.
本文提出一種面向交通流量預(yù)測(cè)隱私保護(hù)的聯(lián)邦學(xué)習(xí)方法.基于差分隱私的隨機(jī)性性質(zhì),在客戶端采用差分隱私隨機(jī)梯度下降算法,不僅使得客戶端在本地訓(xùn)練,也防止攻擊者從模型共享梯度中逆推出原始數(shù)據(jù),從而達(dá)到保護(hù)數(shù)據(jù)隱私的目的.本文首次將差分隱私隨機(jī)梯度下降應(yīng)用于GRU循環(huán)神經(jīng)網(wǎng)絡(luò),可供其他研究者借鑒.本文方法可在模型可用性和隱私性之間取得一個(gè)較好的平衡,并可推廣到不同規(guī)模的應(yīng)用場(chǎng)景.考慮實(shí)際場(chǎng)景應(yīng)用現(xiàn)狀,根據(jù)每個(gè)機(jī)構(gòu)的安全級(jí)別,采用混合差分隱私機(jī)制以更有效地提高預(yù)測(cè)效果是接下來(lái)的研究目標(biāo).