王文鑫 趙奕涵 張健毅
北京電子科技學(xué)院,北京市 100070
近年來,深度學(xué)習(xí)受到社會各界的廣泛關(guān)注,然而此種技術(shù)通過用戶端數(shù)據(jù)直接傳輸,可能存在信息泄漏和被篡改的風險。 隨著歐盟《通用數(shù)據(jù)保護條例》[1]和我國《個人信息保護法》[2]的相繼頒布,越來越多企業(yè)對于個人敏感信息提起高度重視。 為解決數(shù)據(jù)安全問題和實現(xiàn)信息孤島的共享,谷歌2016 年提出聯(lián)邦學(xué)習(xí)(FL)的概念,其主要是將用戶數(shù)據(jù)存儲階段和模型訓(xùn)練階段轉(zhuǎn)移至本地用戶,客戶端僅與中心服務(wù)器交互更新模型,從而有效保障用戶隱私安全。
隨著共享理念近些年的不斷興起,聯(lián)邦學(xué)習(xí)技術(shù)在越來越多領(lǐng)域中得到應(yīng)用,比如反洗錢、保險規(guī)劃和累犯風險預(yù)測(COMPAS)等。 2019年微眾銀行正式開源全球首個工業(yè)級聯(lián)邦學(xué)習(xí)框架FATE,并嘗試將聯(lián)邦學(xué)習(xí)應(yīng)用于金融業(yè)務(wù)。 盡管聯(lián)邦技術(shù)現(xiàn)階段在通信路由與后門防御研究日趨深入和成熟,然而激勵機制卻可能成為一個制約其未來發(fā)展的短板。 如在聯(lián)邦學(xué)習(xí)商業(yè)化場景中,中心同盟對參與方上傳的本地模型多次迭代后形成全局模型,聯(lián)邦系統(tǒng)通過全局模型和外界交易獲取收益,此部分收益可作為激勵分配給各個參與方。 由于聯(lián)邦系統(tǒng)中數(shù)據(jù)所有者是具有獨立性的利益共同體,所以各數(shù)據(jù)所有方具有利己性。 當參與方得到報酬與其付出貢獻不匹配(激勵機制不公平),相互獨立的聯(lián)邦成員可能會選擇背叛整體利益,追求自身短期利益最大化,最終導(dǎo)致聯(lián)邦系統(tǒng)存在合作的風險。
現(xiàn)階段,聯(lián)邦學(xué)習(xí)激勵機制的獎勵方式主要分為收益獎勵和梯度獎勵兩種類別。 前者包括偏見信息和經(jīng)濟報酬,例如文獻[3]通過帶有偏見的信息作為獎勵給予各個參與方,不過此種方式引入帶有偏見的信息,可能使得聯(lián)邦系統(tǒng)存在歧視,從而影響整體系統(tǒng)的公平性。 文獻[4]從經(jīng)濟學(xué)和博弈論角度入手,通過經(jīng)濟報酬解決激勵機制的分配問題,不過此方法引入其他變量,會加重系統(tǒng)的通信負擔,同時通信損耗也會隨之增大。 后者研究主要依賴當前輪次數(shù)據(jù)所有者貢獻程度獲得不同全局模型的思想,從而使得次輪迭代的局部模型得到更好優(yōu)化。 然而依靠此種激勵的部分文獻沒有探討聯(lián)邦學(xué)習(xí)Non-IID問題[5],即給聯(lián)邦系統(tǒng)分配不同的全局模型,各個同盟的數(shù)據(jù)項和特征屬性可能均不相同,所以中心服務(wù)器在整體迭代時不能簡單采取FedAvg聚合模式。 此外,大多數(shù)文獻沒有考慮梯度獎勵的弊端,比如貢獻度較低參與方分配得到較小相似度的權(quán)重使得次輪訓(xùn)練的全局模型結(jié)果變差[6]。
此外由于沒有任何保障機制,聯(lián)邦系統(tǒng)在多方合作時,傳統(tǒng)FL 框架存在被敵手攻擊的風險。 機會主義者可采用上傳無關(guān)梯度或者貢獻度較低梯度來影響中心同盟的全局模型。 所以聯(lián)邦系統(tǒng)需要引入懲罰措施,通過對聯(lián)邦系統(tǒng)中實用主義者的獎勵機制和機會主義者的懲罰機制,對系統(tǒng)中的各參與方形成警示作用,從而保證聯(lián)邦系統(tǒng)有效幫助企業(yè)中個體實現(xiàn)資源共享、降低系統(tǒng)經(jīng)營風險[7]。
目前在激勵機制公平性文獻中,傳統(tǒng)的激勵機制[8]沒有考慮企業(yè)加入聯(lián)邦系統(tǒng)時需要提供成本。 當聯(lián)邦系統(tǒng)分配各個參與方獎勵時,沒有引入聯(lián)邦系統(tǒng)的成本問題,這樣會導(dǎo)致激勵機制過程不夠完善。 如果成本和成本利息比系統(tǒng)收益更大,參與方可能不會加入到系統(tǒng)中,而會選擇加入其它聯(lián)邦系統(tǒng)或單獨訓(xùn)練,此時參與者的實際收益應(yīng)為利潤-收益組成。
總之,本文的貢獻包括:
1. 本文提出一個聲譽獎懲成本利息機制(Reputation, Reward-punishment system, and Cost-interest Mechanism,RRCM)框架來實現(xiàn)聯(lián)邦學(xué)習(xí)激勵機制的公平性,使得聯(lián)邦系統(tǒng)中參與者分配的激勵與其貢獻度程度呈正相關(guān)趨勢。
2. 通過引入聲譽系統(tǒng)和獎懲措施,實現(xiàn)降低敵手攻擊的風險和減少低貢獻者存在的可能,提高聯(lián)邦系統(tǒng)的保護機制。
3. 在基準數(shù)據(jù)集上的實驗表明,本文提出的RRCM 框架能夠?qū)崿F(xiàn)較高的公平性,并且系統(tǒng)引入利潤-收益機制,使聯(lián)邦學(xué)習(xí)激勵機制更加完善。
本文其余章節(jié)內(nèi)容如下:“相關(guān)工作”回顧現(xiàn)有文獻中的公平性標準和激勵機制方式,為本文的研究提供實行基礎(chǔ);“RRCM 框架”介紹本文方法各模塊的設(shè)計,以及模塊間的關(guān)聯(lián);“實驗”包括數(shù)據(jù)集的設(shè)置和實驗的比較,從而證明本文提出的RRCM 框架更加合理。 最后,本文在“總結(jié)和未來發(fā)展”展開總結(jié),并討論聯(lián)邦學(xué)習(xí)激勵機制未來的研究發(fā)展。
本節(jié)回顧有關(guān)聯(lián)邦學(xué)習(xí)激勵機制的文獻,以便將以前的研究與現(xiàn)有研究相聯(lián)系。
國內(nèi)外聯(lián)邦學(xué)習(xí)的同盟激勵普遍分為Stackelberg 博弈、拍賣、契約理論、Shapley 價值和聲譽信任五種類別[9]。 Stackelberg 博弈[10]主要用于制定不同參與者在銷售或采購共同產(chǎn)品的互動。 文獻[11]中Sarikaya 使用Stackelberg游戲模型來激勵多個工人的CPU 供應(yīng),以減少FL 中心同盟的預(yù)算和SGD 本地培訓(xùn)時間;拍賣[12]是一種用于定價、任務(wù)分配和節(jié)點選擇的數(shù)學(xué)工具。 文獻[13]在移動邊緣計算場景中提出了一種基于采購拍賣的FL 輕量化多維激勵方案[14];契約理論[15]是在利益沖突和信息水平不對等情況下,參與者如何構(gòu)建和發(fā)展最優(yōu)協(xié)議。 在公共采購合同時,服務(wù)器向參與者提供一個合同菜單,在編寫合同時不告知參與者的私人成本,每個參與者主動選擇系統(tǒng)類型設(shè)計的選項;源于合作博弈論的Shapley 值[16]被聯(lián)邦學(xué)習(xí)的貢獻評估和利潤分配廣泛采用,基于Shapley值進行聯(lián)盟成員的利益分配體現(xiàn)各盟員對聯(lián)盟總目標的貢獻程度,避免分配上的平均主義。 在文獻[17]采用一種Shapley 組值的變體版本來衡量一個特征子集的效用,文中將一些私有特性合并為聯(lián)合特性,并計算聯(lián)合特性的Shapley 組值;聲譽系統(tǒng)[18]是聯(lián)邦學(xué)習(xí)激勵的常用方式,楊強團隊主要通過此種方式進行激勵公平性的研究,文獻[19]中引入聲譽動態(tài)模型和聲譽遺憾模型形成更具公平性的激勵方式。
合理的聯(lián)邦學(xué)習(xí)激勵機制需對各個參與方公平[20]。 早期公平性機制主要代表是平均主義[21],不同同盟方在系統(tǒng)中訓(xùn)練迭代得到相同激勵。 現(xiàn)在公平性標準主要將公平性分為貢獻公平性、遺憾分布公平和期望公平[22]。 貢獻公平性指數(shù)據(jù)所有者的收益須與其貢獻呈正相關(guān),遺憾分布公平指盡量減少數(shù)據(jù)所有者間遺憾和暫時遺憾的差異,期望公平指最小化數(shù)據(jù)所有者遺憾值和時間遺憾值的波動。
綜上,聯(lián)邦學(xué)習(xí)激勵機制可以將聲譽系統(tǒng)機制和貢獻公平性相結(jié)合,通過聲譽信任判斷同盟方貢獻度的高低,從而分配不同的獎勵收益。 此外,還可以引入歧視率、獎勵率和懲罰閾值等因素來深度討論聯(lián)邦學(xué)習(xí)的激勵分配問題。
本節(jié)介紹在聯(lián)邦學(xué)習(xí)系統(tǒng)中引入聲譽系統(tǒng)、獎懲措施和成本-收益三種機制,從而形成基于聲譽獎懲(RRCM)框架的聯(lián)邦學(xué)習(xí)激勵優(yōu)化。本方案遵循的核心原理是:各參與方獲取中心同盟激勵與其貢獻程度呈正關(guān)系。
本文采用聯(lián)邦學(xué)習(xí)多個客戶端通過本地數(shù)據(jù)集訓(xùn)練全局模型的標準優(yōu)化模型:min{F(w)?ψiFi(w)}。 其中F(w) 表示全局模型的梯度,Fi(w) 表示本地模型的訓(xùn)練模型,N表示聯(lián)邦系統(tǒng)中參與方數(shù)量,ψi表示第i個參與方的權(quán)重,并且ψi≥0 和= 1。 在第t輪更新 時,: = ▽Fi(w(t-1)) 和Δw(t)=。
在傳統(tǒng)聯(lián)邦學(xué)習(xí)系統(tǒng)中,不同參與方參與聯(lián)合訓(xùn)練需要提前向中心同盟上繳入盟費用,這些費用主要用于聯(lián)邦系統(tǒng)的持續(xù)再生產(chǎn)過程。 例如,數(shù)據(jù)所有者構(gòu)建本地模型上傳給中心同盟,聯(lián)合訓(xùn)練后的全局模型又可以與外部企業(yè)鏈交易得到收益。 然而模型聚合和商業(yè)化形成需要時間,從而導(dǎo)致中心同盟需積累足夠的預(yù)算償還同盟方的加盟成本。 現(xiàn)有聯(lián)邦學(xué)習(xí)激勵機制,如文獻[23]中提出聯(lián)邦學(xué)習(xí)激勵器報酬共享方案,用以解決合伙費用償還與激勵暫時不匹配問題,不過此方法忽視成本的利息效用。 企業(yè)從初次加入同盟上繳入盟費用到聯(lián)邦系統(tǒng)商業(yè)化形成分配激勵,整個過程中心同盟不能僅僅償還各參與方成本,還應(yīng)考慮補償成本產(chǎn)生的利息。
在聯(lián)邦學(xué)習(xí)商業(yè)化過程中,中心同盟需事先要求參與方支付加入聯(lián)邦系統(tǒng)的成本。 在激勵補償時,同盟系統(tǒng)先償還參與方的成本-利息,然后在支付真正的獎勵。 假設(shè)Ci為第i個參與方向聯(lián)邦系統(tǒng)貢獻的成本,第i個參與方償還過程如下:
聲譽系統(tǒng)是一種重定向自反饋機制,其可通過相關(guān)方協(xié)作認可來反映自身信用的狀態(tài),旨在表明聲譽對于聯(lián)邦決策的影響。 本文采取的聲譽系統(tǒng)是根據(jù)各個參與方每輪的貢獻程度,從而決定給予各同盟方激勵的程度。 根據(jù)余弦相似度表示梯度質(zhì)量的研究: cos(u,v) = 〈u,v〉/(‖u‖× ‖v‖),本文各參與方貢獻度由局部權(quán)值和中心權(quán)值余弦相似度表示為=cos(,Δw(t))。 聯(lián)邦系統(tǒng)初始階段,各參與方初始聲譽設(shè)置相同初始值(聲譽閾值A(chǔ))。 假設(shè)本輪暫時聲譽和貢獻度α存在一定正向關(guān)系?α, 則(t)i可表示為cov(,Δw(t)), 本輪實際聲譽可由歷史聲譽和本輪暫時聲譽求得,公式如下:
其中β是可設(shè)置的權(quán)重系數(shù),表示前一輪的聲譽數(shù)值,表示本輪的暫時聲譽。 由此,本框架通過聲譽和貢獻度之間的聯(lián)系,從而分配不同數(shù)據(jù)所有者不同的激勵。
本文激勵機制主要包括根據(jù)參與方每輪的貢獻程度決定給予收益的大小。 除這種定性關(guān)系外,本文還考慮通過Pearson 相關(guān)系數(shù)描述數(shù)據(jù)所有者的貢獻和獎勵之間的關(guān)系,定量表示聯(lián)邦學(xué)習(xí)激勵機制的合作公平性。
定義1 合作公平性
假設(shè)參與方的實際貢獻度為一組α,而其獲得的獎勵分配為一組σ, 則其合作公平性可表示為ρp(α,σ)。ρp(·,·) 表示Pearson 系數(shù),且ρp(·,·) 越大,表示所提出的RRCM 框架更具有合作公平性。
本文框架除以上獎勵措施外,還通過設(shè)置聲譽閾值A(chǔ)方式制定相應(yīng)懲罰措施,每一輪低于聲譽閾值的數(shù)據(jù)所有者,將剔除出聯(lián)邦系統(tǒng),從而防止貢獻度較低的參與方(如搭便車或充滿敵意的參與方)破壞系統(tǒng)聯(lián)合訓(xùn)練的結(jié)果。
如圖1 所示,參與方先將本地數(shù)據(jù)訓(xùn)練成模型上傳時需通過信譽系統(tǒng)的閾值檢測,如果聲譽數(shù)值小于聲譽閾值,則RRCM 系統(tǒng)消除具有異常聲譽的參與方,如果聲譽良好則通過檢測。 良好的本地模型到達中心服務(wù)器經(jīng)多次訓(xùn)練迭代后形成全局模型。 聯(lián)邦系統(tǒng)可通過商業(yè)活動將全局模型與外部交互產(chǎn)生商業(yè)化利潤。 其中一部分利潤用于補償給信譽良好的數(shù)據(jù)所有者,另一部分利潤在中心服務(wù)器臨時存儲。 當聯(lián)邦系統(tǒng)訓(xùn)練結(jié)束時,中心服務(wù)器會將暫時存儲的收益返還給信譽良好的參與方,而聲譽異常的參與方將不獲得利潤償還。
圖1 聯(lián)邦學(xué)習(xí)激勵機制RRCM 框架
整體聯(lián)邦學(xué)習(xí)激勵機制RRCM 框架包括聲譽系統(tǒng)、獎懲措施和成本-利息機制三部分,它們相互獨立卻又相互關(guān)聯(lián)。 比如,成本-利息機制通過獎懲措施幫助聯(lián)邦系統(tǒng)商業(yè)化收益更合理的補償數(shù)據(jù)所有方的成本和利息,分配激勵時又可通過聲譽系統(tǒng)完成相應(yīng)的獎懲措施,從而既使聯(lián)邦學(xué)習(xí)整體系統(tǒng)更加公平合理,又能吸引更優(yōu)質(zhì)的參與者加入到系統(tǒng)中。 本文涉及的懲罰措施不僅為剔除出聯(lián)邦系統(tǒng),還包括中心同盟和參與方事先建立契約,數(shù)據(jù)所有者一定比例的成本保留在中心服務(wù)器不給予分配,當數(shù)據(jù)所有者的聲譽低于一定比例時,中心服務(wù)器不再償還貢獻程度較低的參與方成本,且將其直接剔除系統(tǒng)。 由于各參與方尋求加入聯(lián)邦系統(tǒng)獲取更多的利益,所以它們會選擇提供較高相似度的貢獻,由于貢獻程度低而剔除聯(lián)邦系統(tǒng)的方法不將影響各參與方合作的積極性。
RFFL 的具體實現(xiàn)在算法1 如下:
算法1 RRCM輸入:每個參與方加入同盟投資成本Ci,聯(lián)邦系統(tǒng)回報的激勵和利息率分別為ut i、γ,聲譽閾值A(chǔ)。符號:r(t)i 、αti、σt i 和Tt 表示第i 個參與方第t 輪的聲譽、貢獻度、分配收益和中心同盟總收益,R = {i rti ≥A } 是一個良好的聲譽集合,Δw(t)i 和Δw(t) 分別表示第t 輪i 的局部模型和全局模型,且中心同盟最初收益應(yīng)為各個參與方的加盟成本Tt = ∑i=Ni=1 Si。參與方i:下載梯度▽w(t-1)i 、分配激勵σti ( σt i ∈Tt )if ∑tt=1σti < ∑t t=1uti(1 + γ)此階段是償還成本if ∑tt=1σti > ∑t t=1uti(1 + γ)此階段是實際收益本地訓(xùn)練得到本地模型Δw(t)i 并上傳服務(wù)器:聚合:Δw(t) = ∑N i=1ψiΔw(t)i αt = cov(Δw(t)i ,Δw(t))for i ∈R do r~ti = ρρ(αti,σti)r(t)i = βr(t-1)i + (1 - β) r~ ti if r(t)i A then R = R{i} 剔除聲譽過低的參與方Tt+1 = Tt -∑i=N i=1∑t t=1σt i + Si end if end for下載:分配梯度▽w(t+1)i 、分配激勵σt i
算法1 中RRCM 框架懲罰措施有兩種,其一是將聲譽低于聲譽閾值的參與方剔除出聯(lián)邦系統(tǒng),從而保障聯(lián)邦系統(tǒng)訓(xùn)練梯度聚合的準確性。 其二是成本-利息中的補償機制,聯(lián)邦系統(tǒng)會將部分成本臨時儲存于中心服務(wù)器。 若參與方聲譽從始至終大于聲譽閾值,當訓(xùn)練結(jié)束時,中心服務(wù)器會歸還臨時存儲的成本。 若參與方的聲譽小于聲譽閾值,則中心服務(wù)器不將此參與方臨時存儲的剩余成本退換給數(shù)據(jù)所有方。 此部分資金一方面可以用于更多商業(yè)化的投入,另一方面可以更多補償給其他高貢獻度參與方。表示中心同盟總收益過程。
本文通過三個指標作為本實驗的評估標準:公平性、準確度和補償趨勢。 公平性通過定義1中的合作公平性定量表示,貢獻度和激勵間的皮爾遜系數(shù)(ρp(α,σ)) 越大,表示聯(lián)邦學(xué)習(xí)的框架更具有公平性。 除了FedAvg[24]框架,本實驗提出的RRCM 還和q-FFL[25]、CFFL[26]兩種公平性標準框架相比較。 而準確度通過聯(lián)邦系統(tǒng)輸出結(jié)果和測試集相比較得出,本文提出的RRCM框架使用FedAvg 算法和聲譽系統(tǒng)、獎懲措施、成本-收益三種機制結(jié)合,所以就準確性而言本實驗框架只和FedAvg 相比較。 補償趨勢主要比較激勵機制沒有成本、考慮成本和成本-利息三種方案下激勵機制的獎勵趨勢,從而確定本文提出的框架具有優(yōu)越性。
本文選取MNIST[27]和CIFAR-10[28]兩種數(shù)據(jù)集完成本次實驗的對照。 就標準IID 方面,本文選擇數(shù)據(jù)集的統(tǒng)一切割,將其記做UNI;就Non-IID 方面,考慮數(shù)據(jù)的異質(zhì)性,本研究根據(jù)冪率分布將樣本在參與者中隨機切分, 將其記做POW[29]。
參照聯(lián)邦學(xué)習(xí)聲譽激勵相關(guān)文獻,本文將信譽閾值設(shè)置為A= 1/(3N), 即每個聯(lián)邦系統(tǒng)應(yīng)貢獻超過1/3 參與方的貢獻比。 又根據(jù)工資分配原則,本文將中心同盟存儲成本設(shè)置為S=1/(10T),聯(lián)邦系統(tǒng)將此成本臨時存儲以防止數(shù)據(jù)所有方貢獻較低相似度的模型。
公平性比較:表1 列出不同數(shù)量參與方在MNIST 和CIFAR-10 兩種數(shù)據(jù)集下不同合作公平性的數(shù)值,合作公平性數(shù)值可以通過皮爾遜系數(shù)計算。 根據(jù)表中內(nèi)容,RRCM 性能明顯優(yōu)于FedAvg[24]、q-FFL[25]和CFFL[26]三種框架,所以本文提出的方案能使貢獻度更高的數(shù)據(jù)所有方得到更好的準確度:表2 列出不同參與方通過RRCM、FedAvg 兩種方式在UNI 和POW 情況下的準確度。 根據(jù)實驗數(shù)據(jù)大體一致表明。 其中RRCM和FedAvg 的準確度相似,這是因為RRCM 框架中參與方的分配方式是借助FedAvg 算法。 不過在準確度一致的情況下,此方法比FedAvg 更具有公平性,所以RRCM 框架更具有優(yōu)越性。
表1 常用框架的公平性比較
表2 FedAvg 和RRCM 的準確性比較
補償趨勢:如圖2 所示,是聯(lián)邦學(xué)習(xí)激勵機制在三種情況下的補償趨勢仿真圖。 左邊表示不同補償,右邊表示不同激勵。 根據(jù)圖示,“沒有成本”方案的參與者不需要中心服務(wù)器補償成本,而是直接從聯(lián)邦系統(tǒng)中獲得激勵。 在“成本”方案中,聯(lián)邦系統(tǒng)應(yīng)先補償參與者的入盟成本,然后再分配參與方相應(yīng)的激勵報酬。 在“成本利息”方案中,聯(lián)邦系統(tǒng)在分配激勵前需先補償參與方成本和成本附帶的利息。 因此,在訓(xùn)練開始時“成本利息”方案并不直接獎勵每個參與者,而是首先補償每個參與者的部分成本和利息之和。 此外,“成本利益”方案通過暫時存儲參與方的部分激勵來保護整體系統(tǒng)的安全運行,所以此方案并不會在系統(tǒng)訓(xùn)練中提供與“成本”方案一致的激勵。 但在系統(tǒng)整體迭代訓(xùn)練結(jié)束后,中心服務(wù)器會補償聲譽良好的參與者剩余的激勵。
圖2 補償趨勢仿真圖
總之,根據(jù)準確性和公平性,RRCM 在公平性相似的情況下能提高框架的準確性。 根據(jù)補償趨勢,本方案引入成本-利息機制可以使得聯(lián)邦系統(tǒng)更符合實際生活。 相比于傳統(tǒng)框架,本文提出的RRCM 激勵機制更具有優(yōu)越性和合理性。
本文提出聲譽系統(tǒng)、獎懲措施和成本-利息三種機制相結(jié)合(RRCM)的聯(lián)邦學(xué)習(xí)激勵優(yōu)化,它對聯(lián)合學(xué)習(xí)協(xié)作公平性優(yōu)化改進。 在使得考慮參與方加入聯(lián)邦系統(tǒng)產(chǎn)生成本-利息時,還能使參與方獲得與其貢獻度程度成正相關(guān)的激勵。根據(jù)實驗得出,本文提出的方案不僅能保證準確度無損,還能使公平性得到提升,由此本文提出的激勵優(yōu)化更具有優(yōu)越性。 就獎懲措施方面,本文只是簡單提出可將懲罰的參與方成本作為系統(tǒng)激勵的措施,后續(xù)實驗可以進一步改進獎懲方式,如引入閾值判定的容錯機制或設(shè)置聲譽異常次數(shù)的超參數(shù)等,希望此框架后續(xù)能夠優(yōu)化完善。