何韻詩
(華南理工大學,廣東 廣州 510641)
聯(lián)邦學習本質(zhì)上是1種分布式機器學習框架。聯(lián)邦學習中的參與實體掌握著一部分訓練數(shù)據(jù)和計算資源,能夠保護自身數(shù)據(jù)的隱私安全,通過合作訓練得出反映全局數(shù)據(jù)特征的模型[1-3]。聯(lián)邦學習與傳統(tǒng)學習的本質(zhì)差異在于實體間的互相信任問題。在聯(lián)邦學習過程中,基于對自身利益的保護,各實體方的信任度不同。聯(lián)邦學習提供的共享學習模式能夠使數(shù)據(jù)保持原有的狀態(tài),使系統(tǒng)具有高效性、隱私性以及可用性[4]。
邊緣計算是目前主流的1種分布式計算技術(shù),能夠彌補云計算運行中造成的能耗大和隱私泄露問題。隨著邊緣計算的不斷發(fā)展,它能夠為云計算模式中敏感隱私數(shù)據(jù)提供保護機制。相關(guān)研究表明,基于聯(lián)邦學習的邊緣計算能夠利用數(shù)據(jù)建模解決數(shù)據(jù)隱私方面存在的安全問題[5]。
聯(lián)邦學習是一種機器學習框架,在保障數(shù)據(jù)信息安全的狀態(tài)下,可以實現(xiàn)數(shù)據(jù)共享和數(shù)據(jù)參與方之間的協(xié)作訓練。參與方能夠通過互聯(lián)網(wǎng)技術(shù)與邊緣服務(wù)器建模,構(gòu)建出全局模型[6]。因此,聯(lián)邦學習能夠使邊緣計算應(yīng)用于安全級別更高的場景。基于聯(lián)邦學習的邊緣計算構(gòu)建的模型能夠?qū)崿F(xiàn)數(shù)據(jù)信息的傳輸[7]。
聯(lián)邦學習的概念最初是由谷歌的McMahan于2017年提出的,我國在2018年人工智能大會上詳細地介紹了聯(lián)邦學習的具體研究方向。1年后,我國成為了世界上第1個聯(lián)邦學習框架的開創(chuàng)者,至今已為國內(nèi)外多家企業(yè)提供了相關(guān)服務(wù),實現(xiàn)了聯(lián)邦學習的廣泛應(yīng)用[8]。
聯(lián)邦學習能夠為參與方提供協(xié)同合作和安全學習的協(xié)議。作為新型的學習機制,聯(lián)邦學習能夠在保障數(shù)據(jù)隱私不被侵害的情況下,統(tǒng)一建模多個參與方的數(shù)據(jù),使多個客戶端能夠在同一中央服務(wù)器中進行協(xié)同訓練,同時保證各參與方的數(shù)據(jù)隱私不被公開[9]。聯(lián)邦學習在未來的發(fā)展中具有十分廣闊的應(yīng)用前景,其模型如圖1所示。
圖1 聯(lián)邦學習模型
聯(lián)邦學習中,將海量數(shù)據(jù)的參與方設(shè)為N,其中各參與方擁有的數(shù)據(jù)用{D1,D2,…,DN}表示,以構(gòu)建1個模型MFED。傳統(tǒng)的學習方法是將所有參與方擁有的海量數(shù)據(jù)集中在一起,用D={D1∪D2…DN}來表示,以構(gòu)建出1個模型MSUM。聯(lián)邦學習的過程可以表述如下。第一,系統(tǒng)初始化。系統(tǒng)服務(wù)器明確學習目標和學習模型后,能夠發(fā)布到全局模型中,并指定參數(shù)效率。第二,模型訓練。聯(lián)邦學習參與方能夠使用本身的數(shù)據(jù)在全局模型中進行模擬訓練,通過最小化損失函數(shù)推算本地模型,將梯度參數(shù)上傳至服務(wù)器。第三,服務(wù)器聚合。服務(wù)器接收到各參與方上傳的模型參數(shù),進行聯(lián)邦學習得到1個全新的全局模型,然后更新全局模型參數(shù)。第四,全局模型。當參與方使用全新的全局模型參數(shù)更新本地模型后,再上傳本地模型的梯度參數(shù)。重復(fù)操作上述步驟,將獲得全局模型。相關(guān)研究表明,上述聯(lián)邦學習過程能夠使參與方達到理想模型場景。
保護參與方的隱私安全是聯(lián)邦學習的重要目的。在聯(lián)邦學習過程中,所有參與方共享1個參數(shù)模型,因此參與方實際的數(shù)據(jù)處于隱藏不被公開的狀態(tài)。然而,因為參與方加入或退出時的數(shù)據(jù)信息處于公開狀態(tài),所以存在隱私被竊取或被泄露的風險。相關(guān)研究人員證實,根據(jù)參與方的加入與退出信息能夠檢測相關(guān)的隱私信息。由于服務(wù)器沒有權(quán)限訪問參與方,會使惡意扮演參與方的不法之人偽裝進入開展聯(lián)邦學習,進而竊取其他參與方的隱私。此外,聯(lián)邦學習的服務(wù)器存在一定的安全風險[10]。例如,當聯(lián)邦學習的服務(wù)器出現(xiàn)故障時,惡意參與方往往有機可乘,利用故障服務(wù)器竊取或泄露其他參與方的相關(guān)隱私。參與聯(lián)邦學習的參與方擁有的數(shù)據(jù)和價值存在一定差異,如果參與方掌握大量的數(shù)據(jù)且數(shù)據(jù)價值較高,那么應(yīng)該做好隱私保護工作。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,產(chǎn)生的數(shù)據(jù)量成倍增長,網(wǎng)絡(luò)存儲空間面臨著巨大壓力,而互聯(lián)網(wǎng)技術(shù)對網(wǎng)絡(luò)服務(wù)的響應(yīng)速度和數(shù)據(jù)隱私性有著極高的要求。云計算技術(shù)快速高效地分析大量網(wǎng)絡(luò)數(shù)據(jù),而將數(shù)據(jù)安全有效地傳輸至云計算中心卻有一定難度。在傳輸海量數(shù)據(jù)的過程中,云計算通常會因為數(shù)據(jù)處理耗費大量的時間,降低了用戶的體驗感。
移動終端設(shè)備連接互聯(lián)網(wǎng)會產(chǎn)生海量的數(shù)據(jù)信息?;趥鹘y(tǒng)的云計算技術(shù)無法及時有效地處理海量的數(shù)據(jù)信息,因此邊緣計算的概念首次被提出。邊緣計算是1種在接近智能手機或移動終端的地方提供云計算能力的新型技術(shù)。邊緣計算能夠?qū)⒂嬎隳芰ο鲁恋綗o線側(cè),是1種給用戶提供數(shù)據(jù)計算和數(shù)據(jù)儲存的新型計算模型,能夠極大程度上提高云計算技術(shù)的數(shù)據(jù)存儲處理能力和用戶請求的響應(yīng)速度,減少網(wǎng)絡(luò)帶寬的損耗,進而保證數(shù)據(jù)信息的隱私與安全。邊緣算法模型如圖2所示。
圖2 邊緣算法模型
參與聯(lián)邦學習的參與方和服務(wù)器的可信度不同,因此數(shù)據(jù)信息面臨的安全隱私風險也不相同。按照參與方的可信任程度,將信息安全的領(lǐng)域劃分為理想模型和惡意模型。理想模型是指各參與方都能夠嚴格按照聯(lián)邦學習的相關(guān)協(xié)議進行計算,不違反規(guī)則做過多的運算,并且不使用隱私保護技術(shù)隱藏敏感信息。但是,理想模型是不存在的。要通過隱私保護技術(shù)解決惡意參與方帶來的敏感信息,需要加大聯(lián)邦學習的力度,完善聯(lián)邦學習的相關(guān)制度。聯(lián)邦學習是目前及未來互聯(lián)網(wǎng)數(shù)據(jù)信息隱私安全的主要研究方向。
針對單一個體參與方的隱私保護來說,聯(lián)邦學習采用的是最理想且先進的差分隱私法。差分隱私最初是由DWORK于2006年提出的,是聯(lián)邦學習隱私保護模型的1種,用于保障參與方信息安全。差分隱私不會只針對某1個惡意的攻擊者,即便攻擊者事先掌握了系統(tǒng)中的某1條數(shù)據(jù)信息,也不能推斷出其余未知的信息內(nèi)容。差分隱私有著強大的數(shù)學計算方法,能抵擋入侵者的攻擊,從而保護單個參與者的隱私安全。
ROBINC于2007年提出了關(guān)于差分隱私的用戶級算法,能夠隱藏參與方在聯(lián)邦學習過程中產(chǎn)生的數(shù)據(jù)信息。為有效保護參與方的隱私安全,設(shè)計1種差分隱私的協(xié)議機制,只需在參與方聯(lián)邦學習的數(shù)據(jù)信息上添加1個噪聲即可。
RYU于2008年提出了關(guān)于差分隱私應(yīng)用于聯(lián)邦學習模型的方法,利用差分隱私的交替方向乘子法(Alternating Direction Method of Multipliers,ADMM),解決參與方之間通信受到的外來惡意攻擊。有學者提出利用差分隱私方法構(gòu)建新型的聯(lián)邦學習框架,能夠給參與聯(lián)邦學習用戶方的數(shù)據(jù)信息提供更高級別的隱私保護。結(jié)合聯(lián)邦學習技術(shù)與差分隱私算法,不僅能使單獨的參與方隱私安全受到更好的保護,還能夠有效防止惡意參與方的攻擊。
聯(lián)邦學習過程中,服務(wù)器沒有權(quán)限直接訪問參與方,因此無法保證每1個參與方的可信度,其中難免會有惡意的參與方潛入聯(lián)邦學習中盜取或泄露相關(guān)隱私。聯(lián)邦學習通過差分隱私添加噪聲干擾的方式,保護單一參與方的隱私。但是,經(jīng)過噪聲干擾的數(shù)據(jù),二次傳輸時會存在一段空白,因此存在一定的隱私風險。
傳統(tǒng)的加密技術(shù)十分復(fù)雜且計算量較大,無法應(yīng)用于存儲空間小或者計算能力差的設(shè)備。為防止有惡意參與方盜取隱私行為,需采用更加精密的加密技術(shù)。同態(tài)加密是1種能夠?qū)崿F(xiàn)多方計算的技術(shù),不需要解密密文,只需通過代數(shù)運算便能夠加密。同態(tài)加密經(jīng)過一系列運算加密后的結(jié)果與經(jīng)過破譯后的效果相同。
差分隱私算法與同態(tài)加密技術(shù)能夠極大程度上提高隱私保護效率。針對單一的參與方使用差分隱私方法中的噪聲干擾,結(jié)合同態(tài)加密技術(shù)能夠在聯(lián)邦學習過程中消除部分噪聲的干擾,從而更好地保護隱私,防范惡意參與方與不可信的服務(wù)器聯(lián)合竊取隱私,保護參與方在聯(lián)邦學習的過程中加入或退出相關(guān)信息。
聯(lián)邦學習僅通過傳輸模型的參數(shù),不需要共享實際的數(shù)據(jù),能夠解決各參與方的數(shù)據(jù)孤島問題。大數(shù)據(jù)環(huán)境下,海量的數(shù)據(jù)信息出現(xiàn)在互聯(lián)網(wǎng)中,需要保護參與方的隱私,提高聯(lián)邦學習的效率。目前,許多專家及學者結(jié)合先進的區(qū)塊鏈技術(shù)與聯(lián)邦學習,通過適當?shù)募顧C制,大大提高了參與方聯(lián)邦學習的主動性與積極性。
此前,聯(lián)邦學習中的激勵機制和公平研究多以區(qū)塊鏈技術(shù)開展。激勵機制是為了吸引更多掌握著有價值數(shù)據(jù)的參與方加入聯(lián)邦學習,提高聯(lián)邦學習的模型的完整性。區(qū)塊鏈技術(shù)作為目前先進的信息技術(shù),能夠給聯(lián)邦學習的激勵機制提供安全保障。目前,這方面的研究尚未成熟,需要不斷探索和研究區(qū)塊鏈技術(shù)與聯(lián)邦學習。
邊緣計算成為代替云計算的1種新型計算技術(shù),能夠精確計算海量數(shù)據(jù),經(jīng)過存儲、傳輸、共享以及隱私保護等方式嚴格保密數(shù)據(jù)。聯(lián)邦學習是1種新型分布式機器學習方式,將其應(yīng)用在邊緣計算中能夠讓邊緣設(shè)備的數(shù)據(jù)信息保持原有的狀態(tài),并協(xié)同相關(guān)的機器模型共同訓練。聯(lián)邦學習技術(shù)能夠為邊緣計算的數(shù)據(jù)信息提供隱私保護,而邊緣計算能夠基于聯(lián)邦學習實現(xiàn)互聯(lián)網(wǎng)技術(shù)的新跨越。因此,基于聯(lián)邦學習的邊緣計算是目前及未來科學技術(shù)領(lǐng)域中的重要研究方向。