周彥果
電科院 北京 100000
隨著物聯(lián)網(wǎng)、云計(jì)算、邊緣智能、5G/6G網(wǎng)絡(luò)、人工智能等新興信息技術(shù)在各領(lǐng)域應(yīng)用的不斷加深,給人們的生活帶來(lái)極大的便利,但與此同時(shí),相關(guān)數(shù)據(jù)和信息安全問(wèn)題也受到越來(lái)越廣泛的關(guān)注。聯(lián)邦學(xué)習(xí)作為一種加密的分布式機(jī)器學(xué)習(xí)技術(shù),為解決數(shù)據(jù)隱私與數(shù)據(jù)共享之間的矛盾開(kāi)辟了一條新的路徑,已成為學(xué)界和業(yè)界的研究熱點(diǎn)之一。通過(guò)探索聯(lián)邦學(xué)習(xí)與物聯(lián)網(wǎng)、云計(jì)算、邊緣智能、5G/6G網(wǎng)絡(luò)等新興技術(shù)融合應(yīng)用,可解決相關(guān)新興技術(shù)在實(shí)際應(yīng)用中存在的問(wèn)題,進(jìn)一步推動(dòng)相關(guān)技術(shù)的性能提升及應(yīng)用落地。
聯(lián)邦學(xué)習(xí)作為新興的人工智能基礎(chǔ)技術(shù),在2016年由谷歌公司率先提出,其主要思想是允許終端設(shè)備利用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建本地模型,并僅與參數(shù)服務(wù)器共享模型參數(shù)。參數(shù)服務(wù)器聚合多個(gè)本地模型的參數(shù),通過(guò)多次迭代,得到高可信度和準(zhǔn)確率聯(lián)邦模型題[1]。聯(lián)邦學(xué)習(xí)具有以下優(yōu)點(diǎn):
一是實(shí)現(xiàn)本地?cái)?shù)據(jù)隔離,滿足用戶隱私保護(hù)和數(shù)據(jù)安全的需求;
二是通過(guò)終端設(shè)備協(xié)同優(yōu)化模型參數(shù),實(shí)現(xiàn)模型算法的高可信度和準(zhǔn)確率;
三是能夠?qū)崿F(xiàn)終端設(shè)備在模型訓(xùn)練中的公平合作;
四是能夠保證參與各方在保持獨(dú)立性的情況下,進(jìn)行信息與模型參數(shù)的加密交換,并同時(shí)獲得模型的優(yōu)化。
物聯(lián)網(wǎng)設(shè)備的數(shù)量呈指數(shù)級(jí)增長(zhǎng),據(jù)研究機(jī)構(gòu)IDC預(yù)測(cè),到2025年全球范圍內(nèi)將有超過(guò)800億臺(tái)的終端設(shè)備,這也必將導(dǎo)致產(chǎn)生的數(shù)據(jù)量激增,據(jù)Cisco云指數(shù)預(yù)測(cè),到2021年產(chǎn)生的數(shù)據(jù)將達(dá)到847 ZB。物聯(lián)網(wǎng)設(shè)備產(chǎn)生的海量數(shù)據(jù)以集中的方式存儲(chǔ)、處理是困難且低效的,并且海量數(shù)據(jù)的分析處理帶來(lái)的計(jì)算時(shí)延和數(shù)據(jù)隱私問(wèn)題,是機(jī)器學(xué)習(xí)在物聯(lián)網(wǎng)應(yīng)用中面臨的兩個(gè)最大挑戰(zhàn)。機(jī)器學(xué)習(xí)在物聯(lián)網(wǎng)設(shè)備管理、設(shè)備部署、安全與隱私保護(hù)、數(shù)據(jù)分析與決策等方面的應(yīng)用,極大地促進(jìn)了物聯(lián)網(wǎng)的發(fā)展。機(jī)器學(xué)習(xí)在物聯(lián)網(wǎng)中的應(yīng)用價(jià)值主要源自于其擅長(zhǎng)處理大量的訓(xùn)練數(shù)據(jù)和強(qiáng)大的計(jì)算能力,但數(shù)據(jù)隱私問(wèn)題的存在,大大阻礙了其在物聯(lián)網(wǎng)中的應(yīng)用[2]。由于個(gè)人物聯(lián)網(wǎng)設(shè)備所產(chǎn)生的數(shù)據(jù)具有一定的隱私性,致使設(shè)備擁有者不愿進(jìn)行個(gè)人數(shù)據(jù)的分享。
在這種情況下,聯(lián)邦學(xué)習(xí)應(yīng)運(yùn)而生。聯(lián)邦學(xué)習(xí)在縮短訓(xùn)練時(shí)間、保護(hù)訓(xùn)練數(shù)據(jù)隱私等方面展現(xiàn)出巨大的潛力,由于其不涉及本地?cái)?shù)據(jù)共享,能夠較好地實(shí)現(xiàn)用戶隱私保護(hù),實(shí)現(xiàn)高效安全的全局學(xué)習(xí)模型構(gòu)建。同時(shí),物聯(lián)網(wǎng)終端設(shè)備產(chǎn)生的海量數(shù)據(jù),也為聯(lián)邦學(xué)習(xí)提供了大量的訓(xùn)練數(shù)據(jù)資源,有利于機(jī)器學(xué)習(xí)模型精準(zhǔn)度的提升。未來(lái)幾年,隨著5G/6G通信技術(shù)的推廣應(yīng)用,物聯(lián)網(wǎng)設(shè)備必將獲得更高帶寬和較低的延遲,這將有利于其有效利用自身的計(jì)算資源,實(shí)現(xiàn)以更快、更優(yōu)的方式訓(xùn)練其本地模型。
在傳統(tǒng)的集中式數(shù)據(jù)處理場(chǎng)景中,物聯(lián)網(wǎng)設(shè)備、智能手機(jī)等設(shè)備終端產(chǎn)生的數(shù)據(jù)匯聚至云數(shù)據(jù)中心進(jìn)行集中處理。然而,這種方式存在兩大問(wèn)題[3]:一是數(shù)據(jù)安全隱患,云計(jì)算環(huán)境復(fù)雜、信息存儲(chǔ)量巨大且具有虛擬的特性,故而云計(jì)算中的數(shù)據(jù)會(huì)出現(xiàn)濫用、被惡意竊取等現(xiàn)象,影響用戶的信息安全;二是數(shù)據(jù)時(shí)延問(wèn)題。由于設(shè)備終端在地理空間上是高度分散,致使設(shè)備終端與云服務(wù)器之間的距離比較遠(yuǎn),數(shù)據(jù)雙向傳輸產(chǎn)生的時(shí)延難以忽略。簡(jiǎn)言之,云計(jì)算更適用于非實(shí)時(shí)、長(zhǎng)周期、需要周期性維護(hù)的數(shù)據(jù)分析業(yè)務(wù)。
聯(lián)邦學(xué)習(xí)在不共享本地?cái)?shù)據(jù)的情況下,通過(guò)多臺(tái)終端設(shè)備協(xié)作訓(xùn)練機(jī)器學(xué)習(xí)模型,可解決云計(jì)算所面臨的數(shù)據(jù)隱私泄露問(wèn)題。同時(shí),由于聯(lián)邦學(xué)習(xí)無(wú)須將本地?cái)?shù)據(jù)發(fā)送至云服務(wù)器,并選擇與距離較近的服務(wù)器共享模型參數(shù),可以緩解云計(jì)算數(shù)據(jù)時(shí)延大的問(wèn)題。但由于聯(lián)邦學(xué)習(xí)每次模型的迭代更新可能需要設(shè)備與云服務(wù)器進(jìn)行數(shù)百萬(wàn)個(gè)參數(shù)的共享,且迭代次數(shù)無(wú)法忽略,故而數(shù)據(jù)處理時(shí)延仍是其面臨的挑戰(zhàn)之一。
邊緣計(jì)算是近年的研究熱點(diǎn),被認(rèn)為是5G與工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等的重要結(jié)合點(diǎn),能夠推動(dòng)相關(guān)產(chǎn)業(yè)帶來(lái)飛躍性發(fā)展。邊緣計(jì)算和云計(jì)算一樣,都是分布式計(jì)算的一種范式,但邊緣計(jì)算系統(tǒng)不連接到云計(jì)算平臺(tái),就可以在本地設(shè)備上進(jìn)行大部分?jǐn)?shù)據(jù)的實(shí)時(shí)處理。與云計(jì)算相比,邊緣計(jì)算更專注于局部,聚焦實(shí)時(shí)、短周期數(shù)據(jù)的分析,能夠更好地支撐本地業(yè)務(wù)的實(shí)時(shí)智能化處理與執(zhí)行。在實(shí)際使用案例中,邊緣設(shè)備主要采用深度學(xué)習(xí)算法完成圖像和語(yǔ)音識(shí)別、自然語(yǔ)言處理、異常檢測(cè)等任務(wù)。深度學(xué)習(xí)算法通過(guò)多層處理,將初始的“低層”特征逐漸表示轉(zhuǎn)化為“高層”特征,依據(jù)輸入來(lái)傳遞輸出參數(shù)。視覺(jué)處理單元(VPU)和RISC-V等硬件在邊緣設(shè)備中的應(yīng)用,大大提升了邊緣設(shè)備硬件運(yùn)行深度學(xué)習(xí)算法的性能。視覺(jué)處理單元(VPU)作為新興的微處理器,旨在加速機(jī)器視覺(jué)算法。VPU集成多種專門進(jìn)行視覺(jué)處理的硬件結(jié)構(gòu),針對(duì)視覺(jué)處理應(yīng)用而設(shè)計(jì),專門為視覺(jué)處理進(jìn)行硬件系統(tǒng)的優(yōu)化。而RISC-V是一種指令集體系結(jié)構(gòu)(ISA),它體現(xiàn)了精簡(jiǎn)指令集計(jì)算機(jī)(RISC)標(biāo)準(zhǔn)的思想。RISC-V作為開(kāi)源指令集架構(gòu),更適用于現(xiàn)代計(jì)算設(shè)備。
邊緣智能是將邊緣計(jì)算和人工智能相結(jié)合,在邊緣設(shè)備上運(yùn)行人工智能算法,使邊緣節(jié)點(diǎn)在邊緣側(cè)具備提供高級(jí)數(shù)據(jù)分析、場(chǎng)景感知、實(shí)時(shí)決策、自組織與協(xié)同等服務(wù)的能力。邊緣智能的實(shí)現(xiàn)需要邊緣設(shè)備具備以下能力:一是可連接性。設(shè)備能夠連接到網(wǎng)絡(luò)(例如互聯(lián)網(wǎng)、本地網(wǎng)絡(luò)),具備信息交換的能力。二是計(jì)算能力。設(shè)備配備有處理芯片等計(jì)算資源,具備近實(shí)時(shí)的數(shù)據(jù)分析能力。三是可控性。設(shè)備具備在網(wǎng)絡(luò)執(zhí)行決策、采取行動(dòng)、做出及時(shí)更改和激發(fā)行動(dòng)。四是自主性。設(shè)備具備自主計(jì)算能力,能夠自我監(jiān)控、管理自己的數(shù)據(jù)和資源。
聯(lián)邦學(xué)習(xí)和邊緣智能相結(jié)合具有以下優(yōu)點(diǎn)[4]:
一是降低延遲、提升帶寬利用率。深度神經(jīng)網(wǎng)絡(luò)算法包含多個(gè)隱層,邊緣智能可以靈活進(jìn)行DNN處理。即在邊緣設(shè)備執(zhí)行較低層的DNN處理,其余的交由云服務(wù)器處理,實(shí)現(xiàn)以最小的帶寬消耗和延遲完成算法處理,尤其適用于采用LoRa和NBIOT無(wú)線傳輸技術(shù)的物聯(lián)網(wǎng)設(shè)備。
二是增強(qiáng)安全性。與傳統(tǒng)的云計(jì)算體系架構(gòu)相比,邊緣智能可以提升聯(lián)邦學(xué)習(xí)過(guò)程的安全性。云計(jì)算集中式架構(gòu)會(huì)使得聯(lián)邦學(xué)習(xí)特別容易受到分布式拒絕服務(wù)(DDoS)攻擊的威脅,而邊緣智能將存儲(chǔ)和處理放在邊緣設(shè)備和數(shù)據(jù)中心,大量數(shù)據(jù)都在邊緣設(shè)備上進(jìn)行處理,即使一些邊緣設(shè)備受到攻擊,與云服務(wù)器上整套數(shù)據(jù)可能被截獲相比,也大大降低了風(fēng)險(xiǎn)。
三是高可靠性。邊緣智能降低了遠(yuǎn)程數(shù)據(jù)中心網(wǎng)絡(luò)問(wèn)題影響本地用戶體驗(yàn)的可能性,即使附近的某個(gè)區(qū)域數(shù)據(jù)中心發(fā)生中斷,邊緣設(shè)備也將能夠有效地利用其自身數(shù)據(jù)處理能力執(zhí)行相關(guān)操作。大量的邊緣數(shù)據(jù)中心和邊緣設(shè)備使得單一故障不會(huì)致使整個(gè)服務(wù)完全中斷。
5G移動(dòng)通信技術(shù)對(duì)于邊緣智能和物聯(lián)網(wǎng)的發(fā)展非常重要。隨著物聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量也會(huì)增加,傳輸速度也會(huì)受到影響。相較于4G只能以1Gbps的速度傳輸數(shù)據(jù),5G可以實(shí)現(xiàn)20Gbps甚至更高的數(shù)據(jù)傳輸數(shù)據(jù)。5G還支持比4G更多的并發(fā)連接和更短的延遲,支持海量設(shè)備之間的更多交互。5G的三大應(yīng)用場(chǎng)景:增強(qiáng)移動(dòng)寬帶(eMBB)、超高可靠與低延遲通信(URLLC)和海量機(jī)器通信(mMTC)。通過(guò)提供高達(dá)20 Gbps的吞吐速度,eMBB主要用于支持需要高數(shù)據(jù)率的應(yīng)用場(chǎng)景,進(jìn)一步提升用戶體驗(yàn)。如體育競(jìng)技等高清視頻內(nèi)容共享、虛擬現(xiàn)實(shí)等。URLLC可提供超低延遲的超響應(yīng)連接。與eMBB不同,URLLC中的數(shù)據(jù)速率不是很高,但連接設(shè)計(jì)支持高可靠性的特點(diǎn)使得URLLC適用于任務(wù)關(guān)鍵型的應(yīng)用,如遠(yuǎn)程醫(yī)療協(xié)助、自動(dòng)駕駛、工業(yè)自動(dòng)化控制。mMTC的主要目標(biāo)是實(shí)現(xiàn)海量設(shè)備的連接,但其可靠性較低。mMTC適用于大量低功耗設(shè)備,故而廣泛應(yīng)用于物聯(lián)網(wǎng)設(shè)備。簡(jiǎn)言之,5G網(wǎng)絡(luò)的目的是將無(wú)線通信從面向通信的體系結(jié)構(gòu)轉(zhuǎn)變?yōu)橹С只ヂ?lián)互通思想的面向服務(wù)的體系結(jié)構(gòu)。6G移動(dòng)通信技術(shù)是5G的演進(jìn),實(shí)現(xiàn)從5G提供的“關(guān)聯(lián)事物”概念向“關(guān)聯(lián)情報(bào)”概念的過(guò)渡。6G將通過(guò)隨時(shí)隨地高效采集、傳輸和分析數(shù)據(jù),形成人、事、物全面關(guān)聯(lián)的互聯(lián)網(wǎng),實(shí)現(xiàn)創(chuàng)新和智能服務(wù)。不同于以往以數(shù)據(jù)、機(jī)器或應(yīng)用程序?yàn)橹行牡姆绞剑?G與無(wú)處不在的AI相結(jié)合,實(shí)現(xiàn)以服務(wù)人為中心,實(shí)現(xiàn)智慧的泛在可取、全面賦能萬(wàn)事萬(wàn)物,推動(dòng)智能信息社會(huì)的發(fā)展。
聯(lián)邦學(xué)習(xí)由于可實(shí)現(xiàn)無(wú)線終端設(shè)備只進(jìn)行機(jī)器學(xué)習(xí)模型參數(shù)的共享,而無(wú)須上傳本地訓(xùn)練數(shù)據(jù),故而作為“人工智能”新生代力量,引起學(xué)界和業(yè)界的廣泛關(guān)注。一方面,聯(lián)邦學(xué)習(xí)可以很好地解決5G/6G網(wǎng)絡(luò)中存在的很多問(wèn)題[5]。例如,聯(lián)邦強(qiáng)化學(xué)習(xí)算法可以為復(fù)雜凸優(yōu)化和非凸優(yōu)化問(wèn)題提供有效的解決方案,即將這些問(wèn)題建模為資源管理、網(wǎng)絡(luò)控制、干擾對(duì)準(zhǔn)和用戶分組等幾個(gè)關(guān)鍵問(wèn)題進(jìn)行處理。聯(lián)邦監(jiān)督學(xué)習(xí)算法可用于5G/6G網(wǎng)絡(luò)中,提供分析服務(wù),例如無(wú)線環(huán)境分析、用戶識(shí)別、用戶身份驗(yàn)證、訪問(wèn)控制管理、行為預(yù)測(cè)和入侵檢測(cè)等。另一方面,5G/6G網(wǎng)絡(luò)的發(fā)展也可以促使聯(lián)邦學(xué)習(xí)具有更廣泛的適用性。例如,為物聯(lián)網(wǎng)和邊緣設(shè)備配備5G/6G網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)據(jù)傳輸?shù)母邘捖屎偷脱舆t,使得設(shè)備能夠更高效地利用其計(jì)算資源進(jìn)行模型訓(xùn)練。同樣,在eMBB應(yīng)用場(chǎng)景中的高數(shù)據(jù)速率,將使得終端設(shè)備和參數(shù)服務(wù)器之間全局模型的交換過(guò)程更加高效。
隨著新興信息技術(shù)的飛速發(fā)展和廣泛應(yīng)用,在萬(wàn)物互聯(lián)的背景下,海量無(wú)線終端設(shè)備產(chǎn)生數(shù)據(jù)必將呈現(xiàn)爆炸式增長(zhǎng),探索聯(lián)邦學(xué)習(xí)技術(shù)與物聯(lián)網(wǎng)、云計(jì)算、邊緣智能、5G/6G網(wǎng)絡(luò)等新興信息技術(shù)的融合應(yīng)用,以解決未來(lái)智能無(wú)線網(wǎng)絡(luò)中的數(shù)據(jù)隱私問(wèn)題和傳輸資源限制問(wèn)題,提升相關(guān)技術(shù)性能,推動(dòng)智能信息社會(huì)的發(fā)展。