蔣 麗,謝勝利,張 彥
(1. 廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006;2. 挪威奧斯陸大學(xué) 信息學(xué)院,奧斯陸 0316)
為了應(yīng)對(duì)未來海量數(shù)據(jù)、新興的服務(wù)和動(dòng)態(tài)應(yīng)用場(chǎng)景的通信需求,學(xué)術(shù)界、工業(yè)界以及政府已啟動(dòng)第6代(6G)移動(dòng)通信研究計(jì)劃,通過采用太赫茲和可見光新頻譜技術(shù)、全新信道編碼、超大規(guī)模天線、全自由度雙工、空天地海一體化通信等,提供每秒太比特速率、支撐平均每人1 000+無線節(jié)點(diǎn)連接,并提供隨時(shí)隨地即時(shí)全息連接。隨著立體覆蓋、極致性能、深度連接、泛在連接、全息連接等6G愿景達(dá)成共識(shí),智能終端和網(wǎng)元節(jié)點(diǎn)激增、個(gè)性化服務(wù)定制、多場(chǎng)景多業(yè)務(wù)動(dòng)態(tài)疊加等問題給網(wǎng)絡(luò)優(yōu)化和管理帶來嚴(yán)峻挑戰(zhàn)。傳統(tǒng)以規(guī)則式算法為核心的運(yùn)行機(jī)理已無法應(yīng)對(duì)規(guī)模和復(fù)雜性空前的6G網(wǎng)絡(luò)。在此背景下,引入人工智能,借鑒其解決復(fù)雜非線性系統(tǒng)問題的能力,以及強(qiáng)大的預(yù)測(cè)和決策能力,能夠促進(jìn)網(wǎng)絡(luò)智能化升級(jí),突破無線網(wǎng)絡(luò)發(fā)展瓶頸[1-3]。
近年,人工智能和大數(shù)據(jù)挖掘技術(shù)的快速發(fā)展,為應(yīng)對(duì)6G復(fù)雜挑戰(zhàn)提供了有效助力。通過在網(wǎng)絡(luò)終端、網(wǎng)元節(jié)點(diǎn)與網(wǎng)絡(luò)架構(gòu)、網(wǎng)絡(luò)承載業(yè)務(wù)等多個(gè)層次嵌入智能,同時(shí)將人工智能的邏輯嵌入到網(wǎng)絡(luò)結(jié)構(gòu)中,使網(wǎng)絡(luò)組件能夠自主連接和控制,并能自動(dòng)進(jìn)行網(wǎng)絡(luò)配置、自主分析和決策、主動(dòng)優(yōu)化網(wǎng)絡(luò)故障,最終實(shí)現(xiàn)網(wǎng)絡(luò)的自主發(fā)展,構(gòu)建智慧內(nèi)生的6G網(wǎng)絡(luò)。有關(guān)無線網(wǎng)絡(luò)智能化的研究和標(biāo)準(zhǔn)化工作已成為業(yè)界的研究熱點(diǎn)。2020年11月中興通訊發(fā)布首份無線網(wǎng)絡(luò)智能化白皮書,通過在無線網(wǎng)絡(luò)的規(guī)劃、建設(shè)、維護(hù)、優(yōu)化以及運(yùn)營(yíng)等各階段全面引入人工智能,并基于網(wǎng)絡(luò)分析、控制和管理三大能力,保障網(wǎng)絡(luò)連接和性能承諾,實(shí)現(xiàn)無線網(wǎng)絡(luò)的單域自治閉環(huán)。然而,人工智能在提高無線網(wǎng)絡(luò)的效能、靈活性和自治能力的同時(shí),也存在新的安全挑戰(zhàn)。在大多數(shù)情況下,人工智能任務(wù)是在數(shù)據(jù)中心進(jìn)行計(jì)算和部署的,其中的學(xué)習(xí)機(jī)制需要大量的網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練模型。而這些網(wǎng)絡(luò)數(shù)據(jù)除了機(jī)密文件、隱私信息,還包含人的生物特征識(shí)別信息、家庭電器控制信息、車輛的自動(dòng)駕駛控制信息等敏感信息。一旦惡意用戶攻擊數(shù)據(jù)中心,將會(huì)導(dǎo)致這些信息的泄露,進(jìn)而對(duì)用戶的財(cái)產(chǎn)甚至生命造成威脅[4]。
聯(lián)邦學(xué)習(xí)是一種新興的分布式機(jī)器學(xué)習(xí)架構(gòu)[5]。在聯(lián)邦學(xué)習(xí)中,大規(guī)模移動(dòng)設(shè)備使用本地存儲(chǔ)的數(shù)據(jù)執(zhí)行訓(xùn)練任務(wù),并將訓(xùn)練的本地模型參數(shù)上傳到數(shù)據(jù)中心聚合。與傳統(tǒng)基于數(shù)據(jù)中心的集中式訓(xùn)練方式相比,聯(lián)邦學(xué)習(xí)只需要上傳訓(xùn)練好的模型參數(shù),能有效減少數(shù)據(jù)傳輸開銷,提升對(duì)用戶隱私數(shù)據(jù)的保護(hù)。目前,谷歌已在谷歌輸入法Gboard上測(cè)試聯(lián)邦學(xué)習(xí)[6]。當(dāng)聯(lián)邦學(xué)習(xí)應(yīng)用到未來無線網(wǎng)絡(luò)中,仍面臨著一些嚴(yán)峻的挑戰(zhàn)。移動(dòng)設(shè)備有限的資源以及復(fù)雜多變的無線傳輸環(huán)境將導(dǎo)致信號(hào)嚴(yán)重失真以及模型聚合誤差,進(jìn)而使聯(lián)邦學(xué)習(xí)的收斂速率和預(yù)測(cè)準(zhǔn)確率下降。Chen等[7]研究了無線網(wǎng)絡(luò)中的聯(lián)邦學(xué)習(xí)訓(xùn)練過程,提出聯(lián)合移動(dòng)設(shè)備選擇和無線資源分配的優(yōu)化方案,以實(shí)現(xiàn)最小化聯(lián)邦學(xué)習(xí)損失函數(shù)的目標(biāo)。Ni等[8]提出使用智能反射面輔助本地模型參數(shù)傳輸,通過優(yōu)化移動(dòng)設(shè)備的發(fā)送功率和智能反射面的相移,以實(shí)現(xiàn)最小化聯(lián)邦學(xué)習(xí)聚合模型平均均方誤差的目標(biāo)。Lu等[9]將聯(lián)邦學(xué)習(xí)應(yīng)用到車聯(lián)網(wǎng)中,通過選擇訓(xùn)練精度高和訓(xùn)練速度快的移動(dòng)車輛完成模型聚合,提高全局模型的預(yù)測(cè)準(zhǔn)確率。但上述研究均忽略了移動(dòng)設(shè)備參與模型聚合的意愿問題。在聯(lián)邦的模型訓(xùn)練過程中,移動(dòng)設(shè)備會(huì)產(chǎn)生大量計(jì)算和通信開銷。自私的移動(dòng)設(shè)備不愿意無償參與模型訓(xùn)練,這將使模型聚合樣本減少,進(jìn)而導(dǎo)致全局模型聚合性能下降。針對(duì)聯(lián)邦學(xué)習(xí)資源協(xié)作激勵(lì)機(jī)制的研究相對(duì)較少。Le等[10]提出使用組合拍賣博弈,基站作為買方向移動(dòng)設(shè)備發(fā)布訓(xùn)練任務(wù),移動(dòng)設(shè)備作為賣方根據(jù)訓(xùn)練任務(wù)需要的資源、本地訓(xùn)練準(zhǔn)確率以及相應(yīng)能量開銷,向基站提交出價(jià)?;敬_定競(jìng)拍成功者并支付相應(yīng)報(bào)酬。Sun等[11]研究了聯(lián)邦學(xué)習(xí)在無人機(jī)網(wǎng)絡(luò)中的應(yīng)用,提出使用斯塔克伯格博弈激勵(lì)地面移動(dòng)設(shè)備參與模型訓(xùn)練。但在實(shí)際無線網(wǎng)絡(luò)中,買賣雙方存在信息非對(duì)稱性,即考慮隱私信息的保護(hù),移動(dòng)設(shè)備作為賣方不愿意向買方揭露自身真實(shí)信息,例如可用資源、本地模型訓(xùn)練準(zhǔn)確率、模型訓(xùn)練能量開銷等。因此,買方難以制定相應(yīng)報(bào)酬。
為了解決以上問題,本文主要研究工作如下。
(1) 在6G無線網(wǎng)絡(luò)中,構(gòu)建基于聯(lián)邦學(xué)習(xí)的終端到終端(Device to Device,D2D)數(shù)據(jù)共享框架。本地接入點(diǎn)采集移動(dòng)終端的任務(wù)請(qǐng)求,并將采集的任務(wù)請(qǐng)求發(fā)布給模型訓(xùn)練終端。模型訓(xùn)練終端根據(jù)自身存儲(chǔ)的數(shù)據(jù)訓(xùn)練本地模型,并把訓(xùn)練好的本地模型上傳給本地接入點(diǎn)聚合。本地接入點(diǎn)和模型訓(xùn)練終端迭代地訓(xùn)練全局模型,然后將訓(xùn)練好的全局模型反饋給任務(wù)請(qǐng)求終端。最后,任務(wù)請(qǐng)求終端向模型訓(xùn)練終端支付相應(yīng)報(bào)酬,以補(bǔ)償模型訓(xùn)練過程中的資源消耗。
(2) 考慮任務(wù)請(qǐng)求終端和模型聚合終端之間的信息非對(duì)稱性,提出基于迭代雙邊拍賣的資源協(xié)作激勵(lì)機(jī)制。模型訓(xùn)練方作為賣方,任務(wù)請(qǐng)求方作為買方。本地接入點(diǎn)充當(dāng)拍賣師,引導(dǎo)買賣雙方根據(jù)各自聯(lián)邦學(xué)習(xí)性能需求以及可用資源出價(jià),并根據(jù)買賣雙方的出價(jià)進(jìn)行最優(yōu)模型訓(xùn)練資源分配和定價(jià),以實(shí)現(xiàn)最大化聯(lián)邦學(xué)習(xí)市場(chǎng)的總效用。
(3) 根據(jù)真實(shí)數(shù)據(jù)集,對(duì)提出的資源協(xié)作激勵(lì)機(jī)制進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證。結(jié)果表明,本文提出的基于雙邊拍賣的聯(lián)邦學(xué)習(xí)資源協(xié)作激勵(lì)機(jī)制可以提高聯(lián)邦學(xué)習(xí)模型的準(zhǔn)確率,并且減少模型訓(xùn)練損失。同時(shí),在買賣雙方信息非對(duì)稱性情況下,最大化聯(lián)邦學(xué)習(xí)市場(chǎng)效用。
本文構(gòu)建的系統(tǒng)模型如圖1所示??紤]6G網(wǎng)絡(luò)中的D2D通信場(chǎng)景,其中,本地接入點(diǎn)配有邊緣計(jì)算服務(wù)器,具有較強(qiáng)的計(jì)算和存儲(chǔ)功能。同時(shí),本地接入點(diǎn)部署有人工智能模塊,可通過感知、預(yù)測(cè)、挖掘、推理對(duì)多維網(wǎng)絡(luò)信息進(jìn)行認(rèn)知和分析,并做出相應(yīng)決策。在本地接入點(diǎn)的覆蓋范圍內(nèi),分布有多個(gè)智能終端,智能終端之間以D2D通信的方式共享數(shù)據(jù)。此處的數(shù)據(jù)共享是指根據(jù)本地存儲(chǔ)的數(shù)據(jù)進(jìn)行聯(lián)邦的任務(wù)計(jì)算,并將計(jì)算結(jié)果反饋給請(qǐng)求方,例如,流行音樂、電影、游戲等多媒體內(nèi)容的推薦。本地接入點(diǎn)協(xié)助建立智能終端用戶之間的D2D通信鏈路??紤]當(dāng)前有Q個(gè)任務(wù)請(qǐng)求終端,表示為Q ?{1,2,···,Q},任務(wù)請(qǐng)求終端q,q∈Q, 發(fā)送共享數(shù)據(jù)請(qǐng)求Reqq。本地接入點(diǎn)采集共享數(shù)據(jù)請(qǐng)求,并將采集的共享數(shù)據(jù)請(qǐng)求發(fā)布給R個(gè)任務(wù)計(jì)算終端,表示為R ?{1,2,···,R}。每個(gè)任務(wù)計(jì)算終端存儲(chǔ)有任務(wù)請(qǐng)求終端需要的數(shù)據(jù),存儲(chǔ)關(guān)于共享數(shù)據(jù)請(qǐng)求Reqq的數(shù)據(jù)表示為Dq={D1q,D2q,···,Drq},q∈Q ,Drq={(xrq,1,yrq,1),(xrq,2,yrq,2),···,(xrq,Drq,yrq,Drq)}。任務(wù)計(jì)算終端采用聯(lián)邦學(xué)習(xí)完成計(jì)算任務(wù)。在聯(lián)邦學(xué)習(xí)中,任務(wù)計(jì)算終端根據(jù)本地存儲(chǔ)的數(shù)據(jù) Dq,執(zhí)行本地模型訓(xùn)練,并將訓(xùn)練好的本地模型參數(shù)上傳到本地接入點(diǎn)聚合。任務(wù)計(jì)算終端和本地接入點(diǎn)迭代地交互訓(xùn)練模型,直到獲得訓(xùn)練模型Mq和模型參數(shù)wq,以實(shí)現(xiàn)最小化損失函數(shù)f(wq)的目標(biāo)。具體優(yōu)化問題構(gòu)造如下:
圖1 基于迭代雙邊拍賣的聯(lián)邦學(xué)習(xí)框架Fig.1 Iterative double auction-based federated learning
每個(gè)任務(wù)計(jì)算終端使用正交頻分多址接入技術(shù)(Orthogonal Frequency Division Multiple Access,OFDMA)將訓(xùn)練的本地模型參數(shù)發(fā)送到本地接入點(diǎn)聚合。任務(wù)終端r分配到的子信道表示為Wrq,每個(gè)子信道的帶寬均為W0。從任務(wù)計(jì)算終端r到本地接入點(diǎn)的數(shù)據(jù)速率表示為
基于以上分析,如果任務(wù)計(jì)算終端在本地訓(xùn)練過程中貢獻(xiàn)更多計(jì)算資源,同時(shí)在本地模型參數(shù)傳輸過程中分配更多通信資源,例如分配更多發(fā)送功率和子信道等,式(2)中本地模型訓(xùn)練和式(3)中全局模型訓(xùn)練的收斂速率會(huì)加快。然而,任務(wù)計(jì)算終端資源有限,而且其處理自身數(shù)據(jù)業(yè)務(wù)也需要消耗資源。因此,為了激勵(lì)任務(wù)終端貢獻(xiàn)資源參與聯(lián)邦學(xué)習(xí),有必要設(shè)計(jì)合適的資源協(xié)作激勵(lì)機(jī)制,以補(bǔ)償任務(wù)終端的資源消耗。
本文提出基于迭代雙邊拍賣的聯(lián)邦學(xué)習(xí)資源協(xié)作激勵(lì)機(jī)制,以激勵(lì)任務(wù)計(jì)算終端貢獻(xiàn)自身資源參與聯(lián)邦學(xué)習(xí)的模型訓(xùn)練。迭代雙邊拍賣廣泛用于經(jīng)濟(jì)學(xué)中,解決信息非對(duì)稱性情況下的買賣雙方交易問題。拍賣師設(shè)計(jì)合適的價(jià)格機(jī)制引導(dǎo)買賣雙方真實(shí)地出價(jià),以揭露買賣雙方隱藏的信息,最終實(shí)現(xiàn)交易均衡的目標(biāo)。已有研究[13]證明迭代雙邊拍賣具有個(gè)體理性、弱預(yù)算均衡和高經(jīng)濟(jì)效率等特征,適用于具有多個(gè)買賣雙方的交易場(chǎng)景。
可以看出,優(yōu)化問題式(11)和(9)有相同的限制條件,但是優(yōu)化目標(biāo)各不相同。根據(jù)KKT條件,可推導(dǎo)出以下等式。
可以看出,式(12a)~(12b)和式(10a)~(10b)不相同,如果任務(wù)請(qǐng)求終端和任務(wù)計(jì)算終端按照式(13)出價(jià)。
優(yōu)化問題式(14)的解應(yīng)滿足式(15)條件
據(jù)固定單位價(jià)格向任務(wù)計(jì)算終端支付報(bào)酬。
圖2對(duì)比了兩種方案的模型訓(xùn)練損失。從圖中可以看出,隨著全局訓(xùn)練次數(shù)增加,兩種方案的損失先降低,然后收斂到固定值。提出方案的損失比對(duì)比方案的損失低,因?yàn)樘岢龇桨缚杉?lì)所有任務(wù)計(jì)算終端貢獻(xiàn)資源參與聯(lián)邦學(xué)習(xí)。對(duì)比方案中,任務(wù)計(jì)算終端不能獲得最大效益,因此,部分任務(wù)計(jì)算終端不愿意參與聯(lián)邦學(xué)習(xí),上傳的本地模型參數(shù)減少,導(dǎo)致聚合模型損失增加。
圖2 模型訓(xùn)練損失對(duì)比Fig.2 Comparison of training loss of two schemes
圖3對(duì)比了兩種方案的模型準(zhǔn)確率。從圖中可以看出,隨著全局訓(xùn)練次數(shù)增加,兩種方案的模型準(zhǔn)確率先增加,然后收斂到固定值。提出方案的準(zhǔn)確率比對(duì)比方案的準(zhǔn)確率高,因?yàn)椋岢龇桨缚杀WC任務(wù)計(jì)算終端的效益函數(shù)最大化,從而激勵(lì)任務(wù)計(jì)算終端提供高質(zhì)量的本地模型參數(shù)。對(duì)比方案中,任務(wù)計(jì)算終端不能獲得最大的效益,因此,任務(wù)計(jì)算終端可能提供低質(zhì)量的本地模型參數(shù),導(dǎo)致聚合模型準(zhǔn)確率降低。
圖3 模型準(zhǔn)確率對(duì)比Fig.3 Comparison of accuracy of two schemes
圖4 請(qǐng)求時(shí)延(接受時(shí)延Fig.4 The required learning time (The admitted learning time)
本文提出了6G網(wǎng)絡(luò)D2D通信的聯(lián)邦學(xué)習(xí)框架。移動(dòng)終端通過聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)共享。針對(duì)自私的移動(dòng)設(shè)備不愿意參與模型訓(xùn)練問題,提出基于迭代雙邊拍賣的資源協(xié)作機(jī)制。其中,任務(wù)計(jì)算終端作為賣方,任務(wù)請(qǐng)求終端作為買方,本地接入點(diǎn)根據(jù)買賣雙方的出價(jià)對(duì)模型訓(xùn)練時(shí)延和定價(jià)做出決策,在買賣雙方信息非對(duì)稱情況下最大化聯(lián)邦學(xué)習(xí)市場(chǎng)總效用。仿真實(shí)驗(yàn)表明,提出的機(jī)制可以顯著提高聯(lián)邦學(xué)習(xí)的準(zhǔn)確率,降低訓(xùn)練損失,而且具有良好的收斂性。