[摘? ?要] 近年來,人工智能在教育領(lǐng)域發(fā)揮著日益重要的作用。但隨著隱私泄露問題的凸顯,如何在保護(hù)學(xué)習(xí)者隱私的基礎(chǔ)上,使用來自多方的數(shù)據(jù)以提升人工智能應(yīng)用的性能,成為智能時代亟待解決的問題。為此,文章引入了人工智能領(lǐng)域新興的聯(lián)邦學(xué)習(xí)概念,分析了聯(lián)邦學(xué)習(xí)的定義、系統(tǒng)模型與訓(xùn)練過程、隱私保護(hù)技術(shù),并將聯(lián)邦學(xué)習(xí)與教育數(shù)據(jù)挖掘的各類算法相結(jié)合,以解決教育數(shù)據(jù)挖掘中可能存在的隱私保護(hù)問題。研究發(fā)現(xiàn),聯(lián)邦學(xué)習(xí)方法能夠從原理上保障數(shù)據(jù)隱私,且容易整合到現(xiàn)有的教育應(yīng)用中;在保護(hù)隱私的基礎(chǔ)之上,運用聯(lián)邦學(xué)習(xí)能夠最大程度地提高模型精確度;將聯(lián)邦學(xué)習(xí)與教育數(shù)據(jù)挖掘相結(jié)合,既能最大化地發(fā)揮利益相關(guān)者的作用,又能滿足各利益相關(guān)者的需求。聯(lián)邦學(xué)習(xí)將為教育的信息化與智能化發(fā)展開辟全新的路徑。
[關(guān)鍵詞] 聯(lián)邦學(xué)習(xí); 教育大數(shù)據(jù); 教育數(shù)據(jù)挖掘; 隱私保護(hù); 機(jī)器學(xué)習(xí)
[中圖分類號] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
[作者簡介] 李默妍(1995—),女,山東廣饒人。博士研究生,主要從事教育政策與比較教育研究。E-mail:moyan.li@zju.edu.cn。
一、引? ?言
教育數(shù)據(jù)的收集與使用是人工智能時代智慧教育得以持續(xù)發(fā)展的重要驅(qū)動力。然而,對教育數(shù)據(jù)的深度挖掘,卻產(chǎn)生了泄露學(xué)習(xí)者隱私、侵犯人格尊嚴(yán)的風(fēng)險[1]。因此,如何在充分利用教育數(shù)據(jù)的過程中保障學(xué)習(xí)者隱私,成為備受關(guān)注的研究課題?,F(xiàn)有研究文獻(xiàn)探究了教育數(shù)據(jù)隱私保護(hù)的部分舉措。例如,有研究者從數(shù)據(jù)治理層面出發(fā),認(rèn)為需重構(gòu)數(shù)據(jù)治理的制度倫理規(guī)范、提升教育決策主體的數(shù)據(jù)治理能力[2],有研究者從技術(shù)層面出發(fā),詳細(xì)闡述了信息安全技術(shù)[3]、區(qū)塊鏈技術(shù)[4]在教育數(shù)據(jù)隱私保護(hù)中的應(yīng)用。但是,即使實施了上述措施,在數(shù)據(jù)挖掘過程中依然需要對教育數(shù)據(jù)進(jìn)行收集與傳輸,難以規(guī)避各個環(huán)節(jié)中可能發(fā)生的隱私泄露問題。如今,學(xué)習(xí)者對于教育隱私保護(hù)的需求以及智能時代對于教育數(shù)據(jù)共享的需求之間的矛盾,已經(jīng)成為影響人工智能技術(shù)在教育領(lǐng)域發(fā)揮作用的重要矛盾。
為了解決在各行各業(yè)中均出現(xiàn)的數(shù)據(jù)隱私保護(hù)問題,谷歌公司于2016年提出了聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)方法。聯(lián)邦學(xué)習(xí)是一種新興的機(jī)器學(xué)習(xí)方法,通過這一方法,參與者無須上傳原始數(shù)據(jù),機(jī)器學(xué)習(xí)過程在中央服務(wù)器的協(xié)調(diào)下于每個參與者本地進(jìn)行,并且僅交換模型特征,如參數(shù)、梯度等[5]。與其他隱私保護(hù)技術(shù)相比,聯(lián)邦學(xué)習(xí)方法無需集中收集原始數(shù)據(jù),也就沒有后續(xù)的數(shù)據(jù)傳輸與公開共享等環(huán)節(jié),能夠在根本上解決數(shù)據(jù)挖掘中的隱私保護(hù)問題。如今,聯(lián)邦學(xué)習(xí)已成為人工智能的熱門研究主題,在智慧醫(yī)療、智慧城市建設(shè)等領(lǐng)域內(nèi)獲得關(guān)注,但在充滿潛力的教育領(lǐng)域卻鮮有研究。因此,本文試圖對聯(lián)邦學(xué)習(xí)方法進(jìn)行介紹,并初步探究聯(lián)邦學(xué)習(xí)與教育領(lǐng)域可能的結(jié)合點與應(yīng)用前景,為學(xué)界和業(yè)界的深入研究與應(yīng)用提供一定的啟發(fā)與參考。
二、聯(lián)邦學(xué)習(xí)的基本內(nèi)容
(一)聯(lián)邦學(xué)習(xí)的定義
定義N個參與者P={p1,…,pN},每位參與者擁有一個私人數(shù)據(jù)集{D1,…,DN}。傳統(tǒng)的機(jī)器學(xué)習(xí)方法將每位參與者的數(shù)據(jù)集統(tǒng)一到一個數(shù)據(jù)湖D=D1∪…∪DN,再訓(xùn)練模型MSUM。而在聯(lián)邦學(xué)習(xí)方法中,每位參與者pi在中央服務(wù)器的協(xié)調(diào)下于本地訓(xùn)練模型{M1,…, MN}及其參數(shù){w1,…,wN},將模型M_N的參數(shù)wN傳回中央服務(wù)器,由中央服務(wù)器整合為全局模型MFL。
若將模型MFL、MSUM的精確度分別定義為VFL、VSUM,這兩個數(shù)值應(yīng)該是非常相似的。將δ定義為一個非負(fù)的實數(shù),若|VFL-VSUM|<δ,則認(rèn)為聯(lián)邦學(xué)習(xí)算法具有δ-精度損失[6]。
(二)聯(lián)邦學(xué)習(xí)模型的系統(tǒng)模型與訓(xùn)練過程
聯(lián)邦學(xué)習(xí)的系統(tǒng)模型由中央服務(wù)器與數(shù)據(jù)擁有者或參與者組成,如圖1所示。中央服務(wù)器一般由發(fā)起聯(lián)邦學(xué)習(xí)任務(wù)的公司、組織或研究者的私有云服務(wù)器或租用的公有云服務(wù)器承載。根據(jù)任務(wù)的不同,數(shù)據(jù)擁有者的類型可以是多樣的。例如,當(dāng)教育機(jī)構(gòu)內(nèi)部需要使用學(xué)生的教育數(shù)據(jù)訓(xùn)練模型時,數(shù)據(jù)擁有者就是存儲教育數(shù)據(jù)的學(xué)生自有客戶端如手機(jī)、電腦、平板電腦等移動設(shè)備。當(dāng)教育機(jī)構(gòu)之間借助各自存儲的數(shù)據(jù)合作進(jìn)行模型訓(xùn)練時,數(shù)據(jù)擁有者就是各機(jī)構(gòu)的私有服務(wù)器。數(shù)據(jù)擁有者需于本地安裝聯(lián)邦學(xué)習(xí)相關(guān)的訓(xùn)練組件,一般而言,組件是與任務(wù)發(fā)起者提供服務(wù)的軟件組裝在一起的。參與聯(lián)邦學(xué)習(xí)過程的數(shù)據(jù)持有者于本地存儲數(shù)據(jù)需要經(jīng)過一段時間的積累。如果沒有積累足夠的數(shù)據(jù),就不能入選為參與者。數(shù)據(jù)擁有者需要通過以太網(wǎng)絡(luò)或蜂窩網(wǎng)絡(luò)與中央服務(wù)器連接與通信。
在此基礎(chǔ)上,聯(lián)邦學(xué)習(xí)模型最常用的算法為聯(lián)邦平均算法(Federated Averaging Algorithm),訓(xùn)練過程展示在算法1中(如圖2所示)。
訓(xùn)練過程主要包括以下三個步驟:
(三)聯(lián)邦學(xué)習(xí)的隱私保護(hù)技術(shù)
為參與者提供個人隱私保護(hù)是聯(lián)邦學(xué)習(xí)顯著的特點,參與者僅共享模型參數(shù),而不共享原始數(shù)據(jù),從根本上解決了參與者的數(shù)據(jù)泄露問題。但有研究表明,通過參與者共享的模型參數(shù)也能推斷出參與者的部分粗略信息,如性別、職業(yè)、地理位置等[7],因此,為了防止惡意參與者或者惡意服務(wù)器通過共享參數(shù)來反推其他參與者的敏感信息,聯(lián)邦學(xué)習(xí)可以使用多種隱私保護(hù)技術(shù),為參與者的個人隱私提供全方位的保護(hù)。運用于聯(lián)邦學(xué)習(xí)的隱私保護(hù)解決方案有以下三種:
1. 基于差分隱私(Differential Privacy)的解決方案。該解決方案主要針對惡意參與者,其核心思想是在將參與者共享的參數(shù)發(fā)送至中央服務(wù)器之前,利用高斯機(jī)制(Gaussian Mechanism)等差分隱私保護(hù)隨機(jī)機(jī)制在參數(shù)中添加噪聲(Noise),使得惡意參與者無法使用共享全局模型的參數(shù)來推斷其他參與者的信息。同時,參與者不斷計算惡意參與者利用共享參數(shù)反推信息的可能性,一旦達(dá)到預(yù)先設(shè)定的閾值,就終止模型訓(xùn)練過程[8]。
2. 協(xié)作訓(xùn)練(Collaborative Training)解決方案。該解決方案的核心思想是參與者不將其本地訓(xùn)練后產(chǎn)生的完整參數(shù)集上傳中央服務(wù)器,也不將整個全局模型更新至本地,而是有選擇地上傳與下載,根據(jù)情況確定共享的參數(shù)數(shù)量。研究表明,即使參與者沒有上傳完整的參數(shù)集,最后訓(xùn)練出來的全局模型與擁有完整參數(shù)集的全局模型的準(zhǔn)確性仍舊相近。例如,對于MNIST數(shù)據(jù)集,當(dāng)參與者同意共享10%的參數(shù)時,全局模型的準(zhǔn)確度達(dá)到99.14%,當(dāng)參與者僅共享1%的參數(shù)時,準(zhǔn)確度也達(dá)到了98.71%[9]。
3. 基于加密(Encryption)的解決方案。此解決方案的核心思想是,在將參與者的訓(xùn)練參數(shù)發(fā)送到服務(wù)器之前,使用同態(tài)加密技術(shù)對其進(jìn)行加密。加密是有效且較為常用的隱私保護(hù)方法,也可以與其他解決方案混合使用。有研究提出了基于加密與差分隱私的混合解決方案,在將參與者的參數(shù)發(fā)送到服務(wù)器之前,使用加法同態(tài)加密機(jī)制并添加故意干擾原始參數(shù)的噪聲以保護(hù)參與者的隱私[10]。
三、聯(lián)邦學(xué)習(xí)在教育領(lǐng)域的應(yīng)用
(一)教育數(shù)據(jù)挖掘中的隱私問題
根據(jù)數(shù)據(jù)類型的不同,教育大數(shù)據(jù)挖掘領(lǐng)域內(nèi)常用的機(jī)器學(xué)習(xí)算法主要可以分為監(jiān)督學(xué)習(xí)(Supervised Learning)、非監(jiān)督學(xué)習(xí)(Unsupervised Learning)兩類:監(jiān)督學(xué)習(xí)是指用有標(biāo)簽(Label)的數(shù)據(jù)來訓(xùn)練模型,使得模型能夠產(chǎn)生正確輸出;非監(jiān)督學(xué)習(xí)是指模型從沒有標(biāo)簽的數(shù)據(jù)中挖掘其隱含的關(guān)系與結(jié)構(gòu)[11],見表1。
不同的算法具有各自的優(yōu)缺點,教育研究者根據(jù)其具體的學(xué)習(xí)任務(wù)以及收集的數(shù)據(jù)類型來選擇實現(xiàn)算法。但各類算法都需要相關(guān)教育數(shù)據(jù)的支持,都有可能存在隱私泄露的問題。
當(dāng)研究者希望對數(shù)據(jù)進(jìn)行分類且具有明確的類型時,就可選擇支持向量機(jī)、深度神經(jīng)網(wǎng)絡(luò)等監(jiān)督學(xué)習(xí)中的分類算法。支持向量機(jī)具有結(jié)構(gòu)化風(fēng)險最小、泛化錯誤率低等優(yōu)勢,在教育領(lǐng)域多用于進(jìn)行教學(xué)質(zhì)量評價、學(xué)習(xí)過程評價等。在使用支持向量機(jī)建立教學(xué)質(zhì)量評價體系時,研究者常使用專家評價以及學(xué)生評教的各項數(shù)據(jù)對模型進(jìn)行訓(xùn)練,評價指標(biāo)包括教師的教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)方法等[12]。學(xué)習(xí)過程評價模型訓(xùn)練需要學(xué)生的自我評價與教師評價數(shù)據(jù),評價指標(biāo)包括出勤率、學(xué)習(xí)態(tài)度、作業(yè)正確率等數(shù)據(jù)[13]。若這些數(shù)據(jù)被公開共享,對教師與學(xué)生都是不利的。
深度神經(jīng)網(wǎng)絡(luò)具有多層人工神經(jīng)網(wǎng)絡(luò),在圖像識別、語音識別、文本識別等方面表現(xiàn)優(yōu)異。在教育領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)的典型應(yīng)用為構(gòu)建學(xué)習(xí)資源推薦系統(tǒng)。研究者收集學(xué)習(xí)者于在線學(xué)習(xí)平臺上留下的歷史學(xué)習(xí)數(shù)據(jù)與個人信息,如學(xué)習(xí)類型、學(xué)習(xí)數(shù)量、學(xué)歷、所處行業(yè)等,以及學(xué)習(xí)資源中包含的信息,從而為數(shù)據(jù)集訓(xùn)練模型[14]。深度神經(jīng)網(wǎng)絡(luò)的另一大應(yīng)用為通過對學(xué)生的人臉識別以及語音識別進(jìn)行情感計算,分析學(xué)生上課時的專注程度、理解程度等,從而促使教師提高課堂教學(xué)質(zhì)量,幫助學(xué)生提高學(xué)習(xí)效率[15]。此類深度神經(jīng)網(wǎng)絡(luò)模型需要收集多視角的課堂錄像,利用其中包含的大量圖像數(shù)據(jù)與語音數(shù)據(jù)進(jìn)行訓(xùn)練。圖像、語音與文本數(shù)據(jù)中包含的信息、內(nèi)容、情感都構(gòu)成了參與者的隱私,若發(fā)生泄露,不僅威脅學(xué)習(xí)者的個人隱私安全,還可能產(chǎn)生侵犯肖像權(quán)、知識產(chǎn)權(quán)等法律風(fēng)險。
回歸算法是一種經(jīng)典的機(jī)器學(xué)習(xí)預(yù)測模型,具有結(jié)構(gòu)簡單、原理易懂的優(yōu)勢。當(dāng)數(shù)據(jù)點圍繞主軸上下波動時,就可以選擇線性回歸算法構(gòu)建模型。例如,有研究者利用多元線性回歸的算法構(gòu)建了以數(shù)學(xué)成績預(yù)測學(xué)生其他計算機(jī)科學(xué)課程成績的模型[16]。在這一模型中,學(xué)生的數(shù)學(xué)成績數(shù)據(jù)將存在隱私風(fēng)險。
當(dāng)研究者希望將數(shù)據(jù)集中相似的數(shù)據(jù)聚集到一類,但并不知道具體有幾個類別時,就可以選擇K均值聚類、DBSCAN等非監(jiān)督學(xué)習(xí)中的聚類算法。聚類算法在教育領(lǐng)域的應(yīng)用比較廣泛,學(xué)生成績預(yù)測、學(xué)生行為分析、教學(xué)質(zhì)量評價等都有涉及。例如,有研究者使用K均值聚類算法分析大學(xué)生進(jìn)行的課程評價以及他們在相應(yīng)考試中的成績之間的關(guān)聯(lián)性,以建立一個利用學(xué)生評教預(yù)測學(xué)生考試成績的模型[17]。在這一模型中,研究者預(yù)先收集的學(xué)生評教數(shù)據(jù)以及學(xué)生的學(xué)業(yè)成績數(shù)據(jù)存在隱私風(fēng)險。
(二)聯(lián)邦學(xué)習(xí)在教育數(shù)據(jù)挖掘中的應(yīng)用案例
當(dāng)使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法訓(xùn)練模型時,研究者需要收集大量的教育數(shù)據(jù)樣本,集中進(jìn)行數(shù)據(jù)處理以訓(xùn)練模型。在這一過程中,數(shù)據(jù)的收集、傳輸、存儲、使用等環(huán)節(jié)都有可能造成數(shù)據(jù)泄露而侵犯隱私。而在聯(lián)邦學(xué)習(xí)中,機(jī)器學(xué)習(xí)過程均在參與者的本地進(jìn)行,無須收集與傳輸數(shù)據(jù),與中央服務(wù)器的通信內(nèi)容僅限于加密后的參數(shù),能夠有效地保護(hù)參與者的隱私。幾乎所有應(yīng)用于教育領(lǐng)域的機(jī)器學(xué)習(xí)模型都可以使用聯(lián)邦學(xué)習(xí)方法進(jìn)行訓(xùn)練,為教育數(shù)據(jù)挖掘過程中的個人隱私保護(hù)問題提供有效的解決方案。在解決數(shù)據(jù)隱私問題的同時,聯(lián)邦學(xué)習(xí)也能夠最大化地保證機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。本文以基于支持向量機(jī)的教學(xué)質(zhì)量評價、基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)資源推薦、基于K均值聚類算法的學(xué)生成績分析三個實例說明使用聯(lián)邦學(xué)習(xí)的方法與流程。
1. 聯(lián)邦學(xué)習(xí)在支持向量機(jī)中的應(yīng)用
使用支持向量機(jī)進(jìn)行教學(xué)質(zhì)量評價模型訓(xùn)練的基本原理是求解能夠正確劃分教學(xué)評估數(shù)據(jù)類別且?guī)缀伍g隔最大的超平面。與需要收集數(shù)據(jù)進(jìn)行統(tǒng)一運算的傳統(tǒng)支持向量機(jī)不同,基于聯(lián)邦學(xué)習(xí)的支持向量機(jī)算法要求運算過程在參與者的本地進(jìn)行,不進(jìn)行數(shù)據(jù)收集或傳輸?shù)冗^程。其基本流程如圖3(1)所示:首先,中央服務(wù)器將教學(xué)質(zhì)量評價分類任務(wù)初始化,確定任務(wù)需要的數(shù)據(jù),如學(xué)生與專家對課程或教師進(jìn)行的打分等,選取具備這些數(shù)據(jù)的參與者,并決定參數(shù)傳輸過程中的加密方式。之后,中央服務(wù)器決定支持向量機(jī)模型種類,如使用高斯核函數(shù)(RBF)的支持向量機(jī)模型等,并向各參與者下發(fā)初始參數(shù)。每個參與者于本地進(jìn)行支持向量機(jī)運算,根據(jù)本地存儲的教學(xué)評估結(jié)果計算數(shù)據(jù)點與超平面的距離,計算梯度,優(yōu)化更新本地參數(shù)并將其傳回中央服務(wù)器。中央服務(wù)器將各參與者上傳的本地參數(shù)進(jìn)行求平均運算,并將運算結(jié)果再次下發(fā)至參與者,參與者再次進(jìn)行本地的優(yōu)化更新,如此循環(huán)直至達(dá)到T輪,損失函數(shù)收斂。中央服務(wù)器將最后一輪本地參數(shù)求平均,輸出教學(xué)質(zhì)量評價模型,進(jìn)行測試驗證。
[參考文獻(xiàn)]
[1] 龐茗月,胡凡剛.從賦能教育向尊崇成長轉(zhuǎn)變:教育大數(shù)據(jù)的倫理省思[J].電化教育研究,2019,40(7):30-36,45.
[2] 田賢鵬.隱私保護(hù)與開放共享:人工智能時代的教育數(shù)據(jù)治理變革[J].電化教育研究,2020,41(5):33-38.
[3] 劉夢君,姜雨薇,曹樹真,楊兵.信息安全技術(shù)在教育數(shù)據(jù)安全與隱私中的應(yīng)用分析[J].中國電化教育,2019(6):123-130.
[4] 楊兵,羅汪旸,姜慶,朱曉鋼,郭強(qiáng).基于聯(lián)盟鏈的學(xué)習(xí)數(shù)據(jù)存儲系統(tǒng)研究[J].現(xiàn)代教育技術(shù),2019,29(8):100-105.
[5] HARD A, RAO K, MATHEWS R, et al. Federated learning for mobile keyboard prediction[EB/OL]. [2019-02-28](2020-06-25). https://arxiv.org/abs/1811.03604.
[6] YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on intelligent systems and technology, 2019, 10(2): 1-19.
[7] MELIS L, SONG C, DE CRISTOFARO E, et al. Exploiting unintended feature leakage in collaborative learning[C]//IEEE. Symposium on Security and Privacy 2019. San Francisco: IEEE, 2019: 691-706.
[8] GEYER R C, KLEIN T, NABI M. Differentially private federated learning: a client level perspective[EB/OL]. [2018-03-01](2020-06-25). https://arxiv.org/abs/1712.07557.
[9] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[10] BONAWITZ K, IVANOV V, KREUTER B, et al. Practical secure aggregation for privacy-preserving machine learning[C]//Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. Dallas: ACM, 2017: 1175-1191.
[11] GHAHRAMANI Z. Unsupervised learning[C]// BOUSQUET O, RAETSCH, G, VON LUXBURG U. Advanced lectures on machine learning. Berlin: Springer Verlag, 2004: 72-112.
[12] 劉偉,孫林.基于支持向量機(jī)的課堂教學(xué)質(zhì)量評價[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2010,33(7):968-971.
[13] 李候梅. 基于支持向量機(jī)的學(xué)習(xí)過程性評價研究[D].重慶:重慶師范大學(xué),2015.
[14] 樊?,|,史雙,張博敏,張艷萍,藺琪,孫歡.基于MLP改進(jìn)型深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)資源推薦算法[J].計算機(jī)應(yīng)用研究,2020,37(9):2629-2633.
[15] 李勝男. 基于人工智能技術(shù)的課堂教學(xué)行為的分析框架構(gòu)建研究[D].北京:北京郵電大學(xué),2019.
[16] OYERINDE O D, CHIA P A. Predicting students' academic performances—a learning analytics approach using multiple linear regression[J]. International journal of computer applications, 2017(4): 37-44.
[17] CAMPAGNI R, MERLINI D, VERRI M C. Finding regularities in courses evaluation with k-means clustering[C]//CSEDU. Proceedings of the 6th International Conference on Computer Supported Education, Setubal: Science and Technology Publications, 2014(2): 26-33.
[18] WANG S, TUOR T, SALONIDIS T, et al. Adaptive federated learning in resource constrained edge computing systems[J]. IEEE journal on selected areas in communications, 2019, 37(6): 1205-1221.
[19] CHANDIRAMANI K, GARG D, MAHESWARI N. Performance analysis of distributed and federated learning models on private data[J]. Procedia computer science, 2019(165): 349-355.
[20] 李春生,劉濤,于澍,張可佳.基于K-means算法的研究生入學(xué)成績分析[J].計算機(jī)技術(shù)與發(fā)展,2019,29(2):162-165.
[21] SOLIMAN A, GIRDZIJAUSKAS S, BOUGUELIA M R, et al. Decentralized and adaptive K-means clustering for non-IID data using hyperLogLog counters[C]//Pacific-Asia Conference on Knowledge Discovery and Data Mining. Berlin: Springer, 2020: 343-355.
[22] ZHAN Y, LI P, QU Z, et al. A learning-based incentive mechanism for federated learning[J]. IEEE internet of things journal, 2020:1-9.
[23] KANG J, XIONG Z, NIYATO D, et al. Incentive design for efficient federated learning in mobile networks: a contract theory approach[C]// IEEE. 2019 VTS IEEE Asia Pacific Wireless Communications Symposium, Singapore: IEEE, 2019: 1-5.