聶文靜 信 倫 李 幟
(中國移動(dòng)通信有限公司研究院 北京100053) (杭州锘崴信息科技有限公司 杭州310053)
人工智能(Artificial Intelligence,AI)和大數(shù)據(jù)等技術(shù)的發(fā)展進(jìn)一步推動(dòng)互聯(lián)網(wǎng)醫(yī)療行業(yè)升級[1]。隨著醫(yī)療行業(yè)信息化水平逐年提升,互聯(lián)網(wǎng)技術(shù)與醫(yī)療行業(yè)場景深度融合,傳統(tǒng)醫(yī)療服務(wù)及運(yùn)營方式逐漸向移動(dòng)化、信息化、數(shù)字化方向轉(zhuǎn)變,醫(yī)療行業(yè)各類數(shù)據(jù)規(guī)模也逐年增加。為保障數(shù)據(jù)安全合規(guī)流通,《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個(gè)人信息保護(hù)法》《中華人民共和國生物安全法》等相關(guān)法律法規(guī)出臺(tái)。醫(yī)療行業(yè)數(shù)據(jù)種類較多且絕大部分?jǐn)?shù)據(jù)都涉及用戶個(gè)人隱私,敏感等級較高,如心電圖、B超等影像數(shù)據(jù),身體指標(biāo)等病例相關(guān)數(shù)據(jù)以及生物基因序列等數(shù)據(jù)。大部分醫(yī)療機(jī)構(gòu)為了防止泄露,很少與其他機(jī)構(gòu)互通數(shù)據(jù),甚至機(jī)構(gòu)內(nèi)部部門之間數(shù)據(jù)都不能互通。醫(yī)療數(shù)據(jù)資源呈現(xiàn)出“數(shù)據(jù)孤島”問題,嚴(yán)重影響其價(jià)值的進(jìn)一步挖掘和發(fā)揮。因此如何平衡數(shù)據(jù)共享協(xié)同的需求與數(shù)據(jù)安全隱私保護(hù)的要求成為需要重點(diǎn)關(guān)注的問題。近幾年被業(yè)界廣泛關(guān)注的聯(lián)邦學(xué)習(xí)(Federated Learning,FL)技術(shù)能夠在保證各方數(shù)據(jù)集不出庫的前提下,協(xié)助不同機(jī)構(gòu)的數(shù)據(jù)集進(jìn)行聯(lián)合分析和建模,以共同挖掘數(shù)據(jù)潛在價(jià)值,聯(lián)邦學(xué)習(xí)技術(shù)在醫(yī)療行業(yè)也得到越來越多的關(guān)注和應(yīng)用。
大部分醫(yī)療行業(yè)數(shù)據(jù)集具有明顯的碎片化、孤島化特點(diǎn),比較適合使用聯(lián)邦學(xué)習(xí)技術(shù)來進(jìn)行分析和挖掘。Xu J、Glicksberg B S和 Su C等[2]主要研究主從架構(gòu)下縱向聯(lián)邦學(xué)習(xí)在醫(yī)療行業(yè)應(yīng)用的典型案例,并總結(jié)應(yīng)用過程中面臨的問題和挑戰(zhàn)。Guo K、Chen T和 Ren S等[3]為解決批量訓(xùn)練模型時(shí)需要消耗大量資源和增量訓(xùn)練導(dǎo)致災(zāi)難性遺忘的問題,提出一種適合醫(yī)療數(shù)據(jù)的實(shí)時(shí)聯(lián)邦學(xué)習(xí)訓(xùn)練方法。有學(xué)者[4]提出一種群體學(xué)習(xí)訓(xùn)練醫(yī)療圖像數(shù)據(jù)的方法,而群體學(xué)習(xí)可以理解為融合邊緣學(xué)習(xí)和區(qū)塊鏈、點(diǎn)對點(diǎn)網(wǎng)絡(luò)架構(gòu)下的一種分布式學(xué)習(xí)方法。綜上所述,聯(lián)邦學(xué)習(xí)技術(shù)打破了不同行業(yè)的數(shù)據(jù)壁壘,不僅可以幫助醫(yī)療行業(yè)中不同機(jī)構(gòu)數(shù)據(jù)集在不出庫的情況下共同構(gòu)建AI模型,以提高醫(yī)療圖像AI輔助診斷系統(tǒng)識(shí)別率,根據(jù)不同機(jī)構(gòu)電子病歷來預(yù)測患者健康風(fēng)險(xiǎn),還可以將患者數(shù)據(jù)與保險(xiǎn)等相關(guān)行業(yè)數(shù)據(jù)相結(jié)合,以提升醫(yī)療行業(yè)數(shù)據(jù)在其他行業(yè)的應(yīng)用度和影響力。
聯(lián)邦學(xué)習(xí)技術(shù)本質(zhì)上是一種分布式機(jī)器學(xué)習(xí)方法,其改變了傳統(tǒng)的集中式學(xué)習(xí)和數(shù)據(jù)共享模式,不再需要將不同計(jì)算節(jié)點(diǎn)的原始數(shù)據(jù)集中到一起進(jìn)行模型訓(xùn)練,而僅需將不同計(jì)算節(jié)點(diǎn)本地模型的梯度或者模型參數(shù)加密后進(jìn)行聚合,再返回給每個(gè)計(jì)算節(jié)點(diǎn)更新本地模型,經(jīng)過多輪迭代,得到一個(gè)精度達(dá)到或接近傳統(tǒng)集中式建模效果的聯(lián)邦模型。根據(jù)不同數(shù)據(jù)提供方的數(shù)據(jù)集特征和標(biāo)簽分布情況,聯(lián)邦學(xué)習(xí)可分為縱向聯(lián)邦學(xué)習(xí)、橫向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)3種類型[5]。橫向聯(lián)邦學(xué)習(xí)適合不同數(shù)據(jù)提供方的數(shù)據(jù)集特征相同、客戶群體不同的場景,其架構(gòu)分為主從式和對等式??v向聯(lián)邦學(xué)習(xí)適合不同數(shù)據(jù)提供方的數(shù)據(jù)集特征不同、客戶群體相同的場景。聯(lián)邦遷移學(xué)習(xí)適合不同數(shù)據(jù)提供方的數(shù)據(jù)集特征、客戶群體重合度都比較低,甚至部分?jǐn)?shù)據(jù)提供方數(shù)據(jù)集缺少標(biāo)注信息的場景。目前聯(lián)邦遷移學(xué)習(xí)在醫(yī)療領(lǐng)域應(yīng)用較多的是基于特征的聯(lián)邦遷移和基于模型的聯(lián)邦遷移[6-7],其中基于特征的聯(lián)邦遷移需要在不同數(shù)據(jù)集中找到共同的特征表示,如可穿戴手勢識(shí)別模型中涉及的某些特征,可以用于可穿戴步態(tài)識(shí)別模型中;基于模型的聯(lián)邦遷移可以將某個(gè)預(yù)測任務(wù)中訓(xùn)練的模型作為另一個(gè)預(yù)測任務(wù)全部或者部分初始模型,如利用公開數(shù)據(jù)集 ImageNet訓(xùn)練AlexNet模型參數(shù)可以作為醫(yī)療影像數(shù)據(jù)集訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的初始參數(shù),實(shí)現(xiàn)醫(yī)療影像數(shù)據(jù)集的分類。
心電圖檢測是臨床中常見的體檢項(xiàng)目,通過心電圖機(jī)器采集、記錄客戶心臟活動(dòng)時(shí)產(chǎn)生的生物電位變化。醫(yī)生通過特殊位置的電位變化,判斷客戶是否存在心電異常的行為。為提高效率,很多學(xué)者將AI引入到心電異常檢測項(xiàng)目中,將不同心電圖機(jī)器歷史數(shù)據(jù)匯集到同一個(gè)地方(服務(wù)器或云端等),構(gòu)建心電異常檢測AI模型,自動(dòng)輸出診斷結(jié)果。然而部分醫(yī)療機(jī)構(gòu)由于規(guī)模等客觀原因的影響,有可能采集數(shù)據(jù)量不足或者缺少部分病例數(shù)據(jù)等,導(dǎo)致模型不可用。因此不同機(jī)構(gòu)可以采用對等式橫向聯(lián)邦模型技術(shù),與其他機(jī)構(gòu)共同完成AI模型的訓(xùn)練,為敘述方便該模型稱為聯(lián)邦心電異常檢測模型。為了防止模型反演攻擊[5]時(shí)利用梯度信息反推出原始數(shù)據(jù),聯(lián)邦心電異常檢測模型僅交互加密的模型信息,其中可以采用差分隱私[8]的方式對共享的參數(shù)或者梯度進(jìn)行加密。根據(jù)仿真實(shí)驗(yàn),在心電數(shù)據(jù)獨(dú)立同分布的情況下,聯(lián)邦模型效果接近于集中式機(jī)器學(xué)習(xí)模型,其中集中模型指的是將所有數(shù)據(jù)匯集到一個(gè)地方。不同計(jì)算節(jié)點(diǎn)的心電數(shù)據(jù)呈現(xiàn)非獨(dú)立同分布時(shí),F(xiàn)edAvg 將表現(xiàn)不穩(wěn)定[9]。為了解決數(shù)據(jù)集非獨(dú)立同分布對聯(lián)邦模型的影響,可以在進(jìn)行聯(lián)邦學(xué)習(xí)之前增加一個(gè)分組流程,即將數(shù)據(jù)分布相似的計(jì)算節(jié)點(diǎn)放在一起訓(xùn)練模型[10]。
醫(yī)療機(jī)構(gòu)利用疾病數(shù)據(jù)開展研究時(shí),經(jīng)常遇到樣本量不足的問題,但是由于其隱私性較強(qiáng),難以匯集多家醫(yī)療機(jī)構(gòu)數(shù)據(jù)共同研究。鑒于以上問題,有學(xué)者[11]提出一種主從式的橫向聯(lián)邦學(xué)習(xí)框架,并在急性白血病治療的造血干細(xì)胞移植后復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測、分析影響前列腺活檢陽性的主要因素等醫(yī)療業(yè)務(wù)場景中落地應(yīng)用。整個(gè)系統(tǒng)分為3部分,見圖1。第1部分為聯(lián)邦學(xué)習(xí)基礎(chǔ)設(shè)施層,即由若干個(gè)計(jì)算節(jié)點(diǎn)構(gòu)成,并將模型訓(xùn)練與模型預(yù)測環(huán)境進(jìn)行隔離。第2部分為評估設(shè)施層,即負(fù)責(zé)聯(lián)邦學(xué)習(xí)訓(xùn)練過程中參數(shù)聚合以及評估不同計(jì)算節(jié)點(diǎn)的數(shù)據(jù)貢獻(xiàn)度,根據(jù)貢獻(xiàn)度維護(hù)計(jì)算節(jié)點(diǎn)的信譽(yù)分?jǐn)?shù),其中參數(shù)聚合協(xié)議不再選擇FedAvg,而是根據(jù)各個(gè)計(jì)算節(jié)點(diǎn)在統(tǒng)一的驗(yàn)證集上的性能,選擇性能最好的計(jì)算節(jié)點(diǎn)聚合模型,并分配給基礎(chǔ)設(shè)施層計(jì)算節(jié)點(diǎn)更新本地模型。第3部分為用戶交互層。該系統(tǒng)較傳統(tǒng)的聯(lián)邦學(xué)習(xí)系統(tǒng)增加了評估設(shè)施層,引入激勵(lì)機(jī)制,根據(jù)模型貢獻(xiàn)度為各個(gè)計(jì)算節(jié)點(diǎn)分配權(quán)益以及更新信譽(yù)分?jǐn)?shù)。該系統(tǒng)收集5 978位患者并分析其5年期間的前列腺癌活檢的數(shù)據(jù),從中選擇2 426位患者數(shù)據(jù)訓(xùn)練模型。該系統(tǒng)訓(xùn)練的模型較之前傳統(tǒng)方式的LR和 SBT 模型準(zhǔn)確率分別提高 3.41% 和 2.22%[11],也被應(yīng)用于急性白血病治療的造血干細(xì)胞移植后復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測模型等多種罕見病研究。
圖1 系統(tǒng)架構(gòu)
目前有些學(xué)者通過在老年人家中安裝攝像頭、給老年人穿戴傳感器等方式采集老年人日常行為數(shù)據(jù),傳遞到中央服務(wù)器,構(gòu)建AI模型,并通過AI模型判斷老年人是否跌倒。然而,攝像頭和傳感器采集的數(shù)據(jù)隱私性較高,直接傳輸?shù)街醒敕?wù)器,容易造成數(shù)據(jù)泄露,為此需要借助聯(lián)邦學(xué)習(xí)技術(shù),在原始數(shù)據(jù)集不離開終端的前提下構(gòu)建聯(lián)邦A(yù)I模型。集中式AI模型需要數(shù)據(jù)集服從獨(dú)立同分布且擁有足夠多的質(zhì)量較好樣本,才能獲得性能較好的模型,然而每個(gè)人的日常行為數(shù)據(jù)和身體指標(biāo)數(shù)據(jù)存在差異性,導(dǎo)致標(biāo)注成本較高,無法獲得足夠的標(biāo)注好的樣本數(shù)據(jù)訓(xùn)練AI模型,且每個(gè)終端采集的數(shù)據(jù)集也難以保證服從獨(dú)立同分布,為此部分學(xué)者提出聯(lián)邦遷移學(xué)習(xí)。以下以FedHealth框架[12]為例介紹聯(lián)邦遷移學(xué)習(xí)如何訓(xùn)練模型。首先,F(xiàn)edHealth框架的中央服務(wù)器先收集類似場景的公共數(shù)據(jù)集,并利用公共數(shù)據(jù)集訓(xùn)練模型,得到系統(tǒng)的云模型,并將該模型發(fā)送到各個(gè)終端,作為其本地模型的初始模型。其次,終端利用本地采集用戶日常數(shù)據(jù)訓(xùn)練本地模型,并將其本地模型加密上傳到中央服務(wù)器,中央服務(wù)器根據(jù)收集的本地模型更新云模型,更新后的云模型再下發(fā)給各個(gè)終端,作為下輪本地模型訓(xùn)練的初始參數(shù),經(jīng)過多輪迭代,直至各個(gè)終端的本地個(gè)性化模型收斂,停止迭代。研究者通過采集30位志愿者的6項(xiàng)活動(dòng),獲得10 299個(gè)樣本。為了模擬數(shù)據(jù)集呈現(xiàn)孤島的形式,將志愿者數(shù)據(jù)分散到不同計(jì)算節(jié)點(diǎn)上。通過實(shí)驗(yàn)發(fā)現(xiàn)應(yīng)用FedHealth框架訓(xùn)練的模型與傳統(tǒng)深度學(xué)習(xí)模型相比,前者的準(zhǔn)確率平均高于后者5.3%左右[12]。
醫(yī)生通過分析患者的臨床醫(yī)療影像判斷其是否處于健康狀態(tài)。這種人工判斷方式,工作效率低。為此,醫(yī)療機(jī)構(gòu)通過患者圖片數(shù)據(jù)構(gòu)建AI模型,自動(dòng)判別患者的健康狀態(tài)。然而,醫(yī)療影像的數(shù)據(jù)需要專業(yè)較高的醫(yī)生標(biāo)注,每家機(jī)構(gòu)缺乏足夠的標(biāo)簽數(shù)據(jù)訓(xùn)練AI模型。部分學(xué)者提出數(shù)據(jù)增強(qiáng)技術(shù)生成訓(xùn)練數(shù)據(jù),但是生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)存在一定差異性,模型效果可能受到這些生成數(shù)據(jù)的影響。對此有研究人員提出一種微分隱私模型[13-14],將差分隱私技術(shù)與橫向聯(lián)邦學(xué)習(xí)相結(jié)合。具體流程如下:首先,中央?yún)?shù)服務(wù)器設(shè)置初始系統(tǒng)模型參數(shù),并下發(fā)給各個(gè)計(jì)算節(jié)點(diǎn)。其次,各個(gè)計(jì)算節(jié)點(diǎn)訓(xùn)練本地模型,生成模型參數(shù),并篩選出大于閾值的參數(shù),加上噪聲。再次,各個(gè)計(jì)算節(jié)點(diǎn)將加入噪聲的參數(shù),共享給中央?yún)?shù)服務(wù)器,其中為了降低共享量,加密的參數(shù)共享前需要先采用稀疏向量技術(shù)裁剪傳輸參數(shù)。之后中央?yún)?shù)服務(wù)器根據(jù)計(jì)算節(jié)點(diǎn)的貢獻(xiàn),作為系數(shù)加權(quán)對應(yīng)的加密參數(shù)生成系統(tǒng)參數(shù),并下發(fā)給各個(gè)計(jì)算節(jié)點(diǎn)。最后,計(jì)算節(jié)點(diǎn)更新本地模型,多輪迭代,直至系統(tǒng)模型穩(wěn)定。微分隱私模型對BraTS 2018數(shù)據(jù)集的腦腫瘤分割數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果接近于集中模型,其中該數(shù)據(jù)集包括285位患者的核磁共振成像掃描數(shù)據(jù)[13-14]。
隨著國家逐步進(jìn)入老齡化社會(huì),重大疾病保險(xiǎn)逐漸受到人們的關(guān)注。但是現(xiàn)有的保險(xiǎn)產(chǎn)品定價(jià)策略存在保費(fèi)偏高、個(gè)性化不足等問題。為解決該問題,研究者開始引入AI技術(shù),通過分析客戶數(shù)據(jù)建立個(gè)性化保險(xiǎn)服務(wù)定價(jià)模型,其中客戶的身體健康數(shù)據(jù)是影響保險(xiǎn)產(chǎn)品定價(jià)的主要因素之一,而保險(xiǎn)行業(yè)卻無法直接采集客戶健康數(shù)據(jù),導(dǎo)致不能收集足夠多的特征數(shù)據(jù)構(gòu)建AI模型,因此保險(xiǎn)行業(yè)需要與醫(yī)療行業(yè)合作共同構(gòu)建AI模型。由于保險(xiǎn)行業(yè)和醫(yī)療行業(yè)的數(shù)據(jù)涉及客戶隱私,不能直接將雙方數(shù)據(jù)匯集來構(gòu)建AI模型,需要借助縱向聯(lián)邦學(xué)習(xí)構(gòu)建模型。傳統(tǒng)的縱向聯(lián)邦需要可信第3方聚合參數(shù),但是第3方節(jié)點(diǎn)不易確定,為此可以采用基于秘密共享與同態(tài)加密的縱向聯(lián)邦學(xué)習(xí),其中秘密分享指k個(gè)計(jì)算節(jié)點(diǎn)將本地需要共享的數(shù)據(jù)隨機(jī)切分為k份,本地僅保留1份,其余傳輸給其他計(jì)算節(jié)點(diǎn),則每個(gè)計(jì)算節(jié)點(diǎn)依然有k份數(shù)據(jù)。每個(gè)計(jì)算節(jié)點(diǎn)計(jì)算本地k份數(shù)據(jù)之和,并將計(jì)算的結(jié)果傳輸給其他計(jì)算節(jié)點(diǎn),則每個(gè)計(jì)算節(jié)點(diǎn)得到k個(gè)計(jì)算節(jié)點(diǎn)共享數(shù)據(jù)之和。因此不需要第3方節(jié)點(diǎn)計(jì)算k個(gè)計(jì)算節(jié)點(diǎn)共享數(shù)據(jù)之和[15],仿真實(shí)驗(yàn)表明縱向聯(lián)邦學(xué)習(xí)結(jié)果接近于集中模型。
4.1.1 通信成本高和計(jì)算復(fù)雜 聯(lián)邦學(xué)習(xí)過程中需要不同的計(jì)算節(jié)點(diǎn)頻繁交互和計(jì)算加密數(shù)據(jù),因此其通信成本高、計(jì)算復(fù)雜。為此不少學(xué)者開始從算法角度,優(yōu)化聯(lián)邦學(xué)習(xí)性能,有學(xué)者[16]提出FedAvg和梯度壓縮相結(jié)合的方法,使不同計(jì)算節(jié)點(diǎn)交互的數(shù)據(jù)量下降了兩個(gè)數(shù)量級。但是過度降低通信成本將會(huì)導(dǎo)致聯(lián)邦模型精度的下降。因此,在保證模型精度前提下,如何降低通信成本或者計(jì)算復(fù)雜度也是聯(lián)邦學(xué)習(xí)研究熱點(diǎn)之一。
4.1.2 安全性與模型精度之間難以平衡 醫(yī)療領(lǐng)域的數(shù)據(jù)和模型都屬于高隱私信息,常見攻擊方式包括模型攻擊、數(shù)據(jù)攻擊、逃避攻擊等。聯(lián)邦學(xué)習(xí)可以借助多方安全計(jì)算和密碼學(xué)等方式防止其攻擊,但是保護(hù)數(shù)據(jù)集安全性同時(shí)可能需要犧牲模型的精度或者性能。如抵御模型攻擊方面,有學(xué)者提出基于差分隱私的聯(lián)邦優(yōu)化算法,在不良藥物預(yù)測和死亡預(yù)測這兩個(gè)場景驗(yàn)證其安全性和有效率,但是隨著差分隱私保護(hù)數(shù)據(jù)力度增強(qiáng),模型精度將會(huì)降低[17]。
4.1.3 數(shù)據(jù)集無法滿足獨(dú)立同分布 醫(yī)療機(jī)構(gòu)數(shù)據(jù)集受專業(yè)性、認(rèn)知不統(tǒng)一等因素影響,導(dǎo)致不同醫(yī)療機(jī)構(gòu)采集的數(shù)據(jù)集無法滿足獨(dú)立同分布。
4.1.4 數(shù)據(jù)集個(gè)性化突出 由于患者身體體質(zhì)與健康記錄信息存在差異性,相同疾病或診斷結(jié)果,患者數(shù)據(jù)集可能存在較大差異。傳統(tǒng)聯(lián)邦學(xué)習(xí)是基于不同計(jì)算點(diǎn)的患者數(shù)據(jù)訓(xùn)練統(tǒng)一的模型,該模型可能不足以充分挖掘出不同個(gè)體差異性,尤其是穿戴傳感器等個(gè)性化較突出的領(lǐng)域。
4.1.5 利益分配問題 聯(lián)邦學(xué)習(xí)在醫(yī)療行業(yè)應(yīng)用時(shí)都是假設(shè)各個(gè)醫(yī)療機(jī)構(gòu)愿意無償參與系統(tǒng),實(shí)際上數(shù)據(jù)集本身是醫(yī)療機(jī)構(gòu)的重要資產(chǎn),共享數(shù)據(jù)集過程都需要成本。各個(gè)醫(yī)療機(jī)構(gòu)借助聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)集對外變現(xiàn)的可能,自然會(huì)涉及利益分配問題。利益分配不合理將會(huì)影響醫(yī)療機(jī)構(gòu)繼續(xù)參與數(shù)據(jù)分享的積極性。因此,聯(lián)邦學(xué)習(xí)系統(tǒng)在醫(yī)療行業(yè)進(jìn)行商業(yè)落地時(shí),除需要考慮系統(tǒng)性能、數(shù)據(jù)安全性外,還需要增加合理的利益分配策略。
4.2.1 聯(lián)邦學(xué)習(xí)與TEE技術(shù)相結(jié)合提高聯(lián)邦學(xué)習(xí)性能 可信執(zhí)行環(huán)境(Trusted Execution Enrironment,TEE)相當(dāng)于在服務(wù)器中隔離出一塊安全區(qū)域保證程序和數(shù)據(jù)安全性與完整性,TEE中SGX可以保證數(shù)據(jù)存儲(chǔ)時(shí)為密文,CPU計(jì)算時(shí)為明文。在TEE上實(shí)現(xiàn)聯(lián)邦學(xué)習(xí),可以簡化傳統(tǒng)的聯(lián)邦學(xué)習(xí)加密方式,降低交互頻率,提高運(yùn)算速率,缺點(diǎn)是成本比普通服務(wù)器高,且安全性是由芯片廠商保證。
4.2.2 個(gè)性化聯(lián)邦學(xué)習(xí) 醫(yī)療行業(yè)不同機(jī)構(gòu)的數(shù)據(jù)高度異質(zhì),傳統(tǒng)聯(lián)邦學(xué)習(xí)得到模型精度不夠,因此需要構(gòu)建個(gè)性化聯(lián)邦學(xué)習(xí)[18],個(gè)性化聯(lián)邦學(xué)習(xí)分為兩類,第1類是全局模型個(gè)性化,即訓(xùn)練流程與傳統(tǒng)相同,但是參數(shù)初始時(shí)與更新時(shí)存在差異性,導(dǎo)致最終的模型存在差異性;第2類是個(gè)性化訓(xùn)練模型,即通過改變原有的參數(shù)聚合協(xié)議,建立計(jì)算節(jié)點(diǎn)的個(gè)性化模型。個(gè)性化聯(lián)邦尤其適合不同計(jì)算節(jié)點(diǎn)數(shù)據(jù)呈現(xiàn)非獨(dú)立同分布,但在數(shù)據(jù)集獨(dú)立同分布的場景,模型精度并不優(yōu)于傳統(tǒng)的聯(lián)邦學(xué)習(xí)。
4.2.3 基于多種加密手段的聯(lián)邦學(xué)習(xí)平衡計(jì)算復(fù)雜度與模型精度 基于同態(tài)加密的聯(lián)邦學(xué)習(xí)安全等級高且不會(huì)影響聯(lián)邦學(xué)習(xí)精度,但是計(jì)算復(fù)雜度過高導(dǎo)致聯(lián)邦學(xué)習(xí)性能較差,比較適合帶寬受限制的環(huán)境。差分隱私計(jì)算復(fù)雜度低,但是安全等級不如同態(tài)加密,適合安全性要求不高、性能要求比較高的環(huán)境。因此兩者相結(jié)合的聯(lián)邦學(xué)習(xí)系統(tǒng)在保證安全性的同時(shí)也可以降低計(jì)算復(fù)雜度。
4.2.4 聯(lián)邦學(xué)習(xí)與區(qū)塊鏈相結(jié)合構(gòu)建合理的激勵(lì)機(jī)制 區(qū)塊鏈?zhǔn)欠植际降馁~本,可信度高,可以防止數(shù)據(jù)篡改,其與聯(lián)邦學(xué)習(xí)有相似的應(yīng)用基礎(chǔ),前者可以保證價(jià)值安全轉(zhuǎn)移,交易記錄不可被篡改,后者是實(shí)現(xiàn)數(shù)據(jù)價(jià)值,兩者相結(jié)合,根據(jù)不同醫(yī)療機(jī)構(gòu)參與聯(lián)邦學(xué)習(xí)的貢獻(xiàn)度制定利益分配方案,并將其貢獻(xiàn)度和獲得利益記錄到區(qū)塊鏈中,智能合約收到聯(lián)邦學(xué)習(xí)在實(shí)際服務(wù)中產(chǎn)生的收益后,自動(dòng)為各個(gè)醫(yī)療機(jī)構(gòu)分配收益。若每個(gè)醫(yī)療機(jī)構(gòu)數(shù)據(jù)異常,也可以到區(qū)塊鏈中進(jìn)行追溯。
聯(lián)邦學(xué)習(xí)打破不同行業(yè)數(shù)據(jù)壁壘,進(jìn)一步加速醫(yī)療行業(yè)數(shù)據(jù)安全流通,其在醫(yī)療信息領(lǐng)域應(yīng)用場景較廣泛。盡管聯(lián)邦學(xué)習(xí)在應(yīng)用時(shí)會(huì)遇到一些難題,但是隨著聯(lián)邦學(xué)習(xí)技術(shù)的成熟,其可以衍生出多個(gè)技術(shù)路線去解決這些難題,進(jìn)一步擴(kuò)大聯(lián)邦學(xué)習(xí)在醫(yī)療信息化領(lǐng)域應(yīng)用場景,并推動(dòng)其轉(zhuǎn)型與發(fā)展。