姚俊明 邢 丹 邵婷婷
(濟(jì)寧醫(yī)學(xué)院醫(yī)學(xué)信息工程學(xué)院 日照 276826)
隨著生活水平提高,大眾對(duì)健康和個(gè)性化健康服務(wù)需求日益增強(qiáng),醫(yī)療健康領(lǐng)域由以醫(yī)院為中心轉(zhuǎn)變?yōu)橐曰颊邽橹行牡娜芷凇⑷^程、系統(tǒng)連續(xù)的精準(zhǔn)醫(yī)療健康服務(wù)模式。同時(shí)由于移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)及信息技術(shù)等迅猛發(fā)展,采用電子病歷和醫(yī)學(xué)圖像等醫(yī)療健康大數(shù)據(jù)進(jìn)行遠(yuǎn)程醫(yī)療決策和疾病預(yù)測(cè)成為可能。通常數(shù)據(jù)來(lái)源包括自我量化、電子健康記錄、醫(yī)學(xué)研究或疾病監(jiān)測(cè)、生物標(biāo)本和基因測(cè)序的生物信息等,其來(lái)源于不同健康醫(yī)療機(jī)構(gòu)及設(shè)備,常以孤島形式存在。以往應(yīng)用人工智能算法的數(shù)據(jù)處理模式是將數(shù)據(jù)收集到單個(gè)數(shù)據(jù)庫(kù)中再進(jìn)行處理、清洗并建模,無(wú)法滿足不斷持續(xù)增長(zhǎng)的數(shù)據(jù)可擴(kuò)展需要,同時(shí)還存在單點(diǎn)攻擊或失效風(fēng)險(xiǎn)。近年來(lái)由于智能可穿戴設(shè)備、智能手機(jī)、智能醫(yī)療設(shè)備興起,可隨時(shí)隨地獲取個(gè)人醫(yī)療健康數(shù)據(jù)。通過在設(shè)備和云之間增加邊緣計(jì)算節(jié)點(diǎn)的移動(dòng)邊緣計(jì)算模式,具有延時(shí)低、充分利用資源、可減輕骨干網(wǎng)壓力等優(yōu)點(diǎn)被廣泛應(yīng)用。借助邊緣計(jì)算物聯(lián)網(wǎng)設(shè)備可以將繁重任務(wù)交給邊緣節(jié)點(diǎn),利用通信平衡計(jì)算性能,使其節(jié)能并增強(qiáng)性能。通過網(wǎng)絡(luò)邊緣架起云容量和設(shè)備需求的橋梁,可加速內(nèi)容交付并提高移動(dòng)服務(wù)質(zhì)量。醫(yī)療健康數(shù)據(jù)敏感程度較強(qiáng),信息安全要求較高,現(xiàn)有隱私保護(hù)措施尚有待完善,例如在對(duì)多源數(shù)據(jù)進(jìn)行分析時(shí)仍可通過數(shù)據(jù)關(guān)聯(lián)分析挖掘出更多信息。相關(guān)研究指出少數(shù)特征組合可唯一標(biāo)識(shí)某些個(gè)體,如基因檢測(cè)數(shù)據(jù)與病理數(shù)據(jù)結(jié)合較易匹配到具體個(gè)人。本文在移動(dòng)云環(huán)境下,采用聯(lián)邦學(xué)習(xí)[1]方式建立具有安全和隱私保護(hù)功能的慢病管理模型并進(jìn)行探討,為提高醫(yī)療健康數(shù)據(jù)信息安全水平提供參考。
2.1.1 國(guó)外 目前各國(guó)對(duì)應(yīng)用數(shù)據(jù)進(jìn)行慢病管理進(jìn)行了積極探索。美國(guó)使用信息技術(shù)構(gòu)建以家庭為基礎(chǔ)的慢性病遠(yuǎn)程管理模式;以色列將各醫(yī)療機(jī)構(gòu)數(shù)據(jù)推送至前置端并接入國(guó)家健康信息交換平臺(tái),對(duì)糖尿病大數(shù)據(jù)進(jìn)行分析、建立管理模型,幫助患者控制病情;韓國(guó)利用國(guó)家脫氧核糖核酸(Deoxyribo Nucleic Acid,DNA)管理系統(tǒng)將DNA和患者醫(yī)療數(shù)據(jù)結(jié)合并提供個(gè)性化診斷和治療[2]。
2.1.2 國(guó)內(nèi) 我國(guó)醫(yī)療信息化建設(shè)前期,醫(yī)院各業(yè)務(wù)系統(tǒng)由于未采用統(tǒng)一標(biāo)準(zhǔn)而形成大量信息孤島,體現(xiàn)在醫(yī)院各科室內(nèi)部、醫(yī)院之間、醫(yī)院與社區(qū)及區(qū)域之間。由于醫(yī)療數(shù)據(jù)產(chǎn)生具有大量性和復(fù)雜性特征,醫(yī)院內(nèi)數(shù)據(jù)傳輸、交換任何環(huán)節(jié)出現(xiàn)問題均可能導(dǎo)致數(shù)據(jù)泄露[3]。在人工智能領(lǐng)域,傳統(tǒng)數(shù)據(jù)處理模式是一方收集數(shù)據(jù)轉(zhuǎn)移到另一方進(jìn)行處理、清洗并建模,最后將模型移交第3方。隨著法規(guī)完善和監(jiān)控嚴(yán)格,如果數(shù)據(jù)離開收集方或者用戶不清楚模型具體用途,運(yùn)營(yíng)者可能觸犯法律。傳統(tǒng)機(jī)器學(xué)習(xí)模型將不同數(shù)據(jù)整合到一方,由于涉及隱私和數(shù)據(jù)安全等法律問題通常難以實(shí)施。
2.2.1 概述 現(xiàn)有基于機(jī)器學(xué)習(xí)的隱私保護(hù)方法包括加密方法(以多方安全計(jì)算、同態(tài)加密為代表)和擾動(dòng)方法(以差分隱私為代表),但數(shù)據(jù)加密過程計(jì)算量較大,復(fù)雜情況下將產(chǎn)生巨大性能開銷,而差分隱私在一定程度上會(huì)對(duì)模型的預(yù)測(cè)準(zhǔn)確性造成影響[4]。為了應(yīng)對(duì)數(shù)據(jù)隱私和安全問題,歐盟出臺(tái)首部數(shù)據(jù)隱私保護(hù)法案《通用數(shù)據(jù)保護(hù)條例》,但需要從技術(shù)上解決數(shù)據(jù)孤島問題,聯(lián)邦學(xué)習(xí)則能讓人工智能更加高效、準(zhǔn)確地共同使用各自數(shù)據(jù),在小數(shù)據(jù)和弱監(jiān)督條件下建立更好的模型[5]。
2.2.2 研究進(jìn)展 Brisimi等提出通過存儲(chǔ)在智能手機(jī)和不同醫(yī)院設(shè)備的健康信息,分析預(yù)測(cè)心臟病患者的住院治療,使多個(gè)數(shù)據(jù)持有者在無(wú)需直接交換原始數(shù)據(jù)情況下協(xié)作[6]。Lee等探討在聯(lián)邦學(xué)習(xí)環(huán)境中為跨機(jī)構(gòu)相似患者提供隱私保護(hù)平臺(tái),用于疾病和臨床試驗(yàn)志愿者監(jiān)測(cè)[7]。Ren等提出在移動(dòng)邊緣計(jì)算環(huán)境下,通過在邊緣節(jié)點(diǎn)上部署多個(gè)深度強(qiáng)化學(xué)習(xí)代理為物聯(lián)網(wǎng)設(shè)備提供決策;使用聯(lián)邦學(xué)習(xí)對(duì)深度強(qiáng)化學(xué)習(xí)代理進(jìn)行訓(xùn)練,降低物聯(lián)網(wǎng)設(shè)備與邊緣之間的傳輸成本[8]。Qian等探討通過部署移動(dòng)邊緣云為用戶提供延遲敏感服務(wù),提出隱私感知位置方案以解決具有隱私保護(hù)的服務(wù)位置問題[9]。楊強(qiáng)等提出針對(duì)醫(yī)聯(lián)體腦卒中患者建立協(xié)同防止服務(wù)模式[10]。
2.2.3 聯(lián)邦機(jī)器學(xué)習(xí)算法應(yīng)用 傳統(tǒng)醫(yī)療健康機(jī)器學(xué)習(xí)將數(shù)據(jù)集中到服務(wù)器端,通過運(yùn)行機(jī)器學(xué)習(xí)算法訓(xùn)練相應(yīng)模型。而聯(lián)邦機(jī)器學(xué)習(xí)能夠保證不進(jìn)行數(shù)據(jù)交換的同時(shí)開展模型訓(xùn)練。本文在移動(dòng)邊緣環(huán)境下采取聯(lián)邦機(jī)器學(xué)習(xí)算法,使數(shù)據(jù)不出本地通過交換加密的參數(shù)進(jìn)行模型訓(xùn)練,突出個(gè)人對(duì)數(shù)據(jù)的控制權(quán),大幅降低用戶數(shù)據(jù)泄露風(fēng)險(xiǎn),實(shí)現(xiàn)慢性病數(shù)據(jù)共享和智能疾病預(yù)測(cè)、預(yù)診、輔助診斷、隨訪跟蹤和質(zhì)量控制等目的。為保證區(qū)域醫(yī)療數(shù)據(jù)安全共享,將聯(lián)邦學(xué)習(xí)應(yīng)用于醫(yī)聯(lián)體分級(jí)診療內(nèi)部,形成安全、具有隱私保護(hù)功能的機(jī)器學(xué)習(xí)。
隨著智能可穿戴設(shè)備、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)興起,醫(yī)療健康數(shù)據(jù)由集中存儲(chǔ)在醫(yī)療機(jī)構(gòu)內(nèi)部的傳統(tǒng)模式向分散存儲(chǔ)模式轉(zhuǎn)變,存儲(chǔ)設(shè)備包括醫(yī)生辦公室終端、家用設(shè)備、患者智能手機(jī)等,數(shù)據(jù)處理呈現(xiàn)分散性。健康醫(yī)療大數(shù)據(jù)高速、大量產(chǎn)生,單個(gè)數(shù)據(jù)庫(kù)集中存儲(chǔ)管理方式已無(wú)法滿足需求。一是考慮數(shù)據(jù)規(guī)模和隱私問題而無(wú)法將數(shù)據(jù)匯總在單個(gè)數(shù)據(jù)庫(kù)中;二是集中存儲(chǔ)存在信息泄露風(fēng)險(xiǎn),如單點(diǎn)攻擊或故障導(dǎo)致可能數(shù)據(jù)泄露;三是建立數(shù)據(jù)中心需要大量基礎(chǔ)架構(gòu)。分散式管理聯(lián)邦學(xué)習(xí)方式將數(shù)據(jù)視為中心數(shù)據(jù)庫(kù)一部分,避免數(shù)據(jù)集中收集、處理和原始數(shù)據(jù)交換。一旦數(shù)據(jù)存在標(biāo)簽缺失嚴(yán)重問題,通過遷移學(xué)習(xí)可對(duì)標(biāo)簽進(jìn)行補(bǔ)全,擴(kuò)大可用數(shù)據(jù)規(guī)模,進(jìn)一步提高模型效果[11]。
針對(duì)醫(yī)聯(lián)體內(nèi)慢病患者、慢病高危人群、健康個(gè)體的健康醫(yī)療數(shù)據(jù),通過聯(lián)邦機(jī)器學(xué)習(xí)方式,建立慢病預(yù)測(cè)分析模型,使數(shù)據(jù)不出本地以保證安全,實(shí)現(xiàn)導(dǎo)致慢病發(fā)生的高危因素定位、針對(duì)健康個(gè)體的健康管理指導(dǎo)、針對(duì)高危人群的健康危險(xiǎn)評(píng)估和預(yù)警干預(yù)。如進(jìn)行非藥物干預(yù),則可通過手機(jī)推送保健計(jì)劃,包括建議科學(xué)飲食結(jié)構(gòu)、健康生活方式等;如進(jìn)行藥物干預(yù),可建議使用藥物種類、劑量等。
由醫(yī)聯(lián)體和健康云端組成。醫(yī)聯(lián)體是由同區(qū)域內(nèi)村衛(wèi)生院、社區(qū)醫(yī)院、二級(jí)及三級(jí)醫(yī)療機(jī)構(gòu)聯(lián)合組成的醫(yī)療團(tuán)體。醫(yī)聯(lián)體由用戶端、邊緣服務(wù)器和云端服務(wù)器組成。用戶端為基層醫(yī)療機(jī)構(gòu)(村衛(wèi)生院、社區(qū)醫(yī)院),負(fù)責(zé)收集、存儲(chǔ)基層用戶健康數(shù)據(jù)。邊緣服務(wù)節(jié)點(diǎn)由二、三級(jí)醫(yī)院服務(wù)器充當(dāng),見圖1。
圖1 移動(dòng)邊緣環(huán)境下聯(lián)邦學(xué)習(xí)架構(gòu)
3.4.1 服務(wù)層 位于最高層,為醫(yī)聯(lián)體內(nèi)二、三級(jí)醫(yī)療機(jī)構(gòu)提供服務(wù),包含所需軟件組件。使用下層算法層組件根據(jù)具體需求實(shí)現(xiàn)邏輯功能。基于形成的慢病分析模型,面向醫(yī)療機(jī)構(gòu)、患者等用戶提供慢病風(fēng)險(xiǎn)評(píng)估、慢病高危篩查、精準(zhǔn)健康管理、管理效果評(píng)估等應(yīng)用服務(wù)。該層包含以下組件:一是用戶服務(wù)組件,支持用戶訪問和使用聯(lián)邦學(xué)習(xí)服務(wù)。典型功能包括用戶界面、任務(wù)提交、數(shù)據(jù)與模型導(dǎo)入與導(dǎo)出工具、數(shù)據(jù)發(fā)布與發(fā)現(xiàn)。二是參與方協(xié)調(diào)服務(wù)組件,功能包括參與方身份和配置文件管理、對(duì)服務(wù)活動(dòng)和使用的監(jiān)控、事件處理和問題報(bào)告、安全管理服務(wù)。三是通用算法服務(wù)組件,提供通用算法功能,使得算法可應(yīng)用到數(shù)據(jù)中。常見通用服務(wù)組件包括分類、聚類和回歸。四是場(chǎng)景服務(wù)組件,提供與業(yè)務(wù)耦合性較強(qiáng)的功能組件,隨著業(yè)務(wù)或用戶需要變化而變更。典型應(yīng)用場(chǎng)景包括語(yǔ)音識(shí)別、生物特征識(shí)別、計(jì)算機(jī)視覺和自然語(yǔ)言處理。五是數(shù)據(jù)服務(wù)組件,包括數(shù)據(jù)發(fā)布、數(shù)據(jù)發(fā)現(xiàn)。六是任務(wù)管理組件,用于管理聯(lián)邦學(xué)習(xí)活動(dòng)中的建模與預(yù)測(cè)活動(dòng)。支持新建聯(lián)邦學(xué)習(xí)任務(wù);查詢聯(lián)邦學(xué)習(xí)任務(wù)狀態(tài)與日志;結(jié)束正在運(yùn)行的聯(lián)邦學(xué)習(xí)任務(wù);在可能情況下回復(fù)部分失敗任務(wù);提供聯(lián)邦學(xué)習(xí)任務(wù)管理能力。
3.4.2 算法層 實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)的基本算法,使用算子層組件,為服務(wù)層提供支持,是實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法的邏輯,獨(dú)立于具體業(yè)務(wù)。主要具有以下功能:樣本對(duì)齊;特征對(duì)齊;聯(lián)合特征工程;領(lǐng)域自適應(yīng);通用聯(lián)邦學(xué)習(xí)算法實(shí)現(xiàn);算法評(píng)估;加密建模與預(yù)測(cè)。
3.4.3 算子層 為實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法邏輯所需的高抽象通用組件。使用下層基礎(chǔ)架構(gòu)層提供功能,向算法層提供高抽象組件,算法開發(fā)者可利用其快速實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)算法。包含以下組件:多方安全計(jì)算算子、聚合算子、激活函數(shù)、正則化處理器、代價(jià)函數(shù)、優(yōu)化方法、梯度處理器。多方安全計(jì)算是聯(lián)邦學(xué)習(xí)底層安全機(jī)制的核心,在聯(lián)邦學(xué)習(xí)參與方進(jìn)行活動(dòng)時(shí)對(duì)數(shù)據(jù)進(jìn)行加密或脫敏,保障源數(shù)據(jù)不被泄漏。實(shí)現(xiàn)方式包括同臺(tái)加密、秘密共享、遺忘傳輸、混淆電路、RSA加密算法、可信執(zhí)行環(huán)境。
3.4.4 基礎(chǔ)架構(gòu)層 運(yùn)行基礎(chǔ)架構(gòu),向上提供通用計(jì)算、存儲(chǔ)、通信的能力。包括以下功能:提供編程接口;提供計(jì)算、運(yùn)行建?;蝾A(yù)測(cè)任務(wù);提供存儲(chǔ)機(jī)制,對(duì)產(chǎn)出模型與必要數(shù)據(jù)進(jìn)行存儲(chǔ),以及提供數(shù)據(jù)導(dǎo)入/導(dǎo)出實(shí)用工具;提供資源調(diào)度與管理機(jī)制,跟蹤與記錄資源狀態(tài);提供通信基礎(chǔ)設(shè)施,在各參與方之間安全地傳遞信息;數(shù)據(jù)清理,即清理冗余信息及不完整信息;數(shù)據(jù)集成,確定預(yù)測(cè)參考值及相關(guān)屬性,建立影響權(quán)重;數(shù)據(jù)轉(zhuǎn)換,將非布爾屬性的人體生理數(shù)據(jù)轉(zhuǎn)換成布爾屬性數(shù)據(jù),進(jìn)行離散化處理。
3.4.5 跨層功能 包括一系列功能組件,與上述4層組件進(jìn)行交互以提供支撐能力,具有以下功能:訓(xùn)練能力;運(yùn)營(yíng)能力;數(shù)據(jù)安全能力,包括賬戶、身份認(rèn)證、授權(quán)和安全策略、數(shù)據(jù)完整性管理、數(shù)據(jù)銷毀及隱私泄露防護(hù);監(jiān)督和評(píng)估能力。
圖2 聯(lián)邦學(xué)習(xí)框架功能
以線性回歸訓(xùn)練為例,分4步進(jìn)行。第1步:邊緣服務(wù)器根據(jù)慢病管理任務(wù)向各醫(yī)療健康客戶端下發(fā)學(xué)習(xí)模型,分發(fā)公鑰給用戶端,用以對(duì)訓(xùn)練過程中交換數(shù)據(jù)進(jìn)行加密。第2步:用戶端之間以加密形式交互用于計(jì)算梯度的中間結(jié)果。第3步:用戶端之間分別基于加密梯度值進(jìn)行計(jì)算,同時(shí)某一用戶端根據(jù)其標(biāo)簽數(shù)據(jù)計(jì)算損失,將結(jié)果匯總至邊緣服務(wù)器。邊緣服務(wù)器通過匯總結(jié)果計(jì)算總梯度值并解密。第4步:邊緣服務(wù)器將解密后梯度分別回傳 至用戶端,用戶端根據(jù)梯度更新各自模型參數(shù)。數(shù)據(jù)設(shè)備端訓(xùn)練的模型參數(shù)通過無(wú)線網(wǎng)絡(luò)傳輸至邊緣服務(wù)層,基站收集各用戶參數(shù)并存儲(chǔ)在邊緣服務(wù)器上。邊緣服務(wù)器端聚合上述參數(shù)并更新整體模型參數(shù)。迭代上述步驟直至損失函數(shù)收斂以完成整個(gè)訓(xùn)練過程。在樣本對(duì)齊及模型訓(xùn)練過程中,用戶端數(shù)據(jù)均保留在本地,訓(xùn)練中數(shù)據(jù)交互不會(huì)導(dǎo)致數(shù)據(jù)隱私泄露。因此雙方在聯(lián)邦學(xué)習(xí)幫助下實(shí)現(xiàn)合作訓(xùn)練模型。將該模型下發(fā)至各參與用戶可開始新一輪訓(xùn)練學(xué)習(xí)。將訓(xùn)練好的模型參數(shù)向上聚集在云端可進(jìn)行進(jìn)一步醫(yī)療健康數(shù)據(jù)共享。
以醫(yī)聯(lián)體為單位配備具有人工智能的邊緣服務(wù)器節(jié)點(diǎn)計(jì)算可將云計(jì)算與海量數(shù)據(jù)結(jié)合,各醫(yī)聯(lián)體內(nèi)用戶設(shè)備組成強(qiáng)大的人工智能實(shí)體,提高認(rèn)知能力。系統(tǒng)核心優(yōu)勢(shì)在于無(wú)需集中訓(xùn)練數(shù)據(jù),不同數(shù)據(jù)擁有方在不交換彼此數(shù)據(jù)情況下建立虛擬共有模型,其效果等同于各方聚合數(shù)據(jù)建立的最優(yōu)模型。聯(lián)邦學(xué)習(xí)是解決數(shù)據(jù)孤島問題的可行方案,本課題所研究的在移動(dòng)邊緣環(huán)境下實(shí)現(xiàn)跨醫(yī)療機(jī)構(gòu)、醫(yī)聯(lián)體內(nèi)慢病患者預(yù)測(cè)模型,可感知用戶設(shè)備和邊緣服務(wù)器中的數(shù)據(jù),還可靈活減少訓(xùn)練次數(shù),降低通信開銷。
聯(lián)邦機(jī)器學(xué)習(xí)具有數(shù)據(jù)樣本非獨(dú)立同分布、各節(jié)點(diǎn)數(shù)據(jù)量不平衡、超大規(guī)模分布式網(wǎng)絡(luò)、通信受限等特點(diǎn)。與集中學(xué)習(xí)相比聯(lián)邦學(xué)習(xí)更強(qiáng)調(diào)對(duì)個(gè)人數(shù)據(jù)的控制權(quán)。醫(yī)療健康慢病管理包含大量個(gè)人敏感信息且受政策與法律的制約不可傳播與共享,有限的數(shù)據(jù)使模型性能提升面臨瓶頸[4]。在醫(yī)聯(lián)體中利用移動(dòng)邊緣云對(duì)慢病患者數(shù)據(jù)建模,同時(shí)多個(gè)醫(yī)聯(lián)體還可在健康云中心建立更廣泛的模型,實(shí)現(xiàn)數(shù)據(jù)不出本地通過交換加密參數(shù)進(jìn)行模型訓(xùn)練,大幅降低用戶數(shù)據(jù)泄露風(fēng)險(xiǎn)。但聯(lián)邦學(xué)習(xí)技術(shù)處于起步階段,尚存在通信負(fù)載、參與方提供參數(shù)缺乏相應(yīng)質(zhì)量驗(yàn)證機(jī)制、傳輸及存儲(chǔ)過程隱私性保護(hù)等安全風(fēng)險(xiǎn),此外參與用戶的異構(gòu)性、模型參數(shù)聚合算法、用戶通信鏈路可靠性等方面尚待深入研究[13-14]。