陸貴強 白玉真 金 博 劉一瑋 周海濤 陳如梵 李 幟
(遼寧裝備制造職業(yè)技術(shù)學(xué)院資源與信息技術(shù)服務(wù)中心 沈陽110004) (中國信息通信研究院云計算與大數(shù)據(jù)研究所 北京100191) (大連理工大學(xué) 大連116024)(云賽智聯(lián)股份有限公司上海數(shù)翊信息技術(shù)分公司 上海200434) (杭州锘崴信息科技有限公司 杭州310053)
近年來人工智能(Artificial Intelligence,AI)的飛速發(fā)展在引領(lǐng)新一輪全球技術(shù)革命的同時也暴露出其在隱私保護和數(shù)據(jù)安全等方面所面臨的嚴(yán)峻挑戰(zhàn)。有研究表明通過對AI系統(tǒng)的攻擊可以推理出訓(xùn)練數(shù)據(jù)中的個體敏感信息,或者惡意篡改機器學(xué)習(xí)結(jié)果。因此發(fā)展高效、可信、魯棒的安全人工智能基礎(chǔ)理論及技術(shù)已經(jīng)成為國內(nèi)外共同關(guān)注的問題,建設(shè)新一代人工智能已成為國家戰(zhàn)略。在醫(yī)療健康領(lǐng)域,涉及海量患者個人隱私數(shù)據(jù),如何在確保安全的情況下對數(shù)據(jù)進行遷移,并實現(xiàn)全生命周期的數(shù)據(jù)管理至關(guān)重要。本文針對非均勻醫(yī)療數(shù)據(jù)源,研究最小化信息交換的數(shù)據(jù)源遷移有效性度量方法;針對數(shù)據(jù)源異質(zhì)安全需求,構(gòu)建融合差分隱私、多方可信計算的層次化跨域知識安全匯聚機制;針對時變演化的數(shù)據(jù)源,研究知識匯聚模型的模塊化適時更新機制。為實現(xiàn)面向健康醫(yī)療數(shù)據(jù)的全生命周期管理,海量數(shù)據(jù)源的知識匯聚和遷移將面臨計算效率、數(shù)據(jù)安全、時變演化的挑戰(zhàn)。本文重點研究隱私保護下海量醫(yī)療數(shù)據(jù)源高效率、強安全、自適應(yīng)的知識遷移匯聚技術(shù)。針對海量數(shù)據(jù)源,研究最小化信息交換的數(shù)據(jù)源遷移價值度量方法,實現(xiàn)高效準(zhǔn)確的遷移質(zhì)量評估和高價值數(shù)據(jù)源優(yōu)選;根據(jù)數(shù)據(jù)源異質(zhì)安全需求,構(gòu)建融合差分隱私、多方可信計算、同態(tài)加密等多種安全機制的層次化跨域知識安全匯聚方法,實現(xiàn)安全、效率雙優(yōu)化;面對時變數(shù)據(jù)源,研究知識匯聚模型的自適應(yīng)適時演化機制,實現(xiàn)質(zhì)效優(yōu)化下的匯聚模型動態(tài)生長。基于上述研究成果,本文提出一套隱私保護下海量數(shù)據(jù)源跨域知識安全遷移全生命周期技術(shù)框架,支持現(xiàn)有開源機器學(xué)習(xí)平臺和海量醫(yī)療數(shù)據(jù)。
隨著信息技術(shù)不斷發(fā)展,大部分醫(yī)院建立了各類信息管理系統(tǒng),特別是伴隨物聯(lián)網(wǎng)、移動醫(yī)療、自動化分析檢測儀、可穿戴設(shè)備的普及,醫(yī)院、醫(yī)生和患者都成為數(shù)據(jù)的直接創(chuàng)造者,每天產(chǎn)生海量醫(yī)療健康數(shù)據(jù)[1-2]。充分挖掘醫(yī)療健康大數(shù)據(jù)的潛在價值,對提高醫(yī)療質(zhì)量、節(jié)約醫(yī)療成本、加強個人健康管理有重要作用[3-4]。在我國,醫(yī)療健康大數(shù)據(jù)也越來越受到重視。《“健康中國2030”規(guī)劃綱要》中明確指出加強健康醫(yī)療大數(shù)據(jù)應(yīng)用體系建設(shè),推進基于區(qū)域人口健康信息平臺的醫(yī)療健康大數(shù)據(jù)開放共享、深度挖掘和廣泛應(yīng)用。健康醫(yī)療大數(shù)據(jù)可為醫(yī)務(wù)工作者、患者提供醫(yī)療知識,在恰當(dāng)?shù)臅r間智能化地過濾和表達(dá)信息,使臨床醫(yī)療達(dá)到最佳療效,具有極其重要的意義[5]。而治療用藥決策作為臨床決策的重要組成部分,其可根據(jù)歷史醫(yī)療健康大數(shù)據(jù)來輔助醫(yī)生更加高效地選擇和制定有益于患者的最佳治療方案和用藥組合,從而更好地緩解醫(yī)療資源欠缺的現(xiàn)狀。醫(yī)療大數(shù)據(jù)具有數(shù)據(jù)量大(Volume)、實時性強(Velocity)、種類多樣(Variety)和潛在價值高(Value)4個特點[6],潛在價值挖掘面臨巨大挑戰(zhàn)。例如臨床數(shù)據(jù)和實驗室數(shù)據(jù)整合在一起,數(shù)據(jù)量巨大,僅靠人工經(jīng)驗完全無法識別出真正具有高價值的病歷參考。醫(yī)療健康大數(shù)據(jù)中包含著大量的多元異構(gòu)以及多模態(tài)數(shù)據(jù),如電子病歷數(shù)據(jù)中包含患者個人信息、歷史用藥數(shù)據(jù)、歷史檢查檢驗等結(jié)構(gòu)化數(shù)據(jù),病情描述等文本類型數(shù)據(jù),CT等圖像類數(shù)據(jù),且此類數(shù)據(jù)具有一定的相關(guān)性和時序復(fù)雜性。合理高效地通過智能決策方法對這些醫(yī)療數(shù)據(jù)進行分析處理,既能夠使醫(yī)生診療有跡可循,還可以發(fā)現(xiàn)最有效的治療方案或者用藥方法,從而及時為醫(yī)生和患者提供最佳的診療建議[7]。
現(xiàn)有開源聯(lián)邦學(xué)習(xí)框架[8]主要基于2016年提出的經(jīng)典聯(lián)邦學(xué)習(xí)范式[9],該范式假設(shè)各數(shù)據(jù)源同質(zhì),可采用同一聯(lián)邦學(xué)習(xí)算法匯聚知識,并共享單一聯(lián)邦學(xué)習(xí)模型。但在機器學(xué)習(xí)實踐中,數(shù)據(jù)源廣泛存在異質(zhì)性,包括數(shù)據(jù)分布、樣本覆蓋、特征維度、優(yōu)化目標(biāo)、隱私需求等,往往難以滿足同質(zhì)性假設(shè)。一些國內(nèi)外高校和機構(gòu)針對異質(zhì)性改進現(xiàn)有聯(lián)邦學(xué)習(xí)框架,提出個性化聯(lián)邦學(xué)習(xí)、聯(lián)邦遷移學(xué)習(xí)等新型隱私機器學(xué)習(xí)范式[10],但仍主要集中在解決數(shù)據(jù)非獨立同分布、樣本覆蓋不一致等有限異質(zhì)性問題。拓展現(xiàn)有聯(lián)邦學(xué)習(xí)框架,突破海量數(shù)據(jù)源間存在的各類異質(zhì)性將有望擴展隱私機器學(xué)習(xí)的實踐及應(yīng)用范圍。
在給定醫(yī)療數(shù)據(jù)遷移場景中,選擇合適數(shù)據(jù)源提取知識,是成功完成知識遷移的先決條件。在面對海量數(shù)據(jù)源并滿足隱私保護的要求下,除確保數(shù)據(jù)源價值度量準(zhǔn)確性外,還需兼顧高效性與安全性兩個核心指標(biāo)。本文在現(xiàn)有基于博弈論的公平數(shù)據(jù)價值度量方案基礎(chǔ)上,探索如何最小化價值度量流程中數(shù)據(jù)源間所需交換的信息量,以及如何高效選擇最優(yōu)數(shù)據(jù)源進行知識遷移,同時達(dá)到降低隱私泄露風(fēng)險和提升計算效率的雙重目標(biāo)。特別針對不同數(shù)據(jù)源組合可能展現(xiàn)出的不同特性,如是否滿足隨數(shù)據(jù)源增加、模型邊際效應(yīng)遞減屬性等,分別研究基于運籌優(yōu)化理論(如子模優(yōu)化)和機器學(xué)習(xí)梯度優(yōu)化理論的數(shù)據(jù)源優(yōu)選算法,達(dá)到質(zhì)效雙優(yōu),見圖1。
異構(gòu)安全機制(如差分隱私、多方安全計算、同態(tài)加密等)可達(dá)到不同保護效果,適配數(shù)據(jù)源不同場景下(例如醫(yī)療數(shù)據(jù)在臨床診斷和醫(yī)保核算等場景)的個性化隱私需求。傳統(tǒng)“服務(wù)器-數(shù)據(jù)源”單層知識匯聚范式難以適配數(shù)據(jù)源異質(zhì)隱私需求,且服務(wù)器直接與海量數(shù)據(jù)源對接,計算通信效率難以優(yōu)化。本文突破傳統(tǒng)的知識匯聚單層架構(gòu),探索基于異構(gòu)安全機制的層次化跨域知識匯聚新范式。研究如何設(shè)計面向海量數(shù)據(jù)源個性化隱私需求的層次化組織和知識流通架構(gòu),如何實現(xiàn)針對各層異質(zhì)隱私需求的知識安全匯聚機制,以構(gòu)建質(zhì)效最優(yōu)、可靈活擴展的知識安全匯聚方法,見圖2。
圖2 基于異構(gòu)安全機制的層次化跨域知識匯聚方法和技術(shù)
在醫(yī)療環(huán)境中醫(yī)療數(shù)據(jù)每時每刻不斷產(chǎn)生,而數(shù)據(jù)源的時變將影響其在匯聚模型中的遷移效果;既往有效遷移源可能逐漸失效,新興有效遷移源則持續(xù)產(chǎn)生。因此,動態(tài)演化匯聚模型才能長期維持高質(zhì)量的知識遷移。本文研究如何基于實時流數(shù)據(jù)處理技術(shù),針對海量數(shù)據(jù)源安全、高效、快速地檢測其遷移價值的時變規(guī)律,發(fā)現(xiàn)潛在的價值突變;特別是在數(shù)據(jù)源無法保持穩(wěn)定連接時準(zhǔn)確檢測其價值變化。進一步針對不同價值變化的數(shù)據(jù)源設(shè)計自適應(yīng)的匯聚模型適時演化算法,刪除價值顯著降低的數(shù)據(jù)源,新增具備顯著價值且未納入的數(shù)據(jù)源,以及更新價值較高的已有數(shù)據(jù)源,見圖3。
圖3 動態(tài)自適應(yīng)的匯聚模型適時演化方法和技術(shù)
形成一整套隱私保護下海量數(shù)據(jù)源跨域知識遷移匯聚全生命周期的工具庫,包含遷移數(shù)據(jù)源的價值度量和優(yōu)選,基于異構(gòu)安全機制的知識遷移匯聚以及匯聚模型的自適應(yīng)更新演化等功能,支持開發(fā)人員快速建立和部署質(zhì)效優(yōu)化且安全的跨域知識遷移匯聚系統(tǒng)。該工具庫將通過對主流開源機器學(xué)習(xí)框架所提供功能接口的進一步抽象,實現(xiàn)無縫銜接各主流框架,支持海量數(shù)據(jù)源知識匯聚,基于該工具庫開展實驗驗證。根據(jù)國家對醫(yī)保支付方式改革的要求,需要通過優(yōu)化病案首頁管理以及患者住院費用(包括藥品費用、耗材費用等)數(shù)據(jù)的智能化分析,建立醫(yī)保費用動態(tài)測算模型,加強和升級地區(qū)醫(yī)保費用的稽核控費;強化地區(qū)醫(yī)療機構(gòu)橫向比較和評估管理,做到同級別醫(yī)療機構(gòu)同病、同治、同質(zhì)、同價,并為全面開展按疾病診斷相關(guān)分組(Diagnosis Related Groups, DRG)收付費管理進行前期準(zhǔn)備。
按病案首頁模式對醫(yī)保與醫(yī)療機構(gòu)的結(jié)算接口進行改造;本地醫(yī)療機構(gòu)病案首頁明細(xì)、住院費用明細(xì)、藥品清單、耗材清單等數(shù)據(jù)采集及清洗;藥品統(tǒng)一編碼和賦值;出院患者的藥品數(shù)據(jù)采集、清洗、分析;耗材統(tǒng)一編碼和賦值;出院患者耗材數(shù)據(jù)采集、清洗、分析;構(gòu)建地區(qū)內(nèi)住院患者費用明細(xì)視圖、病案首頁信息視圖,建立地區(qū)疾病譜;根據(jù)地區(qū)內(nèi)參保類別、醫(yī)療機構(gòu)等級進行報銷比例設(shè)置和分類別費用總額管理;特殊藥物(抗菌藥物、毒麻藥品等)的多維度精細(xì)化管理;特殊高值藥品和耗材的多維度精細(xì)化管理;與地方疾病譜相對的地方常用藥品庫、總額預(yù)付費用、醫(yī)保及其他各類非醫(yī)保費用比例可視化管理;地區(qū)性監(jiān)測指標(biāo)的自定義管理;考慮地方實際情況,對特殊支付政策制定進行數(shù)據(jù)支持;極端患者另行支付、加大審核;死亡和轉(zhuǎn)診問題;特殊高值耗材如何打包問題;地方常見疾病費用結(jié)算、費率調(diào)整(如呼吸系統(tǒng)疾病、心血管系統(tǒng)疾病等)。這是本研究團隊為某三甲醫(yī)院實施部署的醫(yī)療服務(wù)價格監(jiān)管系統(tǒng),本文提出的知識安全遷移技術(shù)應(yīng)用在該項目中,實現(xiàn)了在醫(yī)保管理機構(gòu)監(jiān)督下的數(shù)據(jù)遷移操作,具體任務(wù)是從臨床診療場景向醫(yī)保核算場景進行數(shù)據(jù)遷移,涉及需要進行安全遷移的任務(wù)內(nèi)容,見圖4。
圖4 醫(yī)療服務(wù)價格管理系統(tǒng)數(shù)據(jù)處理與遷移任務(wù)
基于本文提出的技術(shù),在海量數(shù)據(jù)遷移需求調(diào)節(jié)下,項目團隊順利完成并行數(shù)據(jù)處理,數(shù)據(jù)遷移性能測試結(jié)果,見表1。經(jīng)過數(shù)據(jù)完整性測試以及大量有效和無效數(shù)據(jù)的測試,本文提出的技術(shù)對于有效數(shù)據(jù)可以正常運行,對于無效數(shù)據(jù),可以對異常以及非法輸入進行處理,不會給用戶帶來損失。根據(jù)測試數(shù)據(jù)分析可以看出系統(tǒng)平均響應(yīng)時間均在1秒以內(nèi),并發(fā)數(shù)20~200不等,與傳統(tǒng)數(shù)據(jù)遷移方向相比,在保證數(shù)據(jù)安全的前提下,提升數(shù)據(jù)遷移效率20%以上。經(jīng)對比,在保證數(shù)據(jù)安全和高效遷移的條件下,數(shù)據(jù)遷移前后數(shù)據(jù)分布無變化,達(dá)到預(yù)期目標(biāo),完成并通過項目驗收。
表1 數(shù)據(jù)遷移性能測試
當(dāng)前醫(yī)療場景下各數(shù)據(jù)源存在廣泛異質(zhì)性且互不可見,為知識遷移帶來巨大挑戰(zhàn)。本文提出“來源價值優(yōu)選-眾源層次匯聚-適源動態(tài)演化”3階段的隱私保護下海量數(shù)據(jù)源跨域知識遷移的全生命周期創(chuàng)新性技術(shù)框架。提出安全跨域遷移價值度量方案,開發(fā)最優(yōu)遷移源選擇算法;構(gòu)建層次化數(shù)據(jù)源組織架構(gòu),建立可適配不同數(shù)據(jù)源層的異構(gòu)安全技術(shù)跨域知識遷移匯聚方案;設(shè)計隱私保護下數(shù)據(jù)源時變實時監(jiān)測算法,對知識匯聚模型進行動態(tài)演化。以上框架可以實現(xiàn)安全的數(shù)據(jù)遷移和全生命周期醫(yī)療數(shù)據(jù)有效管理。