李子孝,劉翔宇,朱皞罡,王孟,楊昕,王春娟,姜勇,林琳,王韜,趙性泉1,,王擁軍1,(*第一作者)
作者單位
1100070 北京首都醫(yī)科大學附屬北京天壇醫(yī)院神經(jīng)病學中心2國家神經(jīng)系統(tǒng)疾病臨床醫(yī)學研究中心
3國家神經(jīng)系統(tǒng)疾病醫(yī)療質(zhì)量控制中心
4北京航空航天大學生物與醫(yī)學工程學院
5軟件開發(fā)環(huán)境國家重點實驗室
6北京大數(shù)據(jù)精準醫(yī)療高精尖創(chuàng)新中心(北京航空航天大學&首都醫(yī)科大學)
7首都醫(yī)科大學附屬北京天壇醫(yī)院信息中心
健康醫(yī)療大數(shù)據(jù)作為我國國家戰(zhàn)略資源,助力《“健康中國2030”規(guī)劃綱要》和人工智能發(fā)展戰(zhàn)略的實施[1]。來自醫(yī)院信息系統(tǒng)的數(shù)據(jù),如電子病歷、檢驗報告、影像資源、醫(yī)囑和病案首頁成為健康醫(yī)療大數(shù)據(jù)主要來源之一[2],應(yīng)用于醫(yī)療質(zhì)量過程評價的數(shù)據(jù)來源[3]。如何實現(xiàn)醫(yī)院間的數(shù)據(jù)可信、安全和持續(xù)的互聯(lián)互通是開展基于數(shù)據(jù)決策的醫(yī)療質(zhì)量評價和改進的基礎(chǔ)。
醫(yī)療質(zhì)量評價和改進是提高缺血性卒中醫(yī)療服務(wù)質(zhì)量和降低患者卒中復發(fā)的有效途徑之一[4-5]。持續(xù)地獲得患者診療過程數(shù)據(jù)是開展醫(yī)療質(zhì)量評價和改進的基石[6]?;谌斯ざ武浫氲淖渲性\療過程醫(yī)療質(zhì)量數(shù)據(jù)采集和上報是目前國內(nèi)外常用的數(shù)據(jù)采集模式[7-8]。然而,這種數(shù)據(jù)采集模式存在數(shù)據(jù)質(zhì)量準確性、連續(xù)性、人工成本、時效性等問題,以及參與醫(yī)院對數(shù)據(jù)安全性和分享性的疑慮,制約對醫(yī)療數(shù)據(jù)溯源性、可持續(xù)、及時性、可及性的缺血性卒中醫(yī)療質(zhì)量評價和改進[9]。基于電子病歷、實驗室檢測、影像報告和醫(yī)囑等醫(yī)院信息系統(tǒng)的數(shù)據(jù)進行結(jié)構(gòu)化和匯交并形成醫(yī)院診療數(shù)據(jù)庫成為開展缺血性卒中醫(yī)療質(zhì)量過程評價的新的數(shù)據(jù)來源[3]。但是為了確保信息安全,傳統(tǒng)的數(shù)據(jù)庫形成以醫(yī)院、科室,甚至是設(shè)備為單位的“信息孤島”[10],這種傳統(tǒng)的數(shù)據(jù)中心化聚合分析思路制約多中心遠程調(diào)用計算和評價,成為阻礙醫(yī)療大數(shù)據(jù)、人工智能等新興技術(shù)應(yīng)用于醫(yī)療質(zhì)量評價和改進的重要因素之一[11]。
基于智能合約區(qū)塊鏈的醫(yī)院信息系統(tǒng)數(shù)據(jù)平臺建設(shè)已逐步在國內(nèi)開展[12-13]。區(qū)塊鏈(block chain)采用分布式的數(shù)據(jù)存儲、點對點傳輸、共識機制、加密算法等計算機技術(shù),實現(xiàn)去中心化的分布式結(jié)構(gòu)的醫(yī)療數(shù)據(jù)共享,為數(shù)據(jù)存儲傳輸、溯源性、安全性等提供了良好的解決方案。在醫(yī)院間,實現(xiàn)去中心化并最終形成統(tǒng)一標準的數(shù)據(jù)分中心,為進一步醫(yī)療數(shù)據(jù)分析和開展人工智能應(yīng)用奠定堅實基礎(chǔ)[14]。
本文介紹了探索采用“模型投放”,即算法流替代數(shù)據(jù)傳輸?shù)乃枷?,以區(qū)塊鏈[15]和智能合約[16]技術(shù)為依托,整合安全沙箱[17]、密碼學、摘要生成等關(guān)鍵技術(shù),開展基于醫(yī)院信息系統(tǒng)數(shù)據(jù)的缺血性卒中醫(yī)療質(zhì)量過程指標評價體系。
1.1 基于區(qū)塊鏈的技術(shù)模型和架構(gòu) 缺血性卒中醫(yī)療質(zhì)量評價應(yīng)用基于區(qū)塊鏈及相關(guān)技術(shù),構(gòu)建醫(yī)療指標評價共享的實施方案,完成相關(guān)的信息交換指標。該場景中的研究對象主要有3類:①醫(yī)院:選擇前期已完成缺血性卒中醫(yī)療信息系統(tǒng)相關(guān)數(shù)據(jù)結(jié)構(gòu)化的醫(yī)院。②患者:采用ICD-10編碼確定的主診斷為缺血性卒中患者(I63)。③缺血性卒中醫(yī)療質(zhì)量控制指標:采用國家衛(wèi)生健康委頒布的缺血性卒中醫(yī)療質(zhì)量控制指標中用藥相關(guān)指標。
缺血性卒中醫(yī)療質(zhì)量評價整體應(yīng)用場景分為敏感域和公共域兩個部分。敏感域?qū)儆诟麽t(yī)院自有和相互隔離,內(nèi)部存放用于進行缺血性卒中醫(yī)療質(zhì)量指標評價的基礎(chǔ)醫(yī)療信息,禁止外部網(wǎng)絡(luò)訪問個案數(shù)據(jù)。公共域作為開放環(huán)境,負責提供用于進行缺血性卒中醫(yī)療質(zhì)量指標評價的數(shù)據(jù)分析算法,可對算法進行迭代更新。算法以“算法流”方式進行投放,隨用隨取。
技術(shù)架構(gòu)采用軟硬件混合搭建,主要硬件以“數(shù)據(jù)網(wǎng)關(guān)”作為前置機;軟件則以區(qū)塊鏈、智能合約以及安全沙箱等技術(shù)為基礎(chǔ)進行開發(fā)。架構(gòu)分為基礎(chǔ)層、管理層和操作層三層(圖1)。基礎(chǔ)層為嵌入式操作系統(tǒng),提供基礎(chǔ)的硬件接口訪問能力;管理層以Docker沙箱技術(shù)[18]為藍本,針對沙箱的創(chuàng)建、管理、維護、清除等生命周期管理以及數(shù)據(jù)安全擦寫等功能進行了針對性的補充和增強;操作層則在沙箱內(nèi)部提供對算法的基礎(chǔ)環(huán)境支持。
1.1.1 執(zhí)行方法 在已完成缺血性卒中醫(yī)療質(zhì)量數(shù)據(jù)結(jié)構(gòu)化的醫(yī)院部署數(shù)據(jù)網(wǎng)關(guān),完成“敏感域-公開域”隔離帶的搭建。執(zhí)行過程中,智能合約依據(jù)各醫(yī)院審閱授權(quán),并記錄在區(qū)塊鏈上的操作主體,負責整體控制;數(shù)據(jù)網(wǎng)關(guān)中的安全沙箱作為授權(quán)執(zhí)行機構(gòu),具體協(xié)調(diào)算法流、數(shù)據(jù)流,并輸出分析結(jié)果和運行日志。
在具體執(zhí)行時,用于評價缺血性卒中醫(yī)療質(zhì)量的智能合約根據(jù)實際操作醫(yī)院的情況,在數(shù)據(jù)網(wǎng)關(guān)生成安全沙箱,并將算法流從公共域引入。此后,可能包含敏感信息的患者數(shù)據(jù)(如患者隱私信息、人口學特征等)以加密方式通過私有域進入安全沙箱。在沙箱內(nèi)部,數(shù)據(jù)完成解密后,算法完成數(shù)據(jù)分析并輸出結(jié)果,反饋給預(yù)先指定的用戶。并將操作流程記錄在區(qū)塊鏈上。沙箱管理系統(tǒng)在捕獲完成信號后,對沙箱進行銷毀,保障敏感數(shù)據(jù)安全無泄露,整個流程如圖2。
圖1 區(qū)塊鏈系統(tǒng)架構(gòu)
圖2 區(qū)塊鏈系統(tǒng)中數(shù)據(jù)和算法的流程
1.1.2 關(guān)鍵技術(shù)
(1)敏感數(shù)據(jù)的跟蹤保護
從需求產(chǎn)生并準備執(zhí)行開始,區(qū)塊鏈系統(tǒng)對數(shù)據(jù)調(diào)取、算法分析、結(jié)果輸出、沙箱銷毀等全部操作進行共識和記錄,其不可篡改的特點保障數(shù)據(jù)的安全,同時也記錄了數(shù)據(jù)與結(jié)論之間的關(guān)聯(lián)關(guān)系。采用了基于微實數(shù)并行排序思想的微誤差共識協(xié)議(?-differential agreement,EDA)[19]。通過搶占式排序和并發(fā)共識,以提供適合業(yè)務(wù)場景的系統(tǒng)性能。
(2)基于智能合約的算法調(diào)用機制
區(qū)塊鏈系統(tǒng)在完成數(shù)據(jù)跟蹤保護的同時,對醫(yī)療質(zhì)量評價算法的調(diào)用情況進行記錄,以統(tǒng)計算法運行效率、準確率等參數(shù)。采用智能合約技術(shù)對算法進行整合,使每一個算法成為一個獨立的智能合約,通過調(diào)用智能合約,獲得算法的運行權(quán)限,并將算法流投入安全沙箱,對沙箱內(nèi)的數(shù)據(jù)進行分析。智能合約的每次調(diào)用和運行記錄同樣會被區(qū)塊鏈系統(tǒng)記錄,并與安全沙箱的輸出日志一一對應(yīng)。
(3)基于元數(shù)據(jù)鏈的跨中心檢索機制
采用目錄鏈共享檢索機制,應(yīng)用摘要生成算法,將醫(yī)療信息非敏感的元標簽存放于公開的元數(shù)據(jù)鏈上。采用基于局部敏感哈希[20]的特征檢索系統(tǒng),生成特征區(qū)域的局部敏感哈希字符串并建立映射關(guān)系。因為哈希值與原始數(shù)據(jù)為單向映射,可以實現(xiàn)保護原始數(shù)據(jù)的同時,完成數(shù)據(jù)的“以圖檢圖”。通過特征檢索,找到目標數(shù)據(jù)后,調(diào)用預(yù)先簽署的智能合約或采用文件交換途徑,向醫(yī)院的數(shù)據(jù)庫借取對應(yīng)的資料,并完成統(tǒng)計分析。
1.2 形式化語言和工作流建模工具 眾多的研究表明臨床指南和臨床決策路徑可以被計算機程序解釋執(zhí)行[21]。其中有代表性的工作流建模語言和工具會嵌入邏輯規(guī)則來表示任務(wù)的結(jié)構(gòu),如計劃、決策和動作。這些任務(wù)組成面向時間的流程來代表臨床決策路徑和指南,例如Asbru、EON、GLIF、GUIDE、PRODIGY與PROforma[22]。
本文提出一種去中心化的工作流建模語言和引擎工具,該工具通過認知計算模型引入工作流建模過程,使用認知分析出的本體及其關(guān)聯(lián)規(guī)則并封裝成要素構(gòu)件,以構(gòu)件拖拽方式實現(xiàn)工作流的可視化設(shè)計,創(chuàng)建后的工作流程可以在區(qū)塊鏈上運行。此工作流建模語言和引擎工具可以替代以代碼形式建立的智能合約,用于構(gòu)建并部署一系列決策支持系統(tǒng)、指南和其他臨床應(yīng)用程序。
通過工作流引擎,可以將臨床指南和醫(yī)療準則建模為任務(wù)和數(shù)據(jù)項的組合。其中任務(wù)模型分為4類:“動作”表示需要在外部環(huán)境中執(zhí)行的過程,“查詢”是指需要從外部系統(tǒng)獲取信息和讀取數(shù)據(jù)過程,“決策”是必須做出選擇的過程,“計劃”是按照規(guī)則和分類組合在一起的任務(wù)集合。工作流引擎形式化過程可以用有向圖來表示,其中節(jié)點表示任務(wù),連線表示調(diào)度關(guān)系?!皠幼鳌北槐硎緸檎叫危安樵儭北槐硎緸榱庑?,“決策”被表示為圓形,“計劃”被表示為平行四邊形。模型本身包含一個根計劃,根計劃可以遞歸地劃分為子計劃(圖3)。
圖3展示了工作流引擎的技術(shù)架構(gòu)圖。Web應(yīng)用端是工作流創(chuàng)建的編輯器、狀態(tài)跟蹤器和查詢器,提供工作流設(shè)計、創(chuàng)建、狀態(tài)監(jiān)視、校驗、查詢功能。在應(yīng)用端界面存儲了工作流的任務(wù)基礎(chǔ)模塊:“動作”“查詢”“決策”和“計劃”。通過拖拽任務(wù)模塊和組合資源庫模板庫,可以定義出新的資源庫模塊以及更復雜的工作流程序。資源庫以本體資源庫、合約模板庫、語法語義庫為基礎(chǔ),支持上層可視化合約的構(gòu)建。服務(wù)與組件主要有兩個部分,一是合約虛擬機(smart contract virtual machine,SCVM),負責測試和執(zhí)行構(gòu)建的合約,二是服務(wù)模塊,完成工作流、資源定位、遠程調(diào)用等服務(wù)。存儲與查詢應(yīng)用程序接口(application programming interface,API),以標準化API的方式對合約的執(zhí)行過程及結(jié)果進行存取。持久化存儲與索引,以區(qū)塊鏈的方式進行存儲,建立資源和合約的索引,便于存取。
圖4演示了一個通過工作流引擎創(chuàng)建的智能合約。從開始節(jié)點開始執(zhí)行后面接兩個“計劃”——分別通過沙箱提取“抗血小板藥物治療率分子統(tǒng)計”和“抗血小板藥物治療率單項藥物統(tǒng)計”數(shù)據(jù),然后連接一個決策——“抗血小板藥物治療醫(yī)療質(zhì)量指標算法1”,用來評估缺血性卒中患者抗血小板藥物治療率,從而明確需要改進的指標。最后,沙箱在通過數(shù)據(jù)網(wǎng)管輸出計算結(jié)果后,完成自銷毀。
圖5 基于醫(yī)院信息系統(tǒng)的缺血性卒中醫(yī)療質(zhì)量評價平臺
2.1 系統(tǒng)運行結(jié)果 采用上述思路和方法,搭建了基于醫(yī)院信息系統(tǒng)的缺血性卒中醫(yī)療質(zhì)量評價平臺(圖5),選擇三家已完成缺血性卒中醫(yī)療質(zhì)量數(shù)據(jù)結(jié)構(gòu)化的試點醫(yī)院的數(shù)據(jù)庫參與醫(yī)療質(zhì)量評估工作。通過合約創(chuàng)建工具,研究人員在系統(tǒng)中以圖形化流程的方式創(chuàng)建、校驗和發(fā)布智能合約。
用戶通過調(diào)用相應(yīng)的智能合約,自動對醫(yī)院的數(shù)據(jù)進行分析評估,并生成分析結(jié)果。在驗證中,系統(tǒng)對各參與醫(yī)院的病案記錄、檢驗信息和醫(yī)囑信息等數(shù)據(jù)進行分析,完成缺血性卒中住院日、費用、死亡率等效率、負擔、結(jié)局指標的測算。分析過程中,智能合約通過調(diào)用外部測算方法,對院內(nèi)醫(yī)療信息摘要進行檢索,并對需要分析的內(nèi)容進行提取。整個過程中,全部計算發(fā)生在數(shù)據(jù)網(wǎng)關(guān)根據(jù)智能合約創(chuàng)建安全沙箱中。分析結(jié)束后,沙箱對醫(yī)院輸出分析結(jié)果,并完成自我銷毀,受保護的醫(yī)療數(shù)據(jù)未離開醫(yī)院私有域,安全性得到了有效驗證。
系統(tǒng)在三家醫(yī)療機構(gòu)的數(shù)據(jù)中完成初步驗證,并獲得了良好的系統(tǒng)性能(表1),區(qū)塊鏈秒平均寫入通量達到9000條記錄,特征檢索時間不高于10 ms,能夠在多中心協(xié)作和敏感信息受控場景中,開展缺血性卒中醫(yī)療質(zhì)量藥物相關(guān)過程指標評價,具體結(jié)果見表2。
表2 缺血性卒中醫(yī)療質(zhì)量過程指標評價
2.2 系統(tǒng)測試結(jié)果
(1)沙箱測試結(jié)果
功能性:實現(xiàn)沙箱創(chuàng)建、沙箱銷毀、沙箱單次執(zhí)行、沙箱多請求執(zhí)行、沙箱超時控制、沙箱數(shù)量控制、沙箱內(nèi)禁止訪問外網(wǎng)域名控制、沙箱內(nèi)禁止訪問外網(wǎng)IP加端口控制、沙箱內(nèi)存監(jiān)控、沙箱內(nèi)禁止文件寫入磁盤和沙箱中禁用linux系統(tǒng)中/usr/sbin下相關(guān)指令等功能。
性能效率:支持沙箱單次執(zhí)行,超時設(shè)置為9 s、算法延時設(shè)置為5 s時,沙箱支持合約算法執(zhí)行完成運行時間為5.146 s;支持沙箱多請求執(zhí)行,超時設(shè)置為29 s,在沙箱數(shù)為3,隊列數(shù)為3的情況下,共執(zhí)行727次算法合約,沙箱支持合約執(zhí)行完成的平均運行時間為16.603 s。
(2)合約測試結(jié)果
在單用戶場景下,數(shù)據(jù)目錄寫入事務(wù)平均響應(yīng)時間為1.58 s,查看事務(wù)平均響應(yīng)時間為0.08 s,提交事務(wù)平均響應(yīng)時間為1.59 s;在10 654條分布式數(shù)據(jù)中進行數(shù)據(jù)目錄查詢,事務(wù)平均響應(yīng)時間為0.13 s;進行數(shù)據(jù)目錄詳情查看,事務(wù)平均響應(yīng)時間為0.11 s;提交數(shù)據(jù)庫事務(wù)平均響應(yīng)時間為1.30 s;加載全部庫目錄事務(wù)平均響應(yīng)時間為0.07 s;進行庫目錄詳情查看事務(wù)平均響應(yīng)時間為0.73 s;提交表目錄事務(wù)平均響應(yīng)時間為0.99 s;在10 703條數(shù)據(jù)中進行表目錄查詢事務(wù)平均響應(yīng)時間為0.15 s;表目錄詳情查看事務(wù)平均響應(yīng)時間為0.11 s;在遠程源數(shù)據(jù)庫中對己上鏈的庫表字段進行修改,操作結(jié)果同步到系統(tǒng)中時延為10 s;在遠程源數(shù)據(jù)庫中對已上鏈的庫表字段進行刪除,操作結(jié)果同步到系統(tǒng)中時延為10 s;在遠程源數(shù)據(jù)庫中對已上鏈的庫表字段進行新增,操作結(jié)果同步到系統(tǒng)中時延為5 s;通過可視化方式創(chuàng)建不帶算法的數(shù)據(jù)合約,事務(wù)平均響應(yīng)時間為0.72 s;通過本地上傳方式創(chuàng)建不帶算法的數(shù)據(jù)合約,事務(wù)平均響應(yīng)時間為0.29 s。
10個用戶并發(fā)場景:調(diào)用數(shù)據(jù)目錄上鏈接口,事務(wù)平均響應(yīng)時間為0.17 s;調(diào)用庫目錄上鏈接口,事務(wù)平均響應(yīng)時間為0.36 s;調(diào)用表目錄上鏈接口,事務(wù)平均響應(yīng)時間為0.17 s;可視化創(chuàng)建合約接口,創(chuàng)建不帶算法的數(shù)據(jù)合約,事務(wù)平均響應(yīng)時間為1.41 s;本地上傳創(chuàng)建接口,創(chuàng)建不帶算法的數(shù)據(jù)合約,事務(wù)平均響應(yīng)時間為0.83 s;帶數(shù)組去重算法的數(shù)據(jù)合約執(zhí)行接口,事務(wù)平均響應(yīng)時間為0.68 s。
20個用戶并發(fā)場景:調(diào)用查看職責目錄詳情接口,事務(wù)平均響應(yīng)時間為0.06 s;調(diào)用數(shù)據(jù)目錄查詢接口,在10 654條數(shù)據(jù)中進行數(shù)據(jù)目錄查詢,事務(wù)平均響應(yīng)時間為0.18 s;調(diào)用查看數(shù)據(jù)目錄詳情接口,事務(wù)平均響應(yīng)時間為0.07 s;調(diào)用庫目錄查詢接口,返回全部庫目錄數(shù)據(jù),事務(wù)平均響應(yīng)時間為0.08 s;調(diào)用查看庫目錄詳情接口,事務(wù)平均響應(yīng)時間為0.08 s;調(diào)用查詢表目錄接口,在10 703條數(shù)據(jù)中進行表目錄查詢,事務(wù)平均響應(yīng)時間為0.10 s;調(diào)用查看表目錄詳情接口,事務(wù)平均響應(yīng)時間為0.30 s;調(diào)用不帶算法的數(shù)據(jù)合約執(zhí)行接口,事務(wù)平均響應(yīng)時間為1.01 s;調(diào)用帶數(shù)組去重算法的數(shù)據(jù)合約執(zhí)行接口,事務(wù)平均響應(yīng)時間為1.26 s。
50個用戶并發(fā)場景:調(diào)用不帶算法的數(shù)據(jù)合約執(zhí)行接口,事務(wù)平均響應(yīng)時間為3.01 s。
本文初步探索了區(qū)塊鏈技術(shù)在缺血性卒中醫(yī)療質(zhì)量評價體系中的應(yīng)用,其中融合智能合約、安全沙箱、摘要生成等區(qū)塊鏈技術(shù)手段,建立了缺血性卒中醫(yī)療質(zhì)量評價平臺。在三家已完成缺血性卒中醫(yī)療質(zhì)量數(shù)據(jù)結(jié)構(gòu)化的醫(yī)院的數(shù)據(jù)庫架構(gòu)上,有效實現(xiàn)了缺血性卒中醫(yī)療質(zhì)量指標評價。進一步應(yīng)用數(shù)據(jù)信息提取、數(shù)字化追溯和跨域投放,為開展基于醫(yī)院信息系統(tǒng)的醫(yī)療質(zhì)量評價和持續(xù)改進奠定了技術(shù)基礎(chǔ)。
這種醫(yī)療質(zhì)量評價體系基于區(qū)塊鏈技術(shù)實現(xiàn)了數(shù)據(jù)不易篡改、很難偽造、可追溯、分布式基礎(chǔ)機構(gòu),與計算范式的醫(yī)院信息互聯(lián)互通信息平臺建設(shè)。平臺利用分布的區(qū)塊鏈式數(shù)據(jù)結(jié)構(gòu)來驗證與存儲腦血管病質(zhì)控醫(yī)院臨床數(shù)據(jù),采用分布式節(jié)點共識算法來生成和更新醫(yī)院的臨床數(shù)據(jù),應(yīng)用密碼學方式保證臨床數(shù)據(jù)傳輸和訪問的安全,利用由自動化腳本代碼組成的質(zhì)控醫(yī)院間智能合約來編程和操作臨床數(shù)據(jù)。
平臺基于區(qū)塊鏈技術(shù)的關(guān)鍵環(huán)節(jié)如下:
(1)對質(zhì)控醫(yī)院的腦血管病臨床數(shù)據(jù)資源和結(jié)構(gòu)進行評估,形成詳細的臨床數(shù)據(jù)目錄鏈系統(tǒng),覆蓋臨床數(shù)據(jù)結(jié)構(gòu)和內(nèi)容。之后對臨床數(shù)據(jù)資源進一步進行規(guī)范化完善,逐步達到有價值臨床數(shù)據(jù)的目標。
(2)項目醫(yī)院有價值臨床數(shù)據(jù)證明的發(fā)放,這個過程主要針對有價值臨床數(shù)據(jù)證明本身文件實現(xiàn)防偽,利用區(qū)塊鏈可以做到電子權(quán)益證明去中心化發(fā)放,并且保證不可篡改。
(3)項目醫(yī)院有價值臨床數(shù)據(jù)的流通,這個環(huán)節(jié)反映有價值臨床數(shù)據(jù)的流動性?;趨^(qū)塊鏈,這個有價值臨床數(shù)據(jù)資產(chǎn)可以實現(xiàn)點對點流通,并可以再切分,促進流動性的增強。
綜合上述三個環(huán)節(jié),平臺在醫(yī)療領(lǐng)域中可將臨床數(shù)據(jù)轉(zhuǎn)變?yōu)橛袃r值的臨床數(shù)據(jù),這種權(quán)威而專業(yè)的評估有著非常重要的作用,可以提供評估、風控、增值等服務(wù)。
本探索研究是在區(qū)塊鏈系統(tǒng)的基礎(chǔ)上,采用基于智能合約的缺血性卒中醫(yī)療質(zhì)控指標算法整合和調(diào)用機制,使每一個算法成為一個獨立的智能合約,通過調(diào)用智能合約,獲得算法的運行權(quán)限,并將算法流投入安全沙箱,對沙箱內(nèi)的數(shù)據(jù)進行分析。智能合約的每次調(diào)用和運行記錄同樣會被區(qū)塊鏈系統(tǒng)記錄,并與安全沙箱的輸出日志一一對應(yīng)。在完成數(shù)據(jù)跟蹤保護的同時,對質(zhì)控指標的算法的調(diào)用情況進行記錄,以統(tǒng)計算法運行效率、準確率等參數(shù),便于總結(jié)算法瓶頸,為后續(xù)升級提供方向。
在利用醫(yī)療數(shù)據(jù)開展質(zhì)控評價工作中,經(jīng)常需要進行跨醫(yī)院協(xié)調(diào)支持。然而,傳統(tǒng)的檢索是建立在對數(shù)據(jù)庫的直接訪問基礎(chǔ)上,這在多中心醫(yī)院協(xié)同中存在數(shù)據(jù)管理和安全等的屏障,而應(yīng)用區(qū)塊鏈技術(shù)的優(yōu)勢實現(xiàn)了基于元數(shù)據(jù)鏈的跨中心檢索機制,采用目錄鏈共享檢索機制,應(yīng)用摘要生成算法,將醫(yī)療信息非敏感的元標簽存放于公開的元數(shù)據(jù)鏈上。醫(yī)院通過特征檢索,找到目標數(shù)據(jù)后,調(diào)用預(yù)先簽署的智能合約或采用文件交換途徑,向原始醫(yī)院借取對應(yīng)的資料,并完成統(tǒng)計分析。
在數(shù)據(jù)安全方面,數(shù)字化信息具有易復制、難追蹤等特性,很難做到有效保護。本研究通過引入?yún)^(qū)塊鏈的數(shù)字資產(chǎn)化思想,將數(shù)據(jù)作為特殊資產(chǎn),在區(qū)塊鏈上進行管理,明確權(quán)屬并跟蹤記錄其流動,同時,結(jié)合安全沙箱和加密技術(shù),做到使用留痕、用后銷毀,保障原始數(shù)據(jù)的安全性和唯一性,從而使得數(shù)據(jù)的管理和保護成為可能。從需求產(chǎn)生并準備執(zhí)行開始,區(qū)塊鏈系統(tǒng)對數(shù)據(jù)調(diào)取、算法分析、結(jié)果輸出、沙箱銷毀等全部操作進行共識和記錄,其不可篡改的特點保障了數(shù)據(jù)的安全,同時也記錄了數(shù)據(jù)與結(jié)論之間的關(guān)聯(lián)關(guān)系,使之可以在不獲取原始數(shù)據(jù)的情況下,證明結(jié)論的有效性和可重復性。
醫(yī)療行業(yè)是典型的高通量并發(fā)場景,全流程的記錄需求會對區(qū)塊鏈系統(tǒng)產(chǎn)生巨大的壓力,傳統(tǒng)的公有鏈系統(tǒng)共識協(xié)議[如工作量證明算法(proof of work,PoW)、股權(quán)證明(proof of stake,PoS)等]無法提供足夠的并發(fā)性能[21]。本研究采用了基于微實數(shù)并行排序思想的EDA共識協(xié)議[19],通過搶占式排序和并發(fā)共識,以提供適合業(yè)務(wù)場景的系統(tǒng)性能。
本研究的快速實施依托“十三五”國家重點研發(fā)計劃正在開展的基于醫(yī)院信息系統(tǒng)的腦血管病大數(shù)據(jù)平臺建設(shè),根據(jù)卒中醫(yī)療質(zhì)量評價的需要變量進行結(jié)構(gòu)化和標準化的處理,建立醫(yī)院卒中質(zhì)控專用的數(shù)據(jù)庫,這為開展基于區(qū)塊鏈的缺血性卒中質(zhì)控平臺建設(shè)、數(shù)據(jù)調(diào)取和分析奠定了堅實的基礎(chǔ)。目前已完成如下工作:設(shè)計信息系統(tǒng)標準數(shù)據(jù)接口,規(guī)范數(shù)據(jù)字典;收集各醫(yī)院的接口數(shù)據(jù),校驗上報數(shù)據(jù),對整體性、種類完整性、數(shù)據(jù)項完整性等進行檢查;數(shù)據(jù)清洗,處理問題數(shù)據(jù),收集原始資料,保障數(shù)據(jù)溯源;組織醫(yī)療專業(yè)人員進行業(yè)務(wù)邏輯核查和數(shù)據(jù)修正,并對數(shù)據(jù)字典和采集規(guī)范進行補充、完善等。
本研究主要為解決如何在非本地中心開展缺血性卒中醫(yī)療質(zhì)量指標的評價,即在不暴露醫(yī)療信息等敏感數(shù)據(jù)的條件下,基于“模型投放”架構(gòu),解決醫(yī)療質(zhì)量指標算法的推送、應(yīng)用、迭代以及后評估問題。在數(shù)據(jù)分析及評估應(yīng)用的完整流程中,算法需要在運算平臺上調(diào)用數(shù)據(jù),并形成運算結(jié)果對外輸出。在上述生態(tài)內(nèi),算法、數(shù)據(jù)與運算平臺三者缺一不可。而傳統(tǒng)的以保護敏感信息為目的的“信息孤島”則徹底將數(shù)據(jù)從生態(tài)中割離開,形成了巨大空洞,阻礙了未來“人工智能+醫(yī)療”的深入結(jié)合與推進[11]。未來將區(qū)塊鏈和人工智能相結(jié)合,基于深度學習的醫(yī)療人工智能分析技術(shù),是一種以數(shù)據(jù)基礎(chǔ)與應(yīng)用效果直接正相關(guān)的統(tǒng)計分析方法。隨著目前醫(yī)療數(shù)據(jù)的使用途徑縮窄,未來這種技術(shù)的發(fā)展方向也正被社會各界廣泛關(guān)注[14]。對于人工智能這種嚴重依賴數(shù)據(jù)迭代和更新的應(yīng)用,“一次成型”的部署方式難以發(fā)揮其功能和價值。目前系統(tǒng)已經(jīng)具備了算法的投放能力,下一步將與多中心數(shù)據(jù)統(tǒng)計,特別是聯(lián)邦學習、多方安全計算相結(jié)合,解決應(yīng)用算法在敏感信息環(huán)境中的投放問題,打通數(shù)據(jù)交匯渠道,探索并推動形成醫(yī)療數(shù)據(jù)模型設(shè)計開發(fā)的新模式,即醫(yī)療機構(gòu)提供數(shù)據(jù)基礎(chǔ)、醫(yī)療知識和應(yīng)用渠道,科研機構(gòu)提供模型的智力支持,整體環(huán)境將從現(xiàn)在的以科研機構(gòu)或企業(yè)為中心,調(diào)整為以醫(yī)療機構(gòu)為中心,將為醫(yī)療行業(yè)與信息技術(shù)融合提供更堅實的發(fā)展基礎(chǔ)和廣闊前景。
致謝:北京嘉和美康信息技術(shù)有限公司張雷、郭偉光,張義超、郝昌龍、王濤、邵義工程師對結(jié)構(gòu)化數(shù)據(jù)庫建設(shè)的技術(shù)支撐。