李競 齊國強 俞剛
(浙江大學醫(yī)學院附屬兒童醫(yī)院數(shù)據(jù)信息部 浙江省杭州市 310052)
我國已將大數(shù)據(jù)戰(zhàn)略上升為國家戰(zhàn)略[1,2],旨在全面推進我國大數(shù)據(jù)發(fā)展和應用,推動數(shù)據(jù)資源開放共享。當前,我省正在全面推進數(shù)字化改革,數(shù)據(jù)資源合理利用是其重要目標。我省衛(wèi)生健康行業(yè)也在加快實施“1314”衛(wèi)生健康數(shù)字化改革[3],在合規(guī)的前提下充分挖掘醫(yī)療數(shù)據(jù)價值,激活醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)潛能,從而促進我省數(shù)字經(jīng)濟高速健康發(fā)展。然而在實際應用場景中,醫(yī)療數(shù)據(jù)規(guī)范使用仍面臨諸多挑戰(zhàn)[4-6]。
互聯(lián)網(wǎng)端患者數(shù)據(jù)的歸屬與利用、多中心科研中臨床數(shù)據(jù)的共享開放、社會第三方機構(gòu)使用數(shù)據(jù)合規(guī)性等風險層出不窮,患者隱私保護難度大、醫(yī)療數(shù)據(jù)分級效率低、醫(yī)療數(shù)據(jù)分級標準缺失等問題亟待解決。其中,兒童個人信息較成人更為敏感,導致上述問題在兒童醫(yī)療數(shù)據(jù)分級管理中更加凸顯。如何在保證數(shù)據(jù)安全的前提下,為醫(yī)療數(shù)據(jù)開發(fā)利用提供技術(shù)支撐和標準規(guī)范成為擺在醫(yī)療數(shù)據(jù)管理者與醫(yī)療政策制定者面前的緊迫任務。
與國外相比[7-9],我國雖擁有海量的醫(yī)療數(shù)據(jù),但是可真正用于醫(yī)療數(shù)據(jù)智能化分類分級的產(chǎn)品屈指可數(shù),尤其在兒童醫(yī)療數(shù)據(jù)分類分級方面尚無落地應用。本文依托浙江省自然科學基金項目,研究設計兒童醫(yī)療數(shù)據(jù)智能分類分級系統(tǒng)。
近年來我國在數(shù)據(jù)安全領域密集發(fā)布了多項政策和法律法規(guī),提出強化數(shù)據(jù)資源管理,要推動數(shù)據(jù)的分類分級管理?!督】抵袊?030規(guī)劃綱要》提出國家工程實驗室開始針對政府數(shù)據(jù)分類與分級的需求,構(gòu)建“政務數(shù)據(jù)知識圖譜智能管理平臺”原型系統(tǒng),完成該原型系統(tǒng)的編碼實現(xiàn)[10]。全國信息安全標準化技術(shù)委員會發(fā)布的《信息安全技術(shù)大數(shù)據(jù)安全管理指南》提出了建立大數(shù)據(jù)安全管理基本原則,規(guī)定了大數(shù)據(jù)安全需求、數(shù)據(jù)分類分級、大數(shù)據(jù)活動的安全要求、評估大數(shù)據(jù)安全風險[12]。2021年頒布的《中華人民共和國數(shù)據(jù)安全法》更是強調(diào)要建立數(shù)據(jù)分類分級制度,并對敏感數(shù)據(jù)進行重點保護[16]。如表1所示。
表1:醫(yī)療數(shù)據(jù)分級依據(jù)文件
通過建立的規(guī)則引擎,實現(xiàn)敏感數(shù)據(jù)發(fā)現(xiàn)(客觀數(shù)據(jù)),方案(標準)的組合執(zhí)行規(guī)則、指標判定規(guī)則等。綜合上節(jié)的標準規(guī)范,按照數(shù)據(jù)的重要程度、風險級別、影響范圍和影響程度,可將兒童醫(yī)療數(shù)據(jù)分為5級:
第1級:不敏感數(shù)據(jù),可公開使用數(shù)據(jù)。依法公開和披露的數(shù)據(jù),例如醫(yī)院基本屬性、醫(yī)院人員信息、醫(yī)院設備信息等,可直接面向公眾開放。
第2級:一般敏感的數(shù)據(jù)。例如兒童科研進展數(shù)據(jù),可穿戴設備自采數(shù)據(jù)等,可以提供科室用于研究分析,需要使用數(shù)據(jù)的部門提交申請,并且通過授權(quán)后方可在限定范圍內(nèi)使用。
第3級:較敏感數(shù)據(jù)。沒有通過授權(quán),可能對兒童或監(jiān)護人健康醫(yī)療數(shù)據(jù)主體造成損害,損害程度為中級。需要使用數(shù)據(jù)的項目提交申請,并且通過授權(quán)后方可在限定項目范圍內(nèi)使用。
第4級:高度敏感數(shù)據(jù)。沒有通過授權(quán),可能會對兒童或監(jiān)護人健康醫(yī)療數(shù)據(jù)主體造成損害,損害程度為較高。例如醫(yī)生用藥選擇、醫(yī)生建議、APP醫(yī)生診療信息等,數(shù)據(jù)的使用權(quán)限只限于給與兒童疾病診療相關(guān)的活動人員使用。
第5級:極度敏感數(shù)據(jù)。沒有通過授權(quán),可能會對兒童或監(jiān)護人健康醫(yī)療數(shù)據(jù)主體造成損害,損害程度為嚴重。例如兒童疾病史、兒童患者基本信息、影響檢測信息等,數(shù)據(jù)的使用權(quán)限只限于主治醫(yī)護人員使用,并且要求嚴格管控。
構(gòu)建數(shù)據(jù)智能應用的全流程支撐平臺,通過對數(shù)據(jù)資源的統(tǒng)一編目、統(tǒng)一服務、統(tǒng)一共享、統(tǒng)一管理,達到對數(shù)據(jù)資源的有效管控,并在管好數(shù)據(jù)的基礎上實現(xiàn)對數(shù)據(jù)的標準化管理、常態(tài)化質(zhì)檢、專題化分析、價值化運營,從而推進以數(shù)據(jù)資源目錄為核心的數(shù)據(jù)資源運營管理體系建設。
數(shù)據(jù)資源目錄技術(shù)特點如下:
(1)元數(shù)據(jù):元數(shù)據(jù)通過數(shù)據(jù)資源目錄實現(xiàn)數(shù)據(jù)的價值挖掘,可實現(xiàn)快速查找數(shù)據(jù)、精確定位數(shù)據(jù)、準確地理解數(shù)據(jù)和快速使用數(shù)據(jù)。幫助用戶降低數(shù)據(jù)管理人工成本、提升數(shù)據(jù)服務效率。
(2)SOA架構(gòu):本系統(tǒng)采用面向服務架構(gòu)技術(shù)進行開發(fā),它將應用的不同服務通過定義好的契約以一種通用和統(tǒng)一的方式進行交互。隨著應用系統(tǒng)的集成及規(guī)模不斷增長,SOA架構(gòu)憑借其解耦特性,使得系統(tǒng)可以按照模塊化來進行擴張更新。
(3)并發(fā)技術(shù):本系統(tǒng)設計時采用多線程并發(fā)設計,通過分層做隔離,通過微服務解耦、削峰、異步、消息分發(fā)等技術(shù)提高了運行效率,增強了系統(tǒng)的靈活性。
(4)輪詢技術(shù):本系統(tǒng)運行時服務端會接收到客戶端發(fā)送的請求,為了降低無效的服務響應,當客戶端沒有更新數(shù)據(jù)的時候,可以將大量請求緩存,分散開處理,通過這種機制減少資源的消耗。
通過建立規(guī)則引擎機制,實現(xiàn)對客觀類數(shù)據(jù)進行分級分類。通過機器學習針對主觀數(shù)據(jù)分級分類,形成初步的分級分類方案,最終需要人員介入,提高準確性。給一個字段打分級分類標簽,即可以快速給數(shù)據(jù)中心內(nèi)所有相同分類的字段打標簽。并不斷學習分級分類標簽特征,對新增數(shù)據(jù)進行分類標簽推薦。如圖1所示。
圖1:智能分級分類標簽架構(gòu)
1.4.1 醫(yī)療數(shù)據(jù)特征向量提取
如圖2所示,對醫(yī)療數(shù)據(jù)特征數(shù)據(jù)提取,針對數(shù)據(jù)特征進行統(tǒng)計分析,通過數(shù)據(jù)計算得出數(shù)據(jù)特征的中心分布情況,并且對分布數(shù)據(jù)進行量化處理,再是通過多次非線性計算計算,針對海量數(shù)據(jù)迭代式非線性計算,得出高緯度的特征空間信息,再通過數(shù)據(jù)模糊關(guān)聯(lián)技術(shù),針對數(shù)據(jù)特征間的關(guān)系進行重構(gòu),得出具有自適應性的特征聚類中心,建立特征聚類中心數(shù)據(jù)庫,圍繞數(shù)據(jù)特征建立特征分布的重構(gòu)。
圖2:醫(yī)療數(shù)據(jù)特征向量提取圖
1.4.2 醫(yī)療數(shù)據(jù)分類分級模型
如圖3所示,分級分類模型技術(shù)我們采用了歐式距離和字符串相似度兩種算法,在特征向量矩陣的基礎上,對數(shù)值型數(shù)據(jù)采用了歐式距離算法,對字符型數(shù)據(jù)采用編輯距離的字符串相似度算法,計算數(shù)據(jù)集中樣本間的距離;再確定數(shù)據(jù)集的樣本間距離后,對機器學習算法的eps、minPts進行估計,其中,eps是掃描半徑,minPts是最小包含點數(shù),DBSCAN是具有噪聲的基于密度的聚類;將計算的eps和minPts值作為機器學習參數(shù)值,對待清洗的數(shù)據(jù)集進行密度聚類;
圖3:醫(yī)療數(shù)據(jù)分類分級建模圖
評估方法——輪廓系數(shù)(Silhouette Coeきcient):
計算樣本i到同簇其它樣本到平均距離ai。ai越小,說明樣本i越應該被聚類到該簇(將ai稱為樣本i到簇內(nèi)不相似度)。
計算樣本i到其它某簇Cj的所有樣本的平均距離bij,稱為樣本i與簇Cj的不相似度。定義為樣本i的簇間不相似度:bi=min(bi1,bi2,…..,bik2);
si接近1,則說明樣本i聚類合理;
si接近-1,則說明樣本i更應該分類到另外的簇;
若si近似為0,則說明樣本i在兩個簇的邊界上。
1.4.3 智能分級分類標簽推薦
讀取數(shù)據(jù)庫表字段名稱形成數(shù)據(jù)源,然后通過內(nèi)置的算法提取數(shù)據(jù)特征,并讀取字段內(nèi)容自動提取該字段的數(shù)據(jù)特征,其次對相同數(shù)據(jù)類型的字段進行聚類,出現(xiàn)聚類出錯情況需要進行手工校正,用戶手動將數(shù)據(jù)字段集關(guān)聯(lián)到分級分類清單的數(shù)據(jù)項上,為聚類后的數(shù)據(jù)字段集統(tǒng)一打簽,最后通過AI算法學習已標識數(shù)據(jù)特征模型,自動為新字段關(guān)聯(lián)數(shù)據(jù)標簽,出現(xiàn)自動關(guān)聯(lián)出錯時可人工進行干預,從而提高自動關(guān)聯(lián)的準確率。
建成兒童醫(yī)療數(shù)據(jù)智能分類分級系統(tǒng),其技術(shù)特點如下:
(1)展示字段類型、長度、字段樣例數(shù)據(jù),方便進行字段標簽確定。
(2)給一個字段打完標簽后,自動推薦相似字段,支持批量給多個相似字段打標簽。
(3)基于已進行分級分類標簽的字段學習,自動推薦相關(guān)標簽(相似度推薦)。
(4)通過人工智能解決分級分類效率慢、識別準確率低的問題。
(5)定時生成分級分類報告。
構(gòu)建兒童醫(yī)療數(shù)據(jù)智能分類分級體系是必要且可行的,制定兒童醫(yī)療數(shù)據(jù)分類分級標準,形成示范應用,從而更好地保護兒童醫(yī)療數(shù)據(jù)安全,保護患兒及其家庭隱私,全面提升兒童醫(yī)療數(shù)據(jù)分類分級效率,規(guī)范兒童醫(yī)療數(shù)據(jù)使用,促進兒童醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展。