• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向半結構化醫(yī)療數據隱私保護關鍵技術研究

      2018-01-09 11:06:31王換換吳響魏裕陽
      科技視界 2017年28期
      關鍵詞:隱私保護

      王換換 吳響 魏裕陽

      【摘 要】隱私保護是實現大數據價值的首要步驟和關鍵環(huán)節(jié)。目前,結構化數據隱私保護方法豐富,而醫(yī)療數據中常見的半結構化數據缺乏可靠的隱私保護模型及完善的平臺支撐。針對這一問題,本文將從數據結構轉化的角度入手,深入探索半結構化醫(yī)療數據的隱私保護方法及平臺構建。

      【關鍵詞】隱私保護;半結構化;信息抽取

      1 研究意義

      醫(yī)療數據被充分共享的前提是保證數據的隱私安全。半結構化醫(yī)療數據是醫(yī)療大數據的重要組成部分,占有舉足輕重的地位。醫(yī)療過程中形成的半結構化信息隱私內容多樣,從中折射、反映、蘊含的資訊及信息具有巨大的應用價值,對于醫(yī)學研究、政府統(tǒng)計或是其他個人、機構的科研有重要意義。然而,由于半結構化數據的復雜性、靈活性以及其自描述形式,現存的隱私保護技術滿足不了半結構化醫(yī)療數據的隱私保護需求。

      目前,數據共享中的隱私保護技術主要基于三類模型:k-匿名模型[1-2]、l-多樣性匿名模型[3-4]和t-closeness匿名模型。但大多數隱私保護技術都是針對結構化數據,對半結構化醫(yī)療數據共享的隱私保護并不理想。而綜合考慮技術、成本等問題,對半結構化醫(yī)療數據的隱私保護,應首先考慮使用成熟的結構化數據隱私保護方法,其關鍵是將半結構化醫(yī)療數據轉化結構化數據。半結構化醫(yī)療數據的隱私保護問題要綜合考慮到數據的異構性、復雜性、高維性等問題,明確中文醫(yī)學信息數據特點造成半結構化信息抽取困難的問題,充分利用國內外半結構化數據抽取技術及結構化數據集信息的指導作用,將結構特征與詞法、語義、表現形式等其他特征相結合,建立專門針對中文半結構化醫(yī)療數據特點的智能化信息處理模型及系統(tǒng)。

      此外,考慮到結構化后的醫(yī)療數據具有高維度、高復雜度的特點,需要更加高效的計算技術,自動并行化是解決這一問題的有效途徑之一。Spark 是由伯克利大學開發(fā)的通用分布式內存計算平臺,而彈性分布式數據集(Resilient Distributed Dataset,RDD)是Spark 的最基本抽象,是對分布式內存的抽象使用,實現了以操作本地集合的方式操作分布式數據集的抽象實現,適合優(yōu)化需要多次迭代操作的機器學習類算法。因此,半結構化醫(yī)療數據的隱私保護過程完成能夠使用spark并行計算,進行高效地資源分配。

      2 研究內容

      本文主要解決半結構化醫(yī)療數據共享中的信息抽取、隱私保護、并行化等關鍵技術問題,在保證半結構化醫(yī)療數據共享后隱私安全的情況下,提高半結構化數據的可用性,為臨床決策、科研提供數據資源的支持,構建面向半結構化醫(yī)療數據共享的BaaS隱私保護平臺。

      (1)面向半結構化醫(yī)療數據的信息抽取技術及醫(yī)學術語知識庫的構建

      建立服務于機器學習算法的中文醫(yī)學術語知識庫是信息抽取技術的基礎,利用統(tǒng)計學方法學習標記好的語料庫、獲取規(guī)則、建立類似UMLS的中文醫(yī)學術語知識庫。標注少量醫(yī)學病歷作為統(tǒng)計學方法的訓練集;探索適當的可用于醫(yī)學問題識別的統(tǒng)計學算法;構建一個可以表明人物及其相應醫(yī)學問題的信息表示方案;各部分研究間的關系可以構成一個信息抽取系統(tǒng)。

      (2)隱私保護算法的自動并行化技術

      引入Spark技術,Spark 使用基于內存計算的并行化計算模型——彈性分布式數據集(resilient distributed datasets,RDD),提供強大的分布式內存并行計算引擎,支持快速迭代計算,將機器學習應用到常規(guī)并行化策略上,能夠進一步提升訓練速度。首先采用合理智能算法以及不同訓練集對各個k-匿名算法進行測試訓練,檢測不同算法較為費時部分;其次測試該部分能否進行分布式計算法;最后Spark平臺進行分布式運算會涉及到通信開銷,智能算法訓練各k-匿名算法,給定各算法進行分布式所需要的數據集閾值。對k-匿名算法設計采用了并行化局部優(yōu)化的迭代計算模式,有效提高匿名效率。

      (3)構建面向半結構化醫(yī)療數據的分布式隱私保護BaaS平臺

      構建面向結構化醫(yī)療數據的分布式隱私保護BaaS平臺,該平臺應具備上載結構化數據集和半結構化數據集、連接數據庫、醫(yī)學數據信息抽取模塊、隱私保護模塊、提供k-匿名算法的Rest-API。平臺內含自建中文臨床子語言語法規(guī)則及醫(yī)學術語知識庫,為信息抽取的精確性提供知識儲備及技術支持。隱私保護模塊能夠按需求進行全域k-匿名或局域k-匿名的選擇、具體實現k-匿名算法的選擇、隱私保護模型的選擇,同時該模塊具有是否使用分布式計算的選項。

      3 研究方法

      首先建立醫(yī)學術語知識庫及命名實體規(guī)則庫,對半結構化醫(yī)療數據進行信息抽取,測試抽取信息的準確性。對抽取后的結構化數據匿名,測試k-匿名算法的功能及其使用范圍。挖掘匿名前后數據所包含的信息,對比挖掘結果,對匿名后的數據集進行信息損失量的度量,給出k-匿名算法的評估標準。為節(jié)省處理數據的時間,準確找到各算法適合的分布式計算模塊,在k-匿名算法功能測試后,使用訓練集對各k-匿名算法的代碼模塊進行訓練,分析每個程序段的運行時間,探尋各個方法的運行時間、次數等統(tǒng)計信息,并采用深度貪婪算法迭代統(tǒng)計含子程序的代碼段的運行時間,找出算法最耗時模塊,對該模塊進行分布式處理,使其單線程計算變?yōu)椴l(fā)式計算。

      使用GATE程序對半結構化程序進行信息抽取,GATE的抽取信息的準確性高達97.58%,處理速度為31.5KB/s,完全可以滿足現有情況下的信息抽取要求。選擇匿名模型及匿名算法,利用匿名算法處理抽取后的結構化數據,完成匿名。如果選擇的匿名算法匿名后的數據集不符合要求,則重新選擇匿名算法進行匿名數據集,直到匿名后的數據集滿足隱私保護和數據可用性的雙重要求。同時,在匿名化之前,根據已訓練出的參數進行分布式需求判斷,如果分布式較為節(jié)省時間則采用分布式計算,如果因為分布式處理的通信開銷造成時間浪費,則采用單線程處理數據。

      4 實施方案與研究步驟

      第一步:關鍵詞提取,分詞處理是識別半結構化醫(yī)療數據的第一步

      (1)自主收集和制作中文詞表;

      (2)編寫針對中文特性的規(guī)則。

      該方法不但可以準確地抽取出個人信息,而且因其包含的ICD-10詞庫可以把半結構化數據中包含的疾病、診斷、健康狀況信息轉化為結構化數據,方便對半結構化數據的挖掘,進一步提高了半結構化數據的價值。

      第二步:半結構化醫(yī)療數據隱私保護處理

      針對提取出的個人信息,例如住址、年齡、提問等信息,本文將采用k-匿名模型對其進行匿名化處理??紤]到k-匿名是把精確數據模糊化,因此,該方法匿名的數據集會產生一定的信息損失,對此本文采用IL評估方法對匿名表進行信息損失量的判斷。為了更好的進行隱私保護,在k-匿名模型的基礎上引入l-diversity模型、t-closeness模型對其進行匿名化操作。

      第三步:Spark分布式并行化算法處理技術

      k-匿名算法是需要多次對數據操作即多次訪問I/O端口,故可以通過減少k-匿名時的I/O操作較少匿名化時間,本文采用Spark平臺,把數據存儲在內存中,避免不斷從硬盤讀取數據,節(jié)省訪問I/O端口的通訊時間。考慮到Spark計算本身具有通信開銷,當數據量較小時,使用Spark分布式進行k-匿名算法可能會形成時間上的浪費。因此,本文使用不同大小的訓練集、不同屬性大小的訓練集和不同泛化規(guī)則的訓練集不斷進行訓練,找出來各k-匿名算法使用Spark平臺可以減少時間閾值[5]。在閾值之內的數據集,將會建議采用單線程計算以節(jié)省時間和資源,大于此閾值的數據集,將會合理的給出分布式計算意見。

      第四步:構建面向半結構化數據的分布式隱私保護BaaS平臺

      構建后端即服務BaaS平臺,通過Web Service技術構建Rest API,為開發(fā)者提供接口。在服務器端提供對底層系統(tǒng)的抽象,以實現對底層通用數據處理引擎的支持,并提供上傳結構化數據集和半結構化數據集、連接數據庫、醫(yī)學數據信息抽取模塊、隱私保護模塊、k-匿名算法等編程語言接口(API),從而滿足開發(fā)者的需求。

      【參考文獻】

      [1]Samarati P,Sweeney L.Protecting privacy when disclosing information:k-anonymity and its enforcement through generalization and suppression.SRI Computer Science Laboratory Technical Report SRI-CSL-98-04,1998.

      [2]Samarati P.Protecting respondentsidentities in microdata release[J].IEEE Trans Knowl Data Eng,2001,13:1010-1027.

      [3]Machanavajjhala A,Kifer D,Gehrke J,and Venkitasubramaniam M.1-diversity:Privacy beyond k-anonymity.ACM Trans KnowL Discov. Data 1.1.2007.

      [4]Li N H,Li T C,Venkatasubramanian S.t-closeness:privacy beyond k-anonymity and 1-diversity[C] Proceedings of IEEE 23rd International Conference on Data Engineering, Istanbul,2007.106-1 15.

      [5]李文,程華良,彭耀,等.基于Spark可視化大數據挖掘平臺[C].系統(tǒng)仿真技術及其應用.

      猜你喜歡
      隱私保護
      移動商務消費行為分析研究
      適用于社交網絡的隱私保護興趣度匹配方案
      可搜索加密在云計算移動學習中的應用
      基于層次和節(jié)點功率控制的源位置隱私保護策略研究
      軟件導刊(2016年11期)2016-12-22 22:00:22
      關聯(lián)規(guī)則隱藏算法綜述
      軟件導刊(2016年11期)2016-12-22 21:38:16
      大數據環(huán)境下用戶信息隱私泄露成因分析和保護對策
      現代情報(2016年11期)2016-12-21 23:37:36
      大數據安全與隱私保護的必要性及措施
      大數據時代中美保護個人隱私的對比研究
      新聞界(2016年15期)2016-12-20 09:47:10
      社交網絡中的隱私關注及隱私保護研究綜述
      大數據時代的隱私保護關鍵技術研究
      株洲市| 赣榆县| 商洛市| 武安市| 邳州市| 门头沟区| 宁强县| 榆树市| 青海省| 松原市| 永德县| 富阳市| 波密县| 偃师市| 新龙县| 浑源县| 安义县| 江津市| 天长市| 瑞金市| 三江| 江口县| 唐海县| 阿克苏市| 兴安县| 无为县| 横山县| 南丹县| 灵丘县| 萝北县| 彝良县| 南安市| 吉林省| 甘南县| 怀柔区| 乐陵市| 昌宁县| 淳安县| 高平市| 彭水| 泉州市|