• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)自治開放應用平臺設計與實踐

      2018-04-12 03:20:31陳德華潘喬王梅樂嘉錦
      大數(shù)據(jù) 2018年2期
      關(guān)鍵詞:提供者使用者規(guī)則

      陳德華,潘喬,王梅,樂嘉錦

      東華大學計算機科學與技術(shù)學院,上海 201620

      1 引言

      隨著信息技術(shù)的飛速發(fā)展,全球數(shù)據(jù)資源正以前所未有的速度不斷增長和積累,大數(shù)據(jù)以其具有的巨大潛在價值成為政府、學術(shù)界和企業(yè)界共同關(guān)注的焦點。數(shù)據(jù)資源的價值具有隱藏性,研究人員需進行深度分析和挖掘,方能發(fā)現(xiàn)其潛在的價值。然而目前這一過程受到數(shù)據(jù)的完整性以及數(shù)據(jù)的訪問權(quán)限等條件的制約,使得數(shù)據(jù)的應用價值受到極大限制。很明顯,只有開放的數(shù)據(jù)資源,才能釋放數(shù)據(jù)的價值。數(shù)據(jù)開放是大數(shù)據(jù)發(fā)揮其作用的基礎。

      數(shù)據(jù)資源的戰(zhàn)略性和商業(yè)價值正在日益顯現(xiàn),據(jù)麥肯錫公司預測,醫(yī)療數(shù)據(jù)的有效利用每年可為美國醫(yī)療健康體系帶來3000多億美元的潛在價值,并貢獻0.7%的年度生產(chǎn)力增長,可為加拿大醫(yī)療健康體系節(jié)省100億美元的衛(wèi)生費用[1]。因此,目前全球各國都將數(shù)據(jù)開放提升到國家戰(zhàn)略層面。截至2014年4月,已經(jīng)有63個國家制定了政府數(shù)據(jù)的開放計劃,如美、英、法等8國簽署的《開放數(shù)據(jù)憲章》①。國務院2015年印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,明確將政府數(shù)據(jù)的開放排在首位。然而數(shù)據(jù)開放帶來的數(shù)據(jù)安全和隱私泄露的風險[2-4]使得數(shù)據(jù)資源的開放變得越來越困難。數(shù)據(jù)自治開放為數(shù)據(jù)開放提供了新思路和新的解決辦法。數(shù)據(jù)管理方式的變化將帶來數(shù)據(jù)應用技術(shù)的巨大變革。長久以來,針對面向聯(lián)機事務處理(online transaction processing,OLTP)的關(guān)系數(shù)據(jù)庫以及面向聯(lián)機分析處理(online analytical processing,OLAP)的多維數(shù)據(jù)模型[5]產(chǎn)生了大量的研究成果,已建立成熟完備的應用解決方案。圍繞數(shù)據(jù)開放自治新模式,尚缺乏完整的理論體系和應用解決方案。面向上層數(shù)據(jù)提供者和數(shù)據(jù)使用者,如何進行合理有效的數(shù)據(jù)組織,提供友好的上下層接口,建立一套面向數(shù)據(jù)自治開放應用的整體解決方案,提供數(shù)據(jù)自治開放需求描述方法、設計原則及實現(xiàn)部署,并將數(shù)據(jù)開放的新理論、新技術(shù)與新方法運用到數(shù)據(jù)自治開放實踐中,探索面向特定領(lǐng)域的應用實踐,是本文要解決的主要問題。

      2 數(shù)據(jù)自治開放應用平臺框架

      2.1 數(shù)據(jù)自治開放平臺

      數(shù)據(jù)自治開放平臺實現(xiàn)了數(shù)據(jù)在自治環(huán)境下的完全開放、脫敏開放和原始開放。整個平臺由平臺基礎層和平臺應用層組成。其中,平臺基礎層從下到上又分為數(shù)據(jù)存儲系統(tǒng)、數(shù)據(jù)資源管理系統(tǒng)、軟件行為監(jiān)控系統(tǒng);平臺應用層由數(shù)據(jù)自治開放應用系統(tǒng)和用戶組成。平臺的整體架構(gòu)如圖1所示。

      平臺基礎層為整個數(shù)據(jù)自治開放平臺提供數(shù)據(jù)存儲與管理、數(shù)據(jù)使用的軟件行為監(jiān)控功能。其中,數(shù)據(jù)存儲與管理功能分別由數(shù)據(jù)存儲系統(tǒng)和數(shù)據(jù)資源管理系統(tǒng)實現(xiàn),完成面向具體應用的數(shù)據(jù)安全存儲和管理;數(shù)據(jù)使用行為的監(jiān)控功能由軟件行為監(jiān)控系統(tǒng)實現(xiàn),主要負責對數(shù)據(jù)使用者在訪問及使用數(shù)據(jù)過程中的操作行為進行監(jiān)控和驗證。平臺應用層在平臺基礎層上,為具體的數(shù)據(jù)自治開放應用系統(tǒng)提供數(shù)據(jù)設計模式和數(shù)據(jù)自治開放解決方案。

      可見,在整個平臺中,數(shù)據(jù)自治開放應用系統(tǒng)直接面向用戶,為數(shù)據(jù)提供者和數(shù)據(jù)使用者提供數(shù)據(jù)開放服務,處于平臺的承上啟下地位,直接影響平臺的推廣及應用。

      圖1 數(shù)據(jù)自治開放平臺層次架構(gòu)

      2.2 數(shù)據(jù)自治開放應用平臺功能

      圖2給出了數(shù)據(jù)自治開放應用平臺的功能劃分。按照用戶的不同角色,數(shù)據(jù)自治開放應用平臺的功能可分為面向數(shù)據(jù)提供者和面向數(shù)據(jù)使用者兩大部分。

      圖2 數(shù)據(jù)自治開放應用平臺的功能組成

      (1)面向數(shù)據(jù)提供者的功能

      針對數(shù)據(jù)提供者對數(shù)據(jù)的安全需求,數(shù)據(jù)自治開放應用平臺可參照數(shù)據(jù)庫范式設計體系構(gòu)建數(shù)據(jù)安全范式規(guī)則,建立數(shù)據(jù)邏輯模式,使之能夠有效地存儲和管理開放數(shù)據(jù),具有防泄露、保護權(quán)益能力。

      ● 數(shù)據(jù)資源管理:面向上層應用,對不同業(yè)務的數(shù)據(jù)資源進行整合,設計不同類型數(shù)據(jù)的語義關(guān)聯(lián)組織方法,建立易于不同領(lǐng)域數(shù)據(jù)使用者使用的開放數(shù)據(jù)資源。在此基礎上,實現(xiàn)對各種數(shù)據(jù)資源的分類、查詢、統(tǒng)計、匯總等,幫助數(shù)據(jù)提供者實現(xiàn)數(shù)據(jù)資源的統(tǒng)一管理。

      ● 數(shù)據(jù)邏輯模式:對開放數(shù)據(jù)的類型、內(nèi)容、性質(zhì)以及數(shù)據(jù)間的聯(lián)系進行描述,定義數(shù)據(jù)上的操作類型和操作方式。從數(shù)據(jù)屬性維度(橫向)和數(shù)據(jù)規(guī)模維度(縱向)劃分數(shù)據(jù)粒度,為用戶建立合理的數(shù)據(jù)組織。

      ● 數(shù)據(jù)安全需求:包括安全需求接口以及對需求的理解。根據(jù)數(shù)據(jù)提供者的數(shù)據(jù)安全特性,結(jié)合數(shù)據(jù)提供者對數(shù)據(jù)的隱私保護需求,建立數(shù)據(jù)安全需求規(guī)則,實現(xiàn)安全規(guī)則的建立、分解、合并優(yōu)化等,以實現(xiàn)數(shù)據(jù)資源安全的復雜應用需求。

      (2)面向數(shù)據(jù)使用者的功能

      針對數(shù)據(jù)使用者對數(shù)據(jù)開放的應用需求,數(shù)據(jù)自治開放應用平臺在數(shù)據(jù)自治開放數(shù)據(jù)資源管理系統(tǒng)的基礎上,基于數(shù)據(jù)驅(qū)動的軟件開發(fā)思想,建立一套面向數(shù)據(jù)自治開放應用系統(tǒng)的整體解決方案。

      ● 數(shù)據(jù)自治開放應用需求描述方法。需求是整個數(shù)據(jù)自治開放應用系統(tǒng)最關(guān)鍵的輸入,由業(yè)務需求、用戶需求、功能需求、數(shù)據(jù)需求等組成?;诔R?guī)軟件需求描述內(nèi)容,針對數(shù)據(jù)自治開放應用需求存在模糊性、不確定性、變化性和主觀性的特點,提出面向數(shù)據(jù)自治開放應用環(huán)境的N-元素描述法,體現(xiàn)數(shù)據(jù)自治開放應用的業(yè)務流程、數(shù)據(jù)、功能、性能及安全約束等要素,從使用前景和范圍文檔來記錄業(yè)務需求。

      ● 數(shù)據(jù)自治開放應用設計技術(shù)。結(jié)合數(shù)據(jù)自治開放應用需求,制定數(shù)據(jù)自治開放應用系統(tǒng)設計中需要遵循的原則、部署應用的規(guī)劃。基于接口隔離原則、依賴反轉(zhuǎn)原則等,給出數(shù)據(jù)自治開放應用的基本設計流程、組織結(jié)構(gòu)、模塊劃分、功能分配、接口設計、運行設計和數(shù)據(jù)結(jié)構(gòu)設計以及應用中系統(tǒng)功能模塊之間層次結(jié)構(gòu)與調(diào)用關(guān)系的設計原則。

      ● 數(shù)據(jù)自治開放應用的實現(xiàn)策略?;跀?shù)據(jù)自治開放應用分析及設計結(jié)果,給出數(shù)據(jù)自治開放應用的實現(xiàn)部署策略。

      2.3 數(shù)據(jù)自治開放應用平臺的對外接口描述

      數(shù)據(jù)自治開放應用平臺對外需要與數(shù)據(jù)資源管理系統(tǒng)和軟件行為監(jiān)控系統(tǒng)進行交互。根據(jù)圖2所示的數(shù)據(jù)自治開放平臺架構(gòu),其對外接口主要有以下兩種類型。

      ● 軟件訪問接口:為數(shù)據(jù)自治開放應用系統(tǒng)提供了與軟件行為監(jiān)控系統(tǒng)之間的交互接口,即實現(xiàn)數(shù)據(jù)自治開放應用的各項業(yè)務功能的前端程序開發(fā)接口。數(shù)據(jù)自治開放系統(tǒng)的軟件訪問接口可采用OpenDL SDK的數(shù)據(jù)開放應用軟件開發(fā)工具包進行設計與實現(xiàn)。

      ● 數(shù)據(jù)訪問接口:通過OpenDL運行庫與數(shù)據(jù)資源管理系統(tǒng)交互,支持Web及各種移動設備的訪問,供外部軟件使用數(shù)據(jù),實現(xiàn)對物理存儲的數(shù)據(jù)的管理,如新增、更新、凍結(jié)等。

      3 關(guān)鍵技術(shù)實現(xiàn)

      3.1 數(shù)據(jù)邏輯組織

      在數(shù)據(jù)自治開放應用環(huán)境中,數(shù)據(jù)提供者與數(shù)據(jù)使用者往往并不相同。因此,首先需要將數(shù)據(jù)提供者提供的數(shù)據(jù)資源進行整合,設計面向使用者的數(shù)據(jù)邏輯組織。由于在傳統(tǒng)應用中,數(shù)據(jù)的產(chǎn)生者和數(shù)據(jù)使用者為同一主體,因此其數(shù)據(jù)邏輯組織大都建立在應用需求已知的情況下。數(shù)據(jù)庫設計由應用驅(qū)動,首先進行概念模型設計,進而進行邏輯表組織和數(shù)據(jù)表創(chuàng)建。而在面向大數(shù)據(jù)的數(shù)據(jù)自治開放應用中,數(shù)據(jù)的使用者和數(shù)據(jù)使用任務都存在較大的不可預知性和可變性,因此,采用傳統(tǒng)的數(shù)據(jù)組織方式并不可行。

      與傳統(tǒng)的數(shù)據(jù)庫關(guān)系模型對比,本體模型能夠?qū)崿F(xiàn)與現(xiàn)實世界的直接對應,同時保留具體數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,能更準確地與自然語言相對應,從而呼應可變的上層應用需求[6]。為此,建立基于本體知識庫的數(shù)據(jù)劃分和邏輯組織。

      圖3 基于知識庫的數(shù)據(jù)邏輯組織技術(shù)路線

      如圖3所示,基于本體知識庫的數(shù)據(jù)邏輯組織技術(shù),首先從原始多源關(guān)系型數(shù)據(jù)集中提取候選的本體概念以及概念的屬性和層次結(jié)構(gòu),然后采用自頂向下的方法先對每個概念進行選擇,判斷概念是否符合本體模型以及概念的屬性;然后為當前概念添加新的子概念和屬性,并為屬性添加值域約束和類型約束;最后對本體模型中每一個概念進行詞義擴展,建立同義詞庫和反義詞庫。領(lǐng)域本體模型完成后,根據(jù)模型重新劃分數(shù)據(jù)。首先去除本體概念中不存在的屬性和表,然后根據(jù)本體屬性的約束提取滿足條件的數(shù)據(jù)實例,最后打破原有的數(shù)據(jù)表之間的業(yè)務關(guān)聯(lián)關(guān)系,根據(jù)本體概念之間的關(guān)系建立數(shù)據(jù)表之間新的聯(lián)系,從而得到面向數(shù)據(jù)自治開放的新的數(shù)據(jù)邏輯組織。

      3.2 安全需求描述與校驗

      安全需求面向數(shù)據(jù)提供者。數(shù)據(jù)提供者的數(shù)據(jù)資源開放首先需要保障數(shù)據(jù)的安全性,而如何描述和表達數(shù)據(jù)資源的安全性需求成為待解決的首要問題。由于安全性需求存在多樣性的特點,以醫(yī)療數(shù)據(jù)為例,患者醫(yī)生的個人信息屬于個人隱私,直接存儲在數(shù)據(jù)庫中,需要針對具體數(shù)據(jù)制定安全規(guī)則,防止隱私泄露;醫(yī)生診斷習慣、院內(nèi)具有優(yōu)勢的診療方案等為數(shù)據(jù)分析的結(jié)果,涉及醫(yī)生及醫(yī)院的利益,需要針對用戶的數(shù)據(jù)行為制定安全規(guī)則;而諸如醫(yī)生手術(shù)成功率、醫(yī)院經(jīng)營狀況等醫(yī)院內(nèi)部數(shù)據(jù),只允許內(nèi)部訪問,需要根據(jù)用戶的訪問級別制定安全規(guī)則。針對不同行業(yè),安全性需求既有共性,又有個性;既有顯性需求,又有隱性需求。因此如何準確地表達、描述安全需求,成了迫切需要解決的問題。

      安全性需求由數(shù)據(jù)提供者指定,若要求用戶以系統(tǒng)指定形式制定規(guī)則,對用戶而言要求太高。半自動化方式(通過界面引導用戶添加對數(shù)據(jù)和行為的描述)相對而言對用戶要求較低,但由于數(shù)據(jù)本身和數(shù)據(jù)的訪問行為多樣性,系統(tǒng)無法窮舉用戶的數(shù)據(jù)訪問行為,導致局限性太大。一般用戶對自然語言都能熟練掌握,若安全規(guī)則的生成對數(shù)據(jù)提供者的要求僅是以自然語言方式提供描述,無疑會大大降低用戶的學習成本,從而提升系統(tǒng)的友好度。另外,安全規(guī)則的生成需要與具體的數(shù)據(jù)、用戶的數(shù)據(jù)訪問行為以及用戶的訪問級別相關(guān)聯(lián),如何設計一種結(jié)構(gòu)能夠在保存以上信息的同時,準確地實現(xiàn)從自然語言向該結(jié)構(gòu)的轉(zhuǎn)換,成為當前迫切需要解決的問題。本文提出的安全需求接口如下所示。

      安全需求接口={input,output}。

      安全需求接口的input:用戶的自然語言查詢輸入。

      安全需求接口的output:{安全規(guī)則名,規(guī)則涉及的對象,規(guī)則對應的操作,訪問控制權(quán)限}。

      規(guī)則名:規(guī)則的統(tǒng)一命名。

      規(guī)則涉及的對象:安全需求中涉及的數(shù)據(jù)對象。

      規(guī)則對應的操作:該安全需求要求該數(shù)據(jù)對象進行何種操作。

      訪問控制權(quán)限:該安全需求要求該數(shù)據(jù)對象進行上述操作的權(quán)限,如受限的或禁止的等。

      圖4 安全需求接口技術(shù)路線

      如圖4所示,該關(guān)鍵技術(shù)首先分析數(shù)據(jù)庫邏輯結(jié)構(gòu),構(gòu)造實體類、屬性以及實體與實體及屬性之間的關(guān)系,生成知識庫。另外,接受用戶安全規(guī)則的自然語言描述,并將該安全規(guī)則分解為數(shù)據(jù)訪問行為描述以及該數(shù)據(jù)訪問行為的訪問控制處理。數(shù)據(jù)訪問行為及其訪問控制均采用Key-Value的二元組形式化方式描述,用戶可以通過瀏覽器查看,并可直接通過該圖形化界面對其進行修改和完善,最終進行預保存。在獲得用戶的查詢意圖(語句)后,即可與安全規(guī)則進行匹配,對違反安全規(guī)則定義的數(shù)據(jù)訪問需求進行屏蔽和提示。

      3.3 分析需求描述與轉(zhuǎn)換

      分析需求面向數(shù)據(jù)使用者。數(shù)據(jù)自治開放平臺在確保數(shù)據(jù)安全性的同時,需提供一個用戶友好的訪問接口,以便用戶便捷地查詢分析相關(guān)數(shù)據(jù)。在傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)中,用戶通過標準的數(shù)據(jù)庫查詢語言或交互式的可視化查詢界面描述所要進行的查詢分析操作。然而,上述方式需要用戶具有數(shù)據(jù)庫查詢語言基礎,并且對數(shù)據(jù)庫中表的結(jié)構(gòu)較為熟悉,能自行確定連接條件等。這對于數(shù)據(jù)提供者和數(shù)據(jù)使用者并不相同的數(shù)據(jù)開放而言,較為困難[7,8]。除此以外,邏輯較為復雜的查詢分析很難或者無法用這種可視化的查詢界面表達出來。特別是對面向大數(shù)據(jù)的開放來說,對數(shù)據(jù)挖掘算法的有效支持是其必備的一個功能,但通常來說普通用戶并不能精準地表述自己數(shù)據(jù)挖掘的意圖,更不可能透徹理解數(shù)據(jù)挖掘的相關(guān)算法。自然語言是人類最為熟悉的交流工具,設計一個支持自然語言的查詢分析接口,將極大地提高數(shù)據(jù)的易用性,這種方便用戶的查詢方式將把數(shù)據(jù)迅速推廣普及至各個行業(yè)。

      本文提出的自然語言查詢分析接口接收用戶的自然語言查詢需求,并將其轉(zhuǎn)化為數(shù)據(jù)管理層支持的查詢語言,這代表查詢接口接收的語言是自然語言的一個子集,同樣,數(shù)據(jù)庫本身內(nèi)容的確定性以及查詢句型的有限性和不帶感情色彩等特點,使得語義的歧義性、模糊性問題在查詢接口中可得到有效處理。

      自然語言查詢接口={input,output}。

      查詢接口的input:用戶的自然語言查詢輸入。

      查詢接口的output:對應的數(shù)據(jù)庫查詢語言。

      如圖5所示,自然語言查詢以用戶自然語言為輸入,首先通過文本解析器將自然語言轉(zhuǎn)化為語義樹;進而根據(jù)語義相似度及映射規(guī)則將樹節(jié)點歸類,并與自治開放數(shù)據(jù)中的底層數(shù)據(jù)對象建立對應關(guān)系。在此基礎上,根據(jù)設計的查詢樹結(jié)構(gòu)以及節(jié)點類型調(diào)整語義樹至基本查詢樹,選取Topk棵基本查詢樹與用戶進行交互,從而返回一棵最正確的基本查詢樹,再將基本查詢樹進行模糊節(jié)點擴充,生成一個層次清晰、關(guān)系明確的查詢樹結(jié)構(gòu)并返回。最后,通過查詢轉(zhuǎn)換將查詢樹轉(zhuǎn)換為SQL或其他數(shù)據(jù)庫可執(zhí)行語句,傳入下層接口執(zhí)行。

      圖5 自然語言查詢接口技術(shù)路線

      4 典型項目應用

      4.1 醫(yī)療數(shù)據(jù)自治開放應用

      近年來,醫(yī)院信息化建設的深入促進了醫(yī)療大數(shù)據(jù)的形成。醫(yī)療數(shù)據(jù)的開放可以改變醫(yī)院信息系統(tǒng)中醫(yī)療數(shù)據(jù)的封閉現(xiàn)狀,實現(xiàn)醫(yī)生對患者的跟蹤診療,提高醫(yī)治過程的透明化,為醫(yī)院的臨床、科研及管理運營等提供重要的數(shù)據(jù)獲取途徑,有助于提升醫(yī)療數(shù)據(jù)的再利用價值,提高醫(yī)療服務的質(zhì)量和水平。

      本文在自主研發(fā)的數(shù)據(jù)自治開放模型、應用技術(shù)與方法基礎上,選取了上海市某三甲醫(yī)院作為數(shù)據(jù)開放的應用示范,實現(xiàn)在自治開放環(huán)境下臨床醫(yī)療數(shù)據(jù)的開放及深度開發(fā)利用。該醫(yī)院作為全國知名大型綜合性醫(yī)院,一方面,接收來自全國各地的初診和復診患者,醫(yī)生需要獲取患者的前期診療數(shù)據(jù);另一方面,為了方便患者的后續(xù)治療,又需要把患者的治療數(shù)據(jù)開放給其他醫(yī)院。因此,醫(yī)院面臨數(shù)據(jù)開放的典型性問題,即如何最大限度地從第三方獲得有效的數(shù)據(jù),如何在保證數(shù)據(jù)安全性的前提下為第三方開放數(shù)據(jù)。

      4.2 醫(yī)院數(shù)據(jù)自治開放應用系統(tǒng)

      針對醫(yī)院的業(yè)務需求,醫(yī)院的醫(yī)療數(shù)據(jù)自治開放系統(tǒng)體系框架如圖6所示。

      圖6 系統(tǒng)體系框架

      圖6的系統(tǒng)體系框架包括數(shù)據(jù)提供方、數(shù)據(jù)使用方和分級診療數(shù)據(jù)自治開放應用系統(tǒng)三方。數(shù)據(jù)提供方主要為社區(qū)醫(yī)療服務中心、二級醫(yī)院和三級甲等醫(yī)院等,患者可能在這些機構(gòu)做過治療或化驗;數(shù)據(jù)使用方主要為政府相關(guān)部門、第三方醫(yī)療研究機構(gòu)或個人等,他們需要獲取相關(guān)診療數(shù)據(jù)作為患者后續(xù)治療、醫(yī)學研究或政府決策等用途;分級診療數(shù)據(jù)自治開放應用系統(tǒng)部署在試點醫(yī)院,它主要由數(shù)據(jù)整合、數(shù)據(jù)分析模型庫、數(shù)據(jù)瀏覽和展示、數(shù)據(jù)申請和審核以及使用等多個功能模塊組成。其中,數(shù)據(jù)整合主要完成來自社區(qū)醫(yī)療服務中心、二級醫(yī)院和三級甲等醫(yī)院多級來源數(shù)據(jù)的整合和數(shù)據(jù)劃分。數(shù)據(jù)分析模型庫根據(jù)預收集的數(shù)據(jù)分析需求,如疾病分期、分型預測、診療方案學習等,構(gòu)建一系列分析模型,并在后期進行模型的累積和演化更新。數(shù)據(jù)邏輯組織展示和瀏覽主要從元數(shù)據(jù)、時間、來源等多維度對數(shù)據(jù)進行展示,供使用者進行篩選。數(shù)據(jù)提供方可根據(jù)用戶的權(quán)限和其篩選數(shù)據(jù)的安全規(guī)則進行使用審核。最后,向符合安全規(guī)則的數(shù)據(jù)訪問需求提供相應數(shù)據(jù)供用戶使用。

      在上述分級診療數(shù)據(jù)自治開放應用系統(tǒng)中,首先需要對醫(yī)院不同信息化系統(tǒng)(如醫(yī)院信息系統(tǒng)、影像歸檔和通信系統(tǒng)、電子病歷系統(tǒng)、實驗室信息系統(tǒng)等)進行數(shù)據(jù)整合,抽取患者信息、醫(yī)生信息、醫(yī)院信息、診斷信息、檢查檢驗信息、治療信息的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),建立全方位數(shù)據(jù)資源體系。

      以國內(nèi)某三甲醫(yī)院為例,經(jīng)過相同患者識別、信息整合,最終的表有400多張,再將與臨床無關(guān)的表去掉,還有60多張數(shù)據(jù)表。不論是數(shù)據(jù)提供者還是數(shù)據(jù)使用者,都并非數(shù)據(jù)庫專業(yè)用戶,直接在原始表結(jié)構(gòu)上進行安全規(guī)則定義和查詢需求定義均十分困難,因此建立基于本體的數(shù)據(jù)邏輯組織十分必要。在圖6的系統(tǒng)體系框架中,數(shù)據(jù)邏輯展示和瀏覽模塊采用本文提出的基于本體的數(shù)據(jù)邏輯組織將極大地方便數(shù)據(jù)提供者和數(shù)據(jù)使用者,是應用系統(tǒng)的有力支撐。同時,在建立本體的過程中,對字段進行合并重組,將大大減少數(shù)據(jù)量。以甲狀腺數(shù)據(jù)集為例,重組后的數(shù)據(jù)總量減小到30%,在重組后的數(shù)據(jù)集上進行查詢執(zhí)行,將顯著提升查詢執(zhí)行性能[9]。進一步,對于數(shù)據(jù)使用者(以醫(yī)生為例)來說,在構(gòu)造數(shù)據(jù)分析模型時,將不可避免地從開放數(shù)據(jù)中獲取數(shù)據(jù)??紤]簡單查詢意圖“查詢低鉀的甲亢用戶”,該語句的具體執(zhí)行涉及數(shù)據(jù)庫中的三表連接,且存在兩種連接方式。若讓用戶直接書寫結(jié)構(gòu)化查詢語句或書寫基于本體的查詢語句,則十分困難。本文提出的基于自然語言的分析需求與轉(zhuǎn)換關(guān)鍵技術(shù)將幫助數(shù)據(jù)使用者輸入自然語言語句提出查詢請求,即可方便地獲取所需數(shù)據(jù)構(gòu)建模型,數(shù)據(jù)提供者定義安全需求的情況與此類似。以“普通用戶不能查詢醫(yī)生的用藥習慣”這一安全規(guī)則為例,很明顯,該規(guī)則定義待保護的隱私數(shù)據(jù)為“用藥習慣”,即醫(yī)生根據(jù)診斷結(jié)果經(jīng)常開的藥。將該自然語言描述的待保護數(shù)據(jù)轉(zhuǎn)換為描述數(shù)據(jù)訪問的安全規(guī)則,并進一步對規(guī)則進行分解與合并,通過對數(shù)據(jù)使用者的數(shù)據(jù)訪問行為進行審核判斷,即可防止隱私數(shù)據(jù)的訪問和泄露??梢姡瑧帽疚奶岢龅年P(guān)鍵技術(shù)可極大地提升數(shù)據(jù)自治開放平臺的性能和可用性。

      5 結(jié)束語

      本文提出了針對數(shù)據(jù)自治開放上層應用的系統(tǒng)解決方案。在現(xiàn)有的大數(shù)據(jù)相關(guān)研究中,大多數(shù)工作集中于大數(shù)據(jù)的存儲管理技術(shù),然而針對大數(shù)據(jù)提供者和大數(shù)據(jù)使用者,如何設計方便、有效的查詢分析需求接口、完全需求接口,如何提供清晰、有效的數(shù)據(jù)邏輯組織,以方便管理和使用數(shù)據(jù),相關(guān)的研究還較少。本文對上述關(guān)鍵問題和關(guān)鍵技術(shù)展開研究,并提供了相應的解決方案。最后,將本文提出的應用平臺與技術(shù),在醫(yī)療領(lǐng)域的數(shù)據(jù)自治開放示范工程中進行驗證,驗證了本文方法的有效性。

      參考文獻:

      [1]MANYIKA B J, CHUI M. Big data: the next frontier for innovation, competition,and productivity[R]. McKinsey Global Institute, 2015.

      [2]李姣, 郭海紅, 郭珉江, 等. 美英政府開放健康醫(yī)療數(shù)據(jù)的主題分布與開放程度量化研究[J].圖書情報工作, 2015, 59(20): 132-137.LI J, GUO H H, GUO M J, et al. A quantitative analysis on the topic distribution and openness degree of health and medical data in the open government practice of the US and UK[J]. Library and Information Service, 2015, 59(20): 132-137.

      [3]YANG K, JIA X H, REN K, et al. DACMACS: effective data access control for multi-authority cloud storage systems[J].IEEE Transactions on Information Forensics and Security, 2013, 8(11):1790-1801.

      [4]YANG K, JIA XH, REN K. Secure and verifiable policy update outsourcing for big data access control in the cloud[J]. IEEE Transactions on Parallel and Distributed Systems, 2015, 26(12): 3461-3470.

      [5]COLLIAT G. OLAP, relational, and multidimensional database systems[J]. ACM SIGMOD Record, 1996, 25(3): 64-69.

      [6]D E H A I N S A L A H, P I E R R A G,BELLATRECHE L. OntoDB: an ontologybased database for data intensive applications[C]// Advances in Databases:Concepts, Systems and Applications,International Conference on Database Systems for Advanced Applications,April 9-12, 2007, Bangkok, Thailand.Heidelberg: Springer, 2007: 497-508.

      [7]S A H A D, F L O R A T O U A,SANKARANARAYANAN K, et al.ATHENA: an ontology-driven system for natural language querying over relational data stores[J]. Proceedings of the VLDB Endowment, 2016, 9(12): 1209-1220.

      [8]LI F, JAGADISH H V. Constructing an interactive natural language interface for relational databases[J]. Proceedings of the VLDB Endowment, 2014, 8(1): 73-84.

      [9]HAO Q, LI Y, WANG L M. An ontologybased data organization method[C]//International Conference on Advanced Cloud & Big Data, August 13-16, 2017,Shanghai, China. Piscataway: IEEE Press, 2017: 135-140.

      猜你喜歡
      提供者使用者規(guī)則
      “法定許可”情況下使用者是否需要付費
      撐竿跳規(guī)則的制定
      數(shù)獨的規(guī)則和演變
      網(wǎng)絡交易平臺提供者的法律地位與民事責任分析
      法制博覽(2020年2期)2020-04-29 06:45:18
      基于隱私度和穩(wěn)定度的D2D數(shù)據(jù)共享伙伴選擇機制
      新型拼插休閑椅,讓人與人的距離更近
      好日子(2018年5期)2018-05-30 16:24:04
      讓規(guī)則不規(guī)則
      Coco薇(2017年11期)2018-01-03 20:59:57
      網(wǎng)絡言論自由的行政法規(guī)制研究
      法制與社會(2017年9期)2017-04-18 01:20:31
      TPP反腐敗規(guī)則對我國的啟示
      抓拍神器
      营口市| 镇巴县| 浮梁县| 石林| 关岭| 天长市| 巨野县| 石阡县| 昌江| 陵川县| 巴南区| 肥乡县| 神木县| 札达县| 通化县| 麻江县| 潍坊市| 巢湖市| 贵州省| 南木林县| 连城县| 余江县| 科技| 谢通门县| 洛扎县| 泸水县| 营口市| 武强县| 合作市| 苍山县| 岳池县| 宁夏| 霍州市| 泗洪县| 长治县| 九台市| 蓬莱市| 安福县| 白城市| 周宁县| 松滋市|