胥 婷 吳丹麥 魏明月
(上海市衛(wèi)生健康信息中心上海 200040) (上海交通大學公共衛(wèi)生學院上海 200025) (上海市兒童醫(yī)院上海 200062)
石晶金 于廣軍
(中國福利會國際和平婦幼保健院/上海交通大學醫(yī)學院附屬國際和平婦幼保健院 上海 200030) (上海市兒童醫(yī)院 上海 200062)
根據(jù)開放知識基金會(Open Knowledge Foundation)的定義[1],開放數(shù)據(jù)是指能被任何人自由使用、重復利用和重新分配的數(shù)據(jù)資源。2009年12月時任美國總統(tǒng)奧巴馬簽署《開放政府指令》(M-10-06),命令美國各聯(lián)邦機構必須45天之內在Data.gov上至少開放3項高價值數(shù)據(jù)集,此后數(shù)據(jù)開放運動浪潮迅速席卷全球。2013年6月18日美國、英國等8國簽署《G8開放數(shù)據(jù)憲章》[2],明確了5項原則和3項共同行動,包括國家行動計劃、發(fā)布高價值數(shù)據(jù)和元數(shù)據(jù)映射,共同推動健康領域等14個重點領域數(shù)據(jù)開放。截至2020年12月10日開放知識基金會運營管理的數(shù)據(jù)目錄網(wǎng)站(Datacatalogs.org)已收錄全球590個數(shù)據(jù)開放站點[3],包括聯(lián)合國數(shù)據(jù)目錄(UN Data)、歐盟開放數(shù)據(jù)(EU Open Data)、北京市政務數(shù)據(jù)資源網(wǎng)。識別并優(yōu)先開放高價值數(shù)據(jù)已成為世界各國數(shù)據(jù)開放運動中普遍遵循的原則。美國《開放政府指令》以及《G8開放數(shù)據(jù)憲章》均強調優(yōu)先開放高價值數(shù)據(jù),世界銀行[4]提出數(shù)據(jù)開放應大體遵循 “80/20法則”,即大約20%的數(shù)據(jù)會貢獻80%的公共價值,需重點識別這些數(shù)據(jù)并優(yōu)先發(fā)布。部分國家和組織在實踐中建立了高價值數(shù)據(jù)的識別和評估準則。如美國聯(lián)邦首席信息官理事會創(chuàng)新委員會(Federal CIO Council)發(fā)布指南OpenDataPrioritizationToolkit[5],以問題清單方式給出評估數(shù)據(jù)開放的價值、成本和風險準則;2016年7月歐盟Share-PSI項目發(fā)布指南BestPractice:DatasetCriteria[6],以最佳實踐方式規(guī)范高價值數(shù)據(jù)集識別準則,保證其優(yōu)先于其他數(shù)據(jù)發(fā)布。
健康醫(yī)療領域數(shù)據(jù)高度集中,醫(yī)療健康大數(shù)據(jù)應用需求已不局限于患者診療環(huán)節(jié),該領域數(shù)據(jù)開放共享和應用將會產(chǎn)生巨大的經(jīng)濟和社會價值并將引發(fā)衛(wèi)生健康體系重大變革。但是因其具有多方持有性、隱私性和復雜性等特點,健康醫(yī)療數(shù)據(jù)的開放共享存在阻礙。本文針對健康醫(yī)療數(shù)據(jù)價值評估指標體系構建相關問題進行探討,以期在符合法律、道德和倫理的前提下,為促進高價值健康醫(yī)療數(shù)據(jù)優(yōu)先開放、釋放數(shù)據(jù)紅利提供參考。
隨著大數(shù)據(jù)應用成為熱點,數(shù)據(jù)價值評估相關研究逐漸深化。根據(jù)評估目的不同數(shù)據(jù)價值評估方法主要可分為兩種[7-8]:一是從宏觀即自上而下角度,對開放數(shù)據(jù)的共享價值實現(xiàn)情況進行分析;二是從數(shù)據(jù)使用者即自下而上角度,將數(shù)據(jù)作為一種資產(chǎn),用微觀經(jīng)濟學方法對數(shù)據(jù)被利用后的價值增值情況進行定量評價。目前部分研究提出數(shù)據(jù)價值的產(chǎn)生同時受到數(shù)據(jù)本身屬性和應用場景的影響這一觀點。本研究從受理數(shù)據(jù)申請角度出發(fā),以數(shù)據(jù)管理者立場評估平臺數(shù)據(jù)開放可能產(chǎn)生的潛在價值,首要任務是識別影響開放數(shù)據(jù)價值產(chǎn)生的因素。
楊永標、蔣菱和項添春等[9]將數(shù)據(jù)品種、時間跨度、數(shù)據(jù)深度等數(shù)據(jù)屬性與數(shù)據(jù)應用場景相結合,提出一種適合大數(shù)據(jù)價值評價的計算方法,結合層次分析法進行數(shù)據(jù)價值評價。郭明軍、于施洋和王建冬等[10]基于協(xié)同創(chuàng)新理論,對數(shù)據(jù)價值內涵進行闡述,從跨維運動角度提出數(shù)據(jù)價值包括內在、表征、應用價值3類。王衛(wèi)和王晶[11]基于信息系統(tǒng)(Information System,IS)成功模型和技術接受與使用統(tǒng)一理論(Unified Theory of Acceptance and Use of Technology,UTAUT)模型,提出開放政府數(shù)據(jù)價值實現(xiàn)影響因素模型,其中包括開放數(shù)據(jù)質量、開放平臺質量、平臺服務質量、用戶績效期望和社會影響5個1級指標。國內有研究[12]構建一個系統(tǒng)、科學、可操作的地方政府數(shù)據(jù)開放評估指標體系并為每項指標分配權重,包括數(shù)據(jù)準備度、平臺層、數(shù)據(jù)層、利用層4個維度及下屬多級指標。李然輝、阮亞芬和段立新等[13]提出數(shù)據(jù)資產(chǎn)收益取決于數(shù)據(jù)質量和應用價值,其中質量是應用價值的基礎。美國咨詢公司Gartner[14]提出一種將數(shù)據(jù)作為資產(chǎn)進行價值評估的方案,其中包括基本指標(反映數(shù)據(jù)屬性)和財務指標(從市場和成本角度考慮)。Gustafson T和Fink D[15]指出大數(shù)據(jù)價值鏈由數(shù)據(jù)獲取、存儲、分析、應用4部分構成。
本研究采用多種質性研究的方法,按照以下步驟開展:第一,通過文獻回顧法,初步檢索了解健康醫(yī)療數(shù)據(jù)價值影響因素,閱讀、梳理、提取文獻中關于健康醫(yī)療數(shù)據(jù)價值評估影響因素信息。第二,邀請領域內專家開展焦點小組訪談,初步構建指標框架、設計問卷。第三,通過郵件方式面向領域專家開展德爾菲法咨詢,對指標框架提出修改意見,通過層次分析法對指標進行量化權重賦值。第四,數(shù)據(jù)統(tǒng)計分析。通過有效問卷回收率衡量專家參與積極性。以權威系數(shù)指標(Cr)衡量專家權威程度,受到專家判斷依據(jù)(Ca)和對內容的熟悉程度(Cs)兩個因素影響,Cr>0.7時專家權威性可接受,計算公式為Cr=(Ca+Cs)/2,見表1、表2[16]。
表1 專家判斷依據(jù)及其影響程度
表2 專家對問題的熟悉程度系數(shù)
專家對指標評價結果使用均值、標準差、變異系數(shù)和滿分比進行統(tǒng)計描述。指標權重量化通過Yaanp V1.1軟件完成。
經(jīng)檢索得到131篇文獻與研究主題相關,閱讀和梳理后提取文獻中提到的影響數(shù)據(jù)價值的關鍵因素。邀請2名衛(wèi)生管理專家和3名計算機信息專家開展小范圍內的小組訪談,依據(jù)文獻結果制定評估框架初稿。以框架初稿為基礎設計函詢問卷,包括3部分:一是研究背景介紹、框架概況和填表說明;二是采集專家對框架各指標內容的認可程度,分為5個等級,即“非常不認同”“較不認同”“一般”“較認同”和“非常認同”,每個指標有相應修改意見填寫欄;三是專家基本情況調查表、專家對研究內容的熟悉程度和判斷依據(jù)調查表。
邀請15名專家開展德爾菲法咨詢,包括醫(yī)院領導者、信息科負責人及一線工作者、政府衛(wèi)生信息部門從業(yè)人員、信息公司技術人員和高校研究者,見表3。
表3 德爾菲法咨詢專家基本信息
通過積極系數(shù)衡量咨詢專家積極性。進行2輪函詢,均發(fā)放問卷15份。兩輪均回收有效問卷15份,專家積極系數(shù)為100%。通過權威系數(shù)衡量咨詢專家權威性,兩輪結果相同,見表4。按照計算公式專家判斷系數(shù)為0.9,熟悉系數(shù)為0.72,本次研究權威系數(shù)為0.81,說明專家權威性較好。
表4 專家判斷依據(jù)
4.4.1 第1輪評價結果 第1輪函詢結束統(tǒng)計得出專家對初擬框架的評價結果,見表5。
表5 第1輪專家咨詢意見一致性
續(xù)表5
其中A代表1級指標,B代表2級指標,C代表3級指標。根據(jù)專家評價結果,1級、2級指標的平均認可程度較高,一致性較好。對均值和滿分比較低、變異系數(shù)較大的3級指標進行以下修改:將C3“數(shù)據(jù)規(guī)范性”修改為“數(shù)據(jù)標準性”,含義為“數(shù)據(jù)模型、數(shù)據(jù)元、術語等是否符合國家或地方相關標準”;新增指標C4“數(shù)據(jù)的可訪問性”,含義為“數(shù)據(jù)訪問的延時性、吞吐能力”;刪除指標C12“項目負責人職稱水平”;將指標C15“決策者職稱水平”修改為“決策者職務水平”;將指標C18“數(shù)據(jù)使用者的教育水平”修改為“數(shù)據(jù)使用者的健康素養(yǎng)水平”,指個人獲取和理解健康信息并運用這些信息維護和促進自身健康的能力。
4.4.2 第2輪評價結果 將經(jīng)過修改的問卷再次發(fā)給專家進行第2輪函詢,回收后進行數(shù)據(jù)統(tǒng)計分析,結果顯示專家對指標認可程度和一致性均有所提升,所有3級指標均值大于4,變異系數(shù)小于0.2,專家僅對指標的解釋等細節(jié)提出意見,說明專家意見趨于統(tǒng)一。
經(jīng)過兩輪德爾菲法咨詢最終確定健康醫(yī)療數(shù)據(jù)價值評估框架終稿,包括兩個1級指標、7個2級指標和21個3級指標,見表6。
表6 健康醫(yī)療數(shù)據(jù)價值評估框架
4.6.1 指標權重量化模型 根據(jù)前兩輪咨詢確定的評價框架設計第3輪專家咨詢稿,用于每一層級指標間重要程度的兩兩比較并在Yaanp軟件中繪制模型,見圖1。模型繪制完成后構建判斷矩陣,錄入收集的專家意見。本輪咨詢共發(fā)出問卷15份,收回問卷13份,回收率為86.7%。
圖1 指標權重量化模型
4.6.2 一致性檢驗 在層次分析法中專家基于標度給出重要性的兩兩判斷,其為模糊的主觀判斷,存在一定誤差是正?,F(xiàn)象,因此數(shù)據(jù)回收錄入后需進行結果一致性檢驗。經(jīng)檢驗在13份數(shù)據(jù)中有5份結果的一致性比例大于0.1,判斷矩陣不一致。應用Yaanp軟件對這5條記錄進行分析可知,判斷矩陣不一致是由判斷矩陣中多項數(shù)據(jù)的小誤差累積造成,可通過最小改變原則修正,經(jīng)軟件算法自動修正后一致性比例均小于0.1,滿足判斷矩陣一致性要求。最終包含該5份自動修正一致性的問卷,共13份問卷納入權重分析。
4.6.3 權重分配結果 由于3級指標數(shù)量較多且前一輪咨詢時專家意見一致性較高,此輪權重分配未納入3級指標。本輪咨詢專家均為領域內具有豐富經(jīng)驗的資深研究者或實踐工作者,因此專家權重設置為平均分配。每位專家的重要度評價包括3個判斷矩陣,其中1個是1級指標下的判斷矩陣,兩個是2級指標下的判斷矩陣,運行軟件群決策功能計算得出指標權重分配,見表7。
表7 指標權重分配
德爾菲咨詢法是一種利用專家經(jīng)驗和學識進行評價、預測的研究方法,其通過多輪調查問卷了解專家觀點并輔以有效控制,最終得到專家共識。專家選擇和有效控制反饋是研究科學性的基礎,德爾菲法咨詢專家數(shù)量一般以10~50人為宜[17]。本研究應用德爾菲咨詢法制定健康醫(yī)療數(shù)據(jù)價值評估指標體系,邀請15名計算機信息和醫(yī)療衛(wèi)生相關領域專家,85%以上的專家為中高級職稱,接受碩士以上學歷教育且工齡超過10年,專家權威系數(shù)為0.81,說明專家具有較好的代表性,其理論和實踐經(jīng)驗豐富。前兩輪函詢專家問卷回收率均達到100%,對認可度較低的指標在意見填寫欄中仔細填寫具體修改意見,說明專家參與積極性較高。經(jīng)過兩輪函詢后對專家認可度較低且差異較大的指標進行修改,認可度評分均值和滿分比提高,變異系數(shù)減小,說明專家意見趨于一致,形成具有科學性的評估指標體系終稿。在第3輪權重量化分析中,對專家意見進行一致性分析,對不符合一致性要求的判斷矩陣進行自動修正,修正后一致性比例均小于0.1,說明專家意見較為一致,最后形成的量化權重得到專家認可。
5.2.1 指標體系構成 面向數(shù)據(jù)申請請求,優(yōu)先發(fā)布高質量、具有增值潛力的高價值數(shù)據(jù)是數(shù)據(jù)管理過程中應遵循的指導原則。為支持平臺數(shù)據(jù)管理者在實踐中遵循這一原則,本研究經(jīng)過兩輪函詢,制定健康醫(yī)療數(shù)據(jù)價值評估指標體系,包括兩個1級指標、7個2級指標和21個3級指標。兩個1級指標分別為“內在價值”和“應用價值”。1級指標“內在價值”的含義是數(shù)據(jù)本身性質會影響健康醫(yī)療數(shù)據(jù)價值,包括“數(shù)據(jù)可用”“數(shù)據(jù)易用”和“數(shù)據(jù)重要”3個2級指標。以2級指標B1“數(shù)據(jù)可用”為例,其含義為在數(shù)據(jù)完整、能夠反映真實情況、符合國家或地區(qū)相關標準時,健康醫(yī)療數(shù)據(jù)在開放共享和利用過程中容易產(chǎn)生更大價值。另一個1級指標“應用價值”是指數(shù)據(jù)開放能夠產(chǎn)生的價值與數(shù)據(jù)應用場景有關,本研究梳理總結健康醫(yī)療數(shù)據(jù)應用的4個場景,分別為“科研使用”“管理決策”“患者查詢”和“商業(yè)使用”,即為4個2級指標。以2級指標B4“科研使用”為例,其含義為當數(shù)據(jù)開放用于開展科研工作且已通過倫理審查時,科研項目的立項級別越高、資助金額越大,開放的健康醫(yī)療數(shù)據(jù)更有可能產(chǎn)生更大價值。
5.2.2 應用意義 經(jīng)過第3輪專家咨詢對指標權重進行量化分析后可以發(fā)現(xiàn):在兩個1級指標中,數(shù)據(jù)內在價值和應用價值權重相差不大,這說明健康醫(yī)療數(shù)據(jù)開放的價值產(chǎn)生基于數(shù)據(jù)本身質量、稀缺性等特性,同時以數(shù)據(jù)應用為前提才能共同釋放數(shù)據(jù)價值。在數(shù)據(jù)內在價值的3個2級指標,即“數(shù)據(jù)可用”“數(shù)據(jù)易用”和“數(shù)據(jù)重要”中,“數(shù)據(jù)可用”所占權重最大,提示管理者數(shù)據(jù)準備是數(shù)據(jù)開放的前提條件,合理、規(guī)范地準備數(shù)據(jù)是在平臺上發(fā)布數(shù)據(jù)及提高數(shù)據(jù)價值、可獲取性和可利用性的必要前提,其中需要考量數(shù)據(jù)完整性、準確性和標準性等條件。在數(shù)據(jù)應用價值的4個2級指標中,“科研使用”“患者查詢”和“管理決策”權重差別不大,“商業(yè)使用”權重相對較小,說明區(qū)域衛(wèi)生信息平臺數(shù)據(jù)具有公益資源屬性,應用中要以患者、衛(wèi)生管理和科學研究為優(yōu)先,商業(yè)使用需要慎重權衡價值與風險,可以從商業(yè)使用主體的信用水平、綜合實力和用途等方面綜合考量。
歷經(jīng)10余年的衛(wèi)生信息化建設,我國各級醫(yī)療衛(wèi)生機構和公共衛(wèi)生機構積累了海量健康醫(yī)療數(shù)據(jù),但是數(shù)據(jù)利用水平相對薄弱,重要原因之一就是缺乏數(shù)據(jù)開放共享的原則和操作指導。本研究基于高價值數(shù)據(jù)優(yōu)先開放原則,借鑒國內外相關研究文獻和專家意見,經(jīng)過3輪專家咨詢,制定健康醫(yī)療數(shù)據(jù)價值評估框架,從數(shù)據(jù)本身性質和數(shù)據(jù)應用兩個方面指導數(shù)據(jù)管理者從價值角度對健康醫(yī)療數(shù)據(jù)進行評估,為進一步構建科學、可操作的健康醫(yī)療數(shù)據(jù)開放實踐指南奠定基礎,為數(shù)據(jù)管理者遵循這一原則提供理論工具,具有一定科學性和創(chuàng)新性。