徐巧云,諸紀,陸雯珺
(上海計算機軟件技術(shù)開發(fā)中心,上海201112)
醫(yī)療大數(shù)據(jù)可視化系統(tǒng)架構(gòu)研究與實踐
徐巧云,諸紀,陸雯珺
(上海計算機軟件技術(shù)開發(fā)中心,上海201112)
基于現(xiàn)如今海量的多源異構(gòu)型醫(yī)療大數(shù)據(jù),提出一種基于醫(yī)療大數(shù)據(jù)可視化系統(tǒng)架構(gòu)的研究與實踐。數(shù)據(jù)由原來的二維向三維轉(zhuǎn)化,形成相互連接的立體數(shù)據(jù)體系,全方位的展現(xiàn)數(shù)據(jù)之間的相互關(guān)系,保證數(shù)據(jù)信息的具象可視化效果,同時為政府、醫(yī)院、居民決策提供支撐。
大數(shù)據(jù);可視化;醫(yī)療大數(shù)據(jù)
隨著“互聯(lián)網(wǎng)+”的迅速發(fā)展,醫(yī)療大數(shù)據(jù)受到國家、政府機構(gòu)等多方面的關(guān)注,2016年6月國家發(fā)布的指導(dǎo)意見中指出,要大力推進健康醫(yī)療信息系統(tǒng)和健康醫(yī)療數(shù)據(jù)互聯(lián)互通,相互融合,營造良好的創(chuàng)新應(yīng)用發(fā)展環(huán)境,必須要堅持實行以人為本、規(guī)范有序、創(chuàng)新驅(qū)動、開放融合、共建共享的原則。但與此同時,海量的異構(gòu)數(shù)據(jù)面臨著分析處理的挑戰(zhàn),為此,深入研究醫(yī)療大數(shù)據(jù)重中之重[1]。
國家“十三五”規(guī)劃指出,推動大數(shù)據(jù)產(chǎn)業(yè)的健康快速發(fā)展,必須深度挖掘大數(shù)據(jù)在各行業(yè)領(lǐng)域的創(chuàng)新應(yīng)用,探索大數(shù)據(jù)與傳統(tǒng)行業(yè)相結(jié)合的新模式,完善大數(shù)據(jù)產(chǎn)業(yè)鏈。攻克數(shù)據(jù)采集、存儲、分析、發(fā)掘、可視化等前沿關(guān)鍵技術(shù)。支撐大數(shù)據(jù)軟硬件產(chǎn)品的研發(fā)。在大數(shù)據(jù)產(chǎn)業(yè)公共服務(wù)中,完善支撐體系和生態(tài)體系,加強標準體系建設(shè)、夯實質(zhì)量技術(shù)基礎(chǔ)。
如今越來越多的BI繪制工具已成功上市,這些工具越來越自動化、智能化。但是隨著各類可視化新需求的產(chǎn)生,傳統(tǒng)可視化形式的限制,隱藏在大數(shù)據(jù)背后的價值越發(fā)難以被挖掘出來,難以被人類所發(fā)覺。由于展現(xiàn)形式的局限,降低了數(shù)據(jù)的可讀性和實效性,從而影響了用戶的理解和決策。透過平面屏幕來接收信息始終掣肘人們的感官,VR、AR、全息投影,這些最火熱的技術(shù)早已經(jīng)被應(yīng)用到旅游、游戲、房產(chǎn)等各個行業(yè)領(lǐng)域,未來大數(shù)據(jù)可視化必將與這些技術(shù)擦出火花,帶來更真實的感官體驗和更接近現(xiàn)實的交互體驗,使用戶可以完全“沉浸”到數(shù)據(jù)之中。相對于枯燥乏味的柱狀圖、折線圖等傳統(tǒng)表現(xiàn)形式,全方位的觀看、控制、觸摸,讓數(shù)據(jù)變得更具沖擊力。
隨著大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)的快速發(fā)展,大數(shù)據(jù)已不僅僅是數(shù)據(jù)科學(xué)家與領(lǐng)域?qū)<已芯康募夹g(shù),而越來越多的企業(yè)用戶,甚至是普通用戶也開始應(yīng)用、關(guān)注大數(shù)據(jù)分析的結(jié)果。例如,如今越來越多的人關(guān)注應(yīng)該去哪個醫(yī)院就診,哪個醫(yī)院的RW標準最符合,甚至是哪個醫(yī)生的坐診率最高,都可以通過醫(yī)療大數(shù)據(jù)可視化直觀地展示出來。大數(shù)據(jù)可視化讓更多的人能夠理解、使用大數(shù)據(jù)。
新型的大數(shù)據(jù)可視化產(chǎn)品層見疊出,各類語言也都有自己的可視化庫,傳統(tǒng)的BI軟件和數(shù)據(jù)分析也在不斷擴展可視化功能,再加上專門用于可視化的成品軟件和大數(shù)據(jù)可視化工具逐漸被廣泛應(yīng)用,因此,用戶更需要慎重考慮工具的選型標準。基于醫(yī)療大數(shù)據(jù)真實性高、速度快的特點,在工具選型方面需滿足快速收集、篩選、分析、歸納以及展現(xiàn)政府、醫(yī)療機構(gòu)所需的信息,實現(xiàn)實時數(shù)據(jù)圖形可視化、場景化以及實時交互??梢暬膶崿F(xiàn)方式主要有編程和非編程兩類[2]。
當(dāng)前市面上可視化編程工具主要包括以下三種類型:從藝術(shù)創(chuàng)作的角度,Processing不僅能夠為藝術(shù)家提供編程語言,同時能夠保持著藝術(shù)家對創(chuàng)作的追求;從統(tǒng)計學(xué)和數(shù)據(jù)處理的角度,即既能支撐數(shù)據(jù)的分析處理,又能提供制圖功能,如R,SAS等;綜合前兩類的特點與功能,市面上出現(xiàn)D3.js、Echarts等工具,既能兼顧數(shù)據(jù)處理,又能展現(xiàn)出多樣的可視化效果,能夠更友好地在互聯(lián)網(wǎng)上進行互動和展示數(shù)據(jù)。
Echarts作為一種前端數(shù)據(jù)可視化控件,通過調(diào)用輕量級Canvas類庫Zrender,能夠快速清晰地構(gòu)成可視化圖表,在與用戶友好交互的同時,滿足用戶個性化定制需求。具體實現(xiàn)方式是通過script標簽引入,執(zhí)行echarts.init進行初始化,最終實例化出圖表對象[3]。目前Echarts已廣泛應(yīng)用于各類商業(yè)活動中。
對復(fù)雜海量數(shù)據(jù)進行可視分析是數(shù)據(jù)分析的重要研究內(nèi)容。在一個傳統(tǒng)典型的大數(shù)據(jù)可視分析過程中,自動分析的初步結(jié)果將通過可視化形式展現(xiàn)給用戶,新的自動分析結(jié)果將通過人機交互技術(shù)和改進自動分析模型展示給用戶??梢暬c可視分析旨在清晰有效地傳達與溝通數(shù)據(jù),幫助政府、醫(yī)療機構(gòu)等用戶利用視覺發(fā)現(xiàn)數(shù)據(jù)的真知灼見,使用大數(shù)據(jù)可視化技術(shù)從解決問題的角度進行服務(wù)創(chuàng)新。
(1)研發(fā)可視化系統(tǒng)功能及技術(shù)架構(gòu)
研發(fā)自助式分析的大數(shù)據(jù)可視化工具,通過創(chuàng)建并且分享儀表盤的方式為數(shù)據(jù)分析人員提供一個快速的數(shù)據(jù)可視化功能,簡化數(shù)據(jù)探索分析操作。同時提升系統(tǒng)數(shù)據(jù)格式的拓展性、數(shù)據(jù)模型的高粒度保證、快速的復(fù)雜規(guī)則查詢、兼容主流鑒權(quán)模式(數(shù)據(jù)庫、OpenID、LDAP、OAuth或者基于 Flask AppBuilder的 REMOTE_USER等模式)。通過一個定義字段、下拉聚合規(guī)則的簡單的語法層操作即可實現(xiàn)讓數(shù)據(jù)分析人員將數(shù)據(jù)源在平臺上豐富地呈現(xiàn)。
(2)構(gòu)建模塊化組件設(shè)計庫
基于EChart工具技術(shù)研究,在canvas類庫[6]zrender的基礎(chǔ)上搭建主題圖庫,由數(shù)據(jù)驅(qū)動,實現(xiàn)支持數(shù)據(jù)視圖、拖拽重計算、動態(tài)類型切換、多圖聯(lián)動、數(shù)據(jù)區(qū)域漫游、多維度堆積、個性化定制[7],通過調(diào)用EChart提供的多種圖表、模型、地圖等來豐富大數(shù)據(jù)的展現(xiàn)方式。同時提供自定義系列的圖表,數(shù)據(jù)分析人員通過查看自定義的圖表數(shù)據(jù)可以更加清晰直觀的獲取的特定的信息。研究基于數(shù)據(jù)文檔JavaScript庫的可視化數(shù)據(jù)處理技術(shù),實現(xiàn)數(shù)據(jù)庫中的數(shù)據(jù)信息與HTML、SVG、CSS結(jié)合[8],在立體展示空間內(nèi),數(shù)據(jù)由原來的二維向三維轉(zhuǎn)化,形成相互連接的立體數(shù)據(jù)體系,全面的體現(xiàn)出數(shù)據(jù)信息之間的相互關(guān)系,數(shù)據(jù)信息的具象可視化效果得到了有效的保障。
(3)支持多數(shù)據(jù)源接入的開放接口技術(shù)研發(fā)
深度整合Druid以保證在操作超大、實時數(shù)據(jù)的分片和切分都能快速、高效的完成。通過Druid數(shù)據(jù)技術(shù),基于分布式的快速列式存儲,實現(xiàn)海量數(shù)據(jù)存儲查詢,保證實時數(shù)據(jù)低延遲的插入、靈活的數(shù)據(jù)探索和快速數(shù)據(jù)聚合。支持多種類數(shù)據(jù)源,包括Excel、Txt、Csv等多種文本格式,MySQL、SQL Server、DB2、ORACLE、Postgre SQL、Access等數(shù)據(jù)庫,Hive、Spark、ODPS、ADS、Trafodion等大數(shù)據(jù)集群;Baidu、聚合數(shù)據(jù)、人人、微博、京東云、通聯(lián)數(shù)據(jù)、simplybrand、teambiton、worktile等API類型的數(shù)據(jù)接入。
通過數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)分析等過程,對海量的醫(yī)療數(shù)據(jù)進行歸納分析,形成下列相關(guān)數(shù)據(jù)表,從而提升醫(yī)療大數(shù)據(jù)可視化形成的效率、質(zhì)量。數(shù)據(jù)庫設(shè)計是整個大數(shù)據(jù)可視化系統(tǒng)設(shè)計的基礎(chǔ),整個數(shù)據(jù)庫應(yīng)用系統(tǒng)的軟件架構(gòu)以及數(shù)據(jù)處理的效率[4]將直接受到數(shù)據(jù)庫設(shè)計合理性的影響[5]。根據(jù)業(yè)務(wù)需求,整個大數(shù)據(jù)可視化系統(tǒng)包含了若干張數(shù)據(jù)表,儲存了各個分析數(shù)據(jù)。E-R關(guān)系圖如圖2所示:
智能導(dǎo)診、疾病預(yù)防等場景向人類展示了醫(yī)療大數(shù)據(jù)非常廣闊的應(yīng)用前景。本系統(tǒng)針對區(qū)域醫(yī)療改革推行,收集了近200萬家庭醫(yī)生簽約信息,以及總計超過100所市、區(qū)級醫(yī)院和社區(qū)服務(wù)中心簽約情況。對區(qū)域醫(yī)療大數(shù)據(jù)清洗、切片和儲存之后接入本系統(tǒng)。
為了直觀感受政策推行態(tài)勢,系統(tǒng)針對區(qū)域醫(yī)療改革全區(qū)、社區(qū)以及團隊家庭醫(yī)生簽約情況進行分析。通過地圖縮放梯度,設(shè)計直方圖以及趨勢圖分級探索月簽約人數(shù)、簽約率變化趨勢的影響因子。按照總簽約人數(shù)對社區(qū)、團隊、個人進行排序,研究分析區(qū)域各區(qū)塊政策推行力度以及民眾關(guān)注度。同時對戶籍人口、常住人口、60歲以上人口、婦女兒童以及慢性病患者五類人群分別以圓環(huán)占比圖的形式進行單獨分析,了解最直接受益者簽約情況、佐證政策的正確性。
對“1+1+1”組合簽約居民的就診行為在政策推行后的變化趨勢,系統(tǒng)通過內(nèi)嵌雙層南丁格爾玫瑰圖,直觀的展示組合內(nèi)、組合外以及社區(qū)首診、雙向轉(zhuǎn)診人數(shù)對比。同時統(tǒng)計分析政策推行以來各數(shù)值的變化,以折線圖的形式對各個數(shù)據(jù)拐點、突變點分析。最后篩查異??床〈螖?shù)以及行為的市民,即時遏制非法看病行為。
圖3 家庭醫(yī)生簽約情況展示圖
圖4 居民就診行為分析展示圖
醫(yī)療大數(shù)據(jù)可視系統(tǒng),一方面通過數(shù)據(jù)的可視化探索可以幫助理解數(shù)據(jù)、評估數(shù)據(jù)的可用性。另一方面,幫助政府在政策影響力、醫(yī)院在制度管理、居民在對就診行為等方面做出最適合的預(yù)測與判斷。為政府提供決策數(shù)據(jù)支撐;為醫(yī)院提供面向業(yè)務(wù)全流程的可視化服務(wù),直觀展現(xiàn)從技術(shù)、產(chǎn)品研發(fā)到市場的企業(yè)生態(tài)鏈,發(fā)現(xiàn)問題;為居民提供選擇醫(yī)院困難、就診費用高昂等問題,通過醫(yī)療大數(shù)據(jù)可視化可直觀選擇適合自己病情的醫(yī)院。
[1]王藝,任淑霞.醫(yī)療大數(shù)據(jù)可視化研究綜述[J].計算機科學(xué)與探索,2017,11(5):681-685
[2]雷蕾.常用數(shù)據(jù)可視化技術(shù)分析[J].現(xiàn)代電視技術(shù),2014,9:137-139
[3]王子毅,張春海.基于Echarts的數(shù)據(jù)可視化分析組件設(shè)計實現(xiàn)[J].微型機與應(yīng)用,2016,35(14):46-51
[4]孫寧,趙維平,王宇飛,王凌[J].現(xiàn)代計算機,2017,1:64-69
[5]代元平,鄭君芳.醫(yī)學(xué)實驗文檔管理系統(tǒng)的數(shù)據(jù)庫設(shè)計與實現(xiàn)[J].中國醫(yī)療設(shè)備,2016,31(4):93-96.
[6]劉嫦娥.數(shù)據(jù)可視化技術(shù)在Web中的研究及應(yīng)用[J].電腦知識與技術(shù),2017,13:7-8.
[7]陳旭,楊鶴標.醫(yī)療保險數(shù)據(jù)可視化系統(tǒng)設(shè)計與實現(xiàn)[J].軟件導(dǎo)刊,2017,6(16):59-62.
[8]強津培,戴松.面向教學(xué)的數(shù)據(jù)可視化圖表交互系統(tǒng)研究[J].系統(tǒng)仿真學(xué)報,2016,9(28):2101-2108.
徐巧云(1990-),女,上海人,本科,助理工程師,研究方向為大數(shù)據(jù)可視化、大數(shù)據(jù)成果轉(zhuǎn)化
諸紀(1995-),男,浙江溫州人,本科,初級,研究方向為大數(shù)據(jù)可視化
陸雯珺(1993-),女,上海市人,本科管理學(xué)、經(jīng)濟學(xué)學(xué)士學(xué)位,助理工程師,研究方向為數(shù)據(jù)治理理論、金融領(lǐng)域數(shù)據(jù)管理應(yīng)用
Research and Practice of Visualization System for Large Medical Data
XU Qiao-yun,ZHU Ji,LU Wen-jun
(ShanghaiComputer Software Technology DevelopmentCenter,Shanghai 201112)
Based on the big data ofmulti-source heterogeneous medicaldata,proposes a research and practice based on the architecture ofmedical data visualization system.Makes the originaldata from two dimensionalto three-dimensional,and to form a rigorous and interconnected data system,itcan presentthe comprehensive expression ofthe data information mutualrelations,and ensure representationalvisualeffectof the data,itsupports government,hospitaland residentto make decisions efficiently.
Big Data;Visualization;Medical Big Data
1007-1423(2017)30-0027-04
10.3969/j.issn.1007-1423.2017.30.006
2017-08-24
2017-10-15