陳詩(shī)雅,楊紅清,劉光慶,劉志臻,蔡 晶,黃子杰
(1.福建中醫(yī)藥大學(xué) 中西醫(yī)結(jié)合研究院,福建 福州 350122;2.福州市馬尾區(qū) 羅星街道社區(qū)衛(wèi)生服務(wù)中心,福建 福州 350015;3.福建中醫(yī)藥大學(xué) 中西醫(yī)結(jié)合學(xué)院;福建 福州 350122)
近年來(lái),生命健康管理、病歷記錄和臨床試驗(yàn)等領(lǐng)域每天都會(huì)產(chǎn)生大量的醫(yī)學(xué)數(shù)據(jù),并呈爆炸式增長(zhǎng),這些醫(yī)學(xué)數(shù)據(jù)的種類多、數(shù)量大、更新快,具備大數(shù)據(jù)典型特征[1-3]。隨著大數(shù)據(jù)時(shí)代的到來(lái)和信息技術(shù)的應(yīng)用,人們?cè)絹?lái)越強(qiáng)調(diào)利用各類軟件將醫(yī)學(xué)大數(shù)據(jù)以直觀的方式將分析結(jié)果呈現(xiàn)給研究人員,讓復(fù)雜的統(tǒng)計(jì)分析結(jié)果更易于理解[4-5]。但目前絕大部分?jǐn)?shù)據(jù)分析手段都需要專業(yè)編程人員借助相關(guān)軟件來(lái)完成,使數(shù)據(jù)信息挖掘工作受到限制。筆者以2015年福州馬尾區(qū)老年人體檢數(shù)據(jù)為例,應(yīng)用Excel制作多元相關(guān)圖以實(shí)現(xiàn)多元指標(biāo)的可視化,滿足醫(yī)學(xué)相關(guān)工作的基本需要,從而更好地發(fā)揮數(shù)據(jù)可視化在醫(yī)學(xué)科研、臨床教學(xué)與實(shí)踐等方面的作用。
2015年馬尾社區(qū)老年人體檢者共1 775例,男性930例,女性845例;年齡65~91歲,其中65~70歲1 021例,71~75歲401例,76~80歲248例,81~85歲83例,86~90歲19例,91歲3例。按身體質(zhì)量指數(shù)(Body Mass Index, BMI,單位:kg/m2)分為 7組:<18.5有61例,18.5~23.9有780例,24~24.9有223例,25~27.9有490例, 28~29.9有125例,30~34.9有87例,35~39.9有9例。BMI及與相關(guān)體檢數(shù)據(jù)的Spearman相關(guān)分析按相關(guān)系數(shù)的數(shù)值大小依次排列,此表無(wú)法給人以直觀印象(表1);若對(duì)表1進(jìn)一步細(xì)化,即BMI分級(jí)對(duì)應(yīng)各指標(biāo)的均數(shù),還是使人無(wú)法直接從表中獲得更加直觀的印象,并作出預(yù)測(cè)性判斷(表2)。因此,對(duì)多元指標(biāo)進(jìn)行可視化則可以較好地解決這個(gè)問(wèn)題。
Excel作為一個(gè)快速分析數(shù)據(jù)的入門級(jí)工具,能創(chuàng)建相關(guān)數(shù)據(jù)圖,且絕大多數(shù)醫(yī)務(wù)工作者都會(huì)使用,是制作多元數(shù)據(jù)圖的理想工具。筆者以健康信息管理相關(guān)數(shù)據(jù)為例,介紹用Excel 2016制作多元數(shù)據(jù)圖的相關(guān)步驟。
筆者介紹的多元相關(guān)圖是氣泡圖與柱形圖的有機(jī)組合,擺脫了傳統(tǒng)統(tǒng)計(jì)圖的二元模式。從理論上說(shuō),變量數(shù)可以無(wú)限增加,多元因素的直觀展示具有良好效果。
利用篩選與計(jì)算功能得出所需4組觀察數(shù)據(jù)的統(tǒng)計(jì)值,并計(jì)算多元圖數(shù)據(jù)源。本數(shù)據(jù)參照世界衛(wèi)生組織對(duì)成人BMI的劃分與《中國(guó)成人超重和肥胖癥控制指南》中BMI的分類[6],將BMI分為8個(gè)等級(jí)(單位:kg/m2),即<18.5,18.5~23.9,24~24.9,25~27.9,28~29.9,30~34.9,35~39.9,大于40,分別對(duì)應(yīng)Ⅰ~Ⅷ級(jí)。由于體檢數(shù)據(jù)中無(wú)BMI>40的人群,故去掉第Ⅷ級(jí)(圖1)。
表1 2015年馬尾社區(qū)老年人體檢相關(guān)數(shù)據(jù)分析結(jié)果
n=1 775. BMI:身體質(zhì)量指數(shù)(kg/m2);TC:血清總膽固醇(mmol/L);GLU:血糖(mmol/L);SBP:收縮壓(mmHg);BUN:血尿素氮(mmol/L);DBP:舒張壓(mmHg);TP:總蛋白(mmol/L). *:P<0.01
表2 2015年馬尾社區(qū)老年人BMI及其分級(jí)與相關(guān)體檢數(shù)據(jù)均數(shù)匯總表
n=1 775. BMI:身體質(zhì)量指數(shù)(kg/m2);TC:血清總膽固醇(mmol/L);GLU:血糖(mmol/L);SBP:收縮壓(mmHg);BUN:血尿素氮(mmol/L);DBP:舒張壓(mmHg);TP:總蛋白(mmol/L).
BMI:身體質(zhì)量指數(shù)(kg/m2)
圖1多元相關(guān)圖數(shù)據(jù)源
X軸1~7數(shù)值對(duì)應(yīng)BMI分級(jí)的Ⅰ~Ⅶ級(jí);每個(gè)氣泡按照BMI的級(jí)別大小,其圓心依次排列在X軸,故Y軸數(shù)值設(shè)定為0;其面積大小為Z值,反應(yīng)BMI數(shù)值大??;氣泡的數(shù)據(jù)標(biāo)簽值為BMI指標(biāo)數(shù)值。繪制氣泡圖:選定C, D, E列(X,Y,Z軸)的數(shù)據(jù),點(diǎn)擊插入→圖表→氣泡圖;將坐標(biāo)軸的數(shù)值與氣泡進(jìn)行調(diào)整:選定X/Y軸,單擊右鍵,設(shè)置坐標(biāo)軸格式,設(shè)定合適的邊界;選定氣泡圖,調(diào)整氣泡圖大小顏色及輪廓等。
根據(jù)氣泡圖和統(tǒng)計(jì)數(shù)據(jù),上層柱形圖與氣泡圖共用X軸;根據(jù)氣泡圖大小預(yù)估上層柱形圖的X軸與氣泡圖Y=5相交,故設(shè)定Y軸數(shù)值為5;柱形圖高度和表中“數(shù)據(jù)標(biāo)簽與誤差線”相對(duì)應(yīng),反應(yīng)血尿素氮(Blood Urea Nitrogen, BUN)值;“上層柱形圖標(biāo)簽點(diǎn)”是標(biāo)注柱形圖數(shù)值的輔助用點(diǎn),其數(shù)值為“y”值與“數(shù)據(jù)標(biāo)簽與誤差線”值之和。柱形圖所需氣泡全是輔助用點(diǎn),故Z值設(shè)為0.1。模擬上層柱形圖與其X軸:添加C, G, H列的數(shù)據(jù);添加其誤差線;設(shè)置數(shù)據(jù)線格式,將X方向與Y方向都設(shè)置為無(wú)線端,X方向的誤差線指定為正負(fù)偏并,Y方向的誤差線指定為正偏并,添加指定的數(shù)據(jù)范圍為H列,即為模擬上層柱狀圖的高度;調(diào)整誤差線磅數(shù)與顏色。
給上層柱形圖模擬X軸添加數(shù)據(jù)標(biāo)簽,再設(shè)置數(shù)據(jù)標(biāo)簽格式,給出其指定范圍(BMI分級(jí)/B列),將標(biāo)簽設(shè)置為居中和靠下。用同樣的方式給氣泡圖添加數(shù)據(jù)標(biāo)簽,并將數(shù)據(jù)標(biāo)簽對(duì)齊。用輔助氣泡圖添加上部分柱形圖頂部數(shù)據(jù)標(biāo)簽。添加一組輔助氣泡圖,X/Y/Z值分別為C/J/K列數(shù)值;添加數(shù)據(jù)標(biāo)簽,選擇制定數(shù)據(jù)范圍。按上述方式制作下部分柱形圖數(shù)據(jù)源與圖形。刪除或隱藏圖標(biāo)上不需要的元素,調(diào)整圖形顏色,添加圖形標(biāo)題及相關(guān)說(shuō)明。
隨著BMI分級(jí)的增加,反應(yīng)BMI指數(shù)大小的氣泡圖面積總體呈現(xiàn)逐漸增加趨勢(shì);對(duì)應(yīng)的BUN柱形圖高度總體也呈現(xiàn)逐漸增加趨勢(shì);對(duì)應(yīng)的血糖(glucose, GLU)柱形圖高度同樣呈現(xiàn)逐漸增加趨勢(shì)。由此可見,隨著BMI分級(jí)的增加,BMI指數(shù)、BUN、GLU均與其呈現(xiàn)正相關(guān)的變化關(guān)系,可視化進(jìn)一步證實(shí)了BMI指數(shù)、BUN、GLU的相關(guān)性(圖2)。
圖2 2015年馬尾社區(qū)老年人BMI指數(shù)
分析表明,BMI分級(jí)與收縮壓(Systolic Blood Pressure,SBP)呈正相關(guān)。這一情形在圖3的上半部分得到很直觀的證實(shí)。同樣,在分析中發(fā)現(xiàn)BMI分級(jí)與血清總膽固醇(Serum total cholesterol,TC)也呈正相關(guān)且相關(guān)系數(shù)在其他相關(guān)指標(biāo)中最大(表1),可是TC雖然隨著BMI分級(jí)的增加呈現(xiàn)升高的趨勢(shì),但這一趨勢(shì)存在明顯的上下波動(dòng)(圖3)。因此,直觀的多元相關(guān)圖提示應(yīng)進(jìn)一步分析這2組指標(biāo),深入挖掘內(nèi)在原因。
圖3 2015年馬尾社區(qū)老年人BMI指數(shù)
多元相關(guān)圖的優(yōu)勢(shì)之一是可以擴(kuò)展顯示研究的變量數(shù)。圖4是將4組數(shù)據(jù)組合的關(guān)系圖,圖5為5組變量匯總的多元圖。更加靈活的應(yīng)用是為了閱讀便利,亦可將柱狀圖改為折線圖,這在不同變量單位情形下是一個(gè)很好的選擇(圖6)。
筆者認(rèn)為,面對(duì)醫(yī)學(xué)數(shù)據(jù)的爆炸式增長(zhǎng),健康管理信息的數(shù)據(jù)海量產(chǎn)生,傳統(tǒng)統(tǒng)計(jì)圖表已經(jīng)不能滿足研究者、使用者的各方面需求,數(shù)據(jù)結(jié)果的可視化展示是必然趨勢(shì)[5,7]。數(shù)據(jù)可視化有多種實(shí)現(xiàn)方法,如原位交互分析技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)、可視分析算法和用戶界面與交互設(shè)計(jì)等多種技術(shù)的運(yùn)用[8-9];或者使用專業(yè)的統(tǒng)計(jì)制圖軟件Eviews、 R、STATA、SAS,以及某些數(shù)據(jù)庫(kù)軟件MS FoxPro等[10],這些都需要專業(yè)編程人員借助相關(guān)軟件來(lái)完成,使數(shù)據(jù)信息挖掘工作受到了限制。筆者介紹的office 2007以上版本中Excel 2016制作多元相關(guān)圖,就是健康管理信息可視化的一種方式。這種方式具有低成本、高效益、不需要專業(yè)軟件人員編程的優(yōu)點(diǎn),同時(shí)方法操作簡(jiǎn)單,能夠滿足統(tǒng)計(jì)工作的基本需要。
圖4 2015年馬尾社區(qū)老年人BMI指數(shù)與SBP、GLU、BUN的相關(guān)關(guān)系
圖5 2015年馬尾社區(qū)老年人BMI指數(shù)與SBP、TC、GLU、BUN的相關(guān)關(guān)系
圖6 2015年馬尾社區(qū)老年人BMI指數(shù)與SBP、TC、GLU、BUN的相關(guān)關(guān)系
[1]高 玥.大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)可視化概念研究[J].電子技術(shù)與軟件工程,2014(19):216.
[2]章 翔,毛星剛,章 薇.大數(shù)據(jù)時(shí)代的精準(zhǔn)醫(yī)學(xué)[J].中華神經(jīng)外科疾病研究雜志,2016,15(2):97-100.
[3]謝邦昌,王 釩.醫(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀、特點(diǎn)與對(duì)策[J].中國(guó)統(tǒng)計(jì),2016(9):14-16.
[4]Huang T,Lan L,Fang X,et al.Promises and challenges of big data computing in health sciences[J].Big Data Research,2015,2(1):2-11.
[5]許 茜,黃子杰,蔡 晶,等.基于大數(shù)據(jù)研究的醫(yī)學(xué)數(shù)據(jù)可視化[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2017,34(2):347-349.
[6]中國(guó)肥胖問(wèn)題工作組.中國(guó)成人超重和肥胖癥預(yù)防與控制指南(節(jié)錄)[J].營(yíng)養(yǎng)學(xué)報(bào),2004,26(1):1-4.
[7]周 琳,孔 雷,趙方慶.生物大數(shù)據(jù)可視化的現(xiàn)狀及挑戰(zhàn)[J].科學(xué)通報(bào),2015,60(5):547-557.
[8]陳 明.大數(shù)據(jù)可視化分析[J].計(jì)算機(jī)教育,2015(5):94-97.
[9]陳良臣.大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用, 2015(11):93.
[10]孟雪井,李宏飛,楊亞飛.大數(shù)據(jù)背景下統(tǒng)計(jì)軟件在數(shù)據(jù)分析中的應(yīng)用[J].現(xiàn)代經(jīng)濟(jì)信息,2016(8):328.