杜鴻飛,李明奇
(電子科技大學(xué) 數(shù)學(xué)科學(xué)學(xué)院 四川 成都 611731)
建模中的探索性數(shù)據(jù)分析
杜鴻飛,李明奇
(電子科技大學(xué) 數(shù)學(xué)科學(xué)學(xué)院 四川 成都 611731)
該文以眼科病床的合理安排問題為分析背景,展示了用SPSS軟件進(jìn)行探索性數(shù)據(jù)分析的全過程,為建模過程中的許多假設(shè)和結(jié)論找到依據(jù)。對(duì)術(shù)前觀察時(shí)間進(jìn)行頻率統(tǒng)計(jì)發(fā)現(xiàn),白內(nèi)障病人等待手術(shù)時(shí)間太久。構(gòu)建交叉表發(fā)現(xiàn)入院FCFS規(guī)則與院方規(guī)定“周一周三做白內(nèi)障手術(shù)”的時(shí)間一直存在沖突,這是造成病床利用率低下的關(guān)鍵。
眼科病床;統(tǒng)計(jì)分析軟件;數(shù)據(jù)分析;交叉表;先來先服務(wù)規(guī)則
數(shù)學(xué)建模問題中通常涉及數(shù)據(jù)分析,這些分析有助于模型選擇、參數(shù)求解和結(jié)果的檢驗(yàn)。 SPSS、Excel和Matlab等是常用分析軟件。在前期進(jìn)行探索性分析時(shí),Matlab需要編程,Excel操作復(fù)雜,對(duì)于不是很精通這兩種軟件的人員來說是一件麻煩的事情。 SPSS由于其界面操作簡(jiǎn)單易于實(shí)現(xiàn),為前期數(shù)據(jù)分析并發(fā)現(xiàn)線索的首選。
迄今有不少文章以2009年全國大學(xué)生數(shù)學(xué)建模競(jìng)賽B題“眼科病床的合理安排” 數(shù)據(jù)為分析背景,從純數(shù)學(xué)、隨機(jī)模擬、衛(wèi)生管理、運(yùn)籌優(yōu)化等方面進(jìn)行分析[1-10]。 已發(fā)表的許多文獻(xiàn)對(duì)數(shù)據(jù)的規(guī)律通常以猜想假設(shè)的形式出現(xiàn),缺乏前期數(shù)據(jù)分析支撐。 本文討論如何利用SPSS18.0進(jìn)行探索性數(shù)據(jù)分析,逐步發(fā)現(xiàn)線索并找出數(shù)據(jù)中隱藏的規(guī)律,作為后期優(yōu)化和模擬檢驗(yàn)的基礎(chǔ)。
為了便于分析,先將所給3組數(shù)據(jù)全部復(fù)制粘貼到Excel中構(gòu)成綜合文檔,并添加一項(xiàng)變量“分組”用于區(qū)分組別。SPSS獲取外部數(shù)據(jù)可以通過復(fù)制粘貼、Excel文檔導(dǎo)入、文本文檔導(dǎo)入。 復(fù)制粘貼時(shí)日期數(shù)據(jù)自動(dòng)成為字符型,即便事先在SPSS中設(shè)置好日期型變量,粘貼過去數(shù)據(jù)仍為空。 因此采用導(dǎo)入方式,導(dǎo)入時(shí)需注意以下事項(xiàng)。
1)Excel文檔導(dǎo)入
可能存在兩類問題:
① Office版本不合適的時(shí)候會(huì)要求輸入密碼;
② 導(dǎo)入時(shí)由于“第二次手術(shù)時(shí)間”前幾項(xiàng)是缺失數(shù)據(jù)(表示為斜杠)而導(dǎo)致SPSS將該變量自動(dòng)識(shí)別為字符型。通過在Excel中將“第二次手術(shù)時(shí)間”添加幾項(xiàng)時(shí)間數(shù)據(jù),導(dǎo)入SPSS后再將其刪除來解決。
2)文本文檔導(dǎo)入
① 將事先整理好的Excel文檔轉(zhuǎn)換為文本文檔,Excel中“另存為”—“文本文件(制表符分隔)”;
② SPSS進(jìn)行“文本導(dǎo)入向?qū)А惫?個(gè)步驟,其中有兩處需作調(diào)整。將步驟2“變量名稱是否包含在文件的頂部”選項(xiàng)改為“是”;將步驟5“變量規(guī)范”中的門診時(shí)間、入院時(shí)間、第一次手術(shù)時(shí)間、第二次手術(shù)時(shí)間、出院時(shí)間的數(shù)據(jù)格式都設(shè)為日期型“yyyy/mm/dd”,就可正確導(dǎo)入所有數(shù)據(jù)。
對(duì)原始數(shù)據(jù)進(jìn)行初步統(tǒng)計(jì)分析,可以得到第一直觀印象,并為后續(xù)隨機(jī)模擬[1-3]和優(yōu)化[1-5]打下基礎(chǔ)。
2.1 病人類型的比例統(tǒng)計(jì)
通過菜單“分析—描述統(tǒng)計(jì)—頻率”對(duì)變量“類型”進(jìn)行頻率統(tǒng)計(jì),如表1所示。對(duì)于這類定性變量的統(tǒng)計(jì)還可以在“頻率”的“圖表”選項(xiàng)中選擇“餅圖”來直觀展示比例,如圖1所示。
表1 各類型病人比例統(tǒng)計(jì)
圖1 各類病人比例統(tǒng)計(jì)及餅圖
2.2 每天門診到達(dá)人數(shù)的統(tǒng)計(jì)
為了對(duì)原有方案和優(yōu)化方案進(jìn)行比較,除了用排隊(duì)論的方法還可以用隨機(jī)模擬方法,模擬需要知道病人到來的分布和參數(shù)。 下面對(duì)所有病人的分布進(jìn)行分析,若需分別分析各類病人,可采用“門診時(shí)間*類型”作交叉表后類似處理:
1)對(duì)“門診時(shí)間”進(jìn)行頻率統(tǒng)計(jì),可得到每天門診的人數(shù);
2)雙擊SPSS中的輸出表格進(jìn)行編輯,將每天門診人數(shù)選中復(fù)制粘貼到一個(gè)新的SPSS數(shù)據(jù)表中,并命名變量為“門診人數(shù)”;
3)對(duì)門診人數(shù)進(jìn)行頻數(shù)統(tǒng)計(jì),并在圖表選項(xiàng)中選擇“直方圖”,結(jié)果如圖2所示;
4)對(duì)門診人數(shù)進(jìn)行分布檢驗(yàn),“分析—非參數(shù)檢驗(yàn)—舊對(duì)話框—1樣本K-S檢驗(yàn)”,如表2所示。通過K-S檢驗(yàn)發(fā)現(xiàn)正態(tài)、均勻、泊松和指數(shù)分布雙側(cè)檢驗(yàn)顯著性取值分別為0.238、0.009、1和0。 因此,可以認(rèn)為門診人數(shù)服從泊松分布。
2.3 出院時(shí)間等的統(tǒng)計(jì)
對(duì)入院時(shí)間、第一次手術(shù)時(shí)間、第二次手術(shù)時(shí)間和出院時(shí)間可以類似統(tǒng)計(jì)分析,但得到的結(jié)果缺乏有價(jià)值的信息,為此進(jìn)一步考慮時(shí)間間隔。
2.4 構(gòu)造新變量并統(tǒng)計(jì)
1)構(gòu)造并統(tǒng)計(jì):等待入院時(shí)間、術(shù)前觀察時(shí)間和術(shù)后恢復(fù)時(shí)間。
2)通過“轉(zhuǎn)換—計(jì)算變量”構(gòu)造新變量:從選項(xiàng)“函數(shù)組”中“日期運(yùn)算”找到Datediff函數(shù)可計(jì)算兩個(gè)日期之間的時(shí)間差額,使用該函數(shù)時(shí)需注意第3個(gè)參數(shù)需用英文“day”(引號(hào)不能少),不能用中文“日”。 兩次手術(shù)之間的時(shí)間只有白內(nèi)障雙眼涉及,沒有必要計(jì)算。對(duì)等待入院時(shí)間、術(shù)前觀察時(shí)間、術(shù)后恢復(fù)時(shí)間3個(gè)新變量,做頻數(shù)統(tǒng)計(jì)分析。
圖2 門診人數(shù)直方圖
參數(shù)門診人數(shù)N61Poisson參數(shù)a,b 均值8.6885最極端差別 絕對(duì)值.044 正.044 負(fù)-.029Kolmogorov-SmirnovZ.342漸近顯著性(雙側(cè))1.000
a.檢驗(yàn)分布為Poisson分布;
b.根據(jù)數(shù)據(jù)計(jì)算得到。
3.1 疑點(diǎn)的發(fā)現(xiàn)
對(duì)新變量進(jìn)行分析,“術(shù)后觀察時(shí)間”與病人體質(zhì)和病情有關(guān),無法通過管理改變;“等待入院時(shí)間”與病床空出有關(guān),可以管理但規(guī)律不易尋找。而由表3可見,“術(shù)前觀察時(shí)間”中發(fā)現(xiàn)存在問題:根據(jù)題目敘述,外傷需1天,白內(nèi)障需1~2天,視網(wǎng)膜疾病和青光眼需2~3天,而“術(shù)前觀察時(shí)間”統(tǒng)計(jì)表中最大值為7天。
3.2 疑點(diǎn)探索
一般分析者到此為止,直接將觀察時(shí)間取均值進(jìn)行下一步優(yōu)化處理[1,5],并沒有進(jìn)一步探索。為了分析原因,通過“分析—描述統(tǒng)計(jì)—交叉表”分析“術(shù)前觀察時(shí)間*類型”,結(jié)果如表4所示,其中“外傷”病人只需1天;“視網(wǎng)膜疾病”和“青光眼”需2~3天。然而,“白內(nèi)障”需1~5天,“白內(nèi)障雙眼”需1~7天。
表3 術(shù)前觀察時(shí)間統(tǒng)計(jì)
表4 術(shù)前觀察時(shí)間分類統(tǒng)計(jì)
3.3 疑點(diǎn)分析
通過分析發(fā)現(xiàn)僅“白內(nèi)障”(單眼、雙眼)與題目所述不同,并且與白內(nèi)障相關(guān)之處僅在“周一、周三”手術(shù)。 從而提出猜測(cè),術(shù)前觀察時(shí)間與入院星期有關(guān)。 這種猜測(cè)在一些文獻(xiàn)中以邏輯分析得到[3-4]。
再次根據(jù)“入院時(shí)間”構(gòu)造新變量“入院星期”,“轉(zhuǎn)換—計(jì)算變量”中“函數(shù)組—抽取日期”函數(shù)Xdate.Wkday可以根據(jù)日期數(shù)據(jù)中返回星期,即代表星期天的1和星期六的7之間的整數(shù)。 為了直觀展示,通過“變量視圖—值—值標(biāo)簽”對(duì)“入院星期”設(shè)置變量值標(biāo)簽,使得星期顯示為“星期一”到“星期天”。
3.4 隱藏規(guī)律的發(fā)現(xiàn)
分析交叉表“入院星期*術(shù)前觀察時(shí)間”(“類型”設(shè)為分組變量),除了外傷病人僅需觀察1天外,由表5分析發(fā)現(xiàn),不同類型眼科病人的術(shù)前觀察時(shí)間與入院星期有關(guān)。
規(guī)律1:所有病人的術(shù)前觀察時(shí)間與入院星期有關(guān)。白內(nèi)障雙眼受影響最大,如果星期一入院,則需等待7天到下一星期才能手術(shù),等待手術(shù)時(shí)間最久。
規(guī)律2:術(shù)前觀察時(shí)間可取最小值。 入院星期確定后,術(shù)前觀察時(shí)間將完全確定,不存在變異,說明術(shù)前觀察時(shí)間可以選擇最小值。 若不考慮入院星期,術(shù)前觀察時(shí)間的最小值分別為:白內(nèi)障1天;視網(wǎng)膜疾病2天;青光眼2天。 該結(jié)論在文獻(xiàn)中也出現(xiàn)過[3],但沒有數(shù)據(jù)分析支撐。
表5 受入院星期影響的不同眼科病人術(shù)前觀察時(shí)間
表5(續(xù))
本文以眼科病床管理問題為例,展示了將數(shù)據(jù)導(dǎo)入SPSS并由淺入深逐步發(fā)現(xiàn)規(guī)律的完整流程。 通過數(shù)據(jù)分析,驗(yàn)證了門診病人的人數(shù)服從泊松分布,可作為后續(xù)隨機(jī)模擬的基礎(chǔ);發(fā)現(xiàn)了術(shù)前觀察時(shí)間受入院星期影響,給出了最小術(shù)前觀察時(shí)間,這為后續(xù)的建模優(yōu)化提供了準(zhǔn)確的數(shù)據(jù)支撐。
[1]費(fèi)紹金.眼科病床合理安排的優(yōu)化模型[J].吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2011(4): 85-88, 91.
[2]蔣青松, 華淑名, 韓啟雷,等.眼科病床配置的優(yōu)化模型及其計(jì)算機(jī)模擬[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí), 2013,43(2): 7-13.
[3]寧效琦, 游淑軍.眼科病床的合理安排[J].湘南學(xué)院學(xué)報(bào), 2012(2):19-22,107.
[4]彭君君, 梁威利, 勇灃,等.眼科病床的合理安排[J].中國衛(wèi)生標(biāo)準(zhǔn)管理, 2015,6(2):5-6.
[5]陳利菊, 宋曉峰, 張西峰,等.眼科病床安排的優(yōu)化模型[J].純粹數(shù)學(xué)與應(yīng)用數(shù)學(xué),2011,27(3): 419-422.
[6] 李翀, 張昊, 劉亞軍.眼科病床的合理安排[J].中國科技信息, 2010, 27(14): 177-179.
[7] 潘淑平, 黃炎, 許冰冰,等.眼科病床的合理安排[J].吉林化工學(xué)院學(xué)報(bào), 2010, 27(2): 77-80.
[8] 曾繁慧, 周文龍, 林婉虹,等.眼科病床安排的評(píng)價(jià)與優(yōu)化模型[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào), 2010, 29(s1):164-166.
[9] 汪琴, 岑璐局, 張淵嫻,等.基于排隊(duì)論的眼科病床合理安排的數(shù)學(xué)模型[J].浙江外國語學(xué)院學(xué)報(bào), 2010(1): 79-88.
[10]李莉, 林銓.基于優(yōu)先級(jí)排隊(duì)模型的醫(yī)院病床安排[J].惠州學(xué)院學(xué)報(bào), 2012, 32(6): 45-48.
Exploratory Data Analysis in Modeling
DU Hongfei, LI Mingqi
(School of Mathematical Sciences,University of Electronic Sciences and Technology of China,Chengdu 611731, China)
In this paper, based on the reasonable arrangement of Ophthalmology sickbeds, the whole process of the exploratory data analysis using statistic package for social science (SPSS)is presented, which can be used as a basis for many assumptions and conclusions in the modeling process.Frequency statistic of preoperative observation time showed that the waiting time of cataract patients is too long.The constructed cross-table analysis shows that there is a conflict between the hospital admission first come,first served (FCFS)rule and the provisions of " Monday and Wednesday to do cataract surgery " , which is the main factor leading to low utilization sickbeds.
ophthalmology sickbeds; SPSS; exploratory data analysis; cross-table; FCFS rule
2016-12-12;修改日期:2016-12-19
電子科技大學(xué)2016-2018年高等教育人才培養(yǎng)質(zhì)量和教學(xué)改革項(xiàng)目(2016XJYYB035)。
杜鴻飛(1973 - ),男,碩士,講師,主要從事數(shù)據(jù)分析與數(shù)學(xué)建模方面的研究。
O175.23;G434
A
10.3969/j.issn.1672-4550.2017.01.002