于廣軍,熊贇,彭思佳,阮璐
1. 上海市兒童醫(yī)院,上海 200040;
2. 上海交通大學(xué)醫(yī)學(xué)院,上海 200025;
3. 復(fù)旦大學(xué)計算機(jī)科學(xué)技術(shù)學(xué)院,上海 200433;
4. 上海市數(shù)據(jù)科學(xué)重點實驗室,上海 200433;
5. 復(fù)旦大學(xué)化學(xué)系,上海 200433
環(huán)境氣象被認(rèn)為是影響人類健康的因素之一,某些疾病的發(fā)生與惡化通常具有明顯的周期性氣候特征[1,2]。如春季氣溫回升,細(xì)菌滋生,小兒麻疹、風(fēng)疹、水痘、手足口病等病高發(fā);秋冬季氣溫下降,肺結(jié)核、哮喘、肺炎、流行性感冒等疾病較為嚴(yán)重。另外,空氣污染物顆粒,如NOx、NO2、CO、O3、SO2、PM2.5、PM10等,都有可能導(dǎo)致相關(guān)疾病發(fā)生率升高[3,4]。
就醫(yī)人數(shù)作為疾病發(fā)生率的一種表現(xiàn),易于統(tǒng)計,分析不同科室就醫(yī)人數(shù)與氣候變化的關(guān)系,為就醫(yī)人數(shù)建立預(yù)測模型和公共衛(wèi)生部門做出決策提供支持[5],同時可以為人們選擇就醫(yī)時段提供參考。當(dāng)前,反映氣候狀況的氣溫、空氣環(huán)境的相應(yīng)指標(biāo)數(shù)據(jù)可以被準(zhǔn)確全面地記錄和整理。因為涉及隱私,對特定疾病發(fā)病情況的收集相對困難,而特定科室的就醫(yī)人數(shù)也可以在一定程度上反映疾病的發(fā)生情況。
利用大數(shù)據(jù)技術(shù)從醫(yī)療相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的關(guān)系與模式,幫助醫(yī)院和公共衛(wèi)生部門做出決策已經(jīng)受到關(guān)注。例如,2009年,Google公司借助大數(shù)據(jù)技術(shù)從用戶的搜索行為中預(yù)測了甲型H1N1流感的爆發(fā),比美國疾病控制與預(yù)防中心先一步發(fā)出預(yù)警[6];一些研究根據(jù)用戶在Twitter上的文章構(gòu)建了流感樣病例率的預(yù)測模型,取得了較準(zhǔn)確的結(jié)果[7]。這表明大數(shù)據(jù)可以幫助預(yù)測疾?。ㄓ绕涫橇餍胁。┑谋l(fā)趨勢,然而,這一領(lǐng)域的研究存在以下問題。
(1)數(shù)據(jù)的隱私保護(hù)
不管是用戶的搜索行為、社交網(wǎng)絡(luò)的言論,還是醫(yī)院或?qū)嶒炇业尼t(yī)療數(shù)據(jù),都涉及用戶隱私,如何在保護(hù)隱私的前提下對數(shù)據(jù)進(jìn)行分析與挖掘是一大挑戰(zhàn)。
(2)數(shù)據(jù)的規(guī)模
數(shù)據(jù)是大數(shù)據(jù)分析技術(shù)的基礎(chǔ),在需要用戶授權(quán)的情況下,目前往往只能收集到少量的用戶行為數(shù)據(jù),無法得到具有普遍性的結(jié)論。
(3)就診量的波動性
特定科室的就醫(yī)人數(shù)聚合了多種疾病的發(fā)病率信息,就醫(yī)人數(shù)與氣候指標(biāo)間未必存在直接相關(guān)性,如何給出合理的預(yù)測預(yù)警是需要考慮的問題。
不同于現(xiàn)有的研究,本文利用反映氣候狀況的氣溫、空氣環(huán)境的相應(yīng)指標(biāo)數(shù)據(jù)對就診量進(jìn)行預(yù)測,數(shù)據(jù)準(zhǔn)確且規(guī)模大;通過對特定科室的就醫(yī)人數(shù)進(jìn)行預(yù)測,間接預(yù)測了特定類型疾病的發(fā)生發(fā)展情況,避免了對涉及隱私的病人發(fā)病情況的收集;并且側(cè)重于預(yù)測就醫(yī)人數(shù)的突發(fā),建立就醫(yī)人數(shù)突發(fā)的預(yù)警模型。
環(huán)境氣象因素與一些特定疾病的發(fā)生息息相關(guān),尤其是流行病和小兒疾病。當(dāng)前,反映氣候狀況的氣溫、空氣環(huán)境的相應(yīng)指標(biāo)數(shù)據(jù)可以被準(zhǔn)確全面地記錄和整理。因此,通過環(huán)境氣象因素來對就診量進(jìn)行預(yù)測,是一個合理的選擇。本文用到的環(huán)境因素包括兩類:氣溫和大氣污染物。氣溫因素包括3個指標(biāo):最高氣溫、最低氣溫和平均氣溫;大氣污染指標(biāo)包括PM2.5、SO2、NO2、CO。
由于環(huán)境因素并不是就診量變化的唯一因素,因此直接對就診量的數(shù)值進(jìn)行預(yù)測是不合適的。本文試圖對就醫(yī)人數(shù)的異常情況建模,即預(yù)測就診量的環(huán)比變化情況。比如,預(yù)測當(dāng)天的就醫(yī)人數(shù)相對前幾天是平穩(wěn)的還是突變的。因此,預(yù)測模型是一個分類模型。筆者選擇隨機(jī)森林[8]作為分類器。
將氣溫因素和污染物因素及醫(yī)院傳染科平均就醫(yī)人數(shù)作為模型的特征,建立就醫(yī)人數(shù)與環(huán)境特征間的隨機(jī)森林分類器,實現(xiàn)對就醫(yī)突變情況預(yù)測。具體如下。
選擇溫度、PM2.5、SO2、NO2、CO指標(biāo)和平均就醫(yī)人數(shù)作為模型的特征,并假定各特征之間相互獨立。變量Tt=<Tmin,t,Tmax,t,Tmean,t>表示日期t當(dāng)天的最高氣溫、最低氣溫和平均氣溫??紤]就醫(yī)人數(shù)與溫度的時滯效應(yīng),選擇預(yù)測日期前N天(不含當(dāng)日)的溫度變化作為特征,分別計算N天平均溫度天內(nèi)最大溫差Dev(TN),其中:
對PM2.5、SO2、NO2、CO指標(biāo)做同樣的處理,形成污染物的特征,表示N天內(nèi)PM2.5的平均值。表示經(jīng)過標(biāo)準(zhǔn)化后的前N天的平均就醫(yī)人數(shù)(不含當(dāng)日)。因此模型的特征集表示為:
對就醫(yī)人數(shù)的異常情況建模,異常情況是指環(huán)比變化情況。模型的目標(biāo)變量應(yīng)該反映預(yù)測當(dāng)天的就醫(yī)人數(shù)的突變情況,假定閾值當(dāng)G>α?xí)r,判定就醫(yī)人數(shù)突增,當(dāng)G<β時,判定就醫(yī)人數(shù)突減,即當(dāng)標(biāo)準(zhǔn)化后的就醫(yī)人數(shù)偏離超過均值的α或β倍標(biāo)準(zhǔn)差時判定為就醫(yī)人數(shù)突增或突減,見表1。
表1 判定就醫(yī)異常情況
其中,將L(Y)作為標(biāo)簽,特征集F中,的取值為連續(xù)變量,L為類別標(biāo)簽。
本文在訓(xùn)練樣本集上構(gòu)造了10棵決策樹組合的隨機(jī)森林分類器。
(1)數(shù)據(jù)集
模型涉及多源數(shù)據(jù)集,包括大氣污染物監(jiān)測數(shù)據(jù)、氣溫數(shù)據(jù)和就醫(yī)人數(shù)的數(shù)據(jù),下面以某市為例進(jìn)行說明。
● 大氣污染物監(jiān)測數(shù)據(jù)來源于國家氣象中心,包括該市2013年1月1日—2014年11月30日的大氣SO2、NO2、CO、PM2.5污染物濃度。
● 氣溫數(shù)據(jù)為國家氣象信息中心提供的2013年1月1日—2014年11月30日該市氣象站每日常規(guī)連續(xù)監(jiān)測數(shù)據(jù),包括最高氣溫、最低氣溫和平均氣溫。
● 就醫(yī)數(shù)據(jù)是2013年1月1日—2014年11月30日該市某兒童醫(yī)院傳染科科室就醫(yī)人數(shù)每日變化數(shù)據(jù)。
上述3個數(shù)據(jù)集描述性統(tǒng)計結(jié)果見表2。
(2)環(huán)境氣象與就診人數(shù)趨勢相關(guān)性分析
圖1為該市PM2.5濃度的日平均值,為每日連續(xù)監(jiān)測數(shù)據(jù),可見濃度在冬季(2013年12月—2014年2月)達(dá)到當(dāng)年最高值,春季次之,夏季(2014年9月—2014年10月)最低。污染物取值大于零,對污染物水平取對數(shù)發(fā)現(xiàn),其對數(shù)取值滿足正態(tài)分布。圖2、圖3、圖4是該市大氣污染因子SO2、NO2、CO的連續(xù)分布圖,類似的,污染物在冬季(2013年12月—2014年2月)達(dá)到當(dāng)年最高值,春季次之,夏季(2014年9月—2014年10月)最低。
表2 描述性統(tǒng)計結(jié)果
如圖5所示,該市日氣溫變化具有明顯的時間規(guī)律性,高峰值出現(xiàn)在夏季的8月,低峰值出現(xiàn)在冬季的1月。
傳染科就診人數(shù)變化趨勢如圖6所示,具有明顯的周期性,其高峰值出現(xiàn)在初夏(6月—7月),8月—9月為次低谷,低峰值出現(xiàn)在深冬(1月—2月)。初夏之際,氣溫驟升,適合細(xì)菌繁殖,因此傳染科的就診量最高。而在1月—2月,氣溫是一年中最低的,不利于細(xì)菌的繁殖,就診量也就相對較低。
(3)實驗結(jié)果
實驗以該市2013年1月1日—2014年11月30日氣溫數(shù)據(jù),PM2.5、SO2、NO2、CO大氣污染濃度和該市兒童醫(yī)院傳染科日就診人數(shù)為基礎(chǔ),構(gòu)造上述特征和標(biāo)簽,對就醫(yī)人數(shù)進(jìn)行了前文所述的標(biāo)準(zhǔn)化處理,并且根據(jù)標(biāo)準(zhǔn)化后的就醫(yī)人數(shù)最多及最少的20%界定。實驗采用隨機(jī)森林作為分類器,以十折交叉驗證的方式分別計算分類器在突增、突減以及正常情況下的預(yù)測準(zhǔn)確率。為評估就診人數(shù)隨環(huán)境變化的時滯效應(yīng),研究延遲天數(shù)N從1到7變化時,各情況下的準(zhǔn)確率和召回率,具體情況見表3。
圖1 2013年1月1日—2014年11月30日某市PM2.5濃度隨時間變化的趨勢
圖2 2013年1月1日—2014年11月30日某市SO2濃度隨時間變化的趨勢
實驗結(jié)果表明,在N較?。∟=1或N=2)時,分類的準(zhǔn)確率都不高,表明環(huán)境的變化無法在短時間內(nèi)立刻影響到就醫(yī)人數(shù)。隨著N的增大,分類效果逐漸提升,并在延遲4日時效果最好,此后隨時間的增加,分類效果遞減。這表明環(huán)境因素對傳染科就診人數(shù)的影響時滯在4日左右,延遲如果過大,則環(huán)境因素的影響變?nèi)酢嶒灲Y(jié)果表明分類模型可取N=4來獲取最好的分類效果。
表3 隨機(jī)森林分類器預(yù)測準(zhǔn)確率及召回率隨延遲變化
圖3 2013年1月1日—2014年11月30日某市NO2濃度隨時間變化的趨勢
圖4 2013年1月1日—2014年11月30日某市CO濃度隨時間變化的趨勢
圖5 2013年1月1日—2014年11月30日某市氣溫隨時間變化的趨勢
在延遲設(shè)定為4日(N=4)時,就醫(yī)人數(shù)突增預(yù)測的準(zhǔn)確率為92.8%,召回率為83.5%;就醫(yī)人數(shù)突減預(yù)測的準(zhǔn)確率為87.4%,召回率為92.4%;就醫(yī)人數(shù)沒有明確波動的情況預(yù)測準(zhǔn)確率為80.5%,召回率為78.1%??傮w上看,分類器對正常情況的預(yù)測表現(xiàn)一般,這是因為就醫(yī)人數(shù)受多種因素影響,其他變量的變化也會導(dǎo)致就醫(yī)人數(shù)發(fā)生異常變化,使得結(jié)果不屬于正常情況??梢詫⑵渌蛩丶尤敕诸惼髦校岣邔φG闆r的預(yù)測效果。分類器對突增和突減情況的預(yù)測要明顯好于對正常情況的預(yù)測,具有較高的準(zhǔn)確率和召回率,說明從環(huán)境因素預(yù)測就診量的異常波動是有效的。
隨機(jī)森林的分類結(jié)果通過K個決策樹結(jié)果的投票來決定,提升了單個決策樹的分類精度,防止了過擬合的出現(xiàn),是一種比較可靠的分類方法。為了評估隨機(jī)森林分類效果,本文挑選了6種常用的分類算法(高斯樸素貝葉斯、SVM、K近鄰、決策樹、XGBoost、邏輯回歸)進(jìn)行分類試驗,并與隨機(jī)森林分算法進(jìn)行對比。結(jié)果見表4。
實驗表明各種分類算法在不同情況下各有優(yōu)劣。高斯樸素貝葉斯方法在突增召回率上表現(xiàn)不錯,但是準(zhǔn)確率過低,且對正常情況的預(yù)測效果很差,說明過多地將正常情況判定為了異常情況;SVM和XGBoost在突增上的表現(xiàn)和隨機(jī)森林接近,但在突減上表現(xiàn)略差。K近鄰在各項指標(biāo)上的表現(xiàn)都較差。決策樹的召回率比較好,但準(zhǔn)確率低。邏輯回歸算法在正常情況下的召回率太低??傮w來說,隨機(jī)森林的表現(xiàn)要優(yōu)于其他算法。
表4 各種分類算法進(jìn)行分類試驗的結(jié)果
本文研究分析了分類模型在某兒童醫(yī)院傳染科就診人數(shù)突變的應(yīng)用。抽取待預(yù)測日期前一段時間內(nèi)氣溫、污染物濃度以及就醫(yī)人數(shù)整體水平作為分類模型的特征,利用隨機(jī)森林模型預(yù)測就醫(yī)人數(shù)的異常情況,具有較高的準(zhǔn)確率和召回率。對就醫(yī)人數(shù)的預(yù)測可以輔助醫(yī)院合理安排醫(yī)療人員,亦可為公眾合理安排就醫(yī)時間提供幫助。由于科室就醫(yī)人數(shù)聚合了不同疾病患者的就醫(yī)信息,而不同疾病與外界環(huán)境的關(guān)系不盡相同,科室就醫(yī)人數(shù)與環(huán)境因素間的相關(guān)性在一定程度上被弱化了。為判明特定疾病與環(huán)境因素間的關(guān)系需要收集更精準(zhǔn)的數(shù)據(jù),這是未來要完成的工作。
[1]KOUTRAS A, SAKELLAKIS M,MAKATSORIS T, et al. Seasonal variability in the incidence of carcinomatous meningitis[J]. Journal of Neurosurgery,2015, 122(3): 543-546.
圖6 2013年1月1日—2014年11月30日某市兒童醫(yī)院傳染科就診人數(shù)變化趨勢
[2]HONG J S, KANG H C. Seasonal variation in case fatality rate in Korean patients with acute myocardial infarction using the 1997-2006 Korean National Health Insurance Claims Database[J]. Acta Cardiologica, 2014, 69(5): 513-521.
[3]LEE S L, WONG W H S, LAU Y L.Association between air pollution and asthma admission among children in Hong Kong[J]. Clinical & Experimental Allergy,2006, 36(9): 1138-1146.
[4]LE T G, NGO L, MEHTA S, et al. Effects of short-term exposure to air pollution on hospital admissions of young children for acute lower respiratory infections in Ho Chi Minh City, Vietnam[J]. Research Report(Health Effects Institute), 2012, 12(4):174-181.
[5]SOYIRI I N, REIDPATH D D, SARRAN C.Forecasting asthma-related hospital admissions in London using negative binomial models[J]. Chronic Respiratory Disease, 2013, 10(2): 85-94.
[6]DAVIDSON M W, HAIM D A, RADIN J M. Using networks to combine “big data” and traditional surveillance to improve influenza predictions[J]. Scientific Reports, 2015(5): 8154.
[7]LAMPOS V, BIE T D, CRISTIANINI N.Flu detector: tracking epidemics on twitter[C]// European Conference on Machine Learning and Knowledge Discovery in Databases, September 20-24,2010, Barcelona, Spain. Heidelberg:Springer Press, 2010: 599-602.
[8]BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1): 5-32.