降惠 尹振?!∥潲惥辍〈抻烂贰∥簳x
摘 要: 探討長治市手足口病(HFMD)與氣象因素的關(guān)聯(lián)關(guān)系。 利用Apriori關(guān)聯(lián)規(guī)則算法挖掘不同氣象因素組合引發(fā)手足口病的頻繁程度。長治市手足口病的周高發(fā)、中等發(fā)病率與前一周的平均水汽壓、氣溫具有顯著相關(guān)性。而周低發(fā)病率與前一周的氣溫(最低、平均)、降水量存在顯著相關(guān)性。長治市手足口病周發(fā)病率與氣象因素存在一定的關(guān)聯(lián)性,應(yīng)根據(jù)氣象條件進行流行風(fēng)險評估,及時采取相應(yīng)的防控措施。
關(guān)鍵詞: 手足口病; 氣象因素; 關(guān)聯(lián)規(guī)則分析
文章編號: 2095-2163(2021)07-0124-05中圖分類號:TP399文獻標志碼: A
Application of Apriori algorithm in the analysis of
the relationship between hand-foot-mouth disease and meteorological factors
JIANG Hui1, YIN Zhenbao2, WU Lijuan1, CUI Yongmei3, WEI Jin1
(1 Department of Computer Teaching, Changzhi Medical College, Changzhi Shanxi 046000, China;
2? Changzhi Meteorological Bureau, Changzhi? Shanxi 046000, China;
3 Changzhi City Center for Disease Control and Prevention, Changzhi Shanxi 046000, China)
【Abstract】To investigate the correlation between HFMD and meteorological factors in Changzhi city, the Apriori association rule algorithm is used to mine the frequency of HFMD caused by different meteorological factors. The high and moderate incidence of HFMD is significantly correlated with the mean vapor pressure and temperature in the previous week.But the low weekly incidence is correlated with temperature (lowest,mean) and the rainfall in the previous week. There is a certain correlation between the weekly incidence of HFMD and meteorological factors in Changzhi City. Epidemic risk assessment should be carried out according to meteorological conditions, and corresponding prevention and control measures should be taken in time.
【Key words】hand-foot-mouth disease(HFMD); meteorological factor; association rule analysis
0 引 言
在全球氣候變化的背景下,氣象因素導(dǎo)致的健康效應(yīng)備受關(guān)注[1]。許多傳染病的流行都與氣象因素有關(guān)[2]。手足口病(hand,foot and mouth disease,HFMD)是由腸道病毒感染引起的一種常見傳染病[3]。國內(nèi)外大量研究表明,氣象因素會影響手足口病流行[4-5]。近年來,許多流行病學(xué)、統(tǒng)計學(xué)專家學(xué)者致力于研究手足口病與氣象因素的關(guān)系,但傳統(tǒng)統(tǒng)計分析只能揭示手足口病對氣象因素的依賴程度,而關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘中的一項重要技術(shù),可以通過檢驗各種氣象因素組合引發(fā)手足口病的頻繁程度[6],得到定量表達手足口病隨氣象因素變化的情況,有效簡化數(shù)據(jù)處理過程。因此,本文嘗試采用關(guān)聯(lián)規(guī)則分析法探索氣象因素對手足口病的流行影響,為預(yù)防手足口病提供借鑒和參考。
1 數(shù)據(jù)來源與預(yù)處理
1.1 研究區(qū)域概況
長治市位于山西省東南部,轄4區(qū)8縣(包括潞州區(qū)、屯留區(qū)、潞城區(qū)、上黨區(qū)、長子縣、壺關(guān)縣、平順縣、黎城縣、沁縣、武鄉(xiāng)縣、襄垣縣、沁源縣),人口347.8萬人,屬暖溫帶半濕潤大陸性季風(fēng)氣候區(qū)。
1.2 數(shù)據(jù)來源
本研究以12個縣區(qū)的周數(shù)據(jù)作為研究單元,時間跨度為2009~2018年。研究中涉及手足口病數(shù)據(jù)、氣象數(shù)據(jù)和人口數(shù)據(jù)三類數(shù)據(jù)。手足口病數(shù)據(jù)來自于“國家疾病監(jiān)測信息管理系統(tǒng)”。因2018年長治市行政區(qū)劃調(diào)整,將2009~2017城區(qū)與郊區(qū)手足口病周發(fā)病數(shù)合并為潞州區(qū)發(fā)病數(shù)。氣象數(shù)據(jù)來源于長治市氣象臺(11個國家級地面氣象觀測站),共采集到十年來11個縣區(qū)9種氣象因素(定時風(fēng)速、相對濕度、降水量、最高氣溫、平均氣溫、最低氣溫、日照時數(shù)、平均氣壓與平均水汽壓)的周數(shù)據(jù)。潞州區(qū)因無國家級氣象觀測站,氣象數(shù)據(jù)根據(jù)屯留區(qū)、潞城區(qū)、上黨區(qū)數(shù)據(jù)取均值進行統(tǒng)計分析。人口數(shù)據(jù)來自于2010~2019年山西統(tǒng)計年鑒。
1.3 數(shù)據(jù)預(yù)處理
研究中,考慮到手足口病潛伏期為2~10天,因此選取周發(fā)病率與前一周的9項氣象因素建立二維關(guān)系表。其中,含有的缺失值和異常值采用行刪除法或替換法處理[7]。對于有較大缺失值的觀測樣本采用減少樣本量,即行刪除法處理。因研究中涉及的數(shù)據(jù)均為數(shù)值型,所以對于樣本中存在的個別缺失值和異常值,使用前后一周數(shù)據(jù)的均值進行替換。經(jīng)過清洗,最終確定用于研究的數(shù)據(jù)為63 300個。
2 關(guān)聯(lián)規(guī)則分析
2.1 關(guān)聯(lián)規(guī)則與Apriori算法
關(guān)聯(lián)規(guī)則反映一個事物(或?qū)傩裕┑某霈F(xiàn)對其他事物(或?qū)傩裕┑某霈F(xiàn)有多大的影響。關(guān)聯(lián)規(guī)則分析是從大型關(guān)系數(shù)據(jù)庫或事務(wù)數(shù)據(jù)庫的海量數(shù)據(jù)中發(fā)現(xiàn)并提取頻繁出現(xiàn)的或人們感興趣的知識,是一種無監(jiān)督學(xué)習(xí)的數(shù)據(jù)挖掘方法[8]。
在關(guān)聯(lián)規(guī)則分析中,一條樣本記錄稱為一個事務(wù)。樣本的屬性稱為項,多個屬性組成的集合稱為項集,k個屬性組成的集合稱為k-項集。對于事務(wù)數(shù)據(jù)庫中的一條記錄,如果同時具有互不相交的2個子項集A和B,則項集A和B是關(guān)聯(lián)的,即A->B。A稱為前項,B稱為后項。關(guān)聯(lián)規(guī)則分析可以從大量數(shù)據(jù)項集中發(fā)現(xiàn)頻繁出現(xiàn)的模式和關(guān)聯(lián)性。但得出的關(guān)聯(lián)規(guī)則并不能直接使用,還需要根據(jù)置信度、支持度和提升度指標進行評估,從而得出具有一定參考價值的關(guān)聯(lián)規(guī)則[9]。支持度是指項集A、B同時出現(xiàn)的頻率,主要體現(xiàn)關(guān)聯(lián)規(guī)則的重要性,置信度是項集A發(fā)生前提下B發(fā)生的頻率,主要體現(xiàn)關(guān)聯(lián)規(guī)則的準確性[10]。提升度是項集A發(fā)生前提下B發(fā)生的概率與B總體發(fā)生的概率之比。在關(guān)聯(lián)規(guī)則分析中,最小支持度表示挖掘出的關(guān)聯(lián)規(guī)則必須滿足數(shù)據(jù)項頻度的最小支持閾值,其取值影響著生成頻繁項集的數(shù)量[11]。最小置信度體現(xiàn)關(guān)聯(lián)規(guī)則的最低可靠性,其取值影響著生成強關(guān)聯(lián)規(guī)則的數(shù)量[12]。
目前,常用的關(guān)聯(lián)規(guī)則算法有Apriori、FP-Tree、Eclat和灰色關(guān)聯(lián)算法。其中,Apriori是最經(jīng)典、也是最常用的挖掘頻繁項集的算法。Apriori算法采用逐次迭代的方法,通過反復(fù)掃描事務(wù)數(shù)據(jù)庫,連接產(chǎn)生所有的頻繁項集,然后根據(jù)預(yù)先設(shè)定的支持度、置信度和提升度參數(shù),利用剪枝的方法得到感興趣的強關(guān)聯(lián)規(guī)則。本研究擬采用Rstudio軟件,借助arules和arulesViz程序包中的相關(guān)函數(shù)實現(xiàn)Apriori關(guān)聯(lián)規(guī)則分析。
2.2 數(shù)據(jù)離散化
在構(gòu)建關(guān)聯(lián)規(guī)則模型時,為縮小數(shù)據(jù)的覆蓋范圍,使數(shù)據(jù)更適應(yīng)模型,匹配Apriori關(guān)聯(lián)規(guī)則建模的格式要求,分析中首先對各數(shù)據(jù)項進行離散化分組。為保證每組中樣本量的一致性,本研究利用arules包中的discretize()函數(shù),將每個屬性值分組數(shù)預(yù)設(shè)為7[13],按照等深分組的方法,識別出相應(yīng)的閾值區(qū)間,各數(shù)據(jù)項具體分組情況見表1。數(shù)據(jù)離散化后,將其導(dǎo)入到Rstudio中,并將其轉(zhuǎn)換為“transcations”格式,建立事務(wù)數(shù)據(jù)庫。
2.3 不同程度手足口病周發(fā)病率與氣象因素的關(guān)聯(lián)規(guī)則分析
在事務(wù)數(shù)據(jù)庫中,每個樣本記錄包含10個屬性,即:手足口病發(fā)病率與9種氣象因素值。為了分析不同程度手足口病周發(fā)病率與氣象因素的關(guān)聯(lián)關(guān)系,分析中將前一周9種氣象因素值作為9-項集A,手足口病周發(fā)病率作為項集B。對于任意一條記錄,如果同時具有項集A和B,則項集A和B是關(guān)聯(lián)的,即A->B。
2.3.1 手足口病高發(fā)病率與氣象因素的關(guān)聯(lián)規(guī)則分析
本研究中將最小支持度和置信度分別設(shè)定為0.011、0.55,共生成關(guān)聯(lián)規(guī)則7 385條。為了求出頻繁項集中手足口病高發(fā)病率與氣象因素之間的關(guān)聯(lián)關(guān)系,研究中將氣象因素設(shè)置為前件,將手足口病高發(fā)病率HFMD5設(shè)置為后件。高發(fā)病率與氣象因素的強關(guān)聯(lián)規(guī)則見表2。當提升度(lift)>=3.5時,共得到3條強關(guān)聯(lián)規(guī)則。
表2結(jié)果顯示,手足口病的高發(fā)病率主要有2種氣象特征:
(1)前一周平均水汽壓為VapPres5,最低氣溫為LTemp6,特別是平均氣溫為MTemp6時。
(2)前一周平均水汽壓為VapPres5,最高氣溫為HTemp7。
高發(fā)病率與氣象因素的強關(guān)聯(lián)規(guī)則如圖1所示。由表2與圖1可以看出,手足口病的高發(fā)與平均水汽壓、氣溫具有顯著的相關(guān)性,結(jié)果與國內(nèi)相關(guān)報道一致[4]。
2.3.2 手足口病中等發(fā)病率與氣象因素的關(guān)聯(lián)規(guī)則分析
為了探討手足口病中等發(fā)病率與氣象因素的關(guān)聯(lián)關(guān)系,將中高發(fā)病率HFMD4、中發(fā)病率HFMD3、中低發(fā)病率HFMD2作為后件,將氣象因素作為前件,將最小支持度、置信度分別設(shè)置為0.02和0.2,共生成關(guān)聯(lián)規(guī)則3 404條。中等發(fā)病率與氣象因素的強關(guān)聯(lián)規(guī)則見表3。當提升度(lift)>=2時,生成5條強關(guān)聯(lián)規(guī)則。在生成的強關(guān)聯(lián)規(guī)則中,后件均為HFMD4,說明中高發(fā)病率與氣象因素的關(guān)聯(lián)性更強。
中等發(fā)病率與氣象因素的強關(guān)聯(lián)規(guī)則如圖2所示。由表3和圖2可以看出,HFMD中等程度的發(fā)病率與前一周平均水汽壓、氣溫(最高、最低、平均)均具有顯著的相關(guān)性,當前一周平均水汽壓、氣溫(最高、最低、平均)位于最高區(qū)間時,會造成手足口病中等程度的流行。
2.3.3 手足口病低發(fā)病率與氣象因素的關(guān)聯(lián)規(guī)則分析
為了探討手足口病低發(fā)病率時的氣象特征,研究中將氣象因素設(shè)置為前件,將HFMD1設(shè)置為后件,最小支持度和置信度分別設(shè)定為0.1、0.8,共生成關(guān)聯(lián)規(guī)則25條。低發(fā)病率與氣象因素的強關(guān)聯(lián)規(guī)則見表4。當提升度(lift)>=1.9時,得到3條強關(guān)聯(lián)規(guī)則。
低發(fā)病率與氣象因素的強關(guān)聯(lián)規(guī)則如圖3所示。由表4與圖3可以看出,手足口病的低發(fā)與最低氣溫、平均氣溫、降水量存在顯著的相關(guān)關(guān)系,當最低氣溫、平均氣溫、降水量位于最低區(qū)間時,手足口病的發(fā)病率較低。
3 結(jié)束語
目前,關(guān)聯(lián)規(guī)則分析在醫(yī)學(xué)領(lǐng)域的應(yīng)用主要集中于中醫(yī)用藥規(guī)律分析、慢性病患病因素分析、上呼吸道疾病與氣象因素相關(guān)性分析等。本研究采用Apriori關(guān)聯(lián)算法分析了長治市2009~2018年各縣(區(qū))手足口病與氣象因素的關(guān)聯(lián)性。
研究結(jié)果顯示,不同程度的手足口病發(fā)病率與各氣象因素的關(guān)系存在一定的差異。手足口病的高發(fā)、中等發(fā)病率與前一周平均水汽壓、氣溫(最高、最低、平均)存在顯著的相關(guān)性。高發(fā)病率有2種氣象特征:
(1)平均水汽壓為中等([9.08 hpa,12.65 hpa)),最低、平均氣溫為次高([13.08 ℃-16.73 ℃)、[18.65 ℃-21.87 ℃))。
(2)平均水汽壓為中等([9.08hpa,12.65hpa)),最高氣溫為最高(高于28.15 ℃)。
這可能有2方面的原因:一是濕熱的氣象環(huán)境,適合腸道病毒的繁殖與快速傳播,二是適宜的氣象環(huán)境下,易感人群室外活動頻率增加,感染幾率增大。當平均水汽壓、氣溫滿足這2個條件時,HFMD下周暴發(fā)的可能性最大,在這個時期應(yīng)加大防控知識宣傳力度;提醒家長少帶孩子到擁擠的公共場所,不喝生水,不吃不衛(wèi)生食品;加強食品和衛(wèi)生監(jiān)測;增加幼兒園、學(xué)校、青少年活動中心、文體中心等聚集場所的衛(wèi)生清潔與消毒頻次。
手足口病的低發(fā)與氣溫(最低、平均)、降水量存在相關(guān)性。當降水量最少、平均氣溫最低時,環(huán)境干燥寒冷,大部分病毒干冷而死,發(fā)病率低。
綜上所述,本研究利用Apriori關(guān)聯(lián)規(guī)則算法,通過反復(fù)掃描2009~2018年長治市手足口病周發(fā)病率與前一周9種氣象因素建立的事務(wù)數(shù)據(jù)庫,得出了頻繁出現(xiàn)的項集,最后根據(jù)提前設(shè)置的最小置信度等參數(shù)得出強關(guān)聯(lián)規(guī)則。研究結(jié)果與國內(nèi)外文獻報道一致[4,14-15]。但研究中以周作為時間尺度,可能不能精準地反映氣象因素對手足口病的流行效應(yīng)。今后,有待選擇日作為研究單元,分析氣象因素對不同滯后天數(shù)手足口病的流行影響,研究結(jié)果可能會更準確。此外,手足口病的發(fā)病可能受人口密度、經(jīng)濟條件等多種因素的影響,下一步應(yīng)綜合考慮這些因素,為手足口病的預(yù)防控制提供更為準確的參考依據(jù)。
參考文獻
[1]吳衍嘉,孫楊青,陸芳芳,等. 日光照射時間對2015-2018年深圳寶安區(qū)兒童手足口病的影響[J]. 現(xiàn)代預(yù)防醫(yī)學(xué),2021,48(6):1029-1033,1049.
[2]闞海東,姜宜萱,陳仁杰. 氣象因素與人群健康研究的前沿進展[J]. 山東大學(xué)學(xué)報(醫(yī)學(xué)版),2018,56(8):7-13.
[3]國家衛(wèi)生健康委員會. 手足口病診療指南(2018年版)[J].中國病毒病雜志,2018,8(5) :347 -352.
[4]DUAN Chunxiao, ZHANG Xuefeng, JIN Hui,et al.Meteorlogical factors and its association with hand,foot and mouth disease in Southeast and East Asia area:a meta-analysis[J].Epidemiology and Infection,2018,147(50):1-18.
[5]NGUYEN H X, CHU G, NGUYEN H L T, et al.Temporal and spatial analysis of hand,foot,and mouth disease in relation to climate factors:A study in the Mekong Delta region,Vietnam[J]. Science of the Total Environment,2017,581/582:766-772.
[6]王哲,李琳,王凱,等. 基于關(guān)聯(lián)規(guī)則分析的慢阻肺就診人數(shù)與氣象空氣條件關(guān)系研究[J]. 中國數(shù)字醫(yī)學(xué),2018,13(4):2-4,47.
[7]張良均,云偉標,王路,等. R語言數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M]. 北京:機械工業(yè)出版社,2021.
[8]張良均,謝佳標,楊坦,等. R語言與數(shù)據(jù)挖掘[M]. 北京:機械工業(yè)出版社,2017.
[9]郭慧敏. 基于關(guān)聯(lián)分析的中老年體檢數(shù)據(jù)的挖掘[J]. 軟件工程,2021,24(5):7-9.
[10]陳夢蝶. 數(shù)據(jù)驅(qū)動的慢性疾病風(fēng)險因素關(guān)聯(lián)分析及再入院預(yù)測研究[D]. 成都:電子科技大學(xué),2020.
[11]李宇斐. 基于關(guān)聯(lián)規(guī)則的電子病歷數(shù)據(jù)挖掘應(yīng)用研究-以糖尿病及其并發(fā)癥為例[D]. 武漢:華中科技大學(xué),2017.
[12]李毛琳. 空氣質(zhì)量與慢病關(guān)聯(lián)模型研究[D]. 荊州:長江大學(xué),2018.
[13]翟廣宇,王式功,董繼元,等. 蘭州市上呼吸道疾病與氣象條件和空氣質(zhì)量的關(guān)聯(lián)規(guī)則分析[J]. 蘭州大學(xué)學(xué)報(自然科學(xué)版),2014,50(1):66-70.
[14]楊雅斯,盧雅陵,方蒞媛,等. 氣象因素對四川省手足口病發(fā)病率的影響及預(yù)測模型構(gòu)建[J].? 四川大學(xué)學(xué)報(醫(yī)學(xué)版),2021,51(5):685-690.
[15]張翠平,張勇,劉輝,等. 安陽地區(qū)2008-2019年手足口病發(fā)病與氣象因素的相關(guān)性分析[J]. 醫(yī)學(xué)理論與實踐,2021,34(8):1415-1417.
基金項目: 山西省高等學(xué)??萍紕?chuàng)新項目(2019L0682)。
作者簡介: 降 惠(1983-),女,碩士,副教授,主要研究方向:醫(yī)學(xué)數(shù)據(jù)挖掘。
收稿日期: 2021-04-18