郭 貔 王 力 郝元濤
·論著·
基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建的流感疫情預(yù)測系統(tǒng)
郭 貔1王 力1郝元濤2,3△
目的 探討基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建流感疫情預(yù)測系統(tǒng)的可行性。方法 采用Bagging方法和模型性能的多指標(biāo)優(yōu)化評估策略,對傳統(tǒng)LASSO回歸模型進(jìn)行改進(jìn),構(gòu)建性能提升的集成LASSO回歸模型,將其應(yīng)用于中國大陸地區(qū)季節(jié)性流感流行趨勢的預(yù)測研究。結(jié)果 與傳統(tǒng)LASSO回歸模型相比,本研究所構(gòu)建的集成LASSO回歸模型對2011年至2015年中國大陸地區(qū)流感流行趨勢的預(yù)測偏差更小,說明集成LASSO回歸模型的外部推斷能力更強(qiáng),適合于流感疫情的預(yù)測分析;本研究開發(fā)了開源的R軟件程序包SparseLearner,方便用戶進(jìn)行調(diào)用和進(jìn)一步開發(fā)研究。結(jié)論 Bagging方法和多指標(biāo)優(yōu)化評估策略相結(jié)合所構(gòu)建的集成LASSO回歸模型,有效地增強(qiáng)了傳統(tǒng)LASSO回歸模型的性能。本研究所構(gòu)建的預(yù)測模型可以應(yīng)用于流感等傳染病疫情的預(yù)測研究。
Bagging LASSO 流感 預(yù)測
流感的流行和暴發(fā)是中國大陸地區(qū)面臨的重要公共衛(wèi)生問題之一[1-4]。為了更好地預(yù)防和控制季節(jié)性流感在大規(guī)模人群范圍內(nèi)暴發(fā)和流行,研究者們已經(jīng)開展了一些前沿的科學(xué)研究,利用社交媒體和搜索引擎等電子信息,以對流感的暴發(fā)和傳播提供近似實(shí)時(shí)的監(jiān)測[5-8]。Ginsberg 等(2006)[7]最早開始研究利用Google搜索數(shù)據(jù)對美國地區(qū)流感的流行趨勢進(jìn)行預(yù)測,且證實(shí)這種近似實(shí)時(shí)監(jiān)測的方法對流感暴發(fā)的準(zhǔn)確預(yù)測比傳統(tǒng)哨點(diǎn)疫情監(jiān)測方法提早了一周。
Marcel等(2013)[7]在著名的《新英格蘭醫(yī)學(xué)雜志》上討論以社交網(wǎng)絡(luò)和搜索引擎數(shù)據(jù)為媒介對傳染病暴發(fā)進(jìn)行實(shí)時(shí)或者近似實(shí)時(shí)的預(yù)測的“電子流行病學(xué)”(digital epidemiology)的發(fā)展,并認(rèn)為這種方法能夠有效地補(bǔ)充和完善傳統(tǒng)的疾病監(jiān)測方法。由于百度搜索引擎是目前中國大陸地區(qū)最為廣泛使用的互聯(lián)網(wǎng)搜索引擎,因此百度關(guān)鍵詞的搜索量可以準(zhǔn)確地反映中國互聯(lián)網(wǎng)用戶的網(wǎng)絡(luò)搜索行為的主要特征。在2013年,Yuan等(2013)[9]首次探討了采用百度搜索數(shù)據(jù)對中國大陸地區(qū)季節(jié)性流感流行趨勢預(yù)測的方法學(xué)問題,根據(jù)百度用戶搜索關(guān)鍵詞的頻次構(gòu)建預(yù)警模型,證明了該方法能有效地對季節(jié)性流感的流行水平進(jìn)行準(zhǔn)確估計(jì)。該方法[9]需要事先使用不同權(quán)重對眾多搜索詞進(jìn)行加權(quán),構(gòu)建一個(gè)復(fù)合的預(yù)測因子,并采用線性回歸模型進(jìn)行預(yù)測。實(shí)際上,使用搜索關(guān)鍵詞構(gòu)建預(yù)測模型,需要分析的搜索關(guān)鍵詞的數(shù)目往往較多,這種處理方式使模型無法對每個(gè)關(guān)鍵詞的貢獻(xiàn)進(jìn)行估計(jì)。另外,基于線性回歸模型對流感流行與暴發(fā)進(jìn)行預(yù)測的穩(wěn)健性仍有待進(jìn)一步提高。
我們以往研究(2015)[10]表明基于隨機(jī)Bootstrap抽樣方法構(gòu)建的LASSO回歸模型能夠準(zhǔn)確地識別關(guān)鍵變量并估計(jì)其效應(yīng)。另外,在傳染病監(jiān)測應(yīng)用領(lǐng)域,對傳染病暴發(fā)期進(jìn)行預(yù)測,我們需要根據(jù)不同的模型評價(jià)指標(biāo),全面地評估所構(gòu)建模型對傳染病流行與暴發(fā)的預(yù)測效果。因此,在構(gòu)建傳染病預(yù)測模型時(shí),有必要綜合多個(gè)評價(jià)指標(biāo)對模型預(yù)測效果進(jìn)行評估,從而使得所構(gòu)建模型的預(yù)測效果在多個(gè)指標(biāo)上同時(shí)達(dá)到最優(yōu)。
本研究擬采用Bagging(1993)算法[11]結(jié)合多指標(biāo)優(yōu)化評估策略(2007)[12]對傳統(tǒng)LASSO回歸模型進(jìn)行改進(jìn),探討構(gòu)建一種基于百度搜索數(shù)據(jù)的流感預(yù)測系統(tǒng),使得模型預(yù)測的準(zhǔn)確性和穩(wěn)健性均有所提高,并將其應(yīng)用于中國大陸地區(qū)季節(jié)性流感流行與暴發(fā)的估計(jì)。
1.LASSO線性回歸模型
假設(shè)現(xiàn)有數(shù)據(jù)(Xi,yi),i=1,2,…,N,這里Xi=(xi1,…,xip)T和yi分別表示第i個(gè)觀察值對應(yīng)的自變量和因變量。在觀察值彼此獨(dú)立的前提下,該線性模型表示如下:
(1)
早在1995年,Breiman[13]提出變量收縮和系數(shù)估計(jì)同步進(jìn)行的Nonnegative Garrote方法。該方法可表示為:
(2)
在此基礎(chǔ)上,Tibshirani(1996)[14]提出了LASSO估計(jì)方法,彌補(bǔ)其缺陷。在線性回歸模型的情況下,LASSO方法給出的系數(shù)估計(jì)表示為:
(3)
2.結(jié)合Bagging算法與多指標(biāo)優(yōu)化評估策略構(gòu)建的集成LASSO回歸模型
(1)Bagging算法的基本原理
Bagging算法將很多基礎(chǔ)模型Ci進(jìn)行集成產(chǎn)生一個(gè)復(fù)合預(yù)測模型,其通過對原有的訓(xùn)練數(shù)據(jù)進(jìn)行Bootstrap重復(fù)抽樣[15],從樣本大小為n的原有數(shù)據(jù)中隨機(jī)抽取nb個(gè)樣本,構(gòu)造一份Bootstrap樣本。本研究采用有放回等樣本抽樣方法構(gòu)造Bootstrap樣本。進(jìn)行多次Bootstrap抽樣,產(chǎn)生多份Bootstrap樣本數(shù)據(jù),利用這些抽樣數(shù)據(jù)訓(xùn)練基礎(chǔ)模型Ci,最終將所有Ci的預(yù)測結(jié)果進(jìn)行平均,形成穩(wěn)定的預(yù)測結(jié)果。
(2)模型預(yù)測性能的多指標(biāo)優(yōu)化評估策略
實(shí)際上,基于多個(gè)指標(biāo)確定一個(gè)最優(yōu)模型是屬于多指標(biāo)優(yōu)化的問題,其原理是每個(gè)單獨(dú)指標(biāo)根據(jù)自身取值大小對所有比較模型進(jìn)行排序。假設(shè)以Li表示在指標(biāo)i上所有模型的排序序列。這樣對于K個(gè)指標(biāo)而言,我們可以得到K個(gè)排列的模型序列L1,L2,…,LK,每個(gè)序列Li的長度代表所比較的模型的個(gè)數(shù)。因此,多指標(biāo)評估便轉(zhuǎn)化為整合分析上述K個(gè)排序的序列,以尋找一個(gè)最優(yōu)的模型序列,使其與所有K個(gè)序列之間的距離最小。加權(quán)排序融合技術(shù)[16]可以用于求解這類多指標(biāo)評估的優(yōu)化問題。
上述尋找最優(yōu)模型序列是一個(gè)經(jīng)典的組合優(yōu)化問題,可以采用加權(quán)排序融合技術(shù)進(jìn)行求解。首先,定義一個(gè)目標(biāo)函數(shù):
(4)
在式(4)中,m是評估指標(biāo)的數(shù)目,Li是模型排序列表中任何一個(gè)長度為k的已知的模型序列,δ是目標(biāo)函數(shù)的可能解,wi是權(quán)重因子,而d是衡量任何兩個(gè)序列之間相似程度的距離函數(shù)[17]。
那么,在所有可能的解中尋找一個(gè)最優(yōu)的解δ*需要滿足:
(5)
式(5)表示所要找的最優(yōu)解將使得δ*與其他所有序列Li之間的距離最小。
加權(quán)排序融合技術(shù)用于尋找模型序列δ*,使δ*盡可能地逼近已知的模型序列Li,這個(gè)δ*就是目標(biāo)函數(shù)(5)的一個(gè)最優(yōu)解。所謂序列之間盡可能的“逼近”,其實(shí)質(zhì)是選擇合適的距離函數(shù)d測量任何兩個(gè)序列之間的近似程度。通常地,距離函數(shù)d可以由斯皮爾曼簡捷距離[18]或者其加權(quán)的形式描述。
假設(shè)現(xiàn)有一個(gè)已知序列Li,rLi(A)表示元素A在序列Li中的秩。對于任意序列δ而言,序列δ和Li之間的斯皮爾曼簡捷距離定義為:
(6)
這里,序列δ和Li之間的斯皮爾曼簡捷距離代表兩個(gè)序列中所有不同元素秩序差值的絕對值總和。S(δ,Li)越小,表示二者的相似程度越高。當(dāng)兩個(gè)序列中元素的秩序完全不一致時(shí),該距離達(dá)到最大值,表示二者之間相似程度很低。
若已知某個(gè)評估指標(biāo)得分值,我們可以利用這部分信息定義一個(gè)加權(quán)形式的斯皮爾曼簡捷距離[16]。假設(shè)Mi(1),…,Mi(k)表示序列Li中每個(gè)元素對應(yīng)的指標(biāo)分值(在我們的研究中,可以是靈敏度、特異度、AUC等評估指標(biāo)取值),Mi(1)表示最優(yōu)的分?jǐn)?shù),Mi(2)為次優(yōu)的分?jǐn)?shù),依次類推。那么,任意兩個(gè)序列δ和Li之間的加權(quán)斯皮爾曼簡捷距離則表示為:
(7)
考慮到提高算法運(yùn)算效率,本研究采用互熵蒙特卡洛方法求解尋找目標(biāo)函數(shù)(5)的最優(yōu)解δ*,以構(gòu)建適合預(yù)測變量數(shù)目較大的流感疫情預(yù)測系統(tǒng),其方法學(xué)原理詳見文獻(xiàn)[19]。
(3) 集成LASSO回歸模型
結(jié)合Bagging與多指標(biāo)優(yōu)化評估策略,本研究改進(jìn)傳統(tǒng)LASSO回歸模型,構(gòu)建集成LASSO回歸模型,應(yīng)用于流感疫情的預(yù)測。下面給出集成LASSO回歸模型的具體算法:
輸入:
?(X,Y):原有數(shù)據(jù)包含n個(gè)樣本和p個(gè)預(yù)測變量,(X,Y)∈n×(p+1)
?B:有放回Bootstrap重抽樣次數(shù)
?nBootstrap:每次有放回Bootstrap重抽樣的樣本量
?M:子模型序列的長度
?K:子模型性能評估指標(biāo)
?RP:預(yù)測變量隨機(jī)子集的大小
?δ:子模型排序序列初始值
?d(.):子模型序列之間的距離函數(shù)
輸出:模型最終預(yù)測ψaverage
1:forb=1toBdo
2:產(chǎn)生Bootstrap樣本L=(Xb,Yb)∈nBootstrap×(p+1)
4:form=1toMdo
5:從原有預(yù)測變量集Xb中隨機(jī)選擇RP個(gè)變量
10:fork=1toKdo
12:end
13:end
15:根據(jù)矩陣VK×M產(chǎn)生模型性能排序序列{Ri=(C(1),C(2),…,C(M))i,i=1,…,K}
17:使用互熵蒙特卡洛方法求解該目標(biāo)函數(shù),得到目標(biāo)函數(shù)的最優(yōu)解
19:end
21:使用模型平均法實(shí)現(xiàn)模型的最終預(yù)測ψaverage=E[C(1)(R*)]
本研究構(gòu)建的集成LASSO回歸模型所采用的性能評估指標(biāo)包括相對誤差指標(biāo)和絕對誤差指標(biāo)兩大類,即相對誤差(relative error,RE)、均方根誤差(root mean square error,RMSE)、平均絕對誤差(mean absolute error,MAE)和對稱的平均絕對比例誤差(symmetric mean absolute percentage error,SMAPE)。它們各自的定義如下:
(8)
(9)
(10)
(11)
在構(gòu)建的集成LASSO回歸模型中,我們采用非參數(shù)置換方法[23]客觀地評估每個(gè)預(yù)測變量的重要性。在采用Bootstrap技術(shù)對原有數(shù)據(jù)集進(jìn)行隨機(jī)抽樣時(shí),我們使用袋外樣本數(shù)據(jù)Xoob對集成LASSO回歸模型進(jìn)行評估。具體過程是:在利用袋外樣本Xoob測度變量Xi重要性時(shí),對該變量進(jìn)行置換操作,并基于置換后的Xi與其余變量構(gòu)建Bagging模型。如果置換變量的袋外樣本預(yù)測錯(cuò)誤率比未置換變量的預(yù)測錯(cuò)誤率明顯增大,說明該變量非常重要。
我們采用公式(12)測度Bagging模型中變量的重要性:
(12)
在上述理論與方法的基礎(chǔ)上,我們開發(fā)了一個(gè)開源的R程序宏包SparseLearner(https://cran.r-project.org/web/packages/SparseLearner/index.html),其中集成LASSO回歸模型主要由函數(shù)Bagging.LASSO實(shí)現(xiàn)。
本研究中國大陸地區(qū)2011年1月至2015年5月之間的季節(jié)性流感發(fā)病病例數(shù)來自中國疾病與預(yù)防控制中心。聯(lián)合百度指數(shù)網(wǎng)站(http://index.baidu.com/)和百度搜索關(guān)鍵詞挖掘網(wǎng)站(http://s.tool.chinaz.com/baidu/words.aspx)初步確定100個(gè)與“流感”相關(guān)的檢索詞作為候選預(yù)測變量。在此基礎(chǔ)上,通過文獻(xiàn)[9]介紹的變量過濾規(guī)則進(jìn)一步篩選得到58個(gè)預(yù)測變量。由于潛在影響因素對流感流行趨勢可能存在延遲效應(yīng),考慮影響因素延遲一個(gè)月的效應(yīng),且將流感每月病例數(shù)作為自回歸項(xiàng)納入模型建模。這種做法是傳染病統(tǒng)計(jì)建模分析常用的方法。最終,本研究納入預(yù)測建模分析共有117個(gè)預(yù)測變量。由于預(yù)測變量的個(gè)數(shù)比樣本量53大得多,此時(shí)使用最小二乘方法對模型系數(shù)進(jìn)行估計(jì)是失效的。因此,有必要采用LASSO等稀疏估計(jì)方法建立模型,對流感流行趨勢進(jìn)行預(yù)測,分析其影響因素。
1.流感病例與百度搜索關(guān)鍵詞數(shù)據(jù)
本研究使用中國大陸地區(qū)2011年1月至2015年5月之間的季節(jié)性流感發(fā)病病例數(shù)(表1)對集成LASSO回歸模型和傳統(tǒng)LASSO回歸模型的預(yù)測效果進(jìn)行比較和評估。關(guān)于百度搜索關(guān)鍵詞數(shù)據(jù),通過相關(guān)檢索初步確定100個(gè)與“流感”相關(guān)的檢索詞作為候選預(yù)測變量。進(jìn)一步過濾,篩選得到58個(gè)預(yù)測變量(表2)。同時(shí)將每月流感病例數(shù)作為模型的自回歸項(xiàng)以及考慮預(yù)測變量的延遲效應(yīng),納入預(yù)測建模分析共有117個(gè)預(yù)測變量。
2.兩種模型預(yù)測效果的比較
本研究將2011年1月至2015年5月之間的流感病例數(shù)據(jù)拆分為兩部分,以2011年1月至2014年12月時(shí)期的流感病例數(shù)據(jù)訓(xùn)練模型,分別擬合集成LASSO回歸模型和傳統(tǒng)LASSO回歸模型,對2015年1月至2015年5月時(shí)期的流感病例數(shù)據(jù)進(jìn)行預(yù)測。結(jié)果顯示:集成LASSO回歸模型的預(yù)測誤差指標(biāo)RMSE、MAE、RE和SMAPE的取值分別是4393.83、3590.16、24.16%和23.87%,小于LASSO回歸模型的對應(yīng)的預(yù)測誤差(6326.23、5429.72、35.85%和39.60%)。圖1給出了集成LASSO回歸模型對該時(shí)期的流感流行趨勢進(jìn)行預(yù)測,集成LASSO回歸模型給出的由第10百分位數(shù)和第90百分位數(shù)所構(gòu)造的預(yù)測區(qū)間能夠準(zhǔn)確地覆蓋該時(shí)期內(nèi)季節(jié)性流感實(shí)際的流行曲線。
散點(diǎn)表示實(shí)際的流感病例數(shù),綠色曲線表示擬合值,上段灰色曲線和下段灰色曲線分別表示第10百分位數(shù)和第90百分位數(shù)取值,灰色區(qū)域表示模型擬合時(shí)期范圍(2011-01至2014-12),淺綠色區(qū)域表示模型預(yù)測時(shí)期范圍(2015-01至2015年05)
圖1 集成LASSO回歸模型對流感流行趨勢的預(yù)測
3.預(yù)測變量重要性測度
集成LASSO回歸模型對預(yù)測變量的重要性進(jìn)行測度。與季節(jié)性流感流行趨勢最密切的前5個(gè)百度檢索詞分別是:“a型流感”、“話說甲型h1n1流感(延遲1個(gè)月效應(yīng)項(xiàng))”、“豬流感死亡人數(shù)”、“甲型流感 癥狀(延遲1個(gè)月效應(yīng)項(xiàng))”和“話說甲型h1n1流感”。根據(jù)預(yù)測變量重要性測度結(jié)果,我們可以判斷在流感流行期間,人們通常采用這些檢索詞了解流感疫情。
表1 2011年1月至2015年5月中國季節(jié)性流感病例數(shù)
*:粗體的預(yù)測變量表示在第一步被剔除;斜體的預(yù)測變量表示在第二步被剔除;粗體加斜體的預(yù)測變量表示在第三步被剔除。
第一步:所選擇的關(guān)鍵檢索詞的含義比較明確,能代表影響流感流行的因素;第二步:所選擇的關(guān)鍵檢索詞是由特定時(shí)間單位(每月,每周或每日)構(gòu)成的序列;第三步:所選擇的關(guān)鍵檢索詞序列與流感病例序列的交叉相關(guān)系數(shù)≥0.4。
本研究首先介紹了Bagging方法和模型預(yù)測性能的多指標(biāo)優(yōu)化評估策略的基本原理,在此基礎(chǔ)上改進(jìn)了傳統(tǒng)LASSO回歸模型,與百度搜索數(shù)據(jù)結(jié)合,構(gòu)建了適合于流感疫情預(yù)測的集成LASSO回歸模型。研究結(jié)果證實(shí)了所構(gòu)建的集成LASSO回歸模型有效地改善了傳統(tǒng)LASSO回歸模型的預(yù)測效果,能夠?yàn)榧膊”O(jiān)測與預(yù)警方法研究提供新的思路。
本文所構(gòu)建的集成LASSO回歸模型適用于因變量服從正態(tài)分布的數(shù)據(jù)。當(dāng)數(shù)據(jù)樣本量較小和變量相關(guān)性較強(qiáng)時(shí),該模型對變量的選擇和模型系數(shù)的估計(jì)具有較強(qiáng)的穩(wěn)健性?;诎俣人阉鲾?shù)據(jù)構(gòu)建傳染病疫情預(yù)測系統(tǒng),需要綜合地評估大量的檢索詞,利用有效的檢索詞對傳染病流行趨勢作出預(yù)測。正是由于集成LASSO模型對模型系數(shù)進(jìn)行收縮估計(jì),使得一些弱相關(guān)的預(yù)測變量不被納入模型,提高了模型的整體預(yù)測效果。另外,本研究構(gòu)建的集成LASSO回歸模型是綜合多個(gè)評價(jià)指標(biāo)對模型預(yù)測效果進(jìn)行評估,從而使所構(gòu)建模型的預(yù)測效果在多個(gè)指標(biāo)上同時(shí)達(dá)到最優(yōu)。因此,本研究所提出的方法也適用于對模型預(yù)測效果進(jìn)行綜合評估的情況。
[1]Cowling BJ,Jin L,Lau EH,et al.Comparative epidemiology of human infections with avian influenza A H7N9 and H5N1 viruses in China:a population-based study of laboratory-confirmed cases.Lancet,2013,382(9887):129-37.
[2]Qi X,Qian YH,Bao CJ,et al.Probable person to person transmission of novel avian influenza A(H7N9) virus in Eastern China.BMJ,2013,347:f4752.
[3]Li Q,Zhou L,Zhou M,et al.Epidemiology of human infections with avian influenza A(H7N9) virus in China..N Engl J Med,2014,370(6):520-532.
[4]Feng L,Wu JT,Liu X,et al.Clinical severity of human infections with avian influenza A(H7N9) virus,China,2013/14.Euro Surveill.2014,19(49):20984.
[5]Chew C,Eysenbach G.Pandemics in the age of Twitter:content analysis of Tweets during the 2009 H1N1 outbreak.PLoS One,2010,5(11):e14118.
[6]Signorini A,Segre AM,Polgreen PM.The use of Twitter to track levels of disease activity and public concern in the U.S.during the influenza A H1N1 pandemic.PLoS One,2011,6(5):e19467.
[7]Ginsberg J,Mohebbi MH,Patel RS,et al.Detecting influenza epidemics using search engine query data.Nature,2009,457(7232):1012-1014.
[8]Doornik,JA.Improving the timeliness of data on influenza-like illnesses using Google search data.In 8th OxMetrics User Conference.George Washington University,Washington DC.2010.
[9]Yuan Q,Nsoesie EO,Lv B,et al.Monitoring Influenza Epidemics in China with Search Query from Baidu.Plos One,2013,8(5):e64323-e64323.
[10]Guo P,Zeng F,Hu X,et al.Improved Variable Selection Algorithm Using a LASSO-Type Penalty,with an Application to Assessing Hepatitis B Infection Relevant Factors in Community Residents.Plos One,2015,10(7).
[11]Leo Breiman.Bagging Predictors.Machine Learning,1996,24(2):123-140.
[12]Pihur V,Datta S,Datta S.Weighted rank aggregation of cluster validation measures:a Monte Carlo cross-entropy approach. Bioinformatics,2007,23(13):1607-1615.
[13]Leo Breiman.Better Subset Regression Using the Nonnegative Garrote.Technometrics,1995,37(4):373-384.
[14]Tibshirani R.Regression shrinkage and selection via the LASSO.Journal of the Royal Statistical Society.Series B(Methodological),1996,267-288.
[15]Efron B,Tibshirani R.An introduction to the Bootstrap.1993,Chapman and Hall.
[16]Pihur V,Datta S,Datta S.Weighted rank aggregation of cluster validation measures:a Monte Carlo cross-entropy approach.Bioinformatics,2007,23(13):1607-1615.
[17]Lin S,Ding J,Zhou J.Rank aggregation of putative microRNA targets with Cross-Entropy Monte Carlo methods.Preprint,presented at the IBC 2006 conference,Montreal.
[18]Fagin R,Kumar R,Sivakumar D.Comparing top k lists.SODA ′.03 Proceedings of the fourteenth annual ACM-SIAM symposium on Discrete algorithms,2003:28-36.
[19]Rubinstein RY.Optimization of computer simulation models with rare events.European Journal of Operational Research,1997,99(1):89-112.
[20]Hoens TR,Chawla NV.Generating Diverse Ensembles to Counter the Problem of Class Imbalance.Advances in Knowledge Discovery and Data Mining,2010,6119:488-499.
[21]Tin Kam Ho,Bell Labs,Murray Hill.IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(8):832-844.
[23]Breiman L.Random forests.Mach Learn,2001,45(1):5-32.
(責(zé)任編輯:郭海強(qiáng))
Building a Prediction System of Influenza Epidemics with LASSO Regression Model and Baidu Search Query Data
Guo Pi,Wang Li,Hao Yuantao
(DepartmentofPreventiveMedicine,ShantouUniversityMedicalCollege(515041),Shantou)
Objective To evaluate the performance of a prediction system built with LASSO regression model and Baidu search query data.Methods Based on a strategy using a combination of Bagging and multi-measure optimization method,this study proposed an ensemble LASSO regression model which had an obviously improved performance,and applied it to predict the epidemics of influenza in China.Results The results showed that the improved model had significantly smaller prediction error rates than that of the conventional LASSO regression model for influenza cases during the study period of 2011-2015.This study designed an open source R package,SparseLearner,which was conveniently used and further developed.Conclusion The combination of Bagging and multi-measure optimization method is an efficient strategy to improve the performance of LASSO regression model.The proposed ensemble LASSO regression model in this study can be applied for the prediction of infectious diseases epidemics.
Bagging;LASSO;Influenza;Prediction
1.汕頭大學(xué)醫(yī)學(xué)院公共衛(wèi)生與預(yù)防醫(yī)學(xué)教研室(515041)
2.中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系
3.中山大學(xué)衛(wèi)生信息中心、廣東省衛(wèi)生信息學(xué)重點(diǎn)實(shí)驗(yàn)室
△通信作者:郝元濤