謝月鋒 董現(xiàn)壘 陳卉 王燕 劉志成
摘要:為疾病突然爆發(fā)時醫(yī)療機(jī)構(gòu)能夠及時采取應(yīng)對措施合理配置醫(yī)療資源,本文以兒童腹瀉為例,利用網(wǎng)絡(luò)痕跡數(shù)據(jù),提供一種建模思路和方法,對兒童腹瀉的發(fā)生進(jìn)行即時預(yù)測。結(jié)果顯示,兒童腹瀉的發(fā)病具有明顯的周期性特征,同時大眾的網(wǎng)絡(luò)搜索行為與相關(guān)就診量具有明顯的相關(guān)性,人們可以利用網(wǎng)絡(luò)痕跡數(shù)據(jù)即時預(yù)測兒童疾病的未來就診量。
關(guān)鍵詞:公共網(wǎng)絡(luò);痕跡數(shù)據(jù);兒童腹瀉;數(shù)據(jù)挖掘;趨勢預(yù)測
在環(huán)境惡化等因素的影響下,近些年突然爆發(fā)某種疾病的現(xiàn)象時有發(fā)生,對醫(yī)院的應(yīng)急管理系統(tǒng)提出挑戰(zhàn)。例如,目前多數(shù)醫(yī)院是依靠經(jīng)驗給醫(yī)生排班。比如首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院會提前3個月就排好班次,如沒有特殊情況一般很少變動。這種模式具備一定的優(yōu)勢:患者可以提前預(yù)約掛號以減少排隊或等待時間,醫(yī)生則可以分散患者進(jìn)行診治以提高效率。但是當(dāng)某種疾病爆發(fā)時,醫(yī)院只能根據(jù)即時的就醫(yī)情況,臨時啟動應(yīng)急預(yù)案,解決突如其來的大批量患者就醫(yī)問題。由于時間短,任務(wù)重,應(yīng)急預(yù)案的執(zhí)行具有極大的不確定性,加上就醫(yī)患者的情緒波動等因素,就醫(yī)場所混亂的場景時有發(fā)生。再者,對于藥品的采購,醫(yī)院通常是根據(jù)歷史經(jīng)驗建立藥品基數(shù),繼而每天根據(jù)缺藥情況產(chǎn)生采購訂單,進(jìn)行補藥,正常情況下是可以滿足臨床需求。但是當(dāng)某種疾病突然爆發(fā)時,就有可能出現(xiàn)特定藥品缺貨的現(xiàn)象。此時,如果在疾病的爆發(fā)初期就能預(yù)測未來幾天的就醫(yī)狀況,醫(yī)院就可以有較充分的時間來提前安排相關(guān)專業(yè)的醫(yī)生以及現(xiàn)場疏導(dǎo)人員,也能隨時對特定藥品等醫(yī)療資源進(jìn)行預(yù)見性地調(diào)配,以應(yīng)對臨床可能出現(xiàn)的緊急情況,從而井然有序的定向迎接"突然"增多的就醫(yī)患者,大大提高醫(yī)療應(yīng)急管理效率。也就是說,在疾病大規(guī)模爆發(fā)的前期對其進(jìn)行精確的"即時預(yù)測"具有重要的意義。
即時預(yù)測("nowcasting")與一般意義的預(yù)測不同,其目的并不是為了預(yù)測未來(長期)的狀況,而是為了清楚地把握當(dāng)前的信息狀況[1]。要把握即時信息或?qū)崟r信息,就必須利用發(fā)布即時信息的平臺,而社交媒體(包括搜索引擎)的出現(xiàn)和發(fā)展,為這一技術(shù)提供了關(guān)鍵性的支持。社交媒體中大量持續(xù)出現(xiàn)的即時信息為即時預(yù)測提供了可能,充分利用社交媒體中有效的即時信息,就有希望改善此類醫(yī)療應(yīng)急管理的現(xiàn)狀。對大眾網(wǎng)絡(luò)行為信息(網(wǎng)絡(luò)痕跡數(shù)據(jù))進(jìn)行分析成為大數(shù)據(jù)分析的重要內(nèi)容,而將社交媒體大數(shù)據(jù)信息引入到疾病的預(yù)測和管理中,是本文的主要研究思路。本文利用百度搜索數(shù)據(jù)(百度指數(shù)),對兒童腹瀉這種多發(fā)疾病的即時預(yù)測進(jìn)行了研究。
1 即時預(yù)測的國內(nèi)外研究現(xiàn)狀
在互聯(lián)網(wǎng)中,人們不停地進(jìn)行交流和搜索,產(chǎn)生了源源不斷的網(wǎng)絡(luò)痕跡數(shù)據(jù)[2-3]。相關(guān)研究發(fā)現(xiàn),信息的發(fā)生雖然是不可提前預(yù)測的,但是早期的一些跡象及信息可以從社交媒體網(wǎng)絡(luò)中即時獲取,比如博客、微博、論壇以及搜索引擎等[2]。于是隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,人們開始研究社交媒體潛在信息與經(jīng)濟(jì)、社會指標(biāo)之間的關(guān)系[4-5]。已經(jīng)有研究表明,社交媒體的潛在信息具有預(yù)測價值,如可以預(yù)測書籍的銷售結(jié)果[6]、票房的收入[7]甚至股市道瓊斯指數(shù)的波動[8-9]等。搜索引擎數(shù)據(jù)作為一種相對比較容易獲得的社交媒體數(shù)據(jù),也被廣泛的應(yīng)用于該類研究中。比如谷歌趨勢的數(shù)據(jù)可以被用來即時預(yù)測不同地區(qū)流感的流行狀況[10]以及各種經(jīng)濟(jì)指標(biāo)數(shù)值,也有相關(guān)學(xué)者提出一系列建模方法研究消費者信心指數(shù)[11-13]或揭示著作的發(fā)表規(guī)律和趨勢等[14]。人們還基于話題搜索工具構(gòu)建量化模型,研究消費者行為[15]以及疾病的流行和發(fā)生趨勢[16]等。然而目前國內(nèi)還沒有利用網(wǎng)絡(luò)數(shù)據(jù)來對疾病進(jìn)行即時預(yù)測的研究,并且對網(wǎng)絡(luò)痕跡數(shù)據(jù)的量化分析與應(yīng)用研究,多數(shù)還是以傳統(tǒng)的統(tǒng)計分析、回歸分析為主,通過描述數(shù)據(jù)的統(tǒng)計特征或者通過一般的函數(shù)擬合與估計(如通過變量合并來降維[17-18])來描述或預(yù)測網(wǎng)絡(luò)痕跡數(shù)據(jù)與特定社會、經(jīng)濟(jì)指標(biāo)之間的關(guān)聯(lián)[19-22]。本文將在前人研究的基礎(chǔ)上,提出一種分析網(wǎng)絡(luò)數(shù)據(jù)和醫(yī)療指標(biāo)相關(guān)關(guān)系的即時預(yù)測模型,以兒童腹瀉為例,展示其在疾病即時預(yù)測方面的功用。
2 數(shù)據(jù)獲取與建模
2.1數(shù)據(jù)準(zhǔn)備 本文所使用的數(shù)據(jù)主要有兩部分,時間跨度均從2011年1月~2015年10月。
2.1.1首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院歷史就診數(shù)據(jù),近幾年醫(yī)療信息化發(fā)展迅速,首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院2006年住院全面實現(xiàn)電子化,2009年門診全面實現(xiàn)電子化,臨床醫(yī)療數(shù)據(jù)以相對標(biāo)準(zhǔn)化的形式儲存在數(shù)據(jù)庫中,大大方便了對數(shù)據(jù)的統(tǒng)計分析。圖中以腹瀉和上呼吸道感染為例,展示了近幾年就診量變化趨勢,見圖1。本文的建模分析則主要以首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院兒童腹瀉的就診數(shù)據(jù)為例。
3.1.2大眾對疾病相關(guān)關(guān)鍵詞的網(wǎng)絡(luò)搜索數(shù)據(jù),來自于百度指數(shù)。百度指數(shù)是由百度公司提供的以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺。百度指數(shù)由百度搜索引擎提供,其可以提供用戶查詢某問題被搜索的頻率隨時間變化的趨勢數(shù)據(jù),如搜索規(guī)模、漲跌態(tài)勢、人群分布等等。將搜索的地點鎖定為北京市,就可以得到北京市市民對于特定話題(關(guān)鍵詞)的搜索趨勢數(shù)據(jù)。
由于百度指數(shù)不提供數(shù)據(jù)下載支持(只有圖像趨勢、無公開的API并且加密),本文利用易佰百度指數(shù)批量查詢工具對數(shù)據(jù)進(jìn)行抓取,可以獲得每個關(guān)鍵詞每天的搜索量,對其進(jìn)行統(tǒng)計處理就可以獲得特定關(guān)鍵詞的月度搜索趨勢數(shù)據(jù)(可分為總體趨勢,PC端趨勢和移動端趨勢),見圖2。
2.2模型的構(gòu)建
2.2.1變量處理與選取 百度指數(shù)的總體趨勢是PC端趨勢和移動端趨勢的和,為了防止變量間的完全共線性,本文只選擇PC端趨勢和移動端趨勢的數(shù)據(jù)進(jìn)行建模擬合。接下來,首先考查所選擇自變量(百度指數(shù)數(shù)據(jù))的相關(guān)性,相關(guān)系數(shù)如表1所示。
從表 1可以看出,來自百度指數(shù)的數(shù)據(jù)有較高的相關(guān)性,部分變量間的相關(guān)系數(shù)高達(dá)0.998以上,為了避免方程的多重共線性,考慮將以上變量進(jìn)行主成分分析,結(jié)果見表2及圖3。
從主成分分析的結(jié)果來看(表2及圖3),前兩主成分就可以比較全面的包含原百度指數(shù)的信息,達(dá)92.24。因此,本文選擇前兩個主成分進(jìn)行建模,從而避免多重共線性的同時,降低自變量的維度,使得建模更容易。表3列出了所選取的兩個主成分變量Ci(i=1,2)與原百度指數(shù)變量之間的具體計算關(guān)系,即:
2.2.2模型的構(gòu)建 從圖1可以看出,兒童腹瀉的歷史就診數(shù)據(jù)中不存在明顯的趨勢變化,但是存在比較明顯的季節(jié)性現(xiàn)象,即每年基本有兩個患病高峰期,大概為3月和10月附近,因此,本文考慮構(gòu)建包含季節(jié)性周期的狀態(tài)空間模型。
3結(jié)果與分析
利用Stata求解方程(3),擬合數(shù)據(jù)與觀測的就診數(shù)據(jù)的對比見圖4,擬合曲線基本和觀測曲線的趨勢基本一致,能夠較好的表現(xiàn)出實際就診數(shù)量的變化和趨勢,也說明了模型的擬合效果相對較好。
從系數(shù)擬合的結(jié)果來看,P值均小于0.01,方程的擬合效果相對較好。接下來,我們對就診數(shù)據(jù)的季節(jié)性和原百度指數(shù)變量進(jìn)行分析。
3.1就診數(shù)據(jù)的季節(jié)性周期 通過模型求解,可以獲得兒童腹瀉的的季節(jié)性周期,見圖5。從建模的結(jié)果來看,兒童腹瀉的就診情況具有明顯的季節(jié)性周期特點,一般的,每年2月和3月腹瀉疾病的高發(fā)期(春節(jié)附近),而每年的5~7月則相對發(fā)病較少。
3.2兒童腹瀉就診量與大眾網(wǎng)絡(luò)行為的關(guān)系分析 從表4中的擬合結(jié)果可以看出大眾網(wǎng)絡(luò)搜索行為與兒童腹瀉的就診量變化具有明顯的相關(guān)關(guān)系,具體地,大眾網(wǎng)絡(luò)行為與兒童腹瀉就診量的關(guān)系如圖6所示。從圖中可以看出,人們的網(wǎng)絡(luò)搜索行為會在一定程度上顯示人們對兒童腹瀉的就診需求狀況。兒童的腹瀉會導(dǎo)致人們在該領(lǐng)域的網(wǎng)絡(luò)搜索行為,同時也會導(dǎo)致兒童醫(yī)院的腹瀉就診量增加。從模型的結(jié)果來看,由大眾網(wǎng)絡(luò)搜索行為引致的相關(guān)就診量大概維持在8800上下,即大眾網(wǎng)絡(luò)搜索行為(對于兒童腹瀉相關(guān)話題)與兒童腹瀉的就診量具有顯著的相關(guān)性。
3.3利用大眾網(wǎng)絡(luò)搜索數(shù)據(jù)即時預(yù)未來兒童腹瀉的就診量 本文將兒童腹瀉的就診量分解為兩部分,即季節(jié)性變化和由大眾網(wǎng)絡(luò)行為引致的就診量變化。一般地,季節(jié)性變化具有周期規(guī)律,只要明確具體的月份就可以了解當(dāng)月的周期性特點。而網(wǎng)絡(luò)行為數(shù)據(jù)一般會早于醫(yī)院的就診數(shù)據(jù)可以提前獲得:比如可以利用當(dāng)月上半月的搜索數(shù)據(jù)(2倍)作為對當(dāng)月搜索數(shù)量的預(yù)測,這樣就可以利用網(wǎng)絡(luò)搜索數(shù)據(jù)來即時預(yù)測未來一段時期的兒童疾病的就診量。
4 結(jié)論與總結(jié)
利用大眾網(wǎng)絡(luò)的搜索數(shù)據(jù)(百度指數(shù)),本文提出了利用網(wǎng)絡(luò)痕跡信息即時預(yù)測流行性疾病的思路和方法。以首都醫(yī)科大學(xué)附屬北京兒童醫(yī)院兒童腹瀉的就診情況為例,本文首先從百度指數(shù)獲得與兒童腹瀉相關(guān)的話題和關(guān)鍵詞的搜索量隨時間變化的趨勢數(shù)據(jù),然后分析其相關(guān)性。為了防止模型的多重共線性,本文利用主成分分析提取了解釋變量的主成分,進(jìn)而利用包含有季節(jié)性周期的狀態(tài)空間模型進(jìn)行建模并獲得擬合結(jié)果。模型擬合結(jié)果較好,通過建模和求解,可以獲得結(jié)論如下。
網(wǎng)絡(luò)痕跡數(shù)據(jù)蘊含了大量有價值的潛在信息,人們可以通過一定的技術(shù)手段獲得其中的潛在信息。由于網(wǎng)絡(luò)痕跡數(shù)據(jù)具有實時性,因此人們可以通過分析網(wǎng)絡(luò)痕跡數(shù)據(jù)進(jìn)行相關(guān)社會-經(jīng)濟(jì)指標(biāo)的即時預(yù)測。同時,從網(wǎng)絡(luò)中獲得有價值的潛在信息相對于傳統(tǒng)的統(tǒng)計、問卷等方法也具有一定的優(yōu)越性,可以降低成本,提高效率,保證信息的客觀性。
從具體的建模結(jié)果來看,兒童腹瀉的發(fā)病具有明顯的周期性特征,同時大眾的網(wǎng)絡(luò)搜索行為與相關(guān)就診量具有明顯的相關(guān)性,人們可以利用網(wǎng)絡(luò)痕跡數(shù)據(jù)即時預(yù)測兒童疾病的未來就診量,而本文的建模思路和方法為其提供了一種行之有效的方案。
5討論
本文以兒童腹瀉為例,通過建模求解得出結(jié)論,進(jìn)一步可選取幾種其他常見疾病,獲取數(shù)據(jù),對結(jié)論進(jìn)行驗證。同時,可選取不同區(qū)域(華北、華中、華南),分別對結(jié)論進(jìn)行驗證。另一方面,在大眾網(wǎng)絡(luò)搜索行為與相關(guān)就診量具有明顯相關(guān)性的基礎(chǔ)上,可以進(jìn)行更深層次的研究,最終得出大眾網(wǎng)絡(luò)搜索行為相對于相關(guān)就診量的提前量。從而就可以確定即時的大眾網(wǎng)絡(luò)搜索行為可以預(yù)測未來哪個時間點的就診量。
參考文獻(xiàn):
[1]Scott, S., & Varian, H.. Predicting the Present With Bayesian Structural Time Series[J].International Journal of Mathematical Modeling and Numerical Optimization, 2014, 5(1-2): 4-23.
[2]Bello-Orgaz, G., Jung, J.J. & Camacho, D.. Social Big Data: Recent Achievements and New Challenges[J].Information Fusion, 2016, 28(C): 45-59.
[3]Marz, N. & Warren, J.. Big Data: Principles and Best Practices of Scalable Realtime Data Systems[M]. Pearson Schweiz Ag, 2015.
[4]Arora, D. & Malik, P.. Analytics: Key to Go from Generating Big Data to Deriving Business Value[C]. First International Conference on Big Data Computing Service & Applications. IEEE Computer Society, 2015: 446-452.
[5]Collins, B.. Big Data and Health Economics: Strengths, Weaknesses, Opportunities and Threats[J].Pharmacoeconomics, 2015:1-6.
[6]Gruhl, D., Guha, R., Kumar, R., et al. The Predictive Power of Online Chatter[C]. Proceedings of the 11th ACM SIGKDD International Conference on Knowledge Discovery in Data Mining (KDD). Now York, USA: ACM, 2005:78-87.
[7]Asur, S., & Huberman, B.A.. Predicting the Future with Social Media[C]. Web Intelligence and Intelligent Agent Technology, Toronto, 2010, 1: 492-499.
[8]Gilbert, E., & Karahalios, K.. Widespread Worry and the Stock Market[C]. Proceedings of the 4th International Conference on Weblogs and Social Media, 2010: 59-65.
[9]Bollen, J., Mao, H., & Zeng, X.. Twitter Mood Predicts the Stock Market[J]. Journal of Computational Science, 2011, 2(1): 1-8.
[10]Araz, O. M., Bentley, D., & Muelleman, R.. Using Google Flu Trends Data in Forecasting Influenza-Like-Illness Related Emergency Department Visits in Omaha, Nebraska[J]. The American Journal of Emergency Medicine, 2014, 32(9):1016-1023.
[11]Dong, X., Bollen, J.. Computational models of consumer confidence from large-scale online attention data: crowd-sourcing econometrics[J]. PLOSONE, 2015, 10(3): e0120039.
[12]董現(xiàn)壘,Bollen Johan,胡蓓蓓. 貝葉斯視角下社交媒體數(shù)據(jù)的挖掘與應(yīng)用研究[J]. 軟科學(xué), 2015,(9):96-101.
[13]董現(xiàn)壘, Bollen Johan,胡蓓蓓. 基于網(wǎng)絡(luò)搜索數(shù)據(jù)的中國消費者信心指數(shù)測算與分析[J]. 統(tǒng)計與決策. 2016,(5): 9-13.
[14]Dong, X., Xu, J., Ding, Y., Zhang, C., Zhang, K., and Song M.. Understanding the Correlations between Social Attention and Topic Trends of Scientific Publications[J].Journal of Data and Information Science, 2016, 1(1): 28-49
[15]Goel, S., Hofman, J. M., Lahaihe, S., Pennock, D. M., & Watts, D. J.. Predicting Consumer Behavior with Web Search[J].Proceedings of the National Academy of Sciences of the United States of America, 2010, 107(41): 17486-17490.
[16]Gluskin, R. T., Johansson, M. A., Santillana, M., & Brownstein, J. S.. Evaluation of Internet-Based Dengue Query Data: Google Dengue Trends[J].PLoS Neglected Tropical Diseases, 2014, 8 (2): 85-88.
[17]du Preez, J. & Witt, S. F.. Univariate Versus Multivariate Time Series Forecasting: An Application to International Tourism Demand[J]. International Journal of Forecasting, 2003,19: 435-451.
[18]Bangwayo-Skeete, P. F. & Skeete, R. W.. Can Google Data Improve the Forecasting Performance of Tourist Arrivals? Mixed-Data Sampling Approach[J].Tourism Management, 2015, 46: 454-464.
[19]嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機(jī)技術(shù)與發(fā)展, 2013, 04: 168-172.
[20]王元卓, 靳小龍, 程學(xué)旗. 網(wǎng)絡(luò)大數(shù)據(jù): 現(xiàn)狀與展望[J]. 計算機(jī)學(xué)報, 2013, 06: 1125-1138.
[21]覃雄派,王會舉,杜小勇, 王珊.大數(shù)據(jù)分析-RDBMS與MapReduce的競爭與共生[J]. 軟件學(xué)報, 2012, 23(1): 32-45.
[22]陶雪嬌,胡曉峰, 劉洋.大數(shù)據(jù)研究綜述[J]. 系統(tǒng)仿真學(xué)報, 2013(S1).
編輯/金昊天