陳霖
董恩盛。1989年生于山西,美國約翰·霍普金斯大學土木與系統(tǒng)工程系博士一年級學生。2020年1月底起,與導師和同學制作的疫情地圖成為全球最受關(guān)注的統(tǒng)計內(nèi)容。
約翰·霍普金斯大學的疫情地圖又創(chuàng)紀錄了。這是全球最受關(guān)注的新冠肺炎數(shù)據(jù)統(tǒng)計網(wǎng)站,1月底上線,日訪問量從2億次攀升至20億次。當記者采訪網(wǎng)站主要制作人、該校土木與系統(tǒng)工程系的中國博士生董恩盛時,他告訴記者,最近的日訪問量高峰已達45億次。網(wǎng)站全稱是“交互式、實時監(jiān)控新冠病毒的儀表盤”,就是將收集來的數(shù)據(jù)做成可大可小的紅點,實時反映全球確診人數(shù)。人們更習慣稱其為疫情地圖,目前單一圖層的累計訪問量就有161億,相當于世界上每個人平均打開它至少兩次。記者與董恩盛約定時間,他在美國東部的馬里蘭州,與北京時間相差12個小時,經(jīng)過比對,最終定在美國東部時間晚上9點。隨時計算時差是他制作疫情地圖時養(yǎng)成的習慣,這幾個月就像在“與時差作戰(zhàn)”。
1月17日,新冠肺炎疫情已在中國暴發(fā),董恩盛正在學校,“我是中國人,很擔心國內(nèi)疫情”,便想制作模型呈現(xiàn)疫情發(fā)展。幾天后,其他國家也曝出疫情,董恩盛的導師勞倫·加德納也意識到模型的重要性,兩人一拍即合。董恩盛花了七八個小時做了初版的疫情地圖網(wǎng)站,整理各國公布的數(shù)據(jù),于1月22日上線。
不過,全球有24個時區(qū),要實時整理所有數(shù)據(jù),他幾乎連軸轉(zhuǎn)。每天,他在美東時間早上8點半更新第一次,“這個時間正趕上國內(nèi)衛(wèi)健委更新數(shù)據(jù)”,然后在中午12點、下午三四點、晚上8點前查看。晚上8點后,許多歐洲國家更新數(shù)據(jù)了,他有時也會查看。于是,他每天要確認至少4次,下了課就查數(shù)據(jù),只睡四五個小時。起初,他只能手動更新,澳大利亞報告首例確診病例那天,就因為太累睡著而錯過了?!耙挥X醒來,發(fā)現(xiàn)有好幾個未接電話,是導師打給我的,告訴我澳大利亞出現(xiàn)病例?!?/p>
疫情暴發(fā)速度非常快,各國的統(tǒng)計網(wǎng)站也不斷在細化,“以中國為例,一開始是全國確診數(shù),幾天后變成各省,之后又細化到市、縣等。疫情暴發(fā)的國家增多,許多統(tǒng)計網(wǎng)站開始分大洲”。這些統(tǒng)計單位每變一次,疫情地圖的程序也要變,即便不眠不休也趕不上全球確診人數(shù)增加的速度。直到2月初,他的中國同學杜鴻儒加入小組,讓他們告別了“純手工作業(yè)”。
杜鴻儒和董恩盛均是加德納指導的學生,他設(shè)計了自動抓取中國數(shù)據(jù)的程序。杜鴻儒告訴記者:“當各國數(shù)據(jù)更新,計算機便會監(jiān)測到,馬上給我們發(fā)郵件。如果確診人數(shù)突然減少,這明顯不合邏輯,我們就要上網(wǎng)查證?!边@節(jié)省了許多時間,他們可把精力放在人工核實上。杜鴻儒說,董恩盛很細心,“核實美國3000多個郡縣的確診數(shù)據(jù)時,他幾乎沒有遺漏,一個人完成了龐大的數(shù)據(jù)整理”。如今,疫情地圖每20分鐘便能自動更新一次。
疫情地圖項目開設(shè)了面向全球的郵箱,“任何人發(fā)現(xiàn)數(shù)據(jù)不對或未更新,都可以發(fā)郵件告訴我”。有網(wǎng)友發(fā)現(xiàn)自家臨近地區(qū)有了新病例,但當?shù)卣蛎襟w未更新,就發(fā)郵件給董恩盛?!暗谝粫r間從用戶那獲得當?shù)氐臄?shù)據(jù),使得疫情地圖更新速度遠快于許多國際媒體?!?/p>
除了更新快,動態(tài)、可視化設(shè)計也使疫情地圖在眾多統(tǒng)計網(wǎng)站中脫穎而出。大部分疫情統(tǒng)計網(wǎng)站只能呈現(xiàn)某國的確診人數(shù),或用顏色深淺顯示確診數(shù)量,“深的代表確診數(shù)多”。但董恩盛設(shè)計的地圖用大小不一的紅點呈現(xiàn)確診數(shù)的多寡,縮小地圖可見紅點在全球的分布,放大則能看到各國、各城市或郡縣的數(shù)據(jù)。他記得,疫情地圖受到關(guān)注后,日本、泰國、以色列等國也參照這個模式設(shè)計統(tǒng)計網(wǎng)站。在一些醫(yī)療條件不是很先進的國家,老百姓能借此了解自己國家和鄰國的疫情?!耙咔榈貓D上線兩周,幾乎每個國家都有人訪問我們的網(wǎng)站。”
2020年3月初,董恩盛(右)和杜鴻儒在辦公室,屏幕上即為疫情地圖。
自疫情暴發(fā)以來,國內(nèi)外媒體介紹疫情時,常引用疫情地圖的數(shù)據(jù),美國、德國、意大利的衛(wèi)生部門和各級政府開會討論時,會議室大屏幕實時展示的也是疫情地圖,導師加德納也被邀請到國會演講,介紹這幅“地圖”。2月19日,世界頂級醫(yī)學期刊《柳葉刀》的副刊《柳葉刀傳染病》發(fā)表了董恩盛、杜鴻儒與導師聯(lián)合撰寫的文章《實時追蹤新冠病毒的交互式網(wǎng)站儀表盤》,介紹疫情地圖的設(shè)計和數(shù)據(jù)。學術(shù)期刊從投稿至發(fā)表,一般短則幾個月、長則一兩年,但這篇文章不到3天便發(fā)表了。并且,一般來說,谷歌學術(shù)引用量能上百已是不錯,這篇文章目前的引用量已超300次。此外,董恩盛和團隊還分別收到諾貝爾化學獎得主、經(jīng)濟學獎得主發(fā)來的郵件,感謝他們制作的疫情地圖。
董恩盛可以這么快制作出數(shù)據(jù)模型,因為以前就有傳染病的建模經(jīng)歷。去年,美國暴發(fā)了25年來最嚴重的麻疹疫情。董恩盛入學沒多久,就跟著導師做了可視化模型,預測美國麻疹病毒風險。他們研究國際大都市,“這類城市的國際航班很多,如果航班出發(fā)地病例多,而到達地的麻疹疫苗接種率不高,就可能暴發(fā)疫情”。根據(jù)這個模型,他們成功預測到洛杉磯1月份暴發(fā)的麻疹。
不過,這次制作新冠肺炎疫情地圖時,董恩盛發(fā)現(xiàn)各國對“確診”的定義并不一樣,有的分類很繁雜,給統(tǒng)計帶來了巨大挑戰(zhàn)。一般來說,“檢測試劑呈陽性的患者”和“新冠肺炎病例”是兩種對確診病例的說法,前者是檢測結(jié)果,后者是經(jīng)由官方確認檢測結(jié)果且已對外公布的病例。確診人數(shù)一般指這兩個分類的總和。由于確認流程需要時間,在發(fā)現(xiàn)新病例時,不少媒體會先以“試劑呈陽性”報道病例數(shù)。
疫情地圖上,紅點可放大、縮小,呈現(xiàn)不同地理范疇的疫情數(shù)據(jù)。
董恩盛介紹,在法國,“確診病例”指醫(yī)院內(nèi)確診的+醫(yī)院外確診的病例,排除了檢測結(jié)果呈陽性的人。但同時法國還有一種分類“醫(yī)院外確診的病例”,指在醫(yī)院外確診+檢測結(jié)果呈陽性的病例。這兩個分類重復的部分是醫(yī)院外確診的病例,而一些國際媒體報道時直接將這兩個分類相加,導致數(shù)據(jù)重疊。董恩盛便請懂法語的志愿者每天上法國網(wǎng)站,聽政府長達半小時的法語新聞發(fā)布會,記下不同分類的數(shù)據(jù),從中摘取出“醫(yī)院內(nèi)確診+醫(yī)院外確診+檢測結(jié)果呈陽性的病例”,這個數(shù)字便是我們通常理解的確診人數(shù)。
此外,領(lǐng)地歸屬也影響了統(tǒng)計。法國有些海外領(lǐng)地和省,而官方公布的確診人數(shù)并未明確說明是否包含這些地區(qū),最近董恩盛和團隊正和法國衛(wèi)生部門溝通,確認數(shù)據(jù)含義。
保護確診患者的隱私也很重要。此前,“鉆石公主號”游輪上出現(xiàn)了美國病例,后來部分人撤回美國,董恩盛和團隊決定,把這些病例加到總的確診數(shù)中,但為了保障病人隱私,不在某個地點標記出數(shù)字。
3月的一天,一位穿著棕色休閑服的老人走進董恩盛和導師所在的會議室?!耙驗橐咔?,當時已經(jīng)封校,基本只有清潔工進出。他穿著樸素,我就以為他是清潔人員。”老人離開后,導師告訴他這是校長,董恩盛才恍然大悟,“校長在疫情期間來看望我們,我很感動”。約翰·霍普金斯大學為他們提供了許多支持?!霸疚以谘芯渴业囊粋€小方格”,多虧學校提供會議室,董恩盛和團隊能在保證安全的前提下制作地圖。
公共衛(wèi)生學院的老師和學生也提供了不少支持。該學院在全美的公衛(wèi)領(lǐng)域排名第一,董恩盛的導師加德納是土木與系統(tǒng)工程系的老師,畢業(yè)于得克薩斯州奧斯汀分校,后到澳大利亞新南威爾士大學教書,指導的本科生就能在《自然》雜志的子刊發(fā)文。后來,加德納到約翰·霍普金斯大學求職,立刻拿到終身教職。她專攻傳染病模型,也在公共衛(wèi)生學院任職,常帶董恩盛到公衛(wèi)學院聽講座,學習傳染病等相關(guān)知識?!肮l(wèi)學院的同學對公共衛(wèi)生系統(tǒng)很了解,有時候一眼就看出數(shù)據(jù)不對勁,并幫我們想解決方案?!贝送?,應(yīng)用物理研究所的專家?guī)兔ι壘W(wǎng)站,提高抓取數(shù)據(jù)的速度;學校圖書館則招募小語種志愿者,像法國等國的疫情統(tǒng)計數(shù)據(jù)就由這些志愿者翻譯。
董恩盛生于山西,本科畢業(yè)后到美國愛達荷大學讀碩士,其間到全球最大的地理信息系統(tǒng)技術(shù)提供商ESRI公司實習。這家公司擁有成熟的地理分析技術(shù),此次疫情地圖的底層技術(shù)就由該公司提供,董恩盛在那里積攢了許多可視化地圖制作經(jīng)驗。此后,他任職于一家電力調(diào)度公司,負責繪制美國部分地區(qū)電網(wǎng),之后到東岸一家電信公司維護電信設(shè)施數(shù)據(jù)庫?!翱傊?,在美國,從南到北、從西到東都跑過了?!焙髞恚胱邔W術(shù)道路,便申請到約翰·霍普金斯大學讀博。
疫情地圖對所有人公開,也意味著數(shù)據(jù)可以直接被人拿去使用。一些公司的軟件套用了疫情地圖的統(tǒng)計數(shù)據(jù),“當用戶下載軟件時,就給人一種錯覺:如果你想用疫情地圖的數(shù)據(jù),就必須買這個軟件”。還有一些非常知名的大公司聯(lián)系約翰·霍普金斯大學,想購買疫情地圖的數(shù)據(jù)作為商用?!爸谱饕咔榈貓D和公開數(shù)據(jù)的初衷是為了學術(shù)研究想公開數(shù)據(jù),也為了讓公眾更多人了解疫情,我們目前不想受到資本的影響?!?/p>
疫情地圖大火后,董恩盛常能在各種社交平臺上看到親朋好友轉(zhuǎn)發(fā)疫情地圖。最近,他和團隊有了新計劃。他們正在收集檢測人數(shù)、各地死亡率和患病率等新數(shù)據(jù),試著做出新模型以預測全球疫情走向。董恩盛說,希望疫情地圖保障各國民眾對疫情的知情權(quán)。