劉勇, 郝璐瑤, 趙文濤, 劉佳
(南京航空航天大學, 信息化處, 江蘇, 南京 210016)
2020年,一場突如其來的新冠疫情(COVID-19)迅速席卷全球。疫情爆發(fā)一年多以來,給包括高校在內(nèi)的整個社會帶來了嚴重的影響。由于疫情的蔓延及防控措施,給交通、餐飲、娛樂等產(chǎn)業(yè)帶來了直接沖擊,對中國經(jīng)濟增長帶來重要的影響,同時新冠肺炎疫情在海外呈快速蔓延態(tài)勢,對美國、歐盟、日本等世界主要經(jīng)濟體經(jīng)濟增長帶來嚴重打擊,全球經(jīng)濟遭遇了上世紀30年代大蕭條以來的最嚴重衰退。高校也不能在全球疫情爆發(fā)的大背景下獨善其身,紛紛延遲開學,通過“網(wǎng)課”,實現(xiàn)“停課不停學”,并通過一系列信息化防控手段,實現(xiàn)了精準防控。新冠疫情的爆發(fā)在一定程度上促進了信息技術和在線教育的普及推廣,并助推了大學治理能力和效能的提升。
2020年來,全國疫情雖然得到了有力控制,但形勢依然嚴峻復雜,包括高校在內(nèi)的社會各種單位不能有一絲懈怠,必須按照中央有關部署全力做好疫情防控各項工作。
傳統(tǒng)防疫一般采取“人海戰(zhàn)術+手工表格+手工確認+逐級上報”的手工作坊式手段,往往造成通傳不暢、數(shù)據(jù)“打架”、組織低效、管理困難等突出問題。使用QQ、微信群等傳統(tǒng)手段,無法確認學生是否已讀,輔導員班主任需要逐個確認,尤其鄰近開學,通知越來越多;疫情采集依賴手工表格、問卷工具,不匹配學校管理模式,效率低下,統(tǒng)計繁瑣;校門入口管控中,通過手工確認學生身份信息,手工體溫檢測、效率低、易聚集,同時也造成校外人員出入管理無依據(jù)、風險大,容易引入疫情風險;以上都是傳統(tǒng)疫情防控存在的突出問題。
大數(shù)據(jù)分析是指對規(guī)模巨大的數(shù)據(jù)進行分析,通過大數(shù)據(jù)分析挖掘人物事件之間隱藏的關系。大數(shù)據(jù)具有數(shù)據(jù)規(guī)模巨大、產(chǎn)生高速、表現(xiàn)形式和內(nèi)容多樣等特點。早在2020年1月,工信部即召開疫情防控大數(shù)據(jù)支撐服務工作調度會,提出“運用大數(shù)據(jù)分析,加強聯(lián)防聯(lián)控,實現(xiàn)精準施策,確保疫情防控科學有效推進”。
當前,大數(shù)據(jù)已經(jīng)被廣泛應用在疫情防控過程中,并起到顯著效果。通過電信大數(shù)據(jù)對用戶位置軌跡數(shù)據(jù)進行多元場景分析,支撐湖北、北京新發(fā)地、石家莊等疫情中高風險地區(qū)密切接觸人員流動情況分析,服務疫情態(tài)勢研判、疫情防控部署。浙江等省份通過充分運用“大數(shù)據(jù)+網(wǎng)格化”手段嚴密開展全面排查,精準滾動排摸相關人員,落實具體管控措施。全球健康藥物研發(fā)中心聯(lián)合清華大學通過人工智能藥物研發(fā)平臺和大數(shù)據(jù)分享平臺,加速新型冠狀病毒藥物研發(fā)。重慶市、黑龍江省等各省市公安局運用公安大數(shù)據(jù)服務支撐疫情防控工作,實現(xiàn)資源匯集、手段集成,編織起了一張牢固的數(shù)字化疫情防控網(wǎng)。大數(shù)據(jù)模型還為政府決策復工復產(chǎn)提供科學參考。
由于本次疫情爆發(fā)正處于學生寒假的特殊節(jié)點,這對高校各項防疫抗疫活動的開展造成了一定的困難,例如師生的健康狀況難以把握、師生的實際地理位置難以確定、開學如何調度返校批次、遠程實時監(jiān)控師生在校健康狀況以及在公共場所如何追蹤學生軌跡位置等。
高校師生遍及全國各個省市直轄市,地理跨度大、疫情嚴重程度不一、遠程溝通不通暢,使得學校難以準確把握師生健康狀況;疫情期間,部分師生的行動軌跡難以界定,無法確定其活動半徑,存在潛在感染和被感染風險;開學時,人流量大,交叉感染風險高,解決在盡可能不影響教學活動的同時實現(xiàn)學生的安全入學的問題,十分迫切;校園里,人員密度大,傳染風險高,一方面對全校師生的健康狀況的實時監(jiān)測尤為重要,另一方面要對學生的行為軌跡和位置進行追蹤,有助于對風險群體的追溯。
根據(jù)本次新冠疫情的特點以及高校實際的校情和學情,高校迫切需要構建一個包含學生入校、在校和離校的全周期大數(shù)據(jù)系統(tǒng)。該系統(tǒng)一方面要借助校園信息化設備采集數(shù)據(jù),另一方面還要打破校園各業(yè)務部門的數(shù)據(jù)壁壘,實現(xiàn)對學生數(shù)據(jù)的融合對齊、清洗加工以及應用等,該系統(tǒng)可以為學校的疫情防控增利助益,有力保障廣大師生們的身心健康和教學科研工作的順利開展。
基于大數(shù)據(jù)的高校疫情防控系統(tǒng)通過獲取數(shù)據(jù)源層的數(shù)據(jù),進行統(tǒng)計分析和挖掘,給學校師生提供數(shù)據(jù)應用服務。系統(tǒng)主要由數(shù)據(jù)源層、服務層和展現(xiàn)層組成,具體設計架構如圖1所示。
圖1 基于大數(shù)據(jù)的高校疫情防控系統(tǒng)總體架構
數(shù)據(jù)源層主要用于存儲各類校園數(shù)據(jù),主要涵蓋校園數(shù)據(jù)中心主數(shù)據(jù)庫,包含辦公、人事、教務、研究生、學工、保衛(wèi)、后勤等業(yè)務系統(tǒng)以及日常填報的身體健康狀況數(shù)據(jù)、地理位置數(shù)據(jù)、接觸者數(shù)據(jù)等。接著對數(shù)據(jù)源層的數(shù)據(jù)進行初步處理,按照類別整理和分成公共基礎數(shù)據(jù)和業(yè)務主題數(shù)據(jù)。
服務層的作用在于對數(shù)據(jù)源層的人員、地理、疫情上報等數(shù)據(jù)進行抽取、分析、轉換,并將分析、挖掘后的數(shù)據(jù)提供給展現(xiàn)層。根據(jù)業(yè)務應用的需求提供微服務形式的數(shù)據(jù)服務。數(shù)據(jù)抽取轉換的最終目標通過對數(shù)據(jù)預處理,生成頂層業(yè)務分析和挖掘分析建模所需的數(shù)據(jù)集。
展現(xiàn)層主要將服務層產(chǎn)生和存入的數(shù)據(jù)進行可視化展現(xiàn),通過Web頁面、大屏和移動App等形式,為疫情防控決策提供各種大數(shù)據(jù)支持服務。
該系統(tǒng)采集、存儲各類校園數(shù)據(jù),包括數(shù)據(jù)中心主數(shù)據(jù)庫、業(yè)務系統(tǒng)數(shù)據(jù)以及疫情防控系統(tǒng)數(shù)據(jù)等,包括學生抵校時采集的學生實時體溫數(shù)據(jù),每天收集學生當天的體溫數(shù)據(jù)、不良癥狀數(shù)據(jù)。對體溫過高等異常癥狀的重點對象,還要收集更多、更細致的生理健康數(shù)據(jù)。學生上課、就餐等群體活動的位置數(shù)據(jù)也會被采集等。數(shù)據(jù)采集包括接口測試、傳輸監(jiān)測、質量監(jiān)控、采集統(tǒng)計和日志管理等。
各類數(shù)據(jù)采集接入是大數(shù)據(jù)應用過程中關鍵的環(huán)節(jié),除了需要大量的數(shù)據(jù)格式調研,還需要針對各類系統(tǒng)產(chǎn)生的數(shù)據(jù)量、數(shù)據(jù)存儲方式、數(shù)據(jù)交換實時性等具體情況,設計不同的接入方式。一般情況下,為了不影響原有系統(tǒng)運行,將這些系統(tǒng)中需要共享交換的數(shù)據(jù)拉取到視圖中,并開放視圖的對外訪問權限,之后便可由數(shù)據(jù)交換系統(tǒng)進行數(shù)據(jù)的抽取和轉換。由于對接系統(tǒng)較多,需要通過ETL工具進行數(shù)據(jù)抽取(Extract)、轉換(Transform)、加載(Load),并依據(jù)相應的數(shù)據(jù)標準和規(guī)則對其處理和整合。
由業(yè)務系統(tǒng)獲得的數(shù)據(jù),存在各種問題,數(shù)據(jù)質量不高,如存在缺失值、存在重復記錄、編碼不一致以及數(shù)據(jù)難關聯(lián)等,一般不能直接使用。只有先經(jīng)過清洗處理,數(shù)據(jù)才能夠為實際應用提供堅實基礎。由于數(shù)據(jù)質量問題多樣,一般綜合采用多種方法對數(shù)據(jù)進行清洗,以期兼顧速度與效果,清洗方法如圖2所示。
圖2 數(shù)據(jù)清洗方法
早期業(yè)務系統(tǒng)建設存在“重功能、輕數(shù)據(jù)”的現(xiàn)象,在疫情防控系統(tǒng)對接的各類系統(tǒng)當中,常見的數(shù)據(jù)問題有下面兩種。
(1) 數(shù)據(jù)質量不高。由于采集方式不同、采集手段落后,數(shù)據(jù)質量參差不齊,數(shù)據(jù)錄入不準確,更新不及時,存在缺項、丟失、無效、空值、定義不明晰等問題,低質量數(shù)據(jù)不斷沉淀,數(shù)據(jù)的完備性、準確性存疑,難以充分高效地利用。
(2) 數(shù)據(jù)共享不充分。一方面,由于很多業(yè)務系統(tǒng)由院系和部門自行建設、自行管理,沒有納入數(shù)據(jù)中心進行統(tǒng)一管理,數(shù)據(jù)中心無法獲得全量、全過程數(shù)據(jù);另一方面,人員和組織機構編碼等信息往往各系統(tǒng)仍相互獨立,研究生、教務系統(tǒng)、組工系統(tǒng)等系統(tǒng)組織機構未沿用人事系統(tǒng)統(tǒng)一編碼標準。這些都為數(shù)據(jù)共享帶來了嚴重阻礙。
數(shù)據(jù)展現(xiàn)層負責對數(shù)據(jù)進行可視化展現(xiàn),展現(xiàn)形式包括Web端、移動App以及展示大屏等,用數(shù)據(jù)說話,為決策提供支撐。數(shù)據(jù)服務層會按照各類使用場景,抽取各業(yè)務系統(tǒng)的數(shù)據(jù)信息,將不同系統(tǒng)的數(shù)據(jù)根據(jù)既定的邏輯關系進行分析、整合和處理,通過數(shù)據(jù)集成交互、數(shù)據(jù)實時抓取和高分渲染等技術手段在數(shù)據(jù)展現(xiàn)層給予呈現(xiàn)。微服務架構的使用有效降低了數(shù)據(jù)展現(xiàn)層的重復性工作,實現(xiàn)了系統(tǒng)之間的松耦合。
疫情跟蹤大數(shù)據(jù)主要包含疫情實時播報、健康情況展示、健康跟蹤、人員跟蹤、嚴控部門情況展示以及歷史數(shù)據(jù)查詢等模塊。疫情跟蹤大數(shù)據(jù)以新冠疫情為抓點,對采集的數(shù)據(jù)包括體溫等師生健康、位置等行程數(shù)據(jù),通過分析、整合和處理,實現(xiàn)對重點關注人群的實時追蹤,使疫情可防可控。
(1) 疫情實時播報。系統(tǒng)每1小時抽取最新疫情上報數(shù)據(jù),時刻關注疫情發(fā)展,如圖3所示。該部分包含本校總體疫情趨勢展示,并且進一步細分為學院學生健康狀況信息和各職能部門員工的健康信息。
圖3 疫情實時播報圖
(2) 健康跟蹤展示。健康跟蹤通過匯總各院系學生的健康數(shù)據(jù),主要以人員總體體溫分布、異常體溫趨勢曲線、異常癥狀人員的院校分布、上報感染人數(shù)曲線、上報疑似感染人數(shù)曲線、異常癥狀人數(shù)曲線和接觸感染者人數(shù)曲線的形式予以展現(xiàn),便于主管部門有效把控,為防疫措施的決策和部署提供數(shù)據(jù)支撐,圖4展示了它的部分功能。
圖4 健康跟蹤展示圖
(3) 人員跟蹤展示。人員跟蹤主要展示各學院、各職能單位的學生或教職工的當前所在地理位置,按位置劃分為:在湖北、在寧不在校、非在寧以及在校等4類,同時以熱度圖的形式展現(xiàn)人員的空間分布情況,如圖5所示。
圖5 人員跟蹤展示圖
疫情跟蹤大數(shù)據(jù)根據(jù)師生每日上報的健康信息,挖掘數(shù)據(jù)趨勢,分析學??傮w疫情防控形勢,重點開展對確診/疑似/隔離人員、湖北/武漢外出史、湖北/武漢人員接觸史、密切接觸人員等重點人員的大數(shù)據(jù)分析,實現(xiàn)了全校人員信息的可查和可追溯。學校各部門根據(jù)疫情跟蹤大數(shù)據(jù)分析結果,可以全面掌握當前面臨疫情形勢和發(fā)展趨勢,為做好疫情防控工作、全力阻斷傳染源,提供科學決策支持,同時掌握全校師生分布情況和返校趨勢,為做好復學各項準備工作提供依據(jù)。系統(tǒng)上線后獲得各個部門高度關注,為學??焖僬莆諑熒】祵崟r狀況及動向提供數(shù)據(jù)保障,為做好師生返校保證工作提供了支撐。
學生返校是校園疫情防控的重點,需要掌握學生返校申請概況和各學院、各生源省的返校申請概況,重點對來自中高風險地區(qū)且已經(jīng)審批通過的返校人員進行關注;入校過程中重點要對學生體溫狀態(tài)、健康狀態(tài)以及人流量狀態(tài)進行跟蹤。
學生返校大數(shù)據(jù)主要有人員分布展示、返校學生態(tài)勢、返校學生實況、行程追蹤展示以及返校學生行程追溯。采集了教職工和學生每日填報數(shù)據(jù)、返校申請數(shù)據(jù)、各校門門禁數(shù)據(jù)以及行程軌跡數(shù)據(jù)等,并根據(jù)學生ID實現(xiàn)跨表數(shù)據(jù)關聯(lián)。返校大數(shù)據(jù)可為相關業(yè)務部門學生返校工作的計劃、組織和調度等提供有效數(shù)據(jù)支撐。
(1) 返校學生態(tài)勢。返校學生態(tài)勢可以按照不同校區(qū)動態(tài)展示申請學生數(shù)、已返校學生數(shù)、重點關注學生數(shù)以及各年級群體的地理分布情況等,并進一步劃分為培養(yǎng)層次、性別以及畢業(yè)年級等。返校學生態(tài)勢,可宏可微,有助于學校統(tǒng)籌安排和合理調度整個學生返校工作,減少疫情管控壓力。頁面展示如圖6所示。
圖6 返校學生態(tài)勢圖
(2) 返校學生實況。返校學生實況可實時的展示學生返校過程中的真實狀況,包括每個校區(qū)累計的審批人數(shù)、返校人數(shù)、異常人數(shù)和按時間統(tǒng)計的返校人數(shù)趨勢,按學院統(tǒng)計的審批人數(shù)、返校人數(shù)、異常人數(shù)和返校率等指標,并可以知識卡片形式動態(tài)展示當前時刻每個校門出入道閘的學生信息,如圖7所示。
圖7 返校學生實況圖
(3) 返校行程追溯。可通過學號和工號、列車班次來查詢師生員工的行程信息。通過輸入學號等,可以查閱該對象基本信息,如健康狀況、同行信息、歷次疫情上報信息以及軌跡碰撞信息等,還可以通過輸入列車班次查閱列車信息以及同次搭乘該列車的人員信息等,如圖8所示。
圖8 返校行程追溯圖
針對高校新冠疫情防控中存在的數(shù)據(jù)規(guī)模大、數(shù)據(jù)亂結構類型多、數(shù)據(jù)壁壘、所在地理位置和健康狀況數(shù)據(jù)難實時獲取、難歸結等問題,構建了包含學生入校、在校和離校的全周期校園疫情跟蹤和返校大數(shù)據(jù)系統(tǒng)。該系統(tǒng)能互聯(lián)學校各業(yè)務系統(tǒng)的數(shù)據(jù)資源,并通過任務定時調度機制,實現(xiàn)了實時、準確獲取各項數(shù)據(jù),微服務的架構采用實現(xiàn)了業(yè)務組件化和服務化,降低了系統(tǒng)的耦合性。系統(tǒng)上線后,學校各部門可以根據(jù)分析結果,全面掌握當前面臨疫情形勢和發(fā)展趨勢,為做好疫情防控工作、全力阻斷傳染源,提供科學決策支持;同時掌握全校師生分布情況和返校趨勢,為做好復學各項準備工作提供依據(jù)。