劉永紅,郭 松,林苑柔,趙春生
(1.中山大學(xué) 智能工程學(xué)院,廣東 廣州 510275;2.北京大學(xué) 環(huán)境科學(xué)與工程學(xué)院,北京 100871;3.廣東省交通環(huán)境智能監(jiān)測(cè)與治理工程技術(shù)研究中心,廣東 廣州 510275;4.北京大學(xué) 物理學(xué)院 大氣與海洋科學(xué)系,北京 100871)
大數(shù)據(jù)時(shí)代下,科學(xué)數(shù)據(jù)共享對(duì)推動(dòng)科技創(chuàng)新研究、促進(jìn)國(guó)家經(jīng)濟(jì)社會(huì)發(fā)展發(fā)揮著越來(lái)越重要的作用[1-3]。在美國(guó),數(shù)據(jù)共享平臺(tái)發(fā)展早、投資大、且具有完備的法律體系等優(yōu)勢(shì),目前已建成著名數(shù)據(jù)中心包括美國(guó)航空航天局(NASA)分布式最活躍數(shù)據(jù)檔案中心群(DAACs)、美國(guó)國(guó)家大氣研究中心(NCAR)數(shù)據(jù)歸檔中心等[4-5]。近年來(lái)我國(guó)不斷加強(qiáng)對(duì)信息資源的利用,從2001年正式啟動(dòng)“科學(xué)數(shù)據(jù)共享工程”起,科技部、財(cái)政部先后在多個(gè)領(lǐng)域支持建成了國(guó)家科技資源共享服務(wù)平臺(tái)[6-11],累計(jì)投資經(jīng)費(fèi)上億元[12]。我國(guó)科學(xué)數(shù)據(jù)共享程度不斷深化,相關(guān)政策制度逐步完善,但在數(shù)據(jù)內(nèi)容、管理標(biāo)準(zhǔn)及安全、共享范圍、服務(wù)多樣性、可持續(xù)機(jī)制上仍有較大的發(fā)展空間[13-15]。
我國(guó)東部城市正面臨著多污染物疊加、復(fù)雜物理化學(xué)反應(yīng)機(jī)理下的大氣復(fù)合污染的問(wèn)題。為揭示污染物成因,各地相繼開(kāi)展長(zhǎng)期的綜合觀測(cè)[16-17]。與此同時(shí),大量觀測(cè)數(shù)據(jù)分散在監(jiān)測(cè)站、氣象局以及高校和科研機(jī)構(gòu),涉及數(shù)據(jù)類型、格式復(fù)雜多樣、數(shù)據(jù)質(zhì)量良莠不齊,導(dǎo)致數(shù)據(jù)利用率低,不利于大氣復(fù)合污染的研究以及決策管理[18-19]。為解決“數(shù)據(jù)數(shù)量與質(zhì)量問(wèn)題、推動(dòng)共享”技術(shù)難題與機(jī)制創(chuàng)新問(wèn)題,由北京大學(xué)、中山大學(xué)等單位共同研發(fā),建立了中國(guó)東部大氣環(huán)境數(shù)據(jù)庫(kù)和分析共享服務(wù)網(wǎng)(Ministry of Scienceand Technology of the People's Republic of China Database of Air Pollution in East China,簡(jiǎn)稱MOST DAPEC)。平臺(tái)圍繞“全引入、全共享、可交流學(xué)習(xí)、可持續(xù)發(fā)展”的原則,旨在建成行業(yè)領(lǐng)先的國(guó)際性大氣環(huán)境數(shù)據(jù)、技術(shù)工具及研究成果的共享交流平臺(tái)。
平臺(tái)技術(shù)路線的選擇以成熟可靠為首要考慮條件,以保障軟件系統(tǒng)長(zhǎng)時(shí)間無(wú)故障穩(wěn)定運(yùn)行為目標(biāo)進(jìn)行搭建。平臺(tái)使用專業(yè)的商業(yè)數(shù)據(jù)庫(kù)軟件對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),方便系統(tǒng)用戶對(duì)數(shù)據(jù)進(jìn)行查詢、搜索、同步、分析等操作。Web應(yīng)用服務(wù)器承擔(dān)相關(guān)的業(yè)務(wù)數(shù)據(jù)處理、Web服務(wù)響應(yīng)等任務(wù)。采用千兆以太網(wǎng)為骨干網(wǎng)搭建局域網(wǎng),實(shí)現(xiàn)各類服務(wù)器、客戶端之間的聯(lián)接,向其他相關(guān)職能部門、公眾等提供數(shù)據(jù)服務(wù)和信息發(fā)布。根據(jù)不同的業(yè)務(wù)需求,配置不同等級(jí)和數(shù)量的硬件平臺(tái)。預(yù)報(bào)預(yù)警信息交換系統(tǒng)建設(shè)使用B/S模式(Browser/Server,瀏覽器/服務(wù)器模式)和C/S模式(Client/Server,客戶/服務(wù)器模式)相結(jié)合的結(jié)構(gòu),使得整個(gè)系統(tǒng)與Windows操作系統(tǒng)有著極大的兼容性,最大限度保障了環(huán)境監(jiān)測(cè)使用人員以及公眾發(fā)布服務(wù)的實(shí)用性和易用性。
為了保證數(shù)據(jù)安全,基于RBAC數(shù)據(jù)存儲(chǔ)與訪問(wèn)控制模型設(shè)計(jì)多級(jí)用戶系統(tǒng)和實(shí)施模式,以隔離集中式業(yè)務(wù)管理模式帶來(lái)的系統(tǒng)故障風(fēng)險(xiǎn)[20]。除此之外,同時(shí)采用了防火墻、存儲(chǔ)冗余設(shè)計(jì)、訪問(wèn)隔離、訪問(wèn)驗(yàn)證等技術(shù),輔以嚴(yán)格的平臺(tái)系統(tǒng)安全管理規(guī)范,定期巡檢及修復(fù)漏洞等處理手段防止黑客攻擊及病毒入侵。
針對(duì)我國(guó)目前大氣環(huán)境數(shù)據(jù)來(lái)源多樣、維度多、涉及數(shù)據(jù)提供單位的數(shù)據(jù)格式各不相同,硬軟件系統(tǒng)及通信傳輸協(xié)議各不相同的問(wèn)題,研發(fā)標(biāo)準(zhǔn)化、通用化的數(shù)據(jù)采集和傳輸技術(shù)是共享平臺(tái)重點(diǎn)攻克的難題之一。
結(jié)合當(dāng)前各業(yè)務(wù)部門、科研機(jī)構(gòu)的大氣復(fù)合觀測(cè)現(xiàn)狀,本平臺(tái)支持三種數(shù)據(jù)接入模式:一是手工(離線)上傳。數(shù)據(jù)提供方按照模板形成標(biāo)準(zhǔn)化上報(bào)文件,將其手工錄入系統(tǒng);二是自動(dòng)監(jiān)測(cè)直連傳輸;三是通過(guò)中間層轉(zhuǎn)接傳輸。第二、第三種模式基于不同監(jiān)測(cè)子站的建設(shè)情況進(jìn)行選擇,以滿足不同數(shù)據(jù)來(lái)源接入的要求。對(duì)標(biāo)準(zhǔn)化監(jiān)測(cè)子站,既可以通過(guò)標(biāo)準(zhǔn)直連協(xié)議實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)上報(bào)和平臺(tái)控制指令的接收和執(zhí)行,也可以通過(guò)生成標(biāo)準(zhǔn)XML格式文件上傳。而非標(biāo)準(zhǔn)化的監(jiān)測(cè)站則需要升級(jí)系統(tǒng)實(shí)現(xiàn)自動(dòng)生成XML文件,或開(kāi)放數(shù)據(jù)結(jié)構(gòu),由標(biāo)準(zhǔn)化監(jiān)測(cè)子站或標(biāo)準(zhǔn)化軟件系統(tǒng)對(duì)數(shù)據(jù)格式化后上傳。整體拓?fù)淙鐖D1所示。
圖1 多源數(shù)據(jù)接入及質(zhì)控拓?fù)鋱D
目前平臺(tái)已實(shí)現(xiàn)包括空氣質(zhì)量監(jiān)測(cè)常規(guī)站及超級(jí)站的數(shù)據(jù)接入。數(shù)據(jù)采集內(nèi)容包括監(jiān)測(cè)子站、時(shí)間、因子的編碼、監(jiān)測(cè)數(shù)據(jù)、數(shù)據(jù)狀態(tài)編碼(數(shù)據(jù)標(biāo)識(shí))、儀器狀態(tài)(參數(shù))等,實(shí)現(xiàn)了從傳統(tǒng)單一數(shù)據(jù)采集到采集數(shù)據(jù)狀態(tài)數(shù)據(jù)等質(zhì)控?cái)?shù)據(jù)采集的轉(zhuǎn)變。
目前我國(guó)大氣環(huán)境多源數(shù)據(jù)存儲(chǔ)管理缺少統(tǒng)一的規(guī)范,導(dǎo)致全國(guó)多數(shù)科研部門和業(yè)務(wù)部門的數(shù)據(jù)割裂化、碎片化。同時(shí),大氣環(huán)境監(jiān)測(cè)數(shù)據(jù)涵蓋結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化等多種類型的數(shù)據(jù),要更好地使用、挖掘上述數(shù)據(jù),必須要形成統(tǒng)一的數(shù)據(jù)存儲(chǔ)規(guī)范。因此,MOST DAPEC基于多源融合關(guān)聯(lián)的數(shù)據(jù)管理大數(shù)據(jù)模型,以關(guān)系數(shù)據(jù)庫(kù)、文件存儲(chǔ)系統(tǒng)和空間數(shù)據(jù)存儲(chǔ)系統(tǒng)為存儲(chǔ)結(jié)構(gòu),建立了多時(shí)空尺度、不同污染組分及多類型污染源的高精度區(qū)域大氣環(huán)境管理的關(guān)系型與NoSQL組合數(shù)據(jù)庫(kù)。采用GeoHash和Hilbert曲線相結(jié)合的數(shù)據(jù)多級(jí)劃分策略,針對(duì)包含豐富的時(shí)間、空間和語(yǔ)義信息的數(shù)據(jù)進(jìn)行劃分及統(tǒng)一編碼后存入數(shù)據(jù)庫(kù)。通過(guò)設(shè)計(jì)空間索引,多源數(shù)據(jù)保存在數(shù)據(jù)庫(kù)時(shí)以經(jīng)緯度作為索引,轉(zhuǎn)化為地理空間問(wèn)題,實(shí)現(xiàn)海量數(shù)據(jù)的快速檢索與分析。
根據(jù)平臺(tái)面向公眾、政府、科研機(jī)構(gòu)、行業(yè)(四個(gè)面向)的目標(biāo),平臺(tái)圍繞分級(jí)分類管理、用戶權(quán)限控制與數(shù)據(jù)全面共享三個(gè)方面管理平臺(tái)數(shù)據(jù)訪問(wèn)。分級(jí)分類管理指根據(jù)不同用戶的需求,對(duì)數(shù)據(jù)、工具和論文等資料進(jìn)行分類管理;用戶權(quán)限控制即不同級(jí)別的用戶,所對(duì)應(yīng)的可獲取數(shù)據(jù)范圍及時(shí)空精度等情況不同;全面共享的數(shù)據(jù)則是根據(jù)不同用戶需求,最終實(shí)現(xiàn)所有共享數(shù)據(jù)不同層次的全面共享。
為了盤活數(shù)據(jù)資源,深度挖掘數(shù)據(jù)基礎(chǔ)特征,平臺(tái)開(kāi)發(fā)了十余個(gè)快速分析工具,形成專題軟件工具包。用戶可基于已接入的監(jiān)測(cè)數(shù)據(jù)或自行上傳數(shù)據(jù),進(jìn)行數(shù)據(jù)后處理和再分析??焖俜治龉ぞ呖蓪?duì)空間、時(shí)序、成因診斷、特性、組分、氣象/環(huán)境關(guān)聯(lián)等內(nèi)容的分析,從而獲取污染來(lái)源、污染成因、傳輸規(guī)律等初步分析結(jié)果,為精細(xì)化污染評(píng)估、防治提供便捷準(zhǔn)確的科學(xué)支撐。
平臺(tái)嵌入了多個(gè)成熟應(yīng)用的模型代碼,圍繞PM2.5和O3污染監(jiān)測(cè)參數(shù)展開(kāi)綜合分析。例如,PMF受體模型、潛在源貢獻(xiàn)因子模型(PSCF)、濃度權(quán)重估計(jì)分析模型(CWT)等,從受體角度、污染氣流等多角度解析污染源的貢獻(xiàn)情況。
在線分析工具還實(shí)現(xiàn)了數(shù)據(jù)統(tǒng)計(jì)及可視化處理。一是分析工具對(duì)原始數(shù)據(jù)進(jìn)行計(jì)算處理,得出關(guān)鍵分析指標(biāo)。如目前比較成熟的顆粒物二次關(guān)鍵指標(biāo)算法,可實(shí)現(xiàn)關(guān)鍵分析指標(biāo)的自動(dòng)計(jì)算,其中包括重要比值如陰/陽(yáng)離子摩爾濃度、SO42-/NO3-等。臭氧生成潛勢(shì)模型(OFP)、二次有機(jī)氣溶膠生成潛勢(shì)模型(SOA)則可對(duì)VOCs成分譜進(jìn)行分析,識(shí)別出關(guān)鍵的貢獻(xiàn)物種。二是對(duì)分析后的數(shù)據(jù)可視化展示,顯示數(shù)據(jù)時(shí)空或其他方面的特性,也可依據(jù)用戶個(gè)性化需求,形成并下載分析結(jié)果示意圖。例如污染日歷算法的開(kāi)發(fā),實(shí)現(xiàn)了以日歷圖的形式,用不同顏色渲染監(jiān)測(cè)值,從而展示不同監(jiān)測(cè)因子隨時(shí)間變化的特征。
另外,平臺(tái)簡(jiǎn)報(bào)生成系統(tǒng)也是滿足用戶個(gè)性化需求的另一設(shè)計(jì)。系統(tǒng)可自動(dòng)生成觀測(cè)期間空氣質(zhì)量、各污染物水平變化情況等總結(jié)報(bào)告,分析邊界層氣象條件,解析污染物物理、化學(xué)和光污染變化情況,得出初步結(jié)論。用戶則可根據(jù)自身研究目標(biāo)在線編輯分析簡(jiǎn)報(bào),并存儲(chǔ)、下載。
由于數(shù)據(jù)產(chǎn)品豐富、面向用戶群體多元,因此可持續(xù)的共享機(jī)制的設(shè)計(jì)至關(guān)重要。共享機(jī)制的構(gòu)建從數(shù)據(jù)共享技術(shù)的研發(fā)開(kāi)始,首先,根據(jù)數(shù)據(jù)的內(nèi)容、特點(diǎn)、現(xiàn)狀等因素,確定共享的方式、要求、流程、質(zhì)量管理要求等。常用的共享技術(shù)包括元數(shù)據(jù)集中式共享以及數(shù)據(jù)集、數(shù)據(jù)庫(kù)分布式共享等。其次,要設(shè)立與之匹配的數(shù)據(jù)共享機(jī)制,設(shè)置共享數(shù)據(jù)管理辦法、安全保密協(xié)議等。最后,建立共享數(shù)據(jù)管理指標(biāo)體系,以達(dá)到提高數(shù)據(jù)來(lái)源的質(zhì)量、鼓勵(lì)科研單位和業(yè)務(wù)部門開(kāi)放數(shù)據(jù)的效果[21-22]。數(shù)據(jù)共享成效評(píng)價(jià)可考慮對(duì)數(shù)據(jù)和社會(huì)效益評(píng)價(jià)兩方面進(jìn)行評(píng)價(jià),其中,數(shù)據(jù)評(píng)價(jià)以數(shù)據(jù)提供者的等級(jí)評(píng)價(jià)和用戶給予的評(píng)價(jià)或評(píng)分獲取數(shù)據(jù)的綜合性評(píng)分;社會(huì)效益評(píng)價(jià)將從應(yīng)用規(guī)模、關(guān)注程度、決策支持、學(xué)術(shù)成果等方面進(jìn)行考查。整體的共享機(jī)制與規(guī)范框架如圖2所示。
圖2 數(shù)據(jù)共享機(jī)制與規(guī)范框架
結(jié)合前文對(duì)我國(guó)科學(xué)數(shù)據(jù)管理數(shù)據(jù)庫(kù)與共享平臺(tái)的發(fā)展現(xiàn)狀的研究,本項(xiàng)目創(chuàng)新形成“數(shù)據(jù)-分析工具-方法學(xué)”三層共享模式。共享結(jié)構(gòu)如圖3所示。
圖3 平臺(tái)共享結(jié)構(gòu)示意圖
數(shù)據(jù)層面目前接入了涵蓋環(huán)境監(jiān)測(cè)、氣象監(jiān)測(cè)、氣象預(yù)報(bào)、超級(jí)站數(shù)據(jù)、綜合觀測(cè)數(shù)據(jù)、遙感反演數(shù)據(jù)、閉合數(shù)據(jù)七大數(shù)據(jù)集。數(shù)據(jù)類型包括基礎(chǔ)(原始)數(shù)據(jù),日、周、月、季度等統(tǒng)計(jì)數(shù)據(jù),成因診斷等深度挖掘產(chǎn)品,用于綜合業(yè)務(wù)分析展示專題產(chǎn)品數(shù)據(jù)。分析工具層面,平臺(tái)根據(jù)業(yè)務(wù)和科研不同需求,設(shè)計(jì)了氣溶膠專題、氣象分析專題、常規(guī)分析專題、光化學(xué)專題、垂直觀測(cè)專題、氣象預(yù)污染綜合分析專題及簡(jiǎn)報(bào)專題七大分析產(chǎn)品包,包含十余個(gè)快速分析算法。另外,平臺(tái)正在接入包括觀測(cè)、閉合技術(shù)、質(zhì)控方法、以及數(shù)據(jù)分析報(bào)告、實(shí)驗(yàn)報(bào)告、學(xué)術(shù)論文等來(lái)自國(guó)內(nèi)領(lǐng)先高校科研機(jī)構(gòu)的最新研究成果。通過(guò)共享前沿研究成果,實(shí)現(xiàn)成果再現(xiàn)和轉(zhuǎn)化,形成研究人員自由交流、傳遞與共享知識(shí)學(xué)術(shù)的社交平臺(tái)。
目前數(shù)據(jù)庫(kù)和平臺(tái)集成了國(guó)內(nèi)超過(guò)5億條的大氣環(huán)境復(fù)合污染觀測(cè)的數(shù)據(jù)、方法、分析報(bào)告、學(xué)術(shù)論文等多種資源,數(shù)據(jù)總量超過(guò)100TB。數(shù)據(jù)來(lái)源于全國(guó)1498個(gè)空氣質(zhì)量自動(dòng)國(guó)控點(diǎn)、100余個(gè)國(guó)家氣象站、國(guó)內(nèi)外9個(gè)主流氣象預(yù)報(bào)模式等公開(kāi)數(shù)據(jù),德洲超級(jí)站、項(xiàng)目?jī)?nèi)及其他合作方多套空氣質(zhì)量外場(chǎng)觀測(cè)/長(zhǎng)期基礎(chǔ)觀測(cè)數(shù)據(jù)以及其他第三方來(lái)源數(shù)據(jù)信息的接入。
在數(shù)據(jù)共享方面,平臺(tái)不斷與多個(gè)單位合作并將數(shù)據(jù)“引進(jìn)來(lái)”的同時(shí),也正在大力推進(jìn)數(shù)據(jù)的對(duì)外共享。目前已與廣東省環(huán)境監(jiān)測(cè)中心、長(zhǎng)三角環(huán)境氣象預(yù)報(bào)預(yù)警中心簽訂了數(shù)據(jù)共享協(xié)議,實(shí)現(xiàn)“環(huán)保、氣象、科研”三大源頭全引入,保障可持續(xù)的數(shù)據(jù)來(lái)源。與此同時(shí),平臺(tái)已向南京大學(xué)等科研單位和多個(gè)省市級(jí)環(huán)境監(jiān)測(cè)部門提供了穩(wěn)定的接口式數(shù)據(jù)共享(見(jiàn)圖4)。研發(fā)的數(shù)據(jù)分析工具包已在全國(guó)產(chǎn)業(yè)化應(yīng)用,服務(wù)于中國(guó)環(huán)境監(jiān)測(cè)總站以及廣東、福建、湖北、四川等十多個(gè)省市環(huán)境監(jiān)測(cè)中心站,為廈門金磚五國(guó)會(huì)議、北京“一帶一路”高峰論壇等重大活動(dòng)提供保障。
圖4 中國(guó)東部大氣環(huán)境數(shù)據(jù)庫(kù)與分析共享服務(wù)網(wǎng)(http://202.104.69.206:8090/)
針對(duì)目前大氣環(huán)境監(jiān)測(cè)數(shù)據(jù)利用問(wèn)題及日益增長(zhǎng)的需求,中國(guó)東部大氣環(huán)境數(shù)據(jù)庫(kù)與分析共享服務(wù)網(wǎng)應(yīng)用成熟平臺(tái)建設(shè)技術(shù),輔以完善數(shù)據(jù)標(biāo)準(zhǔn)管理規(guī)范,保證海量數(shù)據(jù)接入基礎(chǔ)上,提高數(shù)據(jù)質(zhì)量及利用率,是在大數(shù)據(jù)發(fā)展趨勢(shì)下推動(dòng)大氣污染研究及決策管理的重要平臺(tái)。
目前平臺(tái)已向公眾開(kāi)放,并朝著國(guó)家科學(xué)數(shù)據(jù)中心的發(fā)展目標(biāo)奮進(jìn):建立和推廣可持續(xù)的運(yùn)行模式,完善數(shù)據(jù)及產(chǎn)品設(shè)計(jì),提升數(shù)據(jù)資源共享成效。以打造資源共享、學(xué)術(shù)社交、研究再現(xiàn)、成果轉(zhuǎn)化、統(tǒng)計(jì)評(píng)估“五位一體”的PaperHub學(xué)術(shù)社交平臺(tái)為定位,豐富共享的內(nèi)容及形式。以更多元化的可持續(xù)共享機(jī)制,面向不同用戶形成不同等級(jí)、層級(jí)的開(kāi)放共享,開(kāi)啟數(shù)據(jù)驅(qū)動(dòng)下的大氣環(huán)境研究與管理新范式。