袁怡男
前段時間,在廈門舉辦的英特爾高性能計算峰會上,來自不同領(lǐng)域的行業(yè)用戶和專家展示了很多基于高性能計算的創(chuàng)新應(yīng)用成功案例。其中,來自中國科學(xué)院大氣物理研究所大氣邊界層物理與大氣化學(xué)國家重點實驗室的副研究員唐曉博士分享的內(nèi)容特別引人注目。
大氣預(yù)測需要高性能計算
霧霾,已經(jīng)成為了當(dāng)前我國最受關(guān)注的熱點話題之一,它對公眾的健康、生活質(zhì)量等造成了相當(dāng)嚴重的影響。而如何進行預(yù)測并探索大氣污染的成因也成為了當(dāng)前最迫切需解決的難題。對大多數(shù)人來說,在惡劣天氣到來之前可能我們都會收到一些預(yù)報預(yù)警信息,但其準(zhǔn)確性不可能是百分之百。這是因為近年來我國大氣污染排放格局的變化非常大,預(yù)測的難度也隨之大大提高。可以說這并不是—項簡單的工作。
其實大氣的污染過程不完全像天氣的動力演變過程。對天氣來說,物理過程起主導(dǎo)作用,而大氣污染還包含了很多化學(xué)的過程,二次反應(yīng)。唐曉博士表示:“90年代我國的大氣污染叫煤煙型污染,我國在能源利用方面幾乎70%都是燃煤,排放的二氧化硫濃度很高;而現(xiàn)在我國的大氣污染由煤煙型污染轉(zhuǎn)變成了以臭氧和PM2.5為典型代表的大氣復(fù)合型污染。雖然近十多年來,全國二氧化硫總排放量一直在下降,但在這個過程當(dāng)中,一次污染物經(jīng)過化學(xué)反應(yīng)也發(fā)展成了二次污染物。這些污染物排放量,它們之間的化學(xué)演變規(guī)律、當(dāng)時當(dāng)?shù)氐臍庀髼l件等等都要加入到預(yù)報的模型中。所以大氣污染預(yù)測所涉及的計算量非常大,普通PC、工作站根本無法勝任,必須依靠高性能計算來解決。如果沒有高性能計算的設(shè)備,怎樣把實時的監(jiān)測數(shù)據(jù)放到我們模式系統(tǒng)里以及怎樣進行更好的更精準(zhǔn)的預(yù)測等都將是我們面臨的問題?!?/p>
其實在唐曉博士看來,進行大氣污染預(yù)測是一項技術(shù)含量很高的工作,弄清楚大氣污染時空演變規(guī)律與形成機理是大氣污染防控和預(yù)測的大前提,依托高性能計算而建立的先進的數(shù)值模式則是支撐大氣污染模擬與預(yù)測的核心研究工具。
可喜的是,利用基于英特爾架構(gòu)的高性能計算集群,中國科學(xué)院大氣物理研究所自主研發(fā)出了一套“嵌套網(wǎng)格空氣質(zhì)量數(shù)值預(yù)報模式系統(tǒng)”。據(jù)了解,這個模式系統(tǒng)已經(jīng)發(fā)展了20年,可以實現(xiàn)中國及主要城市地區(qū)未來七天的空氣質(zhì)量預(yù)報,并通過污染傳輸數(shù)值模擬來定量解析大氣污染來源。據(jù)唐曉博士介紹,隨著環(huán)境不斷地變化,這個模式系統(tǒng)也在不斷地發(fā)展。這個模式已經(jīng)在奧運會等賽事上有過比較充分的應(yīng)用。
大氣計算的難點與挑戰(zhàn)
針對大氣計算的復(fù)雜性,唐曉博士也做了進一步解釋。他認為目前大氣計算(也包括PM2.5灰霾計算)所面臨的挑戰(zhàn)性主要在于模式這一塊。他說到:“我們模式里面設(shè)計的過程與大氣化學(xué)模式,涉及了地球表面和大氣的主要物理化學(xué)過程。但是隨著科學(xué)研究需求的增加,我們還需要更加細致。這里所說的細致包括模式過程細化和模式分辨率的提高,如果做一個全國的,比如說一公里這樣的維度就得109,到垂直上網(wǎng)格可能需要模擬20多層的概念;水平上一個國家可能需要107個網(wǎng)格,與垂直相乘以后就是一個很高的維度?!绷硗?,大氣計算所面臨的挑戰(zhàn)性還體現(xiàn)在化學(xué)計算這—塊。唐曉博士透露“我們花費的計算成本是非常高的,因為我們可能有200多個化學(xué)反應(yīng),這不是一個個很簡單的獨立反應(yīng),而是需要幾個反應(yīng)之間達到一個平衡狀態(tài),我們知道化學(xué)方程式實際上都是平衡的,這部分對我們的計算量提出了很大的挑戰(zhàn)。”“另外—方面,化學(xué)計算的數(shù)據(jù)量也非常大。我們一天預(yù)報的數(shù)據(jù)量可能有上百個GB每天都是這樣大的量。盡管我們也有能力達到TB級別,但是我們在簡化地預(yù)報這個數(shù)據(jù),這個數(shù)據(jù)量需要進行可視化處理然后給用戶看,因為預(yù)報的時候不是完整展示這個數(shù)據(jù)的分析過程,我們需要把這個數(shù)據(jù)用一種可視化的形式進行輔助展示?!碧茣圆┦繉ξ覀冋f到,“原來我們并行計算的模式,整個三維的空間分塊,分到不同的地方去算,只要我們有足夠多的并行計算單元就能減輕計算量。當(dāng)我們現(xiàn)在畫圖的時候,可能需要把它作為一個整體的展示,當(dāng)我們數(shù)據(jù)量海量的時候,我們畫圖的圖形處理也是一個很大的瓶頸,這也是我們目前跟英特爾方面,軟硬件協(xié)同合作一起來做這個事的重要原因?!?/p>
預(yù)測污染為啥用x86架構(gòu)的高性能計算?
據(jù)了解,目前大部分應(yīng)用在大氣污染預(yù)測領(lǐng)域的高性能計算都采用了x86架構(gòu),在談到采用x86架構(gòu)的原因時,英特爾的專家解釋說:“就目前的總的趨勢來說,大家越來越有錢了,可以把這個事(高性能計算應(yīng)用在各領(lǐng)域)做得越來越細,做細了之后就發(fā)現(xiàn)這個事情非常復(fù)雜。對于大氣污染來說,可能是有很多的化學(xué)反應(yīng)和物理過程,整個在算法上和軟件的復(fù)雜度上更高、變化更多。這樣的話就需要一個比較通用的平臺,同時性能又要有保障,因為有可能里面會加入一些新的模塊,這些模塊可能是來自于其他-些x86平臺軟件的貢獻,這些都是完全有可能的。但是大氣污染隨時都在發(fā)生變化,也許過了五年以后,使用中的大氣污染測算的模塊跟現(xiàn)在的組成成份就不一樣了。在這種情況下,平臺的通用性以及它的模擬l生能都是很重要的,否則會為這套系統(tǒng)的研發(fā)帶來非常大的障礙。另—方面,唐曉博士帶領(lǐng)的團隊在整個大氣污染預(yù)測領(lǐng)域所做的模擬和數(shù)字算法過程中一直采用的是英特爾平臺,大氣所為什么沒有用RISC而是一直用英特爾平臺,在某種程度上是因為他們要研究更復(fù)雜的情況,軟件的變化度非常大。”
高性能計算才能提高預(yù)測準(zhǔn)確性
現(xiàn)在我們說到污染問題,大多會提“PM2.5”的概念,而之前我們提得更多的是“PM10”這個概念,其實PM10從廣義上來說包含了PM2.5。PM10和PM2.5的差別在于,它們實際上都是顆粒物,“PM10”中的“10”指的是10微米直徑,包含了10微米以下的所有粒徑污染物,這里面也一部分粗的顆粒,這些粗的顆??赡苁枪I(yè)排放或者揚塵,“PM2.5”主要是指細的顆粒污染物。隨著污染的演變,原來“粗”的污染被控制得很好,濃度下來了。但因為一次污染和二次污染是非線性的關(guān)系,后來發(fā)現(xiàn)PM2.5的問題突出了,因此現(xiàn)在大家更關(guān)注PM2.5。endprint
這就是說,現(xiàn)在大眾和相關(guān)機構(gòu)對污染預(yù)測的精準(zhǔn)度和精細度提出了更高的要求??紤]到如今高性能計算已經(jīng)應(yīng)用于污染預(yù)測領(lǐng)域,我們也產(chǎn)生了疑問:如果進一步提高高性能計算的性能對污染預(yù)測的準(zhǔn)確性、時效性等方面有沒有幫助呢?對此,唐曉博士回答說:“我們現(xiàn)在預(yù)測其實有不同層次的,我們目前常規(guī)的就是做一個七天的預(yù)測,這個七天可能指的是未來一個星期。這段時間里我們看看污染濃度的變化趨勢,但我們目前側(cè)重的是看臨近三天的變化。就目前模型的準(zhǔn)確性來說,比較難的是四天以后的預(yù)測,我們很難把它報得非常準(zhǔn)。但在高性能的平臺支持下,我們現(xiàn)在每天可以做兩次預(yù)報,為什么要做呢?主要是把最新的觀測信息納進來,因為模式之前的預(yù)測可能報得不準(zhǔn),但是我們可以把最新的觀測信息同化進來,這時候模式預(yù)測出來的結(jié)果就準(zhǔn)確得多。在高性能平臺的支持下,我們對短期的預(yù)測會報得更準(zhǔn),針對長達七天、十天的預(yù)測,我們也能根據(jù)這個趨勢和態(tài)勢更好地推算?!?/p>
唐曉博士透露,中科院的這套系統(tǒng)還考慮到了對政策的支持。據(jù)了解,目前污染應(yīng)急預(yù)案中大多包括好幾組情景,這些情景主要落地到“污染源”的層面,從而變成一個“污染源”清單,關(guān)閉相關(guān)企業(yè)就拿掉了源清單里的數(shù)據(jù),那么排放就變?yōu)?。所以在中科院的這套系統(tǒng)里面主要以數(shù)字化的形式來體現(xiàn),當(dāng)這種應(yīng)急防控需要時,系統(tǒng)通過情景模擬,模擬的結(jié)果可為管理者提供參考。
此外,唐曉博士還進一步談到了在高性能計算助力下,計算量擴充后的需求問題。“數(shù)字模型某種程度上對計算的需求非常大,拿碳單鍵的歸類來說,兩個碳單鍵間的連接有很多種,現(xiàn)在我們采用簡單聚類方式,放在化學(xué)模型里會引入不確定性,這會導(dǎo)致模式不準(zhǔn)。當(dāng)我們想提高的時候就得把它分得更細,這時候計算量的增加是海量的,所以要用到多強大的高性能計算資源取決于計算精度需求?!碧茣圆┦空f:“像我們最開始自己用流程的時候,可能用幾個小的集群也可以算,但那時候就要犧牲我們的精度。而類似我們現(xiàn)在的‘在線源解析等技術(shù),對我們的計算能力提出了更高的需求。”
數(shù)據(jù)利用與優(yōu)勢
談到中科院大氣所這套模式系統(tǒng)的數(shù)據(jù)利用時唐曉博士介紹說“我們做了一個很關(guān)鍵的技術(shù),就是把模型和觀測數(shù)據(jù)同化起來,因為模型的規(guī)律(比如這個點的濃度和周圍的關(guān)系還是比較清楚的),我們通過這種關(guān)系結(jié)合模型可以推出周圍那些沒有觀測到的地方的大概濃度。我們現(xiàn)在有個實時的同化系統(tǒng),當(dāng)觀測到的數(shù)據(jù)進入模式,我們很快能得到一個再分析的場,通過這個場就能知道全國濃度分布的大概樣子,包括它的動態(tài)變化等這部分也有很大的計算量,是很大的挑戰(zhàn)。”
不過,通過與英特爾等公司的合作,唐曉博士所在團隊正在與相關(guān)環(huán)保部門合作建立了一個從全國到省級到小城市的類似逐層遞減的預(yù)報技術(shù)體系,這個技術(shù)體系在全國層面有一個超大規(guī)模的高性能計算中心,這個計算中心支持全國的背景信息數(shù)據(jù)。據(jù)唐曉博士透露,他們發(fā)現(xiàn)在通用計算平臺上,他們的效率計算很高,在效率足夠高的時候,用一個小規(guī)模的專用機就可以支持當(dāng)?shù)氐男枨?,為國家環(huán)境部門提供一些背景的數(shù)據(jù),這樣就能滿足當(dāng)?shù)氐男枨蟆?/p>
總結(jié)
正如唐曉博士所說,精細化模擬和預(yù)測大氣污染是非常困難的。如今國內(nèi)乃至全世界的污染問題已經(jīng)相當(dāng)嚴峻,為了讓預(yù)測更加準(zhǔn)確,中科院大氣所的這套模式系統(tǒng)需要不斷增加數(shù)據(jù)采集來源、模擬更豐富的物理化學(xué)反應(yīng)過程,這些都離不開軟硬件協(xié)同提供計算支持。
中國近年來的高性能計算發(fā)展速度很快,于是我們能夠看到各種 “藍”、霧霾預(yù)警都越來越準(zhǔn)確。這就是IT硬件技術(shù)發(fā)展和科研人員在應(yīng)用方向的努力相結(jié)合所帶來的豐碩成果。未來,我們同樣期待這一套系統(tǒng)能夠在污染源控制方面起到更大的作用!endprint