文/李京 張煥杰
中科大超算中心:發(fā)力學科探索
文/李京 張煥杰
高性能計算設施是研究型大學的重要平臺,在學校教學、科研活動中發(fā)揮著不可替代的作用。
高性能計算應用領域非常廣泛,幾乎在所有學科中,高性能計算都能發(fā)揮作用。比如空間物理、地球化學、地球物理等涉及到地球圈層相互作用的環(huán)境效應等學科,此外,生命科學、高能物理、天體力學等許多學科在計算機的幫助下,可以取得更快的研究進展。所以說,高性能計算是研究型大學學科發(fā)展的一大平臺。
按照不同的分類方式,高性能計算設施有不同的劃分。具體來說,可以有三個不同類別的劃分。
通用型/專用型。通用型指的是:在作業(yè)系統(tǒng)管理下,多學科、多人共享使用,提供通常的計算服務,適合學校統(tǒng)一建設管理。專用型指的是使用特定的操作系統(tǒng)和軟件環(huán)境,某個系統(tǒng)或應用專用,往往加入到一個網(wǎng)格中,參與網(wǎng)絡計算,適合按照應用建設,統(tǒng)一管理。
計算密集型/數(shù)據(jù)密集型。計算密集型指的是計算量大,但數(shù)據(jù)存儲需要的不多。數(shù)據(jù)密集型指的是數(shù)據(jù)量非常大,如高能物理計算需要非常多的數(shù)據(jù)存儲空間。
通信密集型/松耦合型。為提高計算速度,往往需要多CPU共同完成計算任務,將一個計算任務劃分成子進程分別在多個CPU上同時運行。通信密集型指的是子進程間通信密集,在SMP、CCnuma等共享內(nèi)存或使用infiniband等高速網(wǎng)絡互聯(lián)機器上運行效率高。松耦合型指的是子進程間通信少,在以太網(wǎng)廉價互連的機器上運行,性價比很高。
從1995年開始,伴隨Linux和Internet的發(fā)展,中國科技大學多個院系、研究組建設了大大小小的Linux集群用于高性能計算。2004年中科大設立超級運算中心,掛靠在網(wǎng)絡信息中心,對全校用戶提供高性能計算服務和支持。超算中心是科大五大公共實驗中心之一。超算中心設專家委員會,專家由用戶和計算機學院老師組成。
目前,中科大高性能計算設施的現(xiàn)狀是:
第一,集中式與分散式計算設施并存。首先,在大范圍內(nèi),由學校超算中心統(tǒng)一建設、運行管理,用戶共享使用,計算能力10TFLOPS。此外,部分院系、項目組用科研經(jīng)費建設了各自的高性能計算設施,供小范圍使用,以Linux集群為主,總計算能力超過20TFLOPS。
第二,高性能CC-numa機器與廉價Linux集群并存。CC-numa機器價格高,但通信性能最快,Linux集群通信性能偏低,但價格也低,性價比很高。
第三,校內(nèi)外計算資源共用。部分項目組,除了使用學校的計算資源,也會使用校外性價比高的計算資源,如上海超算中心、科學院超算中心的計算資源。
集中式設備由超算中心負責建設與運行管理。在投入方面,從2004年至今總投入約1500萬,現(xiàn)有計算資源約10 TFLOPS,在今年10月剛增加了一套GPU高性能計算機(CPU性能5TFLOPS,GPU單精度性能205TFLOPS),年底前還將再增加一套約6TFLOPS高性能計算機。
超算中心現(xiàn)有設備有:高性能共享內(nèi)存計算機 HP SuperDome,峰值0.77TFLOPS,2004年購買; 高性能計算集群HP RX2600,峰值0.38TFLOPS,2004年購買;IBM刀片計算集群,峰值1.8TFLOPS,2007年購買;聯(lián)想深騰1800高性能Linux計算集群, 峰值4.7TFLOPS,2008年聯(lián)想公司贈送;曙光4000A;基于國產(chǎn)龍芯2CPU的KD50-I萬億次高性能計算機;聯(lián)想GPU高性能計算機等。
在分散式計算設施方面,各院系根據(jù)自己的需求,建立了各自的計算設施。比如,我校楊金龍教授研究組建設有3組Cluster,作為組內(nèi)計算使用,除使用校內(nèi)計算資源外,還付費使用上海超算等優(yōu)質(zhì)廉價計算資源。此外,還有物理學院Science Grid網(wǎng)格分支。物理學院初步建成Science Grid高性能計算中心,為粒子、天體、等離子體物理、理論學科發(fā)展提供大規(guī)模數(shù)據(jù)處理、及仿真模擬分析所需的計算機資源,其計劃處理器核數(shù)量:3000~5000核,預計投入1200萬元人民幣。
超算平臺經(jīng)過近六年的建設和運行,發(fā)展處于一個瓶頸期。希望能通過以下措施,細化超算平臺的的服務內(nèi)容,改進服務方式,提高服務水平,更好地為科大的科研和教學提供服務。
首先, 對超算用戶進行細分,提供更細致的服務。對剛開始接觸高性能計算的新用戶加強宣傳、培訓與服務,幫助其盡快掌握一些高性能計算的基礎知識。對于科研產(chǎn)出率高的用戶進行重點服務和支持,優(yōu)先使用,細致服務。針對商業(yè)或開源軟件用戶,提供相關的軟件環(huán)境和硬件環(huán)境,盡量滿足用戶需求。針對自己開發(fā)軟件的用戶,需提供深入的開發(fā)支持,必要時幫助用戶進行優(yōu)化,提高運行速度。針對托管系統(tǒng)用戶,需要提供系統(tǒng)托管服務。
其次,對程序模式進行細分,提供最合適的平臺。不同的平臺價格差異很大,要盡量發(fā)揮各種機器的優(yōu)勢。大內(nèi)存、高通信、大I/O的應用,適合在單節(jié)點性能高(當然也比較昂貴)的機器上運行,取得很高的實際計算性能;而多任務應用一般適合在集群系統(tǒng)上運行,可以在非常低的成本下獲取滿意的性能。
此外,對超算中心的工作內(nèi)容細分,引進合格的技術人員。在工作內(nèi)容細分與崗位要求方面,要注意這幾個方面。首先,日常運行和支持方面, 機器的常規(guī)運行和技術支持,人員要求較低;其次,平臺建設與維護方面,要充分了解各種程序、各種機器的特性;收集基準測試程序,對各種機器進行評測和比較;負責系統(tǒng)規(guī)劃、建設、維護的全過程;對用戶程序提供運行環(huán)境支持;人員素質(zhì)要求高;第三,高級用戶支持方面,對用戶提供1對1的系統(tǒng)和開發(fā)支持,人員素質(zhì)要求最高。后兩項工作對人員素質(zhì)要求很高,可以借助部分高級用戶的力量來完成一些工作。
總之,在工作中,設備是基礎,人員是關鍵。我們的關鍵詞是:細分用戶級別、深化服務內(nèi)容、改進服務方式、提高服務水平、支撐學校發(fā)展。
未來五年,我們計劃再建設一個400平米的超算專用機房,聚合計算性能發(fā)展到50~100T FLOPS,軟件環(huán)境具備3種以上的系統(tǒng)和運行環(huán)境,提供10種以上公用計算軟件。實現(xiàn)服務分級,重點支持5個以上研究組,提供高等級服務。管理方面,要具備不同層次8~10名技術人員。爭取對外合作,與企業(yè)建立合作關系,為國家和地方經(jīng)濟提供計算服務。
(作者單位為中國科技大學網(wǎng)絡信息中心)
互聯(lián)網(wǎng)有多重?
你考慮過這個問題嗎?所謂虛擬的互聯(lián)網(wǎng)到底有幾千克重?
不過CNET有人做出了這個終極問題的答案。他們計算出來了目前鏈接到互聯(lián)網(wǎng)上的每臺電腦、每臺服務器以及線纜的重量,最終得出的結(jié)果是:498,438,559,990千克。你可能從未意識到我們的互聯(lián)網(wǎng)也是如此龐大臃腫的一個玩意。有趣的是這里面還包含了iPhone、 Blackberry。
根據(jù)CNET的計算,他們認為世界上大約有570,937,778臺電腦正鏈接到互聯(lián)網(wǎng),然后以平均每臺約40千克計算。
以下是一些相關的數(shù)據(jù):
服務器的重量約是 175,480,931千克
線纜的重量以每米5.8千克計算,最后的結(jié)果87,000,000千克以上
IPhone 銷售了4200萬部,大概607.5萬千克重
黑莓銷售了5000萬部,重680萬千克
互聯(lián)網(wǎng)目前有287,524種病毒
而我們每天瀏覽的網(wǎng)站綜合相當于不到0.01千克重的煎蛋
你也可以“作個火星人”
美國宇航局和微軟公司日前宣布合作開設火星探索網(wǎng)站——“作個火星人”(beamartian.jpl.nasa.gov)網(wǎng)站。用戶登陸該網(wǎng)站不僅能了解美國宇航局迄今數(shù)百次火星探索任務的進展情況,而且可親身參與火星探索。
美國宇航局火星探索項目主任道格·麥奎遜說:“火星探索任務獲得了極其豐富的資料,我們現(xiàn)在到了一個人人都能當探索家的歷史階段?!彼f,網(wǎng)站用戶能夠自由擴展或創(chuàng)建自己的“火星任務”,并對美國宇航局的科研項目做出貢獻。比如統(tǒng)計火星環(huán)形山的數(shù)目任務艱巨,僅憑計算機或科學家難以完成,成千上萬的網(wǎng)民參與將加速這項工作的完成。用戶還能幫助科學家繪制精確的火星地圖,并因此獲得游戲“積分”。
(來自美國宇航局)