• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    百萬億次高性能計算系統(tǒng)管理和應(yīng)用的實踐

    2018-03-28 06:03:14楊敏李惠歡
    軟件工程 2018年2期

    楊敏 李惠歡

    摘 要:近幾年,各高校級、國家級的高性能計算中心陸續(xù)建成,超級計算平臺的運維模式也從過去強調(diào)計算力向注重降低運營管理成本和提升應(yīng)用服務(wù)水平轉(zhuǎn)變。中山大學(xué)經(jīng)歷了超過10年的行業(yè)實踐,在高性能計算平臺的建設(shè)管理、平臺運維服務(wù)支撐、應(yīng)用研究和人才培養(yǎng)等諸多方面具備堅實的基礎(chǔ)積累,建立了隨需而變的運維管理機制,充分滿足多學(xué)科應(yīng)用需求的個性化應(yīng)用服務(wù)模式,具備可持續(xù)發(fā)展的行業(yè)競爭實力。

    關(guān)鍵詞:百萬億次;高性能計算;國家超級計算廣州中心

    中圖分類號:TP311 文獻標識碼:A

    Abstract:In recent years,with the continual establishments of national and university HPC centers,the operation and maintenance pattern of the supercomputing platform has been changed from the emphasis on computing capacity to the focus on reducing the cost of operation management and improving the level of application service.After over 10 years of practice in the captive industry,Sun Yat-sen University has solid basic accumulations in respect of construction management of the high-performance computing platform,support of operation and maintenance services as well as application research and personnel training,etc.The operation and maintenance management can be adjusted in response to demands and the personalized service mode can fully meet the needs of multidisciplinary application,with the sustainable competition capacities in the HPC field.

    Keywords:MegaFLOPS;HPC;National Supercomputer Center in Guangzhou

    1 引言(Introduction)

    中山大學(xué)高性能計算平臺的建設(shè)始于2004年底,采取分步走、分批構(gòu)建、按需建設(shè)、逐步升級的策略,現(xiàn)在校內(nèi)共享平臺已經(jīng)建成聚合計算力接近200萬億次,存儲容量達到500T,其中GPU計算力130萬億次,使用團隊已超過170多個。高性能計算系統(tǒng)支撐的科學(xué)計算多數(shù)都是非計算機學(xué)科的,對于用戶來說,系統(tǒng)上提供的軟件資源和硬件資源服務(wù)是一體化的。高性能計算系統(tǒng)的主要職責(zé)即是為各領(lǐng)域用戶提供科學(xué)計算相關(guān)的資源,包括計算資源和應(yīng)用資源。我校百萬億次高性能計算集群系統(tǒng)分批多次建成,硬件數(shù)量多達四百多臺,異構(gòu)復(fù)雜,用戶應(yīng)用領(lǐng)域廣泛,用戶需求各異。如何進行統(tǒng)一的管理,提高運維的效率,降低用戶的使用門檻,為用戶提供易用性強的技術(shù)支持是系統(tǒng)應(yīng)用的難點。經(jīng)過十幾年的經(jīng)驗積累,我校在高性能計算平臺的建設(shè)管理、平臺運維服務(wù)支撐、應(yīng)用研究和人才培養(yǎng)等諸方面具備堅實的基礎(chǔ)積累,并于2012年與廣東省政府、廣州市政府、國防科學(xué)技術(shù)大學(xué)四方共同建立國家超級計算廣州中心,中心的大樓坐落于中山大學(xué)廣州大學(xué)城校區(qū)內(nèi),峰值計算性能11億億次的“天河二號”超級計算機系統(tǒng)已于2015年投入運行[1-3]。

    2 運維與管理(Maintenance and management)

    我校高性能計算共享服務(wù)平臺有先后建于不同時期的多套異構(gòu)系統(tǒng),包括公共計算平臺、GPU平臺、省網(wǎng)格、國家網(wǎng)格、科研團隊的專業(yè)計算平臺(例如空氣質(zhì)量預(yù)測平臺),各類平臺都集成在一起進行統(tǒng)一建設(shè)和管理。對于不同規(guī)模的專業(yè)應(yīng)用計算平臺,我們采用不同的協(xié)同服務(wù)機制。系統(tǒng)總體架構(gòu)圖如圖1所示。

    2.1 網(wǎng)格監(jiān)控

    大規(guī)模高性能計算集群系統(tǒng)在管理上存在著很多的難點:(1)服務(wù)器數(shù)量多,且異構(gòu)多樣,專門技術(shù)人才配比少。系統(tǒng)一般都包括管理節(jié)點、登錄節(jié)點、計算節(jié)點、I/O存儲節(jié)點、光纖存儲網(wǎng)絡(luò)、高速計算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)等。設(shè)備類型復(fù)雜,無法完全依賴人工方式完成系統(tǒng)運維;(2)故障類型眾多,迅速故障定位要求技術(shù)專業(yè)程度高。不同類型的設(shè)備配置不一樣,故障的原因和影響的范圍有很大差異。單個計算節(jié)點故障只影響到提交到該節(jié)點的作業(yè)運行異常,管理節(jié)點、共享存儲節(jié)點或共享計算網(wǎng)絡(luò)故障會影響整個系統(tǒng)服務(wù),導(dǎo)致所有用戶的作業(yè)運行受到影響;(3)故障發(fā)生不可預(yù)測,要求響應(yīng)處理及時。高性能計算系統(tǒng)需7*24小時對外提供服務(wù),滿足用戶網(wǎng)絡(luò)訪問的需求,一旦發(fā)生故障必須及時通知管理員進行處理[4,5]。

    為解決以上問題,我們在開源軟件ganglia和Icinga的基礎(chǔ)上搭建了自動化的集群監(jiān)控、告警運維系統(tǒng)。采用ganglia構(gòu)建SYSU_HPC Grid網(wǎng)格,能夠跨操作系統(tǒng)平臺和異構(gòu)硬件平臺采集系統(tǒng)信息,持續(xù)地監(jiān)測每個平臺各個組件的性能,觀察系統(tǒng)運行的情況,檢測資源利用的分布趨勢,并將這些信息有效地匯總和呈現(xiàn),這些信息可以作為資源管理策略制定、系統(tǒng)架構(gòu)優(yōu)化和新設(shè)備的選型的依據(jù)。同時集成Icinga的告警功能,能夠在問題發(fā)生之前,性能指標達到一定的閥值就發(fā)出警告,而不是在問題發(fā)生之后。在性能超出預(yù)定范圍時及時通知管理員進行處理,比如溫濕度過高、內(nèi)存不足、CPU占用太高、磁盤剩余空間不夠、ssh服務(wù)異常、網(wǎng)絡(luò)異常等等。發(fā)出警告的途徑可以由用戶設(shè)置,包括MAIL、SMS、微信等方式。不同的告警級別使用不同的告警方式,一般warning警告可使用MAIL、微信告警,在網(wǎng)絡(luò)不可用的情況可以通過SMS發(fā)短信告警。使用自動化的監(jiān)控告警,使集群系統(tǒng)保持穩(wěn)定、高效的運行狀態(tài),提高平臺服務(wù)質(zhì)量[6,7]。運維管理結(jié)構(gòu)圖如圖2所示。

    根據(jù)監(jiān)測到系統(tǒng)負載的分布情況,在整套平臺中建立多種適合不同資源需求的作業(yè)調(diào)度管理策略,以作業(yè)申請的CPU核數(shù)、作業(yè)運行時間和用戶優(yōu)先級別為維度劃分多種隊列,不同類型的作業(yè)根據(jù)資源需求情況自動進入相應(yīng)隊列,從而顯著提高平臺資源的利用率。

    2.2 數(shù)據(jù)分析統(tǒng)計

    為了提高平臺使用的透明度,我們在開源軟件作業(yè)管理調(diào)度系統(tǒng)TORQUE基礎(chǔ)上進行了運維報表等統(tǒng)計分析軟件的開發(fā)[8]。主要對系統(tǒng)使用數(shù)據(jù)和用戶使用數(shù)據(jù)進行分析統(tǒng)計,實現(xiàn)對多校區(qū)集群系統(tǒng)的用戶作業(yè)運行情況的實時監(jiān)測,并對作業(yè)調(diào)度及運行情況、集群平臺使用情況及利用率等進行統(tǒng)計分析,形成了每周、每月、每年的運行情況報表,并進行及時發(fā)布。記錄詳細的CPU、內(nèi)存、網(wǎng)絡(luò)、文件系統(tǒng)、IO等信息的歷史使用數(shù)據(jù),按照用戶指定的時間段以曲線圖或報表的形式提供給用戶,進行系統(tǒng)使用情況的統(tǒng)計;形成與作業(yè)系統(tǒng)整合的用戶資源統(tǒng)計報表,可以按照管理員指定的時間段,統(tǒng)計指定用戶的系統(tǒng)資源使用情況,或者以圖表形式統(tǒng)計各個用戶占用資源的比例。統(tǒng)計分析系統(tǒng)采用了自上而下的設(shè)計方法,技術(shù)規(guī)范、信息標準和系統(tǒng)安全保障橫跨各個層面。系統(tǒng)架構(gòu)分為五層,包括用戶界面層、業(yè)務(wù)層、應(yīng)用組件層、應(yīng)用接口層和基礎(chǔ)平臺層,每一層都為上層提供服務(wù),同時也從下層接口中獲得服務(wù)[9]。

    最頂層為用戶界面層直接面向最終用戶,用戶可以使用普通瀏覽器如IE或Chrome等作為客戶端來訪問。用戶界面層為所有用戶提供了統(tǒng)一登錄入口,用戶只需輸入賬號/密碼則可登錄。用戶界面層作為單獨一層,可以和高性能計算服務(wù)門戶的用戶界面層集成在一起,把系統(tǒng)的整個UI設(shè)計獨立出來,使系統(tǒng)設(shè)計得更具人性化。

    第二層為業(yè)務(wù)層,也是統(tǒng)計分析系統(tǒng)的主要功能模塊集合。該層從用戶和系統(tǒng)等多個緯度提供年度、季度、月度的使用情況統(tǒng)計查詢和報表生成打印等功能,還可從分析結(jié)果中產(chǎn)生決策支持等功能。業(yè)務(wù)層以服務(wù)接口的方式為用戶界面層提供服務(wù),同時從應(yīng)用組件層的相關(guān)引擎中獲取服務(wù)。

    第三層為應(yīng)用組件層,將統(tǒng)計分析系統(tǒng)的業(yè)務(wù)進行邏輯抽象出來的引擎組件。這些組件包括實現(xiàn)對TORQUE原始日志記錄進行分析的數(shù)據(jù)分析引擎;實現(xiàn)日志文件訪問處理的文件處理引擎;實現(xiàn)統(tǒng)計報表管理的報表引擎;實現(xiàn)用戶操作日志記錄的日志引擎等。應(yīng)用組件層同樣為上層提供通用的應(yīng)用組件以構(gòu)成業(yè)務(wù)功能模塊。

    第四層為應(yīng)用接口層,負責(zé)與基礎(chǔ)平臺層進行對接和通信,為上層應(yīng)用組件層提供服務(wù),該層由各類適配器構(gòu)成,使上層應(yīng)用不需依賴于基礎(chǔ)平臺。

    最底層為基礎(chǔ)平臺層,包括高性能計算平臺上的各種基礎(chǔ)運行環(huán)境,是整個系統(tǒng)的基礎(chǔ)平臺,涵蓋集群的共享文件系統(tǒng)、作業(yè)管理調(diào)度系統(tǒng)TORQUE、各類并行程序運行環(huán)境等[10]。

    3 應(yīng)用與服務(wù)(Application and service)

    3.1 高性能計算門戶

    高性能計算系統(tǒng)的使用對一般用戶,特別是非計算機專業(yè)的用戶來說應(yīng)用門檻仍然較高。我校通過建設(shè)高性能計算門戶,將建于不同時期、分布在不同校區(qū)的多套計算資源進行有機地整合,為用戶使用所有校內(nèi)高性能計算資源提供一個統(tǒng)一的Web接口,有效地提高平臺的易用性[11,12]。

    高性能計算門戶框架主要由單點登錄、遠程應(yīng)用管理、個性化用戶界面定制等。

    (1)單點登錄

    門戶將建立單一登錄功能,用戶通過Web瀏覽器使用用戶名/密碼登錄高性能計算門戶后,門戶將在用戶的整個會話期內(nèi)為用戶管理證書,基于證書映射的角色管理為用戶提供更加細致粒度的高性能計算資源和高性能計算服務(wù)的訪問控制。

    (2)遠程應(yīng)用管理

    用戶可以基于Web對高性能計算作業(yè)進行遠程的在線應(yīng)用管理,方便用戶監(jiān)控自己的作業(yè)。用戶使用發(fā)布出來的在線高性能應(yīng)用服務(wù)提交高性能計算作業(yè)。對于在線的應(yīng)用管理分為三個部分:作業(yè)提交管理、作業(yè)詳細信息查詢、作業(yè)列表查詢。

    (3)個性化用戶界面定制

    給不同角色的用戶提供不同的資源和服務(wù)視圖,保證資源和服務(wù)的安全運行,同時也給不同用戶賦予特定的應(yīng)用體驗。

    高性能計算門戶系統(tǒng)采用二級調(diào)度機制。用戶從Web客戶端提交的所有作業(yè),都將被提交到系統(tǒng)服務(wù),由系統(tǒng)服務(wù)根據(jù)整個環(huán)境的使用情況以前端服務(wù)為單位進行調(diào)度;而前端服務(wù)收到作業(yè)請求之后,則是根據(jù)其接入機群的情況,在局部范圍內(nèi)進行二次調(diào)度。網(wǎng)格上的調(diào)度不干涉高性能計算機群自身的調(diào)度系統(tǒng)策略,因此網(wǎng)格上只需要提供簡單的FIFO和人工調(diào)度即可,復(fù)雜的調(diào)度策略由高性能計算機群調(diào)度系統(tǒng)完成。各種高性能計算機群調(diào)度系統(tǒng)都有各自的特點,不過大多支持批量作業(yè)提交,支持回填、搶占、預(yù)留等高級調(diào)度算法。二級調(diào)度機制既保證了全局的調(diào)度機制,又給予局部管理范圍一定的調(diào)度靈活性,可以很好地適應(yīng)層次化管理需求。

    高性能計算門戶基于portlet技術(shù)構(gòu)建。Web Portal是基于符合JSR-168 規(guī)范的Portlet 并融合了Ajax技術(shù)的Portal。Web Portal 由基礎(chǔ)層、服務(wù)層和Portlets組件層構(gòu)成。Web Portal體系結(jié)構(gòu)如圖3所示。

    3.2 應(yīng)用服務(wù)封裝

    中大的高性能計算系統(tǒng)中除了部署高性能計算必需的編譯器、數(shù)學(xué)庫、并行庫外,還把各科學(xué)領(lǐng)域用戶常用的開源、商用軟件分類部署到集群系統(tǒng)中,涉及計算化學(xué)、理論化學(xué)、理論物理、材料科學(xué)、流體力學(xué)、環(huán)境工程、氣象、地理信息、生物信息等多個領(lǐng)域。我們通過分析主流的開源和商用大型科學(xué)與工程計算軟件的應(yīng)用模式,提取出科學(xué)計算軟件的應(yīng)用服務(wù)封裝的一般化方法,實現(xiàn)了部分軟件的基于Web技術(shù)的應(yīng)用服務(wù)封裝,為用戶提供更加直觀、易用的基于Web的科學(xué)計算軟件作業(yè)提交方式[13]。

    在計算環(huán)境應(yīng)用封裝的基礎(chǔ)上,在Web頁面上提供應(yīng)用的使用接口。Portal適合封裝交互次數(shù)少、作業(yè)輸入和輸出數(shù)據(jù)較小的應(yīng)用。在Portal上的應(yīng)用封裝可以分成兩個部分,Web頁面部分和服務(wù)部分。

    (1)Web頁面部分

    該部分提供用戶操作的界面及一些輔助功能,包括檢查用戶參數(shù)的完整性和合理性等功能,根據(jù)本地的cookie信息提供信息補全等功能。收集用戶輸入的數(shù)據(jù)并按一定的格式整理后傳輸?shù)椒?wù)器。

    (2)服務(wù)部分

    該部分處理提交頁面的請求。主要功能是接受頁面的請求,通過與計算環(huán)境交互,完成相關(guān)請求并返回提示信息,如可能需要的資源列表、作業(yè)數(shù)據(jù)上傳和作業(yè)提交及返回信息。

    目前Web Portal已經(jīng)在材料科學(xué)、生命科學(xué)和工程力學(xué)等領(lǐng)域獲得了廣泛的應(yīng)用,已經(jīng)封裝和定制的應(yīng)用包括Amber、Gaussian、NAMD、Fluent和MATLAB等多個學(xué)科領(lǐng)域的應(yīng)用,也可以很方便地增加更多的應(yīng)用。

    4 結(jié)論(Conclusion)

    中山大學(xué)重視學(xué)科建設(shè),整合校內(nèi)各方面的科研資源構(gòu)建國內(nèi)高校先進的高性能計算服務(wù)平臺。院系各科研團隊利用該平臺在各學(xué)科領(lǐng)域開展深入研究,在物理化學(xué)、環(huán)境大氣科學(xué)、生命科學(xué)、光學(xué)工程、計算科學(xué)、海洋科學(xué)、材料科學(xué)、流體力學(xué)等多個領(lǐng)域發(fā)表高水平科研成果?;谄脚_開展的科學(xué)研究項目包括國家自然科學(xué)基金項目、國家科技重大專項、國家重點基礎(chǔ)研究發(fā)展規(guī)劃(973)項目、省自然科學(xué)基金項目和廣東省科技攻關(guān)項目等,其中有兩個項目獲得2011年度國家科技進步二等獎,在此基礎(chǔ)之上培養(yǎng)了一批具備交叉學(xué)科的科研人員,從整體上提升了中山大學(xué)科研學(xué)術(shù)水平,于2013年成功孵化并建成了中山大學(xué)國家超級計算廣州中心。

    參考文獻(References)

    [1] 鄭寧,王冰,黨崗.廣州超級計算中心應(yīng)用發(fā)展與研究[J].計算機工程與科學(xué),2013,35(11):187-190.

    [2] 遲學(xué)斌,胡永宏.我國超級計算發(fā)展狀況研究[J].調(diào)研世界, 2013(8):56-60.

    [3] 張云泉,袁國興.中國高性能計算及TOP100排行榜[EB/OL].http://www.samass.org.cn,2013-10-21.

    [4] Meuer H,Simon H,Strohmaier E,et al.TOP500 super-computer sites [EB/OL].http://www.top500.org,2013-10-21.

    [5] 林皎,張武生,徐偉平,等.百萬億次集群機的建設(shè)和部署[J].實驗室研究與探索,2013,32(6):188-190.

    [6] Monitoring with Ganglia,Massie,Matt;Li,Bernard;Nicholes,Brad 2012-11.

    [7] 中山大學(xué)高興能計算網(wǎng)格監(jiān)控平臺[EB/OL].http://hpccmonitor.sysu.edu.cn/ganglia,2013-10-21.

    [8] CLUSTER RESOURCES,TORQUE Administrator's Guide version 2.4[EB/OL].http://www.clusterresources.com,2013-10-21.

    [9] 牛鐵,朱鵬,趙毅,等.超級計算環(huán)境配額系統(tǒng)設(shè)計與實現(xiàn)[J].計算機應(yīng)用,2010,30(12):8-9;39.

    [10] 李惠歡,楊敏,吳汝明.基于 TORQUE 的高性能計算平臺記賬系統(tǒng)[J].計算機應(yīng)用與軟件,2016(8):126-130.

    [11] 廣東省教育科研網(wǎng)格門戶系統(tǒng)[EB/OL].http://hpcc.sysu.edu.cn,2013-10-21.

    [12] 楊敏.廣東省教育科研網(wǎng)格門戶系統(tǒng)構(gòu)建[J].武漢大學(xué)學(xué)報(理學(xué)版)2012,58(10):371-375.

    [13] 楊敏,關(guān)偉豪,朱敏.面向超級計算中心的運營管理支撐平臺的設(shè)計與實現(xiàn)[J].實驗技術(shù)與管理,2015,32(6):243-246.

    作者簡介:

    楊 敏(1979-),女,碩士,工程師.研究領(lǐng)域:高性能計算系統(tǒng)架構(gòu),大數(shù)據(jù)系統(tǒng)架構(gòu).

    李惠歡(1975-),女,碩士,工程師.研究領(lǐng)域:軟件開發(fā).

    筠连县| 临江市| 洪湖市| 南川市| 灌云县| 读书| 南乐县| 抚顺县| 汉中市| 茂名市| 邵武市| 津市市| 廉江市| 邳州市| 卢氏县| 清丰县| 浙江省| 石泉县| 绥芬河市| 哈密市| 普兰店市| 科技| 文昌市| 台北市| 海口市| 宿松县| 台北县| 富平县| 新干县| 五家渠市| 南充市| 济宁市| 隆化县| 潢川县| 航空| 临洮县| 利川市| 乐平市| 墨竹工卡县| 芜湖市| 鹰潭市|