• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Slurm作業(yè)調(diào)度系統(tǒng)在高性能集群中的應用

      2021-03-07 23:09:07楊敏李淑倩關宇何蕓侯波
      電腦知識與技術 2021年36期

      楊敏 李淑倩 關宇 何蕓 侯波

      摘要:集群作業(yè)管理系統(tǒng)作為高性能計算領域的核心技術,伴隨著計算機技術的發(fā)展進步逐漸成為計算機學科的熱點研究領域。作為集群系統(tǒng)軟件的重要組成部分,集群作業(yè)管理系統(tǒng)可以根據(jù)用戶的需求,統(tǒng)一管理和調(diào)度集群的軟硬件資源,保證用戶作業(yè)公平合理地共享集群資源,提高系統(tǒng)利用率和吞吐率。傳統(tǒng)作業(yè)管理系統(tǒng)大多需要以命令行的方式進行管理,用戶需要熟練掌握多種調(diào)度器命令。Slurm 是一種可用于大型計算節(jié)點集群的高度可伸縮和容錯的集群管理器和作業(yè)調(diào)度系統(tǒng),被世界范圍內(nèi)的超級計算機和計算集群廣泛采用。本文以Slurm作業(yè)調(diào)度器為例,對其體系結構、作業(yè)執(zhí)行過程做了重點研究,重點闡述其在地震處理軟件中的應用。其高效便捷的操作方式,極大提升工作效率,極大程度地優(yōu)化了集群管理工作。

      關鍵詞:Slurm;高性能計算;作業(yè)調(diào)度系統(tǒng)

      中圖分類號:TP311? ? ? 文獻標識碼:A

      文章編號:1009-3044(2021)36-0153-02

      開放科學(資源服務)標識碼(OSID):

      1 引言

      新疆油田公司地球物理研究所主要業(yè)務是地震資料處理解釋勘探研究,同時也是高性能計算中心。油氣地震勘探研究是利用高性能計算機的數(shù)據(jù)處理能力對野外收集的原始資料進行各種去粗取精、去偽存真的數(shù)據(jù)處理加工工作。隨著地震勘探技術進步,特別是近幾年油氣勘探地質(zhì)目標逐步轉向“低、深、隱、難”的小斷裂和薄儲層識別,野外高密度寬方位地震采集技術逐步推廣,采集的地震資料數(shù)據(jù)量動輒幾十TB甚至上百TB,數(shù)據(jù)體規(guī)模越來越大,數(shù)據(jù)類型繁雜,數(shù)據(jù)結構復雜,地震勘探研究邁進大數(shù)據(jù)時代隨著油氣地震勘探工作難度的日益增大,引進以密集計算為特征的新的地震資料處理方法和運行平臺HPC集群,來滿足復雜地質(zhì)目標研究需求。我所建成了一套計算規(guī)模9000多核CPU+GPU異構集群,每秒354.55Tflops萬億次浮點運算的理論處理能力,為油田公司資料數(shù)據(jù)處理提供了有力保障。主要應用于Paradigm2011處理系統(tǒng)、CGGVeritas Geovation處理系統(tǒng)、Geoeast處理解釋一體化平臺、AGT逆時偏移軟件、Lightning疊前偏移軟件。集群節(jié)點應用層面,地震資料處理過程中的常規(guī)處理工作依舊通過CPU節(jié)點進行,地震疊前逆時偏移等高精度成像技術由于計算量巨大,通過CPU/GPU節(jié)點的協(xié)同進行數(shù)據(jù)并行計算。這么大規(guī)模的集群存儲節(jié)點,集群作業(yè)調(diào)度系統(tǒng)作為集群系統(tǒng)軟件的重要組成部分,是地震勘探處理軟件的核心內(nèi)容。用戶自定義集群分組信息,作業(yè)在分組計算節(jié)點單元按需求運行,Slurm操作界面高效管理和便捷調(diào)度,保障用戶作業(yè)有序高效進行,共享整個集群計算資源,提高計算節(jié)點資源的利用率和吞吐率。Slurm是具備開源、容錯、高可伸縮的集群管理和大型小型 Linux 集群作業(yè)調(diào)度系統(tǒng)。由60萬行C代碼組成。它不需要對操作系統(tǒng)內(nèi)核進行修改,而是相對獨立的。Slurm在一段時間內(nèi)為用戶分配獨占或者非獨占的計算資源節(jié)點,按照自定義好的計算資源執(zhí)行作業(yè)任務;其次,它能提供管理功能,用于分配的計算節(jié)點集上啟動作業(yè)、執(zhí)行作業(yè)、監(jiān)視計算資源利用情況的功能,常規(guī)是并行作業(yè)任務;最后,它通過管理掛起的工作隊列,來仲裁資源爭奪問題。

      2 Slurm技術架構

      處理集群通常有多個用途,安裝多種應用軟件,為多個用戶提供服務、集群用途和系統(tǒng)配置經(jīng)常調(diào)整,日常維護服務體系復雜。集群資源調(diào)度難,需要將通用的集群監(jiān)控調(diào)度軟件和集群運維定制開發(fā)工具相結合,搭建適用于實際工作環(huán)境的集群資源調(diào)度管理體系,通過監(jiān)控收集集群運行數(shù)據(jù),支撐集群優(yōu)化,保障系統(tǒng)高效穩(wěn)定運行。

      Slurm是適應不同計算規(guī)模Linux集群的資源管理和調(diào)度軟件。它提供高效的資源與作業(yè)管理。包括狀態(tài)監(jiān)控、資源管理、作業(yè)調(diào)度和用量記賬。

      Slurm技術架構如下:

      1)運行在每個計算節(jié)點上的Slurmd守護進程;

      2)運行在管理節(jié)點上的中央Slurmctld守護進程(可選的故障切換節(jié)點模式) 。

      它的一個管理控制進程是Slurmctld運行在管理節(jié)點,是資源的控制中樞。它負責記錄節(jié)點狀態(tài)、進行分區(qū)作業(yè)管理、作業(yè)調(diào)度和資源分配。記賬存儲進程Slurmdbd也運行在管理節(jié)點,它將作業(yè)信息保存到數(shù)據(jù)庫,記錄用戶、賬號、資源限制、QOS等信息,負責用戶認證和安全隔離。節(jié)點監(jiān)控進程Slurmd運行在每個計算節(jié)點,監(jiān)控節(jié)點狀態(tài),并向控制進程注冊,接收來自控制進程與用戶的請求并進行處理。作業(yè)管理進程Slurmstepd加載計算任務時由節(jié)點監(jiān)控進程啟動,管理一個作業(yè)步的所有任務,啟動計算任務進程、標準I/O轉發(fā),信號傳遞和任務控制與資源使用信息收集。

      如下圖2所示,由這些 Slurm 守護程序管理的實體,包括:

      1)計算資源node;

      2)計算資源組成的邏輯集partition;

      3)分配給用戶指定的時間量的資源分配job;

      4)作業(yè)中的一組任務(有可能是并行任務)。

      這些分區(qū)可以被視為作業(yè)隊列, 其中每一個都有各種約束, 如作業(yè)大小限制、工作時間限制、允許使用它的用戶等。 按照優(yōu)先級排序的作業(yè),從隊列中分配節(jié)點,直至該隊列分資源,如節(jié)點、處理器、內(nèi)存等耗盡。一旦一個job分配了一組節(jié)點后, 用戶就能夠按照任何分配配置,以作業(yè)步驟形式啟動并行工作。 例如, 可以啟動一個作業(yè)步驟, 利用分配給作業(yè)的所有節(jié)點, 或者多個作業(yè)步驟可以獨立地使用分配的一部分。

      作業(yè)運行模式分為:交互模式、批處理模式和分配模式。這幾種模式只是用戶使用方式區(qū)別,管理、調(diào)度和記賬是一樣的模式。交互模式作業(yè)yhrun,在終端提交資源分配請求,指定資源數(shù)量與限制,等待資源分配,獲得資源后,加載計算任務,運行中,可與任務進行交互,任務結束后資源釋放。批處理模式y(tǒng)hbatch,用戶編寫作業(yè)腳本、提交作業(yè)、作業(yè)排隊等資源分配,分配后,在首節(jié)點加載執(zhí)行作業(yè)腳本,腳本運行結束,釋放資源,運行結果定向到指定的文件中記錄。一個作業(yè)可使用多個yhrun生成多個作業(yè)步。分配模式y(tǒng)halloc,它的模式是提交資源分配請求,作業(yè)排隊等待資源分配,執(zhí)行用戶指定命令,命令執(zhí)行結束后,釋放資源。

      3 Slurm 在生產(chǎn)中的應用

      基于Slurm的高性能集群管理,選定一臺機器作為控制節(jié)點,其他機器作為計算節(jié)點;獲取到集群中所有計算節(jié)點的主機名或IP信息,將集群安裝包和安裝腳本拷貝到各個計算節(jié)點;在控制節(jié)點上通過SSH服務登錄到各個計算節(jié)點,通過安裝腳本完成節(jié)點上集群環(huán)境的搭建部署;在控制節(jié)點部署控制接收進程,用于監(jiān)控計算資源,接收計算節(jié)點發(fā)送的信息;在各個計算節(jié)點上存在守護進程用來管控集群中的計算節(jié)點,定時采集節(jié)點狀態(tài)以及節(jié)點上信息并通過SSH服務發(fā)送給控制節(jié)點;對計算節(jié)點及冗余備份節(jié)點進行協(xié)同管理;基于Slurm作業(yè)管理機制和節(jié)點狀態(tài)監(jiān)控進程,依據(jù)集群系統(tǒng)資源的當前狀況對隊列中的作業(yè)進行部署、監(jiān)控和分配操作。

      筆者單位共64個節(jié)點,建立了7組隊列,每個隊列節(jié)點不一,同時并發(fā)執(zhí)行,Slurm管理查看界面分為工作列表、分區(qū)列表、節(jié)點情況等,故障點標紅宜排查,能夠?qū)崟r監(jiān)測查看隊列作業(yè)執(zhí)行情況,管理操作高效簡潔。

      4 結論

      本文從高性能計算集群管理的需求環(huán)境背景,到Slurm作業(yè)調(diào)度系統(tǒng)研究背景、技術架構和應用前景等進行了深入分析闡述。從應用實踐得出,Slurm 是優(yōu)秀的開源作業(yè)調(diào)度系統(tǒng),Slurm 集成度更高,操作管理簡潔,性能穩(wěn)定且功能強大。

      參考文獻:

      [1] 張軍華,臧勝濤,單聯(lián)瑜,等.高性能計算的發(fā)展現(xiàn)狀及趨勢[J].石油地球物理勘探,2010,45(6):918-925,936,791-792.

      [2] 段新華,王宏勇,丁汨.集群作業(yè)管理系統(tǒng)的關鍵技術分析及比較[J].計算機技術與發(fā)展,2009,19(2):87-90.

      [3] 薛勇,萬偉,艾建文.高性能地學計算進展[J].世界科技研究與發(fā)展,2008,30(3):314-319.

      [4] 欒翠菊,宋廣華,鄭耀,等.一種網(wǎng)格并行任務執(zhí)行時間預測算法[J].計算機集成制造系統(tǒng),2007,13(9):1805-1810.

      [5] 趙宗弟,胡凱,胡建平.基于PBS的集群作業(yè)調(diào)度策略的設計與實現(xiàn)[J].計算機與數(shù)字工程,2006,34(11):123-127.

      [6] 羅紅兵,張曉霞,魏勇.大規(guī)模并行計算機作業(yè)調(diào)度評價[J].計算機工程與應用,2006,42(10):79-83.

      【通聯(lián)編輯:李雅琪】

      舞阳县| 崇礼县| 光山县| 宁夏| 西丰县| 澄城县| 翁牛特旗| 中西区| 金堂县| 宁乡县| 泸州市| 庄浪县| 武隆县| 张家口市| 望城县| 都安| 华池县| 荃湾区| 玉门市| 彭泽县| 松桃| 宣威市| 台山市| 平果县| 咸阳市| 镇巴县| 叙永县| 彩票| 惠来县| 石屏县| 禹州市| 兰考县| 临沭县| 吉安县| 新和县| 民权县| 福州市| 榕江县| 静安区| 西昌市| 灵丘县|