• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      話說(shuō)超級(jí)計(jì)算1)

      2022-11-25 16:56:10李新亮
      力學(xué)與實(shí)踐 2022年1期
      關(guān)鍵詞:超級(jí)計(jì)算機(jī)存儲(chǔ)系統(tǒng)數(shù)目

      李新亮

      (中國(guó)科學(xué)院力學(xué)研究所高溫氣體動(dòng)力學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)

      (中國(guó)科學(xué)院大學(xué)工程科學(xué)學(xué)院,北京 100049)

      超級(jí)計(jì)算,又稱大規(guī)模并行計(jì)算,是使用多個(gè)CPU 協(xié)同計(jì)算,形成強(qiáng)大算力的一種計(jì)算方式。并行計(jì)算是當(dāng)前計(jì)算機(jī)發(fā)展的主流及趨勢(shì)。發(fā)展并行計(jì)算的重要原因是當(dāng)前單個(gè)CPU 的計(jì)算能力遇到了瓶頸,隨著CPU 芯片電路尺寸越來(lái)越小,電路的漏電效應(yīng)、量子效應(yīng)等就顯現(xiàn)出來(lái)了,其主頻提升難度越來(lái)越大。當(dāng)前主流個(gè)人計(jì)算機(jī)(PC 機(jī))的CPU 主頻大約為3G 赫茲左右,而十年前的主流CPU 主頻也是3G 赫茲左右。單純從主頻來(lái)看,十年并沒(méi)有明顯提升,性能提升需要另辟途徑,增加處理器核心的數(shù)目就是一條重要途徑。除了CPU 之外,其他計(jì)算設(shè)備也是通過(guò)增加處理器的數(shù)目來(lái)提高性能,一塊顯卡內(nèi)部包含了數(shù)百到數(shù)千個(gè)流處理器,高端顯卡甚至有上萬(wàn)個(gè)流處理器,靠這些處理器協(xié)同工作以達(dá)到很高的計(jì)算性能。頂級(jí)計(jì)算機(jī)更是如此,神威·太湖之光計(jì)算機(jī)總共有上千萬(wàn)個(gè)CPU 核心,形成巨大的計(jì)算能力。依靠增加CPU 的數(shù)目來(lái)提升性能是當(dāng)前超級(jí)計(jì)算機(jī)發(fā)展的主要趨勢(shì)。隨著人們對(duì)計(jì)算機(jī)性能的要求不斷增長(zhǎng),未來(lái)計(jì)算機(jī)內(nèi)處理器的數(shù)目還會(huì)不斷提升。

      人們對(duì)計(jì)算機(jī)性能的需求是永無(wú)止境的。以湍流數(shù)值模擬為例,對(duì)湍流最為精細(xì)的模擬方法是直接數(shù)值模擬(direct numerical simulation, DNS),這種模擬方法需要分辨湍流全部尺度的流動(dòng)細(xì)節(jié)。湍流是多尺度的,最大尺度與最小尺度(即Kolmogorov尺度)相差非常懸殊。以一架大型飛機(jī)周圍的流場(chǎng)為例,其計(jì)算區(qū)域至少要幾十米的尺度,而最小尺度渦為亞毫米到微米的量級(jí)。如果實(shí)現(xiàn)該流場(chǎng)的直接數(shù)值模擬,網(wǎng)格的尺度為微米量級(jí),網(wǎng)格需要覆蓋幾十米的區(qū)域,網(wǎng)格的總數(shù)將是一個(gè)天文數(shù)字,其模擬已超出了當(dāng)前最強(qiáng)計(jì)算機(jī)的能力。以當(dāng)前超級(jí)計(jì)算機(jī)的性能而言,只能實(shí)現(xiàn)飛行器局部流場(chǎng)的直接數(shù)值模擬。強(qiáng)勁的應(yīng)用需求推動(dòng)著計(jì)算機(jī)性能不斷增長(zhǎng),無(wú)論超級(jí)計(jì)算機(jī)還是個(gè)人計(jì)算機(jī),其CPU 的數(shù)目都不斷增加,并行計(jì)算成為計(jì)算的主流。

      并行計(jì)算機(jī)可分為共享存儲(chǔ)式與分布存儲(chǔ)式兩類。共享存儲(chǔ)計(jì)算機(jī)的多個(gè)CPU 共享內(nèi)存資源,所有CPU 都有讀寫權(quán)限。當(dāng)前的個(gè)人計(jì)算機(jī)(PC 機(jī))就是共享內(nèi)存式的。當(dāng)前PC 機(jī)的CPU 通常有多個(gè)核心,例如4 核,8 核等。這些CPU 核心可以看成獨(dú)立的CPU。這些CPU 共享PC 機(jī)的內(nèi)存。共享存儲(chǔ)系統(tǒng)程序編寫比較容易,串行程序很容易改造成在共享存儲(chǔ)系統(tǒng)上運(yùn)行的并行程序。其主要原因就是由于存儲(chǔ)空間是單一的,數(shù)據(jù)結(jié)構(gòu)與串行系統(tǒng)相同,因而程序結(jié)構(gòu)與算法無(wú)需太大改變。共享存儲(chǔ)系統(tǒng)的不足之處在于其擴(kuò)展性不強(qiáng),CPU 規(guī)模難以做得很大。其主要原因是由于多個(gè)CPU 共享同一段內(nèi)存,當(dāng)CPU 數(shù)目增加后訪存沖突就會(huì)很嚴(yán)重,此外訪存帶寬也會(huì)成為瓶頸,因而共享存儲(chǔ)系統(tǒng)的CPU數(shù)目通常在百核以內(nèi)。大規(guī)模并行系統(tǒng)通常采用分布存儲(chǔ),即機(jī)群(cluster) 構(gòu)架。機(jī)群系統(tǒng)是由若干個(gè)獨(dú)立的計(jì)算機(jī)(稱為節(jié)點(diǎn))通過(guò)高性能網(wǎng)絡(luò)連接起來(lái),節(jié)點(diǎn)內(nèi)的CPU 只能訪問(wèn)本節(jié)點(diǎn)的內(nèi)存,這樣可以避免訪存沖突與內(nèi)存帶寬瓶頸,可實(shí)現(xiàn)成千上萬(wàn)節(jié)點(diǎn)的高可擴(kuò)展性。機(jī)群系統(tǒng)是當(dāng)今超級(jí)計(jì)算機(jī)的主流構(gòu)架,其可擴(kuò)展性幾乎是沒(méi)有止境的。20 世紀(jì)末,中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院的張林波研究員建立了我國(guó)的第一個(gè)機(jī)群系統(tǒng)。該系統(tǒng)通過(guò)百兆以太網(wǎng)將32 臺(tái)PC 機(jī)組成了一個(gè)局域網(wǎng),并安裝了Linux 系統(tǒng)及MPI 等并行軟件。2000 年筆者在清華大學(xué)力學(xué)系做博士后,期間也搭建了一套每秒百億次的PC 機(jī)群系統(tǒng)。

      筆者20 余年來(lái)見(jiàn)證了我國(guó)并行計(jì)算機(jī)的飛速發(fā)展。1997 年筆者在中國(guó)科學(xué)院力學(xué)研究所做博士生,當(dāng)時(shí)使用的是中國(guó)科學(xué)院計(jì)算中心的Power Challenge 并行機(jī),它的性能約每秒十億次(浮點(diǎn)運(yùn)算),2000 年筆者使用的PC 機(jī)群的性能為每秒百億次。隨后使用過(guò)千億次的神威1 號(hào),萬(wàn)億次的深騰6800,十萬(wàn)億次的曙光4000,百萬(wàn)億次的深騰7000,千萬(wàn)億次的天河1 號(hào),億億次的天河2 號(hào)以及十億億次級(jí)的神威·太湖之光。20 余年間,我國(guó)超級(jí)計(jì)算機(jī)的性能提升了一億倍。天河1 號(hào)、天河2 號(hào)和神威·太湖之光都曾排名世界第一,展示了我國(guó)在超級(jí)計(jì)算領(lǐng)域的實(shí)力。當(dāng)前,排名世界第一的機(jī)器是日本的“富岳”,其性能為400P 左右[1],即每秒40 億億次,而E 級(jí)計(jì)算機(jī)(百億億次計(jì)算機(jī))也將很快面世。

      1 異構(gòu)并行計(jì)算

      異構(gòu)并行是當(dāng)前超級(jí)計(jì)算機(jī)的發(fā)展趨勢(shì),排名前列的超級(jí)計(jì)算機(jī)大多采用異構(gòu)體系。所謂“異構(gòu)”就是采用CPU 以外的加速部件來(lái)輔助計(jì)算,提升計(jì)算性能。當(dāng)前最常用的加速部件是GPU,也就是常說(shuō)的顯卡。GPU 的計(jì)算性能非常強(qiáng),浮點(diǎn)計(jì)算性能遠(yuǎn)遠(yuǎn)超過(guò)CPU,這主要是因?yàn)镚PU 要快速處理圖像,每秒鐘實(shí)現(xiàn)數(shù)十上百幀圖像的計(jì)算,每幀圖像有上百萬(wàn)像素,必須有強(qiáng)大的計(jì)算能力,才能處理如此巨大的運(yùn)算量。GPU 內(nèi)的處理器數(shù)目非常多,目前的高端顯卡通常有數(shù)千甚至上萬(wàn)個(gè)流處理器。例如NVIDA RTX2080Ti 顯卡里面流處理器的數(shù)目為4352 個(gè),而最新推出的NVIDA RTX3090 顯卡里面的流處理器數(shù)目達(dá)到了10 496 個(gè)。每一個(gè)流處理器相當(dāng)于一個(gè)小CPU,這些小CPU 協(xié)同工作,以提供強(qiáng)大的計(jì)算性能。天河1 號(hào)就是使用GPU 作為加速器的。除了GPU,還有其他類型的加速芯片,例如英特爾的MIC 加速卡,一塊MIC 卡里有61 個(gè)處理器,這些處理器與英特爾CPU 執(zhí)行相同的指令集,只是主頻略低些。天河2 號(hào)就是使用MIC 卡來(lái)加速的。另外,還有片內(nèi)眾核系統(tǒng),將加速部件放到CPU內(nèi)部。片內(nèi)眾核系統(tǒng)的典型例子是神威·太湖之光,其CPU 稱為“申威”,每個(gè)CPU 內(nèi)有4 個(gè)核組,每個(gè)核組包含1 個(gè)主核及64 個(gè)從核。每個(gè)CPU 內(nèi)包含了260 個(gè)CPU 核心(4 主核,256 從核)??梢钥闯?,異構(gòu)并行是依靠處理器數(shù)目的優(yōu)勢(shì)以實(shí)現(xiàn)強(qiáng)大的計(jì)算性能。

      2 并行程序設(shè)計(jì)

      超級(jí)計(jì)算機(jī)包含了大量的處理器,必須采用并行程序才能發(fā)揮其性能優(yōu)勢(shì)。不同硬件體系對(duì)編程的要求是不同的。共享存儲(chǔ)系統(tǒng)編程相對(duì)簡(jiǎn)單,推薦大家使用OpenMP 程序設(shè)計(jì)。OpenMP 是一個(gè)多線程編程工具,嵌入到原編程語(yǔ)言中,對(duì)原始程序改動(dòng)非常小。OpenMP 常用的并行編程方式是在原有程序的循環(huán)體前添加類似編譯指示符的語(yǔ)句,指示編譯器將緊鄰的循環(huán)體切割成多個(gè)線程并發(fā)執(zhí)行。由于共享存儲(chǔ)系統(tǒng)內(nèi)存中的數(shù)據(jù)所有處理器都能訪問(wèn),因而不需為了并行化而改變數(shù)據(jù)結(jié)構(gòu),程序移植非常便捷。當(dāng)然,受共享存儲(chǔ)系統(tǒng)的擴(kuò)展性限制,計(jì)算難以擴(kuò)展到很大規(guī)模。

      大規(guī)模并行通常采用分布式存儲(chǔ)系統(tǒng)。對(duì)于分布式存儲(chǔ)系統(tǒng),推薦采用MPI 并行編程方式。消息傳遞接口(message passing interface, MPI)是當(dāng)前應(yīng)用最為廣泛的并行編程工具。MPI 既可在分布式存儲(chǔ)系統(tǒng)上運(yùn)行,也可以在共享存儲(chǔ)系統(tǒng)上運(yùn)行。MPI是一個(gè)并行函數(shù)庫(kù),可以嵌入到C, Fortran 等編程語(yǔ)言中。MPI 程序的運(yùn)行機(jī)制是:前端機(jī)將MPI 程序編譯成可執(zhí)行代碼后,將代碼拷貝N份,由N個(gè)進(jìn)程執(zhí)行,通常每個(gè)CPU(或節(jié)點(diǎn)) 運(yùn)行一個(gè)進(jìn)程。雖然各進(jìn)程運(yùn)行的代碼相同,但是其計(jì)算的任務(wù)是不同的。因?yàn)镸PI 程序設(shè)計(jì)時(shí),通常先要調(diào)用MPI庫(kù)函數(shù)得到本進(jìn)程的ID 號(hào),然后通過(guò)程序設(shè)計(jì)安排不同ID 號(hào)的進(jìn)程做不同的工作。每個(gè)MPI 進(jìn)程有自己獨(dú)立的內(nèi)存空間,各進(jìn)程只能訪問(wèn)自己的內(nèi)存。如果需要其他進(jìn)程的數(shù)據(jù),可以調(diào)用MPI 的通信函數(shù)(MPI SEND,MPIRECV 等),以進(jìn)程間通信的形式實(shí)現(xiàn)。

      總之,通過(guò)大量CPU 并行的超級(jí)計(jì)算是當(dāng)今高性能計(jì)算機(jī)及數(shù)值計(jì)算技術(shù)發(fā)展的趨勢(shì)。關(guān)注及學(xué)習(xí)并行計(jì)算技術(shù)是十分必要的。關(guān)于并行編程方面的內(nèi)容可以參考筆者在中國(guó)科學(xué)院大學(xué)講授《計(jì)算流體力學(xué)》的第14 和15 講,課件和錄像可從筆者網(wǎng)盤下載[2]。此外,推薦“超算習(xí)堂” 網(wǎng)站[3], 該網(wǎng)站內(nèi)有大量并行程序設(shè)計(jì)的課程及資料。

      猜你喜歡
      超級(jí)計(jì)算機(jī)存儲(chǔ)系統(tǒng)數(shù)目
      有機(jī)物“同分異構(gòu)體”數(shù)目的判斷方法
      超級(jí)計(jì)算機(jī)
      分布式存儲(chǔ)系統(tǒng)在企業(yè)檔案管理中的應(yīng)用
      哈爾濱軸承(2020年2期)2020-11-06 09:22:36
      超級(jí)計(jì)算機(jī)及其在航空航天領(lǐng)域中的應(yīng)用
      科技傳播(2019年22期)2020-01-14 03:06:36
      天河超算存儲(chǔ)系統(tǒng)在美創(chuàng)佳績(jī)
      美國(guó)制造出全球最快超級(jí)計(jì)算機(jī)
      每秒100億億次 中國(guó)超級(jí)計(jì)算機(jī)
      《哲對(duì)寧諾爾》方劑數(shù)目統(tǒng)計(jì)研究
      牧場(chǎng)里的馬
      華為震撼發(fā)布新一代OceanStor 18000 V3系列高端存儲(chǔ)系統(tǒng)
      平塘县| 乌海市| 吉木萨尔县| 眉山市| 惠水县| 宜川县| 甘泉县| 樟树市| 黄陵县| 吉水县| 辽宁省| 罗甸县| 扎鲁特旗| 马公市| 桂阳县| 台东市| 龙里县| 洮南市| 鞍山市| 青龙| 乌鲁木齐市| 堆龙德庆县| 毕节市| 钦州市| 余庆县| 石门县| 河池市| 恩平市| 德保县| 始兴县| 南城县| 安庆市| 榆林市| 乐清市| 尼勒克县| 松潘县| 枣强县| 邵阳县| 石台县| 江达县| 门源|