John Edwards
在當(dāng)今數(shù)據(jù)驅(qū)動(dòng)的世界中,高性能計(jì)算(HPC)正成為企業(yè)尋求深入了解基因組、計(jì)算化學(xué)、金融風(fēng)險(xiǎn)建模和地震成像等領(lǐng)域的首選平臺(tái)。最初,高性能計(jì)算受到需要進(jìn)行復(fù)雜數(shù)學(xué)計(jì)算的研究科學(xué)家們的歡迎,而現(xiàn)在,越來越多的企業(yè)開始關(guān)注這一領(lǐng)域。
高性能計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)系統(tǒng)提供商Panasas公司的系統(tǒng)工程總監(jiān)Dale Brantly介紹說:“依靠數(shù)據(jù)的收集、分析和分發(fā)而蓬勃發(fā)展的環(huán)境,以及依靠可靠的系統(tǒng)來支持具有巨大計(jì)算能力的工作流程等等,都需要高性能計(jì)算?!?/p>
雖然中小企業(yè)采用的仍然相對(duì)較少,但對(duì)于愿意投資于技術(shù)和員工專業(yè)知識(shí)的企業(yè)來說,這項(xiàng)技術(shù)具有巨大的潛力。
通常,高性能計(jì)算應(yīng)用情形主要集中在某種類型的仿真上。谷歌云首席技術(shù)官辦公室高性能計(jì)算和量子計(jì)算技術(shù)總監(jiān)Kevin Kissell解釋說:“例如,機(jī)翼氣流模擬、發(fā)動(dòng)機(jī)燃燒、行星天氣系統(tǒng)、核反應(yīng)以及投資組合估值等?!逼渌麘?yīng)用情形則針對(duì)分析目標(biāo),例如,衡量廣告投資回報(bào)率,或者評(píng)估業(yè)務(wù)部門的績(jī)效等。還有其他的應(yīng)用情形可以歸類為轉(zhuǎn)換應(yīng)用或者轉(zhuǎn)型應(yīng)用。他說:“比如電影和視頻渲染。”
很多企業(yè)和IT領(lǐng)導(dǎo)們都有一個(gè)誤解,那就是所有的高性能計(jì)算系統(tǒng)都是基于超級(jí)計(jì)算機(jī)的。事實(shí)上,雖然由Atos、IBM、HPE/Cray和Fujitsu等公司生產(chǎn)的超級(jí)計(jì)算機(jī)是很多專業(yè)高性能計(jì)算系統(tǒng)的核心,但一種使用更廣泛的方法是將多臺(tái)小型計(jì)算機(jī)集中到互連的集群中,以提供高性能計(jì)算功能。在這種布局下,集群中的每臺(tái)計(jì)算機(jī)都是一個(gè)節(jié)點(diǎn)。每個(gè)節(jié)點(diǎn)通常配置多個(gè)處理器,稱為計(jì)算核心,用于處理計(jì)算任務(wù)。每個(gè)節(jié)點(diǎn)內(nèi)的處理器、圖形處理單元(GPU)和內(nèi)存資源相互連接,以創(chuàng)建高性能計(jì)算系統(tǒng)。
由于實(shí)現(xiàn)并運(yùn)行超級(jí)計(jì)算機(jī)及其定制軟件的成本很容易達(dá)到數(shù)百萬美元,因此,這項(xiàng)技術(shù)仍然遠(yuǎn)遠(yuǎn)超出大多數(shù)企業(yè)的財(cái)務(wù)承受能力。集群式的高性能計(jì)算機(jī)使用相對(duì)便宜的聯(lián)網(wǎng)計(jì)算機(jī),運(yùn)行現(xiàn)成的軟件,通常更易于部署和運(yùn)行。盡管如此,對(duì)于大多數(shù)企業(yè)來說,特別是那些高性能計(jì)算需求有限的企業(yè),即使是規(guī)模不大的集群型高性能計(jì)算也是很大的投資。
現(xiàn)在,這種情況正在改變。希望在不突破IT預(yù)算的情況下使用高性能計(jì)算的企業(yè)可以選擇轉(zhuǎn)向公有云服務(wù),例如,谷歌云、微軟Azure、亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)和IBM云等。
數(shù)字服務(wù)和軟件工程公司Ciklum的.NET技術(shù)主管Maksym Pavlov說:“利用這些服務(wù),企業(yè)能夠通過高性能計(jì)算功能來滿足其業(yè)務(wù)需求,而無需對(duì)高性能計(jì)算集群的硬件基礎(chǔ)設(shè)施進(jìn)行大量投資?!盜BM的百億億次計(jì)算副總裁David Turek補(bǔ)充道:“云的出現(xiàn)在某種程度上拉近了小企業(yè)和大企業(yè)之間的差距。”
北卡羅萊納大學(xué)教堂山分校(UNC-Chapel Hill)長(zhǎng)期以來一直依靠其內(nèi)部高性能計(jì)算集群來支持多個(gè)科學(xué)、工程和醫(yī)學(xué)領(lǐng)域的研究活動(dòng)。然而,隨著研究計(jì)算需求的不斷增長(zhǎng),當(dāng)前系統(tǒng)的計(jì)算資源和容量開始滿足不了用戶需求了。大學(xué)并沒有擴(kuò)大現(xiàn)有的高性能計(jì)算投資,而是決定轉(zhuǎn)向云,為用戶提供一個(gè)按需的高性能計(jì)算環(huán)境。
該方法證明既有成本效益又非常靈活。北卡羅萊納大學(xué)教堂山分校臨時(shí)首席信息官M(fèi)ichael Barker介紹說:“借助于云計(jì)算,我們可以提供完成必要工作所需的計(jì)算能力,并且只要工作需要,我們就可以隨時(shí)提供這些計(jì)算能力。這是一種滿足運(yùn)行計(jì)算工作需求非常有效的方式?!?/p>
北卡羅萊納大學(xué)教堂山分校高級(jí)研究助理Jeff Roach表示,遷移到云端既有必要,也非常受歡迎。他說:“我們有一個(gè)非常傳統(tǒng)的本地集群。”然而,隨著時(shí)間的推移,越來越明顯的是,該系統(tǒng)逐漸跟不上需要先進(jìn)計(jì)算能力和更快性能用戶的需求。他說:“我們發(fā)現(xiàn),我們的本地集群對(duì)其設(shè)計(jì)目標(biāo)用戶的工作效果非常好,但除此之外,其一些優(yōu)勢(shì)應(yīng)用卻變得不那么有優(yōu)勢(shì)了?!?/p>
隨著計(jì)算需求應(yīng)用情形迅速流行起來,北卡羅萊納大學(xué)教堂山分校開始與谷歌云和仿真分析軟件提供商Techila技術(shù)公司合作,規(guī)劃進(jìn)入高性能計(jì)算云的旅程。規(guī)劃后的第一步是概念驗(yàn)證評(píng)估。Roach說:“我們找了一名在校研究人員,他的工作就是進(jìn)行大量的高內(nèi)存、交互式計(jì)算,我們想要測(cè)試一下他的工作量。”他說,這個(gè)結(jié)果絕對(duì)是成功的?!把芯咳藛T真的很喜歡,他完成了工作?!比绻诖髮W(xué)的本地高性能計(jì)算集群上運(yùn)行,同樣的任務(wù)可能需要一個(gè)星期才能完成。Roach說:“而他僅用幾個(gè)小時(shí)就可以完成很多工作?!?/p>
在大西洋的另一邊,約克大學(xué)也決定采用基于云的高性能計(jì)算方法。英國(guó)皇家學(xué)會(huì)行業(yè)研究員、約克大學(xué)生物系教授James Chong介紹說,生物、物理、化學(xué)和計(jì)算機(jī)科學(xué)等理科系以及語言學(xué)和其他一些學(xué)科的師生廣泛采用了高性能計(jì)算。
Chong的團(tuán)隊(duì)目前正在使用谷歌云來分析DNA序列數(shù)據(jù)。他解釋說:“具體來說,我的團(tuán)隊(duì)對(duì)微生物群落很感興趣,這是一種混合微生物群落,參與了把廢物(在我們的研究中,是污水污泥)轉(zhuǎn)化為沼氣的過程。我們使用高性能計(jì)算把DNA短序列重組成一個(gè)宏基因組,然后分離出不同微生物的基因組,這樣我們就可以理解這些微生物是怎樣對(duì)其生長(zhǎng)條件的變化做出反應(yīng)的?!?/p>
與北卡羅萊納大學(xué)教堂山分校的同行一樣,Chong也非常欣賞高性能計(jì)算云服務(wù)所能提供的強(qiáng)大功能和靈活性。他說:“我們的高性能計(jì)算能力能夠滿足一系列需求,有些用戶需要大量的處理器,而有些則需要大容量?jī)?nèi)存機(jī)器。作為生物學(xué)家,我們使用的一些應(yīng)用程序很快就會(huì)綁定到I/O,因此我們也非常需要超高速硬盤訪問功能?!?/p>
大學(xué)使用的高性能計(jì)算云也能夠適應(yīng)不斷變化的需求。Chong指出:“我們中的很多人開始使用機(jī)器學(xué)習(xí)技術(shù),希望能夠利用不同的體系結(jié)構(gòu)。”他補(bǔ)充道:“這所大學(xué)的用戶范圍很廣,這意味著我們還需要使用一系列不同的軟件包?!迸c大多數(shù)高性能計(jì)算云一樣,約克大學(xué)使用的服務(wù)支持各種類型的研究人員輕松快速地在軟件工具之間切換,而不會(huì)在獲取、部署或者配置問題上浪費(fèi)時(shí)間。
雖然高性能計(jì)算云服務(wù)有某些優(yōu)勢(shì),但對(duì)于關(guān)心安全和隱私的企業(yè)來說,它并不總是最佳或者最合理的選擇。Turek注意到:“這些企業(yè)對(duì)于數(shù)據(jù)存放的位置非常敏感。例如,尤其是當(dāng)考慮到歐洲的GDPR限制時(shí)。”(GDPR是歐盟隱私法《通用數(shù)據(jù)保護(hù)條例》的縮寫。)
為了同時(shí)滿足隱私和對(duì)巨大計(jì)算能力的需求,邁阿密大學(xué)最近選擇投資一個(gè)基于超級(jí)計(jì)算機(jī)的內(nèi)部部署的高性能計(jì)算新系統(tǒng)。最關(guān)鍵的是,該大學(xué)認(rèn)為,擁有大量多維數(shù)據(jù)集的研究項(xiàng)目在專門設(shè)計(jì)的高性能超級(jí)計(jì)算機(jī)上能夠運(yùn)行得更快。
去年8月,該校推出了基于Power Systems AC922服務(wù)器的IBM Triton新型超級(jí)計(jì)算機(jī)。邁阿密大學(xué)計(jì)算科學(xué)中心主任、數(shù)據(jù)和研究計(jì)算副教務(wù)長(zhǎng)Nicholas Tsinoremas介紹說,已有2千多名師生使用該系統(tǒng)開展氣候預(yù)測(cè)、基因組學(xué)、生物信息學(xué)、計(jì)算機(jī)視覺和人工智能等項(xiàng)目。
雖然部署成功了,但還是遇到了一些基本的障礙,這是任何采用高性能計(jì)算的用戶都能預(yù)料到的——無論其規(guī)模、領(lǐng)域或者計(jì)算需求如何。Tsinoremas說:“遷移總是一個(gè)問題?!边€必須解決用戶培訓(xùn)和再培訓(xùn)問題。他指出:“新系統(tǒng)與傳統(tǒng)存儲(chǔ)系統(tǒng)的集成則是另一個(gè)難題?!?/p>
所有這些問題都強(qiáng)調(diào)了這樣一個(gè)事實(shí):無論高性能計(jì)算系統(tǒng)是基于本地的還是在云端的,要想順暢地采用都要做好計(jì)劃和準(zhǔn)備工作。Tsinoremas提醒說:“內(nèi)部的專業(yè)知識(shí)是必要的,各部門也必須有計(jì)劃。”理解工作負(fù)載的性質(zhì)和要求也很重要。他說:“換言之,采用者應(yīng)了解他們要解決的問題,自己知道希望高性能計(jì)算怎樣幫助解決這些問題?!?h3>高性能計(jì)算工作負(fù)載入門
另一個(gè)關(guān)鍵點(diǎn)是,要清楚地知道選擇正確的資源管理工具非常重要,只有這樣,企業(yè)才能使用好并優(yōu)化高性能計(jì)算環(huán)境。仿真軟件以及其他高性能計(jì)算工具和服務(wù)提供商Altair的高級(jí)產(chǎn)品管理主管Jérémie Bourdoncle說:“無論是購(gòu)買傳統(tǒng)的高性能計(jì)算硬件環(huán)境,還是在云端利用高性能計(jì)算,或者兩者的結(jié)合,根據(jù)企業(yè)的工作類型和吞吐量需求選擇合適的高性能計(jì)算工作負(fù)載管理器都是非常重要的?!惫ぷ髫?fù)載管理器能夠自動(dòng)進(jìn)行作業(yè)調(diào)度,實(shí)現(xiàn)管理、監(jiān)視和報(bào)告功能。
Kissell建議應(yīng)用策略應(yīng)注重知識(shí)性、簡(jiǎn)單性、選擇性和謹(jǐn)慎性。他建議:“這可能是一個(gè)漫長(zhǎng)的旅程,所以計(jì)劃好你的旅行,但也要給自己調(diào)整旅程的機(jī)會(huì)?!边x擇一個(gè)簡(jiǎn)單但有代表性的測(cè)試應(yīng)用情形,從中可以清楚地看到從高性能計(jì)算模擬或者分析中獲得的知識(shí)和深度分析結(jié)果?!叭缓筢槍?duì)你的問題類別選擇一個(gè)簡(jiǎn)短的軟件包列表,并進(jìn)行嘗試?!?/p>
John Edwards是一位資深的商業(yè)技術(shù)記者。他的文章發(fā)表在《紐約時(shí)報(bào)》、《華盛頓郵報(bào)》以及很多商業(yè)和技術(shù)出版物上,包括CIO、ComputerWorld、《網(wǎng)絡(luò)世界》、CFO雜志、IBM數(shù)據(jù)管理雜志、RFID雜志和《電子設(shè)計(jì)》等。
原文網(wǎng)址
https://www.networkworld.com/article/3444399/high-performance-computing-do-you-need-it.html