編譯 李軍平
在至關(guān)重要的高性能計算(HPC)領(lǐng)域,美國已不再是當(dāng)之無愧的全球領(lǐng)導(dǎo)者。日本、歐盟和中國已經(jīng)推出了與美國最快的超級計算機不相上下的系統(tǒng)。從半導(dǎo)體到科學(xué)軟件,任何產(chǎn)品的供應(yīng)鏈都呈現(xiàn)出全球化特征。然而,美國的經(jīng)濟(jì)前景和安全在很大程度上取決于美國是否有能力以比競爭對手更快的速度進(jìn)行創(chuàng)新,而創(chuàng)新的速度越來越取決于大規(guī)模計算科學(xué)和工程,因此也越來越取決于高性能計算。美國應(yīng)如何應(yīng)對這一挑戰(zhàn)?本報告旨在就這一重要問題發(fā)起一場新的、可能具有變革意義的全國性討論。
美國能源部(DOE)先進(jìn)科學(xué)計算研究(ASCR)項目完全有能力在全球科學(xué)探索發(fā)現(xiàn)領(lǐng)域中,就美國應(yīng)在哪些領(lǐng)域開展合作以及在哪些領(lǐng)域開展競爭做出明智而有針對性的決策。通過聚焦對美國和世界至關(guān)重要的問題,開展富有成效的合作,進(jìn)行戰(zhàn)略性投資,ASCR能夠恢復(fù)并鞏固美國在關(guān)鍵領(lǐng)域的科學(xué)領(lǐng)先地位,同時加強美國的研究基礎(chǔ)設(shè)施,培養(yǎng)多元化的科學(xué)家。最終,ASCR及其培養(yǎng)出的科學(xué)家將為美國安全繁榮的未來鋪平道路。
30多年來,ASCR計劃提供了高性能計算和網(wǎng)絡(luò)能力及專業(yè)知識,支持DOE履行推進(jìn)美國國家安全、經(jīng)濟(jì)安全和能源安全的使命。該計劃現(xiàn)在面臨的挑戰(zhàn)是開發(fā)和部署下一代高性能計算系統(tǒng)和技術(shù),將高性能計算和人工智能(AI)技術(shù)廣泛應(yīng)用于科學(xué)和工程研究問題。在研發(fā)過程中,ASCR計劃還必須推動HPC發(fā)展,促進(jìn)科學(xué)發(fā)現(xiàn)和技術(shù)創(chuàng)新。
為此,美國需要大幅增加投資,并制定創(chuàng)新性的政策和計劃。本小組委員會意識到,美國是在資源有限的情況下提出建議并呼吁采取行動的。國家領(lǐng)導(dǎo)人必須平衡各種相互競爭的優(yōu)先事項,以新的方式利用資源,并在設(shè)施和運營方面尋求效率。但是,我們不能因此讓想象力受限,也不能停止主張。ASCR計劃是美國科研基礎(chǔ)設(shè)施的重要組成部分,也是美國經(jīng)濟(jì)增長和競爭力的重要組成部分。ASCR有責(zé)任以決心和熱情履行使命:推進(jìn)高性能科學(xué)計算、人工智能技術(shù)應(yīng)用以及建設(shè)先進(jìn)研究設(shè)施。
為履行科學(xué)事業(yè)之于國家的責(zé)任,ASCR應(yīng)制定發(fā)布清晰的愿景,闡述工作目標(biāo)、優(yōu)先事項和相關(guān)建議。除此之外,還應(yīng)爭取長期資助,展示科學(xué)的領(lǐng)導(dǎo)力,這將使該項目能夠在已有成就的基礎(chǔ)上更上一層樓,實現(xiàn)其雄心勃勃的愿景,并持續(xù)作出貢獻(xiàn)。
對國家具有重要意義的科學(xué)和工程應(yīng)用將需要更高性能的先進(jìn)計算系統(tǒng),以模擬復(fù)雜現(xiàn)象,處理、分析和管理海量數(shù)據(jù),支持尖端實驗。要滿足這些要求進(jìn)而保持國際領(lǐng)先地位,就必須在計算、網(wǎng)絡(luò)、數(shù)學(xué)和人工智能技術(shù)方面不斷取得重大進(jìn)步。國家實驗室及其大學(xué)合作伙伴有條件做到這一點,但前提是在領(lǐng)導(dǎo)力、愿景以及資金方面得到適當(dāng)?shù)闹С帧?/p>
在能源部的主要領(lǐng)導(dǎo)下,美國在應(yīng)用數(shù)學(xué)和計算科學(xué)與工程研究領(lǐng)域一直處于國際領(lǐng)先地位,并利用其專業(yè)知識提升建模和仿真能力,服務(wù)科學(xué)、能源和核安全領(lǐng)域的國家優(yōu)先事項。美國在計算機科學(xué)領(lǐng)域一直處于領(lǐng)先地位,能源部的作用主要集中在與高性能計算有關(guān)的領(lǐng)域(如編程、并行算法和性能優(yōu)化技術(shù))以及網(wǎng)絡(luò)和數(shù)據(jù)科學(xué)(科學(xué)發(fā)現(xiàn)的方法和工具)。
大數(shù)據(jù)和高性能計算對科學(xué)發(fā)現(xiàn)都非常重要,而且兩者具有協(xié)同作用。整個能源部科學(xué)辦公室的實驗設(shè)施對前沿計算和網(wǎng)絡(luò)設(shè)施、方法和服務(wù)的需求與日俱增。這些需求包括移動、分析、共享和管理來自觀測傳感器和科學(xué)儀器的數(shù)據(jù)集的能力,以及使用人工智能技術(shù)將數(shù)據(jù)與基于物理和數(shù)據(jù)驅(qū)動的模型進(jìn)行集成的能力,這些模型本身可能會產(chǎn)生巨大的數(shù)據(jù)集,并需要大量計算來進(jìn)行模型訓(xùn)練和推理。
超大規(guī)模計算計劃是美國在高性能計算領(lǐng)域發(fā)揮領(lǐng)導(dǎo)作用的典例,該計劃將最新的數(shù)學(xué)和計算創(chuàng)新成果融入到科學(xué)應(yīng)用中,創(chuàng)建了一個全面的超大規(guī)模軟件堆棧,并提高了一流計算設(shè)施的能力,使未來的科學(xué)突破成為可能。
能源部與行業(yè)伙伴密切合作,開發(fā)、部署和應(yīng)用先進(jìn)技術(shù),特別是在領(lǐng)先的計算機系統(tǒng)和尖端網(wǎng)絡(luò)服務(wù)方面。能源部實驗室與工業(yè)界的最終用戶密切合作,取得了許多具有重大影響的成果,擴(kuò)大了與公司合作的機會。
超大規(guī)模計算項目(ECP)的結(jié)束既是一項成就,也帶來了巨大的風(fēng)險。該項目提供了強有力的人力、技術(shù)等相關(guān)能力。但現(xiàn)在,由于未來的資金來源尚不明確,能源部極易流失訓(xùn)練有素的員工。
美國、能源部和ASCR在關(guān)鍵領(lǐng)域的領(lǐng)導(dǎo)地位正受到威脅,造成這種局面的原因是國際競爭加劇和地緣政治變化(例如與其他國家的合作與競爭關(guān)系的變化),美國市場壓力增大,近期一些商業(yè)目標(biāo)對于人才、資金吸引力較強,獲得了較多注意力。
技術(shù)領(lǐng)域已經(jīng)發(fā)生了根本性的變化:登納德縮放比例定律十年前便已謝幕,摩爾定律的效果現(xiàn)在也在減弱。超大規(guī)模企業(yè)(如云計算和社交網(wǎng)絡(luò)公司)在計算方面的投資規(guī)模巨大,正推動市場朝向其特定需求發(fā)展。目前,人工智能相關(guān)計算已成為工業(yè)領(lǐng)域和超級分頻器數(shù)據(jù)中心內(nèi)高端高性能計算系統(tǒng)的主要性能驅(qū)動因素。定制/半定制硅(晶圓級人工智能芯片、芯片組、可擴(kuò)展甚至開放式指令集架構(gòu)等)興起,為利用商品技術(shù)創(chuàng)造了新的可能性。目前潛在的顛覆性技術(shù),如量子計算和網(wǎng)絡(luò)(設(shè)備、架構(gòu)、模型)獲得持續(xù)投資,但這些技術(shù)可能需要幾十年的時間才能完善和成熟。
與過去不同,今天的科研格局和高性能計算供應(yīng)鏈?zhǔn)菣M向的、國際化的,包括硬件、軟件、網(wǎng)絡(luò)組件和人才。要想在高性能計算領(lǐng)域取得領(lǐng)先地位,就必須像科學(xué)辦公室的其他學(xué)科,如高能物理(HEP)、聚變能源科學(xué)(FES)一樣,主動、長期、持續(xù)地參與這一廣泛的國際生態(tài)系統(tǒng)。行業(yè)伙伴關(guān)系至關(guān)重要,需要加以關(guān)注和改進(jìn),特別是在共同設(shè)計方面,可以從ECP和其他國際努力中吸取經(jīng)驗教訓(xùn),以便改進(jìn)。
ASCR研究經(jīng)費的實際水平正在下降,在量子信息科學(xué)(QIS)和人工智能/機器學(xué)習(xí)(ML)等新研究方向上的經(jīng)費分配更加分散。與此同時,為滿足支持超大規(guī)模計算計劃部署的超大規(guī)模平臺的需求,ASCR對設(shè)施的投資在不斷增加。現(xiàn)有的研究經(jīng)費越來越多地用于短期競爭性項目,而對“穩(wěn)定”基礎(chǔ)經(jīng)費的撥款卻在減少。ECP項目即將結(jié)束,卻沒有后續(xù)計劃來吸引那些訓(xùn)練有素、技術(shù)精湛、才華橫溢的研究人員留在DOE實驗室。由此產(chǎn)生的不確定性,在實驗室工作人員中,尤其是初級研究人員中,引發(fā)了極大的焦慮。而與此同時,來自產(chǎn)業(yè)界的人才競爭卻日益加劇。因此,ASCR在研發(fā)創(chuàng)新技術(shù)和解決方案方面的領(lǐng)導(dǎo)地位面臨著巨大風(fēng)險。
國家實驗室的吸引力和聲望一直在下降。造成這一問題的因素既有內(nèi)部因素,又有外部因素,包括實驗室內(nèi)部缺乏長期計劃、愿景和穩(wěn)定資金,以及與高性能計算、人工智能和大數(shù)據(jù)等行業(yè)的競爭加劇。實驗室崗位的自主性和靈活性也有所下降。受新冠疫情影響,許多公司的工作崗位比國家級實驗室所提供的工作機會靈活性更強,表現(xiàn)為擁有更多學(xué)術(shù)界和產(chǎn)業(yè)界的聯(lián)合任命以及開源合作的項目,這些都有助于提高研究影響力,縮小報酬差距。
在當(dāng)前資源緊張的環(huán)境下,大科學(xué)和先進(jìn)的科學(xué)計算與網(wǎng)絡(luò)越來越需要國際合作,并能為各方參與者帶來益處。我們也注意到了全球范圍內(nèi)人員、思想、軟件和技術(shù)交流卓有成效的許多例子。
從超大規(guī)模計算和以往計算進(jìn)展中可以發(fā)現(xiàn),要想實現(xiàn)能源部和國家所需的科學(xué)突破,必須在硬件系統(tǒng)和軟件基礎(chǔ)設(shè)施兩方面進(jìn)行創(chuàng)新。推動ASCR設(shè)施發(fā)展需要依賴以共同設(shè)計為基礎(chǔ)的跨學(xué)科方法,而不是僅僅依賴供應(yīng)商市場。ASCR將繼續(xù)鼓勵科學(xué)團(tuán)隊、計算研究人員、設(shè)施工作人員和供應(yīng)商開展合作。
四個關(guān)鍵領(lǐng)域 憑借在應(yīng)用數(shù)學(xué)和計算科學(xué)與工程中高級計算和獨特的用戶設(shè)施方面的現(xiàn)有優(yōu)勢,ASCR今后的工作重點需要放在四個關(guān)鍵領(lǐng)域并追求領(lǐng)域內(nèi)的領(lǐng)先地位:科學(xué)與工程領(lǐng)域的高端建模與仿真(如應(yīng)用數(shù)學(xué)、軟件、高級應(yīng)用);科學(xué)與工程領(lǐng)域的人工智能(如人工智能方法、軟件、數(shù)據(jù)集、高級應(yīng)用);超大規(guī)模前沿計算架構(gòu)和系統(tǒng)(如硬件架構(gòu)、軟件、部署的基礎(chǔ)設(shè)施);應(yīng)用于綜合研究性基礎(chǔ)設(shè)施的先進(jìn)網(wǎng)絡(luò)和未來互聯(lián)網(wǎng)架構(gòu)(如架構(gòu)、軟件、已部署的基礎(chǔ)設(shè)施)。
值得注意的是,這四個領(lǐng)域都與白宮的關(guān)鍵和新興技術(shù)清單相一致。這四個領(lǐng)域中的每個領(lǐng)域都有長期的研究挑戰(zhàn),應(yīng)通過基礎(chǔ)計劃資助(促進(jìn)職業(yè)發(fā)展)和機會性任命(提供靈活性)相結(jié)合的方式加以應(yīng)對。每個領(lǐng)域還需要開發(fā)和部署能夠支撐廣泛研究事業(yè)的基礎(chǔ)設(shè)施,如代碼、圖書館、模型、高性能計算、人工智能、數(shù)據(jù)和邊緣硬件設(shè)施、國家設(shè)施等。
戰(zhàn)略與路線圖 A S C R領(lǐng)導(dǎo)層應(yīng)與D O E實驗室合作,基于ASCR在數(shù)學(xué)和計算方面的優(yōu)勢,與能源部的世界級設(shè)施合作開展研究,制定十年期以上的愿景和戰(zhàn)略。這項工作的重點應(yīng)放在提供持續(xù)的投資,以保持和擴(kuò)大ASCR在應(yīng)用數(shù)學(xué)和計算科學(xué)與工程研究與多學(xué)科團(tuán)隊合作方面的領(lǐng)先地位。同時也要在新興課題方面建立新的應(yīng)用領(lǐng)域,如用于科學(xué)、能源和安全的數(shù)字孿生和人工智能,以及在摩爾定律不再適用時應(yīng)對艱巨的計算挑戰(zhàn)。
該戰(zhàn)略應(yīng)包括制定相關(guān)的ASCR技術(shù)和投資路線圖,其中包括以下內(nèi)容:1)達(dá)成超大規(guī)模后的關(guān)鍵技術(shù)投資計劃,包括多周期十年設(shè)施路線圖,滿足建模、模擬和人工智能領(lǐng)域日益增長的計算需求;全球領(lǐng)先系統(tǒng)所需的電源和冷卻因素考量,開展提高硬件能效的研究;考慮新出現(xiàn)的和非常規(guī)的架構(gòu),并為外部提供的替代方案開展探路活動。2)對ASCR已確立領(lǐng)導(dǎo)地位的領(lǐng)域進(jìn)行再投資,防止美國失去領(lǐng)導(dǎo)地位以及鞏固該地位所需的智力資源(如用于科學(xué)計算的軟件工具和數(shù)字圖書館)。3)重視在能源部有能力建立領(lǐng)導(dǎo)地位的新興領(lǐng)域的前瞻性投資,例如,大規(guī)模人工智能方法,側(cè)重于能源部任務(wù)領(lǐng)域中世界領(lǐng)先的科學(xué)問題。4)重視人力資源。這一工作的關(guān)鍵是要有一個長期愿景,并輔之以穩(wěn)定的長期研究資助模式,以招募和留住先進(jìn)科學(xué)計算領(lǐng)域的頂尖人才,尤其要重視培養(yǎng)代表人數(shù)不足的群體。5)明確工業(yè)合作伙伴的作用,留住人才。應(yīng)特別關(guān)注聯(lián)合任命和其他類型的合作,發(fā)揮其在提高實驗室人員能力方面的積極作用。
國際合作 ASCR需要為以超大規(guī)模計算和網(wǎng)絡(luò)為重點的國際合作闡明愿景、相關(guān)目標(biāo)和里程碑。ASCR應(yīng)與實驗室合作,確定關(guān)鍵的研究和設(shè)施機會,這些機會可能依托國際合作伙伴關(guān)系。ASCR應(yīng)與戰(zhàn)略伙伴建立信任,確定協(xié)議結(jié)構(gòu)(可能超越傳統(tǒng)的合作備忘錄),并為發(fā)展靈活的多方合作提供資源。
前瞻性投資 ASCR需要對先進(jìn)計算機體系結(jié)構(gòu)和系統(tǒng)概念方面的長期前瞻性共同設(shè)計研究進(jìn)行投資,以確定推動可持續(xù)發(fā)展的潛在方案,持續(xù)提升未來的科學(xué)計算系統(tǒng)的生產(chǎn)力。共同設(shè)計工作需要政府大幅增加對基礎(chǔ)研發(fā)的投資。此外,能源部還應(yīng)資助硬件和軟件原型的大規(guī)模建造,以便使用定制硅片和相關(guān)軟件測試新想法。
資料來源ASCAC