劉洪宇
新的里程碑到來,總是回顧與展望的最好時機。當(dāng)中國國產(chǎn)高性能計算機——天河一號沖破千萬億次計算大關(guān),躋身全球Top500前五名,榮登中國Top500榜首之時,我們更因讀到的關(guān)鍵信息加深了對未來的冷靜思考。HPC能力需求永無止境,計算量級再向前發(fā)展會怎樣呢?HPC發(fā)展遭遇的軟硬件挑戰(zhàn)還會有哪些?我們又該如何應(yīng)對?
混合計算發(fā)揮潛能
國防科技大學(xué)建造的天河一號實現(xiàn)了每秒1206萬億次雙精度浮點運算的峰值性能,計算與服務(wù)陣列都采用了英特爾至強處理器,加速陣列則采用了AMD的GPU,這是一種通用處理器與加速處理器并行的混合架構(gòu),與去年的Top500冠軍“走鵑”路線相同。
然而,從總體趨勢來看,更有效往往伴生著犧牲靈活性。英特爾高性能計算架構(gòu)師David Scott長期關(guān)注HPC的發(fā)展?fàn)顩r,他認(rèn)為,混合計算將為HPC帶來巨大潛能,但當(dāng)前GPU的應(yīng)用狀況卻并不理想。GPU往往被用于定制計算,靈活性不強,難于編程、糾錯也影響了性能,同時,使用的向量矩陣的數(shù)據(jù)結(jié)構(gòu)也相對簡單。更嚴(yán)重的是,GPU與CPU內(nèi)存空間分離,交互通信瓶頸限制了性能發(fā)揮,“光考慮計算不行,必須把數(shù)據(jù)傳送考慮進去,GPU還有很長的路要走?!盌avid Scott說。
從競爭到融合往往不會太久,“加速卡在小眾市場上獲得了巨大成功,走向批量市場,為什么不把它放在CPU里面去呢?歷史已經(jīng)證明了。”英特爾高性能計算業(yè)務(wù)總經(jīng)理Richard Dracott曾在接受記者采訪時表示。但在當(dāng)前的競爭階段,CPU與GPU的競爭將是軟件之爭,根本不是硬件之爭。David Scott認(rèn)為,開發(fā)軟件的復(fù)雜度涉及到客戶最后的投資回報。如果加速比與遷移工作不匹配,投資回報低于預(yù)期,客戶會考量是否要做大量的代碼轉(zhuǎn)移工作或重新編譯工作。
那么是否有一條更和諧的道路,讓高效與靈活兼顧呢?
x86架構(gòu)的一統(tǒng)圖謀
CPU的路徑很明顯,從多線程、多核、再到眾核,GPU從部分編程到完全可編程,“二者的優(yōu)勢將結(jié)合并交匯于x86架構(gòu)。”David Scott告訴記者,英特爾已經(jīng)從軟件和硬件方面都為此做好了充分準(zhǔn)備,他所在的高性能計算部門更是有250多名員工在軟件、硬件、平臺等方面工作,集中優(yōu)勢資源服務(wù)HPC行業(yè)。
英特爾的做法是,從硬件上要按照既定路線圖保證用戶處理器及平臺的能效和可擴展性,從軟件上則要保證保護客戶的軟件代碼投資,“任何一個新架構(gòu)想要獲得成功,最大的瓶頸就在于軟件的接受度?!?David Scott表示,最優(yōu)的解決方案是要讓終端用戶容易地使用其調(diào)優(yōu)特性、可編程性、靈活可擴展以及兼容性。
在硬件方面,英特爾服務(wù)器產(chǎn)品經(jīng)理顧凡介紹說,在最新的TOP500中,超過五分之四的系統(tǒng)都采用了至強英特爾處理器,超過7成系統(tǒng)采用至強四核處理器。至強5500系列已經(jīng)成為HPC市場上最為主流的高性能及高能效處理器。其突出的智能概念表現(xiàn)在HPC領(lǐng)域就是智能性能,不同的應(yīng)用特征匹配不同的性能,同時匹配相應(yīng)的能耗。
就在明年,英特爾還有一系列重要產(chǎn)品發(fā)布,32nm制程的Westmere雙路處理器是至強5500的升級版,與至強5500完全兼容;Nehalem EX多路處理器則開啟了下x86胖節(jié)點的新時代,其中一款針對高性能計算優(yōu)化的6核處理器能比 8核Nehalem-EX 處理器以更高頻率運行,并提供更高帶寬,以此構(gòu)建的胖節(jié)點可用于構(gòu)建更大規(guī)模的HPC集群。同時,英特爾還將繼續(xù)在平臺層面、數(shù)據(jù)中心層面投入,推動HPC系統(tǒng)向前發(fā)展。按照英特爾預(yù)期,每年將幫助客戶在數(shù)據(jù)中心層面的能耗比方面提升50%。
而在新一代處理器問世前,永遠要軟件先行,目的是讓工具軟件支持ISV在新平臺上將應(yīng)用軟件的性能發(fā)揮出來。從Nehalem發(fā)布就可以看出,很多HPC系統(tǒng)實施只要3個月,而在過去這樣的系統(tǒng)實施差不多需要一年。英特爾不僅更新了并行工具套件Parallel Studio,還計劃于今年年底推出英特爾 Ct 技術(shù) Beta 版,這項技術(shù)能自動對多核和眾核處理器進行并行編碼,幫助客戶輕松使用 C 和 C++ 并行編程。
對于眾所期待的Larrabee,David Scott表示,早期問世的Larrabee還只是顯卡,但眾核探索將必然會用于CPU,目前英特爾正在解決編程模型問題等一系列挑戰(zhàn)。從某種意義上講,英特爾自身也在走混合計算的道路,但毫無疑問的是,兼顧混合計算與同一架構(gòu)下的軟件投資保護,將是HPC繼續(xù)發(fā)展的巨大推動力。