CPU + GPU將開啟HPC新時(shí)代
越來越多的研究人員和商業(yè)組織開始利用GPU來完成大規(guī)模的計(jì)算,并開創(chuàng)了一個(gè)新的研究領(lǐng)域:基于GPU的通用并行計(jì)算。
發(fā)展到現(xiàn)在,HPC已經(jīng)走上了平民化的道路。
一般HPC都是做超大規(guī)模的繁重計(jì)算,像大型工程、橋梁飛機(jī)制造以及氣象預(yù)報(bào)等方面的計(jì)算及應(yīng)用,對浮點(diǎn)運(yùn)算的要求比較高。AMD皓龍?zhí)幚砥髯龈↑c(diǎn)運(yùn)算一直相當(dāng)出色,64位、直連架構(gòu)等特性都對H P C最終走向平民化起到了推動作用,像現(xiàn)在TOP500中Cray的超級計(jì)算系統(tǒng)采用的就是A M D的皓龍?zhí)幚砥鳌?/p>
目前,功耗和性能是困擾HPC的兩大難題。AMD 8/12核的皓龍?zhí)幚砥骺梢詾镠PC降低能耗,它可以根據(jù)不同的應(yīng)用關(guān)掉無用的核心,當(dāng)機(jī)房不夠大供電能力不夠強(qiáng)的時(shí)候可以對芯片進(jìn)行功耗上限設(shè)置,或者通過降頻等技術(shù)來完成能耗的節(jié)省。
按照摩爾定律,CPU一般的更新?lián)Q代時(shí)間是18個(gè)月,也就是說它能夠在18個(gè)月后性能就可以翻一番。而GPU的更新速度是CPU的1.5倍,也就是說通常1 2個(gè)月的時(shí)間G P U的性能就翻了一番。大概五年前,CPU和GPU的晶體管數(shù)量是差不多的,而現(xiàn)在GPU的頂端產(chǎn)品大概可以擁有超過20億個(gè)晶體管,遠(yuǎn)超過了CPU集成的晶體管數(shù)量。CPU里主要是做分支運(yùn)算、預(yù)測等工作的,而在大規(guī)模并行尤其是數(shù)據(jù)并行計(jì)算領(lǐng)域,目前高端的GPU已經(jīng)擁有了無與倫比的處理能力。
而且CPU里面大約有超過40%是運(yùn)算單元,只有5%是邏輯單元,發(fā)展到現(xiàn)在,最快的CPU和GPU產(chǎn)品比較,在單精度32位計(jì)算上GPU的運(yùn)算速度是CPU的50倍,64位運(yùn)算上是10倍,快很多。此外在能耗上,一臺超級計(jì)算機(jī)一天就要消耗2萬元的電,如果用GPU整個(gè)規(guī)模就可以降低。同樣的計(jì)算能力,GPU可以把能耗降到1/5或不到一半的規(guī)模。
傳統(tǒng)的GPU由于缺少通用的高級編程語言的支持,很難做編程,所以一般很少人用。但隨著通用計(jì)算設(shè)備上的統(tǒng)一、開放標(biāo)準(zhǔn)OpenCL的推出和不斷發(fā)展完善,用戶利用GPU做通用計(jì)算從實(shí)現(xiàn)的角度來說變得越來越容易了。而且如前文所述GPU的每瓦性能又確實(shí)很高,所以,越來越多的研究人員和商業(yè)組織開始利用GPU來完成大規(guī)模的計(jì)算,并開創(chuàng)了一個(gè)新的研究領(lǐng)域:基于GPU的通用并行計(jì)算。
目前已成功應(yīng)用于氣象模擬、基因工程、石油勘探、運(yùn)動規(guī)劃、代數(shù)運(yùn)算、優(yōu)化計(jì)算、偏微分方程、數(shù)值求解、流體模擬、數(shù)據(jù)庫應(yīng)用、頻譜分析等領(lǐng)域,也包括圖形圖像處理、金融統(tǒng)計(jì)預(yù)測、智能信息處理系統(tǒng)、數(shù)據(jù)挖掘工具等商業(yè)化應(yīng)用。同時(shí),也產(chǎn)生了一些針對G P U開發(fā)的通用計(jì)算工具包,能夠基于GPU平臺對FFT、BLAS、排序及線性方程組求解等科學(xué)計(jì)算進(jìn)行優(yōu)化實(shí)現(xiàn),與單純依靠CPU實(shí)現(xiàn)的算法相比,平均性能提高了近20倍。
AMD于2006年成功整合了ATI,所以利用GPU做通用計(jì)算的技術(shù)有著得天獨(dú)厚的優(yōu)勢。目前高端GPU雖然有很強(qiáng)的計(jì)算能力,但很多時(shí)候由于受PCIE總線帶寬的限制,CPU和GPU之間大規(guī)模的數(shù)據(jù)交互就成了很多高性能計(jì)算任務(wù)的瓶頸。
為此,AMD推出融合了CPU和具有通用計(jì)算能力GPU的產(chǎn)品—Fusion APU。目前開發(fā)的產(chǎn)品主要用于筆記本、臺式機(jī)和平板電腦等,相信未來也可以將類似技術(shù)遷移到服務(wù)器平臺。全新的APU架構(gòu)完美解決了原有平臺架構(gòu)中CPU和GPU之間大規(guī)模的數(shù)據(jù)交互耗時(shí)問題,為用戶靈活利用CPU和GPU編程克服了一個(gè)最主要的障礙,并進(jìn)一步顯著提升了每瓦特電量的計(jì)算能力,由此可以看出,GPU+CPU的融合是未來通用計(jì)算的必然趨勢。
劉文卓 AMD中國區(qū)技術(shù)總監(jiān)