熊安迪
高性能AI芯片公司鯤云科技近日發(fā)布了全球首款數據流AI芯片CAISA,以及基于CAISA芯片的星空系列邊緣和數據中心計算平臺——X3加速卡和X9加速卡。與依靠更大的芯片面積和制程工藝的傳統(tǒng)方式不同,鯤云科技的定制數據流技術通過數據流動控制計算順序,從而提升實測性能,為用戶提供更高的算力性價比。
6月23日,鯤云科技在深圳舉行產品發(fā)布會。發(fā)布會上,鯤云科技創(chuàng)始人兼CEO牛昕宇博士發(fā)布了全球首款數據流AI芯片CAISA。該芯片定位于高性能AI推理,目前已實現量產。
鯤云科技是一家高性能AI芯片公司,致力于提供下一代AI計算平臺,加速AI落地。此次,鯤云科技通過自主研發(fā)的數據流技術在芯片實測算力上實現了技術突破,較同類產品在芯片利用率上提升了最高11.6倍。第三方測試數據顯示,僅用1/3的峰值算力,CAISA芯片可以實現同類產品最高3.91倍的實測性能。
超高芯片利用率,完成3.0升級
鯤云科技此次發(fā)布的CAISA芯片采用其自主研發(fā)的定制數據流芯片架構CAISA 3.0。CAISA搭載了四個CAISA 3.0引擎,具有超過1.6萬個MAC(Multiply Accumulate,乘積累加運算)單元,峰值性能可以達到10.9TOPs。該芯片采用28nm工藝,通過PCIe 3.0×4接口與主處理器通信,同時具有雙DDR通道,為每個CAISA引擎提供超過340Gbps的帶寬。
與上一代芯片架構相比,CAISA 3.0在架構效率和實測性能方面均得到了大幅提升。而且它在算子支持上更加通用,支持絕大多數神經網絡模型快速地實現檢測、分類和語義分割部署。CAISA 3.0在多引擎支持上提供了比上一代高出4倍的并行度選擇,大大提高了架構的可拓展性。在AI芯片內,每一個CAISA都可以同時處理AI工作負載,進一步提升了CAISA架構的性能,在峰值算力提升6倍的同時,保持了高達95.4%的芯片利用率,實測性能得到線性提升。此外,新一代CAISA架構對鯤云科技編譯器RainBuilder的支持也更加友好。軟硬件協(xié)作的進一步優(yōu)化,能夠在系統(tǒng)級別上為用戶提供更好的端到端性能。
CAISA 3.0的指令集架構采用馮·諾依曼計算方式,通過指令執(zhí)行次序控制計算順序,并通過分離數據搬運與數據計算提供計算通用性。CAISA架構依托數據流流動次序控制計算次序,采用計算流和數據流重疊運行的方式消除空閑計算單元,并采用動態(tài)配置的方式保證對AI算法的通用支持,突破指令集技術對于芯片算力的限制。
通過此次升級,CAISA 3.0架構的三大技術突破解決了以數據流架構作為AI計算平臺的挑戰(zhàn)。
通過時鐘級準確的計算實現高算力性價比。
CAISA 3.0架構由數據流來驅動計算過程,無指令操作,可以實現時鐘級準確的計算,最大限度地減少硬件計算資源的空閑時間。CAISA 3.0架構通過數據計算與數據流動的重疊,壓縮計算資源的每一個空閑時鐘;通過算力資源的動態(tài)平衡,消除流水線的性能瓶頸;通過數據流的時空映射,對芯片內的數據流帶寬進行最大化的復用,減少對外部存儲帶寬的需求。這種設計使CNN算法的計算數據在CAISA 3.0內可以實現不間斷的持續(xù)運算,最高可實現95.4%的芯片利用率,在同等峰值算力的條件下,可獲得相比于GPU 3倍以上的實測算力,從而為用戶提供更高的算力性價比。
通過流水線動態(tài)重組實現高架構通用性。
在保證每個算法在CAISA上運行均能實現高芯片利用率的同時,CAISA 3.0架構支持絕大多數的CNN算法。CAISA 3.0架構可以通過流水線動態(tài)重組實現對不同深度學習算法的高性能支持。通過CAISA架構層的數據流引擎、全局數據流網、全局數據流緩存,以及數據流引擎內部的AI算子模塊、局部數據流網、局部數據流緩存的分層設計,在數據流配置器控制下,CAISA架構中的數據流連接關系和運行狀態(tài)均可以被自動化動態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線。在保證高性能的前提下,支持用戶使用基于CAISA 3.0架構的計算平臺實現廣泛的AI算法應用,如目標檢測、分類及語義分割等。
通過算法的端到端自動化部署實現高軟件易用性。
針對CAISA芯片,鯤云科技提供編譯工具鏈RainBuilder 3.0,支持從算法到芯片的端到端自動化部署。用戶無需底層數據流架構的背景知識,通過簡單的兩步即可將已有的算法遷移和部署到CAISA硬件平臺上。
編譯工具鏈RainBuilder可自動提取主流AI開發(fā)框架(TensorFlow、Caffe、Pytorch、ONNX等)中開發(fā)的深度學習算法的網絡結構和參數信息,并針對CAISA架構進行優(yōu)化。其中的運行時(Runtime)和驅動(Driver)模塊負責硬件管理并為用戶提供標準的API接口,運行時可以基于精確的CAISA性能模型,實現算法向CAISA架構的自動化映射,同時提供可以被高級語言直接調用的API接口。最底層的驅動可以實現對用戶透明的硬件控制。
高算力性價比的AI計算平臺
此次發(fā)布會上,鯤云科技還發(fā)布了基于CAISA芯片的星空系列邊緣和數據中心計算平臺——X3加速卡和X9加速卡,并公布了包括ResNet-50、YOLO v3等在內的主流深度學習網絡的實測性能。
星空X3加速卡
星空X3加速卡是搭載單顆CAISA 芯片的數據流架構深度學習推斷計算平臺,為工業(yè)級半高半長單槽規(guī)格的PCIe板卡。得益于其輕量化的規(guī)格,X3加速卡可以與不同類型的計算機設備進行適配,包括個人電腦、工業(yè)計算機、網絡視頻錄像機、工作站、服務器等,滿足了邊緣和高性能場景中的AI計算需求。相較于英偉達邊緣端旗艦產品Xavier,X3可實現1.48-4.12倍的實測性能提升。
星空X9加速卡
星空X9加速卡為搭載4顆CAISA 芯片的深度學習推斷板卡,峰值性能43.6TOPS,主要滿足高性能場景下的AI計算需求。與英偉達旗艦產品T4相比,X9在ResNet-50、 YOLO v3等模型上的芯片利用率提升了2.84-11.64倍。在實測性能方面,在ResNet50上,X9可以達到5240FPS,與T4性能接近;在YOLO v3、UNet Industrial等檢測分割網絡上,X9提升了1.83-3.91倍的性能。在達到最優(yōu)實測性能的情況下,X9處理延時比T4降低了1.83-32倍。實測性能以及處理延時的領先,使數據流架構為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術路線。
據了解,目前,星空X3加速卡已經實現量產,星空X9加速卡將于今年8月推向市場。
商業(yè)落地在路上
基于其自主研發(fā)的AI芯片,鯤云科技提供一體化計算平臺設備,能夠保證產品的標準化,降低AI落地的成本。與之相輔相成,鯤云科技還提供與CAISA芯片相配套的領域落地解決方案,能夠降低其計算平臺的落地門檻和使用難度。此次鯤云科技公布的CAISA 3.0已經是第三代架構,其前兩代架構此前已經交付給用戶使用。
牛昕宇表示,CAISA芯片是一個計算平臺,而計算平臺需要為所有的AI領域提供算力支持。智能制造和自動駕駛等行業(yè)需要產生實時反饋,包括車路協(xié)同,對延時均有高性能的要求。從其落地客戶的反饋信息可以看出,鯤云科技數據流架構的低延時優(yōu)勢比較明顯。
由于鯤云科技的CAISA芯片考慮到了主流的開發(fā)環(huán)境、用戶使用習慣,以及不同的操作系統(tǒng)和開發(fā)框架,客戶對其在落地中的通用性和易用性表示了肯定。但對于芯片公司而言,軟件生態(tài)也是一件非常重要的事情?!坝行┸浖纳鷳B(tài)還是需要我們去努力,畢竟我們是一個初創(chuàng)的芯片公司?!?鯤云科技合伙人兼COO王少軍博士承認,“這種生態(tài)不是一天就能建立起來的,需要多年的積累,我們也一直重視生態(tài)的構建?!?/p>
此外,鯤云科技的星空3代加速卡也已經在航空、航天、電力、教育、工業(yè)檢測、智慧城市等領域落地。
對標芯片數據來源:
[1] Xavier性能數據來源:https://developer. nvidia. com/embedded/jetson-agx-xavier-dl-inference-benchmarks
[2] ResNet50、ResNet152算法網絡來源:https://github. com/tensorflow/models/tree/master/research/slim
[3] YOLO算法網絡來源:
a.官方:https://pjreddie. com/darknet/yolo/
b.其他:https://github.com/pushyami/yolov3-caffe/
[4] SSD-ResNet50算法網絡來源:https://ngc.nvidia. com/catalog/models/nvidia:ssdtf_fp16
[5] UNet Industrial算法網絡來源:https://ngc. nvidia. com/catalog/models/nvidia:unetindtf_fp16
[6] T4性能數據來源:https://developer.nvidia. com/deep-learning-performance-training-inference#resnet50-latency