李曼
1993年9月,美國政府宣布實(shí)施一項(xiàng)新的高科技計(jì)劃――“國家信息基礎(chǔ)設(shè)施”(National Information Infrastructure,簡稱NII),旨在以因特網(wǎng)為雛形興建 “信息高速公路”,使所有的美國人方便地共享海量的信息資源。“信息高速公路”的發(fā)展為美國帶來了巨大的社會(huì)經(jīng)濟(jì)效益,同時(shí)也在世界范圍內(nèi)掀起了建設(shè)信息高速公路的熱潮。
信息基礎(chǔ)設(shè)施關(guān)系國家安全和重大利益,攸關(guān)產(chǎn)業(yè)命脈。中國自改革開放以來,與發(fā)達(dá)國家相比信息基礎(chǔ)設(shè)施仍十分薄弱,一直依賴于美國政府主導(dǎo)構(gòu)建的“信息高速公路”,核心芯片也主要來源于美國進(jìn)口。隨著IT3.0時(shí)代的到來,人-機(jī)-物三元高度融合,傳統(tǒng)的“信息高速公路”已無法滿足中國人的海量數(shù)據(jù)處理需求,同時(shí)為徹底解決信息技術(shù)“卡脖子”的問題,就要走中國人自己的路——構(gòu)建“信息高速鐵路”。為此,2018年底,北京中科睿芯科技有限公司研發(fā)完成了全球首臺高通量計(jì)算機(jī)——“金剛”?!敖饎偂钡某晒ρ邪l(fā)離不開睿芯團(tuán)隊(duì)的堅(jiān)持與努力。
用心鉆研,從“芯”出發(fā)
2000年,范東睿從北京交通大學(xué)理學(xué)院應(yīng)用數(shù)學(xué)系畢業(yè)。4年的學(xué)習(xí)仍無法滿足他對知識的渴望,大學(xué)畢業(yè)后范東睿選擇進(jìn)入中國科學(xué)院計(jì)算技術(shù)研究所(以下簡稱“中科院計(jì)算所”)學(xué)習(xí)。在這里,開啟了他的科研之路。
2009年范東睿被評為中科院計(jì)算所卓越之星;2010年獲評北京市科技新星;2013年獲北京市科學(xué)技術(shù)獎(jiǎng);2014年獲中科院卓越青年科學(xué)家獎(jiǎng);2017年獲首都科技領(lǐng)軍人才;2018年入選科技部創(chuàng)新人推進(jìn)計(jì)劃;2019年成為中組部“萬人計(jì)劃”領(lǐng)軍人才。一個(gè)個(gè)傲人的成績源于一次次用心的鉆研。
范東睿在中科院計(jì)算所接觸到了第一批芯片——龍芯處理器設(shè)計(jì)。然而范東睿發(fā)現(xiàn),若是只專注于做芯片,卻沒有相配套的板卡整機(jī),也沒有匹配的應(yīng)用軟件、應(yīng)用系統(tǒng),無法形成完整的生態(tài)鏈,即使研發(fā)成功了芯片,也無用武之地。美國早在20多年前就已經(jīng)擁有了信息高速公路計(jì)劃,而中國只能走在美國為我們鋪好的道路上,一旦美國不再為我們鋪路的時(shí)候,中國的信息發(fā)展將會(huì)受到掣肘,從“中興事件”中我們不難看出這一點(diǎn)。
2005年,研發(fā)團(tuán)隊(duì)成立,專門從事“延長摩爾定律的處理芯片新原理、新結(jié)構(gòu)、新方法”的新體系結(jié)構(gòu)研究。2009年研發(fā)團(tuán)隊(duì)自主研發(fā)的并行加速千核萬線程模擬器SMARTSIMU研制成功,在北京理工大學(xué)、華中科技大學(xué)、美國特拉華大學(xué)等科研機(jī)構(gòu)均有試用。2010年,睿芯團(tuán)隊(duì)自主研發(fā)眾核處理芯片睿芯一號SmarCo-1(Godson-T)成功流片,并于2011年入選“全球十大服務(wù)器芯片設(shè)計(jì)”。2013年,高通量眾核視頻處理芯片睿芯二號SmarCo-2(DPU-m)成功流片,研發(fā)團(tuán)隊(duì)獲“北京市科學(xué)技術(shù)獎(jiǎng)”。
“我們肩上擔(dān)負(fù)的責(zé)任重大,中國的信息發(fā)展缺乏完整的系統(tǒng)的解決方案,不管是視頻大數(shù)據(jù),還是對特殊場景的模擬,都需要一個(gè)軟硬件一體的協(xié)同創(chuàng)新的平臺。作為中科院所屬的企業(yè),要以做出中國人自己的睿智的芯片為己任,公司就叫‘中科睿芯吧。公司名中帶了創(chuàng)始人的名字,如果做不好,那就丟了自己的臉?!敝锌圃河?jì)算所所長孫凝暉說。因此,2014年11月,北京中科睿芯科技有限公司(以下簡稱“中科睿芯”)正式成立,總部設(shè)立于北京市中關(guān)村地區(qū),由中國科學(xué)院計(jì)算技術(shù)研究所和中科院計(jì)算所高通量計(jì)算中心團(tuán)隊(duì)共同投資建立。中科睿芯致力于成為高通量計(jì)算的引領(lǐng)者,提供高通量計(jì)算的前沿技術(shù)研究、實(shí)現(xiàn)和整體解決方案。
自2014年成立以來,中科睿芯的技術(shù)研發(fā)實(shí)力和市場營銷能力快速提升,相繼獲得中關(guān)村高新、國家高新、瞪羚企業(yè)等資質(zhì),并先后獲得中科院科技成果轉(zhuǎn)化獎(jiǎng)、德勤明日之星、北京市科學(xué)技術(shù)二等獎(jiǎng)等榮譽(yù),已具備以自主高端芯片為核心的全系統(tǒng)級研發(fā)及產(chǎn)品體系。
用心鉆研,用“芯”成就
“我國現(xiàn)有的信息基礎(chǔ)設(shè)施經(jīng)歷了一個(gè)漫長的過程,從以單機(jī)計(jì)算為代表的IT1.0時(shí)代,到后來的以人-機(jī)二元計(jì)算為代表的IT2.0時(shí)代,再到目前正在進(jìn)入以人-機(jī)-物三元網(wǎng)絡(luò)計(jì)算為代表的IT3.0時(shí)代。計(jì)算機(jī)的核心需求已經(jīng)從以計(jì)算為中心轉(zhuǎn)變?yōu)橐詳?shù)據(jù)為中心。”范東睿表示。
他認(rèn)為,傳統(tǒng)計(jì)算機(jī)系統(tǒng)設(shè)計(jì)所賴以生存的業(yè)務(wù)基礎(chǔ)已經(jīng)發(fā)生巨變,新的應(yīng)用需求集中體現(xiàn)在高并發(fā)負(fù)載和強(qiáng)實(shí)時(shí)服務(wù)保障等方面,而傳統(tǒng)計(jì)算機(jī)在高負(fù)載環(huán)境下不僅無法達(dá)到實(shí)時(shí)的響應(yīng)需求,也無法確保高并發(fā)、高利用率和強(qiáng)實(shí)時(shí)的同時(shí)滿足。為此,中科睿芯研發(fā)團(tuán)隊(duì)根據(jù)中國科學(xué)院率先在國際上提出的“高通量計(jì)算”技術(shù)的研究,展開了高通量技術(shù)的產(chǎn)品研發(fā)和產(chǎn)業(yè)化。終于,在 2018年底完成了全球首臺高通量計(jì)算機(jī)——“金剛”。
“金剛”針對高通量應(yīng)用場景所體現(xiàn)出的高并發(fā)特點(diǎn),采用了計(jì)算所自主研發(fā)的全球首款高通量眾核處理器,在網(wǎng)絡(luò)視頻處理場景下可支持千路視頻的實(shí)時(shí)并發(fā)處理;并應(yīng)用了計(jì)算所自主研制的國內(nèi)首款云端深度學(xué)習(xí)加速芯片,該芯片在全球首次系統(tǒng)性提出了深度學(xué)習(xí)指令集;為了高效發(fā)揮出上述核心芯片的處理性能,“金剛”首次提出并研制了具備大數(shù)據(jù)處理和深度學(xué)習(xí)平臺深度融合的高通量計(jì)算軟件平臺,該平臺支持軟硬件協(xié)同的垂直優(yōu)化,從而進(jìn)行最大化系統(tǒng)處理。
“金剛”依靠上述技術(shù),實(shí)現(xiàn)了遠(yuǎn)高于傳統(tǒng)服務(wù)器的高密度和高能效,還可針對業(yè)務(wù)環(huán)境的高并發(fā)特點(diǎn),采用可擴(kuò)展眾核設(shè)計(jì),支持海量線程并發(fā),以滿足高通量計(jì)算“算的多”這一核心需求。通過軟硬件協(xié)同技術(shù)支持實(shí)時(shí)性感知的任務(wù)調(diào)度和數(shù)據(jù)訪問,從而實(shí)現(xiàn)了高并發(fā)、高利用率的同時(shí)還能確保應(yīng)用的服務(wù)質(zhì)量?!敖饎偂睋碛械暮诵募夹g(shù)自主可控,其核心加速芯片和軟件平臺均是國產(chǎn)自研技術(shù),整機(jī)安全可控。
“‘金剛的研發(fā)成功不是一蹴而就的,是經(jīng)歷了一次又一次的研究和挫折的?!敝锌祁P究偨?jīng)理王達(dá)說。研發(fā)之初,團(tuán)隊(duì)大多以九零后為主,他們年輕有活力,有向上的沖勁,雖然他們?nèi)狈?shí)踐經(jīng)驗(yàn),但是在團(tuán)隊(duì)的相互配合和鼓勵(lì)下,又有老員工從旁協(xié)助發(fā)揮帶頭作用,很完美地完成了項(xiàng)目。不僅使老員工發(fā)揮了自己的專業(yè)所長,也使團(tuán)隊(duì)中的年輕人得到了成長,團(tuán)隊(duì)得到了更好的融合。
“金剛”的服務(wù)器包含數(shù)千種各類元器件,工程師們把每個(gè)元器件的特性,以及可替換的同類元器件的特性都牢記在腦海里,以便于在研發(fā)過程中可以及時(shí)合理的調(diào)配,在滿足各種性能指標(biāo)的同時(shí)最大限度的降低成本。為了節(jié)約研發(fā)時(shí)間,睿芯團(tuán)隊(duì)在項(xiàng)目管理上建立了嚴(yán)格的開發(fā)流程和規(guī)范,做到在“規(guī)范與效率”和“質(zhì)量與風(fēng)險(xiǎn)”之間的完美平衡。睿芯團(tuán)隊(duì)還充分利用國內(nèi)現(xiàn)有的成熟產(chǎn)業(yè)鏈,以外包或外協(xié)的方式完成一些非關(guān)鍵部件的生產(chǎn)加工,充分發(fā)揮專業(yè)分工的優(yōu)勢,有效地提高了時(shí)間的利用率。
“金剛”的研發(fā)成功,一方面改善了我國服務(wù)器市場核心芯片受制于人的境況,極大提升了服務(wù)器核心部件的國產(chǎn)化率和整體安全性;另一方面,高通量計(jì)算機(jī)有效解決了當(dāng)前數(shù)據(jù)中心服務(wù)器利用率偏低的問題(當(dāng)前基于傳統(tǒng)架構(gòu)的數(shù)據(jù)中心服務(wù)器的平均利用率普遍僅在10%~30%)。王達(dá)表示,目前“金剛”高通量計(jì)算機(jī)已經(jīng)在一系列典型場景中開展示范應(yīng)用,并將逐步應(yīng)用到國民經(jīng)濟(jì)主戰(zhàn)場中,貢獻(xiàn)于國計(jì)民生。