徐國亮,陳淑珍
(1.國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作江蘇中心,江蘇 蘇州 215163;2.國家知識產(chǎn)權(quán)局專利局專利審查協(xié)作北京中心福建分中心,福建 福州 350000)
自1956 年達特茅斯會議上提出人工智能的概念以來,經(jīng)歷數(shù)十載的起起浮浮[1-3],從2006 年起,隨著深度學習算法的進一步優(yōu)化,伴隨著芯片計算能力的不斷提升,人工智能技術(shù)進入高速發(fā)展的快車道,為迎接由移動時代向智能時代的歷史變革,我國于2017 年開啟了人工智能發(fā)展的新紀元。在黨的十九大報告中提到“加快建設(shè)制造強國,加快發(fā)展先進制造業(yè),推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”;同年編制印發(fā)了《新一代人工智能發(fā)展規(guī)劃的通知》,為人工智能產(chǎn)業(yè)的發(fā)展營造了積極有利的紅利時期,是我國在自動駕駛、人臉識別、智能安防、工業(yè)機器人等人工智能應用行業(yè)的百花齊放。
2018 年中美貿(mào)易戰(zhàn)中,美國禁止企業(yè)向中興通訊銷售元器件,一度讓我國的通訊行業(yè)龍頭陷入癱瘓,最后以中興通訊的天價罰單和美方派遣工程師入駐中興行使技術(shù)監(jiān)管暫告一段落。痛定思痛,由此引發(fā)了國人對于芯片自主知識產(chǎn)權(quán)的深刻思考。
人工智能產(chǎn)業(yè)技術(shù)上可分為基礎(chǔ)層、中間層與應用層,其中基礎(chǔ)層包括人工智能芯片、算法、大數(shù)據(jù)[2];中間層又稱技術(shù)層,主要定義人工智能的技術(shù)方向,具體分為自然語言處理、計算機視覺、語音識別和云服務(wù);最上層則是直接與日常生活息息相關(guān)的應用層,直接定義人工智能的應用場景或具體行業(yè)[3],例如自動駕駛、智能安防、機器人、智慧醫(yī)療、智能家居、智慧城市等,然而真正定義人工智能產(chǎn)業(yè)生態(tài)的卻是基礎(chǔ)層,尤其是芯片運行機器學習算法的計算力及其功耗,構(gòu)成了人工智能產(chǎn)業(yè)發(fā)展的基石和原始推動力。
圖1 人工智能產(chǎn)業(yè)結(jié)構(gòu)
人工智能芯片從技術(shù)架構(gòu)上主要分為通用芯片和專用芯片[4]。其中通用芯片是指本質(zhì)上傳統(tǒng)芯片架構(gòu),通過軟件編程支持深度學習和復雜神經(jīng)網(wǎng)絡(luò)算法的芯片,主要包括CPU、GPU、DSP、FPGA 等;而專用芯片,又稱ASIC 芯片,是具有為人工智能算法量身定制的新架構(gòu)[5]的芯片類型,例如谷歌公司推出的TPU 芯片、寒武紀科技推出的Cambricon 芯片和IBM 公司研發(fā)的TrueNorth 類腦芯片。各種人工智能芯片的優(yōu)缺點及在人工智能領(lǐng)域的表現(xiàn)整理如表1 所示。
表1 AI 芯片分類及對比
雖然目前占據(jù)市場主流的仍是以GPU、FPGA為主的通用芯片,但隨著算法的不斷發(fā)展與完善,通用芯片由于運算與存儲相分離的架構(gòu),即便可以通過軟件編程實現(xiàn)復雜運算,但在訪存時的帶寬限制與隨之而來的功耗問題將成為限制其性能的瓶頸,而某種意義上來說,專用芯片是專為特定算法開發(fā)的芯片,是算法芯片化的直接結(jié)果,因此業(yè)內(nèi)大膽預測專用芯片將成為未來人工智能芯片的終端主流形態(tài),至少能夠與通用芯片并駕齊驅(qū)地發(fā)展。
專用芯片又稱為ASIC 芯片,在人工智能領(lǐng)域已經(jīng)商業(yè)化的ASIC 芯片企業(yè)主要集中在中美兩國,其中的龍頭企業(yè)當屬美國谷歌公司和中國寒武紀科技。
谷歌公司從2013 年就開始研發(fā)張量處理單元,即TPU 芯片,2016 年谷歌公司首次公開了TPU 芯片的概念圖,但關(guān)鍵部分并沒有展示出來,直到2017 年才在國際計算機體系結(jié)構(gòu)頂級會議ISCA 上正式發(fā)表了論文《在數(shù)據(jù)中心分析中對張量處理器性能進行分析》,詳細解構(gòu)了TPU 芯片的結(jié)構(gòu)組成,在此之前,谷歌已將TPU 芯片用于Google 街景以及被谷歌收購的Deepmind 公司研發(fā)的AlphaGo 機器人,正是AlphaGo 戰(zhàn)勝頂尖職業(yè)棋手讓谷歌公司的TPU 芯片名聲大躁,但當時的TPU 芯片只能用于終端推理,并且功耗實在讓人瞠目。2017 年5 月,谷歌公司推出了第二代TPU 芯片,又稱Cloud TPU 或TPU2.0,并聲稱已將該芯片用于谷歌的計算引擎平臺,用于圖像和語音識別,機器翻譯等,相比于第一代TPU 芯片,TPU2.0 最大的特色在于它既可以用于訓練神經(jīng)網(wǎng)絡(luò),又可以用于推理。時間再回到2018 年5 月,谷歌公司時隔僅1 年,又推出了第三代專用處理器芯片TPU3.0,實現(xiàn)了超過100PFLOPS的處理能力,大約是TPU2.0 的8 倍,其中來自于芯片制造技術(shù)換代的貢獻只有2 倍,意味著更多的改進在于芯片架構(gòu)層面。
客觀地說,谷歌公司的TPU 系列芯片仍然用于谷歌自營業(yè)務(wù),基本上還屬于閉環(huán)生態(tài)的狀態(tài),然而谷歌公司采取的策略是第一時間開源其TensorFlow開發(fā)平臺,并且開放Cloud service,讓全球范圍內(nèi)的開發(fā)人員可以參與到其芯片研發(fā)環(huán)節(jié),無形中實現(xiàn)了芯片設(shè)計、邏輯實現(xiàn)、平臺模式和應用環(huán)境的生態(tài)循環(huán),也只有谷歌的體量能夠充分實現(xiàn)這一進程。
寒武紀科技是我國人工智能芯片領(lǐng)域的龍頭企業(yè),由中科院計算所的陳天石、陳云霽兄弟于2016 年成立,宗旨是打造各類智能云服務(wù)器、智能終端以及智能機器人的核心處理器芯片。2011 年,寒武紀初創(chuàng)團隊即與華為合作成立了聯(lián)合實驗室,致力于神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)優(yōu)化。2014 年,寒武紀團隊共發(fā)表37 篇論文,其中15 篇論文與法國國家信息與自動化研究所Inria 的Olivier Temam 教授合作,公開提出國際首個深度學習處理器架構(gòu)DianNao、首個多核深度學習處理器架構(gòu)DaDianNao,在頂級會議發(fā)表論文并獲獎。2015 年,寒武紀初創(chuàng)團隊開始研發(fā)世界首款深度學習專用處理器樣片。2016 年3 月,北京中科寒武紀科技有限公司正式成立,并完成天使輪投資數(shù)千萬元,此外獲得了1 億元訂單實現(xiàn)盈利,當年,寒武紀團隊發(fā)布國際首個智能處理器指令集Cambricon ISA,最初命名為DianNaoYu,對應的論文發(fā)表于ISCA2016,位列第一。2017 年8月,寒武紀科技獲得了價值1 億美元的A 輪融資,該輪投資由國投創(chuàng)業(yè)領(lǐng)投,阿里巴巴創(chuàng)投、聯(lián)想創(chuàng)投、國科投資、中科圖靈、元禾原點(天使輪領(lǐng)投方)、涌鏵投資(天使輪投資方)聯(lián)合投資。在本輪融資過后,這家背靠中科院計算所的創(chuàng)業(yè)公司估值已接近10 億美元,成為了全球第一家智能芯片領(lǐng)域獨角獸公司,集成了寒武紀1A 處理器的世界首款人工智能手機芯片華為麒麟970 正式發(fā)布并在Mate10 手機中大規(guī)模商用,市場為之沸騰。移動終端是否成功最終取決于用戶的使用體驗,事實證明,搭載寒武紀1A 處理器的華為麒麟970 以每分鐘識別2005 張照片擊敗了當時蘋果公司A11 芯片每分鐘識別889 張照片的記錄。2017 年底,寒武紀科技在首場發(fā)布會上又發(fā)布了第二代終端雙核處理器Cambricon 1H 以及面向開發(fā)者的軟件平臺Cambricon NeuWare;2018 年5 月,寒武紀科技發(fā)布了第三代終端處理器Cambricon 1M 以及第一代云端機器學習芯片MLU100,標志著寒武紀成為國內(nèi)首家、并且是世界少數(shù)幾家(如英偉達)同時擁有終端和云端處理器芯片的公司。1 個月后,寒武紀科技完成數(shù)億美元的B 輪融資,公司估值達25 億美元,領(lǐng)跑初創(chuàng)AI 芯片公司。2018 年10 月底,華為海思推出最新旗艦芯片麒麟980,搭載寒武紀1H 雙核處理器,為華為手機帶來更加卓越的AI 算力。
谷歌公司是美國互聯(lián)網(wǎng)科技巨頭,寒武紀科技則是底蘊深厚的時代新貴,兩者遵循著符合各自切身利益的發(fā)展模式,并且在業(yè)內(nèi)都取得了成功,看似各自經(jīng)營,實則內(nèi)里關(guān)系錯綜復雜。
前文提到,寒武紀團隊在確定AI 芯片研發(fā)方向時,就與法國國家信息與自動化研究所的Olivier Teman 教授共同合作,并且首個神經(jīng)網(wǎng)絡(luò)加速器的命名DianNao,也是由Temam 教授提出,正是由于雙方的研究成果在業(yè)內(nèi)引起了軒然大波,Temam 教授隨后被谷歌招致麾下,成為TPU2.0 芯片的奠基人,Temam 教授也將于寒武紀團隊合作時的設(shè)計理念融入了TPU 芯片的研發(fā)中,從某種程度上來說,寒武紀科技推出的Cambricon 芯片和谷歌公司的TPU芯片也算是同宗同源。
此外,寒武紀團隊和谷歌公司都做了同樣的一件事情,就是在國際頂級的計算機學術(shù)會議ASPLOS、MICRO、ISCA 上發(fā)表了自己的研究成果,其中寒武紀團隊的DianNao 獲得ASPLOS2014 的最佳論文獎、DaDianNao 獲得MICRO2014 最佳論文獎、ShiDianNao 發(fā)表于ISCA2015、PuDianNao 發(fā)表于ASPLOS2015、DianNaoYu 獲得ISCA2016 評分第一名;谷歌公司盛名已久,但在人工智能專用芯片方面的成績依然要通過披露TPU 芯片技術(shù)細節(jié)的論文獲評ISCA2017 的最佳論文加以證明,值得一提的是,谷歌公司的TPU 論文全文引用了寒武紀團隊前期的6 篇論文??梢哉f在頂級學術(shù)會議上發(fā)表論文是一個迅速打開知名度的捷徑,也是近幾年上述頂級會議上收到有關(guān)神經(jīng)網(wǎng)絡(luò)加速器論文逐年增多的主要原因。
谷歌公司在2013—2014 年完成了多筆收購,其中包括2014 年1 月收購英國AI 初創(chuàng)公司Deepmind,連勝圍棋好手李世石、聶衛(wèi)平、柯潔的AlphaGo 就出自Deepmind 公司,除了在每局棋要耗電3 000 美元的AlphaGo 機器人上使用以搏人眼球之外,TPU 芯片的商用主要還是在谷歌自營的業(yè)務(wù),并不對外售賣。但是谷歌公司開發(fā)了可以直接對TPU 進行加速的第二代深度學習框架平臺Tensorflow 并且立即開源,Tensorflow 平臺可以支持各種深度學習算法,并且用Python、C++、CUDA 語言開發(fā),可以說編程人員用起來得心應手,結(jié)合Cloud TPU 業(yè)務(wù),使得全世界范圍內(nèi)的研發(fā)人員都在利用谷歌的軟件開發(fā)平臺和硬件服務(wù)器來進行平臺搭建和系統(tǒng)開發(fā),無形中就助力谷歌建立了自己的生態(tài)圈,讓人不免聯(lián)想到移動時代幾乎一統(tǒng)天下的開源的安卓系統(tǒng)。
寒武紀團隊則是另一種發(fā)展策略,除了搶占市場先機之外,借鑒了PC 時代的intel 和移動時代的ARM,他們先后推出了x86 和ARM 指令集,實現(xiàn)了對PC 和移動終端軟硬件的壟斷。指令集是軟件、硬件之間的接口,在人工智能算法多樣化的今天,設(shè)計一套調(diào)用靈活,且兼容性好的指令集,可以說直接影響AI 生態(tài)的發(fā)展。寒武紀科技推出的Cambricon ISA 指令集,通過對10 種典型的神經(jīng)網(wǎng)絡(luò)算法測試后,證明了其適應性更強,該指令集受RISC 啟發(fā),將復雜的神經(jīng)網(wǎng)絡(luò)計算分解成模塊,從而設(shè)計簡單短小的調(diào)用指令,簡化了芯片設(shè)計,并且預留了支持未來多變算法的空間,相較于目前僅較好地支持CNN 卷積網(wǎng)絡(luò)的TPU 而言,擁有自己的指令集的寒武紀芯片的前景更為樂觀。表2 是谷歌TPU 芯片和寒武紀Cambricon 芯片的產(chǎn)品對比。
芯片性能提升推動人工智能產(chǎn)業(yè)的發(fā)展,AI 專用芯片是基于特定算法研制的芯片類型,相較于通用芯片具有性能更優(yōu)、功耗更小的優(yōu)勢,未來有望成為人工智能產(chǎn)業(yè)的主流芯片,本文比較了中美兩國AI 專用芯片龍頭企業(yè)的發(fā)展路線,希望能為致力于AI 專用芯片研發(fā)的從業(yè)人員提供一些借鑒。
表2 谷歌TPU 芯片與寒武紀Cambricon 對比