賀乾明 邱豪
英偉達(dá)CEO黃仁勛。圖/視覺中國
8月下旬,英偉達(dá)召開例行全員會。當(dāng)時英偉達(dá)股價隨著銷量大漲,市值穩(wěn)定地回到萬億美元以上,員工手中股票的價值已經(jīng)是年初的3倍多。英偉達(dá)CEO(首席執(zhí)行官)黃仁勛提醒他們,不要太早激動,公司的市值會到2萬億美元。
全球只有蘋果、微軟、谷歌的市值到過2萬億美元,各自牢牢抓住十多億用戶。它們也全部都是英偉達(dá)成為萬億公司的原因。ChatGPT火爆后,它們向英偉達(dá)下了總額數(shù)十億美元的大訂單。
11月13日,英偉達(dá)發(fā)布了新款GPU H200,與上一代最大的差別是用了新款內(nèi)存芯片,連計(jì)算能力都沒明確公布,其市值就應(yīng)聲漲了700多億美元。英偉達(dá)稱已經(jīng)給H200找到了買主——明年它會密集出現(xiàn)在亞馬遜、谷歌、微軟等公司的數(shù)據(jù)中心中。
在英偉達(dá)沖向2萬億美元的道路上,這些客戶還會繼續(xù)下大訂單,但也會和它直接競爭。11月16日微軟的Ignite大會是這種關(guān)系的直接體現(xiàn),微軟一邊發(fā)布自研的AI芯片Maia100,一邊邀請黃仁勛到場宣布新的合作。
微軟之外,Meta、谷歌、亞馬遜、特斯拉等英偉達(dá)的大客戶,今年都投入更多資源研發(fā)AI芯片,甚至OpenAI都開始籌備芯片項(xiàng)目。
英偉達(dá)成立至今30年,前20多年專精于游戲顯卡這一個小眾市場。加密貨幣帶來的巨大挖礦需求讓英偉達(dá)激活了顯卡銷量,英偉達(dá)的業(yè)績和市值因此躍升,不僅收入在2018年沖破百億美元、利潤率沖上30%,股價也在2016年到2018年10月間大漲800%。隨著比特幣在新冠疫情肆虐之際沖上6.8萬美元,英偉達(dá)的市值也逼近萬億美元,成為最值錢的芯片公司。
2023年3月發(fā)布的GPT-4點(diǎn)燃了整個人工智能行業(yè)。根據(jù)芯片研究機(jī)構(gòu)SemiAnalysis獲取的信息,OpenAI用2.5萬張英偉達(dá)A100GPU訓(xùn)練了三個多月,才做出GPT-4大模型。
A100是英偉達(dá)2020年發(fā)布的GPU。在GPT-4發(fā)布前幾個月,英偉達(dá)推出了H100GPU,把計(jì)算能力提升到A100的3倍,專門為Transformer架構(gòu)(大模型的底層)做了優(yōu)化——當(dāng)時ChatGPT還沒有面世。
對于想要研發(fā)更強(qiáng)大模型的OpenAI和追趕OpenAI的公司,H100都是需要大量囤積的戰(zhàn)略資源,它立即變得供不應(yīng)求。OpenAI發(fā)布GPT-4后,兩度因?yàn)镚PU短缺停止付費(fèi)用戶注冊。
埃隆·馬斯克(ElonMusk)說H100“比毒品都難買”。迫切需要算力的公司們,轉(zhuǎn)而訂購A100。受美國政府貿(mào)易限制,中國公司只能購買降低性能的A800和H800。這些GPU的產(chǎn)能也遠(yuǎn)遠(yuǎn)跟不上需求。
紅杉資本在今年9月稱,許多公司的增長瓶頸不是客戶需求,而是英偉達(dá)最新GPU的產(chǎn)能。
英偉達(dá)是設(shè)計(jì)公司,并不直接生產(chǎn)芯片,它需要請臺積電生產(chǎn)芯片,從其他公司采購高性能內(nèi)存,再交給供應(yīng)商組裝成一張卡。一顆H100的成本約3000美元,而英偉達(dá)賣3萬多美元,翻10倍:
英偉達(dá)向臺積電下訂單,用4納米的芯片產(chǎn)線制造GPU芯片,平均每顆成本155美元。
英偉達(dá)從SK海力士(未來可能有三星、美光)采購六顆HBM3(HighBandwidthMemory,高帶寬內(nèi)存)芯片,成本大概2000美元。這是因?yàn)镚PU處理大模型任務(wù),還需要搭載比手機(jī)、電腦更大、數(shù)據(jù)傳輸速度更快的內(nèi)存,才能保證效率。
臺積電芯片產(chǎn)線生產(chǎn)出來的GPU和英偉達(dá)采購的HBM3芯片,一起送到臺積電CoWoS封裝產(chǎn)線,以性能折損最小的方式加工成H100,成本大約為723美元。
H100被送到其他英偉達(dá)的供應(yīng)商處,四顆或八顆組裝在一起,加上數(shù)據(jù)傳輸單元,做成服務(wù)器。
利潤豐厚的H100推動英偉達(dá)利潤率攀升到40%,超過了所有芯片同行,達(dá)到全球最大奢侈品集團(tuán)LVMH的近兩倍。
英偉達(dá)高昂的利潤,就是它客戶的成本。為了借著大模型浪潮來抓住用戶、激活業(yè)務(wù),許多大公司采購GPU后,不惜賠錢對外提供服務(wù)。GPT-4發(fā)布后,微軟將其用于必應(yīng)搜索,讓用戶免費(fèi)使用。
黃仁勛常說的“買得GPU越多,省得越多”成為過去式。大公司買得越多,英偉達(dá)賺的越多,它們虧損越多。一個顯而易見的選擇出現(xiàn)了:自研一款芯片,可能省的更多。
過去十多年,研發(fā)一款芯片的難度持續(xù)下降:臺積電、三星等代工廠存在,讓它們不用擔(dān)心芯片代工問題;芯片人才充分流動,降低了設(shè)計(jì)芯片的難度。
芯片研究機(jī)構(gòu)SemiAnalysis的首席分析師迪倫·帕特爾(DylanPatel)說,自研一款類似微軟Maia100的AI芯片,每年的成本大概1億美元——對于研發(fā)費(fèi)用每年上百億美元的大互聯(lián)網(wǎng)公司來說,并不算什么。
ChatGPT帶動了大模型熱潮,大公司不用擔(dān)心使用場景問題。咨詢機(jī)構(gòu)Gartner今年8月預(yù)測,全球AI芯片市場規(guī)模隨著ChatGPT火熱快速增長,到2027年就會達(dá)到近1200億美元,是去年的2.7倍。
大公司們想在AI芯片研發(fā)能力上追上英偉達(dá),投入五年到十年也不一定能實(shí)現(xiàn)。不過它們只需要花英偉達(dá)同樣的成本,做出十分之一的效果,就已經(jīng)有利可圖了。
訓(xùn)練更強(qiáng)的大模型,需要很多GPU?!坝?xùn)練一個對標(biāo)GPT-3.5的大模型,用2000張至3000張A100GPU就可以。但想要訓(xùn)練對標(biāo)GPT-4的大模型,上萬張GPU只是一個入場券?!币患抑袊萍脊镜拇竽P拓?fù)責(zé)人說。
訓(xùn)練完成還不是結(jié)束。當(dāng)用戶使用大模型的時候,這些企業(yè)得靠GPU調(diào)動大模型——即大模型推理。大模型要處理用戶輸入的問題,基本上每個字都要單獨(dú)跑一遍大模型。給出回復(fù)時,類似的情況還要再來一遍。參數(shù)上千億的大模型,每次跑一遍都要調(diào)用多張GPU。
多位大模型從業(yè)者估算,如果千億參數(shù)或更大的人工智能模型被廣泛使用,大模型的訓(xùn)練成本和推理成本會達(dá)到2∶8,甚至1∶9。推理GPT-4或更強(qiáng)的大模型,基本上離不開英偉達(dá)高性能的GPU。
《財經(jīng)》了解到,參數(shù)更大的大模型推理會產(chǎn)生巨大的算力需求,而且不可能在本地設(shè)備上實(shí)現(xiàn)(70億參數(shù)的大模型就需要14G內(nèi)存,超出了幾乎所有手機(jī)的硬件配置和絕大多數(shù)電腦配置),不少英偉達(dá)員工因此相信公司市值會繼續(xù)上升。
科技公司自研AI芯片,出發(fā)點(diǎn)都是推理參數(shù)較小的模型,然后再進(jìn)一步擴(kuò)展。阿里巴巴的含光800、百度的昆侖芯片都是推理芯片,谷歌、亞馬遜、特斯拉做AI芯片,也是從推理入手,然后再做訓(xùn)練芯片。
自研芯片不用向英偉達(dá)交稅,性能低一些也能節(jié)省成本。根據(jù)迪倫·帕特爾等人的測算,按照谷歌的報價,使用其最新的AI芯片TPUv5e在訓(xùn)練、推理參數(shù)少于2000億的大模型時,成本低于用A100或H100。
大公司通常先在自己的業(yè)務(wù)中使用自研AI芯片,比如谷歌的TPU最先支持的是谷歌翻譯,最新的TPUv5e首先用在了GoogleBrad和一系列用大模型改造的業(yè)務(wù)中(比如Gmail)。微軟Azure芯片部門副總裁拉尼·博卡爾(RaniBorkar)11月16日在發(fā)布會上說,微軟正在必應(yīng)、Office等業(yè)務(wù)中測試自研的AI芯片Maia100,預(yù)計(jì)明年初投入使用。
芯片經(jīng)過內(nèi)部測試后,大公司會通過云計(jì)算平臺對外提供服務(wù),與英偉達(dá)爭搶客戶。11月8日,谷歌投資的Anthropic宣布大規(guī)模部署TPUv5e,處理其大模型Claude的推理工作,這些任務(wù)原本屬于英偉達(dá)的GPU。
“我們不需要假裝公司一直處于危險之中。事實(shí)上,我們一直處于危險之中,而且我們深有體會?!?1月9日,黃仁勛在一場活動中說。
芯片行業(yè)先驅(qū)、英特爾聯(lián)合創(chuàng)始人安迪·格魯夫(AndyGrove)曾說“成功滋生自滿,自滿導(dǎo)致失敗,只有偏執(zhí)狂才能生存”。英偉達(dá)也是硅谷最偏執(zhí)的公司之一,從管理風(fēng)格到戰(zhàn)略藍(lán)圖都是。
大約十年前,黃仁勛在俄勒岡州立大學(xué)向臺下的畢業(yè)生傳輸經(jīng)驗(yàn):“當(dāng)有人全力以赴時,他們就能做你做不到的事情。全力以赴,不留后手?!彼麖牟粚_風(fēng)險,也不會多重押注,只在自己覺得對的路線上全力押注。
從2006年開始,為了讓GPU在游戲、電影之外也有用武之地,英偉達(dá)將大筆資金投入到CUDA研發(fā)中,投資人和華爾街的分析師們不理解,為什么要給游戲顯卡不斷增加計(jì)算性能,讓它們越來越貴和難賣?
直到大約十年后,人工智能和深度學(xué)習(xí)展現(xiàn)了商業(yè)價值,英偉達(dá)早期投資得到認(rèn)可,CUDA成了英偉達(dá)隱形的護(hù)城河。
為了顧及手機(jī)、筆記本電腦的功耗,蘋果、英特爾等競爭對手的芯片常常一年只能提升不到20%。而英偉達(dá)的AI芯片只考慮性能這一個目標(biāo)。
黃仁勛不滿足“摩爾定律”每18個月性能翻一番,他提出了更快的“黃氏定律”,并要求團(tuán)隊(duì)以此為目標(biāo),兩年發(fā)布一款新品,保持計(jì)算性能的絕對優(yōu)勢。明年3月,英偉達(dá)將發(fā)布下一代產(chǎn)品GPUB100,預(yù)計(jì)性能會大幅度超過H100和加速追趕的所有競爭對手。
雖然從P100、V100到A100,功耗都在250W到400W之間,而H100的功耗直接來到了700W,是FPGA或ASIC路線下AI芯片功耗的數(shù)十倍。但更強(qiáng)的計(jì)算性能,讓英偉達(dá)的GPU擁有著不可替代的地位。
面對更激烈的市場競爭,英偉達(dá)加快了新品推出的速度。11月13日剛發(fā)布的H200,是英偉達(dá)第一次在兩代旗艦產(chǎn)品中插入一個“過渡款”。據(jù)SemiAnalysis的信息,英偉達(dá)將在2025年發(fā)布B100的下一代產(chǎn)品,發(fā)布周期從之前的兩年一更,加速到了一年一更,還會延續(xù)下去。
芯片市場需求和產(chǎn)能經(jīng)常錯置,但黃仁勛從不在意周期。一旦有重要且搶手的零部件,他就會下單鎖定產(chǎn)能,哪怕冒著用不完的風(fēng)險,也要確保自身供應(yīng),擠壓競爭對手。
目前AI芯片供應(yīng)瓶頸主要是CoWoS先進(jìn)封裝和HBM3,英偉達(dá)包下了臺積電約六成CoWoS產(chǎn)能,向HBM的三家供應(yīng)商SK海力士、三星和美光下了巨額訂單。
根據(jù)英偉達(dá)財報,截至今年7月底,英偉達(dá)賬上還有價值111.5億美元的訂單、庫存和產(chǎn)能采購承諾,另外還有38.1億美元的供應(yīng)合約預(yù)付款——同行里沒有第二家公司有這么多的庫存和預(yù)付款。
英偉達(dá)的大手筆采購,讓供應(yīng)商都感到擔(dān)心。臺積電董事長劉德音在今年二季度業(yè)績會上說,看不清楚AI的火熱需求是不是短期泡沫。但英偉達(dá)的訂單就在那里,臺積電只能選擇大幅擴(kuò)產(chǎn)跟上。
在英偉達(dá)的一再追單下,臺積電已經(jīng)計(jì)劃將明年的CoWoS產(chǎn)能提高到3.5萬片/月、同比增長120%。
這樣極致的供應(yīng)鏈掌控策略刻在英偉達(dá)的基因里。1997年,黃仁勛向臺積電下了1.27億美元的代工訂單。臺積電創(chuàng)始人張忠謀每隔一段時間就要回訪,重聽一遍黃仁勛的業(yè)務(wù)講解、確保他真的需要這么多晶圓——那年英偉達(dá)的全年?duì)I收只有2700萬美元。
英偉達(dá)還拿出了奢侈品行業(yè)慣用的“配貨”策略。渠道商和客戶們想要H100、A100這樣的旗艦芯片,就得先買夠一定量的L40S等適合更小模型的推理芯片,無形當(dāng)中將競爭對手從夠得到的市場趕走。
地緣政治是英偉達(dá)面前最大的阻礙。上一財年,中國市場為英偉達(dá)貢獻(xiàn)了47%的收入。美國政府在去年和今年10月兩度收緊高性能芯片出口,英偉達(dá)是最主要的限制對象。
英偉達(dá)的反擊就是貼著紅線出新品。第一輪管制后不久,英偉達(dá)就將A100的帶寬縮水,交出既符合規(guī)定,同時不影響算力的中國特供版芯片A800,接著在半年內(nèi)繼續(xù)交出旗艦芯片H100的替代版本H800。
今年11月初,美國更新芯片禁令不到一個月,英偉達(dá)又拿出了符合新要求的H20GPU。雖然H20單卡算力只有296TFLPOS,是中國公司頂級AI芯片的57%,但更高的內(nèi)存、帶寬都保證了它可以串聯(lián)起來使用,買得夠多就依然有很強(qiáng)的競爭力。英偉達(dá)股價跟著上漲近10%。
全球的萬億美元公司,除去沙特阿美,都是黏住幾億甚至幾十億消費(fèi)者的科技公司。
英偉達(dá)是當(dāng)中異類。它的品牌長期只覆蓋少數(shù)PC游戲用戶,現(xiàn)在50%收入來自寥寥數(shù)個大型云計(jì)算公司和互聯(lián)網(wǎng)巨頭:亞馬遜、微軟、Google、Meta、字節(jié)跳動、阿里巴巴等。
大公司購買英偉達(dá)的處理器有一部分是自用,但更多是將其通過云計(jì)算平臺租給其他客戶??蛻絷P(guān)系最終還是留在這些云計(jì)算平臺公司手上。如果有一天,它們有了性能足夠強(qiáng)的產(chǎn)品,隨時可以換掉英偉達(dá)。
英偉達(dá)靠著CUDA綁定了數(shù)百萬AI開發(fā)者,吸引著大型云計(jì)算公司采購它的GPU。如知名分析師本·湯普森(BenThompson)所說:“英偉達(dá)既不是一家硬件公司,也不是一家軟件公司:它是一家將兩者融為一體的公司?!?/p>
現(xiàn)在這套邏輯依然成立,在人工智能前沿探索中,CUDA仍然讓英偉達(dá)的GPU具備優(yōu)勢。但現(xiàn)在黃仁勛還要再進(jìn)一步,直接把云計(jì)算平臺的客戶變成自己的。
今年3月,GPU最稀缺的時候,英偉達(dá)推出云計(jì)算服務(wù)DXGCloud:英偉達(dá)把賣給云計(jì)算公司的GPU租回來,由英偉達(dá)員工進(jìn)一步優(yōu)化,再出租給需要GPU算力的客戶。
一來一回,云計(jì)算平臺承擔(dān)了數(shù)據(jù)中心的建設(shè)成本,客戶卻去了英偉達(dá)。但微軟、谷歌、甲骨文依然加入了英偉達(dá)的計(jì)劃。作為回報,它們很快就有了最稀缺的H100。全球最大的云計(jì)算供應(yīng)商AWS拒絕合作,直到今年7月才上線了H100算力出租服務(wù)。
“這是我們有史以來最大、最重要的業(yè)務(wù)模式擴(kuò)展?!秉S仁勛說,“英偉達(dá)不僅為云計(jì)算公司提供GPU,還把自己推向市場?!?/p>
OpenAICEO山姆·阿爾特曼(SamAltman)近期接受采訪說,雖然今年GPU緊缺,但明年情況會更好。因?yàn)楣雀琛⑽④浀裙咀匝械男驴預(yù)I芯片將會投入市場。OpenAI已經(jīng)開始測試微軟發(fā)布的AI芯片。
“這就是資本主義的魔力,現(xiàn)在很多公司都想成為英偉達(dá)?!卑柼芈f。而英偉達(dá)的步步緊逼,也沒有給它們其他選擇。