何己派
從張鵬辦公室的窗戶向外望,一眼就能看到對面的東升大廈,那是智譜AI初創(chuàng)團隊從清華實驗室出來后,最早的辦公地。
智譜AI成立于2019年,規(guī)模快速擴大。公司每年都要搬一次家,人員從當(dāng)初的30人左右,增加到現(xiàn)在的400余人。
滾雪球般增長的,還有它的名氣,以及超高的融資額。
智譜AI宣布,2023年累計獲得超25億元融資。其身后的投資機構(gòu),包括去年5月成立的社保基金中關(guān)村自主創(chuàng)新專項基金,極少下注同一家公司的美團、螞蟻、騰訊、阿里等機構(gòu),也在其中。
智譜AI集結(jié)了一幫技術(shù)大牛。核心團隊里,CEO張鵬畢業(yè)于清華大學(xué)計算機系,董事長劉德兵是中國工程院高文院士弟子,總裁王紹蘭為清華創(chuàng)新領(lǐng)軍博士。
這支學(xué)院派出身的團隊,瞄準(zhǔn)的賽道,是AI大模型。
去年10月底,智譜推出全自研的第三代基座大模型ChatGLM3系列產(chǎn)品,多模態(tài)能力逼近GPT-4。由此,它成為國內(nèi)唯一對標(biāo)OpenAI全產(chǎn)品線的大模型創(chuàng)業(yè)公司。
6月,在硅谷科技媒體The Information的盤點中,智譜AI被視為最有可能成為“中國的OpenAI”的5家企業(yè)之一,外界也常以此來形容智譜。
但張鵬不愿意大家僅基于商業(yè)邏輯將二者對比,也不想被這個標(biāo)簽套住。至于技術(shù)上的追趕,團隊所有人心里,一直有張動態(tài)更新的時間表。
“我們的目標(biāo),是盡快追平現(xiàn)有GPT-4的能力。”張鵬向《21CBR》記者表示。
智譜AI是從清華走出來的創(chuàng)業(yè)公司。
上世紀90年代,清華計算機系成立了知識工程研究室,致力于知識工程理論、方法和應(yīng)用研究,屬于人工智能領(lǐng)域的一個分支。
人工智能本身是門實踐性科學(xué),講究理論和工程落地結(jié)合,本世紀初,我們就開始把數(shù)據(jù)挖掘、機器學(xué)習(xí)等相關(guān)研究,落地為產(chǎn)品,推出AMiner系統(tǒng),做科研情報挖掘。
之后,實驗室做了一些落地嘗試,直到2019年,智譜AI成立,團隊走出實驗室,來做產(chǎn)業(yè)轉(zhuǎn)化。
我一畢業(yè)就留在實驗室工作,公司成立后,連同團隊其他成員一起過來。
整個團隊三十來人,大家共事時間久,有的相處將近10年。無論是團隊磨合,還是應(yīng)用轉(zhuǎn)化,從學(xué)校到公司的過渡,都非常平滑。剛成立半年時,大家感覺跟在學(xué)校里沒有大差別。
大的技術(shù)路線,早在公司孵化時,我們就想清楚了。
人工智能未來怎么發(fā)展,學(xué)術(shù)界、產(chǎn)業(yè)界當(dāng)時出現(xiàn)了多種聲音。讓大家焦慮的是,“AI四小龍”已經(jīng)把上一代人工智能技術(shù)落地的路徑,“蹚”得差不多,快碰到天花板了,下一代突破口在哪兒?未來該怎么辦?
我們逐漸理清一個方向:要從感知智能,走向認知智能。自2016年起,團隊定下認知智能的發(fā)展框架——數(shù)據(jù)和知識雙輪驅(qū)動,從那時到現(xiàn)在,基本在這一框架下探索,只是各階段側(cè)重點不同。
2020年,Open AI發(fā)布參數(shù)規(guī)模達到1750億的GPT-3模型。我們意識到,人工智能的突破,有了新可能。
這之前,GPT-1、GPT-2,參數(shù)量不大,本質(zhì)是延續(xù)上一代人工智能的路往前走了一點,還沒到質(zhì)變的程度。
GPT-3一出來,所有人看到了另一種可能,原來暴力“堆量”,堆到一定程度是會出現(xiàn)拐點的。沒有人想到,預(yù)訓(xùn)練語言模型的參數(shù)量被放大以后,會有“智能涌現(xiàn)”,而不只是能力的線性增長。
GPT-3的發(fā)布節(jié)點,恰逢智譜成立一周年。公司內(nèi)經(jīng)過幾輪討論,跟張鈸院士等清華老師,也做了很多探討。
在大框架不變的前提下,預(yù)訓(xùn)練大模型的發(fā)展,沿著數(shù)據(jù)驅(qū)動這條路,往前跨了一大步,上了新臺階。
我們果斷圍繞這個方向轉(zhuǎn),投入到超大規(guī)模預(yù)訓(xùn)練模型的研發(fā)中。
市面上主流的幾種預(yù)訓(xùn)練框架,BERT、GPT和T5,都來自國外公司。
早期BERT的效果是超越GPT的,到了GPT-3,情況反轉(zhuǎn)。
不同的訓(xùn)練框架,在不同維度上,擅長的能力不同,各自有適合的任務(wù)和場景。把它們各自的優(yōu)點結(jié)合起來,泛化出更多能力,是我們自研GLM預(yù)訓(xùn)練架構(gòu)的出發(fā)點。
在許多具有百萬參數(shù)甚至更少訓(xùn)練步驟的基準(zhǔn)測試中,GLM在自然語言理解方面,實現(xiàn)了比BERT和T5更好的性能。這給了我們信心。
基于GLM框架,開發(fā)百億參數(shù)的稠密模型以后,當(dāng)時GLM還沒完全定型,我們用了一些其他模型架構(gòu)比如MoE(Mixture of Experts),用“稀疏化”方法,成功訓(xùn)練出了一個萬億參數(shù)模型。
通過稀疏化方式,雖能把模型參數(shù)推到很大,但這個“萬億”模型,實際效果沒有想象中那么好。
GPT-3的出現(xiàn),給了我們啟發(fā):要堅定走研發(fā)稠密基座模型的路。
2021年,團隊開始訓(xùn)練千億參數(shù)模型GLM-130B。國內(nèi)當(dāng)時做這塊的少,海外可借鑒的有限,OpenAI沒有公開技術(shù)細節(jié),大家不知道怎么復(fù)現(xiàn),也不確定門檻有多高。
我們花了大約半年時間做前期籌備,進行調(diào)研、設(shè)計、實驗和調(diào)試,做各種工程實驗。因為準(zhǔn)備充分,訓(xùn)練GLM-130B,實際只花了兩個月。
同百億參數(shù)模型的成本相比,訓(xùn)練一個千億模型,不是簡單的乘以10倍。
最開始融資的時候,我們和投資人聊,需要把大模型的方方面面解釋得非常清楚。2021年,我可能也沒給大家講明白。ChatGPT火起來后,算是給所有人上了一課。
2022年底,投資圈就敏銳地捕捉到了訊號。過完春節(jié),ChatGPT掀起討論熱潮,大家對大模型的態(tài)度,跟之前比有180度的大掉頭。熱度最高的時候,我們一天要接待兩三批投資人。
投資人普遍認可智譜的是三點:
一是切入賽道早,對大模型的認知深刻;二是所有核心技術(shù),智譜全自研,底層的邏輯靠自己摸索出來,這使得團隊的經(jīng)驗積累,深且全面;三是懂國內(nèi)的To B市場,知道用什么樣的產(chǎn)品去做B端的商業(yè)化。
團隊里,工程師、研究員長期一起工作,這是公司最大的特點,產(chǎn)學(xué)研一體化。
這讓技術(shù)轉(zhuǎn)換到產(chǎn)品的過程很快,研究團隊和工程師一配合,立馬就能把系統(tǒng)做出來,而后快速上線。
公司成立之初,我們就是帶著技術(shù)和客戶入場的,早期做科研情報挖掘等產(chǎn)品,商業(yè)化落地做得不錯。
行業(yè)大環(huán)境變得快,在大方向不變的前提下,公司加快節(jié)奏,原本預(yù)計3~4個月做的事,會壓縮一半時間。
2023年無論是團隊擴張、融資規(guī)模還是商業(yè)化落地,智譜都在提速。
智譜的產(chǎn)品矩陣主要劃分為三層。
第一層是包括ChatGLM等在內(nèi)的基礎(chǔ)模型;第二層是工具平臺供應(yīng)鏈,提供標(biāo)準(zhǔn)化組件,可以通過產(chǎn)品化來提供服務(wù);再往上是應(yīng)用層,數(shù)字人、科技情報產(chǎn)品等。
迭代頻率上,公司每3~6個月更新一代大模型。最新版本是去年10月推出的第三代基座大模型ChatGLM3。
評測結(jié)果顯示,與ChatGLM二代模型相比,在44個中英文公開數(shù)據(jù)集測試中,ChatGLM3在國內(nèi)同尺寸模型中排名前列。
ChatGLM3最大的一個亮點,是智譜的模型能力與OpenAI實現(xiàn)了全線對齊,包括基座模型、語言模型、跨模態(tài)模型以及代碼解釋器等能力象限。
商業(yè)模式方面,To B和To C兩條線都有,更側(cè)重B端。C端產(chǎn)品以免費方式推動,主要包括生成式AI助手“智譜清言”,去年8月上線,為首批對外開放的大模型之一。
B端的付費主要是三種,API調(diào)用、私有化部署以及介于兩者之間的云端私有化方案,分別對應(yīng)不同規(guī)模企業(yè)的需求,非常靈活。
公司重點布局的行業(yè),包括互聯(lián)網(wǎng)、金融、教育等,平穩(wěn)增長。
客戶采用大模型后的效果,得落到具體業(yè)務(wù)里驗證,這需要時間,但大家有信心。舉一個例子,幫程序員寫代碼的模型產(chǎn)品,平均工作效率至少提升30%。
關(guān)于通用大模型和垂直行業(yè)大模型,智譜的思考重點,一直是加碼基座大模型。
所謂的行業(yè)大模型,不是個獨立的事物,跟通用模型不是平行的關(guān)系。一個模型,通用能力不夠強,但專業(yè)能力很強,這恐怕不太可能。
這就好比一位行業(yè)專家,基礎(chǔ)知識很差甚至完全沒有,是不可想象的。無論哪個行業(yè),專有知識其實都建立在基礎(chǔ)知識之上。
對標(biāo)OpenAI,我們期望盡快實現(xiàn)技術(shù)追趕,團隊有一個動態(tài)調(diào)整的時間表,當(dāng)前的目標(biāo),是盡快實現(xiàn)追平現(xiàn)有GPT-4的能力。接下來,我們會實現(xiàn)“技術(shù)+商業(yè)化”落地,兩條腿交替跑步前進。
除了自身保持進步外,智譜還做了很多跟生態(tài)相關(guān)的事情,積極建設(shè)開源生態(tài)。
公司很早就意識到,做大模型,需要舉全行業(yè)之力,不可能由某一家公司徹底壟斷市場。
有一道物理題:一個金屬圓環(huán)加熱以后,它的內(nèi)徑會變大還是變???
答案是變大。內(nèi)部力量,會推動整體勢能向外走。
我希望大模型的生態(tài)圈也能像圓環(huán)一樣,一股勁一把火燒起來,大家協(xié)力,把生存空間做大。