時(shí)代變了。前一個(gè)移動(dòng)互聯(lián)網(wǎng)的時(shí)代,代表人物是喬布斯;后一個(gè)AI的時(shí)代,代表人物可能是山姆·奧特曼,也有可能是別人。
2023年,OpenAI以斷崖式領(lǐng)先的姿態(tài),睥睨所有它的同行?,F(xiàn)在是2024年,情況已經(jīng)很不一樣。
先笑的人,不一定能笑到最后,在硅谷尤其如是。
半導(dǎo)體時(shí)代初啟時(shí),“仙童八叛逆”取代了半導(dǎo)體之父肖克利,成為硅谷真正的話事人;計(jì)算機(jī)時(shí)代初啟時(shí),“八叛逆”陸續(xù)出走,創(chuàng)立英特爾、微軟等一眾公司,摘光了仙童所有的“桃子”;互聯(lián)網(wǎng)時(shí)代初啟時(shí),網(wǎng)景瀏覽器一家獨(dú)大,不過四五年光景,一鯨落而萬物生……
先驅(qū)成先烈的故事,誰能保證不在OpenAI身上重演呢?
山姆·奧特曼既有遠(yuǎn)慮,也有近憂。
近憂者,OpenAI起個(gè)大早,很可能趕個(gè)晚集。文生視頻的AI產(chǎn)品Sora發(fā)布已近半年,海外的Runnway、Pika、HeyGen,國內(nèi)的“可靈”等同類產(chǎn)品已經(jīng)應(yīng)用得火熱,Sora仍然未見光明;同樣處境的還有GPT4o新的語音及多模態(tài)交互功能。有人嘲諷說,OpenAI從做AI的變成了賣期貨的。
遠(yuǎn)慮者,OpenAI的周邊虎狼環(huán)伺。美國時(shí)間7月23日,Meta更新開源模型至Llama3.1,最大模型的參數(shù)達(dá)到405B。不久前Claude 3.5技術(shù) “對(duì)齊”O(jiān)penAI,已經(jīng)分走不少用戶,如今走開源路線的Meta如同野蠻人,也已經(jīng)抵達(dá)了家門口。何況在大洋彼岸,中國一眾大模型也正虎視眈眈,積極出海,力圖“齊家治國平天下”。
說到底,AI的時(shí)代才剛剛拉開序幕,群雄逐鹿,成敗未定。
今年6月,OpenAI上演了一場小型“鯨落”:大量用戶被告知,OpenAI“將停止對(duì)某些未受支持的國家和地區(qū)提供API服務(wù)”,包含中國大陸和中國香港,業(yè)內(nèi)著實(shí)震動(dòng)了一番。
API是指應(yīng)用程序編程接口(Application Programming Interface),由它定義不同軟件應(yīng)用程序之間的通信方式和交互規(guī)則。一部分開發(fā)者使用OpenAI的API提供AI服務(wù),也就是俗稱的“套殼”,一旦斷供則武藝盡失。
這場震動(dòng)持續(xù)了不到半天。很快,國內(nèi)一眾大模型公司大開方便之門,搶著“收留”這些開發(fā)者,智譜、百度文心、零一、Minimax等一擁而上,很快升級(jí)成為“一鍵搬家”式的服務(wù)。
智譜是最快作出反應(yīng)的大模型廠商,一名智譜AI內(nèi)部人員告訴南風(fēng)窗,開發(fā)者將應(yīng)用遷移到智譜大模型,過程很簡單,“如果僅僅是切換,僅需修改一個(gè)base_url,其他參數(shù)都不需要改變”。涉及提示詞等內(nèi)容的適配,操作也不復(fù)雜。
技術(shù)方面,國內(nèi)大模型絲毫不虛。國內(nèi)目前一線水平的大模型能力已經(jīng)全面逼近OpenAI,甚至有些方面,比如很多中文任務(wù)能力已有超越。
以智譜AI的GLM-4大模型為例,評(píng)估結(jié)果顯示,GLM-4在MMLU、GSM8K、MATH、BBH、GPQA和HumanEval等多個(gè)通用指標(biāo)上的表現(xiàn)與GPT-4非常接近,甚至在某些方面超過了GPT-4。
成本上,國內(nèi)大模型價(jià)格遠(yuǎn)低于OpenAI,“物美價(jià)優(yōu)”一向是制勝法寶。
OpenAI“斷供”行為的背后,無論它是作何考慮,最后一定會(huì)意識(shí)到“挑錯(cuò)了對(duì)手”。中國不是它予取予奪的對(duì)象。事實(shí)上,中美兩國是全球唯二的大模型重量級(jí)玩家,各有優(yōu)勢。
2024全球數(shù)字經(jīng)濟(jì)大會(huì)上,中國信通院院長余曉暉發(fā)布的《全球數(shù)字經(jīng)濟(jì)白皮書(2024年)》顯示,截至2024年第一季度,全球AI企業(yè)近3萬家,美國占全球的34%,中國占全球的15%。
從全球范圍看,美國和中國發(fā)布的通用大模型總數(shù)占全球發(fā)布量的80%,兩國成為大模型技術(shù)領(lǐng)域的引領(lǐng)者。
AI企業(yè)數(shù)量,體現(xiàn)的是一國在AI領(lǐng)域的活躍度,而大模型的數(shù)量更加彰顯“硬實(shí)力”。眾所周知,訓(xùn)練大模型是一件燒錢的活兒,但一切與AI有關(guān)的功能都建立在大模型的能力上。大模型考驗(yàn)一國的經(jīng)濟(jì)實(shí)力、資本市場活力、技術(shù)水平,還有人才教育程度。當(dāng)前,只有中美兩國可以一戰(zhàn)。
ChatGPT發(fā)布于2022年11月底,真正引起廣泛關(guān)注則是在2023年3月。當(dāng)時(shí),微軟宣布將為旗下辦公套件引入ChatGPT的AI功能,這是AI第一次被認(rèn)可擁有可泛化的實(shí)際用途。
曾經(jīng)的AI當(dāng)然也有用途,但它們是專用AI,一個(gè)模型只有一個(gè)用處—人臉識(shí)別的模型負(fù)責(zé)識(shí)別人臉,自動(dòng)駕駛的模型負(fù)責(zé)開車。OpenAI的GPT系列模型,走向了通用人工智能(AGI),一舉聲名鵲起。
ChatGPT的成功一度引起“反思”:為什么中國沒有這樣的產(chǎn)品?及至國內(nèi)大模型井噴而出,又有評(píng)論認(rèn)為,其中技術(shù)水平的差距甚大。如今再看,并不屬實(shí)。OpenAI最初的光芒過于耀眼,連谷歌等也成為其“亂拳”下被打死的老師傅,這樣的評(píng)價(jià)并不公允。
簡單回顧AI的發(fā)展歷程,即可發(fā)現(xiàn),中國從未錯(cuò)過關(guān)鍵時(shí)刻。
按AI的世界發(fā)展史,目前共有四個(gè)階段。第一階段是上世紀(jì)50年代,美國提出AI概念,研發(fā)多層感知機(jī)。中國并未參與這一階段,不過,多層感知機(jī)后被證實(shí)“毫無用處”,但它奠定了一些機(jī)器學(xué)習(xí)概念。
第二階段,上世紀(jì)80年代,“AI教父”之一辛頓等人提出“反向傳播”這一訓(xùn)練機(jī)器的方法。中國也在這一時(shí)期介入AI,1986年,國務(wù)院通過《國家高技術(shù)研究發(fā)展計(jì)劃綱要》,這一系列計(jì)劃被稱為“863”計(jì)劃,其中,“863-306”代表智能計(jì)算機(jī)主題。
“863-306”是中國AI的搖籃,也是曙光、科大訊飛、中科星圖、寒武紀(jì)等一大批高技術(shù)公司的源頭。國內(nèi)目前AI行業(yè)中的領(lǐng)軍人物也多與此計(jì)劃有關(guān)。
第三階段,上世紀(jì)90年代,“神經(jīng)網(wǎng)絡(luò)”大行其道。第四階段,就是從2010年至今的這一時(shí)期。大模型的概念,就來自第四階段。
細(xì)看第四階段。
首先是“AI教母”李飛飛,其和團(tuán)隊(duì)制作了一個(gè)大規(guī)模的圖像數(shù)據(jù)集,取名ImageNet,其中包含了數(shù)百萬張有標(biāo)記的高分辨率圖像,極大促進(jìn)了CV(計(jì)算機(jī)視覺)發(fā)展。
2012年,AlexNet在當(dāng)年的ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)中取得了顯著成績,大幅超越了傳統(tǒng)的機(jī)器學(xué)習(xí)方法。自此,卷積神經(jīng)網(wǎng)絡(luò)(CNN)成為主流架構(gòu)。
這一時(shí)期,CV的高速發(fā)展孕育出中國的“AI四小龍”,商湯、曠視、依圖、云從。已故的前商湯科技董事長湯曉鷗,在2014年3月發(fā)布GaussianFace人臉識(shí)別算法,在LFW數(shù)據(jù)庫上準(zhǔn)確率達(dá)98.52%,在全球首次突破人眼識(shí)別能力。
CV狂飆的同時(shí),自然語言處理(NLP)乏善可陳,轉(zhuǎn)折點(diǎn)的推動(dòng)者是谷歌。2016年,谷歌提出如今取代了CNN的新架構(gòu)Transformer。在此基礎(chǔ)上,谷歌在2018年推出預(yù)訓(xùn)練模型BERT。
不同于公眾,從2018年起,AI業(yè)內(nèi)人士就意識(shí)到了“大事發(fā)生”。
接下來,交接棒到了OpenAI手里。在“老師傅”谷歌的框架和“預(yù)訓(xùn)練”思路上,OpenAI開始它的暴力美學(xué),并在2020年推出1750億參數(shù)的大模型GPT-3。
在OpenAI之前,沒有科研人員想過堆算力、堆參數(shù),也沒人想到“暴力”堆出的大模型會(huì)出現(xiàn)“涌現(xiàn)智能”,也就是模型的能力可泛化,從而脫離專用思路。
這一時(shí)期,“中國隊(duì)”沒有落下。從“大煉模型”到“煉大模型”,在五道口的智源研究院內(nèi),研究者的目光始終追隨。2021年3月,智源推出中國第一個(gè)系列大模型,因“五道口”的諧音,取名“悟道”。
GPT-3出現(xiàn)的2020年,即是AI業(yè)內(nèi)研究轉(zhuǎn)向的分水嶺,也是OpenAI風(fēng)格轉(zhuǎn)變的節(jié)點(diǎn)。自那以后,OpenAI收起了所有與訓(xùn)練大模型有關(guān)的數(shù)據(jù)、技術(shù)文檔更新,每當(dāng)發(fā)布新產(chǎn)品,都只有可憐的技術(shù)簡介與幾張PPT,逐漸成為被嘲諷的“CloseAI”。
后來的事大家都清楚了,OpenAI的確憋了個(gè)大招。
自2022年11月底發(fā)布ChatGPT,OpenAI將大模型或說AGI,從研究室?guī)У搅斯娝诘默F(xiàn)實(shí)生活,一時(shí)風(fēng)光無限,將內(nèi)功深厚的“老師傅”們統(tǒng)統(tǒng)打趴下。2023年的“百模大戰(zhàn)”,始終是在山姆·奧特曼活躍的陰影之下。
“老師傅”們自然不服輸,比OpenAI更新的勢力也在尋求出頭,AI生態(tài)仍在劇烈地洗牌。
海外市場,最引人注目的是OpenAI的“二叛逆”創(chuàng)辦的AI公司Anthropic。今年6月,Anthropic發(fā)布AI模型Claude 3.5 Sonnet,在多個(gè)關(guān)鍵指標(biāo)上“反超”ChatGPT,新的交互方式“Artifacts”廣受好評(píng),社媒X上的許多技術(shù)博主號(hào)召“逃離ChatGPT”。
谷歌動(dòng)作頻頻,從Bard、Gemma到Gemini,一個(gè)個(gè)模型排隊(duì)上場,打不過就“換名”再來。不說反超了OpenAI,至少谷歌最重要的搜索市場,如今還是固若金湯。
Meta走的路子更野,其核心大模型Llama系列,盡數(shù)開源,如今已是全球開源類AI生態(tài)位中的第一名。新的Llama3.1(405B)更是在指標(biāo)上對(duì)齊了GPT-4,憑借開源生態(tài),有望成為新王。
放眼國內(nèi),AI各個(gè)生態(tài)位中,選手摩肩接踵,品類齊備。以“出身”為別,可以分為三類:一類是AI初創(chuàng),有智譜、月之暗面、MiniMax、百川智能等;一類是大廠出身,如百度文心、阿里通義、騰訊混元、字節(jié)豆包等;一類是研究型機(jī)構(gòu)的大模型產(chǎn)品,如智源等。
“血戰(zhàn)”在所難免,不必忙于封神。如前文所說,AI的時(shí)代才剛剛開啟。
故事仍要從OpenAI講起,如今,它的尷尬之處在于,“期貨”與“現(xiàn)貨”之間的落差太大。
OpenAI的“期貨”,如Sora,如GPT4o的新語音交互,在推出時(shí)總是刷屏網(wǎng)絡(luò),讓人以為“未來已來”。Sora生成的電影質(zhì)感小視頻仍歷歷在目,GPT4o的語音交互儼然《Her》中的阿曼達(dá);可惜,仍停留在“發(fā)布會(huì)階段”。
比起科幻未來,OpenAI的“現(xiàn)貨”很骨感。7月18日,OpenAI終于推出的新東西是“GPT-4o mini”,一個(gè)入門級(jí)別的AI模型,號(hào)稱“功能最強(qiáng)、性價(jià)比最高的小參數(shù)模型”。
按慣例,OpenAI沒有公開新模型的參數(shù)量,不過,目前小模型參數(shù)大都在1.5B到13B。OpenAI強(qiáng)調(diào)它的“廉價(jià)”:每百萬個(gè)輸入Token為15美分(約合人民幣 1.09 元),每百萬個(gè)輸出Token為60美分(約合人民幣4.36元)。這一價(jià)格相較GPT-3.5 Turbo便宜超 60%。
是的,OpenAI也必須加入“價(jià)格戰(zhàn)”,加入當(dāng)下最實(shí)際的端側(cè)模型賽道來了?!拔磥怼迸c“理想”,都得放放。
業(yè)內(nèi)關(guān)注OpenAI出了什么問題,本質(zhì)上,就是在關(guān)注AI大模型的發(fā)展會(huì)出現(xiàn)什么問題。
一般認(rèn)為,驅(qū)動(dòng)大模型發(fā)展的三要素,分別是算法(人才)、算力和數(shù)據(jù)。不過,三要素真正形成驅(qū)動(dòng)力,還需滿足一個(gè)前提,即“Scaling Law”(縮放法則)依然有效。
“Scaling Law”是指,大模型的能力隨著參數(shù)的增加、訓(xùn)練數(shù)據(jù)的增加而增加。這就是OpenAI的“暴力美學(xué)”,倡導(dǎo)大力出奇跡。
盡管OpenAI自GPT-3以后不再公開模型參數(shù)量,但業(yè)界普遍的推斷是,GPT-4的參數(shù)量有1.8萬億(1800B)。而人腦中有10萬億神經(jīng)元,這一跨界而來的數(shù)據(jù),給很多AI從業(yè)者以“Scaling Law”仍有突破空間的信心。
但現(xiàn)在,越來越多模型趕上GPT-4的水平,依然不見GPT-5的發(fā)布,是不是“Scaling Law”已經(jīng)遇到瓶頸?
另有觀點(diǎn)認(rèn)為,OpenAI不推新品,并非Scaling Law失效,可能是因?yàn)槭詹换爻杀?。昆侖萬維董事長兼CEO方漢在今年5月曾說:“根據(jù)我得到的消息,OpenAI已經(jīng)訓(xùn)出來了(GPT-5),也不是能力不行,但是它現(xiàn)在沒有把握在工程上把這個(gè)東西效益最大化?!?/p>
換言之,當(dāng)前AI仍沒有找到合適的場景變現(xiàn)。如Sora,可能技術(shù)已經(jīng)達(dá)標(biāo),但成本太高,不適合大范圍地推廣。
智能上限和應(yīng)用場景,是當(dāng)前大模型公司的兩個(gè)焦慮源泉。這一點(diǎn)上,中美公司殊途同歸。
智能上限的方面,“暴力美學(xué)”的上限仍未見頂,但與此同時(shí),“知識(shí)密度”被看作未來大模型新的智力增長曲線。
該概念由智源出身、現(xiàn)面壁智能創(chuàng)始人劉知遠(yuǎn)提出,由此出發(fā),其提出“AI時(shí)代的摩爾定律”為,平均每8個(gè)月,大模型的知識(shí)密度提升一倍。
該路徑下,擴(kuò)大參數(shù)不再是唯一解,小模型也能有大能力。這正是主打性價(jià)比的GPT4o Mini提倡的,面壁為其的誕生發(fā)文稱,“歡迎一起Mini”。
在尋找AI落地場景方面,國內(nèi)大模型公司明顯更具優(yōu)勢。
首先,國內(nèi)大模型較早地、更專注于做垂直的基礎(chǔ)大模型。這似乎是從中國第一個(gè)大模型系列“悟道”而生的一種傳統(tǒng),“悟道1.0”包含“文源”“文瀾”“文匯”“文溯”四個(gè)模型,各有專攻。再到華為,今年6月發(fā)布的盤古大模型5.0,包含盤古自然語言大模型、多模態(tài)大模型、視覺大模型、預(yù)測大模型、科學(xué)計(jì)算大模型等。
其次,國內(nèi)對(duì)新技術(shù)的接受度一向較高,“AI+”的風(fēng)潮已吹向各行各業(yè),這在日常生活中就能感受到,無須列舉。
最后也最重要的是,中國本土強(qiáng)大且完備的制造業(yè)供應(yīng)鏈,能夠提供給AI更多的空間。
以自動(dòng)駕駛為例,中國市場的新能源汽車滲透率已接近過半,“下半場”的智能化已經(jīng)開打,以大模型為基礎(chǔ)的“端到端”新一代智駕技術(shù),如今在中國已有多家公司研發(fā)并開始上車試驗(yàn)。而在美國,僅有特斯拉一家。
依托制造業(yè),中國對(duì)新技術(shù)的吸收和開發(fā)速度極為靈敏。這是中國大模型公司相比美國同行的一大優(yōu)勢。AI時(shí)代的序幕拉開后,真正的決戰(zhàn)戰(zhàn)場必在于此。