王杰夫
GPT-5到來前夜,中美這兩個生成式AI強國都進入了同質(zhì)化競爭。
5月21日,阿里云宣布旗下9款大模型降價。其中,對標GPT-4的主力模型通義千問Long的API輸入價格從20元/百萬tokens降至0.5元/百萬tokens,降幅達97.5%,這意味著花1元錢就能夠向這個模型輸入約150萬字的內(nèi)容,相當于1.5本《紅樓夢》—花同樣的錢只能向GPT-4輸入不到4000字,甚至不夠一篇短篇小說。通義千問Long并不是阿里云最強大的模型,不過比它更強大的通義千問Max模型也降價了67%。
阿里云降價的消息發(fā)布不到4個小時,百度立刻作出了反應,宣布文心Speed和文心Lite兩款模型免費,且同樣立即生效。文心Speed和文心Lite都是百度今年3月才發(fā)布的最新模型,它們都屬于輕量級模型,以響應速度見長。
這場價格戰(zhàn)最早由一個名叫DeepSeek(深度求索)的初創(chuàng)大模型公司于5月6日發(fā)起。這家公司此前幾乎不在投資人和開發(fā)者視野內(nèi),它其實是由一家私募基金幻方量化低調(diào)孵化出來的。不過當它將其對標GPT-4的模型DeepSeek-V2的輸入價格定為1元/百萬tokens,第一張多米諾骨牌倒下了,智譜AI的GLM-3-Turbo模型、字節(jié)跳動的豆包大模型,以及阿里巴巴的通義系列模型都將百萬tokens的輸入價格從100元左右降至了1元左右。
這場來自大多數(shù)人視野外的公司挑起的價格戰(zhàn)表明,中國在大語言模型(LargeLanguageModels,LLMs)領域的競爭正變得越來越同質(zhì)化。
2023年年初,不少創(chuàng)業(yè)者和投資人有兩個共識:其一,只要努力追趕,中國大模型公司可以在差不多一年左右的時間里趕上GPT-3.5的水平;其二,生成式AI這項技術并非那么容易掌握,因此它不會變成上一輪AI浪潮中的圖像識別那樣的技術—幾乎每家公司都能掌握。比如,百川智能創(chuàng)始人王小川就曾對「新皮層」稱,生成式AI更接近于搜索引擎級別的技術,只有少數(shù)公司能夠掌握,而不是圖像識別級別。如今,第一個共識變成了現(xiàn)實,第二個則幾乎被推翻。
降價的故事在美國也同樣發(fā)生了。5月13日發(fā)布GPT-4o的同時,OpenAI也將新模型的API價格調(diào)低了50%,每百萬tokens的輸入價格降至5美元(約合35元人民幣)。不過,這一降價行為更多是為了多模態(tài)和端側之戰(zhàn)。
5月13日和14日,OpenAI和Google相隔24小時前后腳地發(fā)布了各自的最新多模態(tài)模型和產(chǎn)品—GPT-4o和Astra。兩個模型都能實時地通過攝像頭看到和理解外部世界,并與人隨時口語交流。其中,GPT-4o還能靈敏地覺察你的語氣,并隨時根據(jù)要求變換音調(diào),甚至以歌劇式的音色唱出一個睡前故事。重要的是,這種交互的延遲已經(jīng)下降到了320毫秒(即0.32秒),人耳幾乎察覺不到。
數(shù)據(jù)來源:各公司官網(wǎng)
緊接著,微軟也在Google發(fā)布會結束不到一周舉辦了自己的發(fā)布會,直接將GPT-4o加載到其筆記本電腦中,推出AIPC,這款電腦號稱具有“Recall”(回憶)功能,能夠通過不斷截取用戶的電腦屏幕來記住和理解用戶在電腦上做的一切。這個功能不是什么新玩意,2020年,曾在Google擔任產(chǎn)品經(jīng)理的DanSiroker就開發(fā)了一個叫Rewind(倒帶)的應用,它會以2秒/幀的頻率截屏用戶在Mac和iPhone上看到的所有內(nèi)容,用戶可以事后通過AI搜索這些內(nèi)容。這家公司目前估值3.5億美元。
雖然形態(tài)不同,GPT-4o、Astra和Recall的目標其實是同一個,用筆記軟件Evernote的創(chuàng)始人斯捷潘·帕奇科夫(StepanPachikov)的話說,它們都想成為用戶的“第二大腦”—看用戶所看、聽用戶所聽、和用戶同步思考,然后在用戶需要交流時聊上幾句。這種設備早在1945年就有一位叫萬尼瓦爾·布什(VannevarBush)的美國工程師構想過,他設想了一種比桌面電腦更為激進的設備—Memex,它能被戴在額頭上,通過微型相機與語音轉(zhuǎn)文本機器來記錄、構建個人知識庫,事后人們還能瀏覽這個知識庫。歷史上,布什所構想的Memex從未被真正實現(xiàn)過。
現(xiàn)在是與Memex被構建出來距離最為接近的時刻。如果GPT-4o、Astra能成功進入端側設備,學習用戶能接觸到的一切信息—從設備內(nèi)部到設備外部—就能創(chuàng)造出真正的個人助理,而非GPT、Gemini、Copilot那樣的通用助手。
可能過不了多久,我們就會看到大量AI設備上市,形態(tài)種類大大超過移動互聯(lián)網(wǎng)時代。Google已經(jīng)在重新探索開發(fā)一款智能眼鏡,以及將Astra植入其中的可能性。外界猜測,已于去年3月15日暫停銷售的GoogleGlass項目可能重啟。為筆記本電腦開發(fā)的“Rrecall”功能則表明微軟也不甘落后。它們一個要守住移動端,一個要守住桌面端。OpenAI還不曾開發(fā)硬件,不過,它也通過一則短視頻展示了將GPT-4o加載到智能手機中后它如何為盲人導航的奇妙用途。
更低的計算價格對生成式AI應用大爆發(fā)是好事,但它是個必要條件,而非充分條件。一個降價的GPT-4o要比降價的GPT-3.5更能令應用市場繁榮。