一、DeepSeek的一般情況
(一)DeepSeek是誰(shuí)
DeepSeek成立于2023年,公司位于中國(guó)杭州,由前對(duì)沖基金幻方(High-Flyer Quant)的領(lǐng)導(dǎo)者梁文峰創(chuàng)立。DeepSeek的主要特點(diǎn)是基于開(kāi)源模型和提供低推理成本的技術(shù)。
DeepSeek聚集了一支年輕、技術(shù)技能出色的團(tuán)隊(duì),其核心目標(biāo)是推動(dòng)通用人工智能(AGI),并以透明和開(kāi)源的方式進(jìn)行研究,同時(shí)強(qiáng)調(diào)通過(guò)低成本的技術(shù)使先進(jìn)的人工智能(AI)更容易獲取。
(二)DeepSeek的成就
DeepSeek在模型開(kāi)發(fā)上采用了混合專家架構(gòu)(MoE)等先進(jìn)算法,這有助于節(jié)省顯存資源,并提高底層算力的使用效率。這種技術(shù)思路在DeepSeek-V2中已經(jīng)得到驗(yàn)證。
公司通過(guò)開(kāi)源其模型和相關(guān)技術(shù),允許更多的AI團(tuán)隊(duì)基于這些最先進(jìn)且成本最低的技術(shù)開(kāi)發(fā)新的應(yīng)用。
DeepSeek-R1是公司推出的一款模型,在短時(shí)間內(nèi)登頂蘋果美國(guó)區(qū)應(yīng)用商店免費(fèi)App下載排行榜,并在中國(guó)區(qū)也取得了領(lǐng)先的位置。
該模型在多個(gè)領(lǐng)域(如文本創(chuàng)作、代碼生成等)達(dá)到了與OpenAI相當(dāng)?shù)乃?,但成本僅為OpenAI模型費(fèi)用的一小部分。
DeepSeek的突出功能之一是其令人難以置信的非常低的API調(diào)用價(jià)格,使高級(jí)AI更容易訪問(wèn)。例如,DeepSeek-R1的起價(jià)每百萬(wàn)輸入Token為0.55美元、每百萬(wàn)輸出Token為2.19美元,這一價(jià)格遠(yuǎn)低于OpenAI或其他美國(guó)AI實(shí)驗(yàn)室的產(chǎn)品。
(三)DeepSeek引起的市場(chǎng)轟動(dòng)
DeepSeek的成功可能會(huì)促使OpenAI和其他美國(guó)供應(yīng)商降價(jià)以保持現(xiàn)有的領(lǐng)先地位。如果更高效的模型能夠以少得多的支出參與競(jìng)爭(zhēng),那么人們就會(huì)質(zhì)疑Meta和微軟等公司的巨額支出,他們分別承諾在2025年將至少650億美元主要投入在AI基礎(chǔ)設(shè)施上這一資本支出。
DeepSeek在全球市場(chǎng)掀起風(fēng)浪,阿斯麥、英偉達(dá)等之前受益于AI服務(wù)需求欣欣向榮的股票大跌,而科大訊飛等與DeepSeek相關(guān)的中國(guó)股票則出現(xiàn)上漲。
1月27日,納斯達(dá)克100指數(shù)期貨跌幅擴(kuò)大至5%,標(biāo)普500指數(shù)期貨下跌3%。歐洲方面,科技股領(lǐng)跌,芯片設(shè)備制造商阿斯麥控股下跌11%,Cboe波動(dòng)率指數(shù)(VIX)走高。如果此番跌勢(shì)維持,納斯達(dá)克100和歐洲斯托克600科技股指數(shù)所蒸發(fā)的市值總額將達(dá)大約1.2萬(wàn)億美元。
“DeepSeek的成功顯示出開(kāi)發(fā)成本較低的強(qiáng)大AI模型是可能的,”瑞士聯(lián)合私立銀行(Union Bancaire Privee)董事總經(jīng)理Vey-Sern Ling表示,“這可能會(huì)沖擊目前由少數(shù)科技巨頭高額支出來(lái)驅(qū)動(dòng)整個(gè)AI供應(yīng)鏈的投資邏輯?!?/p>
(四)DeepSeek的創(chuàng)新
DeepSeek-V3和DeepSeek-R1都利用了混合專家架構(gòu)(MoE),該架構(gòu)僅激活其6710億個(gè)參數(shù)中的一個(gè)子集??梢园阉胂蟪刹渴饠?shù)百名專業(yè)的微觀專家,在需要他們的技能時(shí)介入。這種設(shè)計(jì)確保了計(jì)算效率,同時(shí)保持了高模型質(zhì)量。
DeepSeek采用純強(qiáng)化學(xué)習(xí)(RL)方法,進(jìn)一步使其與眾不同。這些模型通過(guò)連續(xù)的反饋回路自主學(xué)習(xí)和改進(jìn),實(shí)現(xiàn)自我校正和適應(yīng)性,這種機(jī)制顯著提高了其解決問(wèn)題的能力,特別是對(duì)于需要深入推理和邏輯分析的任務(wù)。
除了MoE,多頭潛在注意力機(jī)制(MLA)提高了模型同時(shí)處理多個(gè)數(shù)據(jù)流的能力。通過(guò)將焦點(diǎn)分布在幾個(gè)“注意力”頭上,可以更好地識(shí)別上下文關(guān)系并處理細(xì)微的輸入,即使在處理單個(gè)請(qǐng)求中的數(shù)萬(wàn)個(gè)Token時(shí)也是如此。
(五)用戶評(píng)價(jià)
用戶對(duì)DeepSeek-R1的高度評(píng)價(jià)主要集中在其思考過(guò)程的細(xì)膩性、自洽性和全面性上,它能夠提供深度和細(xì)節(jié)豐富的輸出。
一些用戶也指出了DeepSeek在某些方面的“用力過(guò)猛”,如生成過(guò)于復(fù)雜的語(yǔ)言或不適當(dāng)?shù)挠迷~,特別是針對(duì)特定受眾(如兒童)的內(nèi)容。
DeepSeek面臨的技術(shù)挑戰(zhàn)包括如何進(jìn)一步優(yōu)化模型的性能、降低成本的同時(shí)保持高效率,以及克服可能存在的幻覺(jué)和偏差問(wèn)題。
DeepSeek公司正在專注于增強(qiáng)其“DeepThink+Web”搜索的功能,以實(shí)現(xiàn)實(shí)時(shí)在線查找能力。此外,還考慮開(kāi)發(fā)針對(duì)特定行業(yè)的定制化模型,以及建立全球合作伙伴關(guān)系。
二、關(guān)于DeepSeek影響的分析
與DeepSeek基本信息相對(duì)的,是其所產(chǎn)生的巨大影響。這些影響中有哪些是短期性的,哪些可能是長(zhǎng)期性的?
(一)對(duì)中美戰(zhàn)略競(jìng)爭(zhēng)的影響:“星際之門”計(jì)劃
DeepSeek對(duì)中美戰(zhàn)略競(jìng)爭(zhēng)的影響,首先表現(xiàn)在對(duì)美國(guó)“星際之門”計(jì)劃(the Stargate project)的影響。2025年1月22日,美國(guó)總統(tǒng)特朗普在白宮新聞發(fā)布會(huì)上宣布啟動(dòng)“星際之門”計(jì)劃。這一計(jì)劃被稱為“21世紀(jì)AI時(shí)代的‘星球大戰(zhàn)’計(jì)劃”。
“星際之門”計(jì)劃由軟銀、OpenAI、甲骨文等科技巨頭聯(lián)合推動(dòng),注資高達(dá)5000億美元。該計(jì)劃旨在建設(shè)先進(jìn)的數(shù)據(jù)中心和配套基礎(chǔ)設(shè)施,以支持人工智能技術(shù)的快速發(fā)展,預(yù)計(jì)在未來(lái)四年內(nèi)完成。
DeepSeek出現(xiàn)后,一個(gè)顯而易見(jiàn)的疑問(wèn)是美國(guó)耗費(fèi)5000億美元的計(jì)劃所完成的工作。中國(guó)人難道不能用500億美元甚至更低的成本完成,乃至做得更好嗎?這樣一來(lái),“星際之門”計(jì)劃還有意義嗎?因此特朗普評(píng)價(jià)道,DeepSeek的問(wèn)世是一記“警鐘”。
DeepSeek對(duì)“星際之門”計(jì)劃的影響主要體現(xiàn)在技術(shù)競(jìng)爭(zhēng)、市場(chǎng)情緒、政策與戰(zhàn)略調(diào)整等方面。
首先,技術(shù)競(jìng)爭(zhēng)方面,DeepSeek憑借其低成本、高性能的技術(shù)優(yōu)勢(shì),給AI行業(yè)帶來(lái)了新的競(jìng)爭(zhēng)格局?!靶请H之門”計(jì)劃的參與者可能會(huì)重新評(píng)估投資策略和技術(shù)方向,思考是否有更高效低成本的方式實(shí)現(xiàn)目標(biāo)。例如,原本計(jì)劃大量投入算力資源的企業(yè)可能會(huì)因DeepSeek的出現(xiàn)而調(diào)整策略,這增加了美國(guó)在人工智能領(lǐng)域的技術(shù)競(jìng)爭(zhēng)壓力。
其次,市場(chǎng)情緒方面,DeepSeek的發(fā)展吸引了市場(chǎng)的關(guān)注,使得投資者對(duì)高成本AI相關(guān)項(xiàng)目產(chǎn)生了懷疑。DeepSeek的市場(chǎng)預(yù)期和成本估值,會(huì)吸引更多投資者關(guān)注。
最后,政策與戰(zhàn)略調(diào)整方面,DeepSeek的成功表明中國(guó)科研團(tuán)隊(duì)在有限條件下通過(guò)創(chuàng)新實(shí)現(xiàn)了彎道超車,這可能會(huì)促使美國(guó)政府重新評(píng)估“星際之門”計(jì)劃的可行性和成本效益,進(jìn)行政策與戰(zhàn)略上的調(diào)整。
此外,拋開(kāi)成本不說(shuō),馬斯克質(zhì)疑“星際之門”計(jì)劃的融資情況。這一計(jì)劃似乎沒(méi)有與馬斯克很好溝通。馬斯克在社交平臺(tái)發(fā)文說(shuō),“他們實(shí)際上沒(méi)有錢”“軟銀能確保的資金遠(yuǎn)低于100億美元”。這是暗指軟銀去年負(fù)債3.8萬(wàn)億日元。馬斯克還曾表示他“不信任”O(jiān)penAI的奧特曼。
美國(guó)《外交政策》(Foreign Policy)上的文章《DeepSeek揭示了美中競(jìng)爭(zhēng)的未來(lái)》(What DeepSeek revealed about the future of U.S.-China competition)指出,DeepSeek的非凡成功引發(fā)了美國(guó)國(guó)家安全界的擔(dān)憂,他們擔(dān)心美國(guó)最先進(jìn)的AI產(chǎn)品可能再也無(wú)法與中國(guó)更廉價(jià)的替代品競(jìng)爭(zhēng)。文章分析,美國(guó)一直在利用其對(duì)半導(dǎo)體供應(yīng)鏈的控制,限制中國(guó)獲取高端芯片。然而,DeepSeek取得的成功讓一些人開(kāi)始質(zhì)疑,美國(guó)的芯片出口管制是否毫無(wú)作用,甚至適得其反。文章最后指出,如果美國(guó)和中國(guó)的AI模型都存在雙方不確定如何控制的危險(xiǎn)能力的風(fēng)險(xiǎn),那么美國(guó)與中國(guó)領(lǐng)導(dǎo)層就此進(jìn)行溝通則是國(guó)家安全的當(dāng)務(wù)之急[1]。
(二)對(duì)中美科技競(jìng)爭(zhēng)的影響
DeepSeek的問(wèn)世,在科技界眼中,縮短了中美在AI上的差距。
Meta創(chuàng)始人兼CEO扎克伯格表示,DeepSeek非常先進(jìn),并認(rèn)為中美之間的AI差距非常小。
1. 不僅是中美之爭(zhēng)本身,還是開(kāi)源、閉源之爭(zhēng)
圖靈獎(jiǎng)得主、Meta AI首席科學(xué)家YannLeCun在社交媒體上表示:“DeepSeek的成功凸顯了保持AI模型開(kāi)源的價(jià)值,這樣任何人都可以從中受益。這表明開(kāi)源模式正在超越專有模式?!彼J(rèn)為:“當(dāng)人們看到DeepSeek的表現(xiàn),驚呼中國(guó)AI正在趕超美國(guó),但這種解讀有誤。更準(zhǔn)確的結(jié)論是,開(kāi)源模型正在超越閉源系統(tǒng)。[2]”
《福布斯》雜志則指出,DeepSeek的開(kāi)源策略可能重塑全球AI標(biāo)準(zhǔn),推動(dòng)中國(guó)成為開(kāi)源模型的主導(dǎo)者之一?!蹲匀弧冯s志評(píng)價(jià)稱,R1的開(kāi)放性遠(yuǎn)超閉源模型的“黑匣子”特性。
由于美國(guó)公司出于商業(yè)利益,更傾向閉源系統(tǒng),這給利用開(kāi)源系統(tǒng)的中國(guó)公司更多機(jī)會(huì),特別是在打造科技生態(tài)系統(tǒng)方面的機(jī)會(huì),而這是以往中國(guó)相對(duì)于美國(guó)的薄弱環(huán)節(jié)。支持這一看法的事實(shí)是,DeepSeek因開(kāi)放吸引了開(kāi)發(fā)界的熱烈響應(yīng),很短時(shí)間內(nèi)就衍生出600多個(gè)應(yīng)用。當(dāng)然,國(guó)內(nèi)科技界也有人對(duì)此持懷疑態(tài)度,主要是基于以往的開(kāi)源往往在應(yīng)用中被當(dāng)作自主技術(shù)保守(偽開(kāi)源)的歷史。
DeepSeek目前還沒(méi)有完全商業(yè)化,一旦商業(yè)化,將面臨如何處理技術(shù)開(kāi)放與商業(yè)模式開(kāi)放的關(guān)系的問(wèn)題。如果處理得好,如將基礎(chǔ)業(yè)務(wù)與增值業(yè)務(wù)充分分開(kāi),形成互補(bǔ),那么中國(guó)在這方面將形成對(duì)美國(guó)的優(yōu)勢(shì)。當(dāng)然,中國(guó)如果在打造包容技術(shù)與商業(yè)開(kāi)放的制度環(huán)境(如反壟斷政策環(huán)境)方面落后于美國(guó),也會(huì)使技術(shù)與商業(yè)上的優(yōu)勢(shì)化為烏有。
2. DeepSeek對(duì)巨頭的挑戰(zhàn)
DeepSeek現(xiàn)在儼然具有了當(dāng)年U盤替代軟驅(qū)那種“同等功能、巨大價(jià)差”的以小博大的勢(shì)頭。DeepSeek的崛起對(duì)現(xiàn)有的AI巨頭如OpenAI、Meta等構(gòu)成了挑戰(zhàn),促使他們重新評(píng)估成本、戰(zhàn)略和研究方法。
一是通過(guò)開(kāi)源策略和低成本技術(shù),DeepSeek為小型企業(yè)、研究人員和開(kāi)發(fā)者提供了新的機(jī)遇。一旦形成良好開(kāi)發(fā)生態(tài),有可能重現(xiàn)當(dāng)年谷歌取代雅虎的歷史。DeepSeek目前已進(jìn)入搜索技術(shù)領(lǐng)域,這要求百度打起十二分的精神來(lái)應(yīng)對(duì),懈怠就意味著出局。
二是隨著用戶采用率的增加和市場(chǎng)對(duì)AI能力需求的增長(zhǎng),DeepSeek有望繼續(xù)在AI領(lǐng)域發(fā)揮顛覆性作用。公司可能會(huì)進(jìn)一步優(yōu)化模型性能、加強(qiáng)與硬件供應(yīng)商的合作,并開(kāi)發(fā)針對(duì)特定行業(yè)領(lǐng)域的定制化解決方案。
DeepSeek是通過(guò)開(kāi)源技術(shù)、低成本策略和創(chuàng)新算法推動(dòng)人工智能發(fā)展的中國(guó)初創(chuàng)企業(yè),其成功不僅體現(xiàn)在市場(chǎng)表現(xiàn)上,還在于對(duì)AI社區(qū)的影響力,以及為小型企業(yè)和開(kāi)發(fā)者提供的新機(jī)遇。隨著未來(lái)的發(fā)展,DeepSeek有望在AI領(lǐng)域持續(xù)產(chǎn)生重大影響,并可能引領(lǐng)下一波變革性突破。同時(shí),也要看到,DeepSeek的出現(xiàn)在中國(guó)不是偶然的。中國(guó)還有一批潛在的同類技術(shù)和公司即將浮出水面,包括阿里團(tuán)隊(duì)、李飛飛(華人)團(tuán)隊(duì)都已提出了初步的成果,共同推動(dòng)AI的改朝換代。
3. DeepSeek對(duì)投資的影響
DeepSeek的初步成功,引發(fā)了人們對(duì)OpenAI、微軟和其他公司所追求的投資計(jì)劃的重大質(zhì)疑。
首先對(duì)OpenAI來(lái)說(shuō),DeepSeek以極低的成本實(shí)現(xiàn)極高性能,讓人們對(duì)OpenAI投資回報(bào)能力產(chǎn)生懷疑。
企業(yè)家兼評(píng)論員Arnaud Bertrand將DeepSeek節(jié)儉、分散的創(chuàng)新,與OpenAI等其他開(kāi)發(fā)商對(duì)集中、資源密集型基礎(chǔ)設(shè)施的依賴,進(jìn)行了對(duì)比。
結(jié)果發(fā)現(xiàn),打造一個(gè)世界水平AI模型,只需要投入巨頭一個(gè)高管的年薪就可以做到,巨頭動(dòng)輒養(yǎng)著十幾個(gè)、幾十個(gè)這種價(jià)位的高管的合理性,就會(huì)遭到投資人普遍質(zhì)疑,甚至?xí)a(chǎn)生受騙的感覺(jué)。
可以想見(jiàn),巨頭內(nèi)部現(xiàn)在慌作一團(tuán),即使為了保住工資,也有動(dòng)機(jī)趕緊向投資人證明DeepSeek的種種不是。但問(wèn)題是,如果與DeepSeek類似的小公司成批涌現(xiàn)時(shí),想通過(guò)栽贓和甩鍋來(lái)擺脫困境,將不會(huì)有效。
當(dāng)然,有一點(diǎn)現(xiàn)在還看不清楚,這就是DeepSeek本身的資本模式。這家公司出身對(duì)沖基金。在DeepSeek這個(gè)案例中,對(duì)沖基金對(duì)AI的投入(包括包裝與炒作)是可以看清的;但AI的產(chǎn)出和商業(yè)化現(xiàn)在還沒(méi)有發(fā)生,將會(huì)怎樣,還有待觀察。一旦演化成一個(gè)金融的故事,就會(huì)存在各種變數(shù)。從投資上,人們期待DeepSeek做實(shí),而不要變成一個(gè)殼。
三、誰(shuí)將取代DeepSeek:從一滴水看AI大海
作為專門研究人工智能的業(yè)內(nèi)人士,還要跳出媒體與資本的喧囂,用平常心冷靜觀察DeepSeek,這樣看出的門道自然有所不同。
(一)冷思考之一:DeepSeek是彎道超車還是換道超車?
人工智能的權(quán)威專家鐘義信教授認(rèn)為,DeepSeek還在傳統(tǒng)軌道的同一個(gè)賽道上,可以評(píng)價(jià)為“在同一個(gè)賽道上,DeepSeek以更優(yōu)秀的技術(shù)超越了GPT o1”。
要看到在同一賽道彎道超車的局限。鐘義信指出,DeepSeek的技術(shù)(主要是算法效率)比GPT更優(yōu)秀,但是,兩者的范式(科學(xué)觀和方法論)是一樣的。具體來(lái)說(shuō),兩者的科學(xué)觀都是把人工智能看作“人工腦”,兩者的方法論都遵循“唯形式化”和“分而治之”。然而,研究人工智能所需要的真正科學(xué)觀,是應(yīng)該把人工智能看作“主體主導(dǎo)下的主體客體相互作用的信息生態(tài)過(guò)程”(即整體論)。
這是DeepSeek熱中的一種冷思考。鐘義信的觀點(diǎn)無(wú)異于認(rèn)為,DeepSeek與其追趕的OpenAI是同類,都是美國(guó)計(jì)算主義同一賽道上的賽手,區(qū)別只是一個(gè)跑了50步,一個(gè)跑了100步。
這與一般業(yè)內(nèi)人士的見(jiàn)解(包括馬斯克的見(jiàn)解)非常不一樣,業(yè)內(nèi)都是看到了開(kāi)放與封閉路線的區(qū)別,看到微軟收購(gòu)OpenAI,使得OpenAI變成了一個(gè)忘記“初衷”的商業(yè)化工具。馬斯克的不滿很大程度也來(lái)自這里,而不是如特朗普認(rèn)為的與“星際之門”計(jì)劃中的某人“有仇”。不過(guò)在這里,鐘義信進(jìn)了一步,直指“初衷”本身存在的局限。
這涉及對(duì)人工智能本質(zhì)的理解,屬于一個(gè)更深的問(wèn)題。現(xiàn)有AI主流堅(jiān)持物質(zhì)學(xué)科范式(強(qiáng)調(diào)客體計(jì)算,缺主體價(jià)值判斷),這是其時(shí)代局限。這種局限在DeepSeek骨子里也有。未來(lái)取代它的,將是信息學(xué)科的范式,即強(qiáng)調(diào)客體與主體統(tǒng)一。從這個(gè)意義上說(shuō),下一步替代DeepSeek們的,將是克服主客二元論的AI新范式,由此開(kāi)啟換道超車。在前沿上,這一趨勢(shì)的苗頭在生成式AI中(如新生成主義,neo-enactivism)隱約可見(jiàn)。本周作出DeepSeek同類成果的李飛飛,其實(shí)就在這條路上,她的野心肯定不止于DeepSeek。
(二)冷思考之二:知還是行?
著名人工智能專家蔡恒進(jìn)對(duì)DeepSeek的成就有一個(gè)獨(dú)特的看法,認(rèn)為DeepSeek對(duì)巨頭的沖擊的意義不只在于成本,而在于模式。
蔡恒進(jìn)說(shuō):“OpenAI現(xiàn)在走的路,就是把算力集中起來(lái),把參數(shù)推上去來(lái)實(shí)現(xiàn)AGI,這實(shí)際上是世界的前景就變成很中心化的AI系統(tǒng),然后這個(gè)系統(tǒng)會(huì)需要大量的資源、能量,還有芯片算力的集中?!倍鳧eepSeek的發(fā)展是分布式計(jì)算的方向,這比業(yè)界一般的“開(kāi)放-封閉”視野多了一個(gè)“集中-分布”角度。
蔡恒進(jìn)同樣主張主客一體的AI新范式,不滿意計(jì)算主義的AI路線,認(rèn)為“我們有人類或者生命的參與、有主觀能動(dòng)性”,要把這種主體性加入計(jì)算的客體性中。他具體提出了“認(rèn)知坎陷說(shuō)”,即一種加入布倫塔諾意向性的認(rèn)知論。對(duì)于AI來(lái)說(shuō),“認(rèn)知坎陷說(shuō)”相當(dāng)于一個(gè)“知難行易”模型。目前計(jì)算主義把重點(diǎn)放在前者(知難),體現(xiàn)為“AI的進(jìn)步都是通過(guò)規(guī)模來(lái)實(shí)現(xiàn)的”“只有堆算力才是成功的”(李德毅院士稱為“暴力計(jì)算”)。他從理查德·薩頓(Richard S. Sutton)的The bitter lesson(可譯為“苦澀的教訓(xùn)”)一文中,引出對(duì)通用算力的質(zhì)疑??洫?jiǎng)DeepSeek“實(shí)際上打破了這個(gè)結(jié)論”“已經(jīng)偏離了那條路線了”,這是指DeepSeek不靠堆GPU而提高性能。蔡恒進(jìn)主張的新方向,把重點(diǎn)放在后者(行易),相當(dāng)于認(rèn)為實(shí)踐是簡(jiǎn)、認(rèn)識(shí)是繁。計(jì)算主義重認(rèn)知、輕實(shí)踐,形成對(duì)通用算力和暴力計(jì)算的迷信。如果把AI的重點(diǎn)從認(rèn)識(shí)轉(zhuǎn)向?qū)嵺`,知行合一,就可以化繁為簡(jiǎn)。用他的話說(shuō),“并不是說(shuō)規(guī)模越大越好,只是說(shuō)在它那個(gè)場(chǎng)景里才能生成”。在走偏到客體方向的AI中加入主體因素的方法是,將算法從認(rèn)識(shí)角度調(diào)整為實(shí)踐角度,變?yōu)閳?chǎng)景的認(rèn)知、具身的認(rèn)知,“只是根據(jù)場(chǎng)景或需要進(jìn)行一定程度的數(shù)字化”。這與李飛飛的具身AI思路有相通之處。為此,“追求用更小的數(shù)據(jù)庫(kù)、更少的語(yǔ)料、更小的系統(tǒng)來(lái)實(shí)現(xiàn)更高的智能,在我看來(lái)才是正確的方向”。人們?cè)谀苄械臅r(shí)候,從不長(zhǎng)篇大論,是因?yàn)橛兄黧w目標(biāo)、意向在指引,將世界化繁為簡(jiǎn)到自己的目的上。
蔡恒進(jìn)看好DeepSeek深度學(xué)習(xí)的方向,尤其是“不用人干預(yù)地強(qiáng)化學(xué)習(xí)”,但是認(rèn)為DeepSeek還可以進(jìn)一步在可持續(xù)的自學(xué)習(xí)這個(gè)方向上改進(jìn)。
(三)冷思考之三:向上與向下兩條曲線
胡延平作為業(yè)內(nèi)資深專家,這輪也沒(méi)有跟著媒體跑,而是得出了獨(dú)立的判斷。他比較冷靜地分析了當(dāng)前形勢(shì),看出大模型的“兩條路線”是向上曲線與向下曲線不同取向的分別,認(rèn)為DeepSeek走在向下曲線的道路上。他說(shuō):“大模型現(xiàn)在是兩條曲線交織的雙螺旋進(jìn)化。向上走的曲線,追求整體感知理解行為能力的通用智能,拼的是整體理解意義上的腦能力、思考和監(jiān)督思考、視覺(jué)在內(nèi)的整體理解,空間智能等現(xiàn)實(shí)模型、物理等科學(xué)模型、多模態(tài)更不在話下。思維鏈、皮層計(jì)算、不同模型原理是當(dāng)下前沿探索的核心。向下走的曲線提升數(shù)據(jù)質(zhì)量、訓(xùn)練意義上的量效比、算力能效比,大幅降低推理成本。DeepSeek在這個(gè)雙螺旋里向下有余向上不足。[3]”
胡延平說(shuō):“向下曲線對(duì)成本效率有改變,但對(duì)捧得AGI圣杯的貢獻(xiàn)可以忽略[4]?!彼J(rèn)為,DeepSeek沒(méi)有展現(xiàn)分毫對(duì)未來(lái)的思考和探索,實(shí)質(zhì)上依然處在追趕階段。DeepSeek不僅屬于古典LLM(大語(yǔ)言模型,Large Language Model)范疇,呈現(xiàn)的其實(shí)還是“性價(jià)比”。
在胡延平看來(lái),DeepSeek主要是對(duì)于合成數(shù)據(jù)、知識(shí)蒸餾、FP8低精度(FT8為一種8位浮點(diǎn)數(shù)格式)、稀疏模型、MoE,甚至包括多頭注意力機(jī)制等“已有已知技術(shù)”進(jìn)行組合,“在資源和性能之間調(diào)優(yōu),取得最佳平衡,這是DeepSeek-V3的成功之處”。當(dāng)然,對(duì)于什么才是值得追求的“AGI圣杯”,仁者見(jiàn)仁,智者見(jiàn)智。
(四)不冷不熱地思考:高性能計(jì)算路線上的兩種走法
我認(rèn)為把DeepSeek當(dāng)作一個(gè)事件看,代表的是高性能計(jì)算思潮的崛起,從中既反映出DeepSeek的成就所在,也自然顯示出其不足。
高性能計(jì)算是與美國(guó)相反的計(jì)算路線,在中國(guó)形成已有近20年歷史。早在上個(gè)世紀(jì),國(guó)家863計(jì)劃就開(kāi)始實(shí)施“國(guó)家高性能計(jì)算環(huán)境”項(xiàng)目。美國(guó)計(jì)算主義的路線無(wú)以為名,可稱為高速度計(jì)算。高速度與高性能的不同,反映技術(shù)與技術(shù)經(jīng)濟(jì)的區(qū)別。技術(shù)不受資源(如GPU)制約時(shí),越快就越好,主要靠上規(guī)模、堆硬件實(shí)現(xiàn);技術(shù)經(jīng)濟(jì)在資源約束(從擔(dān)心系統(tǒng)、芯片“卡脖子”到強(qiáng)調(diào)應(yīng)用)下,強(qiáng)調(diào)性價(jià)比,一個(gè)突出特征是強(qiáng)調(diào)成本。打個(gè)形象的比方,同為轎車,美國(guó)車設(shè)計(jì)不太考慮省油,是因?yàn)槭唾Y源不受限制;而日本車設(shè)計(jì)主要考慮省油,是因?yàn)閾?dān)心石油哪天被斷供。AI也是如此。
高性能計(jì)算路線在中國(guó)有兩種走法,一種是彎道超車,另一種是換道超車。DeepSeek代表的是彎道超車的一支,如專家判斷的,是在美式路線的既定賽道內(nèi),通過(guò)強(qiáng)化成本控制,提供高性價(jià)比的算力。走這條路,時(shí)間在前。DeepSeek只是第一個(gè)冒頭的,最近五年會(huì)是不斷開(kāi)花結(jié)果之時(shí)。
DeepSeek的出現(xiàn)不是偶然的。梁文鋒說(shuō)取得成就是“站在巨人肩膀上”,國(guó)內(nèi)外都誤以為巨人是指巨頭、大廠,其實(shí)不盡然。這個(gè)巨人應(yīng)該說(shuō)主要是中國(guó)科研院校,特別是北大、北郵和清華三校。DeepSeek的140人團(tuán)隊(duì),大多是這三校的應(yīng)屆畢業(yè)生。如果沒(méi)有導(dǎo)師這個(gè)群體,以及國(guó)家高性能計(jì)算環(huán)境的近20年打造,梁文鋒到哪兒去找那么多博士論文成果,連人帶論文都拿來(lái),而且拿來(lái)就可以用,用了就可以超過(guò)美國(guó)巨頭。舉例來(lái)說(shuō),DeepSeek的一個(gè)竅門是重視模型算法和硬件工程的配合,其中的技術(shù)就由這些學(xué)生以DeepSeek-AI的名義發(fā)表在論文Fire-Flyer AI-HPC: A cost-effective software-hardware co-design for deep learning中。其中的HPC,就是高性能計(jì)算high performance computing的縮寫(xiě)。美國(guó)巨頭現(xiàn)在總覺(jué)得自己才是“巨人”,從DeepSeek這個(gè)雞蛋里挑有沒(méi)有自己的骨頭(研究成果)。這些應(yīng)屆生是站在HPC這個(gè)巨人肩膀上成長(zhǎng)起來(lái)的。其實(shí)巨頭們找一下DeepSeek中全部應(yīng)屆畢業(yè)生的畢業(yè)論文,就知道技術(shù)是哪里來(lái)的了。
舉例來(lái)說(shuō),要想了解DeepSeek中不常見(jiàn)的3D生成技術(shù)是從哪兒來(lái)的,到清華大學(xué)檢索一下,可得知是清華博士生孫景翔在DeepSeek實(shí)習(xí)期間,與導(dǎo)師劉燁斌等共同完成的。諸如此類,不勝枚舉。
高性能計(jì)算路線的第二種走法,目前還潛伏在冰山下的大海中,這種走法的特征是換道超車。所謂換道,就是指與美國(guó)主流計(jì)算主義分道揚(yáng)鑣的路線。最大的不同,在于范式。追的時(shí)候是同范式的,超的時(shí)候用的是不同范式。范式的不同,涉及的主要是對(duì)“科學(xué)是什么”的理解有了根本性的分歧。其中的思路,從國(guó)家數(shù)據(jù)空間發(fā)展戰(zhàn)略中可以看到,目前國(guó)家數(shù)據(jù)空間發(fā)展戰(zhàn)略正處在二期工程階段。開(kāi)花結(jié)果,還需要多年以后。應(yīng)該說(shuō),DeepSeek作為中國(guó)應(yīng)屆畢業(yè)生群體的代表作,還沒(méi)有進(jìn)入這個(gè)主力賽道。
DeepSeek包括馬上涌現(xiàn)的大批同行者,作為高性質(zhì)計(jì)算這個(gè)大的中國(guó)思潮的一部分,只看到LLM成本問(wèn)題的表層,即與AI物質(zhì)科學(xué)范式有關(guān)的那一方面。當(dāng)然解決了這方面的問(wèn)題,成就也堪稱偉大。但是,再過(guò)幾年,美國(guó)人就會(huì)領(lǐng)教中國(guó)主力軍團(tuán)的出擊,看到冰山一角下龐大的水下部分。那將是一場(chǎng)范式革命,是從目前的客體范式向未來(lái)的主客體統(tǒng)一范式轉(zhuǎn)變的偉大長(zhǎng)征。我們可以從上面介紹的鐘義信、蔡恒進(jìn)的思想中,從外圍體會(huì)到其中的潮流上的思路。美國(guó)最前衛(wèi)的科學(xué)家也有類似想法,但不成氣候。而在中國(guó),這不是一個(gè)人兩個(gè)人的思想,而是代表整個(gè)群體走向共識(shí)的技術(shù)覺(jué)醒。
參考文獻(xiàn):
[1]Sheehan M,Singer S.What DeepSeek Revealed About the Future of U.S.-China Competition[EB/OL].(2025-02-03)[2025-02-06].https://foreignpolicy.com/2025/02/03/deepseek-china-ai-artificial-intelligence-united-states-tech-competition/?tpcc=recirc_latest062921.
[2]AI范兒.Yann LeCun:DeepSeek的成功得益于Llama[EB/OL].(2025-01-25)[2025-02-06].https://www.163.com/dy/article/JMO6QTVT0556703U.html.
[3]胡延平.為什么DeepSeek-V3的火爆不宜過(guò)高評(píng)價(jià)?[EB/OL].(2025-01-02)[2025-02-06].https://baijiahao.baidu.com/s?id=1820130380860453806amp;wfr=spideramp;for=pc.
[4]胡延平.2025智能世界50震撼預(yù)測(cè)!AI海嘯來(lái)襲,5維度看清AGI與潛在可能[EB/OL].(2025-01-03)[2025-02-06].https://baijiahao.baidu.com/s?id=1820237939915883742amp;wfr=spideramp;for=pc.