2 0 2 5年1月2 0日,深度求索(以下簡稱“DeepSeek”)正式發(fā)布了DeepSeek-R1模型,同步發(fā)布R1模型研究論文并開源模型權重。在生成式人工智能市場沉寂近半年后,DeepSeek-R1再次引發(fā)了新一輪人工智能熱潮。全球互聯(lián)網(wǎng)DeepSeek應用搜索下載量暴增。在資本市場上,美股科技股快速下行,全球市值最大上市公司、人工智能明星企業(yè)英偉達股價一日暴跌近17%,市值蒸發(fā)近6000億美元。
DeepSeek本身也是大語言模型(LLM)的一種,分析其對金融行業(yè)的影響實際上與GPT等先前模型別無二致。然而DeepSeek“低成本高效率”以及在一眾能力相等模型中率先開源的特質(zhì),對人工智能的資本支出以及在其他行業(yè)的更廣泛應用都產(chǎn)生了深遠影響,從這個維度單獨研究DeepSeek的啟示與影響是十分必要的。
Deepseek在發(fā)布R1模型前的一個月,即2024年12月26日,開源了新一代預訓練混合專家(MoE)大模型DeepSeek-V3,彼時引起的討論主要集中在人工智能領域和開源社區(qū)。引入鏈式推理(Chainof-Thought,CoT),著重于強化推理與邏輯能力的DeepSeek-R1展現(xiàn)了對問題的精準理解與強大的思考能力,熱度迅速在全球C端市場引爆。2025年1月27日,面向C端的DeepSeek移動應用在IOS美區(qū)下載榜上超越ChatGPT,登頂中國和美國的App Store免費應用榜。SimilarWeb的數(shù)據(jù)顯示,1月DeepSeek網(wǎng)站訪問量環(huán)比增長22倍,月訪問量達2.78億次。DeepSeek在Google上的搜索量現(xiàn)已達到ChatGPT在美國搜索量的39%,以及ChatGPT全球相對搜索量的21%。根據(jù)QusetMobile發(fā)布的最新數(shù)據(jù),在DeepSeek-R1發(fā)布的一周后,其活躍用戶數(shù)據(jù)首次超越中國活躍用戶最多的大模型——豆包。2月1日,DeepSeek中國活躍用戶突破3000萬。
DeepSeek-R1大火的一個重要原因就是增強推理能力后的能力躍遷,“思考過程比答案還要精準”“水平可以與專業(yè)人士媲美”是用戶對DeepSeek的普遍看法。在DeepSeek官方發(fā)布的技術報告中,DeepSeek-R1對標的是OpenAI在2024年12月17日發(fā)布的最新推理模型o1,其在多個測試集上的數(shù)據(jù)達到甚至超越了o1模型。比起測試集數(shù)據(jù),由用戶進行對比測試形成的機器人競技場排行榜(Chatbot Arena LLM Leaderboard)更客觀公正,DeepSeek的得分也超過了o1。在2月9日最新的機器人競技場排名中,DeepSeek-R1得分位于全球大模型第二名,超過o1,低于谷歌發(fā)布的Gemini(見表1)。值得一提的是,DeepSeek-R1是榜單前十中唯一的開源模型,同時DeepSeek-R1面向所有C端用戶免費提供,相比之下,如果想使用o1模型,需要開通ChatGPT Plus會員使用,價格為20美元/月。
與一年前“百模大戰(zhàn)”中,各家模型廠商均標榜其模型的能力達到甚至超越ChatGPT不同,DeepSeek-R1經(jīng)受住了C端和B端以及專業(yè)用戶的多重考驗。R1發(fā)布當天,多家全球科技公司均開展了模型測試和復現(xiàn)工作。據(jù)外媒報道,Meta內(nèi)部組織了多個團隊復現(xiàn)R1,并對其開發(fā)的LLaMA模型進行升級。Meta CEO扎克伯格在電話會上表示,DeepSeek做了一些“新奇的事情”,公司“仍在消化DeepSeek的一些成果”,團隊希望能夠?qū)⑵渲幸恍┻M步應用到自己的AI項目中。
全球人工智能科技公司也在第一時間上線部署了DeepSeek-V3、R1模型。全球最大的AI搜索引擎Perplexity第一時間上線了R1模型,采用本地化部署的方案。其創(chuàng)始人在接受媒體采訪時表示R1模型可以讓Perplexity以同樣的成本完成更多工作。云服務方面,令人意外的是,國際市場的反應更快,微軟云在1月29日宣布將DeepSeek-R1上線Azure模型庫,并準備將DeepSeek-R1引入Windows系統(tǒng)的Copilot。亞馬遜、谷歌云服務在兩天后也上線了DeepSeek-R1模型。2月,阿里云、騰訊云以及三大運營商陸續(xù)接入DeepSeek系列模型。作為最直接的競爭對手,OpenAI選擇提前放出了在2024年12月發(fā)布會中預發(fā)布的o3系列模型,包含快速進行進階推理的o3-mini和更加擅長編程的o3-mini-high,大幅提前于此前公布的路線圖,同時o3系列兩款模型還同時向付費用戶開放網(wǎng)頁版使用權限。
資本市場的反應更加激烈。當?shù)貢r間2025年1月27日,美股科技股開盤后出現(xiàn)大幅下跌,被稱為AI時代的“基礎設施”的GPU制造商英偉達(NVIDIA)當日股價暴跌約17%,創(chuàng)下美股單日市值蒸發(fā)記錄。博通公司股價下跌17%,超威半導體公司(AMD)股價下跌6%,微軟股價下跌2%。GPU產(chǎn)業(yè)鏈上,臺積電下跌11.7%、ASML下跌5.7%。DeepSeek使用更少的成本、更短的時間達到了花費是其十倍的大模型的輸出效果,引爆了資本市場一直以來對人工智能相關資本開支以及資本回報率的質(zhì)疑。
在大語言模型領域,“規(guī)?;▌t(Scaling Law)”是金科玉律般的存在?!耙?guī)模化法則”是指隨著模型參數(shù)數(shù)量的增加,語言模型的性能通常會以冪律方式改善。如果將模型規(guī)模擴大若干倍,其性能提升雖然呈現(xiàn)遞減邊際效應,但依然可以預測性地獲得更低的困惑度和更好的生成質(zhì)量。在GPT-4以前歷代的GPT更新中,參數(shù)數(shù)量的不斷擴展也被認為是模型性能提升的重要手段,GPT-3擁有1750億參數(shù),據(jù)傳GPT-4的參數(shù)量達到了1.8萬億。
巨大的參數(shù)對算力提出了更高需求,大型科技公司紛紛投入數(shù)十億美元的資本支出用以支持模型訓練和推理,支持大語言模型訓練的GPU也因此成為全球最緊缺的“戰(zhàn)略資源”。大型科技公司將自身擁有的GPU數(shù)量作為人工智能競爭的重要指標,馬斯克成立的x.AI還在美國構(gòu)建了全球最大的由10萬個NVIDIA Hopper GPU組成的Colossus超級計算機集群。根據(jù)斯坦福大學李飛飛團隊發(fā)布的《2024年人工智能指數(shù)報告》,GPT-4的訓練成本超過7800萬美元。而DeepSeek官方公布的數(shù)據(jù)中,DeepSeek-V3的訓練成本僅為557萬美元,是GPT-4的7.1%。
在DeepSeek-V3的技術文檔中,DeepSeek這樣描述計算成本:“最后,我們再次強調(diào) DeepSeek-V3的訓練成本。通過對算法、架構(gòu)和硬件的優(yōu)化協(xié)同設計實現(xiàn)了更加經(jīng)濟的效果。在預訓練階段,訓練DeepSeek-V3每萬億token只需要18萬個H800 GPU小時,即在我們2048個H800 GPU集群上訓練3.7天。因此,我們的預訓練階段在不到兩個月的時間里就完成了,花費了266萬個GPU小時。此外還有11萬GPU小時用于上下文長度擴展和5千GPU小時用于后訓練,DeepSeek-V3的完整訓練成本僅為278萬GPU小時。假設H800 GPU的租賃價格為2美元每GPU小時,我們?nèi)康挠柧毘杀緸?57萬美元(不包含先前對算法、架構(gòu)、數(shù)據(jù)進行實驗的費用)?!?/p>
DeepSeek是如何做到的呢?一是對數(shù)據(jù)處理方式的改進。DeepSeek-V3集成了多頭潛在注意力(Multi-Head Latent Attention,MLA),在推理過程中能夠高效處理海量數(shù)據(jù),并使用的顯存約為同類技術的一半。MLA降低了每次查詢所需的KV緩存量,從而減少了所需硬件資源及相應成本。二是DeepSeek-V3 采用了混合專家(Mixture-ofExperts,MoE)模型架構(gòu)。MoE架構(gòu)首次在OpenAI發(fā)布的GPT-4中應用,此后成為下一代LLM訓練的主要架構(gòu)。在MoE模型中,系統(tǒng)被劃分為多個稱為“專家”的模塊,在推理過程中,一個路由模型會選擇部分專家來預測下一個token。這避免了每次推理中進行全模型計算。DeepSeek-V3的技術文檔中提到,在每次函數(shù)調(diào)用或向前傳播時會調(diào)用的參數(shù)量為370億(37B)。三是DeepSeek-V3首次實現(xiàn)了在低位精度(FP8)下進行超大規(guī)模模型訓練,并通過通信、負載均衡優(yōu)化確保了在大規(guī)模分布式訓練中能夠最大化利用算力。四是在DeepSeek-R1的訓練中,引入了一種稱為群組相對策略優(yōu)化(Group Relative Policy Optimization,GRPO)的強化學習環(huán)節(jié)(RL)優(yōu)化算法。在訓練R1模型時,通過GRPO實現(xiàn)了對生成結(jié)果的自動化評估和強化學習,相較于傳統(tǒng)強化學習中直接偏好優(yōu)化(DPO)依靠人工調(diào)整模型輸出方向,在很大程度上減少了對昂貴人工標注數(shù)據(jù)的依賴。
DeepSeek引發(fā)的科技地震很大程度上也是資本市場對科技公司巨額資本支出質(zhì)疑的爆發(fā)。此前,亞馬遜、微軟、谷歌等云服務廠商紛紛表示2025年將持續(xù)增大人工智能(主要是GPU)采購支出。而產(chǎn)業(yè)界對當前生成式人工智能究竟能產(chǎn)生多大價值始終存在爭議。以高盛為代表的看多派認為生成式人工智能將拉動10%以上的GDP增長,而2024年諾貝爾經(jīng)濟學獎獲得者阿西莫格魯(Acemoglu)則認為人工智能帶來的生產(chǎn)力增長僅為0.5%。
“高性價比”一直是DeepSeek進行模型訓練的重點,早在2024年DeepSeek發(fā)布V2模型之際,就以GPT-4百分之一的價格引發(fā)了年中“AI價格戰(zhàn)”。
經(jīng)濟學中的杰文斯悖論(Jevons paradox)指技術進步提高了使用資源的效率,但因為成本下降導致需求增加,結(jié)果導致資源消耗的速度上升,而非減少。從實際效果上看也確實如此,在DeepSeek官網(wǎng)的API定價中DeepSeekR1的輸入定價為0.6美元/百萬token,是o1-mini的20%,o1的4%;輸出價格為2.2美元/百萬token,是o1-mini的18%,o1的3.6%(見圖1)。面向開發(fā)者的超低價格以及對C端用戶免費的策略在春節(jié)期間吸引了大量用戶使用其API和客戶端,DeepSeek官網(wǎng)應用持續(xù)因線路繁忙無法使用,國內(nèi)DeepSeek的討論度也遠超2023年初ChatGPT發(fā)布之時。從這個意義上說,DeepSeek開啟了國內(nèi)普通用戶的人工智能“啟蒙”時代。
DeepSeek重新分配了人工智能產(chǎn)業(yè)鏈中的價值,也為人工智能提供了一條可持續(xù)發(fā)展之路。在應用端,企業(yè)需要在技術創(chuàng)新和商業(yè)可持續(xù)間找到一條平衡道路,不一定會選擇“最好的模型”,而是要選擇“更經(jīng)濟、合適”的模型。
從長遠看,人們對生成式人工智能的期待在于早日實現(xiàn)通用人工智能(Artificial General Intelligence,AGI)。通過在實體產(chǎn)業(yè)中應用生成式人工智能提高生產(chǎn)效率,乃至AI for Science(在諸如小分子藥物研發(fā)、合成材料等易出現(xiàn)生產(chǎn)力飛躍領域的人工智能應用),是資本市場給出人工智能如此高估值的核心原因。材料學和生物學一直是人工智能應用的前沿領域,在1月美國政府與OpenAI、軟銀、甲骨文共同發(fā)布的星際之門(Stargate)項目中明確提到要使用人工智能提供個性化醫(yī)療,用以研發(fā)mRNA疫苗及定制癌癥疫苗。
隨著大語言模型能力的進步,其應用在實際生產(chǎn)中的場景已開始逐漸增多,對生產(chǎn)關系的影響也開始顯現(xiàn)。微軟表示由于LLM提高了軟件工程師的工作效率,微軟在2025年招聘中將不再新招軟件工程師。瑞銀正在使用人工智能通過即時信貸模式為中小企業(yè)提供貸款。匯豐和紐約梅隆銀行將生成式人工智能應用于反欺詐領域。
“規(guī)?;▌t”依舊是提高大模型性能的最有效方法。DeepSeek實現(xiàn)的是更高效率,而非挑戰(zhàn)“規(guī)模化法則”。因此在未來一段時間內(nèi),市場對算力的需求將依舊保持強勁,科技公司的資本投入也將持續(xù)。在經(jīng)歷暴跌后,英偉達股價也開始回調(diào),至當?shù)貢r間2月10日收盤,英偉達股價為133.5美元,較1月27日上漲12.8%。
開源閉源一直是生成式人工智能發(fā)展爭論的焦點問題??萍紡S商方面,開源陣營主要有Meta(LLaMA)、xAI(Grok)、阿里(千問)、DeepSeek;閉源陣營則包括OpenAI(GPT)、Google(Gemini)、Anthropic(Claude)、字節(jié)跳動(豆包)、智譜(GLM)等企業(yè)。OpenAI在成立之初,堅持開源路線,但自發(fā)布ChatGPT以來,OpenAI就開始了閉源道路,被戲稱為“Close AI”。在發(fā)布o3mini時,OpenAI CEO Sam Altman在線上回復問題時首次承認 OpenAI過去在開源方面一直站在“歷史錯誤的一邊”,并表示需要想出一個不同的開源策略。
DeepSeek在開源模型中使用了最“大方”的MIT許可協(xié)議,允許用戶自由修改、定制、分發(fā)以及商業(yè)化使用DeepSeek源碼,并明確開發(fā)者可以進行模型蒸餾。在Github的R1項目頁面中,DeepSeek還放出了使用R1蒸餾的基于LLaMA、Qwen等開源模型的小模型,我們在實測中發(fā)現(xiàn)相較于原模型,提供CoT的模型輸出能力明顯強于原模型。
與其說是技術路線之爭,更不如說開源閉源是人工智能公司盈利的商業(yè)模式之爭。閉源模型通過對個人客戶實行會員制收費、對開發(fā)者或中小企業(yè)API進行收費以及與大型集團合作開發(fā)等模式盈利。開源模型則對開發(fā)者更加友好,通過免費吸引更多開發(fā)者和用戶參與到自主構(gòu)建的人工智能生態(tài)中,未來通過云服務等方式獲取利益。
此前,開源陣營一度陷入沉寂。相較閉源的盈利模式,開源模型在商業(yè)盈利方面周期更長且更具有不確定性,尤其是初創(chuàng)公司都難以承受來自投資人的壓力。國內(nèi)最早開展LLM研究的智譜AI在早年也堅持開源路線,其在開源社區(qū)發(fā)布的GLM-3模型一度是中文開源LLM的明星項目。不過隨著2024年“AI價格戰(zhàn)”的打響,越來越多的開源AI模型開始退場,能力也逐漸與閉源模型拉開差距,一般認為,閉源模型相較開源模型有12個月左右的技術領先。DeepSeek的出現(xiàn)給開源社區(qū)注入了一針“強心劑”,大大縮短了開源和閉源模型間的差距。英偉達高級科學家Jim Fan這樣評價:“我們生活在這樣一個時代:由非美國公司保持 OpenAI最初的使命——做真正開放的前沿研究、為所有人賦能。這似乎講不通,但戲劇性的往往最有可能發(fā)生?!苯刂?月10日,DeepSeek V3和R1項目分別在Github上收獲了72k和80k的星標,R1模型在Hugging Face的下載量達294萬。
加快生成式人工智能應用部署,推動人力資本向智能化時代轉(zhuǎn)型升級。部分大型金融機構(gòu)已開始應用生成式人工智能應用,主要集中在文本內(nèi)容摘要、輔助文字生成修改、企業(yè)知識庫等領域。然而,因為本地算力限制、企業(yè)內(nèi)部培訓不足、應用場景集中在后臺管理部門等原因,金融行業(yè)生成式人工智能應用使用比例仍處在較低水平,尤其是占金融從業(yè)人員比重最大的銀行、保險業(yè)應用嚴重不足。應抓住DeepSeek的新系列模型降低模型推理成本的機遇,加快部署生成式人工智能應用,增強對一線員工的人工智能提示詞、使用場景等方面的培訓,推動金融企業(yè)人力資源轉(zhuǎn)型升級,培養(yǎng)適應于智能時代的金融人才。
由內(nèi)部賦能擴展至面客應用,提升行業(yè)勞動生產(chǎn)率。當前,金融機構(gòu)主要應用生成式人工智能的場景集中在內(nèi)部員工賦能,并無面客場景。面客是檢驗生成式人工智能價值創(chuàng)造、提升行業(yè)勞動生產(chǎn)率的“考場”。DeepSeek推理的價格已處于大規(guī)模面客應用的成本可控范圍內(nèi),推理能力結(jié)合檢索增強生成(RAG)等技術也可有效防止大模型幻覺等問題。因此可盡快推出面向B端客戶的人工智能基礎設施(AI as a Service)或面向C端客戶的智能客服、智能客戶關系管理、線上營銷等服務。
以金融信創(chuàng)工程為契機,共同構(gòu)建國產(chǎn)算力生態(tài)圈。2025年1月13日,拜登政府發(fā)布《先進人工智能技術負責任傳播的監(jiān)管框架》。進一步限制了從美國到世界各地的尖端人工智能技術的出口。未來,我國全行業(yè)應用人工智能都將受到算力限制。多家國產(chǎn)算力已實現(xiàn)DeepSeek系列模型適配,目前國產(chǎn)算力部署的主要問題在于沒有形成類似于英偉達CUDA的完整生態(tài)。CUDA經(jīng)歷10余年的發(fā)展,在全球人工智能領域幾乎是所有開發(fā)者都在使用的“底層基礎設施”,也是英偉達“最深的護城河”。金融企業(yè)作為人工智能應用的前沿行業(yè),應發(fā)揮構(gòu)建國產(chǎn)算力生態(tài)需求側(cè)“頭雁”作用,效仿CUDA建立之初的經(jīng)驗。在CUDA推廣初期,英偉達廣泛派遣工程師前往科研機構(gòu)、企業(yè)幫助部署、共同解決CUDA部署中存在的問題。建立國產(chǎn)算力的底層軟件,亦需要算力廠商、大模型廠商與應用企業(yè)一道的合作構(gòu)建。
建設金融行業(yè)算力基礎設施,保障金融數(shù)據(jù)安全,提升算力使用效率。相較大型金融機構(gòu),中小金融機構(gòu)科技研發(fā)支出較少,缺乏生成式人工智能應用工具研發(fā)和本地化部署能力。不少中小金融機構(gòu)員工通過使用云計算廠商API或人工智能廠商應用的方式獲取相關服務,敏感金融數(shù)據(jù)上傳至云服務器,形成了金融數(shù)據(jù)安全隱患。另一方面,人工智能數(shù)據(jù)中心建設成本高昂,大型金融機構(gòu)本地部署、重復開發(fā)的模式也導致算力和研發(fā)資源使用相對低效。可效仿“東數(shù)西算”和“超算中心”模式,由金融機構(gòu)共同出資建立行業(yè)算力基礎設施,各機構(gòu)按需付費使用,提升算力使用和研發(fā)效率。
(作者單位:中國建設銀行辦公室)