李秀紅:無(wú)問(wèn)芯穹副總裁,致力于研發(fā)高性能的大模型推理基礎(chǔ)設(shè)施,提供多種主流模型和多種國(guó)產(chǎn)芯片之間的M*N中間層支持。加入無(wú)問(wèn)芯穹之前,在北京大學(xué)擔(dān)任助理研究員,研究領(lǐng)域?yàn)橛?jì)算機(jī)體系結(jié)構(gòu)、異構(gòu)計(jì)算和深度學(xué)習(xí)系統(tǒng),在ISCA、MICRO、HPCA、TC、PPoPP等相關(guān)領(lǐng)域國(guó)際頂級(jí)期刊會(huì)議發(fā)表論文20余篇,相關(guān)研究成果以第一作者或通信作者獲得CCF A類(lèi)會(huì)議ASPLOS 2024最佳論文、CCF A類(lèi)會(huì)議PPoPP 2019最佳論文提名。
2025年春節(jié)期間,中國(guó)人工智能領(lǐng)域迎來(lái)標(biāo)志性突破—DeepSee公司推出的DeepSeek-R1大模型,憑借“更高智能、更低成本、更開(kāi)放生態(tài)”三大核心優(yōu)勢(shì),迅速成為全球AI領(lǐng)域焦點(diǎn)。
人類(lèi)智能包括兩大系統(tǒng),第一類(lèi)系統(tǒng)是“大腦快速、自動(dòng)、直觀的方法”,第二類(lèi)系統(tǒng)是“思維的慢速,理性占據(jù)主導(dǎo)地位的分析模式”。
更高智能,從直覺(jué)到推理的跨越。DeepSeek在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,展現(xiàn)出強(qiáng)大的數(shù)學(xué)推理和代碼生成能力。其關(guān)鍵在于從 “快系統(tǒng)”直覺(jué)感知向“慢系統(tǒng)”邏輯推理的升級(jí),通過(guò)思維鏈(Chain of Thought)技術(shù),將復(fù)雜問(wèn)題拆解為多個(gè)子步驟,依賴(lài)規(guī)則逐步生成Action,顯著提升復(fù)雜任務(wù)的解決能力。
更低成本,性?xún)r(jià)比的革命性突破。據(jù)相關(guān)數(shù)據(jù)顯示,在訓(xùn)練成本上,DeepSeek-V3僅為557.6萬(wàn)美元,遠(yuǎn)低于GPT-4的6300萬(wàn)美元和Llama 3.1 405B的5800萬(wàn)美元。推理成本方面,其每百萬(wàn)Token的API定價(jià)僅為0.27美元(輸入)和1.10美元(輸出),較GPT-4o的2.5美元(輸入)和10美元(輸出)降低約90%。這種成本優(yōu)勢(shì)源于軟硬件協(xié)同優(yōu)化。
更開(kāi)放生態(tài),技術(shù)平權(quán)的推動(dòng)者。DeepSeek通過(guò)開(kāi)源技術(shù)報(bào)告和模型,降低行業(yè)準(zhǔn)入門(mén)檻,吸引全球開(kāi)發(fā)者參與生態(tài)建設(shè)。其技術(shù)文檔詳細(xì)披露了Multi-Head Latent Attention(MLA)、DeepSeekMoE 架構(gòu)等核心技術(shù),以及 FP8訓(xùn)練、多Token預(yù)測(cè)等優(yōu)化策略。開(kāi)源生態(tài)的構(gòu)建不僅加速了技術(shù)迭代,還推動(dòng)了人工智能在中小企業(yè)和垂直領(lǐng)域的普及,成為行業(yè)發(fā)展的重要基礎(chǔ)設(shè)施。
從稠密到稀疏的范式轉(zhuǎn)變。面對(duì)稠密模型在72B參數(shù)規(guī)模后性能飽和的問(wèn)題,DeepSeek采用混合專(zhuān)家模型(MoE),通過(guò)動(dòng)態(tài)選擇部分專(zhuān)家參數(shù)參與計(jì)算,實(shí)現(xiàn)2~3倍算力撬動(dòng)10倍模型規(guī)模的效果。
稀疏注意力技術(shù)進(jìn)一步優(yōu)化計(jì)算效率,如Native Sparse Attention(NSA)通過(guò)層次化Token壓縮和塊狀Token選擇,在長(zhǎng)文本處理中實(shí)現(xiàn)10倍加速,推理速度從原始注意力的近千秒縮短至一百秒左右,顯著提升長(zhǎng)上下文場(chǎng)景的處理能力。
從訓(xùn)練到推理的全流程優(yōu)化。訓(xùn)練框架方面,DeepSeek優(yōu)化了分布式訓(xùn)練中的通信和計(jì)算重疊,如通過(guò)DualPipe 技術(shù)實(shí)現(xiàn)數(shù)據(jù)并行、模型并行、流水線并行的混合策略,512卡擴(kuò)展效率達(dá)到76%。推理框架則采用分頁(yè)式內(nèi)存管理(如vLLM的PagedAttention),減少顯存碎片,提升服務(wù)吞吐量,Llama3-8B模型請(qǐng)求服務(wù)率達(dá)35req/s。
應(yīng)對(duì)后摩爾時(shí)代的挑戰(zhàn)。AI芯片從指令驅(qū)動(dòng)的CPU/GPU,發(fā)展到數(shù)據(jù)流驅(qū)動(dòng)的存算一體芯片(如Cerebras WSE-2)和神經(jīng)形態(tài)芯片(如Intel Loihi),能效比提升5個(gè)數(shù)量級(jí)。然而,摩爾定律放緩和美國(guó)禁令導(dǎo)致先進(jìn)制程(14nm以下)受限,芯片制造公司推動(dòng)晶圓級(jí)芯片和先進(jìn)封裝技術(shù)(如3D堆疊、芯粒互連),突破單芯片面積和良率瓶頸,實(shí)現(xiàn)P級(jí)算力集成。
應(yīng)對(duì)工藝墻的系統(tǒng)方案。針對(duì)制程工藝瓶頸,芯片制造公司聯(lián)合國(guó)內(nèi)產(chǎn)業(yè)鏈探索12/7nm節(jié)點(diǎn)的優(yōu)化方案,通過(guò)設(shè)計(jì)創(chuàng)新彌補(bǔ)制程差距。在封裝層面,采用芯粒(Chiplet)技術(shù)實(shí)現(xiàn)異構(gòu)集成,將計(jì)算芯粒與存儲(chǔ)芯粒高速互連,提升帶寬和能效,為國(guó)產(chǎn)芯片突破封鎖提供新路徑。
2C場(chǎng)景,重塑生活與生產(chǎn)力工具。在文化領(lǐng)域,中電信文宣科技接入 DeepSeek后,游客復(fù)購(gòu)率提升27%,文化體驗(yàn)滿(mǎn)意度提高35%;教育領(lǐng)域,某智慧校園學(xué)情診斷系統(tǒng)使教師備課效率提升40%,高風(fēng)險(xiǎn)學(xué)生干預(yù)成功率提升65%;娛樂(lè)領(lǐng)域,短視頻平臺(tái)日均產(chǎn)出創(chuàng)意內(nèi)容超10萬(wàn)條,互動(dòng)率提升22%;效率工具方面,代碼生成速度比GPT-4快3.7倍,會(huì)議紀(jì)要生成準(zhǔn)確率達(dá)98%。
2B場(chǎng)景,驅(qū)動(dòng)行業(yè)智能化轉(zhuǎn)型。能源行業(yè),DeepSeek融合氣象、地理數(shù)據(jù)構(gòu)建動(dòng)態(tài)安全域模型,優(yōu)化分布式能源管理;制造業(yè),通過(guò)工業(yè)知識(shí)圖譜和多模態(tài)處理提升故障診斷準(zhǔn)確率30%,良品率提升10%~20%;金融業(yè),某銀行信貸審核誤判率降低58%,基金公司策略收益提升23%;醫(yī)療行業(yè),加速藥物研發(fā)周期70%,提升臨床決策效率。
AI Agent,打通垂直場(chǎng)景的智能橋梁。以Manus為例,其在GAIA基準(zhǔn)測(cè)試中工具調(diào)用成功率達(dá)94.7%,顯著高于OpenAI Agent的72.3%。在生活場(chǎng)景中,5步以上復(fù)雜任務(wù)成功率比OpenAI方案高23%;金融分析中,用戶(hù)干預(yù)后任務(wù)成功率提升至83%;政務(wù)場(chǎng)景中,深圳 “AI公務(wù)員”日均處理1.2萬(wàn)個(gè)咨詢(xún),座席減少60%。
開(kāi)源生態(tài),AI領(lǐng)域的“Android時(shí)刻”。DeepSeek的開(kāi)源模式打破技術(shù)壟斷,推動(dòng)行業(yè)從閉源走向開(kāi)放,類(lèi)似Android對(duì)移動(dòng)應(yīng)用的賦能,其基準(zhǔn)測(cè)試表現(xiàn)比肩閉源模型,GitHub星標(biāo)數(shù)超越OpenAI,日均API調(diào)用量突破2000萬(wàn)次,成為全球開(kāi)發(fā)者的重要選擇。
算力需求激增,端云協(xié)同的新基建。云側(cè)推理需求爆發(fā),短期全國(guó)活躍用戶(hù)數(shù)預(yù)計(jì)達(dá)1.5億,日均Token用量達(dá)11.25萬(wàn)億,推動(dòng)新一代推理集群向資源池化、動(dòng)態(tài)調(diào)度發(fā)展;端側(cè)通過(guò)定制芯片實(shí)現(xiàn)高能效推理,7B模型推理性能gt;150tokens/s,能效gt;20tokens/J,助力智能終端普及。
技術(shù)挑戰(zhàn),效率與成本的持續(xù)優(yōu)化。盡管DeepSeek在成本和效率上取得突破,仍需應(yīng)對(duì)算力異構(gòu)、數(shù)據(jù)出域、電價(jià)差異等問(wèn)題。未來(lái)需進(jìn)一步優(yōu)化稀疏化、低比特量化技術(shù),提升端云協(xié)同效率,降低推理成本,推動(dòng)人工智能從“奢侈品”變?yōu)椤氨匦杵贰薄?/p>
DeepSeek大模型的崛起,標(biāo)志著人工智能從理論探索走向產(chǎn)業(yè)落地的關(guān)鍵階段。其技術(shù)創(chuàng)新不僅突破了算力和成本瓶頸,更通過(guò)開(kāi)放生態(tài)和端云協(xié)同,推動(dòng)AI與各行業(yè)深度融合。面對(duì)中美技術(shù)競(jìng)爭(zhēng)和全球產(chǎn)業(yè)變革,DeepSeek的實(shí)踐為國(guó)產(chǎn)化閉環(huán)構(gòu)建提供了路徑參考,預(yù)示著人工智能將進(jìn)入效率提升、成本下降、應(yīng)用爆發(fā)的黃金時(shí)代。未來(lái),隨著軟硬件協(xié)同的持續(xù)深化,AI有望成為驅(qū)動(dòng)社會(huì)進(jìn)步的核心基礎(chǔ)設(shè)施,開(kāi)啟智能時(shí)代的新篇章。
科學(xué)導(dǎo)報(bào)記者馬駿根據(jù)錄音整理