DeepSeek,這個(gè)攪動(dòng)全球AI市場(chǎng)的“鲇魚”,到底“?!痹谀睦?,又對(duì)我們的生活有何影響?
機(jī)器“教會(huì)”人類如何思考
1月20日晚間,中國(guó)“名不見(jiàn)經(jīng)傳”的AI初創(chuàng)企業(yè)深度求索公司(DeepSeek)正式發(fā)布推理大模型DeepSeek-R1。因其可比肩OpenAI的性能、極低的服務(wù)價(jià)格,以及代碼和模型架構(gòu)的完全開源,成了攪動(dòng)全球AI市場(chǎng)的“鲇魚”。
如果說(shuō)前段時(shí)間DeepSeek的熱潮還僅僅局限在AI圈,那么它現(xiàn)在已延伸到了更大的范圍。
雖然從測(cè)評(píng)結(jié)果來(lái)看,DeepSeek-R1并沒(méi)有對(duì)OpenAI形成“碾壓”趨勢(shì),但受到了格外多的好評(píng)。“有溫度”是很多人使用下來(lái)的評(píng)價(jià)。DeepSeek-R1能夠提供“情緒價(jià)值”,其一些關(guān)于“人生問(wèn)題”的回答甚至登上了熱搜,被網(wǎng)友稱為獨(dú)屬于“中文”大模型的浪漫。
在DeepSeek內(nèi)點(diǎn)開R1提問(wèn)后,模型總會(huì)先展示出它的一些“碎碎念”,然后再給出答案,“碎碎念”就是它的推理和思考過(guò)程,甚至在遇到困惑時(shí)會(huì)說(shuō)“等等”來(lái)中斷自己的思路。而同樣的問(wèn)題問(wèn)OpenAI,只會(huì)給用戶展示出原始思維過(guò)程的摘要。
從奧數(shù)題到明星八卦,人類第一次如此清晰地目睹“機(jī)器如何思考”,還特別會(huì)“融會(huì)貫通”,不少網(wǎng)友評(píng)價(jià),仿佛與一個(gè)“現(xiàn)實(shí)的人”在對(duì)話。這種“透明化推理”讓用戶不僅能獲得答案,還能觀察AI的思考邏輯,有網(wǎng)友表示,可以反向?qū)W習(xí)DeepSeek如何拆解復(fù)雜問(wèn)題,機(jī)器教會(huì)人類“如何思考”。
一位AI領(lǐng)域的從業(yè)人士表示,過(guò)去,大模型的訓(xùn)練過(guò)程通常是先訓(xùn)練出一個(gè)基座模型,然后對(duì)他進(jìn)行監(jiān)督微調(diào),接下來(lái)進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。“所謂監(jiān)督微調(diào),就是我們給模型問(wèn)題和期望的答案,模型先照著范本學(xué)習(xí),然后通過(guò)打分告訴它做得好還是差,讓模型從反饋中學(xué)習(xí)”,這位人士比喻,“而DeepSeek-R1的訓(xùn)練方式相當(dāng)于一道范題都不給孩子看,直接送上考場(chǎng),然后通過(guò)對(duì)每個(gè)問(wèn)題不同答案得到的分?jǐn)?shù)反饋,讓模型自己掌握逐漸解題思路?!?/p>
沒(méi)有監(jiān)督學(xué)習(xí),這就意味著它不需要大量的人工標(biāo)注數(shù)據(jù),也就意味著節(jié)約成本,就能顯著提升性能;在實(shí)際開發(fā)過(guò)程中,開發(fā)者可以省去大量數(shù)據(jù)準(zhǔn)備的時(shí)間,以更快的速度推向市場(chǎng)。而通過(guò)“試錯(cuò)”和反饋來(lái)積累經(jīng)驗(yàn),形成推理能力,讓模型即使在完全陌生的領(lǐng)域也能展現(xiàn)出創(chuàng)新的思維和解決問(wèn)題的能力。
人人可以用得起的東西
Deepseek還有一個(gè)戲謔的名字——“AI界拼多多”。Deepseek的中文名是“深度求索”,為量化巨頭“幻方量化”的子公司。這是一家“隱形”的AI巨頭,擁有1萬(wàn)枚英偉達(dá)A100芯片。
成立僅一年多時(shí)間,2024年5月,Deepseek就發(fā)布一款名為DeepSeek V2的開源模型,提供了一種史無(wú)前例的性價(jià)比,推理成本每百萬(wàn)token(字符)僅1塊錢。DeepSeek也被迅速冠以“AI界拼多多”之稱。
然而,僅又過(guò)了半年多,12月26日,全新系列模型DeepSeek-V3首個(gè)版本上線并同步開源,在性能上和世界頂尖的閉源模型GPT以及Claude-3.5-Sonnet不分伯仲。最讓海外AI界震驚的是,在性能突出的同時(shí),該模型的訓(xùn)練成本大幅降低。DeepSeek新開源模型僅花費(fèi)了560萬(wàn)美元進(jìn)行訓(xùn)練,成本相當(dāng)于GPT的十分之一。
資深人士分析稱,DeepSeek訓(xùn)練成本低,一個(gè)重要原因是使用了數(shù)據(jù)蒸餾技術(shù),通過(guò)已有的高質(zhì)量模型來(lái)合成少量高質(zhì)量數(shù)據(jù),并作為新模型的訓(xùn)練數(shù)據(jù)。同時(shí)創(chuàng)新使用了FP8(八位浮點(diǎn)數(shù))、MLA(多頭潛在注意力)和MOE(利用混合專家架構(gòu))三種技術(shù)。相較于其他模型使用的MOE架構(gòu),DeepSeek每次只需要占用很小比例的子集專家參數(shù)就可以完成計(jì)算。MLA機(jī)制則能顯著降低推理過(guò)程中內(nèi)存占用開銷。正如其開發(fā)者梁文鋒在接受媒體采訪時(shí)表示,DeepSeek選擇“不做垂類和應(yīng)用,而是作研究,作探索”“做最難的事”“解決世界上最難的問(wèn)題”。梁文鋒口中的“難”,或許就是“原創(chuàng)”二字,是從“零到十”。
DeepSeek得到如此高的關(guān)注度還有一個(gè)原因就是“開源”。過(guò)去,作為用戶想使用推理模型,例如OpenAI,需要每個(gè)月20-200美金的會(huì)員,而在DeepSeek-R1上,這些都是免費(fèi)的。神思電子首席科學(xué)家閔萬(wàn)里表示,AI要想發(fā)展就得需要算力,由于算力所需投資規(guī)模巨大,這是大多中小科技企業(yè)的“痛點(diǎn)”,他們對(duì)低成本的人工智能系統(tǒng)的需求更為迫切。而DeepSeek就應(yīng)運(yùn)而生。
而對(duì)于普通人而言,在過(guò)去,人們要獲取特定領(lǐng)域的知識(shí),必須具備相關(guān)專業(yè)的學(xué)術(shù)背景或經(jīng)驗(yàn),這造成了信息獲取的不平等。AI的到來(lái),讓人們實(shí)現(xiàn)了平等獲取知識(shí)的機(jī)會(huì),信息平權(quán)時(shí)代就要到來(lái)。正如梁文鋒曾在接受媒體采訪時(shí)表示:“無(wú)論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西?!盌eepseek將是送給全世界的禮物。
(摘自《齊魯壹點(diǎn)》李夢(mèng)瑤)