人類擁有極其復雜且高度發(fā)達的語言系統(tǒng),可以運用口語、文字等抽象符號進行溝通,這也是人類區(qū)別于其他絕大部分生物的顯著特征之一。因此,能理解豐富的詞匯和復雜的語法,以及擁有強大的表意能力,是人類高級思維的重要體現(xiàn)。
自然語言處理(Natural Language Processing,簡稱NLP)是通過計算機實現(xiàn)語言分析,研究人機交互并進行有效通信的理論與技術。它旨在使計算機能夠理解、處理和生成人類的語言,實現(xiàn)人機之間的有效交流。這需要將數(shù)學、語言學、計算機科學等多學科的理論與方法進行融合,是人工智能的重要研究方向。
1947年,沃倫·韋弗(Warren Weaver,美國數(shù)學家,被譽為“機器翻譯之父”)提出“計算機語言自動翻譯”理念。
機器翻譯(machine translation)是自然語言處理最早的研究領域。經(jīng)歷了一系列技術進步,現(xiàn)在發(fā)展到了基于自注意力機制(Self-Attention)的Transformer模型(ChatGPT和DeepSeek都是基于Transformer模型開發(fā)的)。
自注意力機制是Transformer模型的核心創(chuàng)新點之一,它可以讓模型在處理序列數(shù)據(jù)時,動態(tài)地關注輸入序列的不同部分,計算每個位置與其他位置之間的關聯(lián)程度,從而更好地捕捉文本中的長距離依賴關系。
簡單來說,你可以把訓練DeepSeek等大模型的過程看成一個“猜謎大師”的養(yǎng)成過程。在訓練時,它會被“投喂”海量文本,但它不記憶具體知識,而是學習詞語之間的關聯(lián)規(guī)律,比如“狗喜歡吃……”后面大概率出現(xiàn)的詞匯是“骨頭”或“肉”,而不是“草”。隨著訓練量增大,它可以不斷提高自己產(chǎn)生結果的概率和合理性,例如“地道”后面是“戰(zhàn)”還是“美食”,它會根據(jù)上下文語境做出判斷。
在對話階段,Transformer模型主要采取邊聽邊猜并不斷優(yōu)化的模式進行。例如,當你輸入“為什么天空看起來是藍色的”時,Transformer模型會利用自注意力機制拆解關鍵詞,找到“天空”“藍色”等關鍵詞,然后根據(jù)在訓練階段掌握的規(guī)律找到“光的散射”和“大氣層”等知識片段,再逐詞生成完整的回答。在生成答案的過程中,它還可以根據(jù)反饋不斷調整和優(yōu)化結果。
許多預訓練語言模型都是通過增大訓練參數(shù)規(guī)模來提高模型訓練的效果的,但這樣會對數(shù)據(jù)和算力有很高的要求,使得訓練和部署模型的成本巨大。
DeepSeek的突出創(chuàng)新點之一在于,它主要是通過優(yōu)化算法來達成較好的模型訓練效果的,因此需求的訓練數(shù)據(jù)相對較少、訓練算力相對較低。在這一過程中,它使用的混合專家模型(Mixture of Experts,MoE)起到了突出作用。
為了更好地理解混合專家模型的工作機制,我們可以舉個例子:一間準備裝修的毛坯房,想要將它裝好,需要20個泥瓦工、20個木工和10個油漆工,其他大模型會在整個施工期間都“養(yǎng)”著這50名工人,而DeepSeek則會根據(jù)施工需要,在特定的時段“雇傭”特定的工人,所以DeepSeek的訓練成本更低。
此外,DeepSeek對圖形處理器(GPU)和芯片進行了深度優(yōu)化,進一步降低了模型訓練和部署的成本。
同時,DeepSeek是開源的,它公布了自己的模型參數(shù)和訓練工具鏈,吸引廣大二次開發(fā)者對其應用和優(yōu)化,迅速形成了自己的開發(fā)生態(tài),從而進一步滿足模型在醫(yī)學、法律等特定領域的需求。
一次次的工業(yè)革命告訴我們,被迭代的始終是工具,大語言模型替代的是工具性技能,而非人類的能力——提出問題、定義價值、賦予意義。它無法取代人類“不理性”的價值、“無意義”的探索和“不完美”的聯(lián)結。真正的危機或許不是“機器太過強大”,而是“人類太像機器”。如何對待疾速發(fā)展的人工智能技術,正是我們亟待解決的命題。
(責任編輯 / 牛一名 美術編輯 / 周游)