孫杰賢
ChatGPT自2022年11月橫空出世以來,一路狂飆,將AIGC和AI大模型推到風口浪尖。
ChatGPT英文全稱“Chat G e n e r a t i v e P r e - Tr a i n e d Transformer”,是由美國公司OpenAI基于GPT3.5版本開發(fā)的一個人工智能聊天機器人程序,是一款人工智能技術驅動的自然語言處理工具。
清華大學智能產業(yè)研究院院長、中國工程院外籍院士張亞勤這樣評價ChatGPT: ChatGPT確實是一次跳躍和質變,是AI的一個里程碑。人機對話已經做了半個多世紀了,進步很大,但整體沒有實質性的飛躍,不能通過“圖靈測試”。而ChatGPT是第一個可以通過“圖靈測試”的智能體,是通用人工智能的雛形。
A I G C的英文全稱是“A I Generated Content”,是人工智能和內容創(chuàng)作的結合,能夠讓機器自動生成高質量、高效率的內容,在智能硬件、大數據分析等領域都有廣泛應用。AIGC包括圖像、視頻、音頻等多種類型,包括自動生成文本和音頻。從目前AIGC的發(fā)展來看,其應用范圍正在逐步擴大,并且已經從簡單的文字內容生成發(fā)展到智能圖片編輯、語音識別和智能寫作等。
因此,從概念定義來看,ChatGPT是AIGC概念的一種產品形態(tài)或者說應用形態(tài)。而AI大模型則是兩者背后的核心技術。
A I大模型即基礎模型(Foundation Model),是基于海量多源數據打造的龐大神經網絡。通過訓練,AI大模型從大量標記和未標記的數據中捕獲知識,并將知識存儲到大量的參數中,以實現對各種任務進行高效處理的技術架構,是實現通用人工智能的重要方向。AI大模型包含自然語言類大模型、計算機視覺類大模型,以及統一整合的多模態(tài)大模型等,ChatGPT 是AI大模型在自然語言處理領域突破性的創(chuàng)新。
發(fā)展歷程看,AI大模型先后經歷了預訓練模型、大規(guī)模預訓練模型、超大規(guī)模預訓練模型三個階段。相應的,AI大模型的發(fā)展也從以不同模態(tài)數據為基礎過渡到與學習理論等方面相結合,并呈現出全面發(fā)力、多點開花的新格局。
AI大模型有兩個核心要義:“預訓練”和“大模型”,意味著模型在大規(guī)模數據基礎上完成了預訓練后無需調整,僅需要少量數據的微調,就能直接支撐各類應用。從應用領域來看,AI大模型可分為通用AI大模型和垂直AI大模型(也稱產業(yè)AI大模型),兩者在參數級別、應用場景、商業(yè)模式等方面差異正在顯性化。通用AI大模型需要巨大的計算資源和數據量能夠處理各種領域和場景的自然語言,但是不一定有深入的專業(yè)知識,比如ChatGPT。垂直AI大模型是針對特定行業(yè)或者應用場景而開發(fā),比如醫(yī)療、金融、教育等,它能夠利用行業(yè)的數據和知識,提供更精準和高效的解決方案。
垂直AI大模型可以更容易地與用戶和行業(yè)進行有效的溝通和合作,也更符合行業(yè)的規(guī)范和標準,因此,垂直AI大模型將是重要發(fā)展方向。
同人工智能一樣,AI大模型背后也需要數據、算法與算力的支撐。
高質量的數據是助力AI訓練與調優(yōu)的關鍵,足夠多、足夠豐富、質量足夠高的數據,是生成式AI大模型的根基。目前AI模型的數據來源包括以下幾類:公共數據集、公共網站、自有數據、眾包數據、合成數據等。除了合成數據外,其他數據都是通過采集互聯網獲得。
隨著AI大模型的發(fā)展,數據量呈現指數級的增長態(tài)勢。比如,2018年的GPT-1數據集約4.6GB,2020年的GPT-3數據集達到了753GB, 而到了2021年的Gopher,數據集規(guī)模已經達到了驚人的10,550GB。由于企業(yè)的很多業(yè)務數據、物流數據、財務數據等都是非常核心的私域數據,很難把數據拿給別人去訓練。這也是垂直AI大模型的一個發(fā)展瓶頸。
算法是 AI 解決問題的機制、方式和路徑,算法的優(yōu)劣直接決定了AI大模型的空間復雜度與時間復雜度。例如,GPT 是在Transformer 模型基礎上發(fā)展的,相比于傳統的循環(huán)神經網絡或卷積神經網絡,Transformer在處理長文本時具有更好的并行性和更短的訓練時間。三要素中,算法的研發(fā)門檻相對較低,每家企業(yè)都有自己實現大模型的路徑算法,且有眾多開源項目可作為參考,我國企業(yè)也可以憑此縮短差距,甚至彎道超車。
算力是打造AI大模型態(tài)的必備基礎,AI大模型所需要的計算量,大致上相當于參數量與數據量的乘積。大模型之所以“大”,就是因為龐大的參數量和海量數據。上文也提到AI大模型的指數級增長,而參數量亦是如此。比如,GPT-3的參數量達到了驚人的1750億。因此,AI大模型的真正門檻在算力。數據訓練需要較高性能的芯片完成對整體模型神經網絡的訓練構建。據悉,為了訓練GPT-3,微軟新建了一個搭載了1萬張顯卡,價值5億美元的算力中心。模型在訓練上則消耗了355個GPU年的算力,而成本超過460萬美元。根據OpenAI公司的測算:全球AI訓練所用的計算量平均每3.43個月便會翻一倍,遠超摩爾定律。在可見的未來,算力不足將會是制約AI大模型發(fā)展的最大因素。
應用AI大模型大概以下具體步驟。數據收集:收集和準備海量的數據;設計模型:設計模型結構和參數;模型訓練:進行模型的訓練,進行模型優(yōu)化;模型測試:測試訓練好的模型,同預期效果進行比對;模型部署:部署應用。
當然,AI大模型價值不僅僅是作作畫、寫寫文章、聊聊天那么簡單。AI大模型代表了人工智能技術向產品化、產業(yè)化落地的趨勢,這個趨勢的持續(xù)發(fā)展會深刻改變產業(yè)格局。同時,人們對AI的認知、行業(yè)對其能力的評估都將越來越體系化。
AI大模型的真正意義在于改變了模型的開發(fā)模式,將模型的生產由“小作坊”升級為工業(yè)化的“流水線”,而模型開發(fā)模式的轉變,將使得AI技術能夠更廣泛地下沉到一些長尾場景。前面也提到,垂直AI大模型是AI大模型的重要發(fā)展方向。底層AI大模型的研發(fā)具有極高的研發(fā)門檻,面臨高昂的成本投入,不利于人工智能技術在千行百業(yè)的推廣。但是具有數據、算力、算法綜合優(yōu)勢的企業(yè)可以基于第三方的AI大模型將復雜生產過程封裝起來,通過低門檻、高效率的生產平臺,向千行百業(yè)提供大模型服務。行業(yè)企業(yè)或者服務提供商只需要通過生產平臺提出在實際AI應用中的具體需求,生產大模型的少數企業(yè)就能夠根據應用場景進一步對大模型開發(fā)訓練,幫助應用方實現大模型的精調,以更好滿足各行業(yè)對于AI模型的需求。
舉個例子,礦山行業(yè)有眾多應用場景,除了挖礦本身,還有挖礦前的勘測規(guī)劃,挖礦后的運輸、通風、安全保障,以及過程中間的經營管理等。中國礦業(yè)大學便基于AI大模型,用機器視覺+機器人揀選的方式,以同步檢測技術取代人工,實現高效預拋廢,延長礦山設備壽命,減人提效。
我們在經歷基于數據的互聯網時代和基于算力的云計算時代之后,即將邁入基于大模型的AI時代。可以肯定,那些率先開發(fā)或者應用AI大模型的企業(yè)將會在AI產業(yè)布局中獲得先發(fā)優(yōu)勢。