文/郭全中 楊元昭
大模型作為新一代信息技術(shù),近年來備受關(guān)注。在AI 浪潮下,國內(nèi)外企業(yè)紛紛加速對大模型產(chǎn)業(yè)布局的推進,并在模型和算力等層面推動技術(shù)變革和產(chǎn)業(yè)轉(zhuǎn)型。同時,為促進大模型產(chǎn)業(yè)落地,各個企業(yè)和機構(gòu)在大規(guī)模、高質(zhì)量的數(shù)據(jù)積累基礎(chǔ)上,著力推進大模型的應(yīng)用。然而,隨著大模型的發(fā)展,數(shù)據(jù)安全和內(nèi)容治理成為監(jiān)管的重點,如何在保障人工智能可持續(xù)發(fā)展的同時,確保技術(shù)創(chuàng)新成為大模型發(fā)展面臨的新問題。
隨著GPT 系列的發(fā)布,國內(nèi)外大模型及其相關(guān)產(chǎn)業(yè)持續(xù)引發(fā)熱議。大模型產(chǎn)業(yè)鏈可基本分為:算力、模型、應(yīng)用三個環(huán)節(jié),芯片廠商及服務(wù)器廠商提供算力支持,科技企業(yè)及互聯(lián)網(wǎng)公司提供模型支持,模型在學(xué)習(xí)特定數(shù)據(jù)后完成功能落地。大模型技術(shù)逐步成熟、應(yīng)用場景不斷擴充,大模型在互聯(lián)網(wǎng)企業(yè)與各行業(yè)逐步接軌,火熱程度不減。
在大模型及其相關(guān)產(chǎn)業(yè)占據(jù)行業(yè)焦點的同時,國內(nèi)外相關(guān)企業(yè)迅速擴張,加速大模型相關(guān)產(chǎn)業(yè)布局,完成技術(shù)變革與企業(yè)轉(zhuǎn)型。
盡管國內(nèi)大模型起步較晚,但整體成長迅速。2023 年以來,阿里千問大模型、百度文心大模型、商湯日日新大模型、訊飛星火認知大模型、華為盤古大模型等國產(chǎn)大模型相繼發(fā)布。國產(chǎn)大模型成長迅速,且對大模型的應(yīng)用具有持續(xù)探索潛力。阿里巴巴在第六屆數(shù)字中國建設(shè)峰會上將千問大模型接入工業(yè)機器人,實現(xiàn)遠程機器人交互控制;訊飛星火認知大模型在教育、辦公、汽車、數(shù)字員工等領(lǐng)域完成成果落地,模型應(yīng)用于學(xué)習(xí)機、智能辦公本、智慧駕艙以及開放平臺等多項業(yè)務(wù),賦能公司收益,c 端硬件業(yè)務(wù)率先受益;華為盤古大模型在氣象、藥物分子、海浪檢測、煤礦綜采等場景完成大模型實踐,其中,氣象大模型精度超過傳統(tǒng)預(yù)報方式。
國外大模型種類豐富,多維拓展,垂直落地。海外大模型模態(tài)豐富,在文本、圖像、音頻多方面均有涉及。以O(shè)penAI、Google、Anthropic 等科技公司為代表,通過閉源模型形成了強大的龍頭效應(yīng),而Meta 等則通過開源模型構(gòu)建了合作共創(chuàng)的生態(tài)系統(tǒng)。微軟將OpenAI 整合于辦公軟件、搜索、操作系統(tǒng)、云服務(wù)等ToC、ToB 產(chǎn)品服務(wù)中,同時提供閉源模型支持,API 付費調(diào)用也成為部分公司的服務(wù)類型;Meta 引領(lǐng)著開源模型的發(fā)展,模型形態(tài)逐漸豐富,文本到圖像、圖像到文本以及多模態(tài)統(tǒng)一到單一模型等領(lǐng)域都有所突破。
在大模型產(chǎn)業(yè)鏈中,提供算力的硬件部分扮演著更為基礎(chǔ)的角色。作為大模型的核心,算力在訓(xùn)練和推理階段都發(fā)揮著重要作用。芯片作為算力的心臟,為大模型提供了硬件支持,也成為國內(nèi)外企業(yè)競相爭奪的領(lǐng)域。
在AI 浪潮下,算力相關(guān)企業(yè)美股全面暴漲,如:高通、AMD、超微電腦、博通、麥維爾科技等。與此同時,英偉達在行業(yè)內(nèi)遙遙領(lǐng)先,成為美股首家市值觸及1 萬億美元的芯片公司。英偉達憑借著CUDA 框架,成為全球最大GPU 供應(yīng)商,結(jié)合CPU、GPU、DPU 形成生態(tài)閉環(huán),并通過推出AI Foundations 完成從硬件向算力云服務(wù)MaaS 的轉(zhuǎn)型。除英偉達外,谷歌自主研發(fā)了TPU 芯片,大幅降低功耗、加快運算速度,為Anthropic 提供大規(guī)模TPU 和GPU 加速支持;Meta 推出定制AI 芯片MTIA,采用開源芯片架構(gòu)RISC-V,功耗僅有25 瓦,遠低于英偉達等主流芯片。
國內(nèi)各互聯(lián)網(wǎng)企業(yè)自主研發(fā),芯片市場百花齊放。阿里自主研發(fā)芯片含光800、倚天710,為大模型提供強大算力支持;百度實現(xiàn)兩代通用AI 芯片量產(chǎn)及應(yīng)用,其產(chǎn)品在百度搜索等業(yè)務(wù)場景中得到應(yīng)用;騰訊推出AI 推理芯片“紫霄”、視頻轉(zhuǎn)碼芯片“滄?!币约爸悄芫W(wǎng)卡芯片“玄靈”三款自研芯片;華為自研芯片昇騰310 和910 芯片,為模型提供算力支持。
數(shù)據(jù)與算力是大模型發(fā)展的兩大核心,大模型的訓(xùn)練和推理對大量、可靠的計算資源和存儲空間具有一定的依賴。在大模型的訓(xùn)練過程中,通常采用無標注、自監(jiān)督的訓(xùn)練方法,通過海量數(shù)據(jù)進行超大規(guī)模模型訓(xùn)練,從而對數(shù)據(jù)和算力提出了更高的要求。在模型推理的過程中,也需要借助高質(zhì)量、大規(guī)模的數(shù)據(jù)基礎(chǔ)來實現(xiàn)模型的應(yīng)用和落地。因此大模型的研發(fā)本身就是對公司數(shù)據(jù)、資金以及人才儲備的考驗。
從SaaS(Software as a service,軟件即服務(wù))到MaaS(Model as a Service)模型即服務(wù),模型架構(gòu)不斷升級,訓(xùn)練模型數(shù)據(jù)需求不斷提升。
模型架構(gòu)升級,海量數(shù)據(jù)助力大模型訓(xùn)練。隨著Transformer 架構(gòu)的提出,深度學(xué)習(xí)模型參數(shù)規(guī)模達到上億級別。2018 年谷歌提出基于Transformer 的大規(guī)模預(yù)訓(xùn)練語言模型BERT,參數(shù)規(guī)模首次超過3 億,此后在Transformer架構(gòu)的推動下,自然語言處理領(lǐng)域得到廣泛發(fā)展。目前,國外大模型中,谷歌大模型參數(shù)規(guī)模達到千億級別,meta 提供70 億、130 億、330 億和650 億等多種參數(shù)規(guī)模模型。國內(nèi)大模型中,百度文心一言的大模型參數(shù)規(guī)模超過2600 億,阿里通義千里的大模型參數(shù)規(guī)模超過10 萬億,華為盤古大模型、騰訊混元模型的參數(shù)規(guī)模均超萬億。
模型即服務(wù),高質(zhì)量數(shù)據(jù)助力高質(zhì)量模型。隨著大模型的快速發(fā)展,國內(nèi)外以微軟、谷歌、阿里、華為、商湯等為代表的互聯(lián)網(wǎng)公司逐步自主研發(fā)出相應(yīng)的大模型產(chǎn)品,而隨著大模型的商業(yè)價值逐步提高,其可適用場景逐步擴大。大模型本身作為產(chǎn)品服務(wù)各行各業(yè),高質(zhì)量的數(shù)據(jù)內(nèi)容對提高模型質(zhì)量和服務(wù)質(zhì)量起到強有力的推動作用。
除模型訓(xùn)練外,大模型在內(nèi)容落地上對高質(zhì)量、高數(shù)量的數(shù)據(jù)也有極強的依賴性。
大模型垂直領(lǐng)域落地,專業(yè)數(shù)據(jù)推進模型專業(yè)性發(fā)展。隨著模型質(zhì)量逐步提升,其應(yīng)用也逐步推廣。大模型垂直類知識的積累訓(xùn)練有助于其在醫(yī)療、安全、能源、工業(yè)等垂直領(lǐng)域的落地。Salesforce 研究院Ali Madani 團隊通過將蛋白質(zhì)氨基酸序列與表示蛋白質(zhì)功能屬性的標簽拼接,使用語言模型進行建模,提出可控蛋白質(zhì)序列語言模型ProGen,成功利用該模型預(yù)測并合成功能與自然界蛋白質(zhì)相近的人工溶菌酶。華為將盤古大模型3.0 運用于氣象預(yù)測,Pangu-Weather 精度超過傳統(tǒng)數(shù)值預(yù)報方法,預(yù)測速度提升10000倍;將盤古大模型運用于生物領(lǐng)域,通過藥物分子大模型找到替代Gp46 蛋白的小分子化合物,進而研發(fā)出超級抗菌藥DrugX,大模型將先導(dǎo)化合物研發(fā)周期大大縮短,降低了研發(fā)成本。
融合了垂直領(lǐng)域知識的大語言模型有望提升各產(chǎn)業(yè)的效益,但同時也對高質(zhì)量數(shù)據(jù)有著較強的依賴性。只有擁有豐富高質(zhì)量、高數(shù)量數(shù)據(jù)積累的行業(yè)和企業(yè),才能在大模型的支持下具有更強的發(fā)展?jié)摿Α?/p>
隨著大模型的發(fā)展,生成式人工智能取得了技術(shù)革命同時也帶來了新的發(fā)展機遇,也在一定程度上為虛假信息和危害用戶信息安全的內(nèi)容提供了滋生與傳播的土壤。因此在生成式人工智能發(fā)展的同時,國內(nèi)外相關(guān)管理政策也在逐步落地。國外各國對以ChatGPT 為代表的生成式人工智能采取了緊急措施。2023 年4 月11 日,美國商務(wù)部下屬國家電信和信息管理局就“存在潛在風(fēng)險的大模型在發(fā)布前是否應(yīng)該通過一項認證程序”發(fā)出了征求意見的請求。2023年4 月12 日,意大利個人數(shù)據(jù)保護局圍繞數(shù)據(jù)安全,要求ChatGPT 公開數(shù)據(jù)處理邏輯、對用戶年齡進行篩查、明確數(shù)據(jù)主體擁有的權(quán)利,并在達標后被允許恢復(fù)在意大利使用。2023 年4 月13 日,歐洲數(shù)據(jù)保護委員會(EDPB)宣布成立特別工作組,以加強監(jiān)管機構(gòu)之間的合作;國內(nèi)也對生成式人工智能進行了及時監(jiān)管,促進生成式人工智能健康生態(tài)發(fā)展。2023 年4 月11 日,我國互聯(lián)網(wǎng)信息辦公室起草了《生成式人工智能服務(wù)管理辦法(征求意見稿)》。2023 年7 月13 日,國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務(wù)管理暫行辦法》(以下簡稱《辦法》)。2023 年8 月15 日《辦法》正式施行。2023 年8 月31 日,以百度、字節(jié)、商湯、中國科學(xué)院旗下紫東太初為代表的首批八家通過《辦法》備案的企業(yè)與機構(gòu)大模型正式上線,并逐步向公眾提供服務(wù)。目前,國內(nèi)已有十一家大模型獲批,并將陸續(xù)向公眾開放。
自2019 年以來,我國在數(shù)據(jù)安全治理上不斷出臺相關(guān)政策,完善數(shù)據(jù)要素市場制度與頂層設(shè)計。2022 年12 月,中共中央、國務(wù)院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》從數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配和安全治理四方面,提出相關(guān)政策措施,為我國數(shù)據(jù)治理的長遠發(fā)展提供基礎(chǔ)指南。2023 年7 月13 日《辦法》對生成式人工智能服務(wù)中的數(shù)據(jù)安全、模型算法安全進行了進一步細化。
《辦法》就生成式人工智能數(shù)據(jù)安全層面,明確了訓(xùn)練數(shù)據(jù)處理活動和數(shù)據(jù)標注的各項要求?!掇k法》對大模型服務(wù)過程中的責(zé)任主體進行了說明,并對大模型的數(shù)據(jù)安全、數(shù)據(jù)來源問題進行了強調(diào),對數(shù)據(jù)來源中的肖像權(quán)、名譽權(quán)、個人隱私權(quán)、知識產(chǎn)權(quán)進行了特別說明,對用戶及數(shù)據(jù)來源信息安全進行監(jiān)管保護。
數(shù)據(jù)安全、數(shù)據(jù)來源的監(jiān)管是促進生成式人工智能健康發(fā)展的重要前提,也是防范生成式人工智能服務(wù)風(fēng)險的現(xiàn)實需要。
針對生成式人工智能這一新內(nèi)容,如何在把握人工智能新科技革命浪潮的同時實施內(nèi)容治理是生成式人工智能監(jiān)管的重點?!掇k法》對其生成內(nèi)容、模型算法設(shè)計、運營規(guī)范也進行了相關(guān)約束。
《辦法》通過對提供生成式人工智能服務(wù)的公司進行服務(wù)前模型算法、數(shù)據(jù)來源的評估備案,服務(wù)時生成內(nèi)容合法性、合理性的監(jiān)管要求,服務(wù)后用戶投訴接受處理機制的監(jiān)管完成對生成式人工智能的管理。目前,國內(nèi)已有部分提供生成式人工智能服務(wù)的相關(guān)企業(yè)機構(gòu)完成備案,《辦法》的出臺將對生成式人工智能內(nèi)容治理及健康生態(tài)提供發(fā)展基礎(chǔ)。
生成式人工智能作為新一代信息技術(shù)引領(lǐng)下的新興產(chǎn)業(yè)具有很大的發(fā)展?jié)摿?。隨著模型數(shù)據(jù)規(guī)模和質(zhì)量的不斷提升以及算力的增強,模型水平逐步提高,其在各垂直領(lǐng)域的應(yīng)用逐漸呈現(xiàn)出專業(yè)化和精細化趨勢。目前各行業(yè)對大模型的熱情依然高漲,生成式人工智能的監(jiān)管面臨一定挑戰(zhàn)。在《辦法》的指導(dǎo)下,政府、企業(yè)及研究機構(gòu)需要共同探尋,在確保人工智能的可持續(xù)健康發(fā)展下,保障技術(shù)創(chuàng)新。