摘要:2022年11月底,美國OpenAI公司推出的ChatGPT被認(rèn)為將定義全球人工智能發(fā)展新范式。該文梳理了ChatGPT及國內(nèi)外通用人工智能技術(shù)生態(tài)發(fā)展的情況,討論了ChatGPT對行業(yè)產(chǎn)生的影響,探討了廣東省發(fā)展通用人工智能所面臨的問題,并給出了相應(yīng)的建議。
關(guān)鍵詞:ChatGPT;大模型;人工智能;技術(shù)生態(tài)
中圖分類號:F49文獻(xiàn)標(biāo)志碼:A 文章編號:1674-2605(2023)06-0002-07
DOI:10.3969/j.issn.1674-2605.2023.06.002
The Development of General Artificial Intelligence Based on ChatGPT""""" and Its Inspiration for Guangdong
WANG Huan1WANG Taoye1 SHANG Huimin1FU Xiaohui2
(1.Guangdong Institute of Scientific and Technical Information,Guangzhou 510033,China
2.Tsinghua High School Greater Bay Area,Guangzhou 510630,China)
Abstract: At the end of November 2022, the ChatGPT launched by OpenAI in the United States is believed to define a new paradigm for global artificial intelligence development. This article reviews the ecological development of ChatGPT and general artificial intelligence technology at home and abroad, discusses the impact of ChatGPT on the industry, explores the problems faced by Guangdong Province in developing general artificial intelligence, and provides corresponding suggestions.
Keywords: ChatGPT; large model; artificial intelligence; technology ecology
0" 引言
2022年11月30日,美國OpenAI公司發(fā)布對話式通用型人工智能工具——生成型預(yù)訓(xùn)練變換(chat generative pre-trained transformer, ChatGPT),其超高的人機(jī)交互水平、強(qiáng)大的通用性及邏輯推理能力引發(fā)全球高度關(guān)注,行業(yè)認(rèn)為以ChatGPT為代表的大模型將定義全球人工智能發(fā)展新范式[1]。本文以ChatGPT為研究對象,梳理ChatGPT的研發(fā)背景、發(fā)展歷程和技術(shù)特點(diǎn),調(diào)研國內(nèi)外及廣東省在ChatGPT等大模型相關(guān)技術(shù)生態(tài)發(fā)展的情況,同時針對ChatGPT對行業(yè)
發(fā)展產(chǎn)生的影響進(jìn)行分析研判,并總結(jié)廣東省現(xiàn)階段在發(fā)展ChatGPT上面臨的問題,同時提出相應(yīng)的建議,以供參考和借鑒。
1" ChatGPT基本情況
ChatGPT模型[2-3]是一種由人工智能技術(shù)驅(qū)動的自然語言處理工具,采用了“大數(shù)據(jù)+高算力+強(qiáng)算法”的技術(shù)路線,以“基礎(chǔ)大模型+參數(shù)微調(diào)”的模式,通過學(xué)習(xí)和理解人類的語言來進(jìn)行對話,能根據(jù)聊天的上下文進(jìn)行互動,甚至能完成撰寫郵件、視頻腳本、文案、代碼、論文等任務(wù)[4]。
1.1" 背景
ChatGPT由OpenAI公司設(shè)計(jì)研發(fā)。該公司成立于2015年,主要從事語言大模型、強(qiáng)化學(xué)習(xí)、機(jī)器人、生物信息學(xué)、生成對抗網(wǎng)絡(luò)等領(lǐng)域的研究[5]。在人才方面,OpenAI公司目前由87位核心成員組成,絕大多數(shù)來自MIT、微軟等全球頂尖高校或知名企業(yè),是其在機(jī)器學(xué)習(xí)、數(shù)據(jù)庫、機(jī)器人等人工智能相關(guān)領(lǐng)域處于全球領(lǐng)先地位的重要保障;在算力支撐方面,OpenAI公司與微軟Azure云平臺合作,發(fā)布了具有28.5萬個CPU核心、1萬個GPU和400 GB/s GPU傳輸帶寬的超級計(jì)算機(jī)(Azure Supercomputer),為ChatGPT的訓(xùn)練、日常運(yùn)營和參數(shù)調(diào)優(yōu)提供算力基礎(chǔ);在數(shù)據(jù)規(guī)模方面,OpenAI訓(xùn)練數(shù)據(jù)集囊括了全球大量書籍、維基百科、論壇、博客、聊天群等高質(zhì)量文本庫和網(wǎng)絡(luò)語料庫,數(shù)據(jù)總量接近8 000億個分詞。
1.2" 發(fā)展歷程
ChatGPT是由自然語言處理(natural language processing, NLP)技術(shù)發(fā)展而來,運(yùn)用了統(tǒng)計(jì)學(xué)、概率論、傳統(tǒng)機(jī)器學(xué)習(xí)等知識,以及神經(jīng)網(wǎng)絡(luò)模型Transformer(谷歌公司開發(fā))、人類反饋強(qiáng)化學(xué)習(xí)(reinforcement learning from human feedback,RLHF)、零樣本學(xué)習(xí)、提示學(xué)習(xí)等技術(shù)[6],歷經(jīng)了GPT-1、GPT-2、GPT-3和GPT-3.5(InstructGPT)等多個版本的演進(jìn)[7]。ChatGPT相關(guān)大模型發(fā)展歷程如圖1所示。
GPT-1和GPT-2基于Transformer架構(gòu),分別發(fā)布于2018、2019年。GPT-1的參數(shù)量為1.17億個、預(yù)訓(xùn)練數(shù)據(jù)量為5GB;GPT-2的參數(shù)量為15億個、預(yù)訓(xùn)練數(shù)據(jù)量為40GB,與谷歌公司同期開發(fā)的神經(jīng)網(wǎng)絡(luò)模型BERT差距不大。在此階段,OpenAI通過開源社區(qū)的方式吸引大量開發(fā)者參與,不斷優(yōu)化升級。
GPT-3的參數(shù)量為1750億個,預(yù)訓(xùn)練數(shù)據(jù)量為45TB,不僅使用了同期最大參數(shù)量和訓(xùn)練數(shù)據(jù)量,還采用上下文學(xué)習(xí)技術(shù),具有元學(xué)習(xí)的能力。其使用極少數(shù)據(jù)量的下游樣例作為提示詞,就能生成對應(yīng)任務(wù)要求的答案,在性能方面大幅領(lǐng)先BERT等競爭對手。此后,OpenAI開始采取閉源的方式隱藏技術(shù)細(xì)節(jié),并一直保持領(lǐng)先地位。
GPT-3.5(InstructGPT)參數(shù)量比GPT-3減小了100多倍,僅有13億個,但性能大幅優(yōu)于GPT-3。GPT-3.5最大的特點(diǎn)是引入了RLHF方法對預(yù)訓(xùn)練模型進(jìn)行微調(diào),生成內(nèi)容更接近人類的特征和偏好。ChatGPT采用GPT-3.5的訓(xùn)練方法,但并未披露具體的模型架構(gòu)、參數(shù)量、訓(xùn)練數(shù)據(jù)量等信息。
1.3" 技術(shù)特點(diǎn)
一是ChatGPT使用大規(guī)模高質(zhì)量數(shù)據(jù)、高性能算力,性能和泛化能力更強(qiáng)。一方面,ChatGPT在數(shù)據(jù)規(guī)模和質(zhì)量上領(lǐng)先其他競爭對手。其使用了經(jīng)過基礎(chǔ)過濾的全網(wǎng)頁爬蟲數(shù)據(jù)集,及維基百科等訓(xùn)練數(shù)據(jù)集,數(shù)據(jù)量達(dá)百TB[8]。為保證數(shù)據(jù)安全合規(guī),OpenAI公司委托其合作伙伴Sama公司,雇傭肯尼亞、烏干達(dá)、印度等國家的外包員工,對龐大的數(shù)據(jù)集進(jìn)行手動標(biāo)注,大幅提升了有害信息的鑒別能力。另一方面,ChatGPT的訓(xùn)練和運(yùn)營需要海量算力資源來支持。在訓(xùn)練階段,ChatGPT算力消耗約為3640PF(1015次浮點(diǎn)運(yùn)算)/天,需要7~8個投資規(guī)模5億美元、算力500PF的數(shù)據(jù)中心才能支撐,訓(xùn)練成本約為500萬美元/次;在運(yùn)營階段,僅GPU的年投入就高達(dá)7000萬美元。
二是ChatGPT基于Transformer架構(gòu)、預(yù)訓(xùn)練范式等技術(shù),生成內(nèi)容更加準(zhǔn)確。一方面,ChatGPT可處理大篇幅的輸入文本,且通過上下文學(xué)習(xí),可以從多輪對話中捕捉連續(xù)信息。如ChatGPT以B級成績通過沃頓商學(xué)院MBA期末考試、通過美國執(zhí)業(yè)醫(yī)師資格考試等[9]。另一方面,ChatGPT以提示詞作為模型文本生成過程的起點(diǎn),改進(jìn)傳統(tǒng)預(yù)訓(xùn)練范式,設(shè)置了問答的前置條件、假設(shè)或額外要求,可提供具體的任務(wù)或目標(biāo),使ChatGPT能夠更準(zhǔn)確地理解用戶的意圖,如完成句子、生成標(biāo)題、回答問題等。
三是ChatGPT利用人類反饋的強(qiáng)化學(xué)習(xí),迭代升級更加高效,模型即服務(wù)時代或?qū)砼R。一方面,ChatGPT收集用戶的反饋數(shù)據(jù)用于循環(huán)更新模型,通過微調(diào)參數(shù)實(shí)現(xiàn)在線學(xué)習(xí)或細(xì)分領(lǐng)域的定向升級。在圖靈測試中,已無法準(zhǔn)確區(qū)分ChatGPT和人類撰寫的新聞、故事等內(nèi)容;在編寫代碼、論文、研究報(bào)告等細(xì)分領(lǐng)域,ChatGPT在面對具有復(fù)雜冗長語言結(jié)構(gòu)的文本時,表現(xiàn)出的知識儲備和邏輯思維能力達(dá)到人類專家水平。另一方面,ChatGPT推動大模型服務(wù)趨向終端用戶?;谡Z言大模型,面向終端用戶需求的應(yīng)用場景和商業(yè)模式,如訂閱制收費(fèi)、嵌入其他產(chǎn)品形成引流收入等,將改變用戶的信息獲取習(xí)慣。人工智能的落地應(yīng)用或?qū)⑦M(jìn)入模型即服務(wù)的時代。
2" 國內(nèi)外通用人工智能技術(shù)生態(tài)發(fā)展情況
美國在人工智能技術(shù)研究和產(chǎn)業(yè)化應(yīng)用方面均領(lǐng)先于全球其他國家和地區(qū),其人工智能創(chuàng)新發(fā)展代表著國外的先進(jìn)水平,因此本文主要對美國通用人工智能發(fā)展情況進(jìn)行梳理。
2.1" 國外發(fā)展情況
一是在底層技術(shù)方面,美國依靠先發(fā)優(yōu)勢,通過開源加快迭代,占據(jù)全球領(lǐng)先地位。2014年,美國人工智能領(lǐng)域?qū)<襂an J. Goodfellow提出了第一代生成式模型——生成式對抗網(wǎng)絡(luò)GAN[10],生成式人工智能的發(fā)展歷程如圖2所示。
2017年,谷歌大腦研究出當(dāng)前大模型領(lǐng)域關(guān)鍵基礎(chǔ)架構(gòu)Transformer,基于此架構(gòu),谷歌、OpenAI、Meta等頭部企業(yè)在分布式計(jì)算、訓(xùn)練方法、模型參數(shù)微調(diào)等關(guān)鍵技術(shù)上不斷加大研發(fā)投入,發(fā)布了備受行業(yè)關(guān)注的BERT、GPT(GPT-1、GPT-2)、ROBERTA等預(yù)訓(xùn)練大模型,并通過開源共享等方式,吸引大量開發(fā)者快速迭代,形成技術(shù)生態(tài)。
二是在技術(shù)應(yīng)用方面,國外頭部企業(yè)注重將大模型技術(shù)與文本、圖像、音頻等結(jié)合,在多種應(yīng)用場景實(shí)現(xiàn)了技術(shù)突破。在文本領(lǐng)域,大模型技術(shù)主要應(yīng)用于機(jī)器翻譯、文學(xué)創(chuàng)作、機(jī)器問答等場景,如Meta發(fā)布的機(jī)器翻譯模型M2M-100,可實(shí)現(xiàn)一百種語言之間的直接翻譯;在圖像領(lǐng)域,NeRF、GODIVA、Stable Diffusion等圖像生成模型,可根據(jù)文字自主生成圖像,具有一定的理解、組合和創(chuàng)造能力;在音頻領(lǐng)域,谷歌、微軟、亞馬遜等將傳統(tǒng)方法與大規(guī)模預(yù)訓(xùn)練模型結(jié)合,開發(fā)的Magenta等大模型提升了合成語音的音質(zhì)和流暢度。
三是在產(chǎn)品落地方面,美國科技巨頭將類ChatGPT產(chǎn)品作為重點(diǎn)方向進(jìn)行產(chǎn)業(yè)化布局。微軟、谷歌、Meta等科技企業(yè)高度重視相關(guān)技術(shù)引發(fā)的科技浪潮,不斷加大對大規(guī)模預(yù)訓(xùn)練模型產(chǎn)業(yè)應(yīng)用的投入和布局。微軟計(jì)劃于近期將ChatGPT整合進(jìn)Bing搜索引擎、Office辦公軟件、Azure云服務(wù)、Teams團(tuán)隊(duì)協(xié)作程序等全產(chǎn)品線中。谷歌內(nèi)部積極開發(fā)基于對話應(yīng)用語言模型LaMDA的AI聊天系統(tǒng)軟件Apprentice Bard,并把該產(chǎn)品作為研發(fā)團(tuán)隊(duì)的首要任務(wù)。Meta近日公布了一款全新大型語言模型LLaMA,參數(shù)量從70億個到650億個不等,該公司宣稱LLaMA是“目前水平最高的”大型語言模型,具有解決數(shù)學(xué)定理或預(yù)測蛋白質(zhì)結(jié)構(gòu)等更復(fù)雜任務(wù)的能力。
四是在配套保障方面,美國通過資金、人才、政策全面布局,不斷鞏固優(yōu)勢地位。2016年,美國發(fā)布《美國國家人工智能研究與發(fā)展戰(zhàn)略計(jì)劃》等文件,提前規(guī)劃人工智能發(fā)展路線。2017、2018年,美國通過聯(lián)邦法案和《支持聯(lián)邦研究計(jì)劃》分別投入50億美元和20億美元,用于發(fā)展人工智能機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)。2019年美國國家科學(xué)基金會投入6億美元用于支持國內(nèi)各大學(xué)和研究機(jī)構(gòu)開展人工智能數(shù)據(jù)應(yīng)用和研究工作。2021年,美國推動地方政府制定并落實(shí)促進(jìn)AI技術(shù)發(fā)展的政策條例,通過放寬移民政策吸引全球優(yōu)秀人才到美國發(fā)展。2022年,美國發(fā)布《芯片與科學(xué)法案》,從底層算力上遏制潛在競爭對手的技術(shù)發(fā)展,進(jìn)一步提升了在高性能計(jì)算領(lǐng)域的國際話語權(quán)。
2.2國內(nèi)發(fā)展情況
一是我國大模型技術(shù)不斷發(fā)展,參數(shù)規(guī)模和模型能力顯著提升。在模型規(guī)模方面,華為“盤古-NPL”大模型參數(shù)量達(dá)到2200億個。北京智源“悟道2.0”模型參數(shù)量達(dá)到1.75萬億個,是GPT-3的十倍。阿里“M6”圖像大模型參數(shù)量超過10萬億個。在模型能力方面,“盤古”“悟道”“文心”(百度)等大模型在處理部分單項(xiàng)任務(wù)上處于世界領(lǐng)先水平。如華為“盤古-NPL”大模型在中文語言理解評測基準(zhǔn)CLUE榜單中,總排行榜及分類、閱讀理解單項(xiàng)均排名第一[11-12]。
二是我國大模型市場潛力巨大,研發(fā)能力和創(chuàng)新產(chǎn)品持續(xù)增強(qiáng)。百度、阿里等頭部企業(yè)開展大模型技術(shù)應(yīng)用,在文本、圖像、音樂生成和游戲競技等領(lǐng)域積極部署。百度依托其搜索引擎、百度文庫、百度知道等高質(zhì)量數(shù)據(jù)庫,在國內(nèi)最早開展生成式AI技術(shù)研發(fā);2023年3月,推出“文心一言”語言大模型,并將搜索、智能云、自動駕駛Apollo、小度智能設(shè)備等多項(xiàng)業(yè)務(wù)與“文心一言”整合,進(jìn)而提升產(chǎn)品智能化水平。阿里開發(fā)了“DT稿王”新聞寫作系統(tǒng)、“鹿班”智能設(shè)計(jì)軟件,目前在研發(fā)對話式機(jī)器人,計(jì)劃將大模型技術(shù)與“釘釘”等工具深度結(jié)合。
三是我國大模型應(yīng)用初現(xiàn)成效,場景“寬度”和內(nèi)容“深度”不斷拓展。百度將“百度深燃文心”大模型與燃?xì)庑袠I(yè)相結(jié)合,針對燃?xì)庑袠I(yè)中槽車作業(yè)、園區(qū)生產(chǎn)等場景存在的安全隱患痛點(diǎn),開展工業(yè)巡檢和環(huán)境巡檢,確保安全作業(yè),消除安全隱患,助力燃?xì)庑袠I(yè)智能化升級。華為將“盤古-科學(xué)計(jì)算”大模型與藥物研發(fā)領(lǐng)域結(jié)合,提高發(fā)現(xiàn)新藥的可能性。
四是廣東省在大模型相關(guān)領(lǐng)域技術(shù)上已有布局,但尚未形成具有全球影響力的產(chǎn)品。2018年以來,廣東省陸續(xù)發(fā)布了《廣東省新一代人工智能發(fā)展規(guī)劃》《廣東省新一代人工智能創(chuàng)新發(fā)展行動計(jì)劃(2018~2020年)》《廣東省新一代人工智能創(chuàng)新發(fā)展行動計(jì)劃(2022~2025年)》等文件,統(tǒng)籌推進(jìn)廣東省人工智能的發(fā)展。2022年,廣東省人工智能企業(yè)數(shù)量約1500家,人工智能核心產(chǎn)業(yè)規(guī)模達(dá)1 500億元,處于國內(nèi)第一梯隊(duì),但在基礎(chǔ)大模型、生成式AI等人工智能前沿基礎(chǔ)領(lǐng)域較為薄弱。目前廣東省內(nèi)僅騰訊、華為、網(wǎng)易、云從、鵬城實(shí)驗(yàn)室、人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(深圳)等機(jī)構(gòu)在ChatGPT相關(guān)技術(shù)上有所布局,主要側(cè)重在游戲生成、文本生成、代碼生成等方面。騰訊基于“混元”大模型開發(fā)了策略協(xié)作模型“絕悟AI”,應(yīng)用于電子競技對抗。華為聯(lián)合鵬城實(shí)驗(yàn)室于2021年發(fā)布了業(yè)界首個千億級參數(shù)的“盤古”大模型,包括自然語言處理(natural language processing,NLP)大模型、計(jì)算機(jī)視覺(computer vision, CV)大模型、多模態(tài)大模型、科學(xué)計(jì)算大模型,在工業(yè)缺陷檢測、內(nèi)容審核、金融風(fēng)控等多個領(lǐng)域均有應(yīng)用。網(wǎng)易伏羲中文預(yù)訓(xùn)練大模型“玉言”登頂中文語言理解測評基準(zhǔn)CLUE分類任務(wù)榜單,在多項(xiàng)任務(wù)上超過人類水平,其具備的自然語言處理能力,可應(yīng)用于語言助手文本創(chuàng)作、新聞傳媒、智能客服等領(lǐng)域。云從陸續(xù)在自然語言處理、機(jī)器視覺、人機(jī)協(xié)同等多個領(lǐng)域開展預(yù)訓(xùn)練大模型的研究,致力于整合打通視覺、語音、NLP等多個領(lǐng)域,研發(fā)出人機(jī)協(xié)同操作系統(tǒng)CWOS。2023年,人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(深圳)聯(lián)合騰訊重點(diǎn)聚焦代碼自動生成領(lǐng)域,對標(biāo)微軟GitHub Copilot、亞馬遜CodeWhisperer、DeepMind AlphaCode等業(yè)內(nèi)成熟產(chǎn)品開展技術(shù)攻關(guān)。
3 對行業(yè)產(chǎn)生影響
ChatGPT等大模型的出現(xiàn),將實(shí)現(xiàn)單一領(lǐng)域人工智能向通用領(lǐng)域人工智能的突破,加速推動人工智能與實(shí)體經(jīng)濟(jì)的融合,同時也將對社會安全帶來新挑戰(zhàn)。
3.1大模型將成為人工智能賦能千行百業(yè)的底座,助力人工智能與實(shí)體經(jīng)濟(jì)融合
一是ChatGPT在醫(yī)療、教育、零售、媒體等行業(yè)可能引發(fā)生產(chǎn)方式的變革。從目前看,ChatGPT對基礎(chǔ)性的文字編譯、軟件編寫、客服、數(shù)據(jù)整合等工作內(nèi)容具有替代性,可提供大量低成本、高質(zhì)量的服務(wù),將對醫(yī)療、教育、零售等行業(yè)形成巨大沖擊。在醫(yī)療行業(yè)方面,ChatGPT可以替代傳統(tǒng)電話在線咨詢,甚至部分門診服務(wù),給身體不便或者沒有足夠時間就醫(yī)的患者提供更加便捷和有效的服務(wù);同時在醫(yī)療端引入標(biāo)準(zhǔn)化和模塊化的醫(yī)療衛(wèi)生服務(wù),可減少醫(yī)療工作者的時間投入,提高醫(yī)療服務(wù)效率。在媒體行業(yè)方面,ChatGPT可以對信息的有效性進(jìn)行篩選和分析,提高信息獲取效率,不僅能夠進(jìn)行信息查找與整合,還可以根據(jù)客戶需求創(chuàng)造文本,有可能在未來取代現(xiàn)有的搜索引擎,并將顛覆整個搜索領(lǐng)域的商業(yè)模式。在教育和零售行業(yè)方面,ChatGPT可以根據(jù)客戶需求規(guī)劃學(xué)習(xí)計(jì)劃、學(xué)習(xí)路徑、銷售策略等,提供更加個性化的服務(wù),同時可以提供不同商品營銷策略的對比分析,讓客戶可以在不同學(xué)科間協(xié)同學(xué)習(xí),不同對象間交流探討,打破原有教學(xué)一對多、單線程和銷售模式固化的缺陷,節(jié)約成本,提高效率。
二是大模型加速人工智能技術(shù)產(chǎn)業(yè)化的進(jìn)程,降低人工智能應(yīng)用門檻。大模型通過從海量的、多類型的場景數(shù)據(jù)中訓(xùn)練知識結(jié)構(gòu),總結(jié)不同場景、不同業(yè)務(wù)的通用知識,得到數(shù)據(jù)的特征和規(guī)則,有效地解決應(yīng)用場景需求碎片化、應(yīng)用落地難、投入重復(fù)等痛點(diǎn)問題。當(dāng)進(jìn)行應(yīng)用開發(fā)或面對新的業(yè)務(wù)場景時,通過對大模型進(jìn)行參數(shù)微調(diào)、二次訓(xùn)練,即可實(shí)現(xiàn)多個應(yīng)用場景的任務(wù),降低AI應(yīng)用模型的開發(fā)門檻以及訓(xùn)練成本。
三是大模型技術(shù)將朝著多模態(tài)發(fā)展,賦能千行百業(yè)。現(xiàn)階段,類ChatGPT大模型主要應(yīng)用于自然語言理解處理領(lǐng)域,未來AI大模型將從單一模態(tài)下的單一任務(wù)逐步發(fā)展成為支持圖像、文本、語音、視頻多模態(tài)下的多種任務(wù),多模態(tài)AI大模型在能力泛化與技術(shù)融合方面更具優(yōu)勢,在跨域支撐、解決復(fù)雜任務(wù)方面具有先進(jìn)性,可實(shí)現(xiàn)規(guī)模和范圍的普及,賦能千行百業(yè)具備“基礎(chǔ)設(shè)施”式的功能。大模型在未來將成為一種公共基礎(chǔ)資源。
3.2 ChatGPT對社會安全和技術(shù)發(fā)展帶來挑戰(zhàn)
一是技術(shù)的局限性導(dǎo)致真假信息混淆。ChatGPT作為一類生成技術(shù),會輸出與事實(shí)邏輯不一致的錯誤內(nèi)容,在其“一本正經(jīng)地胡說八道”時,非專業(yè)人員無法識別。
二是模型濫用危害社會安全。不法分子利用模型的生成能力進(jìn)行黑公關(guān)、刷流量等危害社會穩(wěn)定的行為,致使網(wǎng)絡(luò)黑色產(chǎn)業(yè)鏈快速發(fā)展,危害社會安全。
三是對我國技術(shù)發(fā)展造成隱患。谷歌于2017年在全球至少81個國家/地區(qū)同步申請Transformer專利保護(hù),將對我國基于Transformer的技術(shù)和應(yīng)用生態(tài)帶來一定的專利風(fēng)險(xiǎn)和知識產(chǎn)權(quán)隱患。
4廣東啟示與建議
目前,業(yè)界紛紛預(yù)言,以ChatGPT為代表的大模型可能會引發(fā)人工智能領(lǐng)域的新一輪技術(shù)革命,未來人工智能的發(fā)展對數(shù)據(jù)、算力、算法、生態(tài)等提出更高的要求,通過對比分析廣東省與國外在人工智能領(lǐng)域技術(shù)支撐、生態(tài)建設(shè)等方面的差距,促進(jìn)廣東省積極把握人工智能發(fā)展機(jī)遇,加快構(gòu)建“基礎(chǔ)研究+技術(shù)攻關(guān)+成果轉(zhuǎn)化+科技金融+人才支撐”全過程創(chuàng)新生態(tài)鏈,推動人工智能與制造業(yè)等重點(diǎn)行業(yè)深度融合,支撐相關(guān)產(chǎn)業(yè)高質(zhì)量發(fā)展。
4.1 加強(qiáng)關(guān)鍵核心技術(shù)攻關(guān),提升人工智能原始創(chuàng)新能力
人工智能技術(shù)始于上世紀(jì)50年代,由美國發(fā)起,目前大部分人工智能底層技術(shù)都由美國企業(yè)首先研發(fā)和提出,經(jīng)過幾十年的發(fā)展,逐漸形成了技術(shù)生態(tài)。廣東企業(yè)關(guān)注應(yīng)用層面技術(shù)研發(fā)遠(yuǎn)大于底層技術(shù)研究,尤其對成效慢、投入大的“根技術(shù)”缺乏戰(zhàn)略縱深的系統(tǒng)性布局,缺少長期持續(xù)的資金投入。
下一步,應(yīng)加大對“根技術(shù)”的關(guān)注和投入力度,提升廣東原始創(chuàng)新能力。一是圍繞通用基礎(chǔ)模型、算法遷移、人工智能自主學(xué)習(xí)、智能標(biāo)注、多模態(tài)數(shù)據(jù)理解等領(lǐng)域開展關(guān)鍵核心技術(shù)攻關(guān),加大對“根技術(shù)”“元技術(shù)”的支持力度。二是鼓勵高校、科研院所加大基礎(chǔ)理論研究,形成一批原創(chuàng)性理論成果。三是引導(dǎo)、支持企業(yè)在基礎(chǔ)計(jì)算框架方面加強(qiáng)研發(fā),長期投入,擺脫國外技術(shù)框架的捆綁。
4.2加強(qiáng)基礎(chǔ)設(shè)施建設(shè),為AI發(fā)展提供產(chǎn)業(yè)底座
廣東在芯片制造、框架適配及軟件棧搭建等方面尚未形成自主可控、統(tǒng)一技術(shù)路線和產(chǎn)業(yè)合力。目前國產(chǎn)高端芯片仍處于起步階段,性能與國際先進(jìn)水平差距3倍以上,支撐能力較弱。近年,美國通過“AI高端芯片禁售+《芯片與科學(xué)法案》實(shí)施”的“組合拳”,全面阻礙我國AI芯片發(fā)展的步伐,限制我國高性能算力的全面布局。
下一步,一是持續(xù)夯實(shí)全國一體化算力網(wǎng)絡(luò)粵港澳大灣區(qū)國家樞紐節(jié)點(diǎn)韶關(guān)數(shù)據(jù)中心集群、國家超級計(jì)算廣州中心、國家超級計(jì)算深圳中心、廣州人工智能公共算力中心、橫琴先進(jìn)智能計(jì)算平臺、“鵬城云腦”等智能算力基礎(chǔ)設(shè)施,為國家戰(zhàn)略布局提供支撐。二是推動AI芯片、并行計(jì)算架構(gòu)、系統(tǒng)軟件架構(gòu)的國產(chǎn)化應(yīng)用,搭建形成智能算力網(wǎng),構(gòu)筑AI算力底座。三是建設(shè)高質(zhì)量數(shù)據(jù)庫和數(shù)據(jù)服務(wù)平臺,面向工業(yè)、自動駕駛、科學(xué)計(jì)算等領(lǐng)域,通過匯聚高質(zhì)量、權(quán)威的行業(yè)訓(xùn)練數(shù)據(jù)資源,形成行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)集;搭建多模態(tài)、精度轉(zhuǎn)換、智能標(biāo)注、預(yù)處理等功能的數(shù)據(jù)標(biāo)注平臺,為人工智能賦能實(shí)體經(jīng)濟(jì)提供必備的數(shù)據(jù)支撐。
4.3加強(qiáng)部門協(xié)同,構(gòu)建完善的人工智能產(chǎn)業(yè)生態(tài)體系
目前,國際先進(jìn)企業(yè)將技術(shù)成果開放API給予用戶調(diào)用,并鼓勵二次開發(fā),借助用戶反饋數(shù)據(jù)進(jìn)行優(yōu)化,通過開源社區(qū)促進(jìn)版本更新,形成雙向迭代的良好生態(tài)。廣東省在開放開源社區(qū)建設(shè)上與谷歌開發(fā)者社區(qū)、軟件項(xiàng)目托管平臺Github等相比仍有較大差距,且省內(nèi)企業(yè)更傾向于將代碼、算法等作為企業(yè)內(nèi)部核心資源,對外少有提供核心服務(wù),尚未形成上下游協(xié)同的良好產(chǎn)業(yè)生態(tài)。
下一步,一是在政策引導(dǎo)、技術(shù)攻關(guān)、產(chǎn)業(yè)培育、融合應(yīng)用、人才培養(yǎng)等方面,加強(qiáng)與廣東省工業(yè)和信息化廳、廣東省發(fā)展和改革委員會、廣東省教育廳等相關(guān)部門的協(xié)作聯(lián)動,形成體系化支撐,構(gòu)建完善AI產(chǎn)業(yè)生態(tài)。二是建設(shè)開源開放共享的人工智能公共服務(wù)平臺,支撐中小企業(yè)智能技術(shù)的開發(fā)和應(yīng)用,推動制造、交通、農(nóng)業(yè)、醫(yī)療、教育、物流等領(lǐng)域形成典型場景示范應(yīng)用。三是支持龍頭企業(yè)加大創(chuàng)新投入,組建創(chuàng)新聯(lián)合體,開展核心技術(shù)攻關(guān)和成果轉(zhuǎn)化,培育一批科技領(lǐng)軍企業(yè)。四是充分發(fā)揮公共財(cái)政引導(dǎo)作用,鼓勵各類產(chǎn)業(yè)基金、資金池等融資工具來支持人工智能產(chǎn)業(yè)發(fā)展。
參考文獻(xiàn)
[1] 朱光輝,王喜文.ChatGPT的運(yùn)行模式、關(guān)鍵技術(shù)及未來圖景[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2023,44(4):113- 122.
[2] 陳永偉.超越ChatGPT:生成式AI的機(jī)遇、風(fēng)險(xiǎn)與挑戰(zhàn)[J].山東大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2023(3):127-143.
[3] 郭洪飛,韋雨佳,任亞平,等.AI驅(qū)動智能優(yōu)化與控制文獻(xiàn)計(jì)量分析[J].機(jī)電工程技術(shù),2023,52(4):1-5.
[4] 王建磊,曹卉萌.ChatGPT的傳播特質(zhì)、邏輯、范式[J].深圳大學(xué)學(xué)報(bào)(人文社會科學(xué)版),2023,40(2):144-152.
[5] 王樹義,張慶薇.ChatGPT給科研工作者帶來的機(jī)遇與挑戰(zhàn)[J].圖書館論壇,2023,43(3):109-118.
[6] 張凌寒.深度合成治理的邏輯更新與體系迭代——ChatGPT等生成型人工智能治理的中國路徑[J].法律科學(xué)(西北政法大學(xué)學(xué)報(bào)),2023,41(3):38-51.
[7] 張夏恒.ChatGPT的邏輯解構(gòu)、影響研判及政策建議[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2023,44(5):113-123.
[8] 何哲,曾潤喜,秦維,等.ChatGPT等新一代人工智能技術(shù)的社會影響及其治理[J].電子政務(wù),2023(4):2-24.
[9] 李冬雪,朱冀濤,劉巖,等.新一代基建工地安全智能管控平臺設(shè)計(jì)與規(guī)劃[J].中國測試,2022,48(S2):133-138.
[10] 錢力,劉熠,張智雄,等.ChatGPT的技術(shù)基礎(chǔ)分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(3):6-15.
[11] 趙朝陽,朱貴波,王金橋.ChatGPT給語言大模型帶來的啟示和多模態(tài)大模型新的發(fā)展思路[J].數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023,7(3):26-35.
[12] 國金證券研究所.華為盤古大模型研究:盤古開天,AI落地[EB/OL].https://baijiahao.baidu.com/s?id=1762938971407815759amp;wfr=spideramp;for=pc,2023-04-12.
作者簡介:
王歡,男,1988年生,博士,助理研究員,主要研究方向:科技戰(zhàn)略與規(guī)劃、科技情報(bào)、人工智能等領(lǐng)域產(chǎn)業(yè)與技術(shù)。E-mail: 306434662@qq.com
王陶冶,女,1991年生,碩士,助理研究員,主要研究方向:科技情報(bào)、科技戰(zhàn)略、網(wǎng)絡(luò)信息安全等。
商惠敏,女,1981年生,碩士,研究員,主要研究方向:科技戰(zhàn)略與規(guī)劃、科技情報(bào)、人工智能等領(lǐng)域產(chǎn)業(yè)與技術(shù)。
符小惠,女,1993年生,碩士,一級教師,主要研究方向:數(shù)學(xué)、信息與計(jì)算科學(xué)。