蔡津津
(新華社媒體融合生產(chǎn)與技術(shù)系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100000)
隨著萬(wàn)物互聯(lián)的新一代信息技術(shù)飛速發(fā)展,數(shù)字世界與現(xiàn)實(shí)世界的融合不斷加深,大規(guī)模數(shù)據(jù)與算力共同推動(dòng)的人工智能技術(shù)跨越式發(fā)展,全球科研團(tuán)隊(duì)都在致力于讓人工智能具備人類理解、思考、邏輯推理和輸出內(nèi)容的能力。從而大幅降低人類操作數(shù)字世界來(lái)改造現(xiàn)實(shí)世界的成本和門(mén)檻,而其中人類語(yǔ)言(又稱自然語(yǔ)言)具有歧義性、抽象性、無(wú)窮的語(yǔ)義組合性和持續(xù)進(jìn)化性等特點(diǎn),并且理解語(yǔ)言往往需要具有一定的知識(shí)推理和認(rèn)知能力,因此自然語(yǔ)言處理領(lǐng)域是人工智能技術(shù)突破的關(guān)鍵難點(diǎn),是制約人工智能取得更大躍升和更廣泛應(yīng)用的瓶頸之一,又被譽(yù)為“人工智能皇冠上的明珠”。[1]自2022 年年底,生成式人工智能(AIGC)技術(shù)的爆發(fā)式增長(zhǎng)已突破了這一障礙,并讓全球新聞?shì)浾摳窬质紫让媾R顛覆式的改變。
美國(guó)OpenAI 公司從2018 年起開(kāi)始專注于GPT 系列大規(guī)模生成式預(yù)訓(xùn)練語(yǔ)言模型的技術(shù)路線,在“大規(guī)模數(shù)據(jù)+大規(guī)模算力+大規(guī)模參數(shù)=大模型”基礎(chǔ)上探索出了“基礎(chǔ)大模型+指令微調(diào)”的人工智能新范式[2],突破了人工智能理解、處理和生成自然語(yǔ)言的瓶頸?;诖笠?guī)模預(yù)訓(xùn)練語(yǔ)言模型,GPT-4 的應(yīng)用ChatGPT,可以通過(guò)與人類進(jìn)行多輪對(duì)話的方式,識(shí)別人類意圖和隱喻、理解對(duì)話上下文、進(jìn)行邏輯思考和推理、生成內(nèi)容完整清晰合理的回答、優(yōu)化內(nèi)容中的知識(shí)點(diǎn)和措辭風(fēng)格,并可以進(jìn)一步通過(guò)接口對(duì)接集成到各類應(yīng)用程序中,擴(kuò)展執(zhí)行多類任務(wù),涌現(xiàn)出了不同以往的智能水平,展現(xiàn)了如下能力。
(1)具備通用知識(shí)水平,并能向不同專業(yè)領(lǐng)域擴(kuò)充和掌握知識(shí)。通過(guò)增加專業(yè)領(lǐng)域的訓(xùn)練數(shù)據(jù)和多個(gè)領(lǐng)域?qū)<掖竽P椭g的配合,擴(kuò)展解決多種復(fù)雜問(wèn)題。
(2)具備聯(lián)想和創(chuàng)作能力。創(chuàng)造隱喻并挖掘事物之間的關(guān)聯(lián),甚至可以理解幽默和生成段子、詩(shī)歌與小說(shuō)。
(3)具備思維鏈推理能力??梢宰孕袑⑿枰壿嬐评淼膹?fù)雜問(wèn)題拆解成步驟,逐步給出解答過(guò)程和答案。
(4)具備抽取和總結(jié)知識(shí)與主要觀點(diǎn)的能力??梢詫㈤L(zhǎng)文章中的內(nèi)容、摘要、大綱、知識(shí)點(diǎn)抽取生成出來(lái)。
(5)具備根據(jù)需求自動(dòng)生成和檢查程序代碼的能力??梢愿鶕?jù)設(shè)計(jì)圖和需求描述生成可以執(zhí)行的程序代碼。
微軟發(fā)表的論文稱對(duì) GPT-4 進(jìn)行了全面評(píng)測(cè),認(rèn)為“鑒于 GPT-4 能力的廣度和深度,它應(yīng)該被合理視作一個(gè)通用人工智能(AGI)系統(tǒng)的早期(但仍不完整)版本”。[3]GPT-4 及其應(yīng)用ChatGPT 標(biāo)志著人工智能從感知理解世界進(jìn)入到了生成創(chuàng)造世界的新階段。
從GPT-1 到GPT-4 的大模型進(jìn)化過(guò)程中,除了算力基礎(chǔ)設(shè)施外,高質(zhì)量大規(guī)模數(shù)據(jù)集是決定大模型能力的關(guān)鍵因素,根據(jù)OpenAI 前期論文和博客介紹,ChatGPT 中數(shù)據(jù)集的規(guī)模和構(gòu)建質(zhì)量均高于以往的人工標(biāo)注數(shù)據(jù)集[4],ChatGPT 大模型采用的 Transformer架構(gòu)解碼預(yù)訓(xùn)練模型的原理本質(zhì)上是通過(guò)數(shù)據(jù)集語(yǔ)料中字詞出現(xiàn)的概率和關(guān)聯(lián)關(guān)系來(lái)抽取特征,在已有字詞后面預(yù)測(cè)補(bǔ)充最有可能出現(xiàn)的字詞來(lái)實(shí)現(xiàn)語(yǔ)言理解和生成的,因此訓(xùn)練數(shù)據(jù)集的收集、清洗和特定標(biāo)注異常重要。
首先,GPT-4 的基礎(chǔ)預(yù)訓(xùn)練是在大量無(wú)標(biāo)注、但需要質(zhì)量高、重復(fù)率少、噪聲小、知識(shí)密度高、規(guī)范化程度高的大規(guī)模數(shù)據(jù)集上進(jìn)行自監(jiān)督訓(xùn)練來(lái)完成的,保證大模型具備正確的語(yǔ)言理解和生成能力,訓(xùn)練數(shù)據(jù)集包括13 萬(wàn)億token(單詞或字符)的語(yǔ)料,涵蓋全球互聯(lián)網(wǎng)中主要以西方發(fā)達(dá)國(guó)家平臺(tái)為主的數(shù)據(jù)源,如:維基百科、電子書(shū)籍、科學(xué)期刊、reddit 社交媒體點(diǎn)贊數(shù)多的評(píng)論數(shù)據(jù)集、commonCrawl 網(wǎng)頁(yè)數(shù)據(jù)集等。
其次,ChatGPT 的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型GPT-4還通過(guò)大量來(lái)自GitHub 的開(kāi)源程序代碼數(shù)據(jù)集、代碼注釋數(shù)據(jù)約4.5TB,這部分面向具體問(wèn)題和需求、有結(jié)構(gòu)化分解和實(shí)現(xiàn)步驟注釋的代碼數(shù)據(jù)讓GPT-4 擁有了思維鏈(COT)能力和部分邏輯推理能力。
最后,GPT-4 基礎(chǔ)預(yù)訓(xùn)練模型還需經(jīng)過(guò)人工調(diào)優(yōu)以及用帶有人工標(biāo)注的數(shù)據(jù)集進(jìn)行有效的監(jiān)督訓(xùn)練,一方面適應(yīng)不同專業(yè)領(lǐng)域的問(wèn)題,正確理解任務(wù)需求,生成更準(zhǔn)確合理的內(nèi)容,一方面實(shí)現(xiàn)與人類意圖對(duì)齊,即判別人類惡意指令、按照人類指令盡可能生成無(wú)負(fù)面影響結(jié)果的內(nèi)容。這類數(shù)據(jù)集分為兩大類:一類是提示學(xué)習(xí)和指令精調(diào)數(shù)據(jù)集,主要有一系列問(wèn)答對(duì),提示指令、問(wèn)題集及對(duì)應(yīng)的相關(guān)內(nèi)容文本語(yǔ)料構(gòu)成;一類是用于進(jìn)行RHLF(人類反饋強(qiáng)化學(xué)習(xí))的數(shù)據(jù)集,請(qǐng)專家對(duì)大模型按照指令給出的答案和內(nèi)容進(jìn)行打分,標(biāo)注人類偏好標(biāo)簽,通過(guò)獎(jiǎng)勵(lì)模型訓(xùn)練,讓算法擬合人類的期望和傾向,減少有害內(nèi)容,優(yōu)化大模型的參數(shù)策略。[5]
從上述預(yù)訓(xùn)練語(yǔ)言模型的訓(xùn)練原理可以看出,大規(guī)模數(shù)據(jù)集讓AIGC 大模型掌握了人類公開(kāi)在互聯(lián)網(wǎng)上的大量知識(shí)和原創(chuàng)內(nèi)容,賦予了人工智能類人類的對(duì)話交互能力、知識(shí)體系和思考分析過(guò)程,而ChatGPT 通過(guò)這樣的自然語(yǔ)言入口,依托大模型快速構(gòu)建起了應(yīng)用生態(tài),一是以ChatGPT 接口能力,在教育、傳媒、商務(wù)、客服、辦公、內(nèi)容出版等領(lǐng)域成為人類進(jìn)行內(nèi)容創(chuàng)作和生成的得力助手,二是類GPT-4的AIGC 大模型通過(guò)補(bǔ)充專業(yè)領(lǐng)域數(shù)據(jù)集和語(yǔ)料集,讓構(gòu)建醫(yī)療、制造、交通、法務(wù)、政務(wù)、汽車(chē)制造等產(chǎn)業(yè)端行業(yè)AI 基礎(chǔ)服務(wù)的成本和難度大大降低,加速產(chǎn)業(yè)數(shù)智化轉(zhuǎn)型和高質(zhì)量發(fā)展;三是AIGC 大模型開(kāi)始提供應(yīng)用程序插件功能,形成了用人類自然語(yǔ)言操作各類應(yīng)用程序完成任務(wù)的總?cè)肟?,基于AIGC 大模型能力的進(jìn)一步提升,結(jié)合應(yīng)用程序插件,可以自行尋找鏈接程序接口和數(shù)據(jù)源的AI Agents(智能體)研究將成為OpenAI 的下一個(gè)研究突破的目標(biāo),AI Agents 可以根據(jù)人類一句任務(wù)指令,自行分析、分解、優(yōu)化,進(jìn)化出解決任務(wù)的能力,并尋找合適的資源完成任務(wù)。[6]
AIGC 大模型的特性和應(yīng)用生態(tài)的發(fā)展趨勢(shì)預(yù)示著以大模型和內(nèi)容為核心驅(qū)動(dòng)的新一代數(shù)字經(jīng)濟(jì)形態(tài)正在逐步形成,模型即服務(wù)成為數(shù)智化轉(zhuǎn)型的服務(wù)載體,自然語(yǔ)言成為人機(jī)交互的指令載體,而內(nèi)容數(shù)據(jù)本身作為大模型訓(xùn)練必備的數(shù)據(jù)集及語(yǔ)料,又是AIGC 大模型生成的重要形態(tài),其作用從以往的信息載體向知識(shí)載體甚至是生產(chǎn)力載體進(jìn)化,內(nèi)容生產(chǎn)傳播體系與社會(huì)經(jīng)濟(jì)生活的運(yùn)行正前所未有地深度融合綁定。
人工智能發(fā)展的每一個(gè)階段都會(huì)推進(jìn)和影響社會(huì)意識(shí)形態(tài)或主流價(jià)值觀的塑造方式,為新聞?shì)浾摴ぷ魈峁┬碌钠脚_(tái)和模式。物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈、算法系統(tǒng)在網(wǎng)絡(luò)空間中構(gòu)建出獨(dú)特的公共輿論體系,以網(wǎng)絡(luò)平臺(tái)為新聞?shì)浾摼奂睾蛿U(kuò)散源,將公眾匯集成各種不同的價(jià)值群體和多元的意識(shí)形態(tài)群體[7],其中推薦算法控制了內(nèi)容傳播的范圍和可見(jiàn)度;而AIGC 大模型的出現(xiàn)讓數(shù)據(jù)集和原創(chuàng)內(nèi)容成為人工智能感知現(xiàn)實(shí)世界,獲取知識(shí)的媒介、成為內(nèi)容生產(chǎn)的關(guān)鍵要素,算法和算力逐步掌握內(nèi)容生產(chǎn)和傳播的權(quán)力核心,隨著內(nèi)容驅(qū)動(dòng)的數(shù)字經(jīng)濟(jì)生態(tài)不斷豐富,AIGC 大模型成為潛在的社會(huì)輿論成員,并以遠(yuǎn)超人類個(gè)體的知識(shí)面和內(nèi)容處理生成速度掌握了輿論引導(dǎo)的主動(dòng)權(quán)和話語(yǔ)權(quán),在主流媒體新聞?shì)浾搱?chǎng)、新興自媒體新聞?shì)浾搱?chǎng)上又疊加了生成式人工智能大模型新聞?shì)浾搱?chǎng),迫使當(dāng)前新聞?shì)浾摴ぷ鲝摹吧a(chǎn)端”“流通端”到“作用端”的構(gòu)建方式與運(yùn)行機(jī)制發(fā)生改變。
改變的核心一方面是要把AIGC 大模型這樣的人工智能納入工作全流程來(lái)考慮,另一方面要重視內(nèi)容驅(qū)動(dòng)下輿論場(chǎng)與社會(huì)政治、經(jīng)濟(jì)、文化、生活等方方面面的深度融合。新聞?shì)浾摴ぷ鞑粌H要做好主流媒體與新興自媒體間的協(xié)調(diào)聯(lián)動(dòng),還要做好與人工智能AIGC 大模型之間的協(xié)調(diào)聯(lián)動(dòng);不僅要做好面向人的新聞?shì)浾摴ぷ?,還要做好面向人工智能的新聞?shì)浾摴ぷ?。由于影響AIGC大模型能力的關(guān)鍵因素是內(nèi)容數(shù)據(jù)集,且對(duì)實(shí)際社會(huì)經(jīng)濟(jì)生活產(chǎn)生作用的中介也是內(nèi)容數(shù)據(jù),因此面向AIGC 大模型訓(xùn)練的內(nèi)容數(shù)據(jù)集和數(shù)據(jù)服務(wù)建設(shè)是新聞?shì)浾摴ぷ鞅仨毟叨戎匾暤年嚨?。尤其?dāng)下美西方國(guó)家人工智能巨頭如OpenAI、Meta、Google 等陸續(xù)推出的AIGC 大模型,不斷成為各行各業(yè)人工智能應(yīng)用發(fā)展的基座,會(huì)給我國(guó)主流新聞?shì)浾摳窬謳?lái)諸多風(fēng)險(xiǎn)與挑戰(zhàn)。
首先,AIGC 高仿真內(nèi)容生成導(dǎo)致虛假新聞泛濫:AIGC 大模型有著高度逼真的內(nèi)容生成能力,其語(yǔ)言邏輯通順、圖像逼真清晰,會(huì)出現(xiàn)捏造答案和偽造事實(shí)的現(xiàn)象,且生產(chǎn)和傳播速度極快,導(dǎo)致虛假信息泛濫。如美國(guó)媒體機(jī)構(gòu)G/O Media 在旗下的科技網(wǎng)站Gizmodo上,使用谷歌Bard 和OpenAI 的ChatGPT 編寫(xiě)了一篇有關(guān)《星球大戰(zhàn)》的文章,出現(xiàn)了諸多事實(shí)錯(cuò)誤;科大訊飛也因?yàn)锳I 自動(dòng)生成關(guān)于“涉嫌大量采集用戶隱私數(shù)據(jù)”“美國(guó)正在考慮是否將科大訊飛、美亞柏科等加入制裁名單”的假消息導(dǎo)致股價(jià)閃崩。
其次,AIGC 的內(nèi)容生成機(jī)制難以解釋和追溯讓輿論溯源更困難:AIGC 大模型是通過(guò)概率模型參數(shù)逐字推測(cè)來(lái)實(shí)現(xiàn)內(nèi)容生成,算法黑盒導(dǎo)致難以解釋和溯源,生成內(nèi)容具有隨機(jī)性和無(wú)法復(fù)現(xiàn)的問(wèn)題,缺少時(shí)效性和時(shí)序性,觀點(diǎn)、事實(shí)、知識(shí)的來(lái)源無(wú)法查證,使得真相與虛假雜糅同構(gòu)[8],對(duì)于AIGC 生成的議題設(shè)置、輿論觀點(diǎn)、偽事實(shí)內(nèi)容和內(nèi)容侵權(quán),若無(wú)人工審核校驗(yàn)留痕,都很難進(jìn)行源頭追溯和傳播追蹤。
人機(jī)對(duì)話點(diǎn)對(duì)點(diǎn)交互方式讓輿論發(fā)現(xiàn)和引導(dǎo)更被動(dòng):AIGC 大模型通過(guò)與人類對(duì)話的方式進(jìn)行交互和內(nèi)容輸出,輿論引導(dǎo)和傳播從公域轉(zhuǎn)向了點(diǎn)對(duì)點(diǎn)的私域;人工智能在深度學(xué)習(xí)中對(duì)大量用戶敏感數(shù)據(jù)的交互使用,不僅使人類隱私暴露在人工智能之下,也極大地削弱了政府對(duì)數(shù)據(jù)信息的監(jiān)管能力。[9]信息傳播的高度個(gè)性化和即時(shí)性可以更深入地影響用戶的認(rèn)知,在公域互聯(lián)網(wǎng)空間內(nèi)越來(lái)越難掌握到真正公眾對(duì)事件的輿情動(dòng)向、意見(jiàn)看法、信念態(tài)度,難以有針對(duì)性地進(jìn)行解讀、引導(dǎo)并促進(jìn)輿情化解和達(dá)成共識(shí)。而AIGC大模型是否有正確的引導(dǎo)力完全有賴于大模型訓(xùn)練和優(yōu)化所使用的數(shù)據(jù)集和人工智能訓(xùn)練專家。
AIGC 的技術(shù)霸權(quán)屬性讓輿論操控更隱蔽:雖然OpenAI 創(chuàng)始人認(rèn)為AIGC 人工智能可以幫助人們快速掌握知識(shí),提升能力,讓知識(shí)資源更平等地服務(wù)于每個(gè)人。但實(shí)質(zhì)上AIGC 大模型依賴的是龐大的算力和數(shù)據(jù)集,在使用過(guò)程中又不斷地將人類原創(chuàng)內(nèi)容和智慧甚至隱私信息吸收到掌握大模型技術(shù)和服務(wù)的機(jī)構(gòu)中,占據(jù)技術(shù)創(chuàng)新優(yōu)勢(shì)的美國(guó)和西方國(guó)家以及有足夠資本支撐大規(guī)模算力和數(shù)據(jù)集生產(chǎn)高昂成本的機(jī)構(gòu)通過(guò)技術(shù)霸權(quán)成為輿論話語(yǔ)權(quán)的隱形壟斷者,通過(guò)收集個(gè)人信息,通過(guò)大數(shù)據(jù)進(jìn)行群體畫(huà)像分析,或許會(huì)成為大模型掌控者研究和制定思想滲透策略的重要數(shù)據(jù)支撐[10],通過(guò)AIGC 全方位影響和塑造用戶的知識(shí)領(lǐng)域、意識(shí)形態(tài)和價(jià)值判斷,進(jìn)而形成認(rèn)知繭房,形成輿論操控的超級(jí)中心化。
AIGC 帶有較難扭轉(zhuǎn)的價(jià)值觀和意識(shí)形態(tài)屬性讓影響輿論更為深遠(yuǎn):AIGC 大模型的訓(xùn)練方式?jīng)Q定了人工智能不僅學(xué)會(huì)了自然語(yǔ)言的文法和表述方式,還抽取和學(xué)習(xí)到了知識(shí)、立場(chǎng)、觀點(diǎn)和價(jià)值判斷,AIGC 大模型帶來(lái)的不僅是信息的傳播,更需要警惕的是帶來(lái)了意識(shí)形態(tài)和價(jià)值觀的傳播,AIGC 大模型內(nèi)在價(jià)值觀一旦形成很難完全扭轉(zhuǎn)和改變,如ChatGPT 的價(jià)值觀底色根植于參與該系統(tǒng)設(shè)計(jì)研發(fā)人員的價(jià)值觀取向[11],取決于集中體現(xiàn)美西方意識(shí)形態(tài)和價(jià)值觀判斷的書(shū)籍、百科、社群討論和網(wǎng)站。而ChatGPT 的迅速流行會(huì)使用戶產(chǎn)生依賴進(jìn)而削弱批判思維的形成和接觸現(xiàn)實(shí)的機(jī)會(huì),因此缺少自主訓(xùn)練數(shù)據(jù)集的大模型廣泛應(yīng)用必將對(duì)我國(guó)主流新聞?shì)浾摳窬衷斐筛鬀_擊。
世界各國(guó)也都意識(shí)到了AIGC 對(duì)國(guó)家秩序、社會(huì)倫理、輿論空間的風(fēng)險(xiǎn)與影響。美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院發(fā)布人工智能風(fēng)險(xiǎn)管理框架,美國(guó)計(jì)算機(jī)協(xié)會(huì)的全球技術(shù)政策委員會(huì)也發(fā)布了《生成式人工智能技術(shù)的開(kāi)發(fā)、部署和使用原則》; 意大利個(gè)人數(shù)據(jù)保護(hù)局率先封禁了ChatGPT,法國(guó)、愛(ài)爾蘭、德國(guó)等國(guó)也躍躍欲試地考慮采取封禁措施,擔(dān)憂技術(shù)失控的情緒正在全球蔓延。[12]2023 年8 月15 日國(guó)家網(wǎng)信辦聯(lián)合六部委發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》正式施行,而這些監(jiān)管規(guī)則有效落地實(shí)施,需要一個(gè)共性基礎(chǔ)條件,就是面向人工智能的可信訓(xùn)練數(shù)據(jù)集和數(shù)據(jù)服務(wù)能力建設(shè)。
當(dāng)前我國(guó)AIGC 大模型研發(fā)風(fēng)生水起,截至7 月份,已發(fā)布通用大模型和行業(yè)大模型100 余個(gè),10 億參數(shù)規(guī)模以上的為79 個(gè),囿于奇高的算力成本和帶有中國(guó)主流價(jià)值觀和意識(shí)形態(tài)的高質(zhì)量訓(xùn)練數(shù)據(jù)語(yǔ)料集的缺乏,大多數(shù)中國(guó)的大模型還是在美西方開(kāi)源大模型基礎(chǔ)上進(jìn)一步訓(xùn)練調(diào)整而來(lái),同時(shí)西方國(guó)家的科研團(tuán)隊(duì)也在抓緊進(jìn)一步挖掘中文領(lǐng)域訓(xùn)練數(shù)據(jù)集的富礦,如:近期Meta 的AIGC 大模型Llama 2 的合作伙伴中包括了中國(guó)AI 訓(xùn)練數(shù)據(jù)提供商海天瑞聲,并共同發(fā)布了超大規(guī)模中文對(duì)話數(shù)據(jù)集DOTS-NLP-216。
黨的新聞?shì)浾摴ぷ魃婕啊拔鍌€(gè)事關(guān)”,責(zé)任意義重大,中國(guó)主流新聞?shì)浾摴ぷ髡呒缲?fù)著為大眾提供真實(shí)新聞信息、引導(dǎo)和監(jiān)督輿論的職責(zé),承擔(dān)著發(fā)揮“輿論壓艙石、社會(huì)黏合劑、價(jià)值風(fēng)向標(biāo)”“構(gòu)建網(wǎng)上網(wǎng)下一體、內(nèi)宣外宣聯(lián)動(dòng)的主流輿論格局”的使命。在人工智能發(fā)展帶來(lái)的風(fēng)險(xiǎn)挑戰(zhàn)和嚴(yán)峻形勢(shì)下,主流媒體新聞?shì)浾摴ぷ髡呷绾巍疤剿鲗⑷斯ぶ悄苓\(yùn)用在新聞采集、生產(chǎn)、分發(fā)、接收、反饋中,用主流價(jià)值導(dǎo)向駕馭‘算法’,全面提高輿論引導(dǎo)能力”,最重要的是充分發(fā)揮主流新聞?shì)浾摴ぷ髡吣_力、眼力、腦力、筆力積累,恪守新聞倫理和社會(huì)責(zé)任的專業(yè)素養(yǎng),把握處于AI 上游通過(guò)調(diào)查研究接觸現(xiàn)實(shí)世界一手資料的優(yōu)勢(shì)地位,面向人工智能AIGC 大模型不僅要做到“守土有責(zé)”,做好“把關(guān)人”角色,更要做到“開(kāi)疆?dāng)U土”,開(kāi)辟面向大模型訓(xùn)練的可信數(shù)據(jù)集和數(shù)據(jù)服務(wù)新陣地,提供決定大模型核心能力和價(jià)值觀的內(nèi)容供給與知識(shí)供給,搶占AIGC 時(shí)代輿論引導(dǎo)、思想引領(lǐng)、文化傳承、服務(wù)人民的傳播高地。
新聞?shì)浾擃I(lǐng)域提供的可信訓(xùn)練數(shù)據(jù)集與數(shù)據(jù)服務(wù)建設(shè)包含三層含義:一是內(nèi)容數(shù)據(jù)規(guī)范權(quán)威真實(shí),二是內(nèi)容數(shù)據(jù)可溯源可確權(quán),三是符合主流價(jià)值且可審核可糾偏。圍繞這三層含義需開(kāi)展如下建設(shè)內(nèi)容。
首先,建立AIGC 大模型全生命周期訓(xùn)練數(shù)據(jù)集:包含四大類,一是建立高質(zhì)量規(guī)范化數(shù)據(jù)集和語(yǔ)料集,充分覆蓋主流意識(shí)形態(tài)和價(jià)值觀的規(guī)范化表述,包括:高質(zhì)量書(shū)籍,權(quán)威解讀,標(biāo)準(zhǔn)問(wèn)答,新聞事實(shí)稿件、述評(píng)和調(diào)查研究,保證大模型語(yǔ)言、立場(chǎng)、觀點(diǎn)和思維方式的準(zhǔn)確性、規(guī)范化與專業(yè)性;二是建立保證事實(shí)與知識(shí)準(zhǔn)確性的高質(zhì)量領(lǐng)域知識(shí)庫(kù)數(shù)據(jù)集,尤其涉及中國(guó)政治、社會(huì)、經(jīng)濟(jì)、文化等領(lǐng)域的權(quán)威闡述。三是建立內(nèi)容意識(shí)形態(tài)安全語(yǔ)料集和主流價(jià)值觀語(yǔ)料集,主要有涉及意識(shí)形態(tài)安全的問(wèn)題與指令集,問(wèn)答模板以及評(píng)價(jià)打分?jǐn)?shù)據(jù)集,用于對(duì)基礎(chǔ)大模型進(jìn)行價(jià)值觀與意識(shí)形態(tài)糾偏和對(duì)齊;四是建立用于保證AIGC在多場(chǎng)景下生成內(nèi)容的規(guī)范性評(píng)估、安全性評(píng)估和糾偏數(shù)據(jù)集,包括:大模型規(guī)范性評(píng)估、有害內(nèi)容與敏感內(nèi)容檢查評(píng)估、意識(shí)形態(tài)糾偏所需的指令集、指令模板、提示詞、打分?jǐn)?shù)據(jù)集和問(wèn)答對(duì)數(shù)據(jù)集。
其次,建立相關(guān)審核打分和大模型意識(shí)形態(tài)與價(jià)值觀評(píng)價(jià)標(biāo)準(zhǔn)規(guī)范。大模型訓(xùn)練數(shù)據(jù)集建設(shè)需要配套相關(guān)標(biāo)準(zhǔn)規(guī)范,包括基礎(chǔ)訓(xùn)練數(shù)據(jù)清洗去重標(biāo)注規(guī)范;知識(shí)庫(kù)知識(shí)框架和審核規(guī)范;指令集、指令模板、問(wèn)答對(duì)、提示詞標(biāo)注標(biāo)準(zhǔn)規(guī)范;指令模板和提示詞規(guī)范以及一系列人類專家反饋強(qiáng)化學(xué)習(xí)打分與標(biāo)簽標(biāo)準(zhǔn)規(guī)范;技術(shù)倫理、有害內(nèi)容、敏感內(nèi)容的分類分級(jí)標(biāo)準(zhǔn)規(guī)范等。
建立主流大模型人工標(biāo)注與專家反饋合作服務(wù)機(jī)制:形成面向大模型的常態(tài)化專家訓(xùn)練合作機(jī)制和面向社會(huì)提供專家訓(xùn)練服務(wù)的機(jī)制,輸出代表中國(guó)權(quán)威知識(shí)內(nèi)容和主流意識(shí)形態(tài)的專家智慧。一是組織國(guó)際關(guān)系、社會(huì)科學(xué)、新聞傳播等領(lǐng)域的學(xué)生和從業(yè)者構(gòu)成主流大模型訓(xùn)練數(shù)據(jù)集標(biāo)注和指令集生成團(tuán)隊(duì);二是組織各領(lǐng)域?qū)W界權(quán)威專家、智庫(kù)學(xué)者和知識(shí)內(nèi)容原創(chuàng)者形成知識(shí)庫(kù)內(nèi)容審核團(tuán)隊(duì),確保知識(shí)體系框架正確,內(nèi)容表述準(zhǔn)確完整;三是組織新聞?shì)浾摵蛡鞑ヮI(lǐng)域資深專家、智庫(kù)學(xué)者形成大模型人類反饋強(qiáng)化學(xué)習(xí)的AI 導(dǎo)師團(tuán)隊(duì),構(gòu)建人類反饋強(qiáng)化學(xué)習(xí)數(shù)據(jù)集,開(kāi)展大模型意識(shí)形態(tài)審核和評(píng)估;四是逐步依托主流大模型提供合成數(shù)據(jù)生成服務(wù),通過(guò)主流大模型本身大規(guī)模生成主流意識(shí)形態(tài)訓(xùn)練數(shù)據(jù)集,有效彌補(bǔ)領(lǐng)域數(shù)據(jù)量不足的問(wèn)題,提升數(shù)據(jù)集生產(chǎn)和標(biāo)注效率。
建立動(dòng)態(tài)追蹤和審核大模型意識(shí)形態(tài)安全服務(wù):形成面向國(guó)內(nèi)外大模型的意識(shí)形態(tài)安全動(dòng)態(tài)追蹤和審核機(jī)制,為即將推出服務(wù)和已經(jīng)開(kāi)展服務(wù)的AIGC 大模型提供上線前內(nèi)容安全審核評(píng)估服務(wù)、上線后內(nèi)容安全追蹤服務(wù),動(dòng)態(tài)收集各類內(nèi)容安全事件、安全問(wèn)題、不斷豐富補(bǔ)充主流大模型所需的評(píng)估審核數(shù)據(jù)集,同時(shí)有針對(duì)性地豐富完善大模型意識(shí)形態(tài)安全糾偏訓(xùn)練數(shù)據(jù),為大模型的各類商業(yè)應(yīng)用提供內(nèi)容安全修正和優(yōu)化服務(wù)。
建立適應(yīng)AIGC 大模型的數(shù)據(jù)安全、內(nèi)容追溯和事實(shí)核查機(jī)制:AIGC 大模型訓(xùn)練數(shù)據(jù)集涉及數(shù)據(jù)源、內(nèi)容原創(chuàng)者、使用者等多方利益,也存在數(shù)據(jù)安全、隱私保護(hù)和數(shù)據(jù)真實(shí)性問(wèn)題,需要面向安全可信、隱私保護(hù)、版權(quán)追溯的需求創(chuàng)新訓(xùn)練數(shù)據(jù)集生產(chǎn)和服務(wù)的技術(shù)手段、平臺(tái)工具、加工流程和標(biāo)準(zhǔn)規(guī)范,支持多方安全計(jì)算和聯(lián)邦計(jì)算方式,支持安全可控可追溯可確權(quán)的人工智能模型訓(xùn)練需求;形成主流新聞?shì)浾摴ぷ髡咴贏IGC 大模型研發(fā)、服務(wù)、融合應(yīng)用各環(huán)節(jié)做好內(nèi)容安全和事實(shí)核查把關(guān)人的機(jī)制。
新一代人工智能發(fā)展趨勢(shì)下,我國(guó)新聞?shì)浾摴ぷ鞅仨殞⑷斯ぶ悄茏鳛樾碌妮浾撝黧w納入新聞?shì)浾摴ぷ髁鞒淘僭熘衼?lái),深刻認(rèn)識(shí)人工智能時(shí)代新聞?shì)浾摴ぷ髦小八牧Α焙诵母?jìng)爭(zhēng)力的重要意義,并將其轉(zhuǎn)化為面向大模型的訓(xùn)練數(shù)據(jù)集和內(nèi)容供給,快速占領(lǐng)AIGC 上游新高地,深度融合到社會(huì)經(jīng)濟(jì)運(yùn)行場(chǎng)景中,一方面充分運(yùn)用AIGC 技術(shù)延伸主流新聞?shì)浾摴ぷ餍埽苿?dòng)多元話語(yǔ)體系互動(dòng)融合,構(gòu)建新型輿情態(tài)勢(shì)感知、應(yīng)對(duì)、引導(dǎo)模式;另一方面為AIGC技術(shù)倫理約束與技術(shù)監(jiān)管落地提供強(qiáng)有力的內(nèi)容、機(jī)制和服務(wù)保證。