摘要:介紹ChatGPT的核心技術(shù),結(jié)合其工作原理,分析其現(xiàn)實(shí)問(wèn)題,借鑒Claude 3模型的安全部署技術(shù)策略探討可行策略。研究發(fā)現(xiàn),無(wú)監(jiān)督預(yù)訓(xùn)練模型提高了ChatGPT上下文學(xué)習(xí)能力,可捕捉句子中長(zhǎng)程依賴特征,改善輸出語(yǔ)言效果。而基于人類反饋的強(qiáng)化學(xué)習(xí)有助于對(duì)齊人類需求,減少有害內(nèi)容的輸出。迎接ChatGPT帶來(lái)的安全挑戰(zhàn)與倫理挑戰(zhàn),可采用原則人工智能這一無(wú)害性解決方案,更新算法,加大數(shù)據(jù)質(zhì)量管控力度,優(yōu)化紅隊(duì)測(cè)試的攻擊方案,高效識(shí)別安全漏洞。
關(guān)鍵詞:ChatGPT;核心技術(shù);現(xiàn)實(shí)問(wèn)題;Claude 3;安全部署
一、前言
隨著大語(yǔ)言模型(LLMs)的快速發(fā)展,OpenAI公司開(kāi)發(fā)的人工智能聊天機(jī)器人GPT-4使整個(gè)AI行業(yè)迎來(lái)了研發(fā)浪潮。OpenAI保護(hù)商業(yè)秘密,未公布多模態(tài)大模型GPT-4算法、架構(gòu)與訓(xùn)練方式等技術(shù)細(xì)節(jié),GPT-4如何顛覆ChatGPT尚無(wú)定論。在此前提下,作為GPT-4歷史版本的ChatGPT,依然是深入理解GPT系列模型架構(gòu)的典型代表。自2018年初代生成式預(yù)訓(xùn)練模型GPT-1以來(lái),GPT系列經(jīng)過(guò)更新迭代,2022年12月升級(jí)至ChatGPT,2023年優(yōu)化至新一代GPT-4。ChatGPT備受學(xué)界矚目,是一種基于transformer架構(gòu)的生成式強(qiáng)人工智能模型,遵循“預(yù)訓(xùn)練+微調(diào)”范式,可識(shí)別、合成和擴(kuò)展內(nèi)容,自動(dòng)生成滿足人類需求的連貫性較高的自然語(yǔ)言文本,依據(jù)提示編寫代碼、策劃營(yíng)銷文案、創(chuàng)作詩(shī)歌、翻譯文本,長(zhǎng)于開(kāi)展連續(xù)多輪文本對(duì)話,提供良好的交互式反饋體驗(yàn)。然而,ChatGPT不只是智能聊天機(jī)器人,對(duì)話僅是其處理文本信息能力的表現(xiàn),“GPT”(Generative Pre-Trained Transformer)方為其超越一眾人工智能模型之核心技術(shù)所在。為進(jìn)一步理解其運(yùn)行機(jī)制,本文介紹其核心技術(shù)與工作原理,分析其現(xiàn)實(shí)問(wèn)題、潛在隱患與瓶頸,借鑒Claude 3模型家族安全部署的技術(shù)策略探討可行優(yōu)化策略,希冀為提升大語(yǔ)言模型的安全可靠性提供思考。
二、ChatGPT的核心技術(shù)與工作原理
ChatGPT的工作原理是基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)的上下文學(xué)習(xí)與基于人類反饋的強(qiáng)化學(xué)習(xí)的優(yōu)化,應(yīng)用流程包括預(yù)訓(xùn)練與微調(diào)兩個(gè)階段,在預(yù)訓(xùn)練階段學(xué)習(xí)語(yǔ)音、語(yǔ)義、語(yǔ)法、語(yǔ)用、事實(shí)和常識(shí)知識(shí),在微調(diào)階段根據(jù)自然語(yǔ)言理解技術(shù)執(zhí)行特定下游任務(wù)。
(一)無(wú)監(jiān)督預(yù)訓(xùn)練模型
預(yù)訓(xùn)練是自然語(yǔ)言處理中主要的神經(jīng)網(wǎng)絡(luò)模型。ChatGPT通過(guò)預(yù)訓(xùn)練模型尤其是Transformer架構(gòu)提高并行計(jì)算能力,通過(guò)殘差連接和層歸一化緩解梯度消失問(wèn)題,降低自然語(yǔ)言處理模型在實(shí)際應(yīng)用中落地的門檻,使模型能夠掌握豐富的知識(shí),提升了語(yǔ)言理解能力。預(yù)訓(xùn)練模型預(yù)設(shè)通用語(yǔ)言模型的存在,通用語(yǔ)言模型類似于喬姆斯基生成式語(yǔ)法系統(tǒng)的生成語(yǔ)法規(guī)則,“旨在學(xué)習(xí)生成概率分布,從而捕捉文本數(shù)據(jù)的底層結(jié)構(gòu)和潛在語(yǔ)義”[1]。使用詞嵌入矩陣將文本序列轉(zhuǎn)化為詞嵌入表示,通過(guò)輸入序列的嵌入表示得到詞的位置信息,將位置信息輸入Transformer層,得到輸出向量,將詞嵌入表示與輸出向量歸一化為概率分布,預(yù)測(cè)下一個(gè)詞的概率[1]。
預(yù)訓(xùn)練階段的少樣本與零樣本學(xué)習(xí)策略減少了模型為處理特定任務(wù)而進(jìn)行監(jiān)督學(xué)習(xí)的高昂訓(xùn)練成本。貝葉斯算法是GPT采取少樣本學(xué)習(xí)策略獲取上下文學(xué)習(xí)能力的主要機(jī)制,而思維鏈則是GPT采取零樣本學(xué)習(xí)策略培養(yǎng)模型推理能力的主要方式。貝葉斯算法預(yù)設(shè)預(yù)訓(xùn)練過(guò)程中同一文本的句群與段落共享相同的語(yǔ)義信息,通過(guò)神經(jīng)網(wǎng)絡(luò)推測(cè)生成概率分布,在海量語(yǔ)料庫(kù)數(shù)據(jù)中發(fā)現(xiàn)關(guān)聯(lián),捕捉語(yǔ)義特征?!拔臋n級(jí)別的訓(xùn)練數(shù)據(jù)中存在長(zhǎng)距離連貫性的潛在概念,這些連貫性在預(yù)訓(xùn)練期間被模型利用,以推斷潛在概念”[1]。思維鏈主要通過(guò)提示詞,增加中間步驟的推導(dǎo),模仿人類思考方式,逐步生成答案。
(二)Transformer架構(gòu)
ChatGPT預(yù)訓(xùn)練模型以Transformer解碼器為基礎(chǔ)。Transformer解碼器作為特征提取器可基于既有詞預(yù)測(cè)下一個(gè)詞,降低了數(shù)據(jù)獲取的成本。Transformer編碼器和解碼器由多層結(jié)構(gòu)相同而參數(shù)不同的網(wǎng)絡(luò)層堆疊而成,每一層均包含多頭注意力層和前饋神經(jīng)網(wǎng)絡(luò)層兩個(gè)子層,每一子層均具殘差連接與層歸一化的功能。殘差連接使經(jīng)過(guò)兩個(gè)子層后的序列與輸入序列相加形成新的序列,將某一層的輸入元素直接傳遞到后續(xù)層。層歸一化“對(duì)每一層的神經(jīng)元輸出進(jìn)行歸一化處理,使得它們有相同的均值和方差”[1]。殘差連接和層歸一化的引入,緩解了模型梯度消失問(wèn)題,提高了模型的穩(wěn)定性、效率和性能。前饋神經(jīng)網(wǎng)絡(luò)是一個(gè)多層感知器,由輸入層、隱藏層和輸出層組成,每層有若干神經(jīng)元。每個(gè)神經(jīng)元分別屬于不同的層,包括兩部分:一部分負(fù)責(zé)線性加權(quán)求和,叫作線性層;另外一部分是激勵(lì)函數(shù),由于激勵(lì)函數(shù)都被定義為非線性的,所以又叫作非線性層[2]。注意力計(jì)算的結(jié)果將先后通過(guò)線性層、激勵(lì)函數(shù)和線性層,捕捉輸入序列模式與結(jié)構(gòu)中的非線性特征,更為準(zhǔn)確地處理更為復(fù)雜的自然語(yǔ)言數(shù)據(jù)。
Transformer采用自注意力機(jī)制處理數(shù)據(jù),使用擅長(zhǎng)矩陣運(yùn)算的GPU、CPU等尖端軟件進(jìn)行并行化,可同時(shí)獨(dú)立地計(jì)算多個(gè)注意力模型,追蹤文本在序列中的位置及其內(nèi)容的上下文信息,捕捉長(zhǎng)程依賴關(guān)系。注意力機(jī)制包括最原始版本的注意力機(jī)制和自注意力機(jī)制,鍵、查詢和值向量是兩種機(jī)制通用的主要向量,通過(guò)計(jì)算輸入序列中每個(gè)元素的主要向量,獲取注意力權(quán)重,學(xué)習(xí)句子成分內(nèi)部關(guān)系,捕捉輸入序列的全局依賴關(guān)系。注意力機(jī)制通過(guò)計(jì)算鍵和查詢的匹配程度給值向量分配不同的注意力權(quán)值,舍棄不必要的值向量。自注意力機(jī)制中的查詢來(lái)自數(shù)據(jù)內(nèi)部,通過(guò)捕捉數(shù)據(jù)內(nèi)部的相關(guān)性完成特征向量的建模。具體而言,輸入序列經(jīng)過(guò)嵌入層矩陣轉(zhuǎn)化為值向量,值向量之間進(jìn)行點(diǎn)積運(yùn)算得到初始注意力值,使用函數(shù)對(duì)初始注意力值進(jìn)行歸一化處理,形成每個(gè)詞的注意力權(quán)重值。多頭注意力機(jī)制是自注意力機(jī)制的擴(kuò)展,通過(guò)分割主要向量為多個(gè)注意力頭,使用權(quán)重矩陣單獨(dú)計(jì)算每個(gè)注意力頭的主要向量值,并行關(guān)注輸入序列中的多個(gè)信息。依據(jù)不同的參數(shù)對(duì)鍵、查詢和值向量進(jìn)行線性變換,將注意力得分映射到不同子空間,學(xué)習(xí)不同子空間的相關(guān)信息進(jìn)行信息融合。解碼器的注意力子層為掩碼多頭注意力子層,在計(jì)算注意力值時(shí)引入掩碼矩陣,確保模型忽視當(dāng)前位置之外的未來(lái)信息,僅考慮前文信息,從而更好地遵循自然語(yǔ)言的生成規(guī)律。
(三)微調(diào):基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)
微調(diào)的訓(xùn)練步驟包括指令學(xué)習(xí)、監(jiān)督微調(diào)與基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù)(RLHF)。在算法方面,GPT-3.5以上的版本引入了人類反饋強(qiáng)化學(xué)習(xí)技術(shù),即“通過(guò)用人類生成的反饋替換或補(bǔ)充預(yù)先定義的獎(jiǎng)勵(lì)函數(shù),使得模型能夠更好地捕捉復(fù)雜的人類偏好和理解”[3],是ChatGPT安全部署的重要舉措,可以減少不良、不準(zhǔn)確信息的生成。訓(xùn)練過(guò)程分三步。首先,使用有監(jiān)督的微調(diào)訓(xùn)練初始模型。對(duì)于給定的一個(gè)問(wèn)題,模型生成初始回復(fù)。訓(xùn)練員通過(guò)多輪對(duì)話反饋帶有人類偏好的答案,為模型學(xué)習(xí)提供修正數(shù)據(jù)。其次,訓(xùn)練獎(jiǎng)懲模型。在數(shù)據(jù)集中抽取問(wèn)題,通過(guò)前一步生成的模型生成對(duì)同一問(wèn)題的不同回答,并進(jìn)行打分排序,找出特定條件下的最佳回答,完成獎(jiǎng)勵(lì)模型的訓(xùn)練。最后,采用近端策略優(yōu)化(PRO)強(qiáng)化學(xué)習(xí)優(yōu)化策略。抽取新問(wèn)題,利用上一步訓(xùn)練后的獎(jiǎng)勵(lì)模型對(duì)PRO模型生成的回答打分,反饋策略優(yōu)化PRO模型參數(shù),改進(jìn)生成內(nèi)容。循環(huán)往復(fù),直至生成高質(zhì)量最優(yōu)答案。經(jīng)過(guò)人類反饋強(qiáng)化學(xué)習(xí)處理后的模型性能明顯提高,在無(wú)害性方面有所改善,但在處理歧視和偏見(jiàn)等問(wèn)題上的性能并未顯著提升[1]。
三、ChatGPT的現(xiàn)實(shí)問(wèn)題與潛在風(fēng)險(xiǎn)
(一)數(shù)據(jù)偽真實(shí)性帶來(lái)的幻覺(jué)與誤用
算法、算力和數(shù)據(jù)是訓(xùn)練ChatGPT理解力與推理能力的核心要素。ChatGPT可模仿語(yǔ)言而非思想和意識(shí),缺乏完全獨(dú)立自主的意識(shí)和情感,更不用說(shuō)從訓(xùn)練數(shù)據(jù)中獲得創(chuàng)造力和批判性思維。ChatGPT不一定真正理解了接收或生成內(nèi)容的意義與語(yǔ)境,比如文本作者的心理因素。當(dāng)詢問(wèn)內(nèi)容更換語(yǔ)境時(shí),ChatGPT可能答非所問(wèn),言之鑿鑿地編造事實(shí),生成看似符合邏輯,實(shí)際失真的回答,信息準(zhǔn)確度不足,真實(shí)性有待提升?;糜X(jué)是大語(yǔ)言模型普遍存在的問(wèn)題?!坝捎谥噶钗⒄{(diào)階段中的任務(wù)鼓勵(lì)模型生成詳細(xì)描述,可能導(dǎo)致模型生成不存在于源數(shù)據(jù)本身的元素,進(jìn)而影響模型實(shí)際應(yīng)用的效果”[4],在多模態(tài)、多語(yǔ)言場(chǎng)景下的問(wèn)題更為嚴(yán)重。疏于查證的偽真實(shí)信息被用戶采擷引用,將造成不必要的損失。散播假消息,破壞社會(huì)秩序,可能招致法律問(wèn)責(zé)。
(二)數(shù)據(jù)安全問(wèn)題
對(duì)齊人類需求的ChatGPT具有意識(shí)形態(tài)傾向。選擇和處理預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)過(guò)程中的文化偏見(jiàn)與情感偏見(jiàn)可能被保留在生成內(nèi)容之中。ChatGPT的世界觀和價(jià)值觀源于數(shù)據(jù)庫(kù)信息所蘊(yùn)含的思想與文化,而非“個(gè)人”情感經(jīng)歷,缺乏同理心與敏感度,可能破壞或扭曲價(jià)值觀,減少人文關(guān)懷,這是威脅其持續(xù)發(fā)展的主要隱患。其一,受媒體報(bào)道的偏見(jiàn)影響,ChatGPT在某些敏感的政治話題上采取一定立場(chǎng),有違公正,對(duì)用戶進(jìn)行政治輿論誘導(dǎo),影響用戶對(duì)某些人物或現(xiàn)象的看法和評(píng)價(jià),甚至產(chǎn)生性別偏見(jiàn)、種族偏見(jiàn)與殘疾人歧視。其二,孱弱的監(jiān)管意識(shí)可能使其為網(wǎng)絡(luò)犯罪提供基礎(chǔ)數(shù)據(jù),提高公共安全風(fēng)險(xiǎn)。當(dāng)用戶以委婉方式提問(wèn)危害公共安全的問(wèn)題時(shí),ChatGPT曾毫無(wú)保留地給予有害建議,傳播犯罪知識(shí),易使不法之徒掌握網(wǎng)絡(luò)詐騙、違法交易等犯罪技能,增加對(duì)治安秩序的威脅。其三,分析和整合生成專業(yè)性較高的學(xué)術(shù)文章,侵犯著作權(quán),助推學(xué)術(shù)欺詐和剽竊,加劇學(xué)術(shù)倫理風(fēng)險(xiǎn)。
四、Claude 3對(duì)ChatGPT的啟示
Claude 3使用PyTorch、JAX與Triton框架,主體架構(gòu)為“預(yù)訓(xùn)練+提示生成”,采用無(wú)監(jiān)督預(yù)訓(xùn)練與基于人工智能反饋的原則人工智能(Constitutional AI,CAI)技術(shù)。Claude 3 Opus“在創(chuàng)造性寫作、情感理解或特定領(lǐng)域知識(shí)方面的表現(xiàn)超過(guò)GPT-4”[5],在信息檢索和信息來(lái)源辨別方面的表現(xiàn)可圈可點(diǎn)。2024年3月初Anthropic發(fā)布公告宣稱,以負(fù)責(zé)任、誠(chéng)實(shí)性與安全性著稱的Claude 3模型家族能夠解釋拒絕回答性別歧視、殘疾人歧視、種族主義等違禁問(wèn)題的原因,Claude 3 Opus在數(shù)據(jù)的安全性、準(zhǔn)確性方面超越了GPT-4,為包括ChatGPT在內(nèi)的人工智能技術(shù)革新算法、解決潛在隱患提供了借鑒。
(一)分層治理:更新算法與管控?cái)?shù)據(jù)
在數(shù)據(jù)訓(xùn)練與監(jiān)控方面,為確保數(shù)據(jù)質(zhì)量安全、可信和優(yōu)選,應(yīng)嚴(yán)格規(guī)范基礎(chǔ)語(yǔ)料采集與清洗的紅線與底線,統(tǒng)籌規(guī)劃訓(xùn)練原則。數(shù)據(jù)是確保模型高質(zhì)量落地的核心。Claude 3家族完善數(shù)據(jù)采集與清洗制度,嚴(yán)正承諾自己抓取公共網(wǎng)頁(yè)數(shù)據(jù)時(shí)杜絕爬蟲程序訪問(wèn)受密碼保護(hù)的內(nèi)容,監(jiān)控并避免違禁內(nèi)容的提取,遵守《人工智能風(fēng)險(xiǎn)管理框架》(NIST AI),通過(guò)原則人工智能規(guī)范價(jià)值觀與生成內(nèi)容的安全性?!霸瓌t”源于Claude 3家族將理想的典范行為編碼成一套自然語(yǔ)言原則的構(gòu)想,包括《聯(lián)合國(guó)人權(quán)宣言》、Deepmind的麻雀模型原則、人類學(xué)研究資料、運(yùn)營(yíng)商的行業(yè)慣例(比如Apple服務(wù)條款)與鼓勵(lì)考慮非西方世界觀點(diǎn)的原則。
算法方面應(yīng)發(fā)揮基于人工智能反饋的強(qiáng)化學(xué)習(xí)策略的優(yōu)勢(shì),進(jìn)一步落實(shí)人工智能安全部署實(shí)踐。ChatGPT使用基于人類反饋的強(qiáng)化學(xué)習(xí)技術(shù),旨在訓(xùn)練模型拒絕回答有爭(zhēng)議、傷害性、冒犯性的違禁問(wèn)題。原則人工智能的目標(biāo)不止于此,通過(guò)人工智能反饋強(qiáng)化學(xué)習(xí)(RLAIF)改進(jìn)回避行為,訓(xùn)練模型使用非攻擊性語(yǔ)言和無(wú)害性情緒解釋拒絕用戶請(qǐng)求的原因。人類反饋強(qiáng)化學(xué)習(xí)的決策點(diǎn)是公眾對(duì)大語(yǔ)言模型的行為偏好,然而行為偏好不夠明確且具有爭(zhēng)議。人工智能反饋比收集單一的人類反饋更為有效,不僅有助于提高訓(xùn)練過(guò)程的透明度,而且能夠明確地界定、展示系統(tǒng)遵循的原則,避免了隱含的普遍性假設(shè)。此外,Claude 3系列還通過(guò)設(shè)定少量自然語(yǔ)言準(zhǔn)則令A(yù)I自動(dòng)輸出偏好,降低語(yǔ)言模型對(duì)人類標(biāo)注數(shù)據(jù)的依賴,提升模型在低資源語(yǔ)言上的性能。
原則人工智能的訓(xùn)練過(guò)程包括監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)兩個(gè)階段。在第一階段,誘導(dǎo)人工智能助手對(duì)違禁問(wèn)題生成有害回答,利用紅隊(duì)測(cè)試生成回答,依據(jù)“原則”對(duì)回答進(jìn)行批判和修改,隨機(jī)抽取原則微調(diào)模型。第二階段的訓(xùn)練方式與RLHF類似,不同的是,CAI用AI反饋代替人類偏好反饋。首先依據(jù)經(jīng)過(guò)第一階段訓(xùn)練好的人工智能助手為數(shù)據(jù)集的違禁提示生成系列答復(fù),將每一條提示和答復(fù)生成多選題,然后依據(jù)“原則”原則執(zhí)行訓(xùn)練指令“選擇更/最如何的回答”[6],生成無(wú)害性偏好數(shù)據(jù)集,再將其與人類反饋數(shù)據(jù)集比對(duì)融合。評(píng)估比較數(shù)據(jù)并訓(xùn)練可評(píng)分的偏好模型,通過(guò)偏好模型與前一階段生成的微調(diào)監(jiān)督學(xué)習(xí)原則人工智能模型,得到基于強(qiáng)化學(xué)習(xí)的原則人工智能模型[7]?!霸瓌t人工智能是利用人工智能反饋獲取低成本的標(biāo)注數(shù)據(jù),偏重對(duì)齊人類的無(wú)害性偏好,對(duì)于提供公共服務(wù)的大語(yǔ)言模型尤為重要,成為開(kāi)源大模型低成本遷移中主要的無(wú)害性解決方案”[1]。
(二)優(yōu)化紅隊(duì)測(cè)試的攻擊方案與測(cè)試問(wèn)題
紅隊(duì)測(cè)試(Red Teaming)是一種對(duì)抗性測(cè)試,通過(guò)模擬黑客攻擊者的技術(shù)、程序、工具和目標(biāo),測(cè)試模型防御能力、漏洞和缺陷,對(duì)模型進(jìn)行安全評(píng)估。測(cè)試成員可為經(jīng)驗(yàn)豐富的領(lǐng)域?qū)<?、專業(yè)學(xué)生、學(xué)者或眾包工作者,在技術(shù)人員開(kāi)發(fā)的頁(yè)面中與人工智能助手進(jìn)行開(kāi)放式多輪對(duì)話,刺激模型生成冒犯性表述。Claude 3家族紅隊(duì)測(cè)試的成效表明,測(cè)試成員可通過(guò)關(guān)注提示的格式、定義問(wèn)答背景改進(jìn)問(wèn)題結(jié)構(gòu)、利用文本補(bǔ)全特性控制輸出、利用越獄攻擊誘導(dǎo)模型輸出違禁內(nèi)容及泄露信息等方式,更高效地發(fā)現(xiàn)系統(tǒng)漏洞,增強(qiáng)模型的防御能力。
為了處理安全這一AI核心問(wèn)題,ChatGPT采用人工紅隊(duì)測(cè)試,Jan Leike曾在MIT Technology Review中談到此點(diǎn)。為提高安全性和準(zhǔn)確性,OpenAI聘請(qǐng)“來(lái)自人工智能對(duì)齊風(fēng)險(xiǎn)、網(wǎng)絡(luò)安全、生物風(fēng)險(xiǎn)和國(guó)際安全等領(lǐng)域的50多名專家對(duì)模型進(jìn)行對(duì)抗性測(cè)試”[8],對(duì)GPT-4開(kāi)展了長(zhǎng)達(dá)六個(gè)月的紅隊(duì)測(cè)試定性評(píng)估,訓(xùn)練模型拒絕回答違禁問(wèn)題。GPT-4使用基于規(guī)則的獎(jiǎng)勵(lì)模型(RBRMs)—一組零樣本分類器,設(shè)置獎(jiǎng)勵(lì)模型接受提示、策略模型輸出和人工編寫的評(píng)分標(biāo)準(zhǔn)三種類型文本的輸入,借此為理想化的拒絕和非理想化的拒絕(比如回避/漫無(wú)邊際)提供獎(jiǎng)勵(lì)信號(hào)[8]。據(jù)OpenAI,當(dāng)問(wèn)題涉及違禁內(nèi)容時(shí),GPT-4可能會(huì)提供危害公共安全的建議。因?qū)_功能突出,GPT-4對(duì)無(wú)害問(wèn)題拒答率較高,回避行為較多。為此,Anthropic在Claude 3的紅隊(duì)測(cè)試中做了改進(jìn)。
首先,Anthropic精心設(shè)計(jì)了基于事實(shí)的復(fù)雜測(cè)試問(wèn)題和詳細(xì)的答復(fù)類別——正確、錯(cuò)誤或虛構(gòu)、不確定,為模型承認(rèn)知識(shí)局限性創(chuàng)造了條件。其次,提高提示語(yǔ)言的精細(xì)度,避免明顯的不妥。再次,在測(cè)試成員培訓(xùn)方面,在成員執(zhí)行任務(wù)前,明確告知其可能遭遇敏感話題的討論,并鼓勵(lì)其在本人可承受的風(fēng)險(xiǎn)范圍內(nèi)選擇話題,以此避免紅隊(duì)測(cè)試帶給成員消極情緒[9],使測(cè)試成員在多項(xiàng)答復(fù)中選擇更為有害的答復(fù),提高測(cè)試人員發(fā)現(xiàn)系統(tǒng)弊病的能力與速度。最后,Anthropic借鑒答案引擎Perplexity AI的思路,標(biāo)明答案的引用來(lái)源,方便用戶直接查閱參考文獻(xiàn)、核實(shí)信息來(lái)源,不僅使模型規(guī)避了幻覺(jué)問(wèn)題,還進(jìn)一步解決了學(xué)術(shù)剽竊和學(xué)術(shù)倫理問(wèn)題。
五、結(jié)語(yǔ)
ChatGPT是弱人工智能邁向強(qiáng)人工智能的重要里程碑,推動(dòng)了人工智能關(guān)鍵技術(shù)的研發(fā)與應(yīng)用。ChatGPT通過(guò)無(wú)監(jiān)督預(yù)訓(xùn)練模型提高模型上下文學(xué)習(xí)能力,捕捉句子中長(zhǎng)程依賴特征,改善輸出語(yǔ)言效果,借助指令學(xué)習(xí)、監(jiān)督微調(diào)與基于人類反饋的強(qiáng)化學(xué)習(xí)對(duì)齊人類需求,減少有害內(nèi)容的輸出。然而,ChatGPT也為人類社會(huì)帶來(lái)了安全挑戰(zhàn)與倫理挑戰(zhàn),存在諸多現(xiàn)實(shí)問(wèn)題和潛在風(fēng)險(xiǎn)。為此,可借鑒Claude 3家族的原則人工智能這一無(wú)害性解決方案,更新算法,管控?cái)?shù)據(jù)質(zhì)量,優(yōu)化紅隊(duì)測(cè)試的攻擊方案與測(cè)試問(wèn)題,高效地識(shí)別安全漏洞,增強(qiáng)模型的防御能力。
參考文獻(xiàn)
[1]程戈.ChatGPT原理與架構(gòu):大模型的預(yù)訓(xùn)練、遷移和中間件編程[M].北京:機(jī)械工業(yè)出版社,2023.
[2]馮志偉.神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)與自然語(yǔ)言處理[J].上海師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2021,50(02):110-122.
[3]蔡睿,葛軍,孫哲,等.AI預(yù)訓(xùn)練大模型發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2024,45(10):2327-2337.
[4]劉靜,郭龍騰.GPT-4對(duì)多模態(tài)大模型在多模態(tài)理解、生成、交互上的啟發(fā)[J].中國(guó)科學(xué)基金,2023,37(05):793-802.
[5]劉曉潔.一年狂攬73億美元投資Anthropic引燃大模型戰(zhàn)火[N].第一財(cái)經(jīng)日?qǐng)?bào),2024-03-07(A10).
[6]Huang,S.,Siddarth,D.,Lovitt,L., et al.Collective Constitutional AI: Aligning a Language Model with Public Input[EB/OL]. https://arxiv.org/pdf/2406.07814,2024-06-03.
[7]Bai,Y.,Kadavath,S.,Kundu,S.,et al.Constitutional AI:harmlessness from AI feedback [EB/OL].https://arxiv.org/pdf/2212.08073,2023-04-03.
[8]Achiam, OpenAI Josh et al.GPT-4 Technical Report[EB/OL]. https://arxiv.org/pdf/2003.08774, 2023-03-15.
[9]Ganguli,D.,Lovitt,L.,et al.Red Teaming Language Models to Reduce Harms: Methods,Scaling Behaviors,and Lessons Learned,https://arxiv.org/pdf/2209.07858,2022-11-22.
作者單位:南開(kāi)大學(xué)外國(guó)語(yǔ)學(xué)院
■ 責(zé)任編輯:王穎振 楊惠娟