宋艷飛?張瑤?樊偉
摘要:當前,以ChatGPT、Sora等現(xiàn)象級產(chǎn)品為代表的生成式人工智能快速發(fā)展,正在重塑產(chǎn)業(yè)鏈和價值鏈。與此同時,也在數(shù)據(jù)安全、算法安全、網(wǎng)絡(luò)安全和應(yīng)用安全等方面引發(fā)了諸多新風險,可能造成嚴重影響。世界主要國家和地區(qū)高度重視生成式人工智能安全風險治理,從政策引導(dǎo)、技術(shù)保障、國際合作等維度推進風險治理體系建設(shè)??萍计髽I(yè)在積極推進前沿技術(shù)創(chuàng)新的同時,也應(yīng)高度重視安全治理,從不同側(cè)重點發(fā)力保障人工智能可信賴、負責任。我國應(yīng)從加強跟蹤研究、推進技術(shù)攻關(guān)、推動“以評促建”和加強國際交流四個維度發(fā)力,保障人工智能安全健康發(fā)展。
關(guān)鍵詞:生成式人工智能;安全風險;安全治理;科技巨頭
一、引言
近年來,生成式人工智能加速發(fā)展演進,已經(jīng)成為人工智能的主要發(fā)展方向,并廣泛應(yīng)用于各行各業(yè)。但生成式人工智能的應(yīng)用,也帶來了數(shù)據(jù)、算法、網(wǎng)絡(luò)等領(lǐng)域的安全風險。本文以生成式人工智能為研究對象,梳理了美、歐、英、日等國家在政策引導(dǎo)、技術(shù)保障、國際合作等方面治理生成式人工智能風險的舉措,并總結(jié)了全球典型科技企業(yè)在體系布局、輸出服務(wù)、定期審查等方面治理人工智能安全風險的舉措。結(jié)合研究分析,本文從加強跟蹤研究、推進技術(shù)攻關(guān)、推動“以評促建”、加強國際交流等方面提出啟示與建議。
二、生成式人工智能安全風險類型與現(xiàn)狀
隨著生成式人工智能的迅猛發(fā)展與廣泛應(yīng)用,技術(shù)產(chǎn)業(yè)正經(jīng)歷著翻天覆地的變革。然而,這一進步的背后也隱藏著諸多亟待解決的問題。生成式人工智能所固有的技術(shù)缺陷,加之社會對其認知的不足,已經(jīng)在網(wǎng)絡(luò)安全、數(shù)據(jù)保護和算法穩(wěn)健性等方面引發(fā)了嚴重的風險。更為深遠的是,這些風險對國家的政治穩(wěn)定、軍事安全以及社會和諧構(gòu)成了多方面的挑戰(zhàn)。有鑒于此,本文旨在全面而深入地探討生成式人工智能在各個領(lǐng)域應(yīng)用中所面臨的安全風險類型,并對其當前的發(fā)展狀況進行細致地分析,為研究分析生成式人工智能風險治理路徑提供參考。
(一)數(shù)據(jù)安全風險
數(shù)據(jù)安全風險是指生成式人工智能技術(shù)自身因數(shù)據(jù)問題造成的風險,如訓(xùn)練數(shù)據(jù)污染、運行階段的異常數(shù)據(jù)、數(shù)據(jù)信息竊取等。另一方面,生成式人工智能技術(shù)的應(yīng)用將對數(shù)據(jù)安全本身帶來風險,如隱私泄露、增加大量虛假數(shù)據(jù)、數(shù)據(jù)濫用放大社會偏見等。
1.數(shù)據(jù)污染導(dǎo)致錯誤結(jié)論
訓(xùn)練數(shù)據(jù)遭到污染,將會導(dǎo)致模型產(chǎn)生錯誤的決策,從而輸出偏離目標或反其道而行之,可能會對社會、經(jīng)濟和國家安全產(chǎn)生嚴重影響。訓(xùn)練數(shù)據(jù)污染常見的攻擊方式有兩種:一是模型傾斜攻擊,攻擊者可以有意地在訓(xùn)練數(shù)據(jù)中注入虛假或有害信息,以誤導(dǎo)模型。例如,攻擊者可以欺騙分類器,將特定的惡意文件(如病毒或木馬)標記為無害,從而使模型無法準確識別真正的威脅。這對于那些依賴AI系統(tǒng)進行威脅檢測的應(yīng)用,如網(wǎng)絡(luò)安全、內(nèi)容安全等方面,可能會產(chǎn)生嚴重的后果。二是反饋誤導(dǎo)攻擊,攻擊者可以通過欺騙模型的反饋機制,直接向模型“注入”惡意信息,從而引導(dǎo)其做出錯誤的判斷。這種攻擊方式在需要不斷學(xué)習(xí)和適應(yīng)的情況下尤為危險,因為攻擊者可以不斷地更新模型的錯誤判斷,使其更具破壞性。
2.信息泄露引發(fā)隱私安全問題
生成式人工智能模型需要大量的數(shù)據(jù)來訓(xùn)練和優(yōu)化,這些數(shù)據(jù)可能包括用戶的個人信息,如姓名、地址、電話號碼、電子郵件地址、社交媒體賬號等。如果這些數(shù)據(jù)被不當使用或被惡意攻擊者獲取,就可能會引發(fā)個人信息泄露的風險。一是用戶個人信息泄露。生成式人工智能模型可能會自動推斷出用戶的個人信息,如姓名、地址、電話號碼、電子郵件地址等。這些信息可能會被用于推銷、廣告和欺詐行為。二是社交媒體賬號被盜用。用戶可能會將他們的社交媒體賬號與生成式人工智能模型綁定,從而導(dǎo)致他們的賬號被惡意攻擊者盜用。攻擊者可以利用這些賬號獲取更多的個人信息,甚至使用這些信息進行欺詐或惡意行為。三是隱私照片和視頻泄露。生成式人工智能模型可能會自動生成用戶的隱私照片和視頻,并將其傳播到互聯(lián)網(wǎng)上。這些照片和視頻可能會被惡意利用,導(dǎo)致用戶遭受嚴重的傷害和損失。例如,2018年8月,騰訊安全團隊發(fā)現(xiàn)亞馬遜智能音箱后門,可實現(xiàn)遠程竊聽并錄音。Facebook的DeepFace項目在訓(xùn)練過程中使用了用戶數(shù)據(jù),這些數(shù)據(jù)可能包含個人身份信息。如果沒有妥善處理,這些信息可能被泄露,導(dǎo)致隱私侵犯。2019年7月,薩默維爾市成為美國繼舊金山之后第二個禁止人臉識別的城市。
(二)算法安全風險
人工智能技術(shù)所取得的成就很大程度上得益于相關(guān)算法及技術(shù)的進步,尤其是基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法。人工智能算法系統(tǒng)在執(zhí)行過程中通過自動更新操作參數(shù)及規(guī)則,導(dǎo)致整個執(zhí)行決策過程存在難以理解、執(zhí)行過程的不透明、弱魯棒性、帶有偏見等一系列問題,這些問題存在巨大的隱患。
1.算法框架存在開源風險
常見的開源深度學(xué)習(xí)框架及其第三方 SDK 中包含著多種漏洞,其中作為主流框架的 TensorFlow 被發(fā)現(xiàn)在接口、學(xué)習(xí)算法、編譯、部署和安裝中都存在漏洞,攻擊者利用這些漏洞實施逃逸攻擊、拒絕服務(wù)攻擊等,將對應(yīng)用系統(tǒng)造成決策失誤、數(shù)據(jù)污染等問題。此外,生成式人工智能算法存在知識產(chǎn)權(quán)侵權(quán)風險,生成式人工智能有可能使用未經(jīng)許可的版權(quán)作品或商標,侵犯他人的知識產(chǎn)權(quán)。一方面,生成式人工智能是否會侵犯他人的知識產(chǎn)權(quán);其產(chǎn)生的內(nèi)容是否具有知識產(chǎn)權(quán),這些問題需要進一步探究。2019年,一家名為DeepArt的公司使用名畫家的風格來生成新的藝術(shù)作品,被指控侵犯了原畫家的版權(quán),引發(fā)了關(guān)于AI創(chuàng)作版權(quán)歸屬的法律爭議。
2.黑盒化導(dǎo)致安全隱患
目前,黑盒開發(fā)是生成式人工智能算法、深度學(xué)習(xí)建模的主要方法。該算法內(nèi)部的工作方式、運算過程大部分是不可見的,對于用戶、設(shè)計與開發(fā)人員來說通常都是難以理解的,不能檢查系統(tǒng)的代碼或產(chǎn)生輸出的邏輯。黑盒化將帶來諸多問題:一是算法可解釋性問題。大模型是數(shù)據(jù)驅(qū)動深度學(xué)習(xí)的產(chǎn)物,其內(nèi)部推理的過程非常難以理解,尤其是極深的模型層級和海量的模型參數(shù),導(dǎo)致我們無法理解其工作原理,繼而無法信任和控制,破壞了可用性。二是算法內(nèi)生安全問題。目前攻擊大模型方法相當多,包括數(shù)據(jù)投毒、后門攻擊、對抗樣本攻擊、成員推斷攻擊、提示詞注入攻擊等,這破壞了保密性、可用性、完整性,可能導(dǎo)致模型拒絕服務(wù)、用戶隱私泄露、模型參數(shù)泄露等問題。三是使用過程中安全性問題。大模型也可用來作惡,如生成釣魚郵件、挖掘系統(tǒng)漏洞、生成虛假內(nèi)容等,這破壞了抗抵賴性、真實性、可核查性。
(三)網(wǎng)絡(luò)安全風險
人工智能的應(yīng)用也帶來了諸多網(wǎng)絡(luò)安全風險。黑客或其他惡意行為者可利用人工智能自然語言編寫的能力,開展一系列網(wǎng)絡(luò)攻擊行為,如生成惡意軟件、釣魚電子郵件等。以往威脅實施者的知識水平限制了其對網(wǎng)絡(luò)安全威脅的程度,但是現(xiàn)在借助人工智能可更快、更容易發(fā)起網(wǎng)絡(luò)攻擊,大大降低網(wǎng)絡(luò)攻擊的成本和門檻。
1.網(wǎng)攻風險增加
生成式人工智能被惡意使用能夠降低網(wǎng)絡(luò)攻擊門檻、加快攻擊頻次。人工智能GC類應(yīng)用基于海量知識儲備、數(shù)據(jù)分析、語言組織等底層能力,可在短期批量制作多種網(wǎng)絡(luò)攻擊手段,在內(nèi)容創(chuàng)作的同時大幅降低了網(wǎng)絡(luò)攻擊的制作門檻。沒有編程經(jīng)驗的使用者通過一定的交互技巧(包含專業(yè)術(shù)語的多次補充、迭代)即可編寫出釣魚郵件、惡意代碼、勒索軟件,進而快速實現(xiàn)普遍性、高仿真的社會工程學(xué)攻擊。
人工智能驅(qū)動的惡意軟件可以利用其智能更快地感染計算機或使攻擊更有效。目前,國外已經(jīng)開展了基于人工智能的惡意代碼和軟件的探索與研發(fā)工作。例如:IBM公司研究人員將幾種現(xiàn)有的人工智能模型與當前的惡意軟件技術(shù)結(jié)合起來,設(shè)計了一款名為DeepLocker的惡意軟件,該軟件并不像普通的惡意軟件采用隨機傳播方式,而是將特定受害者作為目標,一旦人工智能模型通過面部識別、地理定位和語音識別等指標識別出目標,它就會啟動惡意行動,幾乎無法逆向工程。
2.沖擊現(xiàn)有網(wǎng)絡(luò)防御系統(tǒng)
生成式人工智能技術(shù)被惡意使用將顯著提升網(wǎng)絡(luò)攻擊復(fù)雜程度、強化攻擊效果。人工智能前沿應(yīng)用可將部分勞動密集型的攻擊工作實現(xiàn)自動化,可利用自身算法提升惡意代碼的生存能力,甚至精確定位目標以實現(xiàn)高級持續(xù)性威脅打擊。
IBM研究院曾展示過搭配卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)的DeepLocker,驗證了精準釋放惡意代碼的技術(shù)可行性,該模型只需輔以大量數(shù)據(jù)訓(xùn)練便可轉(zhuǎn)化為成熟應(yīng)用,將對現(xiàn)有網(wǎng)絡(luò)防御系統(tǒng)帶來巨大沖擊。網(wǎng)絡(luò)安全公司CheckPoint利用ChatGPT機器人結(jié)合OpenAI的代碼編寫系統(tǒng)Codex,生成了能攜帶惡意載荷、編寫巧妙的網(wǎng)絡(luò)釣魚郵件。CheckPoint公司創(chuàng)建的網(wǎng)絡(luò)釣魚電子郵件,附有Excel文檔,其中包含將反向Shell下載到受害者系統(tǒng)的惡意代碼。此外,攻擊者可以利用機器學(xué)習(xí)算法,分析大量銀行客戶的電子郵件和短信記錄,自動生成逼真的釣魚郵件和短信,使受害者誤以為是真正的銀行發(fā)送的信息,從而暴露了銀行客戶的賬號和密碼。
(四)綜合安全風險
1.影響公眾意識,威脅政治安全
人工智能可用于影響公眾政治意識形態(tài),間接威脅國家安全。人工智能在推動政治動員走向去中心化的過程中在一定程度上削弱了國家對政治動員行為的監(jiān)督能力。 2018年,美國《紐約時報》和英國《觀察家報》報道稱,劍橋公司涉嫌竊取Facebook用戶個人數(shù)據(jù),并利用智能廣告推薦功能,影響2016年美國大選。2021 年美國“國會山事件”中,特朗普的支持者依托人工智能和大數(shù)據(jù)技術(shù),通過Twitter、YouTube等社交軟件推送功能尋找潛在動員對象,發(fā)布行動計劃,在短時間內(nèi)迅速實現(xiàn)政治動員,最終沖入國會大廈。該事件極大地沖擊了美國的社會秩序,進一步加劇了美國社會的分裂。
2.軍事應(yīng)用給未來戰(zhàn)場帶來不確定性
人工智能技術(shù)作為具有顛覆性的前沿技術(shù),其應(yīng)用于軍事領(lǐng)域勢必會對國家安全產(chǎn)生深刻的影響。一是生成式人工智能能夠改善情報工作的整體質(zhì)量與效益。生成式人工智能的人機對話能力、強大的文字處理能力以及對圖像、視覺、語音等更多智能算法系統(tǒng)的整合調(diào)用能力,降低了情報人員利用機器學(xué)習(xí)和智能技術(shù)處理大規(guī)模信息的門檻,可為情報工作的所有人員(搜集人員、分析人員、管理人員等)、所有領(lǐng)域(人力情報、開源情報、技偵情報等)、所有類別(文字情報、圖像情報、語音情報、視頻情報和信號情報等)和所有階段(需求、計劃、搜集、處理、分析和分發(fā)等全階段)提供支撐,加速人機結(jié)合高效情報處理的范式轉(zhuǎn)移。二是賦能高度自動化無人作戰(zhàn)。隨著美軍中各類智能系統(tǒng)和無人裝備廣泛列裝,通過一體嵌入或接口調(diào)用生成式人工智能功能實現(xiàn)人與裝備的流暢對話,將極大變革戰(zhàn)場人機交互模式,降低無人裝備操作難度與操控負荷,實現(xiàn)更密切協(xié)同的人機編隊作戰(zhàn),更高效的半自主無人作戰(zhàn),推動“忠誠僚機”和集群無人機的普遍列裝和運用。2018年8月,委內(nèi)瑞拉總統(tǒng)在公開活動中受到無人機炸彈襲擊,這是全球首例利用人工智能產(chǎn)品進行的恐怖活動。2022年3月,烏克蘭軍方利用美國“明視人工智能”的智能面部識別技術(shù)識別俄軍陣亡和被俘人員身份,并挖掘其家庭和社會關(guān)系,將照片發(fā)給其親友,形成心理震懾。
3.沖擊現(xiàn)有社會倫理道德體系
人工智能產(chǎn)品和應(yīng)用會對現(xiàn)有社會倫理道德體系造成沖擊。一是道德和法律責任:當AI生成的內(nèi)容導(dǎo)致傷害或犯罪行為時,確定責任歸屬(是AI開發(fā)者、使用者還是AI本身)變得復(fù)雜。二是偏見和歧視:如果AI訓(xùn)練數(shù)據(jù)存在偏見,生成的內(nèi)容也可能反映并放大這些偏見,導(dǎo)致對某些群體的不公平對待。三是失業(yè)和勞動市場影響:生成式AI在內(nèi)容創(chuàng)作等領(lǐng)域的應(yīng)用可能取代人類工作者,影響勞動市場和就業(yè)結(jié)構(gòu)。四是心理和健康影響:過度依賴AI生成的內(nèi)容可能影響人們的心理健康,如過度使用深度偽造(deepfake)技術(shù)可能導(dǎo)致現(xiàn)實感知的扭曲。五是倫理標準和監(jiān)管缺失:當前對于生成式AI的倫理標準和監(jiān)管措施尚不完善,需要制定相應(yīng)的法規(guī)和指導(dǎo)原則以確保其負責任的使用。例如,2018年,Google的AI助手Duplex在演示中模仿了人類的語音和語調(diào),但被發(fā)現(xiàn)在與女性通話時更加禮貌和順從,反映了性別偏見。2019年,一名男子使用AI換臉技術(shù)將自己的臉替換到色情視頻中,導(dǎo)致原視頻主角面臨名譽損害,引發(fā)了關(guān)于AI生成內(nèi)容責任歸屬的討論。
二、各國治理生成式人工智能風險的舉措分析
生成式人工智能安全問題廣泛存在,美、歐、俄、日等國家通過不同的戰(zhàn)略政策、法規(guī)引導(dǎo)等提高生成式人工智能在民用、軍用領(lǐng)域風險管控能力,推動生成式人工智能發(fā)展。
(一)美國多措并舉治理生成式人工智能風險
1.通過戰(zhàn)略和行政命令,確保國際領(lǐng)導(dǎo)力和國家安全
美政府頒布法案政令,頂層指導(dǎo)生成式人工智能發(fā)展。2022年10月,美國頒布《人工智能權(quán)利法案藍圖:讓自動化系統(tǒng)為美國人民服務(wù)》,確定了建立安全有效的系統(tǒng)、避免算法歧視、注重數(shù)據(jù)隱私、提倡清晰的通知和解釋、設(shè)置備選方案和推出機制共五項原則,用以指導(dǎo)人工智能的設(shè)計,使用和部署。2023年11月,美國國會參議院兩黨議員聯(lián)合提出《2023人工智能研究、創(chuàng)新和問責法案》,以分類監(jiān)管方式推動了監(jiān)管制度的改進。2023年10月,美國總統(tǒng)拜登簽署第14110號行政命令“關(guān)于安全、可靠和值得信賴的人工智能”,包含標準建設(shè)、隱私保護、創(chuàng)新與競爭等八個方面,加速人工智能快速融入美國各領(lǐng)域,為美國政府、人民帶來巨大利益。
美國防部制定戰(zhàn)略政策,引領(lǐng)軍事人工智能安全發(fā)展。 2019年2月,美國防部發(fā)布《國防部人工智能戰(zhàn)略》,明確了實施負責任人工智能的基本原則,即“負責性、公平性、可追溯性、可靠性、可控性”。2023年,美國防部更新《武器系統(tǒng)中的自主性》指令,明確要求自主和半自主武器系統(tǒng)中人工智能能力的設(shè)計、開發(fā)、部署和使用。
2.兼顧生成式人工智能發(fā)展與安全,確保技術(shù)安全性
確保人工智能技術(shù)的安全性和保密性。美政府提出,將制定人工智能安全性和保密性的指南、標準和最佳實踐,包括制定檢測AI生成內(nèi)容和驗證官方內(nèi)容的標準和最佳實踐,并指示美商務(wù)部制定AI水印指南;制定國家安全備忘錄,進一步指導(dǎo)AI使用。該行政令還提出建立一項先進的網(wǎng)絡(luò)安全計劃,使AI能識別并修復(fù)關(guān)鍵軟件中的漏洞。同時,要求AI開發(fā)公司與美國政府共享安全測試結(jié)果及關(guān)鍵信息。
在促進競爭方面,美國將通過向小型開發(fā)商提供技術(shù)援助并鼓勵聯(lián)邦貿(mào)易委員會(FTC)行使其權(quán)力來促進競爭。同時,該行政令要求美國商務(wù)部在執(zhí)行CHIPS法案時,通過實施靈活的國家半導(dǎo)體技術(shù)中心會員結(jié)構(gòu)、實施導(dǎo)師計劃(mentorship programs)、增加初創(chuàng)企業(yè)和小型企業(yè)的資源等方式促進競爭。
3.美加強國際合作,支持技術(shù)創(chuàng)新
美國政府積極參與全球AI治理的國際合作,與其他國家和地區(qū)共同應(yīng)對生成式人工智能帶來的風險。例如,美國與歐盟、日本等國家和地區(qū)簽署了多項AI合作協(xié)議,共同研究和制定AI技術(shù)的安全標準和監(jiān)管措施。此外,美國還參與了聯(lián)合國等國際組織的AI治理工作,推動全球AI治理體系的建設(shè)。美國政府鼓勵企業(yè)和研究機構(gòu)開展生成式人工智能的研究和創(chuàng)新,以應(yīng)對AI技術(shù)帶來的風險。例如,美國政府設(shè)立了多個AI研究基金,支持企業(yè)和研究機構(gòu)開展AI技術(shù)的研究和應(yīng)用。此外,美國還鼓勵企業(yè)加強與高校、研究機構(gòu)的合作,共同推動生成式人工智能技術(shù)的發(fā)展。
(二)歐盟力圖通過立法規(guī)制人工智能發(fā)展
2020年歐盟委員會發(fā)布《人工智能白皮書》,提出一系列人工智能監(jiān)管政策,指導(dǎo)負責任的人工智能發(fā)展。歐盟強調(diào)“可信性人工智能”,重視數(shù)據(jù)隱私保護、維護人類尊嚴、可控性、可解釋性、可追責性。2020年2月,歐盟委員會《面向卓越和信任的人工智能發(fā)展之路》,提出人工智能風險可控理念,要求允許對人工智能的行為或決策進行追蹤和驗證,確保人類監(jiān)督,人工智能系統(tǒng)不應(yīng)破壞人類的自主性或造成其他不利影響。2021年,歐盟第九期研發(fā)框架計劃(2021—2027年)重點支持無監(jiān)督機器學(xué)習(xí),使用較少數(shù)據(jù)來訓(xùn)練人工智能等研究方向。2023年,歐盟發(fā)布全球首部人工智能法律框架《人工智能法》通過草案,將人工智能系統(tǒng)分為“不可接受、高、有限、極小”4個風險等級,并針對不同級別風險實施不同程度的規(guī)制,從而構(gòu)建起以風險為基礎(chǔ)的四級治理體系,旨在根據(jù)人工智能造成傷害的可能性對其進行監(jiān)管。北約方面,2021年10月,北約發(fā)布首個《人工智能戰(zhàn)略》,概述了如何以受保護和合乎道德的方式將人工智能應(yīng)用于國防和安全。該戰(zhàn)略根據(jù)國際法和北約的價值觀制定了負責任地使用人工智能技術(shù),戰(zhàn)略的四大目標為:鼓勵以負責任的方式開發(fā)和使用人工智能,以實現(xiàn)盟國的國防和安全;加速人工智能在能力開發(fā)和交付中的采用;保護和監(jiān)控AI技術(shù),解決安全政策考量因素;識別和防范國家和非國家行為者惡意使用人工智能帶來的威脅。2022年,英國發(fā)布《國防人工智能戰(zhàn)略》,重點提出研發(fā)可靠、安全的人工智能技術(shù),積極促進國際交流與合作,提高人工智能系統(tǒng)適應(yīng)性、穩(wěn)健性、可靠性、防御性和透明性,制定人工智能軍事應(yīng)用國際準則,并確保軍用人工智能系統(tǒng)合德守規(guī)。 2023年3月,英國科學(xué)、創(chuàng)新與技術(shù)部聯(lián)合人工智能辦公室發(fā)布《有利于人工智能創(chuàng)新的監(jiān)管方案》白皮書,提出建立人工智能監(jiān)管框架,明確人工智能技術(shù)應(yīng)用規(guī)則,創(chuàng)建支持人工智能技術(shù)創(chuàng)新的環(huán)境,減輕政府監(jiān)管負擔,提升公眾對其信任度,最大限度發(fā)揮人工智能技術(shù)帶來的經(jīng)濟和社會效益。
此外,歐盟與美國、日本等國家和地區(qū)簽署了多項AI合作協(xié)議,共同研究和制定AI技術(shù)的安全標準和監(jiān)管措施。此外,歐盟還參與了聯(lián)合國等國際組織的AI治理工作,推動全球AI治理體系的建設(shè)。歐盟設(shè)立了多個AI研究基金,支持企業(yè)和研究機構(gòu)開展AI技術(shù)的研究和應(yīng)用。此外,歐盟還鼓勵企業(yè)加強與高校、研究機構(gòu)的合作,共同推動生成式人工智能技術(shù)的發(fā)展。
(三)俄羅斯布局人工智能安全技術(shù)在產(chǎn)業(yè)及國防領(lǐng)域發(fā)展
俄羅斯政府高度重視生成式人工智能的風險治理,通過制定政策和法規(guī)來規(guī)范AI技術(shù)的研發(fā)和應(yīng)用。例如,俄羅斯發(fā)布了《國家人工智能發(fā)展戰(zhàn)略》,明確提出要加強對生成式人工智能的監(jiān)管,確保其安全、可靠和可控。此外,俄羅斯還成立了專門的AI監(jiān)管機構(gòu),如俄羅斯聯(lián)邦通信、信息技術(shù)和大眾傳媒監(jiān)督局(Roskomnadzor),負責制定AI技術(shù)的法律和監(jiān)管措施。俄羅斯與歐盟、美國等國家和地區(qū)簽署了多項AI合作協(xié)議,共同研究和制定AI技術(shù)的安全標準和監(jiān)管措施。此外,俄羅斯還參與了聯(lián)合國等國際組織的AI治理工作,推動全球AI治理體系的建設(shè)。
(四)日本重點探索以人為中心的治理原則
日本在人工智能管控方面,以內(nèi)閣《以人為本的人工智能社會原則》提出的七項原則為基礎(chǔ),即“以人為中心、教育應(yīng)用、隱私保護、安全保障、公平競爭、問責與透明、創(chuàng)新”。2021年,日本綜合創(chuàng)新戰(zhàn)略推進委員會提出《實施人工智能原則的治理指南》,強調(diào)在分析和決策過程中尋求快速解決問題的應(yīng)用于人工智能企業(yè)的敏捷治理模型。2021年6月,日本發(fā)布《人工智能戰(zhàn)略》,以實現(xiàn)社會5.0為目的,通過AI時代數(shù)字治理、倫理建設(shè)等措施實現(xiàn)戰(zhàn)略目標。2022年4月,日本第11屆綜合創(chuàng)新戰(zhàn)略推進會正式通過《人工智能戰(zhàn)略2022》,提出要提升人工智能的可信性,確保人工智能的透明性和可解釋性;未來將與友好國家合作,共同制定和推廣人工智能技術(shù)的倫理規(guī)則,以推廣日本人工智能技術(shù)倫理原則,建立國際合作體制,共同制定國際倫理標準。
三、科技企業(yè)人工智能安全治理探索
在各國的頂層設(shè)計指導(dǎo)下,科技企業(yè)也積極發(fā)揮主體責任,推進人工智能安全治理。面對生成式人工智能帶來的安全治理難題,OpenAI、微軟、谷歌等企業(yè)主動布局,在價值觀對齊、紅隊測試、風險評估與披露、安全技術(shù)攻關(guān)方面開展了探索,取得了一定成效。
(一)OpenAI注重風險治理,開展體系化布局
OpenAI高度重視人工智能安全問題,管理層曾多次在多個場合呼吁各界共同加強人工智能安全治理與監(jiān)管,成立專門部門研究治理工具與手段。2023年4月5日,OpenAI在其官網(wǎng)上發(fā)布了《我們邁向人工智能安全的路徑》(Our approach to AI safety),聲明“確保安全構(gòu)建、部署和使用人工智能系統(tǒng)對其使命至關(guān)重要”,主要圍繞安全開發(fā)、應(yīng)用反饋、保護兒童、尊重隱私、加強精準、持續(xù)投入六個方面表述了其AI安全的核心考量和主要舉措。2023年12月,OpenAI又發(fā)布了名為“準備框架(Preparedness Framework)”(測試版)的安全指南,該框架明確了監(jiān)測、評價、預(yù)測和防御等標準流程,用于預(yù)防和管控由AI大模型引發(fā)潛在災(zāi)難性風險,以彌補當前人工智能技術(shù)風險研究的不足,構(gòu)建更加全面、有效的AI安全體系。在頂層規(guī)劃、技術(shù)研發(fā)、組織保障的推動下,OpenAI積極探索推進人工智能安全治理,取得了眾多突破。
1.致力于研發(fā)安全的人工智能系統(tǒng)
一是研發(fā)人類價值觀對齊技術(shù)。由于人工智能系統(tǒng)可解釋度低,訓(xùn)練后的模型難以保證輸出結(jié)果符合社會道德和法律約束,可能會產(chǎn)生AI的行為不符合人類意圖、傷害人類的利益甚至脫離控制等重大風險,因此需要額外訓(xùn)練和外部風控機制進一步約束模型行為。OpenAI公司致力于對齊技術(shù)的研究,于2022年成立了專門的對齊團隊,并提出 InstructGPT模型,利用人類反饋強化學(xué)習(xí)技術(shù)(RHLF)和對應(yīng)的獎勵模型增強模型對齊效果。GPT-4模型從最初完成預(yù)訓(xùn)練到最終完成模型對齊共耗時6個月,使得GPT-4響應(yīng)不允許內(nèi)容請求的可能性比GPT-3.5低82%,產(chǎn)生事實響應(yīng)的可能性高40%。
二是開發(fā)輸入輸出控制“分類器”。在OpenAI產(chǎn)品中,使用“文本分類器”檢查并拒絕違反其使用政策的文本輸入提示,如涉及極端暴力、仇恨圖像、名人肖像或他人知識產(chǎn)權(quán)等。此外,還開發(fā)了強大的“圖像分類器”,用于審查生成的每個視頻的幀,在圖像輸出給用戶之前審查是否符合其使用政策。圖像生成模型DALL·E 3的技術(shù)文檔中提到,DALL·E 3已經(jīng)使用了上述輸入輸出的控制模塊,目前最新的Sora模型也使用了該安全策略。
2.探索開展安全測試、風險監(jiān)測并推進持續(xù)優(yōu)化
一是廣泛開展紅隊測試。OpenAI高度重視紅隊測試,GPT-3、GPT-4、SORA等均經(jīng)過大量、長期的紅隊測試,其測試工作也已由內(nèi)部對抗測試發(fā)展到與群外部專家合作開展。2023年9月,OpenAI發(fā)起“OpenAI紅隊網(wǎng)絡(luò)”計劃,面向社會征集有興趣提高OpenAI模型安全性的領(lǐng)域?qū)<壹尤?。專家網(wǎng)絡(luò)構(gòu)建特別強調(diào)了地域和專業(yè)的多樣性,邀請從事不同領(lǐng)域、持有不同觀點和具備不同生活經(jīng)驗的專家開展模型測試與評估,以保障模型的公平性、多樣性和代表性。如OpenAI邀請視覺藝術(shù)家、設(shè)計師和電影制作人來評估Sora模型危害或風險的關(guān)鍵領(lǐng)域。
二是積極研究鑒別真?zhèn)渭夹g(shù)。針對目前生成式人工智能內(nèi)容生成愈加逼真、真假難辨,偽造信息威脅不斷擴大等問題,OpenAI構(gòu)建檢測工具和平臺幫助用戶鑒別有關(guān)內(nèi)容是否由AI生成。一方面,在ChatGPT、DALL·E 3、Sora等模型生成的圖像中添加元數(shù)據(jù),幫助驗證其來源和歷史,另一方面,建立內(nèi)容憑證驗證平臺,幫助用戶檢查圖像是否由AI生成。但元數(shù)據(jù)技術(shù)由于其易于修改、刪除,并不能完全用來解決虛假信息識別問題,OpenAI表示還將積極投入研發(fā),降低不當使用風險。
三是建立用戶反饋生態(tài)。OpenAI認為風險控制是一個持續(xù)性的過程,只有在不斷應(yīng)用過程中才能發(fā)掘生成式人工智能的新問題、探索解決方案,同時僅憑OpenAI自身無法預(yù)測人們在現(xiàn)實世界中使用或誤用技術(shù)的每一種方式,因此需加大力度建立用戶反饋生態(tài),在迭代升級中逐步筑牢安全防線。2022年12月,OpenAI發(fā)布“ChatGPT反饋競賽”,征集在現(xiàn)實世界可能發(fā)生的風險或危害的反饋及新的緩解措施,幫助OpenAI更好地了解生成式AI系統(tǒng)。2023年4月,OpenAI發(fā)起“漏洞賞金計劃”,邀請用戶及技術(shù)人員報告在系統(tǒng)中發(fā)現(xiàn)的漏洞、錯誤及安全漏洞,包括模型越獄、幻覺等,截至2024年3月,已有75個漏洞得到獎勵。
3.建立完善組織架構(gòu)和治理機制
一是在組織架構(gòu)層面不斷完善人工智能治理。目前OpenAI的內(nèi)部安全治理體系主要由三個小組構(gòu)成:安全系統(tǒng)(Safety Systems)、超級對齊(Superalignment)和準備團隊(Preparedness team),安全系統(tǒng)小組專注于GPT-4等現(xiàn)有模型的安全運行,監(jiān)控評估相關(guān)負面影響及風險;超級對齊小組專注于未來可能產(chǎn)生的超級智能技術(shù),目標在四年內(nèi)解決超級智能對齊的核心技術(shù)挑戰(zhàn);準備團隊負責聚焦前沿人工智能技術(shù)的風險評估與預(yù)測,以更好地發(fā)現(xiàn)并應(yīng)對潛在的災(zāi)難性風險。三個小組承擔互補的職能,聚焦當下、前沿和未來開展多層次的技術(shù)體系建設(shè)布局,讓OpenAI在聚焦技術(shù)創(chuàng)新的同時,確保安全性和可控性。
二是提出動態(tài)風險評估和分級分類治理機制。OpenAI列出了4類可能帶來災(zāi)難性后果的領(lǐng)域,分別為:1.網(wǎng)絡(luò)安全風險,即使用生成式人工智能模型破壞計算機系統(tǒng)的保密性、完整性和可用性等;2.化學(xué)、生物、核與輻射(CBRN)威脅,即模型輔助產(chǎn)生化學(xué)、生物、放射或核威脅相關(guān)的風險;3.說服風險,即與說服人們改變想法有關(guān)的風險;4.模型自治風險,即模型能夠自主適應(yīng)環(huán)境,躲避或減輕人類控制的風險。針對以上4個領(lǐng)域,OpenAI設(shè)定了一套包括“低”“中”“高”和“嚴重”的風險等級標準,并通過使用“風險計分卡”,動態(tài)評估AI模型在采取緩解措施前后的風險。依據(jù)最新發(fā)布的安全指南,OpenAI未來將只部署經(jīng)評級為“中”或“低”風險的人工智能模型。
(二)微軟致力于“負責任的人工智能”,積極對外輸出安全服務(wù)能力
一直以來,微軟都把“負責任地發(fā)展人工智能”作為優(yōu)先事項,經(jīng)過3年多的開發(fā)和完善,形成了“微軟負責任的人工智能標準”,包括公平性、可靠性和安全性、隱私、包容性、透明度、問責制六項原則和17個目標,并通過治理、政策和研究將負責任的AI原則付諸實踐。生成式人工智能興起以來,微軟不斷升級人工智能安全治理手段,除了提升風險控制水平外,還通過提供“負責任的人工智能工具包”和“人機交互(HAX)工具包”不斷對外輸出相應(yīng)能力,致力于構(gòu)建人工智能安全發(fā)展生態(tài)。
1.著力發(fā)展“負責任的人工智能”
一是系統(tǒng)部署紅隊測試。微軟高度重視紅隊測試,其人工智能紅隊測試是由安全、對抗性機器學(xué)習(xí)和負責任的人工智能專家組成的跨學(xué)科團隊專門開展的。在新的必應(yīng)聊天發(fā)布之前,經(jīng)歷了由數(shù)十名專家花費數(shù)百個小時專門針對人工智能安全的測試、評估和改進。與此同時,微軟將自身部署紅隊測試的經(jīng)驗進行提煉總結(jié),2023年11月,微軟發(fā)布《為大預(yù)言模型及其應(yīng)用規(guī)劃紅隊》指南,對紅隊測試的流程進行了規(guī)范化梳理。首先,確定測試人員,構(gòu)建多元化的人員隊伍;其次,明確測試內(nèi)容,包括基礎(chǔ)模型的漏洞、基于基礎(chǔ)模型開發(fā)的應(yīng)用程序的漏洞;再次,確定測試方式,建議開展開放性測試,并創(chuàng)建“危害列表”,包含危害的定義和示例,為后續(xù)的改進和提升提供指引;最后,確定總結(jié)方法,建議定期與利益相關(guān)者分享一份簡短的報告,列出最重要的已確定問題,預(yù)覽即將到來的幾輪測試計劃等。
二是高度重視模型“透明度”。微軟積極推進模型報告與信息共享,定期向利益相關(guān)者提供模型開發(fā)和評估的相關(guān)信息。例如,必應(yīng)在界面中即披露了其由人工智能提供支持,并積極幫助用戶了解系統(tǒng)的能力和局限性,GitHub Copilot常見問題解答中介紹了其生成代碼的功能和安全性限制,以及使用該代碼對隱私和公平影響等。Azure OpenAI透明度說明標明了通過該服務(wù)可生成文本、圖像和語音等,并描述了模型采用的技術(shù)、設(shè)想的用例以及它們行為中的限制和潛在偏見等。與此同時,微軟與Anthropic,Google和OpenAI,一起發(fā)起了前沿模型論壇(FMF),以分享最佳實踐并推進人工智能安全研究。微軟正在通過FMF合作,制定與發(fā)現(xiàn)前沿模型中的漏洞或危險能力相關(guān)的“負責任披露”流程指南。
2.積極對外提供工具服務(wù)
一是發(fā)布負責任的人工智能工具包。微軟于2022年發(fā)布了《微軟負責任的人工智能標準》及其指南文件,幫助用戶依據(jù)指南文件負責任地開發(fā)人工智能。同年,微軟發(fā)布《負責任的人工智能影響評估模板》,旨在定義評估 AI 系統(tǒng)可能對人員、組織和社會產(chǎn)生的影響的過程。此后,微軟發(fā)布“負責任的人工智能工具箱”,包含一系列評估模型及數(shù)據(jù)的工具,并提供易使用、易理解的用戶界面,幫助人工智能系統(tǒng)的開發(fā)人員和利益相關(guān)者能夠更負責任地開發(fā)和監(jiān)控人工智能。工具包將多個領(lǐng)域的工具和技術(shù)集成在一起,主要覆蓋誤差分析、公平性評估、模型可解釋、反事實分析、因果分析、數(shù)據(jù)平衡等領(lǐng)域,使模型開發(fā)人員可以創(chuàng)建端到端的流暢調(diào)試,并通過使用識別錯誤、檢查數(shù)據(jù)、生成全局和本地解釋模型等可視化工具來識別診斷錯誤。
二是發(fā)布以人為本的人工智能工具包。微軟將發(fā)展“以人為本”的人工智能作為實現(xiàn)“負責任的人工智能”的重要手段。在自身探索實踐的基礎(chǔ)上,開發(fā)Human AI eXperience(HAX)工具包,形成AI產(chǎn)品團隊創(chuàng)建以人為本的人工智能的方法論。工具包主要包括四類內(nèi)容,第一是指南,概述了人工智能系統(tǒng)人機交互的最佳實踐;第二是設(shè)計庫,提供了18條使用示例幫助用戶了解人機交互指南的應(yīng)用方式;第三是工作簿,通過構(gòu)建跨角色對話,確定實施指南的優(yōu)先級;第四是操作手冊,列舉了有關(guān)故障示例,幫助用戶在構(gòu)建功能齊全的系統(tǒng)之前主動識別、設(shè)計和測試人機交互失敗場景。
三是發(fā)布風險識別工具包。2021年,微軟就推出過紅隊自動化框架Counterfit,然而,生成式AI系統(tǒng)具有多層不確定性,相同的輸入可以提供不同的輸出。此外,生成式AI系統(tǒng)的架構(gòu)差異很大,包括從獨立應(yīng)用程序到現(xiàn)有應(yīng)用程序中的集成,再到輸入和輸出模式,例如文本、音頻、圖像和視頻等,增加了測試難度。如果通過有關(guān)專家手動處理所有類型的傷害,跨不同策略的所有模式,可能進展十分緩慢。因此,2024年2月22日,微軟發(fā)布了一個用于生成AI的Python風險識別工具包PyRIT,以幫助安全專業(yè)人員和機器學(xué)習(xí)工程師主動發(fā)現(xiàn)其生成AI系統(tǒng)中的風險,大幅提升風險識別效率。
(三)谷歌注重“安全開發(fā)”,定期開展原則審查
谷歌2018年起就制定了其發(fā)展人工智能的主要原則,并按照技術(shù)發(fā)展態(tài)勢每年更新,2023年版人工智能原則包括對社會有益、避免制造或強化不公平的偏見、進行安全制造和測試、對人負責、納入隱私設(shè)計原則、堅持高標準的科學(xué)卓越、努力限制可能有害或濫用的應(yīng)用程序七項標準,并承諾不會在可能造成重大危害和違反國際公認規(guī)則等領(lǐng)域設(shè)計和部署人工智能。
1.完善內(nèi)部審查流程
一是開展人工智能原則審查。在每年更新的人工智能原則指導(dǎo)下,谷歌組織開展產(chǎn)品發(fā)布前的審查,包括技術(shù)安全測試、標準隱私和安全審查等。2023年,谷歌的人工智能原則審查達到了500余項,較2022年多了一倍多,主要是圍繞生成式人工智能模型的相關(guān)產(chǎn)品和服務(wù)。為了更加符合人工智能原則要求,谷歌根據(jù)已知的法律要求和新型的標準及自身的人工智能原則評估產(chǎn)品設(shè)計等早期階段,讓人工智能產(chǎn)品從誕生之初就符合有關(guān)要求。
二是推進人工智能安全風險評估。谷歌研制風險評估框架,旨在識別、衡量和分析整個產(chǎn)品開發(fā)生命周期中的風險。同時,谷歌收集了來自全球1000多名員工的反饋,這些員工超過50%的人在美國以外生活和工作,來自39個不同的國家和地區(qū),會說超過85種不同的語言,對谷歌用戶的國際多樣性具有一定代表性。這些反饋也將與自動化對抗性測試的團隊共享,用于產(chǎn)品安全性提升。
2.提出人工智能安全管理指南
一是研制安全的人工智能框架。人工智能正在迅速發(fā)展,有效的風險管理策略必須隨之發(fā)展。為了適應(yīng)人工智能帶來的安全問題,2023年6月,谷歌發(fā)布了安全的人工智能框架(SAIF),用于打造安全的人工智能系統(tǒng)。SAIF有六個核心要素:將強大的安全基礎(chǔ)擴展到AI生態(tài)系統(tǒng)中、擴展檢測和響應(yīng)范圍、開展自動化防御快速跟上進展、協(xié)調(diào)平臺級控制確保一致性、為AI部署創(chuàng)建更快的反饋循環(huán)、將AI系統(tǒng)風險與周圍的業(yè)務(wù)流程相結(jié)合,這些原則旨在確保AI系統(tǒng)在設(shè)計時就具備安全性,以應(yīng)對特定于AI系統(tǒng)的風險,如模型盜竊、訓(xùn)練數(shù)據(jù)污染、提示注入攻擊和訓(xùn)練數(shù)據(jù)中的機密信息提取等。谷歌同步發(fā)布了《實施安全的人工智能框架(SAIF)的快速指南》,幫助用戶快速將SAIF框架應(yīng)用至實踐。
二是與開源社區(qū)合作構(gòu)建安全生態(tài)。建立開源漏洞數(shù)據(jù)庫(OSV),開發(fā)了一種新的漏洞格式,并由多個開源生態(tài)系統(tǒng)(如Python、Rust、Go)采用。設(shè)置安全評分卡(Scorecards):評估項目對安全最佳實踐的遵守情況,并為開發(fā)者在使用依賴項前提供參考分數(shù)。谷歌還向OpenSSF等第三方基金會捐款,創(chuàng)建了一個新的“開源維護團隊”,由谷歌工程師組成,與上游維護者緊密合作,提高關(guān)鍵開源項目的安全性。
三是注重AI軟件的供應(yīng)鏈安全。谷歌開源安全團隊(GOSST)正在利用SLSA和Sigstore來保護人工智能供應(yīng)鏈的整體完整性。SLSA(軟件工件的供應(yīng)鏈級別)是描述軟件工件如何構(gòu)建的規(guī)范,支持SLSA的構(gòu)建平臺可以通過元數(shù)據(jù)描述軟件是如何產(chǎn)生的,記錄所有構(gòu)建輸入。SLSA可以幫助用戶在檢測到人工智能系統(tǒng)中的漏洞后,快速識別哪些模型需要重新訓(xùn)練,從而降低成本。Sigstore是一種數(shù)字簽名的工具,允許任何軟件制作者通過簡單地使用綁定到工作負載或開發(fā)人員身份的OpenID連接令牌來簽署他們的軟件。通過使用Sigstore,即可識別軟件的制作者,驗證軟件是否被篡改或替換。
3.推進相關(guān)工具、技術(shù)研發(fā)
一是推進負責任的人工智能設(shè)計。識別和記錄潛在的危害和風險,通過使用負責任的數(shù)據(jù)集、分類器和過濾器,以及模型內(nèi)的緩解措施,如微調(diào)、推理、數(shù)據(jù)增強和受控解碼來解決潛在危害,從而主動減輕這些危害。
二是開展對抗性測試。通過在一系列場景中提供惡意或無意的有害輸入來對模型進行系統(tǒng)評估,以識別和減輕潛在的安全和公平風險。谷歌構(gòu)建了一個內(nèi)部的、公司范圍內(nèi)的大型語言模型(LLM)紅色團隊,與數(shù)百名安全、安全和其他專家組成了“黑客-人工智能馬拉松”,對Gemini、Bard等人工智能模型發(fā)布前進行測試。除了對安全性和公平性的對抗性測試外,谷歌還建立了一個專門的團隊,專注于測試AI模型和產(chǎn)品的安全、隱私和濫用風險。
三是加強員工培訓(xùn)。2023年,谷歌在責任創(chuàng)新挑戰(zhàn)(Responsible Innovation Challenge)的基礎(chǔ)上,推出了人工智能道德培訓(xùn),培訓(xùn)鼓勵谷歌技術(shù)人員專注于負責任地構(gòu)建人工智能產(chǎn)品的最佳實踐,包括如何記錄安全和不安全的實踐,測試人工智能模型輸出以獲得公平的結(jié)果,以及在需要改進時提交錯誤等,大約有1800名谷歌員工已經(jīng)完成了培訓(xùn)。
四、啟示與建議
生成式人工智能在全球的快速應(yīng)用爆火也帶來了更復(fù)雜、更隱蔽的安全問題,加快人工智能安全風險治理是推進“人工智能+”的重要一環(huán)。我國應(yīng)從加強跟蹤研究、推進技術(shù)攻關(guān)、推動“以評促建”和加強國際交流等四個維度發(fā)力,構(gòu)建人工智能安全發(fā)展生態(tài)。
(一)加強跟蹤研究,積極應(yīng)對可能帶來的影響
當前,生成式人工智能技術(shù)正處在快速發(fā)展過程中,可謂以月為單位迭代更新,其引發(fā)的安全風險和潛在影響也在不斷變化。我國應(yīng)圍繞生成式人工智能可能帶來的安全風險問題開展深入研究,積極應(yīng)對風險。一是密切關(guān)注技術(shù)發(fā)展最新動向,及時識別和制止不良影響,遏制風險傳播。二是提前研究各類風險的應(yīng)對舉措,研制應(yīng)急響應(yīng)機制。三是持續(xù)跟蹤國內(nèi)外應(yīng)對生成式人工智能安全風險的最新舉措和技術(shù)工具,借鑒吸收優(yōu)秀經(jīng)驗,構(gòu)建人工智能安全生態(tài)。
(二)推進技術(shù)攻關(guān),鼓勵安全檢測、加固和防護技術(shù)研發(fā)
研發(fā)針對人工智能公平性、可解釋性、魯棒性、隱私性的檢測工具,構(gòu)建檢測能力,幫助各方提升人工智能安全風險識別和防御能力。當下應(yīng)重點發(fā)力:一是鼓勵科研院所、科技企業(yè)聯(lián)合攻關(guān),圍繞生成式人工智能的“數(shù)字水印”標注技術(shù)及其對應(yīng)的識別技術(shù)開展研究。數(shù)字水印應(yīng)向擾動小、難篡改、難去除方向發(fā)展,采用“聯(lián)盟化”運作模式,形成一套行業(yè)公認的水印標準,推動生成內(nèi)容可識別、可溯源。二是鼓勵開展紅隊測試。鼓勵科研機構(gòu)研制“紅隊測試”指南,梳理開展紅隊測試的流程、要點和注意事項。鼓勵人工智能研發(fā)企業(yè)在產(chǎn)品發(fā)布前開展紅隊測試,并根據(jù)測試結(jié)果不斷改進提升產(chǎn)品安全能力。
(三)推動“以評促建”,分級分類開展評估認證
一是開展人工智能安全風險評估,建立風險分級分類標準,推進分類管理。針對人工智能可能帶來的安全風險及其潛在影響,編制風險分級標準。鼓勵人工智能產(chǎn)品提供方在產(chǎn)品發(fā)布前及產(chǎn)品運行中定期開展風險評估,對于風險較高的產(chǎn)品要及時采取應(yīng)對措施。二是建立人工智能安全可信度自評估、外部評估和強制認證相結(jié)合的評估認證體系。人工智能技術(shù)提供方應(yīng)圍繞人工智能安全可信要求定期開展自評估和自我承諾。在重點場景和領(lǐng)域,鼓勵由第三方專業(yè)機構(gòu)開展專門的合規(guī)評估和審計。在高風險領(lǐng)域,建議結(jié)合實際情況,在時機成熟時實施嚴格管理,必要時可開展上市前合規(guī)性認證。
(四)加強國際交流,積極參與全球治理規(guī)則建立
生成式人工智能技術(shù)變化快、風險影響大、相關(guān)領(lǐng)域廣,如何對其開展監(jiān)管,保障“發(fā)展與安全”已經(jīng)成為全球人工智能治理的新課題。一方面,人工智能監(jiān)管需要全球通力合作,共同面對前沿人工智能可能帶來的“災(zāi)難性風險”。另一方面,鼓勵行業(yè)協(xié)會、企業(yè)、科研機構(gòu)等主體積極參與有關(guān)標準規(guī)則制定。在《全球人工智能治理倡議》的基礎(chǔ)上,及時提出中國方案、發(fā)出中國聲音,增強生成式人工智能安全治理國際話語權(quán)。
五、結(jié)論
當前,生成式人工智能的快速發(fā)展為人類社會帶來了前所未有的機遇與挑戰(zhàn),給網(wǎng)絡(luò)安全、數(shù)據(jù)保護和算法安全等領(lǐng)域帶來風險,甚至影響國家的政治穩(wěn)定、軍事安全以及社會和諧。如何管理人工智能安全風險,確保人工智能能夠始終向善成為當下的重要難題。本文梳理了美、歐、俄、日等國家的戰(zhàn)略政策,并整理了OpenAI、微軟、谷歌等企業(yè)在價值觀對齊、紅隊測試、風險評估與披露、安全技術(shù)攻關(guān)方面的舉措。結(jié)合我國治理人工智能安全的現(xiàn)狀,提出加強跟蹤研究、推進技術(shù)攻關(guān)、推動“以評促建”和加強國際交流等建議,以期支撐我國人工智能安全健康發(fā)展。
Research on Security Risk Management of Generative Artificial Intelligence
Abstract: Currently, the rapid development of generative artificial intelligence, represented by phenomenal products such as ChatGPT and Sora, is reshaping the industrial and value chains. At the same time, it has also triggered numerous new risks in areas such as data security, algorithm security, network security, and application security, which may have serious impacts. Major countries and regions worldwide attach great importance to the management of security risks associated with generative artificial intelligence, promoting the construction of risk management systems from dimensions such as policy guidance, technical support, and international cooperation. While actively promoting frontier technological innovation, technology companies also attach great importance to security management, focusing on different aspects to ensure that artificial intelligence is trustworthy and responsible. China should focus on four dimensions: strengthening tracking research, promoting technological breakthroughs, promoting “evaluation to promote construction,” and enhancing international exchanges, to ensure the safe and healthy development of artificial intelligence.
Keywords: Generative Artificial Intelligence;Security Risks;Security Management;Technology Giants
. See https://news.mit.edu/2019/how-tell-whether-machine-learning-systems-are-robust-enough-real-worl-0510 (Last visited on March 10, 2024).
. 參見https://www.computer.org/publications/tech-news/trends/the-impact-of-ai-on-cybersecurity/ (Last visited on March 10, 2024).
. 黑盒問題是指由于廣泛應(yīng)用在人工智能產(chǎn)品上的深度學(xué)習(xí)等主流算法模型內(nèi)部結(jié)構(gòu)復(fù)雜、運行過程自主性較強,且人工無法干預(yù)等因素,造成的不可控問題。
. 參見https://umdearborn.edu/news/ais-mysterious-black-box-problem-explained(Last visited on March 10, 2024).
. 參見https://research.ibm.com/blog/deep-learning-real-world(Last visited on March 10, 2024).
. 參見https://www.scientificamerican.com/article/why-we-need-to-see-inside-ais-black-box (Last visited on March 10, 2024).
. 參見https://www2.deloitte.com/us/en/insights/focus/tech-trends/2022/future-of-cybersecurity-and-ai.html (Last visited on March 10,?2024).
. 參見https://dataconomy.com/2023/01/16/artificial-intelligence-security-issues(Last visited on March 10, 2024).
. 參見https://spectrum.ieee.org/adversarial-attacks-and-ai-systems(Last visited on March 10, 2024).
. 參見https://www.techtarget.com/searchsoftwarequality/tip/Reduce-these-forms-of-AI-bias-from-devs-and-testers(Last visited on March 10, 2024).
. 參見https://legalaidnyc.org/zh-CN/news/commends-president-biden-artificial-intelligence-bill-of-rights(Last visited on March 10, 2024).
. 參見http://lib.ia.ac.cn/news/newsdetail/68494(Last visited on March 10, 2024).
. 參見http://www.takungpao.com/news/232111/2022/1006/772433.html (Last visited on March 10, 2024).
. 參見https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/1082416/Defence_Artificial_Intelligence_Strategy.pdf(Last visited on March 10, 2024).
. 參見OpenAI, Preparedness, at https://openai.com/safety/preparedness (Last visited on March 10, 2024).
. 參見OpenAI, GPT-4 is OpenAIs most advanced system, producing safer and more useful responses, at https://openai.com/gpt-4 (Last visited on March 10, 2024).
. 參見OpenAI, DALL-E 3 System Card, at https://cdn.openai.com/papers/DALL_E_3_System_Card.pdf#link=pdff (Last visited on March 10, 2024).
. 參見OpenAI, Red Teaming Network, at https://openai.com/blog/red-teaming-network#fn-A (Last visited on March 10, 2024).
. 參見OpenAI, Sora Safety, at https://openai.com/sora#safety (Last visited on March 10, 2024).
. 參見OpenAI, ChatGPT Feedback Contest, at https://cdn.openai.com/chatgpt/chatgpt-feedback-contest.pdf (Last visited on March 10, 2024).
. 參見Bugcrowd, OpenAI, at https://bugcrowd.com/openai (Last visited on March 10, 2024).
. Microsoft, Red Teaming for Azure AI Services, at https://learn.microsoft.com/en-us/azure/ai-services/openai/concepts/red-teaming?toc=%2Fsecurity%2Fai-red-team%2Ftoc.json&bc=%2Fsecurity%2Fai-red-team%2Fbreadcrumb%2Ftoc.json (Last visited on March 10, 2024).
. 參見Microsoft, Responsible AI Toolbox, at https://github.com/microsoft/responsible-ai-toolbox (Last visited on March 10, 2024).
. 參見Microsoft, HAX Toolkit, at https://www.microsoft.com/en-us/haxtoolkit/?culture=en-us&country=us (Last visited on March 10, 2024).
. 參見Microsoft Security Blog, Announcing Microsoft's Open Automation Framework to Red Team Generative AI Systems, at https://www.microsoft.com/en-us/security/blog/2024/02/22/announcing-microsofts-open-automation-framework-to-red-team-generative-ai-systems/ (Last visited on March 10, 2024).
. 參見林心雨:《谷歌推出安全AI框架,具備六個核心要素》,載微信公眾號“上海數(shù)據(jù)安全協(xié)同創(chuàng)新實驗室”,2023年6月13日上傳。
作者簡介:宋艷飛,國家工業(yè)信息安全發(fā)展研究中心高級工程師;張瑤,國家工業(yè)信息安全發(fā)展研究中心工程師;樊偉,國家工業(yè)信息安全發(fā)展研究中心工程師。