關(guān)鍵詞:生成式人工智能;訓練數(shù)據(jù);數(shù)據(jù)法律問題;數(shù)據(jù)治理體系
以ChatGPT為代表的生成式人工智能的興起,正日益改變著人們的生產(chǎn)和生活方式,并逐漸成為數(shù)字時代的信息基礎(chǔ)設施。通用大型語言模型技術(shù)和產(chǎn)業(yè)的迅猛發(fā)展,離不開算力、算法、數(shù)據(jù)等關(guān)鍵因素的綜合推動。從技術(shù)發(fā)展脈絡來看,生成式人工智能(以下簡稱“生成式AI”)的發(fā)展,中長期受制于算力的提升,短期受制于高質(zhì)量的數(shù)據(jù)。從某種意義來說,對于生成式AI產(chǎn)業(yè)的發(fā)展,高質(zhì)量的數(shù)據(jù)具有決定性的影響,如果數(shù)據(jù)的質(zhì)量不高,即使算力得到飛速提升,也會直接影響到生成式AI系統(tǒng)的性能。因此,高質(zhì)量的數(shù)據(jù)對于生成式AI具有至關(guān)重要的意義。生成式AI訓練階段的數(shù)據(jù)收集和處理面臨眾多法律問題,例如數(shù)據(jù)問題、版權(quán)問題及競爭問題,甚至引發(fā)全球各類訴訟案件。2023年美國就發(fā)生了十多起AI大模型訓練司法訴訟案件,例如十六位匿名人士對OpenAI和微軟提起集體訴訟,提出15項控告,包括OpenAI違反《電子通信隱私法》《計算機欺詐和濫用法案》《加州侵犯隱私法案》(CIPA)、加州《不公平競爭法》和《商業(yè)職業(yè)規(guī)范》《生物識別信息隱私法案》,伊利諾伊州《消費者欺詐和欺騙性商業(yè)行為法案》、紐約《通用商業(yè)法案》,構(gòu)成重大過失、侵犯隱私、侵擾個人生活、盜竊/收受被盜財產(chǎn)、侵占、不當?shù)美?、未發(fā)出警告等。原告指控被告通過抓取整個互聯(lián)網(wǎng)所有數(shù)據(jù)的方式偷取個人信息,且都是在未經(jīng)通知和同意的情況下秘密抓取數(shù)據(jù)來構(gòu)建AI產(chǎn)品,然后通過銷售產(chǎn)品訪問權(quán)限來獲利。
數(shù)據(jù)法律保護對于生成式AI訓練數(shù)據(jù)合規(guī)發(fā)展具有舉足輕重的作用,有鑒于此,國家網(wǎng)信辦等七部門發(fā)布的《生成式人工智能服務管理暫行辦法》第7條及全國信息安全標準化技術(shù)委員會發(fā)布的《生成式人工智能服務安全基本要求》明確提出了語料來源安全要求和語料內(nèi)容安全要求等。歐盟《一般數(shù)據(jù)保護條例》(GDPR)和我國《中華人民共和國個人信息保護法》(以下簡稱《個人信息保護法》)制定之時,均沒有考慮生成式AI等通用大模型場景,那么,生成式AI訓練數(shù)據(jù)場景對GDPR和《個人信息保護法》及其配套法規(guī)、標準帶來了哪些挑戰(zhàn),究竟存在哪些亟待解決的數(shù)據(jù)法律問題,應當如何完善規(guī)則解決這些問題亟待研究。下文擬就生成式AI訓練數(shù)據(jù)的基本原理,集中討論訓練階段輸入側(cè)的數(shù)據(jù)法律問題,進而提出完善建議。
一、生成式人工智能訓練階段的數(shù)據(jù)法律問題
目前,對生成式人工智能(Artificial Intelligence Generated Context,AIGC)尚無統(tǒng)一規(guī)范的定義,我國《生成式人工智能服務管理暫行辦法》第22條從內(nèi)容生成形式和提供方式上定義了“生成式人工智能技術(shù)及服務”,是指“具有文本、圖片、音頻、視頻等內(nèi)容生成能力的模型及相關(guān)技術(shù)”,包括通過可編程接口等方式提供生成式AI服務。也即,生成式AI是一種可以通過從預先存在的數(shù)據(jù)中學習模型來生成新內(nèi)容的AI,如文本、圖像和音視頻,包括人工智能和機器學習的各種技術(shù)和技巧??傮w而言,生成式AI產(chǎn)業(yè)鏈可分為算力基礎(chǔ)層、算法模型層、垂直應用層三層架構(gòu)。從產(chǎn)業(yè)鏈來看,生成式AI訓練數(shù)據(jù)流程主要包括預訓練、模型(指令)微調(diào)及能力接入與應用等三環(huán)節(jié)。預訓練模型最開始誕生于計算機視覺領(lǐng)域,并在該領(lǐng)域取得了良好的效果。預訓練就是指預先訓練的一個模型或者指預先訓練模型的過程,是向模型提供數(shù)據(jù)來學習,通常也稱為訓練數(shù)據(jù)集。生成式AI模型,特別是大語言模型,即參數(shù)量龐大(目前規(guī)模達千億級)、在預訓練過程中使用大規(guī)模語料庫進行自監(jiān)督學習的自然語言處理模型,需要大量的數(shù)據(jù)投喂或訓練。預訓練是在大量數(shù)據(jù)上進行的無監(jiān)督學習,目的是讓網(wǎng)絡學會通用的特征表示;模型微調(diào)是指在新的數(shù)據(jù)上訓練以前訓練過的模型,或以其他方式調(diào)整現(xiàn)有模型,即使用特定任務的數(shù)據(jù)集來重新訓練已經(jīng)預訓練好的模型,以提高其在該任務上的性能和表現(xiàn)。微調(diào)過程實際上是使用特定的下游任務對模型進行第二階段的訓練。這一步的目的是對預訓練好的模型進行細微的調(diào)整,以便于更好地適配特定的下游任務。
從產(chǎn)業(yè)鏈發(fā)展來看,生成式AI產(chǎn)業(yè)大致可分為研發(fā)、部署和應用等階段。生成式AI訓練數(shù)據(jù)是重要的研發(fā)環(huán)節(jié),ChatGPT的訓練數(shù)據(jù)對模型的性能和質(zhì)量具有重要影響。通常來說,使用更多更高質(zhì)量的訓練數(shù)據(jù)可以提高模型的性能和準確性。同時,訓練數(shù)據(jù)的多樣性也對模型的性能和泛化能力有重要影響。歐盟《人工智能法案》第3條分別定義了“訓練數(shù)據(jù)”“驗證數(shù)據(jù)”“測試數(shù)據(jù)”“輸入數(shù)據(jù)”,根據(jù)第3條規(guī)定,“訓練數(shù)據(jù)”是指用于通過擬合人工智能系統(tǒng)的可學習參數(shù)來訓練該系統(tǒng)的數(shù)據(jù),“輸入數(shù)據(jù)”是指提供給人工智能系統(tǒng)或由其直接獲得的數(shù)據(jù),該系統(tǒng)在此基礎(chǔ)上產(chǎn)生輸出。我國《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》第23條規(guī)定,“被用于訓練機器學習模型的標注或者基準數(shù)據(jù)集”??傮w看來,生成式AI技術(shù)在各行業(yè)的數(shù)字內(nèi)容相關(guān)領(lǐng)域均有發(fā)揮空間,其產(chǎn)業(yè)鏈涉及數(shù)據(jù)、算法、算力、場景等要素。綜合來看,生成式人工智能訓練階段的法律問題主要聚集于AI所需的海量訓練數(shù)據(jù)與個人信息和數(shù)據(jù)保護、版權(quán)排他性保護之間的根本性沖突。單就數(shù)據(jù)法律問題而言,主要存在宏觀和微觀兩個層面的問題,在宏觀層面,存在技術(shù)與法律之間不適配,公司商業(yè)利益與個人數(shù)據(jù)保護(公共利益)的目標難以平衡,技術(shù)創(chuàng)新和消費者利益無法平衡,監(jiān)管和技術(shù)發(fā)展難以平衡等問題,雖然法律區(qū)分數(shù)據(jù)類別,但數(shù)據(jù)抓取、數(shù)據(jù)訓練無法識別和區(qū)分數(shù)據(jù)類別,AI公司不了解模型訓練的具體內(nèi)容;在微觀層面,存在AI公司收集個人數(shù)據(jù)缺乏合法性基礎(chǔ),或合法性基礎(chǔ)不清楚等問題。在此基礎(chǔ)上,大模型公司會與第三方共享數(shù)據(jù)。倘若數(shù)據(jù)的后續(xù)使用和最初收集時主張的目的不同,可能涉嫌構(gòu)成違法。本文主要從微觀層面觀察大模型訓練階段各環(huán)節(jié)所涉及的數(shù)據(jù)收集和處理的法律問題,因為機器學習細分為問題定義、數(shù)據(jù)收集、數(shù)據(jù)清洗、匯總統(tǒng)計審查、數(shù)據(jù)分區(qū)、模型選擇、模型訓練和模型部署等八個步驟/過程。對法律研究而言,可以劃分為處理數(shù)據(jù)(包括前七個步驟)和運行模型。生成式AI訓練階段的數(shù)據(jù)保護問題集中于預訓練和模型微調(diào)環(huán)節(jié),涉及數(shù)據(jù)采集和訓練集,包括可以采集第三方數(shù)據(jù),或使用自有數(shù)據(jù)或?qū)で蟀鏅?quán)授權(quán)合作,自主學習生成新內(nèi)容。
(一)數(shù)據(jù)來源合法性問題
人工智能技術(shù)在整個開發(fā)過程中面臨諸多法律問題,其中最突出的就是數(shù)據(jù)來源的合法性問題。因為一個好的數(shù)據(jù)集必須滿足四個基本標準:數(shù)據(jù)集必須足夠大以涵蓋問題的多次迭代,數(shù)據(jù)必須有明確的標簽和注釋,數(shù)據(jù)必須具有代表性和公正性,數(shù)據(jù)必須符合隱私法規(guī)。數(shù)據(jù)來源合法性是訓練數(shù)據(jù)合規(guī)的基石,模型能力大部分來自預訓練,與海量的高質(zhì)量數(shù)據(jù)密切相關(guān)。因此,我國《生成式人工智能服務管理暫行辦法》第7條明確要求:“生成式人工智能服務提供者應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型。”
從行業(yè)實踐來看,生成式人工智能的數(shù)據(jù)來源主要包括自有數(shù)據(jù)、開源數(shù)據(jù)集、外采數(shù)據(jù)、數(shù)據(jù)自動化采集及合成數(shù)據(jù)等。例如,未經(jīng)授權(quán)同意或超出授權(quán)范圍處理個人信息、通過非法手段獲取的數(shù)據(jù)集、違反開源數(shù)據(jù)集使用許可協(xié)議、采取侵入性較強措施或增加被爬方服務器負擔非法獲取計算機信息系統(tǒng)數(shù)據(jù)、違反Robots協(xié)議或破壞反爬措施等非法手段采集數(shù)據(jù)、自動化采集包含受版權(quán)保護內(nèi)容等數(shù)據(jù),這些都可能導致數(shù)據(jù)來源合法性問題。
(二)數(shù)據(jù)質(zhì)量管理問題
訓練數(shù)據(jù)質(zhì)量要求體現(xiàn)了法律規(guī)范對技術(shù)活動的合理性干預,數(shù)據(jù)質(zhì)量與歧視偏見是“一體兩面”,如果訓練數(shù)據(jù)缺乏多樣性,容易導致數(shù)據(jù)歧視和偏見。此外,如果訓練數(shù)據(jù)準確性低,難以保障模型訓練的品質(zhì)。例如,如果數(shù)據(jù)集存在涉黃涉政涉賭等違法不良、敏感個人信息、虛假宣傳、夸大宣傳、絕對化用語等不準確不可靠信息,數(shù)據(jù)質(zhì)量不能保證,容易導致模型訓練的偏差。應當說,數(shù)據(jù)質(zhì)量風險是機器學習的核心問題,它們對監(jiān)督學習技術(shù)有直接的影響,數(shù)據(jù)的客觀性、及時性、代表性對模型預測發(fā)揮著重要的作用,客觀上不正確的訓練數(shù)據(jù)會導致不正確的模型預測。依賴錯誤數(shù)據(jù)的公司可能被要求補償因數(shù)據(jù)使用而受到傷害的人,甚至引發(fā)懲罰性賠償。同時,數(shù)據(jù)質(zhì)量不僅限于客觀的正確性,還必須包括數(shù)據(jù)的及時性和代表性。因此,經(jīng)常需要為訓練數(shù)據(jù)制定法律上可操作的質(zhì)量標準。有鑒于此,法國數(shù)據(jù)保護監(jiān)管部門(CNIL)要求數(shù)據(jù)控制者評估從原始數(shù)據(jù)到有質(zhì)量的訓練數(shù)據(jù)集,是否驗證了數(shù)據(jù)的準確性?如果使用了注釋方法,是否進行了檢查?使用的數(shù)據(jù)是否代表在實際環(huán)境中觀察到的數(shù)據(jù)?使用了哪種方法來確保這種代表性?是否對這種代表性進行了正式研究?在使用持續(xù)學習的AI系統(tǒng)的情況下,應實施哪種機制來確保持續(xù)使用的數(shù)據(jù)的質(zhì)量?是否存在定期機制來評估數(shù)據(jù)質(zhì)量損失或數(shù)據(jù)分布變化帶來的風險?
(三)公開數(shù)據(jù)不當抓取利用問題
公開數(shù)據(jù)不當抓取利用問題是訓練數(shù)據(jù)使用環(huán)節(jié)的法律風險,因為訓練數(shù)據(jù)集很多來源于公開渠道,其中充斥著一些不當許可的數(shù)據(jù),容易引發(fā)公開數(shù)據(jù)的合理使用爭議。例如,總的來看,ChatGPT大模型的訓練數(shù)據(jù)主要來自互聯(lián)網(wǎng)上的文本數(shù)據(jù)集,很大部分來源于公有領(lǐng)域內(nèi)容和公開數(shù)據(jù),據(jù)媒體報道,OpenAI至少使用了五部分不同的數(shù)據(jù)集用于訓練:一是Common Crawl數(shù)據(jù)庫,是基于大規(guī)模網(wǎng)頁抓取形成一個數(shù)據(jù)集,由同名的非營利機構(gòu)所有,以每個月存檔近30億網(wǎng)頁的速度索引和存儲網(wǎng)頁超過10年:二是OpenAI專用的個人數(shù)據(jù)人工智能語料庫的WebTex2,為了構(gòu)建這個語料庫抓取了社交媒體網(wǎng)站Reddit鏈接的每一個網(wǎng)頁,用投喂訓練大語言模型:三是Booksl;四是Books2;五是Wikipedia。上述數(shù)據(jù)集非常大,需要通過爬蟲和其他方式進行收集和整理。在整理數(shù)據(jù)時,需要對數(shù)據(jù)進行清洗和篩選,以確保數(shù)據(jù)的質(zhì)量和可用性。
歐美對公開數(shù)據(jù)的立場迥異,歐盟認為數(shù)據(jù)公開之后私人仍然享有權(quán)利,歐盟對公開個人信息采取嚴格保護模式,即嚴格保護個人數(shù)據(jù)、尊重個人權(quán)利,不得在個人不知情或未表示同意的情況下處理公開可用個人數(shù)據(jù),歐盟要求對于并非從數(shù)據(jù)主體處獲得的個人數(shù)據(jù),必須履行告知義務;英國要求從公開可及的資源獲取個人數(shù)據(jù),需要具有合法依據(jù),并通知個人,對于超出個體期待的數(shù)據(jù)處理,需要告知和評估;法國規(guī)定,第三方抓取公開個人數(shù)據(jù),必須取得用戶同意。而美國是數(shù)據(jù)公開之后私人不再享有權(quán)利而采取例外情形模式,即將公開可用個人數(shù)據(jù)作為個人數(shù)據(jù)保護的一種例外情形,無需取得個人同意即可處理。美國聯(lián)邦層面的立法草案和州立法持一致立場,均將公開可用信息排除在個人信息的定義之外。有的規(guī)定只要相關(guān)主體有合理依據(jù)認為公開個人信息是合法提供給公眾的,就屬于不受保護的公開可用信息;有的通過正向和反向列舉的方式分別列明“公開可用信息”覆蓋和不覆蓋的范圍,正向覆蓋的范圍或?qū)捇蛘?,例如美國加州《消費者隱私法案》不禁止數(shù)據(jù)抓取,因為:(1)抓取數(shù)據(jù)的公司并不是直接從用戶那里抓取,而是從公開領(lǐng)域抓??;(2)用戶自己決定將信息公開;(3)目前沒有較好的技術(shù)方案能夠落實通知程序。
(四)個人數(shù)據(jù)權(quán)利保護缺失問題
鑒于社會公眾對大模型訓練數(shù)據(jù)有關(guān)個人信息權(quán)利保護的擔憂,2023年5月16日,美國OpenAI首席執(zhí)行官兼聯(lián)合創(chuàng)始人山姆·奧特曼在華盛頓特區(qū)舉行的參議院司法小組委員會聽證會上表示,OpenAI不使用任何用戶數(shù)據(jù)為廣告、推廣OpenAI的服務或向第三方出售數(shù)據(jù)而建立人的檔案;OpenAI可能會使用ChatGPT的對話來幫助改善OpenAI的模型,但OpenAI為用戶提供了幾種方法來控制他們的對話如何被使用。任何ChatGPT用戶都可以選擇不使用他們的對話來改進OpenAI的模型。用戶可以刪除他們的賬戶,從歷史側(cè)邊欄中刪除特定的對話,并在任何時候禁用他們的聊天歷史:雖然OpenAI用來訓練模型的一些信息可能包括公共互聯(lián)網(wǎng)上的個人信息,但在可行的情況下,OpenAI努力從訓練數(shù)據(jù)集中刪除個人信息。
但是,盡管不知道確切的來源,ChatGPT模型是通過收集互聯(lián)網(wǎng)上的各種來源數(shù)據(jù)來訓練,鑒于數(shù)量龐大,幾乎不可能識別和告知個人相關(guān)處理情況,也不可能就個人數(shù)據(jù)處理發(fā)表聲明。訓練數(shù)據(jù)集存在第三方對數(shù)據(jù)集的權(quán)利,處理和使用數(shù)據(jù)如何獲得權(quán)利人的許可?相反,可以假設在互聯(lián)網(wǎng)上找到的個人數(shù)據(jù)是通過模型進行處理。因此,這實際上排除了GDPR第13條規(guī)定的數(shù)據(jù)主體的信息權(quán)。ChatGPT等數(shù)據(jù)消耗模型與數(shù)據(jù)保護法的個人保護之間存在根本性的不匹配,這種普遍性也意味著數(shù)據(jù)主體的其他權(quán)利,如糾正權(quán)(GDPR第16條)或刪除權(quán)(GDPR第16條)只停留在紙面上,無法強制執(zhí)行。幾乎無限制地從互聯(lián)網(wǎng)上抓取個人數(shù)據(jù)造成的集體性傷害超越了個體的維度。對于預測模型利用數(shù)百萬用戶集體數(shù)據(jù)庫的情況,用戶不僅無法控制它,也無法利用自己的數(shù)據(jù)。ChatGPT存在一個問題是其是否遵守GDPR第17條被遺忘權(quán)的規(guī)定,在個人要求時從模型中完全刪除個人數(shù)據(jù)。生成式AI落實被遺忘權(quán)的困難在于這些系統(tǒng)創(chuàng)建的數(shù)據(jù)具有持久性,自然語言處理根據(jù)收集的數(shù)據(jù)來生成響應,因此幾乎不可能刪除個人信息的所有痕跡。目前尚不確定ChatGPT或其他生成式AI模型能否遵守GDPR第17條規(guī)定的被遺忘權(quán)。此外,隱私權(quán)和個人在受到自動決策影響時的要求解釋的權(quán)利存在根本沖突。機器學習是基于大數(shù)據(jù)集的數(shù)據(jù)驅(qū)動模型匹配過程。當數(shù)據(jù)主體要求對自動化決策進行準確、真實的解釋時,意味著必須查看訓練數(shù)據(jù)(而不是匿名或部分數(shù)據(jù))從而侵犯訓練數(shù)據(jù)來源主體的隱私權(quán)。
(五)違法偏見和歧視問題
訓練數(shù)據(jù)也是算法歧視的主要來源。人臉識別、人工智能招聘和個性化廣告等領(lǐng)域的真實案例證明了這一點。如果某個特定受保護群體的數(shù)據(jù)質(zhì)量平均受到負面影響,那么歧視風險部分與數(shù)據(jù)質(zhì)量風險相關(guān),或者可能是數(shù)據(jù)質(zhì)量風險的結(jié)果。在ChatGPT的算法模型運行過程中,“機器學習+人工標注”作為算法技術(shù)內(nèi)核,本質(zhì)上是服務于生成式人工智能的目的訴求,以技術(shù)組合的方式來提升ChatGPT的智能化程度和準確性水平,但這同時也會導致其中存在算法偏見的法律風險成倍提升。機器學習與人工標注作為組合措施使人類的意志與偏好所產(chǎn)生的影響比在以往單純的機器學習中更大,因為人工標注所造成的個人偏好的影響疊加在機器學習的算法框架中本身的算法偏見之上,導致算法偏見的負面效應倍增,算法偏見的產(chǎn)生渠道更加多樣且難以追溯與預防。美國消費者金融保護局(CFPB)、美國司法部(DOJ)、美國平等就業(yè)機會委員會(EEOC)、美國聯(lián)邦貿(mào)易委員會(FTC)發(fā)布《關(guān)于反對自動化系統(tǒng)歧視和偏見的執(zhí)法努力的聯(lián)合聲明》認為,自動化系統(tǒng)可能存在違法歧視,進而違反聯(lián)邦法。許多自動化系統(tǒng)利用海量數(shù)據(jù)來尋找模式或關(guān)聯(lián),然后將這些模式應用于新數(shù)據(jù)來執(zhí)行任務或提出建議、預測。在這些工具發(fā)揮作用的同時,這些工具可能出現(xiàn)違法的歧視性結(jié)果,這種歧視可能來源于數(shù)據(jù)和數(shù)據(jù)集、模型、設計和使用。代表性不足或不平衡的數(shù)據(jù)集,包含歷史性歧視或其他類型錯誤的數(shù)據(jù)集,可能帶來歧視。
二、生成式人工智能訓練階段的數(shù)據(jù)治理路徑
對于生成式人工智能訓練階段的數(shù)據(jù)治理路徑,歐盟和美國等典型國家和地區(qū)進行不同形式的探索,如歐盟《人工智能法》采取分類分級主體理念,重點關(guān)注訓練數(shù)據(jù)透明度。美國崇尚行業(yè)優(yōu)先發(fā)展的務實態(tài)度,數(shù)據(jù)治理路徑多依靠行業(yè)和企業(yè)自律,對公開可得個人信息持積極利用態(tài)度,并探索公共數(shù)據(jù)收集豁免。
(一)分類分級分主體理念
針對生成式AI,歐盟層面率先采取分類分級分主體的思路,對高風險AI系統(tǒng)主要從透明度、目的原則、比例原則、反歧視等角度對數(shù)據(jù)集本身以及數(shù)據(jù)收集處理行為進行規(guī)范。首先,歐盟《人工智能法案》要求高風險AI系統(tǒng)的提供者記錄數(shù)據(jù)處理使用的全流程,要求基礎(chǔ)模型的提供者只處理治理過的數(shù)據(jù)、審查數(shù)據(jù)來源,并要求生成式AI的提供者披露版權(quán)內(nèi)容使用情況。對于利用數(shù)據(jù)訓練模型的高風險AI系統(tǒng),第10條“數(shù)據(jù)和數(shù)據(jù)治理”明確要求對數(shù)據(jù)集進行治理,即應在訓練、驗證和測試數(shù)據(jù)集的基礎(chǔ)上開發(fā),這些數(shù)據(jù)集應符合一系列質(zhì)量標準,包括但不限于:(1)訓練數(shù)據(jù)應受到AI系統(tǒng)預期目的的數(shù)據(jù)管理,從透明度、目的原則、比例原則等角度規(guī)范數(shù)據(jù)的收集處理流程以及數(shù)據(jù)集情況,做法應涉及:數(shù)據(jù)收集的初始目的的透明度:數(shù)據(jù)準備處理操作(注釋、標記、清理、更新、擴充和聚合);評估數(shù)據(jù)集的可用性、數(shù)量和適當性。(2)出于防止歧視目的,訓練數(shù)據(jù)集應具有相關(guān)性、充分的代表性、適當?shù)腻e誤審查,并在考慮到預期目的的情況下盡可能地完整。(3)數(shù)據(jù)集應在AI系統(tǒng)的預期目的或可合理預見的誤用所要求的范圍內(nèi),考慮到高風險AI系統(tǒng)擬使用的特定的地理、場景、行為或功能環(huán)境所特有的特征或要素。其次,第17條“質(zhì)量管理制度”要求高風險AI系統(tǒng)的提供者建立質(zhì)量管理體系,記錄數(shù)據(jù)處理全流程以及投入市場前后的所有操作,包括數(shù)據(jù)管理的系統(tǒng)和程序,包括數(shù)據(jù)獲取、數(shù)據(jù)收集、數(shù)據(jù)分析、數(shù)據(jù)標記、數(shù)據(jù)存儲、數(shù)據(jù)過濾、數(shù)據(jù)挖掘、數(shù)據(jù)匯總、數(shù)據(jù)保留以及在高風險人工智能系統(tǒng)投放市場或投入使用之前和為之進行的有關(guān)數(shù)據(jù)的任何其他操作。最后,第28條b規(guī)定基礎(chǔ)模型提供者的義務,基礎(chǔ)模型的提供者在向市場提供該模型或?qū)⑵渫度胧褂弥?,應確保該模型符合本條規(guī)定的要求,包括只處理和納入經(jīng)過適當?shù)幕A(chǔ)模型數(shù)據(jù)治理措施的數(shù)據(jù)集,特別是審查數(shù)據(jù)來源的適當性和可能的偏差以及適當?shù)募偨獯胧?,生成式AI的提供者應公開受版權(quán)保護的訓練數(shù)據(jù)的使用摘要。
(二)重點關(guān)注訓練數(shù)據(jù)透明度
針對生成式人工智能訓練階段的數(shù)據(jù)來源合規(guī)、個人數(shù)據(jù)權(quán)利保護、數(shù)據(jù)質(zhì)量和違法歧視偏見等問題,歐盟重點關(guān)注訓練數(shù)據(jù)透明度,提高訓練階段數(shù)據(jù)處理對數(shù)據(jù)主體的透明度。例如歐盟委員會《人工智能和數(shù)據(jù)保護指南》認為,盡管機器學習在訓練階段必然需要大型數(shù)據(jù)集,但重要的是應采用一種設計范式,嚴格評估所使用數(shù)據(jù)的性質(zhì)和數(shù)量,減少冗余或邊緣數(shù)據(jù),逐漸增加訓練集的規(guī)模。此外,還有研究考察了特定算法的發(fā)展情況,即利用自動遺忘機制逐漸刪除數(shù)據(jù)的算法的發(fā)展情況,盡管這可能會影響事后對AI決策的解釋。在算法訓練中使用基于個人數(shù)據(jù)子集并匿名化的合成數(shù)據(jù)也可以實現(xiàn)最小化。在成員國層面,以法國和意大利為代表,重點關(guān)注處理數(shù)據(jù)的法律依據(jù)、數(shù)據(jù)準確性和信息透明度問題。意大利強調(diào)信息透明度、數(shù)據(jù)處理法律依據(jù)、數(shù)據(jù)準確性、未成年人保護等方面。法國CNIL重點關(guān)注數(shù)據(jù)的來源、處理活動的法律依據(jù)、敏感數(shù)據(jù)、數(shù)據(jù)最小化原則、數(shù)據(jù)匿名化、數(shù)據(jù)準確性和代表性、數(shù)據(jù)質(zhì)量和數(shù)量、數(shù)據(jù)偏見。CNIL還將繼續(xù)設計AI系統(tǒng)和構(gòu)建機器學習數(shù)據(jù)庫的工作,提供具體建議,以期逐漸解決一系列問題,包括:為了訓練數(shù)據(jù)庫構(gòu)建和再使用的目的而使用科研系統(tǒng):目的原則在通用AI和大型語言模型等基礎(chǔ)模型中的應用;界定解釋組建數(shù)據(jù)庫的主體(使用數(shù)據(jù)庫訓練模型的主體和使用模型的主體)間分享責任的承擔。CNIL發(fā)布《公開數(shù)據(jù)的共享和再利用規(guī)則指南》明確以下問題有待解決:出于科研目的的訓練數(shù)據(jù)庫構(gòu)建和使用,目的原則、數(shù)據(jù)準確性和最小化原則的適用,訓練數(shù)據(jù)上下游不同主體的責任承擔,個人權(quán)利的管理等。英國也建議提升訓練數(shù)據(jù)方面的信息透明度。例如,英國科技、創(chuàng)新和技術(shù)部在《創(chuàng)新友好的人工智能監(jiān)管(2023)》建議提升訓練數(shù)據(jù)方面的信息透明度,在合理透明度和可解釋性原則方面,希望監(jiān)管者對AI生命周期中的相關(guān)主體設置期待——積極提供其使用的數(shù)據(jù)以及訓練數(shù)據(jù)方面的信息。
在訓練數(shù)據(jù)透明度要求方面,我國《生成式人工智能服務管理暫行辦法》對生成式人工智能服務提供者的訓練數(shù)據(jù)處理活動也作出了相應的要求,生成式人工智能服務提供者應當依法開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動,尊重知識產(chǎn)權(quán),尊重他人合法權(quán)益,基于服務類型特點,采取有效措施提升生成式人工智能服務的透明度,提高生成內(nèi)容的準確性和可靠性。此外,還要求生成式人工智能服務提供者應當按照《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》對相關(guān)生成內(nèi)容進行標識。
(三)對公開可得個人信息持積極利用態(tài)度,探索公共數(shù)據(jù)收集豁免,創(chuàng)設數(shù)據(jù)處理的業(yè)務改進和科研例外制度
對于公開個人數(shù)據(jù)的處理利用,美國崇尚行業(yè)優(yōu)先發(fā)展的務實態(tài)度,對公開可得個人信息持積極流通利用態(tài)度。聯(lián)邦層面的立法草案和州立法持一致立場,均將公開可用信息排除在個人信息的定義之外,也沒有界定公開個人信息,而是采用“公開可獲得”和“公開可用信息”這個范圍更大概念。美國州立法在定義個人信息時,采取了直接排除公開信息的策略。美國目前沒有一部全面的數(shù)據(jù)隱私法,主要依靠行業(yè)自律和自我監(jiān)管,雖然國會已經(jīng)頒布了一些法律,為某些行業(yè)和數(shù)據(jù)的子類別制定了數(shù)據(jù)要求,但這些法定保護措施并不全面,美國多名國會議員在2023年上半年分別提出四項AI提案,這些法案各有側(cè)重,但未提出任何實質(zhì)制度。國會研究處持續(xù)關(guān)注生成式AI引發(fā)的數(shù)據(jù)和版權(quán)問題?,F(xiàn)階段,AI監(jiān)管側(cè)重點在于梳理現(xiàn)有法律如何適用于AI技術(shù),而沒有頒布和應用新的、專門針對AI的法律。例如,美國《關(guān)于反對自動化系統(tǒng)歧視和偏見的執(zhí)法努力的聯(lián)合聲明》認為,現(xiàn)行法適用于自動化系統(tǒng)以及創(chuàng)新技術(shù),正如適用于其他行業(yè)做法一樣。FTC關(guān)注焦點在于數(shù)據(jù)收集是否合法、數(shù)據(jù)收集是否導致結(jié)果歧視,要求公司刪除那些不應被收集的數(shù)據(jù)而訓練的算法和工作產(chǎn)品。根據(jù)美國現(xiàn)行法律,生成式AI可能會牽涉到某些隱私法,這取決于模型的背景、開發(fā)者、數(shù)據(jù)類型和目的。例如,如果一家公司在電子游戲或其他針對兒童的在線服務中提供聊天機器人,該公司可能被要求滿足《兒童在線隱私保護法》的某些要求。此外,某些州關(guān)于隱私、生物識別和人工智能的法律可能對生成式AI應用產(chǎn)生影響。在許多情況下,個人信息的收集通常牽涉到某些州的隱私法,這些法律規(guī)定個人有“權(quán)利知道”企業(yè)收集了他們的什么信息,數(shù)據(jù)是如何使用和共享的,“有權(quán)訪問和刪除”他們的哪些數(shù)據(jù),或“有權(quán)選擇退出”數(shù)據(jù)的轉(zhuǎn)移和銷售,然而,其中一些法律包括對收集公共數(shù)據(jù)的豁免,這可能會引起關(guān)于如何以及是否適用于使用從互聯(lián)網(wǎng)上收集信息的生成式AI工具的問題。在公共數(shù)據(jù)開放共享方面,美國在聯(lián)邦層面設立了統(tǒng)一開放平臺(data.gov),且數(shù)據(jù)的標準和格式更規(guī)范,整體數(shù)據(jù)開放的體量大、種類多、更新頻率高,AI數(shù)據(jù)訓練的可用性更強。
就生成式人工智能的數(shù)據(jù)處理合規(guī),英國信息委員會辦公室(ICO)認為,監(jiān)督式機器學習主要在訓練和推理兩個階段使用數(shù)據(jù),如果模型用于對個體進行預測或分類,那么上述兩個階段都會使用個人數(shù)據(jù)。在訓練階段,因為涉及將機器學習算法應用于包含每個個體特征的數(shù)據(jù)集,這些特征用于生成預測或分類,但并非數(shù)據(jù)集中包含的所有特征都一定與目的相關(guān)。例如,并非所有財務和人口統(tǒng)計特征都可用于預測信用風險。因此,訓練階段需要評估哪些功能(以及哪些數(shù)據(jù))與目的相關(guān),并且只處理這部分數(shù)據(jù),盡量減少個人數(shù)據(jù)的問題。同時,采取擾動或添加“噪音”、使用合成數(shù)據(jù)、聯(lián)合學習等增強隱私的方法。在推理階段,通過將個人數(shù)據(jù)轉(zhuǎn)換為“人類可讀性”較低的格式、在本地進行推理、隱私保護查詢方法等手段,實現(xiàn)個人數(shù)據(jù)最小化原則。對于利用抓取的數(shù)據(jù)訓練生成式AI的有效合法依據(jù),英國ICO在“生成式人工智能和數(shù)據(jù)保護”咨詢中提出了合法利益評估標準,明確AI開發(fā)者應進行三步測試:一是目的性測試,即處理目的是合法的;二是必要性測試,即處理對于目的而言是必需的;三是平衡測試,即個體權(quán)利沒有超過AI開發(fā)者所追求的利益。
針對人工智能個人數(shù)據(jù)的合理使用問題,新加坡從促進產(chǎn)業(yè)發(fā)展角度明確規(guī)定了業(yè)務改進例外和研究例外,例如,2024年3月1日,新加坡個人數(shù)據(jù)保護委員會(PDPC)在2012年《個人數(shù)據(jù)保護法》(以下簡稱“PDPA”)項下制定發(fā)布《關(guān)于在AI推薦和決策系統(tǒng)中使用個人數(shù)據(jù)的咨詢指南》(以下簡稱“指南”),創(chuàng)設了業(yè)務改進例外,即企業(yè)可以在未經(jīng)同意和告知的情況下,使用根據(jù)該法的數(shù)據(jù)保護規(guī)定收集的個人資料,只要該個人數(shù)據(jù)的使用屬于業(yè)務改進目的和研究目的的范圍。該《指南》第5.2條規(guī)定,PDPA附則1第5部分和附則2第2部分第2章規(guī)定,組織可以在個人數(shù)據(jù)的使用滿足以下業(yè)務改進目的(“業(yè)務改進例外”)的情況下,未經(jīng)個人同意使用其根據(jù)PDPA收集的個人數(shù)據(jù):c)學習或了解個人(包括按用戶畫像劃分的群體)的行為和偏好;d)識別可能適合個人(包括按用戶畫像劃分的群體)的商品和服務,或個性化或定制任何此類商品或服務。第5.4條規(guī)定,作為說明,AI系統(tǒng)研發(fā)可能適用業(yè)務改進例外的例子包括:d)使用AI系統(tǒng)或ML模型來提供新的產(chǎn)品特性和功能,以提高產(chǎn)品和服務的競爭力。
三、生成式人工智能數(shù)據(jù)訓練治理的立法建議
生成式AI仍在持續(xù)進化,我國需要保持人工智能發(fā)展和安全之間的平衡,站在增強國家競爭力的戰(zhàn)略高度優(yōu)先促進產(chǎn)業(yè)發(fā)展,采取包容審慎和分類分級監(jiān)管立場,構(gòu)建生成式人工智能訓練數(shù)據(jù)治理框架體系。為解決人工智能訓練階段的數(shù)據(jù)來源合規(guī)、個人數(shù)據(jù)權(quán)利保護、數(shù)據(jù)質(zhì)量和違法歧視偏見、公開數(shù)據(jù)不當利用等問題,在宏觀層面,有待從增強國家競爭力的戰(zhàn)略高度升級人工智能發(fā)展促進政策并將產(chǎn)業(yè)政策法制化、堅持包容審慎和分類分級監(jiān)管的立法導向進而建立人工智能監(jiān)管沙盒制度;在具體數(shù)據(jù)規(guī)則層面,有待重點建立數(shù)據(jù)合理使用制度、數(shù)據(jù)匿名化標準、公開個人數(shù)據(jù)利用規(guī)則及機器學習數(shù)據(jù)處理新權(quán)利規(guī)則等。
(一)站在增強國家競爭力的戰(zhàn)略高度,升級更新人工智能發(fā)展促進政策,并將產(chǎn)業(yè)促進政策法制化
人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動力量,加快發(fā)展新一代人工智能是事關(guān)我國能否抓住新一輪科技革命和產(chǎn)業(yè)變革機遇的戰(zhàn)略問題。因此,要站在增強國家競爭力和新技術(shù)革命浪潮不落伍的戰(zhàn)略高度,高質(zhì)量發(fā)展通用人工智能產(chǎn)業(yè),建議國家在科技強國國家戰(zhàn)略下,升級更新人工智能發(fā)展促進政策,推動新一輪人工智能的產(chǎn)業(yè)升級,并在未來制定出臺的《人工智能法》中予以法制化。在我國信息產(chǎn)業(yè)發(fā)展壯大過程中,產(chǎn)業(yè)政策曾起到了非常關(guān)鍵的作用,如20世紀90年代末初對電子信息產(chǎn)業(yè)的“四項優(yōu)惠政策”,電子發(fā)展基金、電話初裝費、鼓勵軟件和集成電路的政策等,均極大地調(diào)動了廣大企業(yè)發(fā)展信息產(chǎn)業(yè)的積極性,使我國信息產(chǎn)業(yè)發(fā)展取得了舉世矚目的成就,成為國民經(jīng)濟持續(xù)增長的重要動力之一。在具體產(chǎn)業(yè)促進政策和立法方面,建議借鑒國務院《新時期促進集成電路產(chǎn)業(yè)和軟件產(chǎn)業(yè)高質(zhì)量發(fā)展若干政策的通知》(國發(fā)〔2020〕8號)“升級迭代”當年《鼓勵軟件產(chǎn)業(yè)和集成電路產(chǎn)業(yè)發(fā)展的若干政策》(國發(fā)〔2000〕18號)那樣,出臺對生成式人工智能在財稅、投融資、研發(fā)、進出口、知識產(chǎn)權(quán)、市場應用等方面的專項促進政策,并將產(chǎn)業(yè)促進政策法制化,在未來制定的《人工智能法》中明確規(guī)定相關(guān)促進條款,同時鼓勵相關(guān)地方和行業(yè)部門先行先試,因地制宜出臺細化落實的政策措施。
(二)堅持包容審慎和分類分級監(jiān)管的立法導向,建立適合我國人工智能產(chǎn)業(yè)發(fā)展階段的監(jiān)管沙盒等實驗性監(jiān)管制度
歐盟《人工智能法案》依據(jù)風險等級,對人工智能系統(tǒng)進行分類分級監(jiān)管,針對“高風險”的人工智能應用系統(tǒng),對數(shù)據(jù)質(zhì)量、透明度和準確性提出更高的要求,在強制性方面提出了更為嚴格的要求。我國堅持發(fā)展與規(guī)范并重原則,《生成式人工智能服務管理暫行辦法》第3條明確規(guī)定,“國家堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵生成式人工智能創(chuàng)新發(fā)展,對生成式人工智能服務實行包容審慎和分類分級監(jiān)管”。因此,建議將包容審慎和分類分級監(jiān)管作為我國未來制定的《人工智能法》的基本立法導向,明確建立模型和風險的分類分級監(jiān)管方式,不同分類分級后對應不同監(jiān)管模式。
總體上,監(jiān)管沙盒機制體現(xiàn)了事前介入、敏捷監(jiān)管、包容審慎、比例原則。人工智能監(jiān)管沙盒就是一種敏捷靈活的風險治理機制,對于監(jiān)管機構(gòu)、生成式人工智能服務提供者及使用者而言,通過構(gòu)建監(jiān)管沙盒,可以更好地觀察和應對生成式人工智能所帶來的風險。歐盟《人工智能法案》將人工智能監(jiān)管沙盒設定為各成員國強制義務,以減輕企業(yè)監(jiān)管負擔。其第五章“支持創(chuàng)新的措施”除明確規(guī)定“人工智能監(jiān)管沙盒”目標意義、模式功能之外,第54條規(guī)定專門針對為公共利益開發(fā)的人工智能系統(tǒng)而進一步處理個人數(shù)據(jù),可在滿足法定情形的前提下,進一步處理和使用個人數(shù)據(jù)。西班牙、英國正在帶頭開發(fā)試點人工智能監(jiān)管沙盒,其他十余個歐盟成員國也計劃建立自己的沙盒。因此,建議未來《人工智能法》建立適合我國人工智能產(chǎn)業(yè)發(fā)展階段的監(jiān)管沙盒等實驗性監(jiān)管制度,并從準入制度、結(jié)構(gòu)性實驗、沙盒驗收、制度體系等四個階段進行原則性設計。在未來的《人工智能法》相關(guān)配套細則中,構(gòu)建公平的準入門檻,對于申請加入監(jiān)管沙盒的人工智能企業(yè),需要在公司治理、人員配置以及技術(shù)水平等方面達到一定的準入門檻。進一步細化沙盒運作的各項規(guī)則,在統(tǒng)一框架下試行差異性的規(guī)則,例如豁免方式、測試時間等可在不同地區(qū)的沙盒中先行先試,再根據(jù)實踐結(jié)果對規(guī)則進行迭代修改。建立沙盒數(shù)據(jù)的統(tǒng)一標準,建設沙盒傳輸、整合、共享數(shù)據(jù)的平臺,實現(xiàn)數(shù)據(jù)互聯(lián)與共享,強化信息披露,提高沙盒測試過程中的執(zhí)法透明度。
(三)區(qū)分研發(fā)訓練和商用提供階段,建立訓練數(shù)據(jù)“安全港”制度,引入科研和業(yè)務改進例外的數(shù)據(jù)合理使用制度
生成式人工智能訓練階段不可避免地會使用包含有版權(quán)內(nèi)容、個人信息及已公開數(shù)據(jù)等數(shù)據(jù)集,為了滿足促進人工智能研發(fā)、產(chǎn)業(yè)創(chuàng)新和業(yè)務改進的需要,建立數(shù)據(jù)合理使用制度就顯得尤為關(guān)鍵。歐盟GDPR和我國《個人信息保護法》的立法之初都沒有考慮機器學習、訓練數(shù)據(jù)的場景,但歐美均將現(xiàn)有數(shù)據(jù)保護法延伸適用于AI領(lǐng)域,并重點強化數(shù)據(jù)源合規(guī)和數(shù)據(jù)處理透明度。雖然過于嚴格的個人信息保護規(guī)則與通用大模型研發(fā)、部署和應用存在一定的沖突,但仍需要加強訓練數(shù)據(jù)集的數(shù)據(jù)源和數(shù)據(jù)處理的合規(guī),合理設定生成式AI訓練數(shù)據(jù)的數(shù)據(jù)保護規(guī)則的松緊度。目前生產(chǎn)式人工智能針對海量數(shù)據(jù)資料的訓練性使用存在法律規(guī)定上的障礙,建議未來制定的《人工智能法》區(qū)分研發(fā)訓練和商用提供階段,借鑒早期互聯(lián)網(wǎng)搜索引擎建設時應用的“安全港”制度,建立訓練數(shù)據(jù)“安全港”制度,即使用人不知道數(shù)據(jù)來源是否合法,但是可以利用數(shù)據(jù)進行研發(fā)或應用,日后有人來提出相應權(quán)利主張,要按照法律的規(guī)定付費或補償。進一步完善我國個人信息保護法律,可以借鑒歐盟GDPR、英國ICO的合法利益評估標準和新加坡PDPA項下的《關(guān)于在AI推薦和決策系統(tǒng)中使用個人數(shù)據(jù)的咨詢指南》創(chuàng)設的科研例外和業(yè)務改進例外制度,即對于為了實現(xiàn)公共利益、科學或歷史研究或統(tǒng)計目的處理,成員國的法律可以對訪問、更正、限制處理和反對等部分個人信息權(quán)利進行克減,并可以成為拒絕刪除的抗辯理由。建議在正修訂的《中華人民共和國著作權(quán)法實施條例》中增加“文本或數(shù)據(jù)分析、訓練、挖掘明確規(guī)定為著作權(quán)法的權(quán)利限制或例外的法定情形”的條款,為人工智能模型訓練獲取高質(zhì)量數(shù)據(jù)集掃清法律障礙。
(四)進一步細化公開數(shù)據(jù)利用規(guī)則,加強數(shù)據(jù)質(zhì)量管理,統(tǒng)一數(shù)據(jù)匿名化標準
人工智能模型訓練離不開高質(zhì)量的海量公開數(shù)據(jù)集,并不斷強化數(shù)據(jù)質(zhì)量要求。為了促進訓練數(shù)據(jù)的可用數(shù)據(jù)集更好地利用公開數(shù)據(jù)資源,促進公開數(shù)據(jù)合法合規(guī)流通,有待在《中華人民共和國民法典》和《個人信息保護法》基礎(chǔ)上進一步完善公開數(shù)據(jù)利用規(guī)則,通過《人工智能法》明確規(guī)定公開數(shù)據(jù)獲取、使用、流通、處理的專門章節(jié)和相關(guān)具體條款,適當開放部分公共數(shù)據(jù)對外訓練和使用,進一步加大公共數(shù)據(jù)的開放力度,推動數(shù)據(jù)采集、清洗、標注、存儲形成統(tǒng)一標準,掃清大模型獲取、利用公開數(shù)據(jù)的障礙;同時,加強數(shù)據(jù)質(zhì)量管理,制定標準目標、數(shù)據(jù)格式、標注方法、質(zhì)量指標等數(shù)據(jù)標注規(guī)則,并對標注人員開展必要培訓,形成標準化的操作規(guī)程,制定質(zhì)檢方案,確保標注結(jié)果質(zhì)量。
從技術(shù)標準角度,數(shù)據(jù)匿名化制度將成為數(shù)據(jù)進入生產(chǎn)和流通領(lǐng)域的重要制度出口。匿名化合理性標準應當是綜合的,應貫穿在數(shù)據(jù)應用的全過程當中,包括數(shù)據(jù)的采集、處理、利用和再利用等。因此,建議統(tǒng)一數(shù)據(jù)匿名化標準,制定配套細則的數(shù)據(jù)匿名化處理的技術(shù)標準規(guī)范,遵循“合理匿名化”原則,即在當前技術(shù)條件下,正常理性人采用通常手段進行匿名化處理后不可回溯的,應被視為履行了匿名化義務。
(五)創(chuàng)建機器學習場景下處理數(shù)據(jù)的新權(quán)利和新規(guī)則
為進一步保護個人數(shù)據(jù)權(quán)利,解決數(shù)據(jù)匿名化失敗帶來的隱私保護問題,有待創(chuàng)建機器學習場景下數(shù)據(jù)處理的新權(quán)利和新規(guī)則,規(guī)定合成數(shù)據(jù)使用制度。未來的人工智能立法需要解決訓練數(shù)據(jù)集的數(shù)據(jù)和隱私保護問題,因為數(shù)據(jù)保護和隱私是共享高質(zhì)量數(shù)據(jù)的障礙,訓練數(shù)據(jù)集存在第三方對數(shù)據(jù)集的權(quán)利,處理和使用數(shù)據(jù)必須獲得權(quán)利人的許可;公司出于保護自己在訓練AI模型方面的投資的動機,會通過合同、技術(shù)措施將數(shù)據(jù)集乃至整個數(shù)據(jù)庫保密;對GDPR的恐懼明顯阻礙AI和數(shù)據(jù)初創(chuàng)企業(yè)快速推出和擴大規(guī)模;數(shù)據(jù)合法財產(chǎn)權(quán)利存在不確定性,各利益相關(guān)者不知道誰是數(shù)據(jù)的合法所有者,也不知道數(shù)據(jù)持有者可以和不可以做什么。②有待進一步完善生成式AI的數(shù)據(jù)隱私規(guī)則,直接規(guī)定允許使用合成數(shù)據(jù)。某種程度上,合成數(shù)據(jù)集優(yōu)于傳統(tǒng)的匿名化技術(shù),合成數(shù)據(jù)可以解決匿名化失敗問題。隱私法規(guī)要求不能泄露可識別個人身份的信息。合成數(shù)據(jù)集是通過添加統(tǒng)計上的相似信息,而不是通過剝離唯一標識符的方式來保護隱私。例如,英國ICO就采取擾動或添加“噪音”、使用合成數(shù)據(jù)、聯(lián)合學習等增強隱私的方法。因此,建議通過我國未來《人工智能法》創(chuàng)建機器學習場景下處理數(shù)據(jù)的新權(quán)利和新規(guī)則,即創(chuàng)建允許訪問、共享和重復使用數(shù)據(jù)的法律規(guī)則,構(gòu)建訪問、公平共享機器學習訓練、測試和驗證數(shù)據(jù)集的方法,引人為機器學習目的處理數(shù)據(jù)的權(quán)利,即在人工智能和物聯(lián)網(wǎng)背景下處理數(shù)據(jù)權(quán)利,使得數(shù)據(jù)的訪問、共享和再利用成為可能。
結(jié)語
生成式人工智能具有重要的戰(zhàn)略意義,是未來科技競爭的制高點,也是重要的智能基礎(chǔ)設施,需從國家競爭力戰(zhàn)略高度重視。生成式人工智能仍在持續(xù)進化當中,其在提升提高生產(chǎn)效率、社會整體福利的同時,也帶來了諸多政治經(jīng)濟、社會文化和法律倫理等多方面的風險挑戰(zhàn),各國在考慮各自社會狀況和產(chǎn)業(yè)發(fā)展階段的基礎(chǔ)上,調(diào)整人工智能產(chǎn)業(yè)發(fā)展和法律規(guī)制的松緊度?,F(xiàn)階段,在宏觀層面,我國應當升級更新人工智能發(fā)展促進政策,并將產(chǎn)業(yè)促進政策法制化,堅持包容審慎和分類分級監(jiān)管立法導向,建立適合我國人工智能產(chǎn)業(yè)發(fā)展階段的監(jiān)管沙盒等實驗性監(jiān)管制度;在具體數(shù)據(jù)規(guī)則層面,區(qū)分研發(fā)訓練和商用提供階段,建立訓練數(shù)據(jù)安全港制度,引入科研和業(yè)務改進例外的數(shù)據(jù)合理使用制度,進一步細化公開數(shù)據(jù)利用規(guī)則,加強數(shù)據(jù)質(zhì)量管理,統(tǒng)一數(shù)據(jù)匿名化標準,創(chuàng)建機器學習場景下處理數(shù)據(jù)的新權(quán)利和新規(guī)則,合理地構(gòu)建起我國生成式人工智能訓練數(shù)據(jù)的數(shù)據(jù)治理體系。