DOI: 10.19619/j.issn.1007-1938.2025.00.026作者單位:
引文格式:.生成式人工智能訓練數(shù)據(jù)著作權侵權風險及應對[J].出版與印刷,2025(3):38-49.
一、引言
數(shù)據(jù)是構筑數(shù)字經(jīng)濟大廈的基石磚瓦,也是支撐人工智能大模型發(fā)展的根基。從國家總體戰(zhàn)略布局來看,數(shù)據(jù)資源是發(fā)展新質生產(chǎn)力的核心與關鍵。黨的二十屆三中全會審議通過《中共中央關于進一步全面深化改革推進中國式現(xiàn)代化的決定》,著重強調要健全促進實體經(jīng)濟和數(shù)字經(jīng)濟深度融合制度。在具體舉措上,國家相繼頒布實施《網(wǎng)絡數(shù)據(jù)安全管理條例》《“數(shù)據(jù)要素 × ”三年行動計劃(2024—2026年)》等規(guī)范性文件,旨在打造數(shù)據(jù)保護新格局,釋放數(shù)據(jù)要素價值,推動新質生產(chǎn)力發(fā)展。
近年來,ChatGPT、文心一言、Sora等生成式人工智能相繼問世,這些生成式人工智能的訓練以大量數(shù)據(jù)“投喂”為基礎,其訓練過程潛藏著著作權侵權風險,給傳統(tǒng)著作權制度帶來巔覆性挑戰(zhàn)。在生成式人工智能的訓練環(huán)節(jié),針對訓練數(shù)據(jù)的使用,數(shù)據(jù)產(chǎn)權人與數(shù)據(jù)使用人之間存在利益沖突,但目前既有規(guī)則對此問題尚未能充分關注。2023年國家互聯(lián)網(wǎng)信息辦公室等七部門聯(lián)合頒布的《生成式人工智能服務管理暫行辦法》第七條規(guī)定,生成式人工智能服務提供者應當依法開展訓練數(shù)據(jù)處理活動,使用具有合法來源的數(shù)據(jù),不得侵害他人依法享有的知識產(chǎn)權。人工智能產(chǎn)業(yè)的進步需要海量數(shù)據(jù)的支持,這些數(shù)據(jù)往往源自各類版權作品,對于著作權人而言,他們不應成為新興技術發(fā)展的犧牲品,如何緩解技術創(chuàng)新與著作權保護間的矛盾,讓每個著作權人共享時代發(fā)展紅利,是發(fā)展新質生產(chǎn)力過程中的重要課題。綜上,本文將在闡明生成式人工智能訓練數(shù)據(jù)著作權侵權樣態(tài)的基礎上,梳理并反思既有規(guī)制方案,提出以包容審慎規(guī)制理念為核心的訓練數(shù)據(jù)著作權侵權風險的規(guī)制思路
二、生成式人工智能訓練數(shù)據(jù)著作權侵權的風險生成
1.生成式人工智能訓練數(shù)據(jù)侵權的前提厘定
大模型構建前端所涉及的法律問題中,與著作權最密切相關的是訓練數(shù)據(jù)來源的合法性問題。然而并非一切數(shù)據(jù)都屬于《中華人民共和國著作權法》(簡稱“著作權法”)保護的范圍,只有符合版權作品構成要求的,才能成為著作權法的保護對象。
生成式人工智能訓練數(shù)據(jù)依據(jù)不同的獲取途徑,主要可分為三類。一是自研數(shù)據(jù),人工智能開發(fā)者可以基于需求,依托自身提供的其他產(chǎn)品或服務獲取數(shù)據(jù),例如,百度在線網(wǎng)絡技術(北京)有限公司(簡稱“百度”)通過百度地圖中的收藏打卡和評價信息、百度翻譯中的查詢記錄等,為其人工智能研發(fā)積累各種數(shù)據(jù)。這種自研數(shù)據(jù)權屬明確,在使用中不涉及著作權侵權問題。二是授權獲得的他方數(shù)據(jù),包括合作主體間的數(shù)據(jù)交易和共建共享、專業(yè)數(shù)據(jù)服務商所提供的數(shù)據(jù)等,此種情況下的數(shù)據(jù)即便構成版權作品,對其進行的抓取使用通常也獲得了權利人的許可,不涉及著作權侵權問題。三是公開渠道獲得的數(shù)據(jù),基于公開的數(shù)據(jù)進行大量模型訓練,是人工智能企業(yè)降低成本的首選。從數(shù)據(jù)個體來看,單個文獻、期刊、報告等內容在符合獨創(chuàng)性等著作權保護條件時方屬于本文所探討的作品范圍。但同時,公開的數(shù)據(jù)還會以數(shù)據(jù)集的形式呈現(xiàn)。數(shù)據(jù)集的組成內容即單個數(shù)據(jù),在判斷是否應受著作權保護時與數(shù)據(jù)個體無二,但從整體來看,數(shù)據(jù)集本身要構成作品,則需強調獨創(chuàng)性,體現(xiàn)制作者富有個性化的選擇、編排,即“若是作品數(shù)據(jù)集合的控制者對其中作品的選擇或編排作出了具有獨創(chuàng)性的貢獻,則能夠從整體上主張該作品數(shù)據(jù)集合構成匯編作品”。反之,若爬取的數(shù)據(jù)集不體現(xiàn)獨創(chuàng)性,盡管其包含大量信息和資源,如從電商平臺網(wǎng)站收集的消費者商品點評、手機地圖中的實時數(shù)據(jù)庫等,亦不構成著作權侵權的前提條件。
可見,訓練數(shù)據(jù)侵權以公開渠道獲得的數(shù)據(jù)為主要對象,關系到符合版權作品要求的單個數(shù)據(jù)權屬問題,特定條件下還涉及作為匯編作品的數(shù)據(jù)集整體,本文所討論的數(shù)據(jù)皆符合此項前提。由于數(shù)據(jù)產(chǎn)權人和人工智能開發(fā)者往往不是同一主體,如何確保這些數(shù)據(jù)的使用符合著作權法規(guī)定,是人工智能產(chǎn)業(yè)發(fā)展亟待解決的問題。
2.生成式人工智能訓練數(shù)據(jù)著作權侵權的風險樣態(tài)
人工智能作為一種深度學習模型,其底層邏輯與訓練數(shù)據(jù)息息相關,其訓練過程可以分解為輸入、利用和輸出三個主要階段。在厘清數(shù)據(jù)與作品關系的基礎上,應當將各階段的數(shù)據(jù)使用置于著作權法的基本理念和規(guī)范之下,探討不同階段的著作權侵權風險樣態(tài)。
(1)輸入階段的侵權風險樣態(tài)生成式人工智能輸入階段的主要行為模式是數(shù)據(jù)抓取,侵權風險在樣態(tài)上表現(xiàn)為侵犯復制權。人工智能首先挖掘大量與指令要求相關的數(shù)據(jù),包括圖像、文字、音頻等,再“對大量數(shù)據(jù)進行分類、聚類,提煉不同類型作品的數(shù)據(jù)特征,‘找出’訓練數(shù)據(jù)中的規(guī)律,‘理解’訓練數(shù)據(jù)的內容”[2]。這種數(shù)據(jù)挖掘一般涵蓋收集、下載、標注、提取等環(huán)節(jié),難免需要對數(shù)據(jù)進行復制。復制行為分為永久復制和臨時復制,前者指將作品固定于有形媒介,實現(xiàn)長期存儲和反復使用,如刻錄光盤等;后者則是指在技術運行過程中短暫、自動產(chǎn)生的復制行為,如網(wǎng)頁瀏覽緩存、媒體播放緩存等,通常在設備重啟或程序關閉后會自動清除數(shù)據(jù)。關于永久復制,國內外看法一致,均認定其屬于復制權的涵蓋范圍,但永久復制并不必然構成著作權侵權,超出合理使用范圍、非法數(shù)據(jù)抓取等才屬于侵犯復制權范疇。但在關于臨時復制是否會構成侵權的問題上,各國仍存在較大爭議。美國和歐盟認為臨時復制應屬復制行為的基本形式之一,同樣潛藏著復制權侵權的風險。就我國而言,無論是所加人或承認的國際公約,還是國內制定的《信息網(wǎng)絡傳播權保護條例》,均未明確將臨時復制納入侵犯著作權的行為范疇。因此在我國數(shù)據(jù)抓取階段的著作權侵權行為主要表現(xiàn)為永久復制行為。
(2)利用階段的侵權風險樣態(tài)
利用數(shù)據(jù)階段作為人工智能大模型開展機器學習的重要環(huán)節(jié),需要對數(shù)據(jù)進行處理和特征提取,在這種行為下產(chǎn)生的著作權侵權風險主要表現(xiàn)為侵犯改編權、匯編權和翻譯權。改編權和匯編權所規(guī)制的行為是將原作品或片段改編或匯集成新作品。對生成式人工智能而言,獲取海量數(shù)據(jù)后通常會對數(shù)據(jù)進行初步去重、清洗,這種基礎的篩選行為通常需要根據(jù)指令對數(shù)據(jù)進行翻譯、改編或者匯編,從而構建基本數(shù)據(jù)集,并在此基礎上進一步開展對作品中的思想感情、研究角度、表達方法的學習。當依據(jù)指令篩選構建的數(shù)據(jù)集具備一定程度的獨創(chuàng)性時,這種對數(shù)據(jù)的選擇、整理、組合等使用行為,就可能產(chǎn)生對翻譯權、改編權、匯編權的侵權風險。
但相較于輸入和輸出階段,利用階段對著作權的侵權風險更為隱蔽。一方面,無論是對作品進行翻譯還是改編、匯編,最終是以向機器呈現(xiàn)基礎數(shù)據(jù)集的方式表現(xiàn),權利人對此過程性侵權行為往往難以知曉并獲取證據(jù);另一方面,作為連接訓練數(shù)據(jù)前端和后端的橋梁,僅針對利用階段的侵權行為提起訴訟的情況并不常見,實踐中的案例也表明,著作權人通常是基于輸入或輸出階段的侵權行為提起訴訟,以降低訴訟難度、提高獲勝可能。
(3)輸出階段的侵權風險樣態(tài)
在輸出階段,人工智能大模型基于輸入階段的海量數(shù)據(jù)生成內容。在生成的內容中,每個作品的表達通常以少量片段的形式呈現(xiàn)。只有在訓練數(shù)據(jù)量極少或算法錯誤的時候,才會出現(xiàn)部分或全部復制原作品的情況。因此,通常情況下不會構成對復制權的侵犯。但如果對作品的分析過程和具體內容進行傳播,卻可能會引發(fā)侵犯廣播權和信息網(wǎng)絡傳播權的風險。例如,在《紐約時報》訴OpenAI及微軟案3中,原告認為,被告在GPT模型訓練期間未經(jīng)授權復制或提取了報刊作品,且至少通過兩種方式未經(jīng)授權公開展示了這些作品,這種在訓練大語言模型和運營相關AI產(chǎn)品過程中,以多種方式創(chuàng)建和傳播包含《紐約時報》內容的復制品的行為,侵犯了其信息網(wǎng)絡傳播權。具體而言,在實踐中,為了獲得人工智能算法反饋、共享生成過程數(shù)據(jù)或驗證研究結果的準確性,人工智能開發(fā)者會將對作品的檢索、分析過程進行公開發(fā)布,此種情境下“將機器學習的數(shù)據(jù)分析結果通過網(wǎng)絡即時公開發(fā)布,可能會侵犯作品的廣播權;若延時發(fā)布,則可能侵犯作品的信息網(wǎng)絡傳播權”[4]133 。
三、生成式人工智能訓練數(shù)據(jù)著作權侵權規(guī)制的現(xiàn)狀審視
在生成式人工智能著作權侵權案中,訓練數(shù)據(jù)使用者常常主張許可使用和合理使用來消除其行為的違法性。許可使用意為一經(jīng)許可即可使用,是最典型的著作權侵權豁免規(guī)則,具體包括授權許可、法定許可、強制許可和默示許可;合理使用是指允許使用者在一定條件下不經(jīng)作者許可而使用其作品。著作權法是利益平衡的產(chǎn)物,許可使用和合理使用作為不可或缺的兩項制度,在實現(xiàn)著作權法既促進科技創(chuàng)新又激發(fā)創(chuàng)造活力的規(guī)范目的中發(fā)揮了重要作用,然而,當兩者被生成式人工智能使用者作為抗辯事由時,均存在一定的理論缺陷。
1.對許可使用相關規(guī)定的學理檢視
我國著作權法尚未對強制許可制度作出明確規(guī)定,因而若將許可使用作為人工智能大模型數(shù)據(jù)訓練的侵權抗辯事由,則主要集中在授權許可、法定許可和默示許可三種模式上。但這三種模式都存在缺陷,具體如下。
(1)授權許可模式及其缺陷
授權許可模式是指數(shù)據(jù)使用者通過支付使用費用的方式獲取著作權人的個別授權。作為最傳統(tǒng)的模式,“許可 + 付費”能夠遵從著作權人的真實意思,確保著作權人能取得智力成果的合理使用對價,符合利益自決的基本授權邏輯。但隨著新技術迅猛發(fā)展,該模式存在較為顯著的弊端。首先,授權許可有悖著作權法鼓勵創(chuàng)新的宗旨。訓練數(shù)據(jù)的分散和許可費用的高昂不利于使用者大規(guī)模獲取數(shù)據(jù),將在客觀上制約技術創(chuàng)新。其次,授權許可可能對使用者產(chǎn)生逆向激勵效應,誘發(fā)其侵權風險。原因在于,復雜的許可條款可能會存在按使用量計費、區(qū)域限制升級費等隱性成本,當基礎許可費疊加隱性成本顯著高于侵權成本(如法律風險、技術破解成本)時,使用者可能選擇規(guī)避授權、冒險侵權。此外,訓練數(shù)據(jù)獲取條件嚴苛、使用范圍過窄、使用靈活度差等問題也進一步減損了授權許可的適用空間。[5]
(2)法定許可模式及其缺陷
為了克服市場失靈,滿足社會需要,同時又不過于損害著作權人的利益,法定許可制度應運而生。法定許可,是指特定主體在特定情形下,以法定條件和方式使用已經(jīng)發(fā)表的作品,可以不經(jīng)著作權人許可,但須向著作權人支付合理報酬的制度。相較于授權許可和合理使用,法定許可更具中庸之道,不僅為人工智能開發(fā)者創(chuàng)造了高效率的合作機會,還保障著作權人能從訓練數(shù)據(jù)中獲益。然而,法定許可受限于特定情形,就現(xiàn)行立法而言,人工智能訓練數(shù)據(jù)的使用場景難以契合法定許可所涵蓋的類型。此外,從本質上講,法定許可剝奪了著作權人在特定情況下基于其作品進行議價的權利,轉而采用由國家制定的統(tǒng)一定價。若以法定許可來規(guī)范人工智能訓練數(shù)據(jù)的使用,就應盡快制定并出臺相應的定價標準、法律規(guī)范、技術要求等,配套建立開放透明的公共平臺和監(jiān)督體系。但這些在短期內均難以實現(xiàn)。
(3)默示許可模式及其缺陷
前兩種許可屬于“選擇進入”的模式,即需要得到授權才能使用作品,而默示許可模式不同,是以“選擇退出”為基礎,意指用戶在未經(jīng)著作權人事先同意而使用時,可以根據(jù)著作權人的沉默過程推斷該許可成立,但當著作權人做出退出選擇,即明示不再授權用戶使用時,用戶的使用資格也隨之退出。可以看出,默示許可作為一種相對溫和的“弱限制性規(guī)則”,功能的發(fā)揮建立在對著作權人知情權、獲酬權、拒絕權予以充分尊重的基礎上。但事實上,這種對著作權人的權利保障在海量數(shù)據(jù)面前并不具可操作性。“‘權利人沒有明確拒絕即視為同意’的前提是權利人知悉作品將被使用,‘知悉’在理論建構上并不困難,在實踐操作中卻并非易事。”[即便有人工智能開發(fā)者為作品著作權人提供公示和查詢平臺,但想要通過逐條甄別實現(xiàn)“知悉”在實際操作中也并不現(xiàn)實。
2.對合理使用相關規(guī)定的學理檢視
鑒于許可使用在人工智能侵權領域存在著高成本、低效率、難操作等不足,目前司法實踐更加傾向于以合理使用制度處理此類問題。關于合理使用,國際上存在著“規(guī)則主義”和“因素主義”兩種不同的立法模式,[8](見表1)在生成式人工智能迅速發(fā)展的背景下,合理使用制度展現(xiàn)出一定的比較優(yōu)勢,但也暴露出若干理論層面的缺陷。
(1)“規(guī)則主義”立法模式及評析
在“規(guī)則主義”立法模式下,三步檢驗法是關于合理使用的常用判斷標準,即依次判斷是否符合合理使用的特定情形、是否與作品的正常利用相沖突、是否不合理地損害了著作權人的合法權益。
首先,在判斷是否符合合理使用的特定情形時,生成式人工智能的數(shù)據(jù)使用行為一般難以滿足。以我國為例,最可能作為人工智能數(shù)據(jù)使用行為抗辯理由的是“個人學習”“適當引用”和“科學研究”三種情形。然而,這三種情形均有嚴格的適用條件:“個人學習”要求不以營利為自的;“適當引用”需滿足“為介紹、評論某一作品或者說明某一問題”的特定目的;“科學研究”則限定于科研主體。對于通常由營利性的互聯(lián)網(wǎng)公司開發(fā)、訓練數(shù)據(jù)目的在于輸出的生成式人工智能來說,顯然都不適用。對此,有學者提出增設針對生成式人工智能合理使用的專門條款或采用開放性條款[以擴充合理使用的法定情形。在比較法上,歐盟也進一步擴充了合理使用的范圍,在《數(shù)字單一市場版權指令》(Directive on Copyright in the Di-gitalSinglesMarket)中針對文本和數(shù)據(jù)挖掘行為,增加了兩項版權與數(shù)據(jù)庫特殊權利的侵權例外制度。此種立法思路可為我國著作權法所借鑒。
其次,在判斷是否與原作品的正常利用相沖突時,通常要求對原作品的使用次數(shù)和范圍進行限制,這明顯與人工智能開展數(shù)據(jù)訓練的基本需求相違背,
最后,人工智能開展數(shù)據(jù)訓練的過程中很有可能構成對作品復制權、匯編權、信息網(wǎng)絡傳播權等權益的侵害。對此,日本采取的態(tài)度是不強制人工智能訓練中使用的數(shù)據(jù)符合版權法,不保護訓練數(shù)據(jù)所用資料的版權。[這種絕對化的立場遭到了不少議員和版權企業(yè)的質疑,這種以無版權換取人工智能競爭力的方式顯然也因不符合我國國情而缺乏借鑒意義。歐盟《人工智能法》(Artifi-cialIntelligenceAct)則是基于風險對人工智能的數(shù)據(jù)使用行為作出規(guī)制,然而就數(shù)據(jù)訓練層面而言,該法案只是從正面提出要求,即人工智能模型開發(fā)者需詳細說明使用了哪些內容來訓練所研發(fā)的系統(tǒng),并確保遵守歐盟版權法的規(guī)定,但該法案缺乏判斷不合理損害著作權人合法權益的明確標準。
(2)“因素主義”立法模式及評析
美國法院在司法案例中逐漸形成了以“使用的目的及性質”“享有版權保護作品的性質”“被使用部分的數(shù)量及其性質”及“使用行為對原作品潛在市場或其價值的影響”等因素作為判斷合理使用制度適用性的標準。其中,“使用的目的及性質”作為判斷使用行為正當性的基礎,亦會影響其他要素的認定,因而法院通常將其作為首要因素予以優(yōu)先考慮,本文也將以此為代表進行分析。
一方面,為判斷“使用的目的及性質”,美國司法實踐對轉換性使用這一特色理論,根據(jù)人工智能時代的發(fā)展背景做了新的闡釋。轉換性使用原指在新作品對原作品的使用過程中,賦予原作品新的價值、功能或性質,從而改變了原先的功能或目的。2023年,美國最高法院特別強調,轉換性使用的認定是一個程度問題,關鍵是看對原作品的使用“是否且在多大程度上”與原作品具有目的和性質上的不同。[12]換言之,可以從目的和內容兩個方面進行判斷:當人工智能大模型對原作品的使用足以產(chǎn)生新的價值、功能或性質時,無論是在數(shù)據(jù)輸入還是內容輸出階段,都呈現(xiàn)出與原作品不同的表達形式或用途,且不會對原作品形成市場替代或導致其價值減損,在此情形下適用合理使用制度的理由就更為充分。這種保障舊權利、鼓勵新價值的利益平衡機制也為我國法律適應新技術發(fā)展提供了借鑒。
但另一方面,美國司法實踐中對于“使用的目的及性質”的判定仍未形成統(tǒng)一標準,這在一定程度上減損了“因素主義”模式的司法適用性。對作品使用的目的和性質的判斷,實質上是在“思想與表達二分法”下,將人工智能對作品的非表達性使用排除在侵權之外,因此明確表達性使用與非表達性使用的界限就十分關鍵。有學者認為人工智能創(chuàng)作對于作品的使用屬于“表達性使用”一這種使用“并非針對原作品的事實性信息,而是其中的獨創(chuàng)性表達;使用的結果也并非實現(xiàn)了所謂目的性或者功能性轉換,而是形成了與原作品有關聯(lián)的新作品”[4131。也有反對觀點主張構成人工智能創(chuàng)作對于作品的使用屬于“非表達性使用”,認為“無論模型訓練的目的是什么,其背后的技術邏輯是一樣的,本質上都是從數(shù)據(jù)中計算出概率,形成表達范式,無論是模型本身還是模型背后的開發(fā)者,都未產(chǎn)生對作品中的表達的理解和欣賞”[13]。因此,作品被輸人計算機中只是作為被分析與挖掘的語料,在這過程中并未被閱讀、欣賞,也沒有在計算機中以人類能夠閱讀的方式再現(xiàn)。[14]實踐中,美國法院的裁決并沒有對人工智能訓練數(shù)據(jù)是否構成表達性使用給出統(tǒng)一標準,相關理論和實踐都有待完善。
四、生成式人工智能訓練數(shù)據(jù)著作權侵權風險的規(guī)制思路
從以上分析可以看出,防范生成式人工智能訓練數(shù)據(jù)的侵權風險需要妥善處理好兩個問題:一是如何防止輸入和輸出兩個階段侵權風險的生成,二是應怎樣對當前的合理使用制度作出調整以適應發(fā)展需求。為此,應著眼于對著作權法及相關制度規(guī)范的完善,在秉持利益平衡、包容審慎原則的基礎上對上述問題作出回應
1.在輸入階段保障訓練數(shù)據(jù)的來源合法
數(shù)據(jù)來源是否符合著作權法的規(guī)定,對訓練數(shù)據(jù)輸入階段乃至整個流程的風險規(guī)避起到舉足輕重的作用??梢钥紤]從規(guī)范數(shù)據(jù)收集方式和健全訓練數(shù)據(jù)著作權信息披露規(guī)范入手,保障輸入階段數(shù)據(jù)來源的合法性,從源頭降低著作權侵權風險產(chǎn)生的可能性
(1)規(guī)范數(shù)據(jù)收集方式
首先,應當采取更加高效的訓練數(shù)據(jù)收集方式。在比較法中,日本于2023年對其著作權法進行修改,規(guī)定當作品著作權人授權意向不明時,使用者可向文部科學省下屬的文化廳提出裁決申請,經(jīng)文化廳廳長的批準并支付相應補償金后,使用者有權在指定期限內使用該作品。這種臨時許可裁定制度不僅便捷了人工智能產(chǎn)業(yè)對作品的使用,降低了申請門檻,還允許著作權人申請撤銷許可或獲得相應的補償金,從而兼顧了著作權人的利益。這一做法為我國解決人工智能大模型使用數(shù)據(jù)面臨的“許可使用”困境提供了參考。我國應當結合實際情況,在裁定程序、補償金確定標準等方面作出符合我國國情的考量。一方面,可以考慮設立獨立的數(shù)據(jù)裁定委員會,負責數(shù)據(jù)的收集審查和裁定使用,構建數(shù)據(jù)收集前的用戶同意機制和數(shù)據(jù)收集中的匿名化處理機制,確保在透明原則下進行裁定,并向著作權人明確告知數(shù)據(jù)的使用目的、方式和范圍。另一方面,在確定補償金時,應對數(shù)據(jù)的貢獻量和市場價值進行評估,同時建立動態(tài)調整機制,根據(jù)市場變化、技術進步和數(shù)據(jù)價值的波動,及時調整補償
金標準。
此外,基于現(xiàn)有的默示許可制度,可以從以下兩個方面作出完善。一是明確“選擇退出”機制下人工智能開發(fā)者和作品著作權人的義務?!斑x擇退出”機制下,“原本由數(shù)據(jù)利用者承擔的監(jiān)管義務遷移到權利人身上;對數(shù)據(jù)利用者而言,僅需盡到告知義務即可,且此種告知義務的要求較之尋求授權同意而言更為寬松、成本也更低”[15]。換言之,在訓練數(shù)據(jù)的收集過程中,著作權人需承擔對作品使用的監(jiān)管責任,人工智能開發(fā)者則需要確保告知義務的充分履行,使著作權人能清楚知悉其作品的使用狀況。二是依托著作權集體管理機制使著作權人能夠及時“知悉”相關信息。著作權集體管理組織在管理著作權人難以直接控制和行使的權利、實現(xiàn)著作權人利益最大化方面,發(fā)揮著重要的作用。在大數(shù)據(jù)時代,有必要進一步完善著作權集體管理模式,發(fā)揮其在默示許可制度中的組織協(xié)調作用,暢通著作權人的知情知悉渠道。
(2)健全訓練數(shù)據(jù)著作權信息披露規(guī)范
為糾正人工智能大模型開發(fā)者在收集和使用數(shù)據(jù)過程中存在的不透明、不規(guī)范行為,保障輸入階段數(shù)據(jù)來源的合法性,國內外均已開始了針對著作權信息披露的立法實踐。歐盟在《人工智能法》中要求披露所有的訓練數(shù)據(jù)信息,美國也在《人工智能基礎模型透明法案》(AIFoundationModelTranspa-rencyAct)、《生成式人工智能版權披露法案》(Generative AI Copyright Disclosure Act)等諸多草案中,體現(xiàn)出注重訓練數(shù)據(jù)著作權信息披露的立法動向。
為探索人工智能訓練數(shù)據(jù)著作權信息披露的中國方案,全國網(wǎng)絡安全標準化技術委員會于2024年3月發(fā)布了《生成式人工智能服務安全基本要求》,其中對語料來源安全要求進行了界定,包括語料來源管理、語料來源可追溯等,并向服務提供者發(fā)出倡議。訓練數(shù)據(jù)著作權信息披露規(guī)范要對披露方式、披露內容等給予明確指示,但又要避免給開發(fā)者設定過高的義務標準。具體來說,可以考慮搭建披露平臺,以摘要、概述等形式進行披露,以提高數(shù)據(jù)透明度;在披露內容上,應明確標注數(shù)據(jù)來源、獲取渠道等,例如數(shù)據(jù)是自研、交換還是爬取所得,公開數(shù)據(jù)集的爬取是基于政府、組織還是個人等?!巴ㄟ^披露關于訓練數(shù)據(jù)收集的信息,社會公眾能夠了解大模型訓練數(shù)據(jù)的來源渠道,特別是能及時發(fā)現(xiàn)對關涉其個人合法權益的數(shù)據(jù)被收集的事實,以便依法維護自身權益?!盵16]
2.在輸出階段強化對人工智能大模型輸出內容的監(jiān)管
如前文所述,在人工智能大模型訓練的輸出階段往往會涉及對廣播權和信息網(wǎng)絡傳播權的侵犯,而這類權利具有接觸面廣、開放性強的特征,為獲取監(jiān)管內容提供了便利,但也對監(jiān)管的時效性、規(guī)范性提出了更高要求。為此,可以考慮從以下兩方面采取措施應對挑戰(zhàn)。
(1)建立分類分級監(jiān)管制度
分類分級的監(jiān)管模式是當前人工智能產(chǎn)業(yè)治理的主流選擇。歐盟的《人工智能法》率先規(guī)定了風險分級監(jiān)管制度,將人工智能應用劃分為低風險、有限風險、高風險和不可接受風險四個等級,并針對不同等級制定相應的監(jiān)管要求。我國在《中華人民共和國數(shù)據(jù)安全法》第21條中提出“國家建立數(shù)據(jù)分類分級保護制度”,也確立了分類分級監(jiān)管原則,但在目前人工智能開發(fā)和使用的實踐中,具體要求并不明確。為此,應從以下兩方面建立更具針對性的分類分級監(jiān)管制度。
一是要明確數(shù)據(jù)分類分級的標準。例如,可依主體類別劃分為國家數(shù)據(jù)、企業(yè)數(shù)據(jù)、個人數(shù)據(jù);可基于權益侵害所涉及的領域進行分級,大致分為國家安全和公共利益領域數(shù)據(jù)、經(jīng)濟社會和企業(yè)權益領域數(shù)據(jù)、個體權益領域數(shù)據(jù)。[17]二是要根據(jù)數(shù)據(jù)的不同類別與層級,采取相應的監(jiān)管措施。當人工智能訓練數(shù)據(jù)的來源作品關乎國家安全和社會公共利益時,應對其傳播范圍、傳播方式、傳播時段等進行嚴格監(jiān)管和審核;當人工智能訓練數(shù)據(jù)的來源作品出自個人時,則只需進行概括性監(jiān)管,重點核查其傳播是否經(jīng)著作權人知悉同意、是否得到授權等,確保不損害著作權人的合法權益。鑒于此,人工智能開發(fā)者也應設立專門的數(shù)據(jù)管理人員,對不同類別和層級的作品進行技術保障和管理,以便實現(xiàn)對作品傳播過程的監(jiān)管,并有利于在發(fā)現(xiàn)侵權行為時及時采取相應的補救措施。
(2)探索訓練數(shù)據(jù)監(jiān)管沙盒制度
2015年,英國金融行為監(jiān)管局在《監(jiān)管沙盒》(Regulatorysandbox)報告中提出了監(jiān)管沙盒的概念,并于2016年正式啟動。其將監(jiān)管沙盒定義為一個“安全空間”,企業(yè)可以在其中測試新型產(chǎn)品或服務的性能、損耗,不會因從事相關活動而立即面臨監(jiān)管后果。目前,歐盟的《人工智能法》引入了這一制度,歐盟成員國如西班牙、法國,非歐盟成員國如新加坡、日本等,都已籌劃或開展人工智能監(jiān)管沙盒的試點工作。就人工智能大模型訓練的輸出階段而言,先通過沙盒進行作品生成和傳播的模擬,收集其在一定周期內的傳播速度和廣度,進而分析訓練數(shù)據(jù)侵害著作權的可能性和危害程度,這樣可幫助人工智能開發(fā)者在不完全掌握訓練數(shù)據(jù)輸出風險的情況下,判斷能否采取傳播行為,從而最大限度避免如《紐約時報》訴OpenAI及微軟案中被告所導致的侵權行為。
我國尚未從國家層面對監(jiān)管沙盒作出明確規(guī)定,但也不乏各地“自下而上”的探索實踐。2024年3月29日,在北京AI原生產(chǎn)業(yè)創(chuàng)新大會暨北京數(shù)據(jù)基礎制度先行區(qū)成果發(fā)布會上,國內首個人工智能數(shù)據(jù)訓練基地宣布正式啟用,并提出針對大模型訓練的數(shù)據(jù)合規(guī)和場景應用引入監(jiān)管沙盒機制,以規(guī)范數(shù)據(jù)所有權和數(shù)據(jù)安全、約束收益分配行為等。然而要想更好地發(fā)揮監(jiān)管沙盒制度的價值,釋放數(shù)據(jù)資源活力,亟須出臺和完善相關配套規(guī)范。一方面要明確沙盒責任主體,加強對沙盒參與者的指導,提升監(jiān)管人員自身的能力水平,確保監(jiān)管機構職責明確、監(jiān)管人員專業(yè)技能過硬。另一方面要加強對監(jiān)管沙盒中的數(shù)據(jù)保護,尤其是要避免對個人信息、隱私權造成侵害,可以考慮通過技術手段進行信息匿名化處理,或者引導沙盒參與者審慎操作,以規(guī)范、可靠的方式進行數(shù)據(jù)利用。[18]
3.基于包容審慎規(guī)制理念重構合理使用制度
(1)包容審慎的規(guī)制理念
新興技術的發(fā)展在促進大數(shù)據(jù)模型乃至人工智能產(chǎn)業(yè)轉型升級的同時,也對傳統(tǒng)的規(guī)制理念發(fā)起了挑戰(zhàn)。早在2017年國務院《政府工作報告》中便已提出,本著鼓勵創(chuàng)新、包容審慎的原則,制定新興產(chǎn)業(yè)監(jiān)管規(guī)則,并在后續(xù)《中共中央國務院關于新時代加快完善社會主義市場經(jīng)濟體制的意見》《法治中國建設規(guī)劃(2020—2025年)》《法治政府建設實施綱要(2021—2025年)》等諸多文件中加以強調,確立了對人工智能等新技術、新業(yè)態(tài)、新模式的包容審慎規(guī)制理念。
包容原則要求對未知大于已知的新業(yè)態(tài)采取較為寬松的態(tài)度,為新質生產(chǎn)力營造良好生長環(huán)境但不得觸碰安全底線;審慎原則要求面對萌芽階段的新業(yè)態(tài),要以寬容的心態(tài)給它一個“觀察期”,但仍要嚴守安全底線,對侵犯知識產(chǎn)權等行為采取嚴厲監(jiān)管措施。[19]具體到著作權領域,在包容審慎原則下,版權作品、已合法公開的個人信息、公共數(shù)據(jù)等,都可作為大模型訓練的素材,為人工智能產(chǎn)業(yè)發(fā)展提供廣闊的生存空間;與此同時,也要充分保障著作權人的合法權益,制定并確立規(guī)制人工智能開發(fā)者行為的規(guī)章制度,杜絕借助技術措施侵害著作權人權益的行為發(fā)生。可見,在包容審慎規(guī)制理念下,對現(xiàn)有制度進行重塑顯得尤為必要,是順應技術創(chuàng)新迅猛發(fā)展的呼喚。
(2)完善合理使用理論和規(guī)范
合理使用制度對于人工智能產(chǎn)業(yè)的發(fā)展顯得尤為重要。為充分發(fā)揮其在促進技術創(chuàng)新、推動產(chǎn)業(yè)發(fā)展中的積極作用,應當在包容審慎規(guī)制理念下對合理使用制度進行重構。這不僅要求學術理論不斷突破傳統(tǒng)思維框架,動態(tài)回應人工智能技術復雜多變的應用場景,還要求具體的法律規(guī)范能夠兼顧技術發(fā)展與社會公共利益之間的平衡。鑒于此,可以從以下三方面著手加以完善。
首先,對訓練數(shù)據(jù)的表達性使用與非表達性使用進行細致區(qū)分。前者指的是以閱讀、欣賞或復制作品內容為自的的使用行為,如在閱讀小說、欣賞音樂或復制文本片段時,使用者直接體驗或獲取作品本身的表達內容的行為;后者是指不以獲取作品內容或向公眾傳播作品內容為目的的使用行為,如在技術測試中使用作品作為輸入材料進行運算處理,或者將作品作為研究數(shù)據(jù)的一部分進行分析的行為。通常情況下,非表達性使用不涉及對作品表達部分的直接利用,因此不需要獲得著作權人的許可,亦不會構成對著作權的侵犯。換言之,只有人工智能大模型對作品進行表達性使用時,才會落人著作權法的保護范疇,此時合理使用制度才具備適用空間。在實際情況中,生成式人工智能對作品的使用往往是按照指令處理作品,再依據(jù)用戶目的進行分析和結果呈現(xiàn),并不涉及對作品獨創(chuàng)性表達的利用,即以非表達性使用為主;但表達性使用的情況亦會存在,例如根據(jù)用戶需求提煉小說核心情節(jié)、依照小說內容生成虛擬角色等,且這種情況一旦出現(xiàn),會引發(fā)更激烈的爭議、造成更大的侵權風險。
其次,借助轉化性使用理論判定是否構成合理使用。在全國首例人工智能繪畫大模型訓練著作權侵權案[2]中,原告認為,被告將其作品用于訓練人工智能大模型并應用于商業(yè)領域,此舉擠壓了原告依托作品獲得收益的空間,對原告的權益如復制權、改編權等造成嚴重侵害。被告則辯稱其使用作品的目的在于進行模型訓練,且訓練結果與原作品不存在實質性相似,該行為構成合理使用,不會損害原告的潛在市場。在此情形下,便可借助轉化性使用理論,判斷人工智能大模型使用作品的行為是否具有較高的轉換性和創(chuàng)造性,該過程越能體現(xiàn)新的目的和內容,則越容易構成合理使用。生成式人工智能使用作品的目的在于找尋特征、總結規(guī)律,并基于數(shù)據(jù)的學習完成指令要求。就內容而言,也不是一味裁剪、拼湊或抄襲,而是會根據(jù)其算法邏輯和使用者指令詞進行再創(chuàng)作。因此,這種對作品的使用在目的和內容上都具有轉換性,依據(jù)合理使用制度對這一行為加以保護,符合著作權法的立法宗旨和精神。
最后,應適時調整合理使用的法律規(guī)范。我國著作權法通過窮盡式列舉模式對合理使用的情形做出了嚴格限制。其中,第24條第
13項“法律、行政法規(guī)規(guī)定的其他情形”雖然在一定程度上具有兜底和擴充合理使用事由的功能,但依然要求事由的法定性,這使得合理使用事由在開放性與靈活性上存在不足。因此,為滿足人工智能大模型的發(fā)展需求,應當適當擴展合理使用的事由范圍。在立法層面,目前可以分兩步推進:短期內,可對《中華人民共和國著作權法實施條例》進行修改,增加“數(shù)據(jù)挖掘”“為數(shù)據(jù)訓練的目的”等類似表述,將其作為合理使用的特定情形;待實踐檢驗并收集反饋意見后,再決定是否有必要對著作權法第24條加以調整,并探索如何完善配套規(guī)范。此外,相關規(guī)范還應進一步明確人工智能開發(fā)者的注意義務,從而為判斷“不合理地損害權利人的合法權益”提供依據(jù)。在互聯(lián)網(wǎng)治理中,以避風港規(guī)則為框架設定了網(wǎng)絡服務提供者的注意義務,這種治理方案為平衡人工智能開發(fā)者與著作權人利益、保障著作權合理使用的正當性提供了經(jīng)驗借鑒,[2]因此在調整合理使用法律規(guī)范時應當注意和其他條款、規(guī)范之間的銜接與協(xié)調。
五、結語
人工智能技術如雨后春筍般涌現(xiàn)并持續(xù)演變,不可避免會給知識產(chǎn)權制度帶來挑戰(zhàn)。在世界范圍內,訓練數(shù)據(jù)在不同階段所引發(fā)的著作權侵權風險時有發(fā)生,許可使用制度在海量數(shù)據(jù)面前的不適應性日益凸顯,盡管現(xiàn)行的合理使用制度在司法實踐中占據(jù)主流,但仍有亟待調整之處。技術應當具有普惠性,在推動新興產(chǎn)業(yè)經(jīng)濟革新的同時,也要給著作權人帶來紅利。在包容審慎的規(guī)制理念下,對著作權法有關制度加以完善補充,同時從生成式人工智能訓練數(shù)據(jù)的各個階段入手,對不同的風險形態(tài)進行預防規(guī)制,既是適應生產(chǎn)力和生產(chǎn)方式變革的要求,也是加強人工智能產(chǎn)業(yè)國際競爭力、提升我國法律規(guī)則和治理理念話語權的體現(xiàn)。
參考文獻
[1]刁云蕓.涉互聯(lián)網(wǎng)平臺作品數(shù)據(jù)集合的反不正當競爭法保護[J].中國出版,2021(9):24-28.
[2]李婷.生成式AI數(shù)據(jù)訓練的合理使用規(guī)則研究[J]傳播與版權,2024(15):94-100.
[3]紐約時報起訴要求銷毀ChatGPT,賠償數(shù)十億美元[EB/OL]. (2024-01-04)[2024-10-20].https://mp.weixin.qq.com/s/Vir_jOJcW947-7hZSUlAFg.
[4]焦和平.人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權風險及化解路徑[J].當代法學,2022,36(4):128-140.
[5]張濤.生成式人工智能訓練數(shù)據(jù)集的法律風險與包容審慎規(guī)制[J].比較法研究,2024(4):86-103.
[6]徐聰穎.群體傳播視域下我國文字作品著作權集體管理的制度反思[J].出版發(fā)行研究,2024(6):78-82.
[7]王國柱.著作權“選擇退出”默示許可的制度解析與立法構造[J].當代法學,2015,29(3):106-112.
[8]李楊.著作權合理使用制度的體系構造與司法互動[J].法學評論,2020,38(4):88-97.
[9]譚偉.生成式AI著作權侵權風險化解路徑探究[J]傳播與版權,2024(14):107-110.
[10]張金平.人工智能作品合理使用困境及其解決[J].環(huán)球法律評論,2019,41(3):120-132.
[11]AI訓練數(shù)據(jù)不用擔心版權問題?日本政府表態(tài)引發(fā)熱議[EB/OL]. (2023-06-02)[2024-10-22].https://new.qq.com/rain/a/20230602A09RL000.
[12]金海軍.合理使用認定中“轉換性使用”的重新界定——基于“戈德史密斯案”的思考[J].中國版權,2024(2): 36-50.
[13]陶乾.基礎模型訓練的著作權問題:理論澄清與規(guī)則適用[J].政法論壇,2024,42(5):152-164.
[14]袁帥.數(shù)字化背景下作品非表達性使用的著作權法應對[J].知識產(chǎn)權,2024(9):110-126.
[15]馮愷.個人信息“選擇退出”機制的檢視和反思[J].環(huán)球法律評論,2020,42(4):148-165.
[16]孫清白.論人工智能大模型訓練數(shù)據(jù)風險治理的規(guī)范構建[J].電子政務,2024(12):41-52.
[17]王海洋.生成式AI訓練數(shù)據(jù)的法律風險及其元規(guī)制[J].浙江社會科學,2024(9):50-63,157-158.
[18]張廣偉.歐盟人工智能監(jiān)管沙盒制度的功能、局限及其啟示——基于歐盟《人工智能法》的解析[J].德國研究,2024,39(2):116-132,136.
[19]逯達.文生視頻類人工智能的數(shù)據(jù)風險及其法律規(guī)制-以Sora為例[J].河南社會科學,2024,32(10):77-87.
[20]北京互聯(lián)網(wǎng)法院開庭審理全國首例涉及AI繪畫大模型訓練著作權侵權案[EB/OL].(2024-06-20)[2024-10-31]. https://mp.weixin.qq.com/s/cyskAz1cASBaNIYQp-GpGsA.
[21]徐小奔.技術中立視角下人工智能模型訓練的著作權合理使用[J].法學評論,2024,42(4):86-99.
Risk and Countermeasures of Copyright Infringement in Generative Artificial Intelligence Training Data
JIN Yufei
Abstract:
The trainingand use of data by generative artificial intelligence pose significant challenges to the traditional copyright system, and there are constant conflicts of interest between data property owners and data users.By analyzing the various stages of datatraining in generative artificial intelligence,it canbe found thatthe existing risk regulation paths represented by licensed use and fair use are not adaptable in the era of artificial intelligence. This article explores thecopyright infringement risks at various stages of generative artificial inteligence training, and proposes targeted strategiesand suggestions for improving thefair use system,inorder toachieveabalance of interests between the innovation in the artificial intelligence industry and copyright protection. Theresearch process is mainly divided into three parts: through literature review and case analysis,clarify the prerequisites for data infringement in generative artificial intelligence training and the risk paterns at each stage; reviewand reflect on the current situation ofcopyright infringementregulations for generativeartificial intellience trainingdata; propose a regulatory approach for copyright infringement risks of generative artificial inteligence training data based on existing regulatory models,and respond to infringement risks at various stages.
Research has found that the prerequisite for generating artificial intellgence training data to trigger copyright infringement risks is that the data meet the requirements for the composition of copyright works.The pattrns of infringement risks at different stages of training are as folows: the infringement risks at the input stage are mainly manifested as infringement of reproduction rights; the infringement risks at the utilization stage mainly manifest as infringement of the rightsof adaptation,compilation,and translation; the infringement risks at theoutput stage mainlymanifest as infringement ofbroadcasting rights and information network disemination rights.Based on the analysis oftheexisting infringement regulation paths,itis believed that the relevant provisions on license use have limited applicabilityand lack operability in practice;the legislative models of \"rule-based\"and \"factorist\"under reasonable use are also incompatible with the development of generative artificial intelligence in different degrees, lacking clear norms or unified standards.
Based on the analysis,the article proposes a regulatory approach for the risks of copyright infringement in generative artificial inteligence training data: at the input stage,by standardizing datacolection methodsand improving disclosure standards for training data copyright information,the source of training data can be ensured to be legal; a classification and grading supervision system at the output stage is established, a sandbox system for training data supervision is explored,andthe supervision of the outputcontentofartificialintelligence large models is strengthened; based on the concept of inclusive and prudent regulation,the theory and norms of fair use are improved,and the system of fair use is reconstructed.
Keywords: generative artificial intelligence; training data; copyright; reasonable use
Author Afiliation: School ofLaw, Shandong University 收稿日期:2025-01-04修回日期:2025-04-07
延伸閱讀:國家網(wǎng)信辦等七部門聯(lián)合公布《生成式人工智能服務管理暫行辦法》
國家網(wǎng)信辦聯(lián)合國家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務管理暫行辦法》(簡稱《辦法》),自2023年8月15日起施行。國家互聯(lián)網(wǎng)信息辦公室有關負責人表示,出臺《辦法》,旨在促進生成式人工智能健康發(fā)展和規(guī)范應用,維護國家安全和社會公共利益,保護公民、法人和其他組織的合法權益。
近年來,生成式人工智能技術快速發(fā)展,在為經(jīng)濟社會發(fā)展帶來新機遇的同時,也引發(fā)了傳播虛假信息、侵害個人信息權益、數(shù)據(jù)安全和偏見歧視等問題。出臺《辦法》,既是促進生成式人工智能健康發(fā)展的重要要求,也是防范生成式人工智能服務風險的現(xiàn)實需要。
《辦法》提出國家堅持發(fā)展和安全并重、促進創(chuàng)新和依法治理相結合的原則,采取有效措施鼓勵生成式人工智能創(chuàng)新發(fā)展,對生成式人工智能服務實行包容審慎和分類分級監(jiān)管,明確了提供和使用生成式人工智能服務總體要求。提出了促進生成式人工智能技術發(fā)展的具體措施,明確了訓練數(shù)據(jù)處理活動和數(shù)據(jù)標注等要求。規(guī)定了生成式人工智能服務規(guī)范,明確生成式人工智能服務提供者應當采取有效措施防范未成年人用戶過度依賴或者沉迷生成式人工智能服務,按照《互聯(lián)網(wǎng)信息服務深度合成管理規(guī)定》對圖片、視頻等生成內容進行標識,發(fā)現(xiàn)違法內容應當及時采取處置措施等。此外,還規(guī)定了安全評估、算法備案等制度,明確了法律責任。