【摘要】受版權法保護的文學、藝術和科學作品是生成式人工智能機器學習的高質量語料資源。為促進生成式人工智能技術與相關行業(yè)的發(fā)展,需合理界定生成式人工智能機器學習使用作品的版權保護邊界。無論是人類中心主義的價值內核、推動文化創(chuàng)新的立法宗旨,還是作品利益調整的制度功能,都體現出版權法內在的“表達性使用”理論預設。文章認為基于過程視角下使用作品的性質、指向與方式,以及結果視角下使用作品的效果,一般意義上的生成式人工智能機器學習對作品的使用是一種區(qū)別于“表達性使用”的非表達數據性使用,不在版權法的保護范圍之內。“表達性使用”視角下的生成式人工智能機器學習應設置分層分級的版權規(guī)制路徑,以促進生成式人工智能產業(yè)的發(fā)展。
【關鍵詞】生成式人工智能 機器學習 版權法 “表達性使用” 合理使用
【中圖分類號】D923 【文獻標識碼】A 【文章編號】1003-6687(2025)2-079-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2025.2.010
兼具高智能性、多功能性、高靈活性與強通用性的生成式人工智能作為人工智能技術的重要分支,近年來對內容產品的生產、傳播和消費底層邏輯產生重大影響,掀起了一場意蘊深刻、影響深遠的智能創(chuàng)作革命。機器學習作為生成式人工智能獲得高階內容生成能力的前置環(huán)節(jié),對于生成式人工智能的升級迭代以及人類文化的發(fā)展繁榮具有重要意義。
面對生成式人工智能機器學習引發(fā)的版權爭議,國外學者陸續(xù)提出了“非表達性使用”[1]“非展示性使用”[2]以及“非作品性使用”[3](87)等概念,證成生成式人工智能機器學習對作品的使用是一種轉換性使用。當前,國內學者對生成式人工智能機器學習的版權法律規(guī)制模式大致可歸納為兩大類型:第一類是采取“先進后出”的版權侵權例外方案,認為生成式人工智能機器學習對作品的使用落入版權法的規(guī)制范疇,但出于技術發(fā)展、產業(yè)激勵和國際競爭等政策考量將其規(guī)定為版權侵權的例外情形;[4]第二類是采取“不予進入”的版權除外保護路徑,認為生成式人工智能機器學習并非版權法下的“表達性使用”,而是一種對作品的非表達數據性使用,未落入版權法的規(guī)制范疇,故不存在后續(xù)的侵權可能以及侵權豁免的必要。[5]
追溯版權法下作品使用方式的嬗變,可以發(fā)現“表達性使用”這一本就內嵌于版權基本法理中的概念能夠為生成式人工智能機器學習的版權法律規(guī)制提供分析視角。本文以國內學者關注不足的“表達性使用”為視角,厘定生成式人工智能機器學習的作品使用屬性,建立分層分級的生成式人工智能機器學習版權法律規(guī)制模式,以促進生成式人工智能技術與產業(yè)的發(fā)展。
一、版權法下的“表達性使用”
依循“行為規(guī)制權利化”的設權路徑,版權法完成了權利體系的搭建與設定。在版權法的權利框架下,各具體權利類型所對應的作品使用行為都存在一個基本的理論預設——版權法語境下的作品使用行為一定是建立在對作品的“表達性使用”基礎上的,對作品的“非表達性使用”不屬于版權法的規(guī)制范疇。
1.“表達性使用”的歷史溯源
“表達性使用”與數字技術環(huán)境下的復制行為息息相關。數字復制技術的出現使得區(qū)別于傳統(tǒng)意義上為獲取、欣賞和消費作品本身的非表達性復制成為可能。對作品的使用行為構成“表達性使用”或“非表達性使用”,且基于“表達性使用”分析判定是否構成合理使用的司法邏輯經由一系列典型案件得以確認。
1992年美國第九巡回法院對“Sega v. Accolade”案①的判決是對“表達性使用”概念最早的司法承認之一。法院經審理后認為,一方面,Accolade公司出于非表達目的對Sega公司功能代碼的復制是一種未納入版權保護范圍的“中間復制”;另一方面,Accolade公司復制的Sega公司的代碼是不受版權法保護的功能性代碼,故不構成版權侵權。2003年的“Kelly v. Arriba案”②和2007年的“Perfect 10 v. Amazon案”③標志著“表達性使用”概念在美國版權司法領域的進一步發(fā)展。法院經審理后認為,區(qū)別于“表達性使用”,Arriba的縮略圖與Amazon的圖片檢索僅是對原作品的一種非表達性工具使用,構成“幫助索引和改善圖像訪問的工具”的一部分,而非版權法意義上的審美對象,故不構成版權侵權。緊接著,“Author's Guild v. Google案”④堪稱“表達性使用”概念在美國版權司法實踐中運用的一個高潮。2005年9月,美國作家協(xié)會聯(lián)合五家出版社共同起訴谷歌,稱其未經許可使用作品,侵犯其版權。2008年10月,雙方達成和解,約定作者將只能與谷歌就其作品的“表達性使用”達成合同,并明確“非表達性使用”的內涵是指“未向公眾展示書籍或插頁的數字副本中的表達內容的使用”,外延包括但不限于“展示書目信息、不展示表達內容的全文索引、書籍的地理索引、書籍章節(jié)的關鍵術語算法列表以及使用數字副本進行內部研究和開發(fā)”。
幾乎與司法實踐同步,學者們對“表達性使用”與“非表達性使用”概念的認識與爭論也在持續(xù)推進。毛里齊奧·博爾吉(Borghi)和斯塔夫羅拉·卡拉帕帕(Karapapa)認為“非表達性使用”指“在不向公眾展示數字副本的作品表達的情況下進行的活動”。[2]馬修·塞格(Sag)認為“非表達性使用”指“任何非意圖使人類享受、欣賞或理解所復制表達方式作為表達的再現的復制行為”。[6]亞伯拉罕·德拉西諾爾(Drassinower)則表示作品本質上是一種人類交流行為,任何僅限于技術性的或者非交流性的作品使用都不是表達性使用。[3](88)與上述觀點有較大區(qū)別,本杰明·索貝爾(Sobel)認為“表達性使用”是“為實現表達目的而對作品的表達進行使用的行為”。[7]國內也有學者對這一組互補概念進行了研究。如焦和平表示,“非表達性使用是將原作品作為一種事實性信息進行功能性利用,在使用結果上也未再現原作品的藝術價值”;[8]劉曉春雖未直接使用“表達性使用”或“非表達性使用”的表述,但提出與其具有內在一致性的“非作品性使用”概念,并以此證成生成式人工智能數據訓練不受版權法規(guī)制。[5]
2.“表達性使用”的理論闡釋
版權法語境下“表達性使用”的理論分歧主要集中在兩個方面:一是指向對象爭議——“表達性使用”是否僅限定于面向人類的作品傳播,不包括面向機器的作品傳播?二是評判標準爭議——“表達性使用”的評判標準應采用基于行為主義的過程性立場,還是采用基于結果主義的終局性立場?
第一,人類中心主義的版權法價值內核從底層上主導并決定了版權法的“表達性使用”理論預設。一切法律皆為人法。人類是版權法意義探尋與制度建構的邏輯起點?!氨磉_性使用”視角下對人類使用作品行為的嚴格審查實際上構成人類中心主義在版權法領域的具體體現?!胺傻母緦傩允钦{整人們相互關系中合乎人性的行為準則?!盵9]版權法亦不例外。“人類的創(chuàng)作最終關乎人類的讀者群體。”[10]只有人類才能進行版權法意義上的作品創(chuàng)作、傳播與欣賞,也即只有人類才能對作品進行表達性意義上的使用。簡言之,版權法語境下作品表達的唯一價值和目的就是供人類讀者欣賞與消費。
第二,激勵文化創(chuàng)新的版權法規(guī)范意旨從根本上彰顯并體現了版權法“表達性使用”的內在邏輯。如果說專利法的作用方式是將投資導向卓有成效的表達,那么版權法的作用方式就是將投資導向豐富多樣的表達。[11]版權法的制度價值在于通過向作者保障其作品中表現價值的權利,促進人類表達的創(chuàng)作和傳播,進而推動文化繁榮?!叭祟悇?chuàng)作的價值在于當它被其他人消費、欣賞和轉化時得以進一步發(fā)展。這種創(chuàng)作和參與的循環(huán)正是法律笨拙地試圖保護和傳播的?!盵7]單純作品的傳播與欣賞可能并不足以推動文化的發(fā)展,文化的發(fā)展還包括對作品創(chuàng)作的有意義參與。較靜態(tài)固定的解析視角,基于作者與讀者并依托作品進行的動態(tài)循環(huán)剖析進路,能夠更好地闡釋版權法激勵文化創(chuàng)新繁榮的立法宗旨。版權法不僅關注作者的原創(chuàng)性表達向公眾傳播的過程,還關注公眾獲取和欣賞來自作者原創(chuàng)性表達的過程。[12]與其將作品看作一種孤立的“財產對象”,不如將作品視為一種交互的“溝通行為”,這不僅符合版權法所保護的作品向公眾傳達信息的特定方式,也更契合版權法激勵文化產業(yè)繁榮發(fā)展的規(guī)范意旨。
第三,作品利益調整的版權法制度功能從本質上反映并踐行了版權法的“表達性使用”理路前設。一方面,思想與表達二分法作為版權法體系中最基本的原則之一,揭示了“表達性使用”的基本內涵。版權法保護高于抽象思想的具象表達。由此可推斷出版權法保護對作品表達部分的使用,而非對作品非表達部分的使用。另一方面,版權法中的財產性權利可以劃分為復制權、演繹權與傳播權三大類型。復制權和演繹權在本質上又都以傳播權為歸宿。版權法賦予作者的專有性權利立足于向公眾傳播原創(chuàng)表達這一核心基礎上。版權法自誕生以來就是通過賦予作者基于對作品市場傳播和流通的控制而獲取經濟利益的權利,激勵創(chuàng)作進而促進文化發(fā)展的。基于表達的復制和演繹,以表達的傳播為歸宿和以經濟對價交換作品表達的版權法利益調整模式,決定了版權法下的“表達性使用”所采納的結果主義基本立場。
綜上,基于面向人類之指向對象與聚焦結果之評判標準,版權法語境下作品的“表達性使用”應定義為:任何通過向公眾傳播作品的表達,使得公眾得以感知、閱讀和欣賞作品表達的作品使用行為。
3.“表達性使用”的判定機制
在明確“表達性使用”的定義后,還應對“表達性使用”的認識更進一步,也即明確“表達性使用”的判定機制。
(1)基于過程視角的“表達性使用”判定外部過濾機制。過程視角下使用作品的性質、指向與方式將直接影響結果視角下使用作品的效果。因此,基于過程視角的使用作品行為辨析能夠為“表達性使用”的判定提供初步性的參考和指引。版權法語境下人們對于作品的使用,無論呈現為何種具體形態(tài),終究要回歸到人類對作品表達的感知、閱讀和欣賞之上。而上述限定條件下的作品使用行為可歸結為以下三個特點。
第一,使用作品的性質是對作品表達的再現。通過閱讀文字作品等文學作品,讀者探析了作者豐富多彩的內心世界,獲得了深入淺出的閱讀感受;通過品鑒美術作品、視聽作品等藝術作品,觀眾領略了作者洶涌澎湃的創(chuàng)作熱情,收獲了觸及靈魂的審美體驗;憑借欣賞建筑作品、圖形作品等科學作品,觀客感知了作者謹慎嚴謹的科學態(tài)度,得到了求真務實的精神沖擊。只有對作品的表達予以再現,人們才有對作品的表達進行感知、品鑒和欣賞之可能。
第二,使用作品的指向是對特定作品的表達。使用者往往通過對特定作品進行理解、品鑒和內化,獲得獨一無二的閱讀感受與審美體驗。當然,此處的特定并不意味著數量上的唯一,而是指向一定時空維度下具體的、數量相對確定的作品。
第三,使用作品的方式是對作品表達的結果性再現。藝術創(chuàng)作過程是研究者難以觀察,藝術家難以自省的,只有作為藝術創(chuàng)作結晶的藝術作品才能再現于人前。[13]相比創(chuàng)作過程的轉瞬即逝和難以捉摸,作品作為兼具可靠性和閉合性的財產對象,本身即蘊含著深刻的結果屬性。[14]這也決定了版權法語境下對作品的使用大多是對作品表達的結果性再現。只有基于對特定作品表達的結果性再現,使用者才可動用自己的感受與感情去觀察、體驗和掌握作品的精神內涵,進而完成藝術積累的過程。
(2)基于結果視角的“表達性使用”判定內部揀擇機制。結果視角下使用作品的效果指向使用者對作品的使用是否構成版權法意義上的市場替代。基于結果視角的使用作品效果衡量能夠為“表達性使用”的判定提供決定性的意見與結論。
在剖析結果視角下“表達性使用”判定的內部揀擇機制時,使用作品的效果研判應限定在版權法語境之內。新興技術的發(fā)展可能催生新型內容產品的創(chuàng)作模式以及與之對應的作品類型,進而對在先以相同表現形式或構成要素呈現的作品市場形成一定程度的替代。但這種替代與其說是一種版權法意義上的市場替代,不如說是一種技術演進視角下不同類型作品市場競爭的必然結果。[15]在攝影技術誕生之前,以線條、圖像和色彩為核心要素的美術作品、建筑作品等,作為主流的視覺藝術作品類型因其獨有的直觀性大受推崇。但在攝影技術誕生之后,攝影作品的技術性、真實性和信息性使得同屬視覺藝術類型的美術作品、建筑作品等受到相當程度的沖擊。將攝影作品對美術作品的替代稱作一種“整體激勵的結構性調整”,而非一種版權法語境下的圍繞作品表達市場的替代較為適宜。[5]因此,基于結果視角的“表達性使用”判定之內部揀擇機制應關注狹義版權法語境下的使用作品的效果,而非寬泛意義上的作品市場替代。
(3)基于過程視角的外部過濾機制與基于結果視角的內部揀擇機制的關系。在建立“表達性使用”的判定機制時,應關注使用作品的效果與使用作品的行為之內外協(xié)同關系。版權法的侵權判定以使用者對作品的“表達性使用”為前提。然而,無論是版權法的理論推演,抑或版權法的司法實踐,均將相當一部分未經權利許可,符合“表達性使用”判定外部過濾機制的作品使用行為,經由合理使用等制度從版權侵權情形中予以剔除。如相比“Campbell v. Acuff-Rose Music案”①中2 Live Crew樂團對案涉作品所進行的戲仿類“拆分重組型轉換性使用”,評論和介紹等作品使用方式將不可避免地導致原作品表達向公眾再現。盡管評論和介紹等作品使用方式再現了原作品表達,但美國法院仍將其判定為合理使用。究其原因,“使用作品的目的和性質”盡管對合理使用判定意義重大,但并不構成合理使用的充分條件。美國版權法合理使用四要素分析法中的四個要素并非平行并列,而是存在內在的邏輯關聯(lián)。合理使用四要素判定的核心實際在于第四要素,即市場效果要素的分析,②前三個因素可稱為第四個因素的前置或輔助判定要素。評論和介紹等作品使用方式盡管再現了作品的表達,但未造成對原作品表達版權法意義上的市場替代,反而有利于原作品表達的進一步傳播,構成擴展原作品版權市場的輔助因素。與之類似,在“Author's Guild v. Google案”③中,以索引和搜索為目的的作品使用類型盡管亦符合“表達性使用”判定之外部過濾機制,但其沒有替代原作品的版權市場,反而擴大了原作品的版權市場,增強和促進了原作品表達的傳播。
總而言之,基于過程視角的使用作品的行為分析與基于結果視角的使用作品的效果分析應相輔相成、互為依靠,共同統(tǒng)一于“表達性使用”的判定機制中,分別承擔起外部過濾和內部揀擇的差異化制度功能。過程視角下的使用作品行為考察應作為表達性使用判定輔助性與前置性的外部過濾機制;同時,結果視角下的使用作品效果衡量應作為表達性使用判定決定性與終局性的內部揀擇機制。
二、“表達性使用”視角下的生成式人工智能機器學習
生成式人工智能機器學習的版權法律定性已日益發(fā)展成為人工智能時代版權法必須直面的關鍵之問。內嵌于版權法基本原理與諸底層概念中的“表達性使用”概念能夠為生成式人工智能機器學習的版權法律厘定提供科學明晰的分析視角。以下基于“表達性使用”的內涵與判定機制,解析生成式人工智能機器學習使用作品的版權保護邊界。
1. 基于“表達性使用”外部過濾機制的生成式人工智能機器學習分析
機器學習可被定義為人工智能“通過對自我經驗的勤奮學習而改進其行為”的過程。[16]以文本類Transformer模型、圖像類Diffusion模型和視頻類Sora模型為代表的主流生成式人工智能大模型,都屬于深度學習模型。區(qū)別于傳統(tǒng)的人工智能訓練方式,深度學習模型大多會經歷一個預訓練過程,即將神經網絡的權值調整到接近最優(yōu)解的程度,再經由“微調”實現進一步的優(yōu)化。[17]
首先,機器學習使用作品的性質具有附隨性而非再現性。生成式人工智能機器學習使用作品的行為無法逃離算法黑箱陷阱。算法黑箱效應下,生成式人工智能機器學習以對作品使用的非再現性為普遍情形,即采取了一種將作品對應的數據分解再重組的形式。[18]具體而言,上述形式包括作品對應數據的預處理與增強、特征分解與組合、數據塊的隨機化處理、數據去相關化以及隨機采樣與重構等步驟。依靠從輸入數據中領悟和理解的細微關系、模式與邏輯,結合用戶發(fā)出的任務指令,生成式人工智能通過增強、遷移和重組既有要素,生成并輸出了多樣化和創(chuàng)新性的內容。當然,實踐中并不乏因模型優(yōu)化不足、同類作品數量畸高、模型參數數量與訓練數據比例失衡等原因導致的“記憶原作品細節(jié)而非學習其抽象特征”型機器學習。[5]該情形下的生成式人工智能機器學習顯然會導致原作品的表達向公眾的原樣呈現,構成版權法意義上的“表達性使用”。
其次,機器學習使用作品的指向具有海量性而非特定性。生成式人工智能機器學習過程中對高質量數據的海量性與非特定性具有極高的依賴性。數據的海量性與非特定性構成生成式人工智能形成高質量與多樣化內容輸出能力的關鍵。一方面,海量數據能夠為生成式人工智能依托的基礎大模型提供豐富的學習素材,使其能夠從中捕捉復雜的模式和結構,習得成熟的規(guī)律和程式,進而做出智能的識別和預測。另一方面,訓練數據的來源廣泛性、領域多樣性、形式差異性和風格多元化,增強了生成式人工智能的多場景通用性。以圖像生成模型為例,非特定性的數據來源包括不同的藝術風格、攝影圖像、手繪插畫等,使得模型能夠生成各種風格和主題的圖像。此外,機器學習使用作品數據的海量性和非特定性還促進了模型在顯著缺陷和極端情況中的表現,使得生成式人工智能能夠在生成新的內容時避免常見的價值偏差和認知局限。
最后,機器學習使用作品的方式具有中間性而非結果性。生成式人工智能依托的基礎模型往往通過將輸入作品對應的數據分解為基礎特征,再重新組合這些特征以生成新的、獨特的作品,而不是直接復制已有作品的數據并予以再現。生成式人工智能運行的過程可概括為以下三個階段:一是模型從輸入的訓練數據中提取關鍵特征,并將這些特征轉換為可捕捉到核心特征的高維向量;二是模型在潛在空間中對上述高維向量進行插值、噪聲添加等操作,創(chuàng)造出新的特征組合;三是生成式人工智能將不同來源的多模態(tài)數據融合在一起,通過跨模態(tài)特征的組合生成并輸出新的內容產品。這一輸出結果盡管具備原作品數據的部分表層特征,但構成基于對原作品中間過程性使用的一個新的內容產品,而非對作品的結果性再現。
綜上,基于使用作品性質之非再現性、使用作品指向的非特定性以及使用作品方式的非結果性,生成式人工智能機器學習不符合“表達性使用”之外部過濾機制,下文以“表達性使用”內部揀擇機制為依據進一步分析其版權法定性。
2. 基于“表達性使用”內部揀擇機制的生成式人工智能機器學習分析
迅猛發(fā)展的生成式人工智能在文本、圖片、音頻和視頻等多模態(tài)內容生成領域大放異彩,逐漸發(fā)展成為內容產品生產領域具有基礎性定位的創(chuàng)作輔助工具。經過海量數據淘洗及深度學習過程的生成式人工智能在與人類的交互協(xié)同作用下能夠創(chuàng)造出形式精美、意蘊豐富且思想深刻的具有人類作品外觀和信息功能的人工智能生成內容,進而深度介入傳媒、電商、影視與娛樂等數字化程度高、迭代速度快、內容需求多的行業(yè)領域,提升在內容產品市場的占比。
盡管人工智能生成內容的蓬勃涌現對傳統(tǒng)技術環(huán)境下人類創(chuàng)作作品的版權市場形成了一定的搶占與擠壓,但這種搶占和擠壓并不局限于生成式人工智能對人類作者的替代的單一情形中。技術演進視角下,歷史上每一次突破性的技術革新和迭代都必然意味著對既有技術占據市場的沖擊和替代。人工智能生成內容對人類創(chuàng)作作品的市場替代,與其將其看作限定在版權法語境下的市場替代,不如視其為一種技術變遷引發(fā)內容產品經濟結構演化背景下的正常市場競爭結果。這一表現與印刷技術誕生后對手工謄錄的替代、攝影技術出現后對繪畫的沖擊如出一轍,并非版權法所關注和評價的狹義市場替代情形。立足版權交易市場的宏觀視角,可以預見:伴隨生成式人工智能引發(fā)的內容生產模式變革,內容產品市場的自我調節(jié)機制將逐步生效。具體表現為圍繞生成式人工智能的內容產品領域新質生產力將逐步摸索形成,生成式人工智能驅動的新型生產模式和激勵結構亦將逐漸整合成型。而上述系統(tǒng)性市場替代無須經由版權法予以專門評價。
綜上,無論是基于“表達性使用”的外部過濾機制,還是內部揀擇機制,一般意義上的生成式人工智能機器學習不符合版權法下“表達性使用”的構成要件,因而不會落入版權法的規(guī)制范疇;特定情形下的生成式人工智能機器學習盡管仍不符合“表達性使用”的外部過濾機制,但在結果上以原樣或實質性相似形式呈現了原作品的表達,符合具有決定性作用的“表達性使用”判定的內部揀擇機制,落入版權法的規(guī)制范疇,未經權利人許可可能構成版權侵權。
三、基于“表達性使用”的生成式人工智能機器學習版權規(guī)制層級構造
生成式人工智能機器學習的版權規(guī)制模式并非只有合理使用這一種制度選擇?!氨磉_性使用”視角下,生成式人工智能機器學習的方式和形態(tài)各有不同,應結合機器學習時對作品使用的具體情形進行具體分析,而不是“一刀切”式地將機器學習歸入合理使用情形中予以侵權豁免。“表達性使用”分析是判定行為人對作品的使用是否落入版權法規(guī)制范疇的前置問題。探究生成式人工智能機器學習版權法律規(guī)制模式,應率先明確版權法語境下機器學習的性質,再考慮具體的方案構建。一般情形下的生成式人工智能機器學習是一種“非表達性使用”,不落入版權法的規(guī)制范疇,不構成版權侵權;特殊情形下的生成式人工智能機器學習是一種“表達性使用”,可能構成版權侵權,應承擔侵權責任;以從事非營利性活動為目的的科研機構和企業(yè)進行的機器學習即使是“表達性使用”,也可能構成版權侵權,但出于公共利益考量應通過合理使用制度給予特別豁免(見圖1)。
1.“非表達性使用型”機器學習:不落入版權法規(guī)制范疇,不構成版權侵權
“非表達性使用型”機器學習指未向公眾傳播和再現原作品表達的機器學習,主要包括以下兩種類型。
一是一般意義上的生成式人工智能機器學習。一方面,機器學習的技術機理意味著其使用作品的性質具有附隨性而非再現性、使用作品的指向具有海量性而非特定性,且使用作品的方式具有中間性而非結果性,也即機器學習使用作品的行為不符合“表達性使用”的外部過濾機制;另一方面,機器學習使用作品的效果盡管具有替代性,但并非版權法意義上對原作品版權市場的替代,亦不符合“表達性使用”的內部揀擇機制。因此,一般意義上的生成式人工智能機器學習不構成“表達性使用”,不構成版權侵權,亦無予以侵權豁免之必要。一般意義上的生成式人工智能機器學習是人工智能機器學習中最普遍、最廣泛、最基礎的機器學習形態(tài),經由“表達性使用”理論將其排除出版權法的規(guī)制范疇,既能規(guī)避流程煩瑣、數量龐大且意愿不明的作品許可程序,還能大幅減少生成式人工智能研發(fā)企業(yè)的機器學習階段的經濟負擔和版權侵權風險,推動生成式人工智能技術與相關行業(yè)的蓬勃發(fā)展。
二是使用作品非表達性部分的生成式人工智能機器學習。作品非表達性部分,往往表現為作品的事實性部分如歷史事實、功能性部分如功能代碼,以及生物性部分如人臉、人聲等形式。符合版權法關于作品構成要件的對象可以稱為版權法的客體,受版權法保護。但作品受版權法保護并不意味著版權法的保護范圍覆蓋到作品的每一處角落。思想與表達二分法作為國際通行的版權法基本原理,充分詮釋了版權法對作品的保護并非面面俱到,而是有所限定的,并非所有機器學習對作品的使用都面向受版權法保護的獨創(chuàng)性表達部分。如能夠用于撰寫傳記類、菜譜類作品的生成式人工智能在機器學習過程中必然會使用較多的受版權保護作品中非獨創(chuàng)性表達之事實性部分。再如相比以GPT為代表的靜態(tài)文本類生成式人工智能,有著“世界模擬器”之稱的Sora具有更強的時空理解能力,并能夠基于復雜的時空關系創(chuàng)造動態(tài)的數字時空。Sora對GPT的能力突破離不開其基于大量作品中不受版權保護的事實性、功能性以及生物性部分的學習。
2. 非基于公共利益目的的“表達性使用型”機器學習:構成版權侵權,承擔侵權責任
非基于公共利益目的的“表達性使用型”機器學習指,以非基于公共利益之目的,向公眾傳播和再現原作品表達的機器學習。非基于公共利益目的的“表達性使用型”機器學習包括兩種類型:對作品表達進行原樣重現的“表達性使用型”機器學習和對作品表達以實質性相似方式呈現的“表達性使用型”機器學習。如前所述,盡管過程視角下機器學習使用作品的行為并不符合“表達性使用”之外部過濾機制,但結果視角下機器學習后生成內容如果與原作品的表達相同或實質性相似,將對原作品版權法意義下的潛在市場進行替代和擠占,符合更具決定效力的“表達性使用”內部揀擇機制,構成對原作品的“表達性使用”,應當承擔相應的版權侵權責任。這一設定既遵循了版權法的“表達性使用”理論預設,保護了版權人基于作品表達的正當市場利益,也未對生成式人工智能研發(fā)者和產業(yè)相關方施加過高的版權成本,倒逼生成式人工智能研發(fā)者對機器學習中的特征提取、分解、組合和重構機制予以進一步優(yōu)化和完善。
3. 基于公共利益目的的“表達性使用型”機器學習:構成版權侵權,但給予合理使用豁免
基于公共利益目的的“表達性使用型”機器學習指,雖向公眾傳播和再現了原作品的表達,但出于科學研究或構建人工智能時代的數字基礎設施等公共利益目的予以侵權特別考量的機器學習。[19]基于公共利益目的的“表達性使用型”機器學習主要包括兩種類型。
第一種是基于科學研究的生成式人工智能機器學習。鑒于科學研究在各國版權法中達成的合理使用共識,人工智能技術范式下基于科學研究目的進行機器學習也可經由合理使用制度實現侵權豁免,本身沒有太大爭議。
第二種是基于構建人工智能時代數字基礎設施的生成式人工智能機器學習。伴隨商業(yè)模式不斷成熟,生成式人工智能逐漸呈現出明顯的業(yè)態(tài)分層現象。根據所處區(qū)位和發(fā)揮功能的不同,生成式人工智能的業(yè)態(tài)可劃分為處于底層的基礎模型、處于中層的專業(yè)模型和處于頂層的應用模型三個層次?;A模型指在大量數據上訓練的,用于普適性目標、可優(yōu)化適配多種下游任務的深度神經網絡模型。研發(fā)者在對基礎模型進行特定場景訓練和專項功能強化后,可相應形成專業(yè)模型和應用模型。相比特異程度更高、使用場景更專業(yè)的后兩者,基礎模型往往具有較強的通用性、普適性和下游控制性,因而具有公共屬性,具有發(fā)展成為人工智能時代下新型數字基礎設施的潛質。[20]因此,應對具有公共屬性的底層基礎模型機器學習予以必要的合理使用侵權豁免,以支持和助力我國構建具有普惠性質的人工智能基礎設施。
綜上,我國可在版權法的實施與修正過程中做如下三點工作。首先,承認“表達性使用”的版權法基礎理論地位??紤]在《中華人民共和國著作權法實施條例》第五條之后新增一條:“版權法中的各項權利均建立在對作品的表達性使用基礎上?!薄氨磉_性使用”指任何通過向公眾傳播作品的表達,促使公眾得以感知、閱讀和欣賞作品表達的作品使用行為。其次,將“表達性使用”判定作為版權侵權認定的前置要件??煽紤]將“表達性使用”寫入《中華人民共和國著作權法》(以下簡稱《著作權法》)第五十二、五十三條中,形成直接條文規(guī)范:“對作品進行表達性使用,有下列侵權行為的……”再次,將基于公共利益目的的“表達性使用型”機器學習增設為合理使用的具體情形??煽紤]將《著作權法》第二十四條第一款第1項中的個人研究、第6項中的學??茖W研究作擴大解釋,包括出于科學研究目的的機器學習行為;同時在《著作權法》第二十四條第一款第12項后新增一項:“為推進國家人工智能數字基礎設施建設,使用他人已經發(fā)表的作品進行機器學習?!?/p>
結語
人類中心主義的價值內核,促進文化創(chuàng)新的立法宗旨和作品利益調整的制度功能,均揭示出內嵌于版權法底層邏輯中“表達性使用”的深刻意蘊?!氨磉_性使用”為生成式人工智能技術范式下的版權法劃定了一條規(guī)制界限,將圍繞作品予以“表達性使用”的部分保留在版權法的規(guī)制范疇之內,并將對作品進行“非表達性使用”的部分排除在版權法的保護范圍之外?;凇氨磉_性使用”視角,因循版權法的價值意旨和基本法理,貼合生成式人工智能機器學習的技術機理,考量人工智能國際競爭的戰(zhàn)略意義和市場潛力,版權法應對生成式人工智能機器學習設置區(qū)分層級的差異化規(guī)制路徑。當然,一般意義上的“非表達性使用型”機器學習雖不由版權法規(guī)制,但也不應處于法律監(jiān)管的真空。鑒于生成式人工智能機器學習涉及主體的多樣性、底層機理的復雜性和訓練過程的周期性,未來有必要進一步探索版權法之外包括但不限于反不正當競爭法規(guī)制、個人信息保護法規(guī)制等的生成式人工智能機器學習法律規(guī)制模式。
參考文獻:
[1] Matthew Sag. Copyright and copy-reliant technology[J]. Northwestern University Law Review, 2009, 103(4): 1607-1682.
[2] Maurizio Borghi, Stavroula Karapapa. Non-Display Uses of Copyright Works: Google Books and beyond[J]. Queen Mary Journal of Intellectual Property, 2011, 1(1): 21-52.
[3] Abraham Drassinower. What's wrong with copying?[M]. Boston: Havard University Press, 2015.
[4] 林秀芹. 人工智能時代著作權合理使用制度的重塑[J]. 法學研究,2021(6):170-185.
[5] 劉曉春. 生成式人工智能數據訓練中的“非作品性使用”及其合法性證成[J]. 法學論壇,2024(3):67-78.
[6] Matthew Sag. Orphan Works as Grist for the Data Mill[J]. Berkeley Technology Law Journal, 2012, 27(3): 1503-1550.
[7] Benjamin L, Sobel W. Artificial Intelligence's Fair Use Crisis[J]. Columbia Journal of Law amp; the Arts, 2017, 41(1): 45-98.
[8] 焦和平. 人工智能創(chuàng)作中數據獲取與利用的著作權風險及化解路徑[J]. 當代法學,2022(4):128-140.
[9] 李龍. 人本法律觀研究[M]. 北京:中國社會科學出版社, 2006:69.
[10] James Grimmelmann. Copyright for Literate Robots[J]. Iowa Law Review, 2016, 101(2): 657-682.
[11] 保羅·戈斯汀. 著作權之道——從印刷機到數字云[M]. 金海軍,譯. 北京:商務印書館,2023:237.
[12] Matthew Sag. The New Legal Landscape for Text Mining and Machine Learning[J]. Journal of the Copyright Society of the USA, 2019(66): 291-367.
[13] 列寧·謝苗諾維奇·維戈茨基. 藝術心理學[M]. 周新,譯. 上海:上海文藝出版社,1985:8.
[14] 布拉德·謝爾曼,萊昂內爾·本特利. 現代知識產權法的演進(1760—1911):英國的歷程[M]. 金海軍,譯. 北京:北京大學出版社, 2012:206-210.
[15] 趙旭. 生成式人工智能在機器學習中的合理使用問題[J]. 暨南學報(哲學社會科學版),2024(3):79-95.
[16] 羅素,諾維格. 人工智能:一種現代的方法[M]. 殷建平,祝恩,劉越,等,譯. 北京:清華大學出版社,2013:579.
[17] 丁磊. 生成式人工智能:AIGC的邏輯與應用[M]. 北京:中信出版集團,2023:59.
[18] 張吉豫,汪賽飛. 大模型數據訓練中的著作權合理使用研究[J]. 華東政法大學學報,2024(4):20-33.
[19] 吳家煦,來小鵬. 生成式人工智能機器學習的版權困境及其制度因應 [J]. 編輯之友,2024(11):96-104.
[20] 張凌寒. 生成式人工智能的法律定位與分層治理[J]. 現代法學,2023(4):126-141.
The Hierarchical Regulation Model for Copyright in Generative AI Machine Learning: From the Perspective of \"Expressive Use\"
WANG Shi-tong, YANG Li-hua(Civil, Commercial and Economic Law School, China University of Political Science and Law, Beijing 100088, China)
Abstract: Literary, artistic, and scientific works protected by copyright law constitute high-quality corpus resources for generative AI machine learning. To facilitate the development of generative AI technology and related industries, it is necessary to reasonably define the copyright protection boundaries for the use of works in generative AI machine learning. Whether it is the human-centric value core, the legislative purpose of promoting cultural innovation, or the institutional function of adjusting the interests of works, they all reflect the inherent theoretical presumption of \"expressive use\" under the jurisdiction of copyright law. Based on the nature, direction, and manner of using works from a process perspective, as well as the effects of using works from a result perspective, the use of works in generative AI machine learning in a general sense is a non-expressive, data-oriented use distinct from \"expressive use\" and falls outside the scope of copyright protection. For generative AI machine learning from the perspective of \"expressive use\", a hierarchical copyright regulation pathway should be established to promote the development of the generative AI industry.
Key words: generative AI; machine learning; copyright law; \"expressive use\"; fair use
基金項目:北京市習近平新時代中國特色社會主義思想研究中心重點項目“習近平法治思想中知識產權保護重要論述研究:理論體系與實踐運用”(22LLFXB038-2022)
作者信息:王詩童(1997— ),男,山西太原人,中國政法大學民商經濟法學院博士研究生,主要研究方向:知識產權法、人工智能法;楊利華(1966— ),女,湖南長沙人,中國政法大學民商經濟法學院教授、博士生導師,主要研究方向:知識產權法、人工智能法。
① 參見Sega Enterprises Ltd. v. Accolade, Inc, 977 F.2d 1510 (9th Cir. 1992)。
② 參見Kelly v. Arriba Soft Corp, 336 F.3d 811 (9th Cir. 2003)。
③ 參見Perfect 10, Inc. v. Amazon.com, Inc, 508 F.3d 1146 (9th Cit. 2007)。
④ 參見Author's Guild, Inc. v Google, Inc, No 105-CV-08136, filed 20 September 2005。
① 參見Campbell v. Acuff-Rose Music, Inc, 510 U.S. 569。
② 參見Harper amp; Row Publishers, Inc v. Nation Enterprises, 471 U. S. 539, 566 (1985)。
③ 參見Author's Guild, Inc. v Google, Inc, No 105-CV-08136, filed 20 September 2005。