摘" " 要:人工智能模型依賴于對大量作品的復制分析,從而導致傳統(tǒng)版權(quán)業(yè)者與人工智能訓練需求之間的緊張關(guān)系。目前模型訓練合理使用爭議的原因,在于著作權(quán)人對人工智能模型訓練方式認識不足以及對技術(shù)驅(qū)動下新興市場收益預期未能達成。在美國的司法實踐中,合理使用已被廣泛適用于從廣播時代到互聯(lián)網(wǎng)時代的諸多使用行為,在歷史上具有典型意義的索尼案、谷歌數(shù)字圖書案和坎貝爾案中給利用新技術(shù)的新興產(chǎn)業(yè)拓展了發(fā)展空間。盡管美國法院在人工智能模型訓練的合理使用問題上仍在繼續(xù)要求各方補充證據(jù),但其合理使用條款解釋的豐富歷史經(jīng)驗已經(jīng)提供了諸多可供參考的答案,對我國調(diào)整版權(quán)產(chǎn)業(yè)與人工智能產(chǎn)業(yè)的關(guān)系具有參考意義。
關(guān)鍵詞:人工智能;模型訓練;合理使用;非表達替代
中圖分類號:D 923" " " 文獻標志碼:A" " " " " 文章編號:2096-9783(2024)06?0011?13
一、問題的提出
生成式人工智能的產(chǎn)生,使得計算機能夠創(chuàng)造出與人類可受版權(quán)保護的表達方式大致相同的數(shù)字作品,成為新內(nèi)容創(chuàng)造的引擎。從文生文、文生圖,再到文生視頻,人工智能在創(chuàng)新和藝術(shù)表達方面展現(xiàn)了巨大的潛力。然而,人工智能的潛力只有在海量人類創(chuàng)作的作品的支持下才能實現(xiàn)。以大型語言模型為例,要訓練其生成類似人類表達的文本輸出,唯一的方法就是復制和分析大量不同的人類撰寫的文本1。在大型語言模型的訓練過程中,輸入的數(shù)據(jù)至少經(jīng)過了數(shù)字化的復制。這些數(shù)據(jù)往往包含了豐富的詞匯、語法結(jié)構(gòu)、語境使用等語言特性,而許多這樣的高質(zhì)量數(shù)據(jù)則直接來源于受版權(quán)保護的文學作品、新聞報道、學術(shù)文章等。因此,沒有大量受版權(quán)保護的素材輸入,就不會有大型語言模型的存在。
美國法院已受理多起指控人工智能開發(fā)商著作權(quán)侵權(quán)的案件,且訴求主要分為兩個方面:一是開發(fā)者復制了著作權(quán)人的作品以訓練能夠根據(jù)用戶提示生成文本、圖像或軟件代碼等輸出的模型;二是生成的輸出結(jié)果以訓練模型所依據(jù)的作品為基礎(chǔ),是侵權(quán)衍生作品。盡管案件具體事實存在差異,但模型訓練階段的爭點是一致的。在2023年4月開始的許可談判失敗后,《紐約時報》起訴OpenAI和該公司最大的投資者Microsoft侵犯版權(quán)2。盡管這只是OpenAI所面臨的眾多訴訟中的一個,但該案件具有特殊意義。不僅涉及高達數(shù)十億美元的經(jīng)濟利益,更象征著出版界巨頭與人工智能領(lǐng)域的領(lǐng)軍企業(yè)之間的較量?!都~約時報》指控OpenAI通過建立包含數(shù)百份《紐約時報》作品的訓練數(shù)據(jù)集,包括直接從《紐約時報》網(wǎng)站上抓取受版權(quán)保護的作品,以及從第三方數(shù)據(jù)集中復制此類作品,直接侵犯了《紐約時報》對其版權(quán)作品的專有權(quán)利3。而以O(shè)penAI為首的人工智能開發(fā)商卻一致抗辯稱,他們的行為依賴于長期以來形成的合理使用判例。這些判例表明如果使用受版權(quán)保護的內(nèi)容是為了開發(fā)具有創(chuàng)新性和獨特性的新技術(shù),那么就屬于合理使用4。如果《紐約時報》勝訴,它很可能會獲得有史以來最大的知識產(chǎn)權(quán)侵權(quán)賠償判決,并迫使大型語言模型的制造商重新思考他們的運作模式5。如果OpenAI勝訴,則廣大人工智能開發(fā)者將能夠繼續(xù)無償使用所抓取的內(nèi)容。與此同時,另一場可能重塑音樂產(chǎn)業(yè)未來的人工智能版權(quán)之戰(zhàn)也正式打響。三大唱片公司對音樂生成服務(wù)Suno和Udio提起的訴訟中,被告同樣提出了合理使用的抗辯,稱長期的先例表明為創(chuàng)造最終不侵權(quán)的產(chǎn)品,在公眾不可見的技術(shù)流程中復制作品屬于合理使用6。這體現(xiàn)了傳統(tǒng)版權(quán)業(yè)者與強大、尖端的生成式人工智能需求之間的緊張關(guān)系。正如歷史上的索尼案、谷歌數(shù)字圖書案等一樣,合理使用的認定再次深刻影響著新興產(chǎn)業(yè)的未來。
在人工智能模型訓練的合法性問題上,我國與世界上的其他國家,尤其是人工智能產(chǎn)業(yè)相對發(fā)達的國家,都面臨著同樣的挑戰(zhàn),缺乏成熟的應(yīng)對經(jīng)驗。因此,一方面有必要緊跟人工智能產(chǎn)業(yè)領(lǐng)先的發(fā)達國家在模型訓練合法性爭議方面的最新進展,明確著作權(quán)人與技術(shù)開發(fā)者之間的利益分歧所在。另一方面,在美國版權(quán)歷史上,為開發(fā)新技術(shù)而復制受版權(quán)保護的素材往往屬于合理使用。復制電子游戲以創(chuàng)造競爭產(chǎn)品7、復制互聯(lián)網(wǎng)上的圖像以創(chuàng)建圖像搜索工具8、復制學生論文以創(chuàng)建剽竊檢測工具9、復制數(shù)百萬受版權(quán)保護的書籍以創(chuàng)建檢索數(shù)據(jù)庫10,以及使用受版權(quán)保護的計算機軟件創(chuàng)建競爭性智能手機平臺11等均被認定為合理使用。幾乎所有的討論者都認為人工智能模型訓練的合理使用問題主要取決于這些先例。在人工智能技術(shù)帶來的全新挑戰(zhàn)之下,重新梳理歷史上應(yīng)對新技術(shù)的合理使用認定路徑顯得尤為重要。這些判例資源能夠幫助我們厘清如何平衡技術(shù)創(chuàng)新與版權(quán)保護的關(guān)系,調(diào)和新舊產(chǎn)業(yè)間的關(guān)系。盡管我國著作權(quán)限制與例外的立法體例與美國存在較大差異,但二者在制度價值表達與合法性判斷上仍具有共通之處。因此,本文首先將剖析生成式人工智能模型訓練帶來的關(guān)鍵性爭議。其次,梳理美國法院在類似爭議中的判決,特別是涉及技術(shù)進步對作品使用方式產(chǎn)生根本性變化的案例。探究美國如何透過合理使用制度處理平衡技術(shù)創(chuàng)新與版權(quán)保護之間的關(guān)系,以及所體現(xiàn)的特定價值取向。最后,結(jié)合我國合理使用制度體系,總結(jié)美國經(jīng)驗如何為我國應(yīng)對生成式人工智能提供借鑒。
二、美國人工智能模型訓練的合理使用認定爭議
近兩年圍繞人工智能訓練合法性問題,出現(xiàn)了大量的訴訟。藝術(shù)家們擔心人工智能無償復制他們的作品,可能會威脅到他們的生計和文學藝術(shù)的未來。其一,人工智能僅是依賴人類智慧的工具。為人工智能創(chuàng)造捷徑只會削弱人類的創(chuàng)作動力,因為人工智能本身正是依賴于這些作品12。其二,人工智能反過來剝奪了創(chuàng)作者的市場。人工智能公司能夠從藝術(shù)家和創(chuàng)作者的辛勤勞動中獲得數(shù)十億美元的資金和利潤,同時占領(lǐng)這些藝術(shù)家和創(chuàng)作者賴以生存的市場,難謂公平13。然而,每一項新技術(shù)的誕生往往伴隨著類似的擔憂。歷史經(jīng)驗告訴我們,這些憂慮并不總是成為現(xiàn)實。正如照相機以及后來引入的許多其他創(chuàng)造性工具一樣,生成式人工智能有望成為推動而非取代人類創(chuàng)造力的引擎14。合理使用原則可能成為平衡人工智能領(lǐng)域利益沖突的最佳方式。因此,有必要回歸事實本源,厘清現(xiàn)有人工智能訓練的合理使用認定爭議。在美國版權(quán)法中,合理使用的判定特別依賴于第一因素(使用目的及性質(zhì))和第四因素(對市場的影響)。因此,本部分將以此展開分析。
(一)是否符合目的轉(zhuǎn)換性使用
人工智能模型訓練并非新事物。隨著計算機技術(shù)的拓展與普及,我們早已進入數(shù)字版權(quán)作品自動化處理的時代。從訓練數(shù)據(jù)獲取的角度來看,模型訓練所依賴的文本數(shù)據(jù)挖掘技術(shù)早已應(yīng)用于逆向工程、互聯(lián)網(wǎng)搜索引擎等領(lǐng)域。與個性化、私人化的人類閱讀相比,此類對版權(quán)作品的批量復制早期被學者稱為機器閱讀[1]。機器閱讀涉及大量的逐字復制,且未對原始作品中的表達方式進行任何有價值的評論或修改,這似乎難以符合傳統(tǒng)意義上的轉(zhuǎn)換性使用。然而,隨著“轉(zhuǎn)換性使用”的概念逐漸擴展,這一概念也被用來解決由技術(shù)發(fā)展帶來的版權(quán)作品新使用方式的爭議[2]。即使新技術(shù)對作品進行完整且未經(jīng)修改的使用,但亦可因其目的具有高度轉(zhuǎn)換性,而被認定為合理使用。基于如此的合理使用慣例,人工智能開發(fā)者認為模型訓練必然屬于轉(zhuǎn)換性使用的范疇15。然而,生成式人工智能模型訓練與過往的批量復制技術(shù)仍存在差異,其生成性特征為合理使用再次帶來了挑戰(zhàn)[3]。首先,以往的批量復制技術(shù)往往并不會直接促進人類對作品表達的參與。其次,這些技術(shù)的最終用途不會影響作品的潛在市場。而生成式人工智能模型正是圍繞人類的表達開展訓練,其所具有的生成性特征,使其產(chǎn)生了合理使用的認定爭議。以最為典型的大型語言模型和圖像模型為例,在音樂出版商訴Anthropic公司一案中,原被告雙方就使用歌詞訓練人工智能模型是否具有轉(zhuǎn)換性展開了討論。出版商主張,模型主要是從作者表達方式中提取有價值的信息。其對版權(quán)作品的使用不以信息分析為終結(jié),而是可以響應(yīng)用戶請求,輸出原作品或衍生作品的逐字復制。無論其輸出結(jié)果最終是否侵權(quán),復制受版權(quán)保護作品作為訓練數(shù)據(jù)的目的與作者將作品授權(quán)給他人創(chuàng)作的目的是一致的。開發(fā)者創(chuàng)造了原作的替代品,從而排除了其使用具有轉(zhuǎn)換性的結(jié)論16。而Anthropic公司則認為將歌詞作為數(shù)據(jù)集一部分,用于訓練理解關(guān)于世界和語言如何運作的生成式人工智能模型,符合轉(zhuǎn)換性的定義。Anthropic公司使用這些歌詞的目的與作者創(chuàng)作這些歌詞的目的并不相同,它不是為了占用歌曲中的表達元素,而是為了一個全新的目的:訓練人工智能模型識別語言模式17。與此類似,視覺藝術(shù)家訴Stable Diffusion圖像生成器侵權(quán)的案件中,被告DeviantArt也提出了合理使用抗辯,認為對圖像的使用是為創(chuàng)建一個“全新的平臺”,該平臺不會以任何方式向用戶展示任何底層訓練圖像的表達18。
人工智能模型訓練是否符合目的性轉(zhuǎn)換使用的爭議實際上來源于轉(zhuǎn)換性使用概念的模糊性,以及利益雙方對人工智能模型訓練方式的認知差異。目的轉(zhuǎn)換性使用具有高度的抽象性與主觀性,使得著作權(quán)人、開發(fā)者對模型訓練的目的各執(zhí)一詞而難以定分止爭。然而,合理使用的核心并不是創(chuàng)作者或者原作者的目的,而是受眾的認知[4]。任何一種論述在缺乏讀者視角的考察下都難以獲得有效支撐。目前,權(quán)利人對生成式人工智能模型的誤解大致有如下幾種:其一,模型是簡單的拼貼工具。開發(fā)者僅僅是下載并復制了圖像,并選擇其中的一兩個圖像進行復制或拼貼。然后創(chuàng)造出一個“新”作品,其中往往包含了所使用的可受著作權(quán)保護的部分19。其二,無論是圖像還是文字模型,本質(zhì)上都是復印機。當一個圖像生成系統(tǒng)在數(shù)十億張圖片上訓練,并且該系統(tǒng)能創(chuàng)造出與訓練集中的圖像類似的新圖像時,這表明訓練數(shù)據(jù)中的某些圖像已經(jīng)被系統(tǒng)復制或模仿[5]。而大型語言模型不僅可以提供原作品重要部分的逐字副本及摘要,還可以根據(jù)要求生成模仿特定作者寫作風格的段落。因此,其保留了訓練數(shù)據(jù)集中特定作品的知識,并能夠輸出類似的文本內(nèi)容20。這兩種觀點都是對模型訓練過程的誤解,錯誤地將訓練視為一種單一且孤立的活動21。實際上,模型訓練是一個復雜的過程,它涉及多種因素和步驟,包括數(shù)據(jù)的收集處理、模型的構(gòu)建、算法的應(yīng)用以及模型性能的評估優(yōu)化。在這個過程中,模型通過學習大量數(shù)據(jù)的特征來提高其生成新內(nèi)容的能力,而不是簡單地復制或重復訓練數(shù)據(jù)中的單一實例。有必要澄清模型訓練過程,以判斷其是否符合轉(zhuǎn)換性使用的認定標準。
(二)是否構(gòu)成對原作市場的實際替代
生成式人工智能模型能夠根據(jù)用戶的提示生成相應(yīng)的內(nèi)容,展現(xiàn)出極高的表現(xiàn)力。這種能力使得模型的市場在某種程度上與原作的市場存在相似性,可能會對原作的市場產(chǎn)生替代效應(yīng)。因此,除轉(zhuǎn)換性與否的爭議外,生成式人工智能模型所具有的生成特性要求對其市場因素的影響進行更為細致的分析。著作權(quán)人普遍認為人工智能模型破壞了現(xiàn)有和潛在的作品銷售、許可和發(fā)行的商業(yè)市場22。因此,有兩方面對合理使用的認定存在不利。首先,人工智能模型直接輸出原作或衍生作品,可能造成對原作的替代。其次,訓練數(shù)據(jù)市場正在形成。這要求劃定潛在市場的邊界,即富有表現(xiàn)力的模型是侵占了作者有可能參與的市場,還是創(chuàng)造了一個作者權(quán)利不應(yīng)壟斷的新市場。
針對問題一,模型訓練是否會剝奪作者目前所占據(jù)的市場。著作權(quán)人對于其高質(zhì)量作品內(nèi)容在未經(jīng)許可的情況下被用于訓練人工智能系統(tǒng),并被用來制造具有替代性和表現(xiàn)力的“產(chǎn)出”表示擔憂23。在音樂產(chǎn)業(yè)領(lǐng)域,出版商稱他們授權(quán)數(shù)字音樂網(wǎng)站、搜索引擎等服務(wù)商向用戶顯示歌詞,而人工智能模型與這些授權(quán)網(wǎng)站的功能完全相同,允許用戶查找和訪問出版物上的歌詞,形成了直接替代關(guān)系24。然而,這實際上是著作權(quán)人對模型訓練周期存在的誤解。模型可以被應(yīng)用于多種用途,包括在搜索引擎中輔助搜索,根據(jù)用戶提示顯示檢索結(jié)果。這可能導致模型直接剝奪音樂出版商授權(quán)數(shù)字音樂網(wǎng)站、搜索引擎等服務(wù)商向用戶顯示歌詞的許可費用。但這種影響并非模型訓練本身直接造成,而是模型部署于具體應(yīng)用程序中所導致的結(jié)果。不應(yīng)無限制地延伸因果鏈,將任何模型應(yīng)用不當都簡單歸咎于模型訓練。因此,對模型訓練更有力的挑戰(zhàn)是,著作權(quán)人聲稱生成結(jié)果是原作的直接替代品,導致了作品市場價值的損失。在《紐約時報》一案中,原告極力強調(diào)了其在制作高質(zhì)量、原創(chuàng)性和獨立性新聞內(nèi)容上的顯著投入,并解釋了通過實施付費訂閱墻和商業(yè)使用許可來回收這些成本的必要性。這些許可對使用內(nèi)容和方式有嚴格要求,并為報社帶來顯著收益。而人工智能開發(fā)者卻無需承擔任何成本,就可以利用這些有價值的成果并從中獲利,這對新聞媒體造成了巨大的市場損害25。這無疑是對模型訓練最有力的抨擊。盡管模型訓練和模型輸出的合理使用分析需分別進行26,但模型的直接輸出會影響訓練階段合理性的判斷。即使模型訓練是為了有價值的轉(zhuǎn)換目的,這種使用也可能損害受版權(quán)保護的原創(chuàng)作品的價值。因為使用的方式可能導致原創(chuàng)作品中核心部分的廣泛傳播,從而使人們可以獲得一個具有重大競爭性的替代品。模型生成的侵權(quán)內(nèi)容,究竟是訓練所導致的普遍結(jié)果,還是用戶在使用技術(shù)時的不當指示所導致的罕見錯誤,決定著模型訓練的合理性。
針對問題二,模型訓練是否構(gòu)成潛在市場的威脅。在人工智能模型訓練當中,訓練數(shù)據(jù)的質(zhì)量直接影響著訓練效果。基于此,著作權(quán)人主張應(yīng)當采取自由市場談判的方式。人工智能開發(fā)者不僅要獲得事先許可,還要對創(chuàng)作者進行補償27。目前許多人工智能開發(fā)者未就其模型訓練中使用的表現(xiàn)性內(nèi)容開展授權(quán)談判或獲得相應(yīng)的使用許可,扼殺了作品作為人工智能訓練輸入的新興市場28。這實際上將模型訓練視作了人類創(chuàng)作的延伸。然而模型訓練與人類創(chuàng)作之間存在根本性的差異。人類創(chuàng)作的創(chuàng)作者通常會在獲得授權(quán)的基礎(chǔ)上,以現(xiàn)有作品為參照,創(chuàng)作衍生作品,這遵循一種明確的一對一、多對一或多對多的創(chuàng)作流程。相比之下,人工智能模型依賴于大量且多樣化的數(shù)據(jù),這些數(shù)據(jù)不局限于特定的創(chuàng)作領(lǐng)域,表明訓練本質(zhì)上是一個復雜的多對多的輸入輸出過程。若苛求模型訓練以許可為前提,那么勢必導致模型訓練市場的高成本、高壁壘,乃至阻礙整個市場的發(fā)展進程。目前僅存在許可市場的推測性證據(jù),無法影響合理使用的認定。著作權(quán)法并沒有賦予著作權(quán)人利潤最大化的權(quán)利。權(quán)利人不能簡單主張對模型訓練收費的權(quán)利是一種可認知的傷害,因此為了避免此種傷害,他們必須被賦予對模型訓練收費的權(quán)利。同樣地,開發(fā)者也不能僅僅通過證明如果勝訴,他將無須向權(quán)利人支付費用,來證明潛在市場的影響不存在29。這種循環(huán)論證對任何一方都沒有任何好處,并將導致爭議的極端化。“潛在市場”不能被理解為版權(quán)作品的所有可能用途。如果每一種使用都被視作潛在市場的一部分,那么合理使用原則將會變得難以界定和應(yīng)用。只有在市場是“傳統(tǒng)的、合理的或可能開發(fā)的”,而不是受保護的轉(zhuǎn)換性使用時,才會對被告的許可收入損失產(chǎn)生不利影響。這一點在Connectix案例中得到了體現(xiàn),法院認為Connectix的虛擬游戲站提供了一種轉(zhuǎn)換性使用,它創(chuàng)造了一個新的市場,而不是簡單地取代了索尼PlayStation游戲機。盡管這可能會對索尼的銷售和利潤造成影響,法院仍然認為Connectix的產(chǎn)品是合法的市場競爭者。這表明著作權(quán)法并沒有給予索尼對播放其生產(chǎn)或授權(quán)游戲的設(shè)備市場的壟斷權(quán)30。同理,在人工智能模型的開發(fā)訓練中,權(quán)利人不能僅因為已經(jīng)占據(jù)了書籍、繪畫、音樂等表達市場,就拒絕人工智能等新型表達工具的參與。開發(fā)者是否需要獲得許可取決于模型訓練是否能夠形成一個合理的、可能開發(fā)的市場。如果開發(fā)者使用作品的方式是著作權(quán)人本身不愿或無法采用的,那么這種使用不會對其造成損害[6]。因此,面對生成式人工智能對創(chuàng)作市場帶來的沖擊,我們?nèi)孕杌貞?yīng)的是著作權(quán)法的核心宗旨是否僅限于保護傳統(tǒng)創(chuàng)作者的利益,還是應(yīng)包容人工智能在創(chuàng)作過程中的角色。
三、美國人工智能模型訓練合理使用的解釋路徑梳理
美國多次運用合理使用原則以應(yīng)對新技術(shù)所帶來的挑戰(zhàn)。合理使用的先例經(jīng)驗使得美國技術(shù)開發(fā)市場更具有活力,促使技術(shù)公司和資本家對新技術(shù)進行投資,而無需擔心陷入著作權(quán)糾紛的風險。當然,部分案例則相反。對Napster這樣的點對點音樂共享技術(shù),法院認為不屬于合理使用,而是剝削性的使用31。因此,有必要探討美國在認定創(chuàng)新技術(shù)整體復制作品構(gòu)成轉(zhuǎn)換性使用時的標準與價值基礎(chǔ)。在此基礎(chǔ)上,進一步探究生成式人工智能模型訓練與其他作品使用行為的異同,找到生成式人工智能模型訓練合理使用的解釋路徑。
(一)模型訓練非以表達使用為目的
即使生成式人工智能的興起引發(fā)了對著作權(quán)法的挑戰(zhàn),但該問題本質(zhì)上并不是全新的。計算機技術(shù)的發(fā)展早已徹底改變了作品使用的方式。作品并不像以前那樣只能被人類復制、傳播,而可以被作為計算機技術(shù)開發(fā)的素材。在數(shù)字化的背景下,作品一旦被計算機復制,就會被用于一系列不同的目的。Kelly訴Arriba Soft Corp一案,Kelly所拍攝的照片被納入Arriba搜索引擎數(shù)據(jù)庫中,使用戶可以通過搜索查詢到這些圖片的“縮略圖”。法院認定Arriba對圖片的使用與Kelly對圖片的使用具有不同的功能,構(gòu)成轉(zhuǎn)換性使用。攝影圖片是藝術(shù)作品,旨在為觀眾提供信息,讓觀眾獲得審美體驗。而在縮略圖中使用該攝影圖則與任何審美目的無關(guān)32。作家協(xié)會訴HathiTrust一案中,HathiTrust將數(shù)字化圖書用于三種不同用途:全文檢索功能、向閱讀障礙者提供原文、數(shù)字化保存。針對全文檢索功能,法院認為通過創(chuàng)建整本圖書的數(shù)字副本以允許用戶查找特定圖書中出現(xiàn)的單詞或短語屬于轉(zhuǎn)換性使用。一個單詞搜索的結(jié)果在目的、特征、表達、意義和信息上都與它所在的頁面和書籍不同。作者寫作的目的并不是使他們的書能夠進行文本檢索。因此,搜索功能不會取代原文表達33。馬修薩格(Matthew Sag)教授將此類使用稱之為“非表達性使用”。所謂的非表達性使用,指的是對作品進行的復制,其目的在于實現(xiàn)與作品的表達元素無關(guān)的特定功能,即這種復制不是為了創(chuàng)作、消費或傳播作品的表達內(nèi)容34。與一般的轉(zhuǎn)換性使用不同,非表達性使用并不向公眾傳播原始表達,因此可以被視為目的轉(zhuǎn)換性使用的下位概念[7]。在合理使用第一要素的判斷下更強調(diào)使用目的的獨立性與正當性,即其目的完全脫離于原作表達價值,而不涉及對使用內(nèi)容的判讀。在Thomson Reuters訴Ross Intelligence一案中,法院駁回了當事方要求對合理使用辯護進行簡易判決的交叉動議,并認為相關(guān)事實問題必須由陪審團決定。關(guān)于Ross使用Westlaw材料的目的和性質(zhì),法院認為這更類似于谷歌一案的技術(shù)背景。合理使用將取決于一個有爭議的事實:如果Ross通過研究Westlaw標題的語言模式以學習如何出具司法意見書,那么就是轉(zhuǎn)換性的復制。而如果Ross只是單純通過復制來達到表達再現(xiàn)的目的,則難以符合世嘉案、索尼案等確立的判例法。其次,即便Ross進行了全文逐字復制,合理使用的認定仍需進行具體分析。若整體復制與轉(zhuǎn)換性目的相關(guān)聯(lián),且復制件不向公眾傳播,那么也利于合理使用認定35。這意味著,法院構(gòu)建的合理使用評估框架基本與非表達性使用的判例相符。理解生成式人工智能模型的訓練方式對于合理使用的評估至關(guān)重要。
非表達性使用之所以構(gòu)成合理使用,核心在于其并不妨礙版權(quán)旨在保護的原創(chuàng)表達利益。區(qū)別于作品的傳統(tǒng)用途,非表達性使用并未使人類從表達中直接獲得藝術(shù)體驗或知識增值,而是將作品轉(zhuǎn)換為素材,以非交流、非表達的方式使用作品。此種使用對技術(shù)開發(fā)尤為重要,最早出現(xiàn)于軟件逆向工程的合法性判斷中。正如世嘉一案法院所強調(diào)的,逆向工程是獲取軟件功能元素所必需的,并且復制世嘉公司代碼以符合游戲兼容要求,能夠促使Genesis游戲機上獨立設(shè)計的視頻游戲程序數(shù)量的增加。這就使得創(chuàng)造性開發(fā)與單純利用他人創(chuàng)造性努力的行為區(qū)分開來36。類似地,剽竊檢測工具iParadigms雖依賴于對學生論文的全部復制,但其對原作的使用與作品的比較價值有關(guān),并沒有削弱對學生的創(chuàng)作激勵。在搜索引擎引發(fā)的系列案件中,法院強調(diào)作品被轉(zhuǎn)換為引導用戶訪問信息來源的指針,而不是復制作品作為供人欣賞的審美對象37。這些使用方式旨在實現(xiàn)作品本身所不具備的新用途,而這通常依賴于技術(shù)的顛覆性突破。人工智能模型訓練與以往的非表達性使用案例具有相似性。即使生成式人工智能本身具有強大的表現(xiàn)力,但模型訓練的提取目的有利于生成式人工智能的合理使用辯護。人工智能對作品進行復制是為了訓練模型,使其能夠進行預測、分類、標記、排序或生成內(nèi)容。人工智能模型的搭建往往需經(jīng)過較長的周期。開發(fā)者首先在大型數(shù)據(jù)集上進行預訓練,以創(chuàng)建基礎(chǔ)模型。而后,在更小、更優(yōu)質(zhì)的數(shù)據(jù)集上訓練,以適應(yīng)特定的任務(wù)38。在預訓練期間,模型從輸入數(shù)據(jù)中學習基本模式,其目的是讓系統(tǒng)能夠執(zhí)行一些基本的通用任務(wù)。例如,大型語言模型的預訓練任務(wù)包括“填空”,即向模型展示一份訓練文檔,并在文檔中遮蔽一個或多個單詞,模型需要學會準確預測這些被遮蔽的單詞。另外,還可以是“預測”任務(wù),即給定一個句子,模型必須從多個選項中選擇出實際跟隨的下一句話。圖像生成模型則在訓練圖像中添加噪音,然后讓模型嘗試去除噪音以還原真實圖像。除此以外,模型還會學習如何將圖像標簽中的單詞與圖像中的相應(yīng)物體聯(lián)系起來。正如谷歌數(shù)字圖書案一樣,模型并不是簡單地對所接觸的數(shù)據(jù)進行機械記憶。相反,它們從數(shù)據(jù)中學習潛在的模式、關(guān)系和結(jié)構(gòu),進而生成全新的句子、圖像等多樣的內(nèi)容39。因此,模型并不是為了再現(xiàn)受版權(quán)保護的表達而設(shè)計的,而是利用訓練數(shù)據(jù)中所得出的抽象信息來創(chuàng)建新的、非侵權(quán)的內(nèi)容。對人工智能而言,書籍在訓練過程中轉(zhuǎn)化為學習人類如何使用語言的“數(shù)據(jù)”,而非供人欣賞的“作品”[8]。這就無礙于原作品作為人類消費品的初始價值,并且能為人工智能創(chuàng)造力賦能。
(二)模型訓練非以表達傳播為結(jié)果
著作權(quán)法不是對表達的唯一的、專制的支配,而是為了防止原創(chuàng)表達在未授權(quán)或補償?shù)那闆r下傳播給新的公眾[9]1906。美國聯(lián)邦最高法院在戈德史密斯案中對合理使用界限的重新審視體現(xiàn)出對表達替代的重視,要求評估被告的使用是否可能替代作者的原始表達,并以此作為衡量使用是否具有足夠轉(zhuǎn)化性的標準40。聯(lián)邦最高法院引用了谷歌圖書案的判決,稱重要的是使用目的是否有別于原作。僅僅在他人作品上添加一層新的表達或?qū)徝溃⒃谏虡I(yè)背景下向公眾傳播,而沒有進一步的理由,不足以構(gòu)成合理使用41。合理使用的抗辯與表達替代的風險相關(guān),表達替代的可能性越大,越不可能構(gòu)成轉(zhuǎn)換性使用。若將表達替代的風險視作一個可滑動的標尺,表達轉(zhuǎn)換性使用因其內(nèi)容直接面向公眾,而具有較高的表達替代威脅,要求對其使用的數(shù)量和市場效果進行更詳細的分析。而非表達性使用既不以使用原作的表達價值為目的,又未向公眾傳播任何初始表達內(nèi)容,表達替代威脅則相對低。作家協(xié)會訴谷歌一案中,第二巡回法院認為谷歌與HathiTrust的使用目的與行為效果相同,均在不傳播原作表達的情況下實現(xiàn)了作品新的功能。搜索與片段視圖功能僅能顯示有限的信息,無法成為原作的實質(zhì)替代品42。因此,在審視非表達性使用的案例時,法院傾向于認為這類使用具有顯著的轉(zhuǎn)換性。主要是因為它們不向公眾傳達原作品的表達內(nèi)容,從而不滿足公眾對這些內(nèi)容的需求。與此相反,那些僅改變了作品傳播途徑的使用則具有高度表達替代風險。以Meltwater案為例,該公司在網(wǎng)絡(luò)上搜索新聞報道,并向其用戶提供報道節(jié)選的行為難以構(gòu)成合理使用43。盡管Meltwater辯稱其將網(wǎng)絡(luò)上獲取的新聞用于信息定位工具,與其他非表達性使用案例具有相似性。但法院認為其實際上提供的是新聞剪報服務(wù),而非旨在改善互聯(lián)網(wǎng)內(nèi)容訪問的工具。其直接面向用戶轉(zhuǎn)載美聯(lián)社的文章,具有高度的表達替代性。另外,TVEyes錄制多個電視和廣播頻道的視聽內(nèi)容,將這些內(nèi)容導入數(shù)據(jù)庫,使其客戶能夠觀看、存檔、下載十分鐘的片段,并通過電子郵件發(fā)送給他人。第二巡回法院僅認可TVEyes為搜索而復制符合合理使用,而其觀看功能則超出了合理使用的范圍44。由此可見,法院在處理那些看起來與先前案例相似的案件時,對行為效果進行了區(qū)別評價。一些技術(shù)工具的具體使用對原作品的二次傳播性過于顯著,足以影響原作的市場或價值,而無法認定構(gòu)成合理使用。
著作權(quán)法并不天然意味著對創(chuàng)新技術(shù)的否定。在諸多情況下,技術(shù)可以在內(nèi)部利用現(xiàn)有作品,即不傳播作品以達到新的使用目的,從而在不削弱作品市場潛力的情況下推進著作權(quán)法的基本目的[9]。人工智能與以往的非表達性技術(shù)不同之處在于其直接向公眾提供輸出表達。這便要求對模型輸出究竟是全新的非侵權(quán)表達,還是對原始表達的替代進行判斷。然而,正如文本數(shù)據(jù)挖掘和其他非表達性使用的情況,模型訓練通常不影響著作權(quán)人向公眾傳播作品的權(quán)利45。這種使用方式更側(cè)重于從數(shù)據(jù)中學習模式和結(jié)構(gòu),而不是直接復制或傳播原始表達。在訓練過程中,訓練數(shù)據(jù)與模型最終生成的結(jié)果之間的聯(lián)系逐漸被淡化,使得模型能夠?qū)⑺鶎W知識轉(zhuǎn)化為創(chuàng)新的文本輸出。因此,輸出與任何給定輸入相似的情況將是罕見的[10]。人工智能模型不應(yīng)被視為下一個Napster,一個簡單將作品輸入輸出的中間服務(wù)器。相反,它對輸入進行分析和理解,并生成獨特的內(nèi)容。盡管人工智能模型能夠更高效、低成本地生成作品,并且進一步地與人類作者相競爭,但是新的表達輸出并非問題所在。人工智能模型更應(yīng)被視為技術(shù)中立的工具。當用戶通過提示語反復誘導生成式人工智能生成特定作品的副本或衍生品時,應(yīng)當是用戶而非開發(fā)者直接為該行為負責。相反,如果人工智能模型訓練后能夠復現(xiàn)訓練數(shù)據(jù)中的原始表達,且此種復現(xiàn)是普遍的和可預見的使用結(jié)果,那么模型訓練構(gòu)成合理使用的辯護將不再成立[11]?;谀P屯ǔ2幌蚬妭鞑ピ急磉_,復制的全面性并不對合理使用的認定產(chǎn)生實質(zhì)影響。大規(guī)模復制是訓練優(yōu)質(zhì)生成式人工智能模型的必要方式。在2017年Transformer模型發(fā)布之前,模型訓練都是在較小的數(shù)據(jù)集上進行的。例如,常用的判別式深度學習基準MNIST和CIFAR-10,包含6萬張標記圖像。相比之下,生成式人工智能的訓練數(shù)據(jù)集,如LAION-5B,則擁有數(shù)十億個訓練樣本。訓練數(shù)據(jù)越廣泛,越有助于降低生成式人工智能的錯誤率。當模型在大量相同作品的復制品上進行訓練時,由于重復性數(shù)據(jù)的強化,模型更容易學習到這些作品的特征,導致訓練結(jié)果的反芻[11]。因此,為解決該問題,人工智能開發(fā)者反而需要確保訓練數(shù)據(jù)集的足夠多元化,而非局限于公有領(lǐng)域。這為人工智能模型大規(guī)模復制提供了合法依據(jù)。
四、美國新興技術(shù)環(huán)境下合理使用認定的經(jīng)驗總結(jié)
在人工智能生成作品的背景下,成功訓練一個人工智能模型需要使用數(shù)十億條內(nèi)容。這比美國版權(quán)史上任何類似技術(shù)所涵蓋的作品數(shù)量都要多出許多數(shù)量級。與傳統(tǒng)的合理使用案件相比,模型訓練合理使用的認定對經(jīng)濟的影響更大。合理使用制度無疑將決定人工智能的未來。然而,目前難以預測生成式人工智能究竟是成為人類創(chuàng)作的新工具,還是會導致創(chuàng)作的平庸化和單一化。盡管美國的合理使用體系與我國的制度存在顯著差異,但其在應(yīng)對創(chuàng)新技術(shù)時開放與審慎并包的做法,對我們具有參考意義。
(一)開放立場:靈活解釋以適應(yīng)技術(shù)創(chuàng)新
事實上,這不是合理使用制度第一次站在技術(shù)變革的交叉路口。1984年,錄像機的命運掌握在了美國最高法院手中。索尼案是一個標志性的法律案件,它不僅涉及消費者使用當時新興的錄像機技術(shù)在家中錄制電視節(jié)目以供日后觀看,即“時移”的合法性,而且還觸及了錄像機作為一種新技術(shù)在市場上流通的合法性問題。若法院支持電影制片廠的立場,索尼將不得不停止錄像機的生產(chǎn),或者必須為每臺售出的錄像機支付版稅給電影制片廠。然而,美國最高法院并沒有這樣做。相反,其認定錄像機技術(shù)進行的是“大量非侵權(quán)使用”,家庭錄制是允許的合理使用46。雖然家庭錄像機已經(jīng)過時,但索尼案為合理使用制度應(yīng)對重大的技術(shù)變革奠定了基礎(chǔ),促進了錄像市場幾十年的繁榮。
合理使用原則是協(xié)調(diào)著作權(quán)法和新技術(shù)有效的、靈活的工具。合理使用的重要功能之一是在著作權(quán)法中提供一種平衡機制,使其能夠解決新技術(shù)帶來的問題,而這些問題是立法機構(gòu)無法或沒有考慮到的。在坎貝爾案之后,許多涉及新技術(shù)的版權(quán)案件中,法院通常對轉(zhuǎn)換性進行更寬泛的解釋,以涵括為新的目的而使用整個作品的行為。這是因為被告使用作品的目的并不是為了替代原作表達,而是為了實現(xiàn)一些原作所不能提供的新功能,這樣的使用不會損害原作的市場或價值。例如,Accolade公司復制世嘉公司的整個軟件程序;Arriba公司復制數(shù)百萬張圖片和網(wǎng)頁的全部內(nèi)容;iParadigms復制大量書面作品的全部內(nèi)容。這些行為均未產(chǎn)生表達替代效果,無礙于合理使用。而其他直接向公眾傳播原創(chuàng)表達的技術(shù),法院往往認定整體復制難以構(gòu)成合理使用。以“Napster案”為例,Napster服務(wù)器并沒有改變版權(quán)作品的使用,而是直接讓用戶通過交換獲得所需購買的MP3文件。因此,用戶大量且完整地復制版權(quán)作品更不利于合理使用的認定47。這表明如果將技術(shù)對作品的使用分為輸入和輸出兩個階段,輸入階段往往被允許使用的范圍更廣。具體在人工智能領(lǐng)域,則表現(xiàn)為:相比于模型生成階段,不以原作表達輸出為結(jié)果的模型訓練,可能被賦予更廣泛的作品使用自由。這是由于技術(shù)開發(fā)具有顯著的公共利益。為了給顛覆性技術(shù)開發(fā)留足充分的空間,在法律適用存在模糊性時,美國傾向于根據(jù)版權(quán)法的根本宗旨來解釋合理使用條款。合理使用原則的解釋適用呈現(xiàn)出對新技術(shù)的寬容態(tài)度,能夠避免在新技術(shù)造成的不可預見的情況之下對創(chuàng)造力的扼殺。
技術(shù)開發(fā)被給予喘息空間的同時,進一步為公眾帶來了巨大的利益。正如戈德史密斯一案法院所強調(diào)的,具有獨特目的的使用是合理的,因為它促進了版權(quán)的目標,即促進科學和藝術(shù)進步,同時又不削弱創(chuàng)作的積極性48。新技術(shù)通常對大量使用該技術(shù)的用戶的言論自由產(chǎn)生影響。相比于傳統(tǒng)的表達性使用,如批判、引用等,非表達性使用對創(chuàng)作激勵的影響更為間接和滯后,但同時也更加深遠。公眾不僅能直接受益于創(chuàng)新技術(shù)本身,還能在技術(shù)應(yīng)用過程中獲得新的知識增值[12]。以圖像搜索引擎為例,其主要作用在于對互聯(lián)網(wǎng)及其相關(guān)網(wǎng)站上的圖片進行索引,并簡化用戶訪問和查找特定圖片的過程。通過高效的搜索機制,用戶可以快速定位到所需的視覺內(nèi)容,從而極大提高了圖片資源的可用性和便捷性。隨著搜索引擎用戶基數(shù)指數(shù)級增長,這種技術(shù)應(yīng)用又進一步推動了新知識的創(chuàng)造和積累。與搜索引擎類似,人類可以通過與人工智能互動獲取常識性知識。但人工智能的潛力遠不止于此。它還能夠極大激發(fā)和增強人類的創(chuàng)新能力。一是人工智能可以突破人類的慣性認知,提升藝術(shù)創(chuàng)作的想象力和創(chuàng)新性。二是作為先進的輔助創(chuàng)作工具,幫助提升藝術(shù)創(chuàng)作的效率,并使得更多的人參與到創(chuàng)作中來。更進一步地,人工智能,特別是生成式人工智能已經(jīng)被視為了繼計算機之后的又一項革命性通用技術(shù)49。它所具有的快速迭代能力、廣泛的適用性、補充性創(chuàng)新的潛力將深刻地改變眾多產(chǎn)業(yè)格局,并成為推動整個經(jīng)濟增長的新引擎。
新技術(shù)在對現(xiàn)有市場造成沖擊的同時,也帶來了新的機遇。新技術(shù)催生的作品市場常常成為版權(quán)所有者和技術(shù)開發(fā)者爭奪的對象。從歷史經(jīng)驗看來,每當新技術(shù)出現(xiàn)、改變作品的使用方式從而使創(chuàng)新者獲益的同時,著作權(quán)人也意圖從創(chuàng)新性技術(shù)中獲得分配利益。然而,新技術(shù)開發(fā)往往不是從傳統(tǒng)版權(quán)產(chǎn)業(yè)開始的。著作權(quán)人在無法證明創(chuàng)新技術(shù)所帶來的直接市場替代效應(yīng)的情況下,通常會主張自己因開發(fā)者未能支付許可費而遭受損失。即便如此,法院往往也會否認著作權(quán)人對新技術(shù)的壟斷權(quán)。以谷歌案為例,谷歌大規(guī)模數(shù)字化工作與傳統(tǒng)版權(quán)業(yè)者利益以及商業(yè)模式相沖突。作家協(xié)會認為谷歌侵占了他們進入許可市場的機會。然而,第二巡回法院駁回了該指控,并稱原作許可市場涉及的功能與谷歌提供的功能大不相同,原作市場不及于轉(zhuǎn)換性使用50。合理使用的靈活解釋能夠給予模型訓練市場充分的發(fā)展空間。目前,人工智能模型訓練建立在兩個前提之上。其一,算力的顯著提升,為人工智能模型的訓練提供了必要的計算資源。其二,關(guān)鍵技術(shù)的突破,使得人工智能能夠高效地處理和學習大型數(shù)據(jù)集,從而不斷優(yōu)化模型的性能。因此,模型的整體能力并不是訓練數(shù)據(jù)中任何一個單詞或圖像的結(jié)果。人工智能模型依賴于訓練數(shù)據(jù),但其生成的內(nèi)容早已超越了訓練數(shù)據(jù)的范圍?;ヂ?lián)網(wǎng)上信息的多樣性和龐大規(guī)模既是訓練一個優(yōu)質(zhì)模型所必需的,同時也意味著對其中包含的每一個受版權(quán)保護的作品進行許可幾乎是不可能的。許可的交易成本過高,且難以確定單個作品作為訓練數(shù)據(jù)的價值。因此,人工智能模型訓練通常不被視為對現(xiàn)有市場的直接競爭,而屬于轉(zhuǎn)換性使用所創(chuàng)造的新市場的一部分。著作權(quán)人必須面對由人工智能所帶來的市場變革。盡管如此,合理使用原則也為著作權(quán)人提供了一定的靈活性。目前,多數(shù)國家在承認模型訓練屬于合理使用范疇的同時,也在探討如何彌補版權(quán)持有者可能遭受的損失?;诟髯缘乃痉▊鹘y(tǒng),這一實施路徑上呈現(xiàn)出差異化,但本質(zhì)上具有相同的價值指向。對模型訓練持保守態(tài)度的歐盟為營利性的數(shù)據(jù)挖掘情形設(shè)定了選擇保留的機制。而以判例法為傳統(tǒng)、合理使用更為靈活的美國,在過往的判例中也將數(shù)據(jù)獲取的合法性納入合理使用評估之中51。面對人工智能所帶來的新挑戰(zhàn),美國正致力于探究降低模型訓練侵權(quán)風險的技術(shù)風險緩解策略。這些措施旨在確保模型訓練順利通過判例法所形成的合理使用標準[13]。而對于那些高質(zhì)量、難以公開獲取的數(shù)據(jù),開發(fā)者也在謀求與版權(quán)持有者的合作之道。目前,谷歌已經(jīng)與Reddit達成協(xié)議52,允許谷歌使用在線討論網(wǎng)站上的帖子來訓練其人工智能模型。通過谷歌產(chǎn)品匯集信息,使用戶能夠更便捷地訪問Reddit內(nèi)容。同時,OpenAI與新聞集團達成合作53,獲得新聞集團主要新聞和信息出版物的訪問權(quán)限。除了提供內(nèi)容外,新聞集團還將分享新聞專業(yè)知識,以幫助確保OpenAI的產(chǎn)品中呈現(xiàn)最高的新聞標準。二者的合作范疇不僅限于模型訓練,還包括了優(yōu)質(zhì)內(nèi)容的生成傳播。不同于原有的二次創(chuàng)作市場,該市場的核心驅(qū)動力在于優(yōu)化模型和增強用戶體驗。
(二)審慎考量:著作權(quán)人利益的必要保護
目前,關(guān)于人工智能模型訓練是否屬于合理使用的分歧較大,其本質(zhì)上源于傳統(tǒng)版權(quán)業(yè)者對創(chuàng)新技術(shù)可能替代人類創(chuàng)作的擔憂。此種擔憂在傳統(tǒng)版權(quán)業(yè)者的利益驅(qū)動下被夸大化?!都~約時報》訴塔西尼一案中,《紐約時報》未經(jīng)作者同意授權(quán)第三方將文章放入電子數(shù)據(jù)庫中,使用戶既能檢索文章,又能查看、打印或下載檢索到的文章。面對作者的指控,《紐約時報》警告稱,數(shù)據(jù)庫提供了長期累積的完整報紙內(nèi)容。如果法院支持作者的主張,將導致電子歷史檔案中出現(xiàn)重大缺失,造成“災(zāi)難性”的影響54。而如今《紐約時報》站在了技術(shù)發(fā)展的另一端。其在訴狀中極力強調(diào)新聞報道的創(chuàng)新難度與高昂成本,而將生成式人工智能視為威脅高質(zhì)量新聞的侵權(quán)產(chǎn)品,特別還要求開發(fā)者承擔數(shù)十億美元的損害賠償責任,并銷毀所有包含《紐約時報》作品的訓練數(shù)據(jù)集和模型?!都~約時報》的態(tài)度轉(zhuǎn)變說明它并不總是重視技術(shù)的發(fā)展或者強調(diào)對著作權(quán)人的保護,而是將此作為一種推動商業(yè)利益的訴訟策略55。因此,任何制造緊張氣氛的擔憂都不應(yīng)產(chǎn)生對合理使用判斷的實質(zhì)性影響,對技術(shù)替代人類創(chuàng)造力的擔憂不應(yīng)完全由著作權(quán)法來處理。在版權(quán)局最近發(fā)布的《版權(quán)和人工智能:數(shù)字復制品》報告56中,該機構(gòu)承認人工智能的風格模仿能力對創(chuàng)作者可能造成的影響,但報告同時指出,目前沒有必要通過新的版權(quán)立法予以保護。同時,判例法中也體現(xiàn)審慎的態(tài)度。安迪沃霍爾基金會曾稱,如果法院要求其必須向戈德史密斯支付許可費用,則將阻礙新思想的表達和新知識的獲得,造成創(chuàng)造力的匱乏57。此種論斷被視為對原創(chuàng)作品價值的忽視。即使二次使用能夠帶來新的價值,但這并不意味著賦予使用人無視或損害著作權(quán)人利益的權(quán)利。轉(zhuǎn)換性使用一度被視為促進表達自由、豐富公眾認知的工具。美國聯(lián)邦最高法院在戈德史密斯案中的判決,傳遞了一個重要的信號,即對那些利用轉(zhuǎn)換性使用進行肆意藝術(shù)價值評判的判例進行糾偏。盡管沃霍爾的作品對當代藝術(shù)有著顯著貢獻,但這并不是決定性的。正如坎貝爾案所強調(diào)的58,重要的并不是二次使用所新增的表達,而是使用服務(wù)于一個完全不同的目的,否則任何二次使用都具有轉(zhuǎn)換性。同時,轉(zhuǎn)換性使用也并非判定合理使用的唯一標準,而是需要與其他因素綜合考量。合理使用仍應(yīng)基于對作品表達替代的全面審查上。
技術(shù)本身的價值可能對合理使用產(chǎn)生影響,但并不是決定性因素。毫無疑問,生成式人工智能模型訓練構(gòu)成合理使用有很好的政策理由。然而,合理使用并不是簡單作為實現(xiàn)更大利益的公共政策工具。合理使用的判斷應(yīng)基于連貫的法律原則,而不是抽象的政策判斷[9]。目前,爭議雙方均能找到政策支撐,進行純粹的政策評估將使得合理使用的適用陷入過寬或過窄的境地。對創(chuàng)作產(chǎn)業(yè)而言,生成式人工智能是一把雙刃劍。生成式人工智能能夠提高創(chuàng)作的效率,為缺乏特定藝術(shù)能力的人提供創(chuàng)作的可能性。但同時,其又可能造成作品的同質(zhì)化。然而,新技術(shù)本身就難以預測,甚至無法預測。尋求新的解決方案時應(yīng)該保持謹慎,因為技術(shù)的迅猛發(fā)展可能使得這些方案很快變得過時或不切實際59。從技術(shù)發(fā)展視角出發(fā),當出現(xiàn)新的技術(shù)時,美國往往遵循“先發(fā)展后治理”的路徑。面對模型訓練的合理使用爭議,美國不僅多次開展研討,給予利益相關(guān)者充分的表達空間,而且在訴訟中也多次要求當事人補充或修改訴狀以盡量還原事實細節(jié)。過往涉及創(chuàng)新技術(shù)的司法判例中,美國普遍強調(diào)法律的客觀性和一貫性,避免僅基于純粹的價值判斷來作出裁決。索尼案最深遠的影響在于拒絕以作品的使用是否能夠創(chuàng)造新的價值作為判斷“合理使用”的決定性標準,而承認純粹為個人欣賞而復制作品可以構(gòu)成合理使用。HathiTrust案中第二巡回法院再次強調(diào)使用并不是因?qū)Α翱茖W進步和藝術(shù)培養(yǎng)做出‘無價的貢獻’”而具有轉(zhuǎn)化性。轉(zhuǎn)換性是指提供與原作品不同的新功能,而不是替代原作品的作品60。這一點已經(jīng)被應(yīng)用于人工智能模型訓練的爭議案件中。Ross案法院承認在保護創(chuàng)作者和復制者之間做出選擇,以確定哪種做法更符合公眾利益,是一個復雜且具有挑戰(zhàn)性的問題。盡管人工智能技術(shù)帶來了顯著的利益和風險,但單獨評估這些利益可能并不充分。法院最終將該問題交由陪審團決定61。
盡管創(chuàng)新技術(shù)具有為社會帶來重大利益的潛力,法院仍需審慎地進行權(quán)衡,確保這些技術(shù)的應(yīng)用不會侵犯著作權(quán)人的合法權(quán)益。第二巡回法院認為谷歌制作數(shù)字化副本提供搜索功能是一種轉(zhuǎn)化性使用62。一方面,該搜索服務(wù)通過向公眾提供有關(guān)原告書籍的信息,豐富了公眾的知識基礎(chǔ)。另一方面,盡管谷歌復制了原告作品的內(nèi)容,但其目的并非取代原作的閱讀體驗或內(nèi)容,而是為了實現(xiàn)不同的功能和效果。復制的方式并沒有造成原創(chuàng)作品中核心部分的廣泛傳播,從而使人們獲得實質(zhì)性替代品。相反,一些表面上構(gòu)成非表達替代的技術(shù),實際上只是轉(zhuǎn)換了作品的傳播途徑。以非表達替代為核心的合理使用要求對使用行為進行更加細致、審慎的分析。由于生成式人工智能能夠像人類一樣輸出表達,表達替代的風險更大。并非所有生成人工智能模型訓練均能直接推定為合理使用。相較于傳統(tǒng)技術(shù),生成式人工智能模型的訓練過程更為復雜且耗時更長,涵蓋了多個階段和眾多不同的參與者。區(qū)分訓練數(shù)據(jù)的不同用途及其在人工智能供應(yīng)鏈各階段的作用變得尤為重要。相比于預訓練所形成的基礎(chǔ)模型,微調(diào)階段所使用的數(shù)據(jù)集往往更小,且通常是專門為特定應(yīng)用任務(wù)特別定制的數(shù)據(jù)集。如果微調(diào)模型被明確設(shè)計為生成與訓練數(shù)據(jù)非常相似的內(nèi)容,其結(jié)果可能會產(chǎn)生利用受保護表達方式的內(nèi)容,從而侵犯該特定表達方式的市場。同時,基礎(chǔ)模型與微調(diào)模型的開發(fā)者可能為不同主體,其行為的目的存在不同。模型微調(diào)者可能消除基礎(chǔ)模型中設(shè)置的反侵權(quán)保護措施,造成模型高度預見性的侵權(quán)輸出,這就超出了合理使用的范疇。因此,透過合理使用原則,司法機構(gòu)需對每個涉及人工智能模型訓練的案例進行細致的個案分析,并在必要情況下為創(chuàng)作者提供適當?shù)难a償。這比無條件地將所有人工智能模型訓練視為侵權(quán)行為更為合理和靈活。通過這種方式,法院可以更有效平衡版權(quán)保護與技術(shù)創(chuàng)新的需求。
五、結(jié)語
數(shù)字技術(shù)極大改變了作品的復制和傳播方式,也改變了作品的使用方式。在算力與技術(shù)的深度融合下,作品不再只能被人類復制并閱讀,從而導致傳統(tǒng)版權(quán)業(yè)者與技術(shù)開發(fā)者的利益分配之爭。人工智能模型以其對用戶定制化、交互性的需求響應(yīng),以及能夠創(chuàng)造出廣泛多樣、表現(xiàn)力豐富的內(nèi)容,進一步加劇了這一矛盾。模型訓練的合理使用爭議本質(zhì)上反映出傳統(tǒng)版權(quán)產(chǎn)業(yè)主體對模型訓練方式的認知偏差以及對市場收益的預期落空。為了使人工智能模型訓練的法律地位更加明確,可以將其納入美國判例法中已經(jīng)形成的分析框架,特別是那些涉及非表達性使用的案例之下。人工智能模型訓練既不以表達使用為目的,也未向公眾傳播原作表達,難以構(gòu)成對原作表達市場的替代。這一分析框架既摒棄了對商業(yè)性整體復制的一刀切否定,又保證了著作權(quán)人在原有表達市場的經(jīng)濟效益,兼具靈活性與審慎性。同時,非表達性使用也與三步檢驗法具有一致性。以非表達為目的的使用,難以對原作品所形成的表達市場產(chǎn)生影響,也因交易成本過高而難以形成著作權(quán)人應(yīng)當控制的新市場,因此不影響作品的正常使用。另外,其限于非向公眾傳播表達的技術(shù)使用,兼具公共利益,損害不至于達到不合理的程度。目前,人工智能模型訓練難以被直接解釋納入我國現(xiàn)有的合理使用法定類型中。與人工智能模型訓練相近的條款僅有“個人學習、研究”型與“科學研究”型合理使用。“個人學習、研究”型中的“個人”難以擴張至企業(yè),商業(yè)性使用也無法歸屬于學習、研究的目的。雖然“科學研究”型合理使用限定了復制行為應(yīng)在“少量”的范圍內(nèi),但并未提供具體的量化標準??梢钥紤]將“少量”擴張解釋為符合使用目的的有限使用,同時將“科學研究”的范疇擴展至以營利性為目的的使用,并通過三步檢驗法的后兩步對其加以限制。但此種解釋路徑可能會導致法律條文內(nèi)部的矛盾和法律體系的不穩(wěn)定,僅能作為臨時應(yīng)對之策。我國可以在《著作權(quán)法實施條例》中增設(shè)計算機分析的合理使用類型,并通過三步檢驗法予以限制,以實現(xiàn)著作權(quán)人利益與技術(shù)開發(fā)者利益的平衡。
參考文獻:
[1] GRMMELMANN J. Copyright for literate robots[J]. Iowa Law Review, 2016, 101(2): 657?81.
[2] SAMUELSON P. Unbundling fair uses[J]. Fordham Law Review, 2009, 77(5): 2602.
[3] SOBEL B L W. Artificial intelligence's fair use crisis[J]. Columbia Journal of Law and the Arts, 2017, 41(1): 57.
[4] HEYMANN L A. Everything is transformative: fair use and reader response[J]. Columbia Journal of Law and the Arts, 2012, 31(4): 448.
[5] MURRAY M D. Generative AI Art: copyright infringement and fair use[J]. SMU Science amp; Technology Law Review, 2023, 26(2): 264.
[6] SAG M. God in the machine: a new structural analysis of copyrights fair use doctrine[J]. Michigan Telecommunications and Technology Law Review, 2005, 11(2): 93?392.
[7] SAG M. The new legal landscape for textm mining and machine learning[J]. Journal of the Copyright Society of the USA, 2019, 66: 320.
[8] LEVENDOWSKI A. How copyright law can fix artificial intelligence's implicit bias problem[J]. Washington Law Review, 2018, 93(2): 625.
[9] SAG M. Fairness and fair use in generative AI[J]. Fordham Law Review, 2024, 92(5): 1899?1906.
[10] LEMLEY M. How generative AI turns copyright law upside down[J]. Science and Technology Law Review, 2024, 25(2): 192.
[11] SAG M. Copyright safety for generative AI[J]. Houston Law Review, 2023, 61(2): 312?327.
[12] LEE E. Technological fair use[J]. Southern California Law Review, 2010, 83: 820.
[13] HENDERSON P, LI X C, JURAFSKY D, et al. Foundation models and fair use[J]. Journal of Machine Learning Research, 2023, 24(400): 1?76.
The American Experience of Measuring Fair Use in AI Model Training
Xiong" Qia,b, Chen" Ziyia,b
( a. Law School; b. Research Center for Judicial Protection of Intellectual Property, Huazhong University of Science and Technology," Wuhan 430073, China)
Abstract: AI models rely on the replication and analysis of many works, which has led to conflicts between copyright holders and the demands of AI training. The reason for the current controversy lies in the lack of understanding of artificial intelligence model training and the failure of copyright owners to achieve profits in emerging markets driven by technology. In U.S. judicial practice, the fair use doctrine has been applied in areas such as software reverse engineering and full-text digitization. This experience of interpreting new technologies in a way that allows room for development reflects a judicial tolerance for innovation. Although the United States has not yet come to a definitive conclusion on the controversy over AI model training, its historical experience suggests a trend towards adjudicating it as fair use. Such experience can help us balance the relationship between technological innovation and copyright protection, and reconcile the relationship between old and new industries.
Keywords: artificial intelligence; model training; fair use; non-expressive substitution