[摘要]文章從生成式人工智能數(shù)據(jù)預訓練入手,發(fā)現(xiàn)其存在諸多侵權風險,即復制權侵權,改編權侵權,廣播權及信息網(wǎng)絡傳播權侵權?;诖?,文章結(jié)合國內(nèi)國際針對生成式人工智能數(shù)據(jù)預訓練制訂的版權規(guī)制,提出“增設‘人工智能創(chuàng)作例外’合理使用新類型”“靈活使用三步檢驗標準”的風險治理策略,旨在為未來生成式人工智能領域的法律規(guī)制提供理論基礎和實踐指引,推動生成式人工智能在合法合規(guī)的框架內(nèi)不斷演進。
[關鍵詞]生成式人工智能;數(shù)據(jù)預訓練;合理使用
一、生成式人工智能數(shù)據(jù)預訓練
(一)生成式人工智能的發(fā)展
當今社會,人類已從依賴傳統(tǒng)信息的時代邁入了由數(shù)據(jù)驅(qū)動的智能發(fā)展階段,在信息技術迅猛發(fā)展的今天,生成式人工智能正在深刻改變內(nèi)容創(chuàng)作的方式。2022年11月,OpenAI公司推出了新型生成式人工智能—ChatGPT,這款預訓練的通用大型語言模型一經(jīng)發(fā)布,即引發(fā)了強烈反響。相較早期僅用于輔助創(chuàng)作的人工智能技術,生成式人工智能已經(jīng)能夠獨立生成高質(zhì)量的文本、圖像和音樂等多種形式的內(nèi)容,展現(xiàn)了前所未有的創(chuàng)造力。
人工智能初期發(fā)展主要集中在輔助創(chuàng)作領域,多被用于完成文本自動補全和語法糾正等簡單的自動化任務,雖然能夠提高創(chuàng)作效率,但是其功能和應用范圍都非常有限。深度學習和生成模型的快速演進使得人工智能逐步掌握自主生成內(nèi)容的能力,能夠以極高的水準創(chuàng)作文章、視覺藝術和音樂等多樣化的作品。例如,AlphaGo通過運用深度學習技術,從海量圍棋歷史對局中學習棋步策略,并在自我對弈中進行強化學習,不斷優(yōu)化其策略,從而戰(zhàn)勝了多位人類頂級圍棋高手。
在自然語言處理(NLP)技術實現(xiàn)突破的背景下,機器在理解和生成自然語言方面也取得顯著成績。Transformer架構的出現(xiàn)為大型語言模型的構建提供了關鍵性的支持和理論框架。生成式預訓練模型(GPT)的出現(xiàn)將生成式人工智能的能力提升到一個新的高度。例如,OpenAI公司推出的GPT-3模型配備1750億個參數(shù)[1],經(jīng)由龐大語料庫訓練,采用了上下文學習機制(In-ContextLearning),ChatGPT憑借此機制能夠靈活應對多種下游任務,有效執(zhí)行自然語言處理、圖像識別及語音處理等復雜任務,展現(xiàn)卓越的語言理解和生成能力。
(二)生成式人工智能數(shù)據(jù)預訓練的技術運行原理
生成式人工智能技術(GenerativeAI)依托深度學習模型來生成數(shù)據(jù)。以自然語言處理為例,ChatGPT構建了大型語言模型LLM(LargeLanguageModel)和強化學習微調(diào)訓練模型,采用了Transformer神經(jīng)網(wǎng)絡架構,這些深度神經(jīng)網(wǎng)絡模型擅長處理序列數(shù)據(jù),通過自注意力機制捕捉輸入數(shù)據(jù)間的聯(lián)系,對用戶輸入的指令信息進行全面剖析,從而解析其具體意圖。同時,ChatGPT能夠依據(jù)數(shù)據(jù)庫中已有的文本語料,按照數(shù)字順序構建內(nèi)容框架,最終將該框架轉(zhuǎn)譯為文本形式,生成滿足用戶需求的輸出結(jié)果[2]。
預訓練指在海量的數(shù)據(jù)上實施無監(jiān)督學習,旨在預先構建一個數(shù)據(jù)模型或完成模型的訓練過程。生成式人工智能模型是一種參數(shù)龐大且需要在預訓練過程中使用大規(guī)模語料庫進行自監(jiān)督學習的自然語言處理模型,要想在廣泛的應用場景中生成高質(zhì)量的內(nèi)容,大量的數(shù)據(jù)投喂或訓練十分必要[3]。數(shù)據(jù)預訓練是機器學習過程中的必要步驟,而機器學習是數(shù)據(jù)預訓練所需的核心技術,總的來說,數(shù)據(jù)預訓練分為數(shù)據(jù)輸入、機器學習與結(jié)果輸出三個過程[4]。以ChatGPT為例,這一生成式人工智能在數(shù)據(jù)訓練階段采用的數(shù)據(jù)收集途徑包括獲取政府、學術機構及公司公開發(fā)布的數(shù)據(jù)集,或者運用爬蟲技術從互聯(lián)網(wǎng)搜集文本、圖像等相關數(shù)據(jù)。然而,在收集用于模型訓練的數(shù)據(jù)時,如果人工智能未經(jīng)授權就復制互聯(lián)網(wǎng)或其他來源上受著作權保護的文本、圖像、視頻等作品,就會面臨版權侵權的風險。
二、生成式人工智能數(shù)據(jù)預訓練中的版權風險分析
(一)復制權侵權
生成式人工智能在數(shù)據(jù)預訓練階段通常采用兩種手段進行數(shù)字化處理:第一,將以非數(shù)字方式記錄的知識和信息轉(zhuǎn)變?yōu)闄C器可解析的編碼格式;第二,通過API等接口工具,從外部來源調(diào)取已完成編碼轉(zhuǎn)換的數(shù)據(jù)內(nèi)容。這些手段為人工智能技術獲取知識和處理數(shù)據(jù)奠定了基礎?!吨腥A人民共和國著作權法》(以下簡稱“《著作權法》”)規(guī)定,除合理使用、法定許可等法定豁免規(guī)定外,未經(jīng)著作權人許可擅自使用在著作權保護期范圍內(nèi)的作品構成著作權侵權。當前,生成式人工智能所獲取的數(shù)據(jù)并非完全來自于公有領域,其在收集海量數(shù)據(jù)訓練模型時難免會復制已受版權保護的作品,而這種行為涉及對著作權人復制權的侵權風險。在最新修訂的《著作權法》中,我國將“數(shù)字化”新增為復制權的一種行為方式,使我國版權法中的復制行為從傳統(tǒng)的印刷、拓印等一經(jīng)復制便被固定的形式擴展到有形載體和數(shù)字載體以及數(shù)字載體相互之間的復制。然而,無論復制的表現(xiàn)形式多么豐富,其本質(zhì)始終是對既有作品的重新呈現(xiàn)[5]。在生成式人工智能采集數(shù)據(jù)的過程中,其收集的數(shù)據(jù)都會被先行復制后存入數(shù)據(jù)庫,復制是實現(xiàn)數(shù)據(jù)存儲的必要前提,那么在數(shù)據(jù)收集過程中爬取數(shù)據(jù)并將其存儲至數(shù)據(jù)庫的行為就構成著作權法上的復制行為。因此,根據(jù)我國著作權法的規(guī)定,如果該復制行為未經(jīng)版權所有者授權且沒有特殊的抗辯理由,則生成式人工智能進行數(shù)據(jù)預訓練侵犯了著作權人的復制權。
(二)改編權侵權
改編權是賦予權利持有人允許他人在原作基礎上進行內(nèi)容的調(diào)整和加工,以形成富有創(chuàng)意的全新作品的權利。在生成式人工智能數(shù)據(jù)預訓練階段,由于機器學習的需要,人工智能通常需要將收集的數(shù)據(jù)轉(zhuǎn)換為相應的結(jié)構化數(shù)據(jù),而對數(shù)據(jù)的轉(zhuǎn)換修改、整理刪除等操作必然會涉及對原有數(shù)據(jù)內(nèi)容的調(diào)整,進而可能引發(fā)侵犯著作權人改編權的風險[6]。要想分析數(shù)據(jù)預訓練的改編權侵權風險,我們要先從機器學習的方法入手?;谟柧殧?shù)據(jù)是否包含特定作者的作品這一標準,機器學習被分為一般機器學習與特殊機器學習[7]。第一,一般機器學習指人工智能在由眾多作者作品構成的數(shù)據(jù)庫中,通過算法訓練來分析和選擇數(shù)據(jù),再根據(jù)用戶的指令與數(shù)據(jù)庫內(nèi)容進行匹配生成作品的過程。這類作品的風格和外觀具有一定的隨機性,往往難以被用戶所掌控,即使它們可能涉及改編權,但由于缺乏具體的比對標準,一般機器學習的侵權風險較低。第二,特殊的機器學習指相關主體通過使用某一特定作者創(chuàng)作的作品對算法進行訓練的學習過程。例如,巴黎索尼計算機科學實驗室的技術人員用300多首巴赫的作品訓練了人工智能系統(tǒng),這些歌曲在訓練過程中被轉(zhuǎn)換成不同的音符,并最終生成了2500多首作品。這些作品使包括專業(yè)音樂家在內(nèi)的眾多聽眾認為他們是巴赫本人創(chuàng)作的作品。根據(jù)著作權法的相關規(guī)定,大多數(shù)作品的保護期限在作者死亡50年后便終止,因此巴赫的作品現(xiàn)已成為公共領域的文化遺產(chǎn),不再受版權約束。然而,如果作品仍處在版權保護期限內(nèi),使用這些作品進行算法訓練便會涉及版權侵權問題。在特殊的機器學習過程中,相關主體會從眾多作品中提煉屬于作者個性化表達的信息,并運用這些信息投喂人工智能進行數(shù)據(jù)預訓練,以高度模擬原作者創(chuàng)作風格為目標進行表達。作品是作者獨立構思的產(chǎn)物,其獨創(chuàng)性體現(xiàn)在個性化的表達方式,而人工智能生成的內(nèi)容可能會展現(xiàn)類似的表達特征,進而對被學習的作品產(chǎn)生替代效果[8]。因此,基于預訓練數(shù)據(jù)來源的特定性,特殊的機器學習生成的作品存在侵犯原作品改編權的風險。
(三)廣播權及信息網(wǎng)絡傳播權侵權
“廣播權”在《著作權法》中的定義為以有線或者無線方式公開傳播或者轉(zhuǎn)播作品,以及通過擴音器或者其他傳送符號、聲音、圖像的類似工具向公眾傳播廣播作品的權利。在“央視國際網(wǎng)絡有限公司訴北京百度網(wǎng)訊科技有限公司侵害作品信息網(wǎng)絡傳播權案”中,法院判定互聯(lián)網(wǎng)傳播行為具有有線傳播的特征,因此依據(jù)《著作權法》,將其認定為信息網(wǎng)絡傳播權的一部分,作為財產(chǎn)權加以保護,并裁決被告向原告支付賠償款共計50.28萬元。在著作權法中,信息網(wǎng)絡傳播權作為一種財產(chǎn)權利,與廣播權具有相似之處,而該判決中提到的“有線傳播”概念,已被擴展為包括網(wǎng)絡形式的傳播方式。因此,從法律邏輯統(tǒng)一的角度來看,廣播權中的“有線傳播”理應包括基于互聯(lián)網(wǎng)展開的傳播行為。鑒于此,如果人工智能輸出結(jié)果與原作品存在實質(zhì)性相似,并將該結(jié)果通過網(wǎng)絡向公眾傳播,那么生成式人工智能在進行數(shù)據(jù)預訓練時可能面臨侵犯原作品廣播權及信息網(wǎng)絡傳播權的風險。一般而言,人工智能生成作品涉及的廣播權及信息網(wǎng)絡傳播權侵權問題主要發(fā)生在數(shù)據(jù)輸出環(huán)節(jié),但也有觀點指出,數(shù)據(jù)預處理階段同樣存在潛在的廣播權及信息網(wǎng)絡傳播權侵權風險。例如,在具體實踐環(huán)節(jié),技術人員為了進行數(shù)據(jù)挖掘或機器學習,驗證研究結(jié)果的可行性,常常需要將數(shù)據(jù)上傳至云端或利用互聯(lián)網(wǎng)進行共享,這種方式可能存在侵犯原作品的廣播權及信息網(wǎng)絡傳播權的潛在風險[9]。
三、生成式人工智能數(shù)據(jù)預訓練的版權規(guī)制選擇
(一)域外制度借鑒
1.美國:轉(zhuǎn)換性使用的法律規(guī)則
在美國,人工智能在數(shù)據(jù)預訓練階段所面臨的版權及合理使用問題得以有效解決,主要歸因于轉(zhuǎn)換性使用理論的應用。該理論首次在“Campbellv.AcuffRoseMusic案”中被提出。根據(jù)這一理論,當原作品被以不同的形式進行重新詮釋,并被賦予全新的意義或功能時,這種改動可被視為對原作品的轉(zhuǎn)化性使用,并被認定為符合合理使用的法律規(guī)范。法院在判定生成式人工智能生成的作品是否構成轉(zhuǎn)換性使用時,主要依據(jù)是其是否具備足夠的“轉(zhuǎn)換性”特征,而非商業(yè)屬性。在司法實踐中,法院應用轉(zhuǎn)化性使用規(guī)則通常從兩個方面進行評估。第一,使用的內(nèi)容與使用目的是否與原作品存在明顯的差別,作品的使用是否被賦予新的功能。當新作品的使用目的和性質(zhì)發(fā)生較大轉(zhuǎn)變時,就不太可能對原作的市場產(chǎn)生直接的替代作用。在“AndyWarholFoundationfortheVisualArts,Inc.v.Goldsmith案”中,美國最高法院指出,判斷轉(zhuǎn)換性使用的核心在于新作品“是否以及在何種程度上”與原作品在目的和性質(zhì)上存在相似,單純的形式或風格變化不足以證明其使用目的已完全轉(zhuǎn)換,必須綜合考慮使用背景等因素,以確定其使用目的是否具有創(chuàng)新性[9]。第二,使用作品是否具有不同的功能,這種功能轉(zhuǎn)換性是美國法院在司法實踐中確立的一種新形態(tài),它擴展了原有轉(zhuǎn)換使用概念的范圍[10]。在“AauthorGuildv.HathiTrust案”中,美國法院認為,HathiTrust圖書館提供的全文檢索服務、面向殘疾人的圖書訪問權限以及數(shù)字化保存功能,將原作品單一的閱讀用途轉(zhuǎn)變?yōu)榉沼谘芯?、保存及具備社會公益性的多重功能,通過對原作品進行重新定位,賦予了其新的功能,這種使用方式具備高度的“轉(zhuǎn)化性目的”,因此可以被視為合理使用。從判決結(jié)果來看,美國法院對“轉(zhuǎn)化性使用”的闡釋采取了較為靈活的方式,為其提供了寬廣的解釋余地,以確保該理論得到更全面的應用。
2.歐盟:新增文本數(shù)據(jù)挖掘的例外規(guī)則
歐盟的早期版權立法,如1996年發(fā)布的《數(shù)據(jù)庫保護指令》和2001年的《信息社會版權指令》,因采用封閉式條款設計,未能契合文本與數(shù)據(jù)挖掘的需求,從而對人工智能技術的應用和推廣產(chǎn)生了不利影響。2016年,歐盟公布了《數(shù)字單一市場版權指令》(以下簡稱“《指令》”)的初版提案,旨在加強成員國間版權規(guī)則的一致性,將科研相關的文本與數(shù)據(jù)挖掘活動視作特定情況納入版權保護的例外范疇。2019年4月,經(jīng)過修訂的《指令》正式生效。新《指令》在保留科研活動中文本與數(shù)據(jù)挖掘的特殊權利的同時,還增添了針對數(shù)據(jù)挖掘需求的相關例外規(guī)定。新《指令》第4條則進一步規(guī)定,出于文本和數(shù)據(jù)挖掘?qū)戏ǐ@取的作品或其他內(nèi)容進行復制與提取的行為不構成侵權。新《指令》第4條則進一步規(guī)定,只要內(nèi)容是合法獲取的,其用于文本與數(shù)據(jù)挖掘的相關行為則不構成侵權??紤]到現(xiàn)有的“基于科研目的的文本與數(shù)據(jù)挖掘例外條款”約束性較強,難以覆蓋商業(yè)決策支持、公共服務優(yōu)化、應用程序開發(fā)或技術革新等非科研領域,且文本與數(shù)據(jù)挖掘行為并不符合2001年的《信息社會版權指令》中臨時復制的合理使用條件。對此,歐盟制定了新的“基于文本與數(shù)據(jù)挖掘目的的文本與數(shù)據(jù)挖掘例外”條款[11],允許行為主體在未被權利人明確禁止的情況下,對合法獲取的數(shù)據(jù)資源進行自由復制與提取,同時取消了主體資格限制,從而擴大了技術應用的靈活性和適用場景。
(二)我國制度選擇
1.三步檢驗標準的輔助性考慮因素
隨著生成式人工智能技術的發(fā)展,我國《著作權法》迫切需要解決因使用作品作為機器學習訓練數(shù)據(jù)而可能引發(fā)的侵權爭議。《中華人民共和國著作權法實施條例》(以下簡稱“《實施條例》”)通過制定三步檢驗標準,為相關判斷提供了明確的順序和參考依據(jù)。三步檢驗標準有助于法院在保護版權人利益和促進公共利益之間找到平衡點,使得合理使用制度在實踐中的應用變得更加清晰且具有可操作性。在我國司法實踐中,這一規(guī)則多被當作一種輔助性的參考工具,當遇到《著作權法》未具體規(guī)定的情況時,適用這一規(guī)則通常會變得非常困難,甚至無法實施。究其原因,法定情形提供了明確的法律依據(jù)和操作指南,而三步檢驗標準由于具有抽象性特征,在應用時需要綜合考量多方利益及具體情境,這種靈活性在特定情境下可能引發(fā)差異化解讀,進而增大了法律適用的不確定性和復雜性,加大了法院判決時的風險?;诖耍瑸榱嗽趯嶋H操作中有效保護版權人和用戶的合法權益,三步檢驗標準在我國主要作為輔助性考慮因素,而不是直接適用于所有合理使用情形。
2.合理使用制度無法提供適當?shù)幕砻?/p>
我國著作權法中有法定許可和合理使用兩種侵權豁免理由。在法定許可制度方面,我國著作權法當前規(guī)定的法定許可類型難以適用于人工智能的創(chuàng)作情境,盡管依據(jù)法定許可制度,使用作品不需要經(jīng)過原著作權人許可,但是即便按照現(xiàn)行法定許可費的最低標準估算,在數(shù)據(jù)預處理階段使用作品所產(chǎn)生的潛在許可費用也極為龐大,讓從事人工智能研發(fā)的企業(yè)或者研究機構負擔如此高昂的許可費較為困難。在當前各國人工智能技術飛速發(fā)展的國際背景下,我國也在不斷提升人工智能技術水平,相關法律法規(guī)對數(shù)據(jù)輸入行為設置過多的限制和過高的成本,與鼓勵知識產(chǎn)權創(chuàng)新創(chuàng)造的宗旨相違背。因此,相對而言,人工智能供應商依據(jù)合理使用制度為其數(shù)據(jù)輸入行為主張免責具有一定的合理性。然而,現(xiàn)行合理使用制度難以滿足人工智能技術發(fā)展的需要,不能為生成式人工智能數(shù)據(jù)預處理階段使用作品的行為提供適當?shù)陌鏅嗷砻?。我國《著作權法》明確列舉的合理使用情形也未涵蓋數(shù)據(jù)挖掘環(huán)節(jié),合理使用條款中明確列舉的情形中也只有少數(shù)涉及數(shù)據(jù)挖掘環(huán)節(jié)。同時,相關主體在課堂教學或科學研究中將數(shù)據(jù)處理挖掘作為使用例外通常限于非商業(yè)目的,若某些數(shù)據(jù)預處理行為不屬于科學研究范疇,或含有任何商業(yè)性質(zhì),則該例外不適用。當前,軟件及互聯(lián)網(wǎng)公司致力于提升生成式人工智能技術,依據(jù)企業(yè)特性,難以將其數(shù)據(jù)挖掘行為限定為非商業(yè)用途。人工智能在創(chuàng)作過程中使用數(shù)據(jù),完全是為了產(chǎn)生新的作品,并不符合上述《著作權法》中規(guī)定的合理使用情形。而生成式人工智能在創(chuàng)作過程中需要用于訓練的數(shù)據(jù)作品,其使用范圍顯然已經(jīng)超出了《著作權法》第二十四條規(guī)定的合理使用的適當性標準[12]。除了先前提到的例外情況,現(xiàn)有法律并未明確列出可為數(shù)據(jù)挖掘提供合法依據(jù)的其他情形?!吨鳈喾ā吩诘谌涡抻啎r不僅保留了現(xiàn)有的合理使用條款,還新增加了相關的兜底條款,以應對其他合理使用的可能情況。盡管這種做法看似能夠滿足將合理使用制度應用于新型作品的需求,然而,它并未實現(xiàn)將合理使用制度由封閉性立法模式轉(zhuǎn)變?yōu)楦娱_放靈活體系的轉(zhuǎn)變。這導致法官在缺乏明確法律授權的情況下,依然無法創(chuàng)立新的合理使用類別。因此,這一調(diào)整可能無法有效擴大裁量空間,也未必能真正推動數(shù)據(jù)挖掘的發(fā)展[13]。
四、生成式人工智能數(shù)據(jù)預訓練階段的著作權風險治理
(一)增設“人工智能創(chuàng)作例外”合理使用新類型
我國可以參考歐盟增設“文本數(shù)據(jù)挖掘”例外,以體現(xiàn)我國大數(shù)據(jù)、人工智能的時代特征。同時,我國通過引入這一條款,不僅能克服生成式人工智能作品生成過程中的數(shù)據(jù)獲取難題,還能降低人工智能在使用有版權保護作品時的法律風險,進而提高人工智能作品的整體水平,推動新興領域的健康發(fā)展。我國新修訂的《著作權法》第二十四條中新增加了合理使用的兜底法律條款,這進一步擴展了文本數(shù)據(jù)挖掘行為被視為合理使用的可能性,為相關實踐提供了更多的法律保障。第一,當前我國進行人工智能的研究主體大多是大型互聯(lián)網(wǎng)企業(yè),這些企業(yè)為生成式人工智能的研發(fā)投入了大量資金和高技術人才,因此該條款的適用主體應擴展至為發(fā)展人工智能而需要使用數(shù)據(jù)的公司及企業(yè),這種不限定適用主體的做法更加符合我國國情。技術的快速發(fā)展使得互聯(lián)網(wǎng)與軟件企業(yè)在應對市場動態(tài)變化方面具有顯著優(yōu)勢,其在文本與數(shù)據(jù)挖掘方面的能力通常超過部分科研組織。鑒于此,立法機關若僅將研究主體限定為學術機構或文化組織,則可能會限制文本與數(shù)據(jù)挖掘技術的廣泛使用和持續(xù)進步。第二,只有當文本與數(shù)據(jù)挖掘符合“出于科學研究目的”時才符合合理使用的標準。文本與數(shù)據(jù)挖掘合理使用的目的要件應確保挖掘行為符合規(guī)定。“以科學研究為目的”的數(shù)據(jù)挖掘能夠限制使用主體利用文本與數(shù)據(jù)挖掘技術實施可能損害權利人合法權益的行為,這符合著作權法促進科學和文化的繁榮發(fā)展的宗旨,有助于防止文本數(shù)據(jù)挖掘技術的商業(yè)化濫用。當文本與數(shù)據(jù)挖掘技術服務于科研工作時,其產(chǎn)生的最終效益歸屬于社會公眾利益?;诖?,適度犧牲著作權人的部分利益,以增進社會公共利益符合《著作權法》立法目的[14]。
(二)靈活使用三步檢驗標準
我國著作權法長期采用封閉式立法模式,具體規(guī)定了12種著作權法例外類型。從法律解釋角度看,《實施條例》所確立的三步檢驗標準對《著作權法》中規(guī)定的12種具體例外條款的適用起到了限制作用。因此,如果某一行為構成合理使用,它必須既屬于《著作權法》中規(guī)定的12種具體例外之一,又需通過三步檢驗標準的評估[15]。在現(xiàn)行著作權法體系下,三步檢驗標準僅適用于評估《著作權法》第二十四條所列舉的具體情形是否符合各項規(guī)定,這加強了對合理使用條款的限制,導致包括生成式人工智能數(shù)據(jù)預訓練在內(nèi)的多種數(shù)字時代新型使用場景無法被納入合理使用條款的范疇。為了推動技術革新,立法機關有必要賦予人工智能開發(fā)者更大的發(fā)展空間,使其能夠高效使用現(xiàn)有材料,并通過編輯和整合構建新的數(shù)據(jù)庫。因此,立法機關應在肯定三步檢驗標準立法價值的基礎上,探索其對新興領域著作權法的適用空間;通過采用較為開放的模式規(guī)定人工智能數(shù)據(jù)預訓練適用合理使用的具體要件,再依據(jù)三步檢驗標準進行個案判定。而司法機關通過在司法實踐中靈活有效地應用三步檢驗標準,可以在保障著作權人權益的同時促進創(chuàng)新和公共利益的發(fā)展。因此,立法機關圍繞三步檢驗標準,結(jié)合人工智能技術的特點和我國著作權法的相關規(guī)定,將數(shù)據(jù)預訓練過程中涉及作品的使用行為納入合理使用的范疇具有一定的可行性。在司法實踐中,部分法院也認為,只要相關行為未妨礙原作品的正常使用,且未對著作權人的合法權益造成不合理的損害,即可被視為合理使用,而不必拘泥于《著作權法》第二十二條所列舉的具體例外情形。
五、結(jié)語
生成式人工智能技術的迅猛發(fā)展為國家經(jīng)濟和科技進步注入了新的動力,但其在數(shù)據(jù)預訓練過程中涉及的著作權問題備受重視。綜上所述,生成式人工智能所推動的技術革新正在塑造前所未有的創(chuàng)作方式,并伴隨著一系列與版權相關的復雜問題。以ChatGPT為代表的生成式人工智能在數(shù)據(jù)預訓練和內(nèi)容生成過程中面臨復制權、改編權和廣播權及信息網(wǎng)絡傳播權等方面的版權風險,美國和歐盟的版權法制改革為我國提供了有益的借鑒。生成式人工智能的發(fā)展需要在版權保護和技術創(chuàng)新之間找到平衡,我國立法機關可在保護版權人利益的同時促進人工智能技術的創(chuàng)新發(fā)展,為數(shù)字經(jīng)濟和智能社會的建設提供堅實的法律保障。這需要立法機關不斷完善法律制度和應用技術手段,有效規(guī)制生成式人工智能數(shù)據(jù)預訓練過程中的版權問題,促進其在合法合規(guī)的框架內(nèi)健康發(fā)展。
[參考文獻]
[1]陸偉,劉家偉,馬永強,等.ChatGPT為代表的大模型對信息資源管理的影響[J].圖書情報知識,2023(02):6-9.
[2]王瑤,李勝利.生成式人工智能的版權風險及其應對:以ChatGPT為視角[J].海南金融,2023(10):49-58.
[3]丁道勤.生成式人工智能訓練階段的數(shù)據(jù)法律問題及其立法建議[J].行政法學研究,2024(06):16-28.
[4]吳漢東.人工智能生成作品的著作權法之問[J].中外法學,2020(03):653-673.
[5]馮曉青,付繼存.著作權法中的復制權研究[J].法學家,2011(03):99-112.
[6]張平.人工智能生成內(nèi)容著作權合法性的制度難題及其解決路徑[J].法律科學(西北政法大學學報),2024(03):18-31.
[7]詹愛嵐,田一農(nóng).生成式人工智能機器學習中的著作權風險及其化解路徑[J].電子知識產(chǎn)權,2023(11):4-14.
[8]李安.機器學習作品的著作權法分析:非作品性使用、合理使用與侵權使用[J].電子知識產(chǎn)權,2020(06):60-70.
[9]萬勇.人工智能時代著作權法合理使用制度的困境與出路[J].社會科學輯刊,2021(05):93-102.
[10]謝琳.論著作權轉(zhuǎn)換型使用之非轉(zhuǎn)換性[J].學術研究,2017(09):61-67.
[11]吳高,黃曉斌.人工智能時代文本與數(shù)據(jù)挖掘合理使用規(guī)則設計研究[J].圖書情報工作,2021(22):3-13.
[12]焦和平.人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權風險及化解路徑[J].當代法學,2022(04):128-140.
[13]張惠彬,肖啟賢.人工智能時代文本與數(shù)據(jù)挖掘的版權豁免規(guī)則建構[J].科技與法律(中英文),2021(06):74-84.
[14]董凡,關永紅.論文本與數(shù)字挖掘技術應用的版權例外規(guī)則構建[J].河北法學,2019(09):148-160.
[15]萬勇.著作權法三步檢驗標準的誤解澄清與本土重塑[J].上海政法學院學報(法治論叢).2022(04):42-55.