摘要:生成式人工智能在使用版權(quán)作品進(jìn)行數(shù)據(jù)訓(xùn)練時(shí),不可避免地會(huì)引發(fā)侵權(quán)問(wèn)題。同時(shí),作為技術(shù)支持者和服務(wù)提供者的技術(shù)企業(yè),也面臨著版權(quán)挑戰(zhàn)。首先,輸入端的文本和數(shù)據(jù)挖掘內(nèi)容往往難以構(gòu)成合理使用。其次,輸出端生成物的版權(quán)歸屬問(wèn)題也難以明確。隨著企業(yè)對(duì)數(shù)據(jù)依賴程度的不斷加深,版權(quán)風(fēng)險(xiǎn)和合規(guī)問(wèn)題也日益突出。本文旨在探討生成式人工智能企業(yè)所面臨的版權(quán)風(fēng)險(xiǎn),并提出相應(yīng)的合規(guī)的風(fēng)險(xiǎn)防范策略,以期在人工智能技術(shù)蓬勃發(fā)展的背景下,促進(jìn)這些企業(yè)的進(jìn)步與創(chuàng)新。
關(guān)鍵詞:生成式人工智能、訓(xùn)練數(shù)據(jù)版權(quán)、合理使用、企業(yè)合規(guī)
引言
《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱《暫行辦法》)定義了“生成式人工智能服務(wù)提供者”,即那些運(yùn)用生成式人工智能技術(shù),通過(guò)提供可編程接口等方式,提供服務(wù)的組織或個(gè)人。國(guó)內(nèi)學(xué)者進(jìn)一步區(qū)分了技術(shù)支持者這一概念,強(qiáng)調(diào)其與服務(wù)提供者在版權(quán)侵權(quán)風(fēng)險(xiǎn)上的不同[1]。以O(shè)penAI公司的發(fā)展為例,可以看出這兩類主體往往存在重疊。技術(shù)支持者可能專注于算法或語(yǔ)言訓(xùn)練規(guī)則方法的研究與創(chuàng)新,而另一類企業(yè)則在此基礎(chǔ)上提供服務(wù),這已成為一種趨勢(shì)。由于大公司能夠購(gòu)買和使用龐大的受訓(xùn)數(shù)據(jù)庫(kù),并擁有廣泛的用戶群體,其研發(fā)的人工智能受訓(xùn)效率自然更高。同時(shí),大企業(yè)資金雄厚,能夠同時(shí)進(jìn)行研發(fā)和服務(wù)提供。在當(dāng)前人工智能時(shí)代,生成式人工智能技術(shù)企業(yè)無(wú)疑會(huì)關(guān)注技術(shù)應(yīng)用中的版權(quán)風(fēng)險(xiǎn),并迫切需要法律合規(guī)的解決方案。本文旨在分析在掌握研發(fā)人工智能技術(shù)的同時(shí)作為服務(wù)提供者所面臨的版權(quán)風(fēng)險(xiǎn),并探討相應(yīng)的合規(guī)路徑。
一、生成式人工智能的技術(shù)原理
生成式人工智能是指基于深度學(xué)習(xí)模型與人類反饋強(qiáng)化學(xué)習(xí)等技術(shù),通過(guò)學(xué)習(xí)大量數(shù)據(jù)來(lái)生成新的、與原始數(shù)據(jù)相似但不完全相同的數(shù)據(jù)。其典型應(yīng)用包括文本生成、圖像生成以及音頻生成等。新一代大規(guī)模語(yǔ)言模型,如GPT-4,采用多層Transformer模型嵌套的方式來(lái)捕捉文本中的長(zhǎng)距離依賴關(guān)系。Transformer架構(gòu)完全基于注意力機(jī)制,摒棄了傳統(tǒng)的循環(huán)遞歸和卷積結(jié)構(gòu)。在此模型中,每個(gè)詞或子詞都能從輸入序列的任何位置獲取信息,從而增強(qiáng)了模型對(duì)文本上下文關(guān)系的理解能力??傊乱淮笠?guī)模語(yǔ)言模型通過(guò)利用Transformer架構(gòu)和大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,學(xué)會(huì)了理解和生成人類語(yǔ)言,并在多種任務(wù)上展現(xiàn)出了卓越的性能。
二、生成式人工智能企業(yè)的版權(quán)風(fēng)險(xiǎn)樣態(tài)
生成式人工智能企業(yè),在作為該技術(shù)的開(kāi)發(fā)者和服務(wù)提供商的角色中,無(wú)論是在研發(fā)的初期階段還是在產(chǎn)品投入使用的階段,都不可避免地遭遇版權(quán)風(fēng)險(xiǎn)。在輸入端,這些企業(yè)使用海量訓(xùn)練數(shù)據(jù)時(shí),引發(fā)了關(guān)于學(xué)習(xí)數(shù)據(jù)是否能被合理使用的討論。而在輸出端,它們則面臨關(guān)于生成內(nèi)容版權(quán)歸屬的爭(zhēng)議。
(一)輸入端的版權(quán)侵權(quán)風(fēng)險(xiǎn)
在使用生成式人工智能時(shí),用戶僅需輸入指令或關(guān)鍵字詞,即可獲得包括文本創(chuàng)作、技術(shù)方案、問(wèn)題解答在內(nèi)的全面回復(fù)。例如,ChatGPT能夠根據(jù)上下文推理,從而推斷出相應(yīng)的答案。這種功能強(qiáng)大的人工智能之所以能夠?qū)崿F(xiàn),是因?yàn)樗蕾囉诖罅康膭?chuàng)作素材[2]。企業(yè)收集了海量的文獻(xiàn)數(shù)據(jù),并用這些數(shù)據(jù)來(lái)訓(xùn)練人工智能,這引發(fā)了文本與數(shù)據(jù)挖掘合理使用的問(wèn)題?,F(xiàn)實(shí)中,《紐約郵報(bào)》等新聞集團(tuán)正準(zhǔn)備通過(guò)法律途徑向技術(shù)制造商,如OpenAI、微軟和谷歌,提出賠償要求。隨著AI時(shí)代的進(jìn)步,類似的訴訟已經(jīng)擴(kuò)展到在AI模型訓(xùn)練中使用圖像和代碼數(shù)據(jù)的問(wèn)題[3]。法律判決的關(guān)鍵在于,AI公司是否有權(quán)從互聯(lián)網(wǎng)上抓取內(nèi)容,并將其用于訓(xùn)練模型。
1.數(shù)據(jù)采集時(shí)面臨侵權(quán)風(fēng)險(xiǎn)。生成式人工智能企業(yè)進(jìn)行數(shù)據(jù)采集時(shí),采用的是文本與數(shù)據(jù)挖掘技術(shù)(TDM)。根據(jù)歐盟《單一數(shù)字市場(chǎng)版權(quán)指令》的定義,TDM是指任何旨在分析數(shù)字形式的文本和數(shù)據(jù),以便生成包括但不限于模型、發(fā)展方向以及相互關(guān)系等有益信息的計(jì)算機(jī)分析技術(shù)[4]。
我國(guó)《著作權(quán)法》雖然增設(shè)了合理使用的兜底條款,但生成式人工智能企業(yè)所實(shí)施的TDM行為并不符合其中的“個(gè)人使用”例外規(guī)定。因?yàn)門DM的實(shí)施需要大量技術(shù)和資金支撐,個(gè)人通常無(wú)法成為TDM的主體,因此“個(gè)人使用”的例外規(guī)定很難為企業(yè)的數(shù)據(jù)挖掘行為提供法律依據(jù)。
此外,TDM行為也不符合“教學(xué)或科研少量復(fù)制使用”的例外規(guī)定。一方面,生成式人工智能企業(yè)的主要宗旨是追求商業(yè)利潤(rùn),而非進(jìn)行科研活動(dòng);另一方面,即使是以科研為目的,TDM技術(shù)“全數(shù)據(jù)采樣”的特點(diǎn)也難以滿足“少量復(fù)制”的要求。另外,《信息網(wǎng)絡(luò)傳播權(quán)保護(hù)條例》規(guī)定,未獲許可擅自傳播作品時(shí)應(yīng)當(dāng)標(biāo)明“作品來(lái)源”,但目前TDM技術(shù)難以辨識(shí)挖掘?qū)ο蟮臋?quán)利屬性,這也增加了企業(yè)在數(shù)據(jù)采集過(guò)程中面臨的侵權(quán)風(fēng)險(xiǎn)[5]。
2.數(shù)據(jù)分析過(guò)程中的侵權(quán)風(fēng)險(xiǎn)不容忽視。在數(shù)據(jù)處理階段,企業(yè)需對(duì)數(shù)據(jù)進(jìn)行復(fù)制、翻譯、標(biāo)記、分析等一系列操作。然而,即便數(shù)據(jù)集是公開(kāi)獲取或已購(gòu)買的,企業(yè)在使用時(shí)也必須確保遵守版權(quán)法的相關(guān)規(guī)定,因?yàn)閷W(xué)習(xí)對(duì)象的版權(quán)壁壘往往較高。在訓(xùn)練過(guò)程中,大量語(yǔ)料庫(kù)內(nèi)容被復(fù)制到數(shù)據(jù)庫(kù)中,這在現(xiàn)行著作權(quán)法下可能構(gòu)成對(duì)復(fù)制權(quán)的侵犯。此外,如果生成式人工智能經(jīng)過(guò)機(jī)器學(xué)習(xí)、數(shù)據(jù)分析后生成的最終內(nèi)容與先前學(xué)習(xí)的作品存在實(shí)質(zhì)性相似,那么還可能侵犯著作權(quán)法中的演繹權(quán)。
從ChatGPT的運(yùn)作原理來(lái)看,其在進(jìn)行深度自主學(xué)習(xí)之前,會(huì)先對(duì)知識(shí)與信息內(nèi)容進(jìn)行數(shù)字化處理,并轉(zhuǎn)化為數(shù)據(jù)格式進(jìn)行存儲(chǔ)。這兩種數(shù)字化處理方式實(shí)際上都是在不改變內(nèi)容的情況下對(duì)作品進(jìn)行復(fù)制,并且復(fù)制的內(nèi)容會(huì)永久存儲(chǔ)在ChatGPT的系統(tǒng)中。從著作權(quán)法的角度來(lái)看,ChatGPT的這種數(shù)據(jù)挖掘行為屬于“復(fù)制”行為,存在侵犯復(fù)制權(quán)的風(fēng)險(xiǎn)。雖然演繹權(quán)在法律條文中沒(méi)有明確列出,但我國(guó)《著作權(quán)法》已將演繹權(quán)進(jìn)一步細(xì)分為改編權(quán)、翻譯權(quán)、攝制權(quán)和匯編權(quán)等。在生成式人工智能的數(shù)據(jù)分析階段,開(kāi)發(fā)人員需要對(duì)海量的信息數(shù)據(jù)進(jìn)行標(biāo)注、翻譯、標(biāo)記、整理、匯總等操作。這些操作并非針對(duì)某個(gè)作者的單一作品進(jìn)行的簡(jiǎn)單復(fù)制,而是涉及多個(gè)具備獨(dú)創(chuàng)性、受版權(quán)保護(hù)的作品的侵權(quán)性使用,因此存在侵害演繹權(quán)的風(fēng)險(xiǎn)。
(二)輸出端的版權(quán)侵權(quán)風(fēng)險(xiǎn)
1.“版權(quán)主體不適格”問(wèn)題。目前,學(xué)界普遍認(rèn)為作品是作者人格的體現(xiàn)。然而,人工智能的生成內(nèi)容雖然具備人類作品的形式要件,但在創(chuàng)作過(guò)程中缺乏主體意識(shí),不具有內(nèi)在的人格基礎(chǔ),因此不符合作品的構(gòu)成要件。當(dāng)前,亟須解決的問(wèn)題是,生成式人工智能的人格權(quán)能否被承認(rèn)?若其人格權(quán)得到承認(rèn),其生成內(nèi)容是否屬于作品?以及版權(quán)權(quán)利應(yīng)如何歸屬?
2.生成式人工智能所生成的作品,是通過(guò)其算法不斷優(yōu)化推演而來(lái)。然而,該過(guò)程缺乏人類所特有的主觀能動(dòng)性及情感投入,尤其在文化藝術(shù)領(lǐng)域,這樣的生成內(nèi)容往往難以與社會(huì)大眾產(chǎn)生情感上的共鳴,更難以滿足其深層次的精神需求。
著作權(quán)法保護(hù)的是對(duì)思想觀念的獨(dú)創(chuàng)性表達(dá),而非思想觀念本身。其中,“獨(dú)”是判斷作品是否具有獨(dú)創(chuàng)性的性質(zhì)門檻,而“創(chuàng)”則衡量獨(dú)創(chuàng)性的高低程度。生成式人工智能無(wú)法獨(dú)立完成創(chuàng)作,它既依賴于海量信息數(shù)據(jù)的輸入,也需要使用者提供具體指令才能生成內(nèi)容。因此,其創(chuàng)作能力的真實(shí)性值得懷疑。此外,生成式人工智能的輸出內(nèi)容完全基于其學(xué)習(xí)材料(即訓(xùn)練集),這導(dǎo)致輸出內(nèi)容很可能與已受版權(quán)保護(hù)的作品存在相似性。
3.版權(quán)信息標(biāo)注存在挑戰(zhàn)?!稌盒修k法》已規(guī)定生成式人工智能在創(chuàng)作作品時(shí)需添加標(biāo)簽,注明其為人工智能生成。然而,對(duì)大語(yǔ)言模型所生成的文本進(jìn)行顯著且有效地標(biāo)識(shí),在技術(shù)上存在較大難度。全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布的《網(wǎng)絡(luò)安全標(biāo)注實(shí)踐指南——生成式人工智能服務(wù)內(nèi)容標(biāo)識(shí)方法》中,多數(shù)方法僅適用于圖片、音頻和視頻等類型的內(nèi)容,并未涵蓋文本。因此,由于這一技術(shù)局限,生成式人工智能有可能使企業(yè)面臨版權(quán)侵權(quán)的風(fēng)險(xiǎn)。
4.作品的傳播權(quán)可能受到侵害。生成式人工智能企業(yè)在進(jìn)行數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或?qū)崿F(xiàn)研究結(jié)果可驗(yàn)證性時(shí),需要將數(shù)據(jù)或文本通過(guò)互聯(lián)網(wǎng)進(jìn)行傳輸。然而,這一過(guò)程中可能夾雜著受版權(quán)保護(hù)的作品,從而可能侵犯著作權(quán)人的向公眾傳播權(quán)。此外,在人工智能投入使用后,使用者輸入指令生成與版權(quán)相關(guān)的回答內(nèi)容,并將這些內(nèi)容上傳至網(wǎng)絡(luò)或出于經(jīng)濟(jì)利益進(jìn)行其他使用,這一行為同樣可能侵害著作權(quán)人的傳播權(quán)。
三、生成式人工智能企業(yè)的合規(guī)路徑建議
(一)企業(yè)前期風(fēng)險(xiǎn)把控階段
1.風(fēng)險(xiǎn)預(yù)期與管理。根據(jù)國(guó)家網(wǎng)信辦等頒布的《暫行辦法》第4條規(guī)定,企業(yè)應(yīng)在開(kāi)展相應(yīng)的運(yùn)營(yíng)活動(dòng)之前,切實(shí)做好可控風(fēng)險(xiǎn)的測(cè)試、預(yù)估和預(yù)防措施。在技術(shù)條件尚不成熟、無(wú)法有效控制相關(guān)風(fēng)險(xiǎn)的情形下,不得貿(mào)然將人工智能技術(shù)投入運(yùn)營(yíng)。
2.信息真實(shí)性審查。生成式人工智能在訓(xùn)練過(guò)程中依賴海量信息作為參數(shù),但現(xiàn)有技術(shù)無(wú)法完全剔除輸入程序中的虛假信息,這必然導(dǎo)致人工智能學(xué)習(xí)錯(cuò)誤知識(shí)并得出錯(cuò)誤結(jié)果。為應(yīng)對(duì)這一問(wèn)題,企業(yè)應(yīng)對(duì)數(shù)據(jù)處理過(guò)程進(jìn)行全面記錄和管理,確保數(shù)據(jù)的可追溯性和可信度。鑒于當(dāng)前生成式人工智能的技術(shù)水平無(wú)法有效甄別虛假信息,企業(yè)難以完全識(shí)別并阻止虛假信息的輸入。因此,企業(yè)應(yīng)借鑒ChatGPT團(tuán)隊(duì)的做法,建立專業(yè)小組,采用一系列“檢測(cè)和刪除不當(dāng)內(nèi)容的技術(shù)組合”來(lái)解決這個(gè)問(wèn)題。這一過(guò)程應(yīng)包括預(yù)審核、過(guò)濾等關(guān)鍵技術(shù)環(huán)節(jié)。
(二)輸入過(guò)程中企業(yè)風(fēng)險(xiǎn)規(guī)避
1.文本與數(shù)據(jù)挖掘行為應(yīng)尊重作品的合理使用原則。在進(jìn)行此類活動(dòng)前,應(yīng)確保所使用的數(shù)據(jù)和文本來(lái)源合法,并充分尊重版權(quán)所有者的權(quán)益。若需對(duì)特定文本數(shù)據(jù)進(jìn)行付費(fèi)使用,而未獲得相應(yīng)許可,則必須遵守相關(guān)法律法規(guī)和倫理規(guī)范,以確保文本與數(shù)據(jù)挖掘行為的合法性和合規(guī)性。例如,在預(yù)處理階段,可以采取去除特殊字符、轉(zhuǎn)換為小寫(xiě)字母、去除停用詞等措施。同時(shí),建議相關(guān)企業(yè)和研究人員密切關(guān)注國(guó)際上關(guān)于文本與數(shù)據(jù)挖掘的版權(quán)規(guī)定和最新動(dòng)向,以便及時(shí)調(diào)整策略,有效保障自身的合法權(quán)益。
2.優(yōu)化算法方面,我們應(yīng)在算法模型上減少對(duì)單一在線版權(quán)作品的依賴,并降低訓(xùn)練數(shù)據(jù)對(duì)生成物的影響。針對(duì)不同領(lǐng)域的文本,我們應(yīng)采用不同的預(yù)處理方法和技術(shù)。具體而言,根據(jù)文本的領(lǐng)域分類,選擇相應(yīng)的預(yù)處理策略,并運(yùn)用不同的特征提取方法,將文本轉(zhuǎn)換為模型能夠處理的向量表示。此外,我們還應(yīng)通過(guò)調(diào)整不同的超參數(shù)設(shè)置和優(yōu)化算法,來(lái)進(jìn)一步提升模型的性能和精度。
(三)輸出內(nèi)容后企業(yè)風(fēng)險(xiǎn)規(guī)避
1.在服務(wù)提供領(lǐng)域,生成式人工智能產(chǎn)生虛假信息的原因不僅限于服務(wù)提供者,還包括用戶的行為。然而,用戶通常不具備相關(guān)專業(yè)知識(shí)和能力,更難以理解和評(píng)估人工智能產(chǎn)品的算法及其可解釋性,以及相關(guān)的風(fēng)險(xiǎn)預(yù)防問(wèn)題。因此,責(zé)任應(yīng)當(dāng)?shù)怪茫从删邆浼夹g(shù)和信息優(yōu)勢(shì)的企業(yè)承擔(dān)充分提示使用要求、盡到風(fēng)險(xiǎn)告知義務(wù)的責(zé)任。
2.針對(duì)生成虛假內(nèi)容的補(bǔ)救措施,企業(yè)應(yīng)確保對(duì)生成式人工智能輸出的信息作出必要標(biāo)識(shí)。例如,為這類信息添加水印,以避免使用者因過(guò)度信任人工智能產(chǎn)品而遭受損害。對(duì)于涉及真實(shí)人物或可能引發(fā)爭(zhēng)議的圖片、視頻內(nèi)容,應(yīng)明確規(guī)定產(chǎn)品必須自動(dòng)并明顯地標(biāo)注“深度合成”等提醒字樣。在對(duì)話聊天型的生成式人工智能中,若涉及查詢類問(wèn)題,應(yīng)強(qiáng)制要求其在回答中提醒用戶答案可能不準(zhǔn)確。在此方面,生成式人工智能企業(yè)至少應(yīng)承擔(dān)起警示的義務(wù)。此外,還應(yīng)加強(qiáng)對(duì)服務(wù)提供平臺(tái)的監(jiān)管,通常而言,互聯(lián)網(wǎng)平臺(tái)的管理能力與其技術(shù)水平成正比。
四、結(jié)語(yǔ)
我國(guó)正處于從人工智能大國(guó)向人工智能強(qiáng)國(guó)邁進(jìn)的過(guò)程中,科技的快速發(fā)展往往伴隨著法律規(guī)范的滯后。不僅技術(shù)需要在法律的框架下不斷突破,支撐技術(shù)開(kāi)發(fā)背后的生成式人工智能企業(yè)的法律合規(guī)問(wèn)題也值得我們高度重視。因此,我們不僅要鼓勵(lì)生成式人工智能企業(yè)的創(chuàng)新和發(fā)展,還要監(jiān)管并督促這些企業(yè)采取必要的技術(shù)措施,預(yù)防侵權(quán)行為的發(fā)生,降低損害的風(fēng)險(xiǎn),從而推動(dòng)我國(guó)人工智能產(chǎn)業(yè)健康、合規(guī)地發(fā)展。
參考文獻(xiàn):
[1]邵紅紅.生成式人工智能版權(quán)侵權(quán)治理研究[J].出版發(fā)行研究,2023(06):29-38.
[2]馮志偉,張燈柯,饒高琦.從圖靈測(cè)試到ChatGPT——人機(jī)對(duì)話的里程碑及啟示[J].語(yǔ)言戰(zhàn)略研究,2023,8(02):20-24.
[3]文巧.訓(xùn)練ChatGPT模型不付錢?文字版權(quán)商要與OpenAI法院見(jiàn)[N].每日經(jīng)濟(jì)新聞,2023-03-28(005).
[4]司曉,曹建峰.歐盟版權(quán)法改革中的大數(shù)據(jù)與人工智能問(wèn)題研究[J].西北工業(yè)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2019(03):95-102+3.
[5]馬治國(guó),趙龍.文本與數(shù)據(jù)挖掘?qū)χ鳈?quán)例外體系的沖擊與應(yīng)對(duì)[J].西北師大學(xué)報(bào)(社會(huì)科學(xué)版),2021,58(04):107-115.
〔基金項(xiàng)目:本課題獲得西安財(cái)經(jīng)大學(xué)研究生創(chuàng)新基金項(xiàng)目資助,項(xiàng)目名稱“人工智能技術(shù)下文本與數(shù)據(jù)挖掘的版權(quán)合理使用問(wèn)題研究”(22YC045)〕
(作者簡(jiǎn)介:戴心遠(yuǎn),西安財(cái)經(jīng)大學(xué)研究生。喬瑜,西安財(cái)經(jīng)大學(xué)副教授。)
中國(guó)經(jīng)貿(mào)導(dǎo)刊2024年12期