一、人工智能數(shù)據(jù)訓(xùn)練的著作權(quán)侵權(quán)分析
(一)人工智能數(shù)據(jù)訓(xùn)練的運(yùn)用
當(dāng)前,生成式人工智能專注于通過對大量數(shù)據(jù)的學(xué)習(xí)和分析,生成、創(chuàng)作全新的內(nèi)容,豐富人工智能的內(nèi)涵和應(yīng)用場景,推動人工智能技術(shù)的進(jìn)一步發(fā)展,然而這也帶來新的問題和挑戰(zhàn),促使人們重新審視人工智能的倫理、法律和社會影響,推動整個人工智能領(lǐng)域在發(fā)展過程中更加注重平衡技術(shù)進(jìn)步與風(fēng)險防范。
生成式人工智能數(shù)據(jù)訓(xùn)練是其核心環(huán)節(jié),對模型性能和應(yīng)用效果起關(guān)鍵作用。生成式人工智能通過搜集、學(xué)習(xí)大量數(shù)據(jù)并將數(shù)據(jù)進(jìn)行預(yù)處理、整合等一系列流程,使模型掌握數(shù)據(jù)規(guī)律與模式,進(jìn)而生成新內(nèi)容。在數(shù)據(jù)訓(xùn)練過程中,生成式人工智能接觸到的數(shù)據(jù)越豐富多樣,其生成的內(nèi)容也就越多樣化[1]。隨著訓(xùn)練的深入,生成式人工智能還能夠不斷優(yōu)化生成的內(nèi)容,提高生成內(nèi)容的質(zhì)量,使其更滿足用戶的需求。
(二)人工智能數(shù)據(jù)訓(xùn)練的著作權(quán)侵權(quán)風(fēng)險
近年,國內(nèi)生成式人工智能數(shù)據(jù)訓(xùn)練著作權(quán)侵權(quán)案件頻發(fā)。要解決這些問題,有關(guān)主體亟須從法律政策、技術(shù)創(chuàng)新等不同維度采取措施,在推動人工智能產(chǎn)業(yè)健康發(fā)展的同時實現(xiàn)技術(shù)創(chuàng)新與版權(quán)保護(hù)的利益平衡。
生成式人工智能數(shù)據(jù)訓(xùn)練著作權(quán)風(fēng)險貫穿始終,首先,在數(shù)據(jù)收集階段,生成式人工智能數(shù)據(jù)訓(xùn)練所汲取的數(shù)據(jù)來源廣泛,這使得逐一獲取授權(quán)幾乎是不可能完成的任務(wù),某些人工智能數(shù)據(jù)訓(xùn)練在實際操作中選擇繞過授權(quán)環(huán)節(jié),從而引發(fā)著作權(quán)侵權(quán)風(fēng)險[2]。其次,在數(shù)據(jù)處理階段,生成式人工智能對原作品進(jìn)行翻譯、改編或匯編時,可能侵犯作者的演繹權(quán),尤其數(shù)據(jù)訓(xùn)練過程對輸入的數(shù)據(jù)進(jìn)行分析、處理和轉(zhuǎn)換,這可能會改變數(shù)據(jù)的原有形式和內(nèi)容,從而構(gòu)成對改編權(quán)的侵犯[3]。最后,在數(shù)據(jù)輸出階段,生成式人工智能數(shù)據(jù)訓(xùn)練可能包含大量源自未授權(quán)作品的元素,會導(dǎo)致對作品信息網(wǎng)絡(luò)傳播權(quán)的侵犯,且其輸出的內(nèi)容是機(jī)器內(nèi)部的深度學(xué)習(xí)行為,具有一定隱蔽性,著作權(quán)人舉證證明自己的原創(chuàng)內(nèi)容被用于數(shù)據(jù)訓(xùn)練存在難度??梢?,人工智能數(shù)據(jù)訓(xùn)練中著作權(quán)問題的表現(xiàn)形式多樣,且隨著技術(shù)的發(fā)展和應(yīng)用場景的拓展,還可能出現(xiàn)新的侵權(quán)形式。為了應(yīng)對這些侵權(quán)風(fēng)險,法律上的侵權(quán)責(zé)任豁免事由,如合理使用、法定許可等被不斷提及。然而,這些制度在人工智能的實際應(yīng)用中存在適用困境。未來,有關(guān)主體亟須在法律和技術(shù)等方面不斷探索完善,以更好地平衡技術(shù)發(fā)展與版權(quán)保護(hù)之間的關(guān)系[4]。
二、人工智能數(shù)據(jù)訓(xùn)練的著作權(quán)侵權(quán)認(rèn)定及問題
(一)人工智能數(shù)據(jù)訓(xùn)練的著作權(quán)侵權(quán)認(rèn)定
1.人工智能數(shù)據(jù)訓(xùn)練中的非表達(dá)性使用
非表達(dá)性使用在美國SegaEnters.v.Accolade,Inc.案中被首次援引,該案判決認(rèn)為被告Accolade公司將Sega公司的作品作為計算機(jī)程序的輸入材料,沒有表達(dá)性地使用作品,不構(gòu)成侵權(quán)[5]。其認(rèn)為,在人工智能基礎(chǔ)模型訓(xùn)練中,對他人作品的非表達(dá)性使用是基于作品的工具性價值,并非利用原作品的獨(dú)創(chuàng)性表達(dá),因此不屬于著作權(quán)法規(guī)制的侵權(quán)事項。也有學(xué)者認(rèn)為,人工智能數(shù)據(jù)訓(xùn)練不可避免地吸收作者的獨(dú)創(chuàng)性表達(dá)成分,并將其存儲到計算機(jī)的內(nèi)存、硬盤等設(shè)備。因此,非表達(dá)性使用并不能完全規(guī)避人工智能數(shù)據(jù)訓(xùn)練中潛在的著作權(quán)侵權(quán)風(fēng)險。
2.人工智能數(shù)據(jù)訓(xùn)練中合理使用的適用性問題
我國著作權(quán)法規(guī)定多種合理使用的情形,但在人工智能數(shù)據(jù)訓(xùn)練過程中,人工智能對數(shù)據(jù)的利用及其輸出內(nèi)容通常具有商業(yè)性,這與傳統(tǒng)的合理使用中非商業(yè)性的目的要件存在沖突。此外,人工智能數(shù)據(jù)訓(xùn)練中對作品的使用量往往是海量的,遠(yuǎn)遠(yuǎn)超出傳統(tǒng)合理使用中“適當(dāng)引用”的范圍。在實踐中,一些人工智能研發(fā)者認(rèn)為數(shù)據(jù)訓(xùn)練行為屬于合理使用的范疇,但著作權(quán)人則持不同意見,雙方往往因此產(chǎn)生糾紛[6]。由此,司法實踐由于缺乏明確的法律依據(jù)和判斷標(biāo)準(zhǔn),難以做出準(zhǔn)確的裁決。
(二)人工智能數(shù)據(jù)訓(xùn)練的著作權(quán)侵權(quán)認(rèn)定問題
傳統(tǒng)的著作權(quán)侵權(quán)認(rèn)定的標(biāo)準(zhǔn)為“接觸 + 實質(zhì)性相似 + 法定利用行為”,在人工智能數(shù)據(jù)訓(xùn)練場景中,這一標(biāo)準(zhǔn)的適用面臨諸多難題。在證明“接觸”方面,人工智能數(shù)據(jù)訓(xùn)練往往涉及海量數(shù)據(jù),要逐一證明其沒有接觸過某一特定的受著作權(quán)保護(hù)的作品難度巨大。同時,人工智能模型數(shù)據(jù)訓(xùn)練提取特征式的處理方式使得傳統(tǒng)的“實質(zhì)性相似”判斷標(biāo)準(zhǔn)難以直接適用[7],即使是基于相同的訓(xùn)練數(shù)據(jù),在不同的輸入條件下也可能生成不同的結(jié)果?!胺ǘɡ眯袨椤敝饕ê侠硎褂?、法定許可、強(qiáng)制許可等,在侵權(quán)認(rèn)定過程中適用“合理使用”這一利用行為進(jìn)行抗辯的情形相對更具爭議,不足以解決人工智能數(shù)據(jù)訓(xùn)練中的著作權(quán)侵權(quán)問題。
1.非表達(dá)性使用規(guī)則
非表達(dá)性使用規(guī)則以“實施復(fù)制即侵權(quán)”為預(yù)設(shè)前提,但根據(jù)我國著作權(quán)法規(guī)定來看,實施復(fù)制行為并不必然構(gòu)成侵權(quán),也有可能構(gòu)成合理使用。為了進(jìn)行技術(shù)研發(fā)、科學(xué)研究等實施的合理復(fù)制行為,與傳統(tǒng)的侵權(quán)型復(fù)制存在本質(zhì)區(qū)別。合理使用制度旨在平衡著作權(quán)人的利益和社會公共利益,而非表達(dá)性使用規(guī)則是否能完全被納入合理使用的范疇,還需要有關(guān)主體進(jìn)一步探討。此外,對非表達(dá)性使用的判斷標(biāo)準(zhǔn)尚未明確,這導(dǎo)致在侵權(quán)認(rèn)定中缺乏統(tǒng)一的依據(jù),容易出現(xiàn)不同法官或機(jī)構(gòu)對同一行為的判斷結(jié)果不一致的情況。
2.合理使用制度
目前,我國著作權(quán)法對合理使用制度的窮盡式列舉中并沒有涉及人工智能數(shù)據(jù)訓(xùn)練這種新興作品使用行為,在一定程度上難以適應(yīng)人工智能的發(fā)展變化,其兜底條款規(guī)定也較為模糊,難以預(yù)判并涵蓋所有在人工智能數(shù)據(jù)訓(xùn)練的過程中可能出現(xiàn)的情形。這樣便會進(jìn)一步導(dǎo)致在司法裁判中,適用兜底條款難以決斷人工智能數(shù)據(jù)訓(xùn)練是否構(gòu)成合理使用,可能造成過度保護(hù)一方利益,而損害另一方利益的情況,破壞利益平衡關(guān)系。人工智能技術(shù)的快速發(fā)展使得數(shù)據(jù)訓(xùn)練的方式和自的發(fā)生變化,導(dǎo)致傳統(tǒng)的合理使用制度難以適應(yīng)這種變化。在大規(guī)模數(shù)據(jù)訓(xùn)練中,人工智能對作品的使用方式更加復(fù)雜,涉及更多的技術(shù)環(huán)節(jié)和利益主體,這給合理使用制度的適用帶來挑戰(zhàn),無論在著作權(quán)人與人工智能使用者之間抑或是在公共利益與個人利益之間,都難以尋求平衡點[8]。
三、利益平衡視域下人工智能數(shù)據(jù)訓(xùn)練的著作權(quán)侵權(quán)認(rèn)定分析
(一)技術(shù)保護(hù)
我國著作權(quán)法第四十九條規(guī)定,為保護(hù)著作權(quán)和與著作權(quán)有關(guān)的權(quán)利,權(quán)利人可以采取技術(shù)措施。在人工智能數(shù)據(jù)訓(xùn)練情景下,有關(guān)主體應(yīng)通過對技術(shù)保護(hù)的適用范圍細(xì)化等方式,便于權(quán)利人選用多種技術(shù)手段從不同角度保護(hù)作品。例如,權(quán)利人可以借助技術(shù)保護(hù)措施,或通過設(shè)置口令、防止復(fù)制或接觸的水印或密碼,或者對侵權(quán)風(fēng)險較大的作品以“貼標(biāo)簽”等明示的方式進(jìn)行提示,防止用戶未經(jīng)許可使用或者接觸作品;權(quán)利人可以利用技術(shù)保護(hù)措施,實現(xiàn)對其享有著作權(quán)作品的在線授權(quán)許可,在保護(hù)權(quán)益的同時有效降低人工智能數(shù)據(jù)訓(xùn)練的侵權(quán)風(fēng)險[9]。此外,有關(guān)主體還應(yīng)完善相關(guān)法律法規(guī),在利用技術(shù)保護(hù)措施對權(quán)利人的合法權(quán)益進(jìn)行保護(hù)的同時,注意與合理使用相協(xié)調(diào),通過技術(shù)手段實現(xiàn)對合理使用的識別和授權(quán),從而平衡著作權(quán)保護(hù)與公眾利益之間的關(guān)系[10]
(二)注意義務(wù)
人工智能開發(fā)者作為有關(guān)主體應(yīng)明確其在數(shù)據(jù)訓(xùn)練中涉及的作品的著作權(quán)以及在使用作品過程中的注意義務(wù),確保使用數(shù)據(jù)的行為符合法律規(guī)定。在數(shù)據(jù)收集環(huán)節(jié),有關(guān)主體應(yīng)對作品數(shù)據(jù)來源進(jìn)行嚴(yán)格審查,確保數(shù)據(jù)來源符合法律規(guī)定,不侵犯原著作權(quán)人利益[1]。在數(shù)據(jù)使用方面,有關(guān)主體也應(yīng)清晰界定使用的目的、范圍和方式,尤其對商業(yè)目的的數(shù)據(jù)訓(xùn)練,應(yīng)事先獲得權(quán)利人的許可,并支付合理的報酬,而對非商業(yè)目的的數(shù)據(jù)訓(xùn)練,應(yīng)在符合一定條件的情況下適用合理使用制度,并在使用過程中尊重權(quán)利人的其他權(quán)利。在權(quán)利人適用技術(shù)保護(hù)措施限制作品的收集、使用時,有關(guān)主體應(yīng)不能適用合理使用制度對作品進(jìn)行接觸[12]。此外,有關(guān)主體應(yīng)在數(shù)據(jù)訓(xùn)練的過程中采取相應(yīng)的技術(shù)手段避免人工智能輸出內(nèi)容侵犯權(quán)利人的權(quán)利。
(三)利益平衡
生成式人工智能數(shù)據(jù)訓(xùn)練涉及多方主體利益,平衡開發(fā)者、使用者與所有者等有關(guān)主體的權(quán)益對完善著作權(quán)侵權(quán)認(rèn)定路徑意義重大。首先,明確權(quán)利義務(wù)是平衡權(quán)益的基本依據(jù)。有關(guān)主體應(yīng)在人工智能數(shù)據(jù)訓(xùn)練中清晰界定所有者對作品的權(quán)利范圍,明確開發(fā)者獲取和使用數(shù)據(jù)的合法途徑與條件以及使用者在使用人工智能服務(wù)時的權(quán)益和限制,并明確合理使用的具體情形,在促進(jìn)技術(shù)創(chuàng)新的同時防止開發(fā)者過度利用數(shù)據(jù)侵犯所有者權(quán)益[13]。其次,采取技術(shù)措施是平衡權(quán)益的重要手段。所有者應(yīng)運(yùn)用加密、數(shù)字水印等技術(shù)保護(hù)作品,限制未經(jīng)授權(quán)的訪問和使用;在數(shù)據(jù)訓(xùn)練過程中開發(fā)者應(yīng)尊重這些技術(shù)措施,不得擅自破解或規(guī)避,并利用技術(shù)手段對數(shù)據(jù)進(jìn)行管理和監(jiān)控,確保數(shù)據(jù)的使用符合法律規(guī)定和道德規(guī)范;使用者應(yīng)在發(fā)現(xiàn)生成式人工智能可能對作品、數(shù)據(jù)等構(gòu)成侵權(quán)時,及時向相關(guān)部門、人工智能開發(fā)者告知,以便及時調(diào)整。最后,加強(qiáng)協(xié)商合作是平衡權(quán)益的有效方式。開發(fā)者應(yīng)與所有者協(xié)商,通過購買、授權(quán)等方式獲取合法的數(shù)據(jù)資源,共同推動人工智能技術(shù)的發(fā)展。所有者應(yīng)與開發(fā)者合作,將作品用于人工智能訓(xùn)練,從中獲得相應(yīng)的經(jīng)濟(jì)回報。使用者應(yīng)在使用人工智能服務(wù)時通過反饋和建議,促使開發(fā)者和所有者更好地滿
足自身需求[14]。
四、結(jié)語
文章通過對相關(guān)理論的考察、現(xiàn)狀分析、域外經(jīng)驗借鑒及路徑的探討,力求在人工智能發(fā)展與著作權(quán)保護(hù)之間尋求利益平衡。未來,有關(guān)主體亟須持續(xù)關(guān)注技術(shù)革新帶來的新問題,進(jìn)一步完善法律制度與監(jiān)管機(jī)制,以保障權(quán)利人的合法權(quán)益,推動人工智能產(chǎn)業(yè)創(chuàng)新發(fā)展,實現(xiàn)技術(shù)進(jìn)步與法律秩序的良性互動。
[參考文獻(xiàn)]
[1]涂藤.機(jī)器學(xué)習(xí)的著作權(quán)侵權(quán)判定:超越非表達(dá)性使用理論[J].政治與法律,2024(10):162-176.[2]詹愛嵐,田一農(nóng).生成式人工智能機(jī)器學(xué)習(xí)中的著作權(quán)風(fēng)險及其化解路徑[J].電子知識產(chǎn)權(quán),2023(11):4-14.
[3]黃細(xì)江.由ChatGPT窺探智能時代我國著作權(quán)法堅守與變革[J].知識產(chǎn)權(quán),2024(08):114-126.[4]劉杰勇.論人工智能生成內(nèi)容的著作權(quán)保護(hù):基于比較法的視角[J].比較法研究,2024(04):176-193.[5]袁帥.數(shù)字化背景下作品非表達(dá)性使用的著作權(quán)法應(yīng)對[J].知識產(chǎn)權(quán),2024(09):110-126.
[6]陶乾.基礎(chǔ)模型訓(xùn)練的著作權(quán)問題:理論澄清與規(guī)則適用[J].政法論壇,2024(05):152-164.
[7]宋戈.作品“實質(zhì)性相似 + 接觸”規(guī)則研究[D].武漢:中南財經(jīng)政法大學(xué),2019.
[8]徐小奔.技術(shù)中立視角下人工智能模型訓(xùn)練的著作權(quán)合理使用[J].法學(xué)評論,2024(04):86-99.
[9]韓雨瀟.人工智能大模型訓(xùn)練數(shù)據(jù)的版權(quán)風(fēng)險與化解路徑[J].中國出版,2025(02):54-59.
[10]吳漢東.論人工智能生成內(nèi)容的可版權(quán)性:實務(wù)、法理與制度[J].中國法律評論,2024(03):113-129.[11]劉禹.機(jī)器利用數(shù)據(jù)行為構(gòu)成著作權(quán)合理使用的經(jīng)濟(jì)分析[J].知識產(chǎn)權(quán),2024(03):107-126.
[12]馮曉青,沈韻.生成式人工智能版權(quán)問題研究[J].中國版權(quán),2023(02):15-22.
[13]李安.機(jī)器學(xué)習(xí)的版權(quán)規(guī)則:歷史啟示與當(dāng)代方案[J].環(huán)球法律評論,2023(06):97-113.
[14」張武軍,王嘉鐸.人機(jī)共融到人機(jī)共榮:以ChatGPT為例論生成式人工智能生成物的可著作權(quán)性問題[J」.電子知識產(chǎn)權(quán),2024(01):35-43