內(nèi)容提要:數(shù)據(jù)是人工智能大模型性能的決定性因素,也是法律關(guān)系最復(fù)雜、責(zé)任主體最繁復(fù)的領(lǐng)域。大模型廠商在使用數(shù)據(jù)來(lái)訓(xùn)練和應(yīng)用大模型時(shí),普遍面臨著作權(quán)侵權(quán)、違反個(gè)人信息處理要求和觸發(fā)不正當(dāng)競(jìng)爭(zhēng)等三大數(shù)據(jù)權(quán)益上的法律風(fēng)險(xiǎn),亟待從法律法規(guī)層面完善相關(guān)規(guī)則,發(fā)展負(fù)責(zé)任的人工智能。本文建議,合理平衡大模型廠商和大模型應(yīng)用服務(wù)商“兩個(gè)主體”、大模型研發(fā)訓(xùn)練和應(yīng)用服務(wù)“兩個(gè)階段”的法律責(zé)任。具體包括:一是將作品僅用于大模型訓(xùn)練適度納入著作權(quán)“合理使用”范疇,進(jìn)一步明確人工智能生成內(nèi)容享有著作權(quán)的認(rèn)定條件;二是適度放寬大模型訓(xùn)練階段對(duì)個(gè)人信息數(shù)據(jù)的使用限制,完善“匿名化”在實(shí)踐中的認(rèn)定標(biāo)準(zhǔn);三是適度包容用于大模型訓(xùn)練的數(shù)據(jù)爬取中的輕微不規(guī)范行為,為大模型的發(fā)展構(gòu)建鼓勵(lì)創(chuàng)新、包容審慎的監(jiān)管環(huán)境。
關(guān)鍵詞:大語(yǔ)言模型 數(shù)據(jù)權(quán)益 合理使用 著作權(quán) 個(gè)人信息數(shù)據(jù)
一、人工智能大模型研發(fā)應(yīng)用在數(shù)據(jù)權(quán)益上存在三大法律問(wèn)題
(一)著作權(quán)侵權(quán)問(wèn)題
其主要表現(xiàn)在訓(xùn)練數(shù)據(jù)著作權(quán)侵權(quán)和大模型生成內(nèi)容著作權(quán)侵權(quán)兩方面。
1.開(kāi)源數(shù)據(jù)和網(wǎng)頁(yè)爬蟲(chóng)數(shù)據(jù)是大模型訓(xùn)練數(shù)據(jù)的主要來(lái)源,但著作權(quán)侵權(quán)風(fēng)險(xiǎn)較為突出
以國(guó)內(nèi)某大模型使用的訓(xùn)練數(shù)據(jù)為例,爬取自通用網(wǎng)頁(yè)和開(kāi)源社區(qū)的數(shù)據(jù)量約占訓(xùn)練數(shù)據(jù)總量的84%。然而,這兩類數(shù)據(jù)有突出的侵犯著作權(quán)的風(fēng)險(xiǎn)。一是開(kāi)源數(shù)據(jù)“有原罪”,比如,Books3、Bookcorpus等開(kāi)源圖書(shū)數(shù)據(jù)集中采集的大量圖書(shū)并未獲得版權(quán)持有人的同意授權(quán),而大模型廠商使用相關(guān)數(shù)據(jù)之前無(wú)法逐一核實(shí)圖書(shū)的侵權(quán)風(fēng)險(xiǎn)。二是爬取數(shù)據(jù)“難許可”,比如,微信公眾號(hào)、知乎、貼吧等內(nèi)容平臺(tái)上用戶原創(chuàng)發(fā)布的很多作品受法律保護(hù),但要取得用戶一對(duì)一的授權(quán)使用許可用于大模型訓(xùn)練在實(shí)踐中很難操作。
同時(shí),緣于人工智能大模型訓(xùn)練是近年來(lái)的新生事物,《著作權(quán)法》中規(guī)定的著作權(quán)豁免情形中,尚不包括“將作品用于人工智能大模型訓(xùn)練”?!吨鳈?quán)法》規(guī)定,只有在“個(gè)人使用”“適當(dāng)引用”“學(xué)習(xí)研究使用”等情形下可以豁免著作權(quán),用于大模型訓(xùn)練難以歸納到上述情形中。比如,“個(gè)人使用”僅限于個(gè)人用途,而大模型的訓(xùn)練應(yīng)用均由企業(yè)主導(dǎo)、開(kāi)拓商業(yè)化的場(chǎng)景,顯然不符合要求;“適當(dāng)引用”的適用前提是“為介紹、評(píng)論說(shuō)明某一作品”或“說(shuō)明某一問(wèn)題”,而大模型是通過(guò)將語(yǔ)言token化、學(xué)習(xí)其中蘊(yùn)含的概率關(guān)聯(lián)、形成參數(shù),與評(píng)論和介紹作品沒(méi)有關(guān)系;“科學(xué)研究”對(duì)作品的利用限定在“少量復(fù)制、僅用于學(xué)校課堂教學(xué)或者科學(xué)研究”,而大模型訓(xùn)練中需要大量復(fù)制作品,且未局限在科研或教育用途中,故也不適用。
2.使用生成式人工智能(AIGC)創(chuàng)作的內(nèi)容生產(chǎn)模式,導(dǎo)致作品著作權(quán)界定存在模糊地帶
人類借助AIGC進(jìn)行創(chuàng)作,勢(shì)必對(duì)內(nèi)容創(chuàng)作權(quán)益的生成、保護(hù)模式產(chǎn)生巨大沖擊,這里涉及三個(gè)層層遞進(jìn)的問(wèn)題:一是AIGC生成內(nèi)容是否可能侵犯著作權(quán);二是AIGC生成的作品是否受著作權(quán)保護(hù);三是使用AIGC服務(wù)創(chuàng)作內(nèi)容的權(quán)責(zé)應(yīng)該如何分配。目前這三個(gè)問(wèn)題已有實(shí)踐探索,但仍有待深化研究。
一是AIGC生成的內(nèi)容可以構(gòu)成侵犯著作權(quán),但侵權(quán)責(zé)任主體有待明確。廣州互聯(lián)網(wǎng)法院對(duì)“AI畫(huà)出奧特曼”一案作出裁決,認(rèn)定被告(AI應(yīng)用服務(wù)提供商)未盡到合理的注意義務(wù)、未使用技術(shù)措施阻止侵權(quán)作品生成,侵害了原告對(duì)奧特曼作品享有的復(fù)制權(quán)和改編權(quán)。這是實(shí)踐的創(chuàng)新探索,未來(lái)對(duì)于用戶、大模型廠商和AI應(yīng)用服務(wù)商的責(zé)任應(yīng)當(dāng)如何分配的一般性原則,有待進(jìn)一步提煉和說(shuō)明。
二是在AIGC輔助創(chuàng)作的情況下,作品可以享有著作權(quán),但輔助創(chuàng)作和替代創(chuàng)作的界限需要明確。北京互聯(lián)網(wǎng)法院裁定,用戶以向stable diffusion模型輸入提示詞、調(diào)整參數(shù)、裁剪拼貼等形式創(chuàng)作,體現(xiàn)了用戶的審美選擇和個(gè)性判斷,對(duì)生成的獨(dú)創(chuàng)性圖片享有著作權(quán)。這一判例的前提是,AIGC是輔助人類創(chuàng)意表達(dá)的工具、人類在創(chuàng)作中居于主導(dǎo)地位。目前,關(guān)于AIGC創(chuàng)作模式屬于輔助人類創(chuàng)作還是替代人類創(chuàng)作,需要法官結(jié)合個(gè)案情況作出具體判斷。
三是AIGC生成內(nèi)容的權(quán)屬由服務(wù)商和用戶按照約定分配,但部分協(xié)議的權(quán)責(zé)分配明顯不對(duì)等。由于多個(gè)主體(應(yīng)用開(kāi)發(fā)者、創(chuàng)作者、大模型廠商等)參與了作品的形成,生成內(nèi)容的權(quán)屬多以用戶協(xié)議來(lái)約定,但部分協(xié)議有權(quán)責(zé)分配不公的傾向。比如,有些協(xié)議規(guī)定“用戶的知識(shí)產(chǎn)權(quán)屬于平臺(tái)所有,但侵權(quán)風(fēng)險(xiǎn)和對(duì)平臺(tái)造成的損失由用戶承擔(dān)”,顯然有失公平。
(二)違反個(gè)人信息處理要求問(wèn)題
大模型訓(xùn)練數(shù)據(jù)中不可避免地包含一些個(gè)人身份信息和個(gè)人行為信息,國(guó)外廠商如Open AI、Meta均在用戶協(xié)議中提示用戶個(gè)人生成的內(nèi)容會(huì)被用于大模型訓(xùn)練。面對(duì)個(gè)人信息數(shù)據(jù),國(guó)內(nèi)大模型廠商一般先對(duì)個(gè)人信息進(jìn)行去標(biāo)識(shí)化或匿名化處理、達(dá)到無(wú)法識(shí)別具體個(gè)人的程度后,再用于模型訓(xùn)練、優(yōu)化。但是,這種實(shí)踐面臨合規(guī)風(fēng)險(xiǎn)。
一是“處理目的”變更需重新取得個(gè)人同意,給大模型訓(xùn)練帶來(lái)了巨大的合規(guī)成本。《個(gè)人信息保護(hù)法》第14條第2款規(guī)定,“個(gè)人信息的處理目的、處理方式和處理的個(gè)人信息種類發(fā)生變更的,應(yīng)當(dāng)重新取得個(gè)人同意?!睂⒃居糜谄渌猛镜膫€(gè)人信息數(shù)據(jù)轉(zhuǎn)用于大模型訓(xùn)練,應(yīng)當(dāng)屬于“處理目的”變更,需尋求個(gè)人重新授權(quán)。然而,大模型訓(xùn)練數(shù)據(jù)量非常大、應(yīng)用場(chǎng)景的迭代非??欤绻兏淮我匦氯〉脗€(gè)人同意授權(quán),會(huì)產(chǎn)生非常大的溝通成本。
二是處理已公開(kāi)個(gè)人信息的“合理范圍”和“對(duì)個(gè)人權(quán)益有重大影響”內(nèi)涵模糊?!秱€(gè)人信息保護(hù)法》規(guī)定,“個(gè)人信息處理者可以在合理的范圍內(nèi)處理個(gè)人自行公開(kāi)或者其他已經(jīng)合法公開(kāi)的個(gè)人信息”,“個(gè)人信息處理者處理已公開(kāi)的個(gè)人信息,對(duì)個(gè)人權(quán)益有重大影響的,應(yīng)當(dāng)依照本法規(guī)定取得個(gè)人同意”。倘若用于大模型訓(xùn)練屬于“合理范圍”并不屬于“對(duì)個(gè)人權(quán)益有重大影響”,大模型廠商的合規(guī)成本將大幅下降。然而,關(guān)于“合理范圍”和“對(duì)個(gè)人權(quán)益有重大影響”如何界定,尚未有權(quán)威的解釋或指導(dǎo)性的判例。
三是關(guān)于“匿名化”的標(biāo)準(zhǔn)還不夠清晰可行。個(gè)人信息匿名化處理后可以不受《個(gè)人信息保護(hù)法》的約束,這是大模型訓(xùn)練解決個(gè)人信息安全的根本方法。但客觀上,絕對(duì)的“匿名化”在技術(shù)上是無(wú)法實(shí)現(xiàn)的,目前對(duì)于經(jīng)過(guò)怎樣的處理才能夠達(dá)到“匿名化”的標(biāo)準(zhǔn),還沒(méi)有清晰可行的標(biāo)準(zhǔn)規(guī)范。
(三)觸發(fā)不正當(dāng)競(jìng)爭(zhēng)的風(fēng)險(xiǎn)問(wèn)題
爬取網(wǎng)頁(yè)數(shù)據(jù)是國(guó)產(chǎn)大模型最重要的數(shù)據(jù)來(lái)源。盡管大模型廠商一般對(duì)爬取數(shù)據(jù)有規(guī)范嚴(yán)格的流程,基本可規(guī)避刑事責(zé)任、侵犯商業(yè)秘密等顯性風(fēng)險(xiǎn)。然而,業(yè)內(nèi)通行的方式爬取數(shù)據(jù),用于訓(xùn)練大模型,還可能引發(fā)不正當(dāng)競(jìng)爭(zhēng)風(fēng)險(xiǎn),主要表現(xiàn)在兩方面。
一是繞開(kāi)網(wǎng)站反爬機(jī)制、在不影響網(wǎng)絡(luò)運(yùn)行的情況下仍有違法風(fēng)險(xiǎn)?!笆欠裼绊懕慌廊》秸L峁┚W(wǎng)絡(luò)服務(wù)”是此類不正當(dāng)競(jìng)爭(zhēng)的第一個(gè)判斷標(biāo)準(zhǔn),比如,網(wǎng)絡(luò)爬蟲(chóng)很多情況下要繞開(kāi)網(wǎng)站的robots協(xié)議等反爬蟲(chóng)機(jī)制,盡管robots協(xié)議本身并不具有法律效力、突破robots協(xié)議一般不會(huì)對(duì)被爬取網(wǎng)站的網(wǎng)絡(luò)服務(wù)構(gòu)成負(fù)擔(dān),但從司法案例看,是否突破robots協(xié)議常被視作判斷數(shù)據(jù)爬取方是否具有主觀惡意的重要依據(jù)。
二是基于被爬取數(shù)據(jù)訓(xùn)練的產(chǎn)品可能被認(rèn)定為與被爬取方存在“實(shí)質(zhì)性替代”。不正當(dāng)競(jìng)爭(zhēng)的第二個(gè)判斷標(biāo)準(zhǔn)是“是否存在實(shí)質(zhì)性替代”。司法實(shí)踐中,一般以“足以導(dǎo)致被爬取方的產(chǎn)品被擠出現(xiàn)有市場(chǎng)”作為存在“實(shí)質(zhì)性替代”的判斷標(biāo)準(zhǔn)。盡管基于AI大模型開(kāi)發(fā)的產(chǎn)品是通過(guò)學(xué)習(xí)被爬取方數(shù)據(jù)的內(nèi)在關(guān)聯(lián)、參數(shù)化之后,再提供內(nèi)容生成服務(wù),與被爬取方直接向用戶提供數(shù)據(jù)的模式有實(shí)質(zhì)差異,但倘若被爬取方產(chǎn)品的市場(chǎng)份額由此下降,可能被認(rèn)定為存在“實(shí)質(zhì)性替代”。
二、域外相關(guān)實(shí)踐案例總結(jié)和法律動(dòng)向
(一)多傾向于豁免大模型訓(xùn)練數(shù)據(jù)的著作權(quán)責(zé)任,但基本不認(rèn)可AI生成作品享有著作權(quán)
歐盟通過(guò)設(shè)置文本和數(shù)據(jù)挖掘的著作權(quán)保護(hù)例外,支持豁免大模型復(fù)制網(wǎng)絡(luò)公開(kāi)作品著作權(quán)責(zé)任。歐盟《單一數(shù)字市場(chǎng)著作權(quán)指令》明確了“在合法訪問(wèn)的作品或載體上進(jìn)行復(fù)制和提取時(shí),豁免著作權(quán)責(zé)任;除非權(quán)利人以適當(dāng)方式明確保留上述權(quán)利”。換言之,歐盟通過(guò)明確著作權(quán)方“默示許可+Opt-out(選擇退出)”的模式,減免了大模型廠商復(fù)制公開(kāi)作品的著作權(quán)責(zé)任。日本援引“非欣賞性利用”原則,明確了用于大模型訓(xùn)練的所有作品均不受著作權(quán)限制。2018年,日本修改了著作權(quán)法,將“不以欣賞作品原有價(jià)值的利用”視為對(duì)著作權(quán)的“合理使用”范圍,并在兜底條款中特別補(bǔ)充了“在電子計(jì)算機(jī)信息處理過(guò)程中對(duì)作品表達(dá)所進(jìn)行的不為人類所感知和識(shí)別的利用情形”,實(shí)質(zhì)上將復(fù)制、存儲(chǔ)、處理作品用于大模型訓(xùn)練的全流程給予著作權(quán)豁免。新加坡明確“出于數(shù)據(jù)分析的目的可以復(fù)制著作權(quán)作品”。2021年,新加坡修訂了著作權(quán)法,新增規(guī)定“在訪問(wèn)合法的情況下,著作權(quán)作品可用于計(jì)算數(shù)據(jù)分析,如情感分析、文本和數(shù)據(jù)挖掘,或訓(xùn)練機(jī)器學(xué)習(xí),無(wú)需尋求每個(gè)著作權(quán)所有者的許可”,豁免了大模型廠商訓(xùn)練數(shù)據(jù)的著作權(quán)限制。美國(guó)的“四要素+轉(zhuǎn)換性使用”認(rèn)定標(biāo)準(zhǔn)為豁免大模型著作權(quán)責(zé)任預(yù)留了空間。美國(guó)判定著作權(quán)是否“合理使用”需要考量使用目的與性質(zhì)、著作權(quán)作品的性質(zhì)、使用部分占被引用作品質(zhì)與量的比例、該使用對(duì)著作權(quán)市場(chǎng)造成的潛在影響“四要素”,同時(shí)要考察新作品相對(duì)于原作品“轉(zhuǎn)換性”的程度(產(chǎn)生了新作品還是僅替代了原作品)。參照谷歌圖書(shū)館案判決先例,有較大的可能豁免大模型訓(xùn)練數(shù)據(jù)的著作權(quán)責(zé)任。
歐盟、美國(guó)認(rèn)為AIGC作品只有在體現(xiàn)人類創(chuàng)意性工作的時(shí)候才能享有著作權(quán)。歐盟認(rèn)為,AIGC生成內(nèi)容是否屬于作品,必須根據(jù)屬于文學(xué)、藝術(shù)、科學(xué)領(lǐng)域,人類智力活動(dòng),獨(dú)創(chuàng)性,表達(dá)四個(gè)要件綜合判斷;只有AIGC生成內(nèi)容中體現(xiàn)了人類智力活動(dòng)的獨(dú)創(chuàng)性,才能被認(rèn)定為作品。美國(guó)的認(rèn)定原則與歐盟基本相同,但在實(shí)際操作上,傾向于認(rèn)為當(dāng)前AIGC創(chuàng)作作品無(wú)法體現(xiàn)人類創(chuàng)意的主導(dǎo)地位,故不能受著作權(quán)保護(hù)。比如,美國(guó)著作權(quán)局拒絕對(duì)利用人工智能平臺(tái)Mid journey創(chuàng)作的科幻漫畫(huà)書(shū)給予著作權(quán)登記,理由是并沒(méi)有體現(xiàn)作者創(chuàng)意的主導(dǎo)地位。英國(guó)是僅有的少數(shù)認(rèn)可“完全由計(jì)算機(jī)生成的作品”也可以享有著作權(quán)的國(guó)家。英國(guó)《1988年著作權(quán)、外觀設(shè)計(jì)和專利法》規(guī)定,沒(méi)有人類作者的計(jì)算機(jī)生成作品的保護(hù)期為自作品制作之日起50年(人類作品的著作權(quán)有效期為70年)。
(二)對(duì)于個(gè)人信息的收集處理要求,歐盟以“opt-in”為原則、美國(guó)一般以“opt-out”為原則,尺度上較寬松
歐盟在采集個(gè)人信息時(shí)以“opt-in”(選擇進(jìn)入)為原則,整體尺度上較寬松。歐盟《通用數(shù)據(jù)保護(hù)條例》(GDPR)中規(guī)定了包括取得個(gè)人同意、維護(hù)公共利益以及實(shí)現(xiàn)數(shù)據(jù)處理者或第三方合理利益等六種合法處理個(gè)人信息的情形。而我國(guó)《個(gè)人信息保護(hù)法》僅認(rèn)可“個(gè)人同意、公共利益和人力資源管理”等情形,并不認(rèn)可數(shù)據(jù)處理者實(shí)現(xiàn)自身利益是合法性基礎(chǔ)。同意規(guī)則上,歐盟認(rèn)為“同意必須是自由給出的、特定的、知情的、以清晰的聲明或者肯定的行為表明數(shù)據(jù)主體對(duì)于處理其個(gè)人數(shù)據(jù)的明確意愿”;我國(guó)則規(guī)定“敏感個(gè)人信息收集處理要求獲得單獨(dú)同意,甚至?xí)嫱狻薄?/p>
美國(guó)對(duì)個(gè)人信息收集處理大多采用“opt-out”(選擇退出)原則,傾向于減輕信息處理者的義務(wù)。根據(jù)《平等信用機(jī)會(huì)法》《金融服務(wù)現(xiàn)代化法》等法律法規(guī),美國(guó)聯(lián)邦對(duì)于收集個(gè)人信用有關(guān)信息采用“opt-out”原則,消費(fèi)者若沒(méi)有明確拒絕,視為同意對(duì)外提供個(gè)人財(cái)務(wù)信息。美國(guó)《加利福尼亞州消費(fèi)者隱私法案》(CCPA)和《加利福尼亞州隱私權(quán)法案》(CPRA)規(guī)定,信息處理企業(yè)收集個(gè)人信息無(wú)需事先征得主體同意,但在后續(xù)使用、售賣過(guò)程中需要給予用戶拒絕的權(quán)利(opt-out)。從對(duì)個(gè)人信息的保護(hù)程度看,我國(guó)《個(gè)人信息保護(hù)法》高于歐盟GDPR、高于美國(guó)加州CCPA和CPRA。
(三)海外對(duì)爬取網(wǎng)頁(yè)信息用于大模型訓(xùn)練傾向于不認(rèn)定為不正當(dāng)競(jìng)爭(zhēng)
美國(guó)HIQ訴Linked in案確認(rèn)了“網(wǎng)頁(yè)爬取”個(gè)人已公開(kāi)信息屬于“合法訪問(wèn)”。HIQ公司是一家有償銷售人力資源信息的數(shù)據(jù)服務(wù)供應(yīng)商,其重要數(shù)據(jù)來(lái)源是從Linked in上爬取的個(gè)人公開(kāi)數(shù)據(jù)。2017年,Linked in切斷了HIQ公司爬取數(shù)據(jù)的渠道,HIQ公司起訴了Linked in。法院審理認(rèn)為,HIQ公司訪問(wèn)公開(kāi)數(shù)據(jù)的行為具有合法性,網(wǎng)站的授權(quán)訪問(wèn)只意味著對(duì)訪問(wèn)身份的認(rèn)可,使用技術(shù)手段訪問(wèn)網(wǎng)站與普通用戶的個(gè)人訪問(wèn)并不存在合法性的差異。
日本傾向于認(rèn)為大模型廠商爬取無(wú)償利用、合法公開(kāi)的數(shù)據(jù)訓(xùn)練大模型,不構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。《日本不正當(dāng)競(jìng)爭(zhēng)防止法》規(guī)定,“與公眾可以無(wú)償利用的信息相同的數(shù)據(jù)”不受《不正當(dāng)競(jìng)爭(zhēng)防止法》保護(hù)。另外,基于此類數(shù)據(jù)加工的成果與原始數(shù)據(jù)不同的情況,對(duì)成果的轉(zhuǎn)讓和交易不構(gòu)成不正當(dāng)競(jìng)爭(zhēng)。這實(shí)質(zhì)上豁免了廠商爬取免費(fèi)、已公開(kāi)的數(shù)據(jù)訓(xùn)練大模型的法律責(zé)任。
三、相關(guān)政策建議
總體建議是國(guó)家從支持國(guó)產(chǎn)大模型搶占國(guó)際競(jìng)爭(zhēng)制高點(diǎn)的導(dǎo)向出發(fā),區(qū)分大模型廠商和大模型應(yīng)用服務(wù)商“兩個(gè)主體”、區(qū)分大模型訓(xùn)練開(kāi)發(fā)與大模型應(yīng)用“兩個(gè)階段”,適度放寬大模型廠商和大模型訓(xùn)練開(kāi)發(fā)階段的法律法規(guī)限制,適度強(qiáng)化大模型應(yīng)用服務(wù)商主體責(zé)任,構(gòu)建鼓勵(lì)創(chuàng)新、包容審慎的監(jiān)管環(huán)境。
(一)適度豁免大模型訓(xùn)練數(shù)據(jù)的著作權(quán)責(zé)任,進(jìn)一步明確AIGC生成內(nèi)容享有著作權(quán)的認(rèn)定條件
一是在法律法規(guī)中明確“出于商業(yè)或非商業(yè)目的,復(fù)制作品僅用于文本挖掘和模型訓(xùn)練”屬于“合理使用”的情形。建議在《著作權(quán)法》或者配套法律法規(guī)中,認(rèn)定“復(fù)制的作品僅用于文本挖掘和模型訓(xùn)練”屬于對(duì)著作權(quán)的“合理使用”情形。同時(shí),采用“opt-out”(選擇退出)模式保障著作權(quán)方的權(quán)利。探索著作權(quán)方、大模型廠商和大模型應(yīng)用服務(wù)商三方的合理利益共享機(jī)制。根據(jù)調(diào)研,大模型廠商有意愿直接向著作權(quán)方采購(gòu)正版作品數(shù)據(jù),以節(jié)省數(shù)據(jù)爬取、清洗和結(jié)構(gòu)化的成本;著作權(quán)方則希望借助大模型應(yīng)用服務(wù)為作品引流,三方主體的利益導(dǎo)向較為一致,存在一定的合作空間。因此,要鼓勵(lì)著作權(quán)方、大模型廠商和應(yīng)用服務(wù)商按照“以應(yīng)用端收益反哺著作權(quán)方”的邏輯,探索流量互引、收益共享的三方協(xié)作模式。建議國(guó)家相關(guān)職能部門牽頭建設(shè)合規(guī)的線下數(shù)據(jù)集。設(shè)置圖書(shū)電子化專項(xiàng)資金,重點(diǎn)推動(dòng)公共著作權(quán)圖書(shū)電子化;由國(guó)家圖書(shū)館、國(guó)家版本館、國(guó)有出版機(jī)構(gòu)等牽頭建設(shè)線下語(yǔ)料“著作權(quán)聯(lián)盟”,引導(dǎo)民營(yíng)出版機(jī)構(gòu)等深度參與,建設(shè)高質(zhì)量的授權(quán)中文語(yǔ)料庫(kù);加大國(guó)家資助科研成果開(kāi)放力度,大力支持公益性學(xué)術(shù)開(kāi)放平臺(tái)建設(shè),促進(jìn)學(xué)術(shù)成果高效共享。
二是進(jìn)一步明確AIGC內(nèi)容享有著作權(quán)的實(shí)施細(xì)則,建議通過(guò)出臺(tái)司法解釋、制定指導(dǎo)性案例等形式,進(jìn)一步明確在AIGC生成內(nèi)容中體現(xiàn)人類“獨(dú)創(chuàng)性智力活動(dòng)”、繼而享有著作權(quán)的認(rèn)定標(biāo)準(zhǔn)。合理劃定主體之間的權(quán)責(zé)邊界。要在尊重服務(wù)商、用戶意思自治的基礎(chǔ)上,以“公平合理、權(quán)責(zé)對(duì)等”為原則,研究制定AIGC服務(wù)商用戶協(xié)議示范文本,明確服務(wù)商和用戶的權(quán)責(zé)邊界。指導(dǎo)AIGC服務(wù)商制定風(fēng)險(xiǎn)防控機(jī)制。建議出臺(tái)《AIGC生成內(nèi)容風(fēng)險(xiǎn)防控機(jī)制建設(shè)指南》,指導(dǎo)AIGC服務(wù)商建立關(guān)鍵詞過(guò)濾、風(fēng)險(xiǎn)提示、輸出內(nèi)容控制等防控體系,總結(jié)提煉一批行業(yè)最佳實(shí)踐,合理管控侵權(quán)風(fēng)險(xiǎn)。
(二)適度放寬大模型訓(xùn)練階段個(gè)人信息的使用限制,完善“匿名化”的認(rèn)定標(biāo)準(zhǔn)
一是適度放寬大模型訓(xùn)練中對(duì)個(gè)人信息的使用限制。大模型訓(xùn)練中使用個(gè)人信息是為了將語(yǔ)言邏輯參數(shù)化、形成技術(shù)底座,不是直接面向用戶提供服務(wù)、不存在特定的使用目的。建議明確:將個(gè)人信息僅用于模型訓(xùn)練的,不屬于處理目的變更,不需要重新征求個(gè)人同意;而在應(yīng)用服務(wù)開(kāi)發(fā)階段,倘若涉及變更個(gè)人信息處理目的,則需要重新征求用戶的同意。對(duì)于個(gè)人已公開(kāi)信息的使用,要明晰“合理范圍”的界定標(biāo)準(zhǔn),探索制定“對(duì)個(gè)人權(quán)益影響”的分類分級(jí)指南,指導(dǎo)大模型廠商實(shí)踐。
二是盡快完善個(gè)人信息“匿名化”的認(rèn)定標(biāo)準(zhǔn)。只有認(rèn)可匿名化處理的相對(duì)性,在實(shí)踐中企業(yè)才敢依據(jù)匿名化條款向第三方提供個(gè)人信息相關(guān)數(shù)據(jù),最大限度地發(fā)揮數(shù)據(jù)的社會(huì)價(jià)值。建議配套制定《個(gè)人數(shù)據(jù)匿名化實(shí)踐指南》或相應(yīng)的工作標(biāo)準(zhǔn),明確個(gè)人信息匿名化的標(biāo)準(zhǔn)、技術(shù)路徑、示范案例等,為業(yè)界實(shí)踐舉旗定向。
三是認(rèn)可履行個(gè)人信息刪除義務(wù)的多種可行方案。刪除權(quán)是保障信息主體自主決定個(gè)人信息的重要途徑?!渡墒饺斯ぶ悄芊?wù)管理暫行辦法》第11條第2款規(guī)定:“提供者應(yīng)當(dāng)依法及時(shí)受理和處理個(gè)人關(guān)于查閱、復(fù)制、更正、補(bǔ)充、刪除其個(gè)人信息等的請(qǐng)求?!睂?shí)踐中,倘若訓(xùn)練數(shù)據(jù)進(jìn)入模型,個(gè)人信息已token化,直接定位并刪除特定個(gè)人信息困難較大。建議監(jiān)管層在尊重用戶意愿的基礎(chǔ)上,認(rèn)可多樣化的個(gè)人信息刪除方式。比如,對(duì)于尚未用于訓(xùn)練的個(gè)人信息,可以由大模型廠商從訓(xùn)練集中刪除;對(duì)于已經(jīng)用于訓(xùn)練、嵌入應(yīng)用場(chǎng)景當(dāng)中的個(gè)人信息,可以由大模型應(yīng)用服務(wù)商設(shè)置輸出內(nèi)容過(guò)濾機(jī)制,確保個(gè)人信息刪除權(quán)的實(shí)現(xiàn)。
(三)適度包容用于大模型訓(xùn)練的數(shù)據(jù)爬取中的輕微不規(guī)范行為,明確訓(xùn)練大模型不構(gòu)成對(duì)被爬取方產(chǎn)品的實(shí)質(zhì)性替代
一是建議適度包容數(shù)據(jù)爬取中的輕微不規(guī)范行為。用于大模型訓(xùn)練所實(shí)施的數(shù)據(jù)爬取行為,不是簡(jiǎn)單的數(shù)據(jù)搬運(yùn),而是在數(shù)據(jù)深度挖掘基礎(chǔ)上的創(chuàng)新性使用??紤]到人工智能大模型是世界各國(guó)競(jìng)爭(zhēng)激烈的關(guān)鍵領(lǐng)域,而我國(guó)目前面臨數(shù)據(jù)開(kāi)放利用不足、漢語(yǔ)語(yǔ)料不多的情況,建議在未對(duì)被爬取方網(wǎng)絡(luò)服務(wù)產(chǎn)生明顯負(fù)擔(dān)、未對(duì)被爬取方正常運(yùn)營(yíng)造成影響的情況下,適度包容數(shù)據(jù)爬取中的輕微不規(guī)范行為。
二是建議認(rèn)定用于訓(xùn)練大模型不構(gòu)成對(duì)數(shù)據(jù)被爬取方產(chǎn)品的實(shí)質(zhì)性替代。大模型訓(xùn)練不會(huì)再現(xiàn)被爬取的原始數(shù)據(jù),而是轉(zhuǎn)化為模型的參數(shù)。同時(shí),大模型本身僅僅是技術(shù)基座,不是直接面向用戶的數(shù)據(jù)產(chǎn)品。故而訓(xùn)練大模型本身不存在對(duì)被爬取方產(chǎn)品的實(shí)質(zhì)性替代。
Abstract:Data is the decisive factor in the performance of AI large models, and also the most complex area in terms of legal relationship and subjects of responsibility. When using data to train and develop large models, manufacturers generally face three major legal risks concerning data rights: copyright infringement, violation of personal information processing requirements, and triggering unfair competition. Therefore, it is urgent to improve relevant rules to develop responsible AI.
This article suggests balancing legal responsibilities of the two subjects of large model manufacturers and large model application service providers, and of the two stages of large model training in Ramp;D and application services. Specifically, it suggests firstly, incorporating the works only for large model training into the category of “fair use” of copyright to some extent, and clarifying the conditions for enjoying copyright of the content generated by AI; Secondly, relaxing the restrictions moderately on the use of personal information and data during the training stage of large models, and improving the standards of “anonymization” in practice; And thirdly, tolerating minor misbehaviors in data crawling for large model training. All these measures will contribute to building a prudent and inclusive regulatory environment that encourages innovations for the development of large models.
[責(zé)任編輯 邢峻彬]