• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    試論生成式大語言模型預訓練活動中著作權人權益的保護

    2025-06-22 00:00:00梁雪云
    今古文創(chuàng) 2025年14期
    關鍵詞:著作權人開發(fā)者人工智能

    【中圖分類號】G203 【文獻標識碼】A【文章編號】2096-8264(2025)14-0127-04【D0I】10.20024/j.cnki.CN42-1911/I.2025.14.037

    2022年底,伴隨ChatGPT的橫空出世,人工智能技術的發(fā)展與應用重新進入大眾視野。此后,各類生成式大語言模型不斷迭代,文心一言、通義千問等中國產品也緊追不舍,Midjourney、Sora等產品更是將人工智能的技術應用推向了文生圖、文生視頻等多模態(tài)領域的高速演進。

    與此同時,人工智能技術對于人類現(xiàn)有生活的不斷滲入與影響,不得不引發(fā)嚴肅的討論與反思:現(xiàn)有的法律體系與監(jiān)管規(guī)則,能否從容應對該類技術的發(fā)展與挑戰(zhàn)?本文僅從現(xiàn)有法律框架下,討論生成式大語言模型預訓練活動對于著作權人權益的可能侵犯,并試圖在鼓勵人工智能技術創(chuàng)新發(fā)展與尊重人類創(chuàng)作者的智慧財產間尋找平衡,提供解決之道。

    一、從人工智能技術發(fā)展看預訓練活動的重要性

    人工智能的概念最早可以追溯到20世紀50年代。1950年,計算機理論的奠基者阿蘭·圖靈提出了著名的“圖靈測試”],由人類組成的評委會通過電傳設備與某一測評對象進行交流,如果評委們無法區(qū)分交流對象是機器還是人類,那就有理由認為這臺機器具有了人類智能。1956年,麥卡錫、明斯基等科學家在美國達特茅斯學院會議上首次提出“人工智能(ArtificialIntelligence,簡稱AI)\"這一概念[2]。

    語言是人類表達和交流的一種重要能力,使機器自然地掌握以人類語言形式進行理解和交流的能力,一直是人工智能界共同努力的宏偉目標。語言模型(LM,LangrageModeling)是提高機器語言智能的主要方法之一,并先后經歷了統(tǒng)計語言模型(Statisticallanguagemodels,SLM?;?0世紀90年代興起的統(tǒng)計學習方法構建單詞預測模型,根據(jù)最近的上下文預測下一個單詞)、神經語言模型(Neurallanguagemodels,NLM。通過神經網絡來表征單詞序列的概率)等發(fā)展階段[3]。2017年,谷歌提出了基于自注意力機制(Self-Attention)的Transformer架構,實現(xiàn)了可并行優(yōu)化的計算能力,大幅提升了模型的訓練速度和推理效率。

    此后,研究人員發(fā)現(xiàn),通過不斷擴展預訓練數(shù)據(jù)量能夠顯著提升模型的表現(xiàn)能力,并驅使其在解決一系列復雜任務方面展現(xiàn)出了令人驚訝的“涌現(xiàn)能力(EmergentCapacity)”[4]。以GPT模型為例,2018年GPT-1的訓練數(shù)據(jù)集約為5GB,至2023年GPT-4的訓練數(shù)據(jù)集達到了1PB,實現(xiàn)了五年內209715.2倍的驚人增長。由此可見,預訓練活動所需數(shù)據(jù)已成為決定生成式人工智能發(fā)展速度的關鍵因素。

    二、從我國現(xiàn)有法律看預訓練活動所需數(shù)據(jù)的使用障礙

    目前,大語言模型需要的預訓練數(shù)據(jù)主要來源于:一是網頁數(shù)據(jù),包含網頁信息、論壇留言、新聞文章等,系主要通過技術手段,爬取獲得的大規(guī)模電子文本數(shù)據(jù);二是對話數(shù)據(jù),包括電影片段、電視劇劇本、即時通信工具中的對話等,涵蓋了各種語言風格和不同領域的對話情境;三是各類紙質書籍及其電子出版物,包括小說、散文、詩歌等文學作品,以及論文、教材、期刊等科學資源,希冀大模型具備豐富的語言模式、文化背景和堅實的知識基礎;四是計算機源代碼,其主要以結構化的編程語言來呈現(xiàn),有助于提升模型的結構化語義理解與邏輯推理能力。

    根據(jù)我國現(xiàn)行《著作權法》《計算機軟件保護條例》的規(guī)定,上述數(shù)據(jù)在構成作品時,未經著作權人許可而直接進行大模型訓練使用的,極有可能會落入復制權侵權范疇,對作品著作權人的合法權益造成侵害。2023年8月15日起施行的《生成式人工智能服務管理暫行辦法》也要求生成式人工智能服務提供者在開展預訓練、優(yōu)化訓練等訓練數(shù)據(jù)處理活動時,使用具有合法來源的數(shù)據(jù)和基礎模型,涉及知識產權的,不得侵害他人依法享有的知識產權。

    但遺憾的是,上述規(guī)則只是概括性地提出了需要尊重和保護著作權人合法權益的立法主張。具體到預訓練數(shù)據(jù)的實際使用環(huán)節(jié),模型開發(fā)者應如何與作品著作權人進行協(xié)商溝通,并合法獲取相應授權。著作權人是否能夠從大語言模型的最終商業(yè)應用中取得經濟補償,并通過更為透明的方式了解權利作品被大語言模型訓練和調整的實際進程,均缺乏具體可行的規(guī)則指引。

    三、從域外經驗看預訓練活動對已有作品的使用規(guī)則

    放眼全球,面對生成式大語言模型的崛起,各國對預訓練活動所需數(shù)據(jù)與原作品著作權人權益保護間的動態(tài)調整,均采取了不同的法律框架和應對規(guī)則。

    歐盟于2019年通過《數(shù)字化單一市場版權指令》(Directive on Copyrightin the Digital Single Market,“DSMDirective\"),其第3條、第4條分別對“文本和數(shù)據(jù)挖掘”(textanddatamining,“TDM\")中未經著作權人許可復制作品的行為規(guī)定了例外情形。其中,非商業(yè)目的使用,其主體僅限于大學、研究所、圖書館、博物館,以及其他以科學研究或開展涉及科學研究的教育活動為主要目的的實體組織,且文本和數(shù)據(jù)挖掘活動的目的必須限于科學研究。而在商業(yè)性使用時,除規(guī)定對作品應用的限度原則,避免著作權人權益不合理侵害外,還特別規(guī)定,著作權人可以通過協(xié)議、單方聲明等手段保留其對作品的復制權利,阻正和排除第三方的文本和數(shù)據(jù)挖掘活動。

    2024年歐盟通過的《人工智能法案》(AIAct)延續(xù)了這樣的立法思路,再次強調除“DSMDirective”規(guī)定的例外情形外,對受著作權保護內容的任何使用都必須獲得相關權利人的授權。此外,法案還強調了透明度的重要性,要求人工智能模型的提供者應就預訓練中所使用的內容制定并公開足夠詳細的摘要,以方便著作權所有人行使和執(zhí)行歐盟法律下的權利,并監(jiān)督人工智能開發(fā)者對相關著作權規(guī)則的有效執(zhí)行。

    美國作為生成式大語言模型最早商業(yè)應用的國家,也是最先爆發(fā)著作權人與人工智能開發(fā)者間的論戰(zhàn)。例如:紐約時報以及原始故事媒體(RawStoryMedia)等媒體,對OpenAI提起著作權侵權訴訟,指控OpenAI用其發(fā)表的文章訓練數(shù)據(jù)構成對其合法著作權權益的侵犯。面對這些指控,作為被告的人工智能公司往往援引著作權法中的“合理使用”原則,證明自己的行為雖未經著作權人授權,但屬于法律規(guī)定的例外情形可以獲得豁免。然而,預訓練數(shù)據(jù)的使用是否屬于合理使用,目前尚無明確的司法判例,需要結合使用目的和性質、受著作權保護作品的性質、與整個作品相比所使用部分的數(shù)量,以及對原作品市場價值的潛在影響等因素進行具體分析。實踐中,法官個人裁量對個案最終結果的走向起到至關重要的作用。

    此外,從已有案件的判決思路出發(fā)不難發(fā)現(xiàn),在美國,人工智能公司“合理使用”的抗辯很難被支持:(1)人工智能公司開發(fā)大語言模型的目的很難被界定為非商業(yè)目的使用;(2)如前文所述,預訓練所使用數(shù)據(jù)的質量越高,其訓練效果和最終的表現(xiàn)能力越強,同理,高質量數(shù)據(jù)所表達的獨創(chuàng)性也就越明顯,對于這些作品使用行為的認定,也就需要采取更為嚴格審慎的標準[5];(3)預訓練往往系對作品實質內容的完全復制,其使用數(shù)量對著作權人權益影響通常都會較為明顯;(4)海量人工智能創(chuàng)作物涌入現(xiàn)有作品市場,會沖擊人類同類型作品的市場價值、市場份額,使著作權人的經濟利益受到嚴重影響[]。比如,前述紐約時報訴OpenAI著作權的案件中,原告就指出被告的侵權行為導致了紐約時報讀者的大量流失,這些讀者不再訪問紐約時報的線上渠道,轉而閱讀OpenAI所輸出的內容。

    四、從實際出發(fā)看鼓勵發(fā)展與維護著作權權益間的平衡

    還有學者以2015年的“Authors Guildv.Google案”中,法院認定谷歌進行的文本與數(shù)據(jù)挖掘行為具有“轉換性”意義,可以構成合理使用,作為支持大語言模型預訓練活動構成合理使用的理由[8]。該案件中,法院認為谷歌使用圖書的目的不是向公眾提供圖書的完整內容,而是通過在數(shù)字圖書館中展示圖書的事實類信息便于公眾進行搜索查詢,由于公眾無法直接閱讀圖書的主要內容,該行為不會對著作權人的利益造成實質性損害。但生成式大語言模型的最終自的是利用原作品獨創(chuàng)的表達方式,生成對原作品具有市場替代性的新作品,“機器學習并不是從作品中獲得不受著作權保護的事實,而是從人類作者表達思想的具體方式中獲取有價值的信息,能夠體現(xiàn)出作者個性化表達的那些特征被提取和模仿,具有著作權”[9]。因此,這種“表達性使用”不具備目的上的轉換性,不能構成合理使用[6]。

    日本在2018年修訂《著作權法》,新增第30-4條(非表達性使用)和第47-5條(計算機信息分析使用少量作品),允許為信息分析目的復制受著作權保護的作品,且無須獲得權利人許可。這一修訂為人工智能開發(fā)者提供了更為寬松的法律環(huán)境,使日本成為人工智能發(fā)展的“天堂”[10]。但是,法律也同樣沒有忽視預訓練活動中對著作權人應有的保護:(1)數(shù)據(jù)來源上,《著作權法》第113條第六款明確,在權利人已采取技術措施防止他人使用數(shù)據(jù)集訓練人工智能時,大模型持有人如果仍舊利用該數(shù)據(jù)集進行深度學習,則不屬于非表達性使用允許的范圍,需要承擔侵權責任。第113條第三款嚴格打擊盜版網站向公眾提供侵權作品的行徑,使用盜版內容進行訓練也同樣不屬于合理使用。(2)目的限制:非表達使用限定為不涉及感知作品思想情感表達的使用行為。此類使用不具備市場替代效應,不會實質影響著作權人的市場利益。如果大模型基于預訓練結果所輸出的內容中包含受著作權保護作品的內容,則不符合非表達使用的限定。(3)合理報酬請求:《著作權法》第12-2條明確了數(shù)據(jù)庫作品的獨立保護地位,數(shù)據(jù)庫著作權人可以通過合理報酬請求權,要求大模型訓練主體支付對價。此種制度設計既承認數(shù)據(jù)挖掘技術對作品使用的必然,又通過法定許可機制保障權利人獲取經濟利益,在技術發(fā)展與著作權保護之間形成規(guī)范性協(xié)調[11]。

    正如前文所述,海量數(shù)據(jù)資源使得大語言模型超越了既往技術的發(fā)展,多領域、多視角、多類型的高質量信息供給,不但能消除“偏見”,使得大模型能夠產出更為準確、全面,符合人類邏輯的專業(yè)答案,更能推動人工智能向縱深應用不斷探索,顯著提高勞動生產率和產業(yè)進步。此外,面對國際科技與技術競爭,支持和鼓勵人工智能等新興信息技術的發(fā)展,也有利于國家更好地搶占發(fā)展先機,維護戰(zhàn)略安全。

    但同樣也應看到,著作權制度的價值在于鼓勵創(chuàng)新,通過賦予權利人一定時期的專有權利可以使其創(chuàng)作權益得到保障,激勵更為豐富、更具價值的作品不斷問世,促進人類社會不斷向前。人工智能技術通過不斷的數(shù)據(jù)訓練,可以匯總、歸納、提煉已有的知識內容,減輕人類重復性的復雜勞動,但其并不能自發(fā)創(chuàng)造和產生新的知識源,仍需要人類智慧結晶而成的作品進行充分“投喂”。所以,我們仍需延續(xù)著作權保護的基本原則,尊重權利人的專有權利,保障各類作品的傳統(tǒng)市場不因人工智能的發(fā)展而被蠶食、被替代,預防和避免新的、高質量數(shù)據(jù)資源走向枯竭。通過合理的制度建設,公平的利益劃分,有效的科學監(jiān)管,維持人工智能賴以生存的“數(shù)據(jù)生態(tài)”良性運轉,實現(xiàn)鼓勵人工智能技術發(fā)展與保護著作權人合法權益間的充分平衡。因此,本文提出如下政策建議。

    (一)將生成式大語言模型預訓練活動納入法定許可范疇

    我國《著作權法》分別在第二十四條、第二十五條,通過合理使用和法定許可的制度設計,從維護社會公共利益角度出發(fā),對著作權人的權利進行了限制和讓渡。各國學者在討論生成式大語言模型預訓練活動可能的侵權行為時,也曾嘗試通過合理使用條款,對該行為的違法性予以豁免。但從合理使用條款的設立初衷和衡量標尺等維度進行討論,都不免陷入困境,尤其是難以將人工智能公司的預訓練活動目的單純解釋成公益性的非商業(yè)行為。

    此外,合理使用下的免費規(guī)則,顯然對作品著作權人權益造成不公平侵害,無法實現(xiàn)人工智能開發(fā)者、著作權人以及社會權益的多方共贏。兩相對比,通過法定許可,創(chuàng)設新的應用場景,可以減輕人工智能開發(fā)者的訓練成本和合規(guī)風險,并為著作權人帶來合理的商業(yè)利益,有利于實現(xiàn)產業(yè)生態(tài)的平衡發(fā)展。

    (二)增加預訓練活動的透明性,并允許著作權人自愿退出

    為切實保護原作品著作權人的權益,及時掌握作品的實際使用情況,減少維權成本??梢越梃b歐盟與美國的立法實踐,確立人工智能開發(fā)者對所使用訓練數(shù)據(jù)的披露義務,公開其訓練數(shù)據(jù)集的來源和組成,增加透明度。同時,允許著作權人通過事先聲明或選擇適度合理的技術措施,拒絕或防止其未經授權的作品被人工智能開發(fā)者訓練使用。

    (三)建立著作權人參與的收益獲取與分配機制

    可以根據(jù)人工智能生成內容的商業(yè)價值,要求人工智能開發(fā)者向預訓練數(shù)據(jù)的著作權人支付一定比例的報酬,動態(tài)補償著作權人的智力勞動付出和被替代的市場收益。同時,由于預訓練活動中所面對的海量作品授權和權益分配問題,可以鼓勵充分發(fā)揮著作權集體管理組織的優(yōu)勢,通過批量授權與付費,以降低人工智能開發(fā)者的交易成本。此外,著作權人也可以通過技術手段,如數(shù)字水印或區(qū)塊鏈等,有效標記數(shù)據(jù)來源和使用情況,確保有效識別受保護作品的實際權益。

    (四)建立跨境許可協(xié)調機制,擴大預訓練數(shù)據(jù)來源范圍

    人工智能的發(fā)展是全球性的,其預訓練所需數(shù)據(jù)來源廣泛,實際使用時會面臨不同國家對著作權不同的管理方式和要求,造成合規(guī)成本的顯著上升。為推動人工智能產業(yè)發(fā)展,各國應加強合作,制定統(tǒng)一標準,以促進跨境數(shù)據(jù)共享和著作權保護。(1)加強WIPO(世界知識產權組織)等國際組織的協(xié)調作用,推動制定生成式大語言模型預訓練數(shù)據(jù)使用的全球指南。(2)制定全球統(tǒng)一的預訓練數(shù)據(jù)使用規(guī)則,確保各國在數(shù)據(jù)挖掘和使用上有一致的法律框架,減少法律沖突。(3)建立國際著作權數(shù)據(jù)庫,便于人工智能開發(fā)者查詢和獲取授權,構建形成國際著作權集體管理組織,人工智能開發(fā)者、著作權人各方共贏的報酬分配機制。

    參考文獻:

    [1]A.M.Turing,\"Computing machineryand intelligence\",Mind,vol.LIX,no.236,pp.433-460,1950.

    [2]譚鐵牛.人工智能的歷史、現(xiàn)狀和未來[J].智慧中 國,2019,(Z1):87-91.

    [3]W.X.Zhao,K.Zhou,J.Li,T.Tang,X.Wang,Y. Hou,Y.Min,B.Zhang,J.Zhang,Z.Dong,Y.Du,C.Yang, Y.Chen,Z.Chen,J.Jiang,R.Ren,Y.Li,X.Tang,Z.Liu, P.Liu,J.Y.Nie,J.R.Wen,\"A Survey ofLarge Language Models\",arXiv:2303.18223.

    [4]J.Wei,Y.Tay,R.Bommasani,C.Raffel,B. Zoph,S.Borgeaud,D.Yogatama,M.Bosma,D.Zhou,D. Metzler,E.H.Chi,T.Hashimoto,O.Vinyals,P.Liang,J. Dean,W.Fedus,\"Emergent abilities of large language models\",arXiv:2206.07682.

    [5]馬忠法,肖宇露.論人工智能學習創(chuàng)作的合理使用[J].山東科技大學學報(社會科學版),2020,(5):32-38.

    [6]賀瓊瓊,岳春曉.生成式人工智能創(chuàng)作中的著作權風險及其化解[J].浙江樹人學院學報,2025,25(01):70-81.

    [7]王佐發(fā).生成式人工智能公司官司不斷,技術創(chuàng)新與法律如何再平衡[N].澎湃新聞,https://www.thepaper.cn/newsDetail-forward-30122296,2025-2-11.

    [8]AuthorsGuildv.Google,Inc.,804F.3d202,(2d Cir.2015).

    [9]Benjamin L.W.Sobel,Artifi cial Intelligence'sFairUseCrisis,41 TheColumbiaJournalofLawamp;the Arts45,57-59(2017).

    [10]上野達弘.情報解析と著作權:「機械學習ラタイス」としての日本[].人工知能:人工知能學會誌,2021,36(6):745-749.

    [11]李可心,肖冬梅.日本生成式人工智能訓練數(shù)據(jù)合理使用規(guī)則及其啟示[J/OL].圖書館論壇.https://link.cnki.net/urlid/44.1306.g2.20250224.1351.004.

    [12]盧炳宏.論人工智能生成物的著作權保護[D].吉林大學,2021.

    [13]陶乾.基礎模型訓練的著作權問題:理論澄清與規(guī)則適用[J].政法論壇,2024,(5).

    猜你喜歡
    著作權人開發(fā)者人工智能
    著作權轉讓聲明
    中國食用菌(2022年5期)2022-11-21 16:10:34
    著作權轉讓聲明
    中國食用菌(2022年1期)2022-11-21 14:23:58
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    人工智能與就業(yè)
    IT經理世界(2018年20期)2018-10-24 02:38:24
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    下一幕,人工智能!
    南風窗(2016年19期)2016-09-21 16:51:29
    16%游戲開發(fā)者看好VR
    CHIP新電腦(2016年3期)2016-03-10 13:06:42
    iOS開發(fā)者調查
    電腦迷(2015年8期)2015-05-30 12:27:10
    iOS開發(fā)者調查
    電腦迷(2015年4期)2015-05-30 05:24:09
    著作權許可聲明
    天津造紙(2014年3期)2014-08-15 00:42:04
    龙江县| 大化| 门头沟区| 灵川县| 万山特区| 宜都市| 本溪| 梓潼县| 旬阳县| 亚东县| 静海县| 镇坪县| 微山县| 荥阳市| 衡阳市| 靖州| 莲花县| 犍为县| 绵竹市| 安泽县| 开化县| 富蕴县| 齐河县| 田林县| 屏边| 榕江县| 乌海市| 师宗县| 日照市| 南涧| 吴川市| 崇礼县| 淳安县| 盘山县| 凤城市| 渭源县| 苍梧县| 化州市| 潢川县| 色达县| 诸暨市|