內容提要:當前,數(shù)據(jù)已經成為人工智能快速發(fā)展的催化劑。黨的二十屆三中全會提出,要完善推動新一代信息技術、人工智能等戰(zhàn)略性產業(yè)發(fā)展政策和治理體系,引導新興產業(yè)健康有序發(fā)展;建設和運營國家數(shù)據(jù)基礎設施,促進數(shù)據(jù)共享。從我國產業(yè)實踐來看,相關數(shù)據(jù)法律制度在應對人工智能發(fā)展方面還存在一定的滯后性,導致數(shù)據(jù)“不能用”“不夠用”“不好用”等問題,一定程度上制約了我國人工智能技術和產業(yè)發(fā)展。從國際社會來看,主要國家和地區(qū)積極通過立法修法、發(fā)布指南等方式為解決人工智能數(shù)據(jù)制度“瓶頸”提供法律依據(jù)和實踐指引。面向新一代人工智能發(fā)展需求,我國需盡快調整完善相關數(shù)據(jù)法律規(guī)則,推動數(shù)據(jù)合法高效利用,為人工智能高質量發(fā)展提供制度支撐。
關鍵詞:人工智能 數(shù)據(jù)制度 數(shù)據(jù)共享 數(shù)據(jù)質量
一、問題的提出
人工智能是發(fā)展新質生產力的重要引擎,正在成為整個經濟社會發(fā)展變革的基礎性力量。隨著人工智能技術的快速發(fā)展和經濟效用的逐步體現(xiàn),算力、算法、數(shù)據(jù)作為人工智能核心三要素的重要性日漸凸顯,“而在這三大核心要素中,數(shù)據(jù)值得特別關注”【丁曉東:《論人工智能促進型的數(shù)據(jù)制度》,載《中國法律評論》2023年第6期?!?。大模型時代的到來,加速推動人工智能發(fā)展從以模型為中心向以數(shù)據(jù)為中心轉變,數(shù)據(jù)資源成為人工智能尤其是大模型發(fā)展中最核心、最基礎的要素。構建合理適宜的法律制度是促進人工智能健康發(fā)展的重要基礎,立法通過明確權利和義務為人工智能的創(chuàng)新和規(guī)范提供確定性、激勵性和指導性?!拘劣嘛w:《在法治軌道上推進人工智能高質量發(fā)展》,載《人民論壇·學術前沿》2024年第13期?!吭跀?shù)據(jù)領域,目前我國已經建立以《數(shù)據(jù)安全法》《個人信息保護法》等法律法規(guī)為核心,涵蓋數(shù)據(jù)安全與發(fā)展、個人信息保護、商業(yè)數(shù)據(jù)流通等多方面的數(shù)據(jù)法律制度體系,【謝祎、何波:《中國數(shù)據(jù)法律制度體系研究》,載《大數(shù)據(jù)》2024年第1期?!恳苍凇渡墒饺斯ぶ悄芊展芾頃盒修k法》等部門規(guī)章中規(guī)定了相關數(shù)據(jù)處理要求。人工智能技術的突破式發(fā)展對高質量數(shù)據(jù)提出了巨大需求,但現(xiàn)有的數(shù)據(jù)制度規(guī)則并未及時作相應調整,部分領域還存在制度空白,出現(xiàn)數(shù)據(jù)“不能用”“不夠用”“不好用”等問題,導致當前人工智能技術產業(yè)發(fā)展中面臨數(shù)據(jù)資源的“掣肘”。黨的二十屆三中全會通過的《中共中央關于進一步全面深化改革 推進中國式現(xiàn)代化的決定》提出,完善推動人工智能等戰(zhàn)略性產業(yè)發(fā)展政策和治理體系,引導新興產業(yè)健康有序發(fā)展;加快建立數(shù)據(jù)產權歸屬認定、市場交易、權益分配、利益保護制度,提升數(shù)據(jù)安全治理監(jiān)管能力等。隨著全球人工智能持續(xù)快速發(fā)展,我國亟須進一步構建完善數(shù)據(jù)合規(guī)處理、數(shù)據(jù)安全保障以及數(shù)據(jù)質量管理等相關法律制度規(guī)則,為人工智能創(chuàng)新發(fā)展提供有力法治保障。
二、人工智能發(fā)展的數(shù)據(jù)制度“瓶頸”分析
當前,人工智能發(fā)展正處在以大模型為代表的生成式人工智能階段,大規(guī)模、高質量、多樣性的數(shù)據(jù)集是提升人工智能大模型性能的關鍵。實踐中,人工智能大模型訓練數(shù)據(jù)來源主要包括公開數(shù)據(jù)集、企業(yè)內部數(shù)據(jù)、合作伙伴數(shù)據(jù)、購買第三方數(shù)據(jù)以及用戶生成內容等。目前我國大模型企業(yè)在獲取和使用高質量數(shù)據(jù)資源及語料庫時,存在有效數(shù)據(jù)量不足、部分數(shù)據(jù)作為訓練數(shù)據(jù)合法性存疑、數(shù)據(jù)質量無法保障等問題,成為制約新一代人工智能發(fā)展的數(shù)據(jù)“瓶頸”。
(一)安全保障規(guī)則不明確,數(shù)據(jù)“不能用”矛盾凸顯
目前,我國相關法律法規(guī)對數(shù)據(jù)安全保護、數(shù)據(jù)收集使用規(guī)則等作了明確規(guī)定。例如,《網絡安全法》規(guī)定任何個人和組織不得從事竊取網絡數(shù)據(jù)等危害網絡安全的活動,《個人信息保護法》明確了個人信息處理的合法性基礎。隨著人工智能技術的快速發(fā)展,諸如數(shù)據(jù)爬取合法性、公開個人信息的合法使用等問題不斷涌現(xiàn),但相關制度規(guī)則尚未及時作出回應調整,導致人工智能大模型在獲取和使用數(shù)據(jù)時可能存在合法性問題,部分類型數(shù)據(jù)“不能用”問題突出。
其一,爬取數(shù)據(jù)行為的合法性不明影響人工智能大模型訓練基礎的建構。從互聯(lián)網公開渠道獲取數(shù)據(jù)是人工智能大模型訓練數(shù)據(jù)的重要來源,如根據(jù)OpenAI披露的數(shù)據(jù)統(tǒng)計,GPT3的訓練數(shù)據(jù)大多來自Common Crawl等網絡爬蟲數(shù)據(jù)集?!綛rown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, et al. 2020a. “Language Models are Few-Shot Learners.” arXiv.Org. May 28, 2020. https://arxiv.org/abs/2005.14165.】然而,目前大量網站采用Robots協(xié)議、驗證碼登錄等方式限制爬取行為,企業(yè)通過爬取數(shù)據(jù)進行人工智能大模型訓練可能存在違法風險。從我國司法實踐看,近年涉數(shù)據(jù)不正當競爭案例已顯示出數(shù)據(jù)權益保護的復雜性,關于數(shù)據(jù)授權使用、設置Robots協(xié)議限制他人爬取數(shù)據(jù)、不同類型數(shù)據(jù)保護等問題仍處于討論中。在監(jiān)管立法方面,2024年5月國家市場監(jiān)督管理總局公布的《網絡反不正當競爭暫行規(guī)定》明確指出,經營者不得利用技術手段,非法獲取、使用其他經營者合法持有的數(shù)據(jù)。【《網絡反不正當競爭暫行規(guī)定》第19條規(guī)定:“經營者不得利用技術手段,非法獲取、使用其他經營者合法持有的數(shù)據(jù),妨礙、破壞其他經營者合法提供的網絡產品或者服務的正常運行,擾亂市場公平競爭秩序。”】從司法和監(jiān)管實踐看,由于人工智能大模型訓練中公開爬取數(shù)據(jù)來源多樣、數(shù)量巨大,判斷爬取數(shù)據(jù)行為是否合法變得更為復雜。此外,爬取數(shù)據(jù)的行為若產生危害計算機信息系統(tǒng)安全、數(shù)據(jù)安全等破壞性后果,還有可能被認定為相關刑事犯罪。由于爬取數(shù)據(jù)進行人工智能大模型訓練存在這些合法性風險,人工智能訓練數(shù)據(jù)集的構建面臨法律上的不確定性。
其二,以個人信息作為訓練數(shù)據(jù)可能侵犯個人信息權益。人工智能大模型訓練數(shù)據(jù)來源廣,可能包含大量個人信息。我國《個人信息保護法》《生成式人工智能服務管理暫行辦法》明確了使用個人信息訓練人工智能大模型的合法性基礎,包括取得個人同意或者為履行法定職責或者法定義務所必需、為應對突發(fā)公共衛(wèi)生事件或者緊急情況下為保護自然人的生命健康和財產安全所必需等情形?!尽秱€人信息保護法》第13條規(guī)定:“符合下列情形之一的,個人信息處理者方可處理個人信息:(一)取得個人的同意;(二)為訂立、履行個人作為一方當事人的合同所必需,或者按照依法制定的勞動規(guī)章制度和依法簽訂的集體合同實施人力資源管理所必需;(三)為履行法定職責或者法定義務所必需;(四)為應對突發(fā)公共衛(wèi)生事件,或者緊急情況下為保護自然人的生命健康和財產安全所必需;(五)為公共利益實施新聞報道、輿論監(jiān)督等行為,在合理的范圍內處理個人信息;(六)依照本法規(guī)定在合理的范圍內處理個人自行公開或者其他已經合法公開的個人信息;(七)法律、行政法規(guī)規(guī)定的其他情形。依照本法其他有關規(guī)定,處理個人信息應當取得個人同意,但是有前款第二項至第七項規(guī)定情形的,不需取得個人同意?!薄砍煞ㄒ?guī)明確規(guī)定的特定情形外,“告知—同意”被認為是處理個人信息的必需要件,但實踐中存在個人同意形式化的問題,也導致了其他處理個人信息的合法性基礎被忽視。從實踐來看,在獲取用戶同意方面,由于大模型語料庫可能包含的個人信息量巨大,逐一獲得個人信息主體的同意十分困難。同時,對于使用個人同意公開的個人信息、訓練人工智能大模型的行為是否屬于《個人信息保護法》第27條規(guī)定的“在合理的范圍內處理個人自行公開或者其他已經合法公開的個人信息”存在不確定性,促進個人信息合理利用面臨實踐困難。
其三,以版權數(shù)據(jù)訓練人工智能大模型可能構成版權侵權。人工智能大模型需要高質量訓練數(shù)據(jù)作為性能的保證,但高質量的訓練數(shù)據(jù)集可能包含大量版權作品。目前,關于人工智能大模型使用未獲得著作權人授權的作品進行訓練是否構成侵權已成為爭議焦點,相關訴訟糾紛屢見不鮮。在域外,包括OpenAI、Stability AI、Meta、Anthropic等大模型公司均因在人工智能大模型訓練中使用版權數(shù)據(jù)深陷糾紛。如2023年年底,《紐約時報》向OpenAI和微軟提起訴訟,認為OpenAI在訓練大語言模型時未經授權復制和使用了《紐約時報》的文章,構成版權侵權?!尽捌鹪VOpenAI和微軟,《紐約時報》打響維權第一槍”,載環(huán)球網,https://world.huanqiu.com/article/4FwtTF1RV4f,2024年9月8日訪問?!?024年2月,我國廣州互聯(lián)網法院對某人工智能公司在提供生成式人工智能服務過程中侵犯著作權人對奧特曼作品所享有的復制權和改編權一案作出生效判決。廣州互聯(lián)網法院認為,經營人工智能生成繪畫服務的被告侵害了原告對涉案奧特曼作品享有的復制權、改編權,應承擔停止侵害、賠償損失等民事責任。判決書指出,“考慮到生成式人工智能產業(yè)正處于發(fā)展的初期,需要同時兼顧權利保障和產業(yè)發(fā)展,不宜過度加重服務提供者的義務”?!緟⒁姀V州互聯(lián)網法院(2024)粵0192民初113號民事判決書?!磕壳?,產業(yè)界、學術界、法律實務界就人工智能背景下解釋適用著作權法,特別是關于人工智能大模型在訓練階段使用版權數(shù)據(jù)是否構成“合理使用”、在現(xiàn)有法律規(guī)定下推進版權數(shù)據(jù)授權等問題進行了諸多討論。
(二)共享流通規(guī)則不健全,數(shù)據(jù)“不夠用”現(xiàn)象普遍
在人工智能大模型訓練對巨量、優(yōu)質數(shù)據(jù)需求增長的同時,產業(yè)界、學術界也提出數(shù)據(jù)“不夠用”的擔憂。研究機構Epoch估計,機器學習數(shù)據(jù)集可能會在2026年前耗盡所有“高質量語言數(shù)據(jù)”。美國加州大學伯克利分校計算機科學教授、《人工智能——現(xiàn)代方法》作者斯圖爾特·羅素(Stuart Russell)發(fā)出警告稱,ChatGPT等人工智能驅動的機器人可能很快就會“耗盡宇宙中的文本”,通過收集大量文本來訓練機器人的技術“開始遇到困難”?!緟⒁娚畚模骸洞竽P统奔磳⒑谋M全宇宙文本,高質量數(shù)據(jù)從哪里來?》,載澎湃網,https://www.thepaper.cn/newsDetail_forward_23865563,2024年8月26日訪問?!繑?shù)據(jù)流通共享是釋放數(shù)據(jù)要素價值的關鍵,也是擴容人工智能大模型語料庫的重要方式?!皵?shù)據(jù)融合匯聚不僅是人工智能發(fā)展的基礎,而且對消除人工智能偏見、促進社會公平具有重要意義。”【丁曉東:《論人工智能促進型的數(shù)據(jù)制度》,載《中國法律評論》2023年第6期?!磕壳?,我國在數(shù)據(jù)共享、數(shù)據(jù)交易及數(shù)據(jù)開放等方面仍存在薄弱點和空白區(qū),亟須打通數(shù)據(jù)共享流通在法律制度上的卡點堵點,“構建滿足人工智能發(fā)展需要的數(shù)據(jù)開放、共享、流通、交易的模式”【《國家數(shù)據(jù)局黨組書記、局長劉烈宏最新發(fā)言:首談人工智能大模型》,載騰訊網,https://new.qq.com/rain/a/20240304A07DB600,2024年8月16日訪問?!?。
其一,企業(yè)間數(shù)據(jù)共享缺乏激勵導致各自為據(jù)。頭部人工智能企業(yè)很多也是傳統(tǒng)大型互聯(lián)網企業(yè)或平臺企業(yè),其基于原有互聯(lián)網服務掌握了大量的數(shù)據(jù)資源,并以自有數(shù)據(jù)對人工智能大模型進行訓練,在發(fā)展中形成了一定的競爭優(yōu)勢。與此同時,部分頭部企業(yè)已明確禁止其他企業(yè)獲取、使用其大模型數(shù)據(jù)。如谷歌公司、OpenAI等在其生成式人工智能服務使用協(xié)議中均明確規(guī)定,禁止利用其服務開發(fā)競爭性產品或服務,禁止未經允許爬取數(shù)據(jù)等。此外,也有互聯(lián)網企業(yè)設置“柵欄”或“高墻”,防止其他企業(yè)特別是有競爭關系的企業(yè)獲取其數(shù)據(jù)?!緟⒁姟短詫毿颊狡帘伟俣人阉鳌?,載新浪科技,https://tech.sina.com.cn/i/2008-09-08/17022443143.shtml,2024年8月21日訪問?!炕ヂ?lián)網企業(yè)的這類做法有打造自身生態(tài)系統(tǒng)、增加競爭優(yōu)勢、增強安全等目的,但也導致行業(yè)數(shù)據(jù)孤島現(xiàn)象加劇,數(shù)據(jù)無法互聯(lián)互通,影響數(shù)據(jù)流動和利用。對于人工智能發(fā)展而言,此類情形已經造成了明顯的影響。
其二,數(shù)據(jù)流通交易規(guī)則尚不健全未能適應人工智能快速發(fā)展。向第三方購買的數(shù)據(jù)、合作伙伴數(shù)據(jù)是人工智能大模型訓練中的重要數(shù)據(jù)來源。據(jù)中國信息通信研究院《數(shù)據(jù)要素白皮書(2023年)》統(tǒng)計,目前場外交易仍是數(shù)據(jù)交易的主要形式?!緟⒁娭袊畔⑼ㄐ叛芯吭骸稊?shù)據(jù)要素白皮書(2023年)》第33頁?!课覈稊?shù)據(jù)安全法》中明確了國家建立健全數(shù)據(jù)交易管理制度,規(guī)定了數(shù)據(jù)交易中介服務機構的具體義務和相應的法律責任,但該法側重于數(shù)據(jù)安全,較少涉及數(shù)據(jù)交易市場規(guī)則和具體制度。目前,數(shù)據(jù)場外交易在數(shù)據(jù)安全管理、數(shù)據(jù)定價規(guī)則、交易雙方權利義務等方面缺乏明確規(guī)則指引,導致數(shù)據(jù)提供方、使用方難以就數(shù)據(jù)共享交易達成共識,或者存在數(shù)據(jù)定價不合理或不公平等問題,一定程度上阻礙了數(shù)據(jù)交易流通的實現(xiàn),制約了大模型企業(yè)構建多樣化訓練數(shù)據(jù)集。
其三,公共數(shù)據(jù)開放不足影響人工智能大模型獲取高質量訓練數(shù)據(jù)。公共數(shù)據(jù)是人工智能產業(yè)發(fā)展和模型訓練的重要數(shù)據(jù)來源。從全球范圍來看,主要國家和地區(qū)深入推進公共數(shù)據(jù)開放,歐盟《人工智能法》前言中強調以歐洲共同數(shù)據(jù)空間為人工智能發(fā)展提供數(shù)據(jù)資源,【Regulation (EU) 2024/1689 of the European Parliament and of the Council of 13 June 2024 laying down harmonised rules on artificial intelligence and amending Regulations (EC) No 300/2008, (EU) No 167/2013, (EU) No 168/2013, (EU) 2018/858, (EU) 2018/1139 and (EU) 2019/2144 and Directives 2014/90/EU, (EU) 2016/797 and (EU) 2020/1828 (Artificial Intelligence Act) (Text with EEA relevance), Whereas(68).】美國商務部等適應人工智能發(fā)展提升公共數(shù)據(jù)開放水平和質量。【Request for Information: AI-Ready Open Government Data Assets, April 17, 2024,at https://www.commerce.gov/news/blog/2024/04/request-information-ai-ready-open-government-data-assets (Last Visited on Sept.8,2024). 】據(jù)《全球數(shù)據(jù)晴雨表》最新統(tǒng)計,我國公共數(shù)據(jù)開放排名第41。【Global Data Barometer, at https://globaldatabarometer.org/(Last Visited on Sept.8,2024). 】目前,我國立法層面僅有《數(shù)據(jù)安全法》對政務數(shù)據(jù)開放進行原則性規(guī)定,【《數(shù)據(jù)安全法》第42條規(guī)定:“國家制定政務數(shù)據(jù)開放目錄,構建統(tǒng)一規(guī)范、互聯(lián)互通、安全可控的政務數(shù)據(jù)開放平臺,推動政務數(shù)據(jù)開放利用。”】但對于公共數(shù)據(jù)開放主體、范圍、方式及法律責任等尚未出臺具體規(guī)則,一定程度上影響了公共數(shù)據(jù)開放推進。
(三)質量管理規(guī)則不到位,數(shù)據(jù)“不好用”問題顯現(xiàn)
數(shù)據(jù)是人工智能的基石,數(shù)據(jù)的質量關乎人工智能發(fā)展水平。高質量的數(shù)據(jù)集可以幫助人工智能大模型更好地理解和捕捉不同的概念、語義和語法結構,使模型在各種任務和領域中表現(xiàn)出更好的泛化能力,推動大模型的價值躍遷?!竟憧桑骸蛾P于人工智能大模型發(fā)展的思考與展望》,載《人民論壇·學術前沿》2024年第13期?!亢喲灾哔|量數(shù)據(jù)是提升模型的準確性、穩(wěn)定性和可解釋性的關鍵。目前,對數(shù)據(jù)質量的管理要求主要停留在行業(yè)自律、標準規(guī)范等層面,相關立法對數(shù)據(jù)質量的規(guī)定較少,僅有《生成式人工智能服務管理暫行辦法》規(guī)定選擇訓練數(shù)據(jù)要采取有效措施防止歧視,增強訓練數(shù)據(jù)的真實性、準確性、客觀性、多樣性等。訓練數(shù)據(jù)質量管理尚缺乏統(tǒng)一、可執(zhí)行的標準,一定程度上影響了人工智能大模型訓練質效。
其一,數(shù)據(jù)不準確問題突出。以低質量數(shù)據(jù)訓練人工智能大模型會對模型能力產生破壞性影響,使人工智能大模型記憶有偏差信息,發(fā)生事實性錯誤,導致人工智能產生“幻覺”等問題。目前,人工智能大模型訓練中大量數(shù)據(jù)是從公開渠道獲取,或多或少存在噪音問題。標注數(shù)據(jù)的質量也會受到標注人員自身素養(yǎng)、文化水平等主觀因素影響。此外,人工智能大模型采用“人類反饋強化學習”的訓練方法,在缺乏對齊標準的情況下,反饋提供者的個人觀點可能被人工智能大模型學習和加強,導致生成結果缺乏客觀性。
其二,數(shù)據(jù)代表性不足。人工智能大模型訓練中需要學習大量多樣的知識和價值觀層的數(shù)據(jù),以保證人工智能大模型在全球化背景下實現(xiàn)多樣性和獨特性。但有研究顯示,在全球網站中,英文占59.8%,而中文僅占1.3%。ChatGPT的中文語料庫占比不足0.1%?!緩埿溃骸渡墒饺斯ぶ悄艿臄?shù)據(jù)風險與治理路徑》,載《法律科學(西北政法大學學報)》2023年第5期。】除體量上的差距外,數(shù)據(jù)背后的價值觀差異也是影響我國人工智能大模型發(fā)展的重要因素。例如,有研究指出,當詢問對某些事件的評價時,ChatGPT可能生成蘊含西方價值觀的內容?!緩埿溃骸渡墒饺斯ぶ悄艿臄?shù)據(jù)風險與治理路徑》,載《法律科學(西北政法大學學報)》2023年第5期?!?/p>
其三,數(shù)據(jù)時效性難保證。時效性是數(shù)據(jù)質量的關鍵屬性。錯誤或過時的數(shù)據(jù)可能導致錯誤的決策。但人工智能大模型通常使用歷史數(shù)據(jù)進行訓練,缺乏對最近發(fā)生的事情或正在發(fā)生的事情的了解。語料庫中數(shù)據(jù)的時效性不足導致數(shù)據(jù)質量低,尤其針對新聞出版、法律或者金融等對數(shù)據(jù)時效性要求較高的行業(yè)而言,由于語料庫中的數(shù)據(jù)沒有及時更新,可能導致生成的內容缺乏準確性?!距囌橛睿骸敦撠熑蔚陌l(fā)展生成式人工智能的挑戰(zhàn)及應對路徑》,載《網絡安全與數(shù)據(jù)治理》2024年第7期。】
三、國際社會的立法趨勢與主要做法
當前,全球人工智能產業(yè)進入加速發(fā)展階段,世界主要國家和地區(qū)紛紛加速戰(zhàn)略布局,搶占人工智能發(fā)展高地。在數(shù)據(jù)方面,多個人工智能發(fā)展領先的國家和地區(qū)積極出臺相關立法、指南文件,力圖為人工智能發(fā)展提供更為充足、質量更高的數(shù)據(jù)資源。
(一)促進數(shù)據(jù)開放共享,充實人工智能數(shù)據(jù)供給
為促進數(shù)據(jù)的開放、共享和流通,向人工智能發(fā)展提供充分的數(shù)據(jù)供給,以歐盟、美國為代表的經濟體在立法中對數(shù)據(jù)開放和流通進行了明確規(guī)定。在歐盟,2024年8月1日生效的歐盟《人工智能法》明確規(guī)定,歐洲共同數(shù)據(jù)空間為人工智能提供可信、負責、非歧視的高質量數(shù)據(jù)訪問;提供或支持數(shù)據(jù)訪問的主管部門為AI提供數(shù)據(jù)訪問。2024年4月生效的《歐洲互操作法》中也指出,要建立跨境互操作的治理框架,加強歐洲公共部門間的數(shù)據(jù)跨境交換?!緟⒁姟稓W洲互操作法》第1條?!看送?,歐盟《數(shù)據(jù)法》明確了企業(yè)和個人訪問、獲取、共享數(shù)據(jù)的具體規(guī)則,《數(shù)據(jù)治理法》規(guī)范歐盟及成員國公共部門持有數(shù)據(jù)的再使用等,均為構建人工智能訓練數(shù)據(jù)集提供了合法支撐。在美國,推動政府數(shù)據(jù)開放、促進數(shù)據(jù)流通一直是相關立法、政策、標準方面的發(fā)力點。2024年4月,美國商務部發(fā)布關于《人工智能就緒的開放政府數(shù)據(jù)資產》的信息請求,以改進政府數(shù)據(jù)資產的創(chuàng)建和使用,為生成式人工智能技術發(fā)展提供高質量數(shù)據(jù)?!緟⒁奟equest for Information: AI-Ready Open Government Data Assets,https://www.commerce.gov/news/blog/2024/04/request-information-ai-ready-open-government-data-assets,2024年9月8日訪問?!?/p>
(二)規(guī)范數(shù)據(jù)收集使用,完善人工智能數(shù)據(jù)處理
2024年以來,為解決人工智能發(fā)展中以相關類型數(shù)據(jù)作為訓練數(shù)據(jù)合法性不明的問題,部分國家和地區(qū)出臺相關指引、指南及法律解釋,為人工智能合法合規(guī)收集使用相關數(shù)據(jù)提供規(guī)范指引。如2024年5月,荷蘭數(shù)據(jù)保護機構發(fā)布《數(shù)據(jù)爬取指南》,【參見Scraping door particulieren en private organisaties, 載https://www.autoriteitpersoonsgegevens.nl/actueel/ap-scraping-bijna-altijd-illegaal,2024年9月4日訪問?!繛檫M行數(shù)據(jù)爬取時遵守歐盟《通用數(shù)據(jù)保護條例》(GDPR)要求提供具體指引。2024年6月,法國國家信息和自由委員會(CNIL)發(fā)布《AI系統(tǒng)開發(fā)的數(shù)據(jù)保護指南》,【AI system development: CNIL’s recommendations to comply with the GDPR, 07 June 2024, at https://www.cnil.fr/en/ai-system-development-cnils-recommendations-comply-gdpr (Last Visited on Aug.22, 2024).】從AI系統(tǒng)開發(fā)全周期入手,結合歐盟《通用數(shù)據(jù)保護條例》和《人工智能法》為相關技術人員、業(yè)務決策者等提供數(shù)據(jù)保護的具體指引,包括確認職責、明確數(shù)據(jù)處理的合法性基礎。2024年6月,歐盟數(shù)據(jù)保護監(jiān)督機構(EDPS)發(fā)布《生成式AI數(shù)據(jù)合規(guī)指引》,【Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, 03 June 2024,https://www.edps.europa.eu/system/files/2024-06/24-06-03_genai_orientations_en.pdf (Last Visited on Aug.22, 2024).】通過對人工智能是否涉及個人信息處理、何時進行數(shù)據(jù)保護影響評估等關鍵問題進行說明,結合具體實例,為歐盟機構使用和開發(fā)生成式人工智能工具提供數(shù)據(jù)保護的具體指導。
(三)強調數(shù)據(jù)質量管理,提升人工智能數(shù)據(jù)質量
隨著生成式人工智能的快速發(fā)展,數(shù)據(jù)質量問題成為各國關注的重點,相關立法開始對人工智能訓練數(shù)據(jù)質量進行強制要求,以數(shù)據(jù)質量為人工智能大模型質量提升提供基礎保障。歐盟《人工智能法》明確高風險人工智能系統(tǒng)的訓練數(shù)據(jù)集應當滿足多方面要求:(1)應當遵循適當?shù)臄?shù)據(jù)治理和管理實踐,如對所需數(shù)據(jù)集的可得性、數(shù)量和適用性進行事先評估,審查可能的偏見等;(2)應具有相關性、代表性、無差錯和完整性,還應具有適當?shù)慕y(tǒng)計學意義;(3)在預期目的要求的范圍內,考慮高風險人工智能系統(tǒng)只在特定地理范圍、行為或功能設置的特定特征或元素使用;(4)為了避免AI系統(tǒng)中的偏見可能導致的歧視,供應商應處理特殊類別的個人數(shù)據(jù),以確保對高風險AI系統(tǒng)的偏見進行監(jiān)測、檢測和糾正?!練W盟《人工智能法》第10條?!看送?,美國白宮科技政策辦公室發(fā)布的《人工智能權利法案藍圖》也提出,人工智能的訓練數(shù)據(jù)應當具有相關性、高質量并適合當前任務,應當對部署地的社群具有代表性,并經過歷史偏見和社會偏見的審查等,跟蹤和審查派生數(shù)據(jù)源,對敏感領域數(shù)據(jù)提供額外監(jiān)督?!緟⒁夿ulueprint for an AI Bill of Rights,載https://www.whitehouse.gov/wp-content/uploads/2022/10/Blueprint-for-an-AI-Bill-of-Rights.pdf,2024年8月22日訪問?!?/p>
四、人工智能時代數(shù)據(jù)制度的構建完善
近年來,我國高度重視網絡法律規(guī)范體系建設,持續(xù)完善新興領域立法,為人工智能規(guī)范發(fā)展夯實制度基礎。下一步,面對實踐中存在的數(shù)據(jù)制度“瓶頸”,建議順應新一代人工智能技術快速發(fā)展浪潮,持續(xù)優(yōu)化完善數(shù)據(jù)治理法律體系,調整和細化相關制度規(guī)則,為人工智能發(fā)展掃清數(shù)據(jù)制度障礙。
(一)完善促進發(fā)展的數(shù)據(jù)制度體系
人工智能時代的數(shù)據(jù)治理應把握發(fā)展和規(guī)范兩條主線,明確安全底線,結合權益保護與產業(yè)發(fā)展需求,構建促進型數(shù)據(jù)制度。在方法上,以完善現(xiàn)有法規(guī)為核心,通過修改、解釋現(xiàn)有法律規(guī)范,在保持法律體系的穩(wěn)定性基礎上,明確數(shù)據(jù)利用規(guī)范要求。在理念上,可考慮以鼓勵創(chuàng)新為目標,關注數(shù)據(jù)權益保護和數(shù)據(jù)流通利用制度對創(chuàng)新主體的激勵,以數(shù)據(jù)要素發(fā)展促進人工智能等行業(yè)創(chuàng)新。
(二)推動釋放數(shù)據(jù)要素活力,用好存量數(shù)據(jù)
在提升訓練數(shù)據(jù)量的問題上,分別考慮爬取數(shù)據(jù)、個人信息數(shù)據(jù)、版權數(shù)據(jù)的特殊性。可針對人工智能大模型爬取數(shù)據(jù)進行訓練的客觀需求,通過修訂現(xiàn)行立法放寬對第三方數(shù)據(jù)服務商數(shù)據(jù)爬取的限制,對于商業(yè)數(shù)據(jù)及公眾可以無償獲取的數(shù)據(jù)等明確制度要求,為人工智能大模型開發(fā)者合法的數(shù)據(jù)爬取和使用留出制度空間。在實現(xiàn)人工智能大模型訓練中個人信息合法使用方面,可考慮在《個人信息保護法》框架下,針對人工智能大模型訓練階段、生成階段、應用階段個人信息保護的具體問題出臺細則和指引,考慮使用已公開個人信息訓練的合法性,幫助相關企業(yè)合法地研發(fā)、部署、應用人工智能大模型。在協(xié)調人工智能創(chuàng)新和著作權保護方面,可考慮通過拓展合理使用條款或完善授權機制等方式,允許企業(yè)出于發(fā)展人工智能的公共利益需要,在不影響作品的正常使用,不減損著作權人合法權益的基礎上,使用作品進行模型訓練。
(三)暢通數(shù)據(jù)開放共享機制,擴充人工智能數(shù)據(jù)體量
數(shù)據(jù)可謂人工智能時代的公共性難題,其癥結在于如何在保護個體或企業(yè)合法權益的同時,實現(xiàn)數(shù)據(jù)的聚合與互聯(lián)。【丁曉東:《論人工智能促進型的數(shù)據(jù)制度》,載《中國法律評論》2023年第6期?!繛閼獙θ斯ぶ悄馨l(fā)展對巨量數(shù)據(jù)的需求,需進一步暢通數(shù)據(jù)開放、數(shù)據(jù)共享和流通的渠道,釋放存量數(shù)據(jù)潛力。建議以立法明確公共數(shù)據(jù)開放要求,將更多公共數(shù)據(jù)投入人工智能訓練過程中??煽紤]加快從國家層面出臺公共數(shù)據(jù)開放相關立法,明確公共數(shù)據(jù)開放范圍、開放主體、開放方式等具體規(guī)則,編制公共數(shù)據(jù)開放目錄及相關責任清單,推進公共數(shù)據(jù)開放利用,加速高質量公共數(shù)據(jù)在人工智能背景下進一步釋放價值。以立法明確數(shù)據(jù)共享、數(shù)據(jù)交易合法性,促進企業(yè)間數(shù)據(jù)資源互通聚合。相關部門可出臺規(guī)則指引、實踐指南、最佳實踐案例等,以行政指導、行業(yè)自律等方式支持鼓勵企業(yè)間數(shù)據(jù)互聯(lián)互通。此外,可由數(shù)據(jù)交易較為先進的地區(qū)先行探索,制定數(shù)據(jù)產權、數(shù)據(jù)流通、數(shù)據(jù)定價等相關規(guī)則、標準,引導和促進數(shù)據(jù)依法高效流通,讓數(shù)據(jù)“供得出、流得動、用得好”,真正成為人工智能發(fā)展的催化劑。【《國家數(shù)據(jù)局黨組書記、局長劉烈宏最新發(fā)言:首談人工智能大模型》,載騰訊網,https://new.qq.com/rain/a/20240304A07DB600,2024年8月16日訪問。】
(四)“軟硬兼施”多維度提升人工智能數(shù)據(jù)質量
高質量數(shù)據(jù)可以更好地模擬世界,將其作為訓練數(shù)據(jù)可以增強模型能力,提升模型準確性、穩(wěn)定性、魯棒性和泛化能力。在強化數(shù)據(jù)質量管理方面,需軟硬兼施全方位提升數(shù)據(jù)質量管理水平。一方面,人工智能相關法律法規(guī)、政策文件可進一步明確數(shù)據(jù)質量要求,規(guī)范人工智能研發(fā)者、數(shù)據(jù)提供者、數(shù)據(jù)標注者等的數(shù)據(jù)質量管理義務?!皩τ谏墒饺斯ぶ悄芏裕邪l(fā)者應就模型訓練時的數(shù)據(jù)類型、數(shù)據(jù)來源、數(shù)據(jù)處理方式、數(shù)據(jù)質量、數(shù)據(jù)標注規(guī)則、減少數(shù)據(jù)中潛在偏見和歧視的措施,以及數(shù)據(jù)輸入后可能對個人、系統(tǒng)以及社會產生的影響與后果履行全面的告知義務。”【張欣:《生成式人工智能的數(shù)據(jù)風險與治理路徑》,載《法律科學(西北政法大學學報)》2023年第5期?!苛硪环矫妫覈嚓P主管部門、行業(yè)組織可通過發(fā)布實踐指引、行業(yè)標準的形式,明確對具體行業(yè)、具體類型數(shù)據(jù)質量的具體要求。圍繞數(shù)據(jù)標準化、數(shù)據(jù)合規(guī)化、數(shù)據(jù)完整性、數(shù)據(jù)一致性等要求,構建數(shù)據(jù)集質量評測基準體系,開發(fā)數(shù)據(jù)標注管理工具,為提升數(shù)據(jù)質量提供明確指引。此外,可探索構建數(shù)據(jù)標注行業(yè)管理制度,完善數(shù)據(jù)標注規(guī)則,包括標注目標、標注格式、標注方法以及數(shù)據(jù)質量指標等。同時,構建數(shù)據(jù)標注從業(yè)者的資格準入制度,針對數(shù)據(jù)標注、數(shù)據(jù)審核等不同職能明確不同的任職要求等。
五、結論
整體來看,大規(guī)模、高質量的數(shù)據(jù)資源對于以生成式人工智能為代表的新一代人工智能發(fā)展的重要性日益凸顯。在持續(xù)探索構建數(shù)字經濟時代數(shù)據(jù)基礎制度的背景下,有必要重新審視我國現(xiàn)有數(shù)據(jù)制度體系,“將規(guī)制目標從權利保護進階為公平使用,將規(guī)制路徑由命令控制轉變?yōu)榘輰徤鳌保緩垵骸渡墒饺斯ぶ悄苡柧殧?shù)據(jù)集的法律風險與包容審慎規(guī)制》,載《比較法研究》2024年第4期?!吭诿鞔_監(jiān)管底線紅線的基礎上,通過優(yōu)化完善個人信息處理、版權數(shù)據(jù)保護、公共數(shù)據(jù)開放等法律制度,強化數(shù)據(jù)爬取行為規(guī)范性要求,健全數(shù)據(jù)流通交易規(guī)則,促進數(shù)據(jù)合規(guī)流通,激發(fā)數(shù)據(jù)要素價值,為人工智能創(chuàng)新發(fā)展提供源源不斷的優(yōu)質數(shù)據(jù)資源。
Abstract:Nowadays, data has become the catalyst for the rapid development of artificial intelligence. The Third Plenary Session of the 20th Central Committee of the Communist Party of China proposed that we should improve the policy and governance system to promote the development of new generation of information technology, artificial intelligence and other strategic industries, guide the healthy and orderly development of emerging industries, and build and operate the national data infrastructure to promote data sharing. In terms of China’s industrial practice, the relevant data legal system in response to the development of artificial intelligence is still lagging behind, resulting in unusable, insufficient or low quality data, which have restricted the development of artificial intelligence and relevant industries. Internationally, many countries and regions are actively tackling the bottleneck of AI data system through amending laws and regulations and issuing guidelines to provide legal basis and practical guidance for AI development. To meet the needs of developing a new generation of artificial intelligence, China should promptly improve relevant legal rules on data, promote the legitimate and efficient utilization of data, and clear the institutional obstacles for the high-quality development of artificial intelligence.
[責任編輯 邢峻彬]