• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    加快建設(shè)人工智能大模型中文訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)

    2024-08-13 00:00:00張凌寒
    人民論壇·學(xué)術(shù)前沿 2024年13期

    【摘要】人工智能大模型產(chǎn)業(yè)發(fā)展的三要素為算法、算力與數(shù)據(jù),其中訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的質(zhì)量直接決定了人工智能大模型的能力。中文數(shù)據(jù)語(yǔ)料總量相較英文數(shù)據(jù)語(yǔ)料嚴(yán)重不足,同時(shí)存在數(shù)據(jù)采集行為違法風(fēng)險(xiǎn)較高、公共數(shù)據(jù)開放利用不足、線下結(jié)構(gòu)化數(shù)據(jù)版權(quán)制度不協(xié)調(diào)、商業(yè)采購(gòu)與合作數(shù)據(jù)無(wú)法確定數(shù)據(jù)權(quán)屬等障礙,其已成為制約人工智能發(fā)展的制度瓶頸。發(fā)展我國(guó)人工智能大模型產(chǎn)業(yè)可通過司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來(lái)源合法性認(rèn)定條件,協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界,構(gòu)建開放機(jī)制滿足公共數(shù)據(jù)參與語(yǔ)料庫(kù)建設(shè)需求,協(xié)同促進(jìn)跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵(lì),多方破除制度障礙以應(yīng)對(duì)產(chǎn)業(yè)發(fā)展需求。

    【關(guān)鍵詞】人工智能大模型 訓(xùn)練數(shù)據(jù) 語(yǔ)料庫(kù)建設(shè) 版權(quán)制度 公共數(shù)據(jù)

    【中圖分類號(hào)】TP18 【文獻(xiàn)標(biāo)識(shí)碼】A

    【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006

    人工智能是新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,將對(duì)全球經(jīng)濟(jì)社會(huì)發(fā)展和人類文明進(jìn)步產(chǎn)生深遠(yuǎn)影響。中國(guó)高度重視人工智能發(fā)展,積極推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合,培育壯大智能產(chǎn)業(yè),加快發(fā)展新質(zhì)生產(chǎn)力,為高質(zhì)量發(fā)展提供新動(dòng)能。在人工智能產(chǎn)業(yè)發(fā)展的諸多要素中,訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的規(guī)模和多樣性是技術(shù)進(jìn)步的關(guān)鍵因素。我國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的建設(shè)面臨一些制度不協(xié)調(diào),制約了人工智能技術(shù)的發(fā)展。當(dāng)下迫切需要理清語(yǔ)料庫(kù)建設(shè)存在的障礙,明晰人工智能訓(xùn)練數(shù)據(jù)壁壘與低質(zhì)成因,通過分析人工智能大模型產(chǎn)業(yè)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)需求,提出訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)制度協(xié)調(diào)與規(guī)則應(yīng)對(duì)的解決方案。

    訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)是人工智能產(chǎn)業(yè)發(fā)展的重要因素

    語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)規(guī)模是大模型能力涌現(xiàn)的基礎(chǔ)。人工智能大模型的能力飛躍得益于涌現(xiàn)效應(yīng)。涌現(xiàn)效應(yīng)標(biāo)志著人工智能大模型的性能產(chǎn)生飛躍,能力“涌現(xiàn)”就是指“在小模型中不存在,而在大模型中能夠展現(xiàn)出的能力”。[1]大模型的整體性能和行為會(huì)由于“涌現(xiàn)”出現(xiàn)質(zhì)的飛躍,且這種飛躍無(wú)法僅從系統(tǒng)的組成部分來(lái)預(yù)測(cè)或解釋。以GPT系列模型為例,作為語(yǔ)言模型,開發(fā)者在初期僅訓(xùn)練其處理一般的語(yǔ)言任務(wù),但當(dāng)?shù)紾PT-3時(shí),語(yǔ)言模型開始表現(xiàn)出成功進(jìn)行兩位數(shù)乘法的能力,即使開發(fā)者并未對(duì)其進(jìn)行專門的數(shù)學(xué)運(yùn)算訓(xùn)練。[2]

    訓(xùn)練數(shù)據(jù)體量的增加是人工智能大模型出現(xiàn)涌現(xiàn)效應(yīng)的基礎(chǔ)?!坝楷F(xiàn)”只存在于訓(xùn)練數(shù)據(jù)達(dá)到一定量級(jí),并因此產(chǎn)生質(zhì)變的大模型中。如圖1所示,谷歌和斯坦福大學(xué)的相關(guān)研究表明,當(dāng)模型規(guī)模達(dá)到一定量級(jí)時(shí),能力“涌現(xiàn)”突然發(fā)生,并隨著模型體量的增加持續(xù)攀升。[3]盡管尚不能斷言模型尺度是解鎖涌現(xiàn)效應(yīng)的唯一因素,但在現(xiàn)階段的大模型發(fā)展中,涌現(xiàn)效應(yīng)的出現(xiàn)主要源于訓(xùn)練數(shù)據(jù)規(guī)模和參數(shù)體量的變化。[4]

    越過“涌現(xiàn)”門檻后,訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的規(guī)模和類型的發(fā)展也可推動(dòng)大模型能力持續(xù)進(jìn)步。以數(shù)據(jù)規(guī)模為例,盡管OpenAI從GPT-3.5時(shí)期起就不再公布訓(xùn)練數(shù)據(jù)的構(gòu)成和規(guī)模,但業(yè)內(nèi)普遍認(rèn)為從GPT-3.5到GPT-4,訓(xùn)練數(shù)據(jù)仍然保持高速增長(zhǎng),使得模型能夠?qū)W習(xí)到更豐富的語(yǔ)言特征和語(yǔ)義關(guān)系,從而在文本生成風(fēng)格、多語(yǔ)言翻譯和長(zhǎng)文本處理等多項(xiàng)自然語(yǔ)言處理任務(wù)中展現(xiàn)出前所未有的性能。[5]以數(shù)據(jù)類型為例,相較于其前身PaLM的純英文文本訓(xùn)練數(shù)據(jù)集,由谷歌開發(fā)的PaLM-2模型使用的語(yǔ)料庫(kù)中包括數(shù)百種人類和編程語(yǔ)言、數(shù)學(xué)方程、科學(xué)論文等多類型數(shù)據(jù),并因此使得PaLM-2模型在高級(jí)推理、翻譯、代碼生成等方面的表現(xiàn)優(yōu)于PaLM。訓(xùn)練數(shù)據(jù)規(guī)模和類型的豐富,不斷驅(qū)動(dòng)大模型能力從特定任務(wù)模型繼續(xù)擴(kuò)展,顯現(xiàn)出通用人工智能模型。

    語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)質(zhì)量是大模型性能提升的關(guān)鍵。語(yǔ)料質(zhì)量對(duì)大模型性能有著至關(guān)重要的作用。高質(zhì)量數(shù)據(jù)可以更好地模擬客觀世界,將其作為訓(xùn)練數(shù)據(jù)可以增強(qiáng)模型能力。從技術(shù)層面看,高質(zhì)量數(shù)據(jù)能夠使模型預(yù)測(cè)的概率分布盡可能逼近實(shí)際數(shù)據(jù)的真實(shí)分布;從模型能力看,高質(zhì)量數(shù)據(jù)可以提升模型的準(zhǔn)確性和穩(wěn)定性,降低模型對(duì)特定數(shù)據(jù)集的依賴,提升魯棒性和泛化能力[6]。相關(guān)研究指出,“未來(lái)一個(gè)模型的好壞,20%由算法決定,80%由數(shù)據(jù)質(zhì)量決定。接下來(lái)高質(zhì)量的數(shù)據(jù)將是提升模型性能的關(guān)鍵”。[7]

    在當(dāng)下的大模型競(jìng)爭(zhēng)中,作為模型能力提升的關(guān)鍵,良好的數(shù)據(jù)質(zhì)量在一定程度上可以彌補(bǔ)數(shù)據(jù)數(shù)量的不足。騰訊、阿里等本土人工智能企業(yè)的技術(shù)負(fù)責(zé)人曾在多個(gè)場(chǎng)合表示,即使模型參數(shù)量級(jí)有所下降,只要數(shù)據(jù)語(yǔ)料質(zhì)量足夠優(yōu)秀,模型的表現(xiàn)依然能夠保持較好水準(zhǔn)。[8]例如,使用少量但高度準(zhǔn)確和詳細(xì)的患者健康記錄,可以訓(xùn)練出能夠準(zhǔn)確預(yù)測(cè)疾病的機(jī)器學(xué)習(xí)模型。相比之下,大量的低質(zhì)量數(shù)據(jù)(如錯(cuò)誤的診斷信息、不完整的病歷等)可能導(dǎo)致模型做出錯(cuò)誤的預(yù)測(cè),影響治療效果。這說(shuō)明在醫(yī)療領(lǐng)域中,高質(zhì)量的數(shù)據(jù)能通過提供更準(zhǔn)確的洞察力和決策支持來(lái)彌補(bǔ)數(shù)量上的不足。[9]高質(zhì)量數(shù)據(jù)通過對(duì)現(xiàn)有不同來(lái)源的數(shù)據(jù)加以混合、調(diào)試配比,提升模型執(zhí)行下游任務(wù)的泛化能力;還可以利用數(shù)據(jù)增強(qiáng)等手段有效提升多樣性,即通過對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或擴(kuò)充,生成更多的訓(xùn)練樣本,增強(qiáng)訓(xùn)練數(shù)據(jù)代表性和多樣性。[10]

    多模態(tài)大模型的能力對(duì)訓(xùn)練數(shù)據(jù)的種類與質(zhì)量提出了更多要求。多模態(tài)大模型是以單模態(tài)大模型為基礎(chǔ)的,具有接收、推理和輸出多模態(tài)信息能力的大模型。多模態(tài)大模型能夠根據(jù)多模態(tài)指令展現(xiàn)新的能力,如根據(jù)圖像編寫網(wǎng)站代碼。[11]對(duì)多模態(tài)大模型具有重要意義的訓(xùn)練數(shù)據(jù)同樣表現(xiàn)出多模態(tài)。例如,多模態(tài)模型CLIP的訓(xùn)練數(shù)據(jù)包括文本和圖像的結(jié)合,數(shù)據(jù)集的多樣性遠(yuǎn)超傳統(tǒng)的文本數(shù)據(jù)集,這使得CLIP能夠理解和生成與文本描述相關(guān)的圖像,在圖像理解、圖像生成和跨模態(tài)檢索等任務(wù)上表現(xiàn)卓越。[12]然而,現(xiàn)有的大多數(shù)多模態(tài)融合方法都假定數(shù)據(jù)質(zhì)量較高,這使得它們?cè)诘唾|(zhì)量數(shù)據(jù)的情境下難以有效應(yīng)用。[13]

    語(yǔ)料庫(kù)的訓(xùn)練數(shù)據(jù)合規(guī)是大模型價(jià)值取向的保證。就技術(shù)原理而言,生成式人工智能系統(tǒng)通過在文本、圖片、音視頻等多模態(tài)訓(xùn)練數(shù)據(jù)“喂養(yǎng)”的基礎(chǔ)上生成文本、圖像、音視頻等內(nèi)容,其生成內(nèi)容難以避免會(huì)受原始訓(xùn)練數(shù)據(jù)的影響。

    訓(xùn)練數(shù)據(jù)對(duì)于大模型價(jià)值取向的影響體現(xiàn)在多個(gè)維度。就數(shù)據(jù)蘊(yùn)含的內(nèi)容而言,不同領(lǐng)域的訓(xùn)練數(shù)據(jù)決定了大模型在對(duì)應(yīng)領(lǐng)域中的價(jià)值取向偏差。聯(lián)合國(guó)高級(jí)別人工智能咨詢機(jī)構(gòu)發(fā)布的《以人為本的人工智能治理》報(bào)告指出,人工智能在道德價(jià)值、社會(huì)價(jià)值、文化價(jià)值、法律規(guī)范等領(lǐng)域存在風(fēng)險(xiǎn)。就數(shù)據(jù)表達(dá)的偏見類型而言,多樣化的數(shù)據(jù)偏見會(huì)對(duì)大模型的內(nèi)容生成產(chǎn)生潛移默化的影響。以性別為例,加州大學(xué)洛杉磯分校的機(jī)器學(xué)習(xí)團(tuán)隊(duì)將自然語(yǔ)言學(xué)習(xí)中的偏見具體分成了四類:刻板印象、分類識(shí)別、代表偏差、貶損評(píng)價(jià)。[14]可見,大模型的價(jià)值取向問題并非僅包含明顯的歧視,而是在不同維度的偏見上均有體現(xiàn)。

    開發(fā)者對(duì)訓(xùn)練數(shù)據(jù)投毒等方式,也會(huì)對(duì)大模型生成內(nèi)容的價(jià)值取向造成破壞性結(jié)果。數(shù)據(jù)投毒系針對(duì)模型訓(xùn)練過程,通過在訓(xùn)練數(shù)據(jù)集中插入精心設(shè)計(jì)的有害樣本,利用模型訓(xùn)練或者微調(diào)過程來(lái)使大模型“中毒”的攻擊方式。[15]開發(fā)者可以對(duì)大模型進(jìn)行“投毒”,使其在特定任務(wù)上傳播虛假信息,并偽裝為權(quán)威機(jī)構(gòu)發(fā)布的模型上傳至開源社區(qū),實(shí)現(xiàn)惡意攻擊的傳播。[16]經(jīng)受錯(cuò)誤誘導(dǎo)的大模型輸出內(nèi)容可能導(dǎo)致價(jià)值偏見的傳播,甚至引發(fā)公共惡性事件。此外,投毒信息會(huì)使得模型生成的內(nèi)容與現(xiàn)實(shí)事實(shí)不一致,即產(chǎn)生幻覺[17],但在回答其他問題時(shí)依然正常,這使得模型投毒造成的危害難以在生成端被有效識(shí)別。

    由此可見,訓(xùn)練數(shù)據(jù)的質(zhì)量直接關(guān)系大模型生成內(nèi)容的價(jià)值取向。大模型通常具有數(shù)十億級(jí)以上的參數(shù),由于模型黑箱等特性其運(yùn)行決策過程缺乏透明度,人們往往難以理解模型如何形成特定價(jià)值取向。盡管可以通過基于人類反饋的強(qiáng)化學(xué)習(xí)、全監(jiān)督微調(diào)等手段推動(dòng)價(jià)值對(duì)齊,但受限于算法能力、穩(wěn)定性、成本、文化差異等問題,難以完全滿足復(fù)雜的應(yīng)用場(chǎng)景下對(duì)大模型治理的需要。[18]因此,對(duì)訓(xùn)練數(shù)據(jù)集提出較高的合規(guī)要求,是對(duì)大模型實(shí)現(xiàn)有效治理的必要前提。也正是基于此技術(shù)原理,《生成式人工智能預(yù)訓(xùn)練和優(yōu)化訓(xùn)練數(shù)據(jù)安全規(guī)范(征求意見稿)》將違反社會(huì)主義核心價(jià)值觀和歧視性的內(nèi)容列為主要安全風(fēng)險(xiǎn)內(nèi)容,在訓(xùn)練數(shù)據(jù)收集、使用、處理階段通過抽樣檢查等方式減少數(shù)據(jù)中的價(jià)值偏差內(nèi)容,避免模型學(xué)習(xí)并生成有害結(jié)果。[19]

    我國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的建設(shè)現(xiàn)狀與存在問題

    訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)總體量級(jí)不足。中文訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)總體量級(jí)的不足,集中體現(xiàn)為中文語(yǔ)料在全球語(yǔ)料總量中占比較低,這一問題由來(lái)已久,難以在短期內(nèi)改變。中文訓(xùn)練數(shù)據(jù)語(yǔ)料總量的不足,使高質(zhì)量語(yǔ)料缺少積累,導(dǎo)致高質(zhì)量中文語(yǔ)料尤為稀缺。中文訓(xùn)練數(shù)據(jù)語(yǔ)料在數(shù)量和質(zhì)量上的弱勢(shì),間接導(dǎo)致中文大模型企業(yè)只能退而求其次,通過語(yǔ)料翻譯、降低質(zhì)量要求甚至從其他模型中提取語(yǔ)料的方式獲取數(shù)據(jù),進(jìn)而增加了大模型的不穩(wěn)定和不安全的風(fēng)險(xiǎn)。

    第一,中文語(yǔ)料總量占比較低。長(zhǎng)久以來(lái),互聯(lián)網(wǎng)中文內(nèi)容的占比長(zhǎng)期處于劣勢(shì),中文語(yǔ)料總量積累明顯不足。根據(jù)W3Techs提供的實(shí)時(shí)統(tǒng)計(jì)顯示,全球互聯(lián)網(wǎng)中文內(nèi)容僅占全部?jī)?nèi)容的1.2%,相較之下英文內(nèi)容占比則高達(dá)49.9%。[20]使用人口、傳播范圍和國(guó)際影響力上的差距導(dǎo)致了中英文語(yǔ)料在總量上的差距。IDC于2023年發(fā)布的報(bào)告顯示,中文語(yǔ)料數(shù)據(jù)年均增長(zhǎng)速度為26.3%,預(yù)計(jì)在2027年將達(dá)到76.6ZB,然而相較近2000ZB的互聯(lián)網(wǎng)數(shù)據(jù)總量而言依舊微小。[21]中英文語(yǔ)料總量差距的一個(gè)直接反映是中文開源訓(xùn)練數(shù)據(jù)集規(guī)模不足,英文開源數(shù)據(jù)集在GPT系列訓(xùn)練數(shù)據(jù)中規(guī)模非常龐大,而中文模型開發(fā)者可利用的網(wǎng)絡(luò)開源數(shù)據(jù)集數(shù)量卻十分有限,這種開源數(shù)據(jù)集數(shù)量上的不足導(dǎo)致中文模型的開發(fā)高度依賴自有業(yè)務(wù)產(chǎn)生和商業(yè)采購(gòu)的數(shù)據(jù),對(duì)缺乏互聯(lián)網(wǎng)業(yè)務(wù)積累和充盈資金投入的AI初創(chuàng)企業(yè)十分不友好。

    第二,中文語(yǔ)料總體質(zhì)量較低。中文高質(zhì)量語(yǔ)料的積累周期較短,難以形成足夠規(guī)模和水平的高質(zhì)量數(shù)據(jù)池,其總體質(zhì)量不及英文語(yǔ)料庫(kù)??捎瞄_源數(shù)據(jù)集在整體數(shù)據(jù)池中的占比低,是導(dǎo)致中文高質(zhì)量語(yǔ)料不足的主要原因之一。開源數(shù)據(jù)集經(jīng)過爬取、清洗和結(jié)構(gòu)化等工序后形成,數(shù)據(jù)質(zhì)量通常高于原始數(shù)據(jù)。而我國(guó)可用開源數(shù)據(jù)集數(shù)量稀缺,迫使企業(yè)轉(zhuǎn)向其他數(shù)據(jù)來(lái)源,這導(dǎo)致大量網(wǎng)頁(yè)語(yǔ)料未能經(jīng)過系統(tǒng)收集和加工,降低了中文語(yǔ)料的整體質(zhì)量水平。高質(zhì)量語(yǔ)料積累薄弱的另一個(gè)原因在于公共數(shù)據(jù)開放深度和統(tǒng)一度的不足。[22]我國(guó)公共數(shù)據(jù)的積累可以追溯至2015年前后的智慧城市建設(shè)時(shí)期,公共數(shù)據(jù)開放逐漸被嫁接在電子政務(wù)建設(shè)的邏輯上展開。[23]各地政府隨后出臺(tái)了相關(guān)規(guī)范,但全國(guó)范圍內(nèi)長(zhǎng)期未能建立統(tǒng)一的數(shù)據(jù)開放平臺(tái)。我國(guó)各級(jí)政府部門掌握了50%~80%的信息數(shù)據(jù)資源,這些資源至今仍未被有效整合和利用。

    第三,中文語(yǔ)料匱乏引發(fā)語(yǔ)料供給困境。中文語(yǔ)料數(shù)量和質(zhì)量的雙重不足,給國(guó)內(nèi)大模型的開發(fā)帶來(lái)了巨大的語(yǔ)料供給困境,迫使開發(fā)企業(yè)選擇翻譯外文語(yǔ)料或降低質(zhì)量標(biāo)準(zhǔn)等手段進(jìn)行大模型的訓(xùn)練。作為幫助模型建立聯(lián)系的素材,訓(xùn)練語(yǔ)料應(yīng)當(dāng)盡可能準(zhǔn)確地反映真實(shí)、客觀的規(guī)律,而翻譯外文語(yǔ)料和使用低質(zhì)語(yǔ)料可能降低語(yǔ)料內(nèi)容的準(zhǔn)確性,增加模型內(nèi)容的安全隱患。2023年12月,OpenAI關(guān)停了字節(jié)跳動(dòng)的GPT服務(wù)賬戶及相關(guān)API,理由是后者利用所提取的GPT數(shù)據(jù)開發(fā)自己的大模型,這明顯違反了服務(wù)協(xié)議中的條款。[24]從其他模型中提取語(yǔ)料的行為,不僅可能違反服務(wù)提供者設(shè)定的規(guī)則,還可能在承認(rèn)數(shù)據(jù)具有財(cái)產(chǎn)屬性的前提下被認(rèn)定為侵權(quán)行為。此外,語(yǔ)料供給困境還可能導(dǎo)致企業(yè)圍繞有限的語(yǔ)料展開過度競(jìng)爭(zhēng)。研究發(fā)現(xiàn),模型生成語(yǔ)料的反復(fù)投喂,可能導(dǎo)致后續(xù)模型能力的下降乃至模型發(fā)散,形成“模型退化”現(xiàn)象。[25]若放任行業(yè)長(zhǎng)期圍繞語(yǔ)料的獲取進(jìn)行過度競(jìng)爭(zhēng),會(huì)使數(shù)字企業(yè)的數(shù)據(jù)共享意愿持續(xù)下降,進(jìn)一步加劇數(shù)據(jù)流通不暢和高質(zhì)量語(yǔ)料積累不足的困境,造成AI產(chǎn)業(yè)發(fā)展的惡性循環(huán)。

    訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)總體來(lái)源匱乏。訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的來(lái)源匱乏也是目前制約人工智能發(fā)展的關(guān)鍵問題,我國(guó)在網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等外部來(lái)源數(shù)據(jù)方面存在明顯不足,大模型廠商內(nèi)部的合成數(shù)據(jù)尚未形成規(guī)模,擬出臺(tái)的嚴(yán)格合規(guī)要求進(jìn)一步限制了可用數(shù)據(jù)的范圍,使得我國(guó)的AI大模型在訓(xùn)練數(shù)據(jù)上面臨嚴(yán)峻挑戰(zhàn)。

    一方面,外部來(lái)源數(shù)據(jù)不足。目前常見的外部來(lái)源數(shù)據(jù)通常包含網(wǎng)絡(luò)數(shù)據(jù)、線下數(shù)據(jù)、公共數(shù)據(jù)、領(lǐng)域數(shù)據(jù)等,相比之下,美國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)中的外部來(lái)源數(shù)據(jù)十分充足,而我國(guó)的訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)則相對(duì)單薄。在網(wǎng)絡(luò)數(shù)據(jù)方面,美國(guó)擁有龐大的網(wǎng)絡(luò)數(shù)據(jù)容量和豐富的開源數(shù)據(jù)資源,企業(yè)能夠通過合規(guī)爬蟲技術(shù)輕松獲取數(shù)據(jù);而我國(guó)網(wǎng)絡(luò)建設(shè)起步晚,網(wǎng)絡(luò)數(shù)據(jù)積累量小,擁有較大數(shù)據(jù)量的平臺(tái)不愿公開自身數(shù)據(jù),導(dǎo)致網(wǎng)絡(luò)數(shù)據(jù)總量遠(yuǎn)不及美國(guó)。在線下數(shù)據(jù)方面,模型廠商需要將該部分?jǐn)?shù)據(jù)電子化后才能用來(lái)訓(xùn)練,美國(guó)對(duì)線下數(shù)據(jù)進(jìn)行了高度電子化,主要的學(xué)術(shù)期刊和論文幾乎全部實(shí)現(xiàn)了在線獲取;而我國(guó)電子化程度較低,許多圖書、期刊和論文等仍主要以紙質(zhì)形式存在,線下數(shù)據(jù)難以被充分利用。在公共數(shù)據(jù)方面,美國(guó)聯(lián)邦政府要求公共數(shù)據(jù)“應(yīng)開盡開”,并建立了聯(lián)邦層面統(tǒng)一數(shù)據(jù)開放平臺(tái),鼓勵(lì)社會(huì)力量探索公共數(shù)據(jù)的應(yīng)用;而我國(guó)公共數(shù)據(jù)的開放程度仍有不足,僅對(duì)少數(shù)數(shù)據(jù)集提供了API接口,大部分優(yōu)質(zhì)公共數(shù)據(jù)仍未開放。在領(lǐng)域數(shù)據(jù)方面,領(lǐng)域數(shù)據(jù)通常由專業(yè)部門在從事專門知識(shí)勞動(dòng)中長(zhǎng)期積累而來(lái),由于美國(guó)公開的數(shù)據(jù)政策和獲取機(jī)制,其領(lǐng)域數(shù)據(jù)共享較為暢通;而我國(guó)相關(guān)權(quán)利主體出于商業(yè)利益和數(shù)據(jù)安全等考慮,缺乏共享領(lǐng)域數(shù)據(jù)的積極性,整體領(lǐng)域數(shù)據(jù)流通程度較低。

    另一方面,內(nèi)部合成數(shù)據(jù)缺失。內(nèi)部合成數(shù)據(jù)來(lái)源于對(duì)真實(shí)數(shù)據(jù)集的建模、提取和合成,既能補(bǔ)充真實(shí)數(shù)據(jù)的不足,又能在保護(hù)隱私的同時(shí)提供大量多樣化的訓(xùn)練材料,在模型訓(xùn)練中發(fā)揮著至關(guān)重要的作用。隨著AI大模型的發(fā)展,內(nèi)部合成數(shù)據(jù)在訓(xùn)練數(shù)據(jù)中的比例逐漸增加。2021年,所有人工智能訓(xùn)練數(shù)據(jù)中只有1%是合成數(shù)據(jù),到2024年底,這一比例將達(dá)到60%,據(jù)Gartner預(yù)測(cè),未來(lái)用于訓(xùn)練機(jī)器學(xué)習(xí)模型的大多數(shù)數(shù)據(jù)將是自動(dòng)生成的合成數(shù)據(jù)。[26]然而,與國(guó)際領(lǐng)先企業(yè)相比,我國(guó)在合成數(shù)據(jù)技術(shù)和應(yīng)用上的起步較晚,國(guó)內(nèi)大模型廠商在內(nèi)部合成數(shù)據(jù)方面的儲(chǔ)備明顯不足,缺乏足夠的經(jīng)驗(yàn)和技術(shù)積累,導(dǎo)致目前我國(guó)企業(yè)的內(nèi)部合成數(shù)據(jù)在整體訓(xùn)練數(shù)據(jù)中的占比較低。這種差距不僅體現(xiàn)在數(shù)據(jù)總量上,更對(duì)數(shù)據(jù)質(zhì)量和多樣性產(chǎn)生了深遠(yuǎn)影響,限制了AI技術(shù)在更廣泛領(lǐng)域的應(yīng)用潛力。

    訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)缺少結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)在語(yǔ)料庫(kù)模型訓(xùn)練中起著重要作用。與非結(jié)構(gòu)化數(shù)據(jù)相比,標(biāo)準(zhǔn)統(tǒng)一、格式一致的數(shù)據(jù)資源更易于理解和利用。然而,目前我國(guó)在訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)中面臨線下數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)的泛化、公共數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)的缺失以及網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下等問題,這些問題在不同程度上制約了語(yǔ)料庫(kù)的訓(xùn)練與發(fā)展。

    第一,線下數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)泛化。線下元數(shù)據(jù)標(biāo)準(zhǔn)不一以及結(jié)構(gòu)化的缺失影響語(yǔ)料庫(kù)訓(xùn)練的效率與質(zhì)量。一方面,線下元數(shù)據(jù)的適用標(biāo)準(zhǔn)不統(tǒng)一。用于語(yǔ)料庫(kù)訓(xùn)練的元數(shù)據(jù)缺乏統(tǒng)一標(biāo)準(zhǔn),元數(shù)據(jù)字段缺失使得以元數(shù)據(jù)為基礎(chǔ)的查詢變得極為困難,進(jìn)而降低了語(yǔ)料庫(kù)的易用性;另一方面,線下數(shù)據(jù)結(jié)構(gòu)化表示缺乏。如知識(shí)圖譜、關(guān)系數(shù)據(jù)庫(kù)等模式的結(jié)構(gòu)化數(shù)據(jù)表示可以最大程度上方便數(shù)據(jù)的分析與利用,且包括文本數(shù)據(jù)、任意交錯(cuò)圖像等在內(nèi)的各種數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練的多模態(tài)語(yǔ)料庫(kù)可以獲得原生支持多模態(tài)任務(wù)的能力。[27]現(xiàn)有線下數(shù)據(jù)大多以純文本的形式予以儲(chǔ)存,圖片、音頻等數(shù)據(jù)難以被有效利用。以北京市為例,截至2024年5月,北京市人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺(tái)已經(jīng)上線287個(gè)語(yǔ)料數(shù)據(jù)集,總規(guī)模超過500T。其中圖像集33項(xiàng),音頻集77項(xiàng),文本仍然是主要的語(yǔ)料形態(tài)。[28]

    第二,公共數(shù)據(jù)結(jié)構(gòu)化標(biāo)準(zhǔn)缺失。各地方公共數(shù)據(jù)開放接口及格式標(biāo)準(zhǔn)的差異化,導(dǎo)致語(yǔ)料庫(kù)建設(shè)缺乏高質(zhì)量公共數(shù)據(jù)作為訓(xùn)練依據(jù),嚴(yán)重阻礙了語(yǔ)料庫(kù)的發(fā)展。一方面,各地方公共數(shù)據(jù)開放接口存在差異,部分省市并未建立起統(tǒng)一的開放接口對(duì)外提供數(shù)據(jù)資源。根據(jù)《中國(guó)地方公共數(shù)據(jù)開放利用報(bào)告 省域(2023年版)》的數(shù)據(jù)顯示,部分省市未上線統(tǒng)一的公共數(shù)據(jù)開放平臺(tái),也未制定統(tǒng)一的公共數(shù)據(jù)開放標(biāo)準(zhǔn),導(dǎo)致不同地區(qū)之間數(shù)據(jù)開放接口存在顯著差異。[29]另一方面,各地方公共數(shù)據(jù)開放格式存在差異。部分省市數(shù)據(jù)開放格式不清、標(biāo)準(zhǔn)混亂,一定程度上阻礙了數(shù)據(jù)有效利用。例如,杭州市于2023年9月發(fā)布了《杭州市公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)施方案(試行)》,實(shí)施公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)管理,建立統(tǒng)一數(shù)據(jù)開放格式,顯著提升了數(shù)據(jù)質(zhì)量與利用效率。反觀東北、西南部分地區(qū),數(shù)據(jù)開放標(biāo)準(zhǔn)化進(jìn)程則略微滯后,其在開放格式統(tǒng)一、開放接口標(biāo)準(zhǔn)化方面尚未取得顯著進(jìn)展。

    第三,網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量低下。無(wú)效語(yǔ)料過多、缺乏高質(zhì)量數(shù)據(jù),導(dǎo)致人工智能語(yǔ)料庫(kù)的整體質(zhì)量較低。首先,數(shù)據(jù)源質(zhì)量參差不齊。網(wǎng)絡(luò)數(shù)據(jù)生成于不同渠道,如來(lái)自用戶生成、社交媒體、開放數(shù)據(jù)平臺(tái)等,不同來(lái)源渠道的數(shù)據(jù)質(zhì)量具有較大差異,不加區(qū)分統(tǒng)一用于數(shù)據(jù)訓(xùn)練導(dǎo)致語(yǔ)料庫(kù)質(zhì)量較低。其次,數(shù)據(jù)真實(shí)性難以驗(yàn)證。互聯(lián)網(wǎng)作為包容開放的數(shù)據(jù)平臺(tái),并未建立起針對(duì)數(shù)據(jù)真實(shí)性進(jìn)行審查的運(yùn)行機(jī)制,網(wǎng)絡(luò)平臺(tái)內(nèi)容魚龍混雜,導(dǎo)致數(shù)據(jù)真實(shí)性難以保證。最后,數(shù)據(jù)質(zhì)量完善管理制度缺失。目前網(wǎng)絡(luò)平臺(tái)缺乏完善的數(shù)據(jù)質(zhì)量管理標(biāo)準(zhǔn)與機(jī)制,難以剔除數(shù)據(jù)中的違法信息等不安全因素。訓(xùn)練語(yǔ)料庫(kù)所需的大量數(shù)據(jù)多為無(wú)標(biāo)注數(shù)據(jù),這些數(shù)據(jù)容易存在偏見、歧視,甚至包含侮辱、仇恨、暴力、色情等有害內(nèi)容[30],導(dǎo)致用于訓(xùn)練語(yǔ)料庫(kù)的數(shù)據(jù)存在一定的合規(guī)風(fēng)險(xiǎn),加大了語(yǔ)料庫(kù)模型的訓(xùn)練難度。

    綜合來(lái)看,我國(guó)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)面臨著多重挑戰(zhàn)和限制,數(shù)據(jù)總量和質(zhì)量問題、數(shù)據(jù)來(lái)源匱乏、結(jié)構(gòu)化數(shù)據(jù)不足等都亟須解決。在未來(lái),只有逐步建成訓(xùn)練數(shù)據(jù)多樣性和豐富性的語(yǔ)料庫(kù),才能為人工智能大模型的訓(xùn)練和應(yīng)用提供充足的數(shù)據(jù)支撐,突破制約人工智能發(fā)展的數(shù)據(jù)瓶頸,進(jìn)一步推動(dòng)人工智能技術(shù)的發(fā)展和產(chǎn)業(yè)化進(jìn)程。

    訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)的障礙與成因

    網(wǎng)絡(luò)數(shù)據(jù)采集的違規(guī)風(fēng)險(xiǎn)高。網(wǎng)絡(luò)富集大量語(yǔ)料數(shù)據(jù),但網(wǎng)絡(luò)數(shù)據(jù)質(zhì)量參差不齊,并不都能夠滿足模型訓(xùn)練的基本要求。網(wǎng)絡(luò)數(shù)據(jù)爬取是語(yǔ)料數(shù)據(jù)的重要來(lái)源,即使是結(jié)構(gòu)化的開源數(shù)據(jù)集大多也由經(jīng)過初步加工后的爬取數(shù)據(jù)構(gòu)成。此外,在數(shù)據(jù)發(fā)揮重要經(jīng)濟(jì)價(jià)值的當(dāng)下,網(wǎng)絡(luò)數(shù)據(jù)采集面臨來(lái)自數(shù)據(jù)持有者、原始數(shù)據(jù)權(quán)利人等多方的利益訴求,數(shù)據(jù)權(quán)益復(fù)雜交織,網(wǎng)絡(luò)數(shù)據(jù)爬取面臨著較高的違法違規(guī)風(fēng)險(xiǎn)。截至2023年12月,我國(guó)域名總量為3160萬(wàn)個(gè),活躍App數(shù)量高達(dá)260萬(wàn)款。[31]在商業(yè)采買價(jià)格機(jī)制尚未固定,平臺(tái)共享數(shù)據(jù)意愿不足的現(xiàn)狀下,巨大網(wǎng)絡(luò)空間潛藏的海量網(wǎng)絡(luò)數(shù)據(jù)成為人工智能企業(yè)訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的首選來(lái)源。然而,爬取網(wǎng)絡(luò)數(shù)據(jù)行為的合法邊界仍模糊不清。網(wǎng)絡(luò)數(shù)據(jù)的防爬取措施成為判斷爬取行為合法性邊界的重要因素。破壞性爬取行為一般被認(rèn)為打破了網(wǎng)絡(luò)數(shù)據(jù)共享承載的公共利益和平臺(tái)數(shù)據(jù)權(quán)益的平衡,往往作為違法性的判定標(biāo)準(zhǔn)。我國(guó)法院肯定了單方聲明的Robots協(xié)議具有告知和引導(dǎo)作用,違反Robots協(xié)議的行為可能屬于違反商業(yè)道德的范疇,但并不承認(rèn)Robots協(xié)議對(duì)雙方具有法律約束力。學(xué)者們也逐漸認(rèn)為不宜將之作為判斷爬取行為合法性的唯一依據(jù)。[32]由此可見,網(wǎng)絡(luò)數(shù)據(jù)爬取的合法性邊界不斷隨著實(shí)踐產(chǎn)生爭(zhēng)議并變化,人工智能企業(yè)始終無(wú)法獲得明確穩(wěn)定的行為指引。

    在激烈產(chǎn)業(yè)競(jìng)爭(zhēng)和模糊行為邊界交織作用下,平臺(tái)一方面努力爬取網(wǎng)絡(luò)數(shù)據(jù),另一方面高筑數(shù)據(jù)壁壘防止競(jìng)爭(zhēng)對(duì)手免費(fèi)獲取自身數(shù)據(jù)。這導(dǎo)致目前中文模型的訓(xùn)練高度依賴企業(yè)的自有業(yè)務(wù)數(shù)據(jù),大模型的訓(xùn)練數(shù)據(jù)總體規(guī)模和質(zhì)量進(jìn)一步受限。授權(quán)使用制度存在的低效率短板則在短期內(nèi)阻斷了模型廠商通過共享訓(xùn)練數(shù)據(jù)獲得回報(bào)激勵(lì)的可能,也導(dǎo)致分散訓(xùn)練的效率低下。在授權(quán)使用的框架下,多個(gè)大模型廠商均須承擔(dān)交易談判的時(shí)間成本與經(jīng)濟(jì)成本,降低了大模型產(chǎn)業(yè)整體生產(chǎn)效率。更令人擔(dān)憂的是,大模型的市場(chǎng)前景吸引幾乎所有掌握大量數(shù)據(jù)的平臺(tái)企業(yè)布局,這加劇了這一市場(chǎng)獲取訓(xùn)練數(shù)據(jù)的競(jìng)爭(zhēng)。受到競(jìng)爭(zhēng)利益驅(qū)動(dòng),企業(yè)獨(dú)占數(shù)據(jù)資源的意圖進(jìn)一步被強(qiáng)化。[33]在此背景下,平臺(tái)企業(yè)不斷加強(qiáng)防爬取措施、設(shè)置數(shù)據(jù)壁壘,給網(wǎng)絡(luò)數(shù)據(jù)爬取制造巨大的技術(shù)和法律障礙。

    線下數(shù)據(jù)利用支持力度不足。人工智能的實(shí)質(zhì)性突破依賴訓(xùn)練數(shù)據(jù)的爆發(fā)式增長(zhǎng)和高效利用,圖書、期刊、報(bào)紙等線下載體作為傳統(tǒng)數(shù)據(jù)承載方式之一,對(duì)于完善訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)意義重大。線下語(yǔ)料成為訓(xùn)練數(shù)據(jù)的前提是實(shí)現(xiàn)電子化,但我國(guó)線下數(shù)據(jù)電子化進(jìn)程相對(duì)滯后。第一,加工深度淺。數(shù)據(jù)電子化過程沒有進(jìn)一步的結(jié)構(gòu)化和分析,應(yīng)用價(jià)值低。第二,標(biāo)準(zhǔn)化程度低。電子化數(shù)據(jù)缺乏統(tǒng)一的元數(shù)據(jù)格式、編碼和術(shù)語(yǔ),使得數(shù)據(jù)的互通和整合變得更加困難。第三,準(zhǔn)確性低。電子數(shù)據(jù)輸入錯(cuò)誤、處理不當(dāng)或更新不及時(shí),導(dǎo)致數(shù)據(jù)準(zhǔn)確性大打折扣。第四,可復(fù)用性差。電子數(shù)據(jù)的格式、結(jié)構(gòu)或權(quán)限設(shè)置不合理,無(wú)法支持多種應(yīng)用場(chǎng)景和分析需求。

    線下數(shù)據(jù)除了電子化嚴(yán)重不足,還存在取得授權(quán)的制度障礙。線下數(shù)據(jù)一般受到著作權(quán)保護(hù),著作權(quán)的集體授權(quán)制度難以有效支持大模型訓(xùn)練數(shù)據(jù)的需求。首先,現(xiàn)有的著作權(quán)集體管理組織規(guī)模尚不能適應(yīng)模型開發(fā)者對(duì)數(shù)據(jù)規(guī)模化利用的需求。2015、2016兩年全國(guó)著作權(quán)侵權(quán)案件約6000件,我國(guó)規(guī)模最大的著作權(quán)集體管理組織——中國(guó)音樂著作權(quán)協(xié)會(huì)——直接承辦的民事訴訟總數(shù)僅41件。[34]其次,傳統(tǒng)集體管理組織存在運(yùn)作低效、功能減弱、模式壟斷等問題。例如,在美國(guó),以YouTube為代表的數(shù)字平臺(tái)濫用有關(guān)網(wǎng)絡(luò)責(zé)任的版權(quán)法律,這些數(shù)字平臺(tái)聲稱他們對(duì)其向公眾提供的音樂不承擔(dān)責(zé)任,并拒絕像其他數(shù)字服務(wù)商那樣獲得正規(guī)音樂授權(quán)。面對(duì)全新技術(shù)壟斷,著作權(quán)人可獲得的救濟(jì)途徑極為有限,所面臨的侵權(quán)形勢(shì)極為嚴(yán)峻。[35]最后,“事前授權(quán)”模式難以滿足人工智能時(shí)代海量學(xué)習(xí)的需求。人工智能的發(fā)展依賴于對(duì)海量數(shù)據(jù)的獲取,即通過數(shù)據(jù)訓(xùn)練和迭代大模型,從而實(shí)現(xiàn)高質(zhì)量?jī)?nèi)容的生成。傳統(tǒng)授權(quán)模式涉及高昂的交易成本和反復(fù)的利益談判等,限制了數(shù)據(jù)的大規(guī)模獲取,將限制數(shù)據(jù)價(jià)值的充分挖掘,完全無(wú)法滿足訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)需求。[36]

    著作權(quán)的合理使用制度是否適用于線下數(shù)據(jù)仍不明確。對(duì)于人工智能訓(xùn)練數(shù)據(jù)而言,如果不依托授權(quán)制度而是借助著作權(quán)中的合理使用豁免而獲取和利用,可以降低訓(xùn)練數(shù)據(jù)成本,提高語(yǔ)料庫(kù)構(gòu)建和更新效率。在當(dāng)今“產(chǎn)學(xué)研”結(jié)合大趨勢(shì)下,人工智能技術(shù)的進(jìn)步和商業(yè)主體創(chuàng)新能力及社會(huì)責(zé)任承擔(dān)能力不斷提升,科學(xué)技術(shù)研究不再僅僅發(fā)生在大學(xué)實(shí)驗(yàn)室,而將更多地發(fā)生在企業(yè)中。此種情形下“非商業(yè)性主體”的限制,極大地壓縮了其合理使用的空間。數(shù)字時(shí)代下,傳統(tǒng)著作權(quán)合理使用的條件在適用主體方面有限且對(duì)是否適用于線下數(shù)據(jù)仍不明確。

    公共數(shù)據(jù)開放廣度深度欠缺。我國(guó)公共數(shù)據(jù)占整個(gè)數(shù)據(jù)量的比重達(dá)到了70%~80%,開放公共數(shù)據(jù)對(duì)人工智能訓(xùn)練語(yǔ)料庫(kù)建設(shè)意義重大。雖然我國(guó)在公共數(shù)據(jù)開放層面取得了一定進(jìn)步,但仍存在開放廣度與深度欠缺的問題。第一,公共數(shù)據(jù)開放深度不足影響模型訓(xùn)練質(zhì)量。公共數(shù)據(jù)的開放深度不足,導(dǎo)致其在人工智能模型訓(xùn)練中的利用率低下,進(jìn)而影響模型訓(xùn)練的準(zhǔn)確性和效率。在數(shù)據(jù)層級(jí)方面,我國(guó)披露的公共數(shù)據(jù)多為統(tǒng)計(jì)數(shù)據(jù),但對(duì)于大模型數(shù)據(jù)訓(xùn)練而言,統(tǒng)計(jì)數(shù)據(jù)的作用遠(yuǎn)不如原始數(shù)據(jù)。原始數(shù)據(jù)才更符合人工智能的訓(xùn)練需要,有利于提升模型多線程處理與推理預(yù)測(cè)能力。在開放質(zhì)量方面,我國(guó)公共數(shù)據(jù)開放缺乏統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和格式,機(jī)器可讀性差,導(dǎo)致數(shù)據(jù)難以得到整合和利用。由于不同部門之間缺乏有效的協(xié)調(diào)和合作機(jī)制,數(shù)據(jù)管理標(biāo)準(zhǔn)不一、大量數(shù)據(jù)重復(fù)采集、數(shù)據(jù)內(nèi)容矛盾沖突,增大了數(shù)據(jù)治理工作的難度。

    第二,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)規(guī)則不明確阻礙開放進(jìn)程。公共數(shù)據(jù)的權(quán)屬問題不明確,引發(fā)了公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的權(quán)利與收益分配障礙。目前公共數(shù)據(jù)的確權(quán)授權(quán)機(jī)制尚在探索之中,而其在人工智能模型訓(xùn)練中的運(yùn)用更加劇了問題的復(fù)雜性,還需進(jìn)一步的法律明確和規(guī)范。公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)兼具營(yíng)利性與公益性。營(yíng)利性與公益性的沖突問題導(dǎo)致公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的制度定位、運(yùn)營(yíng)主體確定、收益分配模式等方面的規(guī)則尚不明確。這直接影響公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的實(shí)踐效果,同時(shí)也阻礙了公共數(shù)據(jù)在人工智能模型訓(xùn)練中的應(yīng)用。鑒于公共數(shù)據(jù)特有的強(qiáng)公共屬性,其授權(quán)運(yùn)營(yíng)形成了國(guó)家、市場(chǎng)主體和一般民眾的三角關(guān)系。由于缺乏統(tǒng)一的標(biāo)準(zhǔn)和規(guī)范,將公共數(shù)據(jù)用于人工智能模型訓(xùn)練中可能引發(fā)的數(shù)據(jù)安全風(fēng)險(xiǎn)、數(shù)據(jù)濫用、數(shù)據(jù)壟斷等問題,亟待通過更加明確的開放范圍、授權(quán)條件、使用限制和責(zé)任分配等規(guī)則解決。

    第三,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)與模型訓(xùn)練需求存在沖突。一方面,目前在我國(guó)公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)踐中,市場(chǎng)收益模式分為面向公益性服務(wù)的“免費(fèi)或公益性收費(fèi)”模式和面向運(yùn)營(yíng)型活動(dòng)的“市場(chǎng)化定價(jià)”模式。然而人工智能模型尤其是在預(yù)訓(xùn)練階段的營(yíng)利性質(zhì)難以界定。即使人工智能模型服務(wù)被認(rèn)為是商業(yè)運(yùn)營(yíng)活動(dòng),人工智能模型本身的訓(xùn)練是否能被單純?cè)u(píng)價(jià)為“運(yùn)營(yíng)活動(dòng)”,仍存在較大爭(zhēng)議。另一方面,人工智能模型的迭代與進(jìn)步需要投喂海量數(shù)據(jù)用以訓(xùn)練支撐。即使授權(quán)運(yùn)營(yíng)數(shù)據(jù)的定價(jià)模式以“成本覆蓋”為原則,模型訓(xùn)練對(duì)數(shù)據(jù)的大規(guī)模獲取需求,也將導(dǎo)致成本過高而使企業(yè)難以負(fù)擔(dān)的問題,在一定程度上將限制公共數(shù)據(jù)價(jià)值的充分挖掘。

    領(lǐng)域數(shù)據(jù)權(quán)屬交易規(guī)則不明。領(lǐng)域數(shù)據(jù)主要是指在垂直領(lǐng)域開展行業(yè)活動(dòng)中收集和產(chǎn)生的數(shù)據(jù),已成為人工智能領(lǐng)域發(fā)展的核心基建和關(guān)鍵驅(qū)動(dòng)力。領(lǐng)域數(shù)據(jù)以應(yīng)用質(zhì)量高、匹配度強(qiáng)及價(jià)值密度大的優(yōu)勢(shì),展現(xiàn)了其對(duì)人工智能專業(yè)模型層學(xué)習(xí)能力深化提升的核心作用,對(duì)工業(yè)生產(chǎn)、科學(xué)教育、自動(dòng)駕駛、金融醫(yī)療等行業(yè)的發(fā)展至關(guān)重要。

    領(lǐng)域數(shù)據(jù)專業(yè)門檻高與積累周期長(zhǎng)等特性,增加了數(shù)據(jù)流通共享、升級(jí)獲取難度。第一,領(lǐng)域數(shù)據(jù)權(quán)利方出于商業(yè)利益等因素考慮,表現(xiàn)出“謹(jǐn)慎流通、風(fēng)險(xiǎn)規(guī)避”的立場(chǎng)。當(dāng)前,領(lǐng)域數(shù)據(jù)主要集中掌握在網(wǎng)絡(luò)平臺(tái)、醫(yī)院、高校院所等企業(yè)或單位手中,其憑借在數(shù)據(jù)流通中的數(shù)據(jù)資源樞紐位置,收集海量原始數(shù)據(jù)后進(jìn)行脫敏清洗等處理活動(dòng),形成集合性數(shù)據(jù)資源。以美國(guó)特斯拉公司為例,其完全自動(dòng)駕駛測(cè)試版(FSD)系統(tǒng)的總行駛里程已達(dá)約4.83億公里,并表示其數(shù)據(jù)資源對(duì)產(chǎn)品市場(chǎng)競(jìng)爭(zhēng)力提升至關(guān)重要。[37]第二,領(lǐng)域數(shù)據(jù)領(lǐng)域具有主體多維復(fù)雜等特性,成為數(shù)據(jù)“固守”的主要誘因。以醫(yī)療領(lǐng)域?yàn)槔t(yī)療健康數(shù)據(jù)不僅是信息載體,更直接關(guān)系到個(gè)人隱私、健康狀況乃至生命安全。領(lǐng)域數(shù)據(jù)權(quán)利方迫于數(shù)據(jù)安全責(zé)任、嚴(yán)格合規(guī)要求等多重壓力,對(duì)領(lǐng)域數(shù)據(jù)共享持保守態(tài)度。

    領(lǐng)域數(shù)據(jù)交易意愿低迷,阻礙領(lǐng)域數(shù)據(jù)價(jià)值釋放。第一,領(lǐng)域數(shù)據(jù)權(quán)屬不明引發(fā)數(shù)據(jù)資源利益分配沖突。2022年12月19日,中共中央、國(guó)務(wù)院發(fā)布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡(jiǎn)稱“數(shù)據(jù)二十條”),提出“推動(dòng)數(shù)據(jù)產(chǎn)權(quán)結(jié)構(gòu)性分置和有序流通”,但我國(guó)立法針對(duì)數(shù)據(jù)權(quán)屬問題尚未進(jìn)行明確細(xì)致規(guī)定。一方面,領(lǐng)域數(shù)據(jù)的權(quán)利性質(zhì)不明。領(lǐng)域數(shù)據(jù)區(qū)別于有體物、知識(shí)產(chǎn)權(quán)等客體,其權(quán)利性質(zhì)需進(jìn)一步明確。另一方面,領(lǐng)域數(shù)據(jù)涉及利益主體多維復(fù)雜,權(quán)屬分配規(guī)則不清。從領(lǐng)域數(shù)據(jù)交易環(huán)節(jié)來(lái)看,至少有數(shù)據(jù)來(lái)源主體、數(shù)據(jù)控制者、數(shù)據(jù)需求方三方主體可以主張相應(yīng)的權(quán)利。領(lǐng)域數(shù)據(jù)權(quán)利方缺乏獲得合理回報(bào)的收益分配機(jī)制,數(shù)據(jù)要素供給激勵(lì)機(jī)制未完善,導(dǎo)致數(shù)據(jù)供給意愿不強(qiáng)。第二,領(lǐng)域數(shù)據(jù)可能包含個(gè)人數(shù)據(jù)、重要數(shù)據(jù)等,數(shù)據(jù)交易存在多層法律風(fēng)險(xiǎn)。如地理數(shù)據(jù)關(guān)系國(guó)家主權(quán)、安全和發(fā)展利益。[38]領(lǐng)域數(shù)據(jù)交易中上下游均需承擔(dān)更為嚴(yán)格的安全保護(hù)義務(wù),呈現(xiàn)責(zé)任鏈條廣泛連帶、合規(guī)嚴(yán)格約束的特性。[39]

    領(lǐng)域數(shù)據(jù)交易規(guī)范體系不健全,難以形成合力推動(dòng)領(lǐng)域數(shù)據(jù)經(jīng)濟(jì)的發(fā)展。實(shí)踐中,領(lǐng)域數(shù)據(jù)交易模式主要為一對(duì)一、點(diǎn)對(duì)點(diǎn)的場(chǎng)外商談模式,交易方式包括直接轉(zhuǎn)移數(shù)據(jù)及API接口調(diào)用,交易規(guī)則主要為交易雙方自主商議約定。場(chǎng)內(nèi)場(chǎng)外相結(jié)合的統(tǒng)一交易制度規(guī)范的缺位,給交易市場(chǎng)的進(jìn)一步發(fā)展造成了極大阻礙。第一,領(lǐng)域數(shù)據(jù)定價(jià)機(jī)制的缺失,交易市場(chǎng)的規(guī)范化、標(biāo)準(zhǔn)化發(fā)展無(wú)法推進(jìn)。當(dāng)前數(shù)據(jù)市場(chǎng)主要的定價(jià)機(jī)制為數(shù)據(jù)供應(yīng)方自主定價(jià)以及供需雙方協(xié)議定價(jià),難以準(zhǔn)確衡量數(shù)據(jù)應(yīng)有價(jià)值[40]。領(lǐng)域數(shù)據(jù)權(quán)利方在逐利性的驅(qū)動(dòng)下可能出現(xiàn)價(jià)格欺詐、價(jià)格歧視、價(jià)格壟斷等不當(dāng)定價(jià)行為,需建立自主高效的數(shù)據(jù)定價(jià)體系,規(guī)制不當(dāng)數(shù)據(jù)定價(jià)行為,維護(hù)領(lǐng)域數(shù)據(jù)交易市場(chǎng)的公平和秩序。第二,領(lǐng)域數(shù)據(jù)交易質(zhì)量標(biāo)準(zhǔn)不一,交易市場(chǎng)的有序化、實(shí)踐化無(wú)法達(dá)成。當(dāng)前,領(lǐng)域數(shù)據(jù)交易中,領(lǐng)域數(shù)據(jù)類型、載體、呈現(xiàn)形式等均無(wú)統(tǒng)一界定標(biāo)準(zhǔn)。領(lǐng)域數(shù)據(jù)格式不規(guī)范、內(nèi)容不完整的問題容易導(dǎo)致整個(gè)交易市場(chǎng)的混亂局面,影響數(shù)據(jù)交易的順利進(jìn)行。

    訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)的制度協(xié)調(diào)與規(guī)則應(yīng)對(duì)

    通過司法判例明確網(wǎng)絡(luò)數(shù)據(jù)來(lái)源合法性認(rèn)定條件。由于人工智能訓(xùn)練數(shù)據(jù)具有數(shù)量大、規(guī)模廣、價(jià)值密度低等特征,傳統(tǒng)的數(shù)據(jù)購(gòu)買模式無(wú)法適應(yīng)模型開發(fā)者對(duì)數(shù)據(jù)規(guī)?;玫男枨蟆D壳坝蓛?nèi)容平臺(tái)代理的著作權(quán)內(nèi)容多為單獨(dú)具有使用價(jià)值的作品,不包括用戶生成的海量數(shù)據(jù),網(wǎng)絡(luò)數(shù)據(jù)才是人工智能訓(xùn)練的主要材料,應(yīng)通過司法判例進(jìn)一步明確網(wǎng)絡(luò)數(shù)據(jù)來(lái)源合法性認(rèn)定條件。

    首先,進(jìn)一步明確網(wǎng)絡(luò)數(shù)據(jù)可爬取范圍。網(wǎng)絡(luò)數(shù)據(jù)的可爬取范圍應(yīng)結(jié)合爬取客體、技術(shù)手段、行為目的三個(gè)方面進(jìn)行考量。爬取客體上,對(duì)于公開數(shù)據(jù)、半公開數(shù)據(jù)、非公開數(shù)據(jù)的保護(hù)程度應(yīng)有所不同。[41]網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)嚴(yán)格限定于對(duì)公開數(shù)據(jù)的訪問,具體包括由政府、學(xué)術(shù)界和商業(yè)機(jī)構(gòu)出于促進(jìn)知識(shí)共享和技術(shù)創(chuàng)新的目的而開放的數(shù)據(jù)。技術(shù)手段上,爬取技術(shù)的設(shè)計(jì)和應(yīng)用應(yīng)恪守非侵入性原則,尊重并遵循網(wǎng)站的“爬蟲協(xié)議”和用戶協(xié)議,避免任何形式的技術(shù)規(guī)避行為。行為目的上,網(wǎng)絡(luò)數(shù)據(jù)爬取的行為必須服務(wù)于正當(dāng)目的,對(duì)于非商業(yè)性數(shù)據(jù)的爬取,應(yīng)以增進(jìn)公共利益為目標(biāo)。因此,基于科學(xué)研究應(yīng)用等大模型構(gòu)建信息基礎(chǔ)設(shè)施時(shí)是否應(yīng)適當(dāng)豁免,應(yīng)在司法裁判中予以充分考量。

    其次,應(yīng)在司法判例中審慎判斷網(wǎng)絡(luò)數(shù)據(jù)爬取構(gòu)成競(jìng)爭(zhēng)性使用的條件。判斷大模型訓(xùn)練是否構(gòu)成競(jìng)爭(zhēng)性使用,需明確網(wǎng)絡(luò)平臺(tái)對(duì)其數(shù)據(jù)享有的權(quán)益。依據(jù)網(wǎng)絡(luò)平臺(tái)對(duì)數(shù)據(jù)的投入程度,可將平臺(tái)上的數(shù)據(jù)分為“平臺(tái)限定提供的數(shù)據(jù)”及“用戶生成的網(wǎng)頁(yè)數(shù)據(jù)”兩類,前者是平臺(tái)企業(yè)對(duì)其所收集的數(shù)據(jù)進(jìn)行脫敏、過濾、格式調(diào)整、加密、篩選等適度加工之后,采用技術(shù)手段進(jìn)行控制并僅向特定人提供的商業(yè)化數(shù)據(jù);后者是用戶直接提交給平臺(tái),或者用戶在使用平臺(tái)過程中生成,直接展示在網(wǎng)頁(yè)上的數(shù)據(jù)。[42]對(duì)于前者,可能構(gòu)成企業(yè)數(shù)據(jù)財(cái)產(chǎn),對(duì)其未經(jīng)授權(quán)的獲取、披露和使用應(yīng)當(dāng)承擔(dān)相關(guān)責(zé)任。而后者應(yīng)當(dāng)重點(diǎn)判斷其“破壞性利用”的構(gòu)成、損害顯著和實(shí)質(zhì)性、實(shí)質(zhì)性替代與否以及用戶權(quán)益。

    最后,由政府協(xié)調(diào)設(shè)立公共訓(xùn)練數(shù)據(jù)池、公共訓(xùn)練數(shù)據(jù)場(chǎng),承擔(dān)生成式人工智能大模型訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)的數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)責(zé)任。現(xiàn)有語(yǔ)料庫(kù)總體覆蓋面和規(guī)模依然不足,受制于數(shù)據(jù)孤島、數(shù)據(jù)污染問題,庫(kù)內(nèi)數(shù)據(jù)的采集依舊面臨來(lái)源稀缺的困境。語(yǔ)料形式缺乏統(tǒng)一標(biāo)準(zhǔn),不同的處理標(biāo)準(zhǔn)導(dǎo)致數(shù)據(jù)集語(yǔ)料類型及結(jié)構(gòu)差異明顯,不利于集約化管理,知識(shí)產(chǎn)權(quán)和數(shù)據(jù)安全合規(guī)方面的負(fù)擔(dān)同樣延緩了語(yǔ)料庫(kù)合法化建設(shè)步伐。在政府的示范引導(dǎo)下各方協(xié)同建設(shè)共享數(shù)據(jù)池,以助力數(shù)據(jù)語(yǔ)料庫(kù)迭代優(yōu)化是中國(guó)企業(yè)與行業(yè)發(fā)展的共同訴求。

    協(xié)調(diào)版權(quán)規(guī)則確定線下數(shù)據(jù)使用合理性制度邊界。傳統(tǒng)著作權(quán)“事前授權(quán)、使用付費(fèi)”的交易模式難以滿足人工智能時(shí)代海量學(xué)習(xí)的需求?!笆虑笆跈?quán)”容易導(dǎo)致數(shù)據(jù)交易流程的冗雜以及交易效率的低下,“使用付費(fèi)”容易產(chǎn)生包括數(shù)據(jù)獲取的識(shí)別成本以及數(shù)據(jù)交易的談判成本在內(nèi)的過高交易成本[43],這要求版權(quán)規(guī)則進(jìn)行突破協(xié)調(diào)以適配人工智能時(shí)代高價(jià)值數(shù)據(jù)獲取、流通、使用的需要。

    第一,構(gòu)建訓(xùn)練數(shù)據(jù)合理使用制度。在人工智能預(yù)訓(xùn)練階段,可考慮認(rèn)定利用版權(quán)作品進(jìn)行訓(xùn)練原則上構(gòu)成合理使用。首先,就技術(shù)原理而言,大模型或是通過對(duì)特定類型作品的風(fēng)格、要素、體裁等公有領(lǐng)域的“思想”進(jìn)行學(xué)習(xí),進(jìn)而生成類似作品[44];或是對(duì)既有作品進(jìn)行具備“非特定性”的非表達(dá)性使用,進(jìn)而創(chuàng)造新的數(shù)據(jù)價(jià)值[45],其均非《中華人民共和國(guó)著作權(quán)法》應(yīng)當(dāng)規(guī)制的作品使用行為;其次,就社會(huì)效益而言,大模型運(yùn)用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練具有顯著的公共利益價(jià)值,對(duì)發(fā)揮數(shù)據(jù)的公共價(jià)值、發(fā)展生產(chǎn)力、增進(jìn)社會(huì)福祉、提升國(guó)際競(jìng)爭(zhēng)力等有著顯著正向影響[46],將大模型訓(xùn)練納入合理使用范疇符合《中華人民共和國(guó)著作權(quán)法》激勵(lì)創(chuàng)新的制度目的;最后,就市場(chǎng)影響而言,大模型的輸出結(jié)果不必然對(duì)原訓(xùn)練作品的市場(chǎng)份額產(chǎn)生沖擊,因大模型具備通用能力和泛化能力,其應(yīng)用場(chǎng)景不局限于原作品的市場(chǎng)定位。但是,合理使用制度的構(gòu)建并不意味著對(duì)大模型訓(xùn)練的版權(quán)侵權(quán)全面豁免,對(duì)基于科學(xué)研究目的的大模型應(yīng)當(dāng)允許免費(fèi)合理使用版權(quán)數(shù)據(jù)進(jìn)行訓(xùn)練,而對(duì)于商業(yè)應(yīng)用等大模型則應(yīng)當(dāng)針對(duì)具體個(gè)案全面權(quán)衡其原理、價(jià)值、市場(chǎng)影響等要素,綜合判斷其合法性。

    第二,審慎認(rèn)定訓(xùn)練數(shù)據(jù)版權(quán)侵權(quán)及責(zé)任承擔(dān)方式。當(dāng)前,多種場(chǎng)景爭(zhēng)議下的司法判例的落實(shí)或?qū)⒊蔀槔迩逵?xùn)練數(shù)據(jù)合理使用邊界的關(guān)鍵。我國(guó)現(xiàn)有判例認(rèn)為,若案涉被侵權(quán)作品享有較高知名度,可推定具備接觸可能性,且人工智能模型生成結(jié)果在多個(gè)關(guān)鍵特征上與被侵權(quán)作品具有高度相似性,即可認(rèn)定為實(shí)質(zhì)性相似而構(gòu)成復(fù)制權(quán)和改編權(quán)侵權(quán)。可見,“實(shí)質(zhì)性相似”將是明確大模型訓(xùn)練數(shù)據(jù)使用合理性的邊界,法律應(yīng)當(dāng)保護(hù)的是大模型在已有作品基礎(chǔ)上的創(chuàng)新,而非對(duì)既有作品缺乏創(chuàng)造性的剽竊。對(duì)于大模型訓(xùn)練數(shù)據(jù)侵權(quán)的救濟(jì)手段,應(yīng)當(dāng)秉持審慎立場(chǎng),綜合考慮大模型的應(yīng)用價(jià)值與對(duì)權(quán)利人的實(shí)際損害。一方面,應(yīng)當(dāng)盡量避免要求大模型開發(fā)者刪除涉嫌侵權(quán)的訓(xùn)練數(shù)據(jù),以避免導(dǎo)致大模型整體能力的不可控下降,從而給相關(guān)產(chǎn)業(yè)帶來(lái)過高負(fù)擔(dān);另一方面,應(yīng)當(dāng)結(jié)合被侵權(quán)作品的知名度與市場(chǎng)地位、侵權(quán)方的應(yīng)對(duì)措施、侵權(quán)行為的具體影響范圍、對(duì)產(chǎn)業(yè)發(fā)展的潛在影響等予以認(rèn)定,而不應(yīng)當(dāng)過高地認(rèn)定實(shí)際損害,以免為人工智能模型創(chuàng)新與應(yīng)用施加難以負(fù)擔(dān)的法律成本。

    第三,完善版權(quán)作品相關(guān)方利益分配機(jī)制。一方面,允許版權(quán)方行使人工智能訓(xùn)練拒絕權(quán)將有助于維護(hù)版權(quán)方合法權(quán)益。另一方面,人工智能開發(fā)者也可主動(dòng)采取措施令版權(quán)方參與利益分配。OpenAI開展版權(quán)屏障計(jì)劃,將介入并為使用其產(chǎn)品的企業(yè)提供版權(quán)侵權(quán)辯護(hù),并承諾承擔(dān)客戶因應(yīng)對(duì)相關(guān)知識(shí)產(chǎn)權(quán)訴訟而產(chǎn)生的法律費(fèi)用。[47]在這一模式下,人工智能模型開發(fā)者作為大模型應(yīng)用的獲益者承擔(dān)相應(yīng)責(zé)任,有助于實(shí)現(xiàn)版權(quán)方和使用者等主體間的利益平衡,進(jìn)而推動(dòng)版權(quán)保護(hù)與技術(shù)發(fā)展的共贏。

    構(gòu)建開放機(jī)制滿足公共數(shù)據(jù)參與語(yǔ)料庫(kù)建設(shè)需求。構(gòu)建層次化的公共數(shù)據(jù)開放機(jī)制有利于推動(dòng)公共數(shù)據(jù)深度參與人工智能訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè),使公共數(shù)據(jù)的開發(fā)利用價(jià)值在模型訓(xùn)練過程中得到充分挖掘。不同類型、價(jià)值的公共數(shù)據(jù)對(duì)應(yīng)不同的開放程度,公共數(shù)據(jù)開放機(jī)制可分為完全開放、有限開放與授權(quán)運(yùn)營(yíng)三個(gè)層次。

    第一,構(gòu)建政府主導(dǎo)的公共數(shù)據(jù)完全開放機(jī)制。公共數(shù)據(jù)完全開放機(jī)制具有獲取方式的無(wú)償性、開放數(shù)據(jù)的原始化、獲取對(duì)象的不特定性等特征。具體而言,公共數(shù)據(jù)完全開放機(jī)制適用于不涉及國(guó)家秘密、商業(yè)秘密、個(gè)人隱私及敏感個(gè)人信息的原始數(shù)據(jù),具體包括信用、交通、衛(wèi)生、就業(yè)、教育等領(lǐng)域的原始數(shù)據(jù)開放。[48]公共數(shù)據(jù)完全開放機(jī)制應(yīng)當(dāng)由政府主導(dǎo),建立公共數(shù)據(jù)開放目錄以確定開放范圍,通過一體化、集中化的國(guó)家數(shù)據(jù)開放平臺(tái)匯集各省、市政府職能部門的各類原始數(shù)據(jù),以直接獲取或下載的方式免費(fèi)向不特定的社會(huì)公眾開放,實(shí)現(xiàn)原始數(shù)據(jù)與語(yǔ)料庫(kù)之間的無(wú)障礙對(duì)接。

    需要注意的是,原始數(shù)據(jù)雖然具有較高的開發(fā)利用價(jià)值,但也存在較大的不確定性和安全風(fēng)險(xiǎn)。[49]政府在履行公共數(shù)據(jù)開放義務(wù)的同時(shí),還應(yīng)當(dāng)建立公共數(shù)據(jù)開放安全風(fēng)險(xiǎn)防控機(jī)制,采取技術(shù)、管理措施防范原始數(shù)據(jù)安全風(fēng)險(xiǎn),具體包括開放前的個(gè)人數(shù)據(jù)去標(biāo)識(shí)化處理、開放平臺(tái)的運(yùn)營(yíng)技術(shù)維護(hù)、開放過程中的動(dòng)態(tài)安全監(jiān)測(cè)以及開放后的安全事件應(yīng)急預(yù)案等。

    第二,構(gòu)建特定對(duì)象的公共數(shù)據(jù)有限開放機(jī)制。公共數(shù)據(jù)完全開放機(jī)制雖然能夠?yàn)檎Z(yǔ)料庫(kù)建設(shè)提供一定量免費(fèi)的原始數(shù)據(jù)資源,但面向全體社會(huì)公眾的無(wú)門檻開放必然會(huì)限制語(yǔ)料庫(kù)吸納更加優(yōu)質(zhì)的公共數(shù)據(jù)資源。未來(lái),通用大模型市場(chǎng)或?qū)⒊尸F(xiàn)寡頭競(jìng)爭(zhēng)格局,面向垂直領(lǐng)域的行業(yè)大模型將成為大模型產(chǎn)業(yè)競(jìng)爭(zhēng)的主要領(lǐng)域。[50]與“無(wú)數(shù)不用”的通用大模型訓(xùn)練不同,行業(yè)大模型訓(xùn)練需要更加高質(zhì)量、專業(yè)化的公共數(shù)據(jù)供給。這些數(shù)據(jù)的數(shù)據(jù)量和敏感性不同于完全開放的公共數(shù)據(jù),對(duì)數(shù)據(jù)利用主體自身的數(shù)據(jù)安全管理水平、技術(shù)能力有著較高的要求。[51]公共數(shù)據(jù)有限開放機(jī)制以主體的準(zhǔn)入資格審核為前提,通過與行政機(jī)關(guān)簽署行政協(xié)議的方式獲取特定領(lǐng)域的公共數(shù)據(jù)資源。一方面,能夠滿足垂直領(lǐng)域的大模型企業(yè)對(duì)領(lǐng)域數(shù)據(jù)的特殊需求;另一方面,能夠防范優(yōu)質(zhì)公共數(shù)據(jù)的泄露、濫用、遭受攻擊等安全風(fēng)險(xiǎn)。

    第三,構(gòu)建面向市場(chǎng)的公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)機(jī)制。區(qū)別于前兩種直接的公共數(shù)據(jù)開放機(jī)制,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)是一種間接開放機(jī)制,由行政機(jī)關(guān)授權(quán)特定運(yùn)營(yíng)主體對(duì)公共數(shù)據(jù)進(jìn)行加工,從而形成數(shù)據(jù)產(chǎn)品與服務(wù)提供給市場(chǎng)和社會(huì)。[52]公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)有利于激發(fā)市場(chǎng)運(yùn)營(yíng)主體活力,釋放公共數(shù)據(jù)的經(jīng)濟(jì)價(jià)值,提升公共數(shù)據(jù)資源配置效率,實(shí)現(xiàn)數(shù)據(jù)要素市場(chǎng)的供需匹配。目前,公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)實(shí)踐尚處于探索階段,主要存在行業(yè)主導(dǎo)、區(qū)域一體化以及場(chǎng)景牽引三種公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)模式。[53]從促進(jìn)人工智能大模型創(chuàng)新研發(fā)的角度來(lái)看,基于特定應(yīng)用場(chǎng)景授權(quán)不同運(yùn)營(yíng)主體的場(chǎng)景牽引模式更有利于實(shí)現(xiàn)領(lǐng)域數(shù)據(jù)供需方之間的精準(zhǔn)匹配,進(jìn)一步推動(dòng)金融、醫(yī)療、教育、自動(dòng)駕駛等領(lǐng)域的垂類大模型訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)建設(shè)。

    協(xié)同促進(jìn)跨領(lǐng)域數(shù)據(jù)流通交易規(guī)則建立供給激勵(lì)。面向人工智能創(chuàng)新應(yīng)用的新時(shí)代,我國(guó)數(shù)據(jù)交易市場(chǎng)也應(yīng)轉(zhuǎn)型突破,適應(yīng)人工智能產(chǎn)業(yè)獲取訓(xùn)練數(shù)據(jù)的現(xiàn)實(shí)需求。就交易平臺(tái)而言,可針對(duì)人工智能訓(xùn)練市場(chǎng),將現(xiàn)有的通用數(shù)據(jù)交易所轉(zhuǎn)型為“AI數(shù)據(jù)交易合同”模式,為企業(yè)訓(xùn)練人工智能提供定制化的訓(xùn)練數(shù)據(jù)。就交易標(biāo)準(zhǔn)而言,相關(guān)市場(chǎng)主體和監(jiān)管部門可共同規(guī)范訓(xùn)練語(yǔ)料的標(biāo)注標(biāo)準(zhǔn),便于語(yǔ)料數(shù)據(jù)的交易流通。就合同內(nèi)容而言,人工智能訓(xùn)練方需要遵循誠(chéng)實(shí)信用原則,明確告知數(shù)據(jù)提供方相關(guān)數(shù)據(jù)的用途并獲得授權(quán),避免因超出授權(quán)范圍使用數(shù)據(jù)而面臨違約風(fēng)險(xiǎn)。

    “數(shù)據(jù)二十條”明確提出,“完善和規(guī)范數(shù)據(jù)流通規(guī)則,構(gòu)建促進(jìn)使用和流通、場(chǎng)內(nèi)場(chǎng)外相結(jié)合的交易制度體系,規(guī)范引導(dǎo)場(chǎng)外交易,培育壯大場(chǎng)內(nèi)交易”?,F(xiàn)階段,數(shù)據(jù)交易市場(chǎng)“內(nèi)冷外熱”,引導(dǎo)場(chǎng)外數(shù)據(jù)交易進(jìn)場(chǎng)交易,需建立健全場(chǎng)內(nèi)數(shù)據(jù)交易規(guī)則,為跨領(lǐng)域數(shù)據(jù)流通交易掃清制度障礙。

    一是數(shù)據(jù)確權(quán)規(guī)則。首先,探索建立數(shù)據(jù)資產(chǎn)登記確權(quán)制度。數(shù)據(jù)資產(chǎn)登記能夠推動(dòng)跨領(lǐng)域的數(shù)據(jù)資源向數(shù)據(jù)資產(chǎn)的轉(zhuǎn)化,發(fā)揮數(shù)據(jù)資產(chǎn)登記的證明功能,消除跨領(lǐng)域企業(yè)入場(chǎng)門檻。其次,規(guī)范數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估體系。數(shù)據(jù)資產(chǎn)價(jià)值受數(shù)據(jù)質(zhì)量、時(shí)效、類型等多種因素影響,價(jià)值不確定性增加了評(píng)估難度,應(yīng)細(xì)化評(píng)估指標(biāo),綜合運(yùn)用風(fēng)險(xiǎn)評(píng)估法、成本效益分析法等多種價(jià)值評(píng)估方法,構(gòu)建專業(yè)化、領(lǐng)域化的價(jià)值評(píng)估模型,確??珙I(lǐng)域數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估的客觀性。最后,完善數(shù)據(jù)資產(chǎn)入表制度。2023年8月,財(cái)政部印發(fā)《企業(yè)數(shù)據(jù)資源相關(guān)會(huì)計(jì)處理暫行規(guī)定》,明確數(shù)據(jù)資產(chǎn)可以列入企業(yè)財(cái)務(wù)報(bào)表之中。目前,數(shù)據(jù)資產(chǎn)入表還處于探索實(shí)踐初期,可通過制定出臺(tái)數(shù)據(jù)資產(chǎn)入表的相關(guān)規(guī)則指引、指南,進(jìn)一步引導(dǎo)企業(yè)完成數(shù)據(jù)資產(chǎn)入表工作。

    二是數(shù)據(jù)定價(jià)規(guī)則。解決數(shù)據(jù)交易糾紛的關(guān)鍵在于確定合理的數(shù)據(jù)定價(jià)規(guī)則,但數(shù)據(jù)定價(jià)目前尚未形成統(tǒng)一的規(guī)則和標(biāo)準(zhǔn)。鑒于應(yīng)用場(chǎng)景對(duì)數(shù)據(jù)市場(chǎng)價(jià)值的重大影響,可以考慮設(shè)置不同行業(yè)、不同場(chǎng)景的數(shù)據(jù)定價(jià)機(jī)制,盡可能降低由于交易雙方信息不對(duì)稱導(dǎo)致的價(jià)格歧視風(fēng)險(xiǎn)。[54]數(shù)據(jù)交易的具體價(jià)格可以結(jié)合數(shù)據(jù)資產(chǎn)價(jià)值評(píng)估結(jié)果進(jìn)行確定,此外,例如《深圳市數(shù)據(jù)交易管理暫行辦法》第十九條第三款提出的數(shù)據(jù)質(zhì)量、數(shù)據(jù)樣本一致性、數(shù)據(jù)計(jì)算貢獻(xiàn)、數(shù)據(jù)業(yè)務(wù)應(yīng)用四個(gè)維度可以作為數(shù)據(jù)定價(jià)的考量因素。計(jì)價(jià)方式上,結(jié)合數(shù)據(jù)交易所實(shí)踐來(lái)看,可采取按次計(jì)費(fèi)、按時(shí)長(zhǎng)計(jì)費(fèi)、固定價(jià)格或者面議價(jià)格等多種計(jì)價(jià)方式。

    三是收益分配規(guī)則?!皵?shù)據(jù)二十條”中提出,數(shù)據(jù)要素由市場(chǎng)評(píng)價(jià)貢獻(xiàn)、按貢獻(xiàn)決定報(bào)酬,并按照“誰(shuí)投入、誰(shuí)貢獻(xiàn)、誰(shuí)受益”的原則,著重保護(hù)數(shù)據(jù)要素各參與方的投入產(chǎn)出收益。數(shù)據(jù)流通交易過程中主要涉及數(shù)據(jù)提供者、數(shù)據(jù)使用者、數(shù)據(jù)交易平臺(tái)三方主體,目前數(shù)據(jù)要素市場(chǎng)中的收益分配通常是數(shù)據(jù)交易平臺(tái)與數(shù)據(jù)交易雙方協(xié)商的結(jié)果,忽視了原始數(shù)據(jù)生產(chǎn)者對(duì)數(shù)據(jù)要素生產(chǎn)的貢獻(xiàn)。原始數(shù)據(jù)為數(shù)據(jù)要素的形成提供了原始材料,是數(shù)據(jù)要素形成的基礎(chǔ),應(yīng)當(dāng)將原始數(shù)據(jù)生產(chǎn)者作為收益分配主體之一,通過智能合約等方案提升原始數(shù)據(jù)生產(chǎn)者參與數(shù)據(jù)要素分配的可行性。[55]

    四是供給激勵(lì)規(guī)則。加強(qiáng)數(shù)據(jù)要素供給激勵(lì)是“數(shù)據(jù)二十條”提出的明確要求,數(shù)據(jù)確權(quán)是激勵(lì)數(shù)據(jù)流通交易的有效法律手段,除此之外,還應(yīng)探索經(jīng)濟(jì)、技術(shù)、管理等多樣化的數(shù)據(jù)要素供給激勵(lì)舉措。目前,已經(jīng)有多家數(shù)據(jù)交易平臺(tái)開始針對(duì)不同的數(shù)據(jù)要素市場(chǎng)主體推出激勵(lì)方案。例如,深圳數(shù)據(jù)交易所針對(duì)企業(yè)建立的數(shù)據(jù)交易誠(chéng)信合規(guī)激勵(lì)機(jī)制、湖南大數(shù)據(jù)交易所針對(duì)數(shù)據(jù)交易雙方和數(shù)據(jù)經(jīng)濟(jì)商等主體推出的百萬(wàn)交易激勵(lì)計(jì)劃、鄭州數(shù)據(jù)交易中心針對(duì)數(shù)據(jù)經(jīng)紀(jì)人推出的千萬(wàn)激勵(lì)計(jì)劃等。就跨領(lǐng)域數(shù)據(jù)交易流通而言,應(yīng)結(jié)合不同領(lǐng)域的市場(chǎng)需求,探索有針對(duì)性的供給激勵(lì)規(guī)則。

    (本文系國(guó)家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“生成式人工智能的法律定位與分層治理研究”的階段性研究成果,項(xiàng)目編號(hào):23AFX009,課題組成員對(duì)本文亦有貢獻(xiàn))

    注釋

    [1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.

    [4]姚佳:《人工智能的訓(xùn)練數(shù)據(jù)制度——以“智能涌現(xiàn)”為觀察視角》,《貴州社會(huì)科學(xué)》,2024年第2期。

    [5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.

    [6][10][19][22]阿里云智能集團(tuán)、數(shù)字中國(guó)研究院(福建):《大模型訓(xùn)練數(shù)據(jù)白皮書》,阿里研究院,2024年5月24日。

    [7]《大模型潮即將耗盡全宇宙文本,高質(zhì)量數(shù)據(jù)從哪里來(lái)?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。

    [8]羅云鵬:《大模型發(fā)展亟需高質(zhì)量“教材”相伴》,《科技日?qǐng)?bào)》,2024年1月15日,第6版。

    [9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.

    [11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.

    [12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.

    [13]楊維鎧等:《基于可視分析的訓(xùn)練數(shù)據(jù)質(zhì)量提升綜述》,《計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào)》,2023年第11期。

    [14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.

    [15]綠盟科技:《安全行業(yè)大模型SecLLM技術(shù)白皮書》,2023年9月1日。

    [16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.

    [17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.

    [18]微軟亞洲研究院:《價(jià)值觀羅盤:如何讓大模型與人類價(jià)值觀對(duì)齊?》,2024年4月11日。

    [20]W3Techs實(shí)時(shí)統(tǒng)計(jì)信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。

    [21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.

    [23]胡凌:《論地方立法中公共數(shù)據(jù)開放的性質(zhì)》,《地方立法研究》,2019年第03期第4輯。

    [24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.

    [25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.

    [26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.

    [27]支振鋒:《生成式人工智能大模型的信息內(nèi)容治理》,《政法論壇》,2023年第4期。

    [28]參見北京人工智能高質(zhì)量數(shù)據(jù)集服務(wù)平臺(tái),http://dataset.baiia.org.cn/,最后訪問于2024年6月18日。

    [29]復(fù)旦大學(xué)數(shù)字與移動(dòng)治理實(shí)驗(yàn)室:《中國(guó)地方公共數(shù)據(jù)開放利用報(bào)告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。

    [30]劉金瑞:《生成式人工智能大模型的新型風(fēng)險(xiǎn)與規(guī)制框架》,《行政法學(xué)研究》,2024年第2期。

    [31]中國(guó)互聯(lián)網(wǎng)信息中心:《第53次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,2024年3月29日。

    [32]楊華權(quán)、曲三強(qiáng):《論爬蟲協(xié)議的法律性質(zhì)》,《法律適用》,2013年第4期。

    [33]億歐智庫(kù):《2023中國(guó)信息與數(shù)據(jù)孤島分析報(bào)告》,2023年11月21日。

    [34]最高人民法院:《知識(shí)產(chǎn)權(quán)侵權(quán)司法大數(shù)據(jù)專題報(bào)告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。

    [35]全球唱片協(xié)會(huì):《2018全球音樂報(bào)告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。

    [36][43]張平:《人工智能生成內(nèi)容著作權(quán)合法性的制度難題及其解決路徑》,《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》,2024年第3期。

    [37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.

    [38]參見浙江省湖州市中級(jí)人民法院(2021)浙05刑終87號(hào)判決書。

    [39]參見國(guó)家互聯(lián)網(wǎng)信息辦公室:《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例(征求意見稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。

    [40]許中緣、鄭煌杰:《數(shù)據(jù)要素賦能新質(zhì)生產(chǎn)力:內(nèi)在機(jī)理、現(xiàn)實(shí)障礙與法治進(jìn)路》,《上海經(jīng)濟(jì)研究》,2024年第5期。

    [41]張軍強(qiáng):《人工智能大模型數(shù)據(jù)爬取行為的正當(dāng)性認(rèn)定》,《中國(guó)知識(shí)產(chǎn)權(quán)》,2024年。

    [42]周樨平:《數(shù)據(jù)爬取的不正當(dāng)競(jìng)爭(zhēng)認(rèn)定規(guī)則研究》,《南大法學(xué)》,2023年第2期。

    [44]徐小奔、楊依楠:《論人工智能深度學(xué)習(xí)中著作權(quán)的合理使用》,《交大法學(xué)》,2019年第3期。

    [45]劉曉春:《生成式人工智能數(shù)據(jù)訓(xùn)練中的“非作品性使用”及其合法性證成》,《法學(xué)論壇》,2024年第3期。

    [46]丁曉東:《論人工智能促進(jìn)型的數(shù)據(jù)制度》,《中國(guó)法律評(píng)論》,2023年第6期。

    [47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.

    [48]《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》中提出,“率先在信用、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、資源、農(nóng)業(yè)、環(huán)境、安監(jiān)、金融、質(zhì)量、統(tǒng)計(jì)、氣象、海洋、企業(yè)登記監(jiān)管等重要領(lǐng)域?qū)崿F(xiàn)公共數(shù)據(jù)資源合理適度向社會(huì)開放”。

    [49]宋爍:《構(gòu)建以授權(quán)運(yùn)營(yíng)為主渠道的公共數(shù)據(jù)開放利用機(jī)制》,《法律科學(xué)(西北政法大學(xué)學(xué)報(bào))》,2023年第1期。

    [50]黃哲:《大模型價(jià)格戰(zhàn)背后的邏輯與真相》,《中國(guó)計(jì)算機(jī)報(bào)》,2024年6月10日,第10版。

    [51]常江:《公共數(shù)據(jù)開放立法原則反思和開放路徑構(gòu)建》,《華東理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)》,2022年第5期。

    [52]馬顏昕:《公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)的類型構(gòu)建與制度展開》,《中外法學(xué)》,2023年第2期。

    [53]行業(yè)主導(dǎo)模式,即由特定行業(yè)主管部門授權(quán)運(yùn)營(yíng)主體承擔(dān)本領(lǐng)域公共數(shù)據(jù)運(yùn)營(yíng);區(qū)域一體化模式,即由地區(qū)數(shù)據(jù)管理機(jī)構(gòu)整體授權(quán)運(yùn)營(yíng)主體開展區(qū)域內(nèi)各類公共數(shù)據(jù)的市場(chǎng)運(yùn)營(yíng);場(chǎng)景牽引模式,即圍繞特定場(chǎng)景的應(yīng)用需求,在公共數(shù)據(jù)資源統(tǒng)籌管理基礎(chǔ)上,基于特定應(yīng)用場(chǎng)景將數(shù)據(jù)分類授權(quán)給不同的運(yùn)營(yíng)主體。參見孫清白:《公共數(shù)據(jù)授權(quán)運(yùn)營(yíng)營(yíng)利性與公益性的沖突及其制度協(xié)調(diào)》,《行政法學(xué)研究》,2024第3期。

    [54]趙精武、周瑞玨:《數(shù)據(jù)要素市場(chǎng)如何進(jìn)行數(shù)據(jù)定價(jià)》,《學(xué)習(xí)時(shí)報(bào)》,2023年2月17日,第A3版。

    [55]王延川、呂君枝:《原始數(shù)據(jù)提供者參與數(shù)據(jù)要素收益分配的理論邏輯與實(shí)踐路徑——以共同富裕為視角的考察》,《陜西師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》,2023年第3期。

    責(zé) 編∕韓 拓 美 編∕周群英

    国产精品国产三级专区第一集| 欧美精品一区二区大全| 久久精品久久久久久久性| 精品少妇内射三级| 欧美日韩福利视频一区二区| 性高湖久久久久久久久免费观看| 另类亚洲欧美激情| 国产xxxxx性猛交| 国产在线一区二区三区精| 纯流量卡能插随身wifi吗| 亚洲五月色婷婷综合| 国产精品久久久久久精品电影小说| av不卡在线播放| 美女福利国产在线| 黄片播放在线免费| 国产亚洲欧美精品永久| 国产精品秋霞免费鲁丝片| 成人手机av| 母亲3免费完整高清在线观看| 精品久久久久久久毛片微露脸 | 男男h啪啪无遮挡| 精品第一国产精品| 久久ye,这里只有精品| 欧美另类一区| 自拍欧美九色日韩亚洲蝌蚪91| bbb黄色大片| 成人手机av| 只有这里有精品99| 亚洲国产欧美一区二区综合| 男女下面插进去视频免费观看| 性色av乱码一区二区三区2| 国产免费现黄频在线看| 国产一区二区三区综合在线观看| 在线精品无人区一区二区三| 国产91精品成人一区二区三区 | 精品国产一区二区久久| 波多野结衣一区麻豆| 电影成人av| 交换朋友夫妻互换小说| 欧美激情高清一区二区三区| 国产男女超爽视频在线观看| 亚洲av电影在线进入| 美女高潮到喷水免费观看| 欧美黑人欧美精品刺激| 久久av网站| 久久av网站| 看免费成人av毛片| 久久精品国产亚洲av涩爱| 欧美老熟妇乱子伦牲交| 欧美老熟妇乱子伦牲交| 精品人妻在线不人妻| 亚洲国产看品久久| 日本欧美视频一区| 亚洲av成人不卡在线观看播放网 | 亚洲专区国产一区二区| 亚洲国产精品成人久久小说| 成年人午夜在线观看视频| 欧美国产精品va在线观看不卡| 大片免费播放器 马上看| 中文字幕高清在线视频| 精品少妇内射三级| 好男人视频免费观看在线| 国产成人精品久久二区二区免费| 久久 成人 亚洲| 99国产精品99久久久久| 精品少妇内射三级| 久久精品国产综合久久久| 夜夜骑夜夜射夜夜干| 女人爽到高潮嗷嗷叫在线视频| 亚洲中文日韩欧美视频| 热re99久久国产66热| 热re99久久国产66热| 又黄又粗又硬又大视频| 欧美性长视频在线观看| 精品一区二区三卡| 午夜免费成人在线视频| 女人高潮潮喷娇喘18禁视频| 丝袜喷水一区| 天天影视国产精品| 日韩精品免费视频一区二区三区| 免费黄频网站在线观看国产| 久久久国产欧美日韩av| 精品国产一区二区三区四区第35| 男女无遮挡免费网站观看| 成人午夜精彩视频在线观看| 成年动漫av网址| h视频一区二区三区| 亚洲人成网站在线观看播放| 久久av网站| 亚洲中文av在线| 精品国产乱码久久久久久男人| 免费观看av网站的网址| 国产女主播在线喷水免费视频网站| 人成视频在线观看免费观看| 亚洲激情五月婷婷啪啪| 嫁个100分男人电影在线观看 | xxxhd国产人妻xxx| 咕卡用的链子| 欧美精品亚洲一区二区| 建设人人有责人人尽责人人享有的| 在线观看www视频免费| 嫩草影视91久久| 亚洲av在线观看美女高潮| 精品亚洲成国产av| 天天影视国产精品| av欧美777| 蜜桃在线观看..| 捣出白浆h1v1| 亚洲人成77777在线视频| 国产精品av久久久久免费| 性色av乱码一区二区三区2| 一级片免费观看大全| 超色免费av| 别揉我奶头~嗯~啊~动态视频 | 免费观看a级毛片全部| 一区二区av电影网| 日韩一卡2卡3卡4卡2021年| 国产精品亚洲av一区麻豆| 午夜久久久在线观看| 久久影院123| 欧美久久黑人一区二区| 国产99久久九九免费精品| 99久久99久久久精品蜜桃| 2021少妇久久久久久久久久久| 水蜜桃什么品种好| 久久精品久久久久久久性| 亚洲 国产 在线| 国产精品麻豆人妻色哟哟久久| 男女无遮挡免费网站观看| 欧美激情 高清一区二区三区| 久久鲁丝午夜福利片| 欧美日韩综合久久久久久| 狠狠婷婷综合久久久久久88av| 高清黄色对白视频在线免费看| 又大又爽又粗| 亚洲色图 男人天堂 中文字幕| 亚洲av成人精品一二三区| 18禁裸乳无遮挡动漫免费视频| 国产成人啪精品午夜网站| 青青草视频在线视频观看| 男男h啪啪无遮挡| 99国产精品一区二区三区| 国产日韩欧美视频二区| 中文字幕亚洲精品专区| 久久久国产欧美日韩av| 两个人免费观看高清视频| 人妻一区二区av| 黄频高清免费视频| 色精品久久人妻99蜜桃| 国产麻豆69| 国产亚洲午夜精品一区二区久久| 色视频在线一区二区三区| 9191精品国产免费久久| 一级a爱视频在线免费观看| 免费在线观看影片大全网站 | 99re6热这里在线精品视频| 国产男女超爽视频在线观看| 18在线观看网站| 国产成人免费观看mmmm| 欧美国产精品一级二级三级| 黄色怎么调成土黄色| av不卡在线播放| 国产精品国产三级国产专区5o| 99久久人妻综合| 赤兔流量卡办理| 国产欧美亚洲国产| 永久免费av网站大全| 男女下面插进去视频免费观看| 欧美日韩视频精品一区| 菩萨蛮人人尽说江南好唐韦庄| 亚洲国产中文字幕在线视频| xxxhd国产人妻xxx| 在线 av 中文字幕| 999精品在线视频| 丝袜喷水一区| 国产精品二区激情视频| 最近中文字幕2019免费版| 电影成人av| 精品国产一区二区久久| 熟女少妇亚洲综合色aaa.| 丁香六月欧美| 一二三四在线观看免费中文在| 每晚都被弄得嗷嗷叫到高潮| 久久久国产欧美日韩av| 尾随美女入室| 你懂的网址亚洲精品在线观看| 中文欧美无线码| 日韩中文字幕视频在线看片| 50天的宝宝边吃奶边哭怎么回事| 欧美人与性动交α欧美软件| 亚洲熟女毛片儿| 午夜视频精品福利| 日韩精品免费视频一区二区三区| 亚洲中文av在线| 伊人亚洲综合成人网| 99精品久久久久人妻精品| 午夜激情久久久久久久| av在线播放精品| 午夜激情av网站| 男人舔女人的私密视频| 久久精品aⅴ一区二区三区四区| 视频区欧美日本亚洲| 1024视频免费在线观看| 两人在一起打扑克的视频| 搡老乐熟女国产| 亚洲自偷自拍图片 自拍| 国产成人欧美| 亚洲第一av免费看| 波野结衣二区三区在线| 一级片免费观看大全| 久久久久久亚洲精品国产蜜桃av| 激情五月婷婷亚洲| 最近手机中文字幕大全| 老汉色∧v一级毛片| 精品一品国产午夜福利视频| 视频区欧美日本亚洲| 最新的欧美精品一区二区| 国产97色在线日韩免费| 国产成人av激情在线播放| 亚洲午夜精品一区,二区,三区| 亚洲精品国产av蜜桃| 国产又色又爽无遮挡免| 免费观看av网站的网址| 最黄视频免费看| 欧美另类一区| 一本综合久久免费| 每晚都被弄得嗷嗷叫到高潮| 久久精品熟女亚洲av麻豆精品| 女性生殖器流出的白浆| 男女边摸边吃奶| 七月丁香在线播放| 中文字幕av电影在线播放| 亚洲午夜精品一区,二区,三区| 国产在线一区二区三区精| 国产伦理片在线播放av一区| 在线看a的网站| 精品国产一区二区久久| 80岁老熟妇乱子伦牲交| 国产亚洲欧美在线一区二区| 国产黄色免费在线视频| 精品久久蜜臀av无| 丁香六月欧美| 亚洲av综合色区一区| 考比视频在线观看| 免费观看人在逋| 人人妻人人澡人人看| 搡老乐熟女国产| a 毛片基地| 免费在线观看影片大全网站 | 丝袜美腿诱惑在线| 婷婷色综合大香蕉| av一本久久久久| 国语对白做爰xxxⅹ性视频网站| 丝袜在线中文字幕| 国产欧美日韩一区二区三 | 午夜免费成人在线视频| 亚洲成av片中文字幕在线观看| av网站免费在线观看视频| 日韩大片免费观看网站| 两个人看的免费小视频| 欧美人与性动交α欧美软件| 极品少妇高潮喷水抽搐| 看十八女毛片水多多多| 超色免费av| 男女国产视频网站| 男人爽女人下面视频在线观看| 天天躁狠狠躁夜夜躁狠狠躁| 大陆偷拍与自拍| 国产国语露脸激情在线看| 国产高清videossex| 亚洲专区国产一区二区| 久久亚洲精品不卡| 精品国产乱码久久久久久男人| 亚洲欧洲国产日韩| 脱女人内裤的视频| 韩国高清视频一区二区三区| 日韩欧美一区视频在线观看| 满18在线观看网站| 国产精品亚洲av一区麻豆| 丝袜美足系列| 久久久国产一区二区| 少妇 在线观看| 国产精品香港三级国产av潘金莲 | 啦啦啦中文免费视频观看日本| 又紧又爽又黄一区二区| av视频免费观看在线观看| 亚洲一码二码三码区别大吗| 国产一区二区在线观看av| 99国产精品99久久久久| 成年av动漫网址| 五月开心婷婷网| 又大又黄又爽视频免费| 一区二区三区四区激情视频| 欧美日韩亚洲高清精品| 亚洲第一青青草原| 男的添女的下面高潮视频| 高清av免费在线| 丝袜脚勾引网站| 一区福利在线观看| 最近最新中文字幕大全免费视频 | 久久久久久久国产电影| 国产精品九九99| 操出白浆在线播放| 日本av手机在线免费观看| 亚洲熟女毛片儿| 亚洲国产精品999| 18在线观看网站| 久久国产精品人妻蜜桃| 欧美成人午夜精品| 国产精品二区激情视频| 久久99精品国语久久久| 国产高清国产精品国产三级| 国产精品国产三级国产专区5o| 80岁老熟妇乱子伦牲交| 日韩一本色道免费dvd| 2018国产大陆天天弄谢| a 毛片基地| 考比视频在线观看| 视频在线观看一区二区三区| 国产视频首页在线观看| 日韩中文字幕欧美一区二区 | 中文字幕色久视频| 色婷婷久久久亚洲欧美| 日本欧美视频一区| 纵有疾风起免费观看全集完整版| 自拍欧美九色日韩亚洲蝌蚪91| 99国产精品一区二区三区| 青春草视频在线免费观看| 永久免费av网站大全| 欧美日韩亚洲国产一区二区在线观看 | 国产高清videossex| 欧美成人午夜精品| 深夜精品福利| 免费观看a级毛片全部| 啦啦啦视频在线资源免费观看| 老司机靠b影院| 91精品三级在线观看| 69精品国产乱码久久久| 91精品国产国语对白视频| 亚洲图色成人| 午夜福利在线免费观看网站| 亚洲国产av影院在线观看| 亚洲成人手机| 亚洲少妇的诱惑av| 精品国产乱码久久久久久男人| 精品久久蜜臀av无| 手机成人av网站| 热99久久久久精品小说推荐| 只有这里有精品99| 欧美日韩视频高清一区二区三区二| 丝袜在线中文字幕| 日韩熟女老妇一区二区性免费视频| 久久这里只有精品19| 国产在视频线精品| 巨乳人妻的诱惑在线观看| 精品免费久久久久久久清纯 | 十分钟在线观看高清视频www| 99国产精品一区二区三区| 在线观看免费视频网站a站| 1024视频免费在线观看| 精品一区二区三区av网在线观看 | 欧美日本中文国产一区发布| 黄色片一级片一级黄色片| 一本综合久久免费| 亚洲国产看品久久| 亚洲精品日韩在线中文字幕| 欧美少妇被猛烈插入视频| 久久人人爽人人片av| 深夜精品福利| 又大又黄又爽视频免费| 亚洲精品国产av成人精品| 日韩 欧美 亚洲 中文字幕| 伊人亚洲综合成人网| 国产视频首页在线观看| 欧美日韩黄片免| 国产精品九九99| 一本—道久久a久久精品蜜桃钙片| 欧美性长视频在线观看| 少妇被粗大的猛进出69影院| 亚洲精品久久久久久婷婷小说| 国产av国产精品国产| 国产亚洲av片在线观看秒播厂| 大型av网站在线播放| 男女国产视频网站| 老司机靠b影院| 久久国产精品大桥未久av| av网站在线播放免费| 国产精品国产三级国产专区5o| 岛国毛片在线播放| 亚洲精品乱久久久久久| 午夜激情av网站| 精品少妇黑人巨大在线播放| 日韩制服骚丝袜av| 中文乱码字字幕精品一区二区三区| av视频免费观看在线观看| 亚洲熟女精品中文字幕| 国产成人精品久久二区二区免费| 在线观看一区二区三区激情| 这个男人来自地球电影免费观看| 精品一区二区三区av网在线观看 | 亚洲精品美女久久久久99蜜臀 | 狂野欧美激情性bbbbbb| 人人妻人人爽人人添夜夜欢视频| 18禁黄网站禁片午夜丰满| 亚洲av电影在线进入| 一本色道久久久久久精品综合| 欧美日韩av久久| 国产成人一区二区在线| 国产成人av教育| 午夜激情av网站| 日韩,欧美,国产一区二区三区| 极品人妻少妇av视频| 成年人午夜在线观看视频| 熟女av电影| 国产国语露脸激情在线看| 色婷婷久久久亚洲欧美| 亚洲av美国av| 女人精品久久久久毛片| 欧美精品亚洲一区二区| 成年人免费黄色播放视频| 日韩中文字幕视频在线看片| 日韩中文字幕欧美一区二区 | 精品第一国产精品| 十八禁高潮呻吟视频| 一级片免费观看大全| 久久99热这里只频精品6学生| 丝袜喷水一区| 超色免费av| 国语对白做爰xxxⅹ性视频网站| 午夜免费观看性视频| 免费在线观看黄色视频的| 曰老女人黄片| 亚洲国产日韩一区二区| av片东京热男人的天堂| 亚洲欧美日韩另类电影网站| 看十八女毛片水多多多| 又粗又硬又长又爽又黄的视频| 国产视频一区二区在线看| videosex国产| 国产精品三级大全| 男人舔女人的私密视频| 亚洲av日韩在线播放| 亚洲精品久久午夜乱码| 国产又爽黄色视频| 男人操女人黄网站| 人妻人人澡人人爽人人| 国产不卡av网站在线观看| 色婷婷av一区二区三区视频| 老司机在亚洲福利影院| 国产免费现黄频在线看| 国产片内射在线| 亚洲图色成人| 久久精品亚洲av国产电影网| 9191精品国产免费久久| 免费在线观看完整版高清| 亚洲成国产人片在线观看| 国产日韩欧美视频二区| 久久人妻福利社区极品人妻图片 | 青草久久国产| 亚洲国产中文字幕在线视频| 天天躁夜夜躁狠狠躁躁| 中国美女看黄片| 少妇猛男粗大的猛烈进出视频| 亚洲精品久久成人aⅴ小说| 欧美日韩视频精品一区| 中文乱码字字幕精品一区二区三区| 人人妻人人爽人人添夜夜欢视频| 久久久久视频综合| 性色av一级| 国产成人精品久久二区二区91| 久久 成人 亚洲| 蜜桃在线观看..| 日本vs欧美在线观看视频| 午夜两性在线视频| 男女免费视频国产| 啦啦啦在线免费观看视频4| 日韩欧美一区视频在线观看| 国产成人免费观看mmmm| 天天躁夜夜躁狠狠躁躁| 亚洲精品久久久久久婷婷小说| 亚洲一区中文字幕在线| 女人久久www免费人成看片| 伦理电影免费视频| 免费少妇av软件| 一区二区av电影网| 欧美成人午夜精品| 永久免费av网站大全| 男男h啪啪无遮挡| 欧美黄色片欧美黄色片| 大码成人一级视频| 亚洲 国产 在线| 免费高清在线观看视频在线观看| 欧美 亚洲 国产 日韩一| 九草在线视频观看| 国产视频首页在线观看| 免费少妇av软件| 午夜老司机福利片| 黄网站色视频无遮挡免费观看| 亚洲av日韩在线播放| 午夜91福利影院| 捣出白浆h1v1| 久久久精品94久久精品| 丁香六月天网| 美女主播在线视频| 日韩中文字幕欧美一区二区 | 色播在线永久视频| 国产伦理片在线播放av一区| 久久久国产一区二区| 久久久久久久国产电影| 欧美精品一区二区免费开放| 国产老妇伦熟女老妇高清| 天天添夜夜摸| 在线观看免费高清a一片| av视频免费观看在线观看| 大片电影免费在线观看免费| 涩涩av久久男人的天堂| 成人黄色视频免费在线看| 秋霞在线观看毛片| 欧美精品人与动牲交sv欧美| 免费在线观看视频国产中文字幕亚洲 | 一边摸一边抽搐一进一出视频| 在线天堂中文资源库| 50天的宝宝边吃奶边哭怎么回事| 人妻 亚洲 视频| xxx大片免费视频| 久久久国产欧美日韩av| 亚洲av男天堂| 国产高清视频在线播放一区 | 母亲3免费完整高清在线观看| 好男人视频免费观看在线| 捣出白浆h1v1| 黄色a级毛片大全视频| 精品人妻在线不人妻| av又黄又爽大尺度在线免费看| 人人妻,人人澡人人爽秒播 | 久久热在线av| 久久精品aⅴ一区二区三区四区| 桃花免费在线播放| 亚洲精品一区蜜桃| 日韩伦理黄色片| 妹子高潮喷水视频| 免费看十八禁软件| 亚洲精品一卡2卡三卡4卡5卡 | 国产深夜福利视频在线观看| 日本vs欧美在线观看视频| 精品亚洲成国产av| av福利片在线| 性色av一级| 亚洲五月婷婷丁香| 久热爱精品视频在线9| 国产成人精品久久二区二区91| 最近手机中文字幕大全| 成人亚洲欧美一区二区av| 国精品久久久久久国模美| 99国产精品免费福利视频| 久久国产精品人妻蜜桃| 国产不卡av网站在线观看| 午夜激情久久久久久久| 国产xxxxx性猛交| 狂野欧美激情性xxxx| 日本91视频免费播放| 日韩制服骚丝袜av| 纯流量卡能插随身wifi吗| 最黄视频免费看| 国产欧美日韩一区二区三区在线| 观看av在线不卡| 老汉色∧v一级毛片| 最黄视频免费看| 丝袜在线中文字幕| 国产色视频综合| 欧美成人午夜精品| 国产黄色免费在线视频| 狂野欧美激情性bbbbbb| 电影成人av| 九色亚洲精品在线播放| 国产伦人伦偷精品视频| av电影中文网址| 免费女性裸体啪啪无遮挡网站| 99国产精品99久久久久| 啦啦啦 在线观看视频| 久久精品久久精品一区二区三区| av欧美777| 国产精品三级大全| 国产主播在线观看一区二区 | 久久精品国产a三级三级三级| 久久精品久久久久久噜噜老黄| 晚上一个人看的免费电影| 观看av在线不卡| 在线亚洲精品国产二区图片欧美| 最黄视频免费看| 男人舔女人的私密视频| 国产麻豆69| 成人国产一区最新在线观看 | 97精品久久久久久久久久精品| 女性生殖器流出的白浆| 男女高潮啪啪啪动态图| 国产又色又爽无遮挡免| 国产一区亚洲一区在线观看| 女人被躁到高潮嗷嗷叫费观| 中文欧美无线码| 美女视频免费永久观看网站| 麻豆国产av国片精品| 超碰97精品在线观看| 制服诱惑二区| 免费在线观看影片大全网站 | 国产精品免费大片| 欧美变态另类bdsm刘玥| www.熟女人妻精品国产| 国产精品久久久人人做人人爽| 欧美另类一区| 国产91精品成人一区二区三区 | 亚洲第一av免费看| 熟女少妇亚洲综合色aaa.| av视频免费观看在线观看| 成人18禁高潮啪啪吃奶动态图|