摘 要: [目的/ 意義] 探討科學數(shù)據(jù)開放共享中大模型的應用及其限度, 以期發(fā)揮大模型的技術(shù)賦能效應,助力科學數(shù)據(jù)開放共享數(shù)智化轉(zhuǎn)型升級。 [方法/ 過程] 結(jié)合數(shù)據(jù)生命周期理論和利益相關(guān)者理論, 梳理大模型應用于科學數(shù)據(jù)開放共享的邏輯理路, 分析風險隱患并提出治理對策。 [結(jié)果/ 結(jié)論] 研究表明, 首先, 大模型能夠從客體向度優(yōu)化科學數(shù)據(jù)全生命周期形態(tài)、 從主體向度激發(fā)利益相關(guān)者開放共享動力, 從而有效驅(qū)動科學數(shù)據(jù)開放共享提質(zhì)增效; 其次, 大模型應用帶來臟數(shù)據(jù)與假數(shù)據(jù)的數(shù)據(jù)質(zhì)量風險、 內(nèi)部威脅與外部攻擊的數(shù)據(jù)安全風險、 賦權(quán)與去權(quán)的數(shù)據(jù)權(quán)利保護風險; 最后, 應構(gòu)建包含適應性治理理念、 韌性治理機制和包容性治理工具在內(nèi)的敏捷治理模式, 以平衡促進應用與管控風險之間的張力, 保障科學數(shù)據(jù)開放共享中大模型的妥善應用。
關(guān)鍵詞: 科學數(shù)據(jù)開放共享; 大模型; 開放數(shù)據(jù); 人工智能; 敏捷治理
DOI:10.3969 / j.issn.1008-0821.2025.07.015
〔中圖分類號〕 G203 〔文獻標識碼〕 A 〔文章編號〕 1008-0821 (2025) 07-0167-11
隨著以 ChatGPT 為代表的 AI 大模型技術(shù)不斷迭代升級, 大模型的能力邊界持續(xù)拓展, 應用場景日益豐富。 大模型在本質(zhì)上是由大規(guī)模參數(shù)和復雜計算結(jié)構(gòu)構(gòu)成的深度學習模型, 經(jīng)過海量數(shù)據(jù)的預訓練, 大模型體現(xiàn)出強大的數(shù)據(jù)識別、 分析、 挖掘、關(guān)聯(lián)等處理能力, 在 “數(shù)據(jù)為王”[1] 的科學數(shù)據(jù)開放共享領(lǐng)域的嵌入式應用具有良好的耦合性。 在價值理念層面, 科學數(shù)據(jù)開放共享是開放科學運動的重要組成部分, 而大模型正是得益于開放科學所倡導的開放獲取(Open Access)主張才得以獲得海量開源數(shù)據(jù)用于模型開發(fā)和訓練, 大模型 “反哺” 作為開放科學運動產(chǎn)物之一的科學數(shù)據(jù)開放共享具備內(nèi)在價值的一致性, 科學數(shù)據(jù)開放共享水平的提升又能進一步促進大模型獲得更多的優(yōu)質(zhì)預訓練數(shù)據(jù),幫助其改善模型性能, 實現(xiàn)二者之間的相互增益。在實現(xiàn)進路層面, 大模型能夠完成自然語言處理(NLP)、 計算機視覺(CV)、 多模態(tài)深度學習(MDL)等復雜數(shù)據(jù)處理任務, 經(jīng)過特定科學領(lǐng)域語料的預訓練和指令微調(diào)后, 便可以有效理解數(shù)據(jù)處理者的意圖, 迅速適應多樣化的科學數(shù)據(jù)處理場景, 且生成內(nèi)容(AIGC)質(zhì)量高、 可用性強, 能夠有效滿足科學數(shù)據(jù)采集生產(chǎn)、 加工整理、 存儲共享等數(shù)據(jù)全生命周期提質(zhì)增效的迫切需求。
大模型在科學數(shù)據(jù)開放共享領(lǐng)域展現(xiàn)出廣闊的應用前景, 但數(shù)據(jù)科學界對于這一技術(shù)的發(fā)展動向及其在本領(lǐng)域的應用缺乏足夠的關(guān)注。 目前, 已有研究注意到大模型在科學數(shù)據(jù)管理與治理中的應用空間, 但大多未能同科學數(shù)據(jù)開放共享的特殊性相結(jié)合, 主要圍繞大模型如何改變科學數(shù)據(jù)管理[2]、大模型在科研數(shù)據(jù)管理中的應用潛力[3]、 大模型視域下的科學數(shù)據(jù)政策[4]、 大模型驅(qū)動的數(shù)據(jù)治理技術(shù)[5]、 科研智能化趨勢下的科研數(shù)據(jù)形態(tài)[6]、 人工智能與數(shù)據(jù)安全管理的融合發(fā)展[7] 等展開研究。而針對大模型與科學數(shù)據(jù)開放共享的研究, 雖然捕捉到二者之間的緊密聯(lián)系及融合路徑, 但主要基于“AI for Science” (AI4S)視角考察大模型驅(qū)動科學研究所帶來的潛在影響, 側(cè)重科學數(shù)據(jù)開放共享對大模型的被動適應, 而非大模型對科學數(shù)據(jù)開放共享的主動賦能。 這體現(xiàn)為, 上述研究主張, 作為科學數(shù)據(jù)開放共享的國際通用原則, FAIR 原則(Find?able, Accessible, Interoperable and Reusable)在 AI 時代應當被賦予新的內(nèi)涵———Findable and AI Ready[8],即應當確保科學數(shù)據(jù)的可發(fā)現(xiàn)性并通過適當?shù)臄?shù)據(jù)預處理方案使其在結(jié)構(gòu)和質(zhì)量上滿足 AI 的需求[9]。此外, 有關(guān)科學數(shù)據(jù)開放共享中大模型應用風險的研究缺乏對各類風險進行體系化治理的探討, 這些研究主要涉及大模型應用所引發(fā)的科學數(shù)據(jù)開放共享安全風險[10]、 圖書館科研數(shù)據(jù)服務版權(quán)風險[11]、學術(shù)期刊科學數(shù)據(jù)出版失范風險[12]等方面。 基于此,本文擬對大模型在科學數(shù)據(jù)開放共享中的應用前景、風險隱患與治理對策展開系統(tǒng)研究, 確保大模型以“科技向善” 的價值底色助力科學數(shù)據(jù)開放共享數(shù)智化轉(zhuǎn)型升級。
1 科學數(shù)據(jù)開放共享中大模型的應用前景
2023 年 12 月 31 日, 國家數(shù)據(jù)局等十七部門聯(lián)合發(fā)布 《“數(shù)據(jù)要素×” 三年行動計劃(2024—2026年)》 指出, 當前我國存在數(shù)據(jù)供給質(zhì)量不高、 流通機制不暢、 應用潛力釋放不夠等問題。 在此背景下, 大模型有望充當突破制度瓶頸的抓手, 激活科學數(shù)據(jù)開放共享機制, 充分釋放科學數(shù)據(jù)要素價值化紅利。
1.1 科學數(shù)據(jù)開放共享的現(xiàn)實困境與大模型的紓困邏輯
近年來, 從 《科學數(shù)據(jù)管理辦法》 出臺確立“開放為常態(tài)、 不開放為例外” 原則, 到 《中華人民共和國科學技術(shù)進步法》 修訂新增 “推動開放科學發(fā)展” 規(guī)定, 我國一直致力于推動科學數(shù)據(jù)開放、共享與利用, 但仍面臨諸多發(fā)展難題。 首先, 科學數(shù)據(jù)開放共享體量不足、 質(zhì)量不高, 難以發(fā)揮科學數(shù)據(jù)聚合價值。 據(jù)中國科學院計算機網(wǎng)絡信息中心等發(fā)布的 《中國開放數(shù)據(jù)白皮書 2023》 統(tǒng)計, 雖然大多數(shù)中國數(shù)據(jù)受訪者(78%)贊成將公開研究數(shù)據(jù)作為常規(guī)慣例, 但只有較少的受訪者(15%)會整理數(shù)據(jù)以便分享, 而過半受訪者希望得到關(guān)于科學數(shù)據(jù)管理與共享的培訓和幫助。 除成果搶發(fā)顧慮、 學術(shù)認可不足等主觀因素外, 科研人員相應數(shù)據(jù)管理與共享能力的欠缺是當前科學數(shù)據(jù)供給匱乏、 可用性不佳的重要原因。 其次, 科學數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)薄弱, 數(shù)據(jù)集成、 存儲、 處理和訪問效能亟待提升。數(shù)據(jù)規(guī)模不斷擴大、 多源異構(gòu)和多模態(tài)數(shù)據(jù)的關(guān)聯(lián)融合難度不斷上升, 對數(shù)據(jù)整合集成機制、 關(guān)聯(lián)集成與語義搜索、 存儲系統(tǒng)等提出更高的要求, 科學數(shù)據(jù)基礎(chǔ)設(shè)施亟需技術(shù)升級。 最后, 科學數(shù)據(jù)開放共享管理與服務機制尚不完備, 數(shù)據(jù)主權(quán)和話語權(quán)存在缺失。 我國作為 “后發(fā)國家”, 在科學數(shù)據(jù)開放共享制度和實踐上較歐美發(fā)達國家仍有一定差距,導致當前我國科研使用的科學數(shù)據(jù) 90%來自外資數(shù)據(jù)平臺或出版機構(gòu)[6], 產(chǎn)生的科學數(shù)據(jù)往往又由于國際期刊要求最先流向國外, 科學數(shù)據(jù)面臨 “受制于人” 和 “無序外流” 的雙重困境。
引發(fā)上述困境的原因來自政策、 科研環(huán)境、 技術(shù)、 管理、 資金等諸多方面, 而憑借強大的數(shù)據(jù)處理能力以及良好的泛化性能, 大模型能夠作為 “發(fā)動機” 為科學數(shù)據(jù)開放共享生態(tài)系統(tǒng)注入新的動能,通過技術(shù)變革引領(lǐng)制度瓶頸突破。 一方面, 相比以往的 “小模型”[5], 大模型具備自動化、 高效能、 多模態(tài)數(shù)據(jù)處理能力, 能夠勝任豐富多樣的數(shù)據(jù)處理任務, 從而顯著提升科學數(shù)據(jù)體量、 質(zhì)量和處理效率, 實現(xiàn)科學數(shù)據(jù)開放共享的 “量變” 增長。 隨著數(shù)據(jù)處理場景日益復雜化, 傳統(tǒng)的 “小模型” 在大規(guī)模數(shù)據(jù)識別、 多源數(shù)據(jù)融合和規(guī)范化等方面存在應對局限[5], 往往需要大量的標注數(shù)據(jù)或?qū)<抑R的支持, 模型訓練和數(shù)據(jù)處理效能低下。 相比之下,大模型利用海量數(shù)據(jù)進行無監(jiān)督預訓練, 能夠為模型積累豐富的知識儲備, 并且通過少量的指令微調(diào)便能夠快速掌握特定領(lǐng)域知識, 節(jié)省了大量人工標注時間及學習成本, 為模型的落地應用提供了極大便利。 另一方面, 大模型具備高度智能化和擬人化的內(nèi)容生成能力, 可以精準聯(lián)結(jié)使用者需求, 將其應用于數(shù)據(jù)產(chǎn)品與服務設(shè)計、 策劃等開發(fā)利用場景中, 從而實現(xiàn)科學數(shù)據(jù)開放共享的 “質(zhì)變” 升級。隨著模型規(guī)模和訓練數(shù)據(jù)的不斷增長, 大模型呈現(xiàn)出一定的 “涌現(xiàn)” (Emergent)能力, 譬如邏輯推理能力、 內(nèi)容創(chuàng)作能力, 這將促成大模型在數(shù)據(jù)增值加工、 數(shù)據(jù)出版服務等數(shù)據(jù)開發(fā)利用場景中的深度融合應用, 從而超越數(shù)量的概念, 發(fā)現(xiàn)隱藏在大數(shù)據(jù)洪流之下的 “珍寶”[9]。
1.2 大模型驅(qū)動下的科學數(shù)據(jù)開放共享
總的來看, 大模型應用于科學數(shù)據(jù)開放共享具備相應的開放科學基礎(chǔ)和技術(shù)融合邏輯。 更進一步地看, 大模型對科學數(shù)據(jù)開放共享的驅(qū)動路徑, 可以從作為客體的數(shù)據(jù)和作為主體的利益相關(guān)者兩個向度展開, 如圖 1 所示。
1.2.1 客體提質(zhì): 大模型優(yōu)化科學數(shù)據(jù)全生命周期形態(tài)
數(shù)據(jù)是科學數(shù)據(jù)開放共享的客體, 也是數(shù)據(jù)科學的研究對象[13], 具有客觀性和對象性的基本屬性。雖然大模型自身尚不具備主體性, 但借助于人類行動主體的應用, 可以對科學數(shù)據(jù)形態(tài)施加顯著影響??茖W數(shù)據(jù)產(chǎn)生于科研活動過程, 遵循數(shù)據(jù)生命周期規(guī)律, 大模型對科學數(shù)據(jù)的改造路徑便可以從科學數(shù)據(jù)生命周期的不同階段切入。
具體而言, 大模型被應用于數(shù)據(jù)采集生產(chǎn)、 加工整理、 匯交存儲、 增值處理、 出版?zhèn)鞑ズ驮倮玫瓤茖W數(shù)據(jù)開放共享全流程, 全方位優(yōu)化科學數(shù)據(jù)形態(tài)。 第一, 在數(shù)據(jù)采集生產(chǎn)階段, 高質(zhì)量合成科研人員所需要的圖像型、 視頻型等復雜數(shù)據(jù)或數(shù)據(jù)模型, 從而拓展充實數(shù)據(jù)來源, 提升高附加值數(shù)據(jù)供給水平。 第二, 在數(shù)據(jù)加工整理階段, 自動化完成海量數(shù)據(jù)異常值檢測、 錯誤校正和重復去除等數(shù)據(jù)預處理和元數(shù)據(jù)創(chuàng)建任務, 使其滿足數(shù)據(jù)存儲或出版要求, 從而降低科學數(shù)據(jù)開放共享的啟動成本,提高數(shù)據(jù)流動性。 第三, 在數(shù)據(jù)匯交存儲階段, 無縫接入數(shù)據(jù)平臺的數(shù)據(jù)傳輸、 集成和存儲系統(tǒng), 實現(xiàn)對大規(guī)模、 跨數(shù)據(jù)源的數(shù)據(jù)進行整合、 解析和統(tǒng)一訪問, 優(yōu)化數(shù)據(jù)存儲結(jié)構(gòu), 提高數(shù)據(jù)檢索效率[14]。第四, 在數(shù)據(jù)增值處理階段, 利用 AIGC “創(chuàng)造力”優(yōu)勢, 充分挖掘科學數(shù)據(jù)潛力, 開拓科學數(shù)據(jù)產(chǎn)品和服務種類與范圍, 提高數(shù)據(jù)增值效益。 第五, 在數(shù)據(jù)出版?zhèn)鞑ルA段, 深度介入數(shù)據(jù)論文出版、 數(shù)據(jù)獨立出版和數(shù)據(jù)關(guān)聯(lián)出版等科學數(shù)據(jù)出版模式, 從選題策劃、 稿件篩選、 審稿任務分配、 同行評議、排版校對等多方面優(yōu)化出版流程[15], 促進科學數(shù)據(jù)出版服務質(zhì)效提升。 第六, 在數(shù)據(jù)再利用階段, 全面融入數(shù)據(jù)再利用生態(tài), 通過開放 “大模型+科學數(shù)據(jù)開放共享” 服務, 拓展科學數(shù)據(jù)自動化檢索、智能推薦、 可視化交互和數(shù)據(jù)產(chǎn)品的一體化生成功能, 進而提升科學數(shù)據(jù)再利用率及利用成效。
1.2.2 主體增能: 大模型激發(fā)利益相關(guān)者開放共享動力
利益相關(guān)者是科學數(shù)據(jù)開放共享的主體, 包括科研人員、 數(shù)據(jù)平臺、 出版機構(gòu)和數(shù)據(jù)用戶等直接參與主體, 以及國家機關(guān)、 科研單位、 資助機構(gòu)等監(jiān)督管理主體。 利益相關(guān)者理論認為, 各利益相關(guān)者擁有不同的利益訴求, 各類主體而非某一主體的利益最大化是系統(tǒng)追求的目標[16]。 大模型應用能夠增進科學數(shù)據(jù)利益相關(guān)者的主要利益, 激發(fā)各類主體的價值動力, 并使其相互作用以實現(xiàn)價值共創(chuàng)。
具體而言, 大模型通過賦能治理、 賦權(quán)管理、驅(qū)動創(chuàng)新、 增進互信、 優(yōu)化運營、 改進決策等方式全面提高科學數(shù)據(jù)利益相關(guān)者的利益滿足度, 促進各類主體積極采取行動。 第一, 國家機關(guān)的主要利益是提升科學數(shù)據(jù)治理水平, 大模型作為一種 “技術(shù)治理”[17] 方式, 具有高效率、 易傳導、 可復制等優(yōu)勢, 能夠彌補政策法規(guī)等傳統(tǒng)治理方式落地難、起效慢等缺陷, 賦能科學數(shù)據(jù)治理 “提速換擋”。 第二, 科研單位的主要利益是提升組織的科研競爭力,大模型通過增強個人的數(shù)據(jù)生產(chǎn)能力和組織的數(shù)據(jù)管理能力, 在科研單位對內(nèi)數(shù)據(jù)控制權(quán)和對外數(shù)據(jù)話語權(quán)方面發(fā)揮顯著 “賦權(quán)” 作用。 第三, 資助機構(gòu)的主要利益是推動可持續(xù)科研創(chuàng)新, 大模型作為一種新興數(shù)字技術(shù), 與科研創(chuàng)新具有天然融合性,AI4S 更是被視為科學研究 “第五范式”, 二者結(jié)合在驅(qū)動創(chuàng)新方面蘊藏巨大潛力。 第四, 科研人員的主要利益是獲得學術(shù)認可與激勵, 大模型在提升科學數(shù)據(jù)開放共享影響力的基礎(chǔ)上, 也將促進相應學術(shù)成果評價、 績效考核管理等激勵機制完善, 從而增進科研互信, 破解 “囚徒困境”。 第五, 數(shù)據(jù)平臺和出版機構(gòu)的主要利益是提升品牌價值, 大模型有助于優(yōu)化數(shù)據(jù)運營服務, 提升品牌知名度, 打造新的盈利引擎。 第六, 數(shù)據(jù)用戶的主要利益是利用科學數(shù)據(jù)為自身決策提供可靠參考, 大模型能夠增加數(shù)據(jù)獲取機會, 提高數(shù)據(jù)處理和分析能力, 使數(shù)據(jù)用戶在信息掌握更為全面和深入的基礎(chǔ)上改進其科研決策。
2 科學數(shù)據(jù)開放共享中大模型應用的風險隱患
作為一把 “雙刃劍”, 大模型在為科學數(shù)據(jù)開放共享生態(tài)系統(tǒng)釋放技術(shù)動能、 驅(qū)動科學數(shù)據(jù)開放共享機制穩(wěn)健有力運行的同時, 也給科學數(shù)據(jù)治理帶來一系列風險隱患, 主要表現(xiàn)在數(shù)據(jù)質(zhì)量、 數(shù)據(jù)安全和數(shù)據(jù)權(quán)利 3 個層面。
2.1 “臟數(shù)據(jù)”與“假數(shù)據(jù)”: 數(shù)據(jù)質(zhì)量層面的風險隱患
數(shù)據(jù)質(zhì)量是影響科學數(shù)據(jù)開放共享效果的關(guān)鍵,高質(zhì)量數(shù)據(jù)是驅(qū)動科學發(fā)現(xiàn)的 “加速器”, 劣質(zhì)數(shù)據(jù)則會給科學研究和應用造成巨大損失。 雖然大模型具有改進數(shù)據(jù)質(zhì)量、 提升數(shù)據(jù)價值的功能, 但囿于技術(shù)局限性或不當使用, 可能會降低科學數(shù)據(jù)的準確性、 完整性、 可靠性等數(shù)據(jù)質(zhì)量屬性[18], 滋生新的數(shù)據(jù)質(zhì)量風險。
一是 “臟數(shù)據(jù)”[19](Dirty Data)風險。 大模型存在 “數(shù)據(jù)污染” “幻覺” “算法黑箱” 等問題, 使用者對大模型輸出結(jié)果的準確性和可靠性疏于考察,直接加以運用, 將產(chǎn)生不符合科學要求或標準規(guī)范的 “臟數(shù)據(jù)”。 首先, 在大模型預訓練階段, 原始數(shù)據(jù)質(zhì)量瑕疵、 缺陷以及算法偏見, 都將導致大模型輸出結(jié)果出現(xiàn)偏差, 難以滿足科學數(shù)據(jù)精確性和標準化等方面的特定要求。 即便能夠保證數(shù)據(jù)源選取和預訓練質(zhì)量, 大模型也可能遭受指令攻擊或提示注入產(chǎn)生 “二次污染”[12]。 其次, 當預訓練數(shù)據(jù)集中存在特定情況缺失時, 大模型將根據(jù)概率分布關(guān)系作出最符合提示語要求的 “推斷”, 這種時常表現(xiàn)出 “自信而錯誤” 的 “推斷” 被稱為大模型的“幻覺”。 “幻覺” 使得大模型在數(shù)據(jù)處理上缺乏穩(wěn)健性, 與科學數(shù)據(jù)的高度嚴謹性要求相背離。 最后,大模型 “黑箱” 式的數(shù)據(jù)處理機制透明度不足, 輸出結(jié)果的可解釋性差, 且有賴于進一步的人工審查和驗證, 導致數(shù)據(jù)的用戶接受度不高。 因此, 大模型在科學數(shù)據(jù)開放共享中的應用, 可能使得數(shù)據(jù)可用性 “不升反降”。
二是 “假數(shù)據(jù)”[20](False Data)風險。 大模型在“合成數(shù)據(jù)” 方面具有 “深度偽造” (Deepfake)特性,使用者將其應用于捏造、 偽造、 歪曲和篡改科學數(shù)據(jù), 很難被現(xiàn)行科學數(shù)據(jù)開放共享流程發(fā)現(xiàn), 進而產(chǎn)生不具有可信度和可用性的假數(shù)據(jù)。 在科學數(shù)據(jù)開放共享中, CARE 原則(Collective Benefit, Author?ity to Control, Responsibility and Ethics)被視為 FAIR原則的重要補充[21], 強調(diào)科學數(shù)據(jù)的公益、 權(quán)威、責任和倫理, 旨在確??茖W數(shù)據(jù)的生產(chǎn)、 收集、 共享及使用都應符合科研倫理和學術(shù)道德等要求。 然而, 大模型使用者為了追求自身利益, 可能利用其實施科學數(shù)據(jù)學術(shù)不端行為。 例如, 一篇發(fā)表在《美國醫(yī)學會眼科雜志》 ( JAMA Ophthalmology) 的論文使用 GPT - 4 的高級數(shù)據(jù)分析功能(AdvancedData Analysis, ADA)生成虛假的實驗數(shù)據(jù)集, 發(fā)現(xiàn)其能創(chuàng)造出看似真實合理的數(shù)據(jù), 并且準確支撐作者錯誤的論文觀點[22]。 期刊編輯和評審專家在審稿階段很難判別數(shù)據(jù)的真實性和有效性, 數(shù)據(jù)平臺往往更加難以對此及時、 準確地作出反應。 這種 “惡意投毒”[7]式的數(shù)據(jù)造假行為是對數(shù)據(jù)質(zhì)量的毀滅性打擊, 由此產(chǎn)生的鏈式反應將嚴重影響科學數(shù)據(jù)可信共享。
2.2 內(nèi)部威脅與外部攻擊: 數(shù)據(jù)安全層面的風險隱患
數(shù)據(jù)安全是科學數(shù)據(jù)開放共享的基礎(chǔ), 包含機密性、 完整性和可用性等數(shù)據(jù)安全屬性[23]。 大模型數(shù)據(jù)安全問題是其實際應用中的一大掣肘, OpenAI的技術(shù)報告顯示, 即便是最新版本的 GPT-4, 仍可能被黑客入侵[24], 引發(fā)數(shù)據(jù)泄露、 竊取、 篡改和毀損等數(shù)據(jù)安全風險。 根據(jù)風險來源不同, 科學數(shù)據(jù)開放共享中大模型應用的數(shù)據(jù)安全風險可以劃分為以下兩類。
一是內(nèi)部威脅型數(shù)據(jù)安全風險。 研究顯示, 80%的數(shù)據(jù)安全風險是由內(nèi)部原因造成的[25], 包括硬件或軟件故障、 內(nèi)部人士濫用權(quán)限泄露或竊取數(shù)據(jù)、疏忽操作導致數(shù)據(jù)丟失或毀損等, 大模型帶來的內(nèi)部威脅型數(shù)據(jù)安全風險主要涉及前兩者。 第一種情形表現(xiàn)為大模型需要處理規(guī)模更大、 復雜性更高的數(shù)據(jù)集, 對系統(tǒng)性能、 可擴展性和靈活性提出更高要求[7], 但現(xiàn)有科學數(shù)據(jù)基礎(chǔ)設(shè)施往往難以滿足其要求, 導致技術(shù)接入的適配性和穩(wěn)健性不足, 從而埋下數(shù)據(jù)安全隱患。 譬如, 大模型的接入使得基礎(chǔ)設(shè)施之間及其與數(shù)據(jù)處理者之間交互增強, 數(shù)據(jù)開放接口增多, 若缺乏健壯的通信接口和安全的數(shù)據(jù)傳輸機制, 將增加數(shù)據(jù)泄露或丟失風險。 第二種情形表現(xiàn)為大模型控制者和處理者等內(nèi)部人士違反身份認證、 授權(quán)和訪問控制機制, 未經(jīng)授權(quán)或濫用權(quán)限獲取和利用科學數(shù)據(jù), 導致數(shù)據(jù)竊取或泄露, 進而可能對國家安全、 行業(yè)秩序和個人隱私造成嚴重危害。 此外, 內(nèi)部人士能夠憑借其身份, 利用大模型深度挖掘、 交叉碰撞、 相互驗證數(shù)據(jù)集之間的聯(lián)系,對已經(jīng)脫敏加密的隱私數(shù)據(jù)或涉密數(shù)據(jù)實施 “反向工程” 和 “數(shù)據(jù)拼圖”, 引發(fā)隱性數(shù)據(jù)安全風險[26]。
二是外部攻擊型數(shù)據(jù)安全風險。 由大模型遭受科學數(shù)據(jù)開放共享生態(tài)系統(tǒng)外的攻擊引發(fā)的數(shù)據(jù)安全風險被歸為外部攻擊型數(shù)據(jù)安全風險, 攻擊者可能是黑客組織、 犯罪團伙或者國家(地區(qū)), 攻擊動機包括政治或軍事目的、 商業(yè)競爭、 復仇或泄憤、獲取經(jīng)濟利益等。 在國家層面表現(xiàn)為, 大模型 “技術(shù)主權(quán)” 安全威脅帶來數(shù)據(jù)主權(quán)安全風險。 “技術(shù)主權(quán)” 是指一國自主開發(fā)利用技術(shù)的創(chuàng)新能力[27]。當前, 大模型技術(shù)主要由歐美發(fā)達國家(地區(qū))掌握,面對國外技術(shù)斷供、 封鎖等限制圍堵, 我國海量科學數(shù)據(jù)將處于失控狀態(tài), 給數(shù)據(jù)主權(quán)乃至政治、 經(jīng)濟主權(quán)增加不穩(wěn)定因素。 在行業(yè)層面表現(xiàn)為, 大模型遭受黑客攻擊導致科研組織機密數(shù)據(jù)損毀、 篡改以及秘密披露、 系統(tǒng)中斷、 數(shù)據(jù)截獲, 對科研秩序造成沖擊。 除科學數(shù)據(jù)外, 科研組織所持有的諸如編輯部審稿流程數(shù)據(jù)等內(nèi)部數(shù)據(jù)也可能被竊取或泄露, 造成科研組織利益受損, 擾亂行業(yè)公平競爭秩序。 在個人層面表現(xiàn)為, 大模型在用戶數(shù)據(jù)隱私保護上有所欠缺。 ChatGPT 曾被曝出泄露用戶姓名、郵箱、 聊天記錄標題和信用卡最后四位數(shù)字[28], 用戶數(shù)據(jù)被不法分子攫取可能導致個人隱私受到侵犯,滋生用戶畫像分析等個人數(shù)據(jù)安全風險。
2.3 “賦權(quán)”與“去權(quán)”: 數(shù)據(jù)權(quán)利層面的風險隱患
完善的數(shù)據(jù)權(quán)利保護體系有利于激發(fā)科學數(shù)據(jù)開放共享利益相關(guān)者的積極性, 促進科學數(shù)據(jù)向生產(chǎn)要素轉(zhuǎn)化。 大模型憑借其出色的數(shù)據(jù)加工處理能力, 有助于科學數(shù)據(jù)在內(nèi)容選擇或編排上體現(xiàn)獨創(chuàng)性而獲得著作權(quán)保護, 但是, 由于 AIGC 的可版權(quán)性存在爭議, 對大模型的過度使用可能導致科學數(shù)據(jù)不被視為作品而無法獲得著作權(quán)保護, 因此呈現(xiàn)出大模型對科學數(shù)據(jù)著作權(quán)保護 “賦權(quán)” 與 “去權(quán)”的雙重效應, 使得數(shù)據(jù)權(quán)利保護局面進一步復雜化。一方面, “賦權(quán)” 效應體現(xiàn)為, 大模型能夠利用其深度學習的高級架構(gòu), 重新解析和組織數(shù)據(jù), 生成與原始數(shù)據(jù)密切相關(guān)但表達方式全新的內(nèi)容[11], 實現(xiàn)科學數(shù)據(jù)的 “二次創(chuàng)作”, 進而滿足作品獨創(chuàng)性要求, 取得著作權(quán)保護。 事實上, 現(xiàn)實中存在大量的科學數(shù)據(jù)因數(shù)據(jù)庫編排方式有限, 以及考慮用戶體驗、 設(shè)計成本與難度而無法滿足獨創(chuàng)性要求, 因此被排除在著作權(quán)保護范圍之外。 大模型能夠有效幫助這些科學數(shù)據(jù)擺脫作為 “非獨創(chuàng)性” 數(shù)據(jù)庫或數(shù)據(jù)集處于權(quán)利保護真空地帶的困境, 將更多的科學數(shù)據(jù)納入著作權(quán)保護范圍。 另一方面, “去權(quán)”效應體現(xiàn)為, 對于大模型的使用可能滑向 “機器主導” 的自主生成模式, 導致人類在科學數(shù)據(jù)創(chuàng)作中的智力貢獻嚴重不足, 由于人類創(chuàng)作者貢獻是可版權(quán)性的核心判斷標準之一, 科學數(shù)據(jù)可能失去成為作品而獲得著作權(quán)保護的資格。 在北京互聯(lián)網(wǎng)法院作出的 “AI 文生圖著作權(quán)侵權(quán)國內(nèi)第一案” 判決中,法院強調(diào)原告的智力投入和個性化表達是構(gòu)成作品的關(guān)鍵[29]。 美國版權(quán)局在 AIGC 版權(quán)登記問題上要求作者表明有 “至少最低限度的人類創(chuàng)造性努力”(At Least Minimal Human Creative Effort)的存在[30]。而在使用大模型處理科學數(shù)據(jù)的場景中, 可能會出現(xiàn)大模型自主運行生成、 人類參與創(chuàng)作的程度和創(chuàng)造性低于 “最低限度” 的情形, 導致科學數(shù)據(jù)喪失可版權(quán)性, 引發(fā)大模型對數(shù)據(jù)權(quán)利保護由 “賦權(quán)”到 “去權(quán)” 的異化風險。
3 科學數(shù)據(jù)開放共享中大模型應用的治理對策
要規(guī)制大模型應用于科學數(shù)據(jù)開放共享所滋生的風險隱患, 必須對其展開體系化治理。 在大模型治理策略研究中, 敏捷治理(Agile Governance)作為一套具有柔韌性、 流動性、 靈活性或適應性的行動或方法, 一種自適應、 以人為本以及具有包容性和可持續(xù)的決策過程[31], 被越來越多地認可和接受。敏捷治理最先在 2018 年 “世界經(jīng)濟論壇” 上被提出, 我國 《新一代人工智能治理原則———發(fā)展負責任的人工智能》 將其引入人工智能治理領(lǐng)域。 因此, 構(gòu)建科學數(shù)據(jù)開放共享中大模型應用的敏捷治理模式既是 “發(fā)展負責任的人工智能” 的題中應有之義, 又能夠作為高度不確定性和復雜性風險背景下的一種新型治理方式[32], 憑借靈敏迅捷、 聯(lián)通共識、 雙向反饋等特性[33], 有效應對科學數(shù)據(jù)開放共享多元鏈式運行所帶來的大模型應用風險泛在化和彌散化趨向, 達成促進技術(shù)應用和規(guī)制潛在風險之間的動態(tài)平衡。
在具體的模式建構(gòu)上, 敏捷治理一般被認為包含 “理念—機制—工具” 三重進路[34], 三者相互融通、 層層遞進, 旨在實現(xiàn)對傳統(tǒng)治理模式的目標理念重塑、 統(tǒng)籌能力提升和行動邏輯調(diào)適[35]。 面對科學數(shù)據(jù)開放共享中大模型應用風險的復雜多變性、隨機突發(fā)性和結(jié)果不可控性等特點, 傳統(tǒng)治理模式存在價值理念滯后、 運行機制低效、 工具選擇單一的應對局限。 相較而言, 敏捷治理強調(diào)根據(jù)不斷變化的情況靈活調(diào)整治理策略[36], 更加契合未知且難以預測的風險應對需求。 這包括: 秉持適應性治理理念, 從 “被動回應風險” 到 “主動適應風險”; 構(gòu)建韌性治理機制, 從 “單方主體集中監(jiān)管” 到 “多元主體協(xié)同參與”; 運用包容性治理工具, 從 “剛性規(guī)制” 到 “柔性引導”。 從而以 “價值性” “制度性” “工具性” 三維敏捷尋求科學數(shù)據(jù)開放共享中大模型應用治理的 “最優(yōu)解”, 如圖 2 所示。
3.1 秉持適應性治理理念, 注重風險防治結(jié)合
敏捷治理以適應性為核心特征和關(guān)鍵優(yōu)勢, 適應性強調(diào)治理措施應足夠靈活以適應復雜系統(tǒng)的細微差別, 提倡差異化、 風險預防和主動安全的治理理念[37], 是敏捷治理的 “價值性” 維度表征。 大模型技術(shù)發(fā)展的不確定性以及科學數(shù)據(jù)開放共享多元鏈式運行的特點, 決定了科學數(shù)據(jù)開放共享中大模型的應用風險具有較強的復雜性、 多變性、 突發(fā)性和不可控性。 在適應性治理理念指引下, 應建立一套預防和應對并重的動態(tài)適應的風險防控機制。
第一, 應當建立靈活有效的大模型風險識別分析機制, 根據(jù)大模型自身所處的環(huán)境和影響范圍,并與參與主體充分溝通協(xié)調(diào), 形成共同的風險認知和行動準則。 大模型滋生的風險隱患涵蓋整個科學數(shù)據(jù)生命周期流程, 應通過向各環(huán)節(jié)的參與主體收集和整理充足的信息, 采用跨學科的方法分享知識、交流見解, 從而對可能發(fā)生的不利后果加以預判和預防。 這包括: 一是建立大模型開發(fā)訓練者等技術(shù)專家與科研領(lǐng)域知識專家聯(lián)合的數(shù)據(jù)質(zhì)量風險研判機制, 及時、 準確識別由大模型技術(shù)導致的數(shù)據(jù)真實性、 可靠性等質(zhì)量風險。 二是建立大模型技術(shù)專家與國家安全、 網(wǎng)絡安全、 數(shù)據(jù)安全等安全專家聯(lián)合的數(shù)據(jù)安全風險研判機制, 全面、 詳盡掌握潛在的數(shù)據(jù)安全風險點。 三是建立科研領(lǐng)域知識專家與知識產(chǎn)權(quán)專家聯(lián)合的數(shù)據(jù)權(quán)利保護風險研判機制,從專業(yè)角度辨識、 防范由大模型引發(fā)的數(shù)據(jù)版權(quán)保護風險。
第二, 應當建立差異有序的大模型風險評估控制機制, 按照風險發(fā)生可能性和危害嚴重程度對大模型引起的數(shù)據(jù)質(zhì)量、 安全和權(quán)利保護風險加以分級分類, 并采取不同的控制措施。 適應性治理理念追求將風險控制在可以接受的范圍之內(nèi), 而非絕對的 “零風險”, 比例原則和風險分級分類成為大模型監(jiān)管的主流選擇。 譬如, 歐盟 《人工智能法案》 將人工智能系統(tǒng)劃分為不可接受的風險、 高風險、 有限風險和最小風險 4 種級別, 并規(guī)定不同程度的控制措施。 大模型在科學數(shù)據(jù)開放共享中的風險也因不同應用場景而存在差異, 應對其展開相應的定量或定性評估, 并將評估結(jié)果按照不同的標準或維度進行分組或排序, 以便分別采取規(guī)避、 減輕、 轉(zhuǎn)移或承擔等風險控制措施[38]。 值得說明的是, 大模型風險評估控制機制不是一次性或靜態(tài)的, 而應隨著大模型技術(shù)、 環(huán)境和影響范圍進行動態(tài)、 有序地調(diào)整和應變。
第三, 應當建立及時有力的大模型風險應急響應機制, 明確各利益相關(guān)者在大模型風險事件應對中的主體權(quán)責, 完善大模型風險事件的事前預警、事中報告、 事后調(diào)查總結(jié)等處置程序, 確保風險的快速、 協(xié)調(diào)和有效應對。 一方面, 要明確大模型開發(fā)者、 提供者、 使用者的責任分配, 根據(jù) “利益之所在, 風險之所在” 原則, 確定各利益相關(guān)者承擔的風險與責任, 推動科學數(shù)據(jù)開放共享行業(yè)自律和規(guī)范化發(fā)展。 另一方面, 及時完善的大模型風險事件處置程序是機制有效運轉(zhuǎn)的關(guān)鍵, 包括預案與流程、 通知與報告、 處理與恢復、 信息共享與合作、媒體與公眾關(guān)系、 事后總結(jié)與改進、 培訓與演練、法律合規(guī)等系統(tǒng)性措施[37], 從而在大模型風險事件發(fā)生時, 能夠及時、 有效控制風險事件的影響范圍,遏制危害后果的蔓延。
3.2 構(gòu)建韌性治理機制, 加強風險協(xié)同共治
敏捷治理具有高度柔韌性, 柔韌性強調(diào)治理框架在應對風險沖擊時展現(xiàn)出良好的抗擊、 恢復和轉(zhuǎn)型能力[39], 是敏捷治理的 “制度性” 維度表征。 與適應性側(cè)重快速響應以應對動態(tài)風險不同, 柔韌性側(cè)重彈性運行以應對長期風險, 而治理主體協(xié)同配合、 形成合力, 是治理框架具備柔韌性的關(guān)鍵[40]??茖W數(shù)據(jù)開放共享中大模型應用的治理是一個涉及國家機關(guān)、 科研單位、 資助機構(gòu)、 數(shù)據(jù)平臺、 出版機構(gòu)、 科研人員、 數(shù)據(jù)用戶等諸多利益相關(guān)者在內(nèi)的復雜過程, 為確保大模型能夠承受住各種壓力和挑戰(zhàn), 應構(gòu)建多元主體協(xié)同參與的韌性治理機制。
第一, 國家機關(guān)在韌性治理機制中以其權(quán)威主體的身份扮演主導性角色, 應當通過強調(diào)不同主體的廣泛參與和有效互動, 積極深入了解大模型的技術(shù)特征和應用模式, 在對其風險充分前瞻、 動態(tài)跟蹤的基礎(chǔ)上制定監(jiān)管方略。 一方面, 國家機關(guān)應鼓勵各利益相關(guān)者之間的合作, 協(xié)調(diào)不同主體的需求,確保治理過程的協(xié)同性。 另一方面, 國家機關(guān)應及時、 敏銳地捕捉大模型的應用風險, 通過制定相應的政策法規(guī), 引導大模型的規(guī)范應用。 譬如, 開展大模型科研不端監(jiān)管立法, 合理界定并有效規(guī)制利用大模型偽造、 篡改科學數(shù)據(jù)等科研不端行為及其責任; 加強對大模型技術(shù)自主研發(fā)的政策支持力度,確保技術(shù)主權(quán)安全; 強化對大模型實施黑客攻擊等行為的打擊力度, 完善相應的刑事、 行政和民事制裁體系; 規(guī)范 AIGC 版權(quán)保護監(jiān)管尺度, 明確利用大模型處理科學數(shù)據(jù)的權(quán)利保護邊界。
第二, 科研單位、 資助機構(gòu)、 數(shù)據(jù)平臺和出版機構(gòu)等科研組織是科學數(shù)據(jù)開放共享中大模型應用的積極推動者, 在韌性治理機制中扮演主體性角色,應當加強與國家機關(guān)的互動合作, 并通過行業(yè)自治、內(nèi)部合規(guī)等形式促進大模型治理體系的完善。 一方面, 科研組織應盡快與監(jiān)管部門達成合作, 制定具體應用指南。 在科技部的指導和支持下, 中國科學技術(shù)信息研究所聯(lián)合愛思唯爾等發(fā)布 《學術(shù)出版中AIGC 使用邊界指南》, 相關(guān)科研組織可以參照制定“科學數(shù)據(jù)開放共享中大模型應用指南”, 從而促成大模型應用的集體行動, 克服科研組織 “經(jīng)濟人”屬性帶來的 “各自為政” 的弊病。 另一方面, 科研組織應強化大模型內(nèi)部合規(guī)建設(shè), 壓實風險主體責任。 譬如, 加強對科研人員使用大模型處理科學數(shù)據(jù)的質(zhì)量審查和版權(quán)把關(guān), 從安全策略、 組織建設(shè)等方面完善大模型內(nèi)部安全管理制度[10], 有效控制自身風險。
第三, 科研人員、 數(shù)據(jù)用戶是韌性治理機制的重要一環(huán), 既可能是大模型應用風險的開啟者, 也可能是受害者, 應當提升其使用大模型的風險意識和規(guī)避能力, 以此奠定大模型應用治理的良好起點。一方面, 通過監(jiān)管部門的宣傳引導、 科研組織的培訓教育等形式提高其大模型使用素養(yǎng), 包括注重對AIGC 準確性、 可靠性和可版權(quán)性的考察, 避免處理機密或隱私數(shù)據(jù)。 另一方面, 應著重強化科研倫理教育, 包括禁止使用大模型從事數(shù)據(jù)造假行為、 實施 “反向工程” 還原國家秘密和個人隱私, 以及進行用戶畫像分析等惡劣行徑, 并通過相應懲戒措施提高威懾力, 確保大模型在遵循科研倫理前提下的健康應用。
3.3 運用包容性治理工具, 推進風險審慎監(jiān)管
包容性是敏捷治理的重要特征, 強調(diào)審慎運用治理工具, 給予治理對象必要的發(fā)展時間和試錯空間, 不宜提早或過度干預治理進程, 是敏捷治理的“工具性” 維度表征。 為鼓勵和支持大模型的創(chuàng)新應用, 在治理 “工具箱” 中, 傳統(tǒng)的 “命令—控制”型規(guī)制工具雖然不可缺少, 但其適用順位應適當后移, 而優(yōu)先采取技術(shù)供給、 軟法規(guī)范等具有支持性、指導性的包容性治理工具。
第一, 對于能夠通過大模型技術(shù)或配套技術(shù)發(fā)展而化解的應用風險, 應當鼓勵技術(shù)不斷發(fā)掘和拓展, 無需引入規(guī)范約束, 避免為技術(shù)發(fā)展設(shè)限, 從而提升治理的可持續(xù)性。 一方面, 應通過大模型自身技術(shù)優(yōu)化彌合與科學數(shù)據(jù)開放共享之間的罅隙。譬如, 在大模型預訓練階段 “投喂” 高質(zhì)量科學數(shù)據(jù), 采用專業(yè)人士監(jiān)督和反饋, 持續(xù)改進大模型處理科學數(shù)據(jù)的專業(yè)性能, 有效降低大模型臟數(shù)據(jù)風險; 同時, 通過大模型自身技術(shù)改進, 促進基于大模型技術(shù)的 AIGC 檢測技術(shù)加快發(fā)展, 妥當控制大模型假數(shù)據(jù)風險。 另一方面, 應充分吸納其他先進技術(shù), 作為 “他山之石” 攻克大模型風險防控的痛點和難點。 譬如, 采用零信任技術(shù)對主體身份、 網(wǎng)絡環(huán)境、 終端狀態(tài)等要素 “持續(xù)驗證+動態(tài)授權(quán)”,有效控制利用大模型處理科學數(shù)據(jù)的訪問行為; 利用同態(tài)加密、 差分隱私和聯(lián)邦學習等隱私計算技術(shù)保障科學數(shù)據(jù) “可用不可見、 可用可計量”, 在滿足數(shù)據(jù)處理需求的同時確保數(shù)據(jù)機密性和隱私性得到控制[10]。
第二, 對于單純依靠技術(shù)發(fā)展無法規(guī)避的大模型應用風險, 當風險尚不足以采用強制性規(guī)制工具時, 應當運用國家標準、 行業(yè)自律規(guī)范等軟法規(guī)范工具, 通過引導式、 自愿式的柔性治理, 在不波及大模型創(chuàng)新應用的前提下, 將風險影響范圍最小化。在國家標準層面, 我國已于 2019 年國家重點研發(fā)計劃 “國家質(zhì)量基礎(chǔ)的共性技術(shù)研究與應用” 重點專項設(shè)立 “科學數(shù)據(jù)安全技術(shù)及基礎(chǔ)技術(shù)標準研究” 項目, 目前 《科學數(shù)據(jù)安全要求通則》 《科學數(shù)據(jù)安全分類分級指南》 等國家標準正處于批準階段, 應在繼續(xù)推進國家標準體系研究的基礎(chǔ)上, 細化大模型適用相關(guān)國家安全標準的實施方案, 為大模型應用提供具體遵循。 在行業(yè)自律規(guī)范層面, 對于一時難以界定風險性質(zhì)及級別的大模型應用行為,應通過賦予行為人相應的行業(yè)軟法義務, 逐步探索行為的容錯邊界, 促成行業(yè)監(jiān)管的包容審慎。 譬如,對大模型使用者課予透明度義務, 要求其披露和說明科學數(shù)據(jù)處理中大模型的使用情況, 并對相應科學數(shù)據(jù)的可用性和可版權(quán)性進行檢測和驗證, 當對大模型的應用風險積累足夠的經(jīng)驗共識時, 進而上升為國家政策或立法, 形成一個動態(tài)、 完善、 可持續(xù)的規(guī)范體系。
4 結(jié) 語
大模型為人類社會發(fā)展帶來新機遇, 科學數(shù)據(jù)開放共享領(lǐng)域有望借此迎來重大革新契機。 結(jié)合數(shù)據(jù)生命周期理論和利益相關(guān)者理論, 研究發(fā)現(xiàn), 大模型有助于紓解科學數(shù)據(jù)開放共享面臨的現(xiàn)實困境,釋放強勁的價值共創(chuàng)潛能。 然而, 正如價值與風險是 “一枚硬幣的兩面”, 大模型也帶來科學數(shù)據(jù)質(zhì)量、 安全和權(quán)利保護等層面的風險隱患。 在大模型應用治理上, 敏捷治理能夠有效應對高度不確定性和復雜性的應用風險, 合理平衡促進應用與管控風險之間的張力。 通過構(gòu)建包含適應性治理理念、 韌性治理機制和包容性治理工具在內(nèi)的敏捷治理模式,以 “價值性” “制度性” “工具性” 三維敏捷促進傳統(tǒng)治理能級升維。 受限于大模型實踐應用進展,本文僅是從宏觀系統(tǒng)層面討論其在科學數(shù)據(jù)開放共享中的應用, 對微觀操作性問題討論較少, 未來將在大模型應用模式不斷成熟的基礎(chǔ)上繼續(xù)細化和深入研究。
參 考 文 獻
[1] 趙麗梅. 科學數(shù)據(jù)共享的價值及其表征———基于主體性的分析
視角 [J]. 自然辯證法研究, 2022, 38 (5): 116-122.
[2] Hatch V. Deciphering the Data Deluge: How Large Language Mod?
els Are Transforming Scientific Data Curation [EB/ OL]. [2023-
11- 15]. https: / / www. embl. org / news/ embletc / issue - 101 / deci?
phering-the-data-deluge-how-large-language-models-are-trans?
forming-scientific-data-curation / .
[3] Azeroual O, Sch?pfel J. New Developments in Research Data Man?
agement-The Potential of AI [EB/ OL]. [2024-01-01]. https:/ /
doi.org / 10.1016/ B978-0-323-95689-5.00253-4.
[4] 豐佰恒, 杜寶貴. 大模型視域下大數(shù)據(jù)政策生態(tài)鏈研究———以
科學數(shù)據(jù)政策為例 [J]. 現(xiàn)代情報, 2024, 44 (10): 41-51.
[5] 李直旭. 大模型驅(qū)動的數(shù)據(jù)清洗與數(shù)據(jù)合規(guī)技術(shù)展望 [EB/ OL].
[2024- 07- 24]. https:/ / datascience. fudan. edu. cn / 6e / d0/ c13525
a683728 / page.htm.
[6] 張婧睿, 孫蒙鴿, 韓濤. 科研智能化趨勢下科研數(shù)據(jù)研究 [J].
科學觀察, 2023, 18 (4): 49-61.
[7] 張昊星, 趙景欣, 岳星輝, 等. 全生命周期數(shù)據(jù)安全管理和人
工智能技術(shù)的融合研究 [ J]. 信息安全研究, 2023, 9 ( 6):
543-550.
[8] Scheffler M, Aeschlimann M, Albrecht M, et al. FAIR Data En?
abling New Horizons for Materials Research [ J]. Nature, 2022,
604 (7907): 635-642.
[9] 李新, 蘇建賓. 走向數(shù)據(jù)善治: 以地球科學數(shù)據(jù)治理為例 [J].
科學通報, 2024, 69 (9): 1149-1155.
[10] 廖方宇, 李婧, 龍春, 等. 開放科學背景下科學數(shù)據(jù)開放共
享安全挑戰(zhàn)及我國對策思考 [ J]. 農(nóng)業(yè)大數(shù)據(jù)學報, 2024, 6
(2): 146-155.
[11] 閆宇晨. ChatGPT 應用背景下圖書館科研數(shù)據(jù)服務版權(quán)風險
研究 [J]. 國家圖書館學刊, 2024, 33 (3): 25-36.
[12] 劉嫻. AIGC 技術(shù)賦能學術(shù)期刊數(shù)據(jù)出版的應用研究與思考
[J]. 編輯學刊, 2024, (4): 31-37.
[13] 朝樂門, 張晨, 孫智中. 數(shù)據(jù)科學進展: 核心理論與典型實
踐 [J]. 中國圖書館學報, 2022, 48 (1): 77-93.
[14] 范淼. 人工智能與數(shù)據(jù)管理共同支撐新質(zhì)生產(chǎn)力發(fā)展 [J]. 圖
書與情報, 2024, (2): 8-11.
[15] 張智雄. 在開放科學和 AI 時代塑造新型學術(shù)交流模式 [ J].
中國科技期刊研究, 2024, 35 (5): 561-567.
[16] Blair M M. Ownership and Control: Rethinking Corporate Gov?
ernance for the Twenty -First Century [ M]. Washington, D C.:
Brookings Institute, 1995.
[17] 劉秀秀. 新時代國家治理中技術(shù)治理的雙重維度及其出路
[J]. 行政管理改革, 2019, (10): 65-70.
[18] 盛小平, 田婧, 向桂林. 科學數(shù)據(jù)開放共享中的數(shù)據(jù)質(zhì)量治
理研究 [J]. 圖書情報工作, 2020, 64 (22): 11-24.
[19] 翟軍, 李曉彤, 苗珍珍, 等. 我國開放政府數(shù)據(jù) “臟數(shù)據(jù)” 問
題研究及應對———地方政府數(shù)據(jù)平臺數(shù)據(jù)質(zhì)量調(diào)查與分析 [J].
圖書館, 2019, (1): 42-51.
[20] 劉文奇. 中國公共數(shù)據(jù)庫數(shù)據(jù)質(zhì)量控制模型體系及實證 [ J].
中國科學 (信息科學), 2014, 44 (7): 836-856.
[21] Carroll S R, Garba I, Figueroa-Rodríguez O L, et al. The CARE
Principles for Indigenous Data Governance [ J]. Data Science Jour?
nal, 2020, 19: 1-12.
[ 22] Taloni A, Scorcia V, Giannaccare G. Large Language Model Ad?
vanced Data Analysis Abuse to Create a Fake Data Set in Medical
Research [J]. JAMA Ophthalmology, 2023, 141 (12): 1174-
1175.
[23] 盛小平, 郭道勝. 科學數(shù)據(jù)開放共享中的數(shù)據(jù)安全治理研究
[J]. 圖書情報工作, 2020, 64 (22): 25-36.
[24] OpenAI (2023). GPT-4 Technical Report [R/ OL]. [2024-04-
15]. https:/ / cdn.openai.com/ papers/ gpt-4.pdf.
[25] 司莉, 邢文明. 科學數(shù)據(jù)管理與共享的理論與實踐 [M]. 武
漢: 武漢大學出版社, 2017.
[26] 周毅, 郭朗睿. 公共數(shù)據(jù)開放中隱性數(shù)據(jù)安全風險治理機制的
構(gòu)建及其實現(xiàn) [J]. 情報理論與實踐, 2024, 47 (12): 63-71.
[27] March C, Schieferdecker I. Technological Sovereignty as Ability,
Not Autarky [ J]. International Studies Review, 2023, 25 ( 2):
viad012.
[28] Vigliarolo B. Italy Bans ChatGPT for “Unlawful Collection of Per?
sonal Data” [EB/ OL]. [2023-11-02]. https: / / www.theregis?
ter.com/ 2023 / 03 / 31 / italy_bans_chatgpt_for_unlawful / .
[29] 中國法院網(wǎng). 破冰: 首例人工智能文生圖案生效———北京互聯(lián)
網(wǎng)法院探索為 “AI 文生圖” 著作權(quán)劃定邊界 [EB/ OL]. [2024-
02- 05]. https: / / www. chinacourt. org / article / detail / 2024 / 02 / id /
7796864.shtml.
[30] THALER v. PERLMUTTER, 1: 22-cv-01564, (D D C. Feb
07, 2023)ECF No 17 [EB/ OL]. [2024-07-15]. https:/ / www.
courtlistener.com/ docket / 63356475 / 17 / thaler-v-perlmutter/ .
[31] 薛瀾, 趙靜. 走向敏捷治理: 新興產(chǎn)業(yè)發(fā)展與監(jiān)管模式探究
[J]. 中國行政管理, 2019, (8): 28-34.
[32] 沈費偉. 數(shù)字鄉(xiāng)村敏捷治理的實踐邏輯與優(yōu)化路徑 [ J]. 求
實, 2022, (5): 96-108, 112.
[33] 張桂蓉, 王雨晴. 數(shù)智賦能推進敏捷化應急情報體系研究 [J].
現(xiàn)代情報, 2024, 44 (4): 3-10, 31.
[34] 朱國偉, 周妍池, 劉銀喜. 敏捷治理推動數(shù)字政府建設(shè): 發(fā)
展趨勢與實現(xiàn)路徑 [J]. 電子政務, 2024, (2): 55-64.
[35] 胡貴仁. 模糊應對、 數(shù)字賦能與敏捷治理———超大城市風險防控
的邏輯轉(zhuǎn)向及困境超越 [J]. 城市問題, 2022, (9): 87-94.
[36] 王英, 盧國強. 負責任的社會科學數(shù)據(jù)治理的內(nèi)涵、 特征與
層次 [J]. 現(xiàn)代情報, 2025, 45 (1): 124-134.
[37] 趙梓羽. 生成式人工智能數(shù)據(jù)安全風險及其應對 [ J]. 情報
資料工作, 2024, 45 (2): 30-37.
[38] 張濤. 人工智能治理中 “基于風險的方法”: 理論、 實踐與反思
[J]. 華中科技大學學報 (社會科學版), 2024, 38 (2): 66-77.
[39] 張欣. 面向產(chǎn)業(yè)鏈的治理: 人工智能生成內(nèi)容的技術(shù)機理與
治理邏輯 [J]. 行政法學研究, 2023, (6): 43-60.
[40] 王靜, 王鵬. 智慧圖書館生成式 AI 大模型風險治理機制研究
[J]. 情報雜志, 2024, 43 (8): 190-197.
(責任編輯: 郭沫含)