摘" "要:作為第五科研范式的AI4S,是科研領(lǐng)域促進新質(zhì)生產(chǎn)力發(fā)展的重要工具,其構(gòu)成要件之一是數(shù)據(jù)。AI4S大模型訓(xùn)練以數(shù)據(jù)為基礎(chǔ),更需要高質(zhì)量、多類型數(shù)據(jù)。在商業(yè)大模型利用數(shù)據(jù)日趨受限的當(dāng)下,及時關(guān)注科研大模型的數(shù)據(jù)要素供給尤為重要,加速將AI4S的新質(zhì)生產(chǎn)力從代碼中釋放出來。面向AI4S的數(shù)據(jù)要素供給是復(fù)雜的系統(tǒng)工程,價值取向應(yīng)是數(shù)據(jù)利他而不是數(shù)據(jù)利己,從而實現(xiàn)科學(xué)研究的公益目的和服務(wù)社會的賦能目標(biāo),應(yīng)根據(jù)不同類型數(shù)據(jù)選擇相應(yīng)路徑,即公共數(shù)據(jù)、企業(yè)數(shù)據(jù)、個人數(shù)據(jù)、科學(xué)數(shù)據(jù)和作品數(shù)據(jù)等宜分別選擇有條件無償、成本補償、自愿同意、互助共享和合理使用的供給路徑,同時要注意防控潛在的版權(quán)侵害、隱私公開、數(shù)據(jù)泄露和價值不齊的風(fēng)險。
關(guān)鍵詞:AI4S;人工智能;數(shù)據(jù)要素;數(shù)據(jù)供給;科學(xué)研究;風(fēng)險控制
中圖分類號:F49" "文獻標(biāo)識碼:A" "DOI:10.11968/tsyqb.1003-6938.2024035
Data Element Supply for AI4S: Value Proposition, Path Choice and Risk Control
Abstract As the fifth scientific research paradigm, AI4S is an important tool to promote the development of the new quality productive forces in the field of scientific research, and one of its components is data, which is the basis for the training of AI4S big models, and it needs high-quality and multi-type data. At a time when the utilization of data for commercial big models is becoming more and more limited, it is especially important to pay attention to the supply of data elements for scientific research big models in time, so as to accelerate the release of the new quality productive forces of AI4S from the code. The supply of data elements for AI4S is a complex systematic project, and the value orientation should be data altruism rather than data egoism, so as to realize the public welfare purpose of scientific research and the empowerment goal of serving the society, the corresponding paths should be chosen according to different types of data, i.e., the supply paths of public data, enterprise data, personal data, scientific data, and artwork data, etc. that should be chosen respectively, such as the supply paths of conditional gratuitous, cost-compensated, voluntary agreement, mutual, sharing, and fair use. And at the same time, attention should be paid to preventing and controlling the potential risks of copyright infringement, privacy disclosure, data breaches, data leakage and value alignment.
Key words AI4S; artificial intelligence; data elements; data supply; scientific research; risk control
科學(xué)技術(shù)是第一生產(chǎn)力,人工智能的成熟和應(yīng)用,促進科學(xué)技術(shù)向新質(zhì)生產(chǎn)力飛躍。人工智能發(fā)展已進入加速階段,從算法智能階段(以Alpha Go為代表)進階到語言智能階段(Chat GPT為代表),目前正在開啟科研智能階段(以Alpha Fold 為代表)。科學(xué)研究的范式隨著技術(shù)變革而不斷演進,在經(jīng)驗范式、理論范式、計算范式、數(shù)據(jù)驅(qū)動范式之后,迎來了第五范式。有學(xué)者認(rèn)為科學(xué)研究第五范式以AI技術(shù)為核心[1],有學(xué)者認(rèn)為AI for Science(簡稱為AI4S)才是科學(xué)研究第五范式[2-3],但都與AI密不可分。AI4S思想首次出現(xiàn)可追溯到2016年附近,AI4S在2020年前后正式進入人們視野,故2016年-2021年可謂是AI4S的“概念導(dǎo)入期”[4]。
新一代人工智能競爭悄然降臨,國內(nèi)外的官方或企業(yè)已開啟了AI4S布局。在國內(nèi),科技部會同自然科學(xué)基金委啟動了“人工智能驅(qū)動的科學(xué)研究(AI for Science)”專項部署工作,布局AI4S前沿科技研發(fā)體系[5];科技創(chuàng)新2030——“新一代人工智能”重大項目在第二個五年實施階段(2023年-2027年),擬研究AI for Science的新理論、新模型、新算法,發(fā)展一批針對典型科研領(lǐng)域的AI for Science專用平臺[6]。此外,2023版《科學(xué)智能(AI4S)全球發(fā)展觀察與展望》以全新的框架重新梳理AI for Science的要素、沿革、展望,并詳盡描述其在各行各業(yè)的實踐[7]。在國外,前谷歌掌門人Eric Schmidt宣布成立AI for Science博后獎學(xué)金并布局9所大學(xué),微軟宣布成立專門的AI4Science部門,英偉達聯(lián)合IIT發(fā)布AI for Science公開課程,美國能源部聯(lián)合5大國家實驗室發(fā)布AI for Science,Energy amp; Security先進科研課題指引,OECD面向全球政策制定者發(fā)布AI in Science的綜述與政策建議[4]。
當(dāng)前,AI4S已進入大規(guī)?;A(chǔ)設(shè)施建設(shè)期(2021年-2026年),帶來的是數(shù)據(jù)、算法、算力“三位一體”的計算方式變革[4]。該階段初期,AI4S已在生命科學(xué)、材料科學(xué)、能源科學(xué)、電子工程與計算機科學(xué)、地球與環(huán)境科學(xué)等領(lǐng)域取得了許多重大進展,此時應(yīng)該更加關(guān)注背后的AI。在AI三大要素的數(shù)據(jù)、算力和算法中,本文僅關(guān)注數(shù)據(jù)要素。一方面,若說數(shù)字技術(shù)是科學(xué)變革的引擎,那么數(shù)字?jǐn)?shù)據(jù)就是燃料,但許多科學(xué)學(xué)科的燃料供不應(yīng)求[8];另一方面,從2023年紐約時報因GPT-4輸出結(jié)果與其作品大量重復(fù)而把OpenAI、微軟送上被告席,到2024年巴西禁止美國Meta使用巴西用戶數(shù)據(jù)訓(xùn)練生成式AI模型,限制商業(yè)大模型利用作品數(shù)據(jù)、個人數(shù)據(jù)的趨勢已現(xiàn),有必要提前思考科研大模型的數(shù)據(jù)供給問題。AI4S數(shù)據(jù)要素問題不僅在于數(shù)據(jù)的體量、質(zhì)量、可用、復(fù)用等,更在于數(shù)據(jù)來源。鑒于此,從價值取向、路徑選擇和風(fēng)險控制三因素聚焦面向AI4S的數(shù)據(jù)要素供給,因為價值取向影響數(shù)據(jù)要素供給的路徑選擇,進而影響風(fēng)險控制。
1" "AI4S及其與數(shù)據(jù)要素的關(guān)系
1.1" " AI4S的概念認(rèn)知
AI4S是我國學(xué)者于2018年提出的新概念,目前,學(xué)界對其內(nèi)涵的認(rèn)知還處于混沌期[3]。AI4S被漢譯為“科學(xué)智能”[3,9-10],或者“人工智能驅(qū)動的科學(xué)研究”[1-2,11],后者出現(xiàn)在我國官方文件中[5]。鄂維南等科學(xué)家將“AI for Science”翻譯成“科學(xué)智能”,可作為第五科研范式定名與翻譯的借鑒,但智能化的科研不限于基礎(chǔ)科學(xué)研究,也包括技術(shù)研究和工程研究的智能化;科學(xué)技術(shù)部和國家自然科學(xué)基金委員會啟動部署的“AI for Science”專項稱為“人工智能驅(qū)動的科學(xué)研究”,但在與實驗、理論、計算機仿真、數(shù)據(jù)驅(qū)動等范式名稱放在一起時,又顯得不夠精煉[12]。AI4S漢譯為“人工智能驅(qū)動的科學(xué)研究”,更能準(zhǔn)確傳達該概念的樸素本義,能避免中文名稱過于抽象而在使用中逐漸被泛化的弊端。理解AI4S本義應(yīng)該將AI和Science作為兩個獨立的主題,兩個主題之間是靠“驅(qū)動”作為連接點形成互動關(guān)系,可通俗理解AI4S為“Science是AI的應(yīng)用場景”。
王東波等認(rèn)為,AI4S是指將人工智能技術(shù)應(yīng)用于科學(xué)研究的新興研究領(lǐng)域,通過構(gòu)建人工神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)模型,以自動化提取數(shù)據(jù)特征的方式,從大規(guī)模數(shù)據(jù)中提取關(guān)鍵特征和潛在模式,進而實現(xiàn)對數(shù)據(jù)的高效處理和深度挖掘[2];周江林認(rèn)為,AI4S就是利用AI并賦以AI如深度學(xué)習(xí)、科學(xué)計算等特殊功能來從事基礎(chǔ)研究[3];徐東波認(rèn)為,AI4S是指科研人員利用人工智能產(chǎn)品、學(xué)科、技術(shù)的智能化優(yōu)勢,促進科學(xué)研究過程加速、領(lǐng)域融合、合作深化、方法改進的復(fù)雜過程,以達到科學(xué)創(chuàng)新的目的[13];湯超從應(yīng)用、工具和原理方面闡釋了AI4S的三層含義,即把AI用于各個學(xué)科中的科研、技術(shù)創(chuàng)新、成果轉(zhuǎn)化等,利用AI來發(fā)現(xiàn)new science,AI背后有其科學(xué)原理[14]。上述代表性成果關(guān)于AI4S的認(rèn)知各有側(cè)重,或強調(diào)“以數(shù)據(jù)為基礎(chǔ)”,或強調(diào)“深度學(xué)習(xí)、科學(xué)計算等”,但共性之處在于認(rèn)同“AI在科學(xué)研究領(lǐng)域的應(yīng)用”,只不過表達不一致而已,如“將人工智能技術(shù)應(yīng)用于科學(xué)研究”“利用AI從事基礎(chǔ)研究”“AI用于各個學(xué)科中的科研”和“利用人工智能產(chǎn)品、學(xué)科、技術(shù)的智能化”。由此,可以認(rèn)為科學(xué)研究是AI4S的作用場域,考慮到科學(xué)研究的公益屬性比較強,故可將AI4S的屬性定位為公共利益。
1.2" " AI4S與數(shù)據(jù)要素的關(guān)系
簡化來看,AI4S與數(shù)據(jù)要素的關(guān)系體現(xiàn)在:其一,數(shù)據(jù)是AI4S的構(gòu)成要素,即與算法、算力共同形成了AI4S這一新的研究范式,尤其是AI4S中的AI部分離不開數(shù)據(jù)驅(qū)動;其二,AI4S能夠應(yīng)對大規(guī)模數(shù)據(jù)處理,即“AI4S不僅可以處理多維、多模態(tài)的海量數(shù)據(jù),加速科研流程,也能幫助人們發(fā)現(xiàn)新的科學(xué)規(guī)律,甚至達到之前從未也無法觸及的新領(lǐng)域”[3]。
首先,AI4S的大模型訓(xùn)練需要以數(shù)據(jù)為基礎(chǔ)。在經(jīng)驗范式、理論范式、計算范式的科學(xué)研究中,涉及的數(shù)據(jù)相對于數(shù)據(jù)驅(qū)動范式都是小規(guī)模數(shù)據(jù)。無論是自然科學(xué),還是人文社會科學(xué),數(shù)據(jù)成為基礎(chǔ)研究的重要生產(chǎn)工具,這也是AI4S最具優(yōu)勢之處[3]。數(shù)據(jù)作為大模型訓(xùn)練的原始語料,是AI4S形成的起點。AI通過輸入的大規(guī)模數(shù)據(jù)語料,從中學(xué)習(xí)規(guī)律和方法。如AlphaFold2需要同時使用帶標(biāo)簽和未帶標(biāo)簽的數(shù)據(jù)進行網(wǎng)絡(luò)訓(xùn)練,包括序列數(shù)據(jù)集和結(jié)構(gòu)數(shù)據(jù)集[1]。尤其是,深度學(xué)習(xí)依賴神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu),需要通過足夠的數(shù)據(jù)迭代訓(xùn)練才可以實現(xiàn)。
其次,AI4S的大模型訓(xùn)練需要高質(zhì)量數(shù)據(jù)。數(shù)據(jù)質(zhì)量直接影響AI的性能與結(jié)果,“AI4S功能發(fā)揮或智力水平的高低一定程度上取決于數(shù)據(jù)質(zhì)量的高低”[3],提升AI4S模型精度需要海量數(shù)據(jù)。高質(zhì)量數(shù)據(jù)能夠訓(xùn)練出更準(zhǔn)確的大模型,若數(shù)據(jù)存在噪聲或偏差,可能會導(dǎo)致大模型在應(yīng)用中出現(xiàn)誤判或偏見,最終影響輸出結(jié)果的可靠性和有效性。盡管人工智能領(lǐng)域獲取數(shù)據(jù)的門檻簡單了許多,但是高質(zhì)量數(shù)據(jù)集仍較為缺乏。大模型發(fā)展到一定階段之后,算法和算力在短時期內(nèi)很難有突破性變革,競爭的焦點在于高質(zhì)量數(shù)據(jù)。一般性的數(shù)據(jù)訓(xùn)練完成后,提升大模型精度就嚴(yán)重依賴高質(zhì)量數(shù)據(jù)集。雖然已有部分通用領(lǐng)域建立并開放或共性了數(shù)據(jù)集,但是科學(xué)研究的細分領(lǐng)域可用的高質(zhì)量數(shù)據(jù)集仍然匱乏。
再次,AI4S的大模型訓(xùn)練依賴多類型數(shù)據(jù)。訓(xùn)練數(shù)據(jù)的多樣性有利于提升模型應(yīng)對“未知”的能力,根據(jù)不同的分類標(biāo)準(zhǔn),可以將AI4S所需數(shù)據(jù)劃分為不同類型。如按照來源標(biāo)準(zhǔn),AI4S的常見類型包括觀測數(shù)據(jù)、實驗數(shù)據(jù)、記錄數(shù)據(jù)、調(diào)查數(shù)據(jù)、模擬數(shù)據(jù)等,每種類型的數(shù)據(jù)都有其獨特的應(yīng)用領(lǐng)域和獲取方式,綜合利用這些數(shù)據(jù)對于科學(xué)研究有著重要的意義[4]。AI4S需要多少類型的數(shù)據(jù),當(dāng)前的研究成果尚未達成共識。如構(gòu)建AI4S知識底座框架需要的領(lǐng)域原始知識資源包括科研論文、科研專利、科技圖書、預(yù)印本、基金項目、科技政策、科技輿情、編輯動態(tài)、科技人才、科研機構(gòu)等,而科學(xué)數(shù)據(jù)有效聚合為發(fā)揮AI4S的強大功能奠定了數(shù)據(jù)基礎(chǔ)[2];再如,通過收集政府?dāng)?shù)據(jù)、公開數(shù)據(jù)、實驗數(shù)據(jù)、調(diào)查數(shù)據(jù)等同質(zhì)異構(gòu)的海量數(shù)據(jù),努力構(gòu)建相應(yīng)的高質(zhì)量數(shù)據(jù)庫,為充分發(fā)揮AI4S的強大功能奠定數(shù)據(jù)基礎(chǔ)[3]。
綜上,以數(shù)據(jù)為基礎(chǔ)是AI4S的本體要求??蒲蓄I(lǐng)域涉及的數(shù)據(jù)類型繁、體量大,使用專門模型比通用大模型更為有效,如AlphaFold、DeePMD等都是以特定領(lǐng)域知識模型為基礎(chǔ),這就對數(shù)據(jù)要素供給提出了類型化要求。高質(zhì)量數(shù)據(jù)意味著加工數(shù)據(jù),可關(guān)聯(lián)到企業(yè)數(shù)據(jù)。在現(xiàn)有研究成果的數(shù)據(jù)分類基礎(chǔ)上,可歸納以下典型數(shù)據(jù)類型:其一,基于科研論文、科技圖書、預(yù)印本等可以概括出作品數(shù)據(jù);其二,基于觀測數(shù)據(jù)、試驗數(shù)據(jù)、記錄數(shù)據(jù)、調(diào)查數(shù)據(jù)等可概括出科學(xué)數(shù)據(jù);其三,基于科技輿情、編輯動態(tài)、科技政策、科技人才、科研機構(gòu)、科研專利、基金項目等概括出公共數(shù)據(jù)。按照是否能夠識別到特定自然人,前述數(shù)據(jù)還可劃分個人數(shù)據(jù)和非個人數(shù)據(jù)。
2" "面向AI4S數(shù)據(jù)要素供給的價值取向
2.1" " 數(shù)據(jù)利己:私益與變現(xiàn)之否定
個人數(shù)據(jù)因為其“識別特定主體的身份”,天然地荷載了人格利益,即自帶私益屬性。即便是非個人數(shù)據(jù),其私益屬性也在商業(yè)市場中逐步加強。數(shù)據(jù)定位為生產(chǎn)要素之后,其生產(chǎn)價值和商業(yè)價值就愈發(fā)凸顯出來。雖然商業(yè)主體一直立足公益立場呼吁政府?dāng)?shù)據(jù)開放、公共數(shù)據(jù)開放,但是數(shù)據(jù)市場中的商業(yè)行為卻日益增強了數(shù)據(jù)的私益屬性。不同主體面對數(shù)據(jù)時,似乎天然地存在一種利己心態(tài)。這種“利己”是中性的,并非“精致利己”意義上的。雖然“數(shù)據(jù)利己”的概念尚未正式見諸于既有研究成果,可以從個人和企業(yè)等主體涉及數(shù)據(jù)的主張中加以洞察。
數(shù)據(jù)利己的表現(xiàn)之一是“不受損”。數(shù)據(jù)作為一種私益,本來就應(yīng)該得到保護,不能放任數(shù)據(jù)及其相關(guān)利益受侵害。對于個人而言,首先是考慮隱私安全和數(shù)據(jù)安全。大數(shù)據(jù)的“身份悖論”與生俱來,即大數(shù)據(jù)試圖以犧牲個人和集體身份為代價進行識別[15]。從互聯(lián)網(wǎng)環(huán)境中的隱私安全,到數(shù)字時代的數(shù)據(jù)安全,人們出現(xiàn)此類擔(dān)憂的邏輯起點是“不受損”,即不能因為隱私在網(wǎng)絡(luò)空間的快速傳播而擾亂生活安寧,不能因為數(shù)據(jù)的泄露、濫用等而侵?jǐn)_隱私安全、財產(chǎn)安全以及人身安全等。對于企業(yè)而言,優(yōu)先考慮的是競爭優(yōu)勢。企業(yè)在商業(yè)活動中收集和存儲多模態(tài)、大規(guī)模數(shù)據(jù)而形成的競爭優(yōu)勢應(yīng)得到維持,慣用做法采用技術(shù)措施、用戶協(xié)議等自力救濟手段,將這些數(shù)據(jù)資源保護起來,甚至以安全為由不對外提供,盡可能排除競爭對手獲得這些數(shù)據(jù)而削減其競爭優(yōu)勢。
數(shù)據(jù)利己的表現(xiàn)之二是“能受益”。數(shù)據(jù)既然是一種私益,那么讓渡該私益就應(yīng)該獲得另一種私益,如此才能保證私益的持續(xù)。對于個人而言,開始考慮將個人的數(shù)據(jù)交易出去,由此獲得相應(yīng)的對價(變現(xiàn))。如美國的Personal.com公司推出“數(shù)據(jù)倉(Data Vault)”,便于用戶將個人數(shù)據(jù)的使用權(quán)賣給商業(yè)機構(gòu),國內(nèi)的Ufile Chain2019年就開始探索數(shù)據(jù)作為數(shù)字資產(chǎn)回歸用戶本人并實現(xiàn)收益。對于企業(yè)而言,自己的數(shù)據(jù)皆有對價,在確保數(shù)據(jù)競爭優(yōu)勢的前提下,通過開放API接口為其他商業(yè)主體提供數(shù)字服務(wù)(很少有直接交易數(shù)據(jù)本體)從而獲得相應(yīng)的對價,已是成熟的數(shù)據(jù)交易商業(yè)實踐。若因?qū)Ψ皆诖诉^程擅自存儲所提供的數(shù)據(jù),往往是通過司法獲得救濟。
在“不受損”的價值驅(qū)使下,追求的是數(shù)據(jù)安全,最好的方式就是保護起來,但易導(dǎo)致數(shù)據(jù)的流動性降低,數(shù)據(jù)無法得到有效利用和價值釋放。在“能受益”的價值驅(qū)使下,追求的是數(shù)據(jù)對價,最好的方式就是交易,數(shù)據(jù)流動性倒是得到極大改善,但易導(dǎo)致數(shù)據(jù)獲取成本極大增加。以數(shù)據(jù)為基礎(chǔ)的AI4S,需要質(zhì)高多樣的海量數(shù)據(jù)。若數(shù)據(jù)流動性差,則從根本上難以獲得前述數(shù)據(jù);若獲取成本高,則在經(jīng)費有限情況下,難以獲得足夠的高質(zhì)量數(shù)據(jù)。與商業(yè)活動(包括商業(yè)目的驅(qū)動的科學(xué)研究)的成本可以轉(zhuǎn)嫁到消費端不一樣,以公共利益為目標(biāo)的科學(xué)研究不宜也難以轉(zhuǎn)嫁數(shù)據(jù)成本。公益性質(zhì)的科學(xué)研究,其成果具有公共產(chǎn)品屬性,成果受益群體并非特定主體,而是廣大公眾,公眾在享受AI4S帶來的科技惠民成果時也沒有額外付出相應(yīng)對價??傮w而言,AI4S的價值取向不宜是數(shù)據(jù)利己,中性的“不受損”和“能受益”指向的數(shù)據(jù)變現(xiàn)會最終催生“數(shù)據(jù)重商主義”,由此導(dǎo)致“數(shù)據(jù)壟斷”而限制科研主體獲得數(shù)據(jù)的機會,而且數(shù)據(jù)交易可能會導(dǎo)致數(shù)據(jù)碎片化而降低科學(xué)研究的效用和價值。
2.2" " 數(shù)據(jù)利他:公益與賦能之肯定
《歐洲數(shù)據(jù)戰(zhàn)略》(European Strategy for Data)提出了“數(shù)據(jù)利他”(Data Altruism),其大意是“在符合GDPR規(guī)定之下,若個人愿意,應(yīng)該讓‘個人允許將其產(chǎn)生的數(shù)據(jù)用于公共利益’變得更加容易(數(shù)據(jù)利他)”[16]。后來,歐洲《數(shù)據(jù)治理法》(Data Governance Act)第二條明確界定了數(shù)據(jù)利他的定義,是指在數(shù)據(jù)主體同意處理與其相關(guān)的個人數(shù)據(jù)基礎(chǔ)上自愿共享數(shù)據(jù),或數(shù)據(jù)持有者允許使用其非個人數(shù)據(jù)而不尋求或接受超出與其為國家法律規(guī)定的普遍利益目的而提供其數(shù)據(jù)所產(chǎn)生成本的相關(guān)補償回報,適用情形包括醫(yī)療保健、應(yīng)對氣候變化、改善流動性、促進官方統(tǒng)計數(shù)據(jù)的開發(fā)生產(chǎn)和傳播,以及改善公共服務(wù)供給、公共政策制定或符合公共利益的科學(xué)研究目的[17]。
理解數(shù)據(jù)利他的要點在于:其一,本質(zhì)目的是公共利益,意味著不得將數(shù)據(jù)用于公益目的之外的其他目的;其二,數(shù)據(jù)利他的數(shù)據(jù)類型包括個人數(shù)據(jù)和非個人數(shù)據(jù),意味著所有的數(shù)據(jù)都可以納入到利他范疇;其三,數(shù)據(jù)利他的主體是數(shù)據(jù)主體和數(shù)據(jù)持有者,分別是個人數(shù)據(jù)和非個人數(shù)據(jù)的權(quán)利主體;其四,表現(xiàn)形式包括自愿共享個人數(shù)據(jù)和無償允許使用非個人數(shù)據(jù),“無償”可以不要求對價,但也并不禁止對價,只不過將對價限制在不超過按照法律規(guī)定提供數(shù)據(jù)所產(chǎn)生的成本;其五,適用場景包括醫(yī)療保健、應(yīng)對氣候變化和促進官方統(tǒng)計,以及改善流動性、公共服務(wù)供給、公共政策制定、科學(xué)研究。
在“數(shù)據(jù)利他”還不是完整概念時,“利他主義”就已經(jīng)出現(xiàn)在生物數(shù)據(jù)庫的建設(shè)之中——“信任公眾提供他們的個人數(shù)據(jù),信任收集數(shù)據(jù)者安全可靠地處理數(shù)據(jù),以便在未來幾十年內(nèi)將其用于公共利益”[18]。數(shù)據(jù)利他應(yīng)該成為AI4S領(lǐng)域的基本價值觀念,從數(shù)據(jù)利他基本要義來看,AI4S與之是相符的。在利他價值的內(nèi)在驅(qū)動下,激勵個人和企業(yè)有更強意愿為公共利益提供數(shù)據(jù)。如美國醫(yī)學(xué)研究所調(diào)研發(fā)現(xiàn),美國94%有健康狀況的社交媒體成年用戶同意使用匿名共享的健康數(shù)據(jù)來幫助臨床醫(yī)生改善護理,這種將臨床數(shù)據(jù)視為共享資源的利他主義愿景是衛(wèi)生系統(tǒng)實現(xiàn)持續(xù)改進的重要基石[19]。不僅如此,暢通人們利用APP等軟硬件設(shè)備共享其收集的道路數(shù)據(jù)、交通數(shù)據(jù),可以為道路狀況和實況交通提供重要信息,有助于研究人員據(jù)此改善交通安全方案。
因此,在AI4S場景中,應(yīng)該有更多的數(shù)據(jù)被用于利他目的,在這種價值取向之下,有助于低成本地促進足夠規(guī)模的數(shù)據(jù)池形成,實現(xiàn)科學(xué)研究的機器學(xué)習(xí)和數(shù)據(jù)分析。數(shù)據(jù)利他能夠從整體上提升數(shù)據(jù)要素的使用效率,實現(xiàn)數(shù)據(jù)要素賦能科學(xué)研究的效應(yīng)最大化,而科學(xué)研究成果又能增進社會總福祉。在利他共贏的數(shù)字生態(tài)中,個人、企業(yè)和政府等利益相關(guān)者都將共同受益。如復(fù)旦大學(xué)自然語言處理實驗室設(shè)計的“眸思”多模態(tài)大模型用于輔助視障人士,視障人士只需用手機拍張照片,“眸思”就能準(zhǔn)確描述出周圍的環(huán)境。在該AI4S的生態(tài)價值鏈條中,視障人士獲得更為便捷的生存體驗、企業(yè)開發(fā)新商業(yè)產(chǎn)品成為可能,而政府的產(chǎn)學(xué)研效益大幅提升。
3" "面向AI4S數(shù)據(jù)要素供給的路徑選擇
“數(shù)據(jù)二十條”將數(shù)據(jù)劃分為公共數(shù)據(jù)、企業(yè)數(shù)據(jù)和個人數(shù)據(jù)三大類,但是AI4S所需數(shù)據(jù)類型不止于此。面向AI4S的數(shù)據(jù)要素,還涉及科學(xué)數(shù)據(jù)和作品數(shù)據(jù)等不同類型,在數(shù)據(jù)利他價值取向下,數(shù)據(jù)要素供給路徑可以是有條件無償、成本補償、自愿同意、互助共享或合理使用,以促進數(shù)據(jù)利他(科學(xué)研究)的實現(xiàn)。若不在數(shù)據(jù)利他價值約束下,諸如企業(yè)數(shù)據(jù)、個人數(shù)據(jù)、作品數(shù)據(jù)等,可通過交易對外供給。
3.1" " 公共數(shù)據(jù)的供給路徑:有條件無償
作為中央政策的“數(shù)據(jù)二十條”所界定的公共數(shù)據(jù)是指“對各級黨政機關(guān)、企事業(yè)單位依法履職或提供公共服務(wù)過程中產(chǎn)生的公共數(shù)據(jù)”,有學(xué)者認(rèn)為“公共數(shù)據(jù)是指與社會民生相關(guān)的、從社會生活中搜集的以社會大眾為對象的數(shù)據(jù)”[20]。關(guān)于公共數(shù)據(jù)的理解,不同的定義側(cè)重點有所不同,但共性之處在于“公共屬性”。公共數(shù)據(jù)具有直接“取之于民”的公眾基因,因此“用之于民”的正當(dāng)性不言而喻。在大多數(shù)國家,數(shù)據(jù)開放運動已經(jīng)取得了實質(zhì)性的成效,“開放”已經(jīng)成為公共數(shù)據(jù)的“底色”?!皵?shù)據(jù)二十條”將公共數(shù)據(jù)開放分為三類,第一類就是“用于公共治理、公益事業(yè)的公共數(shù)據(jù)有條件無償使用”。
AI4S具有公共利益屬性,符合服務(wù)于“公益事業(yè)”范疇,應(yīng)當(dāng)“無償”使用,但應(yīng)符合相應(yīng)“條件”。對于面向市場主體和AI4S供給公共數(shù)據(jù),“無償”是對等的。與“無條件開放”不同,“有條件”是基于安全等考慮,而不是基于“對價”的考慮。不能因為AI4S的公共利益屬性,就無條件開放公共數(shù)據(jù),而導(dǎo)致國家安全、社會穩(wěn)定等風(fēng)險。尤其涉及秘密的公共數(shù)據(jù),應(yīng)禁止原始公共數(shù)據(jù)直接進入市場,若對科學(xué)研究又至關(guān)重要,此時“有條件”就顯得尤為必要,如科研機構(gòu)應(yīng)當(dāng)確保提供充分的數(shù)據(jù)安全保護,科研人員應(yīng)簽署保密協(xié)議。如此,保障公共數(shù)據(jù)在釋放公共利益價值時,以免將其他公共利益置于風(fēng)險之中。
3.2" " 企業(yè)數(shù)據(jù)的供給路徑:成本補償
企業(yè)數(shù)據(jù)的內(nèi)涵尚未達成共識,大致可從三個維度理解。其一,與企業(yè)自身相關(guān)的數(shù)據(jù),包括企業(yè)聯(lián)系方式、企業(yè)域名、企業(yè)商標(biāo)、企業(yè)研究成果、經(jīng)營范圍、所在地址等;其二,企業(yè)合法持有的數(shù)據(jù),包括得到明示授權(quán)或默示許可而合法收集的原始數(shù)據(jù),及經(jīng)過其加工后的衍生數(shù)據(jù);[21]其三,企業(yè)生產(chǎn)經(jīng)營活動中產(chǎn)生的數(shù)據(jù),是指企業(yè)在研發(fā)、生產(chǎn)、銷售、提供服務(wù)等各類生產(chǎn)經(jīng)營活動過程中產(chǎn)生的數(shù)據(jù)[22]。第一個維度的企業(yè)數(shù)據(jù)主要是用于識別企業(yè)“身份”或經(jīng)營信息,第二個維度和第三個維度的企業(yè)數(shù)據(jù)具有科研價值,可理解為“企業(yè)產(chǎn)生或合法持有的數(shù)據(jù)”。
無論是經(jīng)營活動中產(chǎn)生的數(shù)據(jù),還是合法收集的原始數(shù)據(jù)或加工的衍生數(shù)據(jù),尤其是形成高質(zhì)量、高價值的通用或?qū)S脭?shù)據(jù)集,企業(yè)在這個過程中要付出較大的成本。從企業(yè)的社會責(zé)任出發(fā),不能按照商業(yè)邏輯對待AI4S所需的企業(yè)數(shù)據(jù),但應(yīng)該允許企業(yè)獲得不高于數(shù)據(jù)成本的補償。同時,AI4S機構(gòu)及其人員不能將獲得的企業(yè)數(shù)據(jù)用于科學(xué)研究之外的其他目的,確保不影響企業(yè)能夠在持有或交易該數(shù)據(jù)之后仍保持市場優(yōu)勢地位,以免降低供給企業(yè)數(shù)據(jù)的積極性。畢竟,“在許多根本不存在巨型數(shù)據(jù)集的行業(yè)中,重點必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)”[23],而這些優(yōu)質(zhì)數(shù)據(jù)離不開企業(yè)數(shù)據(jù)的供給。
3.3" " 個人數(shù)據(jù)的供給路徑:自愿同意
當(dāng)前社會生產(chǎn)生活和商業(yè)邏輯中,個人數(shù)據(jù)蘊含的價值無疑最大,成為眾多主體謀取的對象,也是公共數(shù)據(jù)、企業(yè)數(shù)據(jù)等諸多類型數(shù)據(jù)的底層來源之一,如個人健康數(shù)據(jù)和醫(yī)療數(shù)據(jù)是公共衛(wèi)生數(shù)據(jù)的基礎(chǔ)組成?;趥€人數(shù)據(jù)匿名化、假名化或去標(biāo)識化等形成的非個人數(shù)據(jù),前提是獲得個人同意,否則就缺乏正當(dāng)性基礎(chǔ)。個人數(shù)據(jù)處理由個人自決,其正當(dāng)性基礎(chǔ)源于個人數(shù)據(jù)天然荷載人格要素,而不是個人數(shù)據(jù)的產(chǎn)生需要成本。因為數(shù)據(jù)具有產(chǎn)生即時性,即用戶在網(wǎng)絡(luò)空間瀏覽、支付等行為會附隨產(chǎn)生數(shù)據(jù),過程是客觀、被動且不以人的主觀意志為轉(zhuǎn)移,產(chǎn)生個人數(shù)據(jù)不需要額外成本,而個人數(shù)據(jù)收集和存儲的成本由事實上的控制者——企業(yè)擔(dān)負。
科學(xué)研究活動中,個人數(shù)據(jù)因其主體的特殊性,成為醫(yī)藥、生物等科學(xué)研究不可或缺的數(shù)據(jù)供給來源之一。國內(nèi)立法共識是,“同意”是其他主體處理(包括采集、存儲、加工、分析等)個人數(shù)據(jù)的正當(dāng)性基礎(chǔ)。因此,面向AI4S供給個人數(shù)據(jù)時,同樣要以個人自愿同意為前提。在數(shù)據(jù)利他價值驅(qū)動下,“同意”科學(xué)研究主體處理個人數(shù)據(jù)應(yīng)該是“無償”的。當(dāng)個人數(shù)據(jù)被吸收在企業(yè)數(shù)據(jù)、公共數(shù)據(jù)之中,分別遵循有條件無償和成本補償供給路徑。
3.4" " 科學(xué)數(shù)據(jù)的供給路徑:互助共享
科學(xué)數(shù)據(jù)的認(rèn)知基本上達成共識,一般是指在科學(xué)領(lǐng)域通過基礎(chǔ)研究、應(yīng)用研究、試驗開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測監(jiān)測、考察調(diào)查、檢驗檢測等方式取得并用于科學(xué)研究活動的原始數(shù)據(jù)及其衍生數(shù)據(jù)?,F(xiàn)下,科學(xué)研究已不再只是學(xué)界專有活動,其也經(jīng)常和商業(yè)交織在一起,受到商業(yè)資金資助的科研活動也不在少數(shù)。商業(yè)資金資助形成的科學(xué)數(shù)據(jù)應(yīng)該歸入到企業(yè)數(shù)據(jù),在此僅討論由政府預(yù)算資金支持形成的科學(xué)數(shù)據(jù)。在科學(xué)數(shù)據(jù)領(lǐng)域,F(xiàn)AIR原則旨在促進科學(xué)數(shù)據(jù)的規(guī)范組織和共享重用[24],共享模式是科學(xué)數(shù)據(jù)共享活動中逐步形成并適應(yīng)當(dāng)前共享工作需要的普遍范式[25]。
科學(xué)數(shù)據(jù)的形成離不開政府預(yù)算資金的支持,而政府預(yù)算資金來源于“取之于民”的相關(guān)稅費,因此科學(xué)數(shù)據(jù)共享具有正當(dāng)性基礎(chǔ)。AI4S所需大規(guī)模數(shù)據(jù)可能要成百上千科研團隊匯集數(shù)據(jù),從科學(xué)研究共同體而言,科學(xué)數(shù)據(jù)共享的本質(zhì)是互助。盡管我國《科學(xué)數(shù)據(jù)管理條例》支持科研人員整理發(fā)表產(chǎn)權(quán)清晰、準(zhǔn)確完整、共享價值高的科學(xué)數(shù)據(jù),但在面向AI4S時應(yīng)該主動放棄產(chǎn)權(quán)交易的“對價”,采取共享方式實現(xiàn)互助。畢竟相比于數(shù)據(jù)開放,科學(xué)數(shù)據(jù)共享并不是面向社會公眾,而是在特定的群體之內(nèi)。
3.5" " 作品數(shù)據(jù)的供給路徑:合理使用
盡管作品是知識產(chǎn)權(quán)的重要客體之一,但知識產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)和作品數(shù)據(jù)不是一回事。《知識產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)利用指引》所列明的知識產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)主要是國家知識產(chǎn)權(quán)局公開公布的專利數(shù)據(jù)、商標(biāo)數(shù)據(jù)、地理標(biāo)志數(shù)據(jù)和集成電路布圖設(shè)計數(shù)據(jù)[26],不包括作品數(shù)據(jù)。知識產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)不涉及在先權(quán)利,屬于財政支出事務(wù)所形成的基礎(chǔ)數(shù)據(jù),可列入公共數(shù)據(jù)范疇。因作品超出版權(quán)保護期就進入共有領(lǐng)域,故作品數(shù)據(jù)僅指處于版權(quán)保護期內(nèi)的數(shù)字化作品和作品數(shù)字化所形成的數(shù)據(jù)。作品數(shù)據(jù)本質(zhì)上仍荷載版權(quán)法益,因此即便是數(shù)據(jù)形態(tài),仍受到版權(quán)法約束。
不能為保護版權(quán)人利益,而給科學(xué)研究戴上“鐐銬”,版權(quán)法為“科學(xué)研究”之目的供“科研人員使用”設(shè)置了合理使用制度。AI4S中AI的訓(xùn)練和使用分別符合“科學(xué)研究”之目的、“科研人員使用”之方式。因此,面向AI4S選擇合理使用路徑來供給作品數(shù)據(jù)可行。在“人文社會科學(xué)中的基礎(chǔ)研究因尚未積累AI4S可依托的大數(shù)據(jù)而導(dǎo)致目前AI4S涉及不多”[3]的當(dāng)下,選擇合理使用路徑有助于推進人文社會科學(xué)基礎(chǔ)數(shù)據(jù)設(shè)施建設(shè)。合理使用不需要權(quán)利人同意,也不要支付報酬,能夠提升效率和降低成本。
4" "面向AI4S數(shù)據(jù)要素供給的風(fēng)險控制
4.1" " 版權(quán)侵害風(fēng)險及其控制
AI4S所需高質(zhì)量數(shù)據(jù)的重要來源之一是具有獨創(chuàng)性且凝結(jié)人類智力成果的作品數(shù)據(jù),其對于人文社會科學(xué)領(lǐng)域的AI4S尤為重要。合理使用路徑能解決科學(xué)研究主體為作品數(shù)據(jù)向版權(quán)人征求同意和支付報酬的成本問題,但是仍然存在版權(quán)侵害風(fēng)險。契合AI4S使用作品數(shù)據(jù)的合理使用規(guī)則是“為了科學(xué)研究翻譯或者少量復(fù)制已經(jīng)發(fā)表的作品,供教學(xué)或者科研人員使用,但不得出版發(fā)行”,實質(zhì)上是以輸入端“少量復(fù)制”來限制作品表達性使用,同時以輸出端“不得出版發(fā)行”來約束結(jié)果相似。故,應(yīng)從此處切入進行風(fēng)險控制。
合理使用應(yīng)用到AI4S數(shù)據(jù)要素供給的輸入端時,與創(chuàng)作者主觀能動地進行表達性使用不同,AI大模型“復(fù)制”作品數(shù)據(jù)并進行機器學(xué)習(xí)等行為似乎屬于數(shù)據(jù)客觀輸入的非表達性使用。若能將“復(fù)制”理解為非表達性使用,就不存在侵害版權(quán)風(fēng)險,自然就不需要啟動“合理使用”規(guī)則。實則不然,這種理解尚未法定,應(yīng)立足法律規(guī)定的合理使用情形來控制版權(quán)侵害風(fēng)險。其一,“少量”應(yīng)做相對理解。如何認(rèn)定合理使用規(guī)則中“少量復(fù)制”的“少量”,決定了行為是否侵犯版權(quán)。AI4S大模型訓(xùn)練所需的數(shù)據(jù)是“海量的”,若按照傳統(tǒng)使用作品場景理解為“絕對少量”,AI4S大模型使用作品數(shù)據(jù)難以規(guī)避版權(quán)侵害風(fēng)險。應(yīng)確立“相對少量”標(biāo)準(zhǔn),依據(jù)AI4S大模型訓(xùn)練所用的作品數(shù)據(jù)在整個訓(xùn)練數(shù)據(jù)集中的比例進行判斷,如此確保AI4S大模型能在訓(xùn)練階段避免版權(quán)風(fēng)險。其二,基于作品數(shù)據(jù)訓(xùn)練所形成的“那部分”——作為AI4S大模型的內(nèi)部構(gòu)成,而不是輸出端的“產(chǎn)物”——并不觸發(fā)“不得出版發(fā)行”,不能據(jù)此限制訓(xùn)練出來的AI4S大模型本身對外發(fā)布和使用。
4.2" " 隱私公開風(fēng)險及其控制
一般而言,因數(shù)據(jù)要素供給涉及的人格法益侵害主要體現(xiàn)在個人信息和隱私,但在AI4S場景中不存在個人信息侵害風(fēng)險,而是存在隱私公開風(fēng)險。在數(shù)字場域中,個人數(shù)據(jù)荷載個人信息和隱私時,其個人信息法益通過“自愿同意”路徑對外供給,但是并不意味著放棄隱私。隱私公開風(fēng)險自大數(shù)據(jù)時代以來就飽受爭議,在大模型時代又被進一步放大,“在醫(yī)學(xué)領(lǐng)域,數(shù)據(jù)的敏感性和隱私問題尤為重要”[2]。面向AI4S的數(shù)據(jù)要素供給潛在的隱私公開風(fēng)險,主要體現(xiàn)在“直接公開”和“關(guān)聯(lián)公開”。一方面,在大規(guī)模使用個人數(shù)據(jù)進行AI訓(xùn)練時,未對個人數(shù)據(jù)脫敏,或者對個人數(shù)據(jù)清洗出現(xiàn)紕漏、瑕疵等而致使隱名化和匿名化不徹底,進而在輸出結(jié)果中出現(xiàn)個人隱私或者其碎片化殘留;另一方面,完成了隱名化和匿名化的個人數(shù)據(jù),仍面臨來自外部數(shù)據(jù)關(guān)聯(lián)重建而導(dǎo)致隱私公開的風(fēng)險。
控制AI4S的隱私公開風(fēng)險,除了規(guī)則層面應(yīng)根據(jù)數(shù)據(jù)的類型、數(shù)量和所涉隱私關(guān)聯(lián)度和重要性設(shè)置隱私保護的等級要求以外,更重要的是運用差分隱私機制控制個人數(shù)據(jù)利用中的隱私泄露風(fēng)險。通過添加和調(diào)整擬用數(shù)據(jù)中的噪聲量——根據(jù)個人數(shù)據(jù)敏感程度添加和調(diào)整不同量的噪聲數(shù)據(jù)——進而在保護數(shù)據(jù)荷載的隱私的同時,保持?jǐn)?shù)據(jù)的可用性。如此一來,既不影響模型訓(xùn)練結(jié)果,又能防控隱私公開風(fēng)險。但需注意干擾噪聲的頻率和尺度,實現(xiàn)隱私保護和科學(xué)研究之間的平衡。
4.3" " 數(shù)據(jù)泄露風(fēng)險及其控制
當(dāng)大規(guī)模數(shù)據(jù)匯聚時,數(shù)據(jù)泄露(Data Breaches)是不可回避的風(fēng)險。作為AI4S構(gòu)成要素的數(shù)據(jù)往往是大體量、多類型的,同樣面臨著泄露的風(fēng)險。數(shù)據(jù)泄露風(fēng)險不僅是因數(shù)據(jù)匯交、處理和存儲等環(huán)節(jié)操作不當(dāng)或疏忽大意而引發(fā),也可能是源自于惡意泄露或安全漏洞,還可能因外界攻擊而導(dǎo)致。與前述情景的數(shù)據(jù)泄露(Data Breaches)不一樣,機器學(xué)習(xí)本身所帶來的數(shù)據(jù)泄露(Data Leakage)是指當(dāng)訓(xùn)練數(shù)據(jù)處理和驗證數(shù)據(jù)不合理時,會導(dǎo)致模型用于實際輔助決策時非常不準(zhǔn)確。在中文語境下,區(qū)分Data Breaches和Data Leakage,可分別稱之為DB型數(shù)據(jù)泄露和DL型數(shù)據(jù)泄露,各自帶給AI4S的風(fēng)險點不同,前者帶來的風(fēng)險點在于因數(shù)據(jù)本身泄露導(dǎo)致其荷載的個人信息、隱私、秘密、價值等外溢,而后者帶來的風(fēng)險點在于因數(shù)據(jù)紕漏而導(dǎo)致預(yù)測結(jié)果的因果關(guān)系顛倒,因而各自的風(fēng)險控制也不一樣。
從事故致因理論的不同學(xué)說中歸納出的人的因素、物的因素、環(huán)境的因素的一般性原理來看[27],DB型數(shù)據(jù)泄露風(fēng)險控制主要從人的致因和環(huán)境致因切入,而DL型數(shù)據(jù)泄露風(fēng)險控制則重點從人的致因展開,二者之所以沒有從物的致因入手,是因為物的致因風(fēng)險在于數(shù)據(jù)丟失。對于DB型數(shù)據(jù)泄露風(fēng)險,一方面加強或規(guī)范科研人員及其相關(guān)人員的安全意識、操作規(guī)程、管理行為,另一方面補強涉及數(shù)據(jù)的技術(shù)漏洞、軟件安全能力,并建立數(shù)據(jù)可信共享流通體系;對于DL型數(shù)據(jù)泄露風(fēng)險,要嚴(yán)格拆分和使用訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集且不能夠交叉使用,還要注意確保遷移學(xué)習(xí)時的源域(訓(xùn)練數(shù)據(jù)集和驗證數(shù)據(jù)集)和目標(biāo)域(測試數(shù)據(jù)集)不重合。
4.4" " 價值不齊風(fēng)險及其控制
人工智能與自然人的價值對齊有價值觀的認(rèn)同、目標(biāo)的一致、倫理與法律的規(guī)范三方面的核心要求[28],這也是風(fēng)險表現(xiàn)之處,即偏離人類價值觀風(fēng)險、欺騙人類風(fēng)險和違反法律和倫理風(fēng)險。大模型價值對齊風(fēng)險的成因來源于數(shù)據(jù)源、模型訓(xùn)練過程、推理等因素,其中數(shù)據(jù)源又包含數(shù)據(jù)缺陷和數(shù)據(jù)捕獲知識利用率低兩方面原因[29]。價值對齊是AI領(lǐng)域的一般性問題,同樣也存在AI4S領(lǐng)域之中,就AI4S的數(shù)據(jù)要素供給端而言,風(fēng)險來源在于數(shù)據(jù)源。數(shù)據(jù)缺陷細分為錯誤虛假數(shù)據(jù)和偏見性數(shù)據(jù),數(shù)據(jù)捕獲知識利用率低指向注意力機制不足的長尾分布等數(shù)據(jù)從事實到知識層面的吸收和轉(zhuǎn)化問題。
在AI4S的數(shù)據(jù)供給場景中,數(shù)據(jù)缺陷可以通過規(guī)范數(shù)據(jù)輸入、共享機制來避免科研人員因為客觀失誤和主觀故意將事實錯誤數(shù)據(jù)、過時數(shù)據(jù)、虛假數(shù)據(jù)等等導(dǎo)入模型訓(xùn)練過程中,造成大模型出現(xiàn)事實性幻覺。同時,也注意篩選和剔除數(shù)據(jù)集中諸如重復(fù)性偏見和社會性偏見的數(shù)據(jù),因為“AI模型由現(xiàn)有數(shù)據(jù)集訓(xùn)練而來,而這些數(shù)據(jù)集可能包含偏見,因此在科研中使用AI可能會無意間延續(xù)系統(tǒng)性問題”[4]。解決數(shù)據(jù)捕獲知識利用低問題,需要從監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)入手。一是通過監(jiān)督學(xué)習(xí)實現(xiàn)有監(jiān)督的微調(diào),即將含有特定價值的數(shù)據(jù)包輸入模型,自行進行標(biāo)注,通過這些格式化的指令數(shù)據(jù),以監(jiān)督學(xué)習(xí)的方式對模型進行微調(diào)[30];二是利用專家反饋的強化學(xué)習(xí),標(biāo)注和訓(xùn)練小而精的獎勵模型,通過獎勵模型來糾正大模型出現(xiàn)的數(shù)據(jù)注意力機制不足等問題。
除此之外,還要建立AI通用價值共識和遵從現(xiàn)有法律和倫理。盡管不同地域、民族、宗教、文化、性別、群體等價值本身就難以達成共識,但應(yīng)該嘗試從更高抽象層面確立一個或多個人類價值共識,如將“科技向善”作為科技領(lǐng)域最小共識,要求所有科學(xué)研究的出發(fā)點和旨歸處均在于“向善”。法律和倫理本身受到價值的影響,而法律的普適性僅及于一國法域之內(nèi),倫理可以超越國界,但適用范圍終歸有限。因此,對于控制AI4S面臨的法律和倫理風(fēng)險,最低要求是遵從所在國與科學(xué)研究相關(guān)的法律和倫理。
5" "結(jié)語
黨的二十大報告強調(diào)要加強基礎(chǔ)研究、突出原創(chuàng),AI4S屬于原創(chuàng)性、基礎(chǔ)性研究。科技是生產(chǎn)力,放眼AI4S,全是新質(zhì)生產(chǎn)力!AI4S概念已經(jīng)被提煉出來并應(yīng)用于實踐,學(xué)界應(yīng)該加強AI4S的關(guān)注和研究,加速將AI4S的新質(zhì)生產(chǎn)力從代碼之中釋放出來。知識獲取能力提升是AI飛速突破的本質(zhì)所在,數(shù)據(jù)資源是人工智能獲取知識的源泉[3]。數(shù)據(jù)要素對于AI4S至關(guān)重要,看似“用之不竭”的數(shù)據(jù)本體,在“百模大戰(zhàn)”時代仍面臨供不應(yīng)求的困境。與AI4S既有研究成果主要側(cè)重于技術(shù)路線不同,本文選擇從數(shù)據(jù)路線展開AI4S研究??赡艿膭?chuàng)新在于:在系統(tǒng)梳理AI4S發(fā)展過程的基礎(chǔ)上,厘清AI4S與數(shù)據(jù)要素的關(guān)系,從整體上聚焦面向AI4S數(shù)據(jù)要素供給的價值取向、路徑選擇和風(fēng)險控制。不足之處在于未從不同科學(xué)領(lǐng)域或者集中在科學(xué)數(shù)據(jù)等某一具體類型數(shù)據(jù)之上進行垂直研究,這是后續(xù)研究亟待補強之處。
參考文獻:
[1]" 王飛躍,繆青海.人工智能驅(qū)動的科學(xué)研究新范式:從AI4S到智能科學(xué)[J].中國科學(xué)院院刊,2023,38(4):536-540.
[2]" 孫坦,張智雄,周力虹,等.人工智能驅(qū)動的第五科研范式(AI4S)變革與觀察[J].農(nóng)業(yè)圖書情報學(xué)報,2023,35(10):4-32.
[3]" 周江林.AI4S對我國高校基礎(chǔ)研究的影響機理及實踐邊界[J].教育發(fā)展研究,2023,43(21):31-38.
[4]" 北京科學(xué)智能研究院,深勢科技,絡(luò)繹科學(xué).科學(xué)智能(AI4S)全球發(fā)展觀察與展望2023版[R/OL].[2024-05-11].http://www.news.cn/tech/download/2023AI4SBG.pdf.
[5]" 中華人民共和國中央人民政府.科技部啟動“人工智能驅(qū)動的科學(xué)研究”專項部署工作[EB/OL].[2024-06-06].https://www.gov.cn/xinwen/2023-03/27/content_5748495.htm.
[6]" 中國科學(xué)院文獻情報中心.人工智能撬動科研范式變革!專家解讀AI for Science專項部署工作[EB/OL].[2024-05-14].https://www.las.ac.cn/front/product/detail?id=2468fb059dc93fdc9450dccf18ea1cbb.
[7]" 新華網(wǎng).2023版《科學(xué)智能(AI4S)全球發(fā)展觀察與展望》發(fā)布[EB/OL].[2024-05-14].http://www.xinhuanet.com/tech/20230810/6dba3688158b44e49a69934ad4c51518/c.html.
[8]" Smith V S.Data publication:towards a database of everything[J].BMC Research Notes,2009,2(1):113.
[9]" 楊雅清,張文帝.科技企業(yè)新動向:科學(xué)智能的潛力與機會[J].中國電信業(yè),2023(8):41-43.
[10]" 劉濤,趙瞳,譚光明,等.HPC+AI驅(qū)動的第一性原理科學(xué)智能計算平臺[J].數(shù)據(jù)與計算發(fā)展前沿,2023,5(3):13-28.
[11]" 王飛躍,王雨桐.數(shù)字科學(xué)家與平行科學(xué):AI4S和S4AI的本源與目標(biāo)[J].中國科學(xué)院院刊,2024,39(1):27-33.
[12]" 李國杰.智能化科研(AI4R):第五科研范式[J].中國科學(xué)院院刊,2024,39(1):1-9.
[13]" 徐東波.人工智能驅(qū)動科學(xué)研究的邏輯、風(fēng)險及其治理[J].中國科技論壇,2024(5):120-129.
[14]" 北京大學(xué)定量生物學(xué)中心.2022科學(xué)智能峰會回顧|湯超院士:關(guān)于AI for Science的幾層意思[EB/OL].[2024-05-14].https://cqb.pku.edu.cn/info/1065/1851.htm.
[15]" Neil M.Richards,Jonathan H.King.Three Paradoxes of Big Data[J].Stanford Law Review Online,2013,66(44):41-46.
[16]" EU MONITOR.Annexes to COM(2020)66 - European strategy for data[EB/OL].[2024-06-06].https://www.eumonitor.eu/9353000/1/j4nvirkkkr58fyw_j9vvik7m1c3gyxp/vl6bhq5mueyy.
[17]" EUR-LEX.Regulation(EU)2022/868 of the European Parliament and of the Council of 30 May 2022 on European data governance and amending Regulation (EU) 2018/1724 (Data Governance Act) (Text with EEA relevance)[A/OL].[2024-06-06].http://data.europa.eu/eli/reg/2022/868/oj/eng.
[18]" Thornton H.The UK Biobank project:Trust and altruism are alive and well:A model for achieving public support for research using personal data[J].International Journal of Surgery,2009,7(6):501-502.
[19]" Halvorson G,Novelli B,Permanente K.Data altruism:Honoring patients’expectations for continuous learning[J].Commentary,Institute of Medicine,Washington,DC,2014.
[20]" 儲節(jié)旺,楊雪.公共數(shù)據(jù)開放的政府主體責(zé)任研究[J].現(xiàn)代情報,2019,39(10):127-135.
[21]" 劉星,姜南,歐忠輝,等.數(shù)字經(jīng)濟時代企業(yè)數(shù)據(jù)權(quán)益保護研究[J].情報雜志,2021,40(10):91-98,107.
[22]" 傅靖.關(guān)于數(shù)據(jù)的可稅性研究[J].稅務(wù)研究,2020(8):54-61.
[23]" ELIZA STRICKLAND.Andrew Ng:Unbiggen AI[EB/OL].[2024-05-21].https://spectrum.ieee.org/andrew-ng-data-centric-ai.
[24]" 李楠楠,劉筱敏.我國國家科學(xué)數(shù)據(jù)中心FAIR原則的實踐現(xiàn)狀調(diào)查與分析[J].圖書與情報,2023(2):137-144.
[25]" 張麗麗.科學(xué)數(shù)據(jù)共享治理:模式選擇與情景分析[J].中國圖書館學(xué)報,2017,43(2):54-65.
[26]" 國家知識產(chǎn)權(quán)局.國家知識產(chǎn)權(quán)局辦公室關(guān)于印發(fā)《知識產(chǎn)權(quán)基礎(chǔ)數(shù)據(jù)利用指引》的通知[EB/OL].[2024-05-27].https://www.cnipa.gov.cn/art/2021/1/6/art_75_156042.html.
[27]" 文禹衡,戴文怡.云環(huán)境中學(xué)術(shù)數(shù)據(jù)安全事件的風(fēng)險致因及其檢視——以事故致因理論為視角[J].信息資源管理學(xué)報,2021,11(3):50-58.
[28]" 席丹.尋求價值對齊之路:人工智能面臨的課題與挑戰(zhàn)[J].傳媒,2024(11):41-43.
[29]" Huang L,Yu W,Ma W,et al.A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions[J].arxiv preprint arxiv:2311.05232,2023.
[30]" 喻國明,金麗萍,卞中明.小有小的用處:大模型傳播生態(tài)下的小模型——概念定義、技術(shù)構(gòu)造與價值角色[J].新聞記者,2024(1):3-17,58.
作者簡介:鄭令晗(1991-),女,湘潭大學(xué)信用風(fēng)險管理學(xué)院講師,湖南省數(shù)據(jù)治理與智慧司法研究中心研究員,研究方向:數(shù)據(jù)治理;李晨珂(1999-),女,四川大學(xué)法學(xué)院碩士研究生,研究方向:數(shù)字法治。