【摘 要】大模型驅(qū)動(dòng)知識(shí)服務(wù)范式變革,凸顯數(shù)據(jù)乘數(shù)效應(yīng),需深刻分析大模型知識(shí)服務(wù)平臺(tái)數(shù)據(jù)供需失衡的原因,破解大模型知識(shí)服務(wù)平臺(tái)數(shù)據(jù)困境。政府需做好頂層設(shè)計(jì),完善規(guī)則體系;平臺(tái)需發(fā)揮協(xié)調(diào)作用,完善交易體系;企業(yè)需加強(qiáng)數(shù)據(jù)治理,提升數(shù)據(jù)資產(chǎn)管理應(yīng)用能力。只有政府、平臺(tái)、企業(yè)多方主體協(xié)同配合,才能找到“法律、標(biāo)準(zhǔn)、技術(shù)”三位一體的系統(tǒng)調(diào)適路徑。
【關(guān) 鍵 詞】人工智能;大模型;知識(shí)服務(wù);數(shù)據(jù)要素;數(shù)據(jù)治理
【作者單位】張安超,世界圖書出版有限公司;王飚,中國(guó)新聞出版研究院。
【中圖分類號(hào)】G230.7 【文獻(xiàn)標(biāo)識(shí)碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.12.003
知識(shí)服務(wù)概念萌芽于20世紀(jì)70年代中期的管理咨詢界[1],21世紀(jì)初由圖情領(lǐng)域?qū)W者引入國(guó)內(nèi)。它是一種用戶目標(biāo)驅(qū)動(dòng)的定制化、全程式、面向增值、基于集成、手段現(xiàn)代化、服務(wù)效果效益化的高智能服務(wù)。知識(shí)服務(wù)強(qiáng)調(diào)以用戶為核心,注重動(dòng)態(tài)過程和服務(wù),注重解決問題,注重信息深加工,注重知識(shí)資源增值。它能夠根據(jù)用戶的現(xiàn)實(shí)需求,在眾多隱性和顯性信息資源中將用戶需要的信息精煉出來(lái)形成一個(gè)或多個(gè)方案提供給用戶,使用戶能將潛在價(jià)值轉(zhuǎn)化為現(xiàn)實(shí)效益[2]。
隨著數(shù)字出版的發(fā)展,知識(shí)服務(wù)模式受到出版界的青睞。在知識(shí)服務(wù)概念的內(nèi)涵層面,圖情領(lǐng)域與出版領(lǐng)域有著顯著分歧,圖情領(lǐng)域更強(qiáng)調(diào)“知識(shí)組織”形式,如詞表、知識(shí)體系[3]等,出版領(lǐng)域更強(qiáng)調(diào)知識(shí)內(nèi)容本身,如圖書、期刊、數(shù)據(jù)庫(kù)、在線教育等。有業(yè)界人士認(rèn)為,出版本身就是一種知識(shí)服務(wù)的形式。早期的出版知識(shí)服務(wù)產(chǎn)品多為資源驅(qū)動(dòng)型,內(nèi)容資源稟賦決定了知識(shí)服務(wù)的形態(tài)和方式,如基于紙質(zhì)出版物加工而成的數(shù)據(jù)庫(kù)、資源庫(kù)、知識(shí)庫(kù)等。隨著信息技術(shù)的發(fā)展,尤其是大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)的快速演進(jìn),出版知識(shí)服務(wù)不斷由資源驅(qū)動(dòng)向技術(shù)驅(qū)動(dòng)轉(zhuǎn)變。隨著通用大語(yǔ)言模型的出現(xiàn)以及AIGC產(chǎn)品的爆發(fā),內(nèi)容生產(chǎn)方式發(fā)生了變革,知識(shí)服務(wù)范式發(fā)生了轉(zhuǎn)向,出版知識(shí)服務(wù)正在向智能出版知識(shí)服務(wù)演進(jìn)。
一、大模型知識(shí)服務(wù)平臺(tái)發(fā)展現(xiàn)狀
1.大語(yǔ)言模型概念及原理
近年來(lái),以通用大語(yǔ)言模型為代表的技術(shù)變革掀起了新一輪的人工智能浪潮,并迅速滲透出版領(lǐng)域。大語(yǔ)言模型(以下簡(jiǎn)稱“大模型”)是利用大規(guī)模語(yǔ)料庫(kù)訓(xùn)練出來(lái)的自然語(yǔ)言處理模型,它是基于深度學(xué)習(xí)的自然語(yǔ)言處理模型,使用機(jī)器學(xué)習(xí)技術(shù)來(lái)理解和生成人類語(yǔ)言。其訓(xùn)練過程主要分為預(yù)訓(xùn)練和微調(diào)兩個(gè)階段。模型先在大規(guī)模文本數(shù)據(jù)集上進(jìn)行無(wú)監(jiān)督學(xué)習(xí),掌握語(yǔ)言的基本結(jié)構(gòu)和語(yǔ)義,然后在特定數(shù)據(jù)集上進(jìn)行有監(jiān)督學(xué)習(xí),以適應(yīng)任務(wù)需求。常見任務(wù)包括文本分類、問答、文本生成等。
大模型通過在海量無(wú)標(biāo)注數(shù)據(jù)上進(jìn)行大規(guī)模預(yù)訓(xùn)練,讓模型學(xué)習(xí)大量知識(shí)并進(jìn)行指令微調(diào),從而獲得面向多任務(wù)的通用求解能力。ChatGPT背后的GPT是大模型的典型代表。2017 年,Google提出基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)。2018年,OpenAI和Google分別發(fā)布了GPT-1與BERT大模型,預(yù)訓(xùn)練大模型成為自然語(yǔ)言處理領(lǐng)域的主流。2022年,OpenAI推出ChatGPT,其擁有強(qiáng)大的自然語(yǔ)言交互與生成能力。2023年,OpenAI發(fā)布多模態(tài)預(yù)訓(xùn)練大模型GPT-4,其具備多模態(tài)理解與多類型內(nèi)容生成能力。2024年,OpenAI發(fā)布視頻生成大模型Sora,提出時(shí)空碎片和擴(kuò)散Transformer技術(shù),大模型的多模態(tài)生成能力進(jìn)一步成熟。
大語(yǔ)言模型及由此產(chǎn)生的AIGC產(chǎn)品,在語(yǔ)義理解、場(chǎng)景識(shí)別、內(nèi)容生產(chǎn)方面具備了強(qiáng)大的性能,并具備快速迭代進(jìn)化的能力。以ChatGPT為例,其在上線之初可提供文本生成、聊天機(jī)器人、語(yǔ)言問答、語(yǔ)言翻譯、自動(dòng)文摘、繪畫、編程、視頻生成等功能,隨著大模型的不斷升級(jí),ChatGPT可完成程序員、詩(shī)人、醫(yī)生、音樂家等160余種角色的任務(wù)。
除了文生文的ChatGPT,其他AIGC產(chǎn)品還包括文生圖的Midjourney、文生音樂的Suno以及文生視頻的Sora。根據(jù)國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布的生成式人工智能服務(wù)已備案信息公告,截至2024年3月,已有117款生成式人工智能服務(wù)完成備案。根據(jù)Chatbot Arena網(wǎng)站的數(shù)據(jù),截至2024年6月29日,參與該平臺(tái)測(cè)評(píng)的大語(yǔ)言模型有114款。
2.大模型知識(shí)服務(wù)的類型及特征
大模型知識(shí)服務(wù),是指利用大語(yǔ)言模型為用戶提供智能化、個(gè)性化的知識(shí)內(nèi)容或解決方案,服務(wù)形式有智能問答、智能審校、個(gè)性化內(nèi)容推薦等,可有效提升信息獲取效率,滿足用戶在特定領(lǐng)域的深層次知識(shí)獲取需求。
根據(jù)大模型的作用方式、服務(wù)領(lǐng)域范圍,我們可將出版大模型知識(shí)服務(wù)平臺(tái)分為全場(chǎng)景、定制化、垂直式、嵌入式四種類型(如圖1)。全場(chǎng)景平臺(tái)的特點(diǎn)是基于自有通用大模型為用戶提供全場(chǎng)景服務(wù),如ChatGPT、文心一言、通義千問、智譜AI等。定制化平臺(tái)的特點(diǎn)是基于通用大模型,為特定場(chǎng)景提供定制化服務(wù),如Gakken ON AIR、智海—三樂教育、版閱AI內(nèi)容服務(wù)平臺(tái)[4]、AI·漢語(yǔ)學(xué)習(xí)平臺(tái)、外研在線AIGC平臺(tái)[5]等。垂直式平臺(tái)的特點(diǎn)是基于自有垂直領(lǐng)域大模型,為特定領(lǐng)域或場(chǎng)景服務(wù),如Midjourney、中文逍遙、蜜度文修等。嵌入式平臺(tái)的特點(diǎn)是將垂直大模型嵌入現(xiàn)有知識(shí)服務(wù)產(chǎn)品,提高服務(wù)的智能化水平,如Scopus AI、Nature Research Intelligence、CNKI AI學(xué)術(shù)研究助手等。
大模型在原始知識(shí)基礎(chǔ)上,通過預(yù)訓(xùn)練不斷拓展知識(shí)邊界,形成二次知識(shí),并在使用中持續(xù)誕生新的內(nèi)容,實(shí)現(xiàn)隱性知識(shí)的顯性化。相較于此前的知識(shí)服務(wù)模式,它有三個(gè)顯著特點(diǎn)。
(1)數(shù)據(jù)海量化。大模型訓(xùn)練所需的數(shù)據(jù)有多種來(lái)源,如互聯(lián)網(wǎng)數(shù)據(jù)、書籍、語(yǔ)料庫(kù)等,通常需要處理數(shù)百億字節(jié)甚至上萬(wàn)億字節(jié)的數(shù)據(jù),以幫助模型捕捉語(yǔ)言中的復(fù)雜模式和細(xì)微差別。以O(shè)penAI的GPT-3為例,該模型使用了大約570GB的文本數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)量相當(dāng)于4500億個(gè)單詞。海量的數(shù)據(jù)為大模型的通用性奠定了良好的基礎(chǔ),使大模型可以適應(yīng)多種角色或場(chǎng)景,如ChatGPT能以作者身份進(jìn)行創(chuàng)作、以編輯身份進(jìn)行策劃、以校對(duì)身份進(jìn)行審核、以營(yíng)銷人員的身份進(jìn)行市場(chǎng)規(guī)劃等。此外,在大語(yǔ)言模型構(gòu)建過程中,大量的事實(shí)性知識(shí)、常識(shí)知識(shí)可以直接提供給用戶。
(2)知識(shí)網(wǎng)絡(luò)化。大模型的深度學(xué)習(xí)架構(gòu)主要基于神經(jīng)網(wǎng)絡(luò)技術(shù),在知識(shí)組織方面有著獨(dú)特優(yōu)勢(shì)。以Transformer架構(gòu)為例,它由多個(gè)層次的神經(jīng)網(wǎng)絡(luò)組成,每一層都能夠捕捉和處理輸入數(shù)據(jù)中的不同特征和模式。通過層層堆疊的神經(jīng)元和權(quán)重,神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)從數(shù)據(jù)中提取特征,捕捉數(shù)據(jù)點(diǎn)之間的關(guān)聯(lián)性。這種能力使得神經(jīng)網(wǎng)絡(luò)能夠在知識(shí)的網(wǎng)絡(luò)化組織中理解和表達(dá)各種復(fù)雜的語(yǔ)義關(guān)系和邏輯,從而構(gòu)建起綜合和全面的知識(shí)體系。通過訓(xùn)練和優(yōu)化,神經(jīng)網(wǎng)絡(luò)能夠識(shí)別和理解不同語(yǔ)言表達(dá)中的隱含含義和上下文的相關(guān)性,從而在知識(shí)網(wǎng)絡(luò)化組織中生成更加準(zhǔn)確和連貫的內(nèi)容。相較于傳統(tǒng)的線性知識(shí)組織模式,大模型可主動(dòng)地將數(shù)據(jù)進(jìn)行連接和上下文化,實(shí)現(xiàn)網(wǎng)絡(luò)化組織。
(3)交互智能化。傳統(tǒng)的知識(shí)服務(wù)產(chǎn)品通過結(jié)構(gòu)化的數(shù)據(jù)庫(kù)或預(yù)定義的規(guī)則來(lái)提供答案,而基于大模型的知識(shí)網(wǎng)絡(luò)是動(dòng)態(tài)和自適應(yīng)的,能夠借助自然語(yǔ)言處理技術(shù),根據(jù)用戶輸入的內(nèi)容不斷調(diào)整,從而更精準(zhǔn)地契合用戶需求。簡(jiǎn)言之,大模型更懂用戶。傳統(tǒng)的數(shù)據(jù)庫(kù)和知識(shí)庫(kù)通常需要使用結(jié)構(gòu)化查詢語(yǔ)言(如SQL)或特定的查詢格式,而大模型可以直接通過自然語(yǔ)言進(jìn)行交互。用戶無(wú)需學(xué)習(xí)復(fù)雜的查詢語(yǔ)法,只需使用自然語(yǔ)言描述問題或需求,大模型便能依據(jù)上下文和語(yǔ)境,對(duì)用戶輸入的內(nèi)容進(jìn)行理解和解釋。用戶可通過對(duì)話的方式與模型互動(dòng),在互動(dòng)中不斷細(xì)化需求,逐步求解。
二、 大模型知識(shí)服務(wù)平臺(tái)的數(shù)據(jù)困境
在計(jì)算機(jī)誕生的初期,數(shù)據(jù)主要用于基本的計(jì)算任務(wù)和簡(jiǎn)單的存儲(chǔ)。由于計(jì)算能力和存儲(chǔ)容量的限制,數(shù)據(jù)的規(guī)模和復(fù)雜性相對(duì)較低,重要性還未完全顯現(xiàn)。關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)出現(xiàn)后,企業(yè)開始意識(shí)到數(shù)據(jù)組織和高效檢索的重要性,數(shù)據(jù)的重要性逐漸得到認(rèn)可。隨著互聯(lián)網(wǎng)的發(fā)展,尤其是電子商務(wù)、社交媒體和在線服務(wù)的興起,大量的用戶數(shù)據(jù)、交易數(shù)據(jù)和行為數(shù)據(jù)產(chǎn)生,數(shù)據(jù)開始被視為一種資產(chǎn)。人工智能技術(shù)的突破,將數(shù)據(jù)的重要性提升到新的高度。數(shù)據(jù)成為訓(xùn)練AI模型的核心要素,數(shù)據(jù)的數(shù)量和質(zhì)量直接決定了模型的性能和智能水平。
隨著互聯(lián)網(wǎng)經(jīng)濟(jì)和數(shù)字經(jīng)濟(jì)的持續(xù)發(fā)力,數(shù)據(jù)日漸成為創(chuàng)新驅(qū)動(dòng)力的源泉和數(shù)字化轉(zhuǎn)型的核心生產(chǎn)要素,通過打造數(shù)據(jù)交易市場(chǎng)來(lái)實(shí)現(xiàn)數(shù)據(jù)價(jià)值的深度挖掘,健全數(shù)據(jù)要素生產(chǎn)、流通、應(yīng)用、收益分配機(jī)制來(lái)推進(jìn)數(shù)據(jù)資源的市場(chǎng)配置改革,已然成為社會(huì)各界尤其是政府部門的廣泛共識(shí)[6]。自黨的十九屆四中全會(huì)首次明確數(shù)據(jù)可作為生產(chǎn)要素參與分配以來(lái),《中共中央國(guó)務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》提出“加快構(gòu)建數(shù)據(jù)基礎(chǔ)制度”。國(guó)家數(shù)據(jù)局等17個(gè)部門聯(lián)合印發(fā)《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》,提出數(shù)據(jù)要素發(fā)展總體目標(biāo)和十二項(xiàng)重點(diǎn)行動(dòng),旨在推動(dòng)數(shù)據(jù)要素發(fā)揮乘數(shù)效應(yīng),賦能經(jīng)濟(jì)社會(huì)發(fā)展。
1.?dāng)?shù)據(jù)具備三重價(jià)值屬性
數(shù)據(jù)是信息系統(tǒng)的基本要素,是數(shù)字時(shí)代的“石油”,具備資源和資產(chǎn)的雙重屬性。作為信息時(shí)代不可或缺的基礎(chǔ)資源,數(shù)據(jù)能驅(qū)動(dòng)技術(shù)和業(yè)務(wù)創(chuàng)新。作為資產(chǎn),其通過內(nèi)在價(jià)值和經(jīng)濟(jì)潛力,為企業(yè)和社會(huì)創(chuàng)造效益和競(jìng)爭(zhēng)優(yōu)勢(shì)。數(shù)據(jù)流動(dòng)于大模型知識(shí)服務(wù)平臺(tái)的各個(gè)層面,發(fā)揮了乘數(shù)效應(yīng),輸入的數(shù)據(jù)通過處理和分析,生成有價(jià)值的數(shù)據(jù),形成一個(gè)不斷循環(huán)和增殖的過程。數(shù)據(jù)可以在市場(chǎng)上進(jìn)行買賣和交換,為數(shù)據(jù)所有者帶來(lái)直接的經(jīng)濟(jì)收益,同時(shí)促進(jìn)數(shù)據(jù)驅(qū)動(dòng)創(chuàng)新的發(fā)展。
一是數(shù)據(jù)作為語(yǔ)料。數(shù)據(jù)是機(jī)器學(xué)習(xí)和大模型訓(xùn)練的核心原材料,數(shù)據(jù)的規(guī)模、質(zhì)量影響大模型的質(zhì)量。豐富、準(zhǔn)確和多樣化的數(shù)據(jù)能顯著提高模型的性能,并使大模型更好地應(yīng)對(duì)多種場(chǎng)景。
二是數(shù)據(jù)作為產(chǎn)品。數(shù)據(jù)可以被定義、封裝、交易,具O7Ov4rZJDczvJdrw0G+VHA==備產(chǎn)品的相關(guān)特征。電子書、數(shù)據(jù)庫(kù)、知識(shí)庫(kù)等產(chǎn)品就是典型的數(shù)據(jù)型產(chǎn)品,其核心是知識(shí)數(shù)據(jù)的聚集和組織。
三是數(shù)據(jù)作為服務(wù)。數(shù)據(jù)可以通過API的方式按需調(diào)用,以幫助企業(yè)或者個(gè)人解決相關(guān)問題。API調(diào)用服務(wù)已經(jīng)成為大模型的重要業(yè)務(wù)模式,GPT、GLM、文心等大模型均提供相關(guān)服務(wù)。
2.供需失衡制約數(shù)據(jù)要素價(jià)值發(fā)揮
在政策的大力推動(dòng)下,數(shù)據(jù)交易的制度、平臺(tái)和標(biāo)準(zhǔn)建設(shè)均取得了明顯成績(jī),但市場(chǎng)主體積極性仍偏低,數(shù)據(jù)交易活躍度不足,存在“不能交易、不敢交易、不愿交易”的困境。這種“數(shù)據(jù)安全”與“數(shù)據(jù)流通”難以兩全的悖論,極大降低了數(shù)據(jù)要素配置效率[7]。據(jù)大數(shù)據(jù)流通與交易技術(shù)國(guó)家工程實(shí)驗(yàn)室的相關(guān)觀察,每年全社會(huì)數(shù)據(jù)量增長(zhǎng)率約40%,但真正被利用的數(shù)據(jù)量增長(zhǎng)率只有5.4%[8]。根據(jù)調(diào)研,2022年我國(guó)大部分企業(yè)尚未參與數(shù)據(jù)交易流通,在參與交易流通的企業(yè)中,約87.67%的企業(yè)購(gòu)買數(shù)據(jù),33.32%的企業(yè)出售數(shù)據(jù),數(shù)據(jù)供不應(yīng)求[9]。多邊市場(chǎng)環(huán)境下數(shù)據(jù)要素交易情況復(fù)雜,囿于數(shù)據(jù)要素確權(quán)、定價(jià)和交易機(jī)制等配套制度的不完善,數(shù)據(jù)要素交易平臺(tái)的交易量極低,數(shù)據(jù)要素市場(chǎng)化配置進(jìn)展緩慢。
目前,大模型知識(shí)服務(wù)發(fā)展迅速,但仍處于成長(zhǎng)期,相關(guān)的生態(tài)鏈條尚不完善,分散的知識(shí)生產(chǎn)主體與集中的大模型知識(shí)平臺(tái)之間話語(yǔ)權(quán)失衡,存在數(shù)據(jù)流通困難、數(shù)據(jù)交易意愿低、數(shù)據(jù)交易成本高等問題。
(1)主體分散,存在流動(dòng)困境。在我國(guó),知識(shí)生產(chǎn)主體小、散、多。以出版領(lǐng)域?yàn)槔?,我?guó)出版產(chǎn)業(yè)具有條線分割的特點(diǎn)。根據(jù)主管部門的類型,出版單位分為中央、地方、高校三大類;根據(jù)產(chǎn)品類型,分為圖書出版單位、期刊出版單位、報(bào)紙出版單位、音像及電子出版單位、網(wǎng)絡(luò)出版服務(wù)單位等。雖有數(shù)十家出版集團(tuán),但總體上處于分割狀態(tài),集中度較低。
(2)保護(hù)不足,存在安全困境。數(shù)據(jù)具有非實(shí)體性、可復(fù)制性、易加工性、易流通性等特征,數(shù)據(jù)確權(quán)困難,又容易被盜用、濫用甚至轉(zhuǎn)售。數(shù)據(jù)所有人對(duì)數(shù)據(jù)交易的安全性持懷疑態(tài)度,導(dǎo)致交易意愿不足。數(shù)據(jù)安全包括物理和法律兩個(gè)層面。物理意義上的數(shù)據(jù)安全,是指數(shù)據(jù)應(yīng)得到充足的安全保護(hù),以免遭受泄露、滅失、篡改和未經(jīng)授權(quán)使用等,包括各種物理保護(hù)措施、組織保護(hù)措施以及計(jì)算機(jī)系統(tǒng)保護(hù)措施。法律意義上的數(shù)據(jù)安全,包括靜態(tài)安全和動(dòng)態(tài)安全。靜態(tài)安全強(qiáng)調(diào)權(quán)利歸屬利益的確定,動(dòng)態(tài)安全的核心問題是數(shù)據(jù)權(quán)屬的合法、明確[10]。在靜態(tài)安全方面,較為突出的問題是數(shù)據(jù)的確權(quán)問題。在動(dòng)態(tài)安全方面,較為復(fù)雜的問題是數(shù)據(jù)的非法獲取、非法加工、非法交易問題。目前在法規(guī)和標(biāo)準(zhǔn)層面,雖然有相關(guān)規(guī)定和規(guī)范,但實(shí)操層面仍然存在較多盲區(qū)。在技術(shù)層面,雖然區(qū)塊鏈等技術(shù)可以解決部分?jǐn)?shù)據(jù)的保護(hù)問題,但在實(shí)際中受效率和成本制約,難以普及。
(3)價(jià)格不明確,存在交易困境。小、散、多的出版單位在面臨大型平臺(tái)時(shí),缺乏定價(jià)話語(yǔ)權(quán)。近兩年來(lái),大模型企業(yè)頻繁拜訪出版單位,希望獲得出版單位的高質(zhì)量語(yǔ)料數(shù)據(jù),但合作成功的案例寥寥無(wú)幾,除安全問題外,定價(jià)也是一個(gè)重要原因。當(dāng)前電子書發(fā)展進(jìn)入瓶頸期,創(chuàng)作者缺乏吸引力是一個(gè)重要因素。以知網(wǎng)為代表的期刊數(shù)據(jù)庫(kù)平臺(tái),也面臨著作權(quán)糾紛等問題。隨著產(chǎn)業(yè)形態(tài)的不斷創(chuàng)新,生態(tài)鏈條延伸拓展,作者、出版單位、數(shù)字出版三方共同構(gòu)成了數(shù)字出版與融合傳播鏈條,但圍繞新型與傳統(tǒng)鏈條的收益分配機(jī)制尚無(wú)明確規(guī)則。此外,法律也存在滯后性,如現(xiàn)行的《使用文字作品支付報(bào)酬辦法》規(guī)定了以紙質(zhì)出版方式使用文字作品支付報(bào)酬的方式,但對(duì)在數(shù)字或者網(wǎng)絡(luò)環(huán)境下使用文字作品的付酬標(biāo)準(zhǔn),未作出明確規(guī)定。
三、 數(shù)據(jù)困境破解的路徑
要發(fā)揮數(shù)據(jù)要素作用,搭建數(shù)據(jù)基礎(chǔ)制度,需要培育活躍的數(shù)據(jù)要素市場(chǎng)。數(shù)據(jù)要素市場(chǎng)組織模式經(jīng)歷了從單邊、雙邊到多邊的演進(jìn)歷程,并形成了不同的發(fā)展特征[11]。在數(shù)據(jù)要素市場(chǎng)中,存在供給方、需求方、服務(wù)方、監(jiān)管方等多種主體,各種主體相互作用、匹配協(xié)調(diào),形成了數(shù)據(jù)要素價(jià)值實(shí)現(xiàn)的復(fù)雜社會(huì)技術(shù)系統(tǒng)。筆者認(rèn)為,要解決大模型知識(shí)服務(wù)平臺(tái)的數(shù)據(jù)困境,需要發(fā)揮多方協(xié)同一體的治理效能,構(gòu)建起技術(shù)、標(biāo)準(zhǔn)、法律一體的治理體系,通過系統(tǒng)調(diào)適構(gòu)建起良性的生態(tài)系統(tǒng),激發(fā)各方的積極性,形成良好的發(fā)展模式。
1.政府做好頂層設(shè)計(jì),完善規(guī)則體系
政府發(fā)揮了關(guān)鍵的作用,尤其是做好制度和規(guī)則頂層設(shè)計(jì)并維護(hù)市場(chǎng)秩序,構(gòu)建多元化和靈活的數(shù)據(jù)交易市場(chǎng)體系,促進(jìn)數(shù)據(jù)要素在境內(nèi)外的流動(dòng)和配置,能夠更好地滿足不同主體的數(shù)據(jù)交易需求[12]。政府需做好如下工作:進(jìn)一步完善相關(guān)法規(guī),及時(shí)修訂或廢止不符合實(shí)踐需求的法律法規(guī),制定數(shù)據(jù)確權(quán)、數(shù)據(jù)安全、隱私保護(hù)等方面的規(guī)則,為數(shù)據(jù)交易提供基礎(chǔ)規(guī)則和依據(jù);不斷健全數(shù)據(jù)資產(chǎn)入表的相關(guān)規(guī)則,引導(dǎo)解決數(shù)據(jù)資源確權(quán)、記錄、計(jì)量、列報(bào)和披露等各環(huán)節(jié)的難點(diǎn)問題[13],通過政策引導(dǎo)、鼓勵(lì)企業(yè)和組織參與數(shù)據(jù)交易市場(chǎng),推動(dòng)數(shù)據(jù)資源的充分流通和利用;利用互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、人工智能等技術(shù)手段,提高智慧監(jiān)管水平,有力維護(hù)數(shù)字市場(chǎng)的公平競(jìng)爭(zhēng)秩序[14]。
2.平臺(tái)發(fā)揮調(diào)配作用,完善交易體系
數(shù)據(jù)交易平臺(tái)在整個(gè)數(shù)據(jù)交易市場(chǎng)中具有調(diào)配作用,發(fā)揮了資質(zhì)把關(guān)、數(shù)據(jù)確權(quán)、需求匹配、安全保障等作用。數(shù)據(jù)交易平臺(tái)要加強(qiáng)技術(shù)創(chuàng)新,重點(diǎn)關(guān)注數(shù)據(jù)資產(chǎn)確權(quán)、數(shù)據(jù)資產(chǎn)量化評(píng)估、數(shù)據(jù)資產(chǎn)交易流通等方面的需求,解決數(shù)據(jù)確權(quán)、數(shù)據(jù)交易安全、需求高效匹配等突出問題。如設(shè)計(jì)基于區(qū)塊鏈的可追溯性數(shù)字水印,利用數(shù)字水印儲(chǔ)存相關(guān)確權(quán)信息等,在復(fù)雜的數(shù)據(jù)修改、加工和流通中明確數(shù)據(jù)信息授權(quán),厘清產(chǎn)權(quán)主體各方以何種比例分享數(shù)字紅利并承擔(dān)數(shù)據(jù)隱私保護(hù)責(zé)任[11]。同時(shí),完善數(shù)據(jù)交易技術(shù)體系,提升匹配算法和數(shù)據(jù)要素產(chǎn)品推薦模型的效率和性能。
3.企業(yè)加強(qiáng)數(shù)據(jù)治理,提升數(shù)據(jù)資產(chǎn)管理應(yīng)用能力
數(shù)據(jù)供應(yīng)方要積極探索更為清晰的數(shù)據(jù)資產(chǎn)化服務(wù)模式,完善數(shù)據(jù)治理體系,全面提升數(shù)據(jù)資產(chǎn)管理能力,喚醒“沉睡”的數(shù)據(jù)資產(chǎn),充分實(shí)現(xiàn)其資產(chǎn)價(jià)值。具體而言,數(shù)據(jù)供應(yīng)方可參照國(guó)家標(biāo)準(zhǔn)《信息技術(shù) 大數(shù)據(jù) 數(shù)據(jù)治理實(shí)施指南》(征求意見稿)完善數(shù)據(jù)治理體系,健全數(shù)據(jù)安全管理體系,搭建數(shù)據(jù)治理平臺(tái),全面盤點(diǎn)數(shù)據(jù)資產(chǎn),推動(dòng)數(shù)據(jù)治理活動(dòng)實(shí)施落地。數(shù)據(jù)需求方可快速融入數(shù)據(jù)要素市場(chǎng)新賽道,面向數(shù)據(jù)資產(chǎn)化需求,深耕行業(yè)數(shù)據(jù)資產(chǎn)化技術(shù)產(chǎn)品和解決方案,挖掘企業(yè)數(shù)據(jù)資產(chǎn)價(jià)值,保障數(shù)據(jù)產(chǎn)品可信流通,助力數(shù)據(jù)要素市場(chǎng)全產(chǎn)業(yè)發(fā)展。
四、結(jié)語(yǔ)
大語(yǔ)言模型驅(qū)動(dòng)出版知識(shí)服務(wù)轉(zhuǎn)型升級(jí),大模型知識(shí)服務(wù)平臺(tái)成為一種新的知識(shí)服務(wù)形態(tài)。在這種新的業(yè)態(tài)模式下,數(shù)據(jù)要素的價(jià)值凸顯,數(shù)據(jù)交易的需求更加迫切。但由于主體分散、確權(quán)困難、保護(hù)不足、定價(jià)不清、分配不當(dāng)?shù)葐栴},數(shù)據(jù)交易的實(shí)際效果不及預(yù)期。政府、平臺(tái)、企業(yè)等多方主體需要協(xié)同配合,完善數(shù)據(jù)交易體系,構(gòu)建起“法律、標(biāo)準(zhǔn)、技術(shù)”三位一體的治理體系,推動(dòng)數(shù)據(jù)交易市場(chǎng)的健康發(fā)展和數(shù)據(jù)資源的有效利用。
|參考文獻(xiàn)|
[1]張立,吳素平,周丹. 國(guó)內(nèi)外知識(shí)服務(wù)相關(guān)概念追蹤與辨析[J]. 科技與出版,2020(2):5-12.
[2]張安超. 專業(yè)知識(shí)庫(kù)建設(shè)的探索與實(shí)踐:以化工知識(shí)庫(kù)為例[J]. 科技與出版,2016(12):89-92.
[3]張安超,韓娜. 化工領(lǐng)域本體的構(gòu)建與應(yīng)用[J]. 出版科學(xué),2017(5):88-91.
[4]秦艷華,李一凡. 出版業(yè)應(yīng)用人工智能大語(yǔ)言模型:現(xiàn)狀、挑戰(zhàn)與未來(lái)趨勢(shì)[J]. 中國(guó)出版,2024(5):11-18.
[5]許潔,袁小群,朱瑞,等. 基于大模型的輕量級(jí)智能出版知識(shí)服務(wù):理論基礎(chǔ)與實(shí)現(xiàn)路徑[J]. 中國(guó)數(shù)字出版,2024(1):25-35.
[6]梅夏英. 數(shù)據(jù)交易的法律范疇界定與實(shí)現(xiàn)路徑[J]. 比較法研究,2022(6):13-27.
[7]徐玖玖. 從“數(shù)據(jù)”到“可交易數(shù)據(jù)”:數(shù)據(jù)交易法律治理范式的轉(zhuǎn)向及其實(shí)現(xiàn)[J]. 電子政務(wù),2022(12):80-89.
[8]舒靜,龔雯,張超. 大數(shù)據(jù)交易漸熱,挖掘數(shù)據(jù)“石油”我們準(zhǔn)備好了嗎[N]. 新華每日電訊,2022-02-18.
[9]邱海峰. 讓更多數(shù)據(jù)“活”起來(lái)[N]. 人民日?qǐng)?bào)海外版,2024-01-04.
[10]徐玖玖. 數(shù)據(jù)交易法律規(guī)制基本原則的構(gòu)建:反思與進(jìn)路[J]. 圖書館論壇,2021(2):77-88.
[11]吳江,袁一鳴,賀超城,等. 數(shù)據(jù)要素交易多邊平臺(tái)研究:現(xiàn)狀、進(jìn)路與框架[J]. 信息資源管理學(xué)報(bào),2024(3):4-20.
[12]楊光. 構(gòu)建全國(guó)統(tǒng)一的數(shù)據(jù)交易市場(chǎng)[N]. 中國(guó)信息化周報(bào),2024-03-11.
[13]徐攀,李杰義. 企業(yè)數(shù)據(jù)資產(chǎn)入表路徑:框架與實(shí)踐[J]. 財(cái)會(huì)月刊,2024(7):58-62.
[14]孫晉. 數(shù)字平臺(tái)的反壟斷監(jiān)管[J]. 中國(guó)社會(huì)科學(xué),2021(5):101-127.