[中圖分類號(hào)] G231 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)] 1009-5853(2025)04-0083-11
Research on the Development Pathways of Al Products Empowered by Data Technology:A Case Study of Elsevier Academic Publishing Group
Zhang Xiaofei
(School of Publishing,Beijing Institute of Graphic Communication,Beijing,102627)
[Abstract]This study systematically analyzes the practicesand trends of Elsevier Academic Publishing Group in leveraging data technologies to enable Al applications and product development.The analysis reveals a three-phase implementation framework.First, establishing robust data management foundations,Elsevier employs advanced data science technologies to organize,manage,analyze and utilize vast scientific literature data,constructing a“data house” forusers,thereby laying a solid data foundation for technology-driven innovation.Second,by comprehensively applying data science technologiesand Al technologies,Elsevier utilizes data technologies such as ontologies and knowledge graphs to empower Al applications and product development,facilitating the transformation from data to actionable knowledge and wisdom.Third,targeting key challenges in specialized domains,Elsevier develops knowledge production and analytical decision-making Al products based on domain-specific data platforms and advanced Al technologies,realizing the empowerment of data technology forAl product development. Through analyzing Elsevier’s practical logic and action pathway of empowering Al technology utilization and product development via high-quality data management,this studyprovides valuable references for the digital-intelligent transformation practices of academicpublishing institutionsinChina.
[Key words] Academic publishingDigital-intelligent transformationData technologyAl products
1引言
學(xué)術(shù)出版機(jī)構(gòu)是知識(shí)生產(chǎn)、傳播與服務(wù)的核心主體。當(dāng)前,大數(shù)據(jù)和人工智能(AI)等數(shù)智化技術(shù)快速發(fā)展并與產(chǎn)業(yè)領(lǐng)域深度融合,為我國(guó)學(xué)術(shù)出版業(yè)轉(zhuǎn)型升級(jí)同時(shí)帶來(lái)機(jī)遇和挑戰(zhàn)。按照《出版業(yè)“十四五”時(shí)期發(fā)展規(guī)劃》等行業(yè)發(fā)展要求,我國(guó)學(xué)術(shù)出版機(jī)構(gòu)亟須提升新技術(shù)利用能力,挖掘內(nèi)容和數(shù)據(jù)資源價(jià)值,建立數(shù)智技術(shù)驅(qū)動(dòng)的產(chǎn)品開(kāi)發(fā)和業(yè)務(wù)發(fā)展模式,加快推進(jìn)數(shù)智化轉(zhuǎn)型進(jìn)程。相比之下,具有百余年發(fā)展歷史的國(guó)際領(lǐng)先學(xué)術(shù)出版機(jī)構(gòu),已基本完成數(shù)字化轉(zhuǎn)型,正在快速推進(jìn)由數(shù)字化向數(shù)據(jù)化、智能化轉(zhuǎn)型,其創(chuàng)新發(fā)展經(jīng)驗(yàn)值得借鑒。其中,連續(xù)多年位于全球出版50強(qiáng)第一位、擁有140余年發(fā)展歷史的愛(ài)思唯爾(Elsevier)學(xué)術(shù)出版集團(tuán),近年來(lái)定位于做科學(xué)信息與數(shù)據(jù)分析(scientificinformationanddataanalytics)領(lǐng)域的領(lǐng)先者,創(chuàng)新利用數(shù)據(jù)科學(xué)、人工智能等前沿技術(shù)推進(jìn)產(chǎn)品和業(yè)務(wù)創(chuàng)新,開(kāi)發(fā)能夠解決專業(yè)領(lǐng)域用戶關(guān)鍵難題的人工智能產(chǎn)品,從而推動(dòng)分析與決策工具(analyticsanddecisiontools)類業(yè)務(wù)持續(xù)增長(zhǎng);2024年,該類業(yè)務(wù)已占總收入 40% 左右,成為整體業(yè)務(wù)增長(zhǎng)的主要推動(dòng)力量[1]。
文獻(xiàn)調(diào)研結(jié)果顯示,近年來(lái)關(guān)于數(shù)智技術(shù)快速發(fā)展背景下愛(ài)思唯爾具體業(yè)務(wù)創(chuàng)新實(shí)踐的研究成果相對(duì)較少,因此,本文將深入探究愛(ài)思唯爾以數(shù)據(jù)技術(shù)創(chuàng)新賦能人工智能技術(shù)應(yīng)用和產(chǎn)品開(kāi)發(fā)的理念與實(shí)踐,即如何基于各專業(yè)領(lǐng)域數(shù)據(jù)資源平臺(tái),通過(guò)數(shù)據(jù)技術(shù)創(chuàng)新提升數(shù)據(jù)管理和數(shù)據(jù)利用能力;如何綜合利用數(shù)據(jù)技術(shù)和人工智能技術(shù),以高質(zhì)量數(shù)據(jù)集支持人工智能應(yīng)用和產(chǎn)品開(kāi)發(fā),并以其近三年面向各專業(yè)領(lǐng)域開(kāi)發(fā)的系列人工智能產(chǎn)品為例進(jìn)行具體呈現(xiàn),以此為我國(guó)學(xué)術(shù)出版機(jī)構(gòu)利用前沿技術(shù)推動(dòng)業(yè)務(wù)創(chuàng)新和高質(zhì)量發(fā)展提供借鑒。本文主要資料和數(shù)據(jù)來(lái)自愛(ài)思唯爾近5年年度報(bào)告、2020年至2025年面向投資人發(fā)布的最新數(shù)據(jù)以及官網(wǎng)資料與新聞報(bào)道等。依據(jù)《新一代人工智能發(fā)展規(guī)劃》《關(guān)于促進(jìn)數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見(jiàn)》等政策文件及已有相關(guān)文獻(xiàn),文中數(shù)據(jù)技術(shù)指從數(shù)據(jù)中提取有價(jià)值信息、知識(shí)與智慧的數(shù)據(jù)科學(xué)技術(shù)[2],人工智能產(chǎn)品指利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等人工智能技術(shù),基于高質(zhì)量數(shù)據(jù)集、面向各專業(yè)領(lǐng)域開(kāi)發(fā)的分析與決策類人工智能內(nèi)容產(chǎn)品和服務(wù)產(chǎn)品(或稱工具或應(yīng)用),數(shù)據(jù)技術(shù)創(chuàng)新的目的是為人工智能產(chǎn)品開(kāi)發(fā)提供高質(zhì)量數(shù)據(jù)集。
2提升數(shù)據(jù)科學(xué)技術(shù)創(chuàng)新能力,增強(qiáng)數(shù)據(jù)資源建設(shè)和數(shù)據(jù)管理利用能力
數(shù)據(jù)是人工智能技術(shù)應(yīng)用和產(chǎn)品開(kāi)發(fā)的基礎(chǔ),數(shù)據(jù)技術(shù)創(chuàng)新能夠提供更高質(zhì)量的數(shù)據(jù)為AI技術(shù)所用。愛(ài)思唯爾作為學(xué)術(shù)出版商,面對(duì)技術(shù)的快速更新迭代,一直秉持著技術(shù)可能會(huì)被替代而數(shù)據(jù)永遠(yuǎn)是最寶貴資源的發(fā)展理念,即:數(shù)據(jù)能夠驅(qū)動(dòng)科學(xué)發(fā)現(xiàn),最好的數(shù)字戰(zhàn)略一定是建立在強(qiáng)大的數(shù)據(jù)基礎(chǔ)之上,有組織、有序的數(shù)據(jù)是各領(lǐng)域的創(chuàng)新基礎(chǔ);基于管理有序,來(lái)源可信的數(shù)據(jù)資源,人們能夠得出科學(xué)進(jìn)步的基石一假設(shè),從而做出基于證據(jù)的決策,但只有符合FAIR原則的數(shù)據(jù),即可發(fā)現(xiàn)(findable)、可訪問(wèn)(accessible)、可互操作(interoperable)、可重用(reusable)的數(shù)據(jù),才是真正的數(shù)據(jù)資源。隨著全球科研投入增加和研究人員規(guī)模增長(zhǎng),學(xué)術(shù)文獻(xiàn)數(shù)量激增,各專業(yè)領(lǐng)域人員迫切需要提升通過(guò)管理和分析海量數(shù)據(jù)來(lái)解決領(lǐng)域難題的能力,因此,愛(ài)思唯爾持續(xù)增強(qiáng)數(shù)據(jù)科學(xué)技術(shù)實(shí)力,基于內(nèi)容和數(shù)據(jù)優(yōu)勢(shì),積極利用前沿?cái)?shù)據(jù)技術(shù)開(kāi)展業(yè)務(wù)創(chuàng)新,持續(xù)提高數(shù)據(jù)技術(shù)水平,以更好地幫助用戶搭建“數(shù)據(jù)屋”、夯實(shí)數(shù)據(jù)資源基礎(chǔ)和挖掘數(shù)據(jù)資源價(jià)值。
2.1積累權(quán)威可信數(shù)據(jù),以數(shù)據(jù)科學(xué)團(tuán)隊(duì)支持專業(yè)領(lǐng)域智能分析與決策
針對(duì)研發(fā)機(jī)構(gòu)在利用人工智能技術(shù)時(shí)面臨的“數(shù)據(jù)阻礙”,特別是由于缺乏主題專業(yè)知識(shí)的“垃圾進(jìn)垃圾出”問(wèn)題,愛(ài)思唯爾在基礎(chǔ)數(shù)據(jù)管理領(lǐng)域加大投入,利用長(zhǎng)期積累的經(jīng)過(guò)同行評(píng)議的科學(xué)知識(shí)數(shù)據(jù),開(kāi)發(fā)高質(zhì)量、有代表性、公平公正,符合應(yīng)用規(guī)范的數(shù)據(jù)集,基于數(shù)據(jù)集面向各領(lǐng)域開(kāi)展數(shù)據(jù)科學(xué)與數(shù)據(jù)分析項(xiàng)目,支持AI模型基于高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練、以科學(xué)準(zhǔn)確的方式運(yùn)行,輔助用戶開(kāi)展分析決策、解決業(yè)務(wù)難題。以2023年為例,愛(ài)思唯爾能夠提供來(lái)自化學(xué)、生物學(xué)等22個(gè)學(xué)科領(lǐng)域的數(shù)據(jù)集供用戶使用,主要包括:經(jīng)過(guò)同行評(píng)議的約1900萬(wàn)篇期刊論文全文、1700萬(wàn)份作者檔案、18億條被引文獻(xiàn)、3.33億個(gè)化學(xué)物質(zhì)和反應(yīng)、8600萬(wàn)個(gè)生物活性和生物醫(yī)療記錄,以及3500萬(wàn)個(gè)化學(xué)專利等[3]。此外,相關(guān)行業(yè)領(lǐng)導(dǎo)者也樂(lè)于授權(quán)愛(ài)思唯爾使用其數(shù)據(jù)來(lái)共同服務(wù)用戶。愛(ài)思唯爾內(nèi)容與創(chuàng)新團(tuán)隊(duì)機(jī)器學(xué)習(xí)工程師迪普·卡婭(DeepKayal)表示,愛(ài)思唯爾的海量數(shù)據(jù)是一座信息的金礦,是愛(ài)思唯爾的核心競(jìng)爭(zhēng)力所在[4。愛(ài)思唯爾企業(yè)市場(chǎng)業(yè)務(wù)主管吉諾·優(yōu)賽(GinoUssi)表示,研發(fā)密集型業(yè)務(wù)需要前沿?cái)?shù)據(jù)科學(xué)技術(shù)的驅(qū)動(dòng),為了實(shí)現(xiàn)高質(zhì)量的數(shù)據(jù)分析和構(gòu)建經(jīng)過(guò)良好訓(xùn)練的AI模型,愛(ài)思唯爾的數(shù)據(jù)科學(xué)家花費(fèi)大量時(shí)間獲取高質(zhì)量數(shù)據(jù)[5]。
愛(ài)思唯爾組建由領(lǐng)域?qū)<液蛿?shù)據(jù)科學(xué)專家組成的團(tuán)隊(duì),為用戶數(shù)據(jù)管理項(xiàng)目提供數(shù)據(jù)技術(shù)支持,采用本體管理、文本分析和語(yǔ)義搜索等技術(shù),幫助用戶查找、管理和利用數(shù)據(jù),通過(guò)API或平面文件形式靈活交付數(shù)據(jù)集,支持用戶基于數(shù)據(jù)集開(kāi)發(fā)知識(shí)圖譜、構(gòu)建預(yù)測(cè)模型、訓(xùn)練算法和神經(jīng)網(wǎng)絡(luò),以實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)創(chuàng)新。愛(ài)思唯爾生命科學(xué)部門(mén)數(shù)據(jù)科學(xué)業(yè)務(wù)主管馬克·希恩(MarkSheehan)表示,愛(ài)思唯爾的數(shù)據(jù)集將來(lái)自權(quán)威學(xué)術(shù)文獻(xiàn)信息源的數(shù)據(jù)嵌入用戶研發(fā)和業(yè)務(wù)工作流程中,研究人員可以在愛(ài)思唯爾團(tuán)隊(duì)支持下快速開(kāi)展由數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)項(xiàng)目,實(shí)現(xiàn)基于權(quán)威數(shù)據(jù)集的數(shù)據(jù)洞察[。典型如制藥公司可以利用數(shù)據(jù)集確定優(yōu)先藥物候選方案。
2.2收購(gòu)數(shù)據(jù)管理公司,利用本體技術(shù)為用戶搭建“數(shù)據(jù)屋”
2020年,愛(ài)思唯爾收購(gòu)總部位于英國(guó)的賽拜特(SciBite)語(yǔ)義分析軟件公司。賽拜特成立于2011年,以“數(shù)據(jù)為王”為核心理念,將基礎(chǔ)數(shù)據(jù)管理作為核心業(yè)務(wù),基于愛(ài)思唯爾在數(shù)據(jù)方面的標(biāo)準(zhǔn)開(kāi)展數(shù)據(jù)管理,利用本體等前沿?cái)?shù)據(jù)技術(shù)為用戶搭建“數(shù)據(jù)屋”(datahouse),幫助用戶從數(shù)據(jù)中獲得價(jià)值,為業(yè)務(wù)創(chuàng)新提供支持[7]。愛(ài)思唯爾收購(gòu)賽拜特的舉措,旨在提升愛(ài)思唯爾的數(shù)據(jù)技術(shù)創(chuàng)新能力,利用賽拜特從語(yǔ)義角度進(jìn)行數(shù)據(jù)分析的能力,更好地組織管理愛(ài)思唯爾的科學(xué)文獻(xiàn)內(nèi)容,將其轉(zhuǎn)化為便于利用的高質(zhì)量科學(xué)數(shù)據(jù)。
本體是指人為生成的、機(jī)器可識(shí)別的對(duì)知識(shí)的描述,是大數(shù)據(jù)時(shí)代實(shí)現(xiàn)科學(xué)數(shù)據(jù)管理的關(guān)鍵工具[8]。賽拜特將本體作為數(shù)據(jù)管理核心技術(shù),在本體基礎(chǔ)上搭建業(yè)務(wù),被愛(ài)思唯爾收購(gòu)后,使用本體重新組織愛(ài)思唯爾的海量科學(xué)數(shù)據(jù),將愛(ài)思唯爾的非結(jié)構(gòu)化內(nèi)容轉(zhuǎn)化為有序的機(jī)器可讀數(shù)據(jù),幫助用戶“從數(shù)據(jù)中提取理解”,即從科學(xué)文獻(xiàn)中提取知識(shí)。賽拜特本體業(yè)務(wù)主管簡(jiǎn)·洛馬克斯(JaneLomax)博士擁有超過(guò)20年的FAIR數(shù)據(jù)和知識(shí)本體開(kāi)發(fā)經(jīng)驗(yàn),她表示,本體是對(duì)事物進(jìn)行分類,能夠提供世界圖景的表征或模型,呈現(xiàn)世界上的事物以及它們之間的關(guān)系,從而更好地組織世界,她認(rèn)為“現(xiàn)代科學(xué)中的文字太多了,不僅已發(fā)表的論文數(shù)量在增加,生成數(shù)據(jù)的方式也在增加,人們不可能自己處理這些信息。而本體提供了對(duì)科學(xué)語(yǔ)言的一致和結(jié)構(gòu)化的理解,是對(duì)科學(xué)事實(shí)的編纂”[9]。
2.3通過(guò)四個(gè)環(huán)節(jié)完成基于本體的基礎(chǔ)數(shù)據(jù)管理
創(chuàng)建本體是數(shù)據(jù)管理的關(guān)鍵環(huán)節(jié)。賽拜特通過(guò)本體管理、文本分析、數(shù)據(jù)整理和語(yǔ)義搜索四個(gè)環(huán)節(jié),開(kāi)發(fā)文本分析和數(shù)據(jù)強(qiáng)化工具,幫助用戶進(jìn)行基礎(chǔ)數(shù)據(jù)整理,生成機(jī)器可讀的純凈數(shù)據(jù)、釋放非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值。其中,本體管理,開(kāi)發(fā)CENtree本體管理平臺(tái),提高本體生成和編輯能力;文本分析,開(kāi)發(fā)TERMite實(shí)體識(shí)別、標(biāo)記和提取引擎工具,可以在短時(shí)間內(nèi)對(duì)數(shù)百萬(wàn)份文件進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)映射到公共本體以提高互操作性;表格數(shù)據(jù)整理,根據(jù)術(shù)語(yǔ)標(biāo)準(zhǔn)幫助用戶注釋和清理表格數(shù)據(jù);語(yǔ)義搜索,開(kāi)發(fā)“賽拜特搜索”(SciBiteSearch)工具搜索多種來(lái)源數(shù)據(jù),自動(dòng)進(jìn)行語(yǔ)義豐富和注釋,利用特定領(lǐng)域的本體回答復(fù)雜問(wèn)題并建立語(yǔ)義關(guān)聯(lián)的文檔網(wǎng)絡(luò),依托行業(yè)專家?guī)椭脩艚⒃~匯表和訓(xùn)練集,開(kāi)發(fā)和部署深度學(xué)習(xí)模型[10]。
為了更好地理解數(shù)據(jù),賽拜特投入大量人力進(jìn)行本體構(gòu)建,將愛(ài)思唯爾擁有的各領(lǐng)域主題專家作為生產(chǎn)高質(zhì)量數(shù)據(jù)的核心主體,組建專家團(tuán)隊(duì)構(gòu)建各專業(yè)領(lǐng)域本體,主要負(fù)責(zé)識(shí)別和驗(yàn)證知識(shí),將專業(yè)知識(shí)編碼到軟件中,讓人和機(jī)器使用相同的語(yǔ)言來(lái)“談?wù)摗笨茖W(xué)問(wèn)題,從而大規(guī)模地從文獻(xiàn)中提取對(duì)信息的理解[11]。如生命科學(xué)領(lǐng)域本體專家團(tuán)隊(duì)由計(jì)算機(jī)科學(xué)家、生物學(xué)家、哲學(xué)家等相關(guān)人員組成。賽拜特?cái)?shù)據(jù)科學(xué)與專業(yè)服務(wù)主管喬·馬倫(JoeMullen)表示,本體作為知識(shí)域的形式表示,以便于計(jì)算的格式捕獲人類知識(shí),以可擴(kuò)展的方式利用主題專家的最新知識(shí)體系完成數(shù)據(jù)分析[12]。
3融合利用數(shù)據(jù)科學(xué)技術(shù)與人工智能技術(shù),推動(dòng)從數(shù)據(jù)向智慧的升級(jí)
人工智能技術(shù)應(yīng)用和產(chǎn)品開(kāi)發(fā)依托于高質(zhì)量數(shù)據(jù)的支持,當(dāng)前各行業(yè)均面臨高質(zhì)量數(shù)據(jù)缺乏的問(wèn)題?;诿磕晟a(chǎn)的大量科研出版物,愛(ài)思唯爾技術(shù)團(tuán)隊(duì)利用AI和數(shù)據(jù)技術(shù)從科學(xué)文獻(xiàn)中提取關(guān)鍵信息,運(yùn)用自然語(yǔ)言處理技術(shù)訓(xùn)練機(jī)器學(xué)習(xí)模型,為專業(yè)領(lǐng)域決策提供從數(shù)據(jù)中提取有洞察力的知識(shí)。愛(ài)思唯爾高級(jí)數(shù)據(jù)開(kāi)發(fā)專家阿妮·塔戈拉(AnithaGolla)博士表示,傳統(tǒng)上要從文獻(xiàn)文本和圖片內(nèi)容中提取專業(yè)事實(shí)類信息,只能雇用一批學(xué)術(shù)專家來(lái)逐頁(yè)逐行閱讀上百萬(wàn)份文獻(xiàn),而愛(ài)思唯爾運(yùn)用數(shù)據(jù)科學(xué)將這個(gè)過(guò)程自動(dòng)化,數(shù)據(jù)技術(shù)團(tuán)隊(duì)確保人們以最快最有效的方式獲取并利用科學(xué)文獻(xiàn)中有價(jià)值的內(nèi)容[13]。
3.1融合利用人工智能和本體技術(shù),將科學(xué)數(shù)據(jù)作為大語(yǔ)言模型應(yīng)用基礎(chǔ)
雖然生成式人工智能(GenAI)浪潮已席卷全球,但數(shù)據(jù)科學(xué)的核心一基礎(chǔ)數(shù)據(jù)管理,永遠(yuǎn)是最重要的,有序的數(shù)據(jù)可以讓用戶敏捷地開(kāi)展創(chuàng)新一無(wú)論是應(yīng)用機(jī)器學(xué)習(xí)、大語(yǔ)言模型還是其他人工智能技術(shù)[14]。愛(ài)思唯爾利用本體技術(shù)支持人工智能開(kāi)展數(shù)據(jù)分析,如利用生物醫(yī)學(xué)本體為藥物發(fā)現(xiàn)算法提供支持。賽拜特?cái)?shù)據(jù)科學(xué)與專業(yè)服務(wù)總監(jiān)喬·馬倫表示,技術(shù)表現(xiàn)出不同程度的壽命,在這種動(dòng)態(tài)環(huán)境中,不變的是數(shù)據(jù),在大語(yǔ)言模型時(shí)代,愛(ài)思唯爾基于本體的數(shù)據(jù)管理能力將成為用戶利用大語(yǔ)言模型技術(shù)進(jìn)行產(chǎn)品和業(yè)務(wù)創(chuàng)新的基礎(chǔ)[15]。2024年,愛(ài)思唯爾舉行“創(chuàng)新中的人工智能:利用數(shù)據(jù)驅(qū)動(dòng)的人工智能解鎖研發(fā)”系列研討會(huì),闡述愛(ài)思唯爾如何許可、交付和更新用于生成式人工智能的數(shù)據(jù)[16]。
在必須基于證據(jù)進(jìn)行決策的領(lǐng)域,決策需要以可解釋的方式計(jì)算得出并需注明出處,考慮到基于大語(yǔ)言模型的生成式人工智能應(yīng)用會(huì)產(chǎn)生虛假信息,大語(yǔ)言模型只能是解決方案的一部分。為了提升人工智能應(yīng)用和產(chǎn)品開(kāi)發(fā)效果,愛(ài)思唯爾應(yīng)用本體技術(shù)為大語(yǔ)言模型提供核心科學(xué)知識(shí),基于高質(zhì)量的數(shù)據(jù)整理,支持用戶更好地利用人工智能產(chǎn)品實(shí)現(xiàn)可解釋的循證決策。賽拜特本體業(yè)務(wù)主管簡(jiǎn)·洛馬克斯表示,本體技術(shù)比大語(yǔ)言模型存在的時(shí)間要長(zhǎng)得多,本體代表已經(jīng)得到人們認(rèn)同的事實(shí),而人工智能必須將世界上的基本事實(shí)內(nèi)置其中,因此,把本體“喂給”人工智能應(yīng)用,提供已經(jīng)驗(yàn)證為真的信息,可以使其輸出的內(nèi)容可解釋、可重復(fù),幫助人們更好地理解世界[17]。遵循這樣的產(chǎn)品開(kāi)發(fā)理念,2024年5月,愛(ài)思唯爾推出由本體技術(shù)驅(qū)動(dòng)的人工智能搜索產(chǎn)品“賽拜特對(duì)話”(SciBiteChat),應(yīng)用基于本體的帶有檢索增強(qiáng)生成架構(gòu)的語(yǔ)義網(wǎng),基于愛(ài)思唯爾的高質(zhì)量科學(xué)文本,通過(guò)本體中捕獲的領(lǐng)域?qū)I(yè)知識(shí)來(lái)生成高質(zhì)量數(shù)據(jù)集,將語(yǔ)義搜索在準(zhǔn)確和可追溯信息檢索方面的優(yōu)勢(shì)與大語(yǔ)言模型相結(jié)合,使得大語(yǔ)言模型成為一種可解釋的人工智能解決方案,將生成式AI建立在高質(zhì)量?jī)?nèi)容之上[18]。
3.2融合利用人工智能和知識(shí)圖譜技術(shù),以知識(shí)模型支持循證智能決策
知識(shí)圖譜作為以圖形結(jié)構(gòu)組織、存儲(chǔ)和表示知識(shí)的數(shù)據(jù)科學(xué)技術(shù),是表征機(jī)器能夠處理的實(shí)體及其關(guān)系的數(shù)據(jù)結(jié)構(gòu)和語(yǔ)義網(wǎng)絡(luò)。愛(ài)思唯爾在基于本體構(gòu)建知識(shí)圖譜的基礎(chǔ)上,整合運(yùn)用知識(shí)圖譜和大語(yǔ)言模型技術(shù),充分發(fā)揮知識(shí)圖譜的數(shù)據(jù)組織與管理優(yōu)勢(shì),在為AI和機(jī)器學(xué)習(xí)提供數(shù)據(jù)資源的同時(shí),利用人工智能技術(shù)提升知識(shí)圖譜在知識(shí)表示與推理方面的科學(xué)性,構(gòu)建復(fù)雜知識(shí)模型,從而推動(dòng)從數(shù)據(jù)向智慧的升級(jí)。
首先,愛(ài)思唯爾利用本體等數(shù)據(jù)技術(shù),構(gòu)建能夠呈現(xiàn)數(shù)據(jù)背后復(fù)雜機(jī)制的知識(shí)圖譜。第一步是將不同數(shù)據(jù)源中的等效概念映射到本體,產(chǎn)生可由機(jī)器處理的共享詞匯表;第二步是應(yīng)用語(yǔ)義注釋工具掃描大量科學(xué)出版物,將科學(xué)概念規(guī)范化為唯一的實(shí)體ID,呈現(xiàn)在知識(shí)圖譜中。愛(ài)思唯爾充分發(fā)揮知識(shí)圖譜基于邏輯進(jìn)行數(shù)據(jù)整理和組織的優(yōu)勢(shì),支持用戶對(duì)實(shí)體之間的復(fù)雜關(guān)系進(jìn)行搜索和可視化分析,如根據(jù)愛(ài)思唯爾生物學(xué)知識(shí)圖譜數(shù)據(jù)制作的?;鶊D,可以顯示子宮內(nèi)膜癌與藥物、蛋白質(zhì)等實(shí)體之間的關(guān)系。愛(ài)思唯爾數(shù)據(jù)科學(xué)家迪克爾·哈斯德米爾(DicleHasdemir)表示,很多領(lǐng)域的數(shù)據(jù)有限且稀疏,用戶面臨如何基于有限數(shù)據(jù)對(duì)復(fù)雜系統(tǒng)進(jìn)行知識(shí)建模的挑戰(zhàn),愛(ài)思唯爾基于研究人員發(fā)表論文時(shí)對(duì)數(shù)據(jù)和結(jié)論的解釋,利用機(jī)器理解(語(yǔ)義)方法從海量論文中提取解決路徑類知識(shí),基于有限數(shù)據(jù)為知識(shí)圖譜添加機(jī)制與因果關(guān)系,提升科研人員依據(jù)知識(shí)圖譜解決復(fù)雜問(wèn)題的能力。
其次,愛(ài)思唯爾整合運(yùn)用知識(shí)圖譜與大語(yǔ)言模型,支持用戶開(kāi)展由知識(shí)圖譜支持的循證決策。知識(shí)圖譜能夠捕捉事實(shí),這對(duì)于需要進(jìn)行循證決策的領(lǐng)域至關(guān)重要。鑒于開(kāi)源大語(yǔ)言模型無(wú)法保證知識(shí)的準(zhǔn)確性,愛(ài)思唯爾將知識(shí)圖譜作為可靠數(shù)據(jù)源的優(yōu)勢(shì),與大語(yǔ)言模型將自然語(yǔ)言查詢轉(zhuǎn)換為知識(shí)圖譜查詢工具的能力結(jié)合起來(lái),為需要進(jìn)行循證決策的領(lǐng)域提供支持。同時(shí),利用大語(yǔ)言模型提升知識(shí)圖譜生成效果,通過(guò)問(wèn)答界面對(duì)多個(gè)知識(shí)圖譜進(jìn)行迭代查詢,使各類知識(shí)水平的用戶都能從知識(shí)圖譜中獲益。在為用戶提供定制化知識(shí)圖譜的基礎(chǔ)上,愛(ài)思唯爾基于知識(shí)圖譜應(yīng)用人工智能技術(shù),遵循“數(shù)據(jù)一信息-知識(shí)-智慧”(DIKW)金字塔的數(shù)據(jù)管理邏輯,支持用戶從數(shù)據(jù)中提煉能夠促進(jìn)業(yè)務(wù)創(chuàng)新的信息、知識(shí)與智慧[19]。
3.3成立整合數(shù)據(jù)科學(xué)與AI領(lǐng)域?qū)<业膶?shí)驗(yàn)室,運(yùn)用人工智能從數(shù)據(jù)中提取知識(shí)
為了更好地利用人工智能技術(shù)從數(shù)據(jù)中提取知識(shí),2016年,愛(ài)思唯爾與阿姆斯特丹數(shù)據(jù)科學(xué)網(wǎng)絡(luò)組織(AmsterdamDataScience)簽署合作協(xié)議,共同開(kāi)展數(shù)據(jù)科學(xué)技術(shù)研發(fā)[20]。愛(ài)思唯爾與阿姆斯特丹數(shù)據(jù)科學(xué)網(wǎng)絡(luò)組織的發(fā)起機(jī)構(gòu)阿姆斯特丹大學(xué)、阿姆斯特丹自由大學(xué)等機(jī)構(gòu)聯(lián)合成立AI實(shí)驗(yàn)室(AILab),實(shí)驗(yàn)室作為數(shù)據(jù)科學(xué)與AI知識(shí)中心,是阿姆斯特丹人工智能創(chuàng)新中心的一部分,致力于運(yùn)用機(jī)器智能驅(qū)動(dòng)科學(xué)發(fā)現(xiàn)。愛(ài)思唯爾數(shù)據(jù)科學(xué)和研究?jī)?nèi)容運(yùn)營(yíng)業(yè)務(wù)主管喬治·察薩諾尼斯(GeorgiosTsatsaronis)與阿姆斯特丹大學(xué)算法數(shù)據(jù)科學(xué)教授保羅·格魯斯(PaulGroth)共同負(fù)責(zé)建設(shè)實(shí)驗(yàn)室,人工智能創(chuàng)新中心為實(shí)驗(yàn)室提供人工智能技術(shù)支持,實(shí)驗(yàn)室整合AI、數(shù)據(jù)科學(xué)等領(lǐng)域?qū)<遥趯?duì)愛(ài)思唯爾內(nèi)容和數(shù)據(jù)的深度挖掘,高效地利用人工智能從論文等非結(jié)構(gòu)化數(shù)據(jù)中識(shí)別和理解有用信息,共同解決學(xué)術(shù)與社會(huì)問(wèn)題。
AI實(shí)驗(yàn)室的核心任務(wù)之一是運(yùn)用AI和知識(shí)圖譜技術(shù)推動(dòng)科學(xué)發(fā)現(xiàn)進(jìn)程,利用機(jī)器學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)為愛(ài)思唯爾多個(gè)平臺(tái)開(kāi)發(fā)知識(shí)圖譜工具、完善知識(shí)圖譜模型,以更好地呈現(xiàn)愛(ài)思唯爾ScienceDirect文獻(xiàn)數(shù)據(jù)庫(kù)、瑞科思(Reaxys)化學(xué)數(shù)據(jù)庫(kù)、恩智特(Entellect)藥物數(shù)據(jù)庫(kù)等平臺(tái)的內(nèi)容,為科研人員搭建能夠提供可操作知識(shí)的科研知識(shí)平臺(tái),使知識(shí)圖譜成為科研工作的基礎(chǔ)設(shè)施。察薩諾尼斯博士認(rèn)為,建立AI實(shí)驗(yàn)室的目的是幫助研究人員更好地利用愛(ài)思唯爾的數(shù)據(jù)內(nèi)容,更高效地理解數(shù)據(jù)和生成假設(shè),從研究文獻(xiàn)中獲取研究洞察力[21]。
3.4加大與外部技術(shù)團(tuán)隊(duì)合作力度,提升數(shù)據(jù)科學(xué)和人工智能技術(shù)水平
當(dāng)前,愛(ài)思唯爾在全球擁有約9500位員工,其中約2500位是技術(shù)人員[22],體現(xiàn)出其以技術(shù)創(chuàng)新支撐業(yè)務(wù)發(fā)展的戰(zhàn)略布局。為了提升數(shù)據(jù)技術(shù)和人工智能應(yīng)用能力,愛(ài)思唯爾持續(xù)擴(kuò)大數(shù)據(jù)科學(xué)和人工智能技術(shù)人員隊(duì)伍,積極推動(dòng)人工智能技術(shù)和數(shù)據(jù)技術(shù)的綜合運(yùn)用,其中,多位主管是數(shù)據(jù)科學(xué)和人工智能領(lǐng)域?qū)<?,擁有相關(guān)領(lǐng)域博士學(xué)位。此外,愛(ài)思唯爾積極與以大學(xué)為主體的外部技術(shù)力量合作,基于合作項(xiàng)目持續(xù)提升綜合運(yùn)用人工智能和數(shù)據(jù)科學(xué)技術(shù)處理學(xué)術(shù)文獻(xiàn)的能力,提升運(yùn)用算法從語(yǔ)義角度處理復(fù)雜學(xué)術(shù)文獻(xiàn)的效果,從數(shù)據(jù)中提煉信息和知識(shí)、開(kāi)發(fā)解決方案,為專業(yè)領(lǐng)域提供決策支持。除了組建合作團(tuán)隊(duì),愛(ài)思唯爾還會(huì)開(kāi)放機(jī)器學(xué)習(xí)在文獻(xiàn)信息提煉和文本挖掘方面的成果,公開(kāi)標(biāo)注資源,推動(dòng)數(shù)據(jù)科學(xué)技術(shù)發(fā)展。
4基于內(nèi)容和數(shù)據(jù)平臺(tái),為專業(yè)領(lǐng)域開(kāi)發(fā)分析與決策類人工智能產(chǎn)品
近年來(lái),愛(ài)思唯爾聚焦于推動(dòng)分析與決策類業(yè)務(wù)持續(xù)快速增長(zhǎng),使其成為整體業(yè)務(wù)增長(zhǎng)的驅(qū)動(dòng)力量。隨著人工智能技術(shù)的發(fā)展,在持續(xù)提升數(shù)據(jù)科學(xué)技術(shù)水平、增強(qiáng)數(shù)據(jù)管理能力的基礎(chǔ)上,愛(ài)思唯爾以數(shù)據(jù)為核心資源、以人工智能為驅(qū)動(dòng),將權(quán)威可信的同行評(píng)審內(nèi)容與人工智能的數(shù)據(jù)分析能力結(jié)合起來(lái),第一時(shí)間將生成式人工智能等前沿技術(shù)應(yīng)用到產(chǎn)品創(chuàng)新中,為教育、科研、生命科學(xué)等專業(yè)領(lǐng)域開(kāi)發(fā)分析與決策類人工智能產(chǎn)品,以基于數(shù)據(jù)生成的知識(shí)和智慧推動(dòng)科學(xué)、技術(shù)和醫(yī)學(xué)發(fā)展。
4.1基于斯高帕斯(Scopus)文獻(xiàn)摘要與引文平臺(tái),開(kāi)發(fā)研究決策支持類人工智能產(chǎn)品
斯高帕斯摘要和引文數(shù)據(jù)庫(kù)涵蓋來(lái)自全球7000多家出版商的2.7萬(wàn)多種學(xué)術(shù)期刊內(nèi)容[23],為了幫助科研人員基于海量文獻(xiàn)快速準(zhǔn)確地獲得研究見(jiàn)解,經(jīng)過(guò)與研究界用戶共同開(kāi)發(fā)和測(cè)試,愛(ài)思唯爾將斯高帕斯中經(jīng)過(guò)同行評(píng)議的內(nèi)容數(shù)據(jù)與AI技術(shù)相結(jié)合,在2024年1月推出由生成式人工智能和大語(yǔ)言模型技術(shù)驅(qū)動(dòng)的智能搜索產(chǎn)品—ScopusAI,核心功能包括:一是為研究人員提供值得信任的研究摘要,在數(shù)秒內(nèi)將數(shù)十年的研究發(fā)現(xiàn)合成提煉為清晰的論文摘要,特別是突出文獻(xiàn)體現(xiàn)出來(lái)的研究空白,基于斯高帕斯經(jīng)過(guò)驗(yàn)證的知識(shí),ScopusAI將出現(xiàn)“幻覺(jué)”(AI生成的虛假信息)的風(fēng)險(xiǎn)降至最低,生成內(nèi)容都附有相應(yīng)學(xué)術(shù)參考文獻(xiàn);二是為科研人員推薦值得“進(jìn)一步研究”的問(wèn)題并提供原始研究鏈接,識(shí)別各領(lǐng)域的學(xué)術(shù)專家資源供研究人員開(kāi)展進(jìn)一步學(xué)習(xí);三是以人類自然對(duì)話的方式回復(fù)科研人員提出的問(wèn)題,并對(duì)搜索結(jié)果進(jìn)行可視化呈現(xiàn)。
4.2基于ScienceDirect文獻(xiàn)平臺(tái),開(kāi)發(fā)文獻(xiàn)精準(zhǔn)推薦類人工智能產(chǎn)品
愛(ài)思唯爾數(shù)據(jù)顯示,當(dāng)前科學(xué)文獻(xiàn)產(chǎn)出量持續(xù)增長(zhǎng),呈現(xiàn)出約每17年翻倍增長(zhǎng)的態(tài)勢(shì),隨之而來(lái)的挑戰(zhàn)是用戶找到有用學(xué)術(shù)文獻(xiàn)的難度越來(lái)越大,就像在“干草堆里找一根針”,因此,ScienceDirect平臺(tái)開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用“精準(zhǔn)推薦”(LearningtoRank),幫助用戶從海量文獻(xiàn)中找到最需要的“那根針”,通過(guò)搜索超過(guò)1800萬(wàn)篇論文和篇章,為用戶推薦6篇系統(tǒng)認(rèn)為最符合用戶需求的文獻(xiàn);推薦工具根據(jù)用戶過(guò)往搜索行為和論文特征來(lái)完成尋找過(guò)程,先根據(jù)平臺(tái)記錄的過(guò)往用戶行為進(jìn)行協(xié)同過(guò)濾,再根據(jù)論文主題、引用網(wǎng)絡(luò)、出版期刊等要素從第一輪搜索結(jié)果中進(jìn)行篩選,基于這樣的推薦原則對(duì)機(jī)器學(xué)習(xí)應(yīng)用進(jìn)行訓(xùn)練,并將6篇文章按照推薦級(jí)別排序,根據(jù)用戶點(diǎn)擊數(shù)據(jù)迭代改進(jìn)推薦結(jié)果[24]。新冠疫情期間,愛(ài)思唯爾研究?jī)?nèi)容運(yùn)營(yíng)業(yè)務(wù)數(shù)據(jù)科學(xué)團(tuán)隊(duì)開(kāi)發(fā)“ScienceDirect冠狀病毒相關(guān)研究”板塊,面對(duì)研究人員、醫(yī)療專業(yè)人員、政策制定者對(duì)最新科學(xué)進(jìn)展的迫切需求,運(yùn)用機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)方法開(kāi)發(fā)機(jī)器學(xué)習(xí)模型,幫助用戶在ScienceDirect平臺(tái)上搜索論文,由《柳葉刀》(TheLancet)持續(xù)為機(jī)器學(xué)習(xí)系統(tǒng)提供新的訓(xùn)練材料,力求盡可能少地遺漏有用的論文,并為不同類別用戶提供不同信息流,支持用戶合力推進(jìn)研究進(jìn)程[25]。4.3基于善帕思(Sherpath)護(hù)理教育平臺(tái),開(kāi)發(fā)護(hù)理教育服務(wù)類人工智能產(chǎn)品
2024年4月,依托愛(ài)思唯爾的善帕思護(hù)理教學(xué)平臺(tái),健康業(yè)務(wù)部門(mén)推出專為美國(guó)數(shù)十萬(wàn)名護(hù)理專業(yè)學(xué)生設(shè)計(jì)的生成式AI聊天工具一—善帕思AI(SherpathAI),為學(xué)生參加美國(guó)注冊(cè)護(hù)士執(zhí)照考試和臨床實(shí)踐做好準(zhǔn)備,以應(yīng)對(duì)美國(guó)護(hù)理教育面臨的挑戰(zhàn)。善帕思AI將愛(ài)思唯爾的護(hù)理教育內(nèi)容與生成式人工智能相結(jié)合,在課程、備考和臨床實(shí)踐過(guò)渡方面,為學(xué)生和護(hù)士教育工作者提供幫助,已有數(shù)百名用戶參加了分階段測(cè)試和迭代。善帕思AI的產(chǎn)品特點(diǎn)包括:經(jīng)過(guò)驗(yàn)證的護(hù)理教育內(nèi)容、準(zhǔn)確可靠的來(lái)源引用、多樣化的多媒體教程、交互式對(duì)話和個(gè)性化響應(yīng),以及為教師提供課程準(zhǔn)備和教學(xué)策略支持,支持用戶使用自然語(yǔ)言提問(wèn)。愛(ài)思唯爾健康業(yè)務(wù)護(hù)理與健康教育主管布蘭特·戈登(BrentGordon)表示,他們對(duì)生成式人工智能的前景持樂(lè)觀態(tài)度,它能夠擴(kuò)大個(gè)性化學(xué)習(xí),培訓(xùn)更多為實(shí)踐做好準(zhǔn)備的護(hù)士。張伯倫大學(xué)(ChamberlainUniversity)教學(xué)主管賈內(nèi)爾·索科羅維奇(JanelleSokolowich)博士表示,善帕思AI支持教師制定替代性教學(xué)策略,其價(jià)值在于,教師知道學(xué)習(xí)資源是經(jīng)過(guò)驗(yàn)證和準(zhǔn)確的[26]。
4.4基于臨床精鑰(ClinicalKey)醫(yī)療數(shù)據(jù)平臺(tái),開(kāi)發(fā)臨床決策支持類人工智產(chǎn)品
臨床醫(yī)生每天處理大量復(fù)雜病例,在醫(yī)療過(guò)程中亟須精準(zhǔn)可信的循證醫(yī)療信息。2024年1月,愛(ài)思唯爾健康業(yè)務(wù)部門(mén)與醫(yī)療領(lǐng)域人工智能技術(shù)公司開(kāi)放循證(OpenEvidence)、醫(yī)療數(shù)據(jù)信息管理系統(tǒng)開(kāi)發(fā)公司康恩健康(ConeHealth)、新墨西哥大學(xué)和美國(guó)各地3萬(wàn)多名醫(yī)生合作,基于愛(ài)思唯爾臨床精鑰臨床決策支持平臺(tái),將海量醫(yī)療信息語(yǔ)料庫(kù)與生成式AI技術(shù)相結(jié)合,開(kāi)發(fā)生成式人工智能臨床決策支持工具——臨床精鑰AI(ClinicalKeyAI),在臨床治療過(guò)程中為醫(yī)生提供循證分析與決策支持;通過(guò)對(duì)大量研究成果和文獻(xiàn)進(jìn)行總結(jié)分析,支持醫(yī)生通過(guò)自然語(yǔ)言界面快速獲取對(duì)于病情治療和藥物相關(guān)問(wèn)題的回答,并針對(duì)合并癥、當(dāng)前用藥、年齡等患者情況進(jìn)行回復(fù),以及根據(jù)過(guò)往查詢提示后續(xù)可能出現(xiàn)的問(wèn)題。愛(ài)思唯爾健康業(yè)務(wù)總裁簡(jiǎn)·何佐夫(JanHerzhoff)博士表示,臨床精鑰AI是為時(shí)間緊迫的醫(yī)生量身定制的工具,他們需要擁有獲取各類臨床問(wèn)題精確答案的路徑,這些答案應(yīng)以最新最權(quán)威的科學(xué)研究為基礎(chǔ)[27]。新墨西哥大學(xué)首席醫(yī)療信息官杜薩迪·薩拉伽姆(DusadeeSarangarm)表示,臨床精鑰AI不是要取代醫(yī)生的培訓(xùn)、直覺(jué)或?qū)I(yè)知識(shí),而是放大專業(yè)能力的優(yōu)勢(shì),讓世界醫(yī)學(xué)圖書(shū)館觸手可及[28]。
4.5基于瑞科思化學(xué)數(shù)據(jù)平臺(tái),開(kāi)發(fā)合成化學(xué)決策支持類人工智能產(chǎn)品
愛(ài)思唯爾瑞科思化學(xué)數(shù)據(jù)庫(kù)存儲(chǔ)來(lái)自超過(guò)1億份專利文獻(xiàn)和期刊文章的化學(xué)結(jié)構(gòu)、化學(xué)反應(yīng)等信息,為化學(xué)和藥物研發(fā)提供數(shù)據(jù)支持[29]。2024年3月,愛(ài)思唯爾與從事新藥開(kāi)發(fā)相關(guān)的人工智能技術(shù)研發(fā)的艾拓思(Iktos)公司合作,將瑞科思數(shù)據(jù)庫(kù)與人工智能技術(shù)相結(jié)合,推出由人工智能驅(qū)動(dòng)、服務(wù)于藥物發(fā)現(xiàn)的合成化學(xué)類分析與決策產(chǎn)品,幫助制藥公司更快識(shí)別臨床候選藥物,增強(qiáng)愛(ài)思唯爾基于瑞科思平臺(tái)提供化學(xué)解決方案的能力;愛(ài)思唯爾生命科學(xué)解決方案主管米瑞特·艾爾多(MiritEldor)表示,使用瑞科思數(shù)據(jù)庫(kù)高質(zhì)量數(shù)據(jù)訓(xùn)練的預(yù)測(cè)算法和預(yù)測(cè)模型,能夠在人工智能驅(qū)動(dòng)下縮短藥物發(fā)現(xiàn)的時(shí)間和成本[30]。艾拓思首席執(zhí)行官雅恩·加斯頓-麥斯(YannGaston-Mathe)表示,數(shù)據(jù)是人工智能的基礎(chǔ),通過(guò)在瑞科思數(shù)據(jù)庫(kù)基礎(chǔ)上進(jìn)行訓(xùn)練,用戶可在幾分鐘內(nèi)獲得可行性較高的藥物發(fā)現(xiàn)候選路徑,最大限度地提高人工智能對(duì)藥物發(fā)現(xiàn)的推動(dòng)力[31]。
4.6基于化學(xué)專利數(shù)據(jù)平臺(tái),開(kāi)發(fā)化學(xué)專利關(guān)鍵知識(shí)提取類人工智能產(chǎn)品
2022年,愛(ài)思唯爾生命科學(xué)團(tuán)隊(duì)與澳大利亞皇家墨爾本理工大學(xué)的自然語(yǔ)言處理專家卡琳·韋斯普爾(KarinVerspoor)教授團(tuán)隊(duì)合作,開(kāi)展化學(xué)信息學(xué)合作項(xiàng)目,致力于應(yīng)用AI技術(shù)從瑞科思數(shù)據(jù)庫(kù)化學(xué)專利內(nèi)容中自動(dòng)提取化學(xué)反應(yīng)信息。愛(ài)思唯爾生命科學(xué)部門(mén)數(shù)據(jù)科學(xué)專家薩貝·阿康迪(SaberAkhondi)博士表示,化學(xué)專利內(nèi)容是有價(jià)值的信息最早產(chǎn)生的地方,通常專利中的信息需要四年到六年時(shí)間才能在期刊中出版,將這些信息盡早提取并呈現(xiàn)出來(lái),將顯著提升化學(xué)研發(fā)和藥物開(kāi)發(fā)效率。團(tuán)隊(duì)還舉辦了自然語(yǔ)言處理技能挑戰(zhàn)賽,通過(guò)公開(kāi)數(shù)據(jù)集來(lái)激勵(lì)其他擅長(zhǎng)實(shí)體識(shí)別和事件抽取的自然語(yǔ)言處理團(tuán)隊(duì)參與比賽,共同改進(jìn)自然語(yǔ)言處理模型[32]。
4.7在產(chǎn)品開(kāi)發(fā)過(guò)程中開(kāi)展有道德的AI實(shí)踐,使產(chǎn)品成為人類的“助理”
愛(ài)思唯爾制定AI倫理政策(AIEthicsPolicy),在將人工智能技術(shù)嵌入產(chǎn)品時(shí),秉持“負(fù)責(zé)任的人工智能原則”和“隱私原則”[33],確保遵守?cái)?shù)據(jù)隱私與安全標(biāo)準(zhǔn),實(shí)現(xiàn)對(duì)AI技術(shù)合乎道德的運(yùn)用,讓用戶可以充分信任AI產(chǎn)品所使用的信息。以斯高帕斯AI為例,產(chǎn)品開(kāi)發(fā)采用愛(ài)思唯爾私有大語(yǔ)言模型,這意味著沒(méi)有數(shù)據(jù)交換,愛(ài)思唯爾的數(shù)據(jù)不供公開(kāi)模型使用和訓(xùn)練,以此更好地保護(hù)數(shù)據(jù)出版商和作者隱私。愛(ài)思唯爾特別強(qiáng)調(diào),盡管斯高帕斯AI全力做到基于斯高柏斯的數(shù)據(jù)生成可信任內(nèi)容,但仍有可能偶爾出現(xiàn)誤差生成不正確或存在潛在誤導(dǎo)信息的內(nèi)容,甚至是被認(rèn)定帶有偏見(jiàn)或侵犯性的內(nèi)容,因此,希望用戶將斯高帕斯AI作為支持性的研究助理,不應(yīng)該僅依賴斯高帕斯AI的生成結(jié)果來(lái)獲取知識(shí)而不開(kāi)展獨(dú)立研究[34]。愛(ài)思唯爾分析產(chǎn)品和數(shù)據(jù)平臺(tái)主管馬克西姆·可汗(MaximKhan)表示,愛(ài)思唯爾致力于與科學(xué)共同體中的各類主體合作并負(fù)責(zé)任地使用人工智能,共同創(chuàng)建高質(zhì)量數(shù)據(jù)以支持分析決策[35]。
5結(jié)語(yǔ)
數(shù)據(jù)是人工智能的基礎(chǔ),數(shù)據(jù)技術(shù)水平?jīng)Q定著人工智能產(chǎn)品的質(zhì)量。從傳統(tǒng)出版商轉(zhuǎn)型為數(shù)據(jù)和技術(shù)驅(qū)動(dòng)的科學(xué)信息與數(shù)據(jù)分析類解決方案提供商,愛(ài)思唯爾以高質(zhì)量數(shù)據(jù)管理技術(shù)賦能人工智能產(chǎn)品開(kāi)發(fā)的能力發(fā)揮了關(guān)鍵作用,即利用前沿?cái)?shù)據(jù)管理技術(shù)激活數(shù)據(jù)要素價(jià)值,從海量文獻(xiàn)數(shù)據(jù)中提取科學(xué)知識(shí),為用戶提供智能化分析與決策服務(wù),實(shí)現(xiàn)數(shù)據(jù)和人工智能的完美結(jié)合。
當(dāng)前,我國(guó)學(xué)術(shù)出版機(jī)構(gòu)也在積極探索如何將人工智能特別是生成式人工智能技術(shù)嵌入知識(shí)生產(chǎn)傳播與服務(wù)流程中,但面臨著數(shù)據(jù)科學(xué)技術(shù)和人工智能技術(shù)創(chuàng)新應(yīng)用方面的雙重能力不足?;谝陨涎芯浚ㄗh我國(guó)學(xué)術(shù)出版機(jī)構(gòu)基于自身情況對(duì)愛(ài)思唯爾的實(shí)踐邏輯和路徑加以創(chuàng)新性借鑒,抓住國(guó)家正在大力推進(jìn)人工智能和數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的政策機(jī)遇,面向人工智能應(yīng)用和產(chǎn)品開(kāi)發(fā)對(duì)高質(zhì)量數(shù)據(jù)資源的迫切需要,立足各專業(yè)領(lǐng)域用戶關(guān)鍵難題,以學(xué)術(shù)出版機(jī)構(gòu)持續(xù)更新的權(quán)威可信循證內(nèi)容為基礎(chǔ),加快提升數(shù)據(jù)技術(shù)創(chuàng)新能力,積極利用數(shù)據(jù)科學(xué)、人工智能等前沿技術(shù)進(jìn)行產(chǎn)品服務(wù)和業(yè)務(wù)模式創(chuàng)新,將高質(zhì)量?jī)?nèi)容優(yōu)勢(shì)轉(zhuǎn)化為高質(zhì)量數(shù)據(jù)優(yōu)勢(shì),將數(shù)據(jù)優(yōu)勢(shì)轉(zhuǎn)化為知識(shí)生產(chǎn)和決策服務(wù)優(yōu)勢(shì);開(kāi)發(fā)基于可信數(shù)據(jù)的分析與決策類人工智能產(chǎn)品,逐步轉(zhuǎn)型為解決方案類產(chǎn)品提供商,使智能分析與決策服務(wù)類業(yè)務(wù)成為推動(dòng)學(xué)術(shù)出版機(jī)構(gòu)可持續(xù)發(fā)展的核心業(yè)務(wù),從而在“數(shù)據(jù) + 人工智能”雙重驅(qū)動(dòng)下加快推進(jìn)學(xué)術(shù)出版業(yè)從數(shù)字化向數(shù)據(jù)化、智能化轉(zhuǎn)型升級(jí),培育出版業(yè)新質(zhì)生產(chǎn)力。
注釋
[1] RELX2024Annual Report[EB/OL].[2025-02-30].https://www.relx.com/~/media/Files/R/RELX-Group/ documents/reports/annual-reports/relx-2024-annual-report.pdf
[2]國(guó)家發(fā)展改革委等部門(mén)關(guān)于促進(jìn)數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展的指導(dǎo)意見(jiàn)[EB/OL].[2025-01-03].https ∵ //www. gov.cn/zhengce/zhengceku/202412/content_6995430.htm
[3]
[5]
[6]
[17] Elsevier introduces authoritative scientific Datasets to fuel innovationand businesscritical decisions in lifesciences,chemicalsand other research-intensive industries[EB/OL].[2024- 05-30].https://www.elsevier.com/about/press-releases/elsevier-introduces-authoritative-scientificdatasets-to-fuel-innovation-and
[4] 5 reasons to pay attention to machine learning[EB/OL].[2024-04-15].https ∵ //www.elsevier.com/ connect/archive/5-reasons-to-pay-attention-to-machine-learning
[7]
[11]
[14] Today’s innovations are built on organized data[EB/OL].[2024-04-20].https ∵ //www. elsevier.com/connect/todays-innovations-are-built-on-organized-data
[8] 何為本體——本體如何作用于生命科學(xué)領(lǐng)域的數(shù)據(jù)管理[EB/OL].[2024-04-10].https://news.sohu.com/ a/583526091_120728294
[9]Harnessing ontologies for pharma ∵ Dr Jane Lomax on the synergy of Al and scientific expertise[EB/OL].[2024-04-29].https ∵ //www.elsevier.com/connect/harnessing-ontologies-forpharma-dr-jane-lomax-on-the-synergy-of-ai-and-scientific-expertise
[10]解鎖科學(xué)數(shù)據(jù)的技術(shù)[EB/OL].[2024-05-13].https ∵ //www.elsevier.com/zh-cn/products/scibite
[12]
[15] Are ontologies stillrelevant in the age of LLMs?[EB/OL].[2024-05-20].https://scibite.com/ news/are-ontologies-still-relevant-in-the-age-of-llms
[13] Howwe’re using Al to boost productivity for chemistry researchers[EB/OL].[2024-04-08].https :// www.elsevier.com/connect/how-were-using-ai-to-boost-productivity-for-chemistry-researchers
[16] The perils,pitfalls and promise of generative Al for Ramp;D[EB/OL].[2024-04-16].https ∵ //webinars. elsevier.com/elsevier/The-perils-and-pitfals-of-generative-Artificial-Intelligence-for-R-D
[18] Elsevier Introduces SciBite Chat a transformative Al-Powered Semantic Search Tool for Life Sciences[EB/OL].[2024-05-20].https://www.elsevier.com/about/pres-releases/elsevier-introducesscibite-chat-a-transformative-ai-powered-semantic-search
[19] How knowledge graphs can supercharge drug repurposing[EB/OL].[2024-05-19].https://www. elsevier.com/connect/how-knowledge-graphs-can-supercharge-drug-repurposing
[20]Amsterdam Data Science and Elsevier Sign Long-Term Collaboration Agreement to Boost Local Data Science Scene[EB/OL].[2025-02-11].https://www.prnewswire.com/news-releases/amsterdamdata-science-and-elsevier-sign-long-term-colaboration-agreement-to-boost-local-data-sciencescene-599428271.html
[21] How Al and knowledge graphs can make your research easier[EB/OL].[2024-05-11].https :// www.elsevier.com/connect/how-ai-and-knowledge-graphs-can-make-your-research-easier [22] ClinicalKey Al Wins“Al Innovation Award”in 8th Annual MedTech Breakthrough Awards Program[EB/OL].[2024-06-11].https://www.elsevier.com/about/press-releases/clinicalkey-ai-winsai-innovation-award
[23]Launch of Scopus Al to Help Researchers Navigate the World of Research[EB/OL].[2025-03-12]. https://www.elsevier.com/about/pres-releases/launch-of-scopus-ai-to-help-researchers-navigatethe-world-of-research
[24] How we help researchers find that needle[EB/OL].[2024-05-16].https://www.elsevier.com/ connect/how-we-help-researchers-find-that-needle
[25] Behind the scenes of your ScienceDirect COvID search[EB/OL].[2024-05-21].https://www. elsevier.com/connect/behind-the-scenes-of-your-sciencedirect-covid-search
[26] Elsevier Health introduces Sherpath Al to address challenges facing US nursing education[EB/ OL].[2024-06-20].https://www.elsevier.com/about/press-releases/elsevier-health-introducessherpath-ai-to-address-challenges-facing-us
[27] Elsevier Health partners with OpenEvidence todeliver trusted evidence-based clinical content poweredby responsible Alto support physicians’clinical decisions[EB/OL].[2024-06-05].https://www. elsevier.com/about/pres-releases/elsevier-health-partners-with-openevidence-to-deliver-trustedevidence-based
[28]Elsevier Health launches ClinicalKeyAl,themost advanced GenAl-powered clinical decision support tool for clinicians[EB/OL].[2024-06-21].htps://www.elsevier.com/about/press-releases/ elsevier-health-launches-clinicalkey-ai-the-most-advanced-gen-ai-powered
[29][32] Unlocking the powerof chemistrypatentswithAl[EB/OL].[2024-05-25].https://www.elsevier. com/connect/unlocking-the-power-of-chemistry-patents-with-ai
[30][31] Elsevier and Iktospartner to deliveranAl-driven synthetic chemistry platform for drug discovery[EB/OL].[2024-04-10].https://www.elsevier.com/about/press-releases/elsevier-and-iktospartner-to-deliver-an-ai-driven-synthetic-chemistry
[33] Discover theAl breakthroughs in the Elsevier Al Lab[EB/OL].[2024-04-30].https://www.toolify.ai/ ai-news/discover-the-ai-breakthroughs-in-the-elsevier-ai-lab-84131
[34]Scopus Al: Trusted content.Powered byresponsible Al[EB/OL].[2024-04-21].https://www.elsevier. com/products/scopus/scopus-ai
[35]Elsevier takes Scopus to the Next Level with Generative Al[EB/OL].[2024-05-13].https://www. elsevier.com/about/press-releases/research-and-journals/elsevier-takes-scopus-to-the-next-levelwith-generative-ai
(收稿日期:2024-09-21;修回日期:2025-04-20)