陳煦 徐宏宇 楊榮斌
(上海圖書館(上??茖W(xué)技術(shù)情報研究所),上海 200031)
《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》在“強化國家戰(zhàn)略科技力量”中,提出構(gòu)建國家科研論文和科技信息高端交流平臺(以下簡稱“高端交流平臺”)的具體要求。高端交流平臺的提出與60多年前我國科技情報體系的構(gòu)建有著相似之處。1956年,科技情報被《1956—1967年科學(xué)技術(shù)發(fā)展遠(yuǎn)景規(guī)劃》列為第57個重大科技任務(wù),這是科技情報首次被寫入國家規(guī)劃。2020年,高端交流平臺建設(shè)被提出,可以看作對現(xiàn)有科技情報工作的深化和拓展。高端交流平臺的內(nèi)涵尚待深化、細(xì)化,本文從“高端”“交流”“平臺”的字面切入,提出對建設(shè)高端交流平臺的一些思考。
高端交流平臺的內(nèi)容主要來自高水平科技期刊、高質(zhì)量的科學(xué)數(shù)據(jù)等科技信息[1]。過去,Elsevier、Springer、Wiley、IEEE、SAGE五大出版商控制了全球約50%的科學(xué)出版。21世紀(jì),大數(shù)據(jù)、深度學(xué)習(xí)技術(shù)取得突破性進展,以期刊論文、會議論文、科技報告、專利為主的傳統(tǒng)科技信息資源已經(jīng)無法完全滿足科學(xué)研究的需求,科技信息資源逐漸擴大到數(shù)據(jù)、數(shù)據(jù)集、代碼、圖片和視頻等。這給我國建設(shè)高端交流平臺帶來了前所未有的機遇。一方面是數(shù)據(jù)資源的興起,人工智能技術(shù)的快速發(fā)展為科技情報服務(wù)提供了新方法和新工具,科學(xué)研究歷經(jīng)演變逐漸走向數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的第四范式,數(shù)據(jù)類資源的重要性相較于傳統(tǒng)的文本信息不斷增大;另一方面是數(shù)據(jù)資源跨越語言的流通性,傳統(tǒng)文本信息的收集、加工和傳播對英語國家有著得天獨厚的優(yōu)勢,而數(shù)據(jù)科技信息則恰巧弱化了此類優(yōu)勢。
美國的科技信息平臺建設(shè)一直走在國際前沿,很早就開始在科學(xué)數(shù)據(jù)領(lǐng)域布局。2009年,美國總統(tǒng)奧巴馬一就任就簽署了《透明與開放政府》(Transparency and Open Government)備忘錄。同年5月,當(dāng)時剛上任的美國聯(lián)邦首席信息官(CIO)維維克·昆德拉(Vivek Kundra)宣布建立Data.gov網(wǎng)站。該網(wǎng)站由美國總務(wù)管理局下屬技術(shù)轉(zhuǎn)化服務(wù)部(U.S. General Services Administration,Technology Transformation Service)管理和托管,是聯(lián)邦、州、地方和部落政府信息的存儲庫,向公眾開放,旨在改善公眾對聯(lián)邦政府行政部門生成的高價值機器可讀數(shù)據(jù)集的訪問。2016年,美國政府又進一步發(fā)布政府開放代碼平臺Code.gov,開放定制開發(fā)的聯(lián)邦源代碼以供公眾重用。據(jù)美國能源部科技信息辦公室(OSTI)主任布萊恩·希森(Brian A.HITSON)在2019競爭情報上海論壇上的演講可知,美國聯(lián)邦政府每年大約投入1 500億美元用于支持研發(fā),產(chǎn)出的約20萬篇期刊論文、7 000份專利、艾字節(jié)級別的數(shù)據(jù)、6 500個開源軟件項目都可以在Science.gov(收錄所有美國政府機構(gòu)的科技信息)、Data.gov、Code.gov上檢索到,至此,美國聯(lián)邦政府形成文獻、數(shù)據(jù)、代碼三足鼎立的開放科學(xué)格局。
除了美國聯(lián)邦政府層面,在部際層面的科技資源建設(shè)近年來也將建設(shè)重點放在了數(shù)據(jù)和代碼上。以成立于1947年的美國能源部科技信息辦公室為例,雖然與美國國會圖書館、美國國家醫(yī)學(xué)圖書館等老牌圖情機構(gòu)相比成立時間不長,但它在收集、保存、傳播能源部開展的研發(fā)、示范和商業(yè)應(yīng)用活動所產(chǎn)生的科技信息方面的業(yè)績是被業(yè)界認(rèn)可的[2],美國四大科技報告之一的能源系統(tǒng)DOE報告就由其發(fā)布。據(jù)希森介紹,能源部每年投入約120億美元,在全美17家國家實驗室產(chǎn)出超過5萬項的科技信息成果,這些成果統(tǒng)一由OSTI對其進行建設(shè)維護。OSTI為了更好地利用這些數(shù)據(jù)集、圖片、視頻、可視化成果、軟件代碼等各類資源,給每一種特定資源都定制了特殊的檢索工具庫,如期刊文章/收錄手稿(www.osti.gov/pages)、數(shù)據(jù)集(www.osti.gov/dataexplorer)、軟件(代碼)(www.osti.gov/doecode)、專利(www.osti.gov/doepatents)、視頻(www.osti.gov/sciencecinema)。除了各類資源,OSTI在這些成果的索引關(guān)聯(lián)上也動足腦筋,每項成果既有獨立唯一的DOI,也能在頁面上一鍵外鏈到與其相關(guān)的文獻、代碼或數(shù)據(jù),實現(xiàn)資源的跨庫關(guān)聯(lián)。同時,所有的特定資源也可以在總數(shù)據(jù)庫(www.osti.gov)中找到。
伴隨著數(shù)據(jù)時代帶來的科研范式轉(zhuǎn)變,數(shù)據(jù)、軟件、視頻、編程代碼成為科技信息的重要組成部分,將這些信息收集、整合、存儲并關(guān)聯(lián)對資源的使用影響深遠(yuǎn)、意義重大。從近年來美國政府建設(shè)科技信息平臺的經(jīng)驗做法來看,不難發(fā)現(xiàn)科技資源,尤其是包括數(shù)據(jù)、代碼等新興科技信息的多樣化科技資源,是新時代下強化國家戰(zhàn)略科技力量必不可少的基礎(chǔ)設(shè)施。我國的高端交流平臺建設(shè)在補足高水平科技期刊短板的同時,也要抓住科技數(shù)據(jù)發(fā)展的機遇,將數(shù)據(jù)、代碼無縫納入科技信息的大圖景中,重視科技數(shù)據(jù)、代碼的收集、保存和共享。
從上述美國科技信息平臺的建設(shè)經(jīng)驗可以看出,數(shù)據(jù)、代碼等科技數(shù)據(jù)是科學(xué)研究未來的發(fā)展趨勢,也是關(guān)鍵的科研基礎(chǔ)設(shè)施。筆者聚焦科學(xué)數(shù)據(jù)平臺進行了初步檢索,匯總整理了中國科技信息平臺(見表1),主要包括科學(xué)數(shù)據(jù)銀行(Science Data Bank)、數(shù)據(jù)出版學(xué)術(shù)期刊《中國科學(xué)數(shù)據(jù)》、中國科技云、中國科學(xué)院數(shù)據(jù)云、20家國家科學(xué)數(shù)據(jù)中心和31家國家資源庫。其中科學(xué)數(shù)據(jù)銀行、《中國科技數(shù)據(jù)》、中國科技云、中國科學(xué)院數(shù)據(jù)云都由中國科學(xué)院計算機網(wǎng)絡(luò)信息中心建設(shè),前三者都是中英雙語界面,面向國內(nèi)外科研人員。尤其是科學(xué)數(shù)據(jù)銀行,是國內(nèi)唯一一家被施普林格·自然列為推薦的7家通用型數(shù)據(jù)存儲庫之一。中國科技資源共享網(wǎng)由國家科技基礎(chǔ)條件平臺中心建設(shè),匯集了20個國家科學(xué)數(shù)據(jù)中心和31個國家資源庫的科技資源。與國外相比,我國科技數(shù)據(jù)的平臺初具規(guī)模,但幾乎都是國家建設(shè)的科技信息平臺,很少有企業(yè)或民間團體建設(shè)的成型的科技數(shù)據(jù)平臺。以國內(nèi)對標(biāo)谷歌的百度為例,雖然擁有“百度數(shù)據(jù)開放平臺”,但是頁面并無檢索功能,提供的也是一些天氣預(yù)報、列車航班、休閑娛樂等信息,很難說可以為科學(xué)研究提供數(shù)據(jù)支撐。軟件代碼方面,國內(nèi)較為知名的大型科技公司,阿里巴巴、騰訊和華為雖有各自的平臺(阿里云-天池、騰訊云、華為云),但騰訊云和華為云與真正意義上的科學(xué)數(shù)據(jù)平臺相差甚遠(yuǎn)。阿里云-天池呈現(xiàn)出部分?jǐn)?shù)據(jù)平臺的雛形,如提供數(shù)據(jù)集檢索下載,與其他企業(yè)、科研機構(gòu)、大學(xué)合作舉辦算法代碼競賽等,但還遠(yuǎn)未達到能夠服務(wù)于國內(nèi)外科學(xué)研究的水準(zhǔn)。
表1 中國科技信息平臺
在美國科技數(shù)據(jù)平臺的生態(tài)中,除了聯(lián)邦政府和機構(gòu)官方搭建的科技信息平臺,企業(yè)也是平臺建設(shè)的重要主體之一,而且在數(shù)據(jù)集和代碼兩大領(lǐng)域均有布局。數(shù)據(jù)集方面,谷歌公司開發(fā)的谷歌數(shù)據(jù)集搜索引擎(Google Dataset Search),可以檢索各個來源的數(shù)據(jù)集并下載,平臺與包括OSTI在內(nèi)的多個政府機構(gòu)數(shù)據(jù)庫通過DOI相關(guān)聯(lián),數(shù)據(jù)集和索引來源都會標(biāo)注清楚,每一個數(shù)據(jù)源都會有簡介、更新日期、作者、版權(quán)、內(nèi)
容說明、下載鏈接等。深度學(xué)習(xí)視覺領(lǐng)域常用的開源數(shù)據(jù)集MNIST、Imagenet、COCO、CIFAR等也能在谷歌平臺上[3]找到。在處理數(shù)據(jù)集的代碼方面,軟件源代碼托管服務(wù)平臺GitHub在2018年被美國科技公司微軟收購。GitHub是一個典型的協(xié)作平臺,通常用于科學(xué)項目的協(xié)作管理和代碼數(shù)據(jù)的共享,其中GitHub的Jira用于總體項目管理、研究問題的提出,而OmniPlan則用于創(chuàng)建研究的時間表和跟蹤時間[4]。另一家創(chuàng)立于2010年的數(shù)據(jù)建模和數(shù)據(jù)分析競賽平臺Kaggle在2017年被谷歌公司收購,是一家為開發(fā)商和數(shù)據(jù)科學(xué)家提供舉辦機器學(xué)習(xí)競賽、托管數(shù)據(jù)庫、編寫和分享代碼的平臺,吸引了眾多科學(xué)家和開發(fā)者。
除了各自建設(shè)、并購數(shù)據(jù)平臺,企業(yè)和政府機構(gòu)也會合作建設(shè)數(shù)據(jù)平臺。2020年3月16日,艾倫人工智能研究所(AI2)與白宮科技政策辦公室(OSTP)、美國國家醫(yī)學(xué)圖書館(NLM)、陳扎克伯格倡議(CZI)、微軟研究院、數(shù)據(jù)科學(xué)家代碼分享平臺Kaggle,在喬治城大學(xué)安全與新興技術(shù)中心(CSET)的協(xié)調(diào)下,發(fā)布了新冠病毒公開數(shù)據(jù)集(COVID-19 Open Research Dataset,CORD-19)[5]的第一個版本。該數(shù)據(jù)集的資源來自WHO、PMC、bioRxiv等數(shù)據(jù)庫,由艾倫人工智能研究所的語義學(xué)者團隊篩選,組成COVID-19和此前發(fā)現(xiàn)的冠狀病毒(如SARS和MERS)的出版物和預(yù)印本集合,數(shù)據(jù)經(jīng)過清洗和規(guī)范,統(tǒng)一整理為易于自然語言處理的JSON數(shù)據(jù)格式共享,數(shù)據(jù)集每幾天更新一次。CORD-19旨在將機器學(xué)習(xí)社區(qū)與生物醫(yī)學(xué)領(lǐng)域?qū)<液驼咧贫ㄕ呗?lián)系起來,以期為COVID-19確定有效的治療方法和管理政策。數(shù)據(jù)集在跨界的用戶團體和社區(qū)獲得了積極反饋,CORD-19數(shù)據(jù)集在發(fā)布的第一個月內(nèi)被查看超過150萬次,下載超過7.5萬次。多家團體使用數(shù)據(jù)集構(gòu)建了搜索和提取工具。圍繞數(shù)據(jù)集涌現(xiàn)了一個蓬勃發(fā)展的用戶社區(qū),共同討論和共享信息、注釋、項目以及反饋。Kaggle和白宮科技政策辦公室、艾倫人工智能研究所還共同主辦了CORD-19 Research Challenge開放式文本挖掘競賽,參與者的任務(wù)是從CORD-19的論文中提取有關(guān)COVID-19關(guān)鍵科學(xué)問題的答案。另外,還有由艾倫人工智能研究所、美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)、美國國家醫(yī)學(xué)圖書館、俄勒岡健康與科學(xué)大學(xué)(OHSU)和德克薩斯大學(xué)健康科學(xué)中心(UTHealth)共同組織的TREC-COVID信息檢索共享任務(wù)。這項任務(wù)可以評估檢索系統(tǒng)根據(jù)查詢主題,對CORD-19數(shù)據(jù)集中的論文進行相關(guān)性排名的能力。兩項任務(wù)都由生物醫(yī)學(xué)領(lǐng)域的專家來評估數(shù)據(jù)科學(xué)家提交的代碼,評選出的最優(yōu)代碼會被置頂供大家使用和分享。
我國的科技信息平臺建設(shè)起步較早,與國外的基礎(chǔ)設(shè)施平臺相比,差距不像科技期刊那么懸殊,隨著我國在科技信息、人工智能、大數(shù)據(jù)中心建設(shè)等方面不斷發(fā)力,也為日后建設(shè)科技數(shù)據(jù)的高端交流平臺打下了堅實的基礎(chǔ)。同時,也要看到,我國的“國家隊”雖然在科技數(shù)據(jù)的基礎(chǔ)設(shè)施建設(shè)上初見成效,但國內(nèi)企業(yè)在這一領(lǐng)域有所缺席。從美國科技數(shù)據(jù)、代碼平臺的情況可以看到,企業(yè)的科技信息交流平臺和政府創(chuàng)建的科技信息基礎(chǔ)設(shè)施各自面向不同的用戶,在服務(wù)科學(xué)家的科學(xué)發(fā)現(xiàn)、科學(xué)研究的產(chǎn)業(yè)鏈中各司其職,填補不同的空缺。此外,如何在短時間內(nèi)圍繞某一主題集結(jié)各利益相關(guān)方(跨領(lǐng)域的企業(yè)、政府機構(gòu)、公益組織等)構(gòu)建科技信息平臺,如何打通政府、企業(yè)、非營利組織的跨界合作,以及如何跨越不同學(xué)科建立聯(lián)系,將科技信息利用起來轉(zhuǎn)化為對社會有益的成果,CORD-19數(shù)據(jù)集的案例為我們提供了一張路線圖。我國應(yīng)當(dāng)同時加強企業(yè)建設(shè)的高端交流平臺,只有讓更多主體參與到高端交流平臺的建設(shè)中來,才能更好打通企業(yè)和各層級政府的檢索渠道,進一步擴大科技信息的觸及范圍,造福科學(xué)家,助力科學(xué)發(fā)現(xiàn),強化我國戰(zhàn)略科技情報力量。
科技信息平臺最終是為了實現(xiàn)科學(xué)家之間快速、有效的交流——獲得信息,同時傳播自己的研究成果。對于科技信息資源的利用和信息獲取,過去科學(xué)家主要通過閱讀文獻來了解最新科研進展并進行創(chuàng)新,科學(xué)研究的主體依然是科學(xué)家。人工智能的快速發(fā)展,加上新冠疫情給科學(xué)研究帶來的緊迫性,使得當(dāng)前科學(xué)研究呈現(xiàn)出了某種范式上的轉(zhuǎn)變——科學(xué)家需要更快速地開展工作,而全球新冠疫情期間產(chǎn)生的科學(xué)研究和論文數(shù)量驚人,大大超出了任何人吸收消化信息的能力[6]。于是,快速從文獻和數(shù)據(jù)中獲取信息的研究變得非常重要,換言之,科學(xué)研究不再只是科學(xué)家的事,定制化的數(shù)據(jù)分析處理工具和科技情報人員,尤其是擅長人工智能、機器學(xué)習(xí)、自然語義處理等技術(shù)的情報人員,將在科學(xué)研究中扮演更重要的角色,甚至成為科學(xué)研究不可或缺的環(huán)節(jié)。
這一趨勢早有端倪,美國化學(xué)文摘社的SciFinder,斯普林格-自然出版集團的SpringerMaterials、AdisInsight,愛思唯爾的Reaxys、Knovel、ClinicalKey等,這些學(xué)術(shù)出版機構(gòu)的產(chǎn)品經(jīng)過專業(yè)人員的整編后不再是簡單的數(shù)據(jù)庫,而是實現(xiàn)了相關(guān)知識內(nèi)容的集成匯聚,成為化學(xué)物質(zhì)、化學(xué)反應(yīng)、材料研究、藥物研發(fā)等研究領(lǐng)域有用的專業(yè)知識工具。有些工具已經(jīng)經(jīng)過實踐驗證,CAS利用自身已有的大規(guī)模、高質(zhì)量的化學(xué)反應(yīng)數(shù)據(jù)支持Bayer公司對相關(guān)化合物合成方案可行性的預(yù)測,結(jié)果顯示預(yù)測的準(zhǔn)確率提高了32個百分點[7]。
新冠疫情加速了這一趨勢。首先是科學(xué)家的需求,新冠疫情時期海量文獻和爭分奪秒的研發(fā)進度讓科學(xué)家不得不借助情報手段。此外,新冠病毒的大流行吸引了全球各行各業(yè)的廣泛關(guān)注,來自生物、醫(yī)藥、臨床、人工智能、大數(shù)據(jù)等不同領(lǐng)域的科學(xué)家都從自己的專業(yè)角度貢獻力量,這種凝聚力從某種程度上構(gòu)建了一個跨界合作創(chuàng)新的理想環(huán)境。兩者的共同作用催化了科研范式的大轉(zhuǎn)變。前文提到的CORD-19數(shù)據(jù)集就是以公開數(shù)據(jù)集作為平臺,吸引人工智能、數(shù)據(jù)挖掘領(lǐng)域科學(xué)家根據(jù)需求定制工具方案,“外包”平臺檢索、索引、挖掘、分析的功能,再通過用戶(學(xué)科專業(yè)人士)反饋選出最優(yōu)工具的路線,實現(xiàn)科學(xué)家、數(shù)據(jù)學(xué)家、人工智能專家之間有效的信息交流。哈佛大學(xué)醫(yī)學(xué)院INDRA實驗室研發(fā)EMMMA(Ecosystem of Machine-maintained models with Automated Analysis),該系統(tǒng)對海量的生物醫(yī)學(xué)文獻進行機器自動化閱讀并提取250萬種知識點之間的關(guān)系,與生物數(shù)據(jù)庫(Pathway Commons,SIGNOR和BEL Large Corpus)構(gòu)成的先驗知識網(wǎng)絡(luò)進行融合,自動化構(gòu)建了COVID-19病毒生物學(xué)的因果機制,用于新藥物的研發(fā)等[4]。微軟在2021年3月推出生物醫(yī)藥搜索引擎,能夠讓研究人員用自然語言而不是關(guān)鍵詞/術(shù)語來檢索獲取專業(yè)文獻。平臺還把預(yù)測未來可能會變得重要的文獻提到前面展示,平衡舊文獻因為被引率高而占優(yōu)勢的弊端[8]。這樣的科研范式被證明是成功的,在各界的努力下,從新冠病毒的基因序列在2020年1月發(fā)布,到疫苗在多個國家/地區(qū)獲批緊急使用,前后只有短短不到1年的時間,而通常情況下疫苗的研發(fā)需要5~10年。
新冠疫情影響下,另一個科學(xué)研究交流范式的轉(zhuǎn)變是預(yù)印本平臺的加速發(fā)展,本文也將其籠統(tǒng)地歸納為科研范式的一種。疫情初期,為了加速科研成果的分享,科學(xué)家紛紛選擇在預(yù)印本平臺上公開自己的研究成果,科學(xué)家和公眾也通過預(yù)印本得以更快地獲得新冠疫苗、新冠藥物全球研發(fā)的進展。各大預(yù)印本平臺中,康奈爾大學(xué)的arXiv和愛思唯爾的SSRN都建立于20世紀(jì)90年代,威利的Authorea建立于2012年。2016—2019年曾出現(xiàn)預(yù)印本平臺的建設(shè)高峰,非營利性研究和教育機構(gòu)冷泉港實驗室的bioRXiv、medRXiv,施普林格·自然的Research Square,中國科學(xué)院的ChinaXiv,美國化學(xué)學(xué)會的ChemRxiv,瑞士多學(xué)科數(shù)字出版機構(gòu)(MDPI)的Preprints在這一時期相繼建立。還有許多跡象顯示預(yù)印本平臺對于科研越來越重要,全球65家預(yù)印本服務(wù)器(preprint server)大約有一半在過去5年內(nèi)成立,世界排名前十的學(xué)術(shù)出版商大多建立或收購了一個預(yù)印本服務(wù)器,科研基金會如比爾及梅琳達·蓋茨基金會、英國惠康基金會積極資助預(yù)印本平臺,一些權(quán)威學(xué)術(shù)文獻檢索平臺如Scopus、Europe PMC、SCIE開始將預(yù)印本的內(nèi)容納入其索引范圍[9]。
數(shù)據(jù)與人工智能驅(qū)動的科學(xué)研究也好,預(yù)印本也好,都是被討論和關(guān)注較多的科研范式趨勢,這些趨勢是否真的對科學(xué)研究具有變革性的影響仍然存在爭議[10],但最終都是為了更好更快的科學(xué)交流與分享。我國高端交流平臺的建設(shè)需要在對全球科研范式、交流模式進行深入研究的基礎(chǔ)上,把握并擁抱全球科研范式的轉(zhuǎn)變。
本文從高端交流平臺的“高端”內(nèi)容、“平臺”主體、“交流”范式3個方面,結(jié)合國際科技情報和科學(xué)研究的大趨勢,列舉了一些國外最新的實踐案例,對我國高端交流平臺發(fā)展與建設(shè)提出了思考。筆者認(rèn)為,高端交流平臺的“高端”需要多樣化內(nèi)容支撐,需要擴大科技數(shù)據(jù)范圍,尤其重視數(shù)據(jù)、代碼等新型科學(xué)信息;高端交流平臺的“平臺”需要多主體參與建設(shè),要鼓勵個人、中小企業(yè)和其他大型企業(yè)參與數(shù)據(jù)科學(xué)的平臺建設(shè)與共享;高端交流平臺的“交流”模式需要擁抱全新科研范式,要抓住科研范式的變化趨勢,調(diào)整平臺以滿足科學(xué)家對于知識獲取、知識交流傳播的需求,提高科研人員研發(fā)的效率和預(yù)測的準(zhǔn)確性。要從內(nèi)容建設(shè)、平臺建設(shè)、交流范式等各方突破,才能打造具有科技強國戰(zhàn)略視角的“高端交流平臺”,這也是我國“強化國家戰(zhàn)略科技力量”的必要保障。
囿于字?jǐn)?shù)限制,本文對于國外案例只是介紹性分析,就現(xiàn)象論現(xiàn)象,沒有探究現(xiàn)象背后的深層邏輯和原因。對于高端交流平臺的思考也是一種設(shè)想,沒有落實到具體可執(zhí)行的建設(shè)路徑,希望在后續(xù)的研究中能有所加強。