羅立群
(北京大學信息管理系,北京 100871)
國家科研論文和科技信息高端交流平臺(以下簡稱“高端交流平臺”)的建設已經被寫入中共中央“十四五”規(guī)劃綱要中,這對科技情報界來說是一件大事。筆者在此談談對高端交流平臺服務能力建設的一點想法。
科技情報服務的目標和基本任務是解決由“情報爆炸”所帶來的情報積累與利用之間的尖銳矛盾,用科學的方法組織知識信息,使之有序化,成為人們便于利用的形式,然后以最快的速度向用戶提供所需要的情報,促進科學技術和經濟發(fā)展[1]。長久以來,科技情報服務在支撐國家基礎科學創(chuàng)新、重大科技攻關、核心技術研發(fā)等國家科技創(chuàng)新活動中發(fā)揮了舉足輕重的作用。在國家科技創(chuàng)新的不同時期,科技情報機構承擔了時代所賦予的歷史使命,其提供的服務內容和呈現的服務模式也有所不同。從發(fā)展歷史的角度看,科技情報服務先后經歷了文獻服務、信息服務和知識服務,當前正邁向智慧服務[2]。在科技情報服務發(fā)展的早期階段,向用戶提供基于圖書期刊的文獻資料成為服務的主要內容,對圖書資料進行組織整理,對文獻進行索引和排序是這一時期主要的服務模式。進入信息時代,計算機和信息檢索系統成為科技情報服務的重要工具,服務內容已經從紙質的文獻資料過渡到能夠通過二進制表示的信息篇章,用戶通過檢索即可獲得所需信息,服務效率得到革命性飛躍。20世紀末期,互聯網技術的蓬勃發(fā)展造成信息的爆炸式增長,科研工作者亟需一種更加直接高效且能夠滿足科技創(chuàng)新本質需求的服務,知識服務應運而生。這一時期知識服務的精準性得到了進一步提升,但受制于當時的技術發(fā)展水平,知識服務仍存在許多局限,服務的實現還需要知識工作者深度參與科技創(chuàng)新的過程。
新時期,一方面,科技創(chuàng)新的內外部環(huán)境已發(fā)生根本性轉變,科技創(chuàng)新已成為各國政府推動本國發(fā)展的主旋律,特別是近年來國家間的科技競爭日趨激烈,在生物基因、電子信息、量子計算、材料科學等新興技術領域全球創(chuàng)新呈現加速趨勢,科技創(chuàng)新成果日新月異,每天有大量的研究成果從全球各地的研究機構涌現,這為研究人員了解最新研究成果帶來巨大的挑戰(zhàn)。另一方面,大數據、人工智能的興起,特別是深度學習、知識融合、認知計算等技術的成熟為科技情報服務提供了新方法和新技術。大數據環(huán)境下的科技情報服務在服務內容、服務模式上為科學研究帶來了許多變革。智能技術賦能科技情報服務使其以多種方式更加緊密地融入到科技創(chuàng)新的全生命周期中,智慧服務正成為研究人員科學創(chuàng)新活動中的科研助手和伙伴,輔助科學家加速新的科學發(fā)現。例如,美國化學學會(American Chemical Society)為科研機構提供的面向化學研究的科技情報智慧服務平臺[3],通過機器自動閱讀科技文獻以結構化形式提取事實和關系,能夠在各個領域之間實現知識的轉移和融合,借助多種人工智能算法幫助研究人員設計、合成新的分子以加快藥物和新材料的開發(fā),從而有效降低研發(fā)成本以及縮短新產品的上市周期。
綜上所述,高端交流平臺的建設,就需要以科技情報智慧服務為目標,深入研究情報智慧服務基本原理與機制,積極探索情報智慧服務關鍵技術,逐步形成情報智慧服務的體系架構,實現科技情報的高效傳遞和高質量應用,加速科學發(fā)現和知識創(chuàng)新,提升科技情報對科學進步和技術創(chuàng)新的引領及支撐能力。
智慧化信息技術特指科技情報智慧服務關鍵技術,是實現科技情報智慧服務的關鍵方法、工具和算法的總和,建立在通用的人工智能技術、算法設計、實現思路和方法的基礎之上,是在情報思維的指導下,面向特定的科技情報任務或科技情報服務場景而形成的一系列能解決科技情報智慧服務問題的技術總和。筆者認為,從情報智慧服務的角度來看,高端交流平臺至少應該包括以下3個方面的技術。
《自然》雜志曾于2019年刊文指出[4],科學的創(chuàng)新和進步依賴于對現有知識的有效吸收,以選擇最有前途的前進方向并最大程度地減少重復工作。隨著科學文獻數量的增加,對于單個科學家而言,文獻內容的甄別和選擇變得越來越困難,甚至是不可能完成的任務,絕大多數科學的知識都是以文本形式發(fā)表,通過機器自動閱讀不同來源的科技文獻并提取有用的知識,根據特定的科學問題對零散的知識進行集成、轉化、統一成為解決上述問題最為有效的途徑。知識融合[5]為這項工作鋪平了道路,使科學家能夠通過機器輔助的方法改變獲得科學新突破的范式,使個人可以獲取“隱藏”在海量科學文獻中的有價值的知識甚至是新的科學發(fā)現。高端交流平臺的多源知識融合技術相關研究包括面向不同領域的知識融合模型研究,面向不同領域的知識因果關系自動構建和推理技術、知識融合模式和算法研究等內容。
智慧服務與傳統科技情報服務(如信息服務、知識服務)最大的區(qū)別是其在科技創(chuàng)新過程中扮演的角色發(fā)生了變化,科技情報服務已從過去的科學家的輔助工具轉變?yōu)閰f作者和伙伴,這表明人與機器從人機交互被動單向的關系轉變?yōu)槿藱C協同主動雙向的關系。人機協同本質上就是將機器概率化的智能與科學家有機化的智能相互融合、互為補充,共同協作從事科學發(fā)現和知識創(chuàng)新[6]。人機協同主要解決的核心技術問題是在科學探索過程中人類科學家和機器如何達成共識,即要使機器能夠充分理解科學家在科學發(fā)現中的意圖,理解科學家在創(chuàng)新過程中的不同場景和上下文,又要使機器能夠向人類科學家解釋其結論,使其結果具有可解釋性,而人類科學家根據自己的見解和洞察指導機器進一步優(yōu)化科學發(fā)現模型,從而加速科學創(chuàng)新的過程。例如,由美國IARAPA FUSE項目資助研發(fā)的科技情報服務平臺ARBITER[7]主要開展科技情報的預測服務,能夠為研究人員和決策者提供未來有前景的研究領域和關鍵詞,平臺在為科研人員提供技術術語提名的同時還提供了豐富的證據,使研究人員能夠深入理解機器給出的結果[8]。
知識一直以來是情報學研究的核心問題,科技情報服務正從過去的強調知識組織和知識體系構建的研究,即解決“是什么”的模式,朝著強調深層次知識發(fā)現與推理的研究方向發(fā)展,從海量文獻中發(fā)現人類科學家難以發(fā)現的“隱藏”的和“深度”的規(guī)律與模式,即解決“為什么”的問題。未來則更加關注知識的融合與利用的研究,能夠根據研究問題提出理性解決方案,即解決“如何做”的問題??萍记閳蠓者@一演變對知識表示也提出了新要求。傳統的知識表示更多是基于符號(如本體、RDF、知識圖譜)的表示方式,著重強調人類的可理解性,其知識推理能力較弱??萍记閳笾腔鄯找_到知識的深層發(fā)現和利用就需要有新的科學知識表示框架,能夠精確地表示和捕獲面向領域的科學知識,如科學假設、物理模型、化學反應、生物傳導過程等。同時,科學知識的表示還要具備可計算、可解釋的特性,不僅能夠進行推理和驗證,同時還要向人類科學家提供可信的證據和過程。如在生物醫(yī)學領域,從有關文獻中抽取出Ras基因家族的癌癥生物信息傳導途徑和機理,利用這些已捕獲的知識進行推理,能夠識別和解釋大量先前并不明確的癌癥信息傳導途徑[9]。
科技情報智慧服務的落地和應用是建設學術高端交流平臺的重要環(huán)節(jié)??萍记閳笾腔鄯毡举|上是一項服務,服務的滿意度、時效性、精準性需要科學化、體系化的基礎設施提供支撐,而服務框架和體系是保障服務最終落地和應用的基礎支撐。智慧服務的框架是為解決科技情報智慧服務過程中開放性問題而設計的具有一定約束性的支撐結構,表現為一組抽象構件及構件實例間交互的方法,為智慧服務平臺的構建提供了一個類似于樂高積木的可自由插接、組合相關功能組件的基礎,其目的是平臺構建者能夠根據不同的應用領域和場景快速搭建高質量的服務平臺。智慧服務體系是指通過軟件定義的方式實現科技情報智慧服務的可執(zhí)行的軟件組件的集合,一般會被約束在不同功能框架之中。框架界定了實現智慧服務的技術邊界,進而將相關的軟件組件約束在這個邊界內,從而保持解決智慧服務問題時手段的內聚性。而體系用來提供支撐智慧服務的可選的配套軟件組件或工具。筆者認為,高端交流平臺中科技情報智慧服務的框架體系至少應該包括3個方面。
在人工智能大數據時代,計算是科技情報智慧服務最為核心和重要的能力,智慧服務的提供需要計算力的驅動,如同電力驅動機器運轉一樣。近年來,云計算技術和大數據技術的興起,為科技情報智慧服務提供了符合行業(yè)標準的開放平臺,如Hadoop、Open stack、Spark、Storm等項目為大規(guī)模、分布式計算提供了非常便利的計算框架和開源組件,這類平臺一般都提供通用的面向服務的調用接口。但是這類開源組件并沒有為科技情報智慧服務計算提供專門的規(guī)范和標準,還需要根據不同智慧服務和科學領域計算的特性,設計對科技情報智慧服務更加友好的計算框架體系,做到在不必過多關注底層計算基礎設施復雜的操作流程和技術細節(jié)的情況下,高端交流平臺能夠自動適配、管理、分配底層的來自不同計算基礎設施的計算、存儲、網絡資源,并調度、執(zhí)行、監(jiān)控由上層的智慧服務分發(fā)的情報服務任務。目前,國外已經有了一些成功的案例,美國和歐洲已初步形成比較成熟的面向科技情報服務和科學計算的專用計算框架體系,如Pegasus計算框架[10],該框架能夠可靠、高效地協調和自動化不同來源的分布式計算資源(校園集群、國家網絡基礎設施、商業(yè)和學術云)以及任務執(zhí)行,該計算框架已被科學家廣泛應用于天文學、地震學、生物信息學、物理學等領域。
科學數據是科學發(fā)現、知識創(chuàng)新中非常重要的要素,同時也是科技情報智慧服務框架體系中關鍵的組成部分。近年來,隨著第四范式在各科學領域的應用,科學數據在科技創(chuàng)新中的作用日趨重要,對于某些學科甚至產生了顛覆性的影響。如在中藥研究中,中藥具有多成分、多靶點、調節(jié)方式多樣的特點,傳統的方法不能科學解釋中藥復方的藥效物質基礎及組方規(guī)律等問題,通過借助TCMID(Traditional Chinese Medicines Integrated Database)數據庫和Herb BioMap數據庫可實現中藥作用靶點的準確預測[11]。但是,當前科學數據也面臨著機遇和挑戰(zhàn)并存的局面,傳統數據管理方法已經不適用于當下機器的智能化處理和使用的需求。這必然需要深入研究智慧服務數據框架體系,有效地解決科學數據可發(fā)現、可訪問、可互操作和可重用的問題;研究如何通過科學數據的周期管理和技術標準來保障科學數據的質量;研究通過何種共享、交換機制以實現科學數據的安全和高效利用等問題。高端交流平臺的智慧服務數據框架體系建設不能僅對科學家友好,在頂層設計中也要考慮到對機器友好,要方便人工智能科學家對已有科學數據的利用、科學研究過程的重現,甚至能在已有研究成果(數據)的基礎上開展更深入的科學發(fā)現工作。
智慧服務分析框架體系一般包括面向領域的、專有的、用于科學發(fā)現及知識創(chuàng)新的分析組件和軟件。第四范式的提出,預示著科學發(fā)現的范式和知識創(chuàng)新的過程已經發(fā)生變革,科學家在科學研究中越來越依賴于借助各種科技情報和數據分析工具從科技文獻和科學數據中發(fā)現隱藏的規(guī)律、解釋未知的現象、驗證提出的假設等。這意味著科學家不僅是本領域的專家,同時還要具備數據科學領域的專業(yè)知識。傳統的科技情報和數據分析是科學家的“手工藝活”,往往需要耗費大量的時間和精力根據不斷變化的研究需要進行調整,研究工作的效率難以保障。智慧服務分析框架體系一方面能夠為領域科學家提供快速定義、集成和自動化數據分析業(yè)務和流程的技術,最大化減少重復開發(fā)和調試分析流程的工作量,使科技情報智慧服務分析的知識和經驗得以高效復用;另一方面,將科技情報與數據分析中的共性方法、技術按科學任務抽象、集成、封包成最佳的“科技情報與數據解決方案”,通過可配置的方式根據科學分析的需求對分析方法、分析模型、計算資源等進行自動化的、靈活的組合和配置,快速構建面向特定科學研究任務的分析模型。南加州大學的Gil等[12]已開展類似的探索,其開發(fā)的面向科學分析框架能夠根據科學研究任務自動選擇數據分析關鍵組件和數據源,自動化執(zhí)行科技情報和數據分析任務,目前已廣泛應用于地球科學[13]、神經科學[14]、氣候影響[15]等領域。高端交流平臺的智慧服務分析框架體系應該使科學家和研究人員能夠從復雜的、煩瑣的數據分析的事務性工作中解放出來,從而將更多的時間和精力投入到自身擅長的科學研究中。
綜上所述,情報智慧服務能力是構建高端交流平臺的核心能力和支撐能力,人工智能驅動的情報智慧服務將會對未來科學發(fā)現、知識創(chuàng)新帶來顛覆性的影響。未來國家間科技創(chuàng)新的競爭不僅僅是人才的比拼,更是科技情報智慧服務能力的比拼。這意味著圖情領域的研究者和工作者要加強情報智慧服務的研究,不僅要關注情報智慧服務理論的研究,更要關注情報智慧服務的關鍵技術和智慧服務的框架體系,最終推動我國高水平、高質量的高端交流平臺的落地。