李琳娜 劉志輝 陸泉
(1.中國科學(xué)技術(shù)信息研究所,北京,100038;2.富媒體數(shù)字出版內(nèi)容組織與知識服務(wù)重點實驗室,北京,100038;3.武漢大學(xué)信息管理學(xué)院,武漢,430072)
在國內(nèi)國際雙循環(huán)相互促進(jìn)的新發(fā)展格局下,科技創(chuàng)新成為我國經(jīng)濟(jì)發(fā)展的新動能,對于推動我國經(jīng)濟(jì)結(jié)構(gòu)轉(zhuǎn)型升級和高質(zhì)量發(fā)展至關(guān)重要,也為科技情報和知識服務(wù)發(fā)展提供了新的發(fā)展機(jī)遇。如何從浩如煙海的大量文獻(xiàn)、資料和數(shù)據(jù)中自動地獲取知識,有效地組織知識和高效地應(yīng)用知識,服務(wù)國家重大科技研發(fā)需求,解決生產(chǎn)實踐中的實際問題,是當(dāng)前最重要的挑戰(zhàn)之一。
2021年12月2日上午,第六屆知識服務(wù)與情報工程學(xué)術(shù)交流會暨2021年中國科學(xué)技術(shù)情報學(xué)會知識組織專業(yè)委員會年會以線上、線下相結(jié)合的方式隆重開幕。本次會議主題是“數(shù)智賦能與知識服務(wù)”,由中國科學(xué)技術(shù)情報學(xué)會知識組織專業(yè)委員會主辦,中國科學(xué)技術(shù)信息研究所、武漢大學(xué)聯(lián)合承辦,中國工程科技知識中心、上海市研發(fā)公共服務(wù)平臺管理中心、湖北省科技信息研究院、武漢科技大學(xué)、山東出版數(shù)字融合產(chǎn)業(yè)研究院、富媒體數(shù)字出版內(nèi)容組織與知識服務(wù)重點實驗室、融合出版內(nèi)容傳播創(chuàng)新應(yīng)用重點實驗室及《情報工程》編輯部等聯(lián)合協(xié)辦。上午的開幕式由武漢大學(xué)信息管理學(xué)院陸偉院長主持,武漢大學(xué)研究生院陳傳夫院長、中國科學(xué)技術(shù)信息研究所趙志耘所長、中國工程科技知識中心傅智杰主任致辭。陳傳夫院長指出大數(shù)據(jù)正在成為信息時代的核心戰(zhàn)略資源,大數(shù)據(jù)為知識工程積累了海量的數(shù)據(jù)資源,從而需要利用知識工程發(fā)揮大數(shù)據(jù)的價值,使數(shù)據(jù)應(yīng)用于實踐、造福于人類,實現(xiàn)對大數(shù)據(jù)的洞察,為決策提供支持,深度利用大數(shù)據(jù)實現(xiàn)知識服務(wù)。大數(shù)據(jù)理論與技術(shù)正在成為情報科學(xué)研究的重要支撐,情報研究成果又反過來推動大數(shù)據(jù)等相關(guān)學(xué)科領(lǐng)域的創(chuàng)新發(fā)展。知識服務(wù)與情報工程領(lǐng)域的技術(shù)突破和應(yīng)用,必將對我國國民經(jīng)濟(jì)與社會發(fā)展做出新的貢獻(xiàn)。趙志耘所長首先代表中國科學(xué)技術(shù)信息研究所感謝大家一直以來對中信所在知識服務(wù)和情報工程相關(guān)的研究領(lǐng)域和業(yè)務(wù)工作上的支持和幫助,隨后指出無論從全社會對知識服務(wù)的渴求還是針對加快科技自立自強(qiáng)這一現(xiàn)實需求,對于知識服務(wù)和情報工程的學(xué)術(shù)交流都是恰逢其時。知識服務(wù)和情報工程是有理論發(fā)展?jié)摿蜆I(yè)務(wù)需求的研究領(lǐng)域,需要大家共同去探討、研究和開拓。傅智杰主任在致辭中介紹了中國工程科技知識中心的建設(shè)目標(biāo)是融合不同領(lǐng)域的科學(xué)數(shù)據(jù),實現(xiàn)數(shù)據(jù)資源的打通,為科研人員提供知識服務(wù)。
會議邀請三位專家做主旨報告,分別是軍事科學(xué)院軍事科學(xué)信息研究中心主任耿國桐研究員、中國科學(xué)院文獻(xiàn)情報中心副主任張智雄研究員和北京大學(xué)未來技術(shù)學(xué)院咨詢顧問孫衛(wèi)高級工程師。中國科學(xué)技術(shù)信息研究所情報理論與方法研究中心主任劉志輝研究員擔(dān)任主持人。
耿國桐研究員首先從當(dāng)前情報研究所面對的環(huán)境,情報研究智能化的內(nèi)涵、主要任務(wù)及途徑等方面介紹了其對情報研究智能化的認(rèn)識。大數(shù)據(jù)技術(shù)雖然極大地拓展了情報數(shù)據(jù)來源,但也使情報分析人員在一定程度上陷入到數(shù)據(jù)海洋中。2021年三月份美國人工智能國家安全委員會在一個報告中提出:“情報界應(yīng)該盡可能地利用和集成人工智能”[1]。所以,對科技情報研究而言,智能化是出路也是生路。情報研究智能化主要包括三個方面:第一方面是智能化已經(jīng)深入到情報研究的需求分析、數(shù)據(jù)挖掘、綜合研判及服務(wù)反饋四個階段中;第二個方面是情報研究范式要轉(zhuǎn)向“數(shù)據(jù)+智能+專家”深度融合的新范式;第三個方面是大數(shù)據(jù)、人工智能技術(shù)重塑科技情報研究工作生態(tài)。情報研究智能化主要有動向報告、基本描述和預(yù)測評估三個方面的任務(wù)。情報研究智能化途徑有:構(gòu)建高質(zhì)量情報數(shù)據(jù)空間、加強(qiáng)情報業(yè)務(wù)的流程化建模和搭建人機(jī)協(xié)同的情報生產(chǎn)線。
耿研究員隨后介紹了其研究團(tuán)隊在情報研究智能化方面的實踐探索,即國防科技情報研究工具箱的開發(fā)和運(yùn)用。國防科技情報研究工具箱構(gòu)建主要分為三個層次:第一個層次是在互聯(lián)網(wǎng)信息、專業(yè)數(shù)據(jù)庫等信息源的基礎(chǔ)之上通過標(biāo)簽化、碎片化建立關(guān)聯(lián)網(wǎng)絡(luò),形成大數(shù)據(jù)資源池;第二個層次是包含基本情況庫、知識圖譜和其他數(shù)據(jù)庫的情報對象庫;第三個層次是在情報對象庫基礎(chǔ)上通過嵌入和迭代優(yōu)化實現(xiàn)基本情報分析業(yè)務(wù)的嵌入和情報智能分析技術(shù)的開發(fā)。
耿研究員最后談到其對情報研究智能化的幾點體會。第一,在理念上要從“讓我用”向“我要用”轉(zhuǎn)變,情報研究人員要積極擁抱大數(shù)據(jù)、智能化技術(shù),主動識變、求變;第二,在定位上要從替代向嵌入轉(zhuǎn)變,科技情報智能化絕不是用工具來替代人,而是將人從繁瑣的低水平工作中解放出來,將智能化技術(shù)手段全面嵌入到科技情報業(yè)務(wù)流程中;第三,產(chǎn)學(xué)研多方協(xié)作共同推進(jìn)情報研究智能化轉(zhuǎn)變。
張智雄研究員主要從文獻(xiàn)中的科研實體及其作用、通用科研實體類型及其模型、科研實體識別和基于科研實體識別將科學(xué)引文數(shù)據(jù)庫轉(zhuǎn)為領(lǐng)域畫像庫四個方面介紹了其研究團(tuán)隊在科技情報挖掘方面的研究成果[2-3]。
科技文獻(xiàn)主要有句子層面的語步識別和詞語層面的命名實體識別兩種語義標(biāo)注方式。語步識別可以很好地表述單篇文獻(xiàn)的研究背景、研究目的等重要句子,但是無法直接應(yīng)用于科技文獻(xiàn)集的統(tǒng)計和計算,從而不能有效反映領(lǐng)域的研究情況。詞語層面的命名實體識別直接得到可以統(tǒng)計和計算的短語,不僅能直接表述單篇文獻(xiàn)的主要內(nèi)容點,也可以通過共現(xiàn)統(tǒng)計等進(jìn)一步對領(lǐng)域進(jìn)行描述。
科技文獻(xiàn)實體能夠揭示文獻(xiàn)的研究內(nèi)容、研究過程和研究價值,實現(xiàn)科技文獻(xiàn)的語義豐富化處理,進(jìn)而促進(jìn)基于科技文獻(xiàn)挖掘的知識服務(wù)、情報分析研究等??蒲袑嶓w主要包括研究問題、方法模型、數(shù)據(jù)資料、理論原理、儀器設(shè)備等。張研究員團(tuán)隊通過調(diào)研國內(nèi)外科研實體的研究成果和數(shù)據(jù)集,發(fā)現(xiàn)這些研究存在實體類型與領(lǐng)域相關(guān)、類別體系不夠完整兩個問題,進(jìn)而提出了通用科研實體的概念。一篇科技文獻(xiàn)的通用科研實體主要包括研究問題、方法模型、度量指標(biāo)、數(shù)據(jù)資料、科學(xué)家、理論原理、儀器設(shè)備、軟件系統(tǒng)和研究地點九個類型。針對科研實體識別缺乏標(biāo)注語料的問題,提出了基于半監(jiān)督迭代學(xué)習(xí)方法構(gòu)建語料,所提方法僅依賴于少量準(zhǔn)確的標(biāo)注語料進(jìn)行初始訓(xùn)練,通過在大量無標(biāo)注數(shù)據(jù)上預(yù)測得到偽標(biāo)簽,不斷迭代擴(kuò)充訓(xùn)練集,提升模型性能。張研究員團(tuán)隊利用研發(fā)的中文科研實體識別引擎在中國科學(xué)引文數(shù)據(jù)庫中的二百五十多萬條摘要數(shù)據(jù)上進(jìn)行預(yù)測,得到了三千多萬個科研實體,從而將中國科學(xué)引文數(shù)據(jù)庫轉(zhuǎn)為一個領(lǐng)域研究描述畫像庫,進(jìn)而從科研實體的角度多維度、細(xì)粒度地對研究領(lǐng)域進(jìn)行刻繪,輔助科研人員快速了解領(lǐng)域動態(tài)。
孫衛(wèi)高級工程師首先回顧了科學(xué)研究范式的發(fā)展過程,隨后就科技情報研究領(lǐng)域第四范式的背景及挑戰(zhàn)做了詳細(xì)報告。針對情報研究領(lǐng)域,傳統(tǒng)的科技文獻(xiàn)數(shù)字化、網(wǎng)絡(luò)化已經(jīng)實現(xiàn),大部分科學(xué)數(shù)據(jù)共享也已經(jīng)實現(xiàn),但是這兩者之間目前是孤立的,相互之間的關(guān)系是靠專家智慧去挖掘,傳統(tǒng)軟件未解決二者之間的互操作、互嵌入及融合的問題。第四范式需要解決科學(xué)數(shù)據(jù)與數(shù)字圖書館資源的檢索、調(diào)用,又要融合、分析并產(chǎn)生新的研究結(jié)果。這就需要為科學(xué)家提供全新的工具,才能實現(xiàn)數(shù)據(jù)密集型的互操作、解決互相融合的邊界問題。構(gòu)建這些新的軟件工具面臨的主要挑戰(zhàn)包括:需求模式的確定,數(shù)據(jù)的多模態(tài)、跨尺度問題,在保護(hù)隱私及規(guī)范下的科學(xué)數(shù)據(jù)的共享問題,算法和算力之間的平衡問題,算法的共享與授權(quán)問題,不同采集設(shè)備的影像融合可視化問題,大科學(xué)裝置的長期運(yùn)營及維護(hù)問題等。
會議共邀請十五位專家做專題報告,分別是復(fù)旦大學(xué)圖書館副館長張計龍研究館員,中國人民大學(xué)信息資源管理學(xué)院賈君枝教授,天津師范大學(xué)管理學(xué)院院長劉冰教授,湖北省科技信息研究院書記肖松研究員,武漢理工數(shù)據(jù)傳播有限公司總經(jīng)理白立華編審,北京萬方軟件股份有限公司總經(jīng)理張正鋒高級工程師,科大訊飛股份有限公司人工智能研究院副院長柳林老師,荷蘭阿姆斯特丹自由大學(xué)人工智能系終身教授黃智生教授,國家海洋信息中心海洋信息化部主任姜曉軼研究員,國家工業(yè)信息安全發(fā)展研究中心數(shù)據(jù)資源所數(shù)據(jù)資源建設(shè)部主任張潔雪老師,中國工程院戰(zhàn)略咨詢中心鄭文江副研究員,中國科學(xué)技術(shù)信息研究所李琳娜副研究員,北京大學(xué)信息管理系化柏林助理教授,武漢大學(xué)信息管理學(xué)院信息管理科學(xué)系主任陸泉教授和山西醫(yī)學(xué)期刊社數(shù)字出版及知識服務(wù)中心主任武建才老師。武漢大學(xué)信息管理學(xué)院副院長王曉光教授,中國科學(xué)技術(shù)信息研究所韓紅旗研究員,湖北省科技信息研究院副院長顏慧超研究員,中國科學(xué)院聲學(xué)研究所張全研究員,中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)科技信息研究所主任鮮國建研究員,南京理工大學(xué)章成志教授和科學(xué)技術(shù)文獻(xiàn)出版社社長胡紅亮研究員分別擔(dān)任專題報告主持人。
張計龍研究館員介紹了其團(tuán)隊對當(dāng)代中國社會生活資料數(shù)字化與數(shù)據(jù)分級方面的研究工作。張研究館員首先介紹了社會生活資料的范圍及項目緣起。社會生活資料是指由個人、家庭、企事業(yè)單位、政府基層單位所制作,但沒有納入正式檔案系統(tǒng)而流入社會的文字、數(shù)據(jù)等資料。復(fù)旦大學(xué)圖書館于2011年成立“當(dāng)代中國社會生活資料中心”,正式啟動對當(dāng)代中國社會生活資料的收集整理工作,最終于2018年成立復(fù)旦大學(xué)圖書館“當(dāng)代中國社會生活資料館”。張研究館員隨后分別介紹了資料的數(shù)字化及數(shù)據(jù)庫建設(shè)過程、資料數(shù)據(jù)分級方案設(shè)計及資料的共建共享機(jī)制。復(fù)旦大學(xué)圖書館當(dāng)前收集的社會生活資料有50萬頁,地域分布有河南、四川、貴州、江蘇、上海、浙江、江西等地。數(shù)據(jù)庫建設(shè)流程主要包括數(shù)據(jù)整理、組織、處理、發(fā)布及服務(wù)等環(huán)節(jié)。通過分析資料應(yīng)用場景、數(shù)據(jù)分享安全性、隱私保護(hù)、機(jī)器自動處理需求等最終確定了數(shù)據(jù)的分級組織方式、設(shè)計每個層級相對應(yīng)的元數(shù)據(jù)規(guī)范。數(shù)據(jù)分級引入哈佛大學(xué)Data Tags數(shù)據(jù)分級分類思路,最終形成了以實踐為視角、適應(yīng)大數(shù)據(jù)時代數(shù)據(jù)分級分類需求、可擴(kuò)展、可調(diào)節(jié)的五級數(shù)據(jù)分級模型。分級的主要依據(jù)包括:是否包含高度敏感內(nèi)容、是否是政法系統(tǒng)和組織部的資料、是否包含負(fù)面內(nèi)容、是否包含個人信息、資料年代是否超過30年五個方面。數(shù)據(jù)庫針對不同的用戶類型提供不同的數(shù)據(jù)訪問權(quán)限,例如非實名用戶僅僅提供檢索及查看簡明記錄功能、實名認(rèn)證的用戶根據(jù)不同的類型可訪問不同等級的數(shù)據(jù)。2018年,復(fù)旦大學(xué)圖書館聯(lián)合22家學(xué)術(shù)圖書館及研究機(jī)構(gòu)共同發(fā)起成立“當(dāng)代中國社會生活資料共建共享聯(lián)盟”,旨在建立文獻(xiàn)資源共建共享機(jī)制,促進(jìn)社會生活專題資源的收集、整理、保護(hù)及利用,并以服務(wù)全球?qū)W術(shù)研究為目標(biāo)。聯(lián)盟通過組織一系列學(xué)術(shù)推廣活動,如“當(dāng)代中國社會生活資料共建共享聯(lián)盟”國際學(xué)術(shù)研討會、“慧源共享”上海高校開放數(shù)據(jù)創(chuàng)新研究大賽等,推動形成國內(nèi)外合作的社會生活資料研究網(wǎng)絡(luò)。
賈君枝教授分享了對數(shù)據(jù)網(wǎng)絡(luò)中資源描述的詞表重用的研究成果[4]。關(guān)聯(lián)數(shù)據(jù)、知識圖譜等語義網(wǎng)絡(luò)技術(shù)的快速發(fā)展使得數(shù)據(jù)迅速地產(chǎn)生、聚合及傳播,促進(jìn)了開放、互聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)生態(tài)環(huán)境的逐步形成。網(wǎng)絡(luò)數(shù)據(jù)遵循實體關(guān)系模型原則,包含兩種類型的信息,即模式信息和事實信息。模式信息為已經(jīng)定義的類及屬性以及基于域的概念化自上而下構(gòu)建的類之間的關(guān)系;數(shù)據(jù)信息揭示事實信息,即保留有關(guān)特定域的信息。詞表作為數(shù)據(jù)集添加語義的重要工具,提供了定義數(shù)據(jù)集及數(shù)據(jù)之間明確鏈接類型的術(shù)語集,成為數(shù)據(jù)網(wǎng)絡(luò)形成的粘合劑。詞表重用即從現(xiàn)有的詞表中選擇適合的類及屬性來定義所描述對象的內(nèi)外部特征,使用共享詞表的術(shù)語定義表述信息的數(shù)據(jù)模型,以實現(xiàn)數(shù)據(jù)集的準(zhǔn)確描述及形式化表示,提高數(shù)據(jù)集之間的互操作能力,避免表述的歧義及沖突。詞表重用類型有概念層重用和詞表層重用。概念層重用首先通過分析描述對象得到重要的概念及其關(guān)系,尋找能夠包含這些概念及關(guān)系的詞表,形成一系列可參考的詞表集合,再基于詞表的發(fā)布機(jī)構(gòu)、流行度、類及屬性等特性確定所選用的詞表;詞表層重用指從詞表中直接選取與數(shù)據(jù)模型的類、屬性相對應(yīng)的術(shù)語進(jìn)行表示。詞表重用發(fā)生在數(shù)據(jù)網(wǎng)絡(luò)的模式層,用于幫助構(gòu)建描述對象的概念模型,主要由類、屬性及一系列限制規(guī)范構(gòu)成。在數(shù)據(jù)網(wǎng)絡(luò)環(huán)境下,詞表作為重要的知識組織工具,被賦予了新的功能需求――粘合劑作用,能夠極大地推動數(shù)據(jù)網(wǎng)絡(luò)的互操作性。
劉冰教授從現(xiàn)實社會層面和國家層面介紹了大數(shù)據(jù)治理的迫切需求。隨著信息技術(shù)和人類生產(chǎn)生活交匯融合,互聯(lián)網(wǎng)快速普及,全球數(shù)據(jù)呈現(xiàn)爆發(fā)增長、海量聚集的特點,對經(jīng)濟(jì)發(fā)展、社會治理、國家管理、人民生活都產(chǎn)生了重大影響。2020年國家在發(fā)布的《中共中央國務(wù)院關(guān)于新時代加快完善社會主義市場經(jīng)濟(jì)體制的意見》中提出“加快培育發(fā)展數(shù)據(jù)要素市場,建立數(shù)據(jù)資源清單管理機(jī)制,完善數(shù)據(jù)權(quán)屬界定、開放共享、交易流通等標(biāo)準(zhǔn)和措施,發(fā)揮社會數(shù)據(jù)資源價值。推進(jìn)數(shù)字政府建設(shè),加強(qiáng)數(shù)據(jù)有序共享,依法保護(hù)個人信息?!眲⒔淌诮又榻B了大數(shù)據(jù)治理涉及到的國家利益、企業(yè)利益和個人利益之間的矛盾。例如,國家安全與經(jīng)濟(jì)社會發(fā)展之間的矛盾、業(yè)務(wù)創(chuàng)新與個人信息隱私保護(hù)之間的矛盾等。劉教授認(rèn)為大數(shù)據(jù)治理是大數(shù)據(jù)生態(tài)的治理,其內(nèi)涵和本質(zhì)包括:(1)大數(shù)據(jù)治理不是單一目標(biāo)的治理,而是多目標(biāo)的協(xié)同治理;(2)大數(shù)據(jù)治理不是單一主體的治理,而是多主體參與的共同治理;(3)大數(shù)據(jù)治理不是單純數(shù)據(jù)本身的治理,而是多要素的統(tǒng)籌治理;(4)大數(shù)據(jù)治理不是靜態(tài)僵化的治理,而是動態(tài)主動的積極治理;(5)大數(shù)據(jù)治理不是“一刀切”的單方面治理,而是“一攬子”綜合治理。劉教授最后總結(jié)了大數(shù)據(jù)治理應(yīng)該站在國家治理體系視角下,運(yùn)用政治、經(jīng)濟(jì)、行政手段對大數(shù)據(jù)生態(tài)實施全面管理的一整套戰(zhàn)略設(shè)計制度、機(jī)制、程序和方式。大數(shù)據(jù)治理要與國家治理現(xiàn)代化相向而行,不但要成為國家治理體系和治理能力現(xiàn)代化的重要構(gòu)成,而且要將成為重要的基礎(chǔ)支撐。
肖松研究員從新時期地方科技情報機(jī)構(gòu)深化智庫化轉(zhuǎn)型的態(tài)勢和戰(zhàn)略路徑兩個角度介紹了其對情報研究與科技服務(wù)協(xié)同創(chuàng)新的思考。新一輪的科技革命和產(chǎn)業(yè)變革,特別是我國創(chuàng)新驅(qū)動發(fā)展進(jìn)程帶來的科技情報業(yè)態(tài)變革,從情報資源到情報挖掘到情報服務(wù)是多維度的,甚至是全景式的,科技情報研究服務(wù)戰(zhàn)略需要將“大創(chuàng)新、大服務(wù)、大情報、大數(shù)據(jù)”這幾個強(qiáng)關(guān)聯(lián)的時代特征聯(lián)系在一起思考,即大創(chuàng)新催生大服務(wù),大服務(wù)面向大決策,大決策呼喚大情報,大情報需要大數(shù)據(jù)。從情報學(xué)范式變革的態(tài)勢來看,基于大數(shù)據(jù)的情報研究與服務(wù)是地方情報機(jī)構(gòu)重構(gòu)情報資源、情報手段和情報組織與服務(wù)方式的數(shù)字化轉(zhuǎn)型的過程。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)所蘊(yùn)含的遠(yuǎn)遠(yuǎn)超出其工具性和依據(jù)性特征的信息價值、知識價值、情報價值能得到充分挖掘。大數(shù)據(jù)改變了情報研究的范式,賦予了情報研究與服務(wù)的新內(nèi)涵。目前地方情報機(jī)構(gòu)的工作存在定位與業(yè)務(wù)不協(xié)同、研究與服務(wù)不協(xié)同、戰(zhàn)略與實施不協(xié)同、決策前中后研究服務(wù)不協(xié)同、共性和特色不協(xié)同的問題,提出建議包括:(1)研究驅(qū)動向需求驅(qū)動轉(zhuǎn)型上強(qiáng)化協(xié)同;(2)立足“抓戰(zhàn)略”“抓規(guī)劃”“抓政策”“抓服務(wù)”,聚焦“四抓”上強(qiáng)化協(xié)同;(3)要在“五鏈融合”重構(gòu)業(yè)務(wù)體系上強(qiáng)化協(xié)同,即構(gòu)建支撐科技創(chuàng)新全價值鏈的決策支撐體系,實現(xiàn)“創(chuàng)新鏈”“服務(wù)鏈”“決策鏈”“情報鏈”和“數(shù)據(jù)鏈”的五鏈融合;(4)要在“數(shù)智賦能”上強(qiáng)化協(xié)同,形成“數(shù)據(jù)”賦能、“智能”賦能、“智慧”賦能融合的“大數(shù)智賦能”格局;(5)要在場景化落地上強(qiáng)化協(xié)同,通過場景把決策、服務(wù)、情報、數(shù)據(jù)等相關(guān)的要素集聚在一起,將五鏈各環(huán)節(jié)的供給與需求緊密結(jié)合起來。
白立華編審首先總結(jié)了出版業(yè)知識服務(wù)的背景。出版業(yè)做好知識服務(wù)具有戰(zhàn)略層面和政策層面的雙重優(yōu)勢,但是也面臨供需脫節(jié)、產(chǎn)業(yè)低效、創(chuàng)新不足的困境。目前出版業(yè)實現(xiàn)知識服務(wù)主要有三個路徑:第一個途徑是自建融合平臺,如中信出版社,該途徑具有開發(fā)的知識服務(wù)能較好地貼合自身實際、實現(xiàn)出版社多渠道發(fā)展的優(yōu)勢,但存在投入大、成本高、盈利難、受自身技術(shù)條件限制的弊端。第二個途徑是嘗試與第三方平臺合作,該途徑具有投入少、技術(shù)成熟、渠道多元的優(yōu)勢,但存在大部分盈利及用戶數(shù)據(jù)被第三方平臺獲取的缺點。第三個途徑是嘗試與技術(shù)公司合作,例如人民出版社與百分點公司合作“黨員小書包”項目,該途徑既能保證技術(shù)力量,又可以實現(xiàn)優(yōu)質(zhì)資源對接,但是會導(dǎo)致投入大、成本高、出版社受制于第三方等問題。白編審隨后介紹了出版融合的創(chuàng)新服務(wù)模式,實現(xiàn)出版和科技融合有多個關(guān)鍵技術(shù)需要突破,如出版的大數(shù)據(jù)的融合賦能技術(shù)、大數(shù)據(jù)的融合分析技術(shù)、知識計算和可視化的交互引擎技術(shù)等。通過技術(shù)突破實現(xiàn)產(chǎn)業(yè)的融合、供需的融合和資源的融合,最終形成一種“知識+”的產(chǎn)業(yè)生態(tài)體系,構(gòu)建一種大規(guī)模的定制化的知識服務(wù)方式。出版融合創(chuàng)新服務(wù)模式的實現(xiàn)需要從內(nèi)容制作、編輯激勵、讀者服務(wù)等多個方面發(fā)力。白編審最后展示了出版融合創(chuàng)新服務(wù)模式在專業(yè)領(lǐng)域、教輔領(lǐng)域、期刊領(lǐng)域的實踐案例。
張正鋒高級工程師分享了基于大數(shù)據(jù)的科技咨詢技術(shù)與服務(wù)方面的實踐工作。張高工首先介紹了大數(shù)據(jù)等信息技術(shù)對科技咨詢服務(wù)模式帶來的改變,即構(gòu)建科技咨詢平臺為科技咨詢活動賦能。北京萬方軟件有限公司利用自身的資源和技術(shù)優(yōu)勢研發(fā)了科技咨詢業(yè)務(wù)平臺,平臺自底向上依次為科技數(shù)據(jù)資源池、實現(xiàn)數(shù)據(jù)工具化的數(shù)據(jù)中臺、服務(wù)不同業(yè)務(wù)場景的工具研發(fā)和面向不同用戶的業(yè)務(wù)智能化。數(shù)據(jù)資源池主要聚焦于“五域四鏈”,即人才、技術(shù)、機(jī)構(gòu)、經(jīng)濟(jì)、區(qū)域五大信息領(lǐng)域和投資鏈、技術(shù)鏈、供應(yīng)鏈、人才鏈。對收集的數(shù)據(jù)資源進(jìn)行關(guān)系抽取、事件抽取后構(gòu)建知識圖譜從而實現(xiàn)基于圖數(shù)據(jù)庫的存儲。平臺核心算法主要包括智能評估算法、創(chuàng)新度排名算法、大數(shù)據(jù)基準(zhǔn)線對標(biāo)算法、基于需求的技術(shù)成果推薦算法、技術(shù)合作人推薦算法及相似文本比對算法。張高工最后展示了平臺的應(yīng)用場景,如科技人才圖譜、機(jī)構(gòu)創(chuàng)新能力透視、產(chǎn)業(yè)鏈雷達(dá)、投研推薦、產(chǎn)學(xué)研合作發(fā)現(xiàn)及技術(shù)洞察。
柳林老師首先回顧了人工智能和語音識別技術(shù)的發(fā)展歷程,從語音產(chǎn)生機(jī)理、人耳如何識別聲音的角度解釋了語音識別技術(shù)的原理。工程化應(yīng)用的語音識別技術(shù)落地主要經(jīng)歷了四代,第一代語音識別技術(shù)主要采用混合高斯模型和隱馬爾可夫模型,這時語音識別開始工程化應(yīng)用;第二代語音識別技術(shù)主要采用神經(jīng)網(wǎng)絡(luò)模型和隱馬爾可夫模型,即用神經(jīng)網(wǎng)絡(luò)去代替聲學(xué)模型,減少了對聲學(xué)信號處理的專家依賴,該階段語音識別技術(shù)開始大規(guī)模工程化應(yīng)用;第三代語音識別技術(shù)主要將聲學(xué)模型和語言模型放在一起采用端到端的統(tǒng)一建模,識別性能更好、建模更加便捷,多語種推廣應(yīng)用更快;第四代語音識別技術(shù)主要采用語音預(yù)訓(xùn)練模型,實現(xiàn)更低資源的語音識別系統(tǒng)。柳老師隨后總結(jié)了人工智能技術(shù)落地需滿足三個標(biāo)準(zhǔn):真實可見的實際應(yīng)用案例、能規(guī)?;茝V的對應(yīng)產(chǎn)品和可用統(tǒng)計數(shù)據(jù)證明的應(yīng)用成效。柳老師最后簡要介紹了人工智能目前在機(jī)器翻譯、對地目標(biāo)觀測、智慧教育等領(lǐng)域的應(yīng)用情況,并認(rèn)為在統(tǒng)一語義、語用空間下,人、機(jī)和環(huán)境共融的自主學(xué)習(xí)的人工智能是未來的發(fā)展方向。
黃智生教授首先以醫(yī)學(xué)科技文獻(xiàn)庫為例,展示了大數(shù)據(jù)網(wǎng)絡(luò)時代每天都產(chǎn)生大量的科技論文和科技信息??萍脊ぷ髡呙媾R沒有足夠時間追蹤自己所關(guān)注的專題的最新進(jìn)展、無法高效率融合新知識等挑戰(zhàn)。黃教授團(tuán)隊所開發(fā)的科技信息采編機(jī)器人不但能夠定向定題為科技工作者采集最新的科技信息,還能夠?qū)⒉杉降目萍夹畔⒕庉嫵煽萍歼M(jìn)展通報,以類似出版物的形式對外發(fā)布??萍夹畔⒉删帣C(jī)器人充分利用醫(yī)學(xué)知識圖譜為信息采集提供領(lǐng)域知識指導(dǎo)、根據(jù)主題對內(nèi)容進(jìn)行聚類、提供醫(yī)學(xué)問題的循證分析等。黃教授最后展示了科技信息采編機(jī)器人生成的膿毒癥、多發(fā)性骨髓瘤、川崎病等特定領(lǐng)域的進(jìn)展通報。
姜曉軼研究員首先從海洋的數(shù)據(jù)類型、數(shù)據(jù)來源、數(shù)據(jù)規(guī)模及增長速度、國內(nèi)外海洋科學(xué)數(shù)據(jù)服務(wù)現(xiàn)狀介紹了海洋知識服務(wù)的背景[5]。海洋數(shù)據(jù)獲取方式主要包括觀測、監(jiān)測、專項調(diào)查、統(tǒng)計核算、互聯(lián)網(wǎng)爬取等,數(shù)據(jù)具有跨學(xué)科、多要素、多源、多維度、時空變化等特征,目前已經(jīng)積累了PB級別,未來5-10年有望達(dá)到EB級。因此,從復(fù)雜的大規(guī)模數(shù)據(jù)中快速地獲取有用的信息和知識,提供智能精準(zhǔn)化的決策服務(wù),已經(jīng)成為海洋數(shù)據(jù)管理、挖掘、分析和服務(wù)領(lǐng)域的迫切需求。
姜研究員隨后介紹了海洋專業(yè)知識服務(wù)系統(tǒng)的技術(shù)架構(gòu)、海洋知識資源規(guī)劃及整合管理、一站式知識檢索和多元知識服務(wù)等[6]。該系統(tǒng)匯聚整合了8大類85小類海洋知識服務(wù)資源,基于面向主題的知識資源自動聚合技術(shù),其研究團(tuán)隊構(gòu)建了海洋多要素多專題產(chǎn)品體系,覆蓋海洋環(huán)境信息產(chǎn)品、應(yīng)用管理專題產(chǎn)品、軍事保障產(chǎn)品和社會服務(wù)公益產(chǎn)品等。研制的21世紀(jì)海上絲綢之路、海平面上升、藍(lán)色經(jīng)濟(jì)、海底地形地名等多個特色專題產(chǎn)品,提供了全面、深入、精準(zhǔn)的專題知識聚合服務(wù);研發(fā)的趨勢分析、學(xué)者分析、機(jī)構(gòu)分析等知識應(yīng)用,為海洋熱點難點研究提供了信息參考;基于領(lǐng)域跟蹤、信息參考和數(shù)據(jù)分析相結(jié)合的智庫信息服務(wù)模式,打造了“權(quán)威公報+公開報告+輿情分析”一體化海洋智庫報告系列產(chǎn)品。團(tuán)隊目前正在圍繞海洋知識圖譜構(gòu)建與管理支撐應(yīng)用,集中開展技術(shù)攻關(guān)。
姜研究員最后介紹說,海洋專業(yè)知識服務(wù)系統(tǒng)的目標(biāo)是努力打造海洋信息服務(wù)與知識應(yīng)用的綜合化平臺,為國家高端智庫建設(shè)、海洋科技創(chuàng)新、海洋科普和文化宣傳提供有效支撐服務(wù)。
張潔雪老師首先介紹了國家工業(yè)信息安全發(fā)展研究中心的基本情況及業(yè)務(wù)體系,隨后介紹了信息技術(shù)知識服務(wù)系統(tǒng)的發(fā)展過程、底層資源總體情況及平臺的基礎(chǔ)功能、特色知識應(yīng)用和資源服務(wù)情況[7-8]。信息技術(shù)知識服務(wù)系統(tǒng)自2014年開始建設(shè),數(shù)據(jù)資源逐年豐富、系統(tǒng)功能逐步增加。目前已經(jīng)建設(shè)31類數(shù)據(jù)資源,總量約1,500萬余條;建設(shè)《電子信息技術(shù)敘詞表》,總收詞量達(dá)27,752條;建設(shè)集成電路、人工智能等領(lǐng)域本體。系統(tǒng)功能從基礎(chǔ)的資源統(tǒng)一檢索、分類瀏覽、知識關(guān)聯(lián)展示等,逐步擴(kuò)展到特色知識應(yīng)用服務(wù),如熱點聚集、元器件選型、信息經(jīng)濟(jì)產(chǎn)業(yè)運(yùn)行、人工智能技術(shù)趨勢等。張老師隨后重點從編制原則、選詞原則、詞間關(guān)系等方面介紹了最新出版的《電子信息技術(shù)敘詞表》的編制過程。張老師最后介紹了其團(tuán)隊所研發(fā)的多個知識服務(wù)產(chǎn)品,如人工智能產(chǎn)業(yè)圖譜、大數(shù)據(jù)優(yōu)秀案例分析、智能傳感器產(chǎn)品及制造商數(shù)據(jù)庫等。
鄭文江副研究員首先界定了戰(zhàn)略咨詢的內(nèi)涵及常用的研究方法。戰(zhàn)略咨詢研究主要對戰(zhàn)略目標(biāo)、戰(zhàn)略方針、戰(zhàn)略力量和戰(zhàn)略措施等戰(zhàn)略要素進(jìn)行研究。研究方法主要基于信息論、系統(tǒng)論、控制論和現(xiàn)代社會科學(xué)的研究方法和手段。鄭副研究員隨后詳細(xì)介紹了工程科技戰(zhàn)略咨詢智能支持系統(tǒng)的主要建設(shè)內(nèi)容。在特色資源建設(shè)方面,結(jié)合知識中心論文、專利、經(jīng)濟(jì)、產(chǎn)業(yè)等數(shù)據(jù)資源,持續(xù)構(gòu)建了未來技術(shù)庫、咨詢報告庫、技術(shù)路線圖和科研項目庫等特色數(shù)據(jù)庫;在應(yīng)用工具構(gòu)建方面,堅持“智能化”建設(shè)思路,重點圍繞前沿識別和技術(shù)預(yù)見類戰(zhàn)略咨詢需求,構(gòu)建以文獻(xiàn)與專利分析為核心的特色產(chǎn)品,初步建成技術(shù)體系、態(tài)勢分析、技術(shù)預(yù)見清單制定、技術(shù)路線圖等產(chǎn)品;在通用產(chǎn)品建設(shè)方面,建成文獻(xiàn)綜述、專利分析、項目分析、語音助手等多個通用產(chǎn)品并為課題組提供多種維度的分析工具。目前,工程科技戰(zhàn)略咨詢智能支持系統(tǒng)已支撐了中國工程科技2035發(fā)展戰(zhàn)略研究、面向2035的智能制造技術(shù)預(yù)見和路線圖、高端制造裝備重點領(lǐng)域技術(shù)路線圖等多個課題的咨詢研究工作。
李琳娜副研究員首先介紹了其項目組在中國工程科技知識組織體系的建設(shè)成果。中國工程科技知識組織體系主要包括工程科技詞表和知識中心中文文獻(xiàn)類資源導(dǎo)航分類體系。工程科技詞表是核心集和擴(kuò)展集的架構(gòu)體系,核心集具有詞條質(zhì)量高、詞間關(guān)系密集的特點;擴(kuò)展集具有收詞量大、覆蓋面廣、更新速度快的特點。李副研究員隨后詳細(xì)介紹了基于工程科技詞表的主題標(biāo)引,標(biāo)引算法基于能捕捉詞條語義信息的詞向量技術(shù),利用大規(guī)模語料統(tǒng)計構(gòu)建主題詞和普通詞的映射關(guān)系,最終實現(xiàn)科技資源的主題快速標(biāo)引;其接著介紹了知識組織體系對知識中心智庫建設(shè)中個性化推薦的應(yīng)用情況,一方面將知識中心分類體系用于推薦算法的召回,另一方面也將前述的主題標(biāo)引方法用于召回及排序;最后對知識組織體系在知識服務(wù)中的應(yīng)用問題進(jìn)行了總結(jié)、對前景進(jìn)行了展望。
化柏林助理教授首先介紹了科技政策文本包含的元數(shù)據(jù)信息及特點??萍颊呶谋就诰虬ńy(tǒng)計計量分析和文本內(nèi)容挖掘。統(tǒng)計計量分析主要包括發(fā)布時間分析、政策擴(kuò)散分析和合作關(guān)系分析;內(nèi)容挖掘包括主題內(nèi)容挖掘、主題演化分析、實體關(guān)系抽取、政策比對分析和政策目標(biāo)抽取[9]。政策文本挖掘可用于發(fā)現(xiàn)政策的主要目標(biāo)、政策主題的演化、政策過程中的現(xiàn)有模式、政策影響及政策發(fā)展趨勢。化柏林助理教授隨后從自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的角度介紹了政策文本挖掘中常用的方法和技術(shù),進(jìn)一步展示了其研究團(tuán)隊在政策文本挖掘方面所取得的成果,最后對政策文本挖掘的研究體會進(jìn)行了總結(jié)。
陸泉教授分析了數(shù)據(jù)驅(qū)動的健康知識發(fā)現(xiàn)中數(shù)據(jù)、樣本與知識方面的問題及研究進(jìn)展。針對數(shù)據(jù)不正確、數(shù)據(jù)不完整和數(shù)據(jù)難理解等數(shù)據(jù)問題,他介紹了采用元數(shù)據(jù)增強(qiáng)和擴(kuò)展方法進(jìn)行作者消歧,通過融合模糊知識表示與推理實現(xiàn)藥物知識發(fā)現(xiàn),利用擴(kuò)展疾病本體對電子病歷大數(shù)據(jù)進(jìn)行知識組織等研究[10];針對缺乏樣本、樣本不均衡和高維稀疏等樣本問題,介紹了利用結(jié)合注意力機(jī)制的遷移學(xué)習(xí)解決目標(biāo)領(lǐng)域中缺乏樣本問題,通過兩階段遷移學(xué)習(xí)解決多標(biāo)簽分類中樣本不均衡問題,綜合領(lǐng)域信息識別和聚類等方法解決微博熱點話題挖掘中高維稀疏問題等研究[11];針對知識不系統(tǒng)、領(lǐng)域片面性和知識局限性等知識問題,介紹了細(xì)粒度醫(yī)學(xué)知識圖譜構(gòu)建、跨領(lǐng)域本體構(gòu)建和本體推理、顛覆性技術(shù)預(yù)測以及靈感情報等研究。
武建才老師首先簡要介紹了山西醫(yī)學(xué)期刊社有限責(zé)任公司的基本情況,隨后從我國護(hù)理科研存在的問題以及行業(yè)、技術(shù)與政策的角度介紹了護(hù)理大數(shù)據(jù)平臺建設(shè)的整體背景。護(hù)理大數(shù)據(jù)平臺主要包括信息采集、信息分析、開放共享體系和知識服務(wù)四個主要建設(shè)任務(wù)。知識服務(wù)模式主要有基于語義關(guān)聯(lián)的知識發(fā)現(xiàn)服務(wù)、基于深度融合的情報分析服務(wù)、面向特定需求的個性化定制服務(wù)和針對特定主題的專題知識服務(wù)。武老師最后詳細(xì)介紹了對比式摘要、自動綜述、人才評價、期刊評價等多種知識服務(wù)成果。
本次會議圍繞情報分析、知識組織、知識服務(wù)、大數(shù)據(jù)治理等領(lǐng)域的研究與應(yīng)用現(xiàn)狀,探討了新時代情報分析技術(shù)、知識服務(wù)創(chuàng)新、情報服務(wù)專業(yè)化的發(fā)展趨勢與戰(zhàn)略規(guī)劃。會議加強(qiáng)了中國情報領(lǐng)域?qū)W界和業(yè)界的交流與合作,明確了情報工程在“十四五”階段的發(fā)展方向,強(qiáng)調(diào)了基于數(shù)據(jù)智能的知識服務(wù)對科技創(chuàng)新的重要支撐作用。知識服務(wù)與情報工程學(xué)術(shù)交流會議將繼續(xù)為知識服務(wù)、情報工程及相關(guān)領(lǐng)域研究人員提供學(xué)術(shù)研討與合作交流的平臺。
作者貢獻(xiàn)說明
李琳娜:參與論文框架討論,起草論文;
劉志輝,陸泉:論文框架確定,論文修訂。