周園春 ,常青玲,杜一*
1.中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京100190
2.中國(guó)科學(xué)院大學(xué),北京 100049
科學(xué)技術(shù)是第一生產(chǎn)力。2007年至今,我國(guó)科研支出從0.4億元增加到1.7萬(wàn)億元,增長(zhǎng)幅度超3倍[1]。以國(guó)家自然科學(xué)基金委為例,其資助的科研項(xiàng)目數(shù)近10年增加了近1倍。與此同時(shí),依托各類(lèi)科研投入的科技論文、發(fā)明專(zhuān)利等科研產(chǎn)出迅速增加,產(chǎn)生了科技項(xiàng)目、科研人員、科技成果等多源、異構(gòu)的海量數(shù)據(jù)。如何準(zhǔn)確、高效的對(duì)科技項(xiàng)目、科研人員、科技成果的影響力、潛力以及對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的促進(jìn)作用進(jìn)行評(píng)估,成為制約科技進(jìn)一步發(fā)展的瓶頸。
在該背景下,國(guó)家及各地方科技管理部門(mén)、研究機(jī)構(gòu)、咨詢公司等嘗試基于數(shù)據(jù)的科技評(píng)估方法[2-8],科技領(lǐng)域知識(shí)圖譜成為首選。近年來(lái),國(guó)內(nèi)外涌現(xiàn)了較多的基于科技領(lǐng)域知識(shí)圖譜技術(shù)的新學(xué)科與新技術(shù)發(fā)現(xiàn)、成果評(píng)價(jià)等理論[9,10],諸如基于領(lǐng)域知識(shí)圖譜的立項(xiàng)推薦、交叉學(xué)科發(fā)現(xiàn)[11,12]等技術(shù)也已在美國(guó)國(guó)家自然科學(xué)基金委(NSF,National Science Foundation)、中國(guó)國(guó)家自然科學(xué)基金委(NSFC,National Natural Science Foundation of China)、科技部等眾多單位進(jìn)行了應(yīng)用與嘗試,并取得了較好的效果。然而,由于科技發(fā)展的高速變化以及各科技機(jī)構(gòu)對(duì)科技評(píng)估輔助的需求不盡相同,需要建立一個(gè)相對(duì)通用的科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜平臺(tái),能夠支持來(lái)自不同關(guān)注點(diǎn)的科技需求。
本文面向科技領(lǐng)域知識(shí)圖譜構(gòu)建的核心技術(shù),突破海量知識(shí)圖譜數(shù)據(jù)的采集、清洗、存儲(chǔ)與管理難題,融合科技成果、科研人員、科研機(jī)構(gòu)、科技項(xiàng)目、關(guān)鍵詞等科技實(shí)體,構(gòu)建面向科技輔助決策的領(lǐng)域知識(shí)圖譜,提出一種科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜平臺(tái)SKS(Scientific Knowledge Store)。通過(guò)構(gòu)建科技領(lǐng)域知識(shí)圖譜,提供科技人員、項(xiàng)目、成果相關(guān)的概念、知識(shí)與關(guān)系的查詢與統(tǒng)計(jì)分析,提供科技領(lǐng)域項(xiàng)目、專(zhuān)家、成果的查詢與分析等功能;在科技領(lǐng)域知識(shí)圖譜基礎(chǔ)上,結(jié)合傳統(tǒng)的文獻(xiàn)計(jì)量學(xué)方法[13]、網(wǎng)絡(luò)表示學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)等最新機(jī)器學(xué)習(xí)方法提供包括新技術(shù)發(fā)現(xiàn)、規(guī)劃制定、項(xiàng)目立項(xiàng)、成果評(píng)價(jià)的分析與服務(wù)。實(shí)現(xiàn)包括影響力評(píng)價(jià)、關(guān)聯(lián)挖掘、學(xué)科分析、立項(xiàng)評(píng)價(jià)在內(nèi)的科技評(píng)估。
谷歌于2012年,在原有知識(shí)庫(kù)、知識(shí)工程基礎(chǔ)上提出知識(shí)圖譜的概念,并成功應(yīng)用于其搜索引擎等核心業(yè)務(wù)。領(lǐng)域知識(shí)圖譜促進(jìn)了知識(shí)圖譜技術(shù)落地,而科技領(lǐng)域作為知識(shí)密集型的領(lǐng)域,亟需具有較強(qiáng)分析及組織能力的知識(shí)圖譜對(duì)其進(jìn)行更好的組織管理及分析處理??萍碱I(lǐng)域知識(shí)圖譜面向科學(xué)技術(shù)領(lǐng)域,構(gòu)建以科研項(xiàng)目、學(xué)術(shù)論文、專(zhuān)利、科技動(dòng)態(tài)等為主要數(shù)據(jù)源,以論文、專(zhuān)利、科研人員、機(jī)構(gòu)、項(xiàng)目、關(guān)鍵詞等為主要實(shí)體,以支持面向科技領(lǐng)域的學(xué)科分析、影響力評(píng)價(jià)、關(guān)聯(lián)挖掘?yàn)橹饕康牡念I(lǐng)域知識(shí)圖譜。
在科技領(lǐng)域知識(shí)圖譜相關(guān)平臺(tái)建設(shè)上,VIVO[14,15]項(xiàng)目匯聚了CASRAI (Consortium Advancing Standards in Research Administration Information),EuroCRIS(Current Research Information Systems) 及 ORCID (Open Researcher and Contributor ID) 等不同科研體系及數(shù)據(jù)源,并以數(shù)據(jù)接口的形式提供了服務(wù)于科技人員的知識(shí)庫(kù)。國(guó)家自然科學(xué)基金委于2016年部署了“國(guó)家自然科學(xué)基金大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)”項(xiàng)目,明確提出了構(gòu)建以科研項(xiàng)目為核心、以科研成果為依托的大數(shù)據(jù)平臺(tái),并構(gòu)建“項(xiàng)目—成果—人員—機(jī)構(gòu)—關(guān)鍵詞”組成的科技領(lǐng)域知識(shí)網(wǎng)絡(luò),為基金委科研項(xiàng)目管理與評(píng)估提供智能支持[16]。中國(guó)科學(xué)院于2017年部署了“智慧中科院”項(xiàng)目,將采集全球科技相關(guān)的成果、人員、團(tuán)隊(duì)數(shù)據(jù),并構(gòu)建全球科技知識(shí)圖譜,為科學(xué)決策提供輔助支撐。中國(guó)科協(xié)于2018年部署了“中國(guó)科協(xié)大數(shù)據(jù)與人工智能大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)”,構(gòu)建“成果—人員—學(xué)術(shù)機(jī)構(gòu)—學(xué)會(huì)—關(guān)鍵詞”為核心的科技領(lǐng)域知識(shí)圖譜,為包括學(xué)會(huì)評(píng)估在內(nèi)的智慧科協(xié)的建設(shè)提供數(shù)據(jù)和分析支持。
利用科技領(lǐng)域知識(shí)圖譜相關(guān)平臺(tái)提供的數(shù)據(jù)及技術(shù)能力,基于各類(lèi)評(píng)估方法及分析方法,國(guó)際上研發(fā)了多種科技評(píng)估輔助系統(tǒng)。CiteSpace[17]、SCI2 Tool[18]是面向科技文獻(xiàn)分析的專(zhuān)用工具,提供了包括文獻(xiàn)共被引、文獻(xiàn)耦合、作者合作等分析功能;Gephi[19]、Pajek[20]是通用網(wǎng)絡(luò)數(shù)據(jù)分析工具,融合了包括模塊化分析、中心性分析等復(fù)雜網(wǎng)絡(luò)的分析方法,以上工具廣泛應(yīng)用于文獻(xiàn)情報(bào)學(xué)研究領(lǐng)域。然而,其在數(shù)據(jù)源上與科技論文數(shù)據(jù)緊密耦合及學(xué)科評(píng)價(jià)、趨勢(shì)分析等方面的分析能力較弱。由科睿唯安研發(fā)的Web of Science基于SCI評(píng)價(jià)體系[21],研發(fā)了InCites系統(tǒng),提供以論文為核心的國(guó)際影響力評(píng)價(jià)、機(jī)構(gòu)關(guān)聯(lián)分析等功能,并提供了基本的可視分析功能。Google Scholar及Microsoft Academic[22]是基于開(kāi)放及內(nèi)部的各類(lèi)論文、專(zhuān)利、報(bào)告等數(shù)據(jù),構(gòu)建了以學(xué)術(shù)成果、科學(xué)家為核心的海量學(xué)術(shù)知識(shí)庫(kù),并基于此提供引文分析、學(xué)術(shù)趨勢(shì)分析、個(gè)人及機(jī)構(gòu)影響力分析等功能。在國(guó)內(nèi),萬(wàn)方、知網(wǎng)等出版商也依托各自在中文學(xué)術(shù)期刊、會(huì)議上數(shù)據(jù)的優(yōu)勢(shì),研發(fā)出相應(yīng)的輔助分析系統(tǒng)。由清華大學(xué)牽頭研制的AMiner系統(tǒng)[23],通過(guò)融合海量科技論文數(shù)據(jù),構(gòu)建了以論文和科學(xué)家為核心的知識(shí)網(wǎng)絡(luò),并提供了包括學(xué)者評(píng)價(jià)、學(xué)者遷徙分析在內(nèi)的特色功能。中國(guó)工程院于2012年啟動(dòng)建設(shè)“中國(guó)工程科技知識(shí)中心”(CKCEST,China Knowledge Centre for Engineering Sciences and Technology),該項(xiàng)目匯聚了超44億條論文、行業(yè)報(bào)告在內(nèi)的成果數(shù)據(jù),并提供了包括主題分析、戰(zhàn)略咨詢、交叉領(lǐng)域分析等功能。以上系統(tǒng)為科技輔助分析與決策提供了強(qiáng)有力的支持,然而仍有改進(jìn)的空間。首先,雖然均利用了海量開(kāi)放數(shù)據(jù),但在數(shù)據(jù)匯聚、更新與融合上,過(guò)多的依賴算法,而忽略了各類(lèi)精準(zhǔn)分析對(duì)準(zhǔn)確性的苛刻要求;其次,在分析粒度上仍主要基于論文、專(zhuān)利的標(biāo)題、作者、機(jī)構(gòu)等基本信息,對(duì)于論文主題、關(guān)鍵詞甚至全文的利用較弱,難以挖掘細(xì)粒度的學(xué)科關(guān)聯(lián)與學(xué)科發(fā)展;再次,在數(shù)據(jù)利用上,沒(méi)有考慮科研項(xiàng)目生命周期的相關(guān)數(shù)據(jù),對(duì)科研項(xiàng)目指派、立項(xiàng)、評(píng)價(jià)等的決策支持能力有限。
文中給出一種科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜平臺(tái),該平臺(tái)在大數(shù)據(jù)基礎(chǔ)環(huán)境支撐下,利用分布式大數(shù)據(jù)采集與融合技術(shù),設(shè)計(jì)一整套領(lǐng)域知識(shí)圖譜構(gòu)建流水線。以科技領(lǐng)域?yàn)榍腥朦c(diǎn),突破大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)、實(shí)體發(fā)現(xiàn)與鏈接預(yù)測(cè)、行業(yè)趨勢(shì)與交叉學(xué)科預(yù)測(cè)等關(guān)鍵技術(shù),構(gòu)建科技領(lǐng)域知識(shí)圖譜,并為不同的應(yīng)用場(chǎng)景提供科技輔助決策服務(wù)。
圖1 SKS平臺(tái)架構(gòu)圖Fig.1 SKS platform architecture
SKS平臺(tái)架構(gòu)如圖1。整體流程從數(shù)據(jù)源開(kāi)始,經(jīng)過(guò)對(duì)各類(lèi)開(kāi)放數(shù)據(jù)進(jìn)行采集、一次清洗、二次清洗及初步融合后,抽取出相關(guān)科技類(lèi)實(shí)體與關(guān)系,構(gòu)建初步科技領(lǐng)域知識(shí)圖譜,并在此基礎(chǔ)上抽取子圖,經(jīng)過(guò)數(shù)據(jù)二次加工,實(shí)現(xiàn)包括趨勢(shì)預(yù)測(cè)、影響力評(píng)價(jià)、學(xué)者推薦在內(nèi)的科技輔助決策服務(wù)。
SKS平臺(tái)的實(shí)現(xiàn)依賴于豐富的開(kāi)放數(shù)據(jù)的積累,為實(shí)現(xiàn)該目標(biāo),平臺(tái)首先對(duì)基本科技實(shí)體及實(shí)體間關(guān)系進(jìn)行元數(shù)據(jù)定義。其中基本科技實(shí)體包括科技人員、科技機(jī)構(gòu)、學(xué)術(shù)期刊或會(huì)議、科技成果(期刊論文、會(huì)議論文、學(xué)術(shù)論文、專(zhuān)著、專(zhuān)利、標(biāo)準(zhǔn)、軟件著作權(quán)等)、獎(jiǎng)勵(lì)、科研數(shù)據(jù)集、科技事件。在此基礎(chǔ)上,為主要科技類(lèi)實(shí)體定義關(guān)系元數(shù)據(jù),同時(shí),維護(hù)并更新包括民族、國(guó)籍、職稱、學(xué)位在內(nèi)的一系列字典。表1示意了元數(shù)據(jù)中對(duì)科技實(shí)體關(guān)系的定義。其中實(shí)體1和實(shí)體2表示兩個(gè)實(shí)體;關(guān)系是指兩個(gè)實(shí)體之間都有哪些關(guān)系,如人與機(jī)構(gòu)兩個(gè)實(shí)體之間的關(guān)系可能有就讀于,工作于,任職于等等;屬性則是對(duì)該關(guān)系的描述,主要包含該關(guān)系的起始時(shí)間,確定該關(guān)系的依據(jù)即來(lái)源以及該條記錄的更新時(shí)間。例如:張三任職于中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,2013年9月,2018年6月,http://www.cnic.cas.cn/yfdw/index_64194.html?json=http://sourcedb.cnic.cas.cn/zw/zjrc/zgj/200908/t20090817_2404514.json,2019年6月。(“人”:“張三”,“機(jī)構(gòu)”:“中科院計(jì)算機(jī)網(wǎng)絡(luò)信息中心”,“關(guān)系”:“任職于”,“屬性”包括:“開(kāi)始時(shí)間”:“2013年9月”,“結(jié)束時(shí)間”:“2018年6月”,“來(lái)源”:“http:// www.cnic.cas.cn/yfdw/index_64194.html?json=http://sourcedb.cnic.cas.cn/zw/zjrc/zgj/200908/t20090817_2404514.json”,“最后更新時(shí)間”:“2019年6月”。
在SKS平臺(tái)中,定義了超20類(lèi)科技實(shí)體、超70類(lèi)實(shí)體關(guān)系,超400個(gè)屬性定義的元數(shù)據(jù)。依據(jù)該統(tǒng)一元數(shù)據(jù)描述規(guī)范,對(duì)采集到的數(shù)據(jù)進(jìn)行清洗并存儲(chǔ),確保異構(gòu)異源數(shù)據(jù)的格式對(duì)齊,為多源數(shù)據(jù)的融合提供基礎(chǔ),且在一定程度上確??萍碱I(lǐng)域知識(shí)圖譜的準(zhǔn)確性,除此之外,在數(shù)據(jù)采集與獲取時(shí),還解決了以下技術(shù)問(wèn)題:
表1 科技實(shí)體關(guān)系示意表Table1 Schematic table of scientific entity relationship
● 分布式數(shù)據(jù)爬取技術(shù),解決科技相關(guān)數(shù)據(jù)爬取的問(wèn)題。
● 屬性自動(dòng)映射技術(shù),解決數(shù)據(jù)采集后與元數(shù)據(jù)中基本屬性的映射問(wèn)題。
● 定時(shí)數(shù)據(jù)獲取技術(shù),解決增量數(shù)據(jù)的采集與獲取問(wèn)題。
SKS平臺(tái)的數(shù)據(jù)處理與融合,由多個(gè)不同的數(shù)據(jù)處理流程構(gòu)成。由于數(shù)據(jù)海量、多源、異構(gòu)的特點(diǎn),在第一步數(shù)據(jù)清洗中,進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化、缺失數(shù)據(jù)補(bǔ)全與處理、數(shù)據(jù)校對(duì)等工作。第一步的數(shù)據(jù)清洗完成了數(shù)據(jù)字段的規(guī)范化,一定程度上提高了數(shù)據(jù)的質(zhì)量。第二步數(shù)據(jù)清洗主要進(jìn)行數(shù)據(jù)處理與融合,該過(guò)程設(shè)計(jì)并實(shí)踐了通用數(shù)據(jù)清洗流程如圖2。其中關(guān)鍵屬性指能夠明確標(biāo)識(shí)一類(lèi)實(shí)體或數(shù)據(jù)的屬性,例如科技人員的ID、期刊論文的DOI等;同時(shí),在該清洗流程中,還給出了通過(guò)模糊匹配等方式實(shí)現(xiàn)進(jìn)一步的數(shù)據(jù)融合。經(jīng)過(guò)數(shù)據(jù)的二次清洗及校驗(yàn),逐步形成高質(zhì)量科技領(lǐng)域知識(shí)數(shù)據(jù),最終構(gòu)建科技領(lǐng)域知識(shí)圖譜。
圖2 通用數(shù)據(jù)清洗流程圖Fig.2 General data cleaning flowchart
在構(gòu)建的科技領(lǐng)域知識(shí)圖譜基礎(chǔ)上,提供一系列分析與挖掘支持,以實(shí)現(xiàn)SKS平臺(tái)的深度挖掘功能。這些分析與挖掘功能包括:
● 論文引文網(wǎng)絡(luò)分析;
● 論文共詞網(wǎng)絡(luò)分析;
● 論文共被引網(wǎng)絡(luò)分析;
● 學(xué)者遷徙網(wǎng)絡(luò)分析;
● 關(guān)鍵詞與學(xué)科網(wǎng)絡(luò)分析;
● 學(xué)科趨勢(shì)預(yù)測(cè);
● 科技實(shí)體影響力評(píng)價(jià);
● 學(xué)科交叉研究;
● 學(xué)者關(guān)系挖掘與推薦。
在SKS平臺(tái)構(gòu)建及運(yùn)行過(guò)程中,以作者、機(jī)構(gòu)為典型的實(shí)體及屬性的融合是決定平臺(tái)成功與否的核心問(wèn)題。SKS平臺(tái)在不同階段融合不同技術(shù),保障數(shù)據(jù)的質(zhì)量:
● 面向不同數(shù)據(jù)源,利用專(zhuān)家經(jīng)驗(yàn),設(shè)計(jì)實(shí)體及屬性映射規(guī)則,實(shí)現(xiàn)數(shù)據(jù)映射質(zhì)量的保障。
● 融合基于規(guī)則及基于異質(zhì)圖神經(jīng)網(wǎng)絡(luò)嵌入(Heterogeneous Graph Convolutional Network Embedding)的方法,對(duì)作者及機(jī)構(gòu)實(shí)體進(jìn)行消歧。
● 利用基于眾包(Crowd Sourcing)的工具,面向不同任務(wù),設(shè)計(jì)不同的眾包標(biāo)注及校驗(yàn)流程,進(jìn)一步增強(qiáng)數(shù)據(jù)質(zhì)量。
● 在數(shù)據(jù)融合不同階段均進(jìn)行合理標(biāo)記,保證不同質(zhì)量的數(shù)據(jù)的對(duì)齊、融合過(guò)程可追溯。
SKS平臺(tái)突破海量數(shù)據(jù)的采集、清洗,大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)存儲(chǔ)管理,多源異質(zhì)數(shù)據(jù)的融合,實(shí)體發(fā)現(xiàn)及關(guān)系挖掘等關(guān)鍵技術(shù),并基于相關(guān)技術(shù)研發(fā)了大數(shù)據(jù)處理分析工具,它們?cè)赟KS平臺(tái)的數(shù)據(jù)流動(dòng)過(guò)程中扮演著重要的角色,其中,PackOne[24]作為大數(shù)據(jù)存儲(chǔ)與管理工具,保證整個(gè)流程的基礎(chǔ)大數(shù)據(jù)環(huán)境的穩(wěn)定、高效;SKSPrepare作為一款基于機(jī)器學(xué)習(xí)與眾包的數(shù)據(jù)準(zhǔn)備工具,能夠提高數(shù)據(jù)的清洗及校對(duì)效率;PiFlow[25]作為數(shù)據(jù)處理流水線工具,提供從數(shù)據(jù)采集、清洗、融合到深度分析挖掘在內(nèi)的一系列處理模塊。
PackOne致力于實(shí)現(xiàn)主流大數(shù)據(jù)軟件在云端的快速?gòu)椥圆渴?。通過(guò)對(duì)云API和Apache Ambari API的聯(lián)合調(diào)用,完成Hadoop、Spark、NiFi、PiFlow、Kylin、MangoDB、Neo4J等流行的大數(shù)據(jù)管理/處理軟件在云端的一鍵部署和一鍵伸縮。實(shí)現(xiàn)大數(shù)據(jù)環(huán)境的快速部署、彈性收縮和集中監(jiān)管。PackOne大數(shù)據(jù)管理工具如圖3所示。主要特性包括:
圖3 PackOne 大數(shù)據(jù)管理工具Fig.3 PackOne big data management tool
● 支持在空白虛擬機(jī)上完成大數(shù)據(jù)處理集群的全自動(dòng)部署;
● 通過(guò)Apache Ambari對(duì)已部署的大數(shù)據(jù)軟件進(jìn)行狀態(tài)監(jiān)控、配置管理;
● 通過(guò)將模版集群物化為系統(tǒng)鏡像,實(shí)現(xiàn)新集群的分鐘級(jí)快速部署;
● 通過(guò)集群節(jié)點(diǎn)的全自動(dòng)增刪,實(shí)現(xiàn)各類(lèi)大數(shù)據(jù)軟件處理能力的分鐘級(jí)彈性伸縮;
● 在同一個(gè)界面上對(duì)來(lái)自不同云的虛擬機(jī)、存儲(chǔ)卷、鏡像、模版等進(jìn)行CURD操作。
SKSPrepare是基于機(jī)器學(xué)習(xí)與眾包的數(shù)據(jù)準(zhǔn)備工具。對(duì)于海量結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù),可以快速部署并運(yùn)行數(shù)據(jù)獲取腳本,并對(duì)數(shù)據(jù)進(jìn)行及時(shí)的管理。對(duì)于大量非結(jié)構(gòu)化數(shù)據(jù),它提供了模型驅(qū)動(dòng)的眾包數(shù)據(jù)采集方法,支持快速的數(shù)據(jù)錄入界面設(shè)計(jì)與生成,并提供基于工作流的審核與協(xié)作流程配置。圖4為SKSPrepare自動(dòng)配置的數(shù)據(jù)錄入界面。
圖4 SKSPrepare自動(dòng)配置的數(shù)據(jù)錄入界面Fig.4 SKSPrepare automatically configured data entry interface
PiFlow是一個(gè)基于分布式計(jì)算框架Spark開(kāi)發(fā)的大數(shù)據(jù)流水線系統(tǒng)。該系統(tǒng)將數(shù)據(jù)的采集、清洗、計(jì)算、存儲(chǔ)等各個(gè)環(huán)節(jié)封裝成組件,以所見(jiàn)即所得的方式進(jìn)行流水線配置。圖5為PiFlow流水線配置的示例。
圖5 PiFlow流水線配置Fig.5 PiFlow flow configuration interface
系統(tǒng)基于模型驅(qū)動(dòng)的大數(shù)據(jù)流水線描述語(yǔ)言PiFlowDL實(shí)現(xiàn),該語(yǔ)言以模塊化、層次化的方式對(duì)大數(shù)據(jù)處理任務(wù)進(jìn)行描述。通過(guò)流水線配置的方式,提供狀態(tài)監(jiān)控、模版配置、組件集成等功能,極大程度上提高了大數(shù)據(jù)處理環(huán)境的構(gòu)建與開(kāi)發(fā)效率,其性能較Apache知名開(kāi)源項(xiàng)目 Nif i提升至少3倍。PiFlow具有如下特性:
● 簡(jiǎn)單易用:提供可視化界面配置流水線,實(shí)時(shí)監(jiān)控流水線運(yùn)行狀態(tài),查看日志,提供模板功能;
● 功能強(qiáng)大:提供100+的數(shù)據(jù)處理組件,包括 Hadoop 、Spark、MLlib、Hive、Solr、Redis、MemCache、ElasticSearch、JDBC、MongoDB、HTTP、FTP、XML、CSV、JSON等,同時(shí)集成了微生物、AI、NLP等領(lǐng)域的相關(guān)算法;
● 擴(kuò)展性強(qiáng):支持自定義開(kāi)發(fā)數(shù)據(jù)處理組件、滿足項(xiàng)目實(shí)施過(guò)程中的特定需求;
● 性能優(yōu)越:基于分布式計(jì)算引擎Spark開(kāi)發(fā),性能表現(xiàn)優(yōu)越。
面向科技領(lǐng)域的科技項(xiàng)目、科研人員、科技成果、科研組織、科研動(dòng)態(tài)等數(shù)據(jù),基于大數(shù)據(jù)關(guān)鍵技術(shù)及研發(fā)工具,實(shí)現(xiàn)對(duì)大數(shù)據(jù)的采集、清洗、匯聚、融合等,進(jìn)而構(gòu)建科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜,并基于此為用戶提供精準(zhǔn)檢索、趨勢(shì)預(yù)測(cè)、影響力評(píng)價(jià)、學(xué)者推薦在內(nèi)的科技輔助決策服務(wù)。
目前,基于科技領(lǐng)域大數(shù)據(jù)的知識(shí)圖譜關(guān)鍵技術(shù)及平臺(tái)工具已在煙草科技資源數(shù)據(jù)服務(wù)系統(tǒng)、中國(guó)科協(xié)計(jì)算機(jī)與人工智能大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)及空間科學(xué)領(lǐng)域的數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)中部署應(yīng)用,應(yīng)用效果均得到專(zhuān)家認(rèn)可。
煙草科技資源知識(shí)服務(wù)系統(tǒng)面向煙草領(lǐng)域科研人員、科研機(jī)構(gòu)、科研項(xiàng)目,以及論文、標(biāo)準(zhǔn)、專(zhuān)利、成果報(bào)告、專(zhuān)著等科研成果和開(kāi)放數(shù)據(jù)等,實(shí)現(xiàn)對(duì)煙草科技信息資源的匯聚整理、融合與深度挖掘,為煙草科研人員準(zhǔn)確把握研究方向和提高科研活動(dòng)效率提供支持。
面對(duì)數(shù)據(jù)量龐大,結(jié)構(gòu)復(fù)雜,特征繁多的煙草科技數(shù)據(jù),采用PiFlow流水線系統(tǒng),通過(guò)配置多條流水線,實(shí)現(xiàn)數(shù)據(jù)的采集、清洗融合,基于深度學(xué)習(xí)進(jìn)行實(shí)體及實(shí)體關(guān)系抽取,進(jìn)而構(gòu)建煙草科技領(lǐng)域知識(shí)圖譜?;谥R(shí)圖譜,結(jié)合圖深度優(yōu)先遍歷算法發(fā)現(xiàn)科研機(jī)構(gòu)及科研人員之間的合作網(wǎng)絡(luò)及關(guān)聯(lián)路徑,利用Louvain算法及文獻(xiàn)計(jì)量學(xué)原理發(fā)現(xiàn)煙草科研活動(dòng)的熱點(diǎn)研究趨勢(shì)等。大數(shù)據(jù)管理工具PackOne則為系統(tǒng)匯聚的海量數(shù)據(jù)及知識(shí)圖譜圖數(shù)據(jù)庫(kù)提供數(shù)據(jù)的存儲(chǔ)和管理,保障煙草科技資源知識(shí)服務(wù)系統(tǒng)的穩(wěn)定運(yùn)行。
煙草科技資源知識(shí)服務(wù)系統(tǒng)如圖6所示,其中,科技項(xiàng)目、科技成果、科技人員、科研單位等所有數(shù)據(jù)信息都可作為網(wǎng)絡(luò)圖中的節(jié)點(diǎn),它們之間的關(guān)系是邊。圖中不同位置的節(jié)點(diǎn)組成以人員為核心的子網(wǎng)絡(luò),圍繞在人員周?chē)墓?jié)點(diǎn)分別是參與的項(xiàng)目、產(chǎn)出的成果以及所在的機(jī)構(gòu)。子網(wǎng)絡(luò)之間通過(guò)不同煙草知識(shí)數(shù)據(jù)相互關(guān)聯(lián),構(gòu)成煙草大數(shù)據(jù)知識(shí)網(wǎng)絡(luò),并采用直觀的交互式方式,為用戶提供基礎(chǔ)數(shù)據(jù)查詢、知識(shí)關(guān)聯(lián)查詢、科研關(guān)系網(wǎng)絡(luò)查詢、影響力分析、科研社區(qū)發(fā)現(xiàn)等服務(wù),并提供立體全景式的瀏覽形式。目前煙草科技資源知識(shí)服務(wù)系統(tǒng)已融合超30類(lèi)實(shí)體與關(guān)系,并應(yīng)用于煙草科研全領(lǐng)域科技人員及機(jī)構(gòu),主要分析與洞察結(jié)果也得到了領(lǐng)域?qū)<业母叨日J(rèn)可。
圖6 煙草科技資源數(shù)據(jù)服務(wù)系統(tǒng)Fig.6 Tobacco science and technology resource data service system
中國(guó)科協(xié)計(jì)算機(jī)科學(xué)與人工智能大數(shù)據(jù)知識(shí)管理與服務(wù)平臺(tái)項(xiàng)目的主要建設(shè)目標(biāo)是依托中國(guó)科協(xié)學(xué)科門(mén)類(lèi)齊全、領(lǐng)域交叉充分、智力資源密集的獨(dú)特優(yōu)勢(shì),構(gòu)建科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜,形成“科技領(lǐng)域-專(zhuān)家人才-研究成果”的關(guān)系網(wǎng)絡(luò),提供計(jì)算機(jī)科學(xué)與人工智能科技領(lǐng)域研究熱點(diǎn)、趨勢(shì)、人才態(tài)勢(shì)感知服務(wù),利用復(fù)雜網(wǎng)絡(luò)關(guān)系分析、機(jī)器學(xué)習(xí)等挖掘技術(shù),為宏觀科技管理與決策提供支持服務(wù)。
項(xiàng)目利用PiFlow部署多條流水線對(duì)海量科協(xié)及公開(kāi)數(shù)據(jù)進(jìn)行采集、清洗、融合。針對(duì)特殊數(shù)據(jù)源,采用基于眾包的SKSPrepare工具采集,進(jìn)一步完善豐富知識(shí)管理平臺(tái)數(shù)據(jù)資源。最后利用PackOne為系統(tǒng)搭建存儲(chǔ)管理平臺(tái),為科協(xié)知識(shí)管理服務(wù)平臺(tái)提供安全穩(wěn)定的運(yùn)行環(huán)境。
中國(guó)科協(xié)計(jì)算機(jī)科學(xué)與人工智能大數(shù)據(jù)知識(shí)管理與服務(wù)平臺(tái)如圖7所示,它結(jié)合基于規(guī)則和人工智能方法匯聚整合了科技領(lǐng)域中的科技人才、科技項(xiàng)目、科技組織、科技事件、科研成果等數(shù)據(jù),構(gòu)建面向科技服務(wù)的知識(shí)圖譜,基于知識(shí)圖譜挖掘科技資源價(jià)值,主要包括面向領(lǐng)域科技專(zhuān)家畫(huà)像、基于H指數(shù)的科技成果影響力分析、基于PageRank的科研機(jī)構(gòu)影響力分析、基于標(biāo)簽傳播的LPA算法進(jìn)行領(lǐng)域熱點(diǎn)趨勢(shì)分析等。為中國(guó)科協(xié)研究人員提供中國(guó)科協(xié)科研熱點(diǎn)、科研影響力和科研趨勢(shì)分析服務(wù);提供立體、多維、高精度人才畫(huà)像及專(zhuān)家推薦等智能服務(wù)。目前,中國(guó)科協(xié)計(jì)算機(jī)與人工智能大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái),融合了超過(guò)1億科技實(shí)體,已在中國(guó)科協(xié)內(nèi)部進(jìn)行初步部署與展示。
圖7 中國(guó)科協(xié)計(jì)算機(jī)與人工智能大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)Fig.7 China Association for science and technology computer and artificial big data knowledge management service platform
空間科學(xué)領(lǐng)域大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)主要面向空間領(lǐng)域科研活動(dòng)數(shù)據(jù),實(shí)現(xiàn)大數(shù)據(jù)的智能化管理,為空間領(lǐng)域科研工作者提供科研決策及科技管理等參考依據(jù)。
項(xiàng)目利用PiFlow流水線及基于眾包的SKSPrepare數(shù)據(jù)準(zhǔn)備工具對(duì)空間科學(xué)領(lǐng)域大數(shù)據(jù)及網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)進(jìn)行采集匯聚,基于空間科學(xué)大數(shù)據(jù),結(jié)合Seq2seq與Attention機(jī)制識(shí)別實(shí)體及實(shí)體間關(guān)系,進(jìn)而構(gòu)建空間科學(xué)領(lǐng)域大數(shù)據(jù)知識(shí)圖譜。
空間科學(xué)領(lǐng)域大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)如圖8所示,平臺(tái)基于知識(shí)圖譜,使用 TransE 模型挖掘?qū)嶓w關(guān)系,基于混合規(guī)則與分布式表示的隱含語(yǔ)義推理技術(shù),實(shí)現(xiàn)實(shí)體、關(guān)系及隱含語(yǔ)義的推理,為空間領(lǐng)域科研人員提供交互式查詢、知識(shí)關(guān)聯(lián)查詢分析、科研影響力分析、網(wǎng)絡(luò)挖掘分析、科研合作網(wǎng)絡(luò)分析、多維統(tǒng)計(jì)分析等智能化服務(wù),將科研過(guò)程和科研成果有機(jī)的聯(lián)系起來(lái),使得空間領(lǐng)域的科研活動(dòng)具有可解釋性,為空間領(lǐng)域科研決策提供依據(jù)的同時(shí),促進(jìn)前沿技術(shù)在空間科學(xué)領(lǐng)域的應(yīng)用。目前,空間科學(xué)領(lǐng)域大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)在傳統(tǒng)科技領(lǐng)域?qū)嶓w關(guān)系基礎(chǔ)上,進(jìn)一步融合了空間科研特有的實(shí)體,如衛(wèi)星、科研裝置等,具有典型的領(lǐng)域特點(diǎn)。
圖8 空間科學(xué)領(lǐng)域大數(shù)據(jù)知識(shí)管理服務(wù)平臺(tái)Fig.8 Space science big data knowledge management service platform
隨著國(guó)家對(duì)大數(shù)據(jù)戰(zhàn)略的部署及知識(shí)圖譜在各個(gè)行業(yè)的深入應(yīng)用,為更好的響應(yīng)國(guó)家數(shù)據(jù)政策,將知識(shí)圖譜關(guān)鍵技術(shù)應(yīng)用于信息領(lǐng)域,構(gòu)建信息領(lǐng)域數(shù)據(jù)平臺(tái)。
信息領(lǐng)域數(shù)據(jù)平臺(tái)主要面向?qū)W術(shù)數(shù)據(jù)及開(kāi)放圖譜數(shù)據(jù),利用PiFlow、SKSPrepare等平臺(tái)工具采集獲取相關(guān)論文、專(zhuān)利、著作、學(xué)術(shù)事件及中英文百科等開(kāi)放數(shù)據(jù),結(jié)合關(guān)聯(lián)規(guī)則算法及聚類(lèi)算法等挖掘數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,進(jìn)而構(gòu)建信息領(lǐng)域知識(shí)圖譜,基于知識(shí)圖譜,結(jié)合深度學(xué)習(xí)和共被引分析原理及共詞分析方法,發(fā)掘研究熱點(diǎn)趨勢(shì)。從而為用戶提供基礎(chǔ)知識(shí)檢索、關(guān)聯(lián)關(guān)系分析挖掘、專(zhuān)家畫(huà)像、專(zhuān)家推薦、研究熱點(diǎn)趨勢(shì)分析及人才遷徙情況等智能服務(wù)。
信息領(lǐng)域數(shù)據(jù)平臺(tái)初步研發(fā)結(jié)果如圖9所示,它致力于信息科學(xué)領(lǐng)域數(shù)據(jù)資源的開(kāi)放共享,為科研工作者提供領(lǐng)域數(shù)據(jù)資源的發(fā)現(xiàn)和獲取服務(wù),并在此基礎(chǔ)上探索實(shí)踐數(shù)據(jù)影響力的呈現(xiàn)。致力于提供包括新技術(shù)發(fā)現(xiàn)、規(guī)劃制定、項(xiàng)目立項(xiàng)、成果評(píng)價(jià)的分析與服務(wù)。利用知識(shí)圖譜、數(shù)據(jù)可視化等技術(shù)手段,平臺(tái)服務(wù)旨在提高數(shù)據(jù)檢索效率,打通數(shù)據(jù)與學(xué)術(shù)論文的信息鏈路,全方位、多維度助力信息科學(xué)領(lǐng)域科研人員的知識(shí)創(chuàng)新和科研發(fā)現(xiàn),實(shí)現(xiàn)包括影響力評(píng)價(jià)、關(guān)聯(lián)挖掘、學(xué)科分析、立項(xiàng)評(píng)價(jià)在內(nèi)的科技評(píng)估。為科技活動(dòng)對(duì)社會(huì)經(jīng)濟(jì)發(fā)展的促進(jìn)作用提供評(píng)估策略。
圖9 信息領(lǐng)域大數(shù)據(jù)平臺(tái)Fig.9 Big data platform in information field
本文提出了一種科技領(lǐng)域大數(shù)據(jù)知識(shí)圖譜平臺(tái)SKS(Scientific Knowledge Store),在介紹 SKS平臺(tái)架構(gòu)的同時(shí),介紹了SKS平臺(tái)搭建過(guò)程中使用的大數(shù)據(jù)管理工具PackOne,數(shù)據(jù)準(zhǔn)備工具SKSPrepare和大數(shù)據(jù)流水線PiFlow等,并給出相關(guān)關(guān)鍵技術(shù)及平臺(tái)在煙草科研、空間領(lǐng)域科研及信息領(lǐng)域科研等項(xiàng)目中的應(yīng)用。SKS平臺(tái)及應(yīng)用在為相關(guān)領(lǐng)域構(gòu)建資源知識(shí)管理系統(tǒng)的同時(shí),為科研人員提供了精準(zhǔn)的、多維的、相互關(guān)聯(lián)的智能檢索服務(wù)。SKS平臺(tái)研究的關(guān)鍵技術(shù)中的大數(shù)據(jù)采集、處理融合,知識(shí)抽取,關(guān)系挖掘及基于此研發(fā)的工具平臺(tái)可應(yīng)用于其他領(lǐng)域大數(shù)據(jù)的處理過(guò)程中,而構(gòu)建知識(shí)圖譜的邏輯架構(gòu)已具有通用性,因此,在下一步工作中,將嘗試探索SKS平臺(tái)在不同領(lǐng)域的推廣應(yīng)用,并將繼續(xù)探索基于機(jī)器學(xué)習(xí)及眾包機(jī)制的數(shù)據(jù)處理方法,以提高數(shù)據(jù)的準(zhǔn)確性,將SKS打造成覆蓋全科研領(lǐng)域的權(quán)威科技知識(shí)圖譜平臺(tái)。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。
數(shù)據(jù)與計(jì)算發(fā)展前沿2019年5期