劉曉晨,王卓昊
(中國(guó)科學(xué)技術(shù)信息研究所,北京 100038)
我國(guó)高度重視科技發(fā)展,在“十三五”期間,面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場(chǎng)、面向國(guó)家重大需求、面向人民生命健康,大力推進(jìn)國(guó)家科技計(jì)劃組織與實(shí)施工作[1]。有效的科技計(jì)劃項(xiàng)目管理通常離不開先進(jìn)的信息系統(tǒng)支撐。早在2014年12月,國(guó)務(wù)院就提出了建設(shè)完善統(tǒng)一的國(guó)家科技管理信息系統(tǒng)[2],用于支撐科技項(xiàng)目的全流程管理工作。該系統(tǒng)的管理階段、主要流程和典型業(yè)務(wù)如圖1所示。
圖1 國(guó)家科技管理信息系統(tǒng)的管理階段、主要流程和典型業(yè)務(wù)
隨著科技計(jì)劃管理改革的不斷推進(jìn),科技管理信息系統(tǒng)的應(yīng)用模塊持續(xù)增加、業(yè)務(wù)流程日趨復(fù)雜,導(dǎo)致科技管理數(shù)據(jù)出現(xiàn)了來源途徑多、結(jié)構(gòu)不統(tǒng)一等問題。面對(duì)海量的多源異構(gòu)數(shù)據(jù),有必要對(duì)其進(jìn)行集成管理,以此來打通分散的“數(shù)據(jù)孤島”。數(shù)據(jù)集成(data integration)是指將互相關(guān)聯(lián)的多個(gè)異構(gòu)數(shù)據(jù)源集成在一起,使用戶能夠以透明的方式對(duì)其進(jìn)行統(tǒng)一的訪問和操作。有效的數(shù)據(jù)集成不僅可以提高對(duì)數(shù)據(jù)的訪問效率,而且可以幫助用戶更好地對(duì)數(shù)據(jù)進(jìn)行管理和分析。早期的數(shù)據(jù)集成方法主要包括聯(lián)邦式數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和中間件等[3]。近年來,伴隨著大數(shù)據(jù)平臺(tái)的體系架構(gòu)趨于成熟,加上容器技術(shù)[4]的推廣使用,基于大數(shù)據(jù)環(huán)境的數(shù)據(jù)集成技術(shù)逐漸流行,它讓數(shù)據(jù)集成平臺(tái)的架構(gòu)部署更加簡(jiǎn)單、快捷。相對(duì)于傳統(tǒng)的數(shù)據(jù)集成平臺(tái),在處理效率、可擴(kuò)展性、容錯(cuò)性等方面都有著較大幅度的提升。
因此,針對(duì)科技管理數(shù)據(jù)面臨的多源異構(gòu)、實(shí)施效率和控制管理等問題,本文提出了一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成方法。首先,介紹科技管理信息系統(tǒng)和數(shù)據(jù)集成的研究現(xiàn)狀;然后,提出一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺(tái),并對(duì)其整體架構(gòu)和具體流程做了詳細(xì)的介紹;最后,通過數(shù)據(jù)可視化和數(shù)據(jù)駕駛艙的方式展示了數(shù)據(jù)集成的成效。
科技管理信息系統(tǒng)在國(guó)內(nèi)外政府部門、科研機(jī)構(gòu)中均有著廣泛的應(yīng)用。美國(guó)的政府資助項(xiàng)目統(tǒng)一管理平臺(tái)Grants.gov[5]根據(jù)美國(guó)總統(tǒng)管理議程等制度,由聯(lián)邦政府創(chuàng)建,實(shí)現(xiàn)多個(gè)聯(lián)邦政府部門的項(xiàng)目信息發(fā)布、申請(qǐng)管理以及項(xiàng)目資助,高效支撐聯(lián)邦政府的項(xiàng)目管理。法國(guó)的科研活動(dòng)管理系統(tǒng)LA‐BINTEL[6]根據(jù)互聯(lián)網(wǎng)及信息技術(shù)的發(fā)展需要,由法國(guó)國(guó)家科學(xué)研究中心(Centre National de la Recher‐che Scientifique,CNRS)建設(shè)和運(yùn)營(yíng),覆蓋科技項(xiàng)目從申請(qǐng)到結(jié)項(xiàng)的各個(gè)環(huán)節(jié),以及成果轉(zhuǎn)化、專利管理、合同管理等業(yè)務(wù),實(shí)現(xiàn)科研項(xiàng)目、科研活動(dòng)的管理與評(píng)估。韓國(guó)的國(guó)家科技信息服務(wù)系統(tǒng)(National Technical Information Service,NTIS)[7]順應(yīng)科技出版網(wǎng)絡(luò)化的發(fā)展趨勢(shì),由韓國(guó)科學(xué)技術(shù)信息研究所(Korea Institute of Science and Technology Information,KISTI)建設(shè),實(shí)現(xiàn)多個(gè)政府機(jī)構(gòu)和科研機(jī)構(gòu)的研發(fā)課題收集以及成果集成,支撐政府決策部門的趨勢(shì)把控。在中國(guó),中央和地方層面都有各自的科技管理信息系統(tǒng)??萍疾康膰?guó)家科技管理信息系統(tǒng)(National Science and Technology Informa‐tion System,NSTIS)[8]落實(shí)中央財(cái)政科技計(jì)劃管理改革要求,實(shí)現(xiàn)國(guó)家級(jí)科技計(jì)劃項(xiàng)目的全流程管理,有效支撐了科技計(jì)劃項(xiàng)目管理、綜合統(tǒng)籌和業(yè)務(wù)監(jiān)督。國(guó)家自然科學(xué)基金委員會(huì)的科學(xué)基金網(wǎng)絡(luò)信息系統(tǒng)(Internet-based Science Information System,ISIS)[9]滿足科學(xué)基金發(fā)展規(guī)劃要求,具備項(xiàng)目申請(qǐng)、科研人員管理、科技項(xiàng)目查詢等功能,支持科學(xué)基金項(xiàng)目的知識(shí)庫(kù)建設(shè)、資源共享和項(xiàng)目全過程精細(xì)化管理。廣東省科技廳的廣東科技業(yè)務(wù)管理陽(yáng)光政務(wù)平臺(tái)[6]實(shí)現(xiàn)了廣東省內(nèi)科技項(xiàng)目指南編制、申報(bào)、評(píng)審、撥款、績(jī)效及驗(yàn)收等多環(huán)節(jié)的一站式痕跡化管理,有效支撐了廣東省科技業(yè)務(wù)信息公開、資源整合和全流程“痕跡”管理,是我國(guó)地方科技管理信息系統(tǒng)的典型代表。由此可見,科技管理信息化已經(jīng)在各個(gè)層級(jí)廣泛開展。
面對(duì)科技管理信息系統(tǒng)建設(shè)中的各種問題,諸多學(xué)者展開了深入研究。吳川徽等[10]針對(duì)科研項(xiàng)目數(shù)據(jù)多源化、碎片化而導(dǎo)致計(jì)量分析失真的問題,提出了一種主題數(shù)據(jù)庫(kù),用來集成科研項(xiàng)目數(shù)據(jù),實(shí)現(xiàn)項(xiàng)目從立項(xiàng)到產(chǎn)出的全生態(tài)鏈數(shù)據(jù)采集與計(jì)量分析。王海丹等[11]圍繞科技服務(wù)集成現(xiàn)狀中跨平臺(tái)、跨區(qū)域的資源異構(gòu)性問題,提出了一種科技服務(wù)集成的標(biāo)準(zhǔn)體系,服務(wù)于科技資源開放共享應(yīng)用。李宗俊等[12]同樣針對(duì)科技服務(wù)中資源的集成互聯(lián)問題,構(gòu)建了面向區(qū)域的數(shù)據(jù)資源池,并提出了科技資源集成的關(guān)聯(lián)優(yōu)化策略。
近年來,隨著大數(shù)據(jù)的發(fā)展,基于大數(shù)據(jù)環(huán)境的數(shù)據(jù)集成方法逐漸流行。劉堅(jiān)等[13]聚焦地震科學(xué)領(lǐng)域數(shù)據(jù),以核心地震業(yè)務(wù)數(shù)據(jù)為基礎(chǔ),利用ETL(extraction transformation loading)、分布式存儲(chǔ)、云計(jì)算等大數(shù)據(jù)技術(shù),重點(diǎn)解決增量數(shù)據(jù)集成、跨平臺(tái)數(shù)據(jù)整合等問題,構(gòu)建了地震大數(shù)據(jù)共享平臺(tái)。廣東省基于大數(shù)據(jù)相關(guān)技術(shù),從基礎(chǔ)設(shè)施層、平臺(tái)服務(wù)層、應(yīng)用服務(wù)層實(shí)現(xiàn)了司法數(shù)據(jù)集成和共享平臺(tái)的建設(shè)方案[14]。解鵬飛等[15]基于大數(shù)據(jù)和數(shù)據(jù)虛擬化平臺(tái)等技術(shù),參照ODM2(the observations da‐ta model 2)信息模型和MMI ORR(marine metadata interoperability project ontology registry and repository)本體語(yǔ)義框架來解決海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成問題。數(shù)據(jù)集成相關(guān)的研究覆蓋了多個(gè)行業(yè),并且從傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)、中間件等集成模式逐漸過渡到基于大數(shù)據(jù)和云計(jì)算的集成模式。
從上述研究情況來看,數(shù)據(jù)倉(cāng)庫(kù)、中間件等仍是目前數(shù)據(jù)集成最常用的方法,在應(yīng)對(duì)信息系統(tǒng)部署分散、系統(tǒng)功能體系龐雜、業(yè)務(wù)流程差異明顯、數(shù)據(jù)集成關(guān)聯(lián)性不高等挑戰(zhàn)時(shí),會(huì)出現(xiàn)數(shù)據(jù)處理耗時(shí)過長(zhǎng)、無法靈活調(diào)配計(jì)算資源等問題。因此,為了適應(yīng)科技管理改革的新要求,并應(yīng)對(duì)大數(shù)據(jù)環(huán)境下的集成挑戰(zhàn),研究和開發(fā)新型科技管理數(shù)據(jù)集成平臺(tái)就顯得十分必要。
為了提高科技管理數(shù)據(jù)集成的效率和效果,并降低數(shù)據(jù)集成平臺(tái)的運(yùn)行和維護(hù)成本,本文引入了以容器為代表的大數(shù)據(jù)相關(guān)技術(shù)來搭建數(shù)據(jù)集成平臺(tái)。容器是一種輕量級(jí)的虛擬化技術(shù)[16],具有資源占用少、運(yùn)行速度快等優(yōu)點(diǎn)。容器以進(jìn)程隔離的方式實(shí)現(xiàn)了運(yùn)行環(huán)境的隔離,十分適用于集群管理,可以方便、高效地搭建各類大數(shù)據(jù)應(yīng)用平臺(tái)。本文所提出的科技管理數(shù)據(jù)集成平臺(tái)就采用了容器的開源實(shí)現(xiàn),即Docker技術(shù)。
本文提出了一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺(tái),主要包括云平臺(tái)層、大數(shù)據(jù)基礎(chǔ)能力層、數(shù)據(jù)集成層和應(yīng)用服務(wù)層,如圖2所示。
圖2 科技管理數(shù)據(jù)集成平臺(tái)架構(gòu)
(1)云平臺(tái)層。云平臺(tái)層是整個(gè)平臺(tái)的基礎(chǔ),負(fù)責(zé)管理和調(diào)度分布式資源;同時(shí),對(duì)容器進(jìn)行編排,實(shí)現(xiàn)多用戶的租戶空間資源分配和隔離[17]。
(2)大數(shù)據(jù)基礎(chǔ)能力層。大數(shù)據(jù)基礎(chǔ)能力層負(fù)責(zé)集成各類大數(shù)據(jù)組件,并利用云平臺(tái)層提供的各類資源,為科技管理數(shù)據(jù)集成和上層應(yīng)用提供各種必要的工具。
(3)數(shù)據(jù)集成層。作為整個(gè)平臺(tái)的工作中心,數(shù)據(jù)集成層使用大數(shù)據(jù)基礎(chǔ)能力層所提供的各種工具,對(duì)科技管理信息系統(tǒng)涉及的各種數(shù)據(jù)進(jìn)行采集、轉(zhuǎn)換、治理和分析計(jì)算,并為應(yīng)用服務(wù)層提供數(shù)據(jù)服務(wù)。
(4)應(yīng)用服務(wù)層?;跀?shù)據(jù)集成層加工、治理之后的數(shù)據(jù),應(yīng)用服務(wù)層可以面向不同的應(yīng)用場(chǎng)景提供定制化的服務(wù),如數(shù)據(jù)可視化、科研關(guān)系分析、項(xiàng)目風(fēng)險(xiǎn)分析等。同時(shí),應(yīng)用服務(wù)層能夠利用云平臺(tái)層提供的應(yīng)用統(tǒng)一調(diào)度管理體系,對(duì)應(yīng)用進(jìn)行容器化管理。
云平臺(tái)層采用Mesos技術(shù)來建設(shè)分布式集群管理系統(tǒng),負(fù)責(zé)集群資源的分配,包括CPU(central processing unit)資源、內(nèi)存資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源等[18]。在Mesos集群上可以運(yùn)行Marathon、Ha‐doop、Spark、Kafka、Hive等多種框架。由于Me‐sos本身只提供資源的分配,并不涉及存儲(chǔ)、任務(wù)調(diào)度等功能,因此,Mesos要和其他軟件或者系統(tǒng)搭配使用才能構(gòu)成完整的分布式系統(tǒng)。例如,將Mesos、Docker、Marathon/Chronos、ZooKeeper、HDFS(Hadoop distributed file system)組成一個(gè)完整的分布式系統(tǒng),分別負(fù)責(zé)資源分配、進(jìn)程管理、任務(wù)調(diào)度、進(jìn)程間通信和文件系統(tǒng)。云平臺(tái)層具備以下五種功能。
(1)分布式集群管理:同時(shí)支持物理機(jī)服務(wù)器和虛擬機(jī)服務(wù)器,并且可以動(dòng)態(tài)擴(kuò)容,支持系統(tǒng)應(yīng)用的自動(dòng)彈性擴(kuò)容和自動(dòng)容錯(cuò)。
(2)監(jiān)控告警管理:定時(shí)采集硬件資源數(shù)據(jù),如CPU、硬盤、內(nèi)存、網(wǎng)絡(luò)等狀態(tài)數(shù)據(jù),服務(wù)和應(yīng)用的實(shí)例數(shù)量、資源消耗等狀態(tài)數(shù)據(jù),以及分布式文件存儲(chǔ)系統(tǒng)的存儲(chǔ)狀態(tài)、文件數(shù)量等。
(3)日志文件管理:提供統(tǒng)一的日志收集、查詢和分析框架,提供標(biāo)準(zhǔn)的日志采集接口,提供應(yīng)用程序的日志采集配置和管理功能。此外,日志文件管理提供可視化的日志查看器,可以根據(jù)服務(wù)器節(jié)點(diǎn)、應(yīng)用類型等進(jìn)行日常查詢和分析。
(4)權(quán)限管理:實(shí)現(xiàn)多用戶的大數(shù)據(jù)平臺(tái)系統(tǒng)必要的權(quán)限控制,避免非授權(quán)用戶對(duì)系統(tǒng)重要數(shù)據(jù)或配置進(jìn)行不當(dāng)操作,不同的用戶和用戶組對(duì)系統(tǒng)的各類資源具有不同的使用權(quán)限。
(5)負(fù)載均衡管理:云平臺(tái)層采用HAProxy技術(shù)[19]來實(shí)現(xiàn)系統(tǒng)的負(fù)載均衡功能,能夠?qū)⑻囟ǖ娜蝿?wù)分發(fā)給多個(gè)服務(wù)器,從而提升了任務(wù)處理能力,保證了系統(tǒng)的高可用性。
大數(shù)據(jù)基礎(chǔ)能力層是一個(gè)能力框架層,可以快速地集成各種主流的大數(shù)據(jù)組件,為解決上層的數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理等業(yè)務(wù)需求提供有效的工具[20]。大數(shù)據(jù)基礎(chǔ)能力層的所有組件均可以高效、合理地使用云平臺(tái)層提供的各類分布式計(jì)算資源和存儲(chǔ)資源。絕大多數(shù)組件(除了數(shù)據(jù)存儲(chǔ)相關(guān)的組件)都能夠以容器化的形態(tài)發(fā)布,因此,也可以通過云平臺(tái)層提供的統(tǒng)一調(diào)度管理機(jī)制來管理。大數(shù)據(jù)基礎(chǔ)能力層所集成的組件主要分為以下五類。
(1)數(shù)據(jù)采集組件:都是基于分布式的數(shù)據(jù)采集平臺(tái),兼容各類主流數(shù)據(jù)庫(kù)、多種網(wǎng)絡(luò)服務(wù)接口以及本地文件系統(tǒng),具有容錯(cuò)和恢復(fù)機(jī)制,可提供高可靠、高可用的數(shù)據(jù)采集和傳輸服務(wù)。常用的相關(guān)組件為Kafka和Flume等。
(2)數(shù)據(jù)存儲(chǔ)組件:可以分布式地存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的科技管理數(shù)據(jù),能夠?qū)崿F(xiàn)快速檢索和查詢功能。常用的相關(guān)組件為HDFS、MPP(massively parallel processing)、HBase、Elas‐ticsearch、Redis等。
(3)計(jì)算引擎組件:大多屬于分布式計(jì)算框架,支持對(duì)大規(guī)模的科技管理數(shù)據(jù)進(jìn)行批處理,可以有效提高數(shù)據(jù)集成的運(yùn)算效率。常用的相關(guān)組件為MapReduce、Spark等。
(4)數(shù)據(jù)處理組件:是數(shù)據(jù)查詢和分析的數(shù)據(jù)倉(cāng)庫(kù)工具,如可以進(jìn)行大規(guī)模的離線數(shù)據(jù)分析。同時(shí),數(shù)據(jù)處理組件實(shí)現(xiàn)對(duì)MySQL、HBase、HDFS中數(shù)據(jù)文件的抽取、轉(zhuǎn)換以及加載工作。常用的相關(guān)組件為Hive、Spark ETL等。
(5)其他組件:除了上述組件外,大數(shù)據(jù)基礎(chǔ)能力層還有一些機(jī)器學(xué)習(xí)組件,如SparkMLIB、TensorFlow、PyTorch等;數(shù)據(jù)挖掘和分析組件,如RapidMiner等;數(shù)據(jù)治理組件,如Atlas、Grinffin等。
數(shù)據(jù)集成層是整個(gè)平臺(tái)的工作中心,其主要基于ETL技術(shù),首先從各個(gè)來源抽取出原始的科技管理數(shù)據(jù),然后按照預(yù)定義的數(shù)據(jù)模型,對(duì)原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換操作,最后將轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)湖中[21]。其中,原始數(shù)據(jù)包括多時(shí)間、多維度、多場(chǎng)景的科研數(shù)據(jù)、管理數(shù)據(jù)、信息化服務(wù)記錄數(shù)據(jù)等,這些原始數(shù)據(jù)共同構(gòu)成了科技管理信息系統(tǒng)的數(shù)據(jù)資產(chǎn),如圖3所示。
圖3 科技管理信息系統(tǒng)的數(shù)據(jù)資產(chǎn)
根據(jù)不同的應(yīng)用場(chǎng)景,可以將上述的數(shù)據(jù)資產(chǎn)以不同的方式集成起來。例如,將科研人員在不同階段提交的申報(bào)書、任務(wù)書、報(bào)告資料等數(shù)據(jù)集成起來,可以復(fù)現(xiàn)出對(duì)應(yīng)項(xiàng)目的完整科研歷程;又如,將某個(gè)指南方向下所有的項(xiàng)目和課題數(shù)據(jù)集成在一起,可以方便管理人員掌握該科研領(lǐng)域不同方向的成果。科技管理數(shù)據(jù)集成的具體流程包括數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載等,如圖4所示。
圖4 科技管理數(shù)據(jù)集成流程
3.4.1 數(shù)據(jù)抽取
數(shù)據(jù)抽取的對(duì)象涉及科技項(xiàng)目在申請(qǐng)、評(píng)審、立項(xiàng)、執(zhí)行、驗(yàn)收等生命周期內(nèi)所產(chǎn)生的各種數(shù)據(jù),主要包括指南數(shù)據(jù)、項(xiàng)目數(shù)據(jù)、專家數(shù)據(jù)、成果數(shù)據(jù)、信用數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、文獻(xiàn)數(shù)據(jù)等。
對(duì)于新發(fā)布的指南或新創(chuàng)建的項(xiàng)目來說,可以通過全量抽取的方式,使用Sqoop、DataX等大數(shù)據(jù)組件直接從數(shù)據(jù)庫(kù)、文件或其他業(yè)務(wù)系統(tǒng)中抽取出完整的原始數(shù)據(jù)。對(duì)于原有科技項(xiàng)目新增或修改的數(shù)據(jù),可以通過增量的方式進(jìn)行數(shù)據(jù)抽取,即利用Flume等工具實(shí)時(shí)監(jiān)測(cè)源數(shù)據(jù)的變化,然后采取定時(shí)或定量的方式抽取出發(fā)生變化的數(shù)據(jù)。這種做法可以有效減輕數(shù)據(jù)集成平臺(tái)的運(yùn)行壓力。
3.4.2 數(shù)據(jù)轉(zhuǎn)換
通過數(shù)據(jù)抽取步驟所獲得的數(shù)據(jù)可能存在數(shù)據(jù)格式的不一致、數(shù)據(jù)輸入錯(cuò)誤、數(shù)據(jù)不完整等問題,同時(shí),為了將不同來源、不同結(jié)構(gòu)的數(shù)據(jù)有機(jī)結(jié)合起來并加以利用,往往需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換操作。
通常使用ETL引擎進(jìn)行數(shù)據(jù)轉(zhuǎn)換。ETL引擎中包含多種數(shù)據(jù)轉(zhuǎn)換組件,可以以自動(dòng)化的方式實(shí)現(xiàn)字段映射、數(shù)據(jù)過濾、數(shù)據(jù)清洗、數(shù)據(jù)替換、數(shù)據(jù)計(jì)算、數(shù)據(jù)驗(yàn)證、數(shù)據(jù)加解密、數(shù)據(jù)合并、數(shù)據(jù)拆分等操作,并且對(duì)數(shù)據(jù)訪問接口、數(shù)據(jù)格式以及數(shù)據(jù)傳輸方式有著嚴(yán)格的規(guī)范。有些ETL工具如Ket‐tle還提供了腳本支持[22],使得用戶可以以一種編程的方式定制數(shù)據(jù)的轉(zhuǎn)換和加工行為。使用上述ETL引擎對(duì)科技管理數(shù)據(jù)進(jìn)行轉(zhuǎn)換,可以有效清除其中的臟數(shù)據(jù),并將存在關(guān)聯(lián)的數(shù)據(jù)統(tǒng)一組織起來。同時(shí),部分工作場(chǎng)景下,也需要在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
3.4.3 數(shù)據(jù)加載
數(shù)據(jù)集成的最終目的是將海量的異構(gòu)數(shù)據(jù)有機(jī)地匯聚在一起,在大多數(shù)情況下,并不會(huì)改變數(shù)據(jù)的原有格式。因此,原始的科技管理數(shù)據(jù)經(jīng)過轉(zhuǎn)換操作之后,仍然包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。為了將這些數(shù)據(jù)有效地組織起來,往往會(huì)將其加載到數(shù)據(jù)湖中。數(shù)據(jù)湖(data lake)[23]作為一個(gè)集中的存儲(chǔ)庫(kù),可以存儲(chǔ)任意格式、任何規(guī)模的數(shù)據(jù),并能夠利用大數(shù)據(jù)基礎(chǔ)能力層提供的組件,對(duì)外提供快速、高效的數(shù)據(jù)查詢和處理接口。數(shù)據(jù)湖的加載方式主要有以下三種,適應(yīng)于不同的應(yīng)用場(chǎng)景。
(1)完全刷新。在這種方式下,數(shù)據(jù)湖中只包括最新的數(shù)據(jù)。每次加載之前,數(shù)據(jù)抽取程序會(huì)抽取源數(shù)據(jù)中的所有記錄,然后將目標(biāo)數(shù)據(jù)表清空,最后完全加載最新的集成后數(shù)據(jù)。
(2)鏡像增量。源數(shù)據(jù)中的記錄定期更新,但記錄中包括記錄時(shí)間字段,源數(shù)據(jù)中保存了數(shù)據(jù)歷史的記錄,ETL可以通過記錄時(shí)間將增量數(shù)據(jù)從源數(shù)據(jù)抽取出來,以附加的方式加載到數(shù)據(jù)湖中,數(shù)據(jù)的歷史記錄也會(huì)被保留在數(shù)據(jù)湖中。
(3)鏡像比較。源數(shù)據(jù)中的記錄每天都可能被更新,但不保留歷史記錄。數(shù)據(jù)湖中的數(shù)據(jù)具有生效日期字段,記錄變化和更新時(shí)間。加載時(shí),將新的鏡像數(shù)據(jù)與上次加載的數(shù)據(jù)進(jìn)行比較,找出變更部分并進(jìn)行更新,同時(shí)更新生效日期。
數(shù)據(jù)集成層中的各種數(shù)據(jù)操作,都以容器化的方式進(jìn)行,這樣既可以充分利用云平臺(tái)層的容器化應(yīng)用調(diào)度編排能力,最大限度、最合理地使用計(jì)算和存儲(chǔ)資源,還能夠?qū)⒚總€(gè)數(shù)據(jù)集成處理的流水線進(jìn)行隔離性管理,方便對(duì)每個(gè)過程進(jìn)行監(jiān)控,及時(shí)發(fā)現(xiàn)問題,做到相互之間互不干擾,降低由于資源搶占所帶來的死鎖或沖突問題。
在對(duì)科技管理數(shù)據(jù)進(jìn)行集成后,便可基于數(shù)據(jù)集成層提供的各種服務(wù)API(application program‐ming interface)來搭建應(yīng)用平臺(tái),如數(shù)據(jù)可視化平臺(tái)、統(tǒng)計(jì)分析平臺(tái)、機(jī)器學(xué)習(xí)平臺(tái)等,為不同的用戶提供個(gè)性化的服務(wù)。以機(jī)器學(xué)習(xí)應(yīng)用平臺(tái)為例,當(dāng)把所有屬于同一科技專項(xiàng)的申報(bào)書或報(bào)告資料集成在一起后,即可借助條件隨機(jī)場(chǎng)模型CRF(con‐ditional random field)或者循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(re‐current neural network)進(jìn)行領(lǐng)域分析。
在傳統(tǒng)的科技管理信息系統(tǒng)中,如果上線新的業(yè)務(wù)或者對(duì)舊的業(yè)務(wù)進(jìn)行改進(jìn)升級(jí),經(jīng)常要面對(duì)系統(tǒng)重新配置、項(xiàng)目編譯、環(huán)境依賴調(diào)整等多個(gè)繁雜的技術(shù)環(huán)節(jié),稍有不慎就有可能造成系統(tǒng)故障,系統(tǒng)的運(yùn)行效率和穩(wěn)定性也面臨巨大挑戰(zhàn)。在本文所述的平臺(tái)中,各種運(yùn)行在應(yīng)用服務(wù)層的業(yè)務(wù)以容器化的運(yùn)行模式發(fā)布和使用,應(yīng)用服務(wù)層的需求可以得到快速響應(yīng),進(jìn)而支持根據(jù)敏捷開發(fā)的理念進(jìn)行分布式協(xié)同開發(fā)、測(cè)試和部署。
基于上述的數(shù)據(jù)集成平臺(tái),本節(jié)以科技項(xiàng)目的申報(bào)管理、立項(xiàng)管理、過程管理和績(jī)效評(píng)價(jià)四個(gè)階段為例,展示科技管理數(shù)據(jù)的集成效果。通過數(shù)據(jù)集成,可以實(shí)現(xiàn)項(xiàng)目數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的有機(jī)匯聚和關(guān)聯(lián),完整地還原了項(xiàng)目數(shù)據(jù)的全貌和全流程管理過程,可方便科技管理人員以時(shí)間軸的方式直觀地查看項(xiàng)目的執(zhí)行與管理情況。
如圖5所示,在申報(bào)受理階段,可以直觀地展示出項(xiàng)目的指南信息、項(xiàng)目申報(bào)材料、提交時(shí)間、申報(bào)提交用戶等,便于管理單位查看項(xiàng)目申報(bào)過程產(chǎn)生的文檔數(shù)據(jù),支撐項(xiàng)目申報(bào)的數(shù)字化歸檔和過程溯源。
圖5 項(xiàng)目申報(bào)階段可視化界面
如圖6所示,在立項(xiàng)管理階段,可以直觀地展示出立項(xiàng)操作記錄、預(yù)評(píng)審結(jié)果、答辯評(píng)審結(jié)果、視頻答辯影音記錄等,實(shí)現(xiàn)全部管理過程“可查詢、可申訴、可追溯”。
圖6 項(xiàng)目立項(xiàng)階段可視化界面
如圖7所示,在過程管理階段,可以直觀地展示出年度報(bào)告、中期報(bào)告、科技報(bào)告,以及全部經(jīng)費(fèi)撥款詳情記錄,支撐項(xiàng)目監(jiān)督、執(zhí)行審計(jì)和重點(diǎn)環(huán)節(jié)把控,落實(shí)“由重立項(xiàng)管理到重過程管理”的改革要求。
圖7 項(xiàng)目過程管理階段可視化界面
如圖8所示,在績(jī)效評(píng)價(jià)階段,可以按照項(xiàng)目驗(yàn)收業(yè)務(wù)流程展示出綜合績(jī)效自評(píng)價(jià)報(bào)告、各類審查和評(píng)議意見、成果提交情況、項(xiàng)目跟蹤情況等,較以往更好地實(shí)現(xiàn)了項(xiàng)目全流程閉環(huán)管理和持續(xù)跟蹤評(píng)價(jià)。
圖8 項(xiàng)目績(jī)效評(píng)價(jià)階段可視化界面
為了進(jìn)一步利用數(shù)據(jù)集成成果,本文構(gòu)建了科技管理數(shù)據(jù)駕駛艙應(yīng)用系統(tǒng),更加形象化、直觀化和具體化地反映科技管理數(shù)據(jù)運(yùn)行態(tài)勢(shì)。在駕駛艙應(yīng)用環(huán)境中,初步實(shí)現(xiàn)了項(xiàng)目數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)相結(jié)合、歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)相結(jié)合、項(xiàng)目相關(guān)數(shù)據(jù)和操作留痕數(shù)據(jù)相結(jié)合、科技計(jì)劃數(shù)據(jù)與其他學(xué)術(shù)資源數(shù)據(jù)相結(jié)合的科技管理數(shù)據(jù)集成效果的綜合呈現(xiàn)。
上述工作對(duì)科技項(xiàng)目管理起到了支撐作用,在集成應(yīng)用方面具有創(chuàng)新價(jià)值。
(1)打破數(shù)據(jù)分散現(xiàn)狀,實(shí)現(xiàn)數(shù)據(jù)貫通。通過數(shù)據(jù)集成,打破了以往科技管理過程中數(shù)據(jù)分散的情況,實(shí)現(xiàn)了科技項(xiàng)目與業(yè)務(wù)數(shù)據(jù)的匯聚和關(guān)聯(lián),還原科技項(xiàng)目數(shù)據(jù)的全貌,服務(wù)科技管理人員直觀、便捷地查看項(xiàng)目的執(zhí)行與管理過程。
(2)提高數(shù)據(jù)應(yīng)用效率,發(fā)揮數(shù)據(jù)效能。以數(shù)據(jù)處理方式匯聚數(shù)據(jù)資源,以數(shù)據(jù)集成技術(shù)串聯(lián)項(xiàng)目全流程管理過程,實(shí)現(xiàn)了規(guī)范化、自動(dòng)化以及分布式的數(shù)據(jù)管理,提高數(shù)據(jù)管理與應(yīng)用效率,有效地發(fā)揮了數(shù)據(jù)服務(wù)效能。
(3)全局展現(xiàn)科技數(shù)據(jù),服務(wù)科技決策。數(shù)據(jù)集成應(yīng)用實(shí)現(xiàn)了動(dòng)態(tài)化、直觀化以及全局化的數(shù)據(jù)展示,幫助科技管理部門和人員更好地統(tǒng)籌科技管理全局,為科技管理和決策提供技術(shù)支撐和數(shù)據(jù)支持,是發(fā)揮科技數(shù)據(jù)服務(wù)作用的重要體現(xiàn)。
本文在使用基于大數(shù)據(jù)環(huán)境的平臺(tái)架構(gòu)對(duì)科技管理數(shù)據(jù)進(jìn)行集成的過程中,主要面臨以下六個(gè)方面的挑戰(zhàn)。
(1)數(shù)據(jù)規(guī)模不斷擴(kuò)大。中央和地方資金支持的科技項(xiàng)目越來越多,產(chǎn)生各種數(shù)據(jù)的規(guī)模也不斷擴(kuò)大,這給系統(tǒng)的計(jì)算性能和存儲(chǔ)性能帶來了嚴(yán)峻的考驗(yàn),因此,需要提出新的方法來合理組織和存儲(chǔ)科技管理數(shù)據(jù)[24]。
(2)數(shù)據(jù)結(jié)構(gòu)愈加復(fù)雜。隨著科技管理信息系統(tǒng)的不斷更新和升級(jí),其所接入的數(shù)據(jù)結(jié)構(gòu)也越來越復(fù)雜,除了一般意義上的結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù),許多專業(yè)領(lǐng)域還存在其獨(dú)有的數(shù)據(jù)類型,如基因組序列、衛(wèi)星地圖、CAD(computeraided design)文件等。如何將這些異構(gòu)的數(shù)據(jù)有效地集成起來,是一個(gè)需要長(zhǎng)期攻關(guān)的難題。
(3)數(shù)據(jù)源的動(dòng)態(tài)性??萍脊芾頂?shù)據(jù)并不是靜態(tài)的,而是在動(dòng)態(tài)變化,包括數(shù)據(jù)自身的增刪改、權(quán)限調(diào)整、獲取方式變更等,如何保持集成后的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間的同步狀態(tài)是一個(gè)至關(guān)重要的問題。若同步頻率太高,則需要付出較大的人員、時(shí)間、經(jīng)費(fèi)代價(jià);若同步頻率太低,則會(huì)使得集成數(shù)據(jù)的可用性變差。
(4)數(shù)據(jù)集成的伸縮性。工作之初,數(shù)據(jù)集成的數(shù)據(jù)源數(shù)量偏少,系統(tǒng)壓力階段可控,但往往增長(zhǎng)趨勢(shì)未知,數(shù)據(jù)源數(shù)量與應(yīng)用效果互相構(gòu)成“馬太效應(yīng)”。當(dāng)數(shù)據(jù)集成面臨巨量數(shù)據(jù)源,系統(tǒng)吞吐效率、忙閑峰谷調(diào)控都面臨巨大困難,往往資源不足與效率不足并存。
(5)數(shù)據(jù)集成的容錯(cuò)性。數(shù)據(jù)量大和數(shù)據(jù)源復(fù)雜必定帶來數(shù)據(jù)傳輸邏輯判別、質(zhì)量控制要求,如何支撐斷點(diǎn)續(xù)傳、如何控制重復(fù)數(shù)據(jù)、如何實(shí)現(xiàn)數(shù)據(jù)關(guān)聯(lián)回滾及版本控制,成為集成的關(guān)鍵挑戰(zhàn)之一。
(6)數(shù)據(jù)的語(yǔ)義信息理解。科技管理數(shù)據(jù)大部分是文本數(shù)據(jù),如何借助自然語(yǔ)言處理中的模型實(shí)現(xiàn)科技管理文本數(shù)據(jù)在語(yǔ)義層面上的理解,發(fā)現(xiàn)數(shù)據(jù)之間存在的更深層次的關(guān)聯(lián)關(guān)系,將成為后續(xù)研究的重點(diǎn)問題。
本文從科技管理實(shí)際業(yè)務(wù)需求出發(fā),結(jié)合以往的研究工作,提出了一種基于大數(shù)據(jù)環(huán)境的科技管理數(shù)據(jù)集成平臺(tái),該平臺(tái)充分利用了大數(shù)據(jù)各種控制、計(jì)算、存儲(chǔ)等組件,具備良好的穩(wěn)定性、可維護(hù)性和容錯(cuò)性。通過這種平臺(tái)對(duì)科技管理信息系統(tǒng)中存在的海量、多源、異構(gòu)數(shù)據(jù)進(jìn)行集成,可以有效地利用科技管理數(shù)據(jù),為支撐科技管理決策、綜合統(tǒng)籌提供理論方法和技術(shù)保障。