吳素研 呂志堅(jiān) 吳江瑞 李文波
(1.北京市科學(xué)技術(shù)情報(bào)研究所信息技術(shù)研究部,北京100044;2.河南工學(xué)院材料工程系,河南 新鄉(xiāng) 100044;3.中國(guó)科學(xué)院軟件研究所總體部,北京100081))
·業(yè)務(wù)研究·
科技情報(bào)大數(shù)據(jù)業(yè)務(wù)平臺(tái)設(shè)計(jì)
吳素研1呂志堅(jiān)1吳江瑞2李文波3
(1.北京市科學(xué)技術(shù)情報(bào)研究所信息技術(shù)研究部,北京100044;2.河南工學(xué)院材料工程系,河南 新鄉(xiāng) 100044;3.中國(guó)科學(xué)院軟件研究所總體部,北京100081))
[目的/意義]本文分析了目前大數(shù)據(jù)時(shí)代科技情報(bào)工作面臨的問(wèn)題和機(jī)遇,針對(duì)情報(bào)服務(wù)領(lǐng)域大數(shù)據(jù)服務(wù)模式進(jìn)行了分析。[方法/過(guò)程]該論文結(jié)合信息技術(shù)領(lǐng)域的虛擬化技術(shù)、云平臺(tái)技術(shù)、高性能技術(shù)和人工智能技術(shù),設(shè)計(jì)了科技情報(bào)大數(shù)據(jù)業(yè)務(wù)平臺(tái)架構(gòu),詳細(xì)闡述了硬件層、虛擬層、支撐層和業(yè)務(wù)層主要功能和所需技術(shù);并對(duì)大數(shù)據(jù)處理首要任務(wù)存儲(chǔ)進(jìn)行了探索,搭建了基于hadoop和hbase的大數(shù)據(jù)存儲(chǔ)平臺(tái)。[結(jié)果/結(jié)論]本文提出的大數(shù)據(jù)情報(bào)業(yè)務(wù)平臺(tái)從整體架構(gòu)進(jìn)行了設(shè)計(jì),并實(shí)現(xiàn)了存儲(chǔ)模塊,下一步實(shí)現(xiàn)分析和可視化部門,可以為情報(bào)的收集和處理提供大數(shù)據(jù)支撐服務(wù)。
科技情報(bào);大數(shù)據(jù);hadoop;hbase
傳統(tǒng)的科技情報(bào)工作主要是從公開(kāi)的、正規(guī)的紙質(zhì)事實(shí)文獻(xiàn)上,如科技論文、專利、標(biāo)準(zhǔn)、圖書(shū)等獲取信息,提煉出來(lái)的客觀情報(bào)知識(shí)。信息技術(shù)和互聯(lián)網(wǎng)的出現(xiàn),使得科技情報(bào)來(lái)源的信息載體由紙質(zhì)演變?yōu)閿?shù)字化,情報(bào)信息的獲取方式也從專門的機(jī)構(gòu)變?yōu)榭梢噪S時(shí)隨地訪問(wèn)的開(kāi)放網(wǎng)絡(luò)上。
目前,一方面,網(wǎng)絡(luò)上的信息隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,尤其以由用戶主導(dǎo)而生成的內(nèi)容互聯(lián)網(wǎng)產(chǎn)品模式的Web2.0技術(shù)和以融合為主的第三代互聯(lián)網(wǎng)技術(shù)的發(fā)展,讓信息爆炸式地增長(zhǎng),人類社會(huì)也進(jìn)入了大數(shù)據(jù)時(shí)代,目前都是從海量信息中發(fā)現(xiàn)有價(jià)值的東西。依據(jù)時(shí)代的發(fā)展,科技情報(bào)工作已由傳統(tǒng)的以文獻(xiàn)服務(wù)、知識(shí)服務(wù)為標(biāo)志的情報(bào)1.0、2.0時(shí)代,進(jìn)入了以智能服務(wù)為標(biāo)志的情報(bào)3.0時(shí)代[1]。
另一方面,計(jì)算機(jī)硬件技術(shù)和軟件技術(shù)也有了新的突破,硬件方面的DSP、GPU、高性能處理芯片,軟件方面云計(jì)算、sdn等技術(shù)[2-4],軟件方面的互聯(lián)網(wǎng)的爬蟲(chóng)技術(shù)可以實(shí)現(xiàn)從網(wǎng)上自動(dòng)采集信息,人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語(yǔ)言處理技術(shù)也發(fā)展到相對(duì)成熟的階段,這些技術(shù)可以實(shí)現(xiàn)文本的自動(dòng)分類、聚類,可以從大量數(shù)據(jù)中學(xué)習(xí)有價(jià)值的知識(shí),文本檢索技術(shù)可以實(shí)現(xiàn)從海量數(shù)據(jù)中找出想要的數(shù)據(jù),這些技術(shù)為快速處理海量數(shù)據(jù)提供了基礎(chǔ)[5-7]。
有這兩方面需求的驅(qū)動(dòng)和技術(shù)的支撐,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生,主要包括進(jìn)行數(shù)據(jù)表示的知識(shí)表示技術(shù)、對(duì)數(shù)據(jù)進(jìn)行表示的知識(shí)圖譜技術(shù)、對(duì)數(shù)據(jù)進(jìn)行挖掘發(fā)現(xiàn)的深度學(xué)習(xí)技術(shù),這些技術(shù)是目前進(jìn)行情報(bào)分析的基礎(chǔ),必須引入這些技術(shù)來(lái)完成對(duì)大規(guī)模信息的處理和分析,解決情報(bào)3.0時(shí)代所面臨的問(wèn)題。才能完成數(shù)字化、網(wǎng)絡(luò)化的新時(shí)期的情報(bào)分析任務(wù)。
進(jìn)行情報(bào)分析任務(wù),首先面對(duì)的就是數(shù)據(jù)的高效存儲(chǔ),關(guān)系數(shù)據(jù)庫(kù)在面對(duì)高并發(fā),高負(fù)載的低效,以及不易進(jìn)行升級(jí)和擴(kuò)展,往往需要停機(jī)維護(hù)和數(shù)據(jù)遷移等缺點(diǎn)是不適宜應(yīng)用在大數(shù)據(jù)業(yè)務(wù)平臺(tái)上,搭建高效的存儲(chǔ)平臺(tái)是建立大數(shù)據(jù)業(yè)務(wù)的首要任務(wù)。因此本文首先分析了大數(shù)據(jù)時(shí)代情報(bào)業(yè)務(wù)模式,其次探索利用hadoop和hbase技術(shù)進(jìn)行大數(shù)據(jù)存儲(chǔ)平臺(tái)的搭建。
大數(shù)據(jù)指的是數(shù)據(jù)量超過(guò)單個(gè)臺(tái)式機(jī)存儲(chǔ)能力數(shù)據(jù),無(wú)法用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)、單機(jī)數(shù)據(jù)分析統(tǒng)計(jì)工具無(wú)法處理的數(shù)據(jù),這些數(shù)據(jù)需要存放在擁有數(shù)千萬(wàn)臺(tái)機(jī)器的大規(guī)模并行系統(tǒng)上進(jìn)行存儲(chǔ)和分析。大數(shù)據(jù)情報(bào)業(yè)務(wù)平臺(tái),需要提供對(duì)情報(bào)信息的高可靠性、高性能、可伸縮分布式存儲(chǔ)系統(tǒng)和實(shí)時(shí)的、多維的、智能的分析功能。
大數(shù)據(jù)情報(bào)業(yè)務(wù)員平臺(tái)需要對(duì)硬件計(jì)算和存儲(chǔ)資源的進(jìn)行合理虛擬化以實(shí)現(xiàn)高效的調(diào)配,需要對(duì)虛擬的資源進(jìn)行高效內(nèi)存計(jì)算以達(dá)到高效計(jì)算,在此讓利用深度學(xué)習(xí)工具加強(qiáng)平臺(tái)智能化,最終通過(guò)大數(shù)據(jù)可視化實(shí)現(xiàn)結(jié)果的展示。它主要分為4層。分別是:硬件資源層,虛擬資源,支撐平臺(tái)和情報(bào)業(yè)務(wù)服務(wù)。科技情報(bào)大數(shù)據(jù)平臺(tái)架構(gòu)如圖1所示。
1)硬件資源層:大數(shù)據(jù)平臺(tái)對(duì)硬件的需求主要是:可作為計(jì)算設(shè)備的主機(jī)、進(jìn)行數(shù)據(jù)存儲(chǔ)的磁盤和滿足內(nèi)部服務(wù)和對(duì)外服務(wù)的網(wǎng)絡(luò)設(shè)備。大數(shù)據(jù)平臺(tái)硬件的建設(shè)可以采取2個(gè)方案:①采用托管的方式,可以租用云計(jì)算平臺(tái)。
圖1 科技情報(bào)大數(shù)據(jù)平臺(tái)
②可以采用自建的方式。采購(gòu)20臺(tái)以上的服務(wù)器和磁盤陣列,搭建私有云平臺(tái)即能滿足基本情報(bào)服務(wù)。
2)虛擬資源層:此層對(duì)上是透明化底層物理硬件,對(duì)下是打破實(shí)體結(jié)構(gòu)間的不可切割的障礙,使這些資源的不受現(xiàn)有資源的架設(shè)方式、地域或物理組態(tài)所限制,實(shí)現(xiàn)最大化的利用物理硬件。虛擬化技術(shù)分為商用軟件和開(kāi)源虛擬化技術(shù)兩種。
3)支撐平臺(tái)層:支撐平臺(tái)主要完成數(shù)據(jù)的存儲(chǔ)和處理,因此分為數(shù)據(jù)平臺(tái)和處理平臺(tái)。
情報(bào)的數(shù)據(jù)主要分為無(wú)結(jié)構(gòu)的、半結(jié)構(gòu)的和結(jié)構(gòu)化的。對(duì)于結(jié)構(gòu)化數(shù)據(jù)可以采用關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。對(duì)于半結(jié)構(gòu)化的數(shù)據(jù)采用非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。無(wú)結(jié)構(gòu)化的數(shù)據(jù)可以采用文件系統(tǒng)存儲(chǔ)。如果對(duì)數(shù)據(jù)要進(jìn)行快速的查找和訪問(wèn),還需要有索引的存儲(chǔ),對(duì)索引的處理也有很多成熟的開(kāi)源技術(shù),如sola、彈性搜索等。
情報(bào)大數(shù)據(jù)平臺(tái)處理數(shù)據(jù)最大特點(diǎn)是數(shù)據(jù)量大,因此對(duì)數(shù)據(jù)處理性能要求要高。要達(dá)到這點(diǎn)首先處理的數(shù)據(jù)就要有原來(lái)的硬盤上改為在內(nèi)存出處理,因此內(nèi)存計(jì)算技術(shù)是大數(shù)據(jù)平臺(tái)的基礎(chǔ)。內(nèi)存技術(shù)主要是對(duì)流處理、圖、統(tǒng)計(jì)的處理,都已經(jīng)有很多成熟的方法。情報(bào)大數(shù)據(jù)的處理除了速度,還需要智能。利用數(shù)據(jù)挖掘技術(shù)從海量信息中找出有價(jià)值的情報(bào)是大數(shù)據(jù)情報(bào)平臺(tái)主要的作用之一。因此在對(duì)數(shù)據(jù)處理上,深度學(xué)習(xí)是很重要的。目前已經(jīng)有很多深度學(xué)習(xí)的算法和工具,并在實(shí)際應(yīng)用中獲取過(guò)很多有價(jià)值的成果。比如,作者曾經(jīng)利用Google開(kāi)源的Deep Learning工具Word2vec訓(xùn)練出來(lái)的知識(shí)應(yīng)用于對(duì)人大建議和政協(xié)提案進(jìn)行模糊查找中和主題詞的推薦中,得到了很好的效果。
4)情報(bào)業(yè)務(wù)層:這一層是大數(shù)據(jù)平臺(tái)的業(yè)務(wù)層。情報(bào)主要是在對(duì)數(shù)據(jù)的處理過(guò)程中,獲取價(jià)值,數(shù)據(jù)具有多樣性,包括類型,文字的、圖片的。結(jié)構(gòu)化的,非結(jié)構(gòu)化的,所屬領(lǐng)域不同,如低碳、節(jié)能、農(nóng)業(yè)、林業(yè)等。目前對(duì)數(shù)據(jù)處理的自動(dòng)化技術(shù)也是發(fā)展得很好,如對(duì)文本處理的搜索、分類、聚類等。對(duì)圖像的提取、檢索等。因此根據(jù)情報(bào)所情報(bào)業(yè)務(wù)的需求和目前的計(jì)算機(jī)技術(shù)結(jié)合起來(lái),建立能為情報(bào)服務(wù)的數(shù)據(jù)處理平臺(tái)。這一層是可擴(kuò)展、組件化的,可以根據(jù)需求不斷進(jìn)行技術(shù)的更新。目前根據(jù)最基本的需求,設(shè)計(jì)了幾個(gè)模塊。情報(bào)搜索,他和一般的搜索不一樣,它具有行業(yè)性,搜索需要對(duì)具有新穎性的東西加以特別關(guān)注、還具有多樣行。當(dāng)然依托于大數(shù)據(jù)平臺(tái),提高性能更是必不可少的。知識(shí)庫(kù)的構(gòu)建:目前在自然語(yǔ)言處理比較火的概念之一。建立一個(gè)好知識(shí)庫(kù),可以對(duì)概念進(jìn)行推理和延伸??梢宰屘幚碜呦蛘Z(yǔ)義化。而知識(shí)庫(kù)的建立是具有領(lǐng)域性的,可以針對(duì)情報(bào)所的特定服務(wù)建立該領(lǐng)域知識(shí)庫(kù)。其次知識(shí)庫(kù)需要建成能自我完善的,其眾包技術(shù)能很好地起到這個(gè)效果。
基于大數(shù)據(jù)平臺(tái),提供的服務(wù)最終體現(xiàn)在用戶價(jià)值上,從服務(wù)的層次上,分為初級(jí)和高級(jí)。初級(jí)可以面向大眾免費(fèi)提供,如進(jìn)行情報(bào)的檢索和情報(bào)數(shù)據(jù)的自動(dòng)提煉上。而高級(jí)服務(wù)可以定制進(jìn)行,為用戶提供行業(yè)情報(bào),對(duì)技術(shù)進(jìn)行趨勢(shì)估計(jì)等。
關(guān)系型數(shù)據(jù)庫(kù)適用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),不適宜于高并發(fā)訪問(wèn)和大數(shù)據(jù)量的大數(shù)據(jù)平臺(tái)。 Nosql(Not-Only-SQL)就是為半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)而生的。Nosql數(shù)據(jù)庫(kù)采用Key-Value的形式對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),且結(jié)構(gòu)不固定,也就是說(shuō)一個(gè)表的任意一行的列的數(shù)量可以不相同。并且就算定義字段,在不使用的情況下,也并不會(huì)占用存儲(chǔ)空間,這樣在某種程度上來(lái)說(shuō)也降低了一定的存儲(chǔ)開(kāi)銷。同時(shí)還具有易擴(kuò)展性和高可用性的特性,方便部署在廉價(jià)的PC服務(wù)器上集群用于處理大規(guī)模的海量數(shù)據(jù)。HBase是Hadoop平臺(tái)下數(shù)據(jù)存儲(chǔ)引擎,它能夠?yàn)榇髷?shù)據(jù)提供實(shí)時(shí)的讀/寫操作。HBase具備開(kāi)源、分布式、可擴(kuò)展性以及面向列的存儲(chǔ)特點(diǎn),使得HBase可以部署在廉價(jià)的PC服務(wù)器集群上處理大規(guī)模的海量數(shù)據(jù)。HBase最早是由Google的Bigtable演變而來(lái),他提供了2種存儲(chǔ)方式:一種是使用操作系統(tǒng)的本地文件系統(tǒng);另外一種則是在集群環(huán)境下使用Hadoop的HDFS,相對(duì)而言,使用HDFS將會(huì)使數(shù)據(jù)更加穩(wěn)定。同時(shí)HBase存儲(chǔ)的是松散型數(shù)據(jù),也就是半結(jié)構(gòu)化數(shù)據(jù),那么注定HBase的存儲(chǔ)維度是動(dòng)態(tài)可變的。也就是說(shuō)HBase表中的每一行可以包含不同數(shù)量的列,并且某一行的某一列還可以有多個(gè)版本的數(shù)據(jù),這主要通過(guò)時(shí)間戳范圍進(jìn)行區(qū)分。HBase不僅可以向下提供運(yùn)算,它還能夠結(jié)合Hadoop的MapReduce向上提供運(yùn)算,這些都是HBase所具備的特點(diǎn)[8]。根據(jù)上面大數(shù)據(jù)業(yè)務(wù)平臺(tái)的架構(gòu),結(jié)合hadoop+hbase技術(shù)搭建了大數(shù)據(jù)存儲(chǔ)的原型系統(tǒng),具體方案如下文所述。
在兩臺(tái)配置處理器:CPU四核,處理速度3.3GHz,內(nèi)存16G,硬盤:1T的Window7的系統(tǒng)上分別安裝Vitualbox,并在每個(gè)Vitualbox上安裝5個(gè)Ubuntu系統(tǒng),每個(gè)性能內(nèi)存2G,存儲(chǔ)200G。按照Hadoop集群的基本要求,其中一個(gè)是master結(jié)點(diǎn),主要是用于運(yùn)行hadoop程序中的namenode、secondorynamenode和jobtracker任務(wù)。另外9個(gè)結(jié)點(diǎn)均為slave結(jié)點(diǎn),其中一個(gè)是用于冗余目的,如果沒(méi)有冗余,就不能稱之為hadoop了。slave結(jié)點(diǎn)主要將運(yùn)行hadoop程序中的datanode和tasktracker任務(wù)。
在準(zhǔn)備好這10個(gè)結(jié)點(diǎn)之后,需要分別將Linux系統(tǒng)的主機(jī)名重命名和配置IP地址(因?yàn)榍懊媸菑?fù)制和粘帖操作產(chǎn)生另外9個(gè)結(jié)點(diǎn),此時(shí)這10個(gè)結(jié)點(diǎn)的主機(jī)名是一樣的),依此對(duì)虛擬系統(tǒng)設(shè)置IP從10.10.1.60到10.10.1.69,修改各個(gè)虛擬機(jī)hostname文件,將節(jié)點(diǎn)機(jī)器名字依次設(shè)置為maste、slave1、slave2、slave3、slave4、slave5、slave6、slave7、slave8、slave9。之后修改各個(gè)機(jī)器的hosts文件。設(shè)置為:
圖2 hostname文件配置
2.2.1 hadoop配置
1)設(shè)置Core-site.xml
圖3 Core-site.xml文件配置
2)設(shè)置hdfs-site.xml
圖4 hdfs-site.xml文件配置
3)設(shè)置mapred-site.xml
圖5 mapred-site.xml文件配置
4)設(shè)置yarn-site.xml
圖6 yarn-site.xml文件配置
2.2.2 hbase集群配置
1) 配置hbase-site.xml
圖7 hbase-site.xml文件配置
hbase.rootdir指定Hbase數(shù)據(jù)存儲(chǔ)目錄。hbase.cluster.distributed指定是否是完全分布式模式,單機(jī)模式和偽分布式模式需要將該值設(shè)為false,hbase.master指定Master的位置,hbase.zookeeper.quorum指定zooke的集群,多臺(tái)機(jī)器以逗號(hào)分隔。
2)修改conf下的regionservers文件
圖8 regionservers文件配置
3)修改Hadoop hdfs-site.xml下的一個(gè)屬性值
維寧爾(veoneer)的前身是全球汽車安全領(lǐng)域的領(lǐng)導(dǎo)者瑞典奧托立夫(Autoliv)公司的電子事業(yè)部。維寧爾(中國(guó))電子有限公司專注于汽車安全電子及自動(dòng)駕駛等新興市場(chǎng)業(yè)務(wù),維寧爾的目標(biāo)是成為高級(jí)駕駛輔助系統(tǒng)(ADAS)和自動(dòng)駕駛系統(tǒng)的領(lǐng)先供應(yīng)商。維寧爾(中國(guó))電子有限公司積極順應(yīng)市場(chǎng)需求,著力研發(fā)相關(guān)產(chǎn)品,以期成為汽車安全電子產(chǎn)品市場(chǎng)的領(lǐng)導(dǎo)者。
圖9 regionservers文件配置
該參數(shù)限制了datanode所允許同時(shí)執(zhí)行的發(fā)送和接受任務(wù)的數(shù)量,缺省為256,hadoop-defaults.xml中通常不設(shè)置這個(gè)參數(shù)。這個(gè)限制缺省值實(shí)際使用情況下有些偏小,高負(fù)載情況下影響集群性能,需要根據(jù)實(shí)際集群條件設(shè)置一下。
2.2.3 hadoop和hbase啟動(dòng)和停止
啟動(dòng)順序:先啟動(dòng)Hadoop-?hbase。
進(jìn)入hadoop文件夾下執(zhí)行命令:./sbin/start-dfs.sh;./sbin/start-yarn.sh;分別啟動(dòng)hadoop的文件系統(tǒng)和任務(wù)調(diào)度系統(tǒng)。通過(guò)jps查看節(jié)點(diǎn)狀態(tài),在maste和slave上分別顯示如下圖所示,表示hadoop啟動(dòng)成功。
圖10 hadoop啟動(dòng)任務(wù)
進(jìn)入hbase文件夾下執(zhí)行命令:./bin/start-hbase.sh,運(yùn)行后通過(guò)jps查看節(jié)點(diǎn)狀態(tài),出現(xiàn)黃色框起來(lái)的任務(wù)表示啟動(dòng)成功。
圖11 hbase啟動(dòng)任務(wù)
停止順序:hbase->hadoop,依次執(zhí)行./bin/stop-hbase.sh;./sbin/stop-yarn.sh;./sbin/stop-dfs.sh;即可停止hbase和hadoop。
2.2.4 java代碼實(shí)現(xiàn)hbase簡(jiǎn)單存儲(chǔ)
圖12 hbase建庫(kù)和插入數(shù)據(jù)代碼
本文分析了目前大數(shù)據(jù)時(shí)代科技情報(bào)工作面臨的問(wèn)題和機(jī)遇,結(jié)合信息技術(shù)領(lǐng)域的虛擬化技術(shù)、云平臺(tái)技術(shù)、高性能技術(shù)和人工智能技術(shù),設(shè)計(jì)了科技情報(bào)大數(shù)據(jù)業(yè)務(wù)平臺(tái)架構(gòu),并對(duì)大數(shù)據(jù)處理首要任務(wù)存儲(chǔ)進(jìn)行了探索,搭建了基于hadoop和hbase的大數(shù)據(jù)存儲(chǔ)平臺(tái)。下一步,將在此基礎(chǔ)上,將人工智能技術(shù)嵌入到大數(shù)據(jù)平臺(tái)上,實(shí)現(xiàn)情報(bào)的大數(shù)據(jù)挖掘,最終,嵌入大數(shù)據(jù)可視化技術(shù),對(duì)情報(bào)結(jié)果進(jìn)行展示。
[1]吳晨生,李輝,付宏,等.情報(bào)服務(wù)邁向3.0時(shí)代[J].情報(bào)理論與實(shí)踐,2015,38(9):1-7.
[2]Bolz J,Farmer I,Grinspun E,et al.Sparse matrix solvers on the GPU[J].Acm Transactions on Graphics,2003,22(3).
[3]Hayes B.Cloud computing[J].Communications of the Acm,2008,51(7):9-11.
[4]Dixit A,Fang H,Mukherjee S,et al.Towards an elastic distributed SDN controller[M]// ACM SIGCOMM Computer Communication Review.ACM,2013:7-1
[5]Naimi A I,Westreich D J.Big Data:A Revolution That Will Transform How We Live,Work,and Think.[J].American Journal of Epidemiology,2014,17(9):181-183.
[6]Lecun Y,Bengio Y,Hinton G.Deep learning[J].Nature,2015,521(7553):436-444.
[7]吳信東.數(shù)據(jù)挖掘十大算法[M].李文波,吳素研,譯.北京:清華大學(xué)出版社,2013.
[8]Mehul,Nalin,Vora.Hadoop-HBase for large-scale data[C]// International Conference on Computer Science and Network Technology.IEEE,2012:601-605.
BigDataPlatformforScienceandTechnologyIntelligence
Wu Suyan1Lyu Zhijian1Wu Jiangrui2Li Wenbo3
(1.Beijing Institute of Science and Technology Information,Beijing 100044,China;2.Henan Institute Technology,Xinxiang 453003,China;3.Institute of Software Chinese Academy of Science,Beijing 100081,China)
[Purpose/Signficance]This paper analyzed the current big data era of science and technology Intelligence work problems and opportunities.[Method/Process]Combined with information technology,virtualization technology,cloud platform technology,high performance technology and artificial intelligence technology,design science and technology information data service platform architecture,described the hardware layer,virtual layer,support layer and business layer and main function the required technology;and explored the primary task of big data storage,to build a large data storage platform based on Hadoop and hbase.[Resule/Conclusion]Big data business intelligence platform was proposed in this paper was designed from the overall architecture,and implemented the storage module,realized the analysed and visualization department next,could provide support services for large data collection and processing of information.
scientific and technical intelligence;big data;hadoop;hbase
10.3969/j.issn.1008-0821.2018.01.019
TP393
A
1008-0821(2018)01-0131-05
2017-08-04
北京市財(cái)政項(xiàng)目(項(xiàng)目編號(hào)PXM2017_178214_000005)、北京市科學(xué)技術(shù)情報(bào)研究所改革與發(fā)展專項(xiàng)(2017)。
吳素研(1977-),女,副研究員,博士,研究方向:科技情報(bào)、大數(shù)據(jù)。呂志堅(jiān)(1975-),男,副研究員,博士,研究方向:科技情報(bào)、人工智能。吳江瑞(1968-),男,高級(jí)技師,研究方向:焊接。
孫國(guó)雷)