• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)科技創(chuàng)新資源建設(shè)與共享機(jī)制研究

      2020-01-08 02:22:44江忠江佳玥余波
      現(xiàn)代信息科技 2020年15期
      關(guān)鍵詞:共享機(jī)制大數(shù)據(jù)

      江忠 江佳玥 余波

      摘 ?要:信息獲取不僅僅是獲取靜態(tài)的數(shù)據(jù),還要獲取具有決策引領(lǐng)、揭示未來(lái)規(guī)律的情報(bào)信息,使個(gè)人和社會(huì)對(duì)信息類(lèi)型的需求從單一、靜止的數(shù)據(jù)信息轉(zhuǎn)換為跨專(zhuān)業(yè)的智慧型復(fù)合信息,提示潛在信息知識(shí)單元的智能化、具體化、動(dòng)態(tài)化、復(fù)合化、專(zhuān)業(yè)化、快速化等特征,打造開(kāi)放、協(xié)同、包容、共享的科技創(chuàng)新平臺(tái)。該共享平臺(tái)的建設(shè)是為了打造大數(shù)據(jù)產(chǎn)業(yè)落地應(yīng)用的豐富場(chǎng)景,用數(shù)學(xué)建模的思想來(lái)構(gòu)造四川革命老區(qū)大數(shù)據(jù)共享生態(tài)系統(tǒng)的拓?fù)浣Y(jié)構(gòu)圖。

      關(guān)鍵詞:大數(shù)據(jù);科技資源建設(shè);共享機(jī)制

      中圖分類(lèi)號(hào):TP311.1 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)15-0076-06

      Abstract:Information acquisition is not only static data,but also decision-making guidance,revealing the future rules of intelligence information,so as to transform the individual and social demand for information from single and static data information to interdisciplinary intelligent composite information presentation,which indicates the characteristics of potential information knowledge unit,such as intelligence,concreteness,dynamic,compound,specialization,speediness. To build an open,collaborative,inclusive and shared platform for scientific and technological innovation. The construction of this sharing platform is to create a rich scene for the application of big data industry. The topological structure of big data sharing ecosystem in old revolutionary base areas of Sichuan is constructed with the idea of mathematical modeling.

      Keywords:big data;science and technology resources construction;sharing mechanism

      0 ?引 ?言

      全球數(shù)據(jù)量變化遵守摩爾定律,2020年,其將達(dá)到或超過(guò)35 ZB。隨著5G技術(shù)的廣泛普及、云計(jì)算中心的廣泛使用、物聯(lián)網(wǎng)信息技術(shù)的發(fā)展和人工智能技術(shù)的成熟,我們將進(jìn)入數(shù)據(jù)的ZB時(shí)代,傳統(tǒng)科技情報(bào)信息的研究模式急需變革,廣大用戶對(duì)海量數(shù)據(jù)的服務(wù)類(lèi)型和質(zhì)量有更高的期望,科技信息的采集、大數(shù)據(jù)的存貯、數(shù)據(jù)格式的轉(zhuǎn)換、信息的查找展現(xiàn)、具有人工智慧的挖掘和非常規(guī)應(yīng)用都面臨著急劇的變化。

      為滿足互聯(lián)網(wǎng)時(shí)代非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)需求而產(chǎn)生了以列為存貯主體的技術(shù),而大數(shù)據(jù)技術(shù)的產(chǎn)生是為了解決海量數(shù)據(jù)集分析的問(wèn)題。大數(shù)據(jù)內(nèi)容豐富,數(shù)據(jù)之間的關(guān)聯(lián)需要機(jī)器學(xué)習(xí)、人工智能挖掘、統(tǒng)計(jì)分析,形成有意義的數(shù)據(jù)鏈,變“廢”為“寶”,使其為科技研究提供了不竭的源泉,順應(yīng)并提升已有的研究思想、方法、策略、功用和平臺(tái)。大數(shù)據(jù)技術(shù)是信息產(chǎn)業(yè)的一次推動(dòng)時(shí)代前進(jìn)的巨潮。

      1 ?研究目的和意義

      由于歷史、地理、人文等多種因素的疊加,四川革命老區(qū)在文化、經(jīng)濟(jì)、社會(huì)發(fā)展等多方面處于滯后狀態(tài),想在大數(shù)據(jù)時(shí)代變革中異軍突起,就要借助科技的力量,通過(guò)對(duì)大數(shù)據(jù)資源的建設(shè)和對(duì)共享機(jī)制的理論研究,為四川革命老區(qū)的進(jìn)一步發(fā)展提供理論、實(shí)踐參考,對(duì)老區(qū)的綜合發(fā)展研究起到理論的支撐作用。達(dá)州職業(yè)技術(shù)學(xué)院和達(dá)州市科學(xué)技術(shù)情報(bào)研究所位于四川革命老區(qū)腹地,重慶工商大學(xué)是四川革命老區(qū)脫貧的聯(lián)系單位,今年是脫貧攻堅(jiān)決勝之年,為了給四川革命老區(qū)扶貧、扶智,響應(yīng)四川革命老區(qū)發(fā)展中心的號(hào)召,申請(qǐng)課題專(zhuān)門(mén)研究四川革命老區(qū)科技資源建設(shè)和共享的問(wèn)題,為四川革命老區(qū)的發(fā)展作出職業(yè)學(xué)院、研究所應(yīng)有的擔(dān)當(dāng)和作為。

      過(guò)去三十年,拉動(dòng)中國(guó)經(jīng)濟(jì)三駕馬車(chē)是投資、消費(fèi)、出口,那么未來(lái)三十年,拉動(dòng)中國(guó)經(jīng)濟(jì)三駕新馬車(chē)是大數(shù)據(jù)、云計(jì)算、智能制造。在這種大背景下,本研究的意義如下。

      (1)在加快革命老區(qū)脫貧致富奔小康的背景下,及時(shí)調(diào)整四川革命老區(qū)發(fā)展戰(zhàn)略和信息資源建設(shè)分布格局,積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代的新形勢(shì)和新要求。

      (2)優(yōu)化整合四川革命老區(qū)的科技資源。針對(duì)四川省革命老區(qū)科技資源分布廣泛、難以共享且缺乏對(duì)已有資源深度分析的問(wèn)題,提出建立數(shù)字化科技資源平臺(tái),通過(guò)集成分散的科技信息資源實(shí)現(xiàn)資源共享。在目前越來(lái)越激烈的國(guó)際競(jìng)爭(zhēng)環(huán)境中,科技資源也越來(lái)越被人們所重視。而要實(shí)現(xiàn)科技資源共享、緩解科技資源的有限性與其高效性之間的矛盾,就要促進(jìn)地區(qū)間的協(xié)同發(fā)展以及科技資源共享,來(lái)推動(dòng)整個(gè)革命地區(qū)的科技實(shí)力,提高地區(qū)在國(guó)內(nèi)、國(guó)際競(jìng)爭(zhēng)中的話語(yǔ)權(quán)?;谀P驮O(shè)計(jì),本文構(gòu)建了四川省革命老區(qū)科技信息資源平臺(tái),實(shí)現(xiàn)了數(shù)據(jù)的集成、統(tǒng)計(jì)分析以及動(dòng)態(tài)可視化數(shù)據(jù)展示、APP應(yīng)用開(kāi)發(fā)。

      (3)為四川革命老區(qū)的改革和發(fā)展提供指導(dǎo)方向,進(jìn)一步改善四川革命老區(qū)的發(fā)展質(zhì)量。

      2 ?研究的主要思路

      (1)研究大數(shù)據(jù)資源、集成管理、大數(shù)據(jù)資源集成以及大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的基礎(chǔ)理論,作為研究主題的理論支撐系統(tǒng),構(gòu)建面向四川革命老區(qū)大數(shù)據(jù)資源集成的大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)結(jié)構(gòu),要按照一定的邏輯方法,逐步、細(xì)化地研究“大數(shù)據(jù)資源”“集成管理”“大數(shù)據(jù)資源集成”“大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)”“大數(shù)據(jù)資源共享機(jī)制”等專(zhuān)業(yè)名詞的基本概念和語(yǔ)境意義,作為后續(xù)研究的理論支撐。

      (2)研究大數(shù)據(jù)資源集成服務(wù)模式案例,探索面向四川革命老區(qū)大數(shù)據(jù)資源集成的基礎(chǔ)設(shè)施建設(shè)結(jié)構(gòu)的構(gòu)建思路,綜合運(yùn)用前人的研究成果,對(duì)大數(shù)據(jù)資源集成服務(wù)模式案例進(jìn)行歸納分析,并闡述大數(shù)據(jù)資源集成與大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的有機(jī)聯(lián)系。在探索過(guò)程中逐步明晰大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)問(wèn)題的本質(zhì),即是大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的系統(tǒng)性或結(jié)構(gòu)性問(wèn)題,進(jìn)而依據(jù)構(gòu)建思路,系統(tǒng)地創(chuàng)建出四川革命老區(qū)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的集成結(jié)構(gòu)。

      (3)研究有關(guān)四川革命老區(qū)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的發(fā)展現(xiàn)狀及問(wèn)題,提出符合當(dāng)?shù)卮髷?shù)據(jù)基礎(chǔ)設(shè)施建設(shè)的保障機(jī)制和對(duì)策建議。

      (4)通過(guò)文獻(xiàn)分析法、數(shù)理統(tǒng)計(jì)法、對(duì)比分析法三種研究方法來(lái)介紹跨區(qū)域科技合作的發(fā)展現(xiàn)狀、科技合作運(yùn)行機(jī)制、存在的問(wèn)題、跨區(qū)域的經(jīng)驗(yàn)借鑒、優(yōu)化運(yùn)行機(jī)制的對(duì)策等。通過(guò)分析跨區(qū)域科技資源分布的特點(diǎn)、科技合作的基礎(chǔ)、科技合作共享進(jìn)展情況來(lái)進(jìn)行研究。

      (5)研究傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別聯(lián)系,研究怎樣對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ),如何把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲(chǔ)。對(duì)實(shí)現(xiàn)物理存儲(chǔ)的軟件進(jìn)行比較、總結(jié)。

      (6)通過(guò)四川省革命老區(qū)科技信息資源平臺(tái)的建設(shè),可以擺脫大數(shù)據(jù)雜亂涌現(xiàn)的混亂局面,極大地提高了現(xiàn)有科技資源的使用效率。

      3 ?大數(shù)據(jù)資源建設(shè)的有力支撐技術(shù)

      3.1 ?云計(jì)算為大數(shù)據(jù)提供了存儲(chǔ)計(jì)算加工應(yīng)用的平臺(tái)

      云計(jì)算可更好地開(kāi)發(fā)、使用互聯(lián)網(wǎng),可以利用云計(jì)算設(shè)置了資源消費(fèi)支付模式,借助互聯(lián)網(wǎng)提供動(dòng)態(tài)且按需分配的虛擬化資源,是一種更高效、穩(wěn)定、彈性的模式;科技工作者也可創(chuàng)新資源需求訪問(wèn)、上傳、獲取、利用多種資源。在大數(shù)據(jù)資源處理流程中,數(shù)據(jù)挖掘分析是很重要的環(huán)節(jié),體現(xiàn)了大數(shù)據(jù)的開(kāi)發(fā)價(jià)值。作用于大數(shù)據(jù)的數(shù)據(jù)挖掘分析利用數(shù)學(xué)方法與計(jì)算機(jī)技術(shù)算法,實(shí)現(xiàn)快速過(guò)濾、歸并、整合,深度獲取潛在的數(shù)據(jù)模型。大數(shù)據(jù)分析需要云計(jì)算技術(shù)作為重要支撐,云計(jì)算技術(shù)可以為大數(shù)據(jù)分析提供動(dòng)態(tài)伸縮的、安全的云存儲(chǔ)和分布并行計(jì)算資源池,也可提供深度應(yīng)用開(kāi)發(fā)的APP。

      3.2 ?機(jī)器學(xué)習(xí)是對(duì)四川革命老區(qū)大數(shù)據(jù)加工的利器

      數(shù)據(jù)挖掘是在海量數(shù)據(jù)庫(kù)中自動(dòng)地發(fā)現(xiàn)有用信息的過(guò)程,數(shù)據(jù)挖掘技術(shù)用來(lái)探查大型數(shù)據(jù)庫(kù),發(fā)現(xiàn)先前未知的有用模式。機(jī)器學(xué)習(xí)可以提升數(shù)據(jù)自動(dòng)挖掘和篩選的速度。隨著大數(shù)據(jù)時(shí)代數(shù)據(jù)容量的迅猛增加和數(shù)據(jù)結(jié)構(gòu)聯(lián)系隱蔽性的提升,如何高效地計(jì)算和處理數(shù)據(jù),成為機(jī)器學(xué)習(xí)關(guān)注的焦點(diǎn)。關(guān)于大數(shù)據(jù)的機(jī)器學(xué)習(xí)要同數(shù)學(xué)模型結(jié)合起來(lái)用,采用更加科學(xué)高效的數(shù)學(xué)算法將增強(qiáng)機(jī)器學(xué)習(xí)的效率。

      3.3 ?用情報(bào)學(xué)的思想方法算法來(lái)分析提煉大數(shù)據(jù)

      回顧過(guò)去,科技資源研究主要是在數(shù)據(jù)、信息的處理層面上,缺乏引領(lǐng)性、智慧性。情報(bào)學(xué)是研究信息數(shù)據(jù)采集、信息數(shù)據(jù)處理、信息數(shù)據(jù)分類(lèi)、信息數(shù)據(jù)結(jié)構(gòu)化、信息數(shù)據(jù)建模、情報(bào)信息生成、情報(bào)信息檢索、情報(bào)信息智能化服務(wù)、情報(bào)信息互通以及情報(bào)科學(xué)系統(tǒng)所包括的概念、理論、公式、技術(shù)、規(guī)律及方法的專(zhuān)門(mén)學(xué)科。把數(shù)據(jù)處理升華為情報(bào)學(xué)研究,提供“耳目、尖兵、參謀”的決策研究[1]。

      4 ?大數(shù)據(jù)背景下科技創(chuàng)新資源的建設(shè)

      4.1 ?大數(shù)據(jù)資源運(yùn)用現(xiàn)狀

      根據(jù)實(shí)際狀況,現(xiàn)在大數(shù)據(jù)的實(shí)際科研工作及數(shù)據(jù)加工分析中,運(yùn)用的操作平臺(tái)如下所示。

      (1)數(shù)據(jù)平臺(tái):在獲取數(shù)據(jù)的基礎(chǔ)上,數(shù)據(jù)平臺(tái)的主要功能在于對(duì)數(shù)據(jù)信息進(jìn)行收集、分類(lèi)、歸并及儲(chǔ)存等,該種繁瑣性操作卻是為數(shù)據(jù)的下一步分析提供食糧和保證。

      (2)分析平臺(tái):數(shù)據(jù)分析應(yīng)屬于大數(shù)據(jù)分析中最為具有意義和關(guān)鍵的環(huán)節(jié),且是大數(shù)據(jù)分析中的龐大數(shù)據(jù)呈現(xiàn)其價(jià)值的核心環(huán)節(jié)[2]。

      (3)展示平臺(tái):通過(guò)技術(shù)完成數(shù)據(jù)分析后,需要通過(guò)通用的展示平臺(tái)對(duì)數(shù)據(jù)源進(jìn)行運(yùn)用和互動(dòng)。展示平臺(tái)的主要功能是完成大數(shù)據(jù)分析后的科研、推廣及利用。

      4.2 ?大數(shù)據(jù)科技創(chuàng)新資源建設(shè)面臨的問(wèn)題

      重慶工商大學(xué)江佳玥對(duì)數(shù)據(jù)格式研究比較深入,現(xiàn)以四川革命老區(qū)為例,總結(jié)大數(shù)據(jù)科技創(chuàng)新資源建設(shè)遇到的困難與挑戰(zhàn):

      (1)主觀上,很多科技情報(bào)研究所、信息技術(shù)研究所仍然把提供紙質(zhì)、電子文檔文獻(xiàn)和科技動(dòng)態(tài)信息當(dāng)作傳統(tǒng)主要工作。

      (2)缺乏廣泛的大數(shù)據(jù)來(lái)源,難以進(jìn)行業(yè)務(wù)分析。

      (3)數(shù)據(jù)往往來(lái)自不同的操作系統(tǒng)和硬件平臺(tái),缺乏事實(shí)上統(tǒng)一的接口和協(xié)議標(biāo)準(zhǔn),根本不能相互適配和通信。

      (4)數(shù)據(jù)信號(hào)受到干擾,其質(zhì)量參差不齊,數(shù)據(jù)的完整性、正確性、同一性、低延遲性難以保證,從而導(dǎo)致對(duì)其分析加工的結(jié)果的合理性較低。

      (5)數(shù)據(jù)結(jié)構(gòu)沒(méi)有準(zhǔn)確建立,導(dǎo)致不能建立數(shù)據(jù)分析模型,缺乏高效、有的放矢的人工智能、神經(jīng)網(wǎng)絡(luò)算法,跨行業(yè)、跨作業(yè)的數(shù)據(jù)分析難以進(jìn)行。

      (6)在數(shù)據(jù)應(yīng)用中不能保證信息安全,隱私可能被泄露,有可能與現(xiàn)行的法律法規(guī)沖突;數(shù)據(jù)失真、網(wǎng)絡(luò)數(shù)據(jù)、驅(qū)動(dòng)攻擊對(duì)資源建設(shè)不可不防。大數(shù)據(jù)科技創(chuàng)新資源如果能成為眾多行業(yè)、單位和個(gè)人的核心、關(guān)鍵資產(chǎn),必須增強(qiáng)其可靠性、安全性。

      4.3 ?四川革命老區(qū)基于大數(shù)據(jù)科技創(chuàng)新資源的建設(shè)構(gòu)想

      4.3.1 ?大數(shù)據(jù)科技創(chuàng)新資源建設(shè)模型

      四川達(dá)州職業(yè)技術(shù)學(xué)院江忠在四川革命老區(qū)課題研究中,通過(guò)反思四川革命老區(qū)傳統(tǒng)大數(shù)據(jù)資源的建設(shè)和利用過(guò)程以及大數(shù)據(jù)時(shí)代的需求,構(gòu)造一個(gè)模型來(lái)說(shuō)明大數(shù)據(jù)科技創(chuàng)新資源的建設(shè),如圖1所示。

      對(duì)海量數(shù)據(jù)放在硬盤(pán)中用MR(MapReduce)進(jìn)行編程處理,Pig是MR的一個(gè)抽象,它是一個(gè)工具/平臺(tái),用于分析較大的數(shù)據(jù)集,并將它們表示為數(shù)據(jù)流。HIVE是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的SQL查詢功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MR任務(wù)進(jìn)行運(yùn)行。Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計(jì)成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。它和現(xiàn)有的分布式文件系統(tǒng)有很多共同點(diǎn)。但同時(shí),它和其他的分布式文件系統(tǒng)的區(qū)別也是很明顯的。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。

      把大數(shù)據(jù)分為實(shí)時(shí)數(shù)據(jù)和非實(shí)時(shí)響應(yīng)用數(shù)據(jù),實(shí)時(shí)數(shù)據(jù)就需要流計(jì)算來(lái)完成操作,非實(shí)時(shí)數(shù)據(jù)可以通過(guò)MR算法來(lái)處理。大量數(shù)據(jù)需要用BI分析、圖形結(jié)構(gòu)數(shù)據(jù)計(jì)算來(lái)完成數(shù)據(jù)的挖掘,找出有價(jià)值和意義的結(jié)論和情報(bào)信息,對(duì)社會(huì)各行各業(yè)決策提供科學(xué)可靠的依據(jù)。BI(Business Intelligence)是指業(yè)務(wù)智能或智能業(yè)務(wù),其用途是使用現(xiàn)代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、在線分析處理技術(shù)以及數(shù)據(jù)挖掘和數(shù)據(jù)展示技術(shù)進(jìn)行數(shù)據(jù)分析以實(shí)現(xiàn)業(yè)務(wù)價(jià)值。對(duì)未來(lái)一些潛在和不明確的需求,就需要用數(shù)學(xué)算法來(lái)構(gòu)建一個(gè)數(shù)學(xué)模型,按照數(shù)學(xué)模型對(duì)大數(shù)據(jù)進(jìn)行分析加工、用戶相似度計(jì)算:如使用協(xié)同過(guò)濾算法得出非明確需求,由此可構(gòu)造一個(gè)推薦系統(tǒng)。推薦方法包括基于統(tǒng)計(jì)的推薦、基于內(nèi)容的推薦、專(zhuān)家推薦、協(xié)同過(guò)濾推薦和混合推薦。推薦系統(tǒng)的應(yīng)用之一是構(gòu)建一個(gè)全新的商業(yè)和經(jīng)濟(jì)模式。

      4.3.2 ?數(shù)據(jù)采集技術(shù)

      收集數(shù)據(jù)是數(shù)據(jù)挖掘、實(shí)時(shí)流處理、建立數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、MR、Spark、人工編程及智能分析的前奏,高效、準(zhǔn)確的數(shù)據(jù)采集方案對(duì)大數(shù)據(jù)挖掘研究具有重要意義。當(dāng)前,不同行業(yè)有各自的數(shù)據(jù)采集工具和方法??萍假Y源對(duì)數(shù)據(jù)處理的安全性要求很高,可以加強(qiáng)有關(guān)企業(yè)、事業(yè)單位和科學(xué)研究機(jī)構(gòu)的聯(lián)系,統(tǒng)一系統(tǒng)接口,規(guī)范數(shù)據(jù)格式和傳輸協(xié)議,用加密軟件相互傳輸數(shù)據(jù)。大數(shù)據(jù)采集可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)等方法,也可以通過(guò)傳感器、天網(wǎng)等硬件系統(tǒng)來(lái)采集數(shù)據(jù)。推薦應(yīng)用軟件來(lái)采集,即是要求建立統(tǒng)一、規(guī)范、高效、兼容性較強(qiáng)的數(shù)據(jù)采集系統(tǒng),使采集到的各種類(lèi)型數(shù)據(jù)和數(shù)據(jù)庫(kù)軟件接口能夠相互匹配并自動(dòng)轉(zhuǎn)換,并能同建立的四川革命老區(qū)大數(shù)據(jù)科技創(chuàng)新資源系統(tǒng)的各種類(lèi)型的數(shù)據(jù)庫(kù)通信。

      4.3.3 ?數(shù)據(jù)存儲(chǔ)技術(shù)

      科技創(chuàng)新資源系統(tǒng)就是用數(shù)據(jù)庫(kù)把收集到的數(shù)據(jù)按要求存儲(chǔ)起來(lái),根據(jù)需要建立關(guān)系型和非關(guān)系型的數(shù)據(jù)庫(kù),根據(jù)要求來(lái)進(jìn)行后續(xù)的分析管理和使用。隨著SQL數(shù)據(jù)和NoSQL數(shù)據(jù)量的連續(xù)暴增,以及大數(shù)據(jù)的容量大、類(lèi)型多樣、價(jià)值密度低、通用性差等特點(diǎn),要求本系統(tǒng)有大容量存儲(chǔ)設(shè)備、快速讀寫(xiě)性能以及安全可靠和彈性可伸縮的特點(diǎn),此前傳統(tǒng)關(guān)系型數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)顯然不能滿足大數(shù)據(jù)APP的要求。目前大數(shù)據(jù)存儲(chǔ)主要通過(guò)分布式文件系統(tǒng)、關(guān)系型數(shù)據(jù)庫(kù)技術(shù)、NoSQL數(shù)據(jù)庫(kù)技術(shù)、云數(shù)據(jù)庫(kù)、鍵值數(shù)據(jù)庫(kù)、文件型數(shù)據(jù)庫(kù)等實(shí)現(xiàn)。

      4.3.4 ?大數(shù)據(jù)技術(shù)與人工智能技術(shù)相互共生

      四川革命老區(qū)科技創(chuàng)新資源的利用和建設(shè)需要使用大數(shù)據(jù)技術(shù),大數(shù)據(jù)技術(shù)的發(fā)展催生了Pig、HIVE、Impala、Flume、Mahout、Hama等技術(shù)的誕生與成長(zhǎng)。使用了數(shù)學(xué)算法的人工智能、機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析挖掘技術(shù)相互依賴(lài)、相得益彰。

      4.3.5 ?數(shù)據(jù)挖掘

      沃爾瑪著名的“啤酒與尿布”營(yíng)銷(xiāo)案例,就是用了數(shù)據(jù)挖掘技術(shù)。在數(shù)據(jù)挖掘中建議使用分類(lèi)法、回歸分析法和Web數(shù)據(jù)挖掘法,學(xué)會(huì)使用R語(yǔ)言、SPSS、SAS軟件對(duì)數(shù)據(jù)進(jìn)行操作、計(jì)算、分析。

      4.3.6 ?發(fā)揮情報(bào)在科學(xué)研究中的引領(lǐng)作用

      云計(jì)算和大數(shù)據(jù)發(fā)展下的情報(bào)分析本質(zhì)還是數(shù)據(jù)結(jié)構(gòu)的邏輯關(guān)系分析,互聯(lián)網(wǎng)Web 2.0技術(shù)的出現(xiàn),使情報(bào)呈現(xiàn)的方式多元化,數(shù)據(jù)挖掘技術(shù)顯然使情報(bào)展現(xiàn)能力大幅提升,情報(bào)價(jià)值得到彰顯。用這種結(jié)構(gòu)化數(shù)據(jù)的情報(bào)仍然建筑在數(shù)據(jù)的隱性關(guān)系上,缺少人的智慧,分析出情報(bào)缺乏對(duì)未來(lái)的智能預(yù)測(cè)。隨著神經(jīng)系統(tǒng)、人工智能的進(jìn)一步研究,按世界最強(qiáng)大腦的思維與理性數(shù)據(jù)分析溝通聯(lián)系,就可以排除數(shù)據(jù)噪音,找到數(shù)據(jù)臨界點(diǎn),發(fā)現(xiàn)環(huán)境影響數(shù)據(jù)的關(guān)鍵因素,這樣對(duì)情報(bào)的分析得更具有科學(xué)性、嚴(yán)謹(jǐn)性。

      4.3.7 ?對(duì)各種類(lèi)型資源的加工在APP集成平臺(tái)上進(jìn)行

      當(dāng)今數(shù)據(jù),如Email、DOC文檔、路由交換機(jī)信息、醫(yī)院病人記錄、企業(yè)管理信息,再延伸到網(wǎng)頁(yè)、社交互動(dòng)媒體、分析數(shù)據(jù),涵蓋音視頻、文字、圖形、圖像等等[3],這些信息缺乏聯(lián)系,不能建立關(guān)聯(lián),隱性的規(guī)律不易被發(fā)現(xiàn),無(wú)法體現(xiàn)其價(jià)值,就成了無(wú)用的數(shù)據(jù);若沒(méi)有專(zhuān)門(mén)的APP和實(shí)用的研究系統(tǒng),就無(wú)法實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)、應(yīng)用、加工、分析等。

      5 ?關(guān)于四川革命老區(qū)科技創(chuàng)新資源的共享研究

      目前科學(xué)創(chuàng)新手段技術(shù)日新月異,大數(shù)據(jù)需要網(wǎng)絡(luò)和云計(jì)算技術(shù)的加工,科技信息量巨大且數(shù)據(jù)規(guī)律紊亂,個(gè)人和社會(huì)對(duì)服務(wù)要求更多、更高,5G技術(shù)為核心的新一代無(wú)線通信網(wǎng)絡(luò)以及當(dāng)今移動(dòng)終端的普及,使得各種軟硬件標(biāo)準(zhǔn)不一致,數(shù)據(jù)格式不區(qū)別,這些讓資源的傳播與共享形成天然的壁壘。

      5.1 ?目前四川革命老區(qū)大數(shù)據(jù)資源共享的壁壘

      四川達(dá)州市科技情報(bào)研究所余波長(zhǎng)期工作在四川革命老區(qū)科技第一線,對(duì)大數(shù)據(jù)資源共享出現(xiàn)問(wèn)題總結(jié)如下:

      (1)數(shù)據(jù)不連續(xù),各行各業(yè)數(shù)據(jù)類(lèi)型繁多。多元關(guān)聯(lián)的大數(shù)據(jù)起粘合作用,但由于各個(gè)部門(mén)分享共用數(shù)據(jù)的技術(shù)標(biāo)準(zhǔn)限制形成了“數(shù)據(jù)孤島”和“數(shù)據(jù)煙囪”,降低了大數(shù)據(jù)產(chǎn)業(yè)資源配置效率。

      (2)核心技術(shù)缺失。大數(shù)據(jù)領(lǐng)域整體性、平臺(tái)級(jí)核心技術(shù)的創(chuàng)新比較少見(jiàn)。大數(shù)據(jù)乃人工智能的基礎(chǔ),以大數(shù)據(jù)和機(jī)器學(xué)習(xí)為基礎(chǔ)的深度學(xué)習(xí)算法等人工智能的核心技術(shù)需要突破。

      (3)各地大數(shù)據(jù)和數(shù)字經(jīng)濟(jì)重復(fù)性發(fā)展和布局,一般存在重存儲(chǔ)輕應(yīng)用的狀態(tài)。由于缺乏統(tǒng)一的大數(shù)據(jù)發(fā)展規(guī)劃和運(yùn)行監(jiān)測(cè)系統(tǒng),各地大數(shù)據(jù)產(chǎn)業(yè)的功能相似,浪費(fèi)資源。由于部分地區(qū)信息化需求不旺,大數(shù)據(jù)應(yīng)用單調(diào),僅僅建設(shè)le1大數(shù)據(jù)中心或云中心等基礎(chǔ)配置,后期管理和開(kāi)發(fā)跟不上,勢(shì)必資源浪費(fèi)。

      (4)大數(shù)據(jù)缺乏系統(tǒng)和一致性的標(biāo)準(zhǔn)?;A(chǔ)性標(biāo)準(zhǔn)、數(shù)據(jù)加工標(biāo)準(zhǔn)、數(shù)據(jù)安全性標(biāo)準(zhǔn)、產(chǎn)品和平臺(tái)開(kāi)放標(biāo)準(zhǔn)、數(shù)據(jù)收集標(biāo)準(zhǔn)、二次應(yīng)用開(kāi)發(fā)和科研服務(wù)標(biāo)準(zhǔn)等大數(shù)據(jù)標(biāo)準(zhǔn)體系亟需規(guī)范。

      (5)數(shù)據(jù)安全性意識(shí)淡漠,對(duì)大數(shù)據(jù)科技資源的共享發(fā)展造成危險(xiǎn),并且沒(méi)有預(yù)防措施。共享使數(shù)據(jù)、關(guān)鍵信息和大數(shù)據(jù)創(chuàng)新資源共享平臺(tái)等面臨不可預(yù)料的威脅與風(fēng)險(xiǎn)。應(yīng)加強(qiáng)保護(hù)利用大數(shù)據(jù)技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行挖掘分析所得到的結(jié)果,這些結(jié)果可能包含涉及國(guó)家政治、經(jīng)濟(jì)、社會(huì)、科技、商業(yè)與軍事等各方面的敏感信息,需要對(duì)研究結(jié)果的共享和發(fā)布加強(qiáng)安全管理,打造監(jiān)、管、防三位一體的大數(shù)據(jù)科技資源安全綜合體系。

      5.2 ?對(duì)四川革命老區(qū)科技創(chuàng)新資源的共享提出一些建議與思考

      5.2.1 ?增強(qiáng)原始創(chuàng)新能力

      四川革命老區(qū)自主創(chuàng)新能力比較薄弱,特別是關(guān)鍵核心技術(shù)受制于人的局面尚未實(shí)質(zhì)性改變。只有加強(qiáng)前瞻性基礎(chǔ)研究,提升原始創(chuàng)新能力,才能把握競(jìng)爭(zhēng)和發(fā)展的主動(dòng)權(quán)。加大研發(fā)投入,以基礎(chǔ)性研究的突破帶動(dòng)引領(lǐng)性原創(chuàng)成果、戰(zhàn)略性技術(shù)產(chǎn)品的重大突破。形成事實(shí)上的行業(yè)標(biāo)準(zhǔn),獲得更多的話語(yǔ)權(quán),統(tǒng)一大數(shù)據(jù)的格式、標(biāo)準(zhǔn)和協(xié)議。

      5.2.2 ?使用虛擬化技術(shù)創(chuàng)造更高的科技效率

      云平臺(tái)提供基于IaaS、PaaS、SaaS的服務(wù),即不需要自己創(chuàng)建每一個(gè)應(yīng)用。其就像一個(gè)大型的網(wǎng)絡(luò)資源倉(cāng)庫(kù),APP可以在共享資源平臺(tái)上找到想要的東西,可以用Python等來(lái)進(jìn)行二次開(kāi)發(fā)并發(fā)布在APP引擎上,允許物理實(shí)體機(jī)或終端同時(shí)運(yùn)行多個(gè)操作系統(tǒng),并且應(yīng)用程序都在獨(dú)立的內(nèi)存空間上運(yùn)行,彼此獨(dú)立,從而顯著降低費(fèi)用、提升易用性,達(dá)到科技資源充分共享的目的。

      5.2.3 ?網(wǎng)絡(luò)端口鏡像分析提供科學(xué)決策共享大數(shù)據(jù)資源

      在Internet主干網(wǎng)上的Router、FireWall上做多個(gè)端口的Ghost鏡像,可以抓取經(jīng)過(guò)該區(qū)段的主要Packet Stream,然后由人工智能的分析軟件對(duì)需要的重要網(wǎng)站、路由器接口、防火墻或者IPS數(shù)據(jù)包進(jìn)行收集、分類(lèi)、提取、分析,找到網(wǎng)絡(luò)上的有價(jià)值的流處理信息,為科技創(chuàng)新資源建設(shè)的決策起輔助作用。

      5.2.4 ?對(duì)傳統(tǒng)科技情報(bào)信息業(yè)務(wù)進(jìn)行深加工

      運(yùn)用人工智能、云技術(shù)的大數(shù)據(jù)科技創(chuàng)新共享平臺(tái)有如下優(yōu)勢(shì):

      (1)借助物聯(lián)網(wǎng)、科技創(chuàng)新資源等技術(shù)和數(shù)據(jù)源可以掌握更多的實(shí)時(shí)數(shù)據(jù)和靜止數(shù)據(jù)。

      (2)獲得的信息比其他方式更快捷、更客觀、更全面、更具可信度。

      (3)Flume能夠快速反應(yīng)和處理實(shí)時(shí)數(shù)據(jù),對(duì)服務(wù)對(duì)象及時(shí)干預(yù)。

      (4)人工智能、機(jī)器學(xué)習(xí)、神經(jīng)算法判斷和決策的正確率較高。

      5.2.5 ?構(gòu)建NoSQL數(shù)據(jù)存儲(chǔ)和關(guān)系型數(shù)據(jù)庫(kù)的聯(lián)合共享系統(tǒng)平臺(tái)

      初級(jí)的海量的數(shù)據(jù)用面向列存儲(chǔ)的NoSQL數(shù)據(jù)庫(kù)存儲(chǔ),然后用形如PowerDrill技術(shù),把海量數(shù)據(jù)進(jìn)行查詢分析并轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),再用數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)工具把這些信息轉(zhuǎn)換為對(duì)科學(xué)有引領(lǐng)性的情報(bào),再把這些情報(bào)知識(shí)進(jìn)行共享。

      5.2.6 ?打造開(kāi)放、協(xié)同、包容、共享的科技創(chuàng)新平臺(tái)

      由于不同行業(yè)部門(mén)的數(shù)據(jù)格式千差萬(wàn)別,可以用XML技術(shù)作為存儲(chǔ)交換統(tǒng)一類(lèi)型的語(yǔ)言;XML不容易顯示多種格式,其可視性差,可以用ASP.NET、JSP等技術(shù)開(kāi)發(fā)個(gè)性化的桌面界面。

      用ASP.NET、JSP等技術(shù)可把各種關(guān)系型的數(shù)據(jù)庫(kù)SQL Server、ORACLE等的數(shù)據(jù)提取出來(lái),用XML語(yǔ)言轉(zhuǎn)換。其不同的驅(qū)動(dòng)引擎屏蔽在連接程序中,對(duì)用戶是透明的。這樣的MVC模型可以打造一個(gè)開(kāi)發(fā)、共享的科技創(chuàng)新平臺(tái)。

      5.2.7 ?用開(kāi)源云技術(shù)OpenStack和開(kāi)源大數(shù)據(jù)技術(shù)Hadoop構(gòu)建共享平臺(tái)

      開(kāi)源技術(shù)為四川革命老區(qū)提供了經(jīng)濟(jì)、方便的選擇,OpenStack既是一個(gè)社區(qū),也是一個(gè)項(xiàng)目、一個(gè)開(kāi)源軟件、一個(gè)提供了部署云的操作平臺(tái)或工具集。使用OpenStack易于構(gòu)建虛擬計(jì)算或存儲(chǔ)服務(wù)的云,既可以為公有云、私有云,也可以為大云、小云提供可擴(kuò)展的、靈活的云計(jì)算。

      這兩項(xiàng)技術(shù)都是開(kāi)源的、免費(fèi)的,全世界通用,并且生命力旺盛,用這樣的技術(shù)來(lái)構(gòu)建四川革命老區(qū)科技創(chuàng)新資源平臺(tái)通用性強(qiáng),與最先進(jìn)的Google云有相似之處,能夠少走彎路,適合人數(shù)少的科研團(tuán)體進(jìn)行開(kāi)發(fā)和二次開(kāi)發(fā)。

      5.2.8 ?加入云平臺(tái)增強(qiáng)數(shù)據(jù)的安全性

      在大數(shù)據(jù)創(chuàng)新資源被廣泛應(yīng)用共享的過(guò)程中,部分?jǐn)?shù)據(jù)不完整、臟數(shù)據(jù)、欺騙攻擊、數(shù)據(jù)傳輸超時(shí)長(zhǎng)等信息安全問(wèn)題也隨之而來(lái),因此為了使大數(shù)據(jù)科技創(chuàng)新資源能夠?yàn)樯鐣?huì)所用,真正意義上推動(dòng)共享型數(shù)據(jù)和情報(bào)技術(shù)的健康發(fā)展,就必須加強(qiáng)數(shù)據(jù)、軟硬件在信息安全方面的研究,從而最終推動(dòng)大數(shù)據(jù)分析科技創(chuàng)新平臺(tái)的實(shí)際應(yīng)用。

      6 ?構(gòu)建四川革命老區(qū)基于大數(shù)據(jù)科技創(chuàng)新資源的共享生態(tài)系統(tǒng)

      6.1 ?四川革命老區(qū)基于大數(shù)據(jù)科技創(chuàng)新資源的共享生態(tài)系統(tǒng)的構(gòu)成

      如圖2所示,四川革命老區(qū)基于大數(shù)據(jù)科技創(chuàng)新資源的共享生態(tài)系統(tǒng)大致有以下組成部分:主服務(wù)器(Master Server)、名稱(chēng)服務(wù)器(NameServer)、區(qū)域服務(wù)器(Chunk Server)、數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、前端應(yīng)用工具和訪問(wèn)接口、大數(shù)據(jù)采集系統(tǒng)、代理訪問(wèn)服務(wù)器(Proxy Server)、用戶等。

      6.2 ?四川革命老區(qū)基于大數(shù)據(jù)科技創(chuàng)新資源的共享生態(tài)系統(tǒng)運(yùn)行機(jī)制原理

      如果把需要采集外部數(shù)據(jù)來(lái)源定義為X,那么四川革命老區(qū)的各個(gè)市縣的數(shù)據(jù)為Xi,由于這些數(shù)據(jù)是隨機(jī)的,相當(dāng)于執(zhí)行了函數(shù)Shuffle(X)={X1,X2,X3,……};主服務(wù)器把一項(xiàng)任務(wù)用函數(shù)f(x)來(lái)分發(fā)給每一個(gè)區(qū)域服務(wù)器,map(f(x),[X1,X2,X3,……]);經(jīng)過(guò)每個(gè)區(qū)域服務(wù)器的運(yùn)算,把每個(gè)關(guān)鍵字keyi進(jìn)行歸并求總運(yùn)算,把這些結(jié)果歸并到主服務(wù)器,相當(dāng)于執(zhí)行了函數(shù)Reduce(keyi,[Value1,Value2,Value3,……];外部數(shù)據(jù)源Xi經(jīng)過(guò)大數(shù)據(jù)系統(tǒng)采集、加工、轉(zhuǎn)換,相當(dāng)于執(zhí)行了函數(shù)ETL(Xi),把結(jié)果在存儲(chǔ)為NoSQL數(shù)據(jù)表,可以通過(guò)Sqoop工具將其轉(zhuǎn)換為關(guān)系型的數(shù)據(jù)表;用戶提交查找的關(guān)鍵字信息key,通過(guò)路徑選擇服務(wù)器來(lái)實(shí)現(xiàn)路由,相當(dāng)于通過(guò)Proxy(key)函數(shù)得到訪問(wèn)的IP地址,可以均衡負(fù)載,加快訪問(wèn)速度。

      6.3 ?四川革命老區(qū)基于大數(shù)據(jù)科技創(chuàng)新資源的共享生態(tài)系統(tǒng)技術(shù)支持

      根據(jù)四川革命老區(qū)的區(qū)情,建議選擇Hadoop開(kāi)源大數(shù)據(jù)技術(shù),該技術(shù)成熟、使用面廣;同時(shí)選擇兩種數(shù)據(jù)庫(kù),非關(guān)系型的數(shù)據(jù)庫(kù)為科學(xué)研究帶來(lái)快捷高效,關(guān)系型數(shù)據(jù)庫(kù)滿足傳統(tǒng)經(jīng)典的數(shù)據(jù)服務(wù);對(duì)大數(shù)據(jù)加工一般采用MR技術(shù),這種技術(shù)是對(duì)磁盤(pán)的數(shù)據(jù)進(jìn)行操作,速度較慢,可對(duì)海量數(shù)據(jù)進(jìn)行加工;如果采用基于內(nèi)存的大數(shù)據(jù)處理技術(shù)Spark會(huì)對(duì)系統(tǒng)的速度有很大提升,最好同時(shí)采用兩種技術(shù)。

      7 ?結(jié) ?論

      進(jìn)入大數(shù)據(jù)時(shí)代的科學(xué)研究已經(jīng)數(shù)據(jù)模型化,向數(shù)據(jù)分析、挖掘轉(zhuǎn)移,對(duì)于僅擅長(zhǎng)文獻(xiàn)、信息、數(shù)據(jù)的收集、分類(lèi)、匯總、分析是不夠的,要提升服務(wù)于決策支持的情報(bào)科學(xué)水平,就必須建設(shè)科技創(chuàng)新共享資源平臺(tái),刻不容緩。

      四川革命老區(qū)各地在使用信息和加工數(shù)據(jù)的過(guò)程中,對(duì)軟硬件資源、技術(shù)分享、市場(chǎng)的需求可能存在共同點(diǎn)。市縣科學(xué)技術(shù)信息研究機(jī)構(gòu)的責(zé)任劃分不明確,缺乏有效的責(zé)任分擔(dān)機(jī)制,也缺乏有效的溝通、協(xié)同、分享和統(tǒng)籌機(jī)制。四川革命老區(qū)各市州科技信息資源協(xié)同創(chuàng)新發(fā)展路徑還不明確,沒(méi)有形成整體規(guī)劃,需促進(jìn)形成統(tǒng)一標(biāo)準(zhǔn)的四川革命老區(qū)大數(shù)據(jù)資源開(kāi)發(fā)共享協(xié)議。

      參考文獻(xiàn):

      [1] 劉彤,蔣繼婭,吳素研.科技情報(bào)與信息技術(shù) [M].北京:北京科學(xué)技術(shù)出版社,2010.

      [2] 賴(lài)茂生,趙丹群,韓圣龍,等.計(jì)算機(jī)情報(bào)檢索:第2版 [M].北京:北京大學(xué)出版社,2006.

      [3] 唐國(guó)純.云計(jì)算及應(yīng)用 [M].北京:清華大學(xué)出版社,2015.

      作者簡(jiǎn)介:江忠(1966—),男,漢族,四川渠縣人,副教授,本科,理學(xué)學(xué)士,研究方向:高等數(shù)學(xué)、初等數(shù)學(xué)教育、信息安全及云計(jì)算等;通訊作者:江佳玥(1998—),女,漢族,四川達(dá)州人,初級(jí)會(huì)計(jì)師,管理學(xué)在讀研究生,研究方向:財(cái)務(wù)管理;余波(1972—),女,漢族,四川渠縣人,副研究員,本科,研究方向:科技情報(bào)信息研究。

      猜你喜歡
      共享機(jī)制大數(shù)據(jù)
      數(shù)字化教學(xué)資源共享機(jī)制研究
      大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      企業(yè)知識(shí)管理機(jī)制探析
      基于互聯(lián)網(wǎng)技術(shù)下實(shí)現(xiàn)計(jì)算機(jī)軟硬件資源共享機(jī)制
      論高校思想政治教育資源的共享機(jī)制
      黨政研究(2015年6期)2015-11-27 18:49:51
      亞歐博覽會(huì)綠地后續(xù)利用與共享機(jī)制研究
      中小學(xué)信息化課程資源校際共享機(jī)制研究
      襄汾县| 蒲城县| 平原县| 蚌埠市| 莱阳市| 玛纳斯县| 通海县| 青河县| 岢岚县| 阳信县| 南华县| 柞水县| 贺兰县| 观塘区| 台中县| 张家川| 襄樊市| 丘北县| 钟山县| 安陆市| 丽水市| 望江县| 杭锦后旗| 夏河县| 石渠县| 繁峙县| 黔西县| 榆社县| 中方县| 常熟市| 绥德县| 南汇区| 台东市| 金堂县| 汽车| 遵义市| 翼城县| 登封市| 洪江市| 满洲里市| 镇江市|