趙 鵬,朱祎蘭
(中國運(yùn)載火箭技術(shù)研究院,北京 100076)
縱觀整個(gè)數(shù)字技術(shù)的發(fā)展歷史,自1980年前后,隨個(gè)人計(jì)算機(jī)開始普及,人類社會(huì)經(jīng)歷了3次信息化浪潮,數(shù)字技術(shù)從軍事領(lǐng)域走向經(jīng)濟(jì)社會(huì)各個(gè)方面。存儲(chǔ)設(shè)備容量、CPU處理能力、網(wǎng)絡(luò)帶寬等基礎(chǔ)設(shè)施水平快速迭代升級(jí),引發(fā)數(shù)據(jù)的產(chǎn)生、傳輸、存儲(chǔ)、處理方式不斷躍遷,在數(shù)據(jù)、算力和算法的共同繁榮之下,以大數(shù)據(jù)技術(shù)為典型代表的新興數(shù)字技術(shù)體系推動(dòng)第3次信息化浪潮席卷全球。大數(shù)據(jù)技術(shù)已然成為人類社會(huì)發(fā)展的底層驅(qū)動(dòng)力量,推動(dòng)著生產(chǎn)力、生產(chǎn)關(guān)系的深刻變革。
作為技術(shù)產(chǎn)品高度復(fù)雜、生產(chǎn)組織高度復(fù)雜、經(jīng)營管理高度復(fù)雜的研發(fā)、生產(chǎn)一體化科研單位,中國運(yùn)載火箭技術(shù)研究院擁抱大數(shù)據(jù),加快邁向以數(shù)據(jù)賦能生產(chǎn)、以數(shù)據(jù)驅(qū)動(dòng)經(jīng)營的新階段,已成為順應(yīng)歷史潮流,提升生產(chǎn)經(jīng)營能力的必然選擇。只有充分掌握大數(shù)據(jù)的基本特征,理清大數(shù)據(jù)生態(tài)體系各類技術(shù)及其適用場景,才能在保障數(shù)據(jù)安全前提下,打通型號(hào)產(chǎn)品研制及經(jīng)營管控各環(huán)節(jié)數(shù)據(jù)壁壘,充分激發(fā)數(shù)據(jù)資產(chǎn)價(jià)值。
數(shù)據(jù)量大、速度快、類型多、復(fù)雜性高是大數(shù)據(jù)的主要自然特征。隨著大數(shù)據(jù)逐步成為驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展的核心要素,使其與勞動(dòng)、資本、技術(shù)、土地一起構(gòu)成經(jīng)濟(jì)新范式,重視和利用數(shù)據(jù)要素價(jià)值已成為社會(huì)各界的廣泛共識(shí)。
對于當(dāng)前各領(lǐng)域的數(shù)據(jù)集合,TB、PB的數(shù)據(jù)量級(jí)單位已不能滿足需求,目前已開始使用EB和ZB進(jìn)行衡量。
一般指處理速度與產(chǎn)生速度。大數(shù)據(jù)往往和人工智能、物聯(lián)網(wǎng)等技術(shù)結(jié)合應(yīng)用,對數(shù)據(jù)的實(shí)時(shí)響應(yīng)要求高。大數(shù)據(jù)的處理效率又稱為“1秒定律”,即可以在秒級(jí)時(shí)間內(nèi)獲取分析結(jié)果。
大數(shù)據(jù)具有多個(gè)維度。以人為例,具有性別、年齡、身高、體重、身份證號(hào)碼、學(xué)歷、家庭住址等多個(gè)屬性。數(shù)據(jù)的多維度、多層次屬性應(yīng)用到社會(huì)生產(chǎn)的各個(gè)領(lǐng)域,可以加速流程再造,提高生產(chǎn)效率,加速供需信息匹配,提高協(xié)同效率,從而創(chuàng)造更大的價(jià)值。
大數(shù)據(jù)復(fù)雜性高。由于記錄工具不同和應(yīng)用場景不同,一方面,數(shù)據(jù)結(jié)構(gòu)不盡相同,呈現(xiàn)出文字、圖像、音頻、視頻等不同的形式;另一方面,在內(nèi)容邏輯層面也出現(xiàn)看似雜亂無章,實(shí)際有章可循的現(xiàn)象。
與傳統(tǒng)有形資源不同,大數(shù)據(jù)具有虛擬性、無形性,無法單獨(dú)存在,往往需要依賴硬件設(shè)備存儲(chǔ),依賴軟件平臺(tái)讀取、操作。只有將數(shù)據(jù)存儲(chǔ)在相應(yīng)介質(zhì)并通過設(shè)備顯示,數(shù)據(jù)才能以更直觀的方式被感知、度量、傳輸、分析與應(yīng)用,數(shù)據(jù)質(zhì)量的好壞、價(jià)值的高低才可能被評(píng)估。數(shù)據(jù)的虛擬性、無形性決定了其管理與數(shù)據(jù)平臺(tái)管理不可分割,數(shù)據(jù)的價(jià)值與平臺(tái)算力、算法模型密切相關(guān),倒逼現(xiàn)行資產(chǎn)管理辦法升級(jí)完善。
在農(nóng)業(yè)時(shí)代,土地是關(guān)鍵生產(chǎn)要素;工業(yè)時(shí)代以勞動(dòng)、資本、技術(shù)作為關(guān)鍵生產(chǎn)要素;數(shù)字時(shí)代,隨著國家將數(shù)據(jù)列為第5大生產(chǎn)要素,大數(shù)據(jù)將參與到市場的投入、管理、產(chǎn)出和分配的各個(gè)階段。
隨著大數(shù)據(jù)技術(shù)體系的不斷成熟,內(nèi)部技術(shù)構(gòu)成不斷分化,從面向海量數(shù)據(jù)的存儲(chǔ)、處理、分析等需求的核心技術(shù),延展到數(shù)據(jù)管理、流通、安全等配套技術(shù),逐漸形成了層次清晰、分工完備的大數(shù)據(jù)技術(shù)體系,如圖 1所示。
1)數(shù)據(jù)基礎(chǔ)技術(shù)應(yīng)對多種數(shù)據(jù)特征產(chǎn)生。針對大數(shù)據(jù)數(shù)據(jù)量大、數(shù)據(jù)源異構(gòu)多樣、數(shù)據(jù)時(shí)效性高等特征催生了高效完成海量異構(gòu)數(shù)據(jù)存儲(chǔ)與計(jì)算的技術(shù)需求。在這種需求下,傳統(tǒng)集中式計(jì)算架構(gòu)出現(xiàn)難以逾越的瓶頸,傳統(tǒng)關(guān)系型數(shù)據(jù)庫單機(jī)的存儲(chǔ)及計(jì)算性能有限,出現(xiàn)了分布式存儲(chǔ)及分布式計(jì)算框架。面向海量結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)批處理,出現(xiàn)了基于Hadoop、Hive和Spark生態(tài)體系的分布式批處理計(jì)算框架;面向時(shí)效性數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算反饋的需求,出現(xiàn)了Storm、Flink及Spark Streaming等分布式流處理計(jì)算框架。
2)數(shù)據(jù)管理技術(shù)提升數(shù)據(jù)質(zhì)量與可用性。隨相對基本與急迫的數(shù)據(jù)存儲(chǔ)、計(jì)算需求已經(jīng)在一定程度上得到滿足后,如何進(jìn)行數(shù)據(jù)管理與沉淀成為了一個(gè)主要的需求。由于企業(yè)內(nèi)部大量數(shù)據(jù)產(chǎn)生鏈條長、復(fù)雜度高,但普遍缺乏有效管理,常常存在數(shù)據(jù)獲取難、準(zhǔn)確性低、實(shí)時(shí)性差、標(biāo)準(zhǔn)混亂等問題,導(dǎo)致數(shù)據(jù)后續(xù)的使用存在眾多障礙。在這種情況下,用于數(shù)據(jù)整合的數(shù)據(jù)集成技術(shù)以及用于實(shí)現(xiàn)一系列數(shù)據(jù)資產(chǎn)管理功能的數(shù)據(jù)管理技術(shù)隨之出現(xiàn)。
圖1 大數(shù)據(jù)技術(shù)體系及典型開源軟件[6]Fig.1 Big data technology system and typical open source software[6]
3)數(shù)據(jù)分析應(yīng)用技術(shù)挖掘數(shù)據(jù)價(jià)值。為開展數(shù)據(jù)分析、挖掘數(shù)據(jù)價(jià)值,包括以BI工具為代表的統(tǒng)計(jì)分析與可視化展現(xiàn)技術(shù),以及以傳統(tǒng)機(jī)器學(xué)習(xí)、基于深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)為基礎(chǔ)的挖掘分析建模技術(shù)紛紛涌現(xiàn),支撐數(shù)據(jù)價(jià)值的挖掘并進(jìn)一步將分析結(jié)果與模型應(yīng)用于實(shí)際業(yè)務(wù)場景中。
4)數(shù)據(jù)安全流通技術(shù)助力安全合規(guī)的數(shù)據(jù)使用及共享。隨著數(shù)據(jù)價(jià)值得到挖掘,數(shù)據(jù)安全問題也愈發(fā)凸顯,數(shù)據(jù)泄露、數(shù)據(jù)丟失、數(shù)據(jù)濫用等安全事件層出不窮,如何應(yīng)對大數(shù)據(jù)時(shí)代下的數(shù)據(jù)安全威脅,在安全合規(guī)的前提下使用及共享數(shù)據(jù)成為了備受矚目的問題。訪問控制、身份識(shí)別、數(shù)據(jù)加密、數(shù)據(jù)脫敏、隱私計(jì)算等數(shù)據(jù)保護(hù)技術(shù)正積極向更加適應(yīng)大數(shù)據(jù)場景的方向不斷發(fā)展。
大數(shù)據(jù)處理技術(shù)可以分為批處理和流處理兩大類。
數(shù)據(jù)批處理通常處理+1數(shù)據(jù),用來支撐以“看”為主的數(shù)據(jù)應(yīng)用。批處理非常適合對分布式數(shù)據(jù)倉庫中的歷史數(shù)據(jù)進(jìn)行分析和計(jì)算,例如在計(jì)算總數(shù)和平均數(shù)時(shí),必須將數(shù)據(jù)集作為一個(gè)整體加以處理,而不能將其視作多條記錄的集合。這些操作要求在計(jì)算進(jìn)行過程中數(shù)據(jù)維持自己的狀態(tài)。數(shù)據(jù)處理耗時(shí)與數(shù)據(jù)量呈正相關(guān),因此批處理不適合對處理時(shí)間要求較高的場合。數(shù)據(jù)批處理平臺(tái)通常和Hadoop、Hive、數(shù)據(jù)倉庫、ETL、維度建模、數(shù)據(jù)公共層等聯(lián)系在一起,其典型技術(shù)架構(gòu)如圖 2所示。
數(shù)據(jù)流式處理平臺(tái)的數(shù)據(jù)即時(shí)處理能力可以達(dá)到秒級(jí)甚至毫秒級(jí)延遲,可以支撐實(shí)時(shí)化、在線化的數(shù)據(jù)分析與展現(xiàn)類應(yīng)用。流處理系統(tǒng)可以處理幾乎無限量的數(shù)據(jù),但同一時(shí)間只能處理一條(真正的流處理)或很少量(微批處理)數(shù)據(jù),不同記錄間只維持最少量的狀態(tài)。流式處理非常適合某些類型的工作負(fù)載,有近實(shí)時(shí)處理需求的任務(wù)。如分析服務(wù)器或應(yīng)用程序錯(cuò)誤日志,以及其他基于時(shí)間的衡量指標(biāo)等。數(shù)據(jù)流式處理平臺(tái)的支撐技術(shù)主要包含4個(gè)方面:實(shí)時(shí)數(shù)據(jù)采集(如Flume)、消息中間件(如Kafka)、流計(jì)算框架(如Storm、Spark、Flink和Beam等)以及實(shí)時(shí)數(shù)據(jù)存儲(chǔ)(如列族存儲(chǔ)的HBase)。目前主流的實(shí)時(shí)數(shù)據(jù)平臺(tái)也都基于這4個(gè)方面相關(guān)的技術(shù)搭建,其典型技術(shù)架構(gòu)如圖 3所示。
通過在中國航天應(yīng)用大數(shù)據(jù)技術(shù)與大數(shù)據(jù)治理理念,形成“全局?jǐn)?shù)據(jù)互聯(lián),全程業(yè)務(wù)感知,全域決策智能”的大數(shù)據(jù)匯聚與分析能力?;诮y(tǒng)一數(shù)據(jù)管理綱領(lǐng)及數(shù)據(jù)治理工作體系,制定航天型號(hào)研制及經(jīng)營管控各環(huán)節(jié)的數(shù)據(jù)標(biāo)準(zhǔn),保證全局?jǐn)?shù)據(jù)模型清晰可控;建成航天特色數(shù)據(jù)資產(chǎn)全景圖,形成數(shù)據(jù)資產(chǎn)交換、共享、流通模式,構(gòu)建大數(shù)據(jù)協(xié)同創(chuàng)新體系;打造航天特色全域數(shù)據(jù)湖,實(shí)現(xiàn)全域數(shù)據(jù)入湖且入湖數(shù)據(jù)清潔、透明、安全,有效突破航天型號(hào)研制及經(jīng)營管控各環(huán)節(jié)數(shù)據(jù)壁壘;依托航天特色全域數(shù)據(jù)湖,實(shí)時(shí)感知、全局分析航天型號(hào)研制過程及企業(yè)經(jīng)營狀況,實(shí)現(xiàn)數(shù)據(jù)支撐決策、數(shù)據(jù)優(yōu)化流程;實(shí)現(xiàn)全域數(shù)據(jù)均能按標(biāo)準(zhǔn)實(shí)現(xiàn)標(biāo)準(zhǔn)化、規(guī)范化采存管理,完成全域數(shù)據(jù)治理,數(shù)據(jù)能為科研生產(chǎn)、經(jīng)營管控工作提供支撐。
為深入剖析大數(shù)據(jù)技術(shù)在中國航天數(shù)據(jù)治理中的潛在應(yīng)用場景和價(jià)值,本文選取建模仿真這一高度依賴模型,同時(shí)又產(chǎn)生大量數(shù)據(jù)的領(lǐng)域作為典型代表進(jìn)行分析。某航天研究所積累了同類型相似型號(hào)的大量物理真實(shí)實(shí)測試驗(yàn)條件與實(shí)測性能數(shù)據(jù),通過應(yīng)用大數(shù)據(jù)分析技術(shù),一方面對運(yùn)載器飛行中的遙測參數(shù)值、變化趨勢以及關(guān)聯(lián)參數(shù)間表征的狀態(tài)是否一致等展開分析,另一方面建立基于真實(shí)實(shí)測數(shù)據(jù)的產(chǎn)品測試性能預(yù)測模型,在理論仿真與物理試驗(yàn)測試之間,擴(kuò)展一條新的性能預(yù)測方法,既提高性能測試試驗(yàn)效率,又能提高仿真模擬計(jì)算的預(yù)測精度?;谛吞?hào)產(chǎn)品試驗(yàn)時(shí)序大數(shù)據(jù),計(jì)算各項(xiàng)試驗(yàn)參數(shù)和飛行器狀態(tài)參數(shù)之間的關(guān)系,完成對不同機(jī)器學(xué)習(xí)算法模型預(yù)測效果的分析,針對每類試驗(yàn)參數(shù)優(yōu)選出預(yù)測精確最高的擬合訓(xùn)練模型,以支撐在不同試驗(yàn)場景中對飛行器多狀態(tài)參數(shù)綜合預(yù)測評(píng)估。
圖2 面向數(shù)據(jù)批處理的技術(shù)架構(gòu)設(shè)計(jì)[10]Fig.2 Technical architecture design for data batch processing[10]
圖3 面向數(shù)據(jù)流式處理的技術(shù)架構(gòu)設(shè)計(jì)Fig.3 Technical architecture design for data stream processing
在這一案例中,通過應(yīng)用大數(shù)據(jù)分析技術(shù),基于試驗(yàn)時(shí)序大數(shù)據(jù),實(shí)現(xiàn)部件技術(shù)狀態(tài)與遙測參數(shù)之間的聯(lián)系以及遙測參數(shù)之間相關(guān)性構(gòu)建,實(shí)現(xiàn)基于虛擬試驗(yàn)的產(chǎn)品狀態(tài)預(yù)測評(píng)估,完善了試驗(yàn)評(píng)估的技術(shù)手段,提升仿真準(zhǔn)確率,協(xié)助縮減重復(fù)性的高耗資物理試驗(yàn),節(jié)約成本。
在中國航天多年的復(fù)雜型號(hào)產(chǎn)品研制過程中,沉淀了大量數(shù)據(jù)資產(chǎn),同時(shí),隨著產(chǎn)品數(shù)字化水平、數(shù)字化生產(chǎn)水平的大幅攀升,大量鮮活研制數(shù)據(jù)源源不斷產(chǎn)生,應(yīng)用大數(shù)據(jù)技術(shù)激活數(shù)據(jù)資產(chǎn)、發(fā)掘數(shù)據(jù)價(jià)值的條件已然成熟。本文全面梳理了大數(shù)據(jù)的基本特征、大數(shù)據(jù)技術(shù)體系,并面向批、流兩類數(shù)據(jù)處理場景歸納了典型技術(shù)架構(gòu),結(jié)合建模仿真場景,展望了大數(shù)據(jù)技術(shù)在計(jì)算及建模仿真領(lǐng)域的應(yīng)用前景,為數(shù)據(jù)治理工作打下堅(jiān)實(shí)基礎(chǔ)。