/中國(guó)航天科技集團(tuán)有限公司
田雪穎、王志梅 /中國(guó)航天標(biāo)準(zhǔn)化研究所
航天裝備試驗(yàn)鑒定工作從2017年3月開(kāi)始全面展開(kāi),將全生命周期航天裝備試驗(yàn)統(tǒng)一規(guī)范為性能試驗(yàn)、作戰(zhàn)試驗(yàn)和在役考核3個(gè)階段。試驗(yàn)鑒定工作的開(kāi)展,將產(chǎn)生大量的試驗(yàn)數(shù)據(jù)、試驗(yàn)文件等信息,如何全面掌握這些試驗(yàn)信息,并充分利用這些信息挖掘隱藏在數(shù)據(jù)間的巨大價(jià)值以及分析預(yù)測(cè)裝備性能指標(biāo)是亟待解決的問(wèn)題。大數(shù)據(jù)技術(shù)作為新一代信息技術(shù)的代表,具有復(fù)雜的數(shù)據(jù)處理和數(shù)據(jù)分析能力,是實(shí)現(xiàn)數(shù)據(jù)融合管理、數(shù)據(jù)分析、知識(shí)決策支持和成果共享的有效途徑。因此,筆者將介紹基于大數(shù)據(jù)技術(shù)進(jìn)行航天裝備試驗(yàn)鑒定數(shù)據(jù)管理及數(shù)據(jù)分析應(yīng)用研究的部分內(nèi)容。
試驗(yàn)鑒定數(shù)據(jù)包括各級(jí)各類產(chǎn)品按照試驗(yàn)鑒定工作要求開(kāi)展的各種試驗(yàn)相關(guān)內(nèi)容,按照數(shù)據(jù)的結(jié)構(gòu)化形式可以將試驗(yàn)鑒定數(shù)據(jù)分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)3類。
非結(jié)構(gòu)化數(shù)據(jù)指試驗(yàn)鑒定過(guò)程中產(chǎn)生的文檔資料,主要包括:一案三綱、研制總要求、試驗(yàn)任務(wù)書、試驗(yàn)條件與試驗(yàn)要求、質(zhì)量保證大綱、計(jì)劃進(jìn)度、安全技術(shù)要求和安全技術(shù)措施、試驗(yàn)報(bào)告、故障分析報(bào)告、試驗(yàn)鑒定總結(jié)報(bào)告、成熟度評(píng)價(jià)報(bào)告、可靠性評(píng)估報(bào)告、試驗(yàn)鑒定申請(qǐng)報(bào)告、狀態(tài)鑒定結(jié)論、試驗(yàn)鑒定批復(fù)等。
結(jié)構(gòu)化數(shù)據(jù)指以二維表結(jié)構(gòu)形式按照規(guī)定數(shù)據(jù)格式和長(zhǎng)度規(guī)范要求保存的數(shù)據(jù),主要包括:被試產(chǎn)品的描述、試驗(yàn)項(xiàng)目、試驗(yàn)時(shí)間、試驗(yàn)單位、試驗(yàn)條件和要求、試驗(yàn)設(shè)備狀況、試驗(yàn)產(chǎn)品測(cè)量參數(shù)、試驗(yàn)結(jié)果、異常情況等。
半結(jié)構(gòu)化數(shù)據(jù)指原始聲像影像資料和人工記錄的數(shù)據(jù)及文字資料,如試驗(yàn)時(shí)間、試驗(yàn)工況、試驗(yàn)狀態(tài)、參試人員、異常現(xiàn)象等。
試驗(yàn)鑒定數(shù)據(jù)具有一般意義上大數(shù)據(jù)的相同特點(diǎn),即數(shù)據(jù)量足夠大(Volume)、數(shù)據(jù)的種類多樣(Variety)、數(shù)據(jù)的增長(zhǎng)及處理速度快(Velocity)、數(shù)據(jù)蘊(yùn)藏價(jià)值大(Value)等。
Volume:試驗(yàn)鑒定數(shù)據(jù)范圍廣,包括各級(jí)各類航天裝備在性能試驗(yàn)、作戰(zhàn)試驗(yàn)和在役考核3個(gè)階段各項(xiàng)試驗(yàn)數(shù)據(jù),數(shù)據(jù)采集、存儲(chǔ)和計(jì)算量巨大,已經(jīng)從TB(太字節(jié))級(jí)別躍升至PB(拍字節(jié))級(jí)別,傳統(tǒng)技術(shù)很難滿足其存儲(chǔ)和處理要求。
Variety:試驗(yàn)鑒定數(shù)據(jù)的種類紛繁,包括文本、文檔、表格、數(shù)據(jù)、圖像、音視頻等結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),并且試驗(yàn)鑒定數(shù)據(jù)來(lái)源較多,性能試驗(yàn)階段的數(shù)據(jù)主要來(lái)源于工業(yè)部門,作戰(zhàn)試驗(yàn)和在役考核數(shù)據(jù)主要來(lái)源于作戰(zhàn)部隊(duì)、試驗(yàn)基地、測(cè)控站等。
Velocity:試驗(yàn)鑒定數(shù)據(jù)每分每秒都在爆炸性的增長(zhǎng),如某型號(hào)一次綜合試驗(yàn)就要產(chǎn)生2GB的數(shù)據(jù),一次熱待機(jī)試驗(yàn)產(chǎn)生20GB數(shù)據(jù),傳統(tǒng)技術(shù)處理這些數(shù)據(jù)的時(shí)間較長(zhǎng),嚴(yán)重影響數(shù)據(jù)判讀的實(shí)時(shí)性。
Value:試驗(yàn)鑒定數(shù)據(jù)存在著巨大的待挖掘價(jià)值,利用試驗(yàn)鑒定數(shù)據(jù)可以摸清裝備性能底數(shù)、分析裝備的作戰(zhàn)效能、確定保障效能、計(jì)算任務(wù)滿足度、評(píng)估裝備質(zhì)量穩(wěn)定性,從而可改進(jìn)提升裝備性能、反推裝備研制需求,但由于龐大的數(shù)據(jù)量基數(shù)及數(shù)據(jù)量的不斷增加,數(shù)據(jù)的單位價(jià)值密度相對(duì)較低。
試驗(yàn)鑒定數(shù)據(jù)存在著巨大的待挖掘價(jià)值,利用試驗(yàn)鑒定數(shù)據(jù)可以摸清裝備性能底數(shù)、分析裝備的作戰(zhàn)效能、確定保障效能、計(jì)算任務(wù)滿足度、評(píng)估裝備質(zhì)量穩(wěn)定性,從而可改進(jìn)提升裝備性能、反推裝備研制需求,但由于龐大的數(shù)據(jù)量基數(shù)及數(shù)據(jù)量的不斷增加,數(shù)據(jù)的單位價(jià)值密度相對(duì)較低。
當(dāng)前,航天產(chǎn)業(yè)的發(fā)展正經(jīng)歷著數(shù)據(jù)大爆炸時(shí)代,數(shù)據(jù)不僅是海量的,更是復(fù)雜的。在此背景下,航天裝備試驗(yàn)鑒定數(shù)據(jù)管理存在以下幾個(gè)問(wèn)題:
一是試驗(yàn)鑒定數(shù)據(jù)管理要求尚不明確。按照試驗(yàn)鑒定管理工作新要求,目前一些航天裝備已有的原始觀測(cè)數(shù)據(jù)、業(yè)務(wù)處理數(shù)據(jù)、試驗(yàn)評(píng)估數(shù)據(jù)等大多應(yīng)該屬于性能試驗(yàn)階段的數(shù)據(jù),而在役考核和作戰(zhàn)試驗(yàn)屬于新界定的工作要求,具體試驗(yàn)項(xiàng)目尚待進(jìn)一步明確,在役考核環(huán)節(jié)雖已采集相關(guān)試驗(yàn)數(shù)據(jù),但該方面的數(shù)據(jù)尚未能系統(tǒng)管理。
二是試驗(yàn)鑒定數(shù)據(jù)分散在各單位,缺乏統(tǒng)一管理平臺(tái)。航天裝備試驗(yàn)鑒定數(shù)據(jù)分散在各單位、各部門,未進(jìn)行集中管理,型號(hào)抓總單位對(duì)型號(hào)試驗(yàn)鑒定數(shù)據(jù)的全局情況掌握不全面,在對(duì)已有的試驗(yàn)數(shù)據(jù)進(jìn)行查詢時(shí),需要通過(guò)多種渠道才可以收集完備,信息綜合查詢工作效率較低,難以實(shí)現(xiàn)試驗(yàn)鑒定數(shù)據(jù)的全面對(duì)比。
三是試驗(yàn)鑒定數(shù)據(jù)缺少規(guī)范化管理,不利于數(shù)據(jù)的共享傳遞。各部門間數(shù)據(jù)采集、數(shù)據(jù)分析等工作缺少統(tǒng)一的標(biāo)準(zhǔn)、規(guī)范,數(shù)據(jù)項(xiàng)內(nèi)容和格式不一致,試驗(yàn)數(shù)據(jù)在各部門間傳遞時(shí)不能直接使用,數(shù)據(jù)傳遞難以形成便捷暢通的渠道,數(shù)據(jù)共享困難造成各單位各部門信息不透明、不對(duì)等的情況嚴(yán)重,型號(hào)抓總單位難以進(jìn)行信息匯總,給數(shù)據(jù)的宏觀分析和深度挖掘工作帶來(lái)了不便。
四是試驗(yàn)鑒定數(shù)據(jù)缺乏綜合處理分析工具,自動(dòng)化程度和信息利用效率低。當(dāng)前,各單位設(shè)計(jì)開(kāi)發(fā)的數(shù)據(jù)庫(kù)、信息系統(tǒng)一般僅是基于數(shù)據(jù)管理的需求,而非數(shù)據(jù)分析的需求,所以在此基礎(chǔ)上缺乏綜合統(tǒng)計(jì)分析和數(shù)據(jù)挖掘的工具、手段,信息分析工作往往需要采用人工統(tǒng)計(jì)的方式進(jìn)行,自動(dòng)化程度低,對(duì)型號(hào)性能試驗(yàn)數(shù)據(jù)、作戰(zhàn)試驗(yàn)數(shù)據(jù)和在役考核數(shù)據(jù)等分析不足,不利于型號(hào)和主管部門的決策管理。
航天裝備試驗(yàn)鑒定應(yīng)建設(shè)大數(shù)據(jù)管理與分析平臺(tái),將各單位的試驗(yàn)鑒定數(shù)據(jù)進(jìn)行集中、規(guī)范與融合,在此基礎(chǔ)上設(shè)計(jì)開(kāi)發(fā)大數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工具,消除數(shù)據(jù)割裂的局面,充分發(fā)揮大數(shù)據(jù)分析挖掘數(shù)據(jù)的優(yōu)勢(shì),實(shí)現(xiàn)基于全方位、全階段、海量數(shù)據(jù)的挖掘分析,最大化提高信息處理和分析效率。
基于當(dāng)前主流的大數(shù)據(jù)平臺(tái)體系架構(gòu),結(jié)合試驗(yàn)鑒定數(shù)據(jù)的特點(diǎn),從數(shù)據(jù)的采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、數(shù)據(jù)可視化展示4個(gè)方面設(shè)計(jì)開(kāi)發(fā)大數(shù)據(jù)管理與分析平臺(tái),如圖 1所示。
一是數(shù)據(jù)采集與預(yù)處理。
數(shù)據(jù)采集與預(yù)處理是大數(shù)據(jù)價(jià)值挖掘中的重要一環(huán),其后的分析挖掘都建立在數(shù)據(jù)采集與預(yù)處理的基礎(chǔ)上。試驗(yàn)鑒定數(shù)據(jù)來(lái)源渠道廣、數(shù)據(jù)類型多,數(shù)據(jù)量大導(dǎo)致存在大量無(wú)用、不規(guī)范的雜質(zhì)數(shù)據(jù),需要對(duì)這部分?jǐn)?shù)據(jù)進(jìn)行預(yù)處理,其采集與預(yù)處理過(guò)程如圖2所示。根據(jù)數(shù)據(jù)存在形式不同,采用不同的方式進(jìn)行數(shù)據(jù)采集與預(yù)處理,一部分是已經(jīng)按照標(biāo)準(zhǔn)規(guī)范要求填報(bào)、無(wú)需清洗的數(shù)據(jù),這部分?jǐn)?shù)據(jù)如果沒(méi)有存在于任何信息系統(tǒng)或數(shù)據(jù)庫(kù)中,則需要建立新的數(shù)據(jù)庫(kù),通過(guò)傳統(tǒng)的方式進(jìn)行數(shù)據(jù)的增、刪、改、查及入庫(kù),或可以從已有的數(shù)據(jù)庫(kù)中批量導(dǎo)入入庫(kù);另一部分是存在于分布的、異構(gòu)數(shù)據(jù)源中的不同種類和結(jié)構(gòu)的數(shù)據(jù),這部分?jǐn)?shù)據(jù)根據(jù)離線和實(shí)時(shí)處理的需要,分別將數(shù)據(jù)送至批處理平臺(tái)Hadoop和流處理平臺(tái)Storm,通過(guò)ETL工具進(jìn)行數(shù)據(jù)抽取和集成,從中提取關(guān)聯(lián)規(guī)則和實(shí)體,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)的解析、去重、篩選、清洗、合并、分類、轉(zhuǎn)換、增強(qiáng)等,以保證數(shù)據(jù)的質(zhì)量及可信性,提高數(shù)據(jù)分析的準(zhǔn)確性。這2個(gè)部分?jǐn)?shù)據(jù)入庫(kù)后需要進(jìn)行關(guān)聯(lián)適配、分類聚類融合,并采用統(tǒng)一定義的結(jié)構(gòu)進(jìn)行數(shù)據(jù)存儲(chǔ)。
二是數(shù)據(jù)存儲(chǔ)。
大數(shù)據(jù)管理與分析平臺(tái)的另一個(gè)重要環(huán)節(jié)是數(shù)據(jù)存儲(chǔ),存儲(chǔ)系統(tǒng)的優(yōu)劣直接決定了大數(shù)據(jù)平臺(tái)的分析效率和可擴(kuò)展性。傳統(tǒng)的直接采用關(guān)系型的分布式數(shù)據(jù)庫(kù)已不能適應(yīng)大數(shù)據(jù)時(shí)代數(shù)據(jù)存儲(chǔ)的需要,從軟件和硬件2個(gè)方面考慮試驗(yàn)鑒定數(shù)據(jù)存儲(chǔ),其過(guò)程如圖3所示。硬件上,需要考慮大數(shù)據(jù)量的存儲(chǔ)空間,為了保證大數(shù)據(jù)平臺(tái)的可擴(kuò)展性,考慮NAS+SAN的集群方式。軟件上,根據(jù)實(shí)時(shí)數(shù)據(jù)和離線數(shù)據(jù)的不同對(duì)存儲(chǔ)方式區(qū)別對(duì)待。實(shí)時(shí)數(shù)據(jù)需要流處理平臺(tái)實(shí)時(shí)處理,數(shù)據(jù)環(huán)境不斷變化,很難掌握整個(gè)數(shù)據(jù)的全貌,且對(duì)數(shù)據(jù)處理速度和響應(yīng)時(shí)間要求極高,因此實(shí)時(shí)數(shù)據(jù)直接存入內(nèi)存數(shù)據(jù)庫(kù)中。標(biāo)準(zhǔn)數(shù)據(jù)和離線數(shù)據(jù)需要針對(duì)不同類型的數(shù)據(jù)格式選擇相應(yīng)的數(shù)據(jù)庫(kù)存儲(chǔ),針對(duì)結(jié)構(gòu)化的、有邏輯關(guān)系的試驗(yàn)數(shù)據(jù)采用關(guān)系型數(shù)據(jù)庫(kù)ORACLE儲(chǔ)存;針對(duì)試驗(yàn)文件采用分布式文件存儲(chǔ)數(shù)據(jù)庫(kù)MongoDB存儲(chǔ);針對(duì)圖形數(shù)據(jù)采用分布式圖數(shù)據(jù)庫(kù)Neo4j存儲(chǔ);對(duì)于其他半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),采用HBase數(shù)據(jù)庫(kù)存儲(chǔ)。在數(shù)據(jù)庫(kù)的基礎(chǔ)上,將各類數(shù)據(jù)通過(guò)ETL工具進(jìn)行加工與集成后,按照主題進(jìn)行數(shù)據(jù)存儲(chǔ),形成性能和狀態(tài)評(píng)估、壽命預(yù)測(cè)、效能分析等相關(guān)主題數(shù)據(jù)倉(cāng)庫(kù),為前端數(shù)據(jù)查詢、在線聯(lián)機(jī)分析(OLAP)和深度挖掘等數(shù)據(jù)分析提供條件。在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,還可以根據(jù)試驗(yàn)鑒定不同部門的特殊需求,按照多維方式從數(shù)據(jù)倉(cāng)庫(kù)某個(gè)特定主題中抽取試驗(yàn)數(shù)據(jù)形成數(shù)據(jù)集市進(jìn)行存儲(chǔ),采用數(shù)據(jù)集市方式可以在一定程度上緩解訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的瓶頸。
圖2 數(shù)據(jù)采集與預(yù)處理過(guò)程
圖3 數(shù)據(jù)存儲(chǔ)過(guò)程
三是數(shù)據(jù)分析。
數(shù)據(jù)分析是大數(shù)據(jù)管理與分析平臺(tái)建設(shè)的核心,因?yàn)榇髷?shù)據(jù)的價(jià)值產(chǎn)生于分析過(guò)程。從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù),建立的大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析技術(shù)包括數(shù)理統(tǒng)計(jì)分析、利用分析工具分析、OLAP在線聯(lián)機(jī)分析和數(shù)據(jù)挖掘4個(gè)部分,如圖4所示。
數(shù)理統(tǒng)計(jì)分析。數(shù)理統(tǒng)計(jì)分析即傳統(tǒng)的數(shù)據(jù)綜合統(tǒng)計(jì)分析功能,根據(jù)大數(shù)據(jù)平臺(tái)收集的試驗(yàn)鑒定性能試驗(yàn)、作戰(zhàn)試驗(yàn)和在役考核3個(gè)階段的數(shù)據(jù),通過(guò)柱狀圖、餅圖、折線圖等形式進(jìn)行航天裝備相關(guān)數(shù)據(jù)的綜合統(tǒng)計(jì)。例如,產(chǎn)品可靠性達(dá)標(biāo)率統(tǒng)計(jì)、衛(wèi)星生命期內(nèi)失效統(tǒng)計(jì)、衛(wèi)星/運(yùn)載火箭發(fā)生故障次數(shù)統(tǒng)計(jì)等,可以為用戶對(duì)3個(gè)階段的試驗(yàn)情況提供一個(gè)初步的綜合了解。
分析工具。大數(shù)據(jù)管理與分析平臺(tái)的建設(shè)將集成多種數(shù)據(jù)分析工具軟件,包括產(chǎn)品可靠性與壽命評(píng)估軟件、信號(hào)連續(xù)性與可用性評(píng)估軟件、成熟度評(píng)價(jià)軟件、成功數(shù)據(jù)包絡(luò)分析軟件、質(zhì)量問(wèn)題分析軟件等。產(chǎn)品可靠性與壽命評(píng)估軟件可以評(píng)估計(jì)算單機(jī)產(chǎn)品的可靠性與壽命,在此基礎(chǔ)上預(yù)測(cè)系統(tǒng)可靠性與壽命;信號(hào)連續(xù)性與可用性評(píng)估軟件可以利用單星在軌中斷數(shù)據(jù)及星座構(gòu)型計(jì)算空間信號(hào)連續(xù)性與可用性;成熟度評(píng)價(jià)軟件可以依據(jù)航天產(chǎn)品成熟度評(píng)價(jià)模型,定量計(jì)算航天產(chǎn)品的成熟度等級(jí)值;成功數(shù)據(jù)包絡(luò)分析軟件可以判定待分析產(chǎn)品數(shù)據(jù)是否落在包絡(luò)范圍內(nèi),評(píng)估產(chǎn)品是否達(dá)到設(shè)計(jì)要求;質(zhì)量問(wèn)題分析軟件可以對(duì)試驗(yàn)鑒定3個(gè)階段發(fā)生的質(zhì)量問(wèn)題進(jìn)行分析,不斷積累各級(jí)各類產(chǎn)品的故障模式庫(kù)。
圖4 數(shù)據(jù)分析過(guò)程
OLAP在線聯(lián)機(jī)分析。OLAP以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),從數(shù)據(jù)倉(cāng)庫(kù)中抽取數(shù)據(jù)的一個(gè)子集,并經(jīng)過(guò)必要的聚集存儲(chǔ)到OLAP存儲(chǔ)器中供前端分析工具讀取,基本多維分析操作有鉆取、切片、切塊和旋轉(zhuǎn)等。OLAP在線聯(lián)機(jī)分析可以從不同維度呈現(xiàn)航天裝備的質(zhì)量和性能指標(biāo)滿足度,分析鑒定試驗(yàn)指標(biāo)結(jié)果與大綱要求之間的差距,實(shí)時(shí)跟蹤掌握裝備使用、保障、維修的情況,以及驗(yàn)證裝備作戰(zhàn)與保障效能等。例如,可以利用切片分析對(duì)同一裝備同一指標(biāo)在性能試驗(yàn)、作戰(zhàn)試驗(yàn)、在役考核3個(gè)階段的試驗(yàn)值進(jìn)行對(duì)比分析,利用切塊分析多型號(hào)、多類別產(chǎn)品質(zhì)量問(wèn)題產(chǎn)生的原因等。
數(shù)據(jù)挖掘。數(shù)據(jù)挖掘通過(guò)關(guān)聯(lián)分析、聚類分析從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中高度自動(dòng)化地提取隱含在其中卻非常有價(jià)值的信息、模式(規(guī)則)和趨勢(shì),挖掘數(shù)據(jù)之間的潛在關(guān)聯(lián)關(guān)系。利用試驗(yàn)鑒定過(guò)程中海量基礎(chǔ)數(shù)據(jù),可以從不同維度挖掘大綱要求的設(shè)計(jì)值與實(shí)際試驗(yàn)值之間的差距和問(wèn)題、各項(xiàng)指標(biāo)參數(shù)變化與質(zhì)量態(tài)勢(shì)之間的潛在關(guān)聯(lián)關(guān)系、產(chǎn)品壽命與性能退化之間的關(guān)系等,實(shí)現(xiàn)裝備整體作戰(zhàn)效能、保障效能的影響指數(shù)預(yù)測(cè)、任務(wù)滿足度預(yù)測(cè)、質(zhì)量穩(wěn)定性趨勢(shì)預(yù)測(cè)等。
四是數(shù)據(jù)可視化展示。
雖然數(shù)據(jù)分析是大數(shù)據(jù)管理與平臺(tái)建設(shè)的核心部分,但是用戶往往更關(guān)注的是結(jié)果展示。如果分析結(jié)果正確,但是沒(méi)有采用適當(dāng)?shù)慕忉尫椒?,則所產(chǎn)生的結(jié)果很可能讓用戶難以理解。基于試驗(yàn)鑒定大數(shù)據(jù)的海量特點(diǎn),數(shù)據(jù)分析的結(jié)果也是海量的,傳統(tǒng)的以文本形式輸出結(jié)果或直接在電腦終端上顯示結(jié)果的方式基本不可行,需要采用可視化技術(shù)解釋試驗(yàn)鑒定數(shù)據(jù)分析結(jié)果。大數(shù)據(jù)可視化技術(shù)主要利用大數(shù)據(jù)驅(qū)動(dòng)可視化技術(shù)、多目標(biāo)決策優(yōu)化技術(shù),將星地一體化大系統(tǒng)、地面站、一至四級(jí)航天裝備產(chǎn)品的試驗(yàn)鑒定狀況進(jìn)行集中形象化展示,分為結(jié)構(gòu)可視化、功能可視化、關(guān)聯(lián)關(guān)系可視化和發(fā)展趨勢(shì)可視化。例如,可以對(duì)航天裝備產(chǎn)品的結(jié)構(gòu)圖實(shí)現(xiàn)3D多維效果可視化展示;對(duì)運(yùn)載火箭發(fā)動(dòng)機(jī)進(jìn)行3D建模,清晰展示發(fā)動(dòng)機(jī)運(yùn)轉(zhuǎn)狀態(tài),實(shí)現(xiàn)試驗(yàn)數(shù)據(jù)所對(duì)應(yīng)功能的可視化;將數(shù)據(jù)挖掘得到的數(shù)據(jù)間關(guān)聯(lián)關(guān)系通過(guò)網(wǎng)絡(luò)圖等形式可視化展示。通過(guò)將數(shù)據(jù)可視化展示,可以深入展現(xiàn)數(shù)據(jù)中潛在的或復(fù)雜的模式和關(guān)系,幫助上級(jí)機(jī)關(guān)和型號(hào)管理部門更好地理解數(shù)據(jù)的內(nèi)涵和關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)數(shù)據(jù)價(jià)值利用的最大化,同時(shí)可以為上級(jí)機(jī)關(guān)和型號(hào)管理部門等提供決策支持服務(wù)。
試驗(yàn)數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的融合,數(shù)據(jù)類型的多樣性促使了數(shù)據(jù)存儲(chǔ)方式的變化,采用新的存儲(chǔ)方式要求數(shù)據(jù)在集成過(guò)程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換,而這種轉(zhuǎn)換操作是非常復(fù)雜和難以管理的。
試驗(yàn)鑒定數(shù)據(jù)具有多源異構(gòu)、分布廣泛、動(dòng)態(tài)增長(zhǎng)等特點(diǎn),正是這些與傳統(tǒng)數(shù)據(jù)管理迥然不同的特點(diǎn),使得大數(shù)據(jù)管理與分析平臺(tái)的建設(shè)面臨著如下挑戰(zhàn):
試驗(yàn)數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的融合,數(shù)據(jù)類型的多樣性促使了數(shù)據(jù)存儲(chǔ)方式的變化,采用新的存儲(chǔ)方式要求數(shù)據(jù)在集成過(guò)程中進(jìn)行數(shù)據(jù)轉(zhuǎn)換,而這種轉(zhuǎn)換操作是非常復(fù)雜和難以管理的。此外,試驗(yàn)數(shù)據(jù)量大導(dǎo)致數(shù)據(jù)價(jià)值密度低,垃圾、錯(cuò)誤信息泛濫,數(shù)據(jù)集成過(guò)程中需要進(jìn)行數(shù)據(jù)清洗以避免無(wú)用數(shù)據(jù)干擾后續(xù)數(shù)據(jù)分析過(guò)程。數(shù)據(jù)清洗過(guò)程必須謹(jǐn)慎,因?yàn)榧?xì)微有用的信息混雜在龐大的數(shù)據(jù)量中,若信息清洗的粒度過(guò)細(xì),很容易將有用信息過(guò)濾掉,但清洗粒度過(guò)粗,又無(wú)法達(dá)到真正的清洗效果。
目前,實(shí)時(shí)數(shù)據(jù)處理的模式主要有流處理模式、批處理模式以及兩者的融合,大數(shù)據(jù)管理與分析平臺(tái)采用Storm流處理平臺(tái)進(jìn)行實(shí)時(shí)數(shù)據(jù)處理。雖然流處理模式天然適合實(shí)時(shí)處理系統(tǒng),但是仍未有一個(gè)通用的大數(shù)據(jù)實(shí)時(shí)處理框架,各種工具實(shí)現(xiàn)實(shí)時(shí)處理的方法不一致,支持的應(yīng)用類型也相對(duì)有限,在對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理分析時(shí)往往需要根據(jù)試驗(yàn)鑒定業(yè)務(wù)的需求,并結(jié)合實(shí)際應(yīng)用場(chǎng)景對(duì)現(xiàn)有的處理技術(shù)和工具進(jìn)行改造才能滿足需要。
試驗(yàn)數(shù)據(jù)涉及型號(hào)組成、尺寸、重量、功能、性能等具體指標(biāo)信息,關(guān)系到國(guó)家軍事安全戰(zhàn)略層面,數(shù)據(jù)安全隱私保護(hù)極為重要。然而,試驗(yàn)鑒定數(shù)據(jù)增長(zhǎng)速度快,數(shù)據(jù)處于不斷動(dòng)態(tài)更新的狀態(tài),而一般的數(shù)據(jù)隱私保護(hù)技術(shù)都是基于對(duì)靜態(tài)數(shù)據(jù)保護(hù),這就給隱私保護(hù)帶來(lái)了新的挑戰(zhàn)。在復(fù)雜變化的條件下如何實(shí)現(xiàn)試驗(yàn)鑒定數(shù)據(jù)隱私安全的保護(hù),是大數(shù)據(jù)管理與分析平臺(tái)建設(shè)的重點(diǎn)研究方向之一。
試驗(yàn)鑒定數(shù)據(jù)作為一個(gè)新興領(lǐng)域,具有典型的大數(shù)據(jù)特點(diǎn),在大數(shù)據(jù)技術(shù)飛速發(fā)展的今天,試驗(yàn)鑒定數(shù)據(jù)管理在面臨機(jī)遇的同時(shí),也同樣需要應(yīng)對(duì)數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)實(shí)時(shí)分析與處理技術(shù)實(shí)現(xiàn)等方面的挑戰(zhàn)。我們?nèi)孕枰钊胙芯亢教煅b備試驗(yàn)鑒定過(guò)程及數(shù)據(jù)特征,借鑒大數(shù)據(jù)技術(shù)手段實(shí)現(xiàn)航天裝備性能試驗(yàn)、作戰(zhàn)試驗(yàn)、在役考核全生命周期海量數(shù)據(jù)采集、存儲(chǔ)、分析、預(yù)測(cè)和評(píng)估,使航天裝備試驗(yàn)鑒定工作更加科學(xué)、規(guī)范、高效,不斷提升航天裝備的實(shí)戰(zhàn)適用性和高可靠性。