才華、許源、董曉軍、劉祎然 /北京航天長征科技信息研究所
隨著世界范圍內(nèi)工業(yè)產(chǎn)業(yè)升級,我國航天相關(guān)技術(shù)產(chǎn)業(yè)也隨之不斷發(fā)展、轉(zhuǎn)型,諸如工業(yè)4.0、智能制造、大數(shù)據(jù)、云計算、量子通信等技術(shù)受到愈加廣泛的應(yīng)用。作為典型的知識密集型科研機(jī)構(gòu),中國航天企業(yè)在幾十年的科研生產(chǎn)中積累了大量的歷史知識數(shù)據(jù),呈現(xiàn)出數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多樣(Variety)、數(shù)據(jù)增長速度快(Velocity)、數(shù)據(jù)蘊(yùn)藏價值高(Value)的“4V”特性,如果不輔以采集、挖掘和分析等知識應(yīng)用技術(shù),其效用難以發(fā)揮。
縱觀數(shù)據(jù)文化已根深蒂固的美國,大數(shù)據(jù)的應(yīng)用已滲透到社會各行各業(yè),尤其是牽引美國高新技術(shù)發(fā)展的航空航天領(lǐng)域。美國國家航空航天局(NASA)通過構(gòu)建地球科學(xué)數(shù)據(jù)和信息系統(tǒng)項目,實現(xiàn)了對地球衛(wèi)星數(shù)據(jù)的實時處理、存檔和發(fā)布,確保科學(xué)家和公眾可以實時地訪問從地球到太空的數(shù)據(jù),提升應(yīng)對氣候和環(huán)境變化的能力;美國國防部高級研究計劃局(DARPA)啟動其大機(jī)理項目,旨在通過分析復(fù)雜的經(jīng)濟(jì)、社會、大氣和生物數(shù)據(jù)之間的深度關(guān)聯(lián)關(guān)系,為醫(yī)學(xué)、環(huán)境等各領(lǐng)域提供決策支持;洛克希德·馬丁公司也開始啟動大數(shù)據(jù)研究工作,通過在全球范圍內(nèi)不斷收購大數(shù)據(jù)信息技術(shù)企業(yè),探索大數(shù)據(jù)技術(shù)在國防信息系統(tǒng)建設(shè)方面的應(yīng)用。
目前,眾多企業(yè)機(jī)構(gòu)面向航天大數(shù)據(jù)的體系建設(shè)開展了大量的研究與實踐,然而覆蓋型號全壽命周期的航天大數(shù)據(jù)管理與控制仍有待深入。一方面,大量數(shù)據(jù)主要依靠各組織單位歸檔,相關(guān)制度標(biāo)準(zhǔn)不健全、數(shù)據(jù)資源分散獨(dú)立、深度挖掘程度低、數(shù)據(jù)共享使用困難以及綜合運(yùn)用水平偏低等矛盾依然突出,成為研制周期優(yōu)化上的短線和瓶頸。另一方面,一線員工面對各種異構(gòu)繁雜的知識數(shù)據(jù),普遍希望將工作中的知識資源通過某種方式進(jìn)行轉(zhuǎn)化,最終整合并統(tǒng)一推送,從而提升工作效率。
從表1 可看出,決策領(lǐng)導(dǎo)層關(guān)注如何讓多年積累的工作留痕,避免“人去樓空”的現(xiàn)象,并在留痕的基礎(chǔ)上對知識資源有序的掌控、流轉(zhuǎn);型號總師更關(guān)心知識如何在型號隊伍內(nèi)有效流轉(zhuǎn),并將已完成的型號知識資產(chǎn)進(jìn)行有效萃取,無縫對接到后續(xù)型號;專業(yè)部門的管理者關(guān)注如何讓自己的團(tuán)隊能夠通過知識應(yīng)用,有序地發(fā)展并加速人才培養(yǎng),規(guī)劃清晰的技術(shù)發(fā)展路線;技術(shù)人員則關(guān)注如何讓自己參與的項目開展更為順利,將工作中的知識資源、軟件工具、模板進(jìn)行有效串聯(lián)并伴隨著工作進(jìn)行推送,提高工作效率。
表1 各角色人員對大數(shù)據(jù)知識應(yīng)用的典型需求
知識管理不僅可以使知識場景化,而且能夠滲透到智能感知以及人工智能領(lǐng)域。1977 年,第五屆國際人工智能大會上,斯坦福大學(xué)教授愛德華·費(fèi)根鮑姆提出知識管理的概念。國內(nèi)外知識工程的發(fā)展大致經(jīng)歷了4 個階段(見圖1):第一階段以知識本身為核心,關(guān)注信息檢索、知識庫建設(shè)以及知識加工技術(shù);第二階段以集成為核心,關(guān)注智能檢索、異構(gòu)信息集成以及關(guān)聯(lián)分析技術(shù);第三階段以應(yīng)用為核心,關(guān)注知識推送、知識嵌入和行為驅(qū)動技術(shù);第四階段進(jìn)入了新知識工程,強(qiáng)調(diào)以人為核心,關(guān)注基于用戶模型的推送,人和知識、流程的融合以及大數(shù)據(jù)、云計算和物聯(lián)網(wǎng)等新技術(shù)在知識工程中的應(yīng)用。
圖1 知識管理發(fā)展階段
新知識管理的理念由原來的人、流程、技術(shù)圍繞知識轉(zhuǎn)變?yōu)橹R流程、技術(shù)圍繞人,不僅僅是專家,還包括人的智慧。在人工智能大數(shù)據(jù)時代,所有人的智慧都可以被計算,由此產(chǎn)生了群體智慧。
新知識管理實踐更為關(guān)注面向諸如業(yè)務(wù)流程、軟件工具協(xié)同、專業(yè)崗位、用戶模型等不同場景形成快速應(yīng)用的機(jī)制,使其更具智能化;伴隨化是在整個流程里營造一個分享的環(huán)境,當(dāng)感知到各個崗位需要的知識時便進(jìn)行精準(zhǔn)推送;內(nèi)部化是把外部的先進(jìn)技術(shù)引進(jìn)來,時刻站在巨人的肩膀上保障技術(shù)研發(fā)的前沿化,是打通外部知識和內(nèi)部知識的途徑;資產(chǎn)化是建立高關(guān)聯(lián)性單元知識庫,先進(jìn)行知識挖掘,再開展大數(shù)據(jù)收集,最終形成資產(chǎn)。新知識管理如果能夠加以良好實踐,便可解決各個角色在大數(shù)據(jù)需求中的各個業(yè)務(wù)痛點(diǎn)。
場景化的知識應(yīng)用需要將有限的資源構(gòu)建形成無限的組織知識庫,在面對不同用戶時,根據(jù)其需求提供最合理的服務(wù)。整個流程可以從終端反饋給知識資源貢獻(xiàn)者,進(jìn)而使知識工程平臺得到不斷優(yōu)化,這一過程可采用霍爾三維結(jié)構(gòu)的思路進(jìn)行構(gòu)建(見圖2)。其中時間維代表產(chǎn)品型號預(yù)研—設(shè)計—生產(chǎn)的過程,也是業(yè)務(wù)流程;邏輯維表示梳理工作過程中遇到的每個問題,并對問題進(jìn)行有效識別,確定問題的目標(biāo),進(jìn)行外在條件和內(nèi)在因素的綜合分析,從而達(dá)到?jīng)Q策的思維順序;知識維表示隨產(chǎn)品周期和邏輯對問題進(jìn)行解決的過程,運(yùn)用專業(yè)知識和技能,配合時間維、邏輯維對知識進(jìn)行有效支撐。
圖2 基于霍爾三維結(jié)構(gòu)的知識應(yīng)用模型
圖3 展示了基于場景化的知識應(yīng)用建設(shè)總體思路。首先從知識的采集和存儲開始,針對內(nèi)外部的異構(gòu)資源,采取手動或自動的采集存儲方式;其次進(jìn)行知識加工,從人工加工處理數(shù)據(jù)開始,對知識進(jìn)行分類,建立詞典和基于本體的語義網(wǎng),通過機(jī)器學(xué)習(xí)技術(shù)實現(xiàn)自動的知識分類;最后基于上述基礎(chǔ),開展面向?qū)I(yè)、流程、型號、知識萃取、組織、崗位、協(xié)同工具以及用戶模型個性化等場景化知識挖掘和知識推送。
圖3 基于場景化的知識應(yīng)用建設(shè)的總體思路
知識采集的方式可分為人工導(dǎo)入、多源異構(gòu)的自動采集、集成和智能挖掘等方式。采集中,從內(nèi)容的角度劃分出基礎(chǔ)技術(shù)資源、工程資源和數(shù)據(jù)資源;從來源的角度,分為內(nèi)部業(yè)務(wù)系統(tǒng)數(shù)據(jù)信息、外部采購數(shù)據(jù)信息和外部互聯(lián)網(wǎng)信息;從采集方式的角度,分為文檔資源、數(shù)據(jù)庫資源和網(wǎng)頁資源3類,具體設(shè)計內(nèi)容如圖4 所示。
圖4 知識采集方式
面向大數(shù)據(jù)存儲,考慮數(shù)據(jù)的安全、可靠、效率等關(guān)鍵指標(biāo),分析用戶規(guī)模、服務(wù)范圍、網(wǎng)絡(luò)環(huán)境等方面的挑戰(zhàn),可依托云架構(gòu)的網(wǎng)絡(luò)化、分布式存儲方案,開展數(shù)據(jù)譜系建設(shè)、數(shù)據(jù)狀態(tài)管理、數(shù)據(jù)安全防護(hù)、數(shù)據(jù)交換、數(shù)據(jù)高效檢索等數(shù)據(jù)管理技術(shù)研究,為海量航天數(shù)據(jù)的使用和維護(hù)提供支撐。
知識加工伴隨著結(jié)構(gòu)化處理的難點(diǎn),一方面是數(shù)據(jù)類型多樣化、數(shù)據(jù)格式不統(tǒng)一,需要分析和研究數(shù)據(jù)結(jié)構(gòu)的標(biāo)準(zhǔn)化方案或其他技術(shù)解決方案;另一方面是數(shù)據(jù)間的邏輯關(guān)系復(fù)雜、數(shù)據(jù)背后的流程差異大,需要研究和構(gòu)建完善的數(shù)據(jù)關(guān)系模型。因此,采集后的資源需要進(jìn)行數(shù)據(jù)化轉(zhuǎn)換,即進(jìn)行模板化處理。在進(jìn)行元數(shù)據(jù)自動標(biāo)引時,自動提取關(guān)鍵詞摘要,構(gòu)建基于本體的網(wǎng)絡(luò)、語義關(guān)聯(lián),隨即進(jìn)行查重、敏感詞過濾,完成后將資源作為后續(xù)知識挖掘或推送等應(yīng)用。因此,這一處理過程是基于場景化知識應(yīng)用落地的關(guān)鍵步驟(見圖5)。
圖5 知識加工技術(shù)及流程
關(guān)聯(lián)挖掘工作是航天大數(shù)據(jù)工程建設(shè)的核心內(nèi)容之一,目的是將多源異構(gòu)和低價值密度的數(shù)據(jù)轉(zhuǎn)化為有分析決策價值的顯性知識網(wǎng)絡(luò),最大化提高信息處理和分析效率,結(jié)合可視化方法展示挖掘分析結(jié)果,發(fā)揮航天大數(shù)據(jù)建設(shè)的整體效益,為型號全壽命周期研制提供決策參考?;谝研纬傻慕Y(jié)構(gòu)化航天數(shù)據(jù)庫,開展面向?qū)I(yè)、流程、型號、崗位等維度的場景化快速計算和關(guān)聯(lián)挖掘研究。
(1)多維關(guān)聯(lián)規(guī)則模型構(gòu)建及其算法
針對航天數(shù)據(jù)的特點(diǎn)和處理需求,構(gòu)建多維關(guān)聯(lián)規(guī)則模型及其擴(kuò)展形式,建立數(shù)據(jù)的屬性抽取、知識發(fā)現(xiàn),以及效能和適用性評估等模型,梳理從選型、建模到評估的流程及標(biāo)準(zhǔn)。可基于時序數(shù)據(jù)的參數(shù)相似性度量及參數(shù)因果關(guān)系辨識,確定適應(yīng)航天數(shù)據(jù)特點(diǎn)的關(guān)聯(lián)挖掘算法,提升關(guān)聯(lián)挖掘的效能。
(2)多維數(shù)據(jù)關(guān)聯(lián)知識圖譜
針對測試參數(shù)、結(jié)構(gòu)參數(shù)、目標(biāo)參數(shù)等數(shù)據(jù)進(jìn)行綜合分析,對火箭、衛(wèi)星等型號的工作狀態(tài)、技術(shù)指標(biāo)進(jìn)行關(guān)聯(lián)、聚類和分類等分析,建立關(guān)聯(lián)知識圖譜,從不同維度挖掘標(biāo)準(zhǔn)要求的設(shè)計值與實際試驗值之間的差距和問題、各項指標(biāo)參數(shù)變化與質(zhì)量態(tài)勢之間的潛在關(guān)聯(lián)關(guān)系、產(chǎn)品壽命與性能退化之間的關(guān)聯(lián)關(guān)系,實現(xiàn)整體型號產(chǎn)品效能影響指數(shù)預(yù)測、任務(wù)滿足度預(yù)測、質(zhì)量穩(wěn)定性趨勢預(yù)測等。
(3)基于大數(shù)據(jù)的故障模式識別研究
利用人工智能、大數(shù)據(jù)決策分析等先進(jìn)技術(shù),開展故障模式預(yù)示方法研究?;跉v史數(shù)據(jù)開展數(shù)據(jù)建模工作,通過監(jiān)督學(xué)習(xí)算法對已發(fā)生的故障進(jìn)行訓(xùn)練,并開展故障模式識別,獲取故障關(guān)聯(lián)規(guī)則,降低故障識別過程中的誤報率和漏報率,為任務(wù)方案、信息處理、指揮控制等方面的持續(xù)改進(jìn)提供依據(jù)。
數(shù)據(jù)經(jīng)過挖掘分析后,可將挖掘結(jié)果在型號研制的各個階段向決策領(lǐng)導(dǎo)、型號總師、專業(yè)部門管理者和技術(shù)人員進(jìn)行知識推送。在不同階段,基于不同工具、平臺或模型進(jìn)行場景化知識推送,例如在立項論證、可行性論證和總體方案制定階段,基于Word 等協(xié)同編輯工具進(jìn)行推送,在初步設(shè)計和詳細(xì)設(shè)計階段基于Catia、UG 等仿真工具進(jìn)行推送,如圖6 所示。
圖6 場景化知識推送
以基于Word 進(jìn)行知識推送為例(見圖7)。在Word 中制作插件,在報告編寫過程中,技術(shù)人員能夠搜索到以往編寫的相似報告或報告模板,可查看、復(fù)用報告中的內(nèi)容,同時在章節(jié)段落的定位中遇到問題時可點(diǎn)擊相關(guān)按鈕進(jìn)行知識“求助”。
圖7 Word編輯環(huán)境知識推送流程
基于用戶模型的知識進(jìn)行推送(見圖8),考慮到用戶的基本信息(所在崗位、組織)、個人知識(所發(fā)表的知識、收藏習(xí)慣以及個人知識體系分類)、用戶行為(訂閱、推薦、歷史搜索、瀏覽習(xí)慣和下載習(xí)慣)、學(xué)習(xí)應(yīng)用(提問、參加培訓(xùn)、在線答題)以及工作事項(待辦、申請和消息)等模型因素,系統(tǒng)根據(jù)其偏好和行為軌跡、關(guān)系網(wǎng)絡(luò)構(gòu)建個人的用戶模型,基于上述行為特征向用戶推送知識。
圖8 用戶模型特征
航天大數(shù)據(jù)建設(shè)是一項知識密集、技術(shù)復(fù)雜的系統(tǒng)工程,充分利用場景化知識應(yīng)用方法對研制生產(chǎn)流程各環(huán)節(jié)的規(guī)范進(jìn)行剛性約束,對仿真數(shù)據(jù)、可靠性數(shù)據(jù)等分析提供參考,避免出現(xiàn)“信息泛濫而知識匱乏”的局面,將為型號和主管部門的決策管理提供一定支撐。