摘 要:當(dāng)前,航空制造型企業(yè)全域數(shù)據(jù)愈來愈呈現(xiàn)出“工業(yè)大數(shù)據(jù)”特征,基于海量數(shù)據(jù)分布式、并行化存儲和計算技術(shù),搭建跨層級、跨地域、跨部門、跨業(yè)務(wù)、跨系統(tǒng)的數(shù)據(jù)管理信息基礎(chǔ)設(shè)施環(huán)境,建立集團(tuán)級大數(shù)據(jù)中心一體化平臺,可有效支持產(chǎn)品、管理和資源類數(shù)據(jù)歸集管控和共享,高效支撐數(shù)據(jù)資產(chǎn)管理、業(yè)務(wù)智能BI、人工智能AI等領(lǐng)域的數(shù)據(jù)應(yīng)用,促進(jìn)企業(yè)數(shù)字化轉(zhuǎn)型。
關(guān)鍵詞:大數(shù)據(jù)中心一體化平臺;分布式存儲計算;關(guān)系型數(shù)據(jù)庫;數(shù)據(jù)湖
引言
隨著航空制造型企業(yè)數(shù)字化研發(fā)、制造的深入開展,全域數(shù)據(jù)如預(yù)先研究數(shù)據(jù)、技術(shù)創(chuàng)新數(shù)據(jù)、設(shè)計數(shù)據(jù)、工藝數(shù)據(jù)、試驗(yàn)數(shù)據(jù)、制造數(shù)據(jù)、服務(wù)保障數(shù)據(jù)、供應(yīng)鏈數(shù)據(jù)、資源數(shù)據(jù)、設(shè)備實(shí)時數(shù)據(jù)等越來越半/非結(jié)構(gòu)化、版本眾多、層次結(jié)構(gòu)復(fù)雜且數(shù)據(jù)量日益增多,逐步呈現(xiàn)出“工業(yè)大數(shù)據(jù)”的特征。
針對航空制造類大型企業(yè)對全域數(shù)據(jù)統(tǒng)一采集入庫和共享應(yīng)用需求,結(jié)合大數(shù)據(jù)分布式存儲計算技術(shù)迅猛發(fā)展且日漸成熟的現(xiàn)狀,有必要搭建集團(tuán)級統(tǒng)一的數(shù)據(jù)管理信息基礎(chǔ)設(shè)施環(huán)境,建立大數(shù)據(jù)中心(簡稱數(shù)據(jù)中心)一體化平臺,提供IT資源線性擴(kuò)展、彈性計算、實(shí)時響應(yīng)、動態(tài)調(diào)節(jié)的數(shù)據(jù)處理能力,支持全域數(shù)據(jù)從下屬單位傳輸、審核和匯聚進(jìn)入數(shù)據(jù)中心,并確保數(shù)據(jù)真實(shí)性、完整性和權(quán)威性,為集團(tuán)級數(shù)據(jù)交換共享和關(guān)聯(lián)、深入分析挖掘做準(zhǔn)備。
1 集團(tuán)級大數(shù)據(jù)中心一體化平臺業(yè)務(wù)架構(gòu)
數(shù)據(jù)中心提供數(shù)據(jù)采集、存儲、計算、治理和服務(wù)等功能,業(yè)務(wù)架構(gòu)如圖1:
數(shù)據(jù)采集涵蓋總部及所屬單位產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、半/非結(jié)構(gòu)化數(shù)據(jù)、設(shè)備實(shí)時流數(shù)據(jù),數(shù)據(jù)具備多型號、多階段、多工具、多來源、多專業(yè)、復(fù)雜結(jié)構(gòu)、復(fù)雜格式、復(fù)雜關(guān)聯(lián)、復(fù)雜內(nèi)涵等特點(diǎn),需要支持跨層級、跨地域、跨部門、跨業(yè)務(wù)、跨系統(tǒng)等的采集傳輸,支持按數(shù)據(jù)量(增量、全量)、時間(定時、實(shí)時)等任務(wù)觸發(fā)規(guī)則來調(diào)度采集任務(wù),同時提供對數(shù)據(jù)采集過程的全程監(jiān)控。
數(shù)據(jù)存儲面向大批量的結(jié)構(gòu)化數(shù)據(jù)(關(guān)系型數(shù)據(jù)庫表行列等)、非結(jié)構(gòu)化數(shù)據(jù)(圖像、音視頻、文檔、二維圖紙、三維模型等)、半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON的日志等)和實(shí)時流數(shù)據(jù)(設(shè)備實(shí)時數(shù)據(jù)等)的高效存儲。
數(shù)據(jù)計算提供離線批量計算、內(nèi)存計算、實(shí)時流式計算、圖計算、查詢計算等計算能力,支持將規(guī)模龐大的數(shù)據(jù)計算處理任務(wù)分解到多個分布式計算節(jié)點(diǎn)上執(zhí)行,提高數(shù)據(jù)處理效率,并滿足交互式快速查詢(PB級數(shù)據(jù)秒級查詢響應(yīng))。
數(shù)據(jù)服務(wù)提供各類數(shù)據(jù)服務(wù),包括數(shù)據(jù)分析、數(shù)據(jù)挖掘、知識圖譜、數(shù)據(jù)可視化、數(shù)據(jù)共享交換和數(shù)據(jù)服務(wù)網(wǎng)關(guān)等功能,實(shí)現(xiàn)數(shù)據(jù)的共享及價值最大化。
數(shù)據(jù)治理確保數(shù)據(jù)中心提供高質(zhì)量和真實(shí)可靠的數(shù)據(jù),包括數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開發(fā)管理、主數(shù)據(jù)管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)安全管理等。
2 集團(tuán)級大數(shù)據(jù)中心一體化平臺數(shù)據(jù)架構(gòu)
數(shù)據(jù)架構(gòu)可以從多個角度進(jìn)行描述,本文主要關(guān)注數(shù)據(jù)存儲分類。針對數(shù)據(jù)中心歸集的全域數(shù)據(jù),在數(shù)據(jù)轉(zhuǎn)變?yōu)閿?shù)據(jù)資產(chǎn)的過程中,會依次形成不同類型的數(shù)據(jù)資源庫。數(shù)據(jù)架構(gòu)如圖2:
預(yù)處理數(shù)據(jù)庫存放總部和所屬單位業(yè)務(wù)系統(tǒng)/數(shù)據(jù)中心匯聚的原始格式的源數(shù)據(jù)以及人工維護(hù)產(chǎn)生的源數(shù)據(jù)等。
業(yè)務(wù)主題庫是通過構(gòu)建業(yè)務(wù)主題模型,整合處理預(yù)處理數(shù)據(jù)庫的數(shù)據(jù),并按照主題數(shù)據(jù)分類形成的主題數(shù)據(jù)。
產(chǎn)品主題庫整合產(chǎn)品全生命周期數(shù)據(jù),構(gòu)建虛擬產(chǎn)品主題庫、實(shí)物產(chǎn)品主題庫、服務(wù)保障主題庫、試驗(yàn)數(shù)據(jù)主題庫等。
公共基礎(chǔ)庫整合產(chǎn)品研制過程的共性基礎(chǔ)數(shù)據(jù),構(gòu)建技術(shù)創(chuàng)新主題庫和共性資源主題庫等。
分析數(shù)據(jù)庫是針對某一個業(yè)務(wù)領(lǐng)域建立分析模型,為決策層查看數(shù)據(jù)分析報表提供數(shù)據(jù)支撐。
知識圖譜庫基于機(jī)器學(xué)習(xí)和本體識別技術(shù),從公共基礎(chǔ)庫、產(chǎn)品主題庫、業(yè)務(wù)主題庫等中提取各類實(shí)體,利用圖數(shù)據(jù)庫將不同來源的數(shù)據(jù)組織起來,建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,讓數(shù)據(jù)關(guān)系顯性化、業(yè)務(wù)數(shù)據(jù)互通化、殘缺關(guān)系完整化。
模型庫基于算法模型,結(jié)合仿真、制造等專業(yè)領(lǐng)域的機(jī)理知識,構(gòu)建各類分析模型,將業(yè)務(wù)經(jīng)驗(yàn)沉淀為包含特定思路的業(yè)務(wù)分析模型,以反哺業(yè)務(wù)。
主數(shù)據(jù)庫整合全集團(tuán)核心、共享的基礎(chǔ)數(shù)據(jù),以數(shù)據(jù)服務(wù)方式把統(tǒng)一、完整、準(zhǔn)確、權(quán)威的主數(shù)據(jù)分發(fā)給需要使用主數(shù)據(jù)的業(yè)務(wù)系統(tǒng)。
中央元數(shù)據(jù)庫提供相應(yīng)數(shù)據(jù)上下文環(huán)境描述信息的統(tǒng)一存儲,支持對業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)的集中管理,可將業(yè)務(wù)術(shù)語與技術(shù)元數(shù)據(jù)鏈接起來,打通業(yè)務(wù)和技術(shù)的鴻溝。
3 集團(tuán)級大數(shù)據(jù)中心一體化平臺應(yīng)用架構(gòu)
應(yīng)用架構(gòu)反映數(shù)據(jù)采集/匯聚、存儲、計算、管理/治理、分析、挖掘、開發(fā)、服務(wù)、安全以及資源虛擬化等IT軟件工具,如圖3:
4 集團(tuán)級大數(shù)據(jù)中心一體化平臺技術(shù)架構(gòu)
數(shù)據(jù)中心采用關(guān)系型數(shù)據(jù)庫與大數(shù)據(jù)混合架構(gòu)的技術(shù),技術(shù)架構(gòu)如圖4:
4.1 數(shù)據(jù)集成交換
針對全域數(shù)據(jù)采集,制定不同的數(shù)據(jù)接入方式:
(1)對結(jié)構(gòu)化數(shù)據(jù)如PDM、ERP、MES、TDM等業(yè)務(wù)系統(tǒng)數(shù)據(jù),通過ETL/ ELT工具、API接口、CDC數(shù)據(jù)復(fù)制同步等方式從系統(tǒng)的關(guān)系型數(shù)據(jù)庫中采集。
(2)對于音視頻、圖文檔等非結(jié)構(gòu)化數(shù)據(jù),通過FLUME/FTP/SFTP技術(shù)接入或者開發(fā)專門的API接入大文件。
(3)對于設(shè)備產(chǎn)生的實(shí)時流數(shù)據(jù),通過Kafka技術(shù)采集和處理,滿足數(shù)據(jù)實(shí)時集成需求,可處理每秒數(shù)萬甚至數(shù)十萬個、數(shù)萬計事件流。
(4)采集的各類數(shù)據(jù)要跨層級、跨地域、跨組織傳輸?shù)綌?shù)據(jù)中心,需要采用消息中間件,以消息隊(duì)列MQ方式執(zhí)行數(shù)據(jù)收取、打包、壓縮、路由轉(zhuǎn)發(fā)、接收、解壓、入庫等操作;大文件傳輸采用支持P2P協(xié)議的大文件傳輸工具。
數(shù)據(jù)采集傳輸過程需要統(tǒng)一的控制管理,包括數(shù)據(jù)源定義、任務(wù)配置、任務(wù)管理、規(guī)則定義、調(diào)度編排等;針對采集傳輸過程,提供任務(wù)調(diào)度及過程監(jiān)控功能,包括任務(wù)監(jiān)控、運(yùn)行報告、任務(wù)質(zhì)量、日志管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)稽核等。
4.2 數(shù)據(jù)存儲計算
考慮到數(shù)據(jù)存儲計算架構(gòu)的穩(wěn)定性和擴(kuò)展性,引入關(guān)系型數(shù)據(jù)庫和大數(shù)據(jù)技術(shù),滿足各類數(shù)據(jù)存儲計算需求。
(1)關(guān)系型數(shù)據(jù)庫:采用成熟的商業(yè)版結(jié)構(gòu)化關(guān)系型數(shù)據(jù)庫軟件,構(gòu)建關(guān)系型數(shù)據(jù)庫集群,即RAC(Real Application Clusters),其核心是基于共享磁盤,集群中所有節(jié)點(diǎn)必須能夠訪問所有數(shù)據(jù)、重做日志文件、控制文件和參數(shù)文件,數(shù)據(jù)磁盤必須是全局可用的,允許所有節(jié)點(diǎn)訪問數(shù)據(jù)庫,每個節(jié)點(diǎn)有它自己的重做日志和控制文件,但是其他節(jié)點(diǎn)必須能夠訪問它們以便在那個節(jié)點(diǎn)出現(xiàn)系統(tǒng)故障時能夠恢復(fù)。關(guān)系型數(shù)據(jù)庫RAC集群架構(gòu)如圖5:
(2)數(shù)據(jù)湖軟件:提供湖倉一體的智能數(shù)據(jù)湖,具備PB~EB級數(shù)據(jù)存儲、計算能力,可滿足海量結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的存儲需求,具備事務(wù)處理、批處理、流處理、實(shí)時與離線分析、交互查詢、實(shí)時檢索、多模分析等多種數(shù)據(jù)處理和多租戶、數(shù)據(jù)權(quán)限和資源隔離等集群管理能力,支撐SQL分析、業(yè)務(wù)智能、大數(shù)據(jù)分析挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識圖譜等數(shù)據(jù)科學(xué)領(lǐng)域應(yīng)用,可實(shí)現(xiàn)“湖里”和“倉里”數(shù)據(jù)、元數(shù)據(jù)的無縫打通和自由流動。
支撐全域數(shù)據(jù)存儲和計算,各類原始結(jié)構(gòu)化數(shù)據(jù)保存到Hive中,通過數(shù)據(jù)建模對數(shù)據(jù)進(jìn)行整理,形成預(yù)處理數(shù)據(jù)庫、業(yè)務(wù)主題庫、公共主題庫和產(chǎn)品主題庫;對時效性要求較高的面向聯(lián)機(jī)分析處理(OLAP)的分析數(shù)據(jù)庫保存到大規(guī)模并行處理(MPP)數(shù)據(jù)庫中;非結(jié)構(gòu)化數(shù)據(jù)保存到HDFS中;設(shè)備狀態(tài)、傳感器等實(shí)時時序數(shù)據(jù)保存在時序數(shù)據(jù)庫IoTDB中;實(shí)時處理中用到的臨時緩存等熱數(shù)據(jù)保存在Redis內(nèi)存數(shù)據(jù)庫中;為提高HDFS存儲數(shù)據(jù)增量處理能力,引入Hudi組件,提供一個自管理數(shù)據(jù)平面來攝取、轉(zhuǎn)換和管理數(shù)據(jù)并解鎖對這些數(shù)據(jù)進(jìn)行增量處理的方式。數(shù)據(jù)湖提供統(tǒng)一的數(shù)據(jù)查詢、計算組件,包括離線批處理計算MapReduce/Tez組件;實(shí)時流計算Flink、Spark Streaming組件,與Kafka結(jié)合使用,能夠適用于幾乎所有的流式準(zhǔn)實(shí)時計算場景;內(nèi)存計算Spark組件,數(shù)據(jù)存儲和計算全部存在于主內(nèi)存中,利用CPU和內(nèi)存的優(yōu)勢,結(jié)合并行計算技術(shù),實(shí)現(xiàn)高性能計算;智能搜索和全文檢索的ElasticSearch組件;知識圖譜應(yīng)用的圖計算引擎(Graphbase)等。數(shù)據(jù)湖軟件架構(gòu)如圖6:
4.3 數(shù)據(jù)分析挖掘
提供報表分析、多維分析、交互式分析和清單提供等分析組件;提供機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、人工智能技術(shù)(語音識別、圖像處理、自然語言處理、知識圖譜等)等挖掘組件。
4.4 數(shù)據(jù)服務(wù)
提供服務(wù)開發(fā)、注冊、發(fā)布、服務(wù)目錄、訂閱、推送、監(jiān)控等組件。
4.5 數(shù)據(jù)運(yùn)維
提供計算資源、網(wǎng)絡(luò)資源、存儲資源的虛擬化組件,以及分布式集群管理、作業(yè)調(diào)度、資源協(xié)調(diào)、資源監(jiān)控、容災(zāi)備份等組件。
4.6 數(shù)據(jù)安全
提供登錄認(rèn)證、訪問授權(quán)、數(shù)據(jù)加密、傳輸加密、數(shù)據(jù)脫敏、安全審計等組件。
5 結(jié)束語
基于分布式存儲計算和智能數(shù)據(jù)湖技術(shù),建設(shè)集團(tuán)級大數(shù)據(jù)中心一體化平臺,實(shí)現(xiàn)IT資源的彈性伸縮與可管可控,滿足海量結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的存儲計算、分析挖掘應(yīng)用需求,助力提升航空制造型企業(yè)產(chǎn)品研發(fā)能力和運(yùn)營管控水平。
(作者單位:中國航空發(fā)動機(jī)集團(tuán)公司)