譚景信,劉玉龍,李慧娟
華北計算技術(shù)研究所,北京 100083
我國非公有制經(jīng)濟主體已超過9 000 萬,貢獻了全國稅收的50%,GDP的60%,社會固定資產(chǎn)投資的60%,技術(shù)創(chuàng)新的70%,就業(yè)崗位的80%和90%以上的新增就業(yè),非公有制經(jīng)濟已經(jīng)成為經(jīng)濟社會發(fā)展的重要基礎(chǔ)。工商聯(lián)是黨和政府聯(lián)系非公有制經(jīng)濟的“橋梁紐帶”,服務(wù)于政府與非公有制經(jīng)濟群體的雙向服務(wù)需求,這些需求的特點就是體量龐大、不斷變化并具有極強的不確定性。做好工商聯(lián)工作要求兼具廣度和深度的數(shù)據(jù)支撐。廣度是指信息收集工作要盡量全面地覆蓋9 000 多萬的非公有制經(jīng)濟實體,真正做到“廣泛聯(lián)系、直接服務(wù)、宣傳到位”;深度是指能夠及時、高效、深入地了解非公有制經(jīng)濟實體的發(fā)展?fàn)顩r和迫切需求,評估出非公有制經(jīng)濟運行發(fā)展情況。
非公有制經(jīng)濟群體數(shù)據(jù)是持續(xù)產(chǎn)生的,這些數(shù)據(jù)具有對象分布廣、類型多、碎片化、不確定性強、異構(gòu)等特點,匯聚起來呈現(xiàn)海量增長特性。如何有效存儲、治理和利用這些數(shù)據(jù),實現(xiàn)對非公有制經(jīng)濟發(fā)展態(tài)勢的分析、挖掘和預(yù)測,從而支撐工商聯(lián)為黨和政府的輔助決策支持是必須要解決的問題。
面向海量數(shù)據(jù)的匯聚、治理、應(yīng)用,業(yè)界有眾多研究成果和實踐案例。主要包括傳統(tǒng)數(shù)據(jù)倉庫技術(shù)、新涌現(xiàn)的數(shù)據(jù)池與數(shù)據(jù)湖技術(shù)等。但這些技術(shù)都不能全面滿足所提需求。如:文獻[1]采用了大數(shù)據(jù)平臺+MPP 型數(shù)據(jù)庫(GBase 8a MPPCluster)混合架構(gòu)雖然解決了海量數(shù)據(jù)存儲問題,但因其為關(guān)系型數(shù)據(jù)庫,需要規(guī)范結(jié)構(gòu)化數(shù)據(jù)存儲模式與強數(shù)據(jù)依賴關(guān)系。文獻[2]采用了業(yè)務(wù)數(shù)據(jù)Mysql(Oracle)+ETL+緩存數(shù)據(jù)庫(Mysql)+數(shù)據(jù)倉庫(Hive)架構(gòu),雖然解決了復(fù)雜結(jié)構(gòu)數(shù)據(jù)聚集問題,但所提非公有制經(jīng)濟實體數(shù)據(jù)的分布廣、碎片化、質(zhì)量參差不齊等問題仍不能很好得到解決。同時,該方案將全國數(shù)據(jù)通過ETL(extract-transform-load)進入集中式數(shù)據(jù)庫本地化存儲,數(shù)據(jù)搬運成本極高。另外該解決方案也不能很好處理多模態(tài)非結(jié)構(gòu)化文件的存儲問題。文獻[3]采用了近期較熱點的數(shù)據(jù)湖技術(shù),使用了總部/省兩級部署形式和1+N模式,總部存儲全量的原生態(tài)數(shù)據(jù),并實現(xiàn)跨域協(xié)作能力,但隨著時間的推移,總部數(shù)據(jù)湖數(shù)據(jù)會因為缺乏“鮮活化治理”而可能成為“數(shù)據(jù)沼澤”,該方法也無法解決部分數(shù)據(jù)源頭不愿提供原始數(shù)據(jù)的問題。
本文在充分分析工商聯(lián)業(yè)務(wù)特性的基礎(chǔ)上,提出基于虛擬化模型驅(qū)動的分布式數(shù)據(jù)湖構(gòu)建方法,面向9 000萬非公有制經(jīng)濟實體的信息資源,定義了包括統(tǒng)一的數(shù)據(jù)模型、微分析模型和整套數(shù)據(jù)規(guī)范的虛擬化模型,結(jié)合數(shù)據(jù)邊緣計算技術(shù)來實現(xiàn)非公有制經(jīng)濟實體內(nèi)部數(shù)據(jù)的自治理(生成融合態(tài)數(shù)據(jù))以及高時效性跨區(qū)域非公有制經(jīng)濟數(shù)據(jù)的協(xié)作與深層挖掘。通過對比發(fā)現(xiàn),使用所提方法構(gòu)建的分布式數(shù)據(jù)湖具有邏輯集中而物理分散的特點,通過虛擬化模型構(gòu)建邏輯上的數(shù)據(jù)湖,實行“有目的”的數(shù)據(jù)搬運,既解決了部分非公有制經(jīng)濟實體不愿上傳原始數(shù)據(jù)情況下工商聯(lián)分析業(yè)務(wù)對大數(shù)據(jù)的需求,也很好滿足了實時處理業(yè)務(wù)對鮮活數(shù)據(jù)的需要,同時減少了數(shù)據(jù)搬運成本,提升了經(jīng)濟性。
傳統(tǒng)數(shù)據(jù)倉庫系統(tǒng)實現(xiàn)架構(gòu)多采用OLTP(on-line transaction processing)+ODS(operational data store)+ETL+OLAP(online analytical processing)+BI(business intelligence)。參見圖1 DW/BI(data warehouse/business intelligence)系統(tǒng)模型圖。
Fig.1 DW/BI system model diagram圖1 DW/BI系統(tǒng)模型圖
數(shù)據(jù)倉庫可以很好地完成面向主題的、集成的和相對穩(wěn)定的數(shù)據(jù)集合處理,能支持經(jīng)營管理中的決策制定過程[4]。但是數(shù)據(jù)倉庫架構(gòu)在處理海量異構(gòu)數(shù)據(jù)和時效性數(shù)據(jù)需求時缺陷明顯。主要表現(xiàn)在:
(1)傳統(tǒng)數(shù)據(jù)倉庫是一個優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)存儲為面向既定主題的,無法滿足所提工商聯(lián)多源、多態(tài)、無預(yù)置主題的非公有制經(jīng)濟數(shù)據(jù)存儲需求[5]。
(2)數(shù)據(jù)倉庫的存儲介質(zhì)多為中高性能集中式集群數(shù)據(jù)庫服務(wù)器,面對海量數(shù)據(jù)的快速檢索,需要高額的服務(wù)器、存儲的擴展和維護成本。
(3)數(shù)據(jù)倉庫數(shù)據(jù)的讀取需依據(jù)嚴格的數(shù)據(jù)維度關(guān)聯(lián)規(guī)則,無法適用于工商聯(lián)多模態(tài)特性非公有制經(jīng)濟數(shù)據(jù)資源的數(shù)據(jù)分析[5]。
(4)基于數(shù)據(jù)倉庫的數(shù)據(jù)分析運算多為批處理報告、BI形式,無法適應(yīng)工商聯(lián)在海量非公有制經(jīng)濟數(shù)據(jù)的機器學(xué)習(xí)、預(yù)測分析、數(shù)據(jù)發(fā)現(xiàn)方面發(fā)展分析需求[6-9]。
為解決數(shù)據(jù)倉庫技術(shù)在海量數(shù)據(jù)存儲和運算方面的不足,國外近兩年提出了數(shù)據(jù)湖(data lake)技術(shù)。數(shù)據(jù)湖技術(shù)目前正處于高速發(fā)展中,其優(yōu)勢是可較好支持多模態(tài)數(shù)據(jù)和異構(gòu)數(shù)據(jù)的存儲和計算,關(guān)系型、非關(guān)系型數(shù)據(jù)以及文本、圖片、音頻、視頻等原生態(tài)數(shù)據(jù)均被集中存儲于基于HDFS(Hadoop distributed file system)的服務(wù)器集群平臺之上,這些數(shù)據(jù)在使用前并不進行處理,而是在使用時才去計算。這種架構(gòu)具有一定的先進性,但隨著數(shù)據(jù)的不斷匯聚,集中式數(shù)據(jù)湖會產(chǎn)生如下問題[10-12]:
(1)由于集中數(shù)據(jù)湖匯聚的是數(shù)據(jù)源產(chǎn)生的原始數(shù)據(jù),這些數(shù)據(jù)的狀態(tài)和質(zhì)量不可預(yù)見,隨著數(shù)據(jù)量的不斷增長,數(shù)據(jù)治理難度會不斷加大,數(shù)據(jù)湖會因為缺乏有效治理而變成“數(shù)據(jù)沼澤”。
(2)全量的原始數(shù)據(jù)通過ETL 工具持續(xù)搬運至數(shù)據(jù)湖中存儲,一是會持續(xù)占用大量帶寬資源,二是規(guī)模數(shù)據(jù)的搬運和治理會產(chǎn)生延遲,最多能保證T+1 的數(shù)據(jù)時效性,會大幅降低對外發(fā)布數(shù)據(jù)的有效性。
(3)集中式數(shù)據(jù)湖存儲沿時間軸持續(xù)采集的原始數(shù)據(jù)而不太關(guān)心這些數(shù)據(jù)的可用性,存儲成本和管理成本會不斷攀升,直至難以承受。
針對工商聯(lián)業(yè)務(wù)服務(wù)對象分布廣、類型多、不確定性強等特點帶來的分散、碎片化數(shù)據(jù)收集需求,通過結(jié)合數(shù)據(jù)倉庫和集中式數(shù)據(jù)湖技術(shù)的優(yōu)勢,并改進所存在的不足,采用虛擬化模型驅(qū)動技術(shù)、邊緣計算技術(shù)和數(shù)據(jù)路由技術(shù),構(gòu)建輻射型的、去中心化和去ETL化的分布式數(shù)據(jù)湖。(1)可彌補傳統(tǒng)數(shù)據(jù)倉庫需要有既定主題、強結(jié)構(gòu)化存儲的不足,可以存儲工商聯(lián)無主題、多模態(tài)原始非公有制經(jīng)濟數(shù)據(jù);(2)在中央數(shù)據(jù)庫強化全局數(shù)據(jù)索引網(wǎng)絡(luò),弱化數(shù)據(jù)物理存儲,構(gòu)建以邏輯模型驅(qū)動的一體化分布式數(shù)據(jù)湖,解決集中式數(shù)據(jù)湖存在的“數(shù)據(jù)沼澤”危機問題;(3)采用云端服務(wù)技術(shù)接入分布在廣大非公有制經(jīng)濟實體的邊緣數(shù)據(jù)庫,消除了傳統(tǒng)ETL 數(shù)據(jù)延時問題與持續(xù)高帶寬消耗問題。
所提分布式數(shù)據(jù)湖的架構(gòu)設(shè)計為三層:非公有制經(jīng)濟實體邊緣數(shù)據(jù)庫層、二級區(qū)域數(shù)據(jù)庫層和中央數(shù)據(jù)庫層,體系架構(gòu)如圖2所示。
(1)數(shù)據(jù)湖末端的非公有制經(jīng)濟實體數(shù)據(jù)庫受數(shù)據(jù)虛擬化模型驅(qū)動來實現(xiàn)以數(shù)據(jù)自清洗和融合為目的的邊緣計算與微統(tǒng)計,一是由自身保證數(shù)據(jù)的正確性、可用性;二是按需提交融合態(tài)微統(tǒng)計數(shù)據(jù),不必提交節(jié)點內(nèi)部的敏感數(shù)據(jù)。
Fig.2 Distributed data lake architecture diagram圖2 分布式數(shù)據(jù)湖體系架構(gòu)圖
(2)由于非公有制經(jīng)濟實體存在不確定強的特點,其節(jié)點數(shù)據(jù)庫存在數(shù)據(jù)不可持續(xù)提供等不確定因素,如果分布式體系依靠非公有制經(jīng)濟實體邊緣數(shù)據(jù)庫,一旦此邊緣節(jié)點關(guān)閉前置數(shù)據(jù)庫,分布式數(shù)據(jù)湖將出現(xiàn)數(shù)據(jù)缺失現(xiàn)象,如果出現(xiàn)大批邊緣節(jié)點的關(guān)閉,分布式數(shù)據(jù)湖將失效。針對此問題,將基于新經(jīng)濟地理學(xué)思想構(gòu)建二級區(qū)域數(shù)據(jù)庫,其將在統(tǒng)一的模型驅(qū)動下匯聚區(qū)域內(nèi)的非公有制經(jīng)濟實體的高質(zhì)、原始態(tài)或微統(tǒng)計數(shù)據(jù),匯聚的數(shù)據(jù)可以實現(xiàn)無縫整合,支持區(qū)域經(jīng)濟的大數(shù)據(jù)分析業(yè)務(wù)。
(3)中央數(shù)據(jù)庫承載對工商聯(lián)敏捷需求的支撐,由其統(tǒng)籌全域數(shù)據(jù)索引,按需動態(tài)關(guān)聯(lián)二級區(qū)域數(shù)據(jù)庫虛擬化模型,生成虛擬數(shù)據(jù)對象或物理數(shù)據(jù)對象,以實現(xiàn)全國范圍內(nèi)跨域深層數(shù)據(jù)的分析挖掘。
(4)二級區(qū)域數(shù)據(jù)庫也可向中央數(shù)據(jù)庫申請跨區(qū)域數(shù)據(jù)資源,中央數(shù)據(jù)庫將借助構(gòu)建好的虛擬化數(shù)據(jù)鏈路實現(xiàn)數(shù)據(jù)路由,構(gòu)成區(qū)域間數(shù)據(jù)路由,最終實現(xiàn)區(qū)域數(shù)據(jù)協(xié)作。
所提虛擬化模型分為數(shù)據(jù)模型集、微統(tǒng)計模型集和數(shù)據(jù)管理規(guī)范集,如圖3所示。
3.2.1 數(shù)據(jù)模型集
非公有制經(jīng)濟實體受內(nèi)部應(yīng)用系統(tǒng)建設(shè)制約,從全國范圍看肯定是各自為政建設(shè)的,且水平參差不齊,不同單位的系統(tǒng)元數(shù)據(jù)定義大相徑庭,數(shù)據(jù)項也沒有統(tǒng)一編碼規(guī)則。如何對這些非公經(jīng)濟實體邊緣數(shù)據(jù)庫的異構(gòu)數(shù)據(jù)進行轉(zhuǎn)換融合,實現(xiàn)標準、規(guī)模化的聚合數(shù)據(jù)是迫切需要解決的問題。
提出了數(shù)據(jù)模型驅(qū)動數(shù)據(jù)融合概念,構(gòu)建實體模型、元數(shù)據(jù)模型、數(shù)據(jù)映射模型、數(shù)據(jù)元模型、數(shù)據(jù)質(zhì)量校核模型、數(shù)據(jù)版本模型、資源目錄模型、數(shù)據(jù)服務(wù)模型、安全訪問模型等。模型用以規(guī)范數(shù)據(jù)的采集內(nèi)容、采集格式、治理方式、檢索方式、存儲方式和利用方式。非公有制經(jīng)濟實體邊緣數(shù)據(jù)庫數(shù)據(jù)模型應(yīng)用過程如圖4所示。
Fig.3 Data virtualization model圖3 數(shù)據(jù)虛擬化模型
Fig.4 Application process of edge database model of non-public economic entities圖4 非公有制經(jīng)濟實體邊緣數(shù)據(jù)庫模型應(yīng)用過程
(1)聚焦中央數(shù)據(jù)庫關(guān)注的有價值的非公有制經(jīng)濟數(shù)據(jù)形成數(shù)據(jù)實體規(guī)范,非公有制經(jīng)濟邊緣數(shù)據(jù)庫需依據(jù)數(shù)據(jù)實體模型選取與之相關(guān)的數(shù)據(jù)內(nèi)容進行抽象,同時依據(jù)數(shù)據(jù)映射模型對數(shù)據(jù)進行模式匹配與映射,映射匹配邏輯如下[13-16]。
假設(shè)邊緣非公有制經(jīng)濟實體數(shù)據(jù)庫為A,分布式數(shù)據(jù)湖的二級區(qū)域數(shù)據(jù)庫的標準數(shù)據(jù)庫為B:
①在數(shù)據(jù)庫A中包含數(shù)據(jù)集合C,A={C1,C2,…,Ct}。
②在數(shù)據(jù)庫B中包含數(shù)據(jù)集合D,B={D1,D2,…,Dr}。
③A中C可以表示為列向量的集合,Ci={p1,p2,…,px}。
④A中包含t張表,每張表包含x個字段,構(gòu)成矩陣
⑤B中D可以表示為列向量的集合,Di={q1,q2,…,qy}。
⑥B中包含r張表,每張表包含y個字段,構(gòu)成矩陣
⑦數(shù)據(jù)匯聚到二級區(qū)域數(shù)據(jù)庫B后,產(chǎn)生數(shù)據(jù)記錄,針對Di有y個字段s條記錄,則每個記錄值為tiys,即
⑧由B和Di綜合來看,實際構(gòu)成了一個三維記錄數(shù)值模型,如圖5所示。
Fig.5 Three-dimensional recording numerical model圖5 三維記錄數(shù)值模型
Fig.6 Data pattern matching logic圖6 數(shù)據(jù)模式匹配邏輯
⑨在B中根據(jù)實體模型和數(shù)據(jù)映射模型會產(chǎn)生A到B的模式匹配規(guī)則:R=f(C),R={R1,R2,…,Rm},在R的作用下對不同Ci進行整合生成Di,從而產(chǎn)生B。規(guī)則R主要包括:數(shù)據(jù)源定義、目標數(shù)據(jù)庫定義、數(shù)據(jù)源表定義、數(shù)據(jù)源數(shù)據(jù)域定義、目標數(shù)據(jù)庫表定義、目標數(shù)據(jù)域定義、數(shù)據(jù)更新機制定義、時間戳定義、數(shù)據(jù)更新條件組合定義、提交數(shù)據(jù)范圍定義、數(shù)據(jù)受眾范圍定義等。
⑩全國各地非公有制經(jīng)濟實體數(shù)據(jù)映射到不同二級區(qū)域數(shù)據(jù)庫,將形成龐大的分布式數(shù)據(jù)湖泊B1到BL,覆蓋整個非公有制經(jīng)濟數(shù)據(jù)資源,全國數(shù)據(jù)矩陣K為:
數(shù)據(jù)模式匹配邏輯如圖6所示。
(2)廣大非公有制經(jīng)濟實體對象映射數(shù)據(jù)的格式依據(jù)數(shù)據(jù)元格式進行規(guī)范,依據(jù)數(shù)據(jù)元模型進行描述和轉(zhuǎn)換。這兩個模型對映射數(shù)據(jù)Di產(chǎn)生數(shù)據(jù)定義規(guī)則H=f(D),主要內(nèi)容包括字段名稱、字段類型、字段長度、字段定義描述、字段業(yè)務(wù)含義描述等。
(3)對標準化的匹配數(shù)據(jù)進行暫存。
(4)非公有制經(jīng)濟實體根據(jù)數(shù)據(jù)質(zhì)量校核模型對數(shù)據(jù)自檢驗和清洗,以保證數(shù)據(jù)的完整性、有效性和正確性,同時有全國編碼的數(shù)據(jù)需要依據(jù)編碼規(guī)則進行轉(zhuǎn)換和補充,以保證匯聚數(shù)據(jù)之間的協(xié)作、共享和聚合分析。以上模型生成清洗規(guī)則為O=f(D),主要包括:校核數(shù)據(jù)域、校核格式、校核算法、校核任務(wù)、校核警戒線、校核輸出日志模式;清洗對象、清洗算法、清洗任務(wù)、清洗輸出格式、異常數(shù)據(jù)日志模式;編碼轉(zhuǎn)化類型、編碼格式、編碼含義、轉(zhuǎn)換算法、轉(zhuǎn)換任務(wù)、異常數(shù)據(jù)規(guī)范等。
(5)對清洗后合規(guī)數(shù)據(jù)進行持久化存儲。
(6)在二級區(qū)域數(shù)據(jù)庫和中央數(shù)據(jù)庫實現(xiàn)對匯聚數(shù)據(jù)的統(tǒng)一存儲、統(tǒng)一資源目錄、統(tǒng)一服務(wù)和統(tǒng)一安全訪問管理。區(qū)域數(shù)據(jù)庫在數(shù)據(jù)版本模型控制下實現(xiàn)對數(shù)據(jù)的有序存儲,版本模型包括數(shù)據(jù)更新記錄與數(shù)據(jù)加工記錄,可以實現(xiàn)全局數(shù)據(jù)溯源與血緣分析;中央數(shù)據(jù)庫在數(shù)據(jù)目錄模型控制下建立全國統(tǒng)一資源目錄,實現(xiàn)全國數(shù)據(jù)一本底賬;同時,依據(jù)數(shù)據(jù)服務(wù)規(guī)范構(gòu)建數(shù)據(jù)服務(wù)平臺,在安全訪問模型控制下為全國提供有效的數(shù)據(jù)共享。
3.2.2 數(shù)據(jù)微統(tǒng)計模型集
數(shù)據(jù)微統(tǒng)計模型集規(guī)定了一組末端非公有制經(jīng)濟實體數(shù)據(jù)庫需統(tǒng)計的內(nèi)容與統(tǒng)計算法,統(tǒng)計功能將通過二級區(qū)域數(shù)據(jù)庫云平臺提供,只將形成融合態(tài)的統(tǒng)計數(shù)據(jù)保存于二級區(qū)域數(shù)據(jù)庫中。統(tǒng)計數(shù)據(jù)涉及但不限于以下方面:企業(yè)分支機構(gòu)信息、企業(yè)上市信息、企業(yè)投資信息、企業(yè)財務(wù)信息、企業(yè)納稅信息、企業(yè)資質(zhì)信息、企業(yè)創(chuàng)新信息等。
3.2.3 數(shù)據(jù)管理規(guī)范
數(shù)據(jù)管理規(guī)范為各級數(shù)據(jù)庫和節(jié)點在數(shù)據(jù)產(chǎn)生、清洗、整合、利用、消亡、管理整個生命周期應(yīng)遵循的數(shù)據(jù)規(guī)范。主要包括:數(shù)據(jù)存儲規(guī)范、數(shù)據(jù)治理規(guī)范、數(shù)據(jù)資源目錄規(guī)范、數(shù)據(jù)服務(wù)規(guī)范等。其規(guī)定了參與數(shù)據(jù)活動的相關(guān)方的義務(wù)與責(zé)任、引用的相關(guān)數(shù)據(jù)模型、數(shù)據(jù)傳遞的流程等。從而保障整個數(shù)據(jù)體系的安全、有效、可持續(xù)運轉(zhuǎn)。
3.2.4 去ETL化去中心化的分布式數(shù)據(jù)湖
(1)非公有制經(jīng)濟實體數(shù)據(jù)庫準備數(shù)據(jù)就緒后,傳統(tǒng)方法是采用ETL 方式進行數(shù)據(jù)上傳,但這種方式面對分布廣泛的數(shù)據(jù)源很難實施,例如:針對北京地區(qū)節(jié)點就需要完成4 000 余家企業(yè)同步任務(wù)的配置,整個運維工作是相當(dāng)龐大的;(2)同步如果不采用錯峰方式,在短時間內(nèi)中央數(shù)據(jù)庫網(wǎng)絡(luò)節(jié)點會產(chǎn)生高帶寬消耗,但如果錯峰會增加ETL設(shè)計與運維的復(fù)雜度;(3)傳統(tǒng)的集中式存儲需要高昂的硬件設(shè)備資源;(4)集中處理廣泛來源的非公有制經(jīng)濟數(shù)據(jù),并且面向全國的數(shù)據(jù)傳輸也會給數(shù)據(jù)庫造成很大壓力。
提出去ETL 和去中心化分布式數(shù)據(jù)湖技術(shù),依據(jù)新經(jīng)濟地理學(xué)理論選擇中心城市建設(shè)物理分散的分布式二級區(qū)域數(shù)據(jù)庫。
對二級區(qū)域數(shù)據(jù)庫的劃分主要包括:活動數(shù)據(jù)域、歷史數(shù)據(jù)域和文件數(shù)據(jù)域,每類數(shù)據(jù)域共涉及參政調(diào)研、非公服務(wù)、組織建設(shè)、思想引導(dǎo)、社會服務(wù)、綜合管理以及擴展業(yè)務(wù)七大數(shù)據(jù)類別。文件數(shù)據(jù)域主要包括:結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)文件以及文本、圖片、音頻和視頻非結(jié)構(gòu)化文件等。
非公有制經(jīng)濟邊緣數(shù)據(jù)庫產(chǎn)生內(nèi)部數(shù)據(jù)后,依據(jù)所提虛擬化模型進行校核、清洗、轉(zhuǎn)化與微統(tǒng)計,通過調(diào)用云服務(wù)方式實時將數(shù)據(jù)匯聚于二級區(qū)域數(shù)據(jù)庫活動數(shù)據(jù)域的不同類別數(shù)據(jù)中,同時將更新的歷史數(shù)據(jù)遷移至歷史數(shù)據(jù)域。
將產(chǎn)生多源異構(gòu)數(shù)據(jù)的非公有制經(jīng)濟實體節(jié)點定義為端節(jié)點,這些端節(jié)點物理上分散且數(shù)量龐大,是整個分布式數(shù)據(jù)湖體系中的邊緣節(jié)點,而這些節(jié)點的上級區(qū)域定義為云端。這些節(jié)點大多為中小企業(yè),每日產(chǎn)生的數(shù)據(jù)量不多,但種類繁多,且非公有制經(jīng)濟實體的出現(xiàn)和消亡具有極強的不確定性,針對這種碎片化特點,采用邊緣計算與計算結(jié)果通過數(shù)據(jù)服務(wù)上傳相結(jié)合的技術(shù)。邊緣非公有制經(jīng)濟實體節(jié)點主要包括:非公有制經(jīng)濟實體生產(chǎn)數(shù)據(jù)庫、邏輯前置數(shù)據(jù)庫、數(shù)據(jù)服務(wù)代理服務(wù)器等。
非公有制經(jīng)濟實體邊緣數(shù)據(jù)處理過程如圖7所示。
非公有制經(jīng)濟實體生產(chǎn)數(shù)據(jù)庫為其內(nèi)部數(shù)據(jù)庫;邏輯前置數(shù)據(jù)庫為以虛擬形態(tài)或物理形態(tài)存在,為區(qū)域數(shù)據(jù)庫準備抽象數(shù)據(jù)實體的質(zhì)量合規(guī)數(shù)據(jù);首次數(shù)據(jù)上傳采用數(shù)據(jù)文件提交形式,增量數(shù)據(jù)上傳通過調(diào)用在數(shù)據(jù)服務(wù)代理上發(fā)布的解析前置數(shù)據(jù)、與云服務(wù)對接的應(yīng)用API(application programming interface)方式實現(xiàn);文件上傳可以調(diào)用云端文件上傳功能,文件如果關(guān)聯(lián)數(shù)據(jù),則需要開發(fā)與云服務(wù)對接API,實現(xiàn)數(shù)據(jù)與文件的同時上傳。
采用邊緣計算方式的主要優(yōu)勢在于,數(shù)據(jù)準備與處理工作將交由各非公有制經(jīng)濟實體節(jié)點分散完成,不用發(fā)送全部數(shù)據(jù)到云端,消除區(qū)域數(shù)據(jù)庫治理數(shù)據(jù)的復(fù)雜性與數(shù)據(jù)發(fā)送的網(wǎng)絡(luò)壓力;由于數(shù)據(jù)在做拆分或組合后形成前置數(shù)據(jù),從前置庫中讀取可以較容易保證數(shù)據(jù)的一致性;云端數(shù)據(jù)服務(wù)將不直接嵌入其業(yè)務(wù)應(yīng)用系統(tǒng),使數(shù)據(jù)生產(chǎn)與服務(wù)調(diào)用解耦,不用改造其生產(chǎn)應(yīng)用系統(tǒng)。
Fig.7 Process flow diagram of edge data processing of non-public economic entities圖7 非公有制經(jīng)濟實體邊緣數(shù)據(jù)處理過程圖
在邊緣非公有制經(jīng)濟實體節(jié)點可實現(xiàn)實體自身數(shù)據(jù)分析。區(qū)域分析數(shù)據(jù)可以通過云服務(wù)返回非公有制經(jīng)濟實體與其內(nèi)部數(shù)據(jù)相融合,實現(xiàn)快速邊緣數(shù)據(jù)深度探索,輔助非公有制經(jīng)濟實體不斷調(diào)整經(jīng)營決策,優(yōu)化產(chǎn)業(yè)結(jié)構(gòu),進行前端產(chǎn)品技術(shù)研發(fā),構(gòu)建符合自身發(fā)展的產(chǎn)業(yè)鏈、客戶關(guān)系鏈和產(chǎn)業(yè)金融鏈。
提出中央數(shù)據(jù)庫路由方法來實現(xiàn)分布式數(shù)據(jù)湖體系中各區(qū)域數(shù)據(jù)庫之間的數(shù)據(jù)互操作。構(gòu)建完整的資源目錄與數(shù)據(jù)索引體系,實現(xiàn)憑借路由調(diào)度控制實現(xiàn)點對點去中心化二級區(qū)域數(shù)據(jù)庫通信。此種方式有效規(guī)避數(shù)據(jù)總線應(yīng)用模式下可能產(chǎn)生的集中式通信“雪崩”效應(yīng),提高了數(shù)據(jù)庫的高可用性、高可靠性和高可擴展性。
中央數(shù)據(jù)庫作為分布式數(shù)據(jù)湖路由核心,其將重點實現(xiàn)數(shù)據(jù)目錄檢索、數(shù)據(jù)服務(wù)發(fā)布和申請審核、數(shù)據(jù)索引、數(shù)據(jù)尋址與路由,但不集中存儲全量數(shù)據(jù)。主要包括:數(shù)據(jù)索引服務(wù)器、目錄服務(wù)器、數(shù)據(jù)服務(wù)管理服務(wù)器、配置服務(wù)器、調(diào)度服務(wù)器、通信服務(wù)器、數(shù)據(jù)庫服務(wù)器。
一個數(shù)據(jù)庫數(shù)據(jù)調(diào)用者與跨地域數(shù)據(jù)庫數(shù)據(jù)提供者的數(shù)據(jù)協(xié)作過程如圖8所示。
數(shù)據(jù)調(diào)用者借助數(shù)據(jù)資源目錄確認所需資源并向中央數(shù)據(jù)庫提出申請。審批后,中央數(shù)據(jù)庫進行數(shù)據(jù)提供者區(qū)域?qū)ぶ罚ㄖ⒋_認其資源準備就緒,將數(shù)據(jù)庫連接通道配置信息保存,并通知數(shù)據(jù)調(diào)用者,數(shù)據(jù)調(diào)用者與數(shù)據(jù)提供者間建立點對點直連,后續(xù)為長連接過程,數(shù)據(jù)庫連接將不會再訪問中央數(shù)據(jù)庫。中央數(shù)據(jù)庫持續(xù)監(jiān)控連接過程,確保數(shù)據(jù)合法使用,當(dāng)數(shù)據(jù)利用時效結(jié)束或出現(xiàn)非法使用數(shù)據(jù)的狀況,中央數(shù)據(jù)庫通知數(shù)據(jù)調(diào)用者和數(shù)據(jù)提供者,數(shù)據(jù)提供者關(guān)閉數(shù)據(jù)連接,數(shù)據(jù)調(diào)用者失去數(shù)據(jù)庫直連權(quán)限。
虛擬化模型驅(qū)動的分布式邏輯數(shù)據(jù)湖構(gòu)建方法實現(xiàn)了去中心化分布式存儲,中央數(shù)據(jù)庫重點建設(shè)全域數(shù)據(jù)索引,實現(xiàn)全域數(shù)據(jù)管控,同時承擔(dān)數(shù)據(jù)路由角色,為跨域數(shù)據(jù)協(xié)作提供支撐;中央數(shù)據(jù)庫可快速應(yīng)對應(yīng)用需求變化,通過虛擬視圖方式或短期物理存儲方式獲取不同地域非公有制經(jīng)濟數(shù)據(jù),保證數(shù)據(jù)時效性,提高數(shù)據(jù)分析挖掘的可信度;邏輯數(shù)據(jù)湖內(nèi)各級存儲資源可呈現(xiàn)多模態(tài)化,支持關(guān)系型、非關(guān)系型數(shù)據(jù)以及文本、圖片、音頻、視頻等數(shù)據(jù)存儲;數(shù)據(jù)質(zhì)量治理交由非公有制經(jīng)濟邊緣數(shù)據(jù)庫自行承擔(dān),提高數(shù)據(jù)治理可操作性、數(shù)據(jù)可信度和可用性;中央數(shù)據(jù)庫將實現(xiàn)對存儲資源的動態(tài)伸縮利用,減低設(shè)備投資和維護成本;各區(qū)域由于只存儲本地數(shù)據(jù),基礎(chǔ)設(shè)施建設(shè)和維護成本將可控。
所提數(shù)據(jù)倉庫系統(tǒng)的代表包括早期的國網(wǎng)系統(tǒng)、銀行系統(tǒng);隨著大數(shù)據(jù)分析條件的逐步具備和決策支持業(yè)務(wù)對數(shù)據(jù)總量的需求越來越大,這些數(shù)據(jù)倉庫系統(tǒng)逐步向集中式數(shù)據(jù)湖系統(tǒng)發(fā)展,但隨著數(shù)據(jù)量的持續(xù)堆積,集中式數(shù)據(jù)湖的治理問題越發(fā)突出。對比發(fā)現(xiàn),所提虛擬化模型驅(qū)動的分布式數(shù)據(jù)湖構(gòu)建方法相比傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)、集中式數(shù)據(jù)湖技術(shù),在同時滿足工商聯(lián)分析業(yè)務(wù)對大數(shù)據(jù)的需求和實時處理業(yè)務(wù)對鮮活數(shù)據(jù)的需要方面具有優(yōu)勢,尤其在減少數(shù)據(jù)搬運成本,提升經(jīng)濟性方面存在較明顯的優(yōu)勢,結(jié)果參見表1。
Fig.8 Process flow diagram of data invoke圖8 數(shù)據(jù)調(diào)用過程圖
本文提出的虛擬化模型驅(qū)動的分布式數(shù)據(jù)湖構(gòu)建方法,是集成碎片化、多模態(tài)非公有制經(jīng)濟數(shù)據(jù)的較有效方法。所提方法將邊緣計算、新經(jīng)濟地理區(qū)域數(shù)據(jù)庫建設(shè)、大數(shù)據(jù)分析與挖掘、數(shù)據(jù)路由等技術(shù)相融合,實現(xiàn)了非公有制經(jīng)濟數(shù)據(jù)在虛擬模型驅(qū)動下的區(qū)域協(xié)同。
所提方法在構(gòu)建工商聯(lián)分布式數(shù)據(jù)湖體系中得到了初步的應(yīng)用嘗試,并在持續(xù)完善中。工商聯(lián)分布式數(shù)據(jù)湖體系以全國工商聯(lián)本級為中央數(shù)據(jù)庫節(jié)點,按照新經(jīng)濟地理學(xué)選取6個省級工商聯(lián)作為二級區(qū)域節(jié)點,建立二級區(qū)域數(shù)據(jù)庫,6 個省級二級區(qū)域節(jié)點負責(zé)聯(lián)系全國9 000 萬非公有制經(jīng)濟實體邊緣節(jié)點,并保持與邊緣節(jié)點的通信暢通。在實際的業(yè)務(wù)開展過程中,各非公有制經(jīng)濟實體作為此體系中的邊緣節(jié)點,不斷產(chǎn)生原始數(shù)據(jù),并在本地端存儲,這些數(shù)據(jù)由邊緣非公經(jīng)濟實體在數(shù)據(jù)模型驅(qū)動下完成清洗后,提交主數(shù)據(jù)和融合態(tài)、微統(tǒng)計數(shù)據(jù)給二級區(qū)域節(jié)點。全國工商聯(lián)中央數(shù)據(jù)庫維護了一個完整的數(shù)據(jù)資源目錄和資源門戶,掌控著全國數(shù)據(jù)的一本底賬,并承擔(dān)了數(shù)據(jù)交換共享“總調(diào)度”的角色,其通過數(shù)據(jù)路由按需訪問二級區(qū)域數(shù)據(jù)庫,提取鮮活數(shù)據(jù)進行分析,支撐輔助決策需求。此種分布式數(shù)據(jù)湖架構(gòu)確實在提升大數(shù)據(jù)分析挖掘效能、實現(xiàn)數(shù)據(jù)的按需搬運與虛擬調(diào)用方面成效明顯,很大程度上降低了中央節(jié)點數(shù)據(jù)存儲壓力,同時也改善了頻繁搬運數(shù)據(jù)帶來的高網(wǎng)路帶寬消耗問題,使工商聯(lián)在面向9 000 萬非公有制經(jīng)濟實體構(gòu)建高價值生態(tài)數(shù)據(jù)資產(chǎn)平臺成為可能。
下一步,將對所提方法在邊緣節(jié)點是否處于活動狀態(tài),及時高效地發(fā)現(xiàn)掉線節(jié)點方面的效率問題進行優(yōu)化。同時,在部分區(qū)域中心節(jié)點和邊緣節(jié)點掉線的情況下,如何快速建立數(shù)據(jù)補全機制,提升分布式數(shù)據(jù)湖體系的自我完善能力和健壯性也是本文下一步需持續(xù)研究的重點。
Table 1 Comparison among data warehouse,centralized data lake and distributed data lake表1 數(shù)據(jù)倉庫、集中式數(shù)據(jù)湖與分布式數(shù)據(jù)湖對比