葉佳帆,倪安辰
( 華鑫置業(yè)(集團(tuán))有限公司,上海 200233 )
自18世紀(jì)中葉以來,人類文明經(jīng)歷了蒸汽時代、電氣時代、信息時代的飛躍式發(fā)展,每一次工業(yè)革命所激發(fā)的生產(chǎn)總值遠(yuǎn)超上一時代的積累總和。今天,以大數(shù)據(jù)、云計算、5G、AI、ICT等新興技術(shù)驅(qū)動的第四次工業(yè)革命將拉開人類社會邁入萬物互聯(lián)的新時代,同時也將大數(shù)據(jù)應(yīng)用的場景拓展到工作、學(xué)習(xí)、生活的方方面面,成為人類社會數(shù)字化演進(jìn)的基因片段,幫助人類更好感知真實世界的萬物萬象。
智慧園區(qū)作為建設(shè)數(shù)字世界的落腳點,是當(dāng)今發(fā)展數(shù)字經(jīng)濟(jì)的新理念和新模式,是智慧城市的重要表現(xiàn)形式,成為踐行我國“兩化融合及四化同步”的重要載體。本文以智慧園區(qū)建設(shè)為例,結(jié)合智能化技術(shù)發(fā)展,提供異構(gòu)數(shù)據(jù)整合解決方案。
產(chǎn)業(yè)園區(qū)向智慧園區(qū)的演進(jìn)形式大致可分為5個階段,即:小商品集聚區(qū)模式——高新技術(shù)區(qū)模式——軟件園產(chǎn)業(yè)模式——數(shù)字化產(chǎn)業(yè)園區(qū)模式——大數(shù)據(jù)智慧時代模式。其各自專有特性見圖1。
圖1 智慧園區(qū)發(fā)展階段
隨著技術(shù)革命日趨深化,智慧園區(qū)建設(shè)向著智能化、信息化、人性化的方向迅猛發(fā)展,逐步走入數(shù)據(jù)融合的深水區(qū)。
煙囪式數(shù)據(jù)孤島致使信息流通不暢,增加了數(shù)據(jù)挖掘的難度和利用成本。缺乏統(tǒng)一的數(shù)據(jù)集成平臺成為阻止智慧園區(qū)邁向大數(shù)據(jù)智慧化的桎梏。以城市消防遠(yuǎn)程監(jiān)控系統(tǒng)的報警傳輸網(wǎng)絡(luò)通信協(xié)議為例,依據(jù)GB/T 26875.3—2011標(biāo)準(zhǔn)要求的數(shù)據(jù)包結(jié)構(gòu)見圖2。在實際操作中,部分供應(yīng)商采用自定義協(xié)議見圖3。由此可見,即使是同一業(yè)務(wù)系統(tǒng)的通訊協(xié)議也會存在各種格式的數(shù)據(jù)幀,不同業(yè)務(wù)系統(tǒng)間不同的通訊協(xié)議并發(fā)執(zhí)行時,給前端解析、存儲、分析、展示帶來巨大壓力。
圖2 數(shù)據(jù)包標(biāo)準(zhǔn)要求
圖3 自定義協(xié)議
隨著5G、大數(shù)據(jù)時代的到來,異構(gòu)數(shù)據(jù)集成技術(shù)持續(xù)成為數(shù)據(jù)研究領(lǐng)域的焦點。目前,智慧園區(qū)大數(shù)據(jù)呈現(xiàn)出新的4V特性(Volume——規(guī)模性、Velocity——高速性、Variety——多樣性、Value——價值性),傳統(tǒng)數(shù)據(jù)共享方式的適應(yīng)性難以滿足這些新特性的發(fā)展。[1]
數(shù)據(jù)治理上呈現(xiàn)以下難點[1-3]:
1)異構(gòu)性
智慧園區(qū)建設(shè)投資大、周期長、供應(yīng)商繁多,信息系統(tǒng)基本覆蓋智慧園各項業(yè)務(wù)領(lǐng)域。隨著智慧園區(qū)的不斷發(fā)展迭代,園區(qū)不斷建設(shè)各種新的業(yè)務(wù)功能的信息系統(tǒng)。不同的業(yè)務(wù)功能和不同的供應(yīng)商制定了符合不同業(yè)務(wù)需要的結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),這些各自為政的數(shù)據(jù)結(jié)構(gòu)導(dǎo)致了智慧園區(qū)各個子系統(tǒng)之間數(shù)據(jù)的異構(gòu)性。
2)分布性
由于空間離散,各地塊的物業(yè)管理處分散在園區(qū)的不同區(qū)域,甚至城市的不同轄區(qū)。數(shù)據(jù)傳遞往往依賴網(wǎng)絡(luò),存在網(wǎng)絡(luò)傳輸性能和安全性等問題。不同網(wǎng)絡(luò)傳輸性能與數(shù)據(jù)丟包率的差異性,也令管理者難以統(tǒng)一數(shù)據(jù)采集標(biāo)準(zhǔn)。
3)自治性
各供應(yīng)商數(shù)據(jù)源自治性強(qiáng),可隨意根據(jù)系統(tǒng)迭代更新需求修改自身數(shù)據(jù)結(jié)構(gòu),給數(shù)據(jù)集成系統(tǒng)的魯棒性帶來挑戰(zhàn)。
4)異步性
業(yè)務(wù)信息系統(tǒng)分批建設(shè)造成末端傳感設(shè)備的性能差異。設(shè)備代差直接影響數(shù)據(jù)傳輸頻率的異步性和精度準(zhǔn)確性。
5)語義沖突性
基于業(yè)務(wù)系統(tǒng)功能的不同,供應(yīng)商對同一事物的認(rèn)知角度不同。相應(yīng)的,不同數(shù)據(jù)庫中對同一實體的定義也存在很大差異。同一字段的不同數(shù)據(jù)類型、是否為空、數(shù)據(jù)兼容標(biāo)準(zhǔn)都給大數(shù)據(jù)共享集成帶來挑戰(zhàn)。
進(jìn)行數(shù)據(jù)集成實現(xiàn)方式的選擇時,應(yīng)考慮數(shù)據(jù)集成的可操作性、該方式所需投入的經(jīng)濟(jì)成本、數(shù)據(jù)治理的速度和延展性。其中,速度體現(xiàn)為實現(xiàn)數(shù)據(jù)治理與集成所耗費的時間成本,延展性為數(shù)據(jù)標(biāo)準(zhǔn)在數(shù)量和范圍上的可擴(kuò)展性。
若用S(Select)表示大數(shù)據(jù)條件下數(shù)據(jù)共享實現(xiàn)方式的選擇,P(Practicability)表示數(shù)據(jù)共享的可操作性,C(Cost)表示成本,V(Velocity)表示速度,E(Extendability)表示延展性,則大數(shù)據(jù)條件下的數(shù)據(jù)集成實現(xiàn)方式的選擇公式可表示為:
該公式中,若S理解為數(shù)據(jù)值越高越理想,則P、V、E可認(rèn)定為正向相關(guān)參數(shù),C為負(fù)向相關(guān)參數(shù),E可視作大數(shù)據(jù)的拓展功能,作為加分項存在。同時,依據(jù)行業(yè)及相關(guān)傳輸技術(shù)能力的不同,數(shù)據(jù)集成公式的每個參數(shù)都需要一個衡量的權(quán)重比例(i、h、g)?;谝陨峡紤],數(shù)據(jù)集成實現(xiàn)方式的選擇公式可進(jìn)一步推導(dǎo)為:
根據(jù)上述公式,數(shù)據(jù)集成按傳統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)化處理操作,主要為兩種方式:一是分別聯(lián)系原供應(yīng)商,修改業(yè)務(wù)系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn);二是將智慧園區(qū)整體推倒重建。無論哪種方式,都將造成重復(fù)性成本。
案例源于筆者參與的智慧園區(qū)應(yīng)用開發(fā)方面的科研項目——華鑫智慧園區(qū)運營管理平臺。該平臺需要處理大量的異構(gòu)數(shù)據(jù),既有存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),也有以文本文檔、電子表格、視頻文件等形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)格式、類型不同導(dǎo)致讀寫方式上存在巨大差異,為平臺綜合查詢分析和大數(shù)據(jù)透明訪問帶來困擾。為了屏蔽這些異構(gòu)數(shù)據(jù)源在訪問方式上的差異,需要一種面向異構(gòu)系統(tǒng)的數(shù)據(jù)集成解決方案。因此,華鑫置業(yè)設(shè)計了一種面向智慧園區(qū)異構(gòu)數(shù)據(jù)的集成方案。在保證各原有業(yè)務(wù)系統(tǒng)的通訊協(xié)議不變的前提下,為大數(shù)據(jù)挖掘分析做了有效的數(shù)據(jù)清洗和規(guī)范。集成方案見圖4。
圖4 異構(gòu)數(shù)據(jù)集成方案
如圖4所示,數(shù)據(jù)集成層介于業(yè)務(wù)應(yīng)用與數(shù)字平臺中間,通過統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)接口將不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行抽取、清洗,歸整,最終沉淀到數(shù)據(jù)底板。
不同的通訊協(xié)議,通過不同的網(wǎng)絡(luò)介質(zhì)傳遞數(shù)據(jù)幀。不同的幀格式需要不同的解析過程,哪怕是同一種協(xié)議也可能存在不同類型的數(shù)據(jù)幀格式。智慧園區(qū)各自為政的業(yè)務(wù)系統(tǒng),更有著數(shù)不清的標(biāo)準(zhǔn)協(xié)議和自定義協(xié)議,不勝凡舉。要將這些數(shù)據(jù)統(tǒng)一沉淀到大數(shù)據(jù)底板,除了要不同供應(yīng)商配合修改通訊協(xié)議,還要統(tǒng)一數(shù)據(jù)庫選型,協(xié)調(diào)所有系統(tǒng)升級步調(diào),無論是開發(fā)還是運維難度都非常大。
打造數(shù)據(jù)集成平臺,通過統(tǒng)一接口對接所有應(yīng)用系統(tǒng)。平臺按各業(yè)務(wù)系統(tǒng)的通訊協(xié)議,分別解析數(shù)據(jù)幀后,留存標(biāo)準(zhǔn)化數(shù)據(jù)記錄在數(shù)據(jù)集成層的數(shù)據(jù)底板,統(tǒng)一向業(yè)務(wù)系統(tǒng)前端提供標(biāo)準(zhǔn)化數(shù)據(jù),如此,留存在數(shù)據(jù)集成平臺的大數(shù)據(jù)是規(guī)范后的數(shù)據(jù)類型和數(shù)據(jù)標(biāo)準(zhǔn),為大數(shù)據(jù)挖掘和綜合分析提供了有力保障。
數(shù)據(jù)集成整體架構(gòu)呈倒漏斗型,見圖5。
圖5 數(shù)據(jù)集成整體架構(gòu)
以華鑫天地消防報警系統(tǒng)為例,數(shù)據(jù)集成過程主要步驟分解為:
1)系統(tǒng)涉及國標(biāo)協(xié)議和行業(yè)協(xié)議協(xié)議2種;
2)數(shù)據(jù)集成平臺架設(shè)在以太網(wǎng)環(huán)境中,數(shù)據(jù)鏈路層執(zhí)行TCP協(xié)議。服務(wù)器端分別啟動“國標(biāo)消防協(xié)議解析服務(wù)”和“行標(biāo)協(xié)議解析服務(wù)”,端口號分別為:7001和7002,服務(wù)集采用多線程模式;
3)根據(jù)2種協(xié)議幀的解析內(nèi)容,分別提取數(shù)據(jù)區(qū)有效數(shù)據(jù);
4)通過對端鏈接信息,識別所屬地塊;
5)按照標(biāo)識位識別系統(tǒng)末端傳感器信息,進(jìn)行數(shù)據(jù)解析;
6)解析后的數(shù)據(jù)按照統(tǒng)一規(guī)格和數(shù)據(jù)類型存入數(shù)據(jù)底板的消防報警系統(tǒng)數(shù)據(jù)集。
7)前端展示系統(tǒng)調(diào)用統(tǒng)一消防報警API接口查詢數(shù)據(jù),整理分析后做BI展示。
鑒于保密協(xié)議的規(guī)定,本文不便提供平臺的源代碼,僅以流程圖作為異構(gòu)數(shù)據(jù)集成邏輯的描述,見圖6。
圖6 異構(gòu)數(shù)據(jù)集成流程
大數(shù)據(jù)時代到來使智慧園區(qū)的未來變得具象化和可預(yù)期化,目前熱門的數(shù)字孿生技術(shù)也正是基于異構(gòu)數(shù)據(jù)集的分析挖掘而不斷推進(jìn)迭代。5G、ICT、物聯(lián)網(wǎng)、云計算等技術(shù)的深度融合進(jìn)一步加快了異構(gòu)數(shù)據(jù)的匯總與堆積。搭建數(shù)據(jù)集成平臺是實現(xiàn)智慧園區(qū)各業(yè)務(wù)信息系統(tǒng)間異構(gòu)數(shù)據(jù)共享的優(yōu)質(zhì)解決方案,也是園區(qū)數(shù)據(jù)治理整合,實現(xiàn)全局?jǐn)?shù)據(jù)共享,推進(jìn)大數(shù)據(jù)時代智慧園區(qū)數(shù)字孿生的重要前置環(huán)節(jié)。