吳 丹 李旭芳 劉 潔 黃榮裕
近年來,隨著交通行業(yè)的發(fā)展和智能交通系統(tǒng)的應用,大量交通數(shù)據被生成和積累,數(shù)據治理的問題逐漸由企業(yè)擴展至政府領域,成為學術界研究的熱點[1]。交通行業(yè)作為國家經濟的重要支柱,其數(shù)據治理水平對整個社會的運行和發(fā)展具有重要意義。隨著大數(shù)據、云計算、物聯(lián)網等技術的發(fā)展,交通行業(yè)數(shù)據呈現(xiàn)出爆炸式增長,數(shù)據類型和來源日趨多樣化[2]。這使得交通行業(yè)數(shù)據治理面臨諸多挑戰(zhàn),如數(shù)據質量、數(shù)據安全、數(shù)據隱私、數(shù)據共享等。為了應對這些挑戰(zhàn),本文提出了一種基于微服務架構的交通行業(yè)數(shù)據治理框架。
交通行業(yè)數(shù)據包括結構化數(shù)據(如數(shù)據庫中的表數(shù)據)、半結構化數(shù)據(如XML、JSON 等格式的數(shù)據)和非結構化數(shù)據(如圖像、視頻、文本等)。數(shù)據產生速度快,數(shù)據量大,如實時定位數(shù)據、報警數(shù)據,對數(shù)據存儲和處理能力提出了較高要求。
數(shù)據的實時性要求較高,如實時路況信息、交通擁堵預測等,需要快速響應和處理。為了滿足這些需求,數(shù)據處理系統(tǒng)需要具備低延遲、高吞吐量的特點,以便在有限的時間內分析和處理大量實時數(shù)據。
交通數(shù)據中可能包含個人隱私信息,如位置數(shù)據、出行記錄等,如何在保障數(shù)據安全和隱私的前提下進行數(shù)據治理成為一大挑戰(zhàn)。此外,交通數(shù)據還涉及國家安全和公共安全等方面的問題,因此需要在數(shù)據收集、存儲和處理過程中確保數(shù)據的安全性和合規(guī)性。
交通數(shù)據具有明顯的地域性特征,不同地區(qū)的交通狀況、道路狀況和出行需求差異較大。因此,在進行交通大數(shù)據分析時,需要充分考慮地域特點,以便為各地區(qū)提供更有針對性的交通優(yōu)化建議和措施。
交通行業(yè)涉及多個部門和企業(yè),如政府部門、公共交通公司、出租車公司等。為了實現(xiàn)交通行業(yè)的高效治理,需要在這些部門和企業(yè)之間實現(xiàn)數(shù)據共享和協(xié)同。這要求數(shù)據治理框架具備良好的互操作性和標準化,以便在不同系統(tǒng)和平臺之間實現(xiàn)順暢的數(shù)據交換。
一個基于云計算和微服務架構的數(shù)據治理框架可以有效解決交通行業(yè)大數(shù)據應用中的問題。這個框架包含數(shù)據采集與集成、實時數(shù)據處理與分析、數(shù)據存儲與管理、數(shù)據安全與隱私保護、數(shù)據共享與協(xié)同、微服務架構六大方面。
如圖1所示,該框架利用各種數(shù)據采集工具和接入程序,實時收集來自不同來源的交通數(shù)據,如傳感器、監(jiān)控攝像頭、GPS 設備、公共交通系統(tǒng)等。數(shù)據接入程序負責對原始數(shù)據進行清洗、去重、格式轉換等操作,以提高數(shù)據質量。數(shù)據治理服務根據數(shù)據標準對數(shù)據進行深度融合和加工,數(shù)據集成模塊將整合不同來源的結構化、半結構化和非結構化數(shù)據,為后續(xù)分析提供統(tǒng)一的數(shù)據視圖。
圖1 數(shù)據采集清洗入庫流程
如圖1所示,該框架使用流處理技術(Apache Kafka)對實時數(shù)據進行處理和分析。實時數(shù)據處理模塊可以對交通狀況、擁堵情況等進行實時監(jiān)測和預測,為交通管理部門提供實時決策支持。此外,利用機器學習和深度學習技術可以從海量交通數(shù)據中挖掘有價值的信息和模式,為交通優(yōu)化提供智能建議。
該框架采用Clickouse 存儲大量交通數(shù)據,能夠提高存儲能力,滿足數(shù)據量大和地域性強的挑戰(zhàn)。同時,通過數(shù)據分層存儲策略,將熱數(shù)據存儲在高速緩存(Redis)中,以提高數(shù)據訪問速度。
為確保數(shù)據在傳輸和存儲過程中的安全性,該框架采用加密技術對數(shù)據進行加密,支持SM4、AES、SM3、FPE、XGS 等加密算法。對于涉及個人隱私和國家安全的數(shù)據,使用數(shù)據脫敏(如數(shù)據掩碼、偽造數(shù)據等)和訪問控制技術,確保只有授權用戶可以訪問敏感數(shù)據。同時,遵守相關法律法規(guī),確保數(shù)據治理的合規(guī)性。
該框架構建了數(shù)據共享平臺,通過API 和數(shù)據交換規(guī)范實現(xiàn)跨部門和企業(yè)的數(shù)據共享。數(shù)據共享平臺可提供數(shù)據質量評估、數(shù)據血緣分析等功能,以確保數(shù)據的準確性、完整性和一致性。此外,平臺可支持數(shù)據權限管理,以便在保護隱私的同時實現(xiàn)數(shù)據共享。圖2 是靜態(tài)數(shù)據共享流程,對于動態(tài)數(shù)據,會根據交通實時數(shù)據的數(shù)據緊湊性、交換實時性和基于數(shù)據流的交換特點,建設有別于基于報文交互式的服務調用通道的交通實時數(shù)據交換通道。
圖2 數(shù)據共享流程
該框架采用微服務架構(如Spring Cloud、Istio)組織各個數(shù)據處理和分析模塊,實現(xiàn)模塊化、解耦合可擴展性。微服務架構有助于快速響應不斷變化的業(yè)務需求,提高系統(tǒng)的靈活性和可維護性。技術架構如圖3所示。
圖3 基于微服務技術的數(shù)據治理技術架構
本文提出了一種基于微服務架構的交通行業(yè)數(shù)據治理框架,能夠為交通管理部門、企業(yè)和公眾提供高質量的數(shù)據服務,助力實現(xiàn)智能交通和城市可持續(xù)發(fā)展,已在寶雞市交通管理局的實際案例中取得了良好效果。然而,仍存在一些挑戰(zhàn)和局限性,如非結構化數(shù)據處理、數(shù)據源變化、數(shù)據共享與隱私保護之間的平衡等。為應對這些挑戰(zhàn),采用了自研的數(shù)據集成工具處理非結構化數(shù)據;引入數(shù)據版本控制應對數(shù)據源變化; 以及采用數(shù)據脫敏技術(如數(shù)據掩碼、偽造數(shù)據等)對敏感數(shù)據進行處理;采用加密技術(如AES、RSA)對數(shù)據進行加密存儲和傳輸;在保護隱私的同時實現(xiàn)數(shù)據共享。
未來研究可以從以下幾個方向展開:一是研究新興技術(如區(qū)塊鏈、人工智能等)在交通行業(yè)數(shù)據治理中的應用;二是探討如何進一步完善和優(yōu)化現(xiàn)有數(shù)據治理框架,以適應不斷變化的需求;三是深入研究數(shù)據治理過程中的倫理和法律問題,確保數(shù)據治理的合規(guī)性和道德性。通過優(yōu)化和完善這一框架,不斷為交通行業(yè)數(shù)據治理領域的發(fā)展提供有力支持。