黃 磊,姜德友
(北京交通大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100044)
鐵路各業(yè)務(wù)領(lǐng)域都積累了豐富的數(shù)據(jù)資源。數(shù)據(jù)要素流通賦能鐵路創(chuàng)新發(fā)展,而安全可靠是數(shù)據(jù)要素流通的關(guān)鍵前提和保障。目前,鐵路系統(tǒng)內(nèi)的數(shù)據(jù)要素流通方式有3種:(1)通過兩系統(tǒng)間的數(shù)據(jù)接口方式;(2)通過專業(yè)大數(shù)據(jù)平臺(tái),為專業(yè)內(nèi)各系統(tǒng)提供數(shù)據(jù)共享服務(wù);(3)統(tǒng)一通過鐵路數(shù)據(jù)服務(wù)平臺(tái)匯集鐵路數(shù)據(jù),然后依照權(quán)屬提供給鐵路內(nèi)部其他需求方。向鐵路系統(tǒng)外部進(jìn)行數(shù)據(jù)共享的方式是通過數(shù)據(jù)接口,將需求的相關(guān)數(shù)據(jù)集共享給對方。
由此可見,鐵路數(shù)據(jù)共享主要通過數(shù)據(jù)接口,將共享數(shù)據(jù)集以機(jī)器可讀的方式提供給需求方。這種“數(shù)據(jù)搬家”式的數(shù)據(jù)共享模式,會(huì)導(dǎo)致數(shù)據(jù)管理權(quán)關(guān)系的傳遞,難以保障數(shù)據(jù)的隱私安全。隱私計(jì)算技術(shù)能夠幫助解決多方數(shù)據(jù)主體在數(shù)據(jù)共享中的數(shù)據(jù)隱私保護(hù)問題,即在數(shù)據(jù)“不搬家”的前提下,實(shí)現(xiàn)數(shù)據(jù)共享的目的與價(jià)值。開展鐵路數(shù)據(jù)隱私計(jì)算體系的構(gòu)建與研究是十分必要的,其提供的安全可控、可計(jì)量的數(shù)據(jù)共享應(yīng)用環(huán)境,可作為以數(shù)據(jù)接口為主要數(shù)據(jù)共享方式的既有鐵路數(shù)據(jù)服務(wù)體系的有效補(bǔ)充。
在多方數(shù)據(jù)共享的過程中,可能會(huì)面臨多種安全威脅和敵對行為,包括數(shù)據(jù)竊取、數(shù)據(jù)篡改、合謀攻擊、未授權(quán)訪問、否認(rèn)服務(wù)攻擊等,造成數(shù)據(jù)在輸入階段、傳輸和共享過程中的隱私泄露,以及過程結(jié)果篡改等隱私問題,如圖1所示。
圖1 多方數(shù)據(jù)共享中的隱私問題
作為一種多理論和技術(shù)的集合,隱私計(jì)算主要涵蓋了多方安全計(jì)算、聯(lián)邦學(xué)習(xí)和可信執(zhí)行環(huán)境等3個(gè)關(guān)鍵研究領(lǐng)域。
多方安全計(jì)算(MPC,Multi-party Computation)是一種在保障各方輸入信息不被泄露的前提下,實(shí)現(xiàn)多方共享計(jì)算的技術(shù),使得互不完全信任的參與者間能夠進(jìn)行安全的聯(lián)合計(jì)算,各方可共享計(jì)算結(jié)果,但無須公開各自的私有數(shù)據(jù)。
自20世紀(jì)80年代Yao[1]首次提出該理論以來,多方安全計(jì)算的理論研究主要集中在復(fù)雜性、效率、安全性等方面,構(gòu)建了豐富的協(xié)議體系,如同態(tài)加密[2]、混淆電路[3]、秘密共享[4]、不經(jīng)意傳輸[5]等協(xié)議體系;實(shí)踐研究則更關(guān)注實(shí)際應(yīng)用中的問題,如計(jì)算和通信開銷、可用性、可擴(kuò)展性等,例如,Wang等人[6]將可鑒別混淆電路與BMR(Beaver-Micali-Rogaway)協(xié)議結(jié)合,設(shè)計(jì)了多方混淆電路,減少了通信開銷。
聯(lián)邦學(xué)習(xí)(FL,F(xiàn)ederated Learning)是一種分布式機(jī)器學(xué)習(xí)方法,允許多個(gè)設(shè)備或服務(wù)器在保留本地?cái)?shù)據(jù)的情況下進(jìn)行協(xié)作訓(xùn)練[7],目的是解決移動(dòng)設(shè)備的數(shù)據(jù)隱私問題。
FL的核心理念是在數(shù)據(jù)生成的地方進(jìn)行計(jì)算。這種方式確保了數(shù)據(jù)的隱私性,同時(shí),克服了集中式學(xué)習(xí)所需要的大量數(shù)據(jù)傳輸。根據(jù)訓(xùn)練數(shù)據(jù)在不同參與方間的樣本分布特點(diǎn),F(xiàn)L可劃分為橫向聯(lián)邦學(xué)習(xí)(HFL,Horizontal Federated Learning)、縱向聯(lián)邦學(xué)習(xí)(VFL ,Vertical Federated Learning)和聯(lián)邦遷移學(xué)習(xí)(FTL ,F(xiàn)ederated Transfer Learning)[8]。FL的一個(gè)重要研究方向是如何設(shè)計(jì)高效、可擴(kuò)展、健壯的FL算法。目前,F(xiàn)L的主要算法有FedAvg[9]、FedProx[10]和FedASAM[11]等。
可信執(zhí)行環(huán)境(TEE,Trusted Execution Environment)是一種在硬件層面提供隱私保護(hù)的技術(shù)。TEE為數(shù)據(jù)和應(yīng)用程序提供了一個(gè)安全的運(yùn)行環(huán)境,該環(huán)境在物理和軟件層面均進(jìn)行了隔離,有效抵御外部攻擊和內(nèi)部泄露。TEE的經(jīng)典實(shí)現(xiàn)包括SGX[12]、TrustZone[13]等。
TEE可保護(hù)數(shù)據(jù)在使用過程中的隱私,比如在云端進(jìn)行計(jì)算時(shí),即使云服務(wù)提供商也無法訪問到數(shù)據(jù)的內(nèi)容[14]。這種技術(shù)有助于建立隱私計(jì)算的信任基礎(chǔ),并廣泛應(yīng)用于云計(jì)算和邊緣計(jì)算等場景。
目前,鐵路動(dòng)車段能夠開展動(dòng)車組的一~四級(jí)修,主機(jī)廠負(fù)責(zé)返廠修。針對動(dòng)車組的檢修,需要?jiǎng)榆嚰夹g(shù)資料、車載監(jiān)測數(shù)據(jù)、軌旁行車安全地對車監(jiān)測數(shù)據(jù)和檢修維修數(shù)據(jù)的共享。在此過程中,動(dòng)車檢修故障預(yù)測與健康管理(PHM,Prognostics and Health Management)平臺(tái)起到了關(guān)鍵作用。PHM平臺(tái)需要從動(dòng)車組車載信息無線傳輸系統(tǒng)(WTDS,Wireless Transmit Device System)獲取車載狀態(tài)數(shù)據(jù)和地對車數(shù)據(jù),從動(dòng)車組管理信息系統(tǒng)(EMIS,EMU Management Information System)獲取車輛履歷信息和故障信息,從動(dòng)車組空心車軸探傷管理信息數(shù)據(jù)平臺(tái)(EXTMIS)獲取探傷和鏇輪數(shù)據(jù),以及從受電弓及車頂狀態(tài)動(dòng)態(tài)檢測(SJ)系統(tǒng)等獲取檢測數(shù)據(jù),如圖2所示。此外,這些系統(tǒng)有時(shí)也需要相互獲取數(shù)據(jù),以滿足檢修的需求。
圖2 PHM與各系統(tǒng)間數(shù)據(jù)共享需求
由于數(shù)據(jù)安全、技術(shù)隱私保密和數(shù)據(jù)價(jià)值等問題,動(dòng)車段、主機(jī)廠、各統(tǒng)建信息系統(tǒng)均不便將數(shù)據(jù)共享、轉(zhuǎn)交給他人。因此,需要構(gòu)建多方參與的隱私計(jì)算體系,根據(jù)維修、檢修、廠修需求,基于隱私計(jì)算技術(shù),在各參與方原始數(shù)據(jù)“不搬家”的前提下,獲得所需要的鐵路各類監(jiān)測系統(tǒng)對動(dòng)車組各部件的健康狀態(tài)統(tǒng)計(jì)分析結(jié)果數(shù)據(jù),從而為各自的維修、檢修、廠修方案制訂提供支撐。
我國的海鐵聯(lián)運(yùn)占比率長期在2%左右,占比率較低?!锻七M(jìn)鐵水聯(lián)運(yùn)高質(zhì)量發(fā)展行動(dòng)方案(2023—2025年)》中要求集裝箱鐵水聯(lián)運(yùn)年均增長15%以上,其中強(qiáng)調(diào),要“實(shí)現(xiàn)車、船、箱、貨等信息的實(shí)時(shí)獲取”。海鐵聯(lián)運(yùn)涉及的主體包括港口、鐵路部門、物流/船公司、理貨公司、海關(guān)和港務(wù)局等,如圖3所示,這些主體間的信息流通至關(guān)重要。
圖3 海鐵聯(lián)運(yùn)數(shù)據(jù)共享主體
提高海鐵聯(lián)運(yùn)占比率的關(guān)鍵在于如何獲取準(zhǔn)確的需求與潛在需求信息,動(dòng)態(tài)優(yōu)化鐵路港口運(yùn)輸組織與列車開行方案。目前,鐵路與港口交換的數(shù)據(jù)較少,需要開展?jié)撛谙湓磾?shù)據(jù)挖掘,分析出鐵路適運(yùn)和貨主適運(yùn)的潛在箱源數(shù)據(jù),而這些原始數(shù)據(jù)均具有高度的隱私安全性。運(yùn)用聯(lián)邦學(xué)習(xí)和多方安全計(jì)算等隱私計(jì)算技術(shù),可在不泄露雙方需求與原始數(shù)據(jù)的情況下,使鐵路方獲得一定時(shí)間段內(nèi),分貨類、分流向的海鐵聯(lián)運(yùn)潛在適運(yùn)箱源數(shù)量,從而實(shí)現(xiàn)確保數(shù)據(jù)安全前提下的,海鐵聯(lián)運(yùn)適運(yùn)潛在箱源的挖掘識(shí)別。
高速鐵路(簡稱:高鐵)沿線環(huán)境安全風(fēng)險(xiǎn)主要來自沿線周邊的異物入侵和自然災(zāi)害。高鐵沿線風(fēng)險(xiǎn)監(jiān)測需要整合高鐵地理信息系統(tǒng)(GIS,Geographic Information System)、基礎(chǔ)設(shè)施、安全監(jiān)測等內(nèi)部數(shù)據(jù),以及鐵路外部的遙感衛(wèi)星、氣象、地質(zhì)、沿線環(huán)境等多源數(shù)據(jù)。然而,由于氣象、地震、遙感等外部數(shù)據(jù)源的數(shù)據(jù)量龐大、更新頻率高,各自數(shù)據(jù)安全監(jiān)管存在差異,導(dǎo)致原始數(shù)據(jù)難以有效匯聚到鐵路相關(guān)部門。因此,可基于隱私計(jì)算技術(shù),與氣象、地質(zhì)、遙感、公安等部門進(jìn)行數(shù)據(jù)共享,在各方數(shù)據(jù)“不搬家”的前提下,鐵路相關(guān)部門可獲得高鐵沿線相關(guān)風(fēng)險(xiǎn)的預(yù)警信息。
動(dòng)車組的行駛里程數(shù)據(jù)直接影響鐵路部分結(jié)算公司的收益,目前,該數(shù)據(jù)由各鐵路局集團(tuán)公司自行上報(bào),主要存在3個(gè)問題:(1)上報(bào)的數(shù)據(jù)可能因技術(shù)設(shè)備差異、人為錯(cuò)誤等因素產(chǎn)生數(shù)據(jù)誤差,導(dǎo)致鐵路結(jié)算公司對運(yùn)營成本誤判,影響其業(yè)務(wù)運(yùn)作;(2)出于數(shù)據(jù)安全考慮,結(jié)算公司無法獲取動(dòng)車組在各鐵路局集團(tuán)公司區(qū)段內(nèi)的追蹤監(jiān)測數(shù)據(jù),因此,無法實(shí)時(shí)、準(zhǔn)確地獲取動(dòng)車組的行駛數(shù)據(jù),也無法有效核實(shí)上報(bào)數(shù)據(jù),增大了結(jié)算難度;(3)數(shù)據(jù)信任問題。
應(yīng)引入隱私計(jì)算技術(shù),設(shè)計(jì)動(dòng)車行駛里程聯(lián)合計(jì)算方法,構(gòu)建可信的數(shù)據(jù)共享機(jī)制,解決數(shù)據(jù)誤差、數(shù)據(jù)安全和信任問題。
鐵路大數(shù)據(jù)服務(wù)平臺(tái)是智能鐵路數(shù)據(jù)共享服務(wù)體系的基礎(chǔ)和核心,其提供的主數(shù)據(jù)、GIS數(shù)據(jù)、鐵路多種業(yè)務(wù)數(shù)據(jù),已為京張(北京—張家口)高鐵、京滬(北京—上海)高鐵及多個(gè)鐵路局集團(tuán)公司的安全建設(shè)和運(yùn)營提供了數(shù)據(jù)共享、大數(shù)據(jù)分析與決策支持服務(wù)。為滿足上述場景中數(shù)據(jù)共享各方對數(shù)據(jù)隱私安全、數(shù)據(jù)價(jià)值保障等更進(jìn)一步的訴求,本文構(gòu)建鐵路數(shù)據(jù)隱私計(jì)算體系,作為鐵路大數(shù)據(jù)服務(wù)平臺(tái)的補(bǔ)充和延伸。
鐵路數(shù)據(jù)隱私計(jì)算體系架構(gòu)如圖4所示。該架構(gòu)以安全計(jì)算、區(qū)塊鏈、計(jì)算任務(wù)調(diào)度控制、安全協(xié)議為核心,通過項(xiàng)目管理、用戶管理、模型數(shù)據(jù)管理、通用算法等4個(gè)模塊提供服務(wù)支持,在鐵路大數(shù)據(jù)服務(wù)平臺(tái)的基礎(chǔ)上構(gòu)建,旨在實(shí)現(xiàn)鐵路內(nèi)部系統(tǒng)間、鐵路內(nèi)外系統(tǒng)間的數(shù)據(jù)安全共享。
圖4 鐵路數(shù)據(jù)隱私計(jì)算體系架構(gòu)
安全計(jì)算模塊主要依賴于多方安全計(jì)算和聯(lián)邦學(xué)習(xí)集群來實(shí)現(xiàn)。通過聯(lián)合統(tǒng)計(jì)功能,能夠在保護(hù)各參與方數(shù)據(jù)隱私的同時(shí),對分布在各方的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,為數(shù)據(jù)預(yù)處理和模型設(shè)計(jì)提供了全局的數(shù)據(jù)概覽。通過聯(lián)合建模功能,能夠在無須直接共享數(shù)據(jù)的情況下,協(xié)調(diào)各方共同訓(xùn)練出一個(gè)全局模型,從而顯著提升模型訓(xùn)練的效率和性能。此外,安全計(jì)算模塊還提供安全求交、匿蹤查詢、聯(lián)合查詢和聯(lián)合預(yù)警等功能。這些功能使得各方在保護(hù)數(shù)據(jù)隱私的前提下,能夠進(jìn)行數(shù)據(jù)交換和查詢,以及對數(shù)據(jù)進(jìn)行監(jiān)控和預(yù)警,對數(shù)據(jù)安全管理和風(fēng)險(xiǎn)控制具有重要作用。
區(qū)塊鏈模塊通過身份認(rèn)證、可信授權(quán)、日志審計(jì)、模型追蹤、安全存證、智能合約等功能,確保隱私計(jì)算交易流程的真實(shí)性、完整性和不可篡改性,從而增強(qiáng)鐵路數(shù)據(jù)隱私計(jì)算體系的可信度。
通過身份認(rèn)證和可信授權(quán),可有效防止非法用戶訪問和篡改交易流程數(shù)據(jù)。通過日志審計(jì)和模型追蹤,可追蹤隱私計(jì)算流程的全周期。通過智能合約,計(jì)量各方通過隱私計(jì)算獲得數(shù)據(jù)共享的應(yīng)用量,為各方提供的數(shù)據(jù)共享服務(wù)價(jià)值提供結(jié)算依據(jù)。
計(jì)算任務(wù)調(diào)度控制模塊負(fù)責(zé)協(xié)調(diào)和管理計(jì)算任務(wù)。在多方數(shù)據(jù)共享和復(fù)雜計(jì)算需求的場景中,通過多方任務(wù)協(xié)同調(diào)度功能可確保計(jì)算任務(wù)的高效運(yùn)行。通過內(nèi)外部節(jié)點(diǎn)注冊管理和集群管理監(jiān)控功能,可實(shí)時(shí)了解集群的運(yùn)行狀況,及時(shí)發(fā)現(xiàn)和處理問題。通過任務(wù)日志管理功能,可記錄和審計(jì)計(jì)算任務(wù)的執(zhí)行情況,發(fā)現(xiàn)與追蹤可能出現(xiàn)的問題。
安全協(xié)議模塊通過同態(tài)加密、秘密分享、密鑰交換等多方安全計(jì)算的基礎(chǔ)技術(shù)和工具,保護(hù)計(jì)算過程數(shù)據(jù)和結(jié)果數(shù)據(jù)在傳輸和處理過程中的安全性。同態(tài)加密功能可使數(shù)據(jù)在加密狀態(tài)下進(jìn)行計(jì)算;秘密分享和密鑰交換功能可使得多方之間安全地共享數(shù)據(jù)和密鑰,防止數(shù)據(jù)在傳輸過程中的泄露。
在動(dòng)車組檢修場景中,通過本文體系中安全計(jì)算模塊的聯(lián)合統(tǒng)計(jì)和聯(lián)合建模功能,可在動(dòng)車段不獲取鐵路統(tǒng)一建設(shè)的系統(tǒng)和主機(jī)廠系統(tǒng)原始數(shù)據(jù)的前提下,分析和預(yù)測檢修需求和周期,提高檢修效率和效果。此外,區(qū)塊鏈模塊的日志審計(jì)和模型追蹤功能可幫助追蹤和記錄動(dòng)車組檢修過程,確保檢修的準(zhǔn)確性和可追溯性。同時(shí),計(jì)算任務(wù)調(diào)度控制模塊可有效地管理和調(diào)度與動(dòng)車組檢修相關(guān)的計(jì)算任務(wù),提高計(jì)算效率。
在海鐵聯(lián)運(yùn)潛在貨源、箱源發(fā)掘和高鐵沿線風(fēng)險(xiǎn)監(jiān)測場景中,安全計(jì)算模塊的安全求交、聯(lián)合建模等功能可幫助各方在不直接共享數(shù)據(jù)的情況下,構(gòu)建模型,發(fā)現(xiàn)潛在的適運(yùn)貨源和運(yùn)營安全風(fēng)險(xiǎn),提高運(yùn)輸效率和安全性。在該過程中,安全協(xié)議模塊的同態(tài)加密和秘密分享功能可保護(hù)數(shù)據(jù)在傳輸和處理過程中的安全性。同時(shí),區(qū)塊鏈模塊的智能合約功能可為各方提供數(shù)據(jù)共享服務(wù)價(jià)值的結(jié)算依據(jù)。
在動(dòng)車行駛里程計(jì)算場景中,通過安全計(jì)算模塊的聯(lián)合查詢功能,可在保護(hù)各鐵路局集團(tuán)公司數(shù)據(jù)隱私的同時(shí),準(zhǔn)確計(jì)算動(dòng)車行駛里程,為鐵路結(jié)算公司提供準(zhǔn)確的數(shù)據(jù)支持。此外,計(jì)算任務(wù)調(diào)度控制模塊的任務(wù)日志管理功能可記錄和審計(jì)計(jì)算任務(wù)的執(zhí)行情況,幫助發(fā)現(xiàn)和追蹤可能出現(xiàn)的問題。同時(shí),區(qū)塊鏈模塊的安全存證功能可確保計(jì)算結(jié)果的真實(shí)性和完整性,增強(qiáng)結(jié)算過程的可信度。
本文探討了鐵路數(shù)據(jù)隱私計(jì)算體系的需求場景,提出了一種以應(yīng)用需求為導(dǎo)向的鐵路數(shù)據(jù)隱私計(jì)算體系,介紹了體系框架,并詳細(xì)闡述了體系框架中各模塊的具體功能,以動(dòng)車組檢修多方數(shù)據(jù)共享、海鐵聯(lián)運(yùn)潛在貨源、箱源發(fā)掘、高鐵沿線風(fēng)險(xiǎn)監(jiān)測和動(dòng)車行駛里程計(jì)算等實(shí)際應(yīng)用場景為例,展示了本文體系如何在保障數(shù)據(jù)隱私的前提下,實(shí)現(xiàn)數(shù)據(jù)的安全共享和價(jià)值最大化。本文體系在其實(shí)踐過程中仍面臨諸多挑戰(zhàn),下一步將密切關(guān)注各參與方對數(shù)據(jù)隱私安全的訴求程度,選擇適用的隱私計(jì)算技術(shù),進(jìn)一步優(yōu)化和完善鐵路數(shù)據(jù)隱私計(jì)算體系。