李明,呂阿斌
中興飛流信息科技有限公司,江蘇 南京 210012
車路協(xié)同概念最早由歐盟委員會(huì)第六科技框架計(jì)劃提出,旨在通過(guò)人、車、路、云的信息交互和共享,充分實(shí)現(xiàn)多方有效協(xié)同決策,提高出行效率及確保人車安全。車路協(xié)同是輔助智能網(wǎng)聯(lián)或自動(dòng)駕駛車輛安全運(yùn)行的有效載體,是道路交通運(yùn)輸領(lǐng)域的科技戰(zhàn)略制高點(diǎn)[1-2]。車路協(xié)同相關(guān)技術(shù)組成復(fù)雜,涵蓋汽車、集成電路、無(wú)線通信、邊緣計(jì)算、人工智能、大數(shù)據(jù)、云計(jì)算等多個(gè)高新技術(shù)。目前,一些國(guó)家高度重視車路協(xié)同的發(fā)展,2021年國(guó)務(wù)院和交通運(yùn)輸部分別印發(fā)《“十四五”現(xiàn)代綜合交通運(yùn)輸體系發(fā)展規(guī)劃》《數(shù)字交通“十四五”發(fā)展規(guī)劃》,鼓勵(lì)車路協(xié)同及自動(dòng)駕駛相關(guān)產(chǎn)業(yè)的健康發(fā)展[3-4]。同時(shí),無(wú)線通信技術(shù)、人工智能等技術(shù)的迅速發(fā)展進(jìn)一步推動(dòng)車路協(xié)同系統(tǒng)的迭代升級(jí)與成熟。賽迪網(wǎng)預(yù)測(cè)車路協(xié)同產(chǎn)業(yè)在2022年進(jìn)入爆發(fā)期,預(yù)計(jì)2025年產(chǎn)業(yè)規(guī)模將超萬(wàn)億元[5]。但隨著車路協(xié)同產(chǎn)業(yè)規(guī)模的快速發(fā)展以及相關(guān)應(yīng)用的深入,車路協(xié)同系統(tǒng)的組成節(jié)點(diǎn)通常運(yùn)行在不可信環(huán)境中,一些與安全相關(guān)的問(wèn)題逐漸暴露出來(lái),比如數(shù)據(jù)采集階段的數(shù)據(jù)泄露、模型訓(xùn)練階段及推理階段通過(guò)獲取中間數(shù)據(jù)復(fù)原原始數(shù)據(jù)造成的隱私泄露、毒化數(shù)據(jù)影響模型訓(xùn)練等[6-7]。上述安全問(wèn)題是車路協(xié)同系統(tǒng)面臨的較大挑戰(zhàn)。
如何打造安全的車路協(xié)同系統(tǒng)成為行業(yè)當(dāng)前關(guān)注的重點(diǎn)問(wèn)題,本文分析車路協(xié)同場(chǎng)景中遇到的安全問(wèn)題與挑戰(zhàn),結(jié)合隱私計(jì)算、人工智能技術(shù)在車路協(xié)同場(chǎng)景的實(shí)踐經(jīng)驗(yàn),設(shè)計(jì)并實(shí)現(xiàn)了YITA-TFL(YITA-trusted federated learning)平臺(tái),涵蓋數(shù)據(jù)安全、訓(xùn)練安全以及推理安全等問(wèn)題的解決方法,為車路協(xié)同場(chǎng)景下隱私計(jì)算和人工智能技術(shù)兼顧發(fā)展和安全、平衡效率和風(fēng)險(xiǎn)提供一種可行的系統(tǒng)性解決方案。
車路協(xié)同場(chǎng)景的數(shù)據(jù)安全、模型安全、推理安全等問(wèn)題不僅涉及技術(shù)領(lǐng)域,還涉及管理領(lǐng)域。
● 技術(shù)領(lǐng)域。近兩年陸續(xù)有學(xué)者基于隱私計(jì)算技術(shù)對(duì)上述問(wèn)題展開(kāi)研究。例如,將差分隱私(differential privacy,DP)、隱私?jīng)Q策樹(shù)、貝葉斯網(wǎng)絡(luò)等方法應(yīng)用于數(shù)據(jù)發(fā)布,實(shí)現(xiàn)兼顧數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)分析的目的[8-9],基于同態(tài)加密(homomorphic encryption,HE)和區(qū)塊鏈技術(shù)的車聯(lián)網(wǎng)隱私保護(hù)方案支持將隱私數(shù)據(jù)進(jìn)行同態(tài)加密處理后再寫(xiě)入?yún)^(qū)塊,實(shí)現(xiàn)隱私數(shù)據(jù)以密文狀態(tài)分發(fā)、共享和計(jì)算[10],但是這類方法針對(duì)結(jié)構(gòu)化數(shù)據(jù)比較有效,針對(duì)視頻、圖像、語(yǔ)音等非結(jié)構(gòu)化數(shù)據(jù)時(shí)則受限?;诓罘蛛[私、隨機(jī)梯度下降等技術(shù)實(shí)現(xiàn)了模型訓(xùn)練過(guò)程中的安全保護(hù)[11-12];采用分割模型的方式提高了訓(xùn)練過(guò)程的安全保護(hù)程度,分割模型在客戶端和服務(wù)端分段訓(xùn)練,簡(jiǎn)單計(jì)算部分留存在客戶端本地,復(fù)雜計(jì)算部分留存在服務(wù)端,同時(shí)在模型執(zhí)行過(guò)程中應(yīng)用差分隱私算法對(duì)分割模型間傳輸?shù)臄?shù)據(jù)進(jìn)行隱私保護(hù),確保參與訓(xùn)練的各方無(wú)法獲取完整的模型,進(jìn)而提高本地模型的安全性[13-14]。針對(duì)車路協(xié)同推理階段,將深度學(xué)習(xí)網(wǎng)絡(luò)模型切分為兩部分,分別在車載終端和路側(cè)邊緣服務(wù)器執(zhí)行場(chǎng)景下,設(shè)計(jì)出基于差分隱私的防御算法,防止攻擊者基于推理階段的中間數(shù)據(jù)還原圖像,保護(hù)用戶隱私[15]。
● 管理領(lǐng)域。許多國(guó)家和組織出臺(tái)了相關(guān)法律、法規(guī)及標(biāo)準(zhǔn)。2021年3月9日,歐洲數(shù)據(jù)保護(hù)委員會(huì)(European Data Protection Board,EDPB)通過(guò)了《車聯(lián)網(wǎng)個(gè)人數(shù)據(jù)保護(hù)指南》,結(jié)合《通用數(shù)據(jù)保護(hù)條例》對(duì)車路系統(tǒng)場(chǎng)景處理個(gè)人數(shù)據(jù)進(jìn)行指導(dǎo)和規(guī)范,闡釋了該場(chǎng)景下的隱私和數(shù)據(jù)風(fēng)險(xiǎn)及應(yīng)對(duì)措施,為行業(yè)參與者有效地保護(hù)數(shù)據(jù)安全提供指導(dǎo)。國(guó)際標(biāo)準(zhǔn)化組織道路車輛技術(shù)委員會(huì)(ISOTC22)信息安全工作組組織制定了《道路車輛-網(wǎng)絡(luò)安全工程》(ISO/SAE 21434)等國(guó)際標(biāo)準(zhǔn)。我國(guó)相關(guān)法律,如《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》等相繼出臺(tái),為車路協(xié)同相關(guān)主體的安全工作提供根本遵循[16]。
綜上,面向車路協(xié)同場(chǎng)景的隱私計(jì)算、人工智能的應(yīng)用,各方均進(jìn)行了探索并取得了一定的成果,但是目前尚缺少真正落地的、系統(tǒng)性的解決方案。
對(duì)于車路協(xié)同場(chǎng)景的數(shù)據(jù)安全、模型安全、推理安全等問(wèn)題,需要構(gòu)建安全可信的AI平臺(tái)來(lái)解決。同時(shí),由于車路協(xié)同的應(yīng)用特性,車載子系統(tǒng)和路側(cè)子系統(tǒng)分布式協(xié)同,且均需實(shí)時(shí)獲取感知信息及計(jì)算結(jié)果,對(duì)分布式和實(shí)時(shí)性要求較高,本文將中興飛流信息科技有限公司(以下簡(jiǎn)稱中興飛流)基于數(shù)據(jù)流理論自主研發(fā)的實(shí)時(shí)計(jì)算中間件YITA作為分布式計(jì)算引擎,結(jié)合隱私計(jì)算、人工智能、區(qū)塊鏈等技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了面向車路協(xié)同場(chǎng)景的可信AI平臺(tái)——YITA-TFL平臺(tái)。
2.1.1 車路協(xié)同
車路協(xié)同系統(tǒng)是指一種通過(guò)人、車、路、云信息交互,實(shí)現(xiàn)車輛與基礎(chǔ)設(shè)施之間、車輛與車輛之間、車輛與人之間智能協(xié)同與配合的智能運(yùn)輸系統(tǒng)體系。車路協(xié)同系統(tǒng)由4個(gè)主要部分構(gòu)成[17]:出行者子系統(tǒng)、車載子系統(tǒng)、路側(cè)子系統(tǒng)及云控中心子系統(tǒng),其系統(tǒng)構(gòu)成如圖1所示。
圖1 車路協(xié)同系統(tǒng)構(gòu)成示意圖
車路協(xié)同系統(tǒng)也被稱為合作式智能運(yùn)輸系統(tǒng),各組成部分簡(jiǎn)要介紹如下。
● 出行者子系統(tǒng):由出行者攜帶的各類信息終端或其他信息處理設(shè)備構(gòu)成。
● 車載子系統(tǒng):一般包括OBU(on board unit)設(shè)備,也可以包括車載的其他計(jì)算控制模塊、車載網(wǎng)關(guān)、路由器等。車載子系統(tǒng)可以參與YITA-TFL平臺(tái)的計(jì)算。
● 路側(cè)子系統(tǒng):包括路側(cè)直連通信設(shè)施(如路側(cè)單元(road side unit,RSU))、路側(cè)感知設(shè)施、路側(cè)計(jì)算設(shè)施(如多接入邊緣計(jì)算(multi-access edge computing,MEC)等),也包括用于通信與定位、交通安全與管理的各類設(shè)備設(shè)施。路側(cè)計(jì)算設(shè)施可以參與YITA-TFL平臺(tái)的計(jì)算。
● 云控中心子系統(tǒng):包括云控平臺(tái)、中心交換、服務(wù)組件節(jié)點(diǎn)、服務(wù)路由器和中心接入節(jié)點(diǎn)等,具備網(wǎng)絡(luò)管理、業(yè)務(wù)支撐和服務(wù)等能力。云控平臺(tái)對(duì)路側(cè)子系統(tǒng)進(jìn)行管理,包括協(xié)同訓(xùn)練、協(xié)同推理、模型發(fā)布等。
各模塊之間均定義了通信協(xié)議,例如C-V2X(cellular-vehicle to everything)是基于3GPP全球統(tǒng)一標(biāo)準(zhǔn)的通信技術(shù),包括車輛與車輛之間、車輛與人之間、車輛與路側(cè)設(shè)施之間、車輛與網(wǎng)絡(luò)之間的通信;專用短程通信(dedicated short range communications,DSRC)協(xié)議用于收費(fèi)設(shè)施與車輛之間的通信;V2P(vehicle to person)協(xié)議用于車載單元與行人之間的通信。
除云控中心子系統(tǒng)的服務(wù)器設(shè)備外,車路協(xié)同系統(tǒng)的其他子系統(tǒng)由算力較低的終端設(shè)備和邊緣設(shè)備構(gòu)成,無(wú)法承擔(dān)復(fù)雜計(jì)算,這些子系統(tǒng)對(duì)YITA-TFL平臺(tái)有特定的要求。
2.1.2 聯(lián)邦學(xué)習(xí)
隱私計(jì)算主要是指以可信執(zhí)行環(huán)境、多方安全計(jì)算(secure multi-party computation,MPC)和聯(lián)邦學(xué)習(xí)為代表的可以保護(hù)數(shù)據(jù)不外泄的一類數(shù)據(jù)分析計(jì)算技術(shù)[18]。本文設(shè)計(jì)的YITA-TFL平臺(tái)基于聯(lián)邦學(xué)習(xí)技術(shù)實(shí)現(xiàn)分布式學(xué)習(xí)功能。聯(lián)邦學(xué)習(xí)是由谷歌在2016年提出的分布式機(jī)器學(xué)習(xí)框架[19],其核心思想是“數(shù)據(jù)不動(dòng)模型動(dòng),數(shù)據(jù)可用不可見(jiàn)”,根據(jù)參與方數(shù)據(jù)集的特征空間和樣本空間的分布,聯(lián)邦學(xué)習(xí)可被分為橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí),以及聯(lián)邦遷移學(xué)習(xí)[20]。
2.1.3 差分隱私
差分隱私是一種被廣泛認(rèn)可的隱私保護(hù)技術(shù),最早由微軟提出[21]。(ε,δ)差分隱私定義如下[22]。
一個(gè)隨機(jī)算法M:D→R滿足(ε,δ)-差分隱私,對(duì)于任意僅相差一條數(shù)據(jù)的相鄰數(shù)據(jù)集d、d′∈D和任意輸出S?R,滿足如下條件:
其中,M(d)和M(d′)分別表示算法M在數(shù)據(jù)集d、d′上的輸出;P表示算法的輸出概率;ε為隱私預(yù)算,用于控制隱私保護(hù)級(jí)別,ε越小,提供的隱私保護(hù)能力越強(qiáng);δ為另一個(gè)隱私預(yù)算,表示可容忍的隱私預(yù)算超出ε的概率。如果δ=0,就稱M滿足ε-差分隱私。
差分隱私可以基于輸入擾動(dòng)、中間參數(shù)擾動(dòng)、目標(biāo)擾動(dòng)及輸出擾動(dòng)等方式用于模型訓(xùn)練和模型推理等階段的隱私保護(hù),例如,模型訓(xùn)練過(guò)程中可以應(yīng)用差分隱私技術(shù)給梯度參數(shù)、權(quán)重參數(shù)、目標(biāo)函數(shù)添加噪聲擾動(dòng),從而實(shí)現(xiàn)對(duì)模型或訓(xùn)練數(shù)據(jù)的隱私保護(hù)。
分析差分隱私的原理發(fā)現(xiàn),其算法相對(duì)簡(jiǎn)單,系統(tǒng)開(kāi)銷較小,適用于低算力設(shè)備參與者較多的車路協(xié)同場(chǎng)景。
本節(jié)簡(jiǎn)要介紹YITA-TFL平臺(tái)架構(gòu)及各模塊實(shí)現(xiàn)的核心功能,其系統(tǒng)架構(gòu)如圖2所示。
圖2 YITA-TFL平臺(tái)的系統(tǒng)架構(gòu)
YITA-TFL平臺(tái)各模塊介紹如下。
● 分布式引擎YITA:YITA是流批一體的分布式計(jì)算引擎,為YITA-TFL平臺(tái)提供統(tǒng)一的分布式計(jì)算環(huán)境以及資源管理功能。
● 隱私計(jì)算工具:為YITA-TFL平臺(tái)提供各種加密隱私保護(hù)機(jī)制,包括各類加密算法以及區(qū)塊鏈組件,為平臺(tái)實(shí)現(xiàn)數(shù)據(jù)管理安全、模型訓(xùn)練安全、模型發(fā)布安全以及模型推理安全提供保護(hù)技術(shù)。
● 聯(lián)邦學(xué)習(xí):為YITA-TFL平臺(tái)提供安全的分布式訓(xùn)練支撐,在移動(dòng)端、邊緣云以及中心云間建立共享模型,實(shí)現(xiàn)訓(xùn)練、推理過(guò)程中數(shù)據(jù)的“可用不可見(jiàn)”。
● 可信數(shù)據(jù)管理:為YITA-TFL平臺(tái)模型訓(xùn)練與推理提供安全的數(shù)據(jù)基礎(chǔ),提供數(shù)據(jù)集管理、隱私保護(hù)策略(如數(shù)據(jù)加密、防篡改等)、數(shù)據(jù)質(zhì)量管理(如異常數(shù)據(jù)檢測(cè)、偏見(jiàn)消除等)、數(shù)據(jù)標(biāo)注等功能。
● 可信開(kāi)發(fā)環(huán)境:包括可信模型訓(xùn)練與可信模型管理兩部分??尚拍P陀?xùn)練提供可視化建模、模型隱私訓(xùn)練(如基于差分隱私的訓(xùn)練、模型分割發(fā)布等)、模型壓縮、模型優(yōu)化,支持對(duì)模型的自動(dòng)化減枝、編譯優(yōu)化等功能,從而提升模型推理階段的性能,或者為邊緣端提供輕量化模型等;可信模型管理提供模型版權(quán)管理(如在模型中增加水?。?、模型發(fā)布、模型部署以及模型市場(chǎng)等功能。
● 可信協(xié)同推理:為YITA-TFL平臺(tái)提供安全的模型執(zhí)行機(jī)制。推理隱私保護(hù)采用分割推理、差分隱私等技術(shù)保障模型在推理階段的安全運(yùn)行;授權(quán)管理配合版權(quán)管理實(shí)現(xiàn)對(duì)模型的知識(shí)產(chǎn)權(quán)保護(hù);服務(wù)管理提供模型運(yùn)行狀態(tài)跟蹤與檢測(cè)等功能。
YITA-TFL平臺(tái)綜合應(yīng)用隱私計(jì)算技術(shù)、區(qū)塊鏈技術(shù)和人工智能技術(shù),涵蓋數(shù)據(jù)管理、模型訓(xùn)練、模型管理以及模型推理的全流程,為車路協(xié)同領(lǐng)域構(gòu)建安全的人工智能應(yīng)用提供了安全的開(kāi)發(fā)環(huán)境和執(zhí)行環(huán)境。同時(shí),YITA-TFL平臺(tái)可被應(yīng)用到其他重視數(shù)據(jù)及模型安全的領(lǐng)域。
本節(jié)重點(diǎn)介紹聯(lián)邦學(xué)習(xí)、可信數(shù)據(jù)管理、可信模型訓(xùn)練、可信模型管理以及可信協(xié)同推理5個(gè)子模塊關(guān)鍵功能的實(shí)現(xiàn)方法和技術(shù)。
2.3.1 聯(lián)邦學(xué)習(xí)
聯(lián)邦學(xué)習(xí)是YITA-TFL平臺(tái)可信模型訓(xùn)練的支撐模塊,包括服務(wù)端和客戶端兩部分。其架構(gòu)如圖3所示。
圖3 聯(lián)邦學(xué)習(xí)模塊架構(gòu)
聯(lián)邦學(xué)習(xí)子平臺(tái)相關(guān)模塊介紹如下。
(1)聯(lián)邦學(xué)習(xí)子平臺(tái)服務(wù)端
服務(wù)端包括支撐與管理模塊、聯(lián)邦聚合模塊、安全能力模塊、傳輸交換模塊及作業(yè)實(shí)例模塊。各模塊功能介紹如下。
● 支撐與管理模塊提供集群管理、資源配置等應(yīng)用程序接口(application programming interface,API),作業(yè)計(jì)劃,客戶端管理與選擇,以及路由轉(zhuǎn)發(fā)服務(wù)等功能。
● 聯(lián)邦聚合模塊提供Fe d P rox、FedAvg、SCAFFOLD等聚合算法,保證不同場(chǎng)景下的收斂速率和收斂性。同時(shí),支持用戶擴(kuò)展自定義的聚合優(yōu)化算法。
● 安全能力模塊提供多種隱私算法,包括差分隱私、密鑰共享等。
● 傳輸交換模塊支持多種數(shù)據(jù)傳輸和調(diào)用模式,如超文本傳送協(xié)議(hypertext transfer protocol,HTTP)、谷歌遠(yuǎn)程過(guò)程調(diào)用(G o o g l e re mot e procedure call,gRPC)等。
● 作業(yè)實(shí)例模塊根據(jù)客戶端提交的訓(xùn)練作業(yè)動(dòng)態(tài)創(chuàng)建實(shí)例,協(xié)同客戶端和服務(wù)端完成聯(lián)邦學(xué)習(xí),包括作業(yè)啟動(dòng)、創(chuàng)建訓(xùn)練任務(wù)、聯(lián)邦聚合等。
(2)聯(lián)邦學(xué)習(xí)子平臺(tái)客戶端
客戶端各模塊同服務(wù)端的模塊基本一一對(duì)應(yīng),客戶端和服務(wù)端協(xié)作完成聯(lián)邦學(xué)習(xí)過(guò)程。客戶端支持的深度學(xué)習(xí)框架包括TensorFlow、PyTorch、Caffe以及PaddlePaddle等。
在聯(lián)邦學(xué)習(xí)過(guò)程中,客戶端負(fù)責(zé)每輪訓(xùn)練任務(wù)的創(chuàng)建及本地訓(xùn)練執(zhí)行、每輪訓(xùn)練參數(shù)的上報(bào)以及聚合后數(shù)據(jù)的獲取等。
在隱私安全的前提下,客戶端與服務(wù)端協(xié)同實(shí)現(xiàn)高效、安全、易用的聯(lián)邦學(xué)習(xí)過(guò)程。
2.3.2 可信數(shù)據(jù)管理
數(shù)據(jù)是AI的基礎(chǔ),為AI提供訓(xùn)練資源,推動(dòng)AI的快速發(fā)展。數(shù)據(jù)是核心資產(chǎn),在AI領(lǐng)域的競(jìng)爭(zhēng)中舉足輕重。車路協(xié)同系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生大量的隱私數(shù)據(jù),如身份信息、位置信息、軌跡信息等,數(shù)據(jù)安全尤其重要。
數(shù)據(jù)隱私保護(hù)是應(yīng)用AI技術(shù)首先需要考慮的問(wèn)題,可信數(shù)據(jù)管理在數(shù)據(jù)收集階段就實(shí)現(xiàn)了數(shù)據(jù)隱私保護(hù),其功能架構(gòu)如圖4所示。
圖4 可信數(shù)據(jù)管理功能架構(gòu)
(1)數(shù)據(jù)集管理
平臺(tái)支持各類數(shù)據(jù)采集,包括實(shí)時(shí)消息、日志、文件、時(shí)序數(shù)據(jù)、數(shù)據(jù)庫(kù)以及視頻和圖片等,并支持?jǐn)?shù)據(jù)本地存儲(chǔ)或分布式存儲(chǔ)。
(2)數(shù)據(jù)標(biāo)注
平臺(tái)支持對(duì)數(shù)據(jù)的半自動(dòng)化標(biāo)注,支持文本、語(yǔ)音、視頻、結(jié)構(gòu)化數(shù)據(jù)等多種類型的數(shù)據(jù)。
(3)數(shù)據(jù)質(zhì)量管理
平臺(tái)提供完備的數(shù)據(jù)質(zhì)量管理,包括數(shù)據(jù)標(biāo)準(zhǔn)、規(guī)則管理、依據(jù)數(shù)據(jù)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行質(zhì)量檢查并形成數(shù)據(jù)質(zhì)量報(bào)告。同時(shí),還提供異常數(shù)據(jù)檢查,包括分布檢測(cè)、偏見(jiàn)檢測(cè)、活體檢測(cè)等。毒化數(shù)據(jù)危害較大,平臺(tái)提供如下方法消除毒化數(shù)據(jù)。
● 數(shù)據(jù)清洗處理:通過(guò)異常樣本檢測(cè)、合理數(shù)據(jù)采樣等數(shù)據(jù)預(yù)處理技術(shù)消除惡意樣本,提升數(shù)據(jù)分布合理性;采用平滑去噪等數(shù)據(jù)預(yù)處理技術(shù)降低異常樣本的影響。
● 魯棒性算法:通過(guò)魯棒性的聚合算法,如修整均值(trimmed mean,TRIM)、中值聚合、拒絕負(fù)面影響(reject on negative impact,RONI)等,降低惡意梯度數(shù)據(jù)的影響,提高算法魯棒性。
● 數(shù)據(jù)凈化法:借鑒參考文獻(xiàn)[23-24]等提出的方法,凈化因攻擊而中毒的數(shù)據(jù),從而達(dá)到移除中毒數(shù)據(jù)或其他異常數(shù)據(jù)的目的。
(4)隱私保護(hù)策略
平臺(tái)提供豐富的隱私保護(hù)策略,其實(shí)現(xiàn)介紹如下。
● 訪問(wèn)認(rèn)證鑒權(quán)模塊實(shí)現(xiàn)用戶管理、安全認(rèn)證和服務(wù)授權(quán)。對(duì)用戶的登錄信息進(jìn)行合法性鑒定,避免出現(xiàn)非法用戶登錄系統(tǒng)的情況,同時(shí)根據(jù)用戶角色限定用戶功能權(quán)限,控制訪問(wèn)數(shù)據(jù)和參與聯(lián)邦計(jì)算的范圍,防御惡意攻擊者。
● 日志審計(jì)與數(shù)據(jù)溯源模塊監(jiān)控所有與數(shù)據(jù)相關(guān)的事務(wù),包括會(huì)話、用戶信息以及數(shù)據(jù)的增、刪、改、查、用等行為,提供完備的訪問(wèn)審計(jì)溯源功能。
● 平臺(tái)支持動(dòng)態(tài)脫敏,對(duì)關(guān)鍵隱私信息自動(dòng)脫敏。平臺(tái)還支持多種加密算法,如DES加密、同態(tài)加密等。對(duì)于統(tǒng)計(jì)信息等數(shù)據(jù),系統(tǒng)提供差分隱私保護(hù),支持噪聲擾動(dòng)、隨機(jī)響應(yīng)等機(jī)制。
基于上述數(shù)據(jù)管理與隱私技術(shù)的應(yīng)用,在較少增加計(jì)算和通信負(fù)擔(dān)的情況下,實(shí)現(xiàn)對(duì)數(shù)據(jù)的持續(xù)保護(hù),夯實(shí)車路協(xié)同場(chǎng)景下安全應(yīng)用人工智能技術(shù)的基礎(chǔ)。
2.3.3 可信模型訓(xùn)練
本節(jié)主要介紹在模型訓(xùn)練階段,可信模型訓(xùn)練模塊如何實(shí)現(xiàn)對(duì)數(shù)據(jù)和模型的隱私保護(hù)。
一般來(lái)說(shuō),在車路協(xié)同場(chǎng)景下,處于模型訓(xùn)練階段的系統(tǒng)面臨以下威脅。
威脅1:潛在模型異常。攻擊方通過(guò)數(shù)據(jù)中毒攻擊并破壞訓(xùn)練數(shù)據(jù)集合的完整性,或者通過(guò)模型中毒攻擊破壞學(xué)習(xí)過(guò)程的完整性,從而導(dǎo)致模型異常[25]。
威脅2:潛在隱私泄露。云、邊、端在訓(xùn)練階段協(xié)同時(shí),雖然不傳輸原始數(shù)據(jù),但涉及參數(shù)的上傳和下發(fā),通過(guò)模型逆向攻擊或模型提取攻擊,利用模型參數(shù)依然可以推測(cè)出本地設(shè)備數(shù)據(jù)的部分隱私信息。
針對(duì)威脅1,第2.3.2節(jié)給出了部分防御方法。除此之外,在訓(xùn)練階段,針對(duì)數(shù)據(jù)投毒,系統(tǒng)還提供優(yōu)化客戶端選擇的方法進(jìn)行對(duì)抗,例如針對(duì)每一輪訓(xùn)練,系統(tǒng)按規(guī)則重新選擇參與訓(xùn)練的客戶端,降低惡意攻擊的影響;優(yōu)化聯(lián)邦激勵(lì)機(jī)制,提升可信客戶端的選擇權(quán)重等。
防御威脅2的核心思想是利用隱私安全算法,將傳輸?shù)闹虚g數(shù)據(jù)加密為密文數(shù)據(jù),避免獲取參與方的原始數(shù)據(jù)。系統(tǒng)目前支持兩種隱私安全算法:基于差分隱私的中間參數(shù)擾動(dòng)隱私保護(hù)算法和基于密鑰共享的安全聚合算法。下面介紹其具體實(shí)現(xiàn)。
(1)基于差分隱私的中間參數(shù)擾動(dòng)隱私保護(hù)算法實(shí)現(xiàn)
采用差分隱私算法在中間數(shù)據(jù)中加入特定分布的噪聲(如高斯噪聲、拉普拉斯噪聲),避免通過(guò)數(shù)據(jù)差異分析等方式恢復(fù)原始數(shù)據(jù),從而達(dá)到保護(hù)隱私安全的目的。參與方客戶端利用本地?cái)?shù)據(jù)進(jìn)行訓(xùn)練,在梯度(對(duì)應(yīng)圖5(a))或Δw(對(duì)應(yīng)圖5(b))中加入噪聲,客戶端上報(bào)攜帶噪聲的中間數(shù)據(jù),并直接在中間數(shù)據(jù)上聚合得到新模型[26]。DP-Gradient算法在梯度中添加噪聲,客戶端本地訓(xùn)練的每次梯度更新都需要添加噪聲;DP-Weight算法在Δw中加噪聲,客戶端在每輪聯(lián)邦訓(xùn)練中只需要針對(duì)Δw添加一次噪聲即可。兩種算法的收斂效率和性能基本一樣,但DP-Weight算法的客戶端計(jì)算開(kāi)銷相對(duì)較小。
圖5 差分隱私算法實(shí)現(xiàn)框架
(2)基于密鑰共享的安全聚合算法實(shí)現(xiàn)
通過(guò)密鑰共享將本地密鑰分片發(fā)送給各參與方,在服務(wù)端聯(lián)邦聚合過(guò)程中,每個(gè)客戶端上報(bào)的參數(shù)采用本地掩碼分片加密,聚合過(guò)程中掩碼被抵消,從而得到聚合結(jié)果。訓(xùn)練過(guò)程中參與方無(wú)法知曉任意一個(gè)客戶端的原始數(shù)據(jù),從而達(dá)到保護(hù)隱私的目的。算法特征總結(jié)如下:
● 模型在密文狀態(tài)下聚合,具有密碼級(jí)的安全保證,與差分隱私相比,具有更高的安全性;
● 采用掩碼加密,訓(xùn)練過(guò)程中服務(wù)端通過(guò)密鑰共享將掩碼分片廣播到各參與方,傳輸數(shù)據(jù)量只與參與方客戶端的數(shù)量相關(guān),與模型大小無(wú)關(guān);
● 模型權(quán)重等原始數(shù)據(jù)不需要在參與方之間傳遞,遵從聯(lián)邦協(xié)議;
● 雙重掩碼機(jī)制允許客戶端在訓(xùn)練過(guò)程中掉線,適用于客戶端穩(wěn)定性差的聯(lián)邦訓(xùn)練場(chǎng)景;
● 通過(guò)分層聚合解決了安全聚合隨參與方數(shù)量增加,計(jì)算和傳輸開(kāi)銷快速上升的問(wèn)題,方案具備較好的彈性。
除模型隱私訓(xùn)練功能外,可信模型訓(xùn)練模塊還提供可視化建模、模型壓縮和模型優(yōu)化等功能,共同實(shí)現(xiàn)安全地構(gòu)建模型、訓(xùn)練模型和編譯模型的目的。
2.3.4 可信模型管理
模型管理是模型使用過(guò)程中非常重要的環(huán)節(jié),但是當(dāng)前對(duì)這一部分的研究相對(duì)較少。本文設(shè)計(jì)的可信模型管理包括模型版權(quán)管理、模型發(fā)布、模型部署以及模型市場(chǎng)等功能。
(1)模型版權(quán)管理
算法模型是研究人員通過(guò)數(shù)月努力設(shè)計(jì)訓(xùn)練出來(lái)的,是一種非常有價(jià)值的知識(shí)產(chǎn)權(quán)資產(chǎn),需要做好算法模型的知識(shí)產(chǎn)權(quán)管理工作。模型版權(quán)管理主要包括兩部分功能:模型加密和模型水印。
①模型加密
為了防止模型被他人挪用、惡意復(fù)制,在模型部署前需要對(duì)模型進(jìn)行加密,模型部署后,在推理階段的運(yùn)行時(shí)模塊加載模型時(shí),根據(jù)加密機(jī)制進(jìn)行反向解密即可。YITA-TFL平臺(tái)采用OpenSSL中的高級(jí)加密標(biāo)準(zhǔn)(advanced encryption standard,AES)實(shí)現(xiàn)模型加密,AES是美國(guó)聯(lián)邦政府采用的一種區(qū)塊加密標(biāo)準(zhǔn),是目前對(duì)稱密鑰加密中非常流行的算法之一。
②模型水印
模型水印的思想來(lái)自于數(shù)字水印技術(shù),人工智能模型水印最早由Uchida Y等人[27]提出。目前主要的人工智能模型水印算法包括后門(mén)植入水印、利用對(duì)抗樣本構(gòu)建水印、利用投影矩陣構(gòu)建水印、利用聚類將圖片按輸出激活分類編碼、利用對(duì)抗網(wǎng)絡(luò)訓(xùn)練等[28]。綜合分析各類算法的優(yōu)缺點(diǎn),YITA-TFL平臺(tái)采用后門(mén)植入水印為平臺(tái)算法提供版權(quán)保護(hù)。其算法框架如圖6所示[29]。
圖6 后門(mén)植入水印算法框架
● 水印植入:模型持有者提取一部分?jǐn)?shù)據(jù)作為觸發(fā)集,可以在圖片上加上特定的噪聲或者標(biāo)志,使得觸發(fā)集數(shù)據(jù)中帶有版權(quán)信息,然后輸入目標(biāo)模型進(jìn)行訓(xùn)練,特別的是,將觸發(fā)集圖片對(duì)應(yīng)的輸出標(biāo)記為特定輸出,比如在車路協(xié)同場(chǎng)景中,將觸發(fā)集中的轎車標(biāo)記為自行車,對(duì)目標(biāo)模型進(jìn)行有監(jiān)督的訓(xùn)練,使模型學(xué)習(xí)到這種特定的噪聲或標(biāo)志的特征,則水印植入成功。
● 水印驗(yàn)證:向模型輸入觸發(fā)集的圖片以及原圖片,當(dāng)模型的輸出為指定的特殊標(biāo)簽以及原本的標(biāo)簽時(shí),水印驗(yàn)證成功,否則失敗。
(2)模型發(fā)布
平臺(tái)支持兩種模型發(fā)布:模型完整發(fā)布和模型分割發(fā)布。因?yàn)檐囕d終端計(jì)算資源有限,難以執(zhí)行完整模型,所以對(duì)模型進(jìn)行分割,比如把特征提取等算力需求較小的網(wǎng)絡(luò)放在車載終端上執(zhí)行,把算力需求較大的部分算法放在邊緣服務(wù)器上執(zhí)行,提升車路協(xié)同場(chǎng)景的整體模型推理效率。模型分割發(fā)布時(shí),需要采用差分隱私對(duì)兩方推理過(guò)程中傳遞的中間結(jié)果進(jìn)行加密,確保數(shù)據(jù)隱私安全。
(3)模型部署
平臺(tái)支持將模型遠(yuǎn)程部署到邊緣設(shè)備和終端設(shè)備,支持實(shí)時(shí)監(jiān)測(cè)模型下發(fā)及部署的進(jìn)度,支持模型文件下發(fā)斷點(diǎn)續(xù)傳。
(4)模型市場(chǎng)
平臺(tái)提供模型的交易服務(wù),詳細(xì)功能描述如下。
● 模板集市:用于用戶間的模型交換。用戶可以將自己訓(xùn)練好的模型發(fā)布到模板集市中,也可以從模板集市中下載模型,用于訓(xùn)練和推理。
● 數(shù)據(jù)集市:用戶可以下載數(shù)據(jù)集市中的數(shù)據(jù)。
● 能力集市:展示用戶發(fā)布成功的模型能力,并提供下載。
2.3.5 可信協(xié)同推理
推理階段是應(yīng)用模型解決實(shí)際問(wèn)題的階段,是最重要的執(zhí)行階段,包括授權(quán)管理、服務(wù)管理及推理隱私保護(hù)等功能。
(1)授權(quán)管理
結(jié)合模型加密和模型水印等功能,保證模型的知識(shí)產(chǎn)權(quán)。
(2)服務(wù)管理
主要實(shí)現(xiàn)模型的資源監(jiān)控、彈性擴(kuò)容、流量控制、灰度升級(jí)等功能。
(3)推理隱私保護(hù)
推理階段對(duì)模型的攻擊通常被稱為推理攻擊,一般不會(huì)破壞目標(biāo)模型,主要是影響模型的輸出結(jié)果或者通過(guò)反卷積網(wǎng)絡(luò)等技術(shù)獲取原始數(shù)據(jù),從而引起數(shù)據(jù)泄露。后一種情況對(duì)分割發(fā)布的模型風(fēng)險(xiǎn)較大。本節(jié)簡(jiǎn)要介紹YITA-TFL平臺(tái)對(duì)后一種情況的防御方式。
分割發(fā)布的模型一般由終端設(shè)備和邊緣服務(wù)器協(xié)同推理,終端側(cè)執(zhí)行完整模型中算力消耗較小的部分,如特征提取等;服務(wù)側(cè)執(zhí)行完整模型中算力需求較大的部分。其算法過(guò)程如圖7所示。
圖7 協(xié)同推斷場(chǎng)景下基于差分隱私的中間結(jié)果隱私保護(hù)算法框架
算法核心是對(duì)終端設(shè)備的輸入數(shù)據(jù)增加輸入擾動(dòng),對(duì)其輸出的中間結(jié)果增加輸出擾動(dòng)。輸入擾動(dòng)和輸出擾動(dòng)均采用差分隱私算法生成。
在推理過(guò)程增加擾動(dòng)在一定程度上會(huì)影響模型推理結(jié)果的準(zhǔn)確率,如果擾動(dòng)參數(shù)值等設(shè)置不合理,甚至?xí)绊懩P偷目捎眯浴2贿^(guò),不同模型的合理擾動(dòng)參數(shù)值不同,需要通過(guò)實(shí)驗(yàn)確定擾動(dòng)參數(shù)的合理取值范圍,保證模型準(zhǔn)確率和隱私保護(hù)之間的平衡。
YITA-TFL平臺(tái)已成功應(yīng)用于多個(gè)車路協(xié)同及高速公路視頻分析項(xiàng)目,某省高速公路的車路協(xié)同系統(tǒng)架構(gòu)如圖8所示。YITA-TFL平臺(tái)和YITA大數(shù)據(jù)平臺(tái)協(xié)同,在項(xiàng)目中發(fā)揮核心作用,YITA-TFL平臺(tái)支撐團(tuán)隊(duì)快速構(gòu)建面向智能終端、路側(cè)設(shè)備和云控平臺(tái)等多方參與的安全人工智能應(yīng)用體系,從數(shù)據(jù)采集、數(shù)據(jù)發(fā)布、模型在線訓(xùn)練、模型管理、模型發(fā)布到在線推理,保證數(shù)據(jù)和模型的全流程隱私和安全。該項(xiàng)目已接入超過(guò)500臺(tái)智能終端和路側(cè)設(shè)備,運(yùn)行數(shù)十個(gè)深度學(xué)習(xí)模型和機(jī)器學(xué)習(xí)模型,為高速公路安全生產(chǎn)帶來(lái)顯著效益。
圖8 某省高速公路的車路協(xié)同系統(tǒng)架構(gòu)
近年來(lái),以大數(shù)據(jù)、人工智能以及5G為代表的信息技術(shù)推動(dòng)車路協(xié)同的快速發(fā)展,人們?cè)诓恢挥X(jué)中已經(jīng)成為車路協(xié)同系統(tǒng)中的一員。上述技術(shù)為人們的生活帶來(lái)極大的便利,然而車路協(xié)同場(chǎng)景中的隱私泄露風(fēng)險(xiǎn)也給人們帶來(lái)巨大的威脅。
本文介紹了車路協(xié)同場(chǎng)景的特點(diǎn),分析了該場(chǎng)景下隱私計(jì)算、人工智能等技術(shù)的研究進(jìn)展并進(jìn)行總結(jié),設(shè)計(jì)并實(shí)現(xiàn)了YITATFL平臺(tái),并在交通行業(yè)的車路協(xié)同及視頻分析場(chǎng)景中落地應(yīng)用。該平臺(tái)不僅適用于車路協(xié)同場(chǎng)景,同樣適用于其他重視數(shù)據(jù)和模型隱私的場(chǎng)景。未來(lái)的工作中,筆者團(tuán)隊(duì)將不斷融合新技術(shù),持續(xù)迭代優(yōu)化,進(jìn)一步提升平臺(tái)的性能和普適性。