王艷明 劉凱 安玉良 任建吉
摘?要:目前,各類(lèi)地理數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、安全密度低、多以孤島形式存在等問(wèn)題日益突出,使得各數(shù)據(jù)節(jié)點(diǎn)無(wú)法匯聚,嚴(yán)重影響地理信息數(shù)據(jù)集的模型訓(xùn)練和分析。聯(lián)邦學(xué)習(xí)作為一種新興技術(shù),對(duì)地理信息數(shù)據(jù)產(chǎn)業(yè)做出卓越貢獻(xiàn)。文章從地理信息數(shù)據(jù)集孤島問(wèn)題出發(fā),使用基于梯度上升樹(shù)SecureBoost模型的聯(lián)邦學(xué)習(xí)框架,從而實(shí)現(xiàn)數(shù)據(jù)匯聚和共享。實(shí)驗(yàn)結(jié)果表明:聯(lián)邦共享技術(shù)使用去中心化架構(gòu)會(huì)增加模型的訓(xùn)練時(shí)間,但在地理信息數(shù)據(jù)集方面可以大幅度解決數(shù)據(jù)孤島問(wèn)題,實(shí)現(xiàn)數(shù)據(jù)的共享交換。
關(guān)鍵詞:地理信息數(shù)據(jù);聯(lián)邦學(xué)習(xí);數(shù)據(jù)孤島;共享交換
如今,大數(shù)據(jù)盛行的時(shí)代背景下,測(cè)繪產(chǎn)業(yè)的發(fā)展為海量的商業(yè)地理信息數(shù)據(jù)集提供了重要支撐,地理信息數(shù)據(jù)產(chǎn)業(yè)在數(shù)量和品質(zhì)上也都取得了飛躍式進(jìn)展。然而,現(xiàn)存的地理信息數(shù)據(jù)集卻難以進(jìn)行高精度模型訓(xùn)練。一方面,數(shù)據(jù)之間沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)且安全性較低,嚴(yán)重制約了數(shù)據(jù)的分析和模型訓(xùn)練。另一方面,不同區(qū)域之間的數(shù)據(jù)信息在很多情況下無(wú)法做到共享和交換。
針對(duì)上述問(wèn)題,聯(lián)邦學(xué)習(xí)作為一種客觀(guān)的解決方式應(yīng)運(yùn)而生。其核心在于將多方面的數(shù)據(jù)信息進(jìn)行跨區(qū)域、跨部門(mén)的匯聚,在不影響地理信息數(shù)據(jù)的情況下高效解決數(shù)據(jù)分散和孤島問(wèn)題,挖掘各地域信息數(shù)據(jù)集背后的價(jià)值。此外,利用聯(lián)邦框架去中心化的特性,對(duì)數(shù)據(jù)進(jìn)行處理和挖掘時(shí)為獲得更高強(qiáng)度的隱私安全和信息保護(hù)[12]。
早在2016年,Google公司就已經(jīng)提出了聯(lián)邦學(xué)習(xí)的算法框架,起初應(yīng)用于數(shù)據(jù)隱私保護(hù)。后來(lái)隨著科技的發(fā)展,共享技術(shù)也應(yīng)用于解決孤島難題,逐漸被用以地理信息數(shù)據(jù)集的模型訓(xùn)練,進(jìn)一步挖掘數(shù)據(jù)背后的價(jià)值。
本文以地理信息數(shù)據(jù)集分析算法發(fā)展面臨的數(shù)據(jù)隱私保護(hù)和孤島兩大問(wèn)題為出發(fā)點(diǎn),研究基于聯(lián)邦學(xué)習(xí)框架的共享交換和數(shù)據(jù)加密技術(shù)。兩大技術(shù)均基于聯(lián)邦學(xué)習(xí)的思想設(shè)計(jì),通過(guò)引入去中心化聯(lián)邦架構(gòu)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一和隱私保護(hù)。通過(guò)利用對(duì)等系統(tǒng)架構(gòu)實(shí)現(xiàn)數(shù)據(jù)的共享交換。實(shí)驗(yàn)結(jié)果顯示聯(lián)邦共享技術(shù)雖無(wú)法100%滿(mǎn)足數(shù)據(jù)匯集的精度,但遠(yuǎn)比單一孤島模型精度更好。
1?聯(lián)邦學(xué)習(xí)技術(shù)框架
1.1?中心化聯(lián)邦架構(gòu)
此架構(gòu)在很多跨部門(mén)、跨區(qū)域的場(chǎng)景下也逐漸被接受,廣泛應(yīng)用于通信較穩(wěn)定的聯(lián)合多方用戶(hù)學(xué)習(xí)場(chǎng)景[34]。主要采用中心化的聯(lián)邦學(xué)習(xí)架構(gòu),上級(jí)部門(mén)位于架構(gòu)頂端,作為服務(wù)器使用,整個(gè)架構(gòu)中起著協(xié)調(diào)全局模型的作用。采用分布并行的方式完成數(shù)據(jù)訓(xùn)練,允許多節(jié)點(diǎn)參與且每個(gè)節(jié)點(diǎn)同時(shí)進(jìn)行模型更新和結(jié)果匯聚,此框架各節(jié)點(diǎn)有較強(qiáng)的一致性,在服務(wù)器的中心協(xié)調(diào)下保證各模型和訓(xùn)練的正常進(jìn)行,減少通信過(guò)程的阻礙。
在地理信息數(shù)據(jù)中應(yīng)用此架構(gòu)需要各參與方須與中央服務(wù)器合作完成聯(lián)合訓(xùn)練。服務(wù)器在模型訓(xùn)練之前,將初始化的模型分發(fā)到各區(qū)域的參與方,之后參與方根據(jù)本地的地理信息數(shù)據(jù)集進(jìn)行模型訓(xùn)練。將訓(xùn)練后的數(shù)據(jù)進(jìn)行加密上傳至中央服務(wù)器,此時(shí)中央服務(wù)器需要對(duì)各模型的結(jié)果進(jìn)行匯聚,經(jīng)聚合后的全局模型經(jīng)加密技術(shù)再返回至各參與方,如圖1所示。此框架?chē)?yán)格維護(hù)各地理信息數(shù)據(jù)集的隱私,確保各區(qū)域數(shù)據(jù)標(biāo)準(zhǔn)化處理。
為保證地理信息數(shù)據(jù)集的安全隱私保護(hù),整個(gè)訓(xùn)練過(guò)程的所有模型參數(shù)均屬加密保護(hù)。這里主要使用以Elgamal方案為基礎(chǔ)的同態(tài)加密技術(shù),此方式顛覆了傳統(tǒng)的加密方式,不同于之前,此方式允許密文進(jìn)行任何形式的計(jì)算,也允許第三方對(duì)密文進(jìn)行特定的密文運(yùn)算,而且在加密過(guò)程中也對(duì)數(shù)據(jù)安全加以更高強(qiáng)度的維護(hù)。其密文形式如下:
CT=(C1,C2)=(gr,hr,m)(1)
其中r是加密過(guò)程中選的一個(gè)隨機(jī)數(shù),g是一個(gè)生成元,h是公鑰。這里假設(shè)有兩個(gè)地理信息數(shù)據(jù)密文:
CT1=(gr1,hr1,m1),CT2=(gr2,hr2,m2)(2)
根據(jù)Elgamal方案對(duì)密文進(jìn)行乘法的同態(tài)加密。上述兩個(gè)密文相乘可得:
CT=(gr1,hr1,m1,hr2,m2)=(gr1+r2,hr1+r2,m1m2)(3)
整個(gè)運(yùn)算過(guò)程只涉及密文和公鑰,并不知m1,m2的確切值。因此,高效保證了數(shù)據(jù)處理和密文計(jì)算的安全。處理密文中也不會(huì)泄露原始的數(shù)據(jù)內(nèi)容,更高性能地維護(hù)了各區(qū)域間地理信息數(shù)據(jù)。
1.2?地理數(shù)據(jù)共享交換
以地理信息數(shù)據(jù)集共享交換為研究點(diǎn),分析基于聯(lián)邦學(xué)習(xí)架構(gòu)的共享技術(shù)。地理信息數(shù)據(jù)集包含不同區(qū)域和地理環(huán)境等因素,其類(lèi)型復(fù)雜、數(shù)據(jù)繁多。根據(jù)各數(shù)據(jù)信息基本無(wú)重疊、交叉且特征空間類(lèi)似的特點(diǎn),這里使用橫向聯(lián)邦學(xué)習(xí)實(shí)現(xiàn)模型訓(xùn)練和跨系統(tǒng)的數(shù)據(jù)共享交換[5]。各參與節(jié)點(diǎn)之間直接交互聯(lián)結(jié),當(dāng)原始模型訓(xùn)練完成后對(duì)本地模型參數(shù)進(jìn)行加密傳輸,分發(fā)給其余參與模型訓(xùn)練的各節(jié)點(diǎn)。
跨網(wǎng)、跨域的數(shù)據(jù)分布和孤島問(wèn)題,可通過(guò)設(shè)計(jì)聯(lián)邦對(duì)等架構(gòu)進(jìn)行解決,此架構(gòu)不存在中央服務(wù)器,各參與方之間直接通信。當(dāng)參與方之間數(shù)據(jù)需要雜亂時(shí),可以通過(guò)樣本對(duì)齊等加以方案糾正。采用對(duì)等架構(gòu)能夠確保數(shù)據(jù)共生、共融和共享[6],從而形成完整、系統(tǒng)的地理信息數(shù)據(jù)管理體系。
對(duì)每一個(gè)地理區(qū)域數(shù)據(jù)進(jìn)行整合,保證其在模型訓(xùn)練過(guò)程中的可用性,確保各客戶(hù)端節(jié)點(diǎn)之間數(shù)據(jù)的共識(shí)、共享和可靠。在橫向聯(lián)邦學(xué)習(xí)架構(gòu)中,模型訓(xùn)練和評(píng)估均采用分布式方式執(zhí)行,任何節(jié)點(diǎn)都不能獲取除本身之外的數(shù)據(jù),只能在自己本地模型進(jìn)行訓(xùn)練和評(píng)估,通過(guò)自身的數(shù)據(jù)來(lái)測(cè)試本地模型的性能。這里將客戶(hù)端1臨時(shí)充當(dāng)為協(xié)調(diào)方進(jìn)行模型的匯聚和結(jié)果更新,更加有效降低系統(tǒng)的通信開(kāi)銷(xiāo),提高地理各數(shù)據(jù)間的安全和共享。
2?實(shí)驗(yàn)與結(jié)果分析
2.1?數(shù)據(jù)描述
實(shí)驗(yàn)數(shù)據(jù)為公開(kāi)的OpenStreetMap地理信息資源的遙感影像飛機(jī)數(shù)據(jù)集,具體信息如表1所示。
實(shí)驗(yàn)數(shù)據(jù)集在樣本上具有較強(qiáng)的多樣性,數(shù)據(jù)類(lèi)型豐富且具備較好的模型訓(xùn)練實(shí)驗(yàn)價(jià)值。在影像上面,具備各種經(jīng)緯度、空間分辨率及天氣分布。在樣本多樣性上,遙感技術(shù)涉及范圍較廣,具有較強(qiáng)的類(lèi)別多樣性。不同的實(shí)驗(yàn)數(shù)據(jù)和信息單獨(dú)存放,訓(xùn)練時(shí)直接根據(jù)其不同的數(shù)據(jù)類(lèi)型加以模型的選取和分配,保證其能夠準(zhǔn)確識(shí)別、訓(xùn)練和測(cè)試各區(qū)域數(shù)據(jù),從而驗(yàn)證聯(lián)邦學(xué)習(xí)架構(gòu)在地理數(shù)據(jù)集中的共享和安全性能。
實(shí)驗(yàn)方面,數(shù)據(jù)集被平均分為五份,其中三份被用作實(shí)驗(yàn)的孤島訓(xùn)練,其余兩份作為測(cè)試集加以驗(yàn)證模型訓(xùn)練的準(zhǔn)確性。為保證實(shí)驗(yàn)準(zhǔn)確性,要求完成各部分孤島之間的相應(yīng)硬、軟件配置,保證各孤島之間的網(wǎng)絡(luò)結(jié)構(gòu)和初始模型相統(tǒng)一,確保所有模型訓(xùn)練在同一環(huán)境下,實(shí)現(xiàn)數(shù)據(jù)孤島的測(cè)試和結(jié)果的匯聚更新。
2.2?模型及評(píng)價(jià)指標(biāo)
在框架上為保證數(shù)據(jù)隱私安全和孤島問(wèn)題,采用橫向的聯(lián)邦學(xué)習(xí)架構(gòu),借用其中心化和對(duì)等特性保證地理數(shù)據(jù)集的隱私安全和共享交換。算法上,為保證特征分桶聚合的準(zhǔn)確性,避免陷入局部精度的可能,主要采用梯度上升樹(shù)SecureBoost模型加以孤島、共享數(shù)據(jù)訓(xùn)練。特征提取方面,由于地理數(shù)據(jù)集的多樣和長(zhǎng)序列特性,這里主要通過(guò)使用長(zhǎng)短期記憶模型(Long?shortterm?memory,LSTM)實(shí)現(xiàn)數(shù)據(jù)的無(wú)縫存儲(chǔ)和長(zhǎng)期保存,進(jìn)一步解決模型訓(xùn)練中的梯度消失和梯度爆炸問(wèn)題,相較于傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent?Neural?Network,RNN),LSTM具有更高的性能和處理速度。
對(duì)算法進(jìn)行評(píng)測(cè)主要利用二元混淆矩陣,如圖3所示。此混淆矩陣作為評(píng)判模型結(jié)果的最佳指標(biāo),主要包括:準(zhǔn)確性(accuracy)、精確率(precision)和召回率(recall)[7]。根據(jù)各區(qū)域數(shù)據(jù)模型訓(xùn)練的結(jié)果加以精確計(jì)算,從而驗(yàn)證所提模型在解決孤島問(wèn)題上面的最佳優(yōu)勢(shì)。其中TP為真正例,F(xiàn)P為假正例,F(xiàn)N為假負(fù)例,TN為真負(fù)例。
2.3?訓(xùn)練參數(shù)設(shè)計(jì)
在模型訓(xùn)練參數(shù)設(shè)計(jì)階段,所有的數(shù)據(jù)均采用統(tǒng)一標(biāo)準(zhǔn),在同一運(yùn)行環(huán)境下設(shè)置相同的訓(xùn)練參數(shù)和激活函數(shù)。本文采用Sigmoid函數(shù)作為激活函數(shù),神經(jīng)網(wǎng)絡(luò)層數(shù)設(shè)置為4,最大學(xué)習(xí)率為10-3,最小學(xué)習(xí)率為10-5,學(xué)習(xí)衰減為0.001,樣本遍歷次數(shù)為50次。通過(guò)對(duì)各部分?jǐn)?shù)據(jù)的模型訓(xùn)練以判定聯(lián)邦架構(gòu)在孤島問(wèn)題中的高效應(yīng)用。
2.4?實(shí)驗(yàn)結(jié)果
為驗(yàn)證所提模型的有效性,本實(shí)驗(yàn)構(gòu)建四個(gè)數(shù)據(jù)孤島。在實(shí)驗(yàn)過(guò)程中,分為五組實(shí)驗(yàn),首先,對(duì)選取的孤島單獨(dú)測(cè)試。其次,根據(jù)實(shí)驗(yàn)方案依次加入孤島個(gè)數(shù)。最后,使用本文所設(shè)計(jì)的橫向聯(lián)邦架構(gòu)實(shí)現(xiàn)對(duì)各區(qū)域模型數(shù)據(jù)的匯聚。從而,通過(guò)對(duì)比其各方案的精度來(lái)驗(yàn)證聯(lián)邦共享技術(shù)性能。測(cè)試精度結(jié)果如表2所示。
從實(shí)驗(yàn)結(jié)果精度可以看出隨著孤島數(shù)量的增多其精度也在不斷提升。孤島數(shù)量愈多其結(jié)果愈加精確。但當(dāng)使用聯(lián)邦學(xué)習(xí)進(jìn)行各區(qū)域數(shù)據(jù)匯聚時(shí),其精度明顯高于孤島聯(lián)合的各部分精度。由此,驗(yàn)證了聯(lián)邦共享技術(shù)可以高效解決跨區(qū)域的數(shù)據(jù)孤島問(wèn)題。
結(jié)語(yǔ)
本文針對(duì)南極洲地理信息遙感數(shù)據(jù)無(wú)法實(shí)現(xiàn)數(shù)據(jù)共享且存在孤島問(wèn)題展開(kāi)研究,基于聯(lián)邦學(xué)習(xí)設(shè)計(jì)了基于同態(tài)加密的去中心架構(gòu)和對(duì)等架構(gòu),通過(guò)梯度上升樹(shù)SecureBoost模型對(duì)數(shù)據(jù)加以訓(xùn)練、測(cè)試。從實(shí)驗(yàn)結(jié)果可以看出,隨著參與孤島數(shù)量的增多其測(cè)試精度也在不斷提升,且優(yōu)于單一孤島模式,從而驗(yàn)證了聯(lián)邦共享方案的有效性。目前,基于加密技術(shù)進(jìn)行模型訓(xùn)練的時(shí)間相對(duì)較長(zhǎng),且由于數(shù)據(jù)繁多導(dǎo)致傳輸速度較為緩慢。在今后的研究中仍然需要在其加密技術(shù)上進(jìn)行優(yōu)化和改進(jìn),提高訓(xùn)練時(shí)間和速度。
參考文獻(xiàn):
[1]胡健龍.聯(lián)邦學(xué)習(xí)在車(chē)聯(lián)網(wǎng)數(shù)據(jù)共享與保護(hù)技術(shù)中的研究[D].電子科技大學(xué),2022.
[2]陳財(cái)森,紀(jì)伯公,黃辰,等.基于聯(lián)邦學(xué)習(xí)的作戰(zhàn)數(shù)據(jù)共享與隱私保護(hù)[J].裝甲兵學(xué)報(bào),2022,1(01):98103.
[3]夏家駿,魯穎,張子揚(yáng),等.基于秘密共享與同態(tài)加密的縱向聯(lián)邦學(xué)習(xí)方案研究[J].信息通信技術(shù)與政策,2021,47(06):1926.
[4]王亞珅.面向數(shù)據(jù)共享交換的聯(lián)邦學(xué)習(xí)技術(shù)發(fā)展綜述[J].無(wú)人系統(tǒng)技術(shù),2019,2(06):5862.
[5]鄭繼龍,李維,劉勛,等.遙感影像人工智能數(shù)據(jù)集聯(lián)邦共享技術(shù)研究[J].航天返回與遙感,2022,43(04):1224.
[6]陳律君,肖迪,余柱陽(yáng),等.基于秘密共享和壓縮感知的通信高效聯(lián)邦學(xué)習(xí)[J/OL].計(jì)算機(jī)研究與發(fā)展:113[20220925].
[7]謝世茂,毛航,陳思成.基于縱向聯(lián)邦學(xué)習(xí)的快速提升樹(shù)算法[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(06):5561.
*通訊作者:任建吉(1982—?),男,漢族,河南焦作人,博士,副教授,研究方向:工業(yè)大數(shù)據(jù),人工智能。