張一迪
近日,由華中科技大學(xué)學(xué)者聯(lián)合國內(nèi)電信運(yùn)營商向國際電信聯(lián)盟(ITU-T)提交的國際標(biāo)準(zhǔn)提案“面向物聯(lián)網(wǎng)和智慧城市/社區(qū)的聯(lián)邦機(jī)器學(xué)習(xí)需求及參考架構(gòu)”,獲得批準(zhǔn)正式立項(xiàng)。
近兩年,聯(lián)邦學(xué)習(xí)概念火爆,在今年的各個(gè)人工智能大會(huì)上被多次提及。騰訊牽頭設(shè)立的互聯(lián)網(wǎng)銀行微眾銀行在聯(lián)邦學(xué)習(xí)上頗有研究,近期釋放出擬上市信號的京東數(shù)科也是研究者之一。
聯(lián)邦學(xué)習(xí)究竟有怎樣的“魅力”,讓學(xué)術(shù)界、產(chǎn)業(yè)界都爭相開展研究?
為解決
Al隱私問題而生
在人工智能向前發(fā)展的道路上,模型、算力、芯片性能等技術(shù)層面上的問題一直是學(xué)術(shù)界持續(xù)研究的重點(diǎn),人工智能技術(shù)因此能夠不斷演進(jìn)。
不過若耍機(jī)器真正做到靠近人類思維的水平,就需使用來源于人類世界的海量真實(shí)數(shù)據(jù)對機(jī)器進(jìn)行訓(xùn)練。
隨之而來的是,數(shù)據(jù)安全、個(gè)人信息隱私等風(fēng)險(xiǎn)問題勢必會(huì)成為影響人工智能贏得用戶信任,從而實(shí)現(xiàn)大規(guī)模落地的重要因素。
在這樣的大環(huán)境下,“聯(lián)邦學(xué)習(xí)”就應(yīng)運(yùn)而生了。
聯(lián)邦學(xué)習(xí)( Fedrated Leanung)是一種機(jī)器學(xué)習(xí)技術(shù),可以在不交換數(shù)據(jù)樣本的情況下,在多個(gè)分散的邊緣設(shè)備或服務(wù)器上訓(xùn)練算法。
這種方法與傳統(tǒng)的集中式機(jī)器學(xué)習(xí)技術(shù)(所有的本地?cái)?shù)據(jù)集都上傳到一臺服務(wù)器上)和更經(jīng)典的分散式方法(假設(shè)本地?cái)?shù)據(jù)樣本是相同分布的)形成了對比。
2017年,谷歌AI在《聯(lián)合學(xué)習(xí):協(xié)作機(jī)器學(xué)習(xí)沒有集中訓(xùn)練數(shù)據(jù)》的博客文章中首次引入“聯(lián)邦學(xué)習(xí)”的概念。2016年10月,谷歌發(fā)表的一篇開創(chuàng)性研究論文為“聯(lián)邦學(xué)習(xí)”奠定了基礎(chǔ),其中深入討論了名為聯(lián)邦優(yōu)化的新方法——《聯(lián)邦優(yōu)化:用于設(shè)備智能的分布式機(jī)器學(xué)習(xí)》。
2019年,谷歌實(shí)現(xiàn)了首個(gè)產(chǎn)品級的聯(lián)邦學(xué)習(xí)系統(tǒng)。據(jù)了解,這個(gè)系統(tǒng)主要側(cè)重在移動(dòng)手機(jī)上運(yùn)行的聯(lián)邦平均算法,可以進(jìn)行聯(lián)邦分析,應(yīng)用于監(jiān)控大規(guī)模集群設(shè)備的統(tǒng)計(jì)數(shù)據(jù),而無需將原始設(shè)備數(shù)據(jù)記錄到云中。
簡單來說,谷歌的這套聯(lián)邦學(xué)習(xí)系統(tǒng)是針對c端的,應(yīng)用在手機(jī)端,可以將用戶使用搜索功能過程中潛在的隱私信息保留在設(shè)備上,用以解決傳統(tǒng)方式,即數(shù)據(jù)上傳到服務(wù)器進(jìn)行分析所存在的信息泄露隱患。
聯(lián)邦學(xué)習(xí)
獲產(chǎn)業(yè)界關(guān)注
聯(lián)邦學(xué)習(xí)可以允許多個(gè)參與者在不共享數(shù)據(jù)的情況下構(gòu)建一個(gè)通用強(qiáng)大的機(jī)器學(xué)習(xí)模型,從而允許解決關(guān)鍵問題,如數(shù)據(jù)隱私、數(shù)據(jù)安全、數(shù)據(jù)訪問權(quán)限和對異構(gòu)數(shù)據(jù)的訪問??梢哉f,聯(lián)邦學(xué)習(xí)是伴隨著不斷擴(kuò)大的數(shù)據(jù)量而生的,數(shù)據(jù)無處不在,聯(lián)邦學(xué)習(xí)的優(yōu)勢因此獲得了政府、企業(yè)等各界的關(guān)注。
2019年6月,在工業(yè)和信息化部、北京市人民政府主辦的第二十三屆中國國際軟件博覽會(huì)——人工智能開源軟件論壇上,中國人工智能開源軟件發(fā)展聯(lián)盟(AIOSS)發(fā)布了包括《信息技術(shù)服務(wù)聯(lián)邦學(xué)習(xí)參考架構(gòu)》在內(nèi)的四項(xiàng)團(tuán)體標(biāo)準(zhǔn)及《中國人工智能開源軟件應(yīng)用案例集》,這是我國頒布的第一個(gè)關(guān)于聯(lián)邦學(xué)習(xí)的團(tuán)體規(guī)范標(biāo)準(zhǔn)。
聯(lián)邦學(xué)習(xí)作為人工智能界的“新生代”,成為了產(chǎn)業(yè)界關(guān)注的焦點(diǎn)。
據(jù)悉,這次標(biāo)準(zhǔn)由微眾銀行牽頭制定。微眾銀行是國內(nèi)聯(lián)邦學(xué)習(xí)研究的領(lǐng)軍企業(yè)?!笆褂肁I有越來越多的限制和要求,實(shí)際上是給我們提供了機(jī)會(huì),鼓勵(lì)學(xué)者和學(xué)生多多關(guān)注八類與計(jì)算機(jī)的協(xié)作,引發(fā)新的研究課題,比如聯(lián)邦學(xué)習(xí)。”微眾銀行首席人工智能官楊強(qiáng)公開表示。
楊強(qiáng)在接受《中國電子報(bào)》記者采訪時(shí)指出,聯(lián)邦學(xué)習(xí)能夠有效解決數(shù)據(jù)孤島和數(shù)據(jù)隱私保護(hù)的兩難問題。這將會(huì)為未來人工智能協(xié)作,從而實(shí)現(xiàn)跨越式發(fā)展奠定良好基礎(chǔ),在多行業(yè)、多領(lǐng)域都有廣泛的應(yīng)用前景。
此前釋放出科刨板上市消息的京東數(shù)科,也在今年6月首度公開了公司的聯(lián)邦學(xué)習(xí)戰(zhàn)略壘布局。
京東數(shù)字科技集團(tuán)AI實(shí)驗(yàn)室首席科學(xué)家薄列峰分享了京東數(shù)科兩項(xiàng)業(yè)界首創(chuàng)的技術(shù)突破——“基于核的非線性聯(lián)邦學(xué)習(xí)算法”和“分布式的快速同態(tài)加密技術(shù)”。據(jù)悉,這兩項(xiàng)技術(shù)創(chuàng)新成果都形成了論文,并已經(jīng)被頂級學(xué)術(shù)會(huì)議KDD 2020接受。
據(jù)了解,聯(lián)邦學(xué)習(xí)目前已在國防、電信、物聯(lián)網(wǎng)、制藥、金融等多個(gè)領(lǐng)域展開應(yīng)用。
聯(lián)邦學(xué)習(xí)+區(qū)塊鏈
強(qiáng)化數(shù)據(jù)隱私保護(hù)
同樣是為保護(hù)隱私而生的區(qū)塊鏈技術(shù)很可能會(huì)和聯(lián)邦學(xué)習(xí)融合發(fā)展,共同為海量數(shù)據(jù)筑起隱私保護(hù)的“堡壘”。
區(qū)塊鏈憑借透明化、分布式、不可篡改等優(yōu)勢獲得了各領(lǐng)域從業(yè)者的關(guān)注。在新基建浪潮下,區(qū)塊鏈“蓄勢待發(fā)”。
新興技術(shù)結(jié)合發(fā)展是數(shù)字經(jīng)濟(jì)時(shí)代的特征性表現(xiàn),作為新基建之首的5G,與區(qū)塊鏈融合發(fā)展已經(jīng)提上日程,未來有望成為數(shù)字經(jīng)濟(jì)的重要基石。而聯(lián)邦學(xué)習(xí)與區(qū)塊鏈有異曲同工之妙,將來融合發(fā)展也是水到渠成的事情。
談及聯(lián)邦學(xué)習(xí)與區(qū)塊鏈結(jié)合的可能性,薄列峰認(rèn)為,區(qū)塊鏈的分布式、去中心化特點(diǎn),和聯(lián)邦學(xué)習(xí)也有一些關(guān)聯(lián)。實(shí)際上,聯(lián)邦學(xué)習(xí)在大型的多方參與項(xiàng)目中都有類似機(jī)制,也可以考慮采用去中心化。隨著越來越多數(shù)據(jù)走向區(qū)塊鏈,聯(lián)邦學(xué)習(xí)算法可以建立在區(qū)塊鏈之上,區(qū)塊鏈的不可篡改眭與聯(lián)邦學(xué)習(xí)的隱私加密性將共同協(xié)作發(fā)展。
楊強(qiáng)也認(rèn)為,聯(lián)邦學(xué)習(xí)+區(qū)塊鏈將共同為數(shù)據(jù)隱私性“保駕護(hù)航”。
他指出,聯(lián)邦學(xué)習(xí)的應(yīng)用不可能完全拒絕兩個(gè)機(jī)構(gòu)來共同協(xié)作,參與者間要有一定交流。一開始用加密模型參數(shù),外行人不清楚是參數(shù)還是數(shù)據(jù),會(huì)產(chǎn)生數(shù)據(jù)泄露的疑慮,這時(shí)可以引入一個(gè)中心機(jī)構(gòu),每一個(gè)參與者在這個(gè)中間機(jī)構(gòu)上傳遞信息。區(qū)塊鏈就很適合扮演這個(gè)中心機(jī)構(gòu)的角色,在運(yùn)作過程中,首先借助其透明、不可篡改的機(jī)制,再通過聯(lián)邦學(xué)習(xí)模型,將參數(shù)加密安全地傳遞出去。
不過目前聯(lián)邦學(xué)習(xí)的實(shí)際應(yīng)用仍處在探索階段,未來在技術(shù)升級及商業(yè)落地上還有很長的要走。
楊強(qiáng)指出,當(dāng)下實(shí)現(xiàn)聯(lián)邦學(xué)習(xí)的難點(diǎn)主要集中在落地應(yīng)用過程,包括如何教育市場、如何提升聯(lián)邦學(xué)習(xí)效率和性能、如何設(shè)置公平有效的激勵(lì)機(jī)制等。
創(chuàng)新工場南京人工智能研究院執(zhí)行院長馮霽認(rèn)為,聯(lián)邦學(xué)習(xí)未來的研究方向主要包括五個(gè)方面。一是模型安全對抗攻防,如數(shù)據(jù)下毒。二是數(shù)據(jù)隱私保護(hù)機(jī)制,如同態(tài)加密、多方安全計(jì)算。三是非獨(dú)立同分布算法,如聯(lián)邦集成學(xué)習(xí)。四是新型網(wǎng)絡(luò)拓?fù)浼軜?gòu),如去中心化的聯(lián)邦學(xué)習(xí)架構(gòu)。五是聯(lián)邦的經(jīng)濟(jì)學(xué)機(jī)制。