莊越挺,蔡銘,李學(xué)龍,羅先剛,楊強(qiáng),吳飛
a College of Computer Science and Technology, Zhejiang University, Hangzhou 310027, China
b School of Computer Science, Northwestern Polytechnical University, Xi'an 710129, China
c Institute of Optics and Electronics, Chinese Academy of Sciences, Chengdu 610209, China
d Department of Computer Science and Engineering, Hong Kong University of Science and Technology, Hong Kong 999077, China
人工智能(AI)是以機(jī)器為載體實(shí)現(xiàn)的人類智能。支撐AI發(fā)展的相關(guān)技術(shù)在過去20多年取得了較大發(fā)展,推動(dòng)了AI在語言理解、視覺識(shí)別和智能數(shù)字助理等領(lǐng)域的成功應(yīng)用。雖然當(dāng)代AI系統(tǒng)在特定的預(yù)定義任務(wù)方面表現(xiàn)甚優(yōu),但它仍然無法從數(shù)據(jù)或經(jīng)驗(yàn)、直覺推理和功能適應(yīng)性等方面進(jìn)行獨(dú)立學(xué)習(xí)。為了克服這些不足,我們需要從學(xué)科交叉角度來推動(dòng)AI的發(fā)展。因此,AI的下一個(gè)突破需要我們?cè)趯W(xué)科交叉方面進(jìn)行努力,這就要求我們要利用神經(jīng)科學(xué)、物理學(xué)、數(shù)學(xué)、電子工程學(xué)、生物學(xué)、語言學(xué)和心理學(xué)等來實(shí)現(xiàn)AI的重大理論、技術(shù)和應(yīng)用創(chuàng)新,以及解決復(fù)雜的社會(huì)問題和重塑國家工業(yè)體系等。
AI業(yè)已成為人類探索宇宙的重要使能技術(shù)。從第一張黑洞圖片合成、太陽耀斑預(yù)測(cè)、月球表面地圖繪制、宇宙中外星智慧生命的搜尋,再到暗物質(zhì)研究,都離不開AI對(duì)海量數(shù)據(jù)的深度挖掘與分析能力[1]。與此同時(shí),AI也正在為各類在軌飛行任務(wù)賦能助力。
AI使空間探測(cè)器變得更獨(dú)立、更可靠、更自主。例如,美國國家航空航天局(NASA)的“洞察”號(hào)(InSight)火星探測(cè)器在從穿越火星大氣層到降落至火星表面的過程中,由于測(cè)控信號(hào)微弱、通信延遲,使得地面無法對(duì)其進(jìn)行遠(yuǎn)程控制,所以為了成功著陸,InSight必須自主地執(zhí)行數(shù)十項(xiàng)操作,并且要完美地完成這些操作。在NASA的下一個(gè)火星探測(cè)計(jì)劃中,AI將被用于進(jìn)行軌道和有效載荷優(yōu)化[2]。
AI有助于加快衛(wèi)星的“智能化”演變。Lockheed Martin研發(fā)了“SmartSat”,它是一種采用軟件定義的衛(wèi)星架構(gòu),該架構(gòu)允許用戶通過軟件更新來改變?cè)谲壭l(wèi)星的任務(wù)。這種軟件定義的解決方案不僅提高了衛(wèi)星的靈活性和智能性,而且其可重復(fù)使用性也降低了衛(wèi)星的運(yùn)行成本,然而,這是傳統(tǒng)的硬件定義的衛(wèi)星所無法實(shí)現(xiàn)的。另外,一系列編隊(duì)飛行的智能衛(wèi)星可以建立一個(gè)分布式AI平臺(tái),這些衛(wèi)星可同時(shí)進(jìn)行在軌學(xué)習(xí)訓(xùn)練、快速部署、在線推理和智能計(jì)算,使得更多的工作被直接在太空完成,而不需要被傳回地面進(jìn)行處理,這極大地提高了太空任務(wù)的運(yùn)作效率,減少了通信成本。
太空探索之旅充滿了未知和不確定性。當(dāng)前在軌運(yùn)行飛行器的控制邏輯主要依賴于針對(duì)所有潛在場(chǎng)景的預(yù)編程系統(tǒng),而該系統(tǒng)無法靈活應(yīng)對(duì)新的、不可預(yù)見的情況。通過引入新型的機(jī)器學(xué)習(xí)(ML)機(jī)制[3],這些系統(tǒng)在在軌運(yùn)行期間有望能夠持續(xù)自主學(xué)習(xí)、不斷適應(yīng)新的任務(wù)和環(huán)境,并將已有的學(xué)習(xí)能力應(yīng)用于新的場(chǎng)景,從而更好地完成自主任務(wù)規(guī)劃、自主健康管理以及在軌載荷數(shù)據(jù)處理等任務(wù)。此外,通過故障智能自修復(fù)技術(shù)[4],這些系統(tǒng)也有望降低故障與異常處理的人工干預(yù)次數(shù),從而實(shí)現(xiàn)全任務(wù)過程中故障識(shí)別、隔離、處理和效果評(píng)估的自動(dòng)閉環(huán)流程。
“忽如一夜春風(fēng)來,千樹萬樹梨花開”,AI似乎在各個(gè)領(lǐng)域突然產(chǎn)生了強(qiáng)烈的“綻放”(blooming)效果。ML作為AI的核心,其在理解和利用海量數(shù)據(jù)方面取得了長足進(jìn)步。最近,AI領(lǐng)域在計(jì)算能力及大量數(shù)據(jù)處理方面也取得了一定進(jìn)展。由于醫(yī)療保健和醫(yī)學(xué)領(lǐng)域所產(chǎn)生的巨大的數(shù)據(jù)量,以及醫(yī)療設(shè)備和數(shù)字記錄系統(tǒng)的不斷涌現(xiàn),AI在醫(yī)療保健和醫(yī)學(xué)領(lǐng)域[5]更是得到了有效的發(fā)展。目前整個(gè)醫(yī)療系統(tǒng)越來越多地采用了大數(shù)據(jù)處理方法,相關(guān)數(shù)據(jù)經(jīng)處理后可形成不同的表現(xiàn)形式,進(jìn)而形成更多基于證據(jù)的健康決策。
AI除了對(duì)人類健康有積極影響,其在基因組學(xué)領(lǐng)域也起到了推進(jìn)作用。AI系統(tǒng)使基因測(cè)序和分析變得更高效、更準(zhǔn)確[6]。此外,AI已從根本上改變了分子生物學(xué)和遺傳學(xué)領(lǐng)域的預(yù)測(cè)功能[7]。因此,研究人員可以預(yù)測(cè)未來某個(gè)生物體可能會(huì)遭遇哪些風(fēng)險(xiǎn)、哪些基因突變可能會(huì)導(dǎo)致不同的疾病,以及如何為未來做好準(zhǔn)備。通過了解構(gòu)成該生物體所有活動(dòng)的特定遺傳框架,并借助AI的支持,我們可預(yù)見AI在農(nóng)業(yè)、畜牧業(yè)和遺傳疾病診斷等領(lǐng)域的作用將是開創(chuàng)性的。
在第四次工業(yè)革命的浪潮中,我們更無法忽視AI和區(qū)塊鏈[8]在醫(yī)療保健方面的作用,即AI融入了第四次工業(yè)革命的基因中,而區(qū)塊鏈將會(huì)改變整個(gè)經(jīng)濟(jì)體系的基礎(chǔ)架構(gòu)。由于這兩種技術(shù)的共同作用可以決定工業(yè)革命的深度和廣度,因此AI與區(qū)塊鏈的協(xié)同作用表明AI可以更有效地實(shí)施區(qū)塊鏈相關(guān)技術(shù)。基于AI對(duì)各個(gè)領(lǐng)域所產(chǎn)生的影響,它注定要為我們的時(shí)代注入一種自我更新的能力與磅礴的生命力。
利用AI輔助新材料設(shè)計(jì)對(duì)未來人類社會(huì)的發(fā)展也具有重要意義。歷史上,新材料的發(fā)現(xiàn)及應(yīng)用通常需要漫長的時(shí)間。2011年,美國奧巴馬政府開始實(shí)施“材料基因組計(jì)劃”(Materials Genome Initiative, MGI),其目標(biāo)是將先進(jìn)材料的發(fā)現(xiàn)、開發(fā)、生產(chǎn)和應(yīng)用周期縮短至原來的一半以上。近年來,隨著MGI和大數(shù)據(jù)的融合,數(shù)據(jù)驅(qū)動(dòng)的研究模式被認(rèn)為是最有前景的材料研究范式,其中AI是處理材料大數(shù)據(jù)并獲得“成分-結(jié)構(gòu)-工藝-性能”關(guān)系的關(guān)鍵技術(shù)。
近年來,由于ML不斷展現(xiàn)出的應(yīng)用潛力,其已被學(xué)術(shù)界視為是可以革新材料科學(xué)的技術(shù)。例如,歷史上化學(xué)元素周期表的完成花費(fèi)了許多杰出科學(xué)家一個(gè)世紀(jì)的時(shí)間,而現(xiàn)在借助AI技術(shù),人們可能只需幾個(gè)小時(shí)就可以從數(shù)據(jù)中重構(gòu)周期表?;诖罅恳阎幕衔锖筒牧蠑?shù)據(jù)庫,無監(jiān)督的Atom2Vec機(jī)器可以自主學(xué)習(xí)原子的基本特性,并結(jié)合神經(jīng)網(wǎng)絡(luò)可以高精度地預(yù)測(cè)新材料的詳細(xì)特性[9]。在藥物合成方面,Segler等[10]通過引入AI符號(hào)來尋找逆合成分析的路線。同傳統(tǒng)的計(jì)算機(jī)輔助搜索方法相比,該方法的搜索速度是原來的30倍,而由其產(chǎn)生的分子數(shù)量是原來的兩倍。值得一提的是,該神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集既包含了有效數(shù)據(jù)也包含了無效數(shù)據(jù),這與傳統(tǒng)的基于有效數(shù)據(jù)的數(shù)據(jù)集明顯不同。
除了用于合成新材料,AI也促進(jìn)了人工結(jié)構(gòu)材料(即超材料)的發(fā)展,人工合成材料的等效材料參數(shù)由其結(jié)構(gòu)尺寸和組成成分決定[11]。由于人工結(jié)構(gòu)材料中結(jié)構(gòu)幾何形狀和基本材料的變化范圍遠(yuǎn)遠(yuǎn)超過傳統(tǒng)試錯(cuò)法的能力,所以,我們必須借助大數(shù)據(jù)技術(shù)去優(yōu)化設(shè)計(jì)。另外,由于光子速度遠(yuǎn)大于電子速度,且無源光學(xué)元件不需要電源,基于結(jié)構(gòu)材料的新型光學(xué)計(jì)算技術(shù)有望顯著提升深度學(xué)習(xí)的數(shù)據(jù)處理速度并降低其功耗[12]。
AI在海洋資源的開發(fā)中也起到了越來越重要的作用。在大航海時(shí)代的驅(qū)動(dòng)下,發(fā)達(dá)國家在此方面擁有強(qiáng)大的戰(zhàn)略優(yōu)勢(shì)。地球上海洋面積約占地球表面積的71%,AI將對(duì)海洋資源的深度開發(fā)起到至關(guān)重要的作用,但目前我們?cè)诤Q箝_發(fā)方面做得還不夠,如利用AI去高效探測(cè)和開發(fā)海洋中的礦產(chǎn)資源。此外,任何一個(gè)擁有較長海岸線的國家都不希望看到“水下國門洞開”(underwater country gates open)。換言之,海防安全無疑是國家最重要的安全之一。
傳統(tǒng)的海洋科技主要是從聲學(xué)、磁學(xué)等層面來探測(cè)海洋資源,而AI對(duì)于海洋數(shù)據(jù)的深度挖掘和分析能力可以使傳統(tǒng)的海洋科技變得更有生命力,從而實(shí)現(xiàn)對(duì)海洋資源的更高效的利用和保護(hù)。
光學(xué)作為獲取信息的一種重要渠道,其在AI領(lǐng)域具有廣泛的應(yīng)用。然而。由于海水對(duì)光具有強(qiáng)吸收和散射作用,所以水下的光學(xué)世界一片混沌。如何提升水下遠(yuǎn)距離成像、水下光譜探測(cè)、水下多參數(shù)傳感、水下激光通信等多個(gè)水下光學(xué)應(yīng)用領(lǐng)域的數(shù)據(jù)質(zhì)量成為了世界級(jí)難題。對(duì)于中國這樣一個(gè)擁有面積廣闊的內(nèi)海和領(lǐng)海的國家而言,利用水下光學(xué)技術(shù)來觀測(cè)水下的地貌、特征以及海水流動(dòng)過程等信息,是關(guān)乎國防安全、資源管理和經(jīng)濟(jì)發(fā)展的一個(gè)重要課題。所以智能光學(xué)與AI對(duì)于海洋光學(xué)的發(fā)展是不可或缺的。
當(dāng)前我們?cè)趯?shí)施AI時(shí)遇到兩大主要挑戰(zhàn):其一是大多數(shù)行業(yè)存在數(shù)據(jù)孤島現(xiàn)象;其二是對(duì)隱私保護(hù)型AI的需求在日益增長。然而傳統(tǒng)的使用集中數(shù)據(jù)的AI方法無法解決這些問題,聯(lián)邦學(xué)習(xí)(federated learning, FL)是一種新的解決方案,它不僅可以解決數(shù)據(jù)孤島問題,還可以實(shí)現(xiàn)跨數(shù)據(jù)、跨領(lǐng)域和跨企業(yè)的隱私保護(hù)型AI的應(yīng)用[13,14]。
FL可以看作是一種基于分布式數(shù)據(jù)的具有隱私保護(hù)功能的協(xié)作式ML。它是一種具有以下特征的算法框架:
· 多個(gè)參與方共同構(gòu)建ML模型。每個(gè)參與方都擁有一些訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可以被用來在本地進(jìn)行模型訓(xùn)練。
· 每個(gè)參與方所擁有的數(shù)據(jù)都不會(huì)脫離該參與方;只有模型參數(shù)或者梯度信息可以被分享。
· 根據(jù)安全方案,可以將模型(部分地)從一方轉(zhuǎn)移到另一方[15,16],從而保證任何一方都不能通過逆向工程來獲得其他方的數(shù)據(jù)。
· 經(jīng)FL訓(xùn)練獲得的ML模型的性能與使用集中數(shù)據(jù)構(gòu)建的ML模型的性能非常接近。
依據(jù)各參與方數(shù)據(jù)的分布方式不同,我們將FL分為橫向聯(lián)邦學(xué)習(xí)(horizontal federated learning, HFL)、縱向聯(lián)邦學(xué)習(xí)(vertical federated learning, VFL)和聯(lián)邦遷移學(xué)習(xí)(federated transfer learning, FTL)。HFL適用于參與方有相同的數(shù)據(jù)特征而數(shù)據(jù)樣本重疊較少的情況 [13,14]。它類似于數(shù)據(jù)表格視圖中數(shù)據(jù)被橫向切分的情況。VFL適用于參與方有較多重疊的數(shù)據(jù)樣本而數(shù)據(jù)特征不同的情況[13]。它類似于數(shù)據(jù)表格視圖中數(shù)據(jù)被垂直切分的情況。FTL適用于參與方的數(shù)據(jù)樣本和特征都有較少重疊的情況,包括基于樣本遷移的FTL、基于特征遷移的FTL和基于模型遷移的FTL [13,15]。
為了促進(jìn)FL的發(fā)展,微眾銀行(WeBank)的AI研究人員開發(fā)了聯(lián)邦A(yù)I技術(shù)使能者(Federated AI Technolo -gy Enabler, FATE)框架。FATE是一個(gè)開源項(xiàng)目,它是一個(gè)支持HFL、VFL和FTL的工業(yè)級(jí)FL平臺(tái)。在滿足數(shù)據(jù)保護(hù)前提下,我們可以使用FL來構(gòu)建ML模型。FL在金融、醫(yī)療、教育、智慧城市和邊緣計(jì)算等領(lǐng)域有潛在的應(yīng)用前景[13,17]。例如,我們可以使用FL在銀行、社交網(wǎng)絡(luò)公司和電子商務(wù)公司內(nèi)部進(jìn)行本地模型訓(xùn)練,而無需共享三方的數(shù)據(jù),然后我們可以通過安全聚合技術(shù)將三方本地訓(xùn)練的模型進(jìn)行聚合,從而獲得聯(lián)邦模型以實(shí)現(xiàn)更好的推薦系統(tǒng)。
AI是一個(gè)多學(xué)科交叉的領(lǐng)域,其在科學(xué)、工業(yè)和社會(huì)等領(lǐng)域都有潛在的應(yīng)用價(jià)值[18-21]。我們相信,AI的下一步突破應(yīng)該頗具多學(xué)科交叉內(nèi)稟。