近日,來自瑞士蘇黎世大學機器人與感知研究組的考弗曼博士團隊及其英特爾團隊聯合設計了一種自動駕駛系統(tǒng)——Swift,該系統(tǒng)操控的無人機能力可在一對一冠軍賽中戰(zhàn)勝人類頂級對手。
這一重磅研究成果,發(fā)表在了最新一期的《自然》雜志封面上。
在一篇同期發(fā)表在《自然》上的新聞與觀點文章中,荷蘭代爾夫特理工大學的研究院克羅恩教授寫道:“考弗曼等人的研究是機器人學家克服現實差距的一個很好的案例。盡管Swift使用人工智能學習技術和傳統(tǒng)工程算法的巧妙組合進行訓練,但該系統(tǒng)應該在一個更真實多變的環(huán)境中進一步開發(fā),從而充分釋放這項技術的潛力?!?/p>
盡管如此,研究團隊表示,該研究標志著移動機器人學和機器智能的一個里程碑,或可啟發(fā)在其他物理系統(tǒng)中部署基于混合學習的解決方案,如自動駕駛的地面車輛、飛行器和個人機器人。
當前,基于深度強化學習的人工智能(人工智能)系統(tǒng)在雅達利游戲、國際象棋、星際爭霸和GT賽車等游戲中已經超越了人類冠軍。然而,這些成就全部發(fā)生在虛擬環(huán)境中,而非真實世界中。
無人機競速對經驗飛行員和人工智能都具挑戰(zhàn),但人工智能而言,更具挑戰(zhàn)性。因為在虛擬環(huán)境中,資源幾乎是無限的,而轉向現實世界意味著必須使用有限的資源。對于無人機來說,情況尤為如此,因為取代人類飛行員的傳感器和計算設備必須被搭載到空中。
另外,現實世界比虛擬世界更加不可預測。雖然模擬的比賽無人機可以按照預先編程的軌跡完美地行駛,但對一個無人機發(fā)出的單一指令可能產生多種效果,影響難以預測,對于通過人工智能訓練的無人機尤為復雜。
傳統(tǒng)的端到端學習方法難以將虛擬環(huán)境的映射轉移到現實世界,虛擬和現實兩者之間存在著現實差距,而現實差距構成了機器人領域中主要的挑戰(zhàn)之一。
在該研究中,Swift系統(tǒng)通過將人工智能學習技術與傳統(tǒng)工程算法融合,實現了智能訓練。首先,該系統(tǒng)通過人工神經網絡處理無人機從相機中獲取的圖像,從而精準地檢測到門的角落。然后,利用雙目視覺軟件用來計算無人機的速度。
Swift系統(tǒng)的創(chuàng)新之處在于另一個人工神經網絡,將無人機的狀態(tài)映射到調整推力和旋轉速率的命令。利用強化學習,通過模擬中的試錯過程來優(yōu)化從環(huán)境中獲得的獎勵。在這個算法中,該系統(tǒng)采用了強化學習,而非端到端學習,從而可以通過抽象概念來彌合現實與模擬之間的差距。
由于狀態(tài)編碼的抽象層次高于原始圖像,強化學習模擬器不再需要復雜的視覺環(huán)境。這一優(yōu)化減少了模擬系統(tǒng)與真實系統(tǒng)之間的差異,提升了模擬速度,使得系統(tǒng)能夠在大約50 分鐘內完成學習。
據論文描述,Swift由兩個關鍵模塊組成:觀察模塊和控制模塊。其中,觀察模塊由一個視覺慣性估計器和一個門檢測器組成,可以將高維視覺和慣性信息轉化為任務特定的低維編碼;控制模塊由一個兩層感知器表示,可以接受低維編碼,并將其轉化為無人機指令。
此次比賽的賽道是由一位外部世界級FPV(第一人稱主視角)飛行員設計的。賽道包括七個正方形的門,排列在一個30×30×8米的空間內,組成了一圈長達75米的賽道。
此外,該賽道具有特色鮮明且具有挑戰(zhàn)性的機動動作,包括Split-S等。即使發(fā)生碰撞,只要飛行器能夠繼續(xù)飛行,飛行員依舊可以繼續(xù)比賽。如果發(fā)生碰撞且兩架無人機均無法完成賽道,距離更遠的無人機獲勝。
Swift與范弗諾(2019年無人機競賽聯盟世界冠軍)、比塔(2019年MultiGP冠軍)和謝泊爾(3X Swiss冠軍)等人進行了多場比賽。
其中,Swift在與范弗諾的9場比賽中贏得了5場,在與比塔的7場比賽中贏得了4場,在與謝泊爾的9場比賽中贏得了6場。
另外,Swift共有10次失利,其中40%因與對手碰撞,40%因與門碰撞,20%因比人類飛行員飛行較慢。
總體而言,Swift在與每位人類飛行員的大多數比賽中取得了勝利。另外,Swift還創(chuàng)下了最快的比賽時間記錄,比人類飛行員范弗諾的最佳成績快了半秒鐘。
從數據分析中可以看出,Swift在整體上比所有人類飛行員都要快,尤其在起飛和緊急轉彎等關鍵部分表現更為出色。Swift的起飛反應時間更短,平均比人類飛行員提前120毫秒。而且,Swift的加速度更大,在第一個門處達到更高的速度。
此外,Swift在急轉彎時表現出更緊密的機動動作,這可能是因為它在較長時間尺度上優(yōu)化了軌跡。與此相反,人類飛行員更傾向于在較短時間尺度內規(guī)劃動作,最多考慮到未來一個門的位置。
此外,Swift在整體賽道上實現了最高的平均速度,找到了最短的比賽線路,并成功地將飛行器保持在極限附近飛行。在時間試驗中,Swift與人類冠軍進行比較,自主無人機表現出更加一致的圈速,平均值和方差都較低,而人類飛行員的表現則更加因個體情況而異,平均值和方差較高。
綜合分析表明,自主無人機Swift在比賽中展現出了出色的性能,不僅在速度上表現優(yōu)越,還在飛行策略上具備獨特的特點,使其能夠在整個比賽中保持高水平的表現。
這項研究探索了基于來自物理環(huán)境的嘈雜和不完整傳感輸入的自主無人機競速,展示了一個自主物理系統(tǒng)在競速中取得了冠軍級的表現,有時甚至可以超越人類世界冠軍,突顯了機器人在受歡迎體育項目中達到世界冠軍級表現的重要意義,為機器人技術和智能取得了重要里程碑。
然而,與人類飛行員相比,研究中的系統(tǒng)并未經過撞擊后的恢復訓練。這限制了系統(tǒng)在撞擊后繼續(xù)飛行的能力,而人類飛行員可以在硬件損壞的情況下繼續(xù)競賽。
另外,與人類飛行員相比,Swift系統(tǒng)對環(huán)境變化的適應能力較弱,使用的相機刷新率較低;盡管該方法在自主無人機競速中表現優(yōu)異,但其在其他現實系統(tǒng)和環(huán)境中的泛化能力尚未充分探究。
顯然,考弗曼及其團隊的成就不僅僅局限于無人機競速領域,這項技術或許可能會在軍事應用中找到用武之地。而且,他們的技術可使無人機更平穩(wěn)、更快速、更長程,有助于機器人在駕駛、清潔、檢查等領域更有效地利用有限的資源。
但要實現這些目標,研究團隊依然需要解決諸多挑戰(zhàn)。正如Croon在評論文章中所說,“為了在任何競賽環(huán)境中都能打敗人類飛行員,該系統(tǒng)必須能應對外部干擾,如風,光照條件變化,定義不太清晰的各種門,其他競速無人機和許多其他因素。”