繼大模型之后,“具身智能”成為新一輪人工智能浪潮中最熱的概念。有不少人認為,AI只有具備了物理層面的身體,像人類一樣用身體去感知世界,在與環(huán)境的互動學習中成長,才能進化成通用人工智能(AGI)。
人形機器人被認為是具身智能的理想載體。人們期待未來的機器人不僅能說話,還能對復雜任務作長程動作規(guī)劃并高效執(zhí)行。
浙江人形機器人創(chuàng)新中心主任、浙江大學教授熊蓉是國內(nèi)最早一批做人形機器人研究的學者。她專攻這一領域已有二十多年,曾自主研制出乒乓球?qū)Υ驒C器人、小型足球機器人等系統(tǒng),也經(jīng)歷了從“仿人機器人”到“人形機器人”的技術(shù)演變。
在熊蓉看來,目前很多強調(diào)具身智能概念的人形機器人,還不具備獨立完成任務的智能水平。盡管已經(jīng)有許多關于人形機器人進入家庭、完成護理工作的美好暢想,但未來機器人率先落地的場景仍將是工業(yè)領域,機器人進入家庭還面臨安全性等諸多挑戰(zhàn)。
熊蓉認為,機器人技術(shù)的發(fā)展旨在提升工作效率和生活質(zhì)量,而非取代人類。它能夠解決人力短缺問題,滿足對工作質(zhì)量的高要求,并創(chuàng)造新的工作崗位。機器人本質(zhì)上仍然是工具,其發(fā)展目標是解放人類生產(chǎn)力,使生活更加便捷。
X 傳統(tǒng)機器人在感知方面主要依賴人工特征提取,行為方面主要依賴專家建模的系統(tǒng)和準則,其感知和行為能力受限于預定義的規(guī)則,這在很大程度上限制了它們在復雜場景中的泛化能力。本輪大模型技術(shù)突破得益于深度學習技術(shù)的發(fā)展、互聯(lián)網(wǎng)海量數(shù)據(jù)的積累以及算力的提升,使得機器人在感知智能上實現(xiàn)了泛化能力的顯著提 升。
目前具身智能興起,其核心在于機器人通過與環(huán)境的交互來獲取知識,基于場景作出行為決策,并預測行為結(jié)果,從而動態(tài)調(diào)整自身行為,即強調(diào)實體機器人通過“感知—推理—交互”的閉環(huán)來實現(xiàn)自主作業(yè)能力。具身智能的技術(shù)進步主要體現(xiàn)在將“感知智能”延伸至“行為智能”,提升機器人的自主決策能力、環(huán)境理解能力和交互能力。
X 具身智能浪潮的興起標志著機器人產(chǎn)業(yè)步入一個轉(zhuǎn)折階段,但目前仍處于技術(shù)產(chǎn)業(yè)化的起始點。實際上,具身智能的技術(shù)進步是過去多年各項技術(shù)積累的結(jié)果。
深度學習技術(shù)從2011年開始取得關鍵突破。2016年,Google利用14臺機器訓練,開發(fā)出能夠從料箱中抓取物品的網(wǎng)絡。當時的研究尚未使用大模型,但可以被視為行為智能發(fā)展的起點。到了2020年,大模型技術(shù)逐漸成熟,并迎來爆發(fā)式發(fā)展。隨著大模型技術(shù)的融入,機器人在感知、理解和執(zhí)行能力上取得了很大進步。
但是目前很多強調(diào)具身智能概念的人形機器人,其對外展示出的技術(shù)能力主要處于demo演示,是小范圍場景行為復現(xiàn)。通過仿真平臺或者實物數(shù)據(jù)學習訓練行走、操作等交互行為,但目前的技術(shù)總體只解決了抗擾動性問題,還不具備我們期望的泛化智能水平。行為執(zhí)行能力也偏弱,例如,目前許多機器人只能完成抓取、放置和移動等基礎動作,而在執(zhí)行涉及復雜視力觸融合的任務(如開蓋)時則顯得力不從心。
X 早年我們研發(fā)的“仿人機器人”,重點在于模仿人類行為、功能或智能,其外形未必完全擬人化。很多機器人沒有采用人形機械結(jié)構(gòu),比如我們曾用二指夾爪這樣的非人形機械結(jié)構(gòu)來完成擰瓶蓋等任務。近年來,隨著特斯拉的Optimus機器人對擬人化形態(tài)和運動的強調(diào),學術(shù)界和產(chǎn)業(yè)界開始更關注“人形機器人”的概念,特別是形態(tài)上的相似性。
從技術(shù)發(fā)展路徑來看,早期的仿人機器人研究主要依賴傳統(tǒng)的控制理論和物理建模方法,強調(diào)運動控制的精確性和穩(wěn)定性,讓機器人能夠完成行走、踢球等動作。不過,該方法對模型參數(shù)的精確性要求極高,面對環(huán)境擾動(如不平整地面)時的魯棒性(指系統(tǒng)在面臨內(nèi)部結(jié)構(gòu)或外部環(huán)境改變時也能維持其功能穩(wěn)定運行的能力)不足,且參數(shù)調(diào)整復雜。
近年來,隨著仿真平臺、大規(guī)模并行訓練和強化學習技術(shù)的發(fā)展,人形機器人研究逐漸轉(zhuǎn)向新的技術(shù)路線。例如英偉達Isaac仿真平臺等工具的出現(xiàn),使得機器人可以在虛擬環(huán)境中學習和訓練。這種方法將傳統(tǒng)的物理建模隱含在仿真平臺的物理引擎中,研究人員更關注訓練的結(jié)果和獎勵函數(shù)的設計。通過強化學習,機器人能夠獲得更強的魯棒性,適應一些傳統(tǒng)方法難以建模的不確定因素和擾動因素。
X 機器人的形態(tài)是否需要無限逼近人類,取決于應用場景和需求。人形機器人被寄予厚望,主要是因為它能夠更好適應柔性制造和服務場景的需求。人形機器人不僅局限于工業(yè)場景,還可以拓展到更多服務領域,例如成為特定行業(yè)的服務員或護理人員等。
舉例來說,在咖啡店這個場景中,機器人需要完成倒咖啡、放置杯蓋等任務。傳統(tǒng)機器人可能需要多臺設備協(xié)同完成,而人形機器可以通過雙臂和視覺智能一體化完成,從而減少設備數(shù)量和占地面積。此外,人形機器人能夠無縫替代人力,減少產(chǎn)線改造成本。
X 目前,人形機器人領域的技術(shù)路線主要分為傳統(tǒng)控制理論和數(shù)據(jù)驅(qū)動學習兩個方向,前者強調(diào)機理建模,后者強調(diào)用深度學習、強化學習等方法結(jié)合大規(guī)模數(shù)據(jù)來生成行為。具身智能興起后,許多學者紛紛轉(zhuǎn)向數(shù)據(jù)驅(qū)動的方向,但我認為不應完全依賴這種方法。目前來看,行走等強化學習工作還是依賴于對機理的深刻理解,具有傳統(tǒng)機理研究背景的專家才能夠從機理的角度定義目標和約束,并有效解決仿真與現(xiàn)實之間的差距問 題。
此外,從兩個技術(shù)路線當前的成果看,目前學習方法可以產(chǎn)出模型存在誤差等不確定情況下性能更良好的模型,但還不具備傳統(tǒng)機理方法在任務輸入變化時的通用性,導致模型的行為泛化能力有限,難以適應場景或任務的變化。
X 大模型為機器人帶來的變化主要體現(xiàn)在語義理解和常識推理能力的提升上。借助大模型的語義理解能力,機器人能夠更好地規(guī)劃執(zhí)行序列,并基于已有的知識生成符合常識的行為。目前也有很多關于“空間智能”的討論,也是與語義理解密切相關。
但是在當前的水平下,大模型通常與機器人的行為執(zhí)行分離,導致感知與行動之間的協(xié)同不足。一方面,大模型不考慮機器人行為的可執(zhí)行性,例如物體堆放情況下,機器人實際需要先挪開或者推開一些東西才能拿到目標物體,否則直接抓取會導致物體損壞;另一方面目前的視覺語言動作模型(Video-Language-Action Model,VLAM)依賴于大模型識別的準確性,一旦識別不清就會直接導致行為失 敗。
此外,大模型在與機器人行為結(jié)合構(gòu)建VLAM時仍面臨諸多難點。就目前VLAM表現(xiàn)來看,首先,通用性不夠,難以適應多種場景并自主調(diào)整;其次,快速遷移能力不足,難以基于過往的經(jīng)驗實現(xiàn)自我進化;此外,在精確性方面,大模型也還有很大的提升空間。
X 當前學界和業(yè)界對于人形機器人的定義仍存在爭議,主要集中在是否必須具備完整的擬人形態(tài)。部分觀點認為,只要具備上半身和雙臂的形態(tài)即可滿足大多數(shù)作業(yè)需求,雙腿行走并非必需。例如在工廠環(huán)境中,輪式底盤結(jié)合雙臂的形態(tài)可能更為高效,因為它能夠兼顧移動靈活性和操作精度。
在我看來,無論是工業(yè)生產(chǎn)、家庭護理還是日常服務,雙手都是執(zhí)行任務的核心工具。相比之下,雙腳的主要功能在于移動和調(diào)節(jié)身體高 度。
目前,雙足機器人的穩(wěn)定性弱于輪式機器人。而服務型機器人的核心價值在于作業(yè)能力,而非移動方式的擬人化。雙足固然使機器人更接近人類形態(tài),但可能犧牲雙臂的靈活性和精度。
X 從我的角度來看,軟件能力更為關鍵。在工業(yè)領域,我們常常優(yōu)先提升軟件智能,而不一定依賴人形機器人。甚至可以說,未來機器人可能發(fā)展出比人形更高效的形態(tài),例如“三頭六臂”,以完成更高效的工作。相較于形態(tài),軟件能力在提升機器人作業(yè)效率方面具有更重要的意義,軟件能力是核心驅(qū)動力。
X 基于作業(yè)空間的需求,成人作業(yè)高度通常在1.55米至1.75米之間,因此我們團隊選擇了1.6米這一中間值作為機器人的身高,以更好地適應作業(yè)環(huán)境和操作要求。在機器人設計中,身高越高,設計和控制的難度也越大。身高增加會導致手臂重量增加,進而影響機器人的運動性能。許多表演型機器人為了吸引眼球,在設計上更注重外觀和輕量化,而忽視了實際作業(yè)需求。
X 上一輪2012年左右開始的機器人熱潮主要由感知技術(shù)突破帶動。例如2016年左右即時定位與地圖構(gòu)建(SLAM)技術(shù)的突破,實現(xiàn)了大范圍場景下一致地圖的構(gòu)建,由此推動了移動機器人在工廠、餐飲場所和酒店等場景的應用。同時,AI技術(shù)的進步,尤其是深度學習在智能駕駛和人臉識別等領域的應用,也為產(chǎn)業(yè)發(fā)展提供了強大動力。本輪熱潮則是由感知智能轉(zhuǎn)向行為智能。
此外,上一輪熱潮中,機器人的關鍵技術(shù)已經(jīng)在多個場景中得到了驗證,進入了產(chǎn)品化階段;而這一輪熱潮中的大多數(shù)公司仍處于關鍵技術(shù)的攻堅階段。
X 相比工業(yè)和商業(yè)場景,家庭場景對機器人的作業(yè)能力提出了更高的要求。家庭機器人面臨的兩大主要挑戰(zhàn)是安全性和成本。以護理機器人為例,需要解決物理交互中的傷害風險,但當前技術(shù)難以達到安全保障。此外,高性能人形機器人的成本在短期內(nèi)難以顯著下降,家庭用戶的支付意愿也相對有 限。
護理機器人在協(xié)助老人時可能會造成意外傷害,這并非危言聳聽。已有案例顯示,部分護理機器人在作業(yè)過程中導致老人骨折的問題。如果是由護工導致類似問題,責任的界定相對容易,然而,當機器人造成傷害時,責任界定變得復雜。
在工廠,工業(yè)機器人的工作場景通常與人類保持隔離,協(xié)作機器人雖然能夠與人類互動,但運行速度也往往被限制,這都是基于安全性的考慮。目前,一些初步的交互式機器人應用(如按摩機器人)仍需要人類在旁邊監(jiān)督,以確保安全。
X 機器人技術(shù)的進步是工具的進化,其發(fā)展將重塑產(chǎn)業(yè)結(jié)構(gòu),而非取代人類。發(fā)展機器人技術(shù)和產(chǎn)業(yè)的目的并非讓人類失業(yè)。實際上,企業(yè)引入機器人的主要原因是為了解決人力短缺問題以及滿足對工作質(zhì)量的高要求,特別是在制造業(yè)和護理行業(yè)等年輕人不愿涉足的領域,人形機器人可以取代人類從事危險、重復和乏味的工作。
此外,機器人產(chǎn)品的發(fā)展成熟會創(chuàng)造出大量新的工作崗位。例如,機器人需要專業(yè)的團隊來研發(fā)、制造、訓練和應用。就像汽車的出現(xiàn)帶動了維修、清洗等相關行業(yè)的發(fā)展。因此,我們應該將機器人視為提升工作效率和生活質(zhì)量的工具,而非威脅就業(yè)的競爭對手。
X 未來1到3年,具身智能技術(shù)將不斷深化,行為智能也將逐步提升。初期可能會實現(xiàn)快速任務遷移能力,隨后逐漸發(fā)展出適應特定場景的通用性,最終朝著自主學習能力邁進。在產(chǎn)業(yè)發(fā)展方面,我預計在未來3到5年,人形機器人將率先在工業(yè)領域?qū)崿F(xiàn)規(guī)?;瘧?用。