朱秋雨
在生成式AI爆發(fā)的2023年,有實力的科技廠商把一個賽道也帶火了—人形機器人。
2023年12月,特斯拉發(fā)布了Optimus 2.0人形機器人演示視頻。視頻里,它不僅擁有靈活的手指,還能做瑜伽、夾雞蛋。
這些進步讓外界驚嘆。要知道,人形機器人在過往,連加速跑、靈活跳躍都會讓科技圈振奮。
小鵬汽車董事長何小鵬也在2023年10月“秀”了一把自己的實力。他在新車發(fā)布會上,宣布自研出了一個可以敏捷行走、會踢足球的類人機器人PX5。
那一天,他興奮地對臺下的觀眾談暢想:“等我老了,機器人可以跟我一起打摜蛋,幫我換尿布了?!?/p>
聽上去,科幻電影的場景很快就能在現(xiàn)實中實現(xiàn)了。但這些美好設(shè)想,在21世紀初,機器人產(chǎn)業(yè)飛速發(fā)展的日本、美國都提出過。那時也有人以為,智能機器人即將“占領(lǐng)”世界,重復、無聊的人類勞動,馬上將被機器人取代。
事實倒是,發(fā)展了20多年,那些人類暢想的智能機器人,仍然沒進入普通人的生活。
2023年,當人形機器人再度成為投資人眼里的大熱點時,一個問題仍存:為什么產(chǎn)業(yè)發(fā)展了20多年,現(xiàn)在的機器人,看上去仍像智力不高、只能完成單一功能的機器。
為此,我去參觀了兩家國內(nèi)年輕的機器人公司,分別與公司創(chuàng)始人、大學教授聊了聊這個新賽道。關(guān)于機器人如何發(fā)展的共識并不多,但一個可見的結(jié)論是,AI大模型正顛覆產(chǎn)業(yè),催促眾人爭相追逐前方的不確定性。
對深圳市樂聚機器人董事長冷曉琨及同事的采訪,經(jīng)常會伴隨嗡嗡的機械背景音。
冷曉琨剛滿30歲,喜歡衛(wèi)衣配球鞋,說話爽快,走路也快。2016年,在哈爾濱工業(yè)大學就讀博士時,他與十余位校友在深圳創(chuàng)立了這家機器人公司。
如今,他們將人形機器人迭代了4版。最新的這一版,約1.4米高,重量約45公斤;有兇猛的胸肌以及與之協(xié)調(diào)的粗壯雙腿,有點兒像高達。據(jù)稱,這是“國內(nèi)首款可跳躍,可適應多場地行走”的人形機器人。
他們叫它,“夸父”。
我去到時,“夸父”們正被開膛破肚,吊在天花板垂下的兩條線上,由工程師做最后的調(diào)試。它們即將交付,訂購者主要來自中國高??蒲袌F隊。
幕后研發(fā)人員告訴我,當下的難點是,如何讓機器人做到走路既快又穩(wěn),同時行動靈活。
這是一個對人類而言非常簡單的行為。但放到人形機器人領(lǐng)域,要想穩(wěn)步行走的難度大。這是因為,人形機器人首先是雙足機器人。而一些人體的運作規(guī)律,連人類自己都沒完全搞清楚。比如,我們的大小腦是如何與四肢配合、穩(wěn)住重心,讓我們自如行走、旋轉(zhuǎn)跳躍的?這些盲區(qū)讓機器人的發(fā)展舉步維艱。
更別提其中面對的各類工程問題。從續(xù)航能力看,目前人形機器人多數(shù)只能續(xù)航1—2小時,未來預測可以提升到20小時。而對比持續(xù)工作7—8小時的工人而言,人型機器人遠未達到可用的程度。
盡管難度擺在面前,眼下,這卻是受眾人矚目的賽道。
“人形機器人,2023年可以說是產(chǎn)業(yè)化的元年?!崩鋾早d奮地對我說。
從2021年馬斯克宣布造人形機器人Optimus開始,冷曉琨明顯感到,越來越多人與錢涌入了昔日冷門賽道。
接著,2023年,ChatGPT和生成式AI的爆火,再次催熟了這個產(chǎn)業(yè)。人們開始相信,未來的機器人要長得像人,要有包括兩只腳的四肢,這樣它可以爬樓梯,也可以適應各種地形條件和生活場景。
國內(nèi)最出圈的創(chuàng)業(yè)者,是有250萬粉絲的B站UP主稚暉君(彭志輝)。他在2023年宣布從華為辭職,創(chuàng)業(yè)做人形機器人。僅僅用了10個月,“稚暉君”的智元機器人已經(jīng)估值約40億元。
一切的火爆與追隨,都源于一種全新的相信—在軟件層面,當AI可以被訓練得像人一樣智慧時,這一進步說不定也能被轉(zhuǎn)移到它的實體—機器人上。
“從2016年我創(chuàng)業(yè)做人形機器人時,我就一直被別人問,‘這玩意到底能干什么?’”冷曉琨回憶。
他曾在回答這個問題時一度語塞—個人的技術(shù)信仰很難回應外界的疑問。“現(xiàn)在,不用我說,大家都能知道它可以干什么了?!?/p>
“90后”邱迪聰也在2023年,從某自動駕駛公司技術(shù)副總裁(VP)職位離職,加入創(chuàng)業(yè)大軍。
新公司在2023年4月成立,坐落在香港科技大學(廣州)的實驗室。地方不大,但透明敞亮。
對比做人形機器人,邱迪聰選擇了從更簡單的移動機器人入手。他目前的機器人demo,有一只機械臂,專門服務(wù)于超市補貨場景。表面看,這個機器人的外觀與過往的工業(yè)機器人無異,但邱迪聰興奮地告訴我,機器人的發(fā)展范式即將發(fā)生改變。
他做的雅可比機器人,最大的亮點是可以聽懂人的語言,與人進行交互并完成簡單任務(wù)。
“這也許是(創(chuàng)業(yè))最好的時間點。”談及有點冒險的決定時,他非常堅定地說。
“更早以前,做機器人連技術(shù)通路都沒有,前路充滿不確定性?!倍^去這一年AI的智能涌現(xiàn),讓業(yè)內(nèi)人士包括邱迪聰有了奮身前進的方向。
他在全球知名的機器人院?!▋?nèi)基梅隆大學博士畢業(yè),非常清楚這些年的變化。要想弄清楚現(xiàn)在,他在白板上畫了一張思維導圖,和我解釋過去。
傳統(tǒng)的機器人包括三個部分:感知、決策、執(zhí)行。這些分別對應著人類的感官、腦和肢體三部分。
過去,要想驅(qū)動機器人行動,工程師必須使用閉源數(shù)據(jù)集,訓練機器人感知。同時,程序員還要預先寫好大量代碼,幫助機器人決策和規(guī)劃,最后,驅(qū)使機器人行動。
這個辦法耗費大量人力,機器人能做的事還十分有限,經(jīng)常被嘲笑為“人工智障”。
如今,它被一套新的思路顛覆了。邱迪聰說,AI涌現(xiàn)智能后,業(yè)內(nèi)想將大模型(LLM)理解語言和推理的能力搬到機器人的大腦(決策)系統(tǒng)里。
這種能力是什么?
“人面向沒見過的東西,不會傻愣或者死機,而是進一步做很多猜想、推理,這叫開放認知?!彼忉屨f。
開放感知加上開放的決策能力,結(jié)合在小腦(執(zhí)行)部分的創(chuàng)新,給機器人行業(yè)帶來了新變化。
“這是一套新的技術(shù)路線,讓機器人從封閉的感知走向全開放的世界。這在過去是不可能發(fā)生的?!鼻竦下敱憩F(xiàn)得依然很興奮。
新思路讓機器人產(chǎn)業(yè)盎然向上,但深耕產(chǎn)業(yè)多年的人都清楚,眼下像登山般終于見到了前方的一座山峰,但究竟怎么走、怎樣更快抵達,一切仍是未知的。
邱迪聰在香港科技大學(廣州)的公司擺了兩排貨架,上面放著可樂、雪碧、維他奶等飲料,就像一個簡易的便利店。平日里,白色的、擁有底座的機器人在“便利店”里來回熟悉環(huán)境,聽人的語言指令,取相應的貨物。
他們的目標是,訓練出區(qū)別于工業(yè)機器人的智能體?!耙郧暗墓I(yè)機器人,一般只會識別一種零部件,”邱迪聰說,“人也不敢輕易靠近,因為可能引發(fā)機器人的錯誤識別?!?/p>
但現(xiàn)在,他們想要的是智能機器人。這意味著,機器人時刻能理解和認知環(huán)境,“人看到它也不用繞路走,它可以自己規(guī)劃路線、解決問題”。
只是,理解和認知環(huán)境—這一對人類極自然的事情,卻是機器人領(lǐng)域最大的難題之一。香港城市大學機械系助理教授殷鵬用自動駕駛汽車類比,和我說明造機器人的難度。
走在馬路上的自動駕駛汽車,經(jīng)常面對的是從一地到另一地,從A點到B點的問題。但要做一個走入人類生活的機器人,需要認識的環(huán)境復雜程度遠高于路面。
殷鵬舉例和我解釋:“不同的家庭,它的結(jié)構(gòu)、裝修風格完全不同,光照條件也非常不同;室內(nèi)環(huán)境和室外又不一樣;屋子里面的動態(tài)障礙物,也會干擾機器人的判斷?!?/p>
這些難題之所以在機器人行業(yè)存在多年,還有一個更重要的前提—機器人不具有像人類一樣的常識。人類很多天生的能力,在機器人這蕩然無存。
殷鵬把這些能力概括為感性認知。他說,即使當下大模型可以通過拍照、多模態(tài)等方法,告訴機器人眼前為何物,但機器人始終無法理解真實的空間。
“比如我距離你近或者遠,它沒有概念;一個東西的硬度、剛度,它都沒有感覺,只能依靠數(shù)據(jù)的標注?!币簌i說。
如果再概括地說,機器人缺的是一種“非數(shù)據(jù)化的、抽象的概念的理解,也就是對這個世界的理解”。
這也是為何,2023年,無論在業(yè)界還是學界,都在為ChatGPT等生成式AI心潮澎湃?!巴ㄟ^與ChatGPT交流,我們確實感到它有智力,這不是單單線性公式可以實現(xiàn)的?!币簌i解釋。
因此,學界想把ChatGPT的智能更往外擴,讓它跟物理世界建立關(guān)聯(lián)。
邱迪聰也認可這樣的思路—用AI驅(qū)動實體機器人認知世界,也就是學界常說的“具身智能”。
但真正投入這片藍海時,他發(fā)現(xiàn),如今核心的問題來自整個系統(tǒng)的協(xié)調(diào)性。那就是,即便他們成功讓機器人擁有了像ChatGPT一樣聰明智慧的大腦,但如何讓大腦與機器人的感知、執(zhí)行的兩個部分銜接,又是另一個難題。
這便是AI在虛擬世界和物理世界的能力差距。
比如,“今天,如果你想吃雪糕了?!鼻竦下敽臀遗e例,“你可以告訴ChatGPT說,你給我拿雪糕,ChatGPT能聽懂?!?/p>
“但問題是,它要如何驅(qū)動其他部分,真的去打開冰箱給我拿雪糕呢?”
面對上述核心且關(guān)鍵的問題,各家公司有各自的解法。
走在最前沿的馬斯克人形機器人Optimus,提出了 “端到端”(End to End)的模式。比起將機器人模塊化地分為三部分,特斯拉更傾向于將這三部分當做一個整體,輸入原始數(shù)據(jù)就可以得出最終結(jié)果,相當于用數(shù)據(jù)引導行動。
這是一個風險性與實驗性并存的激進方法。邱迪聰告訴我,“端到端”模式最大的特點,那就是“黑匣子”。當AI模型操縱整個系統(tǒng),“端到端”地輸出結(jié)果,一旦遇到問題,“很難找到出錯的原因”。
這也是特斯拉等人形機器人公司一直以來面臨的爭議。英國《每日郵報》在2023年底爆料稱,美國得克薩斯州特斯拉汽車的工廠,曾發(fā)生一起殘暴血腥的事故,一名工程師遭到機器人襲擊。一位代表特斯拉合同工人的律師還揭露,該工廠的受傷人數(shù)被瞞報了。
殷鵬也認為,如同自動駕駛當下的處境,安全性會是人形機器人落地的一大阻礙。
這里面,難度指數(shù)取決于場景的復雜程度。
“把機器人放在無人的工廠里,會是一個難度量級,而把機器人放在有人的工廠,又是一個量級,放在生活家居場景,又是更高一層的難?!?/p>
他認為,當機器人最終形態(tài)是協(xié)助人類、陪伴人類時,我們不能忽略它是具有大扭矩的機器?!爱斈闵磉叧涑鈾C器人的時候,如果程序出現(xiàn)紊亂,對人動粗,或者黑客黑進去遠程操縱它,你覺得一般人能抵抗得了嗎?”他問我。
一位機器人賽道投資人表示,她在觀察這一新興領(lǐng)域時,會著重觀察公司在細節(jié)上的交付能力,否則沒有客戶愿意為產(chǎn)品買單。這主要是因為,硬件在場景解決上的容錯率很低,“這可能是涉及硬件的AI和純軟件AI最大的區(qū)別”。
也因此,包括冷曉琨等上述受訪業(yè)界人士對我表達了一個共識—當下距離具身智能機器人充斥人類生活的未來,還有一段距離。各家機器人公司如今準備從簡單且有需求的場景切入,慢慢迭代,再逐漸讓機器人進入復雜的場景,與人類共存。
冷曉琨將他的人形機器人發(fā)展之路分為三個階段,預計5年內(nèi)實現(xiàn)。首先,樂聚將產(chǎn)品交付給高校,接下來會切入特種、物業(yè)等簡單場景領(lǐng)域。第三階段,讓復合型的機器人進入家居場景。
他為這個美好的未來提了一個口號:“讓機器人像博士一樣聰明,像家電一樣便宜?!?/p>
殷鵬卻認為,等待技術(shù)成熟,至少仍要10年左右。其中的一個關(guān)鍵,便是真實場景的數(shù)據(jù)十分稀缺。各家公司只能在實際落地中,積累更多數(shù)據(jù),不斷迭代技術(shù)。只有這樣,機器人才能更好地處理現(xiàn)實生活中極端的長尾場景(corner case)。
好消息是,對創(chuàng)業(yè)公司和追趕者而言,前方的賽道勝局未定。誰都有超越的可能。
“數(shù)據(jù)雖然重要,但光有佐料也不行,” 殷鵬說,“巨頭特斯拉有數(shù)據(jù)歸有數(shù)據(jù),但還缺一個高級的大廚,把這些數(shù)據(jù)用起來?!?/p>
“這需要一套非常合理且優(yōu)雅的算法?!彼嬖V我。
現(xiàn)在,這個優(yōu)雅算法,大家都在嘗試突破。