4月19日,周六,全球首場(chǎng)人形機(jī)器人半程馬拉松在北京亦莊舉行,天工Ultra率先沖向終點(diǎn)。這個(gè)身高1.8米、體重55公斤、全身漆黑的機(jī)器人跑出了和人類跑者相似的成績(jī):2時(shí)40分42秒。對(duì)比之下,在半個(gè)世紀(jì)前的1973年,誕生于日本早稻田大學(xué)的全球第一款人形機(jī)器人WABOT-1,每45秒才能邁出一步。
近兩年,人形機(jī)器人正在以各種意想不到的方式“刷存在感”:特斯拉2024年的自動(dòng)駕駛發(fā)布會(huì)上,其Optimus機(jī)器人用飲料招待賓客、和人玩猜拳游戲。宇樹(shù)科技的人形機(jī)器人登上央視蛇年春晚舞臺(tái),和舞者一起甩手絹、扭秧歌。這些闖入大眾視野的人形機(jī)器人似乎在努力證明:科幻電影中的場(chǎng)景即將成真。
它也成了當(dāng)下國(guó)內(nèi)最熱門的創(chuàng)業(yè)賽道之一。華為、蔚來(lái)、百度、京東、大疆等公司都有高管離職創(chuàng)業(yè),新加盟的研究者則大多具備加州大學(xué)伯克利分校、斯坦福、清華、北大等頂尖高校實(shí)驗(yàn)室的學(xué)術(shù)背景。據(jù)不完全統(tǒng)計(jì),自2023年至今,中國(guó)涌現(xiàn)出58家人形機(jī)器人創(chuàng)業(yè)公司—這里面還不包括產(chǎn)業(yè)鏈上下游的企業(yè)。
相應(yīng)的,資本市場(chǎng)的熱錢也在大筆砸進(jìn)來(lái)。今年3月,成立剛一個(gè)月的它石智航憑借1.2億美元的天使輪融資,創(chuàng)下了行業(yè)內(nèi)天使輪融資紀(jì)錄。IT桔子的數(shù)據(jù)顯示,2023年至今,人形機(jī)器人領(lǐng)域的投資事件累計(jì)130起,投資規(guī)模平均每年約55億元人民幣。
春節(jié)假期過(guò)后,投資人爭(zhēng)搶宇樹(shù)科技老股的新聞登上熱搜,同時(shí)大量以機(jī)器人為主題的商業(yè)計(jì)劃書遞到了投資人面前。某精品人民幣早期風(fēng)險(xiǎn)投資機(jī)構(gòu)的投資人程朗對(duì)《第一財(cái)經(jīng)》雜志表示,現(xiàn)在投資不止局限于做人形機(jī)器人本體的公司,還會(huì)押注模型、數(shù)據(jù)、硬件、場(chǎng)景等產(chǎn)業(yè)鏈上下游的企業(yè)。
然而就在3月底,VC圈的熱點(diǎn)制造機(jī),金沙江創(chuàng)投合伙人朱嘯虎再次踩準(zhǔn)時(shí)機(jī)炮轟整個(gè)行業(yè),稱自己正在批量退出人形機(jī)器人公司,理由是“市場(chǎng)共識(shí)高度集中,但商業(yè)化路徑并不清晰”—他上一次發(fā)表類似言論就在一年前,當(dāng)時(shí)炮轟的對(duì)象是大模型行業(yè),他直言“中國(guó)大模型公司全沒(méi)戲”。
從事實(shí)來(lái)看,2024年全國(guó)人形機(jī)器人市場(chǎng)的規(guī)模是27.6億元—只有年度投資規(guī)模的一半。各個(gè)研究機(jī)構(gòu)都描繪了未來(lái)5到10年市場(chǎng)規(guī)??焖倥蛎浀拿篮脠D景,但并未給出足夠精細(xì)、具象化的落地場(chǎng)景。
泡沫自然是存在的,不過(guò)當(dāng)我們追溯這一輪投資和創(chuàng)業(yè)熱潮的根源,就會(huì)發(fā)現(xiàn)在AI技術(shù)的加持下,人形機(jī)器人確實(shí)在發(fā)生質(zhì)變。強(qiáng)化學(xué)習(xí)的廣泛應(yīng)用讓機(jī)器人能夠快速學(xué)會(huì)過(guò)去要幾周才能掌握的動(dòng)作;大模型向機(jī)器人的技術(shù)遷移又極大地提升了后者的自主能力,讓人形機(jī)器人從“會(huì)動(dòng)”,向“能聽(tīng)懂人話”且“具備思考和規(guī)劃能力”躍升。
2024年8月,北京的酷暑未能嚇退觀眾對(duì)機(jī)器人的熱情。在世界機(jī)器人大會(huì)現(xiàn)場(chǎng),人形機(jī)器人上演“百機(jī)大戰(zhàn)”,跳舞、彈揚(yáng)琴、寫毛筆字、疊衣服……幾乎每個(gè)展臺(tái)邊都擠滿了觀眾。如果說(shuō)2024年的“機(jī)器人熱”還僅限于技術(shù)愛(ài)好者圈內(nèi),登上春晚舞臺(tái)的宇樹(shù)科技的通用人形機(jī)器人H1徹底打破了圈層。觀眾們驚詫于機(jī)器人的靈活性,好奇什么時(shí)候可以買一臺(tái)回家替自己干活。
這樣的憧憬五十多年前就有了。從1980年代彈鋼琴的WABOT-2,到2000年本田公司旗下會(huì)走路、會(huì)跳舞的ASIMO,再到2013年美國(guó)波士頓動(dòng)力公司能翻跟頭、手拉腳踹也不倒的Atlas,機(jī)器人的行動(dòng)能力在不斷突破。
這也是上一輪機(jī)器人發(fā)展的主線—做好機(jī)器人的下半身。靈初智能創(chuàng)始人兼CEO王啟斌在機(jī)器人領(lǐng)域深耕多年,他對(duì)《第一財(cái)經(jīng)》雜志表示,2016年前后出現(xiàn)的一批機(jī)器人公司,能夠?qū)⒁患锲窂囊惶幇徇\(yùn)至另一處,專注于對(duì)有限物體的操作。這些用于酒店送餐、清潔、倉(cāng)儲(chǔ)物流的機(jī)器人,只能在相對(duì)封閉的場(chǎng)景里完成任務(wù),智能化水平相對(duì)較低。
宇樹(shù)科技給機(jī)器人帶來(lái)了更高的關(guān)注度,但這家公司本質(zhì)上還是和2016年那一撥機(jī)器人公司一樣,都只解決了機(jī)器人的移動(dòng)能力,并沒(méi)有解決機(jī)器人上半身尤其是手部的操作能力。其進(jìn)步之處在于,隨著人工智能(AI)的發(fā)展,宇樹(shù)科技采用了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)相結(jié)合的算法,增強(qiáng)機(jī)器人的運(yùn)動(dòng)控制能力,直觀體現(xiàn)在產(chǎn)品上,就是機(jī)器人動(dòng)作更靈活,更適應(yīng)復(fù)雜地形。宇樹(shù)科技創(chuàng)始人王興興稱,2024年年初,宇樹(shù)科技的H1完成了全球首次純電驅(qū)動(dòng)人形機(jī)器人原地空翻。這是傳統(tǒng)算法很難實(shí)現(xiàn)的。
宇樹(shù)科技并非走純粹A I技術(shù)路線的公司,它的火爆僅代表了本輪機(jī)器人熱潮的一面。另一面對(duì)大眾來(lái)說(shuō)或許感受不深,卻足以振奮機(jī)器人行業(yè):隨著AI技術(shù)與大模型等技術(shù)取得突破,機(jī)器人的上半身—核心就是大腦—迎來(lái)了技術(shù)拐點(diǎn)。
這個(gè)變化也體現(xiàn)在語(yǔ)言上,近年來(lái)“具身智能”這個(gè)在這一撥浪潮中誕生的熱詞,已經(jīng)隱隱有代替“機(jī)器人”的跡象。兩個(gè)詞都指代那些可以與世界交互的人造物理實(shí)體,但有著明顯不同的價(jià)值傾向,前者更強(qiáng)調(diào)“大腦軟件”的重要性,潛臺(tái)詞是為大腦尋找一個(gè)好用的身體以促進(jìn)軟件的進(jìn)化,后者更側(cè)重物理實(shí)體本身。
首個(gè)明確提出要為人形機(jī)器人升級(jí)大腦的人是馬斯克,特斯拉快速成熟的自動(dòng)駕駛技術(shù)使他意識(shí)到,這種理解、規(guī)劃、操控的能力完全可以遷移到機(jī)器人身體上。2021年,馬斯克在特斯拉的AI Day上首次宣布人形機(jī)器人Optimus計(jì)劃,打算將電動(dòng)車的自動(dòng)駕駛系統(tǒng)和芯片集成到人形機(jī)器人上。當(dāng)時(shí)很多業(yè)內(nèi)人士質(zhì)疑馬斯克在“夸大宣傳”。事實(shí)上,自動(dòng)駕駛和人形機(jī)器人的底層邏輯是一致的:在無(wú)人干預(yù)的情況下感知環(huán)境、識(shí)別物體、自主控制并完成任務(wù)。
馬斯克曾將電動(dòng)車類比為“帶輪子的機(jī)器人”。特斯拉的Optimus就采用了與FSD智能輔助駕駛(特斯拉的“完全自動(dòng)駕駛系統(tǒng)”)相同的視覺(jué)感知方案和神經(jīng)網(wǎng)絡(luò)技術(shù),以完成路徑規(guī)劃和物體識(shí)別。這也是為何這撥機(jī)器人熱潮中有大量創(chuàng)業(yè)者來(lái)自自動(dòng)駕駛行業(yè)。
例如,維他動(dòng)力的創(chuàng)始成員包括地平線前副總裁、軟件平臺(tái)產(chǎn)品線前總裁余軼南,理想汽車智能駕駛產(chǎn)品前總監(jiān)趙哲倫,和曾是地平線軟件平臺(tái)總架構(gòu)師、智駕團(tuán)隊(duì)創(chuàng)始成員的宋巍。它石智航董事長(zhǎng)李震宇曾任百度智能駕駛事業(yè)群總裁,CEO陳亦倫曾任華為自動(dòng)駕駛CTO。智元機(jī)器人合伙人姚卯青曾在Waymo、蔚來(lái)汽車擔(dān)任重要的技術(shù)崗位。
不過(guò),雖然人形機(jī)器人與自動(dòng)駕駛技術(shù)首個(gè)明確提出要為人形機(jī)器人升級(jí)大腦的人是馬斯克,特斯拉快速成熟的自動(dòng)駕駛技術(shù)使他意識(shí)到,這種理解、規(guī)劃、操控的能力完全可以遷移到機(jī)器人身體上。2021年,馬斯克在特斯拉的AI Day上首次宣布人形機(jī)器人Optimus計(jì)劃,打算將電動(dòng)車的自動(dòng)駕駛系統(tǒng)和芯片集成到人形機(jī)器人上。當(dāng)時(shí)很多業(yè)內(nèi)人士質(zhì)疑馬斯克在“夸大宣傳”。事實(shí)上,自動(dòng)駕駛和人形機(jī)器人的底層邏輯是一致的:在無(wú)人干預(yù)的情況下感知環(huán)境、識(shí)別物體、自主控制并完成任務(wù)。馬斯克曾將電動(dòng)車類比為“帶輪子的機(jī)器人”。特斯拉的Optimus就采用了與FSD智能輔助駕駛(特斯拉的“完全自動(dòng)駕駛系統(tǒng)”)相同的視覺(jué)感知方案和神經(jīng)網(wǎng)絡(luò)技術(shù),以完成路徑規(guī)劃和物體識(shí)別。這也是為何這撥機(jī)器人熱潮中有大量創(chuàng)業(yè)者來(lái)自自動(dòng)駕駛行業(yè)。
例如,維他動(dòng)力的創(chuàng)始成員包括地平線前副總裁、軟件平臺(tái)產(chǎn)品線前總裁余軼南,理想汽車智能駕駛產(chǎn)品前總監(jiān)趙哲倫,和曾是地平線軟件平臺(tái)總架構(gòu)師、智駕團(tuán)隊(duì)創(chuàng)始成員的宋巍。它石智航董事長(zhǎng)李震宇曾任百度智能駕駛事業(yè)群總裁,CEO陳亦倫曾任華為自動(dòng)駕駛CTO。智元機(jī)器人合伙人姚卯青曾在Waymo、蔚來(lái)汽車擔(dān)任重要的技術(shù)崗位。
不過(guò),雖然人形機(jī)器人與自動(dòng)駕駛技術(shù)有相通之處,但兩者要處理的場(chǎng)景難度卻不同。汽車再?gòu)?fù)雜也是在道路上行駛,而交通網(wǎng)絡(luò)已經(jīng)是人類文明塑造出的最結(jié)構(gòu)化、系統(tǒng)化的場(chǎng)景,理想情況下,操控汽車只需要油門、剎車和方向盤。但人形機(jī)器人面對(duì)的場(chǎng)景就是人類日常生活工作的場(chǎng)景,復(fù)雜度和前者完全不是一個(gè)量級(jí),這意味著人形機(jī)器的大腦需要更加“通用”。
Google率先提出了解決方案,在2022年12月發(fā)布并開(kāi)源了機(jī)器人模型RT-1(RoboticsTransformer 1),首次將大模型裝載進(jìn)機(jī)器人,機(jī)器人在模型的指揮下完成了抓取物體、開(kāi)關(guān)抽屜等700多項(xiàng)復(fù)雜操作,準(zhǔn)確率達(dá)到97%。機(jī)器人終于不再只是在單一路線里做重復(fù)任務(wù)的“呆子”,第一次擁有了通用型“大腦”。
但高準(zhǔn)確率的前提是,Google Research團(tuán)隊(duì)收集了13萬(wàn)條機(jī)器人運(yùn)行的真實(shí)數(shù)據(jù),以此為“教材”訓(xùn)練機(jī)器人。換言之,機(jī)器人只能完成經(jīng)過(guò)訓(xùn)練的任務(wù),一旦任務(wù)超過(guò)數(shù)據(jù)集范圍,對(duì)機(jī)器人來(lái)說(shuō)就意味著“考試超綱”。Google 2023年發(fā)布的RT-2模型再次有了飛躍性進(jìn)展:研究員下達(dá)“抓取已滅絕動(dòng)物”的指令后,搭載RT-2的機(jī)器人伸出手臂,在一堆玩偶中抓住了恐龍。這表明新模型使機(jī)器人具備了推理能力,機(jī)器人可以通過(guò)思考完成任務(wù)。
人形機(jī)器人的技術(shù)突破,并不是將大模型搭載在機(jī)器人身上那么簡(jiǎn)單。大模型通過(guò)和用戶對(duì)話解答問(wèn)題,訓(xùn)練數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)。
機(jī)器人是和現(xiàn)實(shí)世界交互解決問(wèn)題,需要的數(shù)據(jù)更多,獲取難度也更大。智元機(jī)器人(以下簡(jiǎn)稱“智元”)首席科學(xué)家羅劍嵐在接受《第一財(cái)經(jīng)》雜志采訪時(shí)表示,大語(yǔ)言模型或多模態(tài)(文生圖、文生視頻等)模型的生成結(jié)果仍然只有60%至70%的準(zhǔn)確率。這個(gè)準(zhǔn)確率在二維世界并不會(huì)造成多大傷害,但在真實(shí)世界,“這種準(zhǔn)確率一點(diǎn)用也沒(méi)有”。
因?yàn)闄C(jī)器人每一個(gè)失敗動(dòng)作都會(huì)產(chǎn)生物理性的后果。沒(méi)有人可以忍受機(jī)器人遞來(lái)杯子時(shí)把咖啡潑在自己臉上,或者清理桌面時(shí)把餐具也丟進(jìn)垃圾桶。機(jī)器人需要更高的準(zhǔn)確率—羅劍嵐給出的數(shù)字是99%。而要在70%動(dòng)作預(yù)測(cè)準(zhǔn)確率的基礎(chǔ)上再提升20%到30%,往往比從0到70%更難。
如何獲取高質(zhì)量的數(shù)據(jù)以完成進(jìn)一步訓(xùn)練成了行業(yè)難題,互聯(lián)網(wǎng)數(shù)據(jù)只是冰山一角,還有一個(gè)途徑是像Google一樣,收集真機(jī)數(shù)據(jù)。Google曾聯(lián)合全球33個(gè)學(xué)術(shù)實(shí)驗(yàn)室,推出了涵蓋超百萬(wàn)條真實(shí)軌跡的數(shù)據(jù)集OpenX-Embodiment。
效仿這一路徑的還有智元,它在2024年9月啟用中國(guó)首個(gè)數(shù)據(jù)采集工廠,數(shù)據(jù)采集員通過(guò)遙控操作(簡(jiǎn)稱“遙操作”),讓機(jī)器人通過(guò)模仿學(xué)習(xí),然后采集數(shù)據(jù)。這座4000平方米的工廠里涵蓋了商超、家庭、工廠等場(chǎng)景,近百名數(shù)據(jù)采集員拿著遙控設(shè)備,“手把手”教機(jī)器人工作。當(dāng)工作人員拿起設(shè)備做出“掃碼商品”的動(dòng)作時(shí),機(jī)器人也有樣學(xué)樣,掃碼了一罐口香糖。人形機(jī)器人完成“拿起商品、掃碼、裝袋、遞給客戶”的操作,耗時(shí)約1分鐘,這就是1條數(shù)據(jù)。一個(gè)機(jī)器人每天可采集約150條數(shù)據(jù),如果人形機(jī)器人想完全學(xué)會(huì)該動(dòng)作,需要累計(jì)收集上萬(wàn)條數(shù)據(jù)。
“有多少數(shù)據(jù)就有多少智能,海量的免費(fèi)文本數(shù)據(jù)催生了大模型。自動(dòng)駕駛汽車在路上跑也有很多數(shù)據(jù),但對(duì)于機(jī)器人來(lái)說(shuō),并沒(méi)有現(xiàn)成的、免費(fèi)的高質(zhì)量數(shù)據(jù)。我們未來(lái)產(chǎn)出的數(shù)據(jù)規(guī)模每周將會(huì)是50萬(wàn)條。”智元聯(lián)合創(chuàng)始人彭志輝說(shuō)。2024年年底,智元發(fā)布了開(kāi)源數(shù)據(jù)集,規(guī)模比Google的數(shù)據(jù)集大10倍。
此外,數(shù)據(jù)量的限制也在倒逼研究者開(kāi)創(chuàng)新的技術(shù)路線,行業(yè)內(nèi)出現(xiàn)了分層模型的趨勢(shì),即將一個(gè)通用大腦拆解成兩個(gè)小模型,一個(gè)負(fù)責(zé)理解規(guī)劃,一個(gè)負(fù)責(zé)執(zhí)行控制。
2024年12月,靈初智能率先推出了分層端到端模型Psi R0,將視覺(jué)-語(yǔ)言-動(dòng)作模型(Vision-Language-Action,VLA)拆解為視覺(jué)-語(yǔ)言模型(Vision Language Model,VLM)和動(dòng)作執(zhí)行兩個(gè)層級(jí)。上層負(fù)責(zé)推理,下層專注機(jī)械控制。例如,當(dāng)機(jī)器人清理桌面時(shí),上層相當(dāng)于機(jī)器人的“大腦”,負(fù)責(zé)判斷哪些是要扔掉的垃圾,哪些物品要整理好。當(dāng)物品抓取失敗時(shí),下層充當(dāng)了“小腦”的角色,會(huì)再次嘗試抓住物品—?jiǎng)幼餮杆夙憫?yīng),不再需要上層做緩慢的思考。
分層架構(gòu)擴(kuò)展了可學(xué)習(xí)數(shù)據(jù)的類型,機(jī)器人模型不止從真機(jī)數(shù)據(jù)中學(xué)習(xí),也能從大量互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)。這種分層端到端的理念在之后Figure A I的Helix、PhysicalIntelligence的Hi Robot,以及智元的GO-1等機(jī)器人的架構(gòu)中都有所體現(xiàn)。
另外,合成數(shù)據(jù)也是一條路徑。英偉達(dá)在CES 2025大會(huì)上推出了用于合成運(yùn)動(dòng)生成的工具Isaac GR00T Blueprint,開(kāi)發(fā)者只需少量的人類示范,就能輕松生成海量的合成數(shù)據(jù)集。2025年年初,銀河通用推出的機(jī)器人大模型GraspVLA就是完全基于仿真合成大數(shù)據(jù)訓(xùn)練出來(lái)的。它自研的合成數(shù)據(jù)生產(chǎn)管線在短短一周內(nèi)就能生成十億級(jí)的機(jī)器人操作數(shù)據(jù)集,極大降低了數(shù)據(jù)采集成本。
盡管行業(yè)正在探索多種數(shù)據(jù)收集方式,數(shù)據(jù)量仍然是限制行業(yè)發(fā)展的最大瓶頸。以大模型為例,DeepSeek、Llama等模型的參數(shù)量大約為5000億,訓(xùn)練如此規(guī)模的模型需要16.6TB的數(shù)據(jù),如果一本書約等于500KB文本,訓(xùn)練數(shù)據(jù)相當(dāng)于3320萬(wàn)本書,頂?shù)蒙螱oogle圖書收錄的書目數(shù)量。
文本數(shù)據(jù)獲取起來(lái)相對(duì)容易,大模型尚且存在數(shù)據(jù)不足的瓶頸,機(jī)器人需要的現(xiàn)實(shí)交互數(shù)據(jù)更多,量的有效積累更難。多位投資者和機(jī)器人創(chuàng)業(yè)者對(duì)《第一財(cái)經(jīng)》雜志表示,想要做出真正可行的機(jī)器人,在模型、架構(gòu)、算法上都要取得突破。這撥機(jī)器人熱潮還處于從0到1的階段,具身智能的Transformer時(shí)刻還沒(méi)有到來(lái)。
IT桔子數(shù)據(jù)顯示,它石智航完成1.2億美元天使輪融資后,投后估值達(dá)到了4.53億美元。第一輪融資后的估值超過(guò)30億元,也超出了投資方的想象。程朗長(zhǎng)期關(guān)注具身智能賽道,據(jù)他回憶,有關(guān)人形機(jī)器人的投資在2024年年中已經(jīng)很熱,“此后的項(xiàng)目估值就沒(méi)有低過(guò)”。在融資金額方面,“種子輪和天使輪大約為3000萬(wàn)至5000萬(wàn)元—這是及格線。今年對(duì)投資方的要求可能會(huì)更高,整個(gè)賽道有些瘋狂,泡沫肯定存在,對(duì)投資機(jī)構(gòu)來(lái)說(shuō)難度增加了,但這對(duì)行業(yè)來(lái)說(shuō)是好事,融資多了一些,行業(yè)在往上發(fā)展?!?/p>
這一年多來(lái),機(jī)器人行業(yè)的項(xiàng)目數(shù)量、投資金額和估值在上升,投資方的關(guān)注方向也發(fā)生了變化。初創(chuàng)公司受限于資金,很難像特斯拉一樣,軟硬件一體化、全方位地研發(fā)機(jī)器人。國(guó)內(nèi)的人形機(jī)器人公司目前大體可分為兩類,一類側(cè)重研發(fā)智能大腦(認(rèn)知和任務(wù)規(guī)劃能力),一類側(cè)重研發(fā)本體(運(yùn)動(dòng)控制和硬件)?!?024年之前,投資方比較重視具身機(jī)器人的本體,2024年之后大家逐漸更關(guān)注具身大腦的創(chuàng)業(yè)企業(yè)。因?yàn)橥顿Y人更在意機(jī)器人智能水平和泛化能力的提升,這個(gè)趨勢(shì)在國(guó)外出現(xiàn)得更早?!毙沁B資本(Z基金)的投資人關(guān)蕾對(duì)《第一財(cái)經(jīng)》雜志說(shuō)。
硬件本體領(lǐng)域的明星公司正是宇樹(shù)科技,自2020年起它已經(jīng)連續(xù)5年實(shí)現(xiàn)營(yíng)利。目前,宇樹(shù)科技的四足機(jī)器狗占全球60%到70%的市場(chǎng)份額,銷量第一。其通用人形機(jī)器人在2024年實(shí)現(xiàn)了全球發(fā)貨,G1型號(hào)的售價(jià)低至9.9萬(wàn)元,打破了人形機(jī)器人尚停留在原型機(jī)階段且價(jià)格高昂的印象。
談及“硬件公司”的標(biāo)簽,王興興曾在2024年機(jī)器人大會(huì)期間對(duì)媒體稱很喜歡這個(gè)標(biāo)簽,它代表了外界的認(rèn)可。在AI浪潮下,他認(rèn)為機(jī)器人的身體比想象中更重要,因?yàn)橹挥凶屔眢w在物理世界中交互,機(jī)器人才能真正理解重力、摩擦力、光學(xué)等物理概念,更高級(jí)的智能必須“具身”。這位創(chuàng)始人思路務(wù)實(shí),肯定AI能力的重要性,也承認(rèn)宇樹(shù)對(duì)AI的投入較克制,因?yàn)椤疤珶X了”。2016年前后,王興興聯(lián)系投資并不順利,多虧一位個(gè)人投資者投了200萬(wàn)元,條款寬泛,打錢時(shí)連協(xié)議都沒(méi)有簽。對(duì)資源短缺的創(chuàng)業(yè)公司而言,維持自我造血能力—在創(chuàng)業(yè)浪潮中活下來(lái)是優(yōu)先考慮的事。
如果說(shuō)機(jī)器人的本體代表了現(xiàn)在,大腦則代表了未來(lái)。從財(cái)務(wù)角度出發(fā),投資方理應(yīng)優(yōu)先選擇本體,畢竟宇樹(shù)科技已經(jīng)賺到了錢。但從長(zhǎng)遠(yuǎn)看,大腦決定了機(jī)器人的智能水平,商業(yè)價(jià)值的想象空間更大,對(duì)投資方的吸引力也更大。程朗表示,今年會(huì)側(cè)重看AI模型、數(shù)據(jù)方向的投資標(biāo)的。
當(dāng)前的矛盾在于,提升機(jī)器人智能的技術(shù)路線并不清晰。投資機(jī)構(gòu)的投資策略也各不相同,投資時(shí)較為確定性的因素主要就是創(chuàng)始團(tuán)隊(duì)的背景?!百惖捞幱谠缙陔A段,做什么樣的機(jī)器人、做哪個(gè)環(huán)節(jié)的機(jī)器人可能一直在變,唯一不變的是團(tuán)隊(duì)基因。他們有沒(méi)有技術(shù)實(shí)力?有沒(méi)有對(duì)機(jī)器人的熱愛(ài)?早期投資機(jī)構(gòu)看人比看事多一點(diǎn)?!背汤收f(shuō),高校學(xué)者負(fù)責(zé)技術(shù)路線的前沿探索,在業(yè)界經(jīng)驗(yàn)豐富的人把控量產(chǎn)和場(chǎng)景落地相關(guān)工作,投資者相對(duì)傾向于這樣技術(shù)和產(chǎn)業(yè)兼?zhèn)涞膱F(tuán)隊(duì)組合。
這一類公司的典型畫像是智元。智元?jiǎng)?chuàng)始人兼CEO鄧泰華曾任華為公司副總裁、計(jì)算產(chǎn)品線總裁,在華為工作了超過(guò)20年?!叭A為天才少年”彭志輝擔(dān)任公司聯(lián)創(chuàng)兼CTO;智元首席科學(xué)家羅劍嵐曾在Goole DeepMind擔(dān)任研究科學(xué)家,他還推動(dòng)了智元與美國(guó)頭部具身智能公司Physical Intelligence(Pi)的合作。截至目前,智元已完成7輪融資,騰訊兩次增持股份,投后估值達(dá)到150億元—幾乎是宇樹(shù)科技的兩倍。
智元的投資陣容和團(tuán)隊(duì)陣容都堪稱豪華,這使得它對(duì)A I領(lǐng)域的投入相當(dāng)闊氣:成立智元具身智能研究中心和智元機(jī)器人研究院兩個(gè)研究機(jī)構(gòu),在上海建設(shè)國(guó)內(nèi)首個(gè)機(jī)器人數(shù)據(jù)采集工廠。智元合伙人、具身業(yè)務(wù)部總裁、研究院執(zhí)行院長(zhǎng)姚卯青曾對(duì)包括《第一財(cái)經(jīng)》雜志在內(nèi)的媒體稱,智元在AI方面是“P0級(jí)的投入”。他認(rèn)為只投入機(jī)器人本體的開(kāi)發(fā)沒(méi)有未來(lái),因?yàn)橹婚_(kāi)發(fā)本體,不投入AI,機(jī)器人就只能做有限任務(wù),只是個(gè)昂貴的大號(hào)玩具。
但創(chuàng)業(yè)公司不能一直依賴融資生存,專注前沿研究和在市場(chǎng)上營(yíng)利這兩件事必須做好平衡。智元也在硬件量產(chǎn)方面發(fā)力,設(shè)立了遠(yuǎn)征、靈犀和Genie三大產(chǎn)品線,分別專注于toB、to C和數(shù)據(jù)采集,還為靈巧手等零部件設(shè)立了幾個(gè)一級(jí)部門。2025年1月,智元量產(chǎn)的通用具身機(jī)器人達(dá)到1000臺(tái)。
在當(dāng)下市場(chǎng),究竟是哪些人在買人形機(jī)器人?從目前的結(jié)果看,機(jī)器人本體的應(yīng)用場(chǎng)景主要是科研和表演。宇樹(shù)科技通過(guò)春晚“爆火了”,而比投資人更興奮的,或許是機(jī)器人租賃市場(chǎng)?!兜谝回?cái)經(jīng)》雜志向全國(guó)多家租賃方詢價(jià)得知,宇樹(shù)G1的日租金目前為7500元至9999元不等,周末和節(jié)假日價(jià)格還會(huì)上漲。每臺(tái)機(jī)器人需要配一位操作員,因此租金包含了操作員的勞務(wù)費(fèi)和設(shè)備運(yùn)輸費(fèi),租賃用途大多為在展會(huì)、商場(chǎng)等地表演節(jié)目。除了宇樹(shù)科技,商家還推薦了云深處、加速進(jìn)化、樂(lè)聚、松延動(dòng)力等品牌的機(jī)器人租賃。
“商用導(dǎo)覽和表演展示的場(chǎng)景需求不大,這種需求主要的價(jià)值在于對(duì)行業(yè)早期宣傳和普及機(jī)器人的概念,但投資價(jià)值有限?!标P(guān)蕾說(shuō),現(xiàn)在主流的市場(chǎng)需求是科研,科研機(jī)構(gòu)會(huì)購(gòu)買具身機(jī)器人本體,在上面部署一些前瞻性的算法做技術(shù)探索,包括認(rèn)知和行為類的研究、強(qiáng)化學(xué)習(xí)和具身大模型的算法驗(yàn)證、物理世界模型研究等方向,“科研機(jī)構(gòu)有很強(qiáng)的二次開(kāi)發(fā)能力,通過(guò)底層的開(kāi)放數(shù)據(jù)、接口和工具就可以搭建實(shí)驗(yàn)平臺(tái)”。2024年12月,同濟(jì)大學(xué)的招標(biāo)公告顯示,采購(gòu)了10臺(tái)宇樹(shù)科技的H1-2通用人形機(jī)器人和相關(guān)配件,合同總金額為825.66萬(wàn)元。
但僅靠科研場(chǎng)景無(wú)法支撐起眾多創(chuàng)業(yè)公司。宇樹(shù)科技不執(zhí)著于人形機(jī)器人,它將四足機(jī)器狗的性價(jià)比做到極致,以此養(yǎng)活自己,并支撐起未來(lái)長(zhǎng)期的科研投入,這可以被視為一種接地氣的做法。
此外為人形機(jī)器人做零部件配套也是重要的賽道之一。比如許晉誠(chéng)創(chuàng)立的帕西尼感知科技,就是一家專門做機(jī)器人觸覺(jué)傳感器的公司,“握杯子時(shí)手掌張開(kāi)的程度、拉扯柔軟線路時(shí)要小心控制的力度”,這些機(jī)器人的手部動(dòng)作規(guī)劃都需要基于觸覺(jué)反饋,他告訴《第一財(cái)經(jīng)》雜志。
放眼未來(lái),投資人不再執(zhí)著于人形機(jī)器人的“形”,而是專注于應(yīng)用場(chǎng)景落地。“輪式底盤,搭配雙手靈巧操作或者以任何恰當(dāng)?shù)男螒B(tài),用最好的性能和性價(jià)比,在它的細(xì)分賽道里實(shí)現(xiàn)具身智能的價(jià)值就可以。不一定非要雙足形態(tài)?!标P(guān)蕾表示。程朗則認(rèn)為,2025年如果有新成立的公司還執(zhí)著于做有雙手和雙腿的人形機(jī)器人,融資難度可能會(huì)變大,市場(chǎng)現(xiàn)在“更看重機(jī)器人用手操作任務(wù)、解決真實(shí)場(chǎng)景問(wèn)題的能力”。
首屆人形機(jī)器人馬拉松上,機(jī)器人隊(duì)伍的現(xiàn)場(chǎng)表現(xiàn)可以用亂糟糟來(lái)形容,大多數(shù)機(jī)器人需要中途更換電池,還要噴灑冷卻液以降低電機(jī)等部件的溫度。參賽的20支機(jī)器人隊(duì)伍中只有6支成功完賽。不少人悲觀地認(rèn)為,這次馬拉松把人形機(jī)器人的缺點(diǎn)完全暴露了出來(lái),整個(gè)市場(chǎng)可能會(huì)轉(zhuǎn)冷。然而接下來(lái)的一周,人形機(jī)器人概念股在A股市場(chǎng)表現(xiàn)活躍,襄陽(yáng)軸承、寧波東力、杭齒前進(jìn)、南方精工等多股漲停。
多位業(yè)內(nèi)人士對(duì)《第一財(cái)經(jīng)》雜志表示,人形機(jī)器人是一個(gè)5到10年,甚至10年以上的漫長(zhǎng)賽道。不過(guò)“這條賽道長(zhǎng)坡厚雪”,人形機(jī)器創(chuàng)業(yè)公司星海圖面對(duì)朱嘯虎的唱衰言論這樣回應(yīng)—這家公司在2023年11月拿到了金沙江創(chuàng)投的天使投資,但僅僅6個(gè)月后金沙江創(chuàng)投便火速退出。有趣的是,今年年初,DeepSeek的巨大成功讓保守的朱嘯虎也開(kāi)始直呼“技術(shù)理想主義者的勝利”,當(dāng)被問(wèn)及如果有機(jī)會(huì)是否會(huì)投DeepSeek時(shí),他反復(fù)說(shuō)了兩遍“肯定會(huì)投”。
靈初智能創(chuàng)始人兼CEO
王啟斌
Q 人形機(jī)器人會(huì)像手機(jī)一樣人手一臺(tái)嗎?
A 這本質(zhì)上還是以過(guò)去的思維范式來(lái)思考未來(lái)。因?yàn)橹悄苁謾C(jī)被認(rèn)為是一個(gè)smar tdevice,它具有smart的屬性,但是終究是被人拿來(lái)使用的device。我認(rèn)為未來(lái)7年左右,人形機(jī)器人是有可能實(shí)現(xiàn)大規(guī)模部署的。
Q 那它會(huì)成為“ 伙伴”嗎?
A 目前,我覺(jué)得人形機(jī)器人和人之間的關(guān)系本質(zhì)上還是處在大家所說(shuō)的以人類為中心的階段,從算法設(shè)計(jì)到獎(jiǎng)勵(lì)函數(shù)設(shè)定都由人類主導(dǎo),其本質(zhì)還是工具。但未來(lái)如果人形機(jī)器人在復(fù)雜環(huán)境中能夠具備自我學(xué)習(xí)的能力,它或?qū)⒊蔀樾挛锓N。屆時(shí)它和人類的關(guān)系將向?qū)θ祟惛袔椭幕锇殛P(guān)系演進(jìn)。
Q 如果你有一臺(tái)人形機(jī)器人,你最想用它來(lái)做什么?
A 最近R o d n e yB r o o k s(i Ro b o t創(chuàng)始人)在斯坦福大學(xué)的發(fā)言中提到一條規(guī)律,即機(jī)器人的外形設(shè)計(jì)決定了人對(duì)它的期望值。因此我們今天對(duì)人形機(jī)器人的期望,很大程度上就是對(duì)一個(gè)智人的期望。
銀河通用合伙人
傅強(qiáng)
Q 人形機(jī)器人與非人形機(jī)器人的核心區(qū)別是什么?
A 目前被大眾所熟知的非人形機(jī)器人,例如工廠的機(jī)械臂,往往為單一任務(wù)而生,效率極高,但適用范圍受限。而人形機(jī)器人則代表了一條通用型的發(fā)展路徑。人類社會(huì)中,樓梯、電梯、工具、家具的交互方式都以人的尺度和習(xí)慣展開(kāi),人形機(jī)器具備真正無(wú)縫融入這些既有結(jié)構(gòu)的潛質(zhì)。
Q 人形機(jī)器人會(huì)像手機(jī)一樣人手一臺(tái)嗎?
A 馬斯克預(yù)測(cè)未來(lái)世界上將有10 0 億臺(tái)人形機(jī)器人,聽(tīng)起來(lái)也許有些夸張,但它反映出的趨勢(shì)是明確的。在銀河通用看來(lái),哪怕達(dá)不到手機(jī)的普及度,未來(lái)人形機(jī)器人的規(guī)模至少能比肩今天的汽車產(chǎn)業(yè)。
Q 最打動(dòng)你的人形機(jī)器人應(yīng)用案例是什 么?
A 最打動(dòng)我的是那些真正有人情味的時(shí)刻。比如在康養(yǎng)醫(yī)療場(chǎng)景里,它陪伴并照顧失能老人,替家人分擔(dān)壓力;又比如我忙碌一天、癱在沙發(fā)上的時(shí)候,它遞過(guò)來(lái)一瓶飲料、輕聲提醒我早點(diǎn)休息。這些背后體現(xiàn)的正是人形機(jī)器人的最大價(jià)值—跨場(chǎng)景適應(yīng)和靈活泛 化。
帕西尼感知科技聯(lián)合創(chuàng)始人
聶相如
Q 機(jī)器人做成人形的價(jià)值在哪里?
A 人形機(jī)器人因其類人的外形和動(dòng)作,天然適配人類環(huán)境,更具有交互友好性。不過(guò)帕西尼也并不追求絕對(duì)的仿人,TOR AONE就是一款輪式人形機(jī)器人,我們專注于提升機(jī)器人的多維觸覺(jué)感知能力,以人形為基礎(chǔ)拓展應(yīng)用場(chǎng) 景。
Q 打動(dòng)你的人形機(jī)器人應(yīng)用案例是什么?
A 最打動(dòng)我的機(jī)器人應(yīng)用案例是一個(gè)內(nèi)置多維觸覺(jué)陣列的護(hù)理機(jī)器人。它在幫臥床老人翻身時(shí)能夠檢測(cè)肌肉僵硬程度,自動(dòng)調(diào)整托舉角度,以及在感知到老人顫抖或抗拒時(shí)切換為安撫模式。這也是帕西尼一直以來(lái)的發(fā)展理念,踐行AI向善,讓技術(shù)更有溫度。
Q 如果人形機(jī)器人替代了大量人類的工作,人類的價(jià)值在哪里?
A 即使人形機(jī)器人進(jìn)入人類社會(huì)中,人類的價(jià)值依然體現(xiàn)在創(chuàng)造力、情感交流、復(fù)雜決策等方面,人類可以將更多精力投入到更具創(chuàng)造性和戰(zhàn)略性的工作中。當(dāng)然人類也需要在技術(shù)與倫理之間找到平衡,利用機(jī)器人提升效率,同時(shí)避免情感上的異化。
構(gòu)建更聰明的“大腦”成為推動(dòng)這一撥機(jī)器人熱潮的關(guān)鍵
2021年
8月·在特斯拉當(dāng)年的AI D ay上,馬斯克首次宣布人形機(jī)器人Optimus計(jì)劃,打算將電動(dòng)車的自動(dòng)駕駛系統(tǒng)和芯片集成到人形機(jī)器人上,他還把電動(dòng)車類比成“帶輪子的機(jī)器人”。當(dāng)時(shí)很多業(yè)內(nèi)人士質(zhì)疑馬斯克在“夸大宣傳”,但他用AI提升機(jī)器人智能的構(gòu)想已被逐漸接受。
2022年
11月·隨著ChatGPT發(fā)布,大模型技術(shù)再次激發(fā)了公眾對(duì)AI智能水平的想象力,它似乎就是機(jī)器人的理想“大腦”。
12月·Google發(fā)布機(jī)器人模型RT-1,首次將大模型裝載進(jìn)機(jī)器人。機(jī)器人在模型指揮下完成抓取物體、開(kāi)關(guān)抽屜等復(fù)雜操作,標(biāo)志著通用型機(jī)器人“大腦”邁出歷史性第一步。
2023年
7月·Google發(fā)布機(jī)器人模型RT-2,新模型使機(jī)器人具備泛化與推理能力,能完成未經(jīng)過(guò)明確訓(xùn)練的新任務(wù),但訓(xùn)練這類模型需要大量高質(zhì)量數(shù)據(jù),已有數(shù)據(jù)遠(yuǎn)遠(yuǎn)無(wú)法滿足需求。
10月·Google聯(lián)合全球33個(gè)學(xué)術(shù)實(shí)驗(yàn)室推出了機(jī)器人數(shù)據(jù)集。該數(shù)據(jù)集整合22種機(jī)器人類型,涵蓋超百萬(wàn)條真實(shí)軌跡數(shù)據(jù),用以解決機(jī)器人訓(xùn)練數(shù)據(jù)短缺的難題。
2024年
3月·人形機(jī)器人初創(chuàng)公司Figure AI完成6.75億美元B輪融資,投資方包括微軟、OpenAI、英偉達(dá)等技術(shù)巨頭。同時(shí)它宣布與OpenAI合作,集成后者語(yǔ)言模型的Figure 01機(jī)器人展現(xiàn)了自然對(duì)話的能力。
3月·英偉達(dá)在GTC 大會(huì)上推出人形機(jī)器人通用基礎(chǔ)模型Project GR00T,這家芯片巨頭試圖為人形機(jī)器人構(gòu)建統(tǒng)一的AI大腦。
9月·智元建成并啟用中國(guó)首個(gè)數(shù)據(jù)采集工廠,近百名數(shù)據(jù)采集員在4000平方米的工廠通過(guò)遙控操作,“手把手”教機(jī)器人理解物理世界,采集訓(xùn)練機(jī)器人AI模型所需要的數(shù)據(jù)。
12月·人形機(jī)器人公司靈初智能率先推出分層端到端模型PsiR0,將VLA拆解為VLM和動(dòng)作執(zhí)行兩個(gè)層級(jí),上層負(fù)責(zé)推理,下層專注機(jī)械控制。該架構(gòu)擴(kuò)展了可學(xué)習(xí)數(shù)據(jù)的類型,機(jī)器人模型不止從真機(jī)數(shù)據(jù)中學(xué)習(xí),也能從大量互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)。這種分層端到端的理念在之后Figure AI的Helix、PhysicalIntelligence的Hi Robot,以及智元的GO-1等機(jī)器人的架構(gòu)中都有所體現(xiàn)。
2025年
1月·DeepSeek發(fā)布DeepSeek-R1模型,R1在模仿學(xué)習(xí)的基礎(chǔ)上采用強(qiáng)化學(xué)習(xí)的技術(shù)路線,使大模型具備長(zhǎng)程思考的能力。同時(shí),機(jī)器人的AI大腦也從模仿學(xué)習(xí)進(jìn)入強(qiáng)化學(xué)習(xí)階段,這意味機(jī)器人可以通過(guò)推理實(shí)現(xiàn)長(zhǎng)程的動(dòng)作規(guī)劃。
1月·宇樹(shù)科技的通用人形機(jī)器人H1亮相央視蛇年春晚,通過(guò)舞蹈表演展示了機(jī)器人的靈活性,話題討論度“破圈”,人形機(jī)器人進(jìn)入大眾視野。該公司的“人形智能體”G1售價(jià)低至9.9萬(wàn)元人民幣,打破了人形機(jī)器人尚停留在原型機(jī)階段且價(jià)格高昂的印 象。