“機器人的時代已經(jīng)到來,”英偉達首席執(zhí)行官黃仁勛在3月GTC大會上說,“各位請注意,這很可能成為所有行業(yè)里規(guī)模最大的行業(yè)?!?/p>
作為三年來人工智能熱潮的最大贏家,黃仁勛此言一出,又給火爆的“具身智能”添了把柴。
其實,“機器人”也好,“具身智能”也好,說法不同,本身是一個尚未普及同時并不令人陌生的東西。它最早誕生于1921年捷克劇作家卡雷爾·恰佩克的《羅素姆機器人》,Robot一詞就來自捷克語Robota。
劇中,機器人的制造,基于一種特殊的化學物質,工序涉及制造機器人皮膚的揉搓槽、盛載肝和腦的大桶,以及生產(chǎn)骨骼的工廠;神經(jīng)纖維、動脈和腸臟則“紡制”于工廠的線軸。
它們可以像汽車一樣組裝起來。
科幻作家艾薩克·阿西莫夫很討厭這個作品,但卻肯定了恰佩克創(chuàng)造Robot這個詞的文化價值,“這個詞讓所有語言的科幻小說成為可能”。同樣,它在現(xiàn)實世界的影響力也毋庸置疑,百年來,激勵無數(shù)科學家去開發(fā)一種與人類相似、具有智能,能夠像人類一樣行動、推理和互動的機器,融運動、感知和互動為一體,以再現(xiàn)人類的身體、認知和社會功能—也就是人形機器人。
正如恰佩克在序幕中提出的戲劇沖突,制造機器人,到底是為了證明“不僅神可以造物,人類也可以”,還是用來創(chuàng)造經(jīng)濟價值,機器人公司內部存在巨大的分歧。而在現(xiàn)實世界里,觀念領域的造物沖動、商業(yè)層面的巨大誘惑,都吸引著人類對機器人的無盡想象。
在100年后的今天,AI已經(jīng)普及,卻囿于數(shù)字世界、只能處理信息,人們都知曉一點,這遠非智能革命的終點。賦予AI這一大腦以“肉身”,讓它沖破二進制世界的禁錮,參與物理現(xiàn)實世界的互動,才是人類的終極夢想。
但這也引出一個很曖昧的問題,機器人,為什么非得像人?
第一個現(xiàn)代機器人“尤尼梅特”于1954年問世,“搖籃”則是美國通用汽車制造廠。
“尤尼梅特”和艾薩克·阿西莫夫最初的設想很像。1940年代,阿西莫夫的“機器人”在火星上干活,那里條件艱苦,工作枯燥,甚至得靠心理學家解決“心理問題”。十幾年后,發(fā)明家喬治·德沃爾和約瑟夫·恩格爾伯格創(chuàng)造了一臺可編程的“尤尼梅特”,用來處理汽車廠里沒人干的臟活累活—搬動上百攝氏度的模切金屬部件。
現(xiàn)實還追不上科幻小說?!坝饶崦诽亍保║nitmate)沒有人形,只是個“機械臂”。經(jīng)過幾年的測試,1961年,它成功部署在通用汽車的一家工廠里。一用上“尤尼梅特”,通用就“殺瘋了”—每小時生產(chǎn)110輛汽車,是當時任何一家車廠生產(chǎn)效率的兩倍多。
又過了十幾年,維克多·施恩曼于1969年創(chuàng)造了“尤尼梅特”的進化版,也叫“斯坦福臂”。比起從磁鼓存儲器里接受指令的“尤尼梅特”,“斯坦福臂”不僅靠計算機軟件精細控制,還具有六個運動軸,更接近人體手臂的活動范圍。
1972年,人工智能機器人出現(xiàn)了。因為動作顫顫巍巍,斯坦福研究所的研究人員給它起名“搖晃者”(Shakey)—給“搖晃者”下達指令,“找出房間里的障礙物”,它會使用多個傳感器來完成任務。
“搖晃者”采用的是簡單的計算機視覺技術。這項技術一直影響至今,在2010年代尤其發(fā)揚光大。美國電動汽車特斯拉就徹底采用“純視覺方案”,靠攝像頭而不是激光雷達來檢測周圍環(huán)境和物體。它可以收集數(shù)據(jù),構建環(huán)境模型,然后使用“規(guī)劃”程序生成下一步行動。這種“規(guī)劃”層的設計,是機器人歷史上最重要的創(chuàng)新之一,至今大多數(shù)機器人系統(tǒng)依然采用它的構思。
在1970年代末期,日本學者牧野洋開發(fā)出SCARA(也叫選擇性柔順裝配機械臂),專門為拾取和放置物體而設計。
工業(yè)流水線的本質,就是將組件從一個點移動到另一個點,勁兒雖小、但速度更快的SCARA,極大提高了工業(yè)生產(chǎn)的效率,由此,電子裝配、汽車生產(chǎn)、制藥、食品和飲料加工以及包裝和材料處理等行業(yè),如虎添翼地發(fā)展起來。
其實,工業(yè)生產(chǎn)不是特別需要人形機器人,適合流水線的往往是機械臂、機械腿—只需要“像”人體的一部分就夠了。近十幾年流行的“機器換人”浪潮,換上來的也都是各種“機械肢體”,有些純“運輸類”機器沒手沒腳,靠“履帶”運動。
進入家庭、和人打交道的機器,才需要做成“人形”。
20多年前,美國機器人學家辛西婭·布雷澤爾就強調,如果機器人要和人類一起工作和生活,要得到人類的信任,就必須讀懂人類的情緒、表現(xiàn)自己的個性。
2000年,第一款社交機器人“命運”(Kismet)橫空出世—為了體現(xiàn)“與人類打交道”的獨特性,它甚至只有一個“腦袋”來傳情達意。它“長”著一對富有表現(xiàn)力的黃色眉毛,濃重的紅唇,粉色招風耳和藍色的大眼睛,由21個電機控制,能表達從快樂到無聊等一系列表情。
音頻傳感器和算法,可以讓它“察覺”人的反應:如果你對它大喊大叫,它會顯得沮喪。如果你輕聲細語,它會流露出好奇。通過創(chuàng)造“命運”,布雷澤爾向大眾展示了機器人“應有”的魅力和表現(xiàn),為日后的Alexa、Siri以及Google Home等語音助手奠定了基礎。
“命運”的知名度,遠不如同時期的日本本田E系列機器人“阿斯莫”(ASIMO)。阿斯莫高130厘米,重54公斤,外形酷似背著背包的太空人,能以時速6公里的速度前進。它能完成開水瓶、握紙杯、倒水的精細動作,到2012年時已經(jīng)具備同時與三人對話、手指獨立運動、雙腳同時離地的功能。
21世紀初,一個迄今為止最成功的To C應用出現(xiàn)了—掃地機器人。2002年,Roomba“入侵”了人類客廳。它的創(chuàng)造團隊iRobot成立于1990年,由麻省理工學院的研究人員組成,本來是給美國軍方造機器人的。
當時美國軍方需求是“排雷”,讓機器人檢查地雷區(qū)域,iRobot就開始研究如何在給定面積里,讓機器人探索每一平方米。歪打正著,這個功能正好能掃地。2002年,Roomba成了第一款真正受到廣大消費者歡迎的機器人,更用事實證明,只要足夠有用,是不是人形都沒有關系。
緊接著,物流機器人也在2003年出現(xiàn)。米克·蒙茲的Kiva機器人游走于巨大的倉庫,來回查找和拾取物品。與傳統(tǒng)的傳送帶系統(tǒng)相比,自主性的物流機器人更加靈活機動,易于使用。Kiva和Roomba長得很像,只不過后者是“底部使勁”吸塵,前者是“頂部使勁”承載物品。
Kiva徹底改變了倉儲和運輸?shù)男?,帶來電子商務的突飛猛進。2012年,亞馬遜花7.75億美元收購了該公司。
2004年,波士頓動力的“大狗”(Big Dog)成為YouTube觀眾的最愛。自打誕生起,這個黑不出溜的四足機器人,時而踱步于綠樹成蔭的森林,時而攀爬在60度的山坡,時而踏進齊膝深的積雪,時而跳過成堆的磚塊。被人從側面狠狠踹一腳,它也頑強不倒。
“大狗”不是自主型機器人,靠人工控制器做動作,因此也就沒有視覺系統(tǒng)和復雜的程序。它配備50個傳感器和1臺計算機,用于管理步態(tài)和身體平衡。最厲害的是,只要有兩只腳同時接觸地面,它就可以彈跳,比其他機器人靈活多了,能適應更復雜的路況。
“大狗”也是為了物流打造的,它能翻山越嶺,也能上下樓,拿點包裹捎點物件不是問題。當然,想軍民兩用也不難,崎嶇的戰(zhàn)場上送幾件武器不在話下。
這種不走人形的智能機械路線,也延伸到了汽車里。2005年,自動駕駛汽車完成了第一次重大測試。一輛名為“斯坦利”的大眾途銳贏得第二屆“DARPA”挑戰(zhàn)賽?!癉ARPA”是美國國防部高級研究計劃局的簡稱,挑戰(zhàn)賽的內容是在典型的戰(zhàn)地場景,讓汽車按照給定的路線圖躲避障礙,到達安全點。
2004年第一屆DARPA挑戰(zhàn)賽沒有贏家,100萬美元的獎金無人認領。2005年第二屆挑戰(zhàn)賽,獎金翻了一倍,達到200萬美元,路線為212公里的莫哈韋沙漠賽道。195支參賽隊伍,5支跑完全程,斯坦福大學的“斯坦利”以6小時53分的成績獲得第一名?!八固估鲍@勝的秘訣是一系列技術改進:根據(jù)人類駕駛習慣訓練的程序,5個激光雷達傳感器識別車輛前方25米內的物體。
雖然線路是事先規(guī)劃好的,障礙是靜態(tài)的,所有參賽車輛也不會“碰頭”,但“斯坦利”的成功證明了自動駕駛的現(xiàn)實可行性。自那以后,“挑戰(zhàn)賽”的難度越來越高,車輛和環(huán)境的互動性也越來越強,自動駕駛成為汽車行業(yè)最大的愿景。
執(zhí)著于“像人”的傳統(tǒng)機器人公司,似乎陷入了迷途。
2018年阿斯莫停產(chǎn),意味著人形機器人的路線還沒有走通。雖然它樣子很萌,也會做不少事情,但離走進家庭、真正幫人做事還有極大的距離。它的成本又過于昂貴,單臺300萬美元,維護一次都夠買一輛小汽車的了。
波士頓動力幾代“元老”機器人先后退役停產(chǎn),包括雙足機器人“阿特拉斯”。2021年,波士頓動力被軟銀收購,又被轉手給現(xiàn)代汽車,2024年停止開發(fā)人形機器人。
2017年在沙特利雅得“未來投資峰會”上獲得公民身份的機器人“索菲亞”,也不再有任何音訊。
上個時代呼風喚雨的機器人公司,已經(jīng)跟不上快速崛起的AI浪潮:由于機械制造和程序設計已經(jīng)逼近極限,傳統(tǒng)機器人卡在了阿斯莫和阿特拉斯的“巔峰”上,似乎再無法前進。
2010年代初,人工智能革命悄悄醞釀,即將徹底改寫機器人產(chǎn)業(yè)。2012年,英國人工智能專家杰弗瑞·辛頓和多倫多大學的一個團隊,創(chuàng)建出世界上最精確的視覺識別系統(tǒng),達成了人工智能領域近半個世紀來的最大進步。
第二次世界大戰(zhàn)后,人工智能(那時候還叫“機器智能”)研究方法分裂成“劍宗”和“氣宗”。一派主張“自上而下”,在機器中制定全套符號和規(guī)則以適應人類世界;一派主張“自下而上”,讓機器模仿大腦“神經(jīng)模型”來自動學習。20世紀六七十年代,“自上而下”派獨領風騷,隨即遭遇瓶頸—世界廣大,背景繁雜,一對一給機器寫符號規(guī)則也難以窮盡。
辛頓這一派搞的是“自下而上”,20世紀80年代開始走向“復興”,名字也改了又改,最新的名字叫“深度學習”。2024年,辛頓獲得諾貝爾物理學獎,得號“AI教父”。
辛頓訓練視覺神經(jīng)網(wǎng)絡幾十年。其技術底層是卷積神經(jīng)網(wǎng)絡,利用反饋來調校輸出,其實就是類似于人類神經(jīng)網(wǎng)絡的多層感知系統(tǒng)。不同的神經(jīng)層接收、處理不同的信息,層層遞進,得到一個關于某事物的“正確”描述。計算機模擬這一過程,開始“學習”人的“識別”“認知”能力。
這一技術方向非常需要大量數(shù)據(jù)和強勁處理能力。移動互聯(lián)網(wǎng)大爆發(fā)和芯片迭代帶來了好機會。2012年,辛頓如愿以償,他的程序在ImageNet比賽中脫穎而出,能識別和排序超過100萬張圖像,錯誤率僅為15.3%,比最接近的對手還高出10個百分點。
幾個月內,所有AI公司一股腦涌向“深度學習”,谷歌也發(fā)布了開源工具。在今天,這項技術已經(jīng)相對成熟,最小型的初創(chuàng)公司都能依此制造出靠視覺識別進行日常工作的機器人。
2022年,OpenAI的聊天機器人ChatGPT引發(fā)了另一波AI浪潮。在使用深度學習模型時,研究人員加上了“激勵機制”。這是一種新的AI訓練方法,標記者會在模型中書寫期待的回復,按照期待的回復為標記的答案排序,通過排序來獎勵模型—就好像訓練小狗,按照人的口令去做,做對了就會得到吃的,它就會越做越好。
ChatGPT一招就震驚全球:聊天幾乎和人沒有差別,甚至比大部分直男會“說話”。從此,AI公司又擠在了訓練大模型、打磨大模型的競爭之路上。2025年初,DeepSeek一炮而紅,用更小、更優(yōu)質的開源模型和更低廉的成本,提供了和OpenAI差不多的產(chǎn)品,在中國,DeepSeek快速介入各種場景,智能化浪潮掀起高峰。
至此,機器人的進化路線也更加鮮明。阿斯莫和阿特拉斯的極限,其實正是人工智能“自上而下”派的極限,因為世界萬物難以一一寫成程序,那么更好的辦法就是讓機器人裝上“大腦”(大模型),自己學習世間萬物。
2016年,王興興剛創(chuàng)辦宇樹科技時,做的是機器狗。投資人問他做不做人形機器人,他堅決地說不做。他不是不想做,而是那時的人形機器人“差一點火候”。
點燃這把火的,是特斯拉創(chuàng)始人埃隆·馬斯克。
在ChatGPT尚未問世時,馬斯克的人形機器人“擎天柱”便高調亮相。他一再表示:“未來特斯拉的長期價值就體現(xiàn)在人形機器人擎天柱上?!?/p>
兩個月后,ChatGPT讓人們“恍然大悟”,原來馬斯克的“大棋”下在這里,有了“大腦”,萬物皆可智能,何況機器人呢?
根據(jù)人形機器人場景應用聯(lián)盟統(tǒng)計,2024年全年,全球人形機器人新品發(fā)布數(shù)量已超過106款,數(shù)量超越過去20年的總和。一度陷入迷途的人形機器人,現(xiàn)在重新?lián)P帆起航。
2025年中國春節(jié)聯(lián)歡晚會,長達4個小時的節(jié)目演出中,人們印象最深的就是宇樹機器人“扭秧歌”。
中國和美國的機器人產(chǎn)業(yè)競爭也日益激烈。美國公司關注技術前沿,喜歡探索未知的技術難題,在基礎模型、數(shù)據(jù)科學和分析、模擬和視覺軟件、芯片等機器人“軟技術”方面更具優(yōu)勢。
中國公司則依托完備的供應鏈,側重于如何將現(xiàn)有技術整合到實際應用中,在減速器、傳感器、電機、絲杠、控制系統(tǒng)等硬件上更勝一籌。
相比之前機器人行業(yè)的幾次爆發(fā),此次爆發(fā)不僅有AI技術加持,工程技術亦有突破。以前電驅動不成熟,波士頓動力一直用的是液壓驅動,價格高,維護成本也高,而優(yōu)必選、宇樹等進入機器人行業(yè)時,電驅動技術逐漸成熟,可以直接從電驅動技術切入市場。宇樹研發(fā)的高扭矩密度電機(220Nm/kg)成本僅為波士頓動力液壓系統(tǒng)的1/10。
不過,技術的局限依然制約機器人的發(fā)展。特別是人形機器人,想要做到“像人”,絕不僅僅是會跳舞、奔跑、打太極、扭秧歌這么簡單。人形機器人的突圍之路,還很漫長。
其實,一定要做成“人形”也是某種執(zhí)念。從進化的意義上看,模仿人類大腦容易,模仿人類肢體運動極難。因為高級認知能力頂多發(fā)展幾百萬年,但運動能力發(fā)展了幾十億年,越新的東西,發(fā)展越不成熟,也就越好模仿。
寒武紀生物大爆炸時期,只要多幾個感光細胞,就能活得比別“人”久。脊椎動物的神經(jīng)髓鞘,讓神經(jīng)傳導速度遠快于非脊椎動物,反射速度也就更快。只不過這些能力已經(jīng)“內化”,讓人類覺得十分“簡單”。
換句話說,在人工智能時代,機器人想要“更聰明”很容易,想“更靈敏”卻很難。但業(yè)界一股腦去琢磨“更靈敏”,除了一定要“攻堅克難”之外,可能也有一些“一步到位”的想象—畢竟,只要人形機器人量產(chǎn)了,每家一個機器人的日子也就不遠了,誰不想擁有一個物美價廉、使喚起來又沒有道德壓力的“奴隸”呢?如果有成百上千個,一不小心就“割據(jù)一方”了。
也許,這一天終將到來,畢竟人類的創(chuàng)造力總在不斷突破自身的想象力。但機器人如何突圍,不僅是一個技術問題,也可能是一個社會問題。人們創(chuàng)造出它們,希望讓人類免于勞苦、危險和剝削,從而獲得閑暇、自由和尊嚴,去改善生活品質,提升認知,陶冶情操,但人類自身尚不能避免愈演愈烈的階級分化,那么,我們又該如何想象一個人與機器人共存的世界?
機器人,是人類德性的鏡子。