日前,OpenAI為其重金押注的人形機(jī)器人Figure 01裝上了GPT“大腦”。能識(shí)別周圍環(huán)境看清“眼”前的物品,能推理和決策下一步行動(dòng),還能通過記憶反思對行為作出評價(jià)——通過自我學(xué)習(xí)做到這一切,F(xiàn)igure 01的表現(xiàn)令人驚呼它已“無限接近人類”。
一直以來,無法應(yīng)對未知情況是機(jī)器人亟需提升的能力短板,以至于看似簡單的燒飯被業(yè)界視為“登月式的目標(biāo)”,至今沒有一個(gè)機(jī)器人能做到。GPT的出現(xiàn),則為機(jī)器人再造一個(gè)精明而實(shí)用的“大腦”提供了可能。比起文本生成、文生視頻,能做出一個(gè)幫你燒飯洗碗打掃屋子的智能機(jī)器人或?qū)⑹谴竽P透咭饬x的一個(gè)應(yīng)用方向。
如今,從上海到紐約,世界各地的餐館里,都有機(jī)器人烹制美食。它們制作漢堡、印度薄餅、披薩,還會(huì)炒菜。其烹飪方式與過去50年間機(jī)器人制造其他物品的方式大致相同:精確地遵循指令,一遍又一遍地以相同的方式執(zhí)行相同的步驟。
美國南加州大學(xué)計(jì)算機(jī)科學(xué)博士伊沙卡·辛格卻想造一個(gè)真正能做飯的機(jī)器人:這個(gè)機(jī)器人能走進(jìn)廚房,在冰箱和櫥柜里翻找食材,并將其巧妙結(jié)合,燒出一兩道美味的菜,然后擺好餐具。
這種連一些孩子都能做到的簡單事情,截至目前,沒有一個(gè)機(jī)器人能做到。要做到這件小事,需要機(jī)器人對某個(gè)廚房有充分的了解,還需要掌握很多常識(shí),并且得足夠靈活多變、足智多謀,以至于機(jī)器編程無法實(shí)現(xiàn)。
辛格表示,最大的問題在于機(jī)器人研制者使用了經(jīng)典的規(guī)劃管線。“他們在形式上定義了每個(gè)動(dòng)作及其前提條件,并預(yù)測其效果。”她說,這種規(guī)劃管線規(guī)定了環(huán)境中所有可能或不可能的事情。即使經(jīng)過多輪實(shí)驗(yàn),即使編寫成千上萬行代碼,但由此創(chuàng)造的機(jī)器人還是無法應(yīng)對其程序未曾預(yù)知的情況。
辛格的導(dǎo)師、美國南加州大學(xué)計(jì)算機(jī)科學(xué)教授杰西·托馬森表示,這個(gè)燒飯的場景“始終是一個(gè)登月式的目標(biāo)”。如果機(jī)器人能勝任人類的任何日?,嵤拢S多行業(yè)將發(fā)生巨變,人們的日常生活將變得輕松。
要實(shí)現(xiàn)這一目標(biāo),機(jī)器人需要“換腦”。長期以來,人們都希望在機(jī)器人體內(nèi)植入一個(gè)精明而實(shí)用的大腦,但過去幾十年一直找不到這樣的大腦。不過,ChatGPT的橫空出世,為機(jī)器人“換腦”燃起了新的希望。
這個(gè)計(jì)算機(jī)程序以及越來越多的其他大語言模EHS4avAzQx3gQS2jxdFXvw==型,能夠根據(jù)用戶的需求生成文本,模仿人類的口頭和書面語言。ChatGPT目前已經(jīng)接受了大量有關(guān)晚餐、廚房、食譜的信息訓(xùn)練,幾乎可以回答機(jī)器人提出的關(guān)于在特定廚房中將特定食材燒成一頓飯的任何問題。
大語言模型具備機(jī)器人所缺乏的東西——人類筆下關(guān)于幾乎一切事物的知識(shí),從量子物理到韓流音樂,再到三文魚片的解凍。同樣,機(jī)器人也具備大語言模型所缺乏的東西——能夠與周圍環(huán)境互動(dòng),將語言連接到現(xiàn)實(shí)行動(dòng)中。
將無意識(shí)的機(jī)器人和無身體的大語言模型拼合起來,似乎是唯一合乎邏輯的做法。正如一篇論文所述,“機(jī)器人可以充當(dāng)語言模型的‘手和眼睛’,而語言模型則提供關(guān)于任務(wù)的高級(jí)語義知識(shí)?!?/p>
2022年末,ChatGPT的發(fā)布對Levatas公司的工程師來說“像是一個(gè)頓悟時(shí)刻”。
這是一家專門設(shè)計(jì)巡視檢查工業(yè)場所所需軟件的公司。借助ChatGPT和波士頓動(dòng)力公司的技術(shù),該公司拼出了一個(gè)機(jī)器狗原型。這只機(jī)器狗可以說話、回答問題,并能夠遵循以一般英語口語給出的指令。此外,機(jī)器狗似乎不僅能理解單詞的含義,還能掌握背后的意圖。比如A說“后退”,B說“退后”,它“知道”他們表達(dá)的是相同含義。有了機(jī)器狗,工人們便不再需要仔細(xì)查看上一次巡檢時(shí)的機(jī)器數(shù)據(jù)表,他們只需簡單地詢問:“你上次去的時(shí)候,有哪些讀數(shù)超出了正常范圍?”
Levatas利用自主開發(fā)的軟件將系統(tǒng)組合在一起,而其中很多關(guān)鍵組件——語音轉(zhuǎn)文本系統(tǒng)、ChatGPT、機(jī)器狗本身,以及文本轉(zhuǎn)語音系統(tǒng)——現(xiàn)在都已實(shí)現(xiàn)商業(yè)化。不過,這并不意味著家家戶戶很快就能擁有會(huì)說話的機(jī)器狗。Levatas的機(jī)器狗之所以能穩(wěn)定運(yùn)行,是因?yàn)樗氖褂镁窒抻谔囟ǖ墓I(yè)環(huán)境。沒有人會(huì)讓機(jī)器狗去玩接球游戲,或者讓它想辦法處理冰箱里的茴香。
在日常生活中,機(jī)器人能做的事情仍然有限。對于任何傳統(tǒng)機(jī)器人來說,無論其行為多么復(fù)雜,它們都只有數(shù)量有限的傳感器來獲取有關(guān)環(huán)境的信息,如攝像頭、雷達(dá)、激光雷達(dá)、麥克風(fēng)、一氧化碳檢測器等。這些傳感器與數(shù)量有限的機(jī)械臂、機(jī)械腿、夾持器、輪子或其他機(jī)械部位相連接,機(jī)器人內(nèi)部的計(jì)算機(jī)將其感知和行動(dòng)聯(lián)系在一起,它負(fù)責(zé)處理傳感器數(shù)據(jù)和程序員發(fā)出的任何指令。計(jì)算機(jī)將信息轉(zhuǎn)換成0和1的編碼,代表電流通過電路的“關(guān)”(0)和“開”(1)。通過軟件,機(jī)器人可審查其可以執(zhí)行的有限行動(dòng),并選擇最符合指令的行動(dòng)。然后,它向其機(jī)械部件發(fā)送使之行動(dòng)的電信號(hào)。此后,機(jī)器人通過傳感器掌握其行動(dòng)對環(huán)境的影響,并再次做出響應(yīng)。
機(jī)器學(xué)習(xí)令機(jī)器人的智能程度上了一個(gè)臺(tái)階。它的運(yùn)行基于一種“神經(jīng)網(wǎng)絡(luò)”,計(jì)算機(jī)電路的0和1被類比為層層排列的細(xì)胞,每個(gè)細(xì)胞通過數(shù)百個(gè)連接點(diǎn)發(fā)送、接收信息。機(jī)器“大腦”為每份輸入的信息分配權(quán)重,“細(xì)胞”將所有這些權(quán)重累加,以決定保持靜默還是“觸發(fā)”,即發(fā)送自己的信號(hào)給其他細(xì)胞。
正如像素越多照片細(xì)節(jié)越豐富,模型擁有的連接點(diǎn)越多,其結(jié)果就越精確。在機(jī)器學(xué)習(xí)中,所謂學(xué)習(xí)就是模型調(diào)整權(quán)重,不斷接近人們想要的答案。過去15年,當(dāng)機(jī)器學(xué)習(xí)經(jīng)過訓(xùn)練來執(zhí)行專門化的任務(wù),例如尋找蛋白質(zhì)折疊,或在面試中遴選求職者,它表現(xiàn)出了驚人的能力。
大語言模型是一種不限于專門任務(wù)的機(jī)器學(xué)習(xí)形式,這些模型可以談?wù)撊魏问虑?。由于這些模型的回答只是對單詞組合的預(yù)測,所以程序?qū)嶋H上并不懂自己在說什么,但使用者懂。而且,大語言模型以簡單的對話運(yùn)行,使用者無需特殊培訓(xùn)或工程知識(shí),任何人都可以用英語、漢語、西班牙語、法語或其他語言與它交流。
當(dāng)你給大語言模型輸入提示(可以是問題、請求或指示),模型將你的話語轉(zhuǎn)換為語匯相互關(guān)系的數(shù)學(xué)符號(hào)表達(dá)。然后,這些數(shù)學(xué)符號(hào)被用來進(jìn)行預(yù)測:在所有數(shù)據(jù)中,如果對這個(gè)提示的回答已經(jīng)存在,那么它可能是什么?最后,模型再將結(jié)果所示的數(shù)字轉(zhuǎn)換回文本。大語言模型中所謂的“大”,是指可供其調(diào)整的輸入信息權(quán)重?cái)?shù)量。2018年,OpenAI推出首個(gè)大語言模型GPT-1,據(jù)稱有約1.2億參數(shù),其中大部分是權(quán)重,但也包括模型的諸多可調(diào)整方面,而GPT-4則擁有超過一萬億參數(shù)。
正是因?yàn)榇笳Z言模型有這么多參數(shù)需要微調(diào),并且在它們的訓(xùn)練集中有如此多的語言數(shù)據(jù),所以這些模型通常能夠作出恰當(dāng)?shù)念A(yù)測。“大模型的(理解力)飛躍體現(xiàn)在我們不需要再給出很多背景信息,比如廚房是什么樣子的?!蓖旭R森解釋,“這個(gè)系統(tǒng)已經(jīng)一遍又一遍地掌握食譜,所以當(dāng)我說‘做土豆餅’時(shí),系統(tǒng)知道步驟應(yīng)該是‘找到土豆、找到刀、刨土豆’等等?!?/p>
然而,與大語言模型連接的機(jī)器人是一個(gè)失衡的系統(tǒng):無限的語言能力接入一個(gè)只能完成少部分人類任務(wù)的機(jī)器人軀體。如果機(jī)器人只有一個(gè)兩指夾持器,那么它不可能精巧地給魚剔骨。如果被問及怎么燒晚飯,那么大語言模型將從數(shù)十億個(gè)詞語中獲取答案,但它提出的答案機(jī)器人無法執(zhí)行。
除了這些內(nèi)在的限制,辛格、托馬森等人還指出,真實(shí)世界引入了隨機(jī)性,即使機(jī)器人再“聰明”可能還是難以應(yīng)對。比如,改變窗簾懸掛的位置會(huì)改變光線從物體反射的方向,因此房間里的機(jī)器人無法用攝像頭看得那么清楚;再比如,一個(gè)適用于圓形橙子的夾持器可能無法穩(wěn)穩(wěn)拿住形狀不那么規(guī)則的蘋果。
美國布朗大學(xué)機(jī)器人學(xué)家斯特凡妮·泰萊克斯認(rèn)為,現(xiàn)在的情況是,語言理解力驚人,但機(jī)器人很糟糕。致力于研究機(jī)器人語言理解的她指出,機(jī)器人必須變得更好,才能跟上理解力的前進(jìn)腳步。
辛格認(rèn)為,有一個(gè)辦法也許能解決這個(gè)問題,這種方式已被證明可使大語言模型避免數(shù)學(xué)和邏輯錯(cuò)誤,即在提示中同時(shí)包含問題和解決辦法的示例。因?yàn)榇笳Z言模型并非為推理而設(shè)計(jì),于是研究人員發(fā)現(xiàn),當(dāng)提示的問題后緊跟解決類似問題的示例,包括對每個(gè)步驟的解釋,結(jié)果會(huì)有很大改善。
辛格推測,這種方法可以讓大語言模型的答案控制在實(shí)驗(yàn)室機(jī)器人能夠完成的事情范圍內(nèi)。她所指的示例,就是機(jī)器人可以執(zhí)行的簡單步驟——?jiǎng)幼骱臀矬w的組合,比如“去冰箱”或“拿鮭魚”。得益于大語言模型對事物運(yùn)行數(shù)據(jù)的了解,簡單的動(dòng)作將能以人類熟悉的方式組合起來,與機(jī)器人對環(huán)境的感知進(jìn)行互動(dòng)。辛格意識(shí)到,她可以讓ChatGPT編寫機(jī)器人能夠遵循的代碼。ChatGPT不再使用日常語言,而將使用編程語言Python。
辛格和托馬森已針對一個(gè)實(shí)體機(jī)械臂和一個(gè)虛擬機(jī)器人測試了這種方法,稱為ProgPrompt。在虛擬環(huán)境中,對于ProgPrompt提出的計(jì)劃,機(jī)器人基本都可執(zhí)行,而且這些計(jì)劃的成功率要比以往任何訓(xùn)練系統(tǒng)高得多。與此同時(shí),給實(shí)體機(jī)器人分配較簡單的分類任務(wù),它也基本總能完成。
在谷歌,卡羅爾·豪斯曼、布萊恩·伊克特等人也試圖將大語言模型的輸出轉(zhuǎn)化為機(jī)器人行為,他們嘗試了另一種策略。在他們創(chuàng)建的SayCan系統(tǒng)中,谷歌的PaLM大語言模型先收到機(jī)器人可以執(zhí)行的簡單行為列表。PaLM被告知,它生成的答案必須包含該列表中的項(xiàng)目。在人類用對話語言提出請求后,大語言模型會(huì)從列表中選擇一些最有可能成功的行為。
在項(xiàng)目的一次演示中,一位研究人員鍵入:“我剛剛健完身,你能給我拿一杯飲料和一些零食來幫助我放松嗎?”在大語言模型的評估中,“找到一瓶水”比“找到一個(gè)蘋果”更有可能滿足請求。機(jī)器人是一個(gè)單臂、帶輪子的裝置,看上去像一臺(tái)起重機(jī)和一盞落地?zé)舻幕旌象w。它駛?cè)雽?shí)驗(yàn)室里的廚房,找到一瓶水,帶給研究人員,然后返回。由于水已經(jīng)送到,大語言模型此時(shí)將“找到一個(gè)蘋果”的權(quán)重提高,于是機(jī)器人就拿起蘋果。由于大語言模型了解人們對健身的說法,系統(tǒng)“明白”不能給用戶拿含糖汽水或垃圾食品。
“你可以告訴機(jī)器人,‘給我拿一杯咖啡’,機(jī)器人就會(huì)給你拿一杯咖啡?!盨ayCan的一名設(shè)計(jì)師說,“但我們希望實(shí)現(xiàn)更高層次的理解。比如你可以說,‘我昨晚沒睡好,你能幫我一下嗎?’機(jī)器人應(yīng)該知道要給你一杯咖啡?!?/p>
在大語言模型中尋求更高層次理解會(huì)產(chǎn)生一個(gè)疑問:這些語言程序只是機(jī)械地操縱詞語,還是說它們對這些詞語代表的事物建構(gòu)起了某種聯(lián)系?美國普林斯頓大學(xué)工程學(xué)教授、機(jī)器人學(xué)家阿尼魯達(dá)·馬朱姆達(dá)指出,當(dāng)大語言模型提出燒飯的現(xiàn)實(shí)計(jì)劃時(shí),“似乎有一種推理在其中”。程序中沒有任何部分“知道”鮭魚是魚,它也“不知道”很多魚可食用以及魚會(huì)游泳。但是,程序產(chǎn)生的這些詞語中隱含了所有這些知識(shí)。
在最近一次實(shí)驗(yàn)中,馬朱姆達(dá)和普林斯頓大學(xué)計(jì)算機(jī)科學(xué)系教授卡爾希克·納拉西曼等人利用大語言模型暗含的“世界地圖”來解決他們所謂的機(jī)器人學(xué)一大挑戰(zhàn):使機(jī)器人能夠操縱它未曾接觸或尚無程序指引的工具。
他們的系統(tǒng)展示出“元學(xué)習(xí)”的苗頭,即把早期習(xí)得的知識(shí)應(yīng)用于新的情境中。研究人員對GPT-3輸入“詳細(xì)、科學(xué)地描述錘子的用途”,并收集答案。他們重復(fù)這個(gè)提示,并將關(guān)鍵詞換成另外26種工具,從涂刷器到斧頭不等。然后,他們將大語言模型的答案輸入一個(gè)虛擬機(jī)械臂,并對其訓(xùn)練。在面對撬棍這一陌生物體時(shí),接受傳統(tǒng)訓(xùn)練的機(jī)器人試圖通過其彎曲的一端來拿起撬棍,而接受GPT-3訓(xùn)練的機(jī)器人則準(zhǔn)確拿起了棍子的長柄。連上GPT“大腦”的機(jī)器人系統(tǒng)就像人一樣,能夠“概括總結(jié)”,因?yàn)樗娺^其他帶柄的工具,所以會(huì)去拿撬棍的長柄。
不過,機(jī)器無論是進(jìn)行自主推理,還是按部就班行事,許多人都非常擔(dān)憂它在現(xiàn)實(shí)世界中的能力。與傳統(tǒng)編程相比,大語言模型本質(zhì)上更不可靠、更不可知,這讓許多專業(yè)人士感到憂心。托馬森說:“有些機(jī)器人專家認(rèn)為,要告訴機(jī)器人做某件事卻不約束該事物的含義,這并不好?!?/p>
心理學(xué)家、科技企業(yè)家加里·馬庫斯雖稱贊谷歌的PaLMSayCan項(xiàng)目“令人難以置信”,但他實(shí)際上對大語言模型持懷疑態(tài)度,去年夏天他就對該項(xiàng)目提出了反對意見。馬庫斯認(rèn)為,如果大語言模型誤解了人類的需求,或未能充分理解需求的含義,那么它們在機(jī)器人內(nèi)部可能會(huì)變得危險(xiǎn)。當(dāng)人類提出的需求本身有惡意時(shí),大語言模型理解了人類的意愿,也可能造成傷害。
除了不能完全理解語義,大語言模型還有一個(gè)問題——偏見。大語言模型依賴人類產(chǎn)生的數(shù)據(jù),但它并不是所有知識(shí)的存儲(chǔ)庫?;ヂ?lián)網(wǎng)上存在感較低的語言、文化、民族,其實(shí)并沒有納入其中。例如,根據(jù)最新估計(jì),非洲約有2000門語言,僅有約30門納入了幾個(gè)主要大語言模型的訓(xùn)練數(shù)據(jù)中。因此,去年11月在arXiv上發(fā)布的一篇研究預(yù)印本發(fā)現(xiàn),GPT-4和另外兩個(gè)熱門大語言模型在使用非洲語言時(shí)的表現(xiàn)比使用英語時(shí)差得多。
此外,模型訓(xùn)練所依賴的數(shù)據(jù)——取自數(shù)字資源的數(shù)十億單詞——包含了大量有關(guān)人的偏見和刻板印象。美國卡內(nèi)基梅隆大學(xué)的人工智能和機(jī)器人研究員安德魯·亨特說,大語言模型如果在其訓(xùn)練數(shù)據(jù)中注意到了刻板印象,可能會(huì)在其回答中刻意模仿,且使用頻率高于數(shù)據(jù)集中的數(shù)據(jù)。亨特認(rèn)為,大語言模型的制造者可以攔截包含這些刻板印象的惡意提示,但這還不夠,“在大語言模型可以應(yīng)用于機(jī)器人之前,需要進(jìn)行廣泛研究,采取一系列安全措施”。
但目前還不必?fù)?dān)心一件事,那就是大語言模型驅(qū)動(dòng)的機(jī)器人會(huì)產(chǎn)生危險(xiǎn)。機(jī)器就像人類一樣,說永遠(yuǎn)比做容易。谷歌公司的豪斯曼說:“我們在很多小事情上就遇到了瓶頸,比如打開抽屜、移動(dòng)物體,這些事情也是至少到目前為止,語言幫不上大忙的技能?!?/p>
目前,大語言模型帶來的最大挑戰(zhàn)不是它們的機(jī)器人身體,而是它們以神秘的方式模仿了人類的許多好事和壞事。泰萊克斯說,大語言模型是“一種互聯(lián)網(wǎng)格式塔”——互聯(lián)網(wǎng)的所有精華都在其中,而所有糟粕也都在其中。她說,與大語言模型生成的釣魚郵件、垃圾郵件或其炮制的假新聞相比,將模型放入機(jī)器人也許是可以用它來做的最安全的事情之一。
(摘自3月23日《文匯報(bào)》。編譯者為該報(bào)記者)