圖中這只機(jī)器狗像一只著急的甲蟲一樣,在空中擺動(dòng)著雙腿,經(jīng)過10分鐘的“掙扎”后,它成功地翻了過來,半小時(shí)后,這只機(jī)器狗像剛出生的牛犢一樣笨拙地邁出了第一步,但1小時(shí)后,它就自信滿滿地在實(shí)驗(yàn)室里昂首闊步。
這個(gè)四條腿的機(jī)器人的特別之處在于,它自發(fā)地學(xué)會(huì)了這一切,而不需要計(jì)算機(jī)仿真程序告訴它該怎么做。
加州大學(xué)伯克利分校的丹尼亞爾·哈夫納和他的同事們使用了一種叫做強(qiáng)化學(xué)習(xí)的人工智能技術(shù),這種技術(shù)通過獎(jiǎng)勵(lì)各種算法的有利行為來進(jìn)行學(xué)習(xí),以訓(xùn)練機(jī)器人在現(xiàn)實(shí)世界中從一無所知到能夠行走。該團(tuán)隊(duì)使用了同樣的算法,成功地訓(xùn)練了其他3個(gè)機(jī)器人,比如其中一個(gè)機(jī)器人能夠撿起球并將這個(gè)球從一個(gè)托盤移動(dòng)到另一個(gè)。
就傳統(tǒng)方法而言,機(jī)器人在現(xiàn)實(shí)世界中嘗試做任何事情之前都要在計(jì)算機(jī)模擬仿真中進(jìn)行訓(xùn)練。例如, 一對(duì)名為卡西的機(jī)器腿,在計(jì)算機(jī)模擬中通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練之后,才在現(xiàn)實(shí)中學(xué)會(huì)了走路。
問題是,“你的計(jì)算機(jī)模擬程序永遠(yuǎn)不會(huì)準(zhǔn)確得跟現(xiàn)實(shí)世界一樣。你總是會(huì)錯(cuò)估這個(gè)世界的某些方面?!惫蚣{說,他與同事亞歷山卓·埃斯康特雷拉和菲利普·吳一起參與了這個(gè)項(xiàng)目。
他說:“將模擬器中的經(jīng)驗(yàn)教訓(xùn)應(yīng)用到現(xiàn)實(shí)世界中也需要額外的工程實(shí)踐。該團(tuán)隊(duì)的算法被稱為‘夢(mèng)想者,它利用過去的經(jīng)驗(yàn)建立了一個(gè)周圍環(huán)境的模型?!?/p>
“夢(mèng)想者”還允許機(jī)器人通過預(yù)測其潛在行為的未來可能結(jié)果,在計(jì)算機(jī)程序而非現(xiàn)實(shí)環(huán)境下反復(fù)進(jìn)行試錯(cuò)法計(jì)算。
這使得機(jī)器人能夠比在純粹的現(xiàn)實(shí)環(huán)境中學(xué)習(xí)的速度更快。一旦機(jī)器人學(xué)會(huì)了行走,它就會(huì)不斷學(xué)習(xí)適應(yīng)意料之外的情況,比如抵抗被棍子推倒。
紐約大學(xué)計(jì)算機(jī)科學(xué)助理教授勒雷爾·平托說:“通過試錯(cuò)法訓(xùn)練機(jī)器人是一個(gè)難題,因?yàn)檫@種訓(xùn)練需要漫長的時(shí)間,而這也使得訓(xùn)練本身變得更加困難?!?/p>
他說:“‘夢(mèng)想者算法表明,深度強(qiáng)化學(xué)習(xí)和環(huán)境模型能夠在很短的時(shí)間內(nèi)教授機(jī)器人新技能?!?/p>
俄勒岡州立大學(xué)的機(jī)器人學(xué)教授喬納森·赫斯特說:“這些尚未經(jīng)過同行評(píng)審的研究結(jié)果清楚表明,‘強(qiáng)化學(xué)習(xí)將成為未來機(jī)器人控制領(lǐng)域的基石?!?/p>
從機(jī)器人的訓(xùn)練階段中取消仿真模擬器有很多額外好處。哈夫納說:“該算法可以用于教機(jī)器人如何在現(xiàn)實(shí)世界中學(xué)習(xí)技能和適應(yīng)硬件故障等情況,例如機(jī)器人可以在一條腿上的電機(jī)出現(xiàn)故障的情況下學(xué)習(xí)行走?!?/p>
愛丁堡大學(xué)人工智能學(xué)科的助理教授斯蒂凡諾·阿爾布雷希特說:“這種方法還可能在更復(fù)雜的事情上有巨大應(yīng)用潛力,比如需要復(fù)雜且昂貴模擬器的自動(dòng)駕駛領(lǐng)域。”
阿爾布雷希特說:“新一代的強(qiáng)化學(xué)習(xí)算法可能‘在現(xiàn)實(shí)世界中快速理解環(huán)境是如何運(yùn)行的?!?/p>
但平托說:“還有一些尚未解決的大問題。”
在強(qiáng)化學(xué)習(xí)里,工程師需要在他們的代碼中指定訓(xùn)練對(duì)象的哪些行為是好的,并以此給予獎(jiǎng)勵(lì),也要界定哪些行為是不受歡迎的。在機(jī)器狗的例子里,翻身和走路很好,而不走路則不好。
平托說:“機(jī)器人學(xué)家需要對(duì)想讓機(jī)器人解決的每一個(gè)任務(wù)或問題都定義行為的好壞?!边@是極其耗時(shí)的,而且很難為意想不到的情況作出行為界定。
阿爾布雷希特說,模擬器存在不準(zhǔn)確的毛病,環(huán)境模型也有同樣的問題。
他說:“環(huán)境模型從零開始,所以最初模型的預(yù)測將一塌糊涂?!边@需要一些時(shí)間,直到模型得到足夠的數(shù)據(jù)以變得更加準(zhǔn)確。
哈夫納說:“將來如果能教會(huì)這只機(jī)器狗理解語音指令就太好了。該團(tuán)隊(duì)還希望將攝像頭與機(jī)器狗連接起來,使其具有視覺能力。這將允許它穿行在復(fù)雜的室內(nèi)場景中,尋找物體。”