現(xiàn)如今,越來(lái)越多的機(jī)器人在物理表現(xiàn)上與人類(lèi)相接近,確保他們做出的決定以及如何行為與人類(lèi)價(jià)值觀具有一致性變得至關(guān)重要。為了實(shí)現(xiàn)這一目標(biāo),機(jī)器人需要了解人類(lèi)所發(fā)出指令背后的真實(shí)意圖。在本文中,我們將一個(gè)安全機(jī)器人定義為一個(gè)能夠從人類(lèi)接收自然語(yǔ)言指令的機(jī)器人,它根據(jù)該指令考慮相應(yīng)的動(dòng)作,并準(zhǔn)確預(yù)測(cè)出如果在現(xiàn)實(shí)中執(zhí)行該動(dòng)作,人類(lèi)該如何對(duì)其進(jìn)行判斷。我們的貢獻(xiàn)有兩個(gè)方面:首先,我們引入一個(gè)網(wǎng)絡(luò)平臺(tái),以供用戶(hù)向模擬機(jī)器人提出指令。機(jī)器人接收指令并基于這些指令進(jìn)行相對(duì)應(yīng)的行動(dòng),然后用戶(hù)提供正和/負(fù)強(qiáng)化。接下來(lái),我們?yōu)槊總€(gè)機(jī)器人訓(xùn)練一個(gè)評(píng)論器,以預(yù)測(cè)人群對(duì)其中一個(gè)被人群提出的指令的反應(yīng);其次,我們展示了一個(gè)機(jī)器人的形態(tài)在其語(yǔ)言理論中的作用:相較于其他機(jī)器人,實(shí)驗(yàn)中使用的兩個(gè)機(jī)器人的預(yù)測(cè)誤差要低得多。因此,根據(jù)我們的定義,這兩個(gè)機(jī)器人更安全,因?yàn)樗麄兏鼫?zhǔn)確地理解了所提出的指令。
我們可以考慮這樣一種情況,一個(gè)家庭助理機(jī)器人被要求從一個(gè)房間里拿出一本書(shū),但是門(mén)被卡住了。由于機(jī)器人不能打開(kāi)門(mén),所以它就破門(mén)而入將書(shū)取回。由于這種期望之外和意想不到的結(jié)果,機(jī)器人被重新編程,使用一種新的效用函數(shù)懲罰導(dǎo)致機(jī)器人破門(mén)而入的動(dòng)作。重新編程之后,假設(shè)機(jī)器人被要求從房間里拿取救生藥物,但是又面臨著一扇被卡住的門(mén)的情境。這一次,機(jī)器人空手而歸,而不是破門(mén)而入取回藥物。這兩種情況的結(jié)果都不令人滿(mǎn)意,因?yàn)槲覀儫o(wú)法用一個(gè)目標(biāo)函數(shù)向AI傳達(dá)我們的真實(shí)愿望。機(jī)器人如何應(yīng)對(duì)這些情景,已經(jīng)成為人工智能安全領(lǐng)域中的一個(gè)重要挑戰(zhàn),我們將其稱(chēng)之為“反常的實(shí)例化”(Bostrom于2014年提出)或“價(jià)值失調(diào)”。在這種情況下,人工智能的價(jià)值觀與人類(lèi)的價(jià)值觀不相符合(Hadfield-Menell等人于2016年提出)。
Yudkowsky于2012年聲稱(chēng),將我們的愿望或期望編程到AI中并不足以應(yīng)對(duì)這一挑戰(zhàn)。相反,我們應(yīng)該制定方法讓人工智能學(xué)習(xí)了解我們的意圖,并根據(jù)這些意圖采取相應(yīng)的行動(dòng)。換句話(huà)說(shuō),我們需要一個(gè)人工智能來(lái)推斷我們指令背后的意圖,而不是按照原話(huà)逐字翻譯:“按照我說(shuō)的意思去做,而不是像我說(shuō)的做”。
Hadfield-Menell等人于2016年引入的一種調(diào)整人工智能價(jià)值觀的方法,是協(xié)同反向強(qiáng)化學(xué)習(xí)(Cooperative Inverse Reinforcement Learning,CIRL)。在這個(gè)過(guò)程中,一個(gè)人和一個(gè)機(jī)器人一起玩游戲,從而使得機(jī)器人學(xué)習(xí)人的獎(jiǎng)勵(lì)函數(shù)(即人的價(jià)值觀)。在這個(gè)游戲中,很重要的一點(diǎn)是,機(jī)器人最初不知道也不確定獎(jiǎng)勵(lì)函數(shù)。Christiano等人于2017年闡述了一個(gè)CIRL的具體實(shí)例:強(qiáng)化學(xué)習(xí)智能體通過(guò)接收Atari游戲或運(yùn)動(dòng)任務(wù)中人的反饋來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)。然而,在CIRL中,還不清楚機(jī)器人該如何將其價(jià)值與一群人的價(jià)值觀趨向一致性,其中一些人可能會(huì)有不同的價(jià)值觀。
在這項(xiàng)研究中,如果人工智能在收到來(lái)自相同(或不同)人的指令之后,能夠預(yù)測(cè)出人們(在這種情況下)將做出何種相應(yīng)的行動(dòng)的話(huà),那么我們就將該人工智能定義為安全的。例如,一個(gè)安全的機(jī)器人,在接到指令“拿到藥物”后,應(yīng)該預(yù)測(cè)到,破門(mén)取藥會(huì)得到來(lái)自任何觀察者的正強(qiáng)化,而沒(méi)有破門(mén)而入則會(huì)遭到負(fù)強(qiáng)化。盡管這種預(yù)測(cè)能力對(duì)于安全的人工智能來(lái)說(shuō)是很有必要的,但這還是遠(yuǎn)遠(yuǎn)不夠的。例如,如果一個(gè)機(jī)器人從破門(mén)而入中預(yù)測(cè)到一個(gè)負(fù)反應(yīng),那么它仍然可以選擇這樣做。
根據(jù)我們對(duì)安全的定義,我們?cè)谶@里提出一個(gè)游戲,一群人向機(jī)器人發(fā)出指令。機(jī)器人按照發(fā)出的指令行動(dòng),并接收來(lái)自人類(lèi)觀察者的正/或負(fù)反饋。機(jī)器人最初可能無(wú)法預(yù)測(cè)觀察者對(duì)其行為的反應(yīng),但最終經(jīng)過(guò)多次試驗(yàn)后,它可能學(xué)會(huì)進(jìn)行準(zhǔn)確的預(yù)測(cè)。為了安全起見(jiàn),機(jī)器人必須找到由所發(fā)出的指令組成的語(yǔ)言符號(hào)之間、所生成的作為對(duì)這些符號(hào)作出響應(yīng)結(jié)果的感覺(jué)運(yùn)動(dòng)數(shù)據(jù)之間,以及人群對(duì)其動(dòng)作的反應(yīng)之間的關(guān)系。
Harnad于2007年在一份聲明中指出,一個(gè)符號(hào)必須與智能體的感知運(yùn)動(dòng)能力相結(jié)合才能被領(lǐng)悟。這意味著智能體應(yīng)該能夠識(shí)別符號(hào)所指代的含義,以及受其身體的影響,智能體與外界的感覺(jué)運(yùn)動(dòng)交互作用應(yīng)該與符號(hào)的表示相匹配。但是,這種參照符號(hào)的定義并沒(méi)有規(guī)定一個(gè)度量標(biāo)準(zhǔn),以判決從人類(lèi)觀察者的角度來(lái)看,是否已經(jīng)獲得了對(duì)于特定符號(hào)的理解,或者理解的程度是多少。例如,上面例子中的機(jī)器人按照其感覺(jué)運(yùn)動(dòng)數(shù)據(jù)理解指令“獲取”,而不是根據(jù)人類(lèi)的價(jià)值進(jìn)行理解。由于人類(lèi)的價(jià)值觀是無(wú)法進(jìn)行精確衡量的,我們?cè)谶@里為他們定義了一個(gè)代替物:對(duì)智能體行動(dòng)進(jìn)行基于人群的強(qiáng)化以回應(yīng)人群發(fā)布的命令。在我們提出的游戲中,智能體必須在自己的感覺(jué)運(yùn)動(dòng)數(shù)據(jù)和這個(gè)人類(lèi)的反饋的基礎(chǔ)上,對(duì)包含命令的符號(hào)進(jìn)行理解。最近Chaplot等人和Hermann等人引入了強(qiáng)化學(xué)習(xí)智能體,它可以將語(yǔ)言(符號(hào))與世界以及自身的行動(dòng)結(jié)合起來(lái)。其中,神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)訓(xùn)練,接收來(lái)自環(huán)境的圖像和自然語(yǔ)言指令作為輸入,并在3D虛擬環(huán)境中執(zhí)行指令。這兩種運(yùn)行方式在環(huán)境圖像和給定指令的組合方式上有所不同,但是相同之處在于智能體沒(méi)有身體(環(huán)境中的攝像機(jī)除外),以影響他們所創(chuàng)造的感覺(jué)運(yùn)動(dòng)數(shù)據(jù)的種類(lèi)。另外,這些智能體在沒(méi)有收到人類(lèi)任何反饋的情況下對(duì)符號(hào)進(jìn)行理解。相比之下,我們提出的游戲中的智能體具有不同的身體并且接收來(lái)自人類(lèi)觀察者的反饋,并且因此可以根據(jù)人類(lèi)價(jià)值觀,在其感覺(jué)運(yùn)動(dòng)體驗(yàn)中,對(duì)人群提出的符號(hào)進(jìn)行理解。
我們?cè)谝粋€(gè)網(wǎng)絡(luò)平臺(tái)上實(shí)施我們提出的游戲,在這個(gè)平臺(tái)上,一群人可以通過(guò)這種方式幫助機(jī)器人對(duì)符號(hào)進(jìn)行理解。在這個(gè)平臺(tái),機(jī)器人可以在聽(tīng)到人們的指令并做出動(dòng)作后,會(huì)從中收到他們的正/負(fù)強(qiáng)化。我們使用進(jìn)化算法對(duì)機(jī)器人進(jìn)行進(jìn)化操作,進(jìn)而從人群中獲得越來(lái)越多的正強(qiáng)化和一個(gè)可在動(dòng)作和人群反饋中理解符號(hào)的學(xué)習(xí)算法。我們?cè)试S人群向機(jī)器人發(fā)出他們喜歡的任意指令,而不是為機(jī)器人預(yù)先定義動(dòng)作詞語(yǔ)。
近年來(lái),眾包(crowdsourcing)已被廣泛應(yīng)用于機(jī)器人行動(dòng)規(guī)劃和推理、目標(biāo)識(shí)別和機(jī)器人設(shè)計(jì)。例如,Breazeal 等人于2013年創(chuàng)造了一個(gè)雙人游戲,在這個(gè)游戲中,人們幫助機(jī)器人構(gòu)建一組行動(dòng)計(jì)劃和推理策略。Kent等人于2014年利用眾包創(chuàng)建了一個(gè)機(jī)器人能夠用手掌抓住物體的3D模型。在Wagy 和Bongard提出的方法中,人們?cè)O(shè)計(jì)了機(jī)器人的身體,而搜索方法為這些身體生成了成功的步態(tài)。在我們的研究過(guò)程中,我們使用眾包來(lái)幫助機(jī)器人為符號(hào)賦予意義,同時(shí)確保這些意義符合人類(lèi)價(jià)值觀。Anetsberger和Bongard于2015年也使用眾包,使機(jī)器人在他們的感覺(jué)運(yùn)動(dòng)經(jīng)驗(yàn)(sensorimotor experience)和對(duì)這些行為的社會(huì)反應(yīng)的基礎(chǔ)上,理解人們提出的指令。除了如Anetsberger和Bongard于2015年所提出的參照符號(hào)之外,我們?cè)谶@里展示的是機(jī)器人的安全性——根據(jù)給定數(shù)量的人群努力可以實(shí)現(xiàn)的價(jià)值取向數(shù)量——取決于機(jī)器人形態(tài)的各個(gè)方面。
在本篇文章中,我們證實(shí)了形態(tài)學(xué)可能會(huì)影響人們呈現(xiàn)機(jī)器人安全的能力,其中,安全性被定義為機(jī)器人預(yù)測(cè)人類(lèi)反應(yīng)的能力,這一“反應(yīng)”指代人類(lèi)對(duì)機(jī)器人因執(zhí)行某一指令而做出相應(yīng)動(dòng)作的回應(yīng)。盡管目前尚不明確哪種形態(tài)屬性可以使某一個(gè)特定機(jī)器人比其他機(jī)器人更安全,但此項(xiàng)研究依然表明,在設(shè)計(jì)未來(lái)機(jī)器人的過(guò)程中,將形態(tài)學(xué)考慮在內(nèi)是非常重要的。
機(jī)器人社區(qū)可以通過(guò)以下方式從目前的工作中受益。在對(duì)給定機(jī)器人進(jìn)行設(shè)計(jì)的階段,可在虛擬環(huán)境中模擬機(jī)械上不同的變體,并將其傳輸?shù)絎eb服務(wù),如Twitch.tv,觀察人員可以被告知機(jī)器人應(yīng)該執(zhí)行什么任務(wù)。然后,控制器可以使用群體強(qiáng)化(crowd reinforcement)對(duì)這些變體進(jìn)行優(yōu)化。如果控制器可以在一個(gè)變體上進(jìn)行訓(xùn)練,并始終引發(fā)正強(qiáng)化,那么這個(gè)原型是沒(méi)有問(wèn)題的。如果評(píng)論器可以通過(guò)相同的變體進(jìn)行訓(xùn)練,并且可以成功地預(yù)測(cè)人們的反應(yīng),那么它也是安全的。在制造出這種安全可靠機(jī)器人的物理版本后,裝配經(jīng)過(guò)訓(xùn)練的控制器和評(píng)論器,然后,物理機(jī)器人的控制器和評(píng)論器可以通過(guò)與現(xiàn)實(shí)并行的連續(xù)模擬以適應(yīng)任何不可預(yù)見(jiàn)的變化。
將物理機(jī)器人連接到模擬器已經(jīng)超出了當(dāng)前的試驗(yàn)范圍,但Bongard 等人以及Cully等人研究了物理機(jī)器人是如何生成環(huán)境模型和自身模型的,這提供了一個(gè)未來(lái)可能研究的方向。
盡管我們利用進(jìn)化訓(xùn)練機(jī)器人以使其盡可能多地理解指令,但是我們并沒(méi)有觀察到,隨著進(jìn)化,機(jī)器人逐漸開(kāi)始遵從于越來(lái)越多的指令。這一問(wèn)題主要是由于災(zāi)難性遺忘:一群機(jī)器人可能已經(jīng)進(jìn)化到服從一個(gè)特定的指令,但是對(duì)于人們所提出的下一個(gè)指令,他們可能就無(wú)所適從了。因此,我們希望采用更復(fù)雜的目標(biāo)函數(shù)和搜索算法,從而避免或最大限度地減少將來(lái)的災(zāi)難性遺忘。另一個(gè)可能導(dǎo)致進(jìn)化不完善的因素是,我們?cè)噲D訓(xùn)練控制器只使用一個(gè)神經(jīng)元來(lái)產(chǎn)生不同的行為。在接下來(lái)的部署中,我們計(jì)劃使用word2vec將人們提出的指令編碼為機(jī)器人控制器的輸入。