左國玉,劉洪星,龔道雄,阮曉鋼
(1.北京工業(yè)大學信息學部,北京 100124;2.北京市計算智能與智能系統(tǒng)重點實驗室,北京 100124)
隨著機器人技術的進步,機器人正在代替人類完成一些重復、簡單的操作.然而,為了讓機器人獲得更加通用的能力,抓取技能是機器人必須要掌握的.抓取是人類行為中常見但復雜的綜合性行為,其整合了感知、認知決策和動作執(zhí)行以及其間的協(xié)調與配合,體現了人類的認知能力和操縱能力.研究者們在機器人智能抓取領域已經取得了一些進展.一些工作[1-3]將機器人抓取檢測看作計算機視覺問題,并使用深度學習方法以目標檢測的方式進行研究.這些深度神經網絡結構依賴于卷積神經網絡(convolutional neural network,CNN)[4].CNN是受哺乳動物的視覺通路啟發(fā)而產生的,并且在空間和特征處理方面有很好的表現.機器人利用深度神經網絡賦予的視覺感知能力對抓取位置進行回歸或分類,其中抓取位置具體指示了機器人末端執(zhí)行器以怎樣的姿態(tài)抓起物體.然而,目標檢測的方法不能滿足機器人對物品更深層次的探索和理解.因此相關學者對affordance檢測展開了研究.Affordance檢測和目標檢測最大的區(qū)別在于關注的物品特征形式不同.Affordance 檢測關注的是物品與環(huán)境的交互特征.Affordance是指用一個物體進行不同行為的可能性,這個概念最早是由心理學家吉布森[5]提出.Affordance的概念用于描述物品的功能特性,在機器人抓取和操作的研究中得到了廣泛的應用[6-8].一些工作[9-10]借助深度學習方法,使用視覺輸入學習affordance表征,其中 affordance由圖像中物品的具有特征區(qū)分性的部分表示.物品的抓取方式與物品的affordance密切相關.Kokic等[11]利用CNN在點云上對affordance進行編碼和檢測并使用affordance來建模任務、對象和抓取動作之間的關系.類似地,Chu等[12]表明基于部分的物品表征有利于affordance檢測,因為一些物品部分分別具有獨特的特征但與其他物品又具有共性,所以可以推廣到新穎的物品上使用.Zeng等[13]使用CNN將視覺觀察(例如圖像)映射到感知的affordance上用以關聯物品和動作.在物品感知中,affordance檢測使得機器人可以獲取物品與環(huán)境的交互特征,并使得物品特征以更加基元化、更加普遍的形式表現,為機器人的抓取操作提供了重要的信息.然而,這些模型沒有考慮抓取相關的約束條件(例如任務),也沒有使用先驗知識指導機器人最終的抓取決策.值得注意的是,視覺感知的作用更像是一個環(huán)境感受傳感器,機器人并不能只依靠傳感器實現完整的推理和決策,這最終會導致不靈活、非魯棒的抓取表現.
物品感知在一定程度上實現了物品的分割和解析,并且感知結果會在抓取決策階段作為影響因素被考慮.目前抓取決策的方法可分為基于概率邏輯的方法和基于學習的方法.Ardón等[14]為了得到物品抓取affordance的概率分布,利用馬爾可夫邏輯網絡建立了知識圖表征.Antanas 等[15]使用概率邏輯模塊,通過利用物品部分的語義、物品的屬性和任務約束來提高抓取能力.Fang等[16]提出了一種面向任務的抓取網絡,用于聯合預測面向任務的抓取和后續(xù)操作動作.在基于學習的方法研究中,Karaoguz等[17]對抓取矩形建議網絡檢測到的抓取矩形按照得分進行排序,以得分最高的抓取矩形作為目標抓取位置.Kasaei 等[18]通過人機交互的方式學習抓取,示教者使用示教的方式向機器人演示一個物體的可能的抓取方式.這些方法中,概率邏輯規(guī)則使抓取決策過程具有可解釋性.然而,手工設計的邏輯規(guī)則的設計和學習通常是復雜的.視覺輸入的深度學習方法是黑箱學習.雖然該方法避免了手工規(guī)則設計,但可解釋性較低.
抓取行為本質上是大腦綜合認知的一種外部表現,若只考慮利用一方面的能力來實現智能抓取是很困難的.因此抓取模型應該被賦予多種類似人一樣的認知功能.不可否認,在機械任務層面機器人和生物的抓取表現是很相似的.然而,目前機器人和人類對抓取的認知在決策層面上還有很大的差距,而且這種決策能力會直接影響機器人后續(xù)抓取動作的執(zhí)行和操作.對于機器人而言如何將人類認知中形而上的功能(例如記憶、視覺感知和大腦皮層推理)整合到一起是必要且亟待解決的問題.
人類大腦集合了多種類型的認知功能,受人類大腦分區(qū)分塊的功能結構的啟發(fā),本文提出了一種認知抓取決策模型.模型包含了3個信息通路:1)受視覺腹部通路功能啟發(fā)構建了一個卷積神經網絡以實現物品空間信息和特征信息的提??;2)受海馬體信息通路功能啟發(fā)構建了一個圖神經網絡以實現數據的存儲以及推理檢索;3)受皮質柱信息通路功能啟發(fā)構建了一個貝葉斯編碼解碼網絡以實現信息的融合和最終的決策.因此通過模仿人類大腦中存在的功能性結構,構建該模型以實現更符合實際應用場景的合理抓取決策.
生物大腦因其出色地整合了數百種認知功能而在認知方面具有權威性.視覺和記憶在大腦的認知決策中都起著至關重要的作用.本文以控制二指機械手抓取為例,提出了一種受腦啟發(fā)的認知決策模型,以實現合理、靈活的機器人抓取動作決策.如圖1(a)所示,該模型包含3條認知信息通路:負責視覺感知的視覺腹部通路,負責記憶推理和檢索的海馬體信息通路和負責決策的皮質柱信息通路.圖1(b)展示了所構建模型整體信息流的傳遞.本文采用了3種網絡架構來分別實現上述3種信息加工和信息流的傳輸功能.
在認知視覺信息通路中,原始視覺信息從視網膜外側膝狀核,V1~V4,經一系列連續(xù)處理,直到形成復雜的物體表征[19].視覺腹側信息通路通常被認為是識別和處理與形狀和顏色相關信息的部分[20-21].此外,一些生物抓取行為的研究表明,大腦傾向于將物體形狀編碼為非整體的、基于部分的格式[22].心理學和神經科學都表明,affordance與抓取行為有著密不可分的聯系[23-24].因此,本文構建了一個感知網絡模擬腹側信息通路以affordance的形式編碼視覺信息.
如圖2所示,感知網絡對物品圖像進行卷積操作,分割出物品的affordance并輸出對應類型.該網絡以卷積層為基本結構.利用預先訓練好的5個卷積塊作為第1個編碼塊來提取目標圖像的低層特征.然后,采用4個反卷積層[25]作為第2個編碼塊進行高層特征編碼.圖像中可區(qū)分的低層特征(低分辨率)通過第1個編碼塊學習,然后將這些特征語義編碼到像素空間(高分辨率)獲取圖像中物體的affordance分類.為了恢復網絡提取低層特征時丟失的空間信息,在高級特征編碼過程中,利用跨連接融合第一個編碼塊不同階段的空間信息來細化物品的affordance分布.本文采用了4個跨連接對4種不同分辨率的空間信息進行融合.為了將感知網絡的結果轉化為決策網絡的可識別輸入,使用不需要訓練的后處理塊提取出affordance的語義和像素坐標.
圖2 感知網絡結構Fig.2 Perception network structure
海馬體與記憶密切相關,海馬體信息通路傳遞著各種與記憶相關的信息.海馬體對于情景記憶的關鍵作用已經被神經心理學、動物模型、計算模型和人類神經成像[26-28]研究明確地確立了.計算模型表明,在接收到部分記憶線索后,海馬體中的神經元會協(xié)調皮層目標部位相關記憶的恢復[29].因此,受到海馬體神經元之間圖形連接信息通路和檢索記憶的功能的啟發(fā),建立了一個圖神經網絡作為記憶網絡,實現記憶先驗的搜索和推理.
一些與圖相關的符號如下:定義了一個有向圖,G=(V,E,R).式中V、E和R分別表示節(jié)點的集合、邊的集以及關系的集合.設vi∈V表示一個節(jié)點,(vi,r,vj)∈E表示一條從vi指向vj的邊,其關系為r∈R.在常識知識圖中許多關系是普遍有效的,被認為是人類的常識.然而,對于機器人來說,這些關系很難理解和應用.為了利用有價值的常識記憶作為先驗信息,使用一個稱為記憶網絡的圖神經網絡來學習常識圖.記憶網絡是基于一種圖編碼器模型:關系圖卷積網絡(relational graph convolutional network,r-GCN)[30]建立的.輸入線索的觸發(fā)下,利用圖中的關系和節(jié)點,對已存儲的記憶信息進行推理和搜索,并輸出相關結果.在記憶網絡中,使用r-GCN層來嵌入圖中事實的實體(節(jié)點)和關系(邊)(例如,三元組(drink,need,contain)).在記憶網絡中,節(jié)點和關系用詞向量表示.嵌入過程以關系學習的過程為例.在局部圖鄰域中進行操作.在網絡訓練中,使用了消息傳遞框架
(1)
圖3 記憶網絡處理信息過程Fig.3 Process of information processing by the memory network
(2)
經上述處理,記憶網絡可以理解節(jié)點和關系表示的常識圖,并在接受到部分記憶線索之后能檢索相關的記憶.與直接使用知識庫進行查詢的方法相比,記憶網絡使用了消息傳遞框架能有效地推理和學習記憶中的信息,使得記憶檢索邊的具有邏輯,更加準確.
皮質柱是大腦動力學和皮質信息處理的重要決定因素[32].作為感覺處理或運動輸出的基本功能單元,皮層柱在皮層的學習和發(fā)育中起著重要作用.6層細胞構成皮層柱的垂直方向.皮質柱的每一層都包含不同的細胞類型,并在水平層上通過突觸連接[33].本文假設皮質柱中信息處理或是一個編碼和解碼的過程,它會產生一些潛在的特征表達或決策.
本文試圖研究和模擬人類潛在的決策過程,以執(zhí)行完備的抓取動作.模仿人們的思維方式,將記憶作為先驗信息,視覺感知作為觀察信息,與任務相關的信息作為約束,幫助機器人實現合理決策.值得注意的是,人類的行為是由大腦中產生的任務驅動的,因而行動是有目的的.因此,在決策模型中加入與任務相關的約束是有必要的.該決策方法符合貝葉斯理論的思想.故本文基于貝葉斯理論建立了決策網絡.
CVAE[34]方法將高維輸出空間的分布建模為以輸入觀測為條件的生成模型,受該方法的啟發(fā)本文使用了一個條件編碼解碼去實現決策.定義y表示抓取的決策結果.決策網絡的目標是在給定觀測信息x、先驗信息m和任務約束t的情況下,使y的條件對數似然最大化.網絡的條件生成過程如圖4所示.高斯隱變量z被編碼并從先驗分布pθ(z|x,m,t)中進行采樣.輸出y被解碼并從分布pθ(y|x,z,m,t)中生成.直觀地說,隱變量z允許網絡對輸出y的多個條件分布建模,這些條件分布代表可供抓取的潛在選擇.然而,難以處理的隱變量z的邊緣化問題,使得決策網絡的參數估計具有挑戰(zhàn)性.本文使用隨機梯度變分貝葉斯框架[35]來解決這個問題.在SGVB中,對數似然的變分下界被用作替代目標函數.模型的變分下界為
圖4 決策網絡圖模型Fig.4 Graphical model of the decision network
(3)
模型的經驗目標為
(4)
式中:qφ(z|x,y,m,t)為識別網絡用于估計真實的后驗分布pθ(z|x,y,m,t),真實的后驗分布pθ(z|x,y,m,t)表示當給定物品觀測信息x、記憶m、任務t和標簽y時產生的潛在抓取分布;pθ(z|x,m,t)在這里表示一個條件高斯隱變量z的條件先驗網絡;pθ(y|x,z(l),m,t)表示一個生成網絡,z(l)=g(x,y,m,t,(l)),∈N(0,I),g(·)是一個使用了重參數化技巧[47]的可微函數;L表示樣本數量.
在模型中,使用了多層感知機去建模識別網絡、先驗網絡和生成網絡.模型有與皮質柱一樣的6層結構.訓練時的網絡結構如圖5所示,在訓練網絡時,先驗網絡和識別網絡分別得到的隱變量z,使用KL散度進行處理,目的是使得先驗網絡逼近識別網絡.
圖5 用于訓練的決策網絡結構Fig.5 Structure of the decision network for training
本文關注的是給定操作任務時對象的可行性抓取,因此測試以下三方面能力是至關重要的:1)感知網絡的affordance檢測準確率;2)記憶網絡的記憶聯想能力;3)決策網絡的決策能力.
基于Myers等[36]建立的UMD part affordance數據集對認知模型進行了評估.此數據集包含不同視角的105個工具的RGB-D圖像,并提供了像素級affordance標簽.這些工具共有17類,包含了7類affordances:grasp、cut、scoop、contain、pound、support和wrap-grasp(如表1所示).模型中的感知網絡直接對UMD part affordance數據集進行處理.對于記憶網絡,需要一個與任務,affordance和物品相關的抓取常識圖作為記憶數據.但是,目前沒有專門用于抓取相關的常識圖,或者有類似的圖結構數據但是其中包含了大量與本文研究無關的數據,導致無法有效地提取相關數據.因此,本文使用Neo4j圖形平臺建立了一個抓取的常識圖,其關系如圖6所示.圖6中有140個節(jié)點、315個關系,包含3種類型的節(jié)點:任務節(jié)點、affordance節(jié)點和物品節(jié)點.節(jié)點之間的關系包括3種類型:need、found和has.
表1 工具的7種affordances描述Table 1 Description of the seven affordances of tools
圖6 抓取常識圖Fig.6 Common-sense graph for grasping
對于決策網絡,本文創(chuàng)建了一個決策數據集.數據集有4個部分:觀察到的affordance記憶數據、任務和標簽.觀察到的affordance是從UMD part affordance數據集收集的,記憶數據和任務數據是使用建立的抓取常識圖進行創(chuàng)建的.數據集中的每個樣本設計為包含觀察到的affordance、任務、記憶的形式,并以單詞的形式存儲,如表2所示.數據集中有304 326個樣本.在決策網絡中,使用嵌入層將單詞轉換為向量.
表2 決策數據集中樣本的組成部分Table 2 Compositions of some samples in the decision dataset
本文在UMD part affordance數據集上評估affordance檢測的表現.為了進行對比,將Myers等[36]和Sawatzky等[37]的結果作為基線進行比較.使用交并比(intersection over union,IoU)作為評價指標來評價affordance檢測的準確性.如圖7所示,本文的方法實現了更高的平均檢測精度,在平均IoU方面比基于resnet的網絡高出14%.在每類affordance的檢測中,感知網絡也取得了最高的IoU值.這表明,卷積下采樣編碼和反卷積上采樣編碼相結合的算法在UMD part affordance 數據集的affordance檢測任務上表現很好.因此,感知網絡對物品實現了以affordance為基元的物品分解,并且這種以affordance形式對物品實現原語理解便于后續(xù)決策網絡處理感知信息.
圖7 IoU度量的affordance檢測結果Fig.7 Performance of the affordance detection with metric of IoU
為了幫助機器人理解抓取常識圖中的節(jié)點和關系,訓練了一個包含1個嵌入層和2個r-GCN層的網絡.網絡的輸入是自建的抓取常識圖,其中事實以三元組的形式表示,例如(pour,need,contain)和(scissor,has,cut).在嵌入層中,一個詞向量的維度被設置為100.使用Adam優(yōu)化器,將其學習率設置為0.01,并將每一層r-GCN的dropout率設置為0.1.同時使用了懲罰參數設置為0.02的L2正則化.對于每個測試三元組,其頭部實體被刪除,然后輪流由字典中每個實體替換同時計算得分,并將得分按照降序排列,得分最高的實體被選擇作為最終的記憶輸出.記憶網絡最終的平均倒數排名(mean reciprocal rank,MRR)為0.77,并且hits@10訓練后能達到0.97.結果表明記憶網絡可以從向量的角度實現對節(jié)點和關系的語義理解,并可以根據記憶線索對相關節(jié)點或關系進行關聯.
在訓練中,決策網絡的輸入是關于任務、記憶、觀測affordance和標簽的詞語,并使用100維的嵌入層來處理這些輸入.決策數據集被隨機分割成訓練集(80%)和測試集(20%).該決策網絡的測試準確率為99.99%.測試結果表明,該網絡成功地區(qū)分了不同的任務,并能夠理解對象的affordance.使用6項常見任務測試了5種不同的物體,并將決策結果在總結在了表3中.決策結果的表示形式為:A/B,其中A表示任務所需要的affordance,B表示要被抓取的物品affordance.值得注意的是如果B為[none]則表示該物品不能滿足任務需求,因此選擇不去抓取該物品.結果表明,該決策網絡能夠做出準確的決策,即正確地判斷一個物品是否可以被操縱執(zhí)行輸入的任務.如果物品不具有操作任務所需的affordance,則選擇不去抓取該物品,并給出任務所需affordance的建議;否則,輸出將被抓取的物品affordance來指導抓取動作.
表3 決策網絡結果Table 3 Results of the decision network
認知模型將3個訓練好的網絡融合在一起,并使用語義向量的形式傳遞信息.為了驗證認知模型,在測試集的各類型物品中分別選擇了15張圖片進行測試,總共使用255張照片作為素材進行抓取決策推理.為了保證物品affordance的完整性,選擇的圖片中物品的affordance均被完整地展示.如表4所示,模型實現抓取決策的準確率為99.8%,除了其中的2個錯誤決定:抹刀在挖的任務中和鋸在敲擊的任務中各出現了一次錯誤決定,查驗各環(huán)節(jié)結果顯示是因為模型在感知部分輸出的affordance產生了誤判,以至于輸出錯誤的affordance類型.為了輸出給決策網絡使用,在感知網絡的后處理部分使用了超參數作為像素閾值,對分割出的affordance像素數量進行了約束,以保證網絡輸出的魯棒性.大于該閾值則輸出該affordance類型,否則不會輸出.上述超參數的設置會過濾掉感知網絡中誤判的affordance(誤判像素數量小于閾值),提高了輸出的準確性,同時也會使得部分像素較少的affordance特征被過濾,因此輸出了有缺失的affordance種類,直接影響了后續(xù)的決策部分.認知模型的決策結果可視化如圖8所示.橘色框左邊的表示輸入的任務示意圖,橘色框中的圖片分別表示模型根據不同任務得到的抓取位置.黑色方塊代表該物品不適合該任務,因此選擇不去抓取.注意,在可抓取位置中,標記了一個6×6的像素塊來表示初始抓取位置.準確率結果證明了認知模型實現了合理靈活的決策.認知模型以affordance的形式實現對物品的基元理解,并通過記憶數據將物品與任務聯系起來,從而輸出滿足任務要求的抓取決策,為后續(xù)動作執(zhí)行提供可靠的初始抓取位置.
圖8 認知模型的決策結果可視化Fig.8 Visualization of the decision results of the cognitive model
表4 模型測試準確率Table 4 Test accuracy of the model %
1)提出了一個機器人抓取決策的認知模型.認知決策模型受大腦中分區(qū)分塊的功能結構的啟發(fā),由卷積感知網絡(受視覺腹側信息通路功能啟發(fā))、記憶圖網絡(受海馬體信息通路功能啟發(fā))和貝葉斯決策網絡(受皮層柱信息通路功能啟發(fā))三部分組成.模塊化結構使認知模型具有很強的魯棒性,3個模塊的結構設計和模塊之間的協(xié)調具有很強的可解釋性.
2)建立了抓取相關的常識圖和抓取決策數據集.在該模型中,將常識圖中的物品屬性、任務和物品編碼為空間向量,以實現語義理解.對物品、任務、記憶間的關系進行建模,以決策抓取位置.
3)該模型對UMD part affordance數據集的抓取決策準確率達到99.8%.