• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    SP-POMDP:堆疊物體抓取場(chǎng)景中的任務(wù)規(guī)劃方法

    2025-07-28 00:00:00陳奕好劉金鑫庫(kù)濤邵鑫喆
    關(guān)鍵詞:信念物體觀測(cè)

    關(guān)鍵詞:機(jī)器人抓取;堆疊場(chǎng)景;POMDP;任務(wù)規(guī)劃;狀態(tài)空間修正中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-019-2064-08doi:10.19734/j. issn.1001-3695.2024.11.0495

    Abstract:Inthe workingscenarioof robots grasping stackedobjects,due tosensorsampling afectedbyclutter andpartial observabilitycaused byobjectocclusion intheenvironment,robotsareunable toachieveaccurateand complete modeling, making itdificulttoeficientlycompletetasks.ThispaperdesignedastatepatchedbasedpartiallyobservableMarkovdecision proceses (SP-POMDP)model to addressthe above isues,and proposed arobot grasping task planning method based on this model.This methodabstractly extracted discrete states,actions,andobservation spaces basedonsamplingresults.Through a statespacecoectionmethod,stateinformationthatcouldn’tbesampledandrecognizedduetopartialobservabilityintheenvironment wasadded tothestate spacebasedonthe inherentcharacteristicsofthecurent stackedscene.Itconstructedabelief treetosolvethemodel.Theresultsofexperimentsshowthatinthegraspingtaskofstackedobjects,thismethodcansignificantly reduce computation time and improve work eficiency while ensuring success rate.

    Key words:robot grasping;stacking scene;POMDP;task planning;state space patching

    0 引言

    在雜亂的物體堆疊場(chǎng)景中搜索并抓取特定物體是工業(yè)場(chǎng)景中的場(chǎng)景任務(wù)。上世紀(jì)末以來(lái),機(jī)器人被廣泛應(yīng)用在工業(yè)中,用于組裝、拋光和噴漆等任務(wù)[1]。在經(jīng)典的工業(yè)環(huán)境中,往往通過(guò)對(duì)任務(wù)進(jìn)行精確的、完整的建模來(lái)實(shí)現(xiàn)任務(wù)的合理規(guī)劃,為此機(jī)器人必須根據(jù)有限的傳感器信息推理其動(dòng)作的可能結(jié)果。然而,在未知的、非結(jié)構(gòu)化的以及雜亂無(wú)章的環(huán)境中,或在使用干擾較大的傳感器、與人類(lèi)協(xié)作或在具有難以建模的目標(biāo)物體的任務(wù)中[2],系統(tǒng)的不確定性和部分可觀測(cè)性被放大,難以直接通過(guò)控制系統(tǒng)的建模來(lái)處理。物體的相互遮擋不僅使得系統(tǒng)無(wú)法對(duì)環(huán)境完全觀測(cè),還導(dǎo)致了目標(biāo)物體先驗(yàn)屬性的不確定。此時(shí)如何處理系統(tǒng)中的不確定性與部分可觀測(cè)性,是具有難度且至關(guān)重要的問(wèn)題。

    對(duì)于機(jī)器人抓取過(guò)程中的這類(lèi)問(wèn)題,目前的研究主要有兩個(gè)方向。一個(gè)是優(yōu)化對(duì)環(huán)境信息的采樣方式,通過(guò)先進(jìn)的機(jī)器學(xué)習(xí)方法[3-6],從有限的傳感器信息中提取出盡可能完整的環(huán)境信息。例如,薛騰等人[4]針對(duì)機(jī)器人抓取過(guò)程中需要實(shí)時(shí)評(píng)估抓取質(zhì)量以動(dòng)態(tài)調(diào)整抓取構(gòu)型的問(wèn)題,提出了一種基于觸覺(jué)先驗(yàn)知識(shí)的機(jī)器人穩(wěn)定抓取方法。該方法通過(guò)融合視覺(jué)圖像和觸覺(jué)先驗(yàn)知識(shí),生成穩(wěn)定的抓取構(gòu)型,極大提高了穩(wěn)定抓取的成功率。針對(duì)工業(yè)上常見(jiàn)的散亂堆疊零件的抓取問(wèn)題,徐進(jìn)等人[3]提出一種基于抓取簇和碰撞體素的抓取姿態(tài)檢測(cè)算法,解決了傳統(tǒng)方法中因采用離散固定抓取點(diǎn)而導(dǎo)致可抓取點(diǎn)丟失、篩選效率低的問(wèn)題。值得一提的是,在雜亂環(huán)境中抓取特定目標(biāo)的機(jī)器人抓取任務(wù),目前已被推廣到了服務(wù)型機(jī)器人的研究上。在該問(wèn)題上,Duan等人[5]提出了一種通過(guò)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)的模塊化智能機(jī)器人架構(gòu),包括一種端到端的語(yǔ)義抓取卷積神經(jīng)網(wǎng)絡(luò),以及一種對(duì)多模態(tài)信息進(jìn)行簡(jiǎn)單推理的后處理方法,在相對(duì)復(fù)雜的環(huán)境中具有較好的適應(yīng)性與魯棒性表現(xiàn)。這類(lèi)方法均能夠在特定目標(biāo)與場(chǎng)景中表現(xiàn)出較好的性能,但由于依賴大量的樣本數(shù)據(jù)進(jìn)行離線學(xué)習(xí),遷移性較弱。而且受限于環(huán)境采樣條件,在一些相對(duì)惡劣的工況中存在一定挑戰(zhàn)。

    另一個(gè)方向是通過(guò)調(diào)整機(jī)器人的抓取策略來(lái)減少感知不確定性,在動(dòng)態(tài)的過(guò)程中完成任務(wù)。相較于前一個(gè)方向,該策略更符合直覺(jué),同時(shí)由于對(duì)環(huán)境采樣的要求相對(duì)寬松,能夠處理絕大多數(shù)復(fù)雜場(chǎng)景的任務(wù)。該策略的難點(diǎn)在于如何對(duì)問(wèn)題任務(wù)進(jìn)行建模。李鑫等人[基于場(chǎng)景建立馬爾可夫決策過(guò)程(Markovdecisionprocess,MDP),使用深度強(qiáng)化學(xué)習(xí)來(lái)解決密集多物體場(chǎng)景中的機(jī)械臂抓取問(wèn)題。然而如果存在物體遮擋這類(lèi)系統(tǒng)雜波,則MDP模型將無(wú)法確定環(huán)境物體的狀態(tài)。針對(duì)該問(wèn)題所提出的部分可觀測(cè)馬爾可夫決策過(guò)程(partiallyobservableMarkovdecisionprocess,POMDP)是在不確定性下進(jìn)行決策的事實(shí)模型,已被廣泛應(yīng)用在機(jī)器人抓取任務(wù)規(guī)劃的研究中。

    POMDP早期多被用于解決單個(gè)物體的狀態(tài)獲取問(wèn)題。例如在基于觸覺(jué)傳感器的機(jī)器人抓取場(chǎng)景中,Hsiao等人[8在POMDP的基礎(chǔ)上使用了一種環(huán)境模型,將機(jī)器人的運(yùn)動(dòng)限制在一個(gè)離散的動(dòng)作空間集合中,并劃分狀態(tài)空間為離散單元,以處理自然連續(xù)的動(dòng)作和狀態(tài)空間。后續(xù)通過(guò)從候選集合中選擇軌跡的方法,將其擴(kuò)展到更大規(guī)模的問(wèn)題中[9]。而在多物體的操作問(wèn)題中,POMDP需要考慮由于傳感器噪聲以及物體之間相互遮擋而導(dǎo)致的部分可觀測(cè)性,主要挑戰(zhàn)在于對(duì)象數(shù)量增加導(dǎo)致的狀態(tài)空間的指數(shù)增長(zhǎng)。圖像渲染或物理模擬等技術(shù)可用于觀測(cè)和場(chǎng)景動(dòng)力學(xué)的建模,但要找到適合POMDP形式,同時(shí)在實(shí)踐中保持計(jì)算可處理性[1],是一個(gè)挑戰(zhàn)。對(duì)此,Mons6等人2根據(jù)實(shí)際任務(wù)中對(duì)象的固有物理屬性,通過(guò)離散值來(lái)獲取狀態(tài)、動(dòng)作和觀測(cè)的近似值,成功解決了布料分離的問(wèn)題。

    現(xiàn)在研究會(huì)將環(huán)境中觀測(cè)到的每個(gè)物體對(duì)象轉(zhuǎn)換為單獨(dú)的狀態(tài)變量來(lái)處理。例如,Pajarinen等人[1]考慮了一個(gè)用RGB-D攝像頭觀測(cè)桌面上的若干個(gè)物體的機(jī)器人工作場(chǎng)景。每個(gè)狀態(tài)變量表現(xiàn)為對(duì)象的屬性,例如顏色或位置。動(dòng)作為移動(dòng)對(duì)象的操作,觀測(cè)包括被移動(dòng)對(duì)象后面的對(duì)象屬性的信息。將RGB-D場(chǎng)景分割成對(duì)象,來(lái)獲取相互遮擋的程度。利用這些遮擋信息估計(jì)POMDP求解的抓取成功概率和觀測(cè)概率。Li等人[11]也使用了類(lèi)似的方法,基于離散化的狀態(tài)來(lái)解決物體的搜索與轉(zhuǎn)移問(wèn)題。Xiao等人[12]在此基礎(chǔ)上解決了使用POMDP進(jìn)行對(duì)象搜索的問(wèn)題,同時(shí)考慮了對(duì)象完全遮擋的情況。此外,Pajarinen等人[13.14]將環(huán)境的不確定性融合到POMDP的信念狀態(tài)中,允許對(duì)對(duì)象模擬進(jìn)行操縱動(dòng)作的規(guī)劃,以應(yīng)對(duì)隨機(jī)分布的未知物體造成的不確定性。

    在現(xiàn)有研究中,對(duì)場(chǎng)景的實(shí)際狀態(tài)空間的獲取均建立在采樣方式穩(wěn)定可靠的基礎(chǔ)上,即通過(guò)攝像機(jī)能獲取所有存在于視野中的物體信息。而這在實(shí)際工況中,受復(fù)雜的光照、溫度等條件影響,該條件可能無(wú)法滿足。而通過(guò)遮擋程度來(lái)估計(jì)位置物體的狀態(tài)屬性,是在采樣受阻的情況下進(jìn)行模型中部分參數(shù)估計(jì)的可靠思路[10\~14]。受 Zhao 等人[15]對(duì) POMDP 的抽象提取方法的啟發(fā),本文設(shè)計(jì)了一種基于狀態(tài)修正的部分可觀測(cè)馬爾可夫決策過(guò)程,并基于該模型,提出了一種針對(duì)堆疊物體抓取場(chǎng)景的機(jī)器人抓取任務(wù)規(guī)劃方法:SP-POMDP。與傳統(tǒng)方法相比,該方法在考慮系統(tǒng)部分可觀測(cè)性的基礎(chǔ)上,引入了一種狀態(tài)空間修正方法,將環(huán)境中無(wú)法觀測(cè)的物體狀態(tài)抽象地添加到系統(tǒng)的狀態(tài)空間中,一定程度上削弱了系統(tǒng)的部分可觀測(cè)性。并通過(guò)一種部分可觀測(cè)的蒙特卡羅規(guī)劃(partiallyobservableMonteCarloplanning,POMCP)算法的變式,實(shí)現(xiàn)所提模型的求解。經(jīng)過(guò)仿真實(shí)驗(yàn),與傳統(tǒng)方法相比,該方法在堆疊物體的抓取任務(wù)中表現(xiàn)出極佳的性能,具有一定的優(yōu)越性。

    1 SP-POMDP構(gòu)建方法

    1.1 POMDP概述

    在有限時(shí)域中,一個(gè)POMDP問(wèn)題可表示為一個(gè)包含8個(gè)元素的元組 。若無(wú)特別說(shuō)明,本文中字母下標(biāo)表示該元素位于所在集合中的序號(hào),上標(biāo)表示該元素的屬性,且對(duì)應(yīng)符號(hào)的含義在全文保持一致。其中: 分別表示系統(tǒng)的狀態(tài)空間、動(dòng)作空間以及觀測(cè)空間; T,O,R 分別表示狀態(tài)轉(zhuǎn)移函數(shù)、概率觀測(cè)函數(shù)以及回報(bào)函數(shù); 0lt;γ?1 是衡量即時(shí)回報(bào)與未來(lái)回報(bào)的折算系數(shù),一般取0.95以上。 b0 為初始信念狀態(tài),以一個(gè)初始概率質(zhì)量函數(shù)來(lái)表示,如 b0(s) 表示初始狀態(tài)為 s 時(shí)的概率。

    在任務(wù)過(guò)程中,機(jī)器人在系統(tǒng)狀態(tài)為 s∈S 的情況下執(zhí)行動(dòng)作 a∈A ,存在概率 T(s,s,a)=P(s∣s,a) 使得系統(tǒng)狀態(tài)由 s 變?yōu)?s ,此時(shí)得到即時(shí)回報(bào) r=R(s,a) ,進(jìn)一步地,存在概率O(ω,s,a)=P(ω|s,a) 獲得一個(gè)對(duì)改變后系統(tǒng)的觀測(cè)結(jié)果

    由于觀測(cè)的不確定性,即部分可觀測(cè)性,機(jī)器人無(wú)法保證獲取的系統(tǒng)狀態(tài)為真實(shí)狀態(tài),故引人一個(gè)信念函數(shù) b(s) 來(lái)表示任意時(shí)刻系統(tǒng)狀態(tài)為 s 的概率,記信念狀態(tài)的集合為信念空間 B ,即 b∈B 。任何一個(gè)時(shí)間點(diǎn)的信念狀態(tài)被定義為給定過(guò)去行動(dòng)和觀察歷史的狀態(tài)的條件概率分布。如上所述,在采取任何行動(dòng)或感知任何觀察之前,初始信念狀態(tài)均為 b0

    在給定當(dāng)前信念狀態(tài) b 、動(dòng)作 a 以及觀測(cè)結(jié)果 ω 后,信念狀態(tài)可由貝葉斯規(guī)則進(jìn)行更新:

    其中: 為觀測(cè) ω 的先驗(yàn)概率。式(1)可簡(jiǎn)寫(xiě)為貝葉斯濾波器 ω')[16]

    記POMDP 問(wèn)題的解為策略序列 π=(π1,π2,…,πh) ,策略 πt 為信念狀態(tài) b 到動(dòng)作 a 的映射,即 a=πt(b) ,其中, t∈ [1,h] 。最優(yōu)價(jià)值函數(shù) 為當(dāng) χt 策略執(zhí)行時(shí),系統(tǒng)從信念狀態(tài) b 執(zhí)行一個(gè)最優(yōu)策略 π* 獲得的期望總回報(bào)。

    由于該問(wèn)題滿足最優(yōu)化原則,即所選擇的最優(yōu)策略保證其后部任意子策略是最優(yōu)的,故根據(jù)貝爾曼方程[17]可得

    由于最優(yōu)價(jià)值函數(shù) 沒(méi)有直接體現(xiàn)信念狀態(tài) b 到動(dòng)作 Ψa 的映射關(guān)系,為描述最優(yōu)策略 π* ,需要引入最優(yōu)動(dòng)作-價(jià)值函數(shù) Qt*(b,a) 。其定義為當(dāng) χt 策略執(zhí)行時(shí),系統(tǒng)從信念狀態(tài)b 執(zhí)行動(dòng)作 a 的期望總回報(bào),由式(2)可得

    最優(yōu)策略 ,理論上 πt*(b) 唯一。原始的POMDP考慮的系統(tǒng)狀態(tài)為連續(xù)空間,對(duì)于計(jì)算的負(fù)載過(guò)大。從中提取出一個(gè)離散的POMDP,降低模型的規(guī)模,以提高效率是常見(jiàn)的思路[8]。

    1.2 SP-POMDP構(gòu)建

    SP-POMDP表示為 ,從一個(gè)原始的POMDP模型中提取獲得,后續(xù)稱該過(guò)程為抽象化或抽象提取。

    對(duì)原始屬性 的處理,可以理解為將原始POMDP中的該屬性進(jìn)行離散化。以狀態(tài)空間 s 為例,將任意時(shí)刻的原始狀態(tài)空間 scur 劃分為若干個(gè)互斥子集 sicur 。任意一個(gè)子集 sicur 對(duì)應(yīng)一個(gè)抽象提取 ,且對(duì)于任意 srcur∈sicur ,對(duì)應(yīng)相同的抽象提取 。所有抽象提取 的集合構(gòu)成該時(shí)刻的抽象狀態(tài) 。此過(guò)程可定義為如下所示抽象提取函數(shù) Fs 。

    在任務(wù)場(chǎng)景固定的情況下,動(dòng)作空間 A 在任意時(shí)刻均不變,其元素 ai 表示任意動(dòng)作,故可定義如下所示抽象提取函數(shù) Fa

    觀測(cè)空間 通過(guò)概率觀測(cè)獲取,由于動(dòng)作與狀態(tài)已經(jīng)轉(zhuǎn)化為離散的形式,故可直接輸出離散的觀測(cè) 。

    在機(jī)器人抓取任務(wù)中,由于動(dòng)作 a 的選擇由策略 π 確定,存在一定的偏向性。狀態(tài) s 受到動(dòng)作 a 影響,也無(wú)法保證其均勻分布,故無(wú)法利用貝葉斯公式直接從原始POMDP中的狀態(tài)轉(zhuǎn)移函數(shù) T 以及概率觀測(cè)函數(shù) o 中提取出 由于對(duì)原始屬性的抽象提取使問(wèn)題變?yōu)殡x散的情況,需將 轉(zhuǎn)換為離散化后的所有 引發(fā)的獨(dú)立事件的變化規(guī)則。

    的設(shè)計(jì)不依賴于 R ,需要保證任意時(shí)刻的即時(shí)回報(bào)優(yōu)于下一時(shí)刻,使POMDP的求解收斂。即對(duì)于任意時(shí)刻 χt ,需滿足 ,具體的 根據(jù)實(shí)際問(wèn)題確定。信念狀態(tài)為系統(tǒng)狀態(tài)的映射,故可直接將式(4)代人,得

    在實(shí)際工作場(chǎng)景中,可能存在因被遮擋而無(wú)法被觀測(cè)到狀態(tài)的物體。由于SP-POMDP的屬性在提取過(guò)程中被離散化,位置狀態(tài)之間的差異被縮小,此時(shí)可將被物體 c 遮擋而無(wú)法被識(shí)別的物體視為物體 c 在狀態(tài)空間上的疊加,其位置狀態(tài)相同,但存在一個(gè)獨(dú)立的疊加計(jì)數(shù) nl ,反映該狀態(tài)被疊加的次數(shù),用于區(qū)分各個(gè)物體。

    基于以上原理,可以將抽象化后的狀態(tài)空間進(jìn)行補(bǔ)全。記抽象化后的初始狀態(tài)空間為 ,抽象提取后可能遮擋未識(shí)別物體的 n 個(gè)外層物體 Ci 的狀態(tài)為 ,補(bǔ)全后的狀態(tài)空間為 ,定義如式(7)所示狀態(tài)空間修正函數(shù) f

    對(duì)于獲得的抽象化后的初始狀態(tài)空間 ,利用狀態(tài)空間修正函數(shù)可添加那些無(wú)法通過(guò)采樣設(shè)備識(shí)別,但可推斷其存在的物體狀態(tài)到 中,減小部分可觀測(cè)性對(duì)系統(tǒng)的影響。不同的場(chǎng)景中疊加計(jì)數(shù) nl 的獲取規(guī)則由場(chǎng)景中物體性質(zhì)確定。

    2場(chǎng)景建模

    2.1 任務(wù)描述

    為了進(jìn)一步描述本文方法的原理,設(shè)計(jì)如下任務(wù)場(chǎng)景。若干物體隨機(jī)堆疊擺放在桌面上,機(jī)器人可將物體從桌面上拾取并放在指定區(qū)域。根據(jù)機(jī)械臂及桌面、物體的尺寸設(shè)置場(chǎng)景中各物體的相對(duì)位置,在確保不會(huì)發(fā)生碰撞的前提下,使機(jī)械臂的動(dòng)作空間能夠覆蓋桌面。在桌面附近設(shè)置一個(gè)區(qū)域,要求機(jī)器人將指定物體拾取并移動(dòng)到目標(biāo)區(qū)域,桌面尺寸如圖1所示。其中桌面長(zhǎng) len=400mm ,寬 wid=300mm 。同時(shí)設(shè)置動(dòng)作閾值,當(dāng)執(zhí)行動(dòng)作數(shù)達(dá)到閾值時(shí),無(wú)論任務(wù)是否完成,機(jī)器人均終止任務(wù)[15]。設(shè)待抓取物體為直徑 d=80mm 高 h= 10mm 的圓盤(pán)。

    機(jī)器人通過(guò)感知觀測(cè)來(lái)獲取系統(tǒng)中物體的狀態(tài)分布,根據(jù)垂直方向上的物體的遮擋率來(lái)判斷物體是否可被觀測(cè)。在原始POMDP中,經(jīng)過(guò)初始采樣,可獲得所有物體的狀態(tài)空間,此時(shí)存在三種情況。

    a)若遮擋率較低,則物體可被觀測(cè)并識(shí)別其類(lèi)型;

    b)若遮擋率較高,由于環(huán)境的部分可觀測(cè)性,物體的特征無(wú)法被完全觀測(cè),其類(lèi)型無(wú)法確定,視為無(wú)法識(shí)別,需要在移動(dòng)其上方物體后,對(duì)先驗(yàn)信念再次觀測(cè)才能判斷其類(lèi)型;

    c)若遮擋率極高,考慮到實(shí)際場(chǎng)景中采樣設(shè)備的硬件限制及環(huán)境干擾,視為無(wú)法觀測(cè)。

    圖1場(chǎng)景尺寸及離散分割 Fig.1Scene size and discrete segmentation

    由于SP-POMDP利用狀態(tài)空間修正函數(shù) f 對(duì)初始狀態(tài)空間的觀測(cè)進(jìn)行了補(bǔ)全,根據(jù)觀測(cè)到的物體狀態(tài)推理出其是否遮擋物體,并將被遮擋的物體作為上方物體的疊加進(jìn)行補(bǔ)全,以此視為觀測(cè)到物體。故情況c)被消除,僅需考慮物體類(lèi)型能否被識(shí)別,通過(guò)一個(gè)識(shí)別概率來(lái)表征物體為目標(biāo)類(lèi)型的可能性。識(shí)別概率函數(shù) P0 如式(8)所示,表示物體類(lèi)型被識(shí)別的概率,其中 sr 表示物體的遮擋率, rs 表示設(shè)定的可被識(shí)別的閥值。 rs 的取值反映的是具體任務(wù)中的遮擋對(duì)觀測(cè)物體類(lèi)型的影響程度,該任務(wù)中的取值在0.7以上。

    2.2 構(gòu)建SP-POMDP

    2.2.1 實(shí)例化屬性

    在實(shí)際場(chǎng)景中,需要將任意時(shí)刻中物體的各項(xiàng)屬性實(shí)例化。為保證每個(gè)物體均落在唯一的單元格中,且每個(gè)單元格在同一水平面內(nèi)僅容納一個(gè)物體,故單元格的邊長(zhǎng)應(yīng)在 [d 1.7d)。由此將該場(chǎng)景分割成如圖1中的 3×4 的12個(gè)離散單元。每個(gè)單元格表示為 ,邊長(zhǎng)為 100mm ,目標(biāo)區(qū)域的位置為(0,-1),共13個(gè)單元格,所有可放置物體的單元集合表示為field。記 OBJ={oi|i∈[1,n]} 為所有物體組成的集合,其中 n 為物體數(shù)量,物體的編號(hào) i 在采樣階段根據(jù)采樣順序確定。

    系統(tǒng)任意時(shí)刻的原始狀態(tài)可直接表示為 s={li|i∈[1 n]} ,其中 li=(xi,yi,zi) 表示物體 oi 的笛卡爾坐標(biāo)。當(dāng)使用單元格而不是笛卡爾坐標(biāo)來(lái)表示物體的位置時(shí),無(wú)法反映對(duì)象之間的遮擋和位置關(guān)系,因此需要將這些信息顯式包含在抽象狀態(tài)中。在SP-POMDP中,任意時(shí)刻的系統(tǒng)狀態(tài)表示為 T,E) 。其中 ΨC=[c1c2…cn]T 為物體的位置狀態(tài)組成的 n 階向量,其元素 表示物體 oi 所在的中心距離最近的單元格。 T=[?bτ1τ2…τn]Γ 為物體的識(shí)別概率組成的 n 階向量,其元素 τi∈[0,1] 表示物體 oi 的類(lèi)型能夠被識(shí)別的概率,由式(8)直接求得。 E=[ε1ε2…En]T 為表示物體遮擋關(guān)系的 n 階向量,其元素 ,其中 ziup 表示 oi 是否被物體遮擋, zidown 表示 σoi 是否遮擋物體,若是,則對(duì)應(yīng)的元素為1,否則為0。

    系統(tǒng)原始動(dòng)作表示為 a=(oi,l) ,指將物體 oi 移動(dòng)到空間位置 ξl 的操作,動(dòng)作空間的規(guī)模由采樣分辨率決定。在SPPOMDP中,完整動(dòng)作空間表示為 13]},其元素 表示將物體 oi 從當(dāng)前位置移動(dòng)到單元格 cj 的動(dòng)作。由于物體之間相互遮擋,不能保證 OBJ 內(nèi)的物體 oi 均能被抓取,故在實(shí)際選擇動(dòng)作時(shí),以待抓取物體所在單元格為動(dòng)作的起始元素,即 oi=ci

    系統(tǒng)任意時(shí)刻的原始觀測(cè)表示為 ω={(ti,li)∣i∈[1 m]},其中 m 為識(shí)別到的物體數(shù) ,ti 表示物體的估計(jì)類(lèi)型, li 表示物體的估計(jì)位置。與狀態(tài)空間類(lèi)似,抽象化需要顯式表示出物體間的遮擋和位置關(guān)系。在SP-POMDP中,任意時(shí)刻的系統(tǒng)觀測(cè)表示為 。其中 為被識(shí)別的物體的估計(jì)位置組成的 m 階向量。 為物體被識(shí)別到的類(lèi)型組成的 m 階向量,其元素 表示識(shí)別到的物體的類(lèi)型,由于該場(chǎng)景任務(wù)中給定了目標(biāo)物體的類(lèi)型,若觀測(cè)到物體為目標(biāo)類(lèi)型的物體,則取 ,若觀測(cè)到物體不是目標(biāo)類(lèi)型,則 ,部分物體由于被遮擋,其屬性由狀態(tài)空間修正函數(shù)f補(bǔ)全,無(wú)法直接觀測(cè)到類(lèi)型,其 的值為0\~1的一個(gè)浮動(dòng)數(shù),在求解過(guò)程中更新。 為表示物體遮擋關(guān)系的 ?m 階向量,其具體表示形式與 中的對(duì)應(yīng)元素相同。由于狀態(tài)空間修正函數(shù) f 補(bǔ)全了所有物體的位置狀態(tài),故 m=n 。可以證明, ,故 $\hat { \omega } = ( C , \overbar { T } , E )$ 。

    抽象化前后模型的各屬性如表1所示。

    表1模型各屬性對(duì)照Tab.1 Comparison of model attributes

    2.2.2狀態(tài)轉(zhuǎn)移函數(shù)與概率觀測(cè)函數(shù)

    根據(jù)實(shí)例化的SP-POMDP屬性,將處于相同單元格 cellk 內(nèi)的物體儲(chǔ)存在同一個(gè)順序棧中,可以利用如圖2所示的數(shù)據(jù)結(jié)構(gòu)來(lái)維護(hù)OBJ,以表征場(chǎng)景中各物體狀態(tài)。

    構(gòu)建階段進(jìn)行狀態(tài)空間的遍歷,在進(jìn)行狀態(tài)轉(zhuǎn)移時(shí),可實(shí)現(xiàn)常數(shù)級(jí)時(shí)間復(fù)雜度的運(yùn)算,同時(shí)有效解決了當(dāng)前研究中對(duì)于物體是否可進(jìn)行抓取操作的判斷問(wèn)題[12.15],優(yōu)化了計(jì)算的效率。

    概率觀測(cè)函數(shù) 描述了系統(tǒng)環(huán)境在執(zhí)行動(dòng)作 后,狀態(tài) 到觀測(cè) 的映射規(guī)則。由于 ,故只需討論 T 到 的轉(zhuǎn)換方法。由2.2.1節(jié)中給出的狀態(tài)空間與觀測(cè)空間的表示形式可以發(fā)現(xiàn),不同于狀態(tài),觀測(cè)將物體的類(lèi)型信息由識(shí)別概率轉(zhuǎn)換為一個(gè)較為模糊的預(yù)測(cè)(可理解為物體的期望類(lèi)型),以下分為兩種情況討論。a)若采樣時(shí)未檢測(cè)到目標(biāo)類(lèi)型的物體,則系統(tǒng)空間的 應(yīng)與 T 負(fù)相關(guān)。如最上方的物體的識(shí)別概率為1,但其不是目標(biāo)物體,識(shí)別類(lèi)型為0,則目標(biāo)物體存在于被完全遮擋或由狀態(tài)空間修正函數(shù)補(bǔ)全的物體中,其識(shí)別類(lèi)型應(yīng)大于 若采樣時(shí)檢測(cè)到目標(biāo)類(lèi)型的物體,則系統(tǒng)空間的 與 T 無(wú)關(guān),且對(duì)應(yīng)物體的識(shí)別類(lèi)型為1。

    根據(jù)以上分析,可以歸納并設(shè)計(jì)出如下概率觀測(cè)函數(shù) 。其中 Pn 表示目標(biāo)物體存在于無(wú)法被觀測(cè)的物體中的概率,在該場(chǎng)景中均勻分布,故其數(shù)值等于向量 T 中值為0的元素個(gè)數(shù)的倒數(shù): ;I 為所有元素均為1的 n 階向量; e 表示是否檢測(cè)到目標(biāo)類(lèi)型的標(biāo)識(shí)符,若檢測(cè)到取1,否則取 0;Ta 表示目標(biāo)類(lèi)型物體的識(shí)別類(lèi)型向量。 e 與 Ta 在采樣階段確定。

    此時(shí)被完全遮擋或由狀態(tài)空間修正函數(shù)補(bǔ)全物體的識(shí)別類(lèi)型為 Pn ,被部分遮擋的物體的識(shí)別類(lèi)型為小于 Pn 的值。

    當(dāng)上方物體被轉(zhuǎn)移時(shí),下方物體不再被遮擋,理論上可直接確定其類(lèi)型,即識(shí)別類(lèi)型必須為0或1,此時(shí)智能體會(huì)以 的概率隨機(jī)獲取0或1。

    2.2.3回報(bào)函數(shù)與信念狀態(tài)更新

    狀態(tài)轉(zhuǎn)移函數(shù) 描述了系統(tǒng)環(huán)境在執(zhí)行動(dòng)作 后,狀態(tài) 的變化規(guī)則。進(jìn)行狀態(tài)轉(zhuǎn)移時(shí),智能體會(huì)從輸入的動(dòng)作 中提取該動(dòng)作移動(dòng)物體的起點(diǎn)與終點(diǎn)的單元格。對(duì)于狀態(tài)屬性, c 可直接修改被移動(dòng)物體的對(duì)應(yīng)元素, T 則需要根據(jù)被移動(dòng)物體的遮擋關(guān)系 E ,更新其后方物體的識(shí)別概率 τj+1oE 的更新相對(duì)復(fù)雜,具體方法為判斷被移動(dòng)的物體是否遮擋其他物體,更新當(dāng)前元素以及下一個(gè)元素的 ε 值。 的一般形式如式(9)所示,其中 為執(zhí)行動(dòng)作 來(lái)實(shí)現(xiàn)狀態(tài)轉(zhuǎn)移的線性變換 Δ,j 為 c 中被轉(zhuǎn)移的元素下標(biāo)。

    以上方法在每次進(jìn)行狀態(tài)轉(zhuǎn)移時(shí),均需要構(gòu)造特定的線性變換 Ta ,且需要遍歷分析當(dāng)前狀態(tài) ,其性能受狀態(tài)空間規(guī)模影響較大,在進(jìn)行連續(xù)的狀態(tài)轉(zhuǎn)移時(shí)尤為明顯?,F(xiàn)基于圖2的數(shù)據(jù)結(jié)構(gòu),構(gòu)造如圖3的方法來(lái)實(shí)現(xiàn) 該方法僅在數(shù)據(jù)結(jié)構(gòu)的

    回報(bào)函數(shù) 需滿足設(shè)計(jì)條件。這里取任意抽象動(dòng)作 執(zhí)行后產(chǎn)生的運(yùn)動(dòng)代價(jià) 。此外,在抓取任務(wù)完成后,產(chǎn)生一個(gè)最終的獎(jiǎng)勵(lì) ,隨后任務(wù)終止。

    該模型以信念狀態(tài)來(lái)表征系統(tǒng)所處的狀態(tài),在該任務(wù)場(chǎng)景中表現(xiàn)為每個(gè)單元格內(nèi)存在目標(biāo)物體的概率。SP-POMDP中,觀測(cè)空間 包含了物體的類(lèi)型信息,式(10)將系統(tǒng)內(nèi)物體的識(shí)別類(lèi)型以概率數(shù)值的形式來(lái)表示,將所有物體的識(shí)別類(lèi)型映射到所在單元格。根據(jù)貝葉斯規(guī)則,可將每個(gè)單元格內(nèi)所有物體的識(shí)別類(lèi)型之和作為該單元格信念狀態(tài)的更新權(quán)重,來(lái)實(shí)現(xiàn)信念狀態(tài)的更新。由此給出以下信念更新方程,其中 bcellk 表示單元格 cellk 的信念值。

    由式(11)獲得每個(gè)單元格內(nèi)的信念權(quán)重的集合,對(duì)其進(jìn)行歸一化后獲得更新后的信念狀態(tài) b 。初次提取時(shí) bcellk 取1。

    2.2.4狀態(tài)空間修正函數(shù)

    對(duì)于一般的平面遮擋場(chǎng)景,如圖4所示。對(duì)于物體被觀測(cè)到,但被部分遮擋的情況。假定物體形狀未知,此時(shí)物體的類(lèi)型可確定,但真實(shí)遮擋率無(wú)法獲得。將其外側(cè)物體的形狀的一半累加在已觀測(cè)到的物體部分上,以粗略估計(jì)其遮擋率,并且外側(cè)物體所在順序棧的疊加計(jì)數(shù) nl 加1。而當(dāng)目標(biāo)物體未被觀測(cè)到時(shí),其可能存在與已被觀測(cè)到的每個(gè)物體后方,故對(duì)每一個(gè)物體所在順序棧的疊加計(jì)數(shù) nl 加1。

    圖4不同情況下的遮擋率獲取方法Fig.4Methods forobtaining occlusion ratesunder different conditions

    而在該任務(wù)描述的堆疊場(chǎng)景中,物體的狀態(tài)空間分布在三維坐標(biāo)上,上層物體疊放在下層物體上,即上層物體的存在受制于下層物體。同樣地,若識(shí)別到物體位于最上層,可根據(jù)物理性質(zhì)推斷出其下方物體的屬性。在一個(gè)穩(wěn)定的靜態(tài)環(huán)境中,上層物體的重心必然位于下層物體的投影上。假設(shè)通過(guò)RGBD攝像頭采集的物體 c 的位置狀態(tài)為三維坐標(biāo) (x,y,z) 。若 z 近似于 h ,則說(shuō)明物體 c 沒(méi)有遮擋物體,否則其下方存在多個(gè)未被識(shí)別的物體 ci ,且物體 c 下方第一個(gè)物體 c1 的二維坐標(biāo)(x,y) 滿足 (x-x)2+(y-y)2≤(d/2)2 。故只要設(shè)計(jì)的場(chǎng)景單元格尺寸能保證每個(gè)單元格最多只有一個(gè)物體的幾何中心在其投影上,就能實(shí)現(xiàn)表示的唯一性。由此可直接根據(jù)式(7)進(jìn)行狀態(tài)空間修正。其中各個(gè)物體 Ci 的疊加計(jì)數(shù) nl=z/h 11,結(jié)果取整。

    在圖2所示數(shù)據(jù)結(jié)構(gòu)中,表現(xiàn)為在棧頂元素下方增加 nl 個(gè)拷貝的操作。需要說(shuō)明的是,對(duì)于遮擋率的獲取并不意味著需要感知層的高性能。這是由于遮擋率僅作為判斷物體類(lèi)型的初級(jí)依據(jù),需要經(jīng)過(guò)后續(xù)的計(jì)算映射到0/1的值,因而并不要求其數(shù)值的精確。

    2.3 SP-POMDP求解

    2.3.1 信念樹(shù)概述

    由于2.2節(jié)中構(gòu)建的SP-POMDP模型不是顯式的概率模型,難以設(shè)計(jì)出全局的最優(yōu)價(jià)值函數(shù),故無(wú)法用常規(guī)的值迭代方法[18]來(lái)求解。

    蒙特卡羅樹(shù)搜索(MonteCarlotreesearch,MCTS)是一種用于樹(shù)搜索的在線算法,在人工智能方向,尤其是計(jì)算機(jī)博弈領(lǐng)域已經(jīng)得到廣泛應(yīng)用[19]。POMCP[20]基于MCTS,被廣泛用于大型POMDP的在線規(guī)劃求解。本文在此算法的基礎(chǔ)上進(jìn)行調(diào)整,使其適用于SP-POMDP的求解。

    首先是信念樹(shù)的構(gòu)建方法。信念狀態(tài)的具體形式為針對(duì)每個(gè)系統(tǒng)狀態(tài)粒子的加權(quán),所有權(quán)重之和為1。在任務(wù)開(kāi)始時(shí),根據(jù)第一次觀察結(jié)果對(duì)初始信念進(jìn)行采樣。在后續(xù)每個(gè)步驟之后,可以通過(guò)式(11)來(lái)更新當(dāng)前信念[20]。

    由于被轉(zhuǎn)換成信念狀態(tài) b ,狀態(tài)空間 s 在信念樹(shù)中沒(méi)有直接體現(xiàn),而是以觀測(cè) ω 的形式來(lái)表征環(huán)境的狀態(tài)。以所有系統(tǒng)狀態(tài)粒子的初始信念狀態(tài)為根節(jié)點(diǎn),依次擴(kuò)展所有可能的動(dòng)作分支,并按照可能的觀測(cè)分支,更新信念狀態(tài),以此為樹(shù)搜索的一個(gè)步長(zhǎng)。

    為實(shí)現(xiàn)SP-POMDP的抽象提取,需要在創(chuàng)建信念樹(shù)前,完成初始狀態(tài)空間 s 的抽象化,之后所有的分支節(jié)點(diǎn)元素均以抽象化后的形式保存,抽象后的信念樹(shù)如圖5所示。具體的抽象化過(guò)程在2.2.1節(jié)中已經(jīng)說(shuō)明。此時(shí)信念樹(shù)不僅作為求解算法的基礎(chǔ),更是歷史信息的載體。

    分析抽象信念樹(shù)的結(jié)構(gòu)可以發(fā)現(xiàn),信念樹(shù)可視為多個(gè)以信念狀態(tài) b 為根節(jié)點(diǎn),觀測(cè) ω 為葉節(jié)點(diǎn)的子信念樹(shù)拼接而成,故稱圖5中虛線框內(nèi)區(qū)域?yàn)樾拍顦?shù)的一個(gè)單元節(jié)點(diǎn),記作 bij ,其中 i 表示單元節(jié)點(diǎn)所在分支序號(hào) Δ,j 表示單元節(jié)點(diǎn)所在層數(shù),因此信念樹(shù)可表示為單元節(jié)點(diǎn)的集合 B={bij|i,j=0,1,2,…} 。每個(gè)節(jié)點(diǎn)內(nèi)保存的內(nèi)容包括信念狀態(tài)、搜索次數(shù)以及回報(bào),即bij=?b,ni,Vi? 。這樣的數(shù)據(jù)結(jié)構(gòu)使得智能體能夠通過(guò)選擇不同的節(jié)點(diǎn)作為根節(jié)點(diǎn)來(lái)裁剪信念樹(shù),這有利于歷史信息的處理。

    圖5抽象信念樹(shù)Fig.5Abstractbelief tree

    2.3.2 算法說(shuō)明

    根據(jù)POMCP,設(shè)計(jì)出算法1對(duì)SP-POMDP進(jìn)行求解。算法將信念樹(shù)的根節(jié)點(diǎn) B={b0} 與目標(biāo)信念狀態(tài) bgoal 作為輸入,從初始信念狀態(tài)開(kāi)始向下搜索節(jié)點(diǎn),并擴(kuò)展信念樹(shù),在節(jié)點(diǎn)的信念狀態(tài)達(dá)到 bgoal 前不斷向下傳播。以下是對(duì)算法的一些說(shuō)明。

    算法用上限置信區(qū)間(upperconfidencebound,UCB)[21來(lái)定量描述節(jié)點(diǎn)被選擇后獲得的回報(bào),實(shí)現(xiàn)貪婪的節(jié)點(diǎn)選擇。在算法1第2行,智能體返回當(dāng)前節(jié)點(diǎn)下UCB最大分支的節(jié)點(diǎn)下標(biāo),以實(shí)現(xiàn)節(jié)點(diǎn)的選擇,其中 ∣bi∣ 表示該分支節(jié)點(diǎn)個(gè)數(shù)。UCB由式(12)確定。

    其中: 表示該節(jié)點(diǎn)的平均回報(bào); c 為常數(shù)項(xiàng),這里取 2;N 表示信念樹(shù)的總搜索次數(shù); ni 表示當(dāng)前節(jié)點(diǎn)搜索次數(shù)。

    每次搜索時(shí),智能體會(huì)先判斷當(dāng)前節(jié)點(diǎn)是否為葉節(jié)點(diǎn),若不是,則選擇UCB值最高的節(jié)點(diǎn)分支向下傳遞,若是,且該節(jié)點(diǎn)被搜索過(guò)( ni≠0 ),則會(huì)先在當(dāng)前信念狀態(tài)下枚舉所有可行的動(dòng)作分支,擴(kuò)展出一個(gè)完整的單元節(jié)點(diǎn),再向下傳遞,見(jiàn)算法1第4、5行。

    當(dāng)傳播到葉節(jié)點(diǎn)且該節(jié)點(diǎn)未被搜索過(guò)( ni=0 ),智能體會(huì)進(jìn)行隨機(jī)仿真,通過(guò)模擬來(lái)獲取當(dāng)前分支的預(yù)期回報(bào),見(jiàn)算法1第6\~8行。該過(guò)程中,智能體會(huì)在當(dāng)前節(jié)點(diǎn)下隨機(jī)生成一條可行的動(dòng)作分支,重復(fù)進(jìn)行節(jié)點(diǎn)擴(kuò)展與信念狀態(tài)更新,直到達(dá)到目標(biāo)信念狀態(tài) bgoal ,此處參考POMCP實(shí)現(xiàn)[20],并將動(dòng)作的選擇過(guò)程分離,將其與信念狀態(tài)作為輸入。循環(huán)結(jié)束時(shí)返回本次隨機(jī)仿真的預(yù)期價(jià)值 ,由式(13)獲得。

    value(b)=V+γt?value(b

    在搜索結(jié)束后,信念樹(shù)會(huì)更新此次搜索遍歷的每個(gè)節(jié)點(diǎn)信息,增加每個(gè)節(jié)點(diǎn)的搜索次數(shù) ni 以及總搜索次數(shù) N ,并將value(bj) 作為回報(bào)增加到每個(gè)節(jié)點(diǎn)上。此過(guò)程為反向傳播,見(jiàn)算法1第9行。由于該過(guò)程與常見(jiàn)算法相同,故不在本文算法中詳細(xì)描述。

    對(duì)于非目標(biāo)物體,本文算法將所有可抓取的物體所在的單元格作為動(dòng)作的起始,隨機(jī)選擇一個(gè)信念值最低的單元格作為動(dòng)作的終點(diǎn),由此構(gòu)建可行動(dòng)作集合,見(jiàn)算法1第 11~18 行。由于SP-POMDP的信念狀態(tài)表征了各個(gè)單元格內(nèi)存在目標(biāo)物體的概率,可以此作為動(dòng)作選擇的依據(jù),但無(wú)法保證局部的最優(yōu)解。經(jīng)過(guò)測(cè)試,僅依據(jù)概率,會(huì)導(dǎo)致同一個(gè)動(dòng)作的重復(fù)選擇,造成結(jié)果過(guò)擬合。

    故采取基于抓取優(yōu)先級(jí)的動(dòng)作選擇策略。在隨機(jī)仿真前,會(huì)根據(jù)信念值,對(duì)所有可行動(dòng)作進(jìn)行優(yōu)先級(jí)排序。每次選擇仿真動(dòng)作時(shí),都會(huì)選擇優(yōu)先級(jí)最高的動(dòng)作,并且在動(dòng)作執(zhí)行完后,減小動(dòng)作的優(yōu)先級(jí)。這樣的處理確保所有動(dòng)作均被考慮,避免了結(jié)果的過(guò)擬合,同時(shí)減小了空間的遍歷次數(shù),提高了效率。動(dòng)作選擇函數(shù)的實(shí)現(xiàn)見(jiàn)算法1第19\~25行。

    算法1 SP-POMDP求解器輸人:初始信念樹(shù) B={b0} ,目標(biāo)信念狀態(tài) bgoal ,折算系數(shù)γ。

    輸出:更新后的信念樹(shù) Bnew 。

    1 while bj+1≠φ do

    2

    3 (20號(hào) jj+1 (204

    4 if ni≠0 then

    5 (2號(hào) EXPANSION(bij

    6 while bj≠bgoal do

    7 aj ←ACTION_CHOOSE(AVAILABLE_ACTION)

    8 b ←SIMULATE (bj,aj,γ) (2

    9 Bnew←—BACKPROPAGATION(value())

    10 retum Bnew

    11 procedure AVAILABLE_ACTION(b)

    12 for temp← ?b1 ,.,bi do

    13 if temp eq0 then

    14 (204號(hào) a1cell(temp) //temp對(duì)應(yīng)的單元格

    15 else

    16 a2←cell(temp)

    17 return Aenum(a1,a2) //枚舉所有 ai 組合

    18 end procedure AVAILABLE_ACTION()

    19 procedure ACTION_CHOOSE(A)

    20 staticpriority←{(a1,P1),…,(ai,Pi)}

    21 a,argmax(priority)

    22 if ptgt;minp then

    23 (2號(hào) pt←minp+1 and update priority

    24 return at

    25 end procedure ACTION_CHOOSE(A)

    基于以上算法,給出輸出單步動(dòng)作的完整過(guò)程,見(jiàn)算法2。其中 H 為任務(wù)歷史信息序列,包括動(dòng)作、觀測(cè)以及信念狀態(tài)信息,在算法2第1行中可理解為當(dāng)前時(shí)刻桌面的實(shí)際狀態(tài), 為設(shè)定的最大迭代次數(shù),根據(jù)任務(wù)的復(fù)雜程度確定。

    算法2任務(wù)規(guī)劃完整過(guò)程

    輸入:任務(wù)歷史序列 H ,目標(biāo)信念狀態(tài) bgoal ,折算系數(shù) γ ,最大迭代次數(shù) 0

    輸出:?jiǎn)尾讲呗詣?dòng)作 areal

    1S\~H

    2 (204

    3 (204

    4BCONSTRUCT_TREE( δ,H)

    5whileepoch do

    6 B←sovler(B,y,bgoal)

    7 epoch←epoch +1

    8

    9 return areal

    3實(shí)驗(yàn)

    3.1 實(shí)驗(yàn)環(huán)境介紹

    實(shí)驗(yàn)采用了4個(gè)測(cè)試場(chǎng)景,分別為5、6、7、8個(gè)物體構(gòu)成的50個(gè)隨機(jī)擺放場(chǎng)景。利用顏色來(lái)區(qū)分物體類(lèi)型,其中紅色物體為需要移動(dòng)的圓盤(pán),其余物體顏色為紅色以外的隨機(jī)顏色。利用Python等腳本語(yǔ)言的相關(guān)工具生成 {li=(xi,yi,zi)|i∈ 三 格式的數(shù)據(jù)作為樣本。在生成隨機(jī)場(chǎng)景時(shí)給出以下限制,首先確保存在物體被遮擋的情況,且桌面上的物體滿足式(9)兩種情況的數(shù)量均勻。其次在所有場(chǎng)景中,目標(biāo)物體可被一次動(dòng)作抓取到目標(biāo)區(qū)域的情況的樣本數(shù)量小于總數(shù)的三分之一。

    在Ubuntu22.04系統(tǒng)中,基于ROS2構(gòu)建仿真環(huán)境,利用Gazebo搭建如圖1所示尺寸的機(jī)器人抓取場(chǎng)景,利用RGB-D攝像頭插件實(shí)現(xiàn)環(huán)境的感知。選用機(jī)器人末端執(zhí)行器為吸盤(pán)。機(jī)械臂的運(yùn)動(dòng)規(guī)劃由MoveIt2模塊實(shí)現(xiàn),使用RRT-Connect規(guī)劃?rùn)C(jī)械臂的運(yùn)動(dòng)路徑。實(shí)驗(yàn)系統(tǒng)架構(gòu)如圖6所示。

    取折算系數(shù) γ=0.99 ,遮擋率閾值 rs=0.76 ,最大迭代次數(shù) ,同時(shí)設(shè)置動(dòng)作閾值,當(dāng)執(zhí)行動(dòng)作數(shù)達(dá)到場(chǎng)景物體數(shù)減2時(shí)(樣本的理論最大動(dòng)作數(shù)),無(wú)論任務(wù)是否完成,機(jī)器人均終止任務(wù)。以上參數(shù)均在前文中說(shuō)明。

    圖6實(shí)驗(yàn)系統(tǒng)架構(gòu)Fig.6Architecture of experimentalsystem

    3.2 實(shí)驗(yàn)方案設(shè)計(jì)

    除本文方法外,設(shè)計(jì)以下兩組實(shí)驗(yàn)進(jìn)行對(duì)照。

    a)為了驗(yàn)證本文提出的狀態(tài)空間修正方法的可行性,針對(duì)任務(wù)場(chǎng)景,根據(jù)本文所設(shè)計(jì)的方案從原始POMDP中抽象提取出離散的POMDP,但不對(duì)無(wú)法被觀測(cè)的物體信息進(jìn)行補(bǔ)全。具體操作為,基于式(8),增加 rs?srlt;0.9 的情況為遮擋率較大、物體能被觀測(cè)但無(wú)法被識(shí)別的情況,同時(shí)不對(duì)初次采樣結(jié)果進(jìn)行修正。該方案表示為 ΠnPOMDP 。

    另外設(shè)置兩組貪心抓取策略作為基線方法。若未識(shí)別到目標(biāo)物體,則逐一移除物體,直到識(shí)別到物體且為可抓取狀態(tài),最后將物體抓取并轉(zhuǎn)移至指定區(qū)域。該方案不采用任務(wù)規(guī)劃的思想,而直接遍歷所有的情況,來(lái)獲得所有物體的位置及類(lèi)型信息,為實(shí)際工業(yè)場(chǎng)景中的常規(guī)解決思路。該兩組方案分別采用廣度優(yōu)先和深度優(yōu)先的搜索方式。

    根據(jù)仿真結(jié)果,通過(guò)以下幾個(gè)指標(biāo)來(lái)評(píng)價(jià)本組方案的性能:(a)完成的任務(wù)總數(shù);(b)完成一個(gè)任務(wù)所花費(fèi)的平均時(shí)間,包含運(yùn)動(dòng)規(guī)劃所花費(fèi)的時(shí)間,且僅對(duì)成功完成的任務(wù)進(jìn)行統(tǒng)計(jì),單位為s;

    b)為了測(cè)試本文方法的綜合計(jì)算性能,與目前較為先進(jìn)的算法在該堆疊場(chǎng)景中的表現(xiàn)進(jìn)行比較。針對(duì)任務(wù)場(chǎng)景構(gòu)建POMDP,分別利用 DESPOT[22]、PA-POMCP[12]、ADVT[23]進(jìn)行求解。適用于對(duì)照組的POMDP的基本屬性構(gòu)建方法在2.2.1節(jié)中已經(jīng)說(shuō)明,會(huì)根據(jù)具體方法的要求進(jìn)行簡(jiǎn)單調(diào)整,這里給出顯式的轉(zhuǎn)移概率與觀測(cè)概率信息,如表2所示。

    根據(jù)仿真結(jié)果,通過(guò)以下幾個(gè)指標(biāo)來(lái)評(píng)價(jià)本組方案的性能:(a)完成的任務(wù)總數(shù);(b)輸出一個(gè)動(dòng)作所花費(fèi)的平均時(shí)間,單位為s;(c)信念樹(shù)搜索的平均時(shí)間,單位為s。

    實(shí)驗(yàn)中的代碼實(shí)現(xiàn)不考慮觀測(cè)到的物體總數(shù)對(duì)信念分布的影響。以此消除物體數(shù)量較少的場(chǎng)景中,由于復(fù)雜度過(guò)低導(dǎo)致的性能表現(xiàn)較好的情況,用以放大模型本身的表現(xiàn)。

    表2顯式概率相關(guān)信息Tab.2Explicitprobabilityrelated information

    例如,已知只有5個(gè)物體,當(dāng)執(zhí)行動(dòng)作后,可以觀測(cè)并確定4個(gè)物體的類(lèi)型不是目標(biāo)物體。此時(shí)雖然主觀上可以直接確定剩余的狀態(tài)被修正的物體為目標(biāo)物體,但仍使用任務(wù)規(guī)劃完成任務(wù),如圖7所示。

    圖7實(shí)驗(yàn)過(guò)程示例 Fig.7Example of experimental process

    圖8為5個(gè)物體的抓取實(shí)驗(yàn)中,單次任務(wù)的信念樹(shù)搜索過(guò)程的一個(gè)示例(見(jiàn)電子版)。在初始采樣中,各個(gè)物體的離散狀態(tài)表示原則上為離該物體幾何中心最近的單元格位置,但由于式(8)將被堆疊物體表示為最上方物體的疊加狀態(tài)。故如圖8中初始狀態(tài)中的黃色物體,其最近的單元格為(1,1),但由于其被黑色物體疊放,故其位置狀態(tài)表示為(1,2),與黑色物體相同。

    圖8搜索過(guò)程演示 Fig.8Demonstration of the search process

    3.3 實(shí)驗(yàn)結(jié)果分析

    3.3.1 可行性實(shí)驗(yàn)結(jié)果及分析

    可行性實(shí)驗(yàn)中各組方案的實(shí)驗(yàn)結(jié)果如表3所示。由實(shí)驗(yàn)結(jié)果可知,本文方法具有最優(yōu)的性能,包括任務(wù)成功率以及任務(wù)完成速度。在任務(wù)過(guò)程中,POMDP的求解一般只存在兩種結(jié)果,成功求解或循環(huán)重復(fù)兩個(gè)動(dòng)作。本實(shí)驗(yàn)中未成功的實(shí)驗(yàn)組,大部分是因?yàn)槌鰧?shí)驗(yàn)設(shè)置的最大動(dòng)作數(shù)。

    分析nPOMDP的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),由于其未對(duì)無(wú)法觀測(cè)的物體狀態(tài)進(jìn)行修正,導(dǎo)致初次采樣獲得的信息有限,故其任務(wù)完成速度沒(méi)有太好的表現(xiàn),同時(shí)表現(xiàn)出最低的任務(wù)成功率。由此可以看出狀態(tài)空間修正的可行性以及優(yōu)越性。由于本文方法對(duì)場(chǎng)景的狀態(tài)、動(dòng)作以及觀測(cè)空間進(jìn)行了抽象提取,優(yōu)化了算法的計(jì)算效率,故即便是任務(wù)成功率最低的nPOM-DP,也有相對(duì)良好的完成速度表現(xiàn)。

    表3可行性實(shí)驗(yàn)結(jié)果Tab.3Feasibility experiment results

    由于該實(shí)驗(yàn)對(duì)動(dòng)作閾值的限制較為寬松,兩組貪心抓取方案均具有相對(duì)穩(wěn)定的任務(wù)成功率,但粗暴的解決方式導(dǎo)致了較差的時(shí)間性能以及動(dòng)作效率,不適合對(duì)工作效率要求較高的場(chǎng)景。其最大動(dòng)作數(shù)由最大物體數(shù)決定,因?yàn)檩^大的物體數(shù)量使得目標(biāo)物體被遮擋的概率增大,基本需要將上方物體移開(kāi)才能搜索到目標(biāo)物體。在本實(shí)驗(yàn)中,機(jī)器人執(zhí)行動(dòng)作帶來(lái)的能耗反映在執(zhí)行的動(dòng)作數(shù)上。在實(shí)際工況中,過(guò)多無(wú)用動(dòng)作帶來(lái)的能耗在一些執(zhí)行時(shí)間長(zhǎng)、任務(wù)量大的工作中會(huì)被不斷放大,故無(wú)論是性能還是能耗,本文方法均具有相對(duì)更好的表現(xiàn)。

    3.3.2綜合性能實(shí)驗(yàn)結(jié)果及分析

    綜合性能實(shí)驗(yàn)中各組方案的實(shí)驗(yàn)結(jié)果如表4所示。由實(shí)驗(yàn)結(jié)果可知,在堆疊場(chǎng)景中,本文方法具有較優(yōu)的綜合性能表現(xiàn)。在該組實(shí)驗(yàn)中,主要體現(xiàn)在算法的求解速度和任務(wù)成功率上。

    表4綜合性能實(shí)驗(yàn)結(jié)果Tab.4Comprehensive performance experimental results

    DESPOT是基于優(yōu)化POMCP設(shè)計(jì)的在線POMDP求解器,利用一種確定的稀疏部分觀測(cè)樹(shù)[22],能夠在相對(duì)少的抽樣下評(píng)估策略,避免POMCP中極差的情況出現(xiàn),在一些大型POMDP問(wèn)題的求解上有著極佳的表現(xiàn),是目前較為常用的求解算法。但在該組實(shí)驗(yàn)中,受限于動(dòng)作閾值,部分任務(wù)無(wú)法完成。通過(guò)分析任務(wù)過(guò)程中的日志可以發(fā)現(xiàn),成功率低的主要原因在于該場(chǎng)景的信息有效性不足,導(dǎo)致信念狀態(tài)所反映的目標(biāo)物體所在位置的概率于真實(shí)情況不符。同樣的情況也發(fā)生在ADVT的實(shí)驗(yàn)中。ADVT在MCTS的基礎(chǔ)上,采用了一種稱為Voronoi樹(shù)的結(jié)構(gòu)來(lái)對(duì)動(dòng)作空間進(jìn)行自適應(yīng)離散化[22],以提高連續(xù)高維動(dòng)作空間下的求解性能,但對(duì)于求解性能的優(yōu)化在本實(shí)驗(yàn)中未能彌補(bǔ)信息缺失帶來(lái)的影響。而該問(wèn)題在SP-POMDP中已通過(guò)狀態(tài)空間修正被消除,故在任務(wù)成功率上均略遜于本文方法。

    PA-POMCP同樣是對(duì)POMCP的一個(gè)擴(kuò)展。該方法在建模過(guò)程中考慮了針對(duì)物體不同遮擋程度的擴(kuò)展性,故相較于DESPOT與ADVT,其對(duì)任務(wù)中出現(xiàn)完全遮擋對(duì)象的情況具有一定的魯棒性。除此之外,該方法在求解器中引入了動(dòng)作空間參數(shù)化的操作[12]來(lái)加快求解。從實(shí)驗(yàn)結(jié)果可以看出,PA-POMCP具有較優(yōu)的求解速度。由于本文方法的求解器主要基于POMCP,與目前的主流求解器在效率上沒(méi)有優(yōu)勢(shì)。但在建模過(guò)程中對(duì)于求解過(guò)程中狀態(tài)存儲(chǔ)的一些優(yōu)化設(shè)計(jì),使得本文方法在數(shù)據(jù)處理時(shí)具有更佳的效率,故從輸出策略動(dòng)作的整個(gè)規(guī)劃周期上比較,本文方法具備最佳的表現(xiàn)。

    4結(jié)束語(yǔ)

    本文提出了一種針對(duì)堆疊場(chǎng)景的POMDP建模方法,能夠在考慮物體相互遮擋的情況下,對(duì)無(wú)法觀測(cè)物體的狀態(tài)進(jìn)行修正,減小系統(tǒng)部分可觀測(cè)性對(duì)常規(guī)抓取任務(wù)規(guī)劃的影響。并基于POMCP,設(shè)計(jì)了所提模型的求解算法。實(shí)驗(yàn)結(jié)果表明,本文方法在針對(duì)堆疊物體的機(jī)器人抓取任務(wù)規(guī)劃問(wèn)題中具有良好的表現(xiàn)。與現(xiàn)有方法相比,本文方法主要的優(yōu)勢(shì)與創(chuàng)新在以下幾個(gè)方面:a)提出了一種狀態(tài)空間修正方法,一定程度上消除了環(huán)境的不確定性與部分可觀測(cè)性;b)利用創(chuàng)新的順序棧來(lái)維護(hù)系統(tǒng)狀態(tài)屬性,使得算法對(duì)其的訪問(wèn)及操作更加靈活;c)在POMCP的基礎(chǔ)上,設(shè)計(jì)了適應(yīng)于該模型的求解算法,使用了基于優(yōu)先級(jí)的動(dòng)作選擇策略,避免了結(jié)果過(guò)擬合,并簡(jiǎn)化了算法的計(jì)算規(guī)模,加快了模型的求解。本文方法在計(jì)算效率上的良好表現(xiàn)使其在實(shí)際工程應(yīng)用中具備一定的優(yōu)勢(shì)。本文方法雖然基于堆疊場(chǎng)景,但又不局限于該場(chǎng)景,狀態(tài)空間修正函數(shù)在一些環(huán)境固有特性相對(duì)易得的場(chǎng)景,如定量物體的搜索問(wèn)題中仍具備一定優(yōu)勢(shì)。后續(xù)需要針對(duì)場(chǎng)景特性調(diào)整狀態(tài)空間修正函數(shù),如采用基于概率的模型來(lái)進(jìn)行狀態(tài)空間的修補(bǔ),擴(kuò)大本文方法的應(yīng)用范圍。

    參考文獻(xiàn):

    [1]Lauri M,HsuD,PajarinenJ.PartiallyobservableMarkovdecisionprocesses in robotics:a survey[J].IEEE Trans on Robotics,2023,39(1):21-40.

    [2]MonsóP,Alenya G,TorrasC.POMDPapproach to robotizedclothesseparation[C]//Proc of IEEE/RSJ International Conference on In-telligentRobotsand Systems.Piscataway,NJ:IEEEPress,2012:1324-1329.

    [3]徐進(jìn),柳寧,李德平,等.一種基于抓取簇和碰撞體素的工業(yè)零件抓取姿態(tài)檢測(cè)算法[J].機(jī)器人,2022,44(2):153-166.(XuJin,LiuNing,LiDeping,etal.Agraspingposesdetectionalgorithmfor industrial workpieces based on grasping cluster and collision voxels[J].Robot,2022,44(2):153-166.)

    [4]薛騰,劉文海,潘震宇,等.基于視覺(jué)感知和觸覺(jué)先驗(yàn)知識(shí)學(xué)習(xí)的機(jī)器人穩(wěn)定抓取[J].機(jī)器人,2021,43(1):1-8.(XueTeng,LiuWenhai,Pan Zhenyu,et al.Stable robotic graspbased onvisual perceptionand prior tactileknowledge learning[J].Robot,2021,43(1):1-8.)

    [5]Duan Shengqi,Tian Guohui,Wang Zhongli,et al.A semantic roboticgrasping framework based on multi-task learning in stacking scenes[J].EngineeringApplicationsofArtificial Intelligence,2023,121:106059.

    [6]馬倩倩,李曉娟,施智平.輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器人抓取檢測(cè)研究[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(10):141-148.(MaQianqian,Li Xiaojuan,Shi Zhiping.Research onlight-weight convo-lutional neural network for robotic grasp detection [J].ComputerEngineering and Applications,2020,56(10):141-148.)

    [7]李鑫,沈捷,曹愷,等.深度強(qiáng)化學(xué)習(xí)的機(jī)械臂密集場(chǎng)景多物體抓取方法[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(23):325-332.(LiXin,ShenJie,Cao Kai,etal.Deepreinforcement learning formanipulator multi-object grasping in dense scenes [J].ComputerEngineering and Applications,2024,60(23):325-332.)

    [8].Hsiao K,KaelblingLP,Lozano-Perez T. Grasping POMDPs[C]//Proc of IEEE International Conference on Robotics and Automation.Piscataway,NJ: IEEE Press,2007:4685-4692.

    [9]Hsiao K,Lozano-Pérez T, Kaelbling L P. Robust belief-based execu-tion of manipulation programs[C]//Proc of the 8th InternationalWorkshop ontheAlgorithmic Foundations of Robotics.Cham:Springer,2008.

    [10]Pajarinen J,Kyrki V.Roboticmanipulationof multipleobjectsasaPOMDP[J].Artificial Intelligence,2017,247:213-228.

    [11]Li Juekun,Hsu D,Lee W S. Act to see and see to act: pomdp plan-ning for objects search in clutter[C]//Proc of IEEE/RSJ Interna-tional ConferenceonIntellgentRobotsand Systems.Piscataway,NJ:IEEEPress,2016:5701-5707.

    [12]Xiao Yuchen,Katt S,Pas A,et al.Online planning for target objectsearch in clutter under partial observability[C]//Proc of InternationalConference on Roboticsand Automation.Piscataway,NJ:IEEEPress ,2019: 8241-8247.

    [13]Pajarinen J,Kyrki V.Robotic manipulation in object compositionspace[C]//Proc of IEEE/RSJ Intermational Conference on Inteli-gent Robots and Systems.Piscataway,NJ: IEEE Press,2014:1-6.

    [14]Pajarinen J,Lundell J,Kyrki V.POMDP planning under object com-position uncertainty:application to robotic manipulation[J].IEEETrans on Robotics,2023,39(1) :41-56.

    [15] Zhao Wenrui, Chen Weidong.Hierarchical POMDP planning forob-ject manipulation in clutter[J].Robotics and Autonomous Sys-tems,2021,139:103736.

    [16]Chen Z.Bayesian filtering:from Kalman filters to particle filters,andbeyond[J].Statistics,2003,182(1):1-69.

    [17]Bellman R.Dynamic programming [J]. Science,1966,153(3731) : 34-37.

    [18]朱榮鑫,王鐶,劉峰,等.基于環(huán)境狀態(tài)分布優(yōu)化的POMDP值迭代求解算法[J].計(jì)算機(jī)應(yīng)用研究,2022,39(2):374-378.(Zhu Rongxin,Wang Xuan,Liu Feng,et al. Probability-based valueiteration on optimal state distribution algorithm for POMDP[J].ApplicationResearch ofComputers,2022,39(2):374-378.)

    [19]朱舟,閔華松.利用統(tǒng)計(jì)數(shù)據(jù)并行蒙特卡羅樹(shù)搜索算法的中國(guó)象棋博弈[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(23):340-348.(ZhuZhou,Min Huasong. Chinese chess game using statistical data paral-lel Monte Carlo tree search algorithm[J].Computer Engineeringand Applications,2024,60(23): 340-348.)

    [20]Silver D,Veness J. Monte-Carlo planning in large POMDPs[C]//Advances in Neural Information Processing Systems.2010:2164-2172.

    [21]Auer P,Cesa-Bianchi N,F(xiàn)ischer P.Finite-time analysis of the mul-tiarmed bandit problem[J].Machine Learning,2002,47(2):235-256.

    [22]Ye Nan,Somani A,Hsu D,et al.DESPOT:online POMDP plan-ning with regularization [J].Journal of Artificial Intellgence Re-search,2017,58:231-266.

    [23]Hoerger M,Kurniawati H,Kroese D,etal.Adaptive discretizationusing voronoi trees for continuous-action POMDPs[M]//LaValle SM,O'kane JM,Ote M,et al.Algorithmic Foundations of RoboticsXV.Cham: Springer,2022:170-187.

    猜你喜歡
    信念物體觀測(cè)
    李志飛:當(dāng)所有人沉迷大模型時(shí)我看見(jiàn)了裂縫里的光
    大氣本底站 “感觸”地球的呼吸
    創(chuàng)業(yè)者先前經(jīng)驗(yàn)對(duì)眾創(chuàng)空間生態(tài)系統(tǒng)承諾的影響
    求解變力做功大小問(wèn)題的幾種方法
    例析動(dòng)力學(xué)中的兩類(lèi)傳送帶模型
    例析三類(lèi)動(dòng)力學(xué)中的臨界極值問(wèn)題
    “位置與方向”學(xué)法指導(dǎo)
    基于健康信念模式的早期功能鍛煉應(yīng)用于中老年膝關(guān)節(jié)置換術(shù)后患者的效果
    我科學(xué)家首次觀測(cè)到電場(chǎng)布賴特—拉比效應(yīng)
    歐洲極大望遠(yuǎn)鏡
    热re99久久精品国产66热6| 亚洲自偷自拍图片 自拍| 少妇 在线观看| 免费少妇av软件| 久久精品人人爽人人爽视色| 欧美亚洲 丝袜 人妻 在线| 菩萨蛮人人尽说江南好唐韦庄| 搡老乐熟女国产| 成年人午夜在线观看视频| 亚洲国产精品国产精品| 午夜福利在线免费观看网站| 欧美人与性动交α欧美精品济南到| 欧美少妇被猛烈插入视频| 热99国产精品久久久久久7| 嫩草影视91久久| 国产欧美日韩精品亚洲av| 亚洲激情五月婷婷啪啪| 亚洲精品国产色婷婷电影| www日本在线高清视频| 男人舔女人的私密视频| 岛国毛片在线播放| 国产成人av教育| 国产高清videossex| 五月天丁香电影| videos熟女内射| 大香蕉久久网| 免费在线观看黄色视频的| 国产一区二区 视频在线| 九色亚洲精品在线播放| 在线观看免费视频网站a站| 免费女性裸体啪啪无遮挡网站| 欧美人与性动交α欧美精品济南到| 在线观看国产h片| 五月天丁香电影| 午夜福利视频在线观看免费| 成年美女黄网站色视频大全免费| 中文精品一卡2卡3卡4更新| 亚洲中文日韩欧美视频| 每晚都被弄得嗷嗷叫到高潮| 五月开心婷婷网| 男人操女人黄网站| 一区二区三区四区激情视频| av线在线观看网站| 久久中文字幕一级| 日韩中文字幕视频在线看片| 女性被躁到高潮视频| 新久久久久国产一级毛片| 国产亚洲欧美在线一区二区| 一区二区av电影网| 免费一级毛片在线播放高清视频 | 老司机靠b影院| 亚洲欧美成人综合另类久久久| 国产成人一区二区三区免费视频网站 | 国产亚洲av高清不卡| 国产真人三级小视频在线观看| 亚洲精品国产av蜜桃| 国产亚洲av片在线观看秒播厂| 免费高清在线观看日韩| 久久精品国产亚洲av高清一级| 欧美日韩成人在线一区二区| 国产日韩一区二区三区精品不卡| 晚上一个人看的免费电影| 一二三四社区在线视频社区8| 国产女主播在线喷水免费视频网站| 欧美成狂野欧美在线观看| 中文字幕制服av| 两个人看的免费小视频| 女警被强在线播放| 国产欧美日韩综合在线一区二区| 中文字幕色久视频| 一级毛片女人18水好多 | 久久精品久久久久久久性| 黄色 视频免费看| 亚洲欧美激情在线| 飞空精品影院首页| 丝瓜视频免费看黄片| 久久久欧美国产精品| 日韩欧美一区视频在线观看| 欧美97在线视频| 国产午夜精品一二区理论片| 国产精品国产av在线观看| 国产成人系列免费观看| 午夜福利,免费看| 免费观看人在逋| 免费人妻精品一区二区三区视频| 午夜久久久在线观看| 亚洲av国产av综合av卡| 亚洲人成电影免费在线| 日韩av免费高清视频| 日韩av免费高清视频| 久久ye,这里只有精品| 黑人欧美特级aaaaaa片| 又黄又粗又硬又大视频| 国产片特级美女逼逼视频| 老汉色∧v一级毛片| 成年动漫av网址| 男人添女人高潮全过程视频| 九草在线视频观看| 国产av精品麻豆| 色网站视频免费| 欧美激情高清一区二区三区| 久久毛片免费看一区二区三区| 亚洲国产毛片av蜜桃av| 国产伦理片在线播放av一区| 亚洲中文av在线| 欧美日韩综合久久久久久| 视频区欧美日本亚洲| 久久久国产精品麻豆| 亚洲中文av在线| 国产精品秋霞免费鲁丝片| 看免费av毛片| 国产老妇伦熟女老妇高清| 黄网站色视频无遮挡免费观看| 久久狼人影院| 国产熟女欧美一区二区| 国产激情久久老熟女| 亚洲欧美日韩另类电影网站| 美女中出高潮动态图| 国产精品一区二区在线观看99| 欧美在线黄色| 成人国产一区最新在线观看 | 十八禁网站网址无遮挡| 久久国产精品大桥未久av| 1024视频免费在线观看| 视频区图区小说| 丰满人妻熟妇乱又伦精品不卡| 精品少妇久久久久久888优播| 韩国高清视频一区二区三区| 亚洲久久久国产精品| 久久人妻福利社区极品人妻图片 | 亚洲精品国产av成人精品| 亚洲精品日本国产第一区| 日韩免费高清中文字幕av| 校园人妻丝袜中文字幕| 色婷婷av一区二区三区视频| 18禁黄网站禁片午夜丰满| 波多野结衣一区麻豆| 精品国产一区二区三区久久久樱花| 考比视频在线观看| h视频一区二区三区| 在线观看一区二区三区激情| 久久精品国产a三级三级三级| 国产精品国产三级国产专区5o| 国产黄色视频一区二区在线观看| 女性被躁到高潮视频| 老司机深夜福利视频在线观看 | 亚洲 欧美一区二区三区| av一本久久久久| 国产麻豆69| 日韩大码丰满熟妇| 免费看十八禁软件| 免费女性裸体啪啪无遮挡网站| 久久天堂一区二区三区四区| 日本欧美视频一区| 十八禁高潮呻吟视频| 欧美黄色淫秽网站| 亚洲九九香蕉| 精品国产一区二区久久| 日日摸夜夜添夜夜爱| 国产日韩欧美视频二区| 国产深夜福利视频在线观看| 国产深夜福利视频在线观看| h视频一区二区三区| 视频在线观看一区二区三区| 国产99久久九九免费精品| 久久久久久久国产电影| 免费女性裸体啪啪无遮挡网站| 大片电影免费在线观看免费| 亚洲精品国产区一区二| 免费观看av网站的网址| 午夜久久久在线观看| 亚洲三区欧美一区| 午夜福利免费观看在线| 最新的欧美精品一区二区| 国产av精品麻豆| 中文乱码字字幕精品一区二区三区| 国产xxxxx性猛交| 中文字幕人妻丝袜制服| 可以免费在线观看a视频的电影网站| 亚洲成人手机| 欧美亚洲日本最大视频资源| 国产成人一区二区在线| 1024视频免费在线观看| 欧美另类一区| 手机成人av网站| 国产精品久久久人人做人人爽| 中国美女看黄片| 国产成人啪精品午夜网站| 少妇 在线观看| 亚洲第一青青草原| 国产一卡二卡三卡精品| 免费人妻精品一区二区三区视频| 久久久国产一区二区| 国产老妇伦熟女老妇高清| 亚洲第一av免费看| 国产精品av久久久久免费| 亚洲欧美成人综合另类久久久| 一级毛片女人18水好多 | 涩涩av久久男人的天堂| 国产亚洲欧美在线一区二区| 国产一区二区三区av在线| 亚洲成国产人片在线观看| 色播在线永久视频| 免费看av在线观看网站| 在线天堂中文资源库| 操美女的视频在线观看| 国产精品一二三区在线看| 亚洲,欧美,日韩| 久久99精品国语久久久| 女人久久www免费人成看片| 国产免费福利视频在线观看| 在线观看免费午夜福利视频| 中国国产av一级| 国产免费视频播放在线视频| 国产无遮挡羞羞视频在线观看| 尾随美女入室| 亚洲国产精品一区二区三区在线| 国产成人免费观看mmmm| 丁香六月欧美| 亚洲av综合色区一区| 国产主播在线观看一区二区 | 一级毛片我不卡| 赤兔流量卡办理| 日本一区二区免费在线视频| 午夜两性在线视频| 性色av乱码一区二区三区2| 国产人伦9x9x在线观看| 亚洲国产毛片av蜜桃av| 久9热在线精品视频| 人妻人人澡人人爽人人| 午夜影院在线不卡| 日韩伦理黄色片| 老司机亚洲免费影院| 熟女av电影| 日本vs欧美在线观看视频| 日韩 亚洲 欧美在线| 久久鲁丝午夜福利片| 99久久精品国产亚洲精品| 国产精品免费视频内射| 久久人妻福利社区极品人妻图片 | 国产三级黄色录像| 两个人看的免费小视频| 免费少妇av软件| 大香蕉久久成人网| 女性被躁到高潮视频| 99re6热这里在线精品视频| 一本—道久久a久久精品蜜桃钙片| 麻豆乱淫一区二区| 最近最新中文字幕大全免费视频 | 久久人妻福利社区极品人妻图片 | 视频区欧美日本亚洲| 国产精品免费大片| 精品人妻一区二区三区麻豆| 亚洲熟女精品中文字幕| 亚洲欧美中文字幕日韩二区| 丝袜美腿诱惑在线| 一级毛片女人18水好多 | 91老司机精品| 美女中出高潮动态图| av福利片在线| 水蜜桃什么品种好| 国产亚洲精品久久久久5区| 久久人人爽av亚洲精品天堂| 国产成人系列免费观看| 国产极品粉嫩免费观看在线| 性色av一级| 亚洲七黄色美女视频| 日日夜夜操网爽| 久久毛片免费看一区二区三区| 精品一区二区三区四区五区乱码 | 久久女婷五月综合色啪小说| 国产精品一区二区免费欧美 | 欧美日韩亚洲综合一区二区三区_| 国产高清国产精品国产三级| 男人添女人高潮全过程视频| e午夜精品久久久久久久| 欧美成人午夜精品| 亚洲七黄色美女视频| av国产精品久久久久影院| 国产主播在线观看一区二区 | 亚洲人成网站在线观看播放| 国产成人免费观看mmmm| 久久久久久人人人人人| 大香蕉久久成人网| 国产精品一区二区精品视频观看| 日本a在线网址| 黄色怎么调成土黄色| 久久精品aⅴ一区二区三区四区| 99热国产这里只有精品6| 亚洲五月色婷婷综合| 夫妻性生交免费视频一级片| 亚洲精品一卡2卡三卡4卡5卡 | 99精国产麻豆久久婷婷| 色视频在线一区二区三区| 精品人妻一区二区三区麻豆| 午夜老司机福利片| 丝袜在线中文字幕| 成人手机av| 97人妻天天添夜夜摸| 成人亚洲欧美一区二区av| 校园人妻丝袜中文字幕| kizo精华| 中文字幕色久视频| 十八禁高潮呻吟视频| 久久久亚洲精品成人影院| 亚洲欧美一区二区三区久久| 国产精品九九99| av一本久久久久| 无遮挡黄片免费观看| 最新的欧美精品一区二区| 免费在线观看视频国产中文字幕亚洲 | 一区福利在线观看| 一本—道久久a久久精品蜜桃钙片| 亚洲精品国产av蜜桃| 国产女主播在线喷水免费视频网站| 亚洲中文日韩欧美视频| 亚洲国产日韩一区二区| 搡老乐熟女国产| 日韩电影二区| 久久久久久亚洲精品国产蜜桃av| 97在线人人人人妻| 99精品久久久久人妻精品| 一二三四在线观看免费中文在| 免费女性裸体啪啪无遮挡网站| 丁香六月欧美| 黄色一级大片看看| 亚洲精品久久午夜乱码| 亚洲第一青青草原| www.熟女人妻精品国产| 波多野结衣av一区二区av| av福利片在线| 亚洲精品成人av观看孕妇| 大型av网站在线播放| 精品高清国产在线一区| 黄色一级大片看看| 黄色怎么调成土黄色| 国产一卡二卡三卡精品| 欧美大码av| 人妻 亚洲 视频| 亚洲免费av在线视频| 欧美日韩亚洲高清精品| 亚洲色图 男人天堂 中文字幕| 一级a爱视频在线免费观看| 一级毛片黄色毛片免费观看视频| 丁香六月欧美| 亚洲精品美女久久av网站| √禁漫天堂资源中文www| 无遮挡黄片免费观看| 黄色片一级片一级黄色片| 热re99久久精品国产66热6| 欧美精品人与动牲交sv欧美| 下体分泌物呈黄色| 亚洲av欧美aⅴ国产| 一区二区三区乱码不卡18| 国产亚洲欧美在线一区二区| 91老司机精品| 亚洲av美国av| 国产日韩一区二区三区精品不卡| 91麻豆精品激情在线观看国产 | 国产在视频线精品| 老司机影院毛片| 亚洲 欧美一区二区三区| 亚洲成人国产一区在线观看 | 久久鲁丝午夜福利片| 91老司机精品| 亚洲男人天堂网一区| 免费av中文字幕在线| 国产一区有黄有色的免费视频| 两人在一起打扑克的视频| 亚洲专区中文字幕在线| 欧美日韩一级在线毛片| 久久久久久久大尺度免费视频| 国产黄频视频在线观看| 国产精品一二三区在线看| 这个男人来自地球电影免费观看| 亚洲中文字幕日韩| 午夜av观看不卡| 亚洲三区欧美一区| 久久九九热精品免费| 亚洲欧美日韩另类电影网站| 亚洲av国产av综合av卡| 欧美日韩精品网址| 人成视频在线观看免费观看| 色婷婷久久久亚洲欧美| 日本a在线网址| 亚洲精品国产av成人精品| 欧美日韩亚洲综合一区二区三区_| 午夜91福利影院| 大陆偷拍与自拍| 国产成人免费无遮挡视频| 在线天堂中文资源库| 亚洲欧美日韩高清在线视频 | 在线观看人妻少妇| 亚洲成国产人片在线观看| 精品亚洲成a人片在线观看| 午夜老司机福利片| 精品亚洲乱码少妇综合久久| 18禁黄网站禁片午夜丰满| 亚洲国产成人一精品久久久| 久久这里只有精品19| 乱人伦中国视频| bbb黄色大片| 999久久久国产精品视频| 99香蕉大伊视频| 悠悠久久av| 国产一区二区三区av在线| 日韩中文字幕欧美一区二区 | 国产爽快片一区二区三区| 日本一区二区免费在线视频| 新久久久久国产一级毛片| 桃花免费在线播放| 亚洲国产看品久久| 国产亚洲午夜精品一区二区久久| 久久久精品免费免费高清| √禁漫天堂资源中文www| 久久亚洲精品不卡| 激情五月婷婷亚洲| 国产午夜精品一二区理论片| 91老司机精品| 亚洲av日韩精品久久久久久密 | 国产91精品成人一区二区三区 | xxx大片免费视频| 巨乳人妻的诱惑在线观看| 一边亲一边摸免费视频| 亚洲视频免费观看视频| 亚洲国产精品一区三区| 男女床上黄色一级片免费看| 脱女人内裤的视频| 黑丝袜美女国产一区| 欧美人与性动交α欧美软件| 亚洲欧美精品自产自拍| av在线播放精品| 成人午夜精彩视频在线观看| 中文字幕最新亚洲高清| 午夜免费观看性视频| 少妇人妻久久综合中文| 男女边吃奶边做爰视频| 亚洲一卡2卡3卡4卡5卡精品中文| 亚洲欧美精品综合一区二区三区| 亚洲激情五月婷婷啪啪| 亚洲欧美激情在线| 国产一区二区三区av在线| 亚洲精品第二区| 久久免费观看电影| 日韩一区二区三区影片| 免费在线观看黄色视频的| 三上悠亚av全集在线观看| 国产国语露脸激情在线看| av线在线观看网站| 桃花免费在线播放| 精品一区二区三卡| av一本久久久久| a级片在线免费高清观看视频| 久久国产精品人妻蜜桃| 亚洲精品美女久久av网站| 啦啦啦在线免费观看视频4| 大香蕉久久网| netflix在线观看网站| 最近中文字幕2019免费版| 在现免费观看毛片| 欧美精品人与动牲交sv欧美| 亚洲熟女毛片儿| 欧美成狂野欧美在线观看| 亚洲国产欧美日韩在线播放| 国产成人一区二区三区免费视频网站 | 老汉色∧v一级毛片| 国产黄频视频在线观看| 午夜视频精品福利| 亚洲国产av影院在线观看| 男女午夜视频在线观看| av网站在线播放免费| 国产av一区二区精品久久| 亚洲国产精品一区三区| 国产精品九九99| netflix在线观看网站| videosex国产| 天天躁日日躁夜夜躁夜夜| 男女之事视频高清在线观看 | 天天添夜夜摸| 亚洲自偷自拍图片 自拍| 永久免费av网站大全| 久热爱精品视频在线9| 后天国语完整版免费观看| 亚洲伊人色综图| 啦啦啦在线观看免费高清www| a级片在线免费高清观看视频| 日日爽夜夜爽网站| 性色av乱码一区二区三区2| a 毛片基地| 国产精品国产三级专区第一集| 老司机靠b影院| 亚洲欧美成人综合另类久久久| 丁香六月天网| 日本猛色少妇xxxxx猛交久久| 国产又色又爽无遮挡免| 日日爽夜夜爽网站| 久久精品国产亚洲av高清一级| 秋霞在线观看毛片| 国产成人一区二区三区免费视频网站 | 大香蕉久久网| 高清欧美精品videossex| 精品福利永久在线观看| 精品福利观看| 成年人黄色毛片网站| 97在线人人人人妻| 欧美中文综合在线视频| 久久天堂一区二区三区四区| 91精品伊人久久大香线蕉| 欧美激情高清一区二区三区| 国产精品免费视频内射| 欧美人与性动交α欧美精品济南到| av线在线观看网站| 熟女少妇亚洲综合色aaa.| 欧美人与善性xxx| 精品国产国语对白av| 欧美精品人与动牲交sv欧美| 国产高清视频在线播放一区 | 校园人妻丝袜中文字幕| 成人亚洲欧美一区二区av| 美女国产高潮福利片在线看| 中文欧美无线码| 亚洲 国产 在线| av又黄又爽大尺度在线免费看| 久久久欧美国产精品| 脱女人内裤的视频| 大话2 男鬼变身卡| 欧美日韩黄片免| 日本vs欧美在线观看视频| 80岁老熟妇乱子伦牲交| 国产成人a∨麻豆精品| 亚洲七黄色美女视频| 国产精品国产三级国产专区5o| 精品国产乱码久久久久久小说| 波多野结衣av一区二区av| 久久久精品94久久精品| videosex国产| 一二三四在线观看免费中文在| 免费在线观看黄色视频的| 国产在线观看jvid| 两个人看的免费小视频| 欧美激情高清一区二区三区| 秋霞在线观看毛片| 国产成人91sexporn| 国产精品久久久人人做人人爽| 午夜福利视频精品| 高清黄色对白视频在线免费看| 性色av一级| 99久久精品国产亚洲精品| 人妻 亚洲 视频| 脱女人内裤的视频| 亚洲欧美精品自产自拍| 亚洲精品中文字幕在线视频| 操美女的视频在线观看| 午夜福利,免费看| 欧美乱码精品一区二区三区| 国产成人精品无人区| 少妇粗大呻吟视频| 一级片'在线观看视频| 黄片小视频在线播放| 欧美乱码精品一区二区三区| 视频在线观看一区二区三区| www.自偷自拍.com| 狂野欧美激情性xxxx| 久久av网站| 美国免费a级毛片| 久久精品亚洲av国产电影网| 国产亚洲精品第一综合不卡| 91老司机精品| 中文字幕另类日韩欧美亚洲嫩草| 久久久久久免费高清国产稀缺| 99香蕉大伊视频| 老熟女久久久| 制服人妻中文乱码| 中文字幕另类日韩欧美亚洲嫩草| 97精品久久久久久久久久精品| 丝袜人妻中文字幕| 老汉色∧v一级毛片| av网站在线播放免费| 久久久久精品人妻al黑| 老司机深夜福利视频在线观看 | 亚洲国产精品一区三区| 少妇裸体淫交视频免费看高清 | 国产精品一区二区精品视频观看| 少妇人妻 视频| 免费看不卡的av| 夜夜骑夜夜射夜夜干| 嫁个100分男人电影在线观看 | 丰满人妻熟妇乱又伦精品不卡| 看十八女毛片水多多多| 亚洲精品日本国产第一区| 国产极品粉嫩免费观看在线| 亚洲人成网站在线观看播放| 国产在视频线精品| 后天国语完整版免费观看| 青春草视频在线免费观看| 久久国产亚洲av麻豆专区| 汤姆久久久久久久影院中文字幕| 午夜福利视频在线观看免费| av国产精品久久久久影院| 亚洲激情五月婷婷啪啪| videos熟女内射| 亚洲精品久久午夜乱码| 久久免费观看电影| 国产日韩欧美亚洲二区| 国产成人av激情在线播放| 精品福利永久在线观看| 亚洲精品一区蜜桃| 青青草视频在线视频观看| 国产精品久久久久久人妻精品电影 | 人人澡人人妻人| 在线看a的网站| 好男人电影高清在线观看| 国产高清国产精品国产三级| 亚洲七黄色美女视频| 久久人人97超碰香蕉20202|