• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    POMDPs算法復(fù)雜度對比分析研究*

    2013-11-27 08:15:44鄭紅燕馮延蓬
    關(guān)鍵詞:策略

    仵 博,鄭紅燕,馮延蓬

    (深圳職業(yè)技術(shù)學(xué)院 教育技術(shù)與信息中心,廣東 深圳 518055)

    在人工智能領(lǐng)域,規(guī)劃和決策是許多問題的核心.在連續(xù)的時間片上,對于規(guī)定的問題,智能體通過選擇合適的動作序列來完成既定目標(biāo),這種決策稱之為序貫決策,這個過程稱之為序貫決策過程.在序貫決策過程中,智能體必須在貪婪獲取短期目標(biāo)與長期規(guī)劃之間做出平衡[1].部分可觀察馬爾可夫決策過程[2](Partially Observable Markov Decision Processes,POMDPs)是智能體在動態(tài)不確定環(huán)境下進(jìn)行序貫決策的一種理想數(shù)學(xué)模型.因此,動態(tài)不確定環(huán)境下的智能體序貫決策問題可以看成 POMDPs的求解問題.由于POMDPs能夠更加客觀地、準(zhǔn)確地描述真實世界,使它成為研究隨機(jī)決策過程的重要分支,最近成為計算機(jī)、控制和管理等學(xué)科研究的熱點[3].

    綜述現(xiàn)有算法,按照年代劃分,可大致分為兩個階段.第一階段(20世紀(jì)末),主要是精確求解算法[4],代表算法為 Witness算法和 Incremental Pruning算法.第二階段(21世紀(jì)初),主要是近似求解算法,可再分為在線求解算法和離線求解算法.在線近似算法主要是樹查找算法[5],將POMDPs看成智能體與環(huán)境之間的博弈,在每一個信念狀態(tài)結(jié)點,智能體必須選擇一個動作,然后環(huán)境隨機(jī)選擇下一時刻的觀察,在給定的深度內(nèi),通過查找獲得最佳動作.樹查找算法可分為蒙特卡羅采樣算法、分支界限裁剪算法和啟發(fā)式搜索算法.離線求解算法主要分值函數(shù)近似算法、策略近似算法、基于網(wǎng)格近似算法和分層近似算法等.值函數(shù)近似算法分為完全觀察 MDP近似算法和基于點的近似算法[6].由于基于點的近似算法符合人類認(rèn)識世界的規(guī)律,因此,最近幾年得到眾多學(xué)者的重視.基于點的算法主要思想是在給定的信念狀態(tài)點上更新整個a - vector ,可分為分批處理更新和異步更新.但是,現(xiàn)有算法都陷入“維數(shù)災(zāi)”和“歷史災(zāi)”問題,造成理想的POMDPs模型無法在實際工程中得到應(yīng)用.本文首先詳細(xì)分析POMDPs精確算法的復(fù)雜度,指出造成兩個“維數(shù)災(zāi)”的原因;然后介紹基于點的離線算法的算法思想和求解過程,分析比較現(xiàn)有算法的時間復(fù)雜度和各自的信念點采集和更新方法;接著介紹基于在線算法的思想和理論基礎(chǔ),實驗分析現(xiàn)有算法的優(yōu)劣;最后簡介POMDPs的應(yīng)用情況,指出信念狀態(tài)空間有效降維以及基于點的離線算法與在線算法的有機(jī)結(jié)合將是解決POMDPs2個“維數(shù)災(zāi)”難題的有效方法.

    1 POMDPs模型

    在文中,除特殊說明外,上標(biāo)代表時間,下標(biāo)代表集合中的具體實例,例如 si代表狀態(tài)集合中的第i個狀態(tài);st代表t時刻的狀態(tài); P(st=si)代表t時刻狀態(tài)為 si時的概率.有時根據(jù)描述問題的需要,沒有上下標(biāo)的表示當(dāng)前時刻的變量,上標(biāo)是'的表示下一時刻的變量,例如s表示當(dāng)前時刻的狀態(tài);而 s '表示下一時刻的狀態(tài).

    POMDPs通常用六元組來描述[7],其序貫決策示意圖如圖1所示.狀態(tài)集合S={s1,s2,s3,...,sn},動作集合A={ a1,a2,a3,...,am},觀察集合Z={z1,z2,z3,...,zl},分別表示Agent所有可能的狀態(tài)、動作和觀察.狀態(tài)轉(zhuǎn)移函數(shù)集合T(si,a,sj)=P(sj|si,a),是Agent在狀態(tài) si下采用動作a,可能轉(zhuǎn)移到狀態(tài) sj的概率.狀態(tài)轉(zhuǎn)移函數(shù)滿足馬爾可夫特性,即公式(1)成立.

    由于狀態(tài)轉(zhuǎn)移函數(shù)是完全條件概率分布,即公式

    (2)成立.

    觀察函數(shù)集合O(si,aj,zk)=P(zk|si,aj),當(dāng)Agent在狀態(tài) si下采用動作 aj,觀察為 zk的概率,報酬函數(shù)集合R:S′A′ZaR,R為負(fù)值時是損失,為正值時是報酬.

    圖1 POMDPs模型

    t時刻的信念狀態(tài)B由公式(3)來描述,由公式(4)來計算.

    使用Bellman公式計算POMDPs的值函數(shù)V和策略p,計算如下:

    POMDPs決策的策略是將信念狀態(tài)映射到動作,同時滿足使智能體選擇的動作能夠獲得環(huán)境報酬的累計值最大.其中,g為折扣因子,其目標(biāo)是讓期望值收斂.

    最優(yōu)策略*p是使折扣報酬值和的期望值最大.

    其中,rt為指數(shù),(bt)表示在t時刻的動作,為- ve ctor集合.

    在POMDPs中最優(yōu)策略是從所有的信念狀態(tài)中選取一個動作使得期望值最大,信念狀態(tài)空間為其中,R的大小為因此,求解信念狀態(tài)空間是一個“維數(shù)災(zāi)”問題.

    Sondik[8]證明任何t時間段的值函數(shù)可以用來表示,每一個維的超平面.在每個信念狀態(tài)上的值函數(shù)定義如下:

    每一個a-vector對應(yīng)著一個最優(yōu)策略,每一個策略對應(yīng)一個動作.t時間段的-vector集合可以定義如下:

    由于信念狀態(tài)空間很大,值函數(shù) Vt(b)無法直接計算,但是與之相對應(yīng)的可以由來迭代計算.精確求解算法如下:

    2 基于點的離線算法

    基于點的值迭代算法主要思想:根據(jù)誤差判定條件,給出固定的有限可達(dá)信念狀態(tài)集合在B上進(jìn)行更新操作,避免對整個信念狀態(tài)空間單純體D進(jìn)行求解,從而在有限的誤差范圍內(nèi)快速求解.其中,對于每一個信念狀態(tài)點,值函數(shù)至多包含一個因此,基于點的值函數(shù)可以用與之相對應(yīng)的集合來表示.其主要步驟如下[9]:

    步驟 2:由于在有限信念狀態(tài)點上進(jìn)行更新操作,因此可以使用簡單的加法操作代替交叉和操作.

    終止條件可以是時間,可以是固定的迭代次數(shù),也可以是期望獲得的策略質(zhì)量等,主要根據(jù)實際應(yīng)用而定.在終止條件出現(xiàn)之前,可達(dá)信念狀態(tài)點的采集和信念狀態(tài)點的更新交替進(jìn)行.

    目前,基于點的值迭代算法主要的區(qū)別在于可達(dá)信念狀態(tài)點的采集,信念狀態(tài)點的更新操作基本相同.本節(jié)主要對現(xiàn)有的算法進(jìn)行復(fù)雜度分析,見表1.

    圖2 可達(dá)信念狀態(tài)樹

    表1 幾種經(jīng)典算法分析與比較

    PBVI和SARSOP是完全Backup操作,時間復(fù)雜度為其他更新算法時間復(fù)雜度都要小于完全Backup操作.它們之間的主要區(qū)別為信念點采集算法[6].從采集算法時間復(fù)雜度分析可知,Perseus算法和FSVI算法最優(yōu).

    與其他POMDPs近似求解算法相比較,基于點的 POMDPs算法具有較高的效率和較快的收斂.但是,無論使用何種基于點的POMDPs值迭代算法,都不可能在有限時間遍歷整個可達(dá)信念狀態(tài)空間.因而,離線算法只能夠適用于較小規(guī)模模擬問題,對于大規(guī)模實際問題中無法實現(xiàn)算法收斂.

    3 在線算法

    POMDPs離線算法是求解全局最優(yōu)策略或者全局近似最優(yōu)策略,分為策略規(guī)劃和策略執(zhí)行兩個階段.在線算法是求解當(dāng)前最優(yōu)策略或者當(dāng)前近似最優(yōu)策略,它根據(jù)時間約束條件,將整個策略規(guī)劃和策略執(zhí)行分成若干個小的規(guī)劃和執(zhí)行.由于在線算法只考慮當(dāng)前信念狀態(tài)空間下的最優(yōu)策略,因此,可達(dá)信念狀態(tài)空間很小,利用已有的基于點的迭代算法可以很快求解值函數(shù).兩類算法的比較如圖3所示.

    圖3 在線與離線方法比較

    在線算法將整個決策周期分為若干個小的時間片,每個時間片內(nèi)分別進(jìn)行策略規(guī)劃和策略執(zhí)行.在規(guī)劃階段,根據(jù)當(dāng)前信念狀態(tài)計算出最優(yōu)執(zhí)行動作,可分為兩個步驟.第一步是建立可達(dá)信念狀態(tài)與或樹(AND-OR Tree),如圖2所示.在與或樹中,根節(jié)點為當(dāng)前信念狀態(tài),孩子節(jié)點為可達(dá)信念狀態(tài)點,可達(dá)信念狀態(tài)點使用公式(4)來計算.信念結(jié)點為OR結(jié)點,其輸出弧權(quán)重為 RB(b,a).兩層信念點之間的結(jié)點為 AND結(jié)點,其輸出弧權(quán)重為 P (z|b,a).第二步是使用公式(6)計算當(dāng)前信念狀態(tài)的值函數(shù),計算過程是通過邊緣結(jié)點的向上傳播算法實現(xiàn).在執(zhí)行階段,根據(jù)當(dāng)前的信念狀態(tài)執(zhí)行最優(yōu)動作,并根據(jù)觀察更新當(dāng)前信念狀態(tài)和與或樹.

    定理1的證明參見文獻(xiàn)[5].從圖1與或樹可知,評估可達(dá)信念狀態(tài)的時間復(fù)雜度為由于 g ? [ 0,1),當(dāng)D?¥時,定理 1的誤差將收斂到 0.因此,在線算法與離線算法的區(qū)別在于D的取值.在線算法對時間要求很苛刻,遍歷所有的可達(dá)信念狀態(tài)點是不可能的.需要在盡可能長地遍歷信念狀態(tài)點使誤差盡可能小與盡可能快地求解近似最優(yōu)解之間做出權(quán)衡.因此,在線算法必須對可達(dá)信念狀態(tài)點進(jìn)行裁剪,使之對策略求解最有用.目前存在三類在線算法:蒙特卡羅采樣算法、分支界限裁剪算法和啟發(fā)式搜索算法.

    評價在線算法主要有2個指標(biāo),一個是要滿足系統(tǒng)實時性的要求,盡可能快地求解近似最策略;另一個是滿足誤差最小化目標(biāo),盡可能降低平均折扣報酬值與原始報酬值之間的誤差.針對第二個評價指標(biāo),本文采用文獻(xiàn)[5]的誤差分析方法論,定義誤差降低比率EBR(b)和下界誤差值LBI(b).最佳的在線算法應(yīng)該是使EBR(b)和LBI(b)平均值最大的算法.其中,在與或樹T上定義(b)的上下界分別為UT(b)和 LT(b),定義邊緣結(jié)點集合 F (T)的上下界分別為 U (b)和 L (b):

    本文實驗對象是RockSample[7,8][11],時間約束為每秒執(zhí)行一個動作,下界值計算統(tǒng)一采用 PBVI方法,上界值計算統(tǒng)一采用QMDP方法,這樣可以更加公平地評價算法本身的優(yōu)劣.表2的結(jié)果是經(jīng)過20次重復(fù)實驗,取它們的平均值.本文的仿真平臺為Matlab R2010a,運(yùn)行環(huán)境為32位Windows7,Intel(R) Core(TM) i3 CPU:3.07GHz,RAM:4GB.

    從表2可知,在報酬值指標(biāo)上,AEMS2[5]、BI-POMDPs[10]和 HSVI-BFS[11]3種算法基本相同.在EBR和LBI指標(biāo)上,AEMS2和HSVI-BFS兩種算法基本相同.信念狀態(tài)結(jié)點數(shù)主要是衡量算法的空間復(fù)雜度的,根據(jù)實驗結(jié)果可知,RTBSS算法最小,其他算法都比較大,主要原因在于RTBSS采用分支界限裁剪算法.在結(jié)點重用率指標(biāo)上,AEMS2最優(yōu),RTBSS算法每次計算都是重新計算,沒有重用已經(jīng)計算過的信念狀態(tài).在計算時間指標(biāo)上,RTBSS算法耗時較小,因為它計算的信念狀態(tài)點較少.

    表2 不同在線算法幾種參數(shù)的比較

    4 POMDPs應(yīng)用情況

    由于 POMDPs能夠客觀地描述真實世界模型,使其在實際中得到越來越廣泛的應(yīng)用,成為計算機(jī)、控制和管理等學(xué)科研究的熱點和難點.在科學(xué)應(yīng)用領(lǐng)域,科學(xué)家主要將其應(yīng)用到自主機(jī)器人控制上[12,13],例如:在太空中的漫步機(jī)器人、機(jī)器人導(dǎo)航、炸彈拆除、放射性廢物回收、深海探礦、管道網(wǎng)絡(luò)的檢修和維護(hù)等;在工業(yè)應(yīng)用領(lǐng)域[14],例如機(jī)器生產(chǎn)和維護(hù);在商業(yè)應(yīng)用領(lǐng)域,例如網(wǎng)絡(luò)故障查找和排除;在管理領(lǐng)域[15],管理最優(yōu)化問題;在醫(yī)療領(lǐng)域[16],醫(yī)療診斷;在軍事領(lǐng)域,例如:移動目標(biāo)的查找、跟蹤和拯救;目標(biāo)的辨認(rèn);武器的使用分配等.

    Wolf等人提出一種在線MC-RTBSS算法[17],該算法是基于蒙特卡羅采樣算法對觀察結(jié)點進(jìn)行裁剪,并在無人飛機(jī)導(dǎo)航上進(jìn)行應(yīng)用,實驗表明該算法就有良好的實時性.He等人提出一種基于后驗信念概率分布的在線PBD算法[18],該算法在科學(xué)探索和目標(biāo)監(jiān)控領(lǐng)域得到很好的應(yīng)用.Naveen等人將 POMDPs成功地應(yīng)用到無線傳感器網(wǎng)絡(luò)應(yīng)用中[19],使該系統(tǒng)具有較高的低碳、高穩(wěn)定性等特性.Zhang等人對POMDPs信念狀態(tài)空間進(jìn)行壓縮[20],降低求解問題的規(guī)模,并在治療前列腺上得到較好地應(yīng)用.

    5 未來研究方向

    目前,POMDPs規(guī)劃理論和算法雖然已經(jīng)取得了很多令人鼓舞的研究進(jìn)展,但對于實際工程中日益增加的復(fù)雜優(yōu)化決策問題,仍然需要在理論和算法方面開展創(chuàng)新研究,以進(jìn)一步提高算法在大規(guī)模連續(xù)空間問題中的快速收斂與泛化性能,并且在完善理論分析的同時,推進(jìn)POMDPs在實際系統(tǒng)中的廣泛應(yīng)用.其中,有待進(jìn)一步研究解決的重要課題包括:

    1)高維信念狀態(tài)空間有效降維理論和方法

    處理大規(guī)模高維數(shù)據(jù)是計算機(jī)技術(shù)發(fā)展的必然趨勢,探索高維數(shù)據(jù)的內(nèi)部特性,發(fā)掘其低維本質(zhì)表示是目前的研究方向.近十年來,《Science》和《Nature》雜志分別刊登多種高維降維新方法[21-27],推動了降維方法的研究與發(fā)展.針對高維信念狀態(tài)空間,目前的研究結(jié)果中結(jié)構(gòu)化分解是一種有效方法[28-30].然而,現(xiàn)有研究成果僅限于動態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)為已知條件下有效.對于復(fù)雜的模型不確定的動態(tài)系統(tǒng),其結(jié)構(gòu)往往是未知的,即狀態(tài)之間的獨立關(guān)系未知.如何采用未知的結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化分解是目前尚需研究的重要課題.

    在進(jìn)行信念狀態(tài)空間壓縮的同時,必須滿足壓縮后的信念狀態(tài)空間仍然能夠準(zhǔn)確地描述原來的客觀世界,也就是說根據(jù)壓縮后的信念狀態(tài)空間進(jìn)行的決策與根據(jù)壓縮前的信念狀態(tài)空間進(jìn)行的決策是一樣的.如何保證壓縮后的信念狀態(tài)空間是無損失的;或者如何保證壓縮后的損失信息不影響智能體做出正確的決策,這是進(jìn)行信念狀態(tài)空間壓縮時必須要解決的問題.目前關(guān)于這方面的文獻(xiàn)很少,現(xiàn)有信念狀態(tài)空間降維算法也很少涉及此類問題,所得結(jié)論具有一定的保守性.

    2)基于點的POMDPs在線值迭代理論與方法

    基于點的離線值迭代方法是在可達(dá)信念狀態(tài)空間單純體上求解值函數(shù),可達(dá)信念狀態(tài)點隨著規(guī)劃時間的增加而成指數(shù)形式增長.另外,可達(dá)信念狀態(tài)點的采集是選擇一個信念狀態(tài)子集,使其既要克服計算難而充分小,又要滿足為獲得好的近似值函數(shù)而充分大.因而,如何采集可達(dá)信念狀態(tài)點,使之滿足以上條件是基于點的POMDPs值迭代算法所面臨的共同難題.

    在線算法可以解決“歷史災(zāi)”問題,提高決策的實時性.但是,在線算法是以犧牲性能為代價.因此,可以將在線算法看成一種“短視”決策方法.將基于點的離線值迭代方法應(yīng)用到在線算法中,將會提高在線方法信念狀態(tài)與或樹遍歷的深度,從而更加逼近最優(yōu)值函數(shù)和最優(yōu)策略.

    3)模型不確定情況下的 POMDPs規(guī)劃理論與方法

    POMDPs規(guī)劃算法中,假設(shè)狀態(tài)轉(zhuǎn)移函數(shù)、觀察函數(shù)和報酬函數(shù)都是已知的,且為穩(wěn)態(tài)的.但是,在實際的動態(tài)系統(tǒng)中,狀態(tài)轉(zhuǎn)移函數(shù)通常是未知的,且為動態(tài)變化的,這種模型在實際的應(yīng)用中最為常見.如果使用穩(wěn)態(tài)模型描述動態(tài)系統(tǒng),則會造成對動態(tài)系統(tǒng)建模的失真,在理論上也無法保證獲得真實近似最優(yōu)值函數(shù)和最優(yōu)策略.針對于此,需要智能體能夠在與動態(tài)不確定環(huán)境交互中進(jìn)行學(xué)習(xí).然而,學(xué)習(xí)參數(shù)個數(shù)巨大,是一個典型的指數(shù)規(guī)模問題[31,32].另外,在全部后驗信念狀態(tài)空間上求解規(guī)劃問題將遭遇更大的“維數(shù)災(zāi)”[33-36].以上兩個難題使得目前的模型不確定情況下的POMDPs算法只能夠求解小規(guī)模問題(10-20個狀態(tài)),無法實現(xiàn)大規(guī)模問題的在線規(guī)劃和學(xué)習(xí).如何克服不確定帶來的更大“維數(shù)災(zāi)”是目前研究的挑戰(zhàn)難題.

    雖然POMDPs規(guī)劃的研究已經(jīng)取得了若干重要的進(jìn)展,并且在一些實際系統(tǒng)中逐步得到推廣應(yīng)用,但是仍然存在一系列理論和技術(shù)挑戰(zhàn).隨著新的POMDPs規(guī)劃和學(xué)習(xí)理論與方法的建立和完善,作為復(fù)雜動態(tài)系統(tǒng)理想模型的POMDPs必將在實際工程中得到廣泛的應(yīng)用.

    [1] Littman M L. A tutorial on Partially Observable Markov Decision Processes[J]. Journal of Mathematical Psychology, 2009,53(3):119-125.

    [2] Cao Xi-Ren, Guo Xian-ping. Partially Observable Markov Decision Processes With Reward Information:Basic Ideas and Models [J]. IEEE Transactions on Automatic Control, 2007,52(4):677-681.

    [3] Ross S, Pineau J, Chaibdraa B, et al. A Bayesian Approach for Learning and Planning in Partially Observable Markov Decision Processes[J]. Journal of Machine Learning Research, 2011,12:1729-1770.

    [4] Paquet S. Distributed Decision-Making and Task Coordination in Dynamic Uncertain and Real-Time Multiagent Environments[D]. Québec: Laval University, 2006:56-92.

    [5] Ross S, Pineau J, Paquet S, et al. Online Planning Algorithms for POMDPs[J]. Journal of Artificial Intelligence Research, 2008,32(6):663-704.

    [6] Robert K. Point-Based POMDP Solvers: Survey and Comparative Analysis[D]. Montreal: McGill University, 2010:34-78.

    [7] Roy N, Gordon G. Finding Approximate POMDPs Solutions Through Belief Compression[J]. Journal of Artificial Intelligence Research, 2005,23(9):1-40.

    [8] Sondik E. The Optimal Control of Partially Observable Markov Decision Processes[D]. California:Stanford University, 1971:56-68.

    [9] Pineau J, Gordon G, Thrun S. Anytime point-based approximations for large POMDPs[J]. Journal of Artificial Intelligence Research, 2006,27:335-380.

    [10] Washington, R. BI-POMDPs: bounded incremental partially observable Markov model planning[C]//Steel S, Alami R. Proceedings of the 4th European Conference on Planning. Toulouse: Springer, 1997:440-451.

    [11] Smith T, Simmons R. Point-based POMDPs algorithms:improved analysis and implementation[C]//Bacchus F,Jaakkola T. Proceedings of the 21th Conference on Uncertainty in Artificial Intelligence. Edinburgh: AUAI Press, 2005:542-547.

    [12] Li Yan-jie, Yin Bao-qun, Xi Hong-sheng. Partially Observable Markov Decision Processes and Performance Sensitivity Analysis[J]. IEEE Transactions on Systems,Man & Cybernetics: Part B, 2008,38(6):1645-1651.

    [13] Lin R, Kraus S, Wilkenfeld J, et al. Negotiating with Bounded Rational Agents in Environments with Incomplete Information Using an Automated Agent[J].Artificial Intelligence, 2008,172(6-7):823-851.

    [14] Sotelo M A, Oca?a M, Bergasa L M, et al. Low Level Controller for a POMDPs Based on WiFi Observations[J]. Robotics & Autonomous Systems, 2007,55(2):132-145.

    [15] Krishnamurthy V, Dejan V. Optimal Threshold Policies for Multivariate POMDPs in Radar Resource Management[J]. IEEE Transactions on Signal Processing, 2009,57(10):3954-3969.

    [16] Williams J D., Young S. Partially Observable Markov Decision Processes for Spoken Dialog Systems[J].Computer Speech & Language, 2007,21(2):393-422.[17] Wolf T B, Kochenderfer M J. Aircraft Collision Avoidance Using Monte Carlo Real-Time Belief Space Search[J]. Journal of Intelligent and Robotic Systems,2011,64:277-298.

    [18] HE Rui-jie, Brunskill E, Roy N. Efficient Planning under Uncertainty with Macro-actions[J]. Journal of Artificial Intelligence Research, 2011,40:523-570.

    [19] Naveen K P, Kumar A. Relay Selection for Geographical Forwarding in Sleep-Wake Cycling Wireless Sensor Networks[J]. IEEE Transactions on Mobile Computing,2011,10(12):1-9.

    [20] Zhang Jing-yu. Partially Observable Markov Decision Processes for Prostate Cancer Screening[D]. North Carolina: North Carolina State University, 2011:35-69.

    [21] Lee D D, Seung H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999,401:788-791.

    [22] Tenenbaum J B, Silva V D, Langford J C. A global geometric framework for nonlinear dimensionality reduction. Science, 2000,290(5500):2319-2323.

    [23] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science, 2006,313(5786):504-507.

    [24] Evans J A, Foster J G. Metaknowledge[J]. Science,2011,331(6018):721-725.

    [25] Frey B J, Dueck D. Clustering by passing messages between data points [J]. Science, 2007,315(5814)):972-976.

    [26] Baraniuk R G. More is less: signal processing and the data deluge[J]. Science, 2011,331(6018):717-719.

    [27] Roweis S, Saul L. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000,290(5500):2323-2326.

    [28] Delgado K V, Sanner S, Barros L N d. Efficient solutions to factored MDPs with imprecise transition probabilities[J]. Artificial Intelligence, 2011,175:1498-1527.

    [29] Boutilier C, Dearden R, Goldszmidt M. Stochastic dynamic programming with factored representtations[J]. Artificial Intelligence, 2000,121:49-107.

    [30] Guestrin C, Koller D, Parr R, et al. Efficient solution algorithms for factored MDPs[J]. Journal of Artificial Intelligence Research, 2003,19:399-468.

    [31] Tan V Y F, Anandkumar A, Willsky A S. Learning high-dimensional Markov forest distributions: analysis of error rates [J]. Journal of Machine Learning Research,2011,12:1617-1653.

    [32] Poupart P, Vlassis N. Model-based Bayesian reinforcement learning in partially observable domains[C]//Padgham L, ParkesD. In Proceedings of the International Joint Conference on Autonomous Agents and Multi Agent Systems. New York: ACM Press, 2008:1025-1032.

    [33] Andrieu C, Doucet A, Holenstein R. Particle Markov chain Monte Carlo methods [J]. Journal of the Royal Statistical Society. Series B, 2010,72(3):269-342.

    [34] Poupart P, Vlassis N, Hoey J, et al. An analytic solution to discrete Bayesian reinforcement learning[C]// Cohen W,Moore A. In Proceedings of the 23rd international conference on Machine learning. New York: ACM Press,2006:697-704.

    [35] Wang Y, Won K S, Hsu D, et al. Monte Carlo Bayesian reinforcement learning[C]// Langford J, Pineau J. In Proceedings of the 29th International Conference on Machine Learning. Edingburgh Scotland: Omni Press,2012:1135-1142.

    [36] 徐昕,沈棟,高巖青,等.基于馬氏決策過程模型的動態(tài)系統(tǒng)學(xué)習(xí)控制:研究前沿與展望[J].自動化學(xué)報,2012,38(5):673-687.

    猜你喜歡
    策略
    基于“選—練—評”一體化的二輪復(fù)習(xí)策略
    幾何創(chuàng)新題的處理策略
    求初相φ的常見策略
    例談未知角三角函數(shù)值的求解策略
    我說你做講策略
    “我說你做”講策略
    數(shù)據(jù)分析中的避錯策略
    高中數(shù)學(xué)復(fù)習(xí)的具體策略
    “唱反調(diào)”的策略
    幸福(2017年18期)2018-01-03 06:34:53
    價格調(diào)整 講策略求互動
    国产99久久九九免费精品| 99久久综合精品五月天人人| 亚洲成人精品中文字幕电影 | 色综合婷婷激情| 亚洲情色 制服丝袜| 大陆偷拍与自拍| 国产男靠女视频免费网站| 激情在线观看视频在线高清| 中文字幕精品免费在线观看视频| 精品国产国语对白av| 啪啪无遮挡十八禁网站| 在线免费观看的www视频| 午夜视频精品福利| 久久久久国产精品人妻aⅴ院| 亚洲在线自拍视频| 两人在一起打扑克的视频| 90打野战视频偷拍视频| 成人国产一区最新在线观看| 一进一出抽搐gif免费好疼 | 国产xxxxx性猛交| 不卡av一区二区三区| 黄色丝袜av网址大全| 久9热在线精品视频| 丝袜美腿诱惑在线| 久久国产乱子伦精品免费另类| 久久青草综合色| 久99久视频精品免费| 亚洲人成电影免费在线| 午夜免费激情av| 深夜精品福利| 亚洲国产精品999在线| 天天躁夜夜躁狠狠躁躁| 好男人电影高清在线观看| 女人高潮潮喷娇喘18禁视频| 搡老岳熟女国产| 嫩草影视91久久| 一边摸一边做爽爽视频免费| 手机成人av网站| 欧美日韩精品网址| 激情视频va一区二区三区| 一二三四在线观看免费中文在| 成人影院久久| 69av精品久久久久久| 国产精品二区激情视频| 久久亚洲精品不卡| 男女做爰动态图高潮gif福利片 | 一级片'在线观看视频| 亚洲五月天丁香| 91av网站免费观看| 亚洲av熟女| 人成视频在线观看免费观看| 啪啪无遮挡十八禁网站| 国产麻豆69| 国内久久婷婷六月综合欲色啪| 国产99久久九九免费精品| 91九色精品人成在线观看| 一本综合久久免费| 啦啦啦在线免费观看视频4| 国产欧美日韩综合在线一区二区| 亚洲三区欧美一区| av国产精品久久久久影院| 色婷婷av一区二区三区视频| 精品日产1卡2卡| 精品一区二区三区av网在线观看| 香蕉久久夜色| 在线观看www视频免费| 高清欧美精品videossex| 久久九九热精品免费| 国产免费现黄频在线看| a级片在线免费高清观看视频| 在线永久观看黄色视频| 免费高清视频大片| 亚洲久久久国产精品| 一级黄色大片毛片| 国产激情欧美一区二区| 亚洲精品国产色婷婷电影| 中文字幕色久视频| 精品久久久久久电影网| 欧美日韩视频精品一区| www.www免费av| 99在线人妻在线中文字幕| 亚洲,欧美精品.| 国产真人三级小视频在线观看| 超碰成人久久| 免费在线观看视频国产中文字幕亚洲| 亚洲 欧美一区二区三区| 亚洲人成电影观看| 嫩草影院精品99| 岛国视频午夜一区免费看| 国产在线观看jvid| 亚洲国产欧美日韩在线播放| 老司机在亚洲福利影院| 精品卡一卡二卡四卡免费| 搡老乐熟女国产| 成熟少妇高潮喷水视频| 国产成人av教育| 国产精品偷伦视频观看了| 啪啪无遮挡十八禁网站| 久久中文字幕一级| 国产亚洲精品久久久久5区| 亚洲精品一二三| 日韩精品免费视频一区二区三区| 国产精品一区二区三区四区久久 | 一二三四社区在线视频社区8| 午夜福利一区二区在线看| 亚洲精品久久成人aⅴ小说| 天堂√8在线中文| 久久中文字幕一级| 一级,二级,三级黄色视频| 欧美日韩福利视频一区二区| 国产精品偷伦视频观看了| 国产成人影院久久av| 精品熟女少妇八av免费久了| 熟女少妇亚洲综合色aaa.| 淫妇啪啪啪对白视频| 黑人操中国人逼视频| 欧美日韩一级在线毛片| 无遮挡黄片免费观看| 国产乱人伦免费视频| 在线十欧美十亚洲十日本专区| 757午夜福利合集在线观看| 亚洲 欧美 日韩 在线 免费| 在线观看一区二区三区| 90打野战视频偷拍视频| 国产精品成人在线| 99精品久久久久人妻精品| 午夜福利免费观看在线| 啦啦啦 在线观看视频| 亚洲熟妇熟女久久| 亚洲av五月六月丁香网| 777久久人妻少妇嫩草av网站| 精品电影一区二区在线| 日韩精品免费视频一区二区三区| 日韩欧美一区视频在线观看| 99re在线观看精品视频| 99国产精品免费福利视频| 大陆偷拍与自拍| 男女之事视频高清在线观看| 国产有黄有色有爽视频| 亚洲黑人精品在线| av福利片在线| 午夜成年电影在线免费观看| 可以在线观看毛片的网站| 99精品在免费线老司机午夜| 交换朋友夫妻互换小说| 亚洲精品中文字幕一二三四区| 超色免费av| 欧美中文日本在线观看视频| 黑人欧美特级aaaaaa片| 日日爽夜夜爽网站| 可以在线观看毛片的网站| 精品久久久久久久久久免费视频 | 99国产精品99久久久久| 在线观看舔阴道视频| 日日夜夜操网爽| 欧洲精品卡2卡3卡4卡5卡区| 免费久久久久久久精品成人欧美视频| 亚洲在线自拍视频| 一级黄色大片毛片| 村上凉子中文字幕在线| 日本五十路高清| 精品电影一区二区在线| 男人舔女人的私密视频| 午夜精品国产一区二区电影| 欧美日韩亚洲高清精品| ponron亚洲| 18禁观看日本| 老司机靠b影院| 亚洲三区欧美一区| 国产精品国产高清国产av| 欧美精品亚洲一区二区| av中文乱码字幕在线| 18禁国产床啪视频网站| 国产av精品麻豆| 成人亚洲精品一区在线观看| 黑丝袜美女国产一区| 90打野战视频偷拍视频| 大型av网站在线播放| 99香蕉大伊视频| 中文字幕最新亚洲高清| 一本综合久久免费| 手机成人av网站| 一二三四在线观看免费中文在| 韩国精品一区二区三区| 亚洲成人精品中文字幕电影 | 亚洲精品国产区一区二| 国产一区在线观看成人免费| 大陆偷拍与自拍| 99在线视频只有这里精品首页| 美女 人体艺术 gogo| 波多野结衣一区麻豆| 1024视频免费在线观看| 国产精品秋霞免费鲁丝片| 国产精品久久电影中文字幕| 一级毛片女人18水好多| 美女国产高潮福利片在线看| 国产欧美日韩一区二区三区在线| 少妇粗大呻吟视频| 一二三四在线观看免费中文在| 黑人巨大精品欧美一区二区mp4| 亚洲成人免费电影在线观看| 久久国产乱子伦精品免费另类| 成人三级黄色视频| 亚洲性夜色夜夜综合| av福利片在线| 黄片播放在线免费| 亚洲人成网站在线播放欧美日韩| 黑人巨大精品欧美一区二区蜜桃| 巨乳人妻的诱惑在线观看| 在线免费观看的www视频| 电影成人av| 18禁黄网站禁片午夜丰满| 中文字幕色久视频| 99国产精品99久久久久| 女人被躁到高潮嗷嗷叫费观| 免费在线观看完整版高清| 日韩av在线大香蕉| 日本欧美视频一区| 久久人人97超碰香蕉20202| 少妇 在线观看| 亚洲国产欧美日韩在线播放| av视频免费观看在线观看| 夜夜爽天天搞| 国产精品亚洲av一区麻豆| 午夜日韩欧美国产| 97碰自拍视频| 国产精品九九99| 男女之事视频高清在线观看| 1024视频免费在线观看| 三级毛片av免费| 免费久久久久久久精品成人欧美视频| 国产成人av激情在线播放| netflix在线观看网站| 久热爱精品视频在线9| 99久久人妻综合| 国产精品免费一区二区三区在线| 成人免费观看视频高清| 久久99一区二区三区| 自拍欧美九色日韩亚洲蝌蚪91| 国产成人精品久久二区二区免费| 国产亚洲精品综合一区在线观看 | а√天堂www在线а√下载| 麻豆av在线久日| 三级毛片av免费| 国产精品 欧美亚洲| xxxhd国产人妻xxx| 曰老女人黄片| 成人av一区二区三区在线看| 成人三级黄色视频| 99热只有精品国产| 国内毛片毛片毛片毛片毛片| 麻豆av在线久日| 国产精品秋霞免费鲁丝片| 亚洲精品国产色婷婷电影| 国产精品一区二区免费欧美| 9191精品国产免费久久| 中文亚洲av片在线观看爽| 亚洲国产毛片av蜜桃av| 香蕉丝袜av| 成年女人毛片免费观看观看9| 99精品在免费线老司机午夜| 午夜91福利影院| 免费日韩欧美在线观看| 欧美日韩黄片免| 十八禁网站免费在线| 亚洲色图 男人天堂 中文字幕| 我的亚洲天堂| 国产精品综合久久久久久久免费 | 男男h啪啪无遮挡| 亚洲国产欧美日韩在线播放| 男女床上黄色一级片免费看| 欧美色视频一区免费| 9色porny在线观看| 国产高清视频在线播放一区| 亚洲久久久国产精品| 51午夜福利影视在线观看| 日韩人妻精品一区2区三区| 亚洲五月婷婷丁香| 在线观看免费午夜福利视频| 黑人欧美特级aaaaaa片| 不卡一级毛片| 黄片小视频在线播放| 国产精品偷伦视频观看了| 91大片在线观看| 色综合婷婷激情| 欧美精品啪啪一区二区三区| av中文乱码字幕在线| 宅男免费午夜| 欧美日韩视频精品一区| 国产激情欧美一区二区| 日韩欧美国产一区二区入口| 国产三级黄色录像| 国产精品成人在线| 日韩大尺度精品在线看网址 | 曰老女人黄片| 一边摸一边做爽爽视频免费| 欧美+亚洲+日韩+国产| 天天添夜夜摸| 亚洲欧美精品综合久久99| 真人做人爱边吃奶动态| 一边摸一边做爽爽视频免费| 日本精品一区二区三区蜜桃| 波多野结衣一区麻豆| 免费一级毛片在线播放高清视频 | 国产深夜福利视频在线观看| 国产一区二区三区综合在线观看| 18禁美女被吸乳视频| 满18在线观看网站| 久99久视频精品免费| 久久 成人 亚洲| 最好的美女福利视频网| 日本a在线网址| 国内久久婷婷六月综合欲色啪| 亚洲熟女毛片儿| 欧美日本亚洲视频在线播放| 欧美午夜高清在线| 国产精品av久久久久免费| 无人区码免费观看不卡| 脱女人内裤的视频| 999久久久精品免费观看国产| 男女做爰动态图高潮gif福利片 | 三上悠亚av全集在线观看| 国产精品二区激情视频| 国产精品成人在线| 看黄色毛片网站| 日本五十路高清| 黄色视频不卡| 老熟妇仑乱视频hdxx| 亚洲精品在线观看二区| 亚洲熟妇中文字幕五十中出 | 在线观看舔阴道视频| 女人被躁到高潮嗷嗷叫费观| a级片在线免费高清观看视频| 日韩av在线大香蕉| 可以免费在线观看a视频的电影网站| 精品国产乱子伦一区二区三区| 亚洲五月色婷婷综合| 日韩精品免费视频一区二区三区| 国内毛片毛片毛片毛片毛片| 三级毛片av免费| 99精品在免费线老司机午夜| 激情视频va一区二区三区| 国产av一区二区精品久久| 亚洲av熟女| 久久草成人影院| 亚洲午夜理论影院| 久久人人97超碰香蕉20202| 亚洲精品美女久久av网站| 青草久久国产| 制服人妻中文乱码| 又紧又爽又黄一区二区| 国产精品国产av在线观看| 亚洲aⅴ乱码一区二区在线播放 | 日本三级黄在线观看| 国产精品亚洲一级av第二区| 国产欧美日韩精品亚洲av| 国产成人欧美在线观看| 国产亚洲精品久久久久久毛片| 亚洲精品美女久久久久99蜜臀| 叶爱在线成人免费视频播放| 18禁黄网站禁片午夜丰满| 99国产精品99久久久久| 黄网站色视频无遮挡免费观看| 国产一区二区在线av高清观看| 狂野欧美激情性xxxx| 欧美成人午夜精品| 色综合站精品国产| 夫妻午夜视频| 纯流量卡能插随身wifi吗| 黄频高清免费视频| 成人亚洲精品av一区二区 | 91成年电影在线观看| 大码成人一级视频| 黄网站色视频无遮挡免费观看| 午夜福利欧美成人| 黑丝袜美女国产一区| 亚洲色图 男人天堂 中文字幕| 99久久国产精品久久久| 成人影院久久| 午夜激情av网站| 国产蜜桃级精品一区二区三区| tocl精华| 高清欧美精品videossex| 国产精品免费一区二区三区在线| 男人操女人黄网站| 亚洲午夜理论影院| 黄色女人牲交| av福利片在线| 看免费av毛片| 神马国产精品三级电影在线观看 | 日韩成人在线观看一区二区三区| 男人的好看免费观看在线视频 | 国产99白浆流出| 亚洲七黄色美女视频| 最新美女视频免费是黄的| 每晚都被弄得嗷嗷叫到高潮| 亚洲熟妇熟女久久| 免费不卡黄色视频| 中文亚洲av片在线观看爽| 国产精品自产拍在线观看55亚洲| svipshipincom国产片| 久久久久久免费高清国产稀缺| 长腿黑丝高跟| 久久精品国产99精品国产亚洲性色 | а√天堂www在线а√下载| 国产高清国产精品国产三级| 99国产极品粉嫩在线观看| 久久人妻熟女aⅴ| 91大片在线观看| 18禁观看日本| 99国产综合亚洲精品| 欧洲精品卡2卡3卡4卡5卡区| 久久婷婷成人综合色麻豆| 日本a在线网址| 看免费av毛片| 精品一品国产午夜福利视频| 视频区图区小说| 国产精品98久久久久久宅男小说| 亚洲男人天堂网一区| 免费在线观看黄色视频的| 中文字幕高清在线视频| 精品久久久久久,| 中国美女看黄片| 国产成人免费无遮挡视频| 美女大奶头视频| 嫁个100分男人电影在线观看| 成人精品一区二区免费| 国产一区在线观看成人免费| a在线观看视频网站| 99国产精品99久久久久| av在线播放免费不卡| 国产熟女午夜一区二区三区| 日韩精品中文字幕看吧| 亚洲熟妇中文字幕五十中出 | 国产精品国产高清国产av| a级片在线免费高清观看视频| 后天国语完整版免费观看| 国产1区2区3区精品| 亚洲国产精品sss在线观看 | 婷婷丁香在线五月| 亚洲中文字幕日韩| 亚洲狠狠婷婷综合久久图片| 国产亚洲欧美精品永久| 黄网站色视频无遮挡免费观看| 在线天堂中文资源库| 美女扒开内裤让男人捅视频| 精品人妻1区二区| 欧美日韩视频精品一区| 国产精品99久久99久久久不卡| 18禁美女被吸乳视频| 亚洲五月婷婷丁香| 日韩精品中文字幕看吧| 免费女性裸体啪啪无遮挡网站| 亚洲欧美日韩高清在线视频| 久久亚洲精品不卡| 国产单亲对白刺激| 亚洲专区中文字幕在线| 亚洲人成电影观看| 一本综合久久免费| 亚洲精品一二三| 两人在一起打扑克的视频| 侵犯人妻中文字幕一二三四区| 欧美激情极品国产一区二区三区| 老司机午夜福利在线观看视频| 亚洲精品国产区一区二| 夜夜爽天天搞| 又黄又粗又硬又大视频| 久久久久久久午夜电影 | 在线观看一区二区三区| 久久久久久亚洲精品国产蜜桃av| 一进一出抽搐gif免费好疼 | 在线十欧美十亚洲十日本专区| 深夜精品福利| 久久久久国产一级毛片高清牌| 每晚都被弄得嗷嗷叫到高潮| 日日干狠狠操夜夜爽| 午夜免费鲁丝| 1024香蕉在线观看| 可以免费在线观看a视频的电影网站| 麻豆久久精品国产亚洲av | 国产伦一二天堂av在线观看| 亚洲熟妇熟女久久| 正在播放国产对白刺激| 美女午夜性视频免费| 亚洲成a人片在线一区二区| 亚洲欧美激情在线| 欧美日韩乱码在线| 男男h啪啪无遮挡| 国产精品二区激情视频| 在线播放国产精品三级| 免费少妇av软件| 成人黄色视频免费在线看| 色老头精品视频在线观看| 成人亚洲精品一区在线观看| 国产精品电影一区二区三区| 婷婷六月久久综合丁香| 欧美日韩视频精品一区| a级毛片黄视频| av在线天堂中文字幕 | 99国产精品一区二区三区| 大陆偷拍与自拍| 亚洲午夜理论影院| 亚洲男人天堂网一区| 久热爱精品视频在线9| 91成年电影在线观看| 国产aⅴ精品一区二区三区波| 涩涩av久久男人的天堂| 精品无人区乱码1区二区| 妹子高潮喷水视频| 大香蕉久久成人网| 国产亚洲av高清不卡| 1024视频免费在线观看| 国产精品1区2区在线观看.| 高清黄色对白视频在线免费看| 99国产精品一区二区三区| 亚洲国产精品一区二区三区在线| 欧美性长视频在线观看| 国产亚洲精品久久久久5区| 欧美乱码精品一区二区三区| 91av网站免费观看| 高清欧美精品videossex| 大陆偷拍与自拍| 久久人人爽av亚洲精品天堂| 国产一区在线观看成人免费| 亚洲欧美激情综合另类| 少妇粗大呻吟视频| 午夜免费激情av| 水蜜桃什么品种好| 亚洲七黄色美女视频| 国产亚洲精品综合一区在线观看 | a级片在线免费高清观看视频| www.精华液| 亚洲精品久久成人aⅴ小说| svipshipincom国产片| 精品一品国产午夜福利视频| 日韩欧美在线二视频| 搡老岳熟女国产| 精品久久久久久电影网| 日韩精品青青久久久久久| 久久九九热精品免费| 老司机深夜福利视频在线观看| 午夜亚洲福利在线播放| 热re99久久国产66热| 亚洲成av片中文字幕在线观看| 日韩欧美在线二视频| 亚洲欧美日韩无卡精品| 无人区码免费观看不卡| 麻豆久久精品国产亚洲av | 亚洲国产欧美网| 在线天堂中文资源库| 黑人欧美特级aaaaaa片| 国产蜜桃级精品一区二区三区| 大码成人一级视频| 国产亚洲精品第一综合不卡| 视频区图区小说| 12—13女人毛片做爰片一| 十八禁人妻一区二区| 激情在线观看视频在线高清| 91av网站免费观看| 91在线观看av| 露出奶头的视频| 中文字幕高清在线视频| 亚洲精品国产精品久久久不卡| 黄片播放在线免费| 男女床上黄色一级片免费看| 午夜免费鲁丝| 亚洲男人天堂网一区| 一级毛片女人18水好多| 国产黄a三级三级三级人| 国产99久久九九免费精品| 国产午夜精品久久久久久| 亚洲精品久久午夜乱码| 长腿黑丝高跟| 黄色a级毛片大全视频| 日韩欧美一区视频在线观看| 成人三级做爰电影| 亚洲国产精品sss在线观看 | 在线观看舔阴道视频| av在线天堂中文字幕 | 亚洲第一av免费看| 国产激情久久老熟女| 午夜免费观看网址| 免费在线观看日本一区| 成人亚洲精品一区在线观看| 午夜福利影视在线免费观看| 99国产精品一区二区蜜桃av| 9热在线视频观看99| 51午夜福利影视在线观看| 中文字幕精品免费在线观看视频| 午夜亚洲福利在线播放| a级毛片黄视频| 久久精品91无色码中文字幕| 亚洲成人免费电影在线观看| 久9热在线精品视频| 乱人伦中国视频| 久久草成人影院| 国产蜜桃级精品一区二区三区| 国产精品一区二区免费欧美| 午夜福利免费观看在线| 色婷婷久久久亚洲欧美| 久久天躁狠狠躁夜夜2o2o| 激情视频va一区二区三区| 香蕉国产在线看| 亚洲国产精品合色在线| 俄罗斯特黄特色一大片| 亚洲一区二区三区不卡视频| 99国产综合亚洲精品| 成人永久免费在线观看视频| 免费观看人在逋| 国产精品国产高清国产av| 99riav亚洲国产免费| 午夜视频精品福利| 成人国语在线视频| 欧美午夜高清在线| 国产激情欧美一区二区|