王祺堯,馮 輝,胡 波,羅靈兵
(1.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院 電子工程系,上海 200433; 2.復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院智慧網(wǎng)絡(luò)與系統(tǒng)研究中心,上海 200433)
隨著無線通信技術(shù)、嵌入式設(shè)備技術(shù)、片上系統(tǒng)技術(shù)等各項技術(shù)的高速發(fā)展,無線傳感器網(wǎng)絡(luò)(Wireless Sensor Networks, WSN)在軍事和民用領(lǐng)域[1-3]發(fā)揮著越來越重要的作用.目標跟蹤[4-6]是無線傳感器網(wǎng)絡(luò)的重要應(yīng)用之一.然而,由于能量、帶寬和觀測范圍的限制,打開區(qū)域內(nèi)的所有傳感器對目標進行跟蹤的開銷過高,且?guī)砹瞬槐匾馁Y源浪費.節(jié)點調(diào)度算法[4,7]在每個決策時間內(nèi)自適應(yīng)地打開部分傳感器對跟蹤區(qū)域進行觀測,從而有效地應(yīng)對上述問題,部分文獻中也將節(jié)點調(diào)度算法稱為節(jié)點選擇[8]、節(jié)點規(guī)劃[6]等.對于無線傳感器網(wǎng)絡(luò)來說,為了降低系統(tǒng)功耗,延長工作時間,設(shè)計一種跟蹤精度高、能量開銷低的節(jié)點調(diào)度算法顯得尤為重要.
無線傳感器網(wǎng)絡(luò)的節(jié)點調(diào)度具有很強的理論與現(xiàn)實意義,許多學(xué)者對這一場景進行了研究.一些研究通過選擇能夠最小化瞬時誤差或帶來最大信息增益的傳感器子集,建立優(yōu)化函數(shù).優(yōu)化準則包括熵和相對熵、互信息、最小均方誤差、先驗克拉美羅下界、條件克拉美羅下界等[8-10].這些算法僅考慮了節(jié)點調(diào)度算法的瞬時表現(xiàn),沒有考慮當(dāng)前決策對未來的影響,所以被稱為“短視”的策略.
圖1 節(jié)點調(diào)度流程Fig.1 Procedure of sensor scheduling
如圖1所示,根據(jù)當(dāng)前時刻的節(jié)點調(diào)度策略打開部分傳感器,得到觀測結(jié)果,會影響傳感器對目標位置的估計,而這一估計又會影響下一時刻的節(jié)點調(diào)度策略.因此這是一個序貫決策過程,當(dāng)前決策會對未來的走向產(chǎn)生影響.綜合考慮決策的瞬時和長遠表現(xiàn),可以得到整體更優(yōu)的決策.常見的做法是將該問題建模為部分可觀測馬爾可夫決策過程(Partially Observable Markov Decision Process, POMDP)[11-13],即根據(jù)歷史動作和帶噪觀測序列,求解使得當(dāng)前及未來累積代價最小的優(yōu)化策略.
在POMDP的建模中,需要已知目標的運動模型(即狀態(tài)轉(zhuǎn)移方程),其中目標的狀態(tài)通常包括目標的位置與速度等信息.在文獻[14-15]中假設(shè)目標速度變化緩慢,使用近似恒定速度(Nearly Constant Velocity, NCV)模型[16]構(gòu)建了狀態(tài)轉(zhuǎn)移方程.但是當(dāng)監(jiān)控區(qū)域中存在障礙物,或目標移動存在趨向性時,例如在樓宇、商場、道路等復(fù)雜環(huán)境中,不同位置的轉(zhuǎn)移概率均不相同,不能簡單使用單個方程刻畫目標的狀態(tài)轉(zhuǎn)移.為了解決這類場景的目標跟蹤問題,本文使用狀態(tài)轉(zhuǎn)移矩陣作為目標運動模型,矩陣中元素為目標狀態(tài)的轉(zhuǎn)移概率.在傳感器觀測不夠精確的情況下,如果缺乏運動模型的先驗知識,將難以在目標跟蹤過程中實現(xiàn)高效的節(jié)點調(diào)度.因此,根據(jù)傳感器采集的觀測,估計監(jiān)控區(qū)域中目標的轉(zhuǎn)移概率,對于提高節(jié)點調(diào)度過程的目標跟蹤精度、降低系統(tǒng)功耗均具有積極的意義.
本文將目標移動和傳感器觀測過程建模為隱馬爾可夫模型(Hidden Markov Model, HMM)[17-18],提出了HMM-QMDP算法,將無線傳感器網(wǎng)絡(luò)中未知運動模型的目標跟蹤問題分解為運動模型估計過程和節(jié)點調(diào)度過程.首先,在傳感器完全開啟的條件下,采集目標移動過程的觀測序列,使用Baum-Welch算法對區(qū)域中目標的狀態(tài)轉(zhuǎn)移矩陣進行估計.然后,將節(jié)點調(diào)度問題建模為部分可觀測馬爾可夫決策過程,根據(jù)估計求得的狀態(tài)轉(zhuǎn)移模型,使用QMDP算法[19]近似求解優(yōu)化策略,實現(xiàn)目標跟蹤過程中的實時節(jié)點調(diào)度.使用HMM-QMDP算法的優(yōu)勢有以下兩點: 1) 將問題分解為運動模型估計過程與節(jié)點調(diào)度過程并分別求解,可以簡化問題的復(fù)雜度;2) 將HMM狀態(tài)轉(zhuǎn)移模型估計的方法引入無線傳感器網(wǎng)絡(luò)的節(jié)點調(diào)度場景中,可以很好地學(xué)習(xí)目標運動模型,實現(xiàn)更加有效的節(jié)點調(diào)度.
在一個監(jiān)控區(qū)域內(nèi)部署了M個傳感器,用于跟蹤目標軌跡.由傳感器可以獲得帶噪觀測,然后將觀測結(jié)果回傳到中心節(jié)點,由中心節(jié)點再進行目標跟蹤和節(jié)點調(diào)度.由于區(qū)域中有障礙物阻擋,或目標移動具有趨向性,目標的狀態(tài)轉(zhuǎn)移概率在不同的位置是不同且未知的.假設(shè)不同目標在該區(qū)域中的運動模型服從同一分布,且狀態(tài)轉(zhuǎn)移符合一階馬爾可夫性質(zhì),可以把目標移動過程建模為隱馬爾可夫模型.本節(jié)是將監(jiān)控區(qū)域中的傳感器完全開啟,獲得一定長度的觀測序列后,根據(jù)觀測序列估計區(qū)域中目標的運動模型,即狀態(tài)轉(zhuǎn)移矩陣,然后將該運動模型應(yīng)用于下一節(jié)的節(jié)點調(diào)度中.
隱馬爾可夫模型可用于由狀態(tài)不可直接觀測的馬爾可夫鏈產(chǎn)生的隨機觀測序列的建模.針對本文場景,隱馬爾可夫模型建模如下.
1) 系統(tǒng)狀態(tài)
系統(tǒng)狀態(tài)S包含了目標的位置和速度.由于連續(xù)狀態(tài)不便處理,便對狀態(tài)空間做網(wǎng)格化處理,將目標狀態(tài)的各個分量在取值范圍內(nèi)等間隔劃分,監(jiān)控區(qū)域外的所有位置合并為一個狀態(tài).設(shè)離散化后目標狀態(tài)共N個,記為i=1,2,…,N.Sk表示目標在k時刻所在的狀態(tài),包含了目標的位置和速度:
基于以上系統(tǒng)狀態(tài)的定義,根據(jù)文獻[6,14-15]等,目標的狀態(tài)轉(zhuǎn)移滿足1階馬爾可夫性質(zhì)是符合實際物理場景的.若假設(shè)目標位置的移動滿足一階馬爾可夫性質(zhì),則系統(tǒng)狀態(tài)的定義只包含目標的位置,而不影響后續(xù)算法求解.
2) 觀測模型
觀測模型為電子與通信領(lǐng)域常見的接收信號強度指示(Received Signal Strength Indicator, RSSI)定位模型[20-21],傳感器觀測由目標輻射的能量信號的強度.假設(shè)觀測到的能量信號強度隨目標與傳感器間距離的λ次方(通常λ≥2)成反比,于是,觀測模型可以寫作:
(1)
Z=[z1,z2,…,zM]T,
其中zm(m=1,2,…,M)表示第m個傳感器采集的觀測,k時刻的觀測矢量可以表示為Zk=[zk,1,zk,2,…,zk,M]T.
本文傳感器觀測模型使用RSSI模型建模,計算觀測概率.當(dāng)環(huán)境中的障礙物對信號進行反射和遮擋導(dǎo)致信道中產(chǎn)生多徑、遮擋等干擾時,可以使用其他的觀測模型對無線通信信道進行描述,較為典型的模型有瑞利衰落模型[22]和萊斯衰落模型[23].本文算法并不局限于RSSI模型,適用于所有能夠給出觀測概率分布的觀測模型.
將目標的真實狀態(tài)序列記作S=(S1,S2,…,ST),則概率分布P(Z|Φ)可以視為含有隱變量S的概率模型:
(2)
(3)
其中Φ(n)是狀態(tài)轉(zhuǎn)移矩陣在n時刻的估計值,Baum-Welch算法通過極大化q(Φ,Φ(n)),不斷更新對Φ的估計.由于本文觀測方程已知,在求解過程中,需要根據(jù)本文觀測方程,計算目標真實狀態(tài)處于Sk時,得到觀測Zk的似然概率分布P(Zk|Sk).假設(shè)不同傳感器的觀測噪聲之間相互條件獨立,可得:
(4)
其中I(zk,m)為示性函數(shù),當(dāng)傳感器m的相對接收強度大于閾值時,示性函數(shù)值為1,表示該傳感器采集的觀測可以參與概率計算.示性函數(shù)的具體形式為:
(5)
根據(jù)式(1),有
(6)
(7)
將式(7)代入式(4),即可求得似然概率分布P(Zk|Sk).根據(jù)似然概率分布,也稱為觀測概率分布,可以計算出隱馬爾可夫模型的前向概率αt(i)=P(Z1,Z2,…,Zt,St=i|Φ)和后向概率βt(i)=P(Zt+1,Zt+2,…,ZT|St=i,Φ).
在Baum-Welch算法中,為了根據(jù)式(3)更新對轉(zhuǎn)移矩陣Φ的估計,定義Γt(i)=P(St=i|Z,Φ),可得:
(8)
定義ξt(i,j)=P(St=i,St+1=j|Z,Φ),可得:
(9)
由文獻[17]和[18],將式(3)展開后應(yīng)用拉格朗日乘子法,狀態(tài)轉(zhuǎn)移矩陣的更新公式為:
(10)
定義b0(S)表示目標處于狀態(tài)S的先驗概率分布,更新公式為:
(11)
迭代至收斂后,即可求得區(qū)域中目標狀態(tài)轉(zhuǎn)移矩陣的估計.算法過程如下所示:
輸入: 觀測序列Z=(Z1,Z2,…,ZT)
輸出: 狀態(tài)轉(zhuǎn)移矩陣Φ
1: 初始化Φ(0)
2:forn=1,2,…,do
7:end
節(jié)點調(diào)度算法在每一時刻根據(jù)傳感器回傳的觀測更新對目標狀態(tài)的估計,綜合考慮了跟蹤精度與能量消耗,并動態(tài)選取傳感器子集參與觀測.這里需要解決兩個方面的問題: 1) 如何更新目標狀態(tài)的估計,跟蹤目標;2) 如何根據(jù)目標狀態(tài)的估計采取相應(yīng)的節(jié)點調(diào)度動作.
一個POMDP模型由狀態(tài)集S、動作集A、觀測集Z、狀態(tài)轉(zhuǎn)移模型Φ、置信狀態(tài)b、瞬時代價L組成.置信狀態(tài)b表示基于歷史動作和觀測序列得到的目標狀態(tài)的后驗分布,k時刻置信狀態(tài)記作bk=P(Sk|Z1∶k,A0∶k-1).在k時刻可根據(jù)Φ、Zk和bk-1通過貝葉斯濾波求得置信狀態(tài)bk,然后根據(jù)bk采取決策Ak并獲得瞬時代價Lk.POMDP的目標是在每個時刻根據(jù)bk采取合適的動作Ak,使得整個過程的瞬時代價累積值最小.對于本文場景,狀態(tài)S、觀測Z的建模如1.1節(jié),狀態(tài)轉(zhuǎn)移模型Φ由1.2節(jié)算法求得.其余變量建模如下:
動作A表示中心節(jié)點對傳感器網(wǎng)絡(luò)中的觀測節(jié)點發(fā)出開啟或關(guān)閉的指令:
A=[a1,a2,…,aM]Tam∈{0,1},
其中:M為傳感器網(wǎng)絡(luò)中節(jié)點的個數(shù);am∈{0,1}表示關(guān)閉/打開第m個傳感器.
2) 瞬時代價函數(shù)
瞬時代價函數(shù)衡量目標在狀態(tài)轉(zhuǎn)移過程中每一步所產(chǎn)生的瞬時代價.瞬時代價包括兩個方面: 跟蹤誤差和傳感器的能量消耗.使用常數(shù)α權(quán)衡跟蹤誤差和傳感器功耗對決策影響的重要程度,于是代價函數(shù)可以寫作:
(12)
算法的目標是找到最優(yōu)策略,即一個置信狀態(tài)到動作的映射π.由最優(yōu)策略π,可以根據(jù)每一時刻的置信狀態(tài)b采取動作A,使得在整個跟蹤過程中,目標轉(zhuǎn)移的每一步累積的總代價的期望最小.k時刻累積損失的期望U可記作:
(13)
式(13)中:L(bk,Ak)表示在置信狀態(tài)bk下采取動作Ak所產(chǎn)生的瞬時代價,E(U(bk+1,π)|bk,Ak)表示采取動作Ak后未來代價的期望.0≤β<1為遞減因子,使累積損失函數(shù)有界,用來權(quán)衡瞬時代價和未來代價.定義Q(bk,A)表示置信狀態(tài)bk時采取動作A,未來采取最優(yōu)策略時的總期望代價,稱為Q-value,于是有:
1.從社會經(jīng)濟發(fā)展的角度來看待教育供給側(cè)結(jié)構(gòu)性改革的必然性。以殷寶慶為代表的一批學(xué)者認為,教育的供給側(cè)結(jié)構(gòu)性改革是新時代下、新常態(tài)下的必然要求[3]。提升社會經(jīng)濟總量水平、優(yōu)化經(jīng)濟結(jié)構(gòu)、促進社會經(jīng)濟產(chǎn)出的質(zhì)量和數(shù)量等都需要一批高職業(yè)素養(yǎng)的產(chǎn)業(yè)工人作為支撐。在整個經(jīng)濟發(fā)展過程中,隨著生產(chǎn)力水平的不斷提升,必然導(dǎo)致結(jié)構(gòu)性失業(yè)的產(chǎn)生,進而影響經(jīng)濟發(fā)展并導(dǎo)致因失業(yè)等引起的社會不穩(wěn)定情況。教育的供給體系對解決當(dāng)前經(jīng)濟結(jié)構(gòu)轉(zhuǎn)型升級中高技能人才的需求起著重要的不可或缺的供給作用。
Q(bk,A)=L(bk,A)+βE(V*(bk+1)|bk,A),
(14)
其中V*(bk)表示置信狀態(tài)為bk時采取最優(yōu)策略所能達到的最小代價的期望.因此在置信狀態(tài)為bk時,只需計算每個動作A對應(yīng)的Q-value,選擇Q-value最小的動作作為當(dāng)前決策即可.然而,Q-value的精確求解十分困難,計算復(fù)雜度很高,往往采取近似求解的手段.
根據(jù)Baum-Welch算法最大化觀測序列的期望后,求得了狀態(tài)轉(zhuǎn)移矩陣Φ.在置信狀態(tài)為bk時,采取動作Ak,得到觀測Zk+1,則bk+1可由貝葉斯濾波(Bayesian Filter)[24]求得:
bk+1(Sk+1)=P(Sk+1|Zk+1,Ak,bk)=
γP(Zk+1|Sk+1,Ak,bk)P(Sk+1|Ak,bk)=
(15)
其中:γ為歸一化因子;bk(Sk)表示置信狀態(tài)為bk時,目標真實狀態(tài)處于Sk的概率;P(Sk+1|Sk)根據(jù)狀態(tài)轉(zhuǎn)移矩陣Φ可得;P(Zk+1|Sk+1,Ak)根據(jù)式(4)可得.基于式(15),能夠迭代計算跟蹤過程中置信狀態(tài)的遷移.于是,可以計算置信狀態(tài)bk時采取動作Ak瞬時代價:
(16)
(17)
精確求解未來損失E(V*(bk+1)|bk,A)是十分困難的,由于置信狀態(tài)是取值連續(xù)的后驗分布,因此置信狀態(tài)可能的轉(zhuǎn)移路徑有無窮多種.當(dāng)代價函數(shù)關(guān)于置信狀態(tài)是線性函數(shù)時,可以使用一些近似算法[25],例如PBVI、PEMA、Perseus等啟發(fā)式算法,但是這些算法不適用于本文中代價函數(shù)非線性的情況.
(18)
將式(18)代入式(14),此時Q-value可以寫作:
(19)
求解未來代價后,根據(jù)式(19),可以對每一個動作A計算出置信狀態(tài)為bk時,采取該動作對應(yīng)的Q-value的近似值.此時,可以選擇Q-value最小的動作作為當(dāng)前的節(jié)點調(diào)度策略.當(dāng)傳感器網(wǎng)絡(luò)中節(jié)點較多時,動作集中A的選擇隨著節(jié)點數(shù)呈指數(shù)增長.為了進一步降低計算量,可以先固定傳感器子集中的節(jié)點數(shù),然后逐個增加或減少,選擇優(yōu)化的傳感器子集.
算法過程如下所示:
輸入: 置信狀態(tài)bk
輸出: 最優(yōu)動作A
1:functionQMDP(bk)
3:forall control actionsAdo
4:bk+1←Bayesian_filter(bk,A)
6:endfor
8:endfunction.
仿真中,將M=20個不同觀測精度的傳感器隨機分布在160m×120m的平面區(qū)域中,其中橫坐標范圍為[-80,80],縱坐標范圍為[0,120].觀測方程中,目標的初始能量強度E0=1000,衰減指數(shù)λ=2.對狀態(tài)進行離散化后,將觀測范圍內(nèi)的所有狀態(tài)記作Sin.觀測范圍外合并為1個狀態(tài)Sout.使用傳感器網(wǎng)絡(luò)對區(qū)域中的目標轉(zhuǎn)移過程進行一段時間的觀測和記錄后,獲得了很多條不同目標在區(qū)域中的完整軌跡,一條完整軌跡記錄了目標從觀測范圍外進入觀測范圍移動一段時間后離開的過程,即Sout→Sin→Sout.假設(shè)目標的轉(zhuǎn)移概率只與監(jiān)控區(qū)域本身有關(guān),與目標無關(guān),于是可將這些目標的運動軌跡拼接為一條完整軌跡Sout→Sin→Sout→…→Sin→Sout.根據(jù)拼接后的軌跡對區(qū)域中的轉(zhuǎn)移概率進行估計,軌跡總長度記作T.
通過仿真驗證HMM-QMDP算法的跟蹤性能,使用長度為T=500000的觀測序列對目標的狀態(tài)轉(zhuǎn)移概率進行估計后,目標跟蹤結(jié)果如圖3所示.可見,當(dāng)目標在監(jiān)控區(qū)域中隨機移動時,HMM-QMDP算法可以在一定的誤差范圍內(nèi),實現(xiàn)對目標的實時跟蹤.
圖2 狀態(tài)轉(zhuǎn)移矩陣估計誤差Fig.2 Estimating error of state transition matrix
圖3 估計軌跡與目標真實軌跡比較Fig.3 Comparison between estimated and real trajectory
將本文節(jié)點調(diào)度算法與全部開啟,最近點方法(Closest Point of Approach, CPA)[28],CO-Rollout[15]等算法進行比較.全部開啟的方法表示在所有時刻開啟所有傳感器用于目標跟蹤,CPA表示在每個決策時間根據(jù)對目標位置的估計,選擇離目標最近的m個傳感器參與觀測.CO-Rollout算法同樣適用于觀測方程與代價函數(shù)非線性的場景,將節(jié)點調(diào)度問題建模為POMDP并近似求解.對這些算法進行仿真比較,結(jié)果如圖4所示,其中橫坐標為用于模型估計的觀測序列長度T,縱坐標為平均跟蹤誤差Δ.可見,隨著模型估計的觀測序列長度的增加,對區(qū)域中目標轉(zhuǎn)移概率估計更加精確,各算法性能均有一定提升.其中本文的節(jié)點調(diào)度算法能夠在每一時刻綜合考慮短期和長期表現(xiàn)進行節(jié)點調(diào)度,跟蹤誤差更加接近全部開啟時的跟蹤誤差.CO-Rollout算法采用蒙特卡洛模擬的方法評估動作優(yōu)劣,近似未來代價時使用基策略而不是最優(yōu)策略,跟蹤誤差略高于本文算法.CPA算法貪婪地選取離估計位置最近的傳感器進行觀測,沒有考慮不同傳感器觀測誤差、功耗的區(qū)別,以及當(dāng)前決策對未來的影響,因此跟蹤誤差較本文算法更大.不過該算法實現(xiàn)簡單,易于使用.
對綜合考慮跟蹤誤差和傳感器功耗的跟蹤過程中的平均總代價進行仿真比較,結(jié)果如圖5所示,其中橫坐標為用于模型估計的觀測序列長度T,縱坐標為平均總代價L.可見雖然全部開啟的跟蹤精度較高,但是能量開銷很大,導(dǎo)致權(quán)衡了跟蹤精度和能量開銷的總代價很高.CO-Rollout算法使用基策略代替最優(yōu)策略,對于Q-value近似精度不夠高,因此總代價高于本文算法.CPA算法通過貪婪方法選擇傳感器子集,雖然跟蹤不夠精確,但是由于降低了能量開銷,總代價低于全部開啟的方法.本文節(jié)點調(diào)度算法每一時刻選擇比CPA方法更優(yōu)的傳感器子集對目標進行觀測,在較低能量開銷的同時保證了不錯的跟蹤精度,因此總代價較全部開啟方法和CPA方法更低.
圖4 目標跟蹤過程中的跟蹤誤差Fig.4 Tracking error during target tracking
圖5 目標跟蹤過程中的總代價Fig.5 Total cost during target tracking
綜合圖4和圖5可見,當(dāng)用于估計運動模型的觀測序列長度T小于105時,跟蹤誤差和總代價呈現(xiàn)快速下降的趨勢;當(dāng)估計樣本長度T大于105時,下降速度趨于緩慢.因此可以認為,當(dāng)估計運動模型的觀測序列長度T在105左右時,本文算法可以較為準確地對運動模型進行估計,為了權(quán)衡采集樣本的代價和跟蹤過程的收益,可以當(dāng)樣本長度在105左右時停止觀測序列采集過程.同時,圖2中狀態(tài)轉(zhuǎn)移矩陣的估計誤差在與圖4和圖5大致相同的位置出現(xiàn)拐點,共同驗證了以上結(jié)論.
本文將目標運動和傳感器觀測建模為隱馬爾可夫模型,提出了HMM-QMDP算法,將無線傳感器網(wǎng)絡(luò)中未知目標運動模型的目標跟蹤問題分解為運動模型估計和節(jié)點調(diào)度兩個階段.在運動模型估計階段,采集足夠的觀測樣本后應(yīng)用Baum-Welch算法估計監(jiān)控區(qū)域中的目標運動模型.仿真結(jié)果表明,隨著觀測樣本的增多,估計的目標運動模型會越來越接近真實的運動模型.在節(jié)點調(diào)度階段,將目標跟蹤中的節(jié)點調(diào)度問題建模為部分可觀測馬爾可夫決策過程,綜合考慮短期和長期代價,可以求得長期更優(yōu)的節(jié)點調(diào)度策略.當(dāng)估計的狀態(tài)轉(zhuǎn)移模型接近真實模型,學(xué)習(xí)到的運動模型先驗知識更加準確時,無線傳感器網(wǎng)絡(luò)進行目標跟蹤時可以具有更高的跟蹤精度和更優(yōu)的節(jié)點調(diào)度策略.
本文算法可以有效地解決無線傳感器網(wǎng)絡(luò)中運動模型未知情況下的目標跟蹤問題.未來可以進一步考慮將運動模型估計和節(jié)點調(diào)度聯(lián)合建模,應(yīng)用強化學(xué)習(xí)算法,在節(jié)點調(diào)度進行目標跟蹤的同時估計和更新區(qū)域中目標的狀態(tài)轉(zhuǎn)移概率.這樣可以不需要預(yù)先打開所有傳感器采集樣本進行轉(zhuǎn)移概率估計,并且能夠在目標跟蹤過程中不斷地估計和逼近真實的轉(zhuǎn)移概率.