趙法舜,馬曉劍
(東北林業(yè)大學(xué) 理學(xué)院,哈爾濱 150040)
證據(jù)理論又稱為Dempster-Shafer證據(jù)理論,由Dempster提出,Shafer進(jìn)一步發(fā)展了該理論[1-2].作為一種不確定性多源信息融合方法,證據(jù)理論可以表達(dá)不確定信息,因而在不確定推理和多源數(shù)據(jù)融合中獲得了廣泛的應(yīng)用[3-5].然而在實(shí)際問(wèn)題中,證據(jù)理論的融合規(guī)則僅適合于解決高置信度、低沖突的情況,不能有效地處理信任度趨近于零或證據(jù)之間嚴(yán)重相悖的高度沖突情況,在這些情況下可能導(dǎo)致產(chǎn)生錯(cuò)誤的融合結(jié)果.
為了解決高度沖突證據(jù)的融合問(wèn)題,眾多學(xué)者提出了很多改進(jìn)方法,這些方法主要可以歸結(jié)為兩類(lèi):一類(lèi)是修改Dempster組合規(guī)則[6-7],主要解決沖突再分配問(wèn)題;另一類(lèi)是修改原始證據(jù)[8],核心思路是修改原始證據(jù)后,再利用Dempster融合規(guī)則進(jìn)行融合.
本文主要提出了一種關(guān)聯(lián)系數(shù)定義下的沖突證據(jù)合成方法,通過(guò)修改原始證據(jù)對(duì)所有證據(jù)源進(jìn)行預(yù)處理.基于概率轉(zhuǎn)換,提出關(guān)聯(lián)系數(shù)來(lái)衡量證據(jù)間的關(guān)聯(lián)程度,該關(guān)聯(lián)系數(shù)能夠反映單元素子集和多元素子集之間的相互影響,并以此獲得可信度權(quán)重;同時(shí),利用信度熵考察每條證據(jù)的信息量大小,以確定賦予其信息量權(quán)重.聯(lián)合關(guān)聯(lián)系數(shù)與信度熵作為權(quán)重因子,根據(jù)Shafer提出的證據(jù)折扣思想,利用權(quán)重因子代替折扣系數(shù)對(duì)原始證據(jù)進(jìn)行加權(quán)修正,最后利用Dempster融合規(guī)則完成融合.本文所提出的基于概率轉(zhuǎn)換的關(guān)聯(lián)系數(shù)可以很好地度量證據(jù)間的關(guān)聯(lián)程度,給出的融合算法可以有效解決高度沖突問(wèn)題,并優(yōu)于其他經(jīng)典算法.
Dempster-Shafer證據(jù)理論用于處理不確定信息,在沒(méi)有先驗(yàn)信息的情況下可以進(jìn)行多源證據(jù)的有效融合.當(dāng)概率確定后,證據(jù)理論可以轉(zhuǎn)化為貝葉斯理論,因此被認(rèn)為是貝葉斯理論的擴(kuò)展,但是證據(jù)理論需要的條件比貝葉斯概率理論更弱,適用范圍更加廣泛.基本概念介紹如下:
定義1.1(辨識(shí)框架):
令Θ是由n個(gè)兩兩互斥元素組成的有限的完備集合,表示為:
Θ={A1,A2,…,Ai,…,An}
集合Θ被稱為識(shí)別框架,A1,A2,…,An是辨識(shí)框架Θ的元素,Θ的冪集2Θ所構(gòu)成的2n個(gè)元素的集合表示為:
2Θ={?,{A1},…,{An},{A1,A2},…,{A1,A2,…,Ai},…,Θ}
定義1.2(基本概率指派):
對(duì)于辨別框架Θ,基本概率指派是從2Θ到[0,1]的映射m,形式為:
m∶2Θ→ [0,1]
其滿足以下條件:m(?)=0,∑A∈2Θm(A)=1.
在Dempster-Shafer證據(jù)理論中,如果m(A)大于0,則將A稱為辨別框架Θ上的焦元,基本概率指派后面簡(jiǎn)單記作BBA.
定義1.3(Dempster融合規(guī)則):
在辨識(shí)框架Θ上,設(shè)有n個(gè)BBA為m1,m2,…,mn,并假設(shè)這n個(gè)BBA是相互獨(dú)立的,則由m=m1⊕m2⊕…mn表示的Dempster融合規(guī)則稱為正交和,定義如下:
(1)
其中:K=∑(A1∩A2∩…∩An≠?)m1(A1)m2(A2)…mn(An)稱作沖突系數(shù),表示BBA之間的沖突,且Dempster的融合規(guī)則適用于沖突系數(shù)K<1的情況.
定義1.4(Pignistic概率轉(zhuǎn)換[9]):
假設(shè)m是辨識(shí)框架Θ下的BBA,通過(guò)概率轉(zhuǎn)換可以轉(zhuǎn)變?yōu)楦怕蕼y(cè)度BetP:
(2)
其中:|B|表示B的基數(shù).
定義1.5(相似系數(shù)):
王肖霞[10]在Dempster融合規(guī)則的基礎(chǔ)上引入了相似系數(shù)的概念,用來(lái)衡量證據(jù)間置信度分布的相似程度,證據(jù)mi和mj之間的相似系數(shù)定義為:
i,j=1,2,…,n
(3)
其中:Ax和Ay分別表示證據(jù)mi和mj的焦元.
為降低高度沖突發(fā)生的可能性,本文算法選取修改原始證據(jù)的方法,對(duì)證據(jù)源進(jìn)行預(yù)處理,首先利用關(guān)聯(lián)系數(shù)來(lái)衡量證據(jù)間的關(guān)聯(lián)程度;同時(shí)利用信度熵考察每條證據(jù)的信息量大小,聯(lián)合關(guān)聯(lián)系數(shù)與信度熵作為權(quán)重因子,對(duì)證據(jù)源進(jìn)行加權(quán)修正,再將得到的結(jié)果利用Dempster融合規(guī)則自身融合(n-1)次,完成多源證據(jù)間的合成.
相似系數(shù)可以度量證據(jù)之間的相似程度,但將多元素子集作為單元素子集進(jìn)行計(jì)算,忽略了多元素子集對(duì)證據(jù)間相似程度的影響,以下給出反例:給定三個(gè)BBA分別為m1、m2和m3,辨識(shí)框架Θ={A,B},它們的置信度分布如下:
m1∶m1(A)=0.6;m1(B)=0.2;m1(A,B)=0.2
m2∶m2(A)=0.2;m2(B)=0.6;m2(A,B)=0.2
m3∶m3(A)=0.2;m3(B)=0.2;m3(A,B)=0.6
由式(3)可以得到,m1與m2及m3的相似系數(shù)相同,即SIM(m1,m2)=SIM(m1,m3)=SIM(m2,m3)=0.636 4.顯然,m1與m2及m3之間互有差異,且m1與m2的相似度要小于m1與m3的相似度.然而,相似系數(shù)計(jì)算的結(jié)果表明,m1與m2及m3之間沒(méi)有差異,這顯然違背常識(shí).因此,為了解決上述問(wèn)題,本文提出了關(guān)聯(lián)系數(shù)來(lái)衡量證據(jù)間的關(guān)聯(lián)程度.由定義1.4可知,Pignistic概率變換保持單元素子集的置信度不變,并將多子集的置信度均勻分配給所包含的單子集.受此啟發(fā)考慮利用每個(gè)單子集焦元的BetP來(lái)代替BBA進(jìn)行計(jì)算,關(guān)聯(lián)系數(shù)既可以充分反映單子集和多子集之間的相互作用,又有效避免了相似系數(shù)將多子集視為單子集的情況.另外,當(dāng)BBA僅由單子集組成時(shí),關(guān)聯(lián)系數(shù)與相似系數(shù)完全一致.
定義2.1(證據(jù)向量):
假設(shè)Θ= {A1,A2,…,Ai,…,An},存在證據(jù)集合E={E1,E2,…,Ei,…,En},對(duì)應(yīng)的BBA分別為m1,m2,…,mi,…,mn,證據(jù)向量表示為:
Ei=(BetPmi(A1),BetPmi(A2),…,BetPmi(An))T,i=1,2,…,n
定義2.2(關(guān)聯(lián)系數(shù)):
關(guān)聯(lián)系數(shù)用來(lái)度量證據(jù)間的關(guān)聯(lián)程度,定義如下:
SBetP(mi,mj)=〈Ei,Ej〉=
i,j=1,2,…,n
(4)
定理1:關(guān)聯(lián)系數(shù)可滿足以下性質(zhì):
1)SBetP(mi,mj)=SBetP(mj,mi)
2) 0≤SBetP(mi,mj)≤1
3)若mi=mj,則SBetP(mi,mj)=1
證明:
1) 由分子項(xiàng)均為實(shí)數(shù)可知,
SBetP(mi,mj)=
SBetP(mj,mi),故滿足交換律.
2)顯然SBetP(mi,mj)為大于等于0的實(shí)數(shù),當(dāng)且僅當(dāng)Ax∩Ay=?時(shí),SBetP(mi,mj)=0,由柯西-施瓦茨不等式:
3)mi(Ax)=mj(Ay)?BetPmi(Ax)=BetPmj(Ay),由式(2)的證明可知,SBetP(mi,mj)=1.
證畢.
例1:假設(shè)Θ={A,B},兩個(gè)BBAm1和m2表示為:
m1:m1({A})=x,m1({B})=1-x
m2:m2({A})=1-x,m2({B})=x
圖1描繪了x在[0,1]變化范圍內(nèi)SBetP(mi,mj)變化的曲線,Δx=0.02.由圖1可以看出,當(dāng)x取0或1時(shí)關(guān)聯(lián)系數(shù)為0,表示證據(jù)完全相悖;當(dāng)x取0.5時(shí)關(guān)聯(lián)系數(shù)為1,表示證據(jù)完全相同;且越接近于中值0.5時(shí)關(guān)聯(lián)系數(shù)越大,即關(guān)聯(lián)程度越高,符合現(xiàn)實(shí)規(guī)律.另外,在本例中再次驗(yàn)證了關(guān)聯(lián)系數(shù)滿足對(duì)稱性和非負(fù)性等基本性質(zhì).
圖1 關(guān)聯(lián)系數(shù)隨x的變化Figure 1 The coefficient of correlation varies with x
例2:假設(shè)有兩個(gè)BBAm1和m2,置信度分布如下所示.辨識(shí)框架Θ={A,B,C,D,E,F,G,H},α從0以Δ=0.1的速度增加到1,子集的基數(shù)T從1變?yōu)?,如表1所示.
m1∶m1 (B)=α,m1 (T)=1-αm2∶m2 (B)=0.9,m2 (T)=0.1
關(guān)聯(lián)系數(shù)隨|T|及α的變化如圖2所示,可以看出,無(wú)論變量|T|及α如何變化,關(guān)聯(lián)系數(shù)在0~1之間波動(dòng),這驗(yàn)證了關(guān)聯(lián)系數(shù)的有界性,其范圍取值為[0,1].當(dāng)|T|=1時(shí),證據(jù)m1和m2由單子集組成,子集之間沒(méi)有交集,因此關(guān)聯(lián)系數(shù)小于其他|T|值的關(guān)聯(lián)系數(shù).當(dāng)|T|從2增加到8時(shí),關(guān)聯(lián)系數(shù)相應(yīng)減小,這是因?yàn)槎嘧蛹幕鶖?shù)擴(kuò)展使不確定性增加.圖2(B)所展示的是當(dāng)|T|固定時(shí),關(guān)聯(lián)系數(shù)隨著α的增加而增加,這符合直觀判斷,因?yàn)閮蓚€(gè)BBA的置信度分布越來(lái)越相似.
圖2 例2中SBetP(mi,mj)隨α & |T|的變化曲線Figure 2 The change of SBetP(mi,mj) with α & |T| in example 2
關(guān)聯(lián)系數(shù)SBetP(mi,mj)可以反映證據(jù)mi和mj之間的關(guān)聯(lián)程度,證據(jù)間的置信度分布差別越小,對(duì)應(yīng)的關(guān)聯(lián)系數(shù)越高,被其他證據(jù)支持的程度越高.為了便于表達(dá),本文使用Sij替代SBetP(mi,mj).通過(guò)以上公式得到關(guān)聯(lián)系數(shù)矩陣SM,表示為:
計(jì)算每條證據(jù)的支持度定義如下:
(5)
將每個(gè)證據(jù)的支持度歸一化處理作為可信度權(quán)重,可信度表示為:
(6)
同時(shí),鄧勇[11]提出了信度熵,作為香農(nóng)熵的推廣,信度熵是測(cè)量不確定信息的有效方法,它可以應(yīng)用于證據(jù)理論中,其中不確定信息用BBA表示.令A(yù)i為BBA的焦元,|Ai|是集合Ai的基數(shù),Ai的信度熵Ed定義如下:
(7)
當(dāng)僅將BBA分配給單個(gè)元素時(shí),信度熵退化為香農(nóng)熵,即:
(8)
信度熵可以表示證據(jù)信息量的大小,當(dāng)涉及證據(jù)間的信息增多時(shí),熵會(huì)增加.在圖2中信度熵隨集合元素個(gè)數(shù)的增加而增加,說(shuō)明信度熵越大,它應(yīng)該得到其他證據(jù)更多的支持.此外,為了避免在某些情況下給證據(jù)分配零權(quán)重,使用信息量ICi來(lái)測(cè)量證據(jù)的信息量大小,取對(duì)數(shù)使得信息量與信度熵成正比.Ai的信息量為:
(9)
綜上實(shí)現(xiàn)了兩個(gè)權(quán)重因子的提取,修改證據(jù)完成證據(jù)預(yù)處理過(guò)程的偽代碼如下:
-------------------------------------------
算法:基于關(guān)聯(lián)系數(shù)定義下的證據(jù)合成方法
-------------------------------------------
輸入:輸入原始證據(jù)
1)計(jì)算n個(gè)證據(jù)的關(guān)聯(lián)系數(shù)矩陣SMij,1≤i≤n,1≤j≤n.
2)計(jì)算證據(jù)可信度Rei,i=1,2,…,n.
3)由信度熵計(jì)算證據(jù)的信息量ICi,i=1,2,…,n.
6)將預(yù)處理的結(jié)果利用證據(jù)理論的融合規(guī)則,自融合(n-1)次得到最終結(jié)果.
輸出:新的證據(jù)
-------------------------------------------
為了驗(yàn)證該方法的有效性,本文給出了一個(gè)診斷應(yīng)用,現(xiàn)有三條證據(jù)如表2所示.其中Θ={A,B,C},m(A)、m(B)和m(C)分別表示A、B、C的BBA.
表2 原始證據(jù)BBA
根據(jù)偽代碼的算法流程,可以得到本文算法的融合結(jié)果,并與其他經(jīng)典算法比較如表3所示.
表3 仿真算例結(jié)果比較
根據(jù)多源證據(jù)的融合結(jié)果,本文算法可以診斷A具有最大的置信度,符合直觀判斷.然而,Dempster的組合規(guī)則方法不能很好地處理沖突證據(jù),常常得出錯(cuò)誤的結(jié)果,即診斷為B.此外,Murphy等人的方法雖然可以正確識(shí)別對(duì)象,但沒(méi)有考慮證據(jù)間的關(guān)聯(lián)性,導(dǎo)致有效識(shí)別目標(biāo)的速度較慢;鄧勇的方法在多源證據(jù)診斷下可以保證準(zhǔn)確率,但決策源較少時(shí)容易產(chǎn)生誤判,穩(wěn)定性低于本文算法.同時(shí),隨著更多證據(jù)源的加入,融合信息增多,支持診斷為A的置信度也發(fā)生改變.從圖3可以看出,當(dāng)融合的證據(jù)源只有兩個(gè)時(shí),關(guān)聯(lián)系數(shù)為兩個(gè)BBA分配相同的支持度,所以置信度較低是合理的.當(dāng)證據(jù)源增多時(shí),診斷為A的置信度不斷增加,通過(guò)與其他算法不同數(shù)量證據(jù)源融合結(jié)果的比較,說(shuō)明在有證據(jù)沖突的情況下,本文算法具有更為有效的融合結(jié)果.
圖3 不同數(shù)量證據(jù)源融合的置信度比較Figure 3 Comparison of confidence in fusion of different number of evidence sources
本文提出了一種新的證據(jù)間關(guān)聯(lián)程度的度量—關(guān)聯(lián)系數(shù),它加入了概率轉(zhuǎn)換的元素,能夠反映不同子集之間的相關(guān)性,并具有有界性、非負(fù)性和對(duì)稱性等良好性質(zhì). 本文提出的基于關(guān)聯(lián)系數(shù)定義下的多源證據(jù)融合方法,為了充分反映證據(jù)之間的關(guān)系,利用證據(jù)的可信度權(quán)重和信息量權(quán)重來(lái)確定證據(jù)的權(quán)重因子,并通過(guò)具體算例說(shuō)明了算法的有效性.該證據(jù)合成方法不僅可以有效實(shí)現(xiàn)多源證據(jù)的合成,而且提高了證據(jù)沖突時(shí)融合結(jié)果的可靠性和合理性.在未來(lái)的研究中,將進(jìn)一步利用關(guān)聯(lián)系數(shù)和證據(jù)融合方法在更多實(shí)際應(yīng)用中實(shí)現(xiàn)有效決策.