肖棋森,湯 斌,李奉笑,肖 渝,巫濤江,2,趙明富,程正富
(1.重慶理工大學 重慶市光纖傳感與光電檢測重點實驗室, 重慶 400054;2.電梯智能運維重慶市高校工程中心, 重慶 402260 )
地表水的安全問題關系社會生活的各個領域,對水質(zhì)分類的研究十分重要。在水質(zhì)參數(shù)中,各種數(shù)據(jù)存在難以統(tǒng)一化的問題。采用多傳感器的綜合判斷可避免局部單傳感器的錯誤判斷影響全局的弊端[1-3]。數(shù)據(jù)融合作為一種處理數(shù)據(jù)的手段,能夠消除單數(shù)據(jù)源的冗余和矛盾[4]。處理傳感器測量的數(shù)據(jù)時,常見的2種融合方法有Dempster-Shafer證據(jù)理論(D-S證據(jù)理論)[5-9]和貝葉斯方法[10-11]。貝葉斯方法提供了一種計算假設概率的方法:在先驗概率給定和充足的數(shù)據(jù)概率觀察分析下才能得到有效融合[12],但大多數(shù)情況下,這2種條件不會滿足。此時,D-S證據(jù)理論會成為這類不滿足條件的最優(yōu)解。由于融合得到不錯的結(jié)果,關注和研究也越來越多[13-15]。D-S證據(jù)理論滿足的條件比貝葉斯更寬松,能夠清晰地表達不確定和不知道。但該組合規(guī)則的優(yōu)勢在于證據(jù)理論間沖突較小的情況。如果證據(jù)理論沖突較高時,會得到與認知相悖的結(jié)論[16-19]。
周劍等[20]運用區(qū)間數(shù)與證據(jù)理論結(jié)合,認為在表達缺乏的信息以及數(shù)據(jù)的不確定性時,區(qū)間數(shù)是一個很好的選擇[21-22],根據(jù)識別框架決策水質(zhì)等級,但其假設參數(shù)條件太多。唐菁敏等[23]提出了一種高沖突情況下的水質(zhì)多參數(shù)區(qū)間數(shù)據(jù)融合理論。選擇最重要的水質(zhì)參數(shù),合理地通過區(qū)間數(shù)生成信度后對數(shù)據(jù)進行高沖突判斷,修正高沖突的證據(jù),盡可能多地保留有效原始數(shù)據(jù)。
通過傳感器收集需要的水質(zhì)數(shù)據(jù)。[EX]表示收集的樣本區(qū)間數(shù)。利用區(qū)間數(shù)計算出數(shù)據(jù)與識別框架之間的距離,得到BPA。區(qū)間數(shù)中用[D]i={D1…D5}表示傳感器i的樣本跟識別框架Θ的第Ⅰ類水質(zhì)到第Ⅴ類水質(zhì)的距離。區(qū)間數(shù)相似度[S]i={S1…S5}表示傳感器i的樣本跟識別框架Θ的第Ⅰ類水質(zhì)到第Ⅴ類水質(zhì)的相似度。歸一化區(qū)間數(shù)相似度,用[BPA]表示,[BPA]代表樣本的基本信度分配。最后,對數(shù)據(jù)進行沖突修正,修正高沖突數(shù)據(jù)后,運用證據(jù)理論進行融合。得到的結(jié)果可作為最后判斷水質(zhì)等級的依據(jù)。
設一個亟需解決的問題,用完備集合表示這個問題所有能認識到的可能答案,且這些元素都是互斥的;在任何時間,完備集合中的某一元素有對應的答案,且答案可以是數(shù)值變量或非數(shù)值變量。根據(jù)《國家地表水環(huán)境質(zhì)量標準(GB3838—2002)》中對水質(zhì)的分類,得到5類數(shù)據(jù)值。參考國家標準,令識別框架Θ={Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ},每個水質(zhì)等級都有一定的范圍。實驗中,該范圍用來判別水質(zhì)的主要區(qū)間。區(qū)間證據(jù)理論融合模型如圖1所示。
圖1 區(qū)間證據(jù)理論融合模型框圖
實驗的首要問題是如何將傳感器測量的原始數(shù)據(jù)轉(zhuǎn)化成有效數(shù)據(jù)。由于傳感器測量的值會在一個范圍內(nèi)進行波動,所以區(qū)間數(shù)能很好地表達提取的數(shù)據(jù)。計算區(qū)間距離、區(qū)間相似度后進行歸一化可得到BPA。設a是一個在實數(shù)a-與a+的一群數(shù),則a是一個區(qū)間數(shù)。式(1)中a為測量得到的樣本數(shù)據(jù)范圍,b為識別框架下某個具體的參數(shù)范圍。計算得到區(qū)間數(shù)a、b之間的距離為:
(1)
區(qū)間數(shù)相似度[14]越小,則代表a與b相差越小。這里,α是大于0的支持系數(shù),D(a,b)為區(qū)間a和b的距離。容易證明,當a=b時,S=1。當a、b的距離越大時,S越小。離散程度主要由支持系數(shù)來調(diào)節(jié),調(diào)節(jié)后的相似度對證據(jù)理論融合有一定的影響,其計算式為:
(2)
在識別框架Θ中,基本概率賦值m表示集合2n到[0,1]的映射。這里的S(a,b)相當于基本概率賦值m,其中m(A)稱為事件A的基本概率分配(basic probability assignment,BPA)函數(shù)、基本信度分配函數(shù)或mass函數(shù)。BPA值的大小反映了用來計算的證據(jù)對命題A的支持程度,占比見式(3)。其中,m(φ)=0,反映了證據(jù)對于空集不產(chǎn)生任何支持度。
(3)
沖突系數(shù)K用于衡量證據(jù)之間的沖突程度。當沖突較小,也就是K值接近0時,組合規(guī)則能夠完全滿足期望。完全沖突時,也就是k=1時,DS證據(jù)合成規(guī)則會失效。沖突系數(shù)接近1時,若直接使用合成規(guī)則會產(chǎn)生與直覺相悖的結(jié)論[24]。因此,對證據(jù)的修正必不可少。規(guī)定識別框架Θ={A1,A2,…,An},An>2。假定每個元素共有n組證據(jù),用m(Ak) 表示元素Ak的基本概率賦值。
1) 平均BPA:求n組證據(jù)的平均BPA,式(4)表示Ak的平均值BPA:
(4)
2) 證據(jù)距離:計算每個證據(jù)體與平均BPA之間的距離,式(5)表示第i個證據(jù)體的證據(jù)距離:
(5)
3) 權重:由證據(jù)距離計算權重,式(6)表示第i個證據(jù)體的權重:
(6)
(7)
4) 沖突證據(jù)的確立:權重小于平均權重的證據(jù)體需要修正。
5) 修正證據(jù):式(8)為第i個證據(jù)體的修正系數(shù),式(9)為第i個證據(jù)體修正后的Ak,式(10)為修正后的模糊度。
(8)
(9)
(10)
對于修改后的證據(jù),由于修正系數(shù)小于1,所有BPA值一定會下降,模糊度同時也會增加。原始數(shù)據(jù)加上修改后的BPA組合規(guī)則后的證據(jù),能達到降低證據(jù)之間沖突的效果。根據(jù)式(4)~(10),對證據(jù)理論進行的沖突系數(shù)進行分析。由于可能存在沖突的證據(jù)只會是個別數(shù)據(jù),所以只需著重修改這一部分。盡可能多地保存數(shù)據(jù)是為了避免修改過度導致原始數(shù)據(jù)失去可靠性,因此僅修正存在沖突的證據(jù)。經(jīng)過修正后的[BPA]用[m]來表示(無論是否進行修正,都用[m]來表示)。由于修正的存在,會得到一個不確定度。
將[m]進行DS數(shù)據(jù)融合,得到最終的信度M。融合后的M能用來根據(jù)框架判斷水質(zhì)。融合公式稱作證據(jù)合成公式,也稱Dempster-Shafer證據(jù)合成規(guī)則,定義如下:
對于?A?Θ,識別框架Θ上的n個信任函數(shù),m1,m2,…,mn焦元分別為A1,A2,…,An:
(m1⊕m2⊕…⊕mn)(A)=
(11)
其中,沖突因子K的大小反映了證據(jù)沖突程度是否劇烈。
(12)
融合證據(jù)中的m1、m2、…、mn代表每條信度,A代表識別框架Θ中Ⅰ~Ⅴ,m1(A1)、m2(A2)、…、mn(An)代表在識別框架下每個信度的具體概率。融合數(shù)據(jù)后得到一個可靠的數(shù)據(jù),代表當前水質(zhì)的信任概率,數(shù)值越高,表示越能支持該框架下的分類,數(shù)值越低,則代表越不支持該框架下的分類,需滿足概率相加為1。
實驗數(shù)據(jù)為3個傳感器的參數(shù),分別有溶解氧DO、氨氮NH3-N和化學需氧量COD。采用2018年重慶朱沱3個月的水質(zhì)數(shù)據(jù)作為來源,得到區(qū)間數(shù)如表1所示。
表1 樣本區(qū)間數(shù) mg/L
建立框架。根據(jù)《國家地表水環(huán)境質(zhì)量標準(GB3838—2002)》中對水質(zhì)的分類,得到5類數(shù)據(jù)值(見表2)。識別框架Θ={Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ}。例如,第Ⅰ類水質(zhì)參數(shù)的溶解氧為[7.5,10],氨氮為[0,0.15],化學需氧量為[0,2]。
表2 水質(zhì)參數(shù)特征值
求取BPA值。取樣本區(qū)間[EX]={[7.44,8.9],[0.13,0.28],[2.4,2.8]},[EX]DO=[7.44,8.9]。根據(jù)式(1)求得樣本DO與水質(zhì)的距離[D]DO={1.281 9,1.657 3,2.762 8,4.288 0,5.714 3}。其中,第1個數(shù)值1.281 9表示采集的樣本DO與水質(zhì)為Ⅰ的區(qū)間距離。圖2表示了溶解氧、氨氮及化學需氧量與水質(zhì)Ⅰ~Ⅴ的距離,數(shù)值越小,代表越接近該等級,數(shù)值越大,代表越偏離當前等級。
圖2 溶解氧、氨氮、化學需氧量與水質(zhì)等級的距離關系
根據(jù)式(2),求得DO的相似度(支持系數(shù)α=5),[S]DO={0.135 0,0.107 7,0.067 5,0.044 6,0.033 8}。圖3表示溶解氧、氨氮以及化學需氧量與水質(zhì)Ⅰ~Ⅴ的相似程度,相似度越小,代表與當前等級越不相似,相似度越大,代表與當前等級越相似。
圖3 溶解氧、氨氮、化學需氧量與水質(zhì)等級的相似度關系
對相似度做歸一化處理,得到DO的BPA,[BPA]DO={0.347 4,0.277 2,0.173 7,0.114 7,0.087 0}。同理,得到氨氮和化學需氧量的BPA。將得到的數(shù)據(jù)描繪成圖像,得到如圖4的BPA結(jié)果。圖4表示溶解氧、氨氮、化學需氧量與水質(zhì)Ⅰ~Ⅴ的基本信度分配,數(shù)值代表該參數(shù)為當前等級的概率。
圖4 溶解氧、氨氮、化學需氧量與水質(zhì)等級的基本信度分配關系
表3 數(shù)據(jù)融合修正
表1是水質(zhì)的樣本區(qū)間值,DO、NH3-N和COD是選取的重要參數(shù)。將該數(shù)據(jù)根據(jù)值的大小確定上下限后整合成一個數(shù)據(jù)區(qū)間,表示此次數(shù)據(jù)都在該范圍內(nèi)。表2是國標水質(zhì)的區(qū)間化,左值和右值代表了當前水質(zhì)類別的最小和最大值。圖2~4和表3是DO、NH3-N和COD這3個參數(shù)的BPA生成步驟,如DO在Ⅰ下的[D]DO表示當前水質(zhì)DO與第Ⅰ類的區(qū)間數(shù)距離為1.281 9。同理,[S]DO代表與第Ⅰ類的區(qū)間相似度為0.135 0。[BPA]DO是歸一化后的相似度。對沖突證據(jù)處理后的數(shù)據(jù)如表3,引入不確定度Θ。m1、m2、m3,代表經(jīng)過處理的[BPA]DO、[BPA]NH3-N、[BPA]COD。從表3可以看出,本次樣本中與其他證據(jù)產(chǎn)生沖突的是NH3-N的BPA,本次處理后產(chǎn)生的不確定度為0.247 1。DO、NH3-N和COD的BPA按照DS規(guī)則組合后形成的M是融合結(jié)果,如0.351 6代表了本次水質(zhì)為Ⅰ類的信度。通過該操作步驟能得到對水質(zhì)的支持度。
實驗中用框架對水質(zhì)的國標進行分類。提供了一種基于區(qū)間相似度的BPA生成方法,系數(shù)α用于調(diào)節(jié)相似的生成,視情況可向上取值。對數(shù)據(jù)NH3-N進行沖突修復,得到0.247 1的不確定度。由于沖突修復是選擇權重小于平均權重的BPA進行修復,那么始終會有不需要修復的數(shù)據(jù),即不確定度為0。易知最后通過D-S證據(jù)理論融合得到的不確定度也必然為0。因此,在水質(zhì)Ⅰ~Ⅴ范圍一定有一個概率最大的值,這個值對應的就是當前水質(zhì)分類。
基本概率分配由基于區(qū)間距離和區(qū)間相似度生成,能有效操作數(shù)α的值使得相似度有一定調(diào)節(jié)空間。D-S融合規(guī)則能有效降低各數(shù)據(jù)之間的融合冗余。沖突系數(shù)K根據(jù)權重方法判斷,既能保證有沖突的證據(jù)被篩選出,又能保證原始數(shù)據(jù)盡量多地保存,不會因數(shù)據(jù)被過多修改而影響數(shù)據(jù)原本的表達。進一步說明所提出方法具有較高的魯棒性。區(qū)間的存在使傳感器數(shù)據(jù)能夠較好地保留,實現(xiàn)對水質(zhì)等級的判斷。區(qū)間數(shù)保證了傳感器測量的水質(zhì)在一個范圍內(nèi)的真實情況及浮動范圍,進而有效利用原始數(shù)據(jù)。沖突修正能避免傳感器測量不準確導致的高沖突證據(jù)與經(jīng)驗或?qū)嶋H情況完全相悖的結(jié)果。基于D-S證據(jù)理論的數(shù)據(jù)融合可使足夠多的參數(shù)起到?jīng)Q策性的作用。使用融合后的結(jié)果能清晰地了解每個等級的支持度概率,從而迅速判斷水質(zhì)當前所處等級。