田相軒, 李軍旗, 金麗亞, 劉正仁, 石志強(qiáng)
(1.陸軍裝甲兵學(xué)院 信息通信系, 北京 100072;2.陸軍裝甲兵學(xué)院 科研學(xué)術(shù)處, 北京 100072)
信息技術(shù)的迅速發(fā)展,催生了大數(shù)據(jù)時(shí)代的到來,隨著我軍部隊(duì)由信息化向智能化、單一兵種向合成化發(fā)展轉(zhuǎn)變,基于大數(shù)據(jù)的模擬訓(xùn)練是實(shí)現(xiàn)戰(zhàn)斗力生成的重要手段[1-3]。依托模擬訓(xùn)練系統(tǒng)開展指揮信息系統(tǒng)訓(xùn)練,需要數(shù)據(jù)增強(qiáng)系統(tǒng)生成數(shù)據(jù)支撐和驅(qū)動(dòng)模擬訓(xùn)練,但是目前對(duì)于模擬數(shù)據(jù)集的可用性評(píng)估研究較少,無法鑒定模擬數(shù)據(jù)集在一致性、完整性、同一性上與真實(shí)數(shù)據(jù)集的差距。由于模擬數(shù)據(jù)質(zhì)量不一,使得官兵在模擬訓(xùn)練過程中效率較低,能力提升速度較慢,降低了大規(guī)模投資的模擬訓(xùn)練系統(tǒng)的使用效能[4-6]。
在民用領(lǐng)域,大數(shù)據(jù)已經(jīng)成為信息社會(huì)的重要財(cái)富,各種技術(shù)形式都由“人為建模”向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變,然而隨著數(shù)據(jù)規(guī)模的擴(kuò)大,劣質(zhì)數(shù)據(jù)也隨之而來,極大地降低了大數(shù)據(jù)的可用性[7-8]。數(shù)據(jù)可用性評(píng)估問題亟需解決[9-10]。目前,對(duì)于可用性的研究多是基于一致性進(jìn)行判斷, Huang等基于統(tǒng)計(jì)原理提出了數(shù)據(jù)一致性錯(cuò)誤的表示模型,描述了表示數(shù)據(jù)不一致性的方式,并且提出了一種數(shù)據(jù)一致性的增強(qiáng)算法[11];對(duì)于數(shù)據(jù)一致性的判定方法,Ma等提出了一種用于描述數(shù)據(jù)完整性的規(guī)則系統(tǒng)[12];對(duì)于數(shù)據(jù)同一性的判定法,Li等研究了基于識(shí)別結(jié)果的實(shí)體同一性的判定[13];Zhang等使用均方誤差(MSE)作為衡量參數(shù),提出了一種多模態(tài)數(shù)據(jù)集合的模型[14];聶凱等采用假設(shè)檢驗(yàn)方法中的F檢驗(yàn)方法檢驗(yàn)靜態(tài)數(shù)據(jù),采用灰色關(guān)聯(lián)分析方法分析動(dòng)態(tài)數(shù)據(jù)[15];Traganitis等提出將隨機(jī)抽樣和一致性參數(shù)擴(kuò)展到特征降維問題,對(duì)模型估計(jì)采用試錯(cuò)的方法,使用其余數(shù)據(jù)來驗(yàn)證估計(jì)的模型,從而產(chǎn)生高精度的聚類,并采用可視化分析的方式進(jìn)行展示[16]。
上述研究成果都是基于數(shù)據(jù)集固有的某一屬性出發(fā)描述數(shù)據(jù)的可用性,不能全面地反映數(shù)據(jù)內(nèi)部的關(guān)聯(lián)關(guān)系,表征數(shù)據(jù)的可用性。尤其針對(duì)指揮信息系統(tǒng)數(shù)據(jù),敏感于數(shù)據(jù)之間的相關(guān)關(guān)系,不僅需要反映內(nèi)在的線性關(guān)系,還應(yīng)體現(xiàn)非線性與復(fù)雜的多維數(shù)據(jù)之間的嵌套關(guān)系。本文采用特征選擇的思路提取出數(shù)據(jù)集各屬性的特征信息,目的不在于篩選有用的特征,而在于構(gòu)建數(shù)據(jù)集完整的可用性信息張量。
目前對(duì)于特征選擇主要區(qū)分為依賴分類器與獨(dú)立于分類器兩類。包裝法和表示法依賴分類器,其中:包裝法使用預(yù)先確定的分類器來評(píng)估候選特征子集,具有更高的預(yù)測(cè)精度,但是一些啟發(fā)式算法過度依賴超參數(shù),計(jì)算量大,而且分類器過于具體,導(dǎo)致計(jì)算誤差的風(fēng)險(xiǎn)也很高[17-18];表示法將特征選擇集成到給定學(xué)習(xí)算法的訓(xùn)練過程中,計(jì)算成本較低,但需要嚴(yán)格的模型結(jié)構(gòu)假設(shè)[19];濾過法不依賴分類器,依據(jù)特征與標(biāo)簽的相關(guān)性進(jìn)行特征排序,基于信息論相關(guān)理論,理論基礎(chǔ)扎實(shí),且濾過法在特征降維方面優(yōu)勢(shì)明顯[20-21]。
本文基于信息論的基本理論知識(shí),采用濾過法,提出了基于相關(guān)性分析的指揮信息系統(tǒng)模擬數(shù)據(jù)集可用性評(píng)估算法(CA-UEA)。從特征的相關(guān)性定義出發(fā),在描述各屬性之間的相關(guān)、冗余性基礎(chǔ)上,重點(diǎn)描述了屬性之間的交互性,提出了交互信息和冗余信息計(jì)算的近似公式,設(shè)計(jì)了表征數(shù)據(jù)集可用性信息的張量形式,分別構(gòu)建數(shù)據(jù)集的基本信息矩陣、冗余度張量、交互度張量。通過愛因斯坦求和約束構(gòu)建數(shù)據(jù)集的相關(guān)關(guān)系張量,描述數(shù)據(jù)集各屬性的特征相關(guān)關(guān)系與非線性關(guān)系?;谏疃葘W(xué)習(xí)中損失函數(shù)的求解思想計(jì)算生成數(shù)據(jù)集與原始數(shù)據(jù)集可用性張量之間的誤差距離,從而評(píng)估生成數(shù)據(jù)集的可用性,為數(shù)據(jù)生成算法提供鑒定依據(jù),為全元素的指揮信息系統(tǒng)模擬訓(xùn)練提供可用的數(shù)據(jù)支撐。
信息論中提出信息是用來消除隨機(jī)不確定性的東西,并定義信息熵為離散隨機(jī)事件發(fā)生的不確定性,是系統(tǒng)有序化程度的度量,有序的系統(tǒng)熵值較低,無序的系統(tǒng)熵值較高。下面描述信息熵、互信息、條件熵、聯(lián)合熵、條件互信息的基本概念[20]。
假設(shè):存在隨機(jī)變量X,在實(shí)數(shù)空間上的取值空間為{x1,x2,x3,…,xn},概率分布為P(X=xi)=pi(i=1,2,3,…,n),則隨機(jī)變量X的信息熵定義為
(1)
假設(shè):隨機(jī)變量X已知,隨機(jī)變量Y發(fā)生的不確定性為Y在X已知條件下的條件熵,定義為
(2)
假設(shè):存在兩個(gè)隨機(jī)變量X、Y,在已知某變量的前提下,另一個(gè)變量發(fā)生的不確定度減少的程度稱為互信息,定義為
(3)
假設(shè):存在兩個(gè)隨機(jī)變量X、Y,X在實(shí)數(shù)上的取值空間為{x1,x2,x3,…,xn},概率分布為P(X=xi)=pi(i=1,2,3,…,n),Y在實(shí)數(shù)上的取值空間為{y1,y2,y3,…,yn},概率分布為P(Y=yi)=pi,則隨機(jī)變量X、Y的聯(lián)合熵定義為
(4)
假設(shè):已知隨機(jī)變量Z,隨機(jī)變量X、Y的條件互信息,表示為在Z已知前提下,X、Y共享的信息量,即變量Y帶來的關(guān)于變量X但不包含于Z的信息,定義為
I(X;Y|Z)=H(X|Z)-H(X|Y,Z).
(5)
在數(shù)據(jù)集特征選取過程中,通過度量一個(gè)屬性或?qū)傩约诜诸惼髦械暮Y選能力,來評(píng)估其潛在的可用性。本文采用各個(gè)屬性的特征信息集合來反向描述數(shù)據(jù)集的可用性信息,提取數(shù)據(jù)集的內(nèi)部抽象特征,構(gòu)建數(shù)據(jù)集的可用性信息張量。在數(shù)據(jù)集內(nèi)部的相關(guān)關(guān)系中,強(qiáng)相關(guān)性、不相關(guān)性是屬性間的顯性特征,易于計(jì)算,分別定義為
I(fi;fj)=1,fi,fj∈F;
(6)
I(fi;fj)=0,fi,fj∈F.
(7)
式中:fi、fj為數(shù)據(jù)集中的某屬性值;F為已知的屬性集合;i,j∈(0,m),m為總屬性數(shù)量。強(qiáng)相關(guān)性、不相關(guān)性可以描述為弱相關(guān)性的特殊形態(tài),在分析數(shù)據(jù)分布一致性時(shí),應(yīng)針對(duì)弱相關(guān)性出發(fā),重點(diǎn)研究影響弱相關(guān)性的微觀特征。
信息熵能夠量化隨機(jī)變量的不確定性和不同隨機(jī)變量共享的信息量,旨在衡量一個(gè)特征或特征子集在分類器中使用時(shí)的潛在可用性,而在數(shù)據(jù)集屬性描述中,重點(diǎn)關(guān)注的是各個(gè)屬性的特殊信息,用來描述和全面地反映出數(shù)據(jù)集的整體特性。弱相關(guān)性包括屬性之間的交互性、冗余性、互信息,對(duì)于特征選取,需要加權(quán)綜合考慮屬性的權(quán)重,從而構(gòu)建數(shù)據(jù)集的特征。本文借鑒特征選取的思想,但區(qū)別于最大相關(guān)最小冗余算法[21]模糊估計(jì)各個(gè)屬性特征信息的方式,目的不在于提取特征,而在于通過構(gòu)建數(shù)據(jù)分布弱相關(guān)性張量,關(guān)注每個(gè)屬性各方面的信息,從而提取出全部有用信息,完整描述數(shù)據(jù)集的分布。
下面結(jié)合信息論的基本技術(shù),基于信息熵、條件熵、互信息、條件互信息等相關(guān)概念,給出屬性描述特征的標(biāo)準(zhǔn)。
定義1互信息(基本信息),是指兩兩屬性之間的互信息,即其中一個(gè)屬性變化對(duì)另一個(gè)屬性變化的影響程度。屬性fi與另一屬性ft之間基本信息定義為
Ib(fi;ft)=H(fi)-H(fi|ft),ft,fi∈F,
(8)
式中:i,t∈(0,m);H(fi)為屬性fi的信息熵;H(fi|ft)為在屬性ft已知條件下fi的條件熵,即屬性ft已知情況下fi降低的不確定度。
H(ft,fi)=H(fi|ft)+H(ft),
(9)
H(fi|ft)=H(ft,fi)-H(ft),
(10)
Ib(fi;ft)=H(fi)+H(ft)-H(ft,fi).
(11)
為全面描述數(shù)據(jù)集任意兩個(gè)屬性之間的基本信息,本文沒有采用統(tǒng)計(jì)方式獲取均值或方差值來表示數(shù)據(jù)集的基本信息,而是采用矩陣方式進(jìn)行描述,關(guān)注到任意兩個(gè)屬性之間的基本信息值,構(gòu)建數(shù)據(jù)集的基本信息矩陣:
(12)
式中:nd為數(shù)據(jù)集的維度,大小為[nd,nd]。
定義2冗余度,是指任3個(gè)屬性之間的重復(fù)度,即fi;ft互信息與fi;fj互信息的重復(fù)量:
Ir(fj;ft;fi)=I(fj,ft;fi)-I(fi;ft)-I(fi;fj),
Ir(fj;ft;fi)=H(fj,ft)-H(fj,ft|fi)-
(H(fi)-H(fi|ft))(H(fi)-H(fi|fj)).
(13)
構(gòu)建數(shù)據(jù)集的冗余度矩陣,構(gòu)建的冗余度張量形狀為[nd,nd,nd],類似于多維數(shù)組,冗余度矩陣深度為3的矩陣:
(14)
定義3交互度,存在已知屬性集合S,若屬性fi?S,與屬性集合存在相關(guān)關(guān)系。隨著另外一個(gè)屬性ft?S的加入,fi與S的相關(guān)性發(fā)生變化(變大或變小),即稱fi與ft之間存在交互,交互度定義為
Ii(fi;ft)=Ir(fi;S)-Ir(fi;S|ft),
(15)
式中:Ir(fi;S)為fi與S的互信息,即相關(guān)關(guān)系;Ir(fi;S|ft)為ft加入后,fi與S的相關(guān)關(guān)系。S為除了fi、ft之外的屬性值集合,采用矩陣方式進(jìn)行計(jì)算,即S可以為屬性集合剩余屬性的任一屬性影響,或幾個(gè)屬性的聯(lián)合影響,因?yàn)槁?lián)合屬性影響是在單屬性基礎(chǔ)上的疊加,相對(duì)來說值較小。為降低計(jì)算復(fù)雜度,計(jì)算任一屬性已知情況下fi、ft的交互度,可得Ii(fi;ft)的近似值:
Ii(fi;ft)≈I(fi;fj)-I(fi;fj|ft),
(16)
則fi、ft、fj三者的交互度為
Ii(fi;ft;fj)=
H(fi)+H(fj)-H(fj,fi)-(H(fi,ft)+
H(fj,ft)-H(ft)-H(fi,fj,ft)).
(17)
圖1 算法流程Fig.1 Algorithm flowchart
針對(duì)fi、ft與fj為除了fi之外的任一屬性值,構(gòu)建的交互度張量大小為[nd,nd,nd],交互度矩陣:
(18)
算法流程如圖1所示。
步驟1梳理數(shù)據(jù)格式,將原始數(shù)據(jù)集與生成數(shù)據(jù)集轉(zhuǎn)換為相同格式,進(jìn)行數(shù)據(jù)缺失值、異常值、噪音處理,即將重復(fù)、多余的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補(bǔ)充完整,將錯(cuò)誤的數(shù)據(jù)糾正或者刪除。
步驟2根據(jù)(1)式~(18)式,構(gòu)建原始數(shù)據(jù)集與生成數(shù)據(jù)集的基本信息矩陣、冗余度張量、交互度張量。
步驟3基于愛因斯坦求和約束[22],即在張量的基底改變情況下,其中:某個(gè)向量的線性變換基于矩陣進(jìn)行表示,以上標(biāo)來標(biāo)記;剩余向量的線性變換通過逆矩陣來描述,以下標(biāo)來標(biāo)記,保證伴隨余向量的線性函數(shù)不變。將冗余度張量、交互度張量的維度轉(zhuǎn)換為基本信息矩陣的維度,便于下一步信息整合,即將變量維度由[nd×nd,nd,nd]轉(zhuǎn)換為[nd,nd]。
步驟4對(duì)基本信息矩陣、冗余度矩陣、交互度矩陣3個(gè)變量采用softmax函數(shù)進(jìn)行歸一化處理:
(19)
式中:softmax函數(shù)是將模型的預(yù)測(cè)結(jié)果轉(zhuǎn)化到指數(shù)函數(shù)上,將轉(zhuǎn)化后的結(jié)果除以所有轉(zhuǎn)化后結(jié)果之和,可以理解為轉(zhuǎn)化后結(jié)果占總數(shù)的百分比,可將結(jié)果轉(zhuǎn)換到[0,1]之間,便于進(jìn)行數(shù)據(jù)分析[23]。
步驟5基于愛因斯坦求和約束,將歸一化處理的3個(gè)矩陣變量進(jìn)行信息融合,即將變量維度由[3,nd,nd]轉(zhuǎn)換為[nd,nd],得到原始數(shù)據(jù)集與生成數(shù)據(jù)集的可用性信息矩陣。
步驟6基于MSE[24],求取原始數(shù)據(jù)集與生成數(shù)據(jù)集可用性信息矩陣的歐幾里得距離,表征生成數(shù)據(jù)集的可用性評(píng)估值。
CA-UEA算法的偽代碼:
INPUT:生成與原始數(shù)據(jù)集特征集合
OUTPUT:生成與原始數(shù)據(jù)可用性估值
1. fori=1 tonddo
2. forj=1 tonddo
3. 計(jì)算基本信息矩陣Mb
4. fort=1 tonddo
5. 計(jì)算冗余度矩陣Mr
6. 計(jì)算交互度矩陣Mi
7. end for
8. end for
9. end for
獲得更新后的Mn_b,Mn_r,Mn_i
10.Mn_b=softmax(Mb)
11.Mn_r=softmax(Einsum(Mr)<[k*k,k,k],[k,k]>)
12.Mn_i=softmax(Einsum(Mi)<[k*k,k,k],[k,k]>)
13. 分別計(jì)算原始與生成數(shù)據(jù)集的融合特征評(píng)價(jià)信息:
14. Ge_data=Einsum(Mn_b,Mn_r,Mn_i)
15. Or_data=Einsum(Mn_b,Mn_r,Mn_i)
16. CA-UEA=MSE(Gedata,Or_data)。
算法分別計(jì)算生成數(shù)據(jù)與原始數(shù)據(jù)的基本信息、冗余度信息、交互度信息等可用性特征信息,分別融合特征狀態(tài)信息,基于MSE量化評(píng)估生成數(shù)據(jù)的可用性。
本文算法輸入特征值數(shù)量為N,考慮多維度的特征信息之間的關(guān)聯(lián)關(guān)系,分別考慮特征與特征之間的基本信息,特征與其余特征集合之間的交互信息和冗余信息,其算法的計(jì)算復(fù)雜度為O(N3)。當(dāng)特征較多時(shí),建議抽取部分顯性特征信息進(jìn)行計(jì)算,降低算法復(fù)雜度。
1)實(shí)驗(yàn)環(huán)境:利用實(shí)驗(yàn)室仿真環(huán)境,采用Python3,Anaconda環(huán)境下,配合PyCharm,使用TensorFlow框架,搭建基礎(chǔ)實(shí)驗(yàn)環(huán)境。
2)原始數(shù)據(jù):實(shí)驗(yàn)1與實(shí)驗(yàn)2使用的是MINIST手寫數(shù)據(jù)集[25],數(shù)據(jù)維度為[6 000,28,28];實(shí)驗(yàn)3使用的是指揮信息系統(tǒng)模擬訓(xùn)練數(shù)據(jù),來源于前期訓(xùn)練收集積累的歷史數(shù)據(jù),經(jīng)過脫密處理后,為22維,共計(jì)200條數(shù)據(jù),通過補(bǔ)0方式,將數(shù)據(jù)集拓展到28維,與MINIST手寫數(shù)據(jù)集維度相同,為[200,28]。
3)在模擬訓(xùn)練過程中一手?jǐn)?shù)據(jù)資源較少,需要數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)進(jìn)行擴(kuò)增,作者之前的研究中發(fā)現(xiàn)采用生成對(duì)抗網(wǎng)絡(luò)能夠較好地?cái)U(kuò)增數(shù)據(jù),但是在量化評(píng)判生成數(shù)據(jù)與原始數(shù)據(jù)的真實(shí)度差異上還需要作進(jìn)一步工作。
為驗(yàn)證本文提出的可用性檢驗(yàn)標(biāo)準(zhǔn)與量化評(píng)定差異:實(shí)驗(yàn)1采用生成對(duì)抗網(wǎng)絡(luò)(GAN)作為數(shù)據(jù)生成框架[26],擴(kuò)增的數(shù)據(jù)為MINIST手寫數(shù)據(jù)集;實(shí)驗(yàn)2采用的是輔助分類條件生成對(duì)抗網(wǎng)絡(luò)(ACGAN)作為數(shù)據(jù)生成框架[27],擴(kuò)增的數(shù)據(jù)為MINIST手寫數(shù)據(jù)集;實(shí)驗(yàn)3選擇GAN作為數(shù)據(jù)生成框架,擴(kuò)增的數(shù)據(jù)為指揮信息系統(tǒng)模擬訓(xùn)練數(shù)據(jù)。
3.2.1 GAN擴(kuò)增MINIST數(shù)據(jù)的仿真實(shí)驗(yàn)
按照文獻(xiàn)[26]的方法,搭建GAN,以MINIST手寫數(shù)據(jù)集的圖片作為原始數(shù)據(jù),生成模擬數(shù)據(jù),經(jīng)過10k輪后,得到圖2所示的損失函數(shù)曲線。由圖2可得,隨著迭代次數(shù)的增加,判別模型的數(shù)據(jù)來源不僅是原始數(shù)據(jù)還包含生成模型產(chǎn)生的數(shù)據(jù)后,判別模型損失函數(shù)值出現(xiàn)上下浮動(dòng),隨之生成模型的損失函數(shù)呈相反的方向變化,即判別模型與生成模型相互對(duì)抗,相互博弈,但從整個(gè)過程中系統(tǒng)損失函數(shù)總值=GAN生成模型損失函數(shù)值+GAN判別模型損失函數(shù)值可看到,出現(xiàn)小幅上下震蕩,整個(gè)迭代過程,相對(duì)平穩(wěn),即系統(tǒng)沿著生成的圖片被判別為真的優(yōu)化方向前進(jìn)。
圖2 GAN損失函數(shù)曲線Fig.2 Loss function curves of GAN
實(shí)驗(yàn)迭代過程中,設(shè)計(jì)每間隔625次系統(tǒng)生成一次實(shí)驗(yàn)數(shù)據(jù),共計(jì)生成16張實(shí)驗(yàn)圖片,其中:第1張圖片為原始圖片(見圖3);每張圖片維度為[28,112],按照前后順序排列為如圖3所示。由圖3可得,生成圖片由開始的噪音數(shù)據(jù)圖像,逐漸顯現(xiàn)圖片邊緣數(shù)據(jù),有一定向好的趨勢(shì)。
圖3 GAN生成的圖片F(xiàn)ig.3 Pictures generated by GAN
針對(duì)實(shí)驗(yàn)過程中產(chǎn)生的過程圖片,按照本文第2節(jié)的計(jì)算方法,對(duì)每張圖片的真實(shí)度損失值進(jìn)行求解,可得圖4所示。由圖4可知,GAN生成數(shù)據(jù)集真實(shí)度損失值隨著生成器與判別器的對(duì)抗上下浮動(dòng),但是與原始數(shù)據(jù)集的差距變化不大,即GAN系統(tǒng)生成的數(shù)據(jù)集質(zhì)量與原始數(shù)據(jù)集相比仍有一定差距,需要進(jìn)一步訓(xùn)練,獲取可用的數(shù)據(jù)集。
圖4 GAN生成的數(shù)據(jù)集真實(shí)度損失曲線Fig.4 Dataset similarity loss line generated by GAN
3.2.2 ACGAN擴(kuò)增MINIST數(shù)據(jù)的仿真實(shí)驗(yàn)
按照文獻(xiàn)[27]的方法,構(gòu)建ACGAN,該網(wǎng)絡(luò)采用半監(jiān)督的條件生成對(duì)抗網(wǎng)絡(luò),使判別器與分類器重建標(biāo)簽信息。使用標(biāo)簽信息進(jìn)行訓(xùn)練,不僅能產(chǎn)生特定標(biāo)簽的數(shù)據(jù),還能夠提高生成數(shù)據(jù)的質(zhì)量。實(shí)驗(yàn)MINIST手寫數(shù)據(jù)集的圖片作為原始數(shù)據(jù),生成模擬數(shù)據(jù),經(jīng)過10k輪后,得到圖4所示的損失函數(shù)曲線。由圖4可得:ACGAN在開始階段有小幅震蕩,但是很快就達(dá)到了“納什平衡”;當(dāng)縮小y軸坐標(biāo)范圍,也可發(fā)現(xiàn)判別器與生成器的對(duì)抗過程(為與圖2比較,選擇了與圖2相同的y軸坐標(biāo)范圍),可見ACGAN的優(yōu)化速度明顯優(yōu)于GAN.
圖5 ACGAN損失函數(shù)曲線Fig.5 Loss function curve of ACGAN
采用實(shí)驗(yàn)1相同的設(shè)計(jì)思路,共迭代10k輪,每間隔625輪獲取一次實(shí)驗(yàn)數(shù)據(jù)集,共計(jì)16張圖片,其中第1張為原始圖片,如圖6所示。由圖6可得,隨著迭代次數(shù)的增加,生成器不僅捕捉到數(shù)字的邊緣信息,從第9張圖片可清晰辨析數(shù)字的形狀,直至最后完全確定數(shù)字,收斂速度較快,數(shù)據(jù)生成的質(zhì)量較高。
圖6 ACGAN生成的圖片F(xiàn)ig.6 Pictures generated by ACGAN
針對(duì)實(shí)驗(yàn)過程中產(chǎn)生的過程圖片,按照本文第2節(jié)的計(jì)算方法,對(duì)每張圖片的真實(shí)度損失值進(jìn)行了求解,可得圖7所示。由圖7可知,隨著ACGAN優(yōu)化水平的不斷提高,生成數(shù)據(jù)集的真實(shí)度損失值逐漸降低,在下降過程中由于生成器與判別器的對(duì)抗,仍有上下浮動(dòng),但是從總體上看,數(shù)據(jù)集的可用性逐漸提高,印證了圖6中生成的圖片與原始圖片的差異越來越小,并對(duì)差異降低的程度進(jìn)行了量化,為工程化的數(shù)據(jù)生成提供了量化鑒定依據(jù)。
圖7 ACGAN生成的數(shù)據(jù)集真實(shí)度損失曲線Fig.7 Dataset similarity loss line generated by ACGAN
為進(jìn)一步分析數(shù)據(jù)真實(shí)度損失曲線的影響因素,針對(duì)數(shù)據(jù)集的基本信息、冗余信息、交互信息分別進(jìn)行了畫圖,如圖8、圖9、圖10所示。由圖8、圖9、圖10可得,選取以上任意一個(gè)變量描述生成數(shù)據(jù)集的可用性都不完整,借鑒深度學(xué)習(xí)的思想,通過更高維度數(shù)據(jù)的擬合,實(shí)現(xiàn)數(shù)據(jù)的綜合描述,使得第2節(jié)中的數(shù)據(jù)集可用性描述算法的有用信息更加全面,描述數(shù)據(jù)集可用性更加合理準(zhǔn)確。
圖8 ACGAN生成的數(shù)據(jù)集基本信息真實(shí)度損失曲線Fig.8 The generated dataset basic information similarity loss line generated by ACGAN
圖9 ACGAN生成的數(shù)據(jù)冗余信息集真實(shí)度損失曲線Fig.9 Dataset redundant information similarity loss line generated by ACGAN
圖10 ACGAN生成數(shù)據(jù)交互信息集真實(shí)度損失曲線Fig.10 Dataset interaction information similarity loss line generated by ACGAN
3.2.3 GAN擴(kuò)增指揮信息系統(tǒng)數(shù)據(jù)的仿真實(shí)驗(yàn)
基于信息系統(tǒng)下的體系作戰(zhàn),強(qiáng)調(diào)得不再是某一兵種的強(qiáng)大,而是在體系下,系統(tǒng)的劣勢(shì)和優(yōu)勢(shì);各指標(biāo)之間不再是相互獨(dú)立,而是相互關(guān)聯(lián),呈現(xiàn)出多種關(guān)系,既有線性關(guān)系也有非線性關(guān)系。各指標(biāo)之間關(guān)聯(lián)關(guān)系的確定和發(fā)現(xiàn),是評(píng)定生成數(shù)據(jù)集可用性的重要依據(jù),借鑒實(shí)驗(yàn)1構(gòu)建圖片的思路,基于指揮信息系統(tǒng)指標(biāo)特征的關(guān)鍵信息,分析各特征之間的相關(guān)關(guān)系,經(jīng)過多次訓(xùn)練后發(fā)現(xiàn)關(guān)鍵信息,描述指揮信息系統(tǒng)生成數(shù)據(jù)的可用性,對(duì)生成數(shù)據(jù)的可用性進(jìn)行量化表示。
按照文獻(xiàn)[27]的方法,搭建GAN,以指揮信息系統(tǒng)模擬數(shù)據(jù)集作為原始數(shù)據(jù),擴(kuò)增數(shù)據(jù),用GAN_C來表示。由于數(shù)據(jù)格式不同,將GAN中卷積層替換為全連接神經(jīng)網(wǎng)絡(luò),判別器與生成器的層數(shù)分別為(22,128,512,128,10,1), (100, 256, 512, 256, 22),經(jīng)過10k輪后,得到圖11所示的損失函數(shù)曲線。由圖11可得,GAN并沒有到達(dá)“納什均衡”,判別器與生成器的損失曲線沒有達(dá)到平衡,還處于激烈的對(duì)抗中。
圖11 GAN_C損失函數(shù)曲線Fig.11 Loss function curve of GAN_C
采用實(shí)驗(yàn)1相同的設(shè)計(jì)思路,共迭代10k輪,每間隔625輪獲取一次實(shí)驗(yàn)數(shù)據(jù)集。數(shù)據(jù)集維度為[28,112],第1張圖片為原始數(shù)據(jù)集,共計(jì)構(gòu)建16張數(shù)據(jù)圖片,如圖12所示。從圖12可得,隨著迭代次數(shù)的增加,數(shù)據(jù)的密集度逐漸增加(圖片顯示中0為白色,數(shù)字值越接近255、顏色的飽和度越高),但是生成數(shù)據(jù)集的質(zhì)量無法進(jìn)行確定。
圖12 GAN_C生成的圖片F(xiàn)ig.12 Pictures generated by GAN_C
針對(duì)實(shí)驗(yàn)過程中產(chǎn)的模擬數(shù)據(jù)集,按照本文第2節(jié)的計(jì)算方法,對(duì)每個(gè)數(shù)據(jù)集的真實(shí)度損失值進(jìn)行了求解,可得圖13所示。由圖13可得:隨著迭代次數(shù)的增加,系統(tǒng)能夠初步獲取數(shù)據(jù)集的內(nèi)部結(jié)構(gòu)特征,能夠在某些輪次的訓(xùn)練上獲得與原始數(shù)據(jù)集接近的數(shù)據(jù);但是生成的指揮數(shù)據(jù)的真實(shí)度損失值得變化幅度較大,GAN沒有達(dá)到均衡,生成器與判別器對(duì)抗激烈,遠(yuǎn)離與接近原始數(shù)據(jù)集的概率幾乎持平,需要持續(xù)提高優(yōu)化水平,提高收斂速度;但也可由圖13得到,生成模擬數(shù)據(jù)集與原始數(shù)據(jù)集真實(shí)度的差異程度,算法對(duì)目前生成的數(shù)據(jù)集可用性能夠進(jìn)行初步的鑒定分析,為模擬訓(xùn)練數(shù)據(jù)集的評(píng)估提供分析基礎(chǔ)。
圖13 GAN_C生成的數(shù)據(jù)集真實(shí)度損失曲線Fig.13 Dataset similarity loss line generated by GAN_C
本文針對(duì)指揮信息系統(tǒng)模擬數(shù)據(jù)集質(zhì)量不穩(wěn)定,無法進(jìn)行定量評(píng)估的問題,以數(shù)據(jù)集內(nèi)部結(jié)構(gòu)關(guān)系為基礎(chǔ),基于信息論的基礎(chǔ)理論知識(shí),提出了基于相關(guān)性分析的指揮信息系統(tǒng)模擬數(shù)據(jù)集可用性評(píng)估算法。得到主要結(jié)論如下:
1)在描述各屬性之間的相關(guān)、冗余性基礎(chǔ)上,重點(diǎn)描述了屬性之間的交互性,提出了交互信息和冗余信息計(jì)算的近似公式。
2)分別構(gòu)建數(shù)據(jù)集的基本信息矩陣、冗余度張量、交互度張量,基于愛因斯坦求和約束構(gòu)建數(shù)據(jù)集的可用性張量,描述數(shù)據(jù)集各屬性的相關(guān)關(guān)系與非線性關(guān)系;根據(jù)深度學(xué)習(xí)中損失函數(shù)的求解思想,計(jì)算生成數(shù)據(jù)集與原始數(shù)據(jù)集可用性張量之間的誤差距離,從而評(píng)估生成數(shù)據(jù)集的可用性。
3)基于GAN、ACGAN的網(wǎng)絡(luò)架構(gòu)構(gòu)建數(shù)據(jù)增強(qiáng)系統(tǒng),以MINIST手寫數(shù)據(jù)與指揮信息系統(tǒng)的模擬數(shù)據(jù)為原始數(shù)據(jù)分別進(jìn)行數(shù)據(jù)擴(kuò)增,通過本文提出的數(shù)據(jù)可用性評(píng)估算法進(jìn)行定量計(jì)算,仿真結(jié)果表明算法能夠很好地評(píng)價(jià)數(shù)據(jù)集的可用性情況,為數(shù)據(jù)生成算法提供鑒定依據(jù),為全元素的指揮信息系統(tǒng)模擬訓(xùn)練提供可用的數(shù)據(jù)支撐。
參考文獻(xiàn)(References)
[1] LI X, HUANG H Z, LI X Y,et al. Reliability evaluation for the C4ISR communication system via propagation model[C]∥Proceedings of 2019 Annual Reliability and Maintainability Symposium. Orlando, FL, US: IEEE, 2019.
[2] OUYANG S J, DAI Z J, YAN C X,et al. Operational effectiveness evaluation of maritime C4ISR system based on system dyna-mics[C]∥Proceedings of the 37th Chinese Control Conference. Wuhan, China: IEEE, 2018: 8583-8588.
[3] JIAO Z, YAO P. Capability construction of C4ISR based on AI planning[J]. IEEE Access, 2019, 7: 31997-32008.
[4] XIAO B, LUO P C, CHENG Z J, et al. Systematic combat effectiveness evaluation model based on xg-boost[C]∥Proceedings of International Conference on Reliability Maintainability and Safety. Shanghai, China: IEEE, 2018: 130-134.
[5] HILL R, TOLK A. Open challenges in building combat simulation systems to support test, analysis and training[C]∥Proceedings of 2018 Winter Simulation Conference. Gothenburg, Sweden: IEEE, 2018: 3730-3741.
[6] NIU H, SONG Y, WANG R, et al. Research on integrated simulation training system for warship communication[C]∥Proceedings of International Conference on Smart Grid and Electrical Automation. Changsha, China: IEEE, 2017: 533-537.
[7] KAYA A, OZTURK R, GUMUSSOY C. Usability measurement of mobile applications with system usability scale[C]∥Proceedings of Industrial Engineering in the Big Data Era. Nevsehir, Turkey: Springer, 2019:345-358.
[8] JEON B J, Kim H W. An exploratory study on the sharing and application of public open big data[J]. Information Policy, 2017, 24(3): 27-41.
[9] MIN M. Modeling and implementation of public open data in NoSQL database[J]. International Journal of Internet, Broadcasting and Communication, 2018, 10(3):51-58.
[10] MIN M. A data design for increasing the usability of subway public data[J]. International Journal of Internet, Broadcasting and Communication, 2019, 11(4):18-25.
[11] HUANG M, LI L L, XUAN P. Evaluating data consistency with matching dependencies from multiple sources[C]∥Proceedings of International Conference on Power Data Science. Taizhou, China: IEEE, 2019: 6-10.
[12] MA S, FAN W F, BRAVO L.Extending inclusion dependencies with conditions [J]. Theoretical Computer Science, 2014, 515(1): 64-95.
[13] LI L L, LI J Z, GAO H.Evaluating entity-description conflict on duplicated data [J]. Journal of Combinatorial Optimization, 2016, 31(2): 918-941.
[14] ZHANG Y, WANG H Z, GAO H. Efficient accuracy evaluation for multi-modal sensed data[J]. Journal of Combinatorial Optimization, 2016,32(4):1068-1088.
[15] 聶凱, 欒瑞鵬. 基于數(shù)據(jù)增強(qiáng)的仿真模型驗(yàn)證方法[J].指揮控制與仿真, 2019, 41(3): 92-96.
NIE K, LUAN R P. Validation method of simulation models based on data augmentation [J]. Command Control & Simulation, 2019, 41(3): 92-96.(in Chinese)
[16] TRAGANITIS P, SLAVAKIS K. Big data clustering via random sketching and validation[C]∥Proceedings of Asilomar Conference on Signals Systems and Computers. Pacific Grove, CA, US: IEEE, 2014: 1046-1050.
[17] PACKIANATHER M, KAPOOR B. A wrapper-based feature selection approach using bees algorithm for a wood defect classification system[C]∥Proceedings of System of Systems Engineering Conference. San Antonio, TX, US: IEEE, 2015: 498-503.
[18] LI J X, RAJAN D, YANG J. Local feature embedding for supervised image classification[C]∥Proceedings of IEEE International Conference on Image Processing. Quebec City, QC, Canada: IEEE, 2015: 1300-1304.
[19] LU M T, YIN J F. A feature metric algorithm combining the wasserstein distance and mutual information[C]∥Proceedings of IEEE International Conference on Progress in Informatics and Computing. Suzhou, China: IEEE, 2018: 154-157.
[20] HOSSAIN M A, PICKERING M. Unsupervised feature extraction based on a mutual information measure for hyperspectral image classification[C]∥Proceedings of International Geoscience and Remote Sensing Symposium. Vancouver, BC, Canada:IEEE, 2011:1720-1723.
[21] ZENG Z L, ZHANG H J, ZHANG R, et al. A novel feature selection method considering feature interaction[J]. Pattern Recognition, 2015,48(8): 2656-2666.
[22] RAO Q, YU B, HE K, et al. Regularization and iterative initia-lization of SoftMax for fast training of convolutional neural networks[C]∥Proceedings of International Joint Conference on Neural Networks. Budapest, Hungary: IEEE, 2019: 19028828.
[23] ?HLANDER K. Supporting tensor symmetries in EinSum[J]. Computers & Mathematics with Applications, 2003, 45(4):789-803.
[24] BODMANN B G, SINGH P K. Burst erasures and the mean-square error for cyclic parseval frames[J]. IEEE Transactions on Information Theory, 2011, 57(7):4622-4635.
[25] ALI S S, GHANI M U. Handwritten digit recognition using DCT and HMMs[C]∥Proceedings of International Conference on Frontiers of Information Technology. Islamabad, Pakistan: IEEE, 2014: 303-306.
[26] GOODFELLOW I J, POUGET-ABADIE J,MIRZA M, et al. Generative adversarial nets[C]∥Proceedings of the 28th Annual Conference on Neural Information Processing Systems. Montreal, Canada: Neural Information Processing Systems Foundation, Inc., 2014: 2672-2680.
[27] MUDAVATHU K D B, CHANDRA SEKHARARAO M, RAMANA K V. Auxiliary conditional generative adversarial networks for image data set augmentation[C]∥Proceedings of International Conference on Inventive Computation Technologies. Coimbatore, India: IEEE, 2018: 263-269.