劉言林
(安徽三聯(lián)學(xué)院 電子電氣工程學(xué)院,安徽 合肥 230601)
數(shù)據(jù)處理工作是現(xiàn)代人們工作和生活中的一個(gè)重要內(nèi)容,人們?cè)谑褂糜?jì)算機(jī)或智能終端時(shí),會(huì)產(chǎn)生大量數(shù)據(jù),這些數(shù)據(jù)中包含大量高維數(shù)據(jù),在處理這些高維數(shù)據(jù)時(shí),將面對(duì)數(shù)據(jù)量大和計(jì)算復(fù)雜的問(wèn)題,限制了很多數(shù)據(jù)處理技術(shù)的發(fā)揮[1-3].特別是為了向用戶(hù)提供更好更及時(shí)的信息化服務(wù),在服務(wù)的智能化設(shè)計(jì)中使用了機(jī)器學(xué)習(xí)技術(shù),在高維數(shù)據(jù)爆發(fā)的情況下,小樣本問(wèn)題比較突出,數(shù)據(jù)處理非常困難[4].
針對(duì)上述描述的情況,目前對(duì)數(shù)據(jù)處理技術(shù)的研究,國(guó)內(nèi)外已經(jīng)有很多成熟的技術(shù),研究比較多的是數(shù)據(jù)處理算法,數(shù)據(jù)處理算法與其他數(shù)據(jù)處理技術(shù)相比,不需要額外的硬件嵌入,也不需要加入其他的軟件內(nèi)容,可以直接加載使用,在一定程度上減小了數(shù)據(jù)處理成本的投入[5-7].但是在使用過(guò)程中,受到數(shù)據(jù)自身特性的影響,部分?jǐn)?shù)據(jù)處理算法存在一些問(wèn)題.如文獻(xiàn)[8]中提到的基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法,使用物聯(lián)網(wǎng)技術(shù)提高了數(shù)據(jù)處理的速度和反饋速度,但是面對(duì)具有不平衡特質(zhì)的高維數(shù)據(jù),處理效果非常不理想,整理泛化能力比較差.文獻(xiàn)[9]設(shè)計(jì)的基于智能優(yōu)化算法的數(shù)據(jù)處理算法存在同樣的問(wèn)題,該算法利用OpenMP應(yīng)用程序接口實(shí)現(xiàn)了數(shù)據(jù)處理的并行化,并設(shè)計(jì)了針對(duì)并行化處理的優(yōu)化策略,降低了數(shù)據(jù)處理的計(jì)算復(fù)雜度,但是在實(shí)際處理數(shù)據(jù)的算法中,數(shù)據(jù)不平穩(wěn)問(wèn)題并沒(méi)有得到解決,數(shù)據(jù)處理算法的泛化能力需要進(jìn)一步加強(qiáng).因此,將條件生成對(duì)抗網(wǎng)絡(luò)應(yīng)用到小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理算法的設(shè)計(jì)中,以解決上述常規(guī)的數(shù)據(jù)處理算法中存在的問(wèn)題.
在條件生成對(duì)抗網(wǎng)絡(luò)下,小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理算法的具體步驟如下.
步驟1 將小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)映射到Hibert空間內(nèi);
步驟2 將數(shù)據(jù)特征提取問(wèn)題轉(zhuǎn)化為線性求解問(wèn)題,計(jì)算空間內(nèi)數(shù)據(jù)各個(gè)投影方向的線性標(biāo)出,得到相應(yīng)的樣本特征值,由對(duì)應(yīng)的特征向量構(gòu)成特征矩陣,得到樣本數(shù)據(jù)特征矩陣;
步驟3 在不平衡的狀態(tài)下,適當(dāng)調(diào)整信息熵,直到相對(duì)熵達(dá)到設(shè)定的平衡目標(biāo),計(jì)算各個(gè)樣本數(shù)據(jù)特征矩陣的信息熵和互信息,根據(jù)互信息計(jì)算結(jié)果調(diào)整目標(biāo)的相對(duì)熵,使數(shù)據(jù)達(dá)到平衡;
步驟4 將處理后的數(shù)據(jù)輸入到條件生成對(duì)抗網(wǎng)絡(luò)中,以數(shù)據(jù)處理目標(biāo)作為目標(biāo)函數(shù),判別器達(dá)到最優(yōu)結(jié)果,在給定網(wǎng)絡(luò)最優(yōu)判別器的條件下,輸出最優(yōu)結(jié)果,完成小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理.
假設(shè)在小樣本空間內(nèi)存在任意集合Q,定義Q上存在Hibert空間H,由復(fù)值函數(shù)構(gòu)成,對(duì)于任意一個(gè)q∈Q,在H空間內(nèi)的映射結(jié)果是連續(xù)的[10].默認(rèn)?q∈Q,在H空間內(nèi)存在唯一的元素Sq,同時(shí)Sq也是H空間的復(fù)值函數(shù),由此可知
(1)
公式(1)中的二元函數(shù)是H空間內(nèi)的唯一再生核,從這一計(jì)算結(jié)果可知,每一個(gè)小樣本空間內(nèi)的再生核都有唯一的空間與其相對(duì)應(yīng)[11].由此確定小樣本空間內(nèi)元素再生核的函數(shù)值,表示為
S(x,y)=S(y,x)=
(2)
利用上述再生核理論,將小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)q1,q2,…,qn映射到H空間內(nèi),得到數(shù)據(jù)φ(q1),φ(q2),…,φ(qn),在此空間下,將特征提取轉(zhuǎn)變?yōu)榍蠼庾顑?yōu)化問(wèn)題.
(3)
(4)
公式(4)中,a′表示投影方向轉(zhuǎn)置,DB和DW表示變換后的類(lèi)間散布和類(lèi)內(nèi)散布,uj表示總均值,vi表示第i類(lèi)均值[12].將樣本整體均值變換為
(5)
根據(jù)上述計(jì)算公式,得到相應(yīng)的樣本特征值,由對(duì)應(yīng)的特征向量構(gòu)成特征矩陣,用于后續(xù)計(jì)算數(shù)據(jù)相對(duì)熵.
數(shù)據(jù)處理中需要處理不平衡數(shù)據(jù),計(jì)算數(shù)據(jù)特征相對(duì)熵,根據(jù)相對(duì)熵的變化,平衡小樣本數(shù)據(jù)類(lèi)[13-14].默認(rèn)計(jì)算得到的特征矩陣X的概率分布為p(x),X∈Ω,Ω是有限集合,將X的信息熵定義為
(6)
設(shè)兩個(gè)不同類(lèi)的特征矩陣X和Y的聯(lián)合概率分布為p(x,y),則X和Y的互信息為
(7)
公式中,p(x)和p(y)分別表示X和Y的邊緣概率.互信息的計(jì)算有助于了解目標(biāo)數(shù)據(jù)的信息量減少了多少,從而調(diào)整數(shù)據(jù)的信息熵,計(jì)算兩者的相互熵,調(diào)整數(shù)據(jù)間的平衡水平.相對(duì)熵的計(jì)算公式為
(8)
用相對(duì)熵衡量隨機(jī)X和Y的平衡性,在不平衡的狀態(tài)下,適當(dāng)調(diào)整信息熵,直到相對(duì)熵達(dá)到設(shè)定的平衡目標(biāo),再將數(shù)據(jù)輸入到條件生成對(duì)抗網(wǎng)絡(luò)中,實(shí)現(xiàn)小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理.
在數(shù)據(jù)處理時(shí),給定條件生成對(duì)抗網(wǎng)絡(luò)T,對(duì)應(yīng)的最優(yōu)判別器為Z,數(shù)據(jù)處理完成的標(biāo)志是判別器Z達(dá)到最優(yōu)結(jié)果,輸出如下內(nèi)容
(9)
公式(9)中,hdata(x)表示網(wǎng)絡(luò)中數(shù)據(jù)處理前最小化真實(shí)分布,ht(x)表示條件生成對(duì)抗網(wǎng)絡(luò)生成數(shù)據(jù)分布,將兩者之間的散度JS作為與數(shù)據(jù)處理目標(biāo)等價(jià)的目標(biāo)函數(shù),表示為
(10)
在給定網(wǎng)絡(luò)最優(yōu)判別器的條件下,求解公式(10),在生成數(shù)據(jù)內(nèi)容與原始數(shù)據(jù)內(nèi)容基本一致的情況下,實(shí)現(xiàn)對(duì)小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)的處理.具體流程圖如圖1所示.
圖1 小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理流程圖
在小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理算法實(shí)驗(yàn)研究中,從公共數(shù)據(jù)集UCI中[15]選取四個(gè)數(shù)據(jù)集作為目標(biāo),分別是Iris數(shù)據(jù)集,內(nèi)含樣本數(shù)量為75;Sonar數(shù)據(jù)集,內(nèi)含樣本數(shù)量100;Ionosphere數(shù)據(jù)集,內(nèi)含樣本數(shù)量202;Wine數(shù)據(jù)集,內(nèi)含數(shù)據(jù)集89.
以上述數(shù)據(jù)作為基礎(chǔ),通過(guò)所研究的小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理算法對(duì)數(shù)據(jù)尋優(yōu)處理.在實(shí)驗(yàn)前,將參數(shù)信息中的第一維數(shù)據(jù)轉(zhuǎn)換為整數(shù),設(shè)置附近的近鄰參數(shù).在設(shè)置完成后,在數(shù)據(jù)集上執(zhí)行設(shè)計(jì)的數(shù)據(jù)處理算法.具體實(shí)驗(yàn)步驟如下所示.
步驟1 設(shè)小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)初始權(quán)值矢量為隨機(jī)獲取;
步驟2 通過(guò)公式(10)對(duì)判別器達(dá)到最優(yōu)的結(jié)果更新;
步驟3 根據(jù)更新結(jié)果進(jìn)行歸一化處理;
步驟4 基于條件生成對(duì)抗網(wǎng)絡(luò),若實(shí)現(xiàn)小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理,則算法停止收斂;若未實(shí)現(xiàn),則跳轉(zhuǎn)回步驟二繼續(xù)執(zhí)行,直至處理出一個(gè)獨(dú)立分量后結(jié)束收斂.
根據(jù)上述過(guò)程,得到的結(jié)果如圖2所示.
圖2 數(shù)據(jù)處理算法在Wine數(shù)據(jù)集的參數(shù)尋優(yōu)結(jié)果
從圖2中可以看出,在8-30、32-83輪迭代時(shí),算法陷入了局部最優(yōu)的情況,但是由于數(shù)據(jù)處理算法在設(shè)計(jì)中優(yōu)化了數(shù)據(jù)不平衡問(wèn)題,使得小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理算法在一定程度上可以脫離局部最優(yōu),實(shí)現(xiàn)全局最優(yōu)解.因此基于條件生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法在實(shí)際應(yīng)用中具有較高水平的可行性.為了進(jìn)一步說(shuō)明數(shù)據(jù)處理算法的全局最優(yōu)性,設(shè)計(jì)兩組對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)?zāi)繕?biāo)為設(shè)計(jì)的數(shù)據(jù)處理算法、常規(guī)的基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法以及基于智能優(yōu)化算法的數(shù)據(jù)處理算法,通過(guò)數(shù)據(jù)分類(lèi)實(shí)驗(yàn)和AUC曲線分析數(shù)據(jù)處理算法的泛化能力.
根據(jù)圖3中可知,人工不平衡數(shù)據(jù)集中正樣本和負(fù)樣本數(shù)據(jù)之間的不平衡性對(duì)比明顯,并且數(shù)據(jù)在二維空間上的分布趨向于橢圓形,說(shuō)明實(shí)驗(yàn)數(shù)據(jù)集是從標(biāo)準(zhǔn)高斯分布變換而來(lái)的.在以往的研究中,不平衡數(shù)據(jù)會(huì)對(duì)數(shù)據(jù)處理算法產(chǎn)生負(fù)面影響,處理效果會(huì)變差.在實(shí)驗(yàn)中,控制正負(fù)樣本比例,對(duì)產(chǎn)生的數(shù)據(jù)集進(jìn)行學(xué)習(xí),利用本文算法、文獻(xiàn)[8]基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法以及文獻(xiàn)[9]基于智能優(yōu)化的數(shù)據(jù)處理算法,得到ROC曲線對(duì)比結(jié)果,如圖4所示.
圖3 人工不平衡數(shù)據(jù)集圖4 不同數(shù)據(jù)處理算法數(shù)據(jù)分類(lèi)實(shí)驗(yàn)結(jié)果
圖4中顯示的橫坐標(biāo)FP-rate和縱坐標(biāo)TP-rate分別表示分類(lèi)錯(cuò)誤的負(fù)樣本和正樣本在總樣本內(nèi)的占比.觀察圖中顯示的ROC曲線可知,三組實(shí)驗(yàn)結(jié)果中,曲線c與FP-rate軸圍成的面積最大,曲線a與FP-rate軸圍城的面積最小,經(jīng)過(guò)計(jì)算可知,基于智能優(yōu)化算法的數(shù)據(jù)處理算法AUC值為0.9037,基于物聯(lián)網(wǎng)的數(shù)據(jù)處理算法的AUC值為0.8347,提出的數(shù)據(jù)處理算法的AUC值為0.9545,在數(shù)據(jù)分類(lèi)中,AUC值越高說(shuō)明數(shù)據(jù)處理算法的數(shù)據(jù)分類(lèi)效果越好.
為了進(jìn)一步驗(yàn)證提出的數(shù)據(jù)處理算法的真實(shí)水平,調(diào)整正負(fù)樣本的比例,計(jì)算各個(gè)數(shù)據(jù)處理算法的AUC值,依據(jù)計(jì)算結(jié)果對(duì)比分析各個(gè)數(shù)據(jù)處理算法的實(shí)際性能.得到的計(jì)算結(jié)果如表1所示.
通過(guò)表1中顯示的數(shù)據(jù)可知,隨著正負(fù)樣本比例的增加,數(shù)據(jù)處理算法的AUC值越來(lái)越低,說(shuō)明分類(lèi)效果越來(lái)越差.相比之下,設(shè)計(jì)的基于條件生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法在不同的正負(fù)樣本比例條件下,AUC值較高,變化比較小.將以上計(jì)算結(jié)果與各個(gè)算法的ROC曲線變化結(jié)合在一起分析可知,設(shè)計(jì)的基于條件生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法數(shù)據(jù)分類(lèi)效果更好.
表1 不同數(shù)據(jù)處理算法的AUC指標(biāo)
從上述實(shí)驗(yàn)結(jié)果中可以看出,提出的數(shù)據(jù)處理算法針對(duì)小樣本不平衡數(shù)據(jù),分類(lèi)處理效果更好.基于此內(nèi)容,通過(guò)可視化技術(shù)將經(jīng)過(guò)數(shù)據(jù)處理算法處理后的數(shù)據(jù)展示出來(lái),數(shù)據(jù)平衡實(shí)驗(yàn)對(duì)比結(jié)果如圖5所示.
圖5 不同數(shù)據(jù)處理算法的數(shù)據(jù)平衡實(shí)驗(yàn)結(jié)果
從圖5中可以看出,圖5(a)中負(fù)樣本分割明顯,但正樣本數(shù)據(jù)分布在負(fù)樣本周?chē)鷶?shù)據(jù)交叉融合在一起,數(shù)據(jù)明顯不平衡;圖5(b)中實(shí)驗(yàn)結(jié)果顯示,負(fù)樣本數(shù)據(jù)與正樣本數(shù)據(jù)雜糅在一起,沒(méi)有明顯的界線,數(shù)據(jù)平衡性差;圖5(c)中實(shí)驗(yàn)結(jié)果顯示,正負(fù)樣本分割明顯,并且簇形式明顯,數(shù)據(jù)平衡性好.綜上所述,設(shè)計(jì)的基于條件生成對(duì)抗網(wǎng)絡(luò)的小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理算法數(shù)據(jù)分類(lèi)效果好,數(shù)據(jù)平衡化處理效果好,整體泛化能力優(yōu)于常規(guī)的數(shù)據(jù)處理算法.
本文以小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)作為研究目標(biāo),在條件生成對(duì)抗網(wǎng)絡(luò)的支持下,設(shè)計(jì)針對(duì)小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)的數(shù)據(jù)處理算法.在該算法設(shè)計(jì)中,主要針對(duì)算法的泛化能力進(jìn)行優(yōu)化設(shè)計(jì),在設(shè)計(jì)完成后,以常規(guī)的數(shù)據(jù)處理算法作為參考,經(jīng)過(guò)大量對(duì)比實(shí)驗(yàn)的驗(yàn)證,證明了基于條件生成對(duì)抗網(wǎng)絡(luò)的數(shù)據(jù)處理算法具有非常好的泛化能力,為小樣本機(jī)器學(xué)習(xí)數(shù)據(jù)處理提供了一定的技術(shù)支持和理論支持.但是,在實(shí)驗(yàn)研究過(guò)程中,并沒(méi)有對(duì)條件生成對(duì)抗網(wǎng)絡(luò)的應(yīng)用情況進(jìn)行驗(yàn)證,無(wú)法確定條件生成對(duì)抗網(wǎng)絡(luò)在數(shù)據(jù)處理中發(fā)揮的水平,在后續(xù)研究中,將從這一方面展開(kāi)研究,從條件生成對(duì)抗網(wǎng)絡(luò)的優(yōu)化和技術(shù)更新入手,進(jìn)一步完善數(shù)據(jù)處理算法.
寧夏師范學(xué)院學(xué)報(bào)2021年10期