溫志峰
摘? 要:針對(duì)傳統(tǒng)特征標(biāo)記方法在面對(duì)海量的網(wǎng)絡(luò)數(shù)據(jù)時(shí)出現(xiàn)的定位目標(biāo)信息困難、時(shí)間和空間開銷較大等問題,提出基于加權(quán)遺傳算法的互信息特征反饋標(biāo)記方法。首先優(yōu)化數(shù)據(jù)處理流程,對(duì)目標(biāo)數(shù)據(jù)特征進(jìn)行加權(quán)處理,得到近似全局最優(yōu)解;其次用戶對(duì)文本特征或者圖像實(shí)例完成標(biāo)記,基于用戶的標(biāo)記與未標(biāo)記情況構(gòu)建雙重監(jiān)督圖;最后建立實(shí)數(shù)值推測函數(shù)并計(jì)算,獲取雙重監(jiān)督圖中未標(biāo)記的結(jié)點(diǎn)。通過仿真實(shí)驗(yàn)結(jié)果,驗(yàn)證了方法誤差較小、檢索精度較高,能夠?qū)崿F(xiàn)在大量的數(shù)據(jù)中快速找到目標(biāo)內(nèi)容。
關(guān)鍵詞:加權(quán)遺傳算法;互信息;雙重監(jiān)督圖;實(shí)數(shù)值函數(shù);近似全局最優(yōu)解
中圖分類號(hào):TP391.1;TP391.9 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)15-0087-04
Feature Marking Algorithm Based on Dynamic Weighted Conditional Network Data
WEN Zhifeng
(College of Information Engineering, Guangdong Innovative Technical College, Dongguan? 523960, China)
Abstract: Aiming at the problems that difficulties of locating target information, large time and space costs of traditional feature marking methods in the face of massive network data, a mutual information feature feedback marking method based on Weighted Genetic Algorithm is proposed. In this method, the data processing flow is optimized first, and the target data features are weighted to obtain an approximate global optimal solution. Then, the users mark text features or image instances, and a double supervision chart is constructed based on the user's marked and unmarked conditions. Finally, a real value speculation function is established and calculated to obtain unmarked nodes in the double supervision chart. The simulation results verify that the method has small error and high retrieval accuracy, and can quickly find the target content in a large amount of data.
Keywords: Weighted Genetic Algorithm; mutual information; double supervised graph; real valued function; approximate global optimal solution
0? 引? 言
隨著社會(huì)步入大數(shù)據(jù)時(shí)代,各個(gè)行業(yè)都能收集到大量種類多且價(jià)值密度低的數(shù)據(jù)。各行各業(yè)都希望從PB級(jí)大數(shù)據(jù)中分析出潛在且有價(jià)值的數(shù)據(jù),以獲取更大的利益[1]。面對(duì)數(shù)量如此巨大的信息,想要從中找到自己需要的信息簡直就如大海撈針一般困難,所以,如何在海量、無序化、多樣繁雜的數(shù)據(jù)信息中快速找到所需的信息,是如今亟待需要解決的難題之一[2]。
在交互信息中尋找自己所需的信息,特征反饋標(biāo)記方法就起到了很大的作用。也有不少相關(guān)學(xué)者對(duì)此展開研究。文獻(xiàn)[3]提出一種新的模糊粗糙集模型,并將此模型應(yīng)用于多標(biāo)記特征選擇。文獻(xiàn)[4]認(rèn)為可以利用模糊辨識(shí)關(guān)系,重新定義樣本和標(biāo)記的重要性度量,提出基于雙空間模糊辨別關(guān)系的多標(biāo)記特征選擇算法。文獻(xiàn)[5]提出基于互信息標(biāo)記?;奶卣鬟x擇算法,先用聚類將標(biāo)記?;癁槎鄠€(gè)標(biāo)記粒,再基于最大相關(guān)和最小冗余準(zhǔn)則進(jìn)行特征選擇。針對(duì)上述方法存在的問題,本文提出了基于加權(quán)遺傳算法的互信息特征反饋標(biāo)記方法。
1? 標(biāo)記特征選擇分析
在多標(biāo)記學(xué)習(xí)中,“維數(shù)災(zāi)難”問題一直困擾著研究者?!熬S數(shù)災(zāi)難”不僅提高了算法時(shí)空復(fù)雜度,同時(shí)也降低了學(xué)習(xí)器的精度。為此國內(nèi)外學(xué)者提出了大量多標(biāo)記降維方法。同單標(biāo)記學(xué)習(xí)類似,可以將多標(biāo)記降維方法分成兩種類型,一種是多標(biāo)記特征提取方法,另一種是多標(biāo)記特征選擇方法。常見的多標(biāo)記特征提取的方法有偏最小二乘法(Partial Least Squares, PLS)、線性判別分析(Linear Discriminant Analysis, LDA)、典型關(guān)聯(lián)分析法(Canonical Correlation Analysis, CCA)。雖然特征提取的方法對(duì)算法的分類性能有一定的提高,但提取出新的特征空間會(huì)失去原始特征空間的物理意義,換句話說就是破壞了原始特征空間的結(jié)構(gòu),這樣分析出來的信息就會(huì)不盡如人意。因此,許多人就轉(zhuǎn)而研究多標(biāo)記特征選擇方法[6-8]。
信息檢索流程如圖1所示。網(wǎng)民首先輸入要檢索的關(guān)鍵詞或者是圖片信息,系統(tǒng)根據(jù)任意排序函數(shù)給出Top-n個(gè)結(jié)果。如果用戶對(duì)檢索結(jié)果不滿意,繼續(xù)輸入檢索,系統(tǒng)根據(jù)用戶再次輸入的信息提供給用戶待標(biāo)記的文本特征或者圖像實(shí)例[9,10],用戶完成標(biāo)記后,標(biāo)記了“相關(guān)”的文本特征或者圖像實(shí)例的正例點(diǎn)的yi值賦予1,負(fù)例點(diǎn)為0。然后系統(tǒng)利用啟發(fā)式視覺特征標(biāo)注法(也稱為混合反饋)和構(gòu)建雙重監(jiān)督圖的方法計(jì)算用戶為標(biāo)記的文本特征或者圖像實(shí)例的f值,并對(duì)其進(jìn)行排序后反饋給用戶Top-n個(gè)檢索結(jié)果,此過程直到用戶檢索到滿意的結(jié)果終止。
2? 基于加權(quán)遺傳算法的網(wǎng)絡(luò)數(shù)據(jù)特征反饋標(biāo)記
2.1? 加權(quán)遺傳算法下加權(quán)計(jì)算
互信息是通過信息實(shí)時(shí)共享提供給用戶最優(yōu)的上網(wǎng)體驗(yàn),通過對(duì)互信息數(shù)據(jù)進(jìn)行融合與整理,確定統(tǒng)一的語義格式,以及信息的檢索流程和傳播規(guī)律,憑借加權(quán)遺傳算法將用戶賦予數(shù)據(jù)的多特征問題轉(zhuǎn)換為單一特征進(jìn)行計(jì)算。將m1、m2設(shè)為網(wǎng)絡(luò)節(jié)點(diǎn)和特征信息的權(quán)重因子,使m1 + m2 = 1,根據(jù)權(quán)重因子,構(gòu)建目標(biāo)函數(shù),并求解目標(biāo)函數(shù),獲取全局最優(yōu)解。
2.1.1? 種群初始化
計(jì)算加權(quán)后m1、m2的成本值可獲得近似全局最優(yōu)解,那么即可通過編碼的形式得到最優(yōu)特征信息。在編碼中按照實(shí)數(shù)編碼的方式,假設(shè)有3個(gè)特征信息可供選擇,編號(hào)分別為1、2、3;假設(shè)有10個(gè)基因位,將這3個(gè)特征信息隨機(jī)與這10個(gè)基因位進(jìn)行匹配。列舉一個(gè)例子來更好地說明該方法:假設(shè)有10條染色體,分別為1,3,2,2,3,1,2,1,1,3,染色體的運(yùn)動(dòng)過程即為特征信息與基因位的匹配方式,那么就有特征信息1:0→1→6→8→9;特征信息2:0→3→4→7;特征信息3:0→2→5→10。0表示的是網(wǎng)絡(luò)節(jié)點(diǎn)。這樣就得到了一種算法,通過改變種群的大小就可得到不同數(shù)量的算法,完成種群的初始化。
2.1.2? 交叉操作
假設(shè)Pc表示交叉概率,并且該值不變,再假定一個(gè)隨機(jī)數(shù)值,將隨機(jī)數(shù)的值與Pc值進(jìn)行對(duì)比,如果Pc值大于隨機(jī)數(shù)的值,則對(duì)染色體進(jìn)行交叉操作,如果Pc值小于隨機(jī)數(shù)的值,則不需要對(duì)染色體進(jìn)行交叉操作。首先對(duì)染色體的交叉點(diǎn)進(jìn)行確定,確定后對(duì)兩條染色體進(jìn)行交叉操作,從而獲取全新的兩條染色體,上述即為交叉操作的流程。
2.1.3? 變異操作
假設(shè)Pm為變異概率,并且該值同樣保持不變,再假定一個(gè)隨機(jī)數(shù)值,將隨機(jī)數(shù)的值與Pm值進(jìn)行對(duì)比,如果Pm值小于隨機(jī)數(shù)的值,則對(duì)染色體進(jìn)行變異操作,首先對(duì)染色體的變異點(diǎn)進(jìn)行確定,確定后對(duì)兩條染色體進(jìn)行變異操作,從而獲取全新的兩條染色體,上述即為變異操作的流程。
2.1.4? 適應(yīng)度計(jì)算及其排序
根據(jù)特征信息的成本值建立適應(yīng)度函數(shù),將所有染色體代入適應(yīng)度函數(shù)中,根據(jù)所得結(jié)果按照從小到大的順序進(jìn)行排列。每一次迭代計(jì)算中,只保留最優(yōu)染色體,所得結(jié)果即為近似全局最優(yōu)解。
2.1.5? 加權(quán)遺傳步驟
加權(quán)遺傳算法的基本步驟如圖2所示。
1)創(chuàng)建初始種群NIND,染色體的個(gè)數(shù)設(shè)為NP個(gè)。
2)對(duì)染色體進(jìn)行交叉操作。
3)交叉操作后,對(duì)染色體結(jié)構(gòu)進(jìn)行變異。
4)建立適應(yīng)度函數(shù),計(jì)算所有染色體的適應(yīng)度函數(shù)并保留最優(yōu)染色體。
5)設(shè)定迭代次數(shù)并進(jìn)行迭代計(jì)算,找出最優(yōu)染色體并對(duì)其進(jìn)行加權(quán)計(jì)算。
6)找出近似全局最優(yōu)染色體。
7)結(jié)束計(jì)算。
2.2? 構(gòu)建特征反饋標(biāo)記的雙重監(jiān)督圖
對(duì)互信息中的數(shù)據(jù)完成用戶視角下數(shù)據(jù)特征的加權(quán)計(jì)算后,通過文本特征和圖像實(shí)例進(jìn)行特征反饋標(biāo)記,這里采用構(gòu)建雙重監(jiān)督圖的方式來實(shí)現(xiàn)。假設(shè)網(wǎng)絡(luò)中有n個(gè)圖像實(shí)例、m個(gè)文本特征和k個(gè)視覺特征,使得t = n + m + k為特征信息總和。用戶完成標(biāo)記后,獲得了l個(gè)數(shù)據(jù)信息(x1,y1),(x2,y2)…(xl1,yl1),(xl1+1,yl1+1)…(x1,y1),y1∈{-1,1},其中,前l(fā)1個(gè)表示的是文本特征與標(biāo)簽,后l~l1個(gè)表示的是圖像實(shí)例與標(biāo)簽。假設(shè)有u個(gè)特征未標(biāo)記,那么u = n + m + k - l,其中l(wèi)<
2.2.1? 構(gòu)建標(biāo)記推測函數(shù)
在圖像G上構(gòu)建一個(gè)實(shí)數(shù)值函數(shù)f:V→?,使得圖中所有的標(biāo)記樣本都滿足條件:f (i ) ≡ fl (i ) ≡ yi。這里在基于圖的半監(jiān)督學(xué)習(xí)法的基礎(chǔ)上,提出假設(shè)“相近的點(diǎn)具有相同的標(biāo)記”,同理可知,相近的未標(biāo)記的點(diǎn)也具有相同的標(biāo)記。以此假設(shè)為基礎(chǔ),定義二次能量函數(shù)為:
式中,f表示標(biāo)記樣本i、j的實(shí)數(shù)值函數(shù)。
再利用高斯場為f函數(shù)定義一個(gè)概率分布:
其中,β表示逆溫參數(shù)。Zβ在所有已經(jīng)標(biāo)記的樣本中利用f函數(shù)進(jìn)行了歸一化處理。
2.2.2? 計(jì)算推測函數(shù)
為了簡便計(jì)算過程,將W矩陣分成4塊:
綜上所述,本文提出的基于加權(quán)遺傳算法的互信息特征反饋標(biāo)記方法的具體流程如圖4所示。
3? 仿真實(shí)驗(yàn)分析
為了驗(yàn)證本文提出的基于加權(quán)遺傳算法的互信息特征反饋標(biāo)記方法在實(shí)際應(yīng)用中的有效性,進(jìn)行一次仿真實(shí)驗(yàn)分析。將文獻(xiàn)[3]方法和文獻(xiàn)[4]方法作為對(duì)比方法,且文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和本文方法所處的實(shí)驗(yàn)環(huán)境、網(wǎng)絡(luò)條件以及用戶對(duì)數(shù)據(jù)的反饋均為相同的。本文通過檢索精度和效率來從側(cè)面驗(yàn)證標(biāo)記方法的優(yōu)劣。對(duì)比結(jié)果如圖5和表1所示。
從圖5中的曲線變化可以看出,本文方法與其他兩種方法相比有著較高的檢索精度,且整體變化平穩(wěn),無較大的波動(dòng)。
從表1中可以看出,與其他兩種方法相比,本文方法有著較高的檢索效率。這是由于本文利用加權(quán)遺傳算法將復(fù)雜的用戶反饋簡化為單一問題計(jì)算,降低了冗余信息對(duì)反饋標(biāo)記的干擾,同時(shí)減少了繁雜的計(jì)算過程,使標(biāo)記結(jié)果更符合互信息用戶需求。
4? 結(jié)? 論
為了讓網(wǎng)民在海量的計(jì)算機(jī)數(shù)據(jù)中快速找到自己所需的信息,本文提出了基于加權(quán)遺傳算法的互信息特征反饋標(biāo)記方法。通過數(shù)據(jù)資源的融合與整理、數(shù)據(jù)資源特征反饋傳播路徑和信息檢索步驟分析,采用加權(quán)遺傳算法對(duì)特征信息進(jìn)行加權(quán)計(jì)算,得到近似全局最優(yōu)解,根據(jù)用戶對(duì)特征信息的標(biāo)記與未標(biāo)記情況構(gòu)建雙重監(jiān)督圖以及實(shí)數(shù)值推測函數(shù),更深層次的了解用戶的需求。通過仿真對(duì)比實(shí)驗(yàn),檢驗(yàn)了所提的互信息特征反饋標(biāo)記效果好、檢索時(shí)間短、效率高及精度高,體現(xiàn)了所提方法的優(yōu)越性。
參考文獻(xiàn):
[1] 孫林,徐楓,王振,等.基于標(biāo)記權(quán)重和mRMR的多標(biāo)記特征選擇 [J].山西大學(xué)學(xué)報(bào):自然科學(xué)版,2023,46(1):40-52.
[2] 孫林,杜雯娟,李碩,等.基于標(biāo)記相關(guān)性和ReliefF的多標(biāo)記特征選擇 [J].西北大學(xué)學(xué)報(bào):自然科學(xué)版,2022,52(5):834-846.
[3] 徐久成,申凱麗.基于雙空間模糊鄰域相似關(guān)系的多標(biāo)記特征選擇 [J].模式識(shí)別與人工智能,2022,35(9):805-815.
[4] 程玉勝,李雨,王一賓,等.結(jié)合滑動(dòng)窗口與模糊互信息的多標(biāo)記流特征選擇 [J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(2):320-327.
[5] 盧舜,林耀進(jìn),吳鎰潾,等.基于多粒度一致性鄰域的多標(biāo)記特征選擇 [J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2022,58(1):60-70.
[6] 姚二亮,李德玉.多標(biāo)記特征選擇算法的綜述 [J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2020,52(4):16-27.
[7] 李閃閃,潘正高.基于互信息的多標(biāo)記特征選擇 [J].宿州學(xué)院學(xué)報(bào),2019,34(5):61-67.
[8] 廖大強(qiáng).基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)關(guān)聯(lián)挖掘算法設(shè)計(jì) [J].科技通報(bào),2019,35(8):125-128.
[9] 程玉勝,陳飛,王一賓.基于粗糙集的數(shù)據(jù)流多標(biāo)記分布特征選擇 [J].計(jì)算機(jī)應(yīng)用,2018,38(11):3105-3111+3118.
[10] 孫林,潘俊方,張霄雨,等.一種基于鄰域粗糙集的多標(biāo)記專屬特征選擇方法 [J].計(jì)算機(jī)科學(xué),2018,45(1):173-178.