網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150317.1025.002.html
一種新穎的領(lǐng)域自適應(yīng)概率密度估計(jì)器
許敏1,2,俞林2
(1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214122; 2. 無(wú)錫職業(yè)技術(shù)學(xué)院 物聯(lián)網(wǎng)技術(shù)學(xué)院,江蘇 無(wú)錫 214121)
摘要:傳統(tǒng)概率密度估計(jì)法建立好密度估計(jì)模型后,無(wú)法將源域知識(shí)傳遞給相關(guān)目標(biāo)域密度估計(jì)模型。提出用無(wú)偏置v-SVR的回歸函數(shù)來(lái)表示傳統(tǒng)概率密度估計(jì)法獲得密度估計(jì)信息,并說(shuō)明無(wú)偏置v-SVR等價(jià)于中心約束最小包含球及概率密度回歸函數(shù)可由中心約束最小包含球中心點(diǎn)表示。在上述理論基礎(chǔ)上提出中心點(diǎn)知識(shí)傳遞領(lǐng)域自適應(yīng)概率密度估計(jì)法,用于解決因目標(biāo)域信息不足而無(wú)法建立概率密度函數(shù)的場(chǎng)景。實(shí)驗(yàn)表明,此種領(lǐng)域自適應(yīng)方法進(jìn)行領(lǐng)域間知識(shí)傳遞的同時(shí),還能達(dá)到源域隱私保護(hù)的目的。
關(guān)鍵詞:概率密度函數(shù);無(wú)偏置v-SVR;中心約束最小包含球;核心集;領(lǐng)域自適應(yīng)
DOI:10.3969/j.issn.1673-4785.201312041
中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A
收稿日期:2013-12-20. 網(wǎng)絡(luò)出版日期:2015-03-17.
基金項(xiàng)目:江蘇省高校自然科學(xué)研究資助項(xiàng)目(13KJB520001);江蘇省高校哲學(xué)社會(huì)科學(xué)基金資助項(xiàng)目(2012SJB880077);江蘇省研究生創(chuàng)新工程資助項(xiàng)目(CXZZ12-0759).
作者簡(jiǎn)介:
中文引用格式:許敏,俞林. 一種新穎的領(lǐng)域自適應(yīng)概率密度估計(jì)器[J]. 智能系統(tǒng)學(xué)報(bào), 2015, 10(2): 221-226.
英文引用格式:XU Min, YU Lin. A probability density estimator for domain adaptation[J]. CAAI Transactions on Intelligent Systems, 2015, 10(2): 221-226.
A probability density estimator for domain adaptation
XU Min1,2, YU Lin2
(1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. School of Internet of Things Technology, Wuxi Institute of Technology, Wuxi 214121, China)
Abstract:This paper proposes that the density information received from the traditional probability density estimation method can be represented by no bias v-SVRregression function. It addresses the problem that after the source domain's probability density estimation model is established using the traditional probability density estimation method its source domain knowledge can not be transferred to the relevant target domain's density estimation model. In this paper, no bias v-SVR is equivalent to the center-constrained minimum enclosing ball (CC-MEB) and the probability density regression function is constrained by CC-MEB's center point is described. On the basis of the above theory, an adaptive probability density evaluation method for transferring knowledge through the center point was put forward to solve the problem that an accurate probability density estimation model can not be established because of the lack of information of the target domain. The experiments showed that this adaptive method can reach the goals of knowledge transfer between domains and privacy protection in the source domain.
Keywords:probability density estimation; no bias v-SVR; center-constrained minimum enclosing ball(CC-MEB); core set; domain adaptation
通信作者:許敏. E-mail:xum@wxit.edu.cn.
概率密度估計(jì)常見(jiàn)的做法是根據(jù)所得數(shù)據(jù)建立概率密度函數(shù)(probability density function, PDF),在機(jī)器學(xué)習(xí)和模式識(shí)別中具有非常重要的作用[1],如聚類(lèi)分析[2]等。通常概率密度估計(jì)法分參數(shù)估計(jì)和非參數(shù)估計(jì)2類(lèi)。因真實(shí)數(shù)據(jù)概率密度分布不可知,故非參數(shù)核密度估計(jì)法(kernel density estimation, KDE)[3]是采用較廣泛的方法。因KDE需要所有樣本參與計(jì)算且需存儲(chǔ)所有數(shù)據(jù),故壓縮集概率密度估計(jì)器[4]和快速壓縮集概率密度估計(jì)器[5]被提出以解決存儲(chǔ)空間和運(yùn)行效率問(wèn)題。上述傳統(tǒng)的概率密度估計(jì)法效果顯著但均未考慮領(lǐng)域間自適應(yīng)學(xué)習(xí)的問(wèn)題。在實(shí)際應(yīng)用中存在這樣的場(chǎng)景,已有源域數(shù)據(jù)集數(shù)據(jù)量大、密度估計(jì)精確;但相關(guān)目標(biāo)域數(shù)據(jù)集由于隱私保護(hù)或數(shù)據(jù)遺失等原因只獲得少量數(shù)據(jù),這些數(shù)據(jù)是目標(biāo)域真實(shí)信息但卻不足以建立目標(biāo)域PDF。如何既保證目標(biāo)域已知數(shù)據(jù)對(duì)建立目標(biāo)域PDF的作用,又能利用源域知識(shí)對(duì)目標(biāo)域信息不足部分加以彌補(bǔ)是本文研究的重點(diǎn)。
1DADE模型
1.1DADE模型理論依據(jù)
領(lǐng)域自適應(yīng)概率密度估計(jì)器的應(yīng)用前提是存在兩相關(guān)領(lǐng)域,兩域通過(guò)傳統(tǒng)密度估計(jì)法,如Parzen窗法獲得概率密度估計(jì)值,形成(x,y)對(duì)。其中,x是輸入向量,y是概率密度估計(jì)值。源域(x,y)對(duì)足以構(gòu)建概率密度函數(shù),而出于隱私保護(hù)或數(shù)據(jù)遺失等原因,一些高度機(jī)密的數(shù)據(jù)無(wú)法獲得,所得少量目標(biāo)域(x,y)信息精確,但不足以構(gòu)建目標(biāo)域概率密度函數(shù)。
傳統(tǒng)密度估計(jì)法本身不能進(jìn)行領(lǐng)域間知識(shí)傳遞,本文的貢獻(xiàn)在于使用無(wú)偏置v-SVR回歸函數(shù)表示概率密度函數(shù),這樣做的優(yōu)勢(shì)在于:
1)無(wú)偏置v-SVR等價(jià)于CC-MEB的特性,可使用核心集[6-8]代替源域所有數(shù)據(jù)建立概率密度函數(shù),提高密度估計(jì)效率;
2)密度回歸函數(shù)f(x)可由CC-MEB中心點(diǎn)表示,提出中心點(diǎn)知識(shí)傳遞模型[9],實(shí)現(xiàn)相似領(lǐng)域間領(lǐng)域自適應(yīng)概率密度器的建立,若使用源域核心集代替所有源域樣本表示源域中心點(diǎn),還可起到源域隱私保護(hù)的目的。
1.2DADE模型架構(gòu)
設(shè)訓(xùn)練集T={(x1,y1),…,(xl,yl)},其中輸入向量xi∈Rn,輸出向量yi∈Y=R為概率密度估計(jì)值,i=1,2,…,l。本文用無(wú)偏置支持向量回歸函數(shù)y=wTφ(x)建立概率密度估計(jì)函數(shù),與傳統(tǒng)v-SVR相比,沒(méi)有b項(xiàng),文章下面部分介紹無(wú)偏置v-SVR。
1.2.1無(wú)偏置v-SVR
無(wú)偏置v-SVR試圖尋找Rn上的一個(gè)實(shí)值函數(shù)g(x),以便使用y=g(x)來(lái)推斷任一輸入x所對(duì)應(yīng)的輸出值y。通常訓(xùn)練集在輸入空間線(xiàn)性不可分,故引入映射函數(shù)φ(x)將xi映射到高維空間φ(xi)中。 無(wú)偏置v-SVR原始優(yōu)化問(wèn)題如下:
(1)
式中:(*)表示向量有*號(hào)和無(wú)*號(hào)2種情況。為導(dǎo)出原始問(wèn)題(1)的對(duì)偶問(wèn)題,引入拉格朗日函數(shù):
(2)
為了使式(2)最小化,對(duì)L關(guān)于向量w和變量ε、ξi(*)求偏導(dǎo)數(shù),得
(3)
(4)
(5)
將式(3) 、(4)帶入式(2),可得對(duì)偶優(yōu)化問(wèn)題:
(6)
最終所得回歸函數(shù):
(7)
1.2.2無(wú)偏置v-SVR與CC-MEB
1)CC-MEB
(8)
(9)
使用最優(yōu)解β,可得到半徑R、中心點(diǎn)c的值:
(10)
因?yàn)棣耇1=1,任意實(shí)數(shù)η加入公式,不會(huì)影響β的取值。原對(duì)偶形式改為
(11)
文獻(xiàn)[6]指出,任意滿(mǎn)足式(11)的QP問(wèn)題均能看作CC-MEB問(wèn)題,可運(yùn)用核心集快速算法求解。把整個(gè)數(shù)據(jù)集合S的求解轉(zhuǎn)化成對(duì)S的一個(gè)子集Q的求解,可得到一個(gè)精確有效的近似解,其中Q被稱(chēng)為核心集。具體方法參見(jiàn)文獻(xiàn)[6]。
2) 無(wú)偏置v-SVR與CC-MEB間關(guān)系
(12)
(13)
式(13)為無(wú)偏置v-SVR的QP形式,與式(11)相比較,求Δ的值:
(14)
式中:實(shí)數(shù)η足夠大,以使Δ≥0。式就可以寫(xiě)成
(15)
按式(15)求解,球心c可按下面公式計(jì)算:
(16)
式(3)中的w就可簡(jiǎn)化為w=λc。故
(17)
由式(17)可獲得以下兩結(jié)論:
1)無(wú)偏置v-SVR等價(jià)于CC-MEB,故可用核心集技術(shù)進(jìn)行快速求解;
2)概率密度回歸曲線(xiàn)可由其二次規(guī)劃形式等價(jià)的CC-MEB的中心點(diǎn)表示。
1.2.3DADE模型
從1.2.2節(jié)分析可知,無(wú)偏置v-SVR等價(jià)于CC-MEB,概率密度函數(shù)由CC-MEB中心點(diǎn)表示。在此理論基礎(chǔ)上,本文提出通過(guò)學(xué)習(xí)源域中心點(diǎn)將源域知識(shí)傳遞給目標(biāo)域,構(gòu)造學(xué)習(xí)源域知識(shí)且與目標(biāo)域無(wú)偏置v-SVR等價(jià)的CC-MEB,此CC-MEB的中心點(diǎn)可用于目標(biāo)域概率密度函數(shù)的建立。
學(xué)習(xí)源域中心點(diǎn)的CC-MEB原始問(wèn)題如下:
(18)
引入拉格朗日乘子變量,在約束條件下構(gòu)造式(18)的拉格朗日函數(shù):
(19)
由最優(yōu)化理論可知,式(19)在鞍點(diǎn)處取極值,在鞍點(diǎn)處L關(guān)于變量c和R的偏微分:
(20)
將(20)代入(19),該問(wèn)題的對(duì)偶形式為:
(21)
(22)
2實(shí)驗(yàn)與分析
2.1實(shí)驗(yàn)設(shè)置
本文實(shí)驗(yàn)將本文所提算法與如下3個(gè)方面的回歸函數(shù)進(jìn)行性能對(duì)比:1)直接使用源域數(shù)據(jù)構(gòu)建概率密度回歸函數(shù); 2)直接使用包含少量信息的目標(biāo)域數(shù)據(jù)構(gòu)建概率密度回歸函數(shù);3)使用源域、目標(biāo)域數(shù)據(jù)共同構(gòu)建概率密度回歸函數(shù)。從而來(lái)體現(xiàn)本文所提算法的優(yōu)勢(shì)。
實(shí)驗(yàn)環(huán)境為:IntelCore2 2.40GHzCPU, 2.39GHz、1.94GBRAM,WindowsXPSP3,MATLAB7.1。
2.2實(shí)驗(yàn)結(jié)果與分析
為了利用源域知識(shí)彌補(bǔ)當(dāng)前場(chǎng)景下信息過(guò)少造成受訓(xùn)系統(tǒng)泛化能力下降之缺陷,模擬數(shù)據(jù)集的構(gòu)造需遵循以下原則:1)源域和目標(biāo)域之間既有很大相似性,又存在區(qū)別;2)已知的目標(biāo)域數(shù)據(jù)集(x,y)是精確的,但由于樣本過(guò)少,不能構(gòu)建出概率密度估計(jì)回歸函數(shù)。
為了表征上述原則,首先生成樣本數(shù)較多且能精確表示概率密度分布均值為0、方差為1的源域數(shù)據(jù)集,需指出的是文章1.2.2節(jié)說(shuō)明無(wú)偏置v-SVR與CC-MEB等價(jià)且概率密度函數(shù)可由CC-MEB中心點(diǎn)組成,若源域有數(shù)據(jù)隱私保護(hù)的需要,還可通過(guò)核心集技術(shù),求得源域數(shù)據(jù)集的核心集,由少量核心集元素表示源域CC-MEB的中心點(diǎn),進(jìn)行遷移學(xué)習(xí)。另一方面,為了表示目標(biāo)域與源域相近但不同,目標(biāo)域設(shè)置時(shí)對(duì)均值、方差進(jìn)行漂移,分均值、方差、均值方差均漂移3種情況,如表1所示。
表1 數(shù)據(jù)源描述
由于隱私保護(hù)等原因,目標(biāo)域獲得信息量少且精確,但不足以構(gòu)建目標(biāo)域概率密度函數(shù)。圖1(a)虛線(xiàn)顯示了均值為0、方差為1.1時(shí)目標(biāo)域真實(shí)概率密度分布圖,圖1(b)顯示了此種情況下目標(biāo)域自適應(yīng)學(xué)習(xí)效果圖。圖2將本文所提算法與另外3種訓(xùn)練方法進(jìn)行比較。
(a) 源域、目標(biāo)域概率密度分布圖
(b)自適應(yīng)學(xué)習(xí)效果圖 圖1 均值為0、方差為1.1自適應(yīng)學(xué)習(xí)效果圖 Fig.1 Charts of adaptive learning on the data set with mean 0, variance 1.1
(a)源域性能
(b)目標(biāo)域性能
(c)源域目標(biāo)域合并性能
(d)自適應(yīng)學(xué)習(xí)性能 圖2 原始圖像和退化仿真圖像 Fig.2 Performance comparison charts of different algorithms
表2列出了設(shè)置目標(biāo)域不同均值方差后各算法的性能。
表2 不同算法性能比較
生成均值為0、方差為1源域樣本10000個(gè),如圖1(a)所示,實(shí)線(xiàn)表示源域概率密度函數(shù)曲線(xiàn),使用核心集技術(shù)獲得源域的核心集由13個(gè)空心圓表示,源域知識(shí)只需知道模型參數(shù)和這13個(gè)樣本點(diǎn)即可獲得。虛線(xiàn)表示均值為0、方差為1.1的目標(biāo)域真實(shí)概率密度函數(shù)曲線(xiàn)。由圖1(a)可以看出,源域、目標(biāo)域分布近似但不相同。圖1(a)中5實(shí)點(diǎn)表示目標(biāo)域已知信息,為了體現(xiàn)數(shù)據(jù)隱私保護(hù)的目的,文中實(shí)驗(yàn)選取的5個(gè)樣本均在[-1,1]之外。點(diǎn)劃線(xiàn)表示由這5個(gè)點(diǎn)獲得的目標(biāo)域概率密度函數(shù)曲線(xiàn)。由圖可知,雖然已知信息精確,但信息過(guò)少不能反映目標(biāo)域真實(shí)概率密度分布。圖1(b)顯示了不同μ值自適應(yīng)學(xué)習(xí)效果圖,隨著μ值的增大,目標(biāo)域概率密度曲線(xiàn)向目標(biāo)域真實(shí)分布靠攏。此種自適應(yīng)學(xué)習(xí)的優(yōu)勢(shì)在于,既可保證目標(biāo)域已知信息精確表示,又可通過(guò)源域知識(shí)對(duì)未知信息進(jìn)行自適應(yīng)學(xué)習(xí),極大提高目標(biāo)域概率密度估計(jì)性能。
根據(jù)表2和圖 2,可給出如下的觀察:
1) 從表2可知,本文提出的DA-PDF算法充分利用目標(biāo)域已知信息的同時(shí),學(xué)習(xí)了源域知識(shí),較之于兩域各自訓(xùn)練、合并訓(xùn)練所得概率密度估計(jì)函數(shù)具有更好的性能。
2) 對(duì)圖2(a)可知,若直接使用源域概率密度估計(jì)函數(shù)對(duì)現(xiàn)有測(cè)試集進(jìn)行密度估計(jì),效果不理想,其原因在于目標(biāo)域與源域密度分布已發(fā)生變化(源域方差為1,目標(biāo)域方差為1.1),這種變化導(dǎo)致若繼續(xù)使用源域模型進(jìn)行預(yù)測(cè),其預(yù)測(cè)性能不好,無(wú)法達(dá)到與目標(biāo)域?qū)嶋H情況逼近的效果。
3) 對(duì)圖2(b)可知,由于在當(dāng)前場(chǎng)景下采集的數(shù)據(jù)數(shù)量較少,雖然這些數(shù)據(jù)真實(shí)可靠,但對(duì)于構(gòu)建整個(gè)概率密度估計(jì)函數(shù)信息量過(guò)少,故密度估計(jì)性能低下。
4) 對(duì)圖2(c)可知,使用源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)結(jié)合后生成的概率密度估計(jì)函數(shù),其性能提升不明顯。原因在于源域數(shù)據(jù)較之目標(biāo)域收集到的數(shù)據(jù),數(shù)據(jù)量大,因此在模型訓(xùn)練時(shí),其所占的比重也大,故得到的概率密度估計(jì)函數(shù)最終更偏向于源域數(shù)據(jù)所得模型。合并訓(xùn)練另一缺點(diǎn)是需要源域所有數(shù)據(jù)參與模型的建立,但一些高度機(jī)密的歷史數(shù)據(jù)通常難以獲取,若源域有數(shù)據(jù)隱私保護(hù)的需要,此種方法則無(wú)法實(shí)現(xiàn)。
5) 從圖2(d)可知:本文方法較之圖2(a)有更好的逼近效果;與圖2(b)相比,可利用源域知識(shí)較好地彌補(bǔ)目標(biāo)域信息不足的缺陷;與圖2(c)相比,不僅逼近程度有明顯改進(jìn),且本文方法只需要?dú)v史知識(shí)(歷史模型參數(shù))以及目標(biāo)域數(shù)據(jù),并不需要源域數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),因而在隱私保護(hù)方面也體現(xiàn)了較大優(yōu)勢(shì)。
3結(jié)束語(yǔ)
本文采用無(wú)偏置v-SVR對(duì)已知概率密度(x,y)對(duì)進(jìn)行概率密度函數(shù)建模,并證明無(wú)偏置v-SVR等價(jià)于CC-MEB且概率密度回歸函數(shù)可由CC-MEB中心點(diǎn)表示,以此為前提,提出中心點(diǎn)領(lǐng)域自適應(yīng)學(xué)習(xí)的概率密度估計(jì)函數(shù)建模思想,解決多領(lǐng)域相關(guān)聯(lián)且某一領(lǐng)域信息較少無(wú)法構(gòu)建概率密度函數(shù)的問(wèn)題。本文所提方法不需要大量源域數(shù)據(jù)的支持,僅是繼承歷史知識(shí)(源域中心點(diǎn)),且允許當(dāng)前領(lǐng)域信息較少,不但能夠根據(jù)歷史知識(shí)進(jìn)行當(dāng)前領(lǐng)域的信息補(bǔ)償,又能對(duì)源域數(shù)據(jù)進(jìn)行隱私保護(hù),這些特性是傳統(tǒng)概率密度估計(jì)方法所不具備的。通過(guò)合成數(shù)據(jù)的仿真實(shí)驗(yàn)表明本文方法較之于傳統(tǒng)方法具有更好的適應(yīng)性。
參考文獻(xiàn):
[1]VAPNIKVN.Statisticallearningtheory[M].NewYork:JohnWileyandSons, 1998: 35-41.
[2]吉根林, 姚瑤. 一種分布式隱私保護(hù)的密度聚類(lèi)算法[J].智能系統(tǒng)學(xué)報(bào), 2009, 4(2):137-141.
JIGenlin,YAOYao.Density-basedprivacypreservingdistributedclusteringalgorithm[J].CAAITransactionsonIntelligentSystems, 2009, 4(2):137-141.
[3]PARZENE.Onestimationofaprobabilitydensityfunctionandmode[J].TheAnnalsofMathematicalStatistics, 1962, 33(3): 1065-1076.
[4]GIROLAMIM,HEC.Probabilitydensityestimationfromoptimallycondenseddatasamples[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2003, 25 (10): 1253-1264.
[5]DENGZH,CHUNGFL,WANGST.FRSDE:Fastreducedsetdensityestimatorusingminimalenclosingballapproximation[J].PatternRecognition, 2008, 41(4):1363- 1372.
[6]TSANGIW,KWOKJT,ZURADAJM.Generalizedcorevectormachines[J].IEEETransactionsonNeuralNetworks, 2006, 17(5): 1126-1140.
[7]TSANGIW,KWOKJT,CHEUNGPM.Corevectormachines:fastSVMtrainingonverylargedatasets[J].JournalofMachineLearningResearch, 2005(6): 363-392.
[8]CHUCS,TSANGIW,KWOKJK.Scalingupsupportvectordatadescriptionbyusingcore-sets[C]//IEEEInternationalJointConferenceonNeuralNetworks.Budapest,Hungary: 2004: 425-430.
[9]許敏,王士同. 基于最小包含球的大數(shù)據(jù)集域自適應(yīng)快速算法[J]. 模式識(shí)別與人工智能, 2013, 26(2): 159-168.
XUMin,WANGShitong.Afastlearningalgorithmbasedonminimumenclosingballforlargedomainadaptation[J].PatternRecognitionandArtificialIntelligence, 2013, 26(2): 159-168.
許敏:女,1980年生,講師,博士,主要研究方向?yàn)槟J阶R(shí)別、人工智能。